(網(wǎng)經(jīng)社訊)12月8日消息,京東云近期對其JoyBuilder模型開發(fā)平臺進行了全面升級,該平臺現(xiàn)已能夠支持業(yè)界領先的GR00T N1.5模型的千卡規(guī)模訓練,并成為首個兼容具身智能千卡級LeRobot開源訓練框架的AI開發(fā)工具。升級后,平臺訓練效率較開源社區(qū)版本顯著提高3.5倍,這主要得益于軟硬件協(xié)同優(yōu)化與算法改進。例如,處理超過1億條數(shù)據(jù)的千卡訓練任務時間從原來的15小時大幅縮減至22分鐘,為具身智能技術的規(guī)模化應用奠定了基礎。
據(jù)網(wǎng)經(jīng)社云計算臺(CC.100EC.CN)了解,在技術優(yōu)化方面,京東云聚焦三個核心環(huán)節(jié):數(shù)據(jù)鏈路、模型計算和基礎設施。數(shù)據(jù)鏈路通過重構預處理流程,實現(xiàn)了CPU數(shù)據(jù)處理與GPU計算的異步執(zhí)行,減少了等待延遲;針對海量小文件,自研的高性能并行文件系統(tǒng)云海JPFS支持高并發(fā)訪問,在1024卡集群中讀取帶寬超過400GB/s,保障了數(shù)據(jù)供給的穩(wěn)定性。模型計算層面對主流的VLA(視覺-語言-動作)模型進行了多維度優(yōu)化,包括Attention層調(diào)整、Token裁剪和訓練后量化,全面提升了計算效率?;A設施上,通過構建3.2T RDMA后端網(wǎng)絡,并結合多軌道優(yōu)化與智能調(diào)度技術,確保了千卡集群通信的高吞吐和低延遲,同時云原生AI數(shù)據(jù)湖優(yōu)化了端到端處理流水線。
此外,平臺還支持LeRobot訓練數(shù)據(jù)的最新協(xié)議,解決了早期版本中數(shù)據(jù)加載的瓶頸問題,進一步強化了其作為行業(yè)首批千卡級開源訓練框架的支持能力。


































