(網(wǎng)經(jīng)社訊)12月8日消息,京東云近期對(duì)其JoyBuilder模型開(kāi)發(fā)平臺(tái)進(jìn)行了全面升級(jí),該平臺(tái)現(xiàn)已能夠支持業(yè)界領(lǐng)先的GR00T N1.5模型的千卡規(guī)模訓(xùn)練,并成為首個(gè)兼容具身智能千卡級(jí)LeRobot開(kāi)源訓(xùn)練框架的AI開(kāi)發(fā)工具。升級(jí)后,平臺(tái)訓(xùn)練效率較開(kāi)源社區(qū)版本顯著提高3.5倍,這主要得益于軟硬件協(xié)同優(yōu)化與算法改進(jìn)。例如,處理超過(guò)1億條數(shù)據(jù)的千卡訓(xùn)練任務(wù)時(shí)間從原來(lái)的15小時(shí)大幅縮減至22分鐘,為具身智能技術(shù)的規(guī)?;瘧?yīng)用奠定了基礎(chǔ)。
據(jù)網(wǎng)經(jīng)社云計(jì)算臺(tái)(CC.100EC.CN)了解,在技術(shù)優(yōu)化方面,京東云聚焦三個(gè)核心環(huán)節(jié):數(shù)據(jù)鏈路、模型計(jì)算和基礎(chǔ)設(shè)施。數(shù)據(jù)鏈路通過(guò)重構(gòu)預(yù)處理流程,實(shí)現(xiàn)了CPU數(shù)據(jù)處理與GPU計(jì)算的異步執(zhí)行,減少了等待延遲;針對(duì)海量小文件,自研的高性能并行文件系統(tǒng)云海JPFS支持高并發(fā)訪(fǎng)問(wèn),在1024卡集群中讀取帶寬超過(guò)400GB/s,保障了數(shù)據(jù)供給的穩(wěn)定性。模型計(jì)算層面對(duì)主流的VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型進(jìn)行了多維度優(yōu)化,包括Attention層調(diào)整、Token裁剪和訓(xùn)練后量化,全面提升了計(jì)算效率?;A(chǔ)設(shè)施上,通過(guò)構(gòu)建3.2T RDMA后端網(wǎng)絡(luò),并結(jié)合多軌道優(yōu)化與智能調(diào)度技術(shù),確保了千卡集群通信的高吞吐和低延遲,同時(shí)云原生AI數(shù)據(jù)湖優(yōu)化了端到端處理流水線(xiàn)。
此外,平臺(tái)還支持LeRobot訓(xùn)練數(shù)據(jù)的最新協(xié)議,解決了早期版本中數(shù)據(jù)加載的瓶頸問(wèn)題,進(jìn)一步強(qiáng)化了其作為行業(yè)首批千卡級(jí)開(kāi)源訓(xùn)練框架的支持能力。


































