(網(wǎng)經(jīng)社訊)10月14日,螞蟻集團(tuán)正式推出并開(kāi)源了其萬(wàn)億參數(shù)思考模型Ring-1T,包括模型權(quán)重與訓(xùn)練配方。該模型是在2025年9月30日開(kāi)源的預(yù)覽版Ring-1T-preview基礎(chǔ)上進(jìn)一步優(yōu)化的成果,通過(guò)擴(kuò)展大規(guī)??沈?yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)訓(xùn)練增強(qiáng)了自然語(yǔ)言推理能力,并結(jié)合人類反饋強(qiáng)化學(xué)習(xí)(RLHF)提升了模型的通用性能,使其在多任務(wù)評(píng)估中表現(xiàn)更為均衡。
據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(tái)(B2B.100EC.CN)獲悉,Ring-1T基于Ling 2.0架構(gòu),總參數(shù)量達(dá)到1萬(wàn)億,激活參數(shù)為500億,支持128K上下文長(zhǎng)度。在技術(shù)實(shí)現(xiàn)上,螞蟻采用了自研的“棒冰(icepop)”算法以控制訓(xùn)練和推理階段的精度差異,保障了長(zhǎng)序列訓(xùn)練的穩(wěn)定性;同時(shí),其高性能強(qiáng)化學(xué)習(xí)系統(tǒng)ASystem優(yōu)化了顯存管理和權(quán)重交換,實(shí)現(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí)的日?;€(wěn)定訓(xùn)練。
在多項(xiàng)權(quán)威測(cè)試中,Ring-1T展現(xiàn)出領(lǐng)先水平。例如,在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO2025)的解題測(cè)試中,該模型一次解出第1、3、4、5題,達(dá)到銀牌水平,成為首個(gè)能達(dá)到國(guó)際奧數(shù)獎(jiǎng)項(xiàng)級(jí)別的開(kāi)源系統(tǒng)。在人類偏好對(duì)齊測(cè)試Arena-Hard V2中,它以81.59%的成功率位居開(kāi)源模型榜首,成績(jī)接近GPT-5-Thinking(High)的82.91%。在醫(yī)療問(wèn)答基準(zhǔn)HealthBench中,Ring-1T也取得了開(kāi)源模型中的最高分。
目前,Ring-1T已在Hugging Face、魔搭社區(qū)等平臺(tái)開(kāi)源,用戶可下載模型或通過(guò)螞蟻百寶箱進(jìn)行在線體驗(yàn)。至此,螞蟻百靈大模型已發(fā)布18款模型,參數(shù)范圍從160億到1萬(wàn)億,形成了包括通用語(yǔ)言模型Ling-1T和思考模型Ring-1T在內(nèi)的產(chǎn)品矩陣,標(biāo)志著其大模型進(jìn)入2.0階段。


































