(網(wǎng)經(jīng)社訊)9月22日,美團(tuán)高效推理模型 LongCat-Flash-Thinking正式發(fā)布。新模型除保持龍貓模型一貫“快”的特點(diǎn)同時,在邏輯、數(shù)學(xué)、代碼、智能體等多個領(lǐng)域的推理任務(wù)中,也達(dá)到了全球開源模型的最先進(jìn)水平(SOTA),部分任務(wù)性能接近閉源模型GPT5-Thinking。
據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(B2B.100EC.CN)了解,LongCat-Flash-Thinking增強(qiáng)了智能體自主調(diào)用工具的能力,并擴(kuò)展了形式化定理證明能力,成為國內(nèi)首個同時具備“深度思考+工具調(diào)用”與“非形式化+形式化”推理能力相結(jié)合的大語言模型。該團(tuán)隊(duì)還表示,尤其在高復(fù)雜度的任務(wù)(如數(shù)學(xué)、代碼、智能體任務(wù))處理上,新模型具備顯著優(yōu)勢。
目前, LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網(wǎng)可體驗(yàn)。
新模型又快又省 AIME25使用工具Token消耗較其他模型省64.5%
據(jù)了解,新模型主要通過創(chuàng)新架構(gòu)等方式實(shí)現(xiàn)了高效推理與穩(wěn)定訓(xùn)練的結(jié)果。具體來看:
為了解決強(qiáng)化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問題,美團(tuán)LongCat團(tuán)隊(duì)設(shè)計(jì)了一種領(lǐng)域并行方案,將STEM、代碼和智能體任務(wù)的優(yōu)化過程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進(jìn)策略,實(shí)現(xiàn)模型能力的均衡提升,綜合性能達(dá)到帕累托最優(yōu)(Pareto-optimal)。

圖1:LongCat-Flash-Thinking 的訓(xùn)練流程(資料圖)
新模型訓(xùn)練的基石是異步彈性共卡系統(tǒng)(Dynamic Orchestration for Asynchronous Rollout)。該系統(tǒng)通過彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計(jì),在實(shí)現(xiàn)相較于同步RL訓(xùn)練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統(tǒng)進(jìn)一步實(shí)現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬卡規(guī)模集群的穩(wěn)定運(yùn)行。值得一提的是,在大規(guī)模異步強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練階段,F(xiàn)LOPs(Floating Point Operations)的投入約為預(yù)訓(xùn)練階段的20%,為模型性能提升提供了堅(jiān)實(shí)的算力保障。
此外,美團(tuán)LongCat團(tuán)隊(duì)設(shè)計(jì)了全新的“雙路徑推理框架”以提升模型的智能體能力。
該框架能夠自主篩選最優(yōu)查詢樣本,并通過自動化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識別并調(diào)用外部工具(如代碼執(zhí)行器、API等),從而高效解決復(fù)雜任務(wù)?;贏IME25實(shí)測數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保90%準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過程的資源利用率。
為了克服當(dāng)前開源通用大型語言模型在形式化證明任務(wù)中的不足,團(tuán)隊(duì)還針對形式化推理設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法。該流程利用集成了 Lean4 服務(wù)器的專家迭代框架,生成經(jīng)過嚴(yán)格驗(yàn)證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強(qiáng)了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。
專注高復(fù)雜度任務(wù) “快”模型刷新多項(xiàng)權(quán)威評測紀(jì)錄
值得關(guān)注的是,LongCat-Flash-Chat于本月1日開源,一經(jīng)發(fā)布就因“快”的體驗(yàn)引發(fā)了市場廣泛關(guān)注和討論,不少業(yè)內(nèi)人士稱其為“最快的大參數(shù)模型”。
LongCat-Flash-Thinking繼承了“快”的特點(diǎn),并在邏輯、數(shù)學(xué)、代碼、智能體等領(lǐng)域的多項(xiàng)權(quán)威評測中刷新紀(jì)錄,展現(xiàn)出“理科學(xué)霸”的新特點(diǎn):

圖2:LongCat-Flash-Thinking在推理基準(zhǔn)測試上的平均性能比較(資料圖)
通用推理能力:模型在需要結(jié)構(gòu)化邏輯的任務(wù)中表現(xiàn)突出,ARC-AGI基準(zhǔn)測試中以50.3分超過OpenAI o3、Gemini-2.5 Pro等閉源模型,表現(xiàn)出優(yōu)異的通用推理能力。
數(shù)學(xué)能力:在數(shù)學(xué)推理方面,也已躋身當(dāng)前頂尖模型行列,并且在更具挑戰(zhàn)性的基準(zhǔn)測試中優(yōu)勢更加明顯——在HMMT和AIME相關(guān)基準(zhǔn)上取得突破性成績,超越OpenAI o3 ,這也證明了新模型解決復(fù)雜、多步驟問題的水平。
代碼能力:在編程領(lǐng)域,LongCat-Flash-Thinking展現(xiàn)出開源模型最先進(jìn)的性能(SOTA)與綜合實(shí)力。在LiveCodeBench上以 79.4 分顯著超越其他參與評估的開源模型,并與閉源模型GPT-5表現(xiàn)相當(dāng),證明其解決高難度編程競賽問題的優(yōu)秀能力。在OJBench基準(zhǔn)測試中也以40.7的得分保持競爭力,接近Gemini-2.5 Pro的水平。
智能體能力:LongCat-Flash-Thinking 在復(fù)雜的、工具增強(qiáng)型推理(tool-augmented reasoning)方面表現(xiàn)同樣突出,并在智能體工具調(diào)用(agentic tool using)上有不錯表現(xiàn)。其在 τ2-Bench-Airline 上以 67.5分 刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準(zhǔn)測試中排名居前。
ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準(zhǔn)中的pass@1 獲得67.6的高分,領(lǐng)先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領(lǐng)先優(yōu)勢。新模型在生成結(jié)構(gòu)化證明和形式化數(shù)學(xué)推理方面具有優(yōu)勢。


































