(網(wǎng)經社訊)9月22日,美團高效推理模型 LongCat-Flash-Thinking正式發(fā)布。新模型除保持龍貓模型一貫“快”的特點同時,在邏輯、數(shù)學、代碼、智能體等多個領域的推理任務中,也達到了全球開源模型的最先進水平(SOTA),部分任務性能接近閉源模型GPT5-Thinking。
據(jù)網(wǎng)經社產業(yè)電商臺(B2B.100EC.CN)了解,LongCat-Flash-Thinking增強了智能體自主調用工具的能力,并擴展了形式化定理證明能力,成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。該團隊還表示,尤其在高復雜度的任務(如數(shù)學、代碼、智能體任務)處理上,新模型具備顯著優(yōu)勢。
目前, LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網(wǎng)可體驗。
新模型又快又省 AIME25使用工具Token消耗較其他模型省64.5%
據(jù)了解,新模型主要通過創(chuàng)新架構等方式實現(xiàn)了高效推理與穩(wěn)定訓練的結果。具體來看:
為了解決強化學習領域混合訓練的穩(wěn)定性問題,美團LongCat團隊設計了一種領域并行方案,將STEM、代碼和智能體任務的優(yōu)化過程解耦。這一方法采用了多領域并行訓練再融合的先進策略,實現(xiàn)模型能力的均衡提升,綜合性能達到帕累托最優(yōu)(Pareto-optimal)。

圖1:LongCat-Flash-Thinking 的訓練流程(資料圖)
新模型訓練的基石是異步彈性共卡系統(tǒng)(Dynamic Orchestration for Asynchronous Rollout)。該系統(tǒng)通過彈性共卡調度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設計,在實現(xiàn)相較于同步RL訓練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統(tǒng)進一步實現(xiàn)了高效的 KV 緩存復用,能夠支撐萬卡規(guī)模集群的穩(wěn)定運行。值得一提的是,在大規(guī)模異步強化學習(RL)訓練階段,F(xiàn)LOPs(Floating Point Operations)的投入約為預訓練階段的20%,為模型性能提升提供了堅實的算力保障。
此外,美團LongCat團隊設計了全新的“雙路徑推理框架”以提升模型的智能體能力。
該框架能夠自主篩選最優(yōu)查詢樣本,并通過自動化流程將智能體推理與工具使用相結合,使模型能夠智能識別并調用外部工具(如代碼執(zhí)行器、API等),從而高效解決復雜任務?;贏IME25實測數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調用(Agentic Tool Use)能力,在確保90%準確率的前提下,相較于不使用工具調用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過程的資源利用率。
為了克服當前開源通用大型語言模型在形式化證明任務中的不足,團隊還針對形式化推理設計了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法。該流程利用集成了 Lean4 服務器的專家迭代框架,生成經過嚴格驗證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強了模型的形式化推理能力,提高了其在學術和工程應用中的可靠性。
專注高復雜度任務 “快”模型刷新多項權威評測紀錄
值得關注的是,LongCat-Flash-Chat于本月1日開源,一經發(fā)布就因“快”的體驗引發(fā)了市場廣泛關注和討論,不少業(yè)內人士稱其為“最快的大參數(shù)模型”。
LongCat-Flash-Thinking繼承了“快”的特點,并在邏輯、數(shù)學、代碼、智能體等領域的多項權威評測中刷新紀錄,展現(xiàn)出“理科學霸”的新特點:

圖2:LongCat-Flash-Thinking在推理基準測試上的平均性能比較(資料圖)
通用推理能力:模型在需要結構化邏輯的任務中表現(xiàn)突出,ARC-AGI基準測試中以50.3分超過OpenAI o3、Gemini-2.5 Pro等閉源模型,表現(xiàn)出優(yōu)異的通用推理能力。
數(shù)學能力:在數(shù)學推理方面,也已躋身當前頂尖模型行列,并且在更具挑戰(zhàn)性的基準測試中優(yōu)勢更加明顯——在HMMT和AIME相關基準上取得突破性成績,超越OpenAI o3 ,這也證明了新模型解決復雜、多步驟問題的水平。
代碼能力:在編程領域,LongCat-Flash-Thinking展現(xiàn)出開源模型最先進的性能(SOTA)與綜合實力。在LiveCodeBench上以 79.4 分顯著超越其他參與評估的開源模型,并與閉源模型GPT-5表現(xiàn)相當,證明其解決高難度編程競賽問題的優(yōu)秀能力。在OJBench基準測試中也以40.7的得分保持競爭力,接近Gemini-2.5 Pro的水平。
智能體能力:LongCat-Flash-Thinking 在復雜的、工具增強型推理(tool-augmented reasoning)方面表現(xiàn)同樣突出,并在智能體工具調用(agentic tool using)上有不錯表現(xiàn)。其在 τ2-Bench-Airline 上以 67.5分 刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中排名居前。
ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1 獲得67.6的高分,領先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領先優(yōu)勢。新模型在生成結構化證明和形式化數(shù)學推理方面具有優(yōu)勢。


































