99久久精品国产精品,视频无码一区二区mt

當前位置：100EC>產業(yè)數(shù)字化>美團發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復雜度任務

美團發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復雜度任務

作者：來源：網(wǎng)經社發(fā)布時間：2025年09月22日 15:48:05

(網(wǎng)經社訊)9月22日，美團高效推理模型 LongCat-Flash-Thinking正式發(fā)布。新模型除保持龍貓模型一貫“快”的特點同時，在邏輯、數(shù)學、代碼、智能體等多個領域的推理任務中，也達到了全球開源模型的最先進水平（SOTA），部分任務性能接近閉源模型GPT5-Thinking。

據(jù)網(wǎng)經社產業(yè)電商臺（B2B.100EC.CN）了解，LongCat-Flash-Thinking增強了智能體自主調用工具的能力，并擴展了形式化定理證明能力，成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。該團隊還表示，尤其在高復雜度的任務（如數(shù)學、代碼、智能體任務）處理上，新模型具備顯著優(yōu)勢。

目前， LongCat-Flash-Thinking已在HuggingFace、Github全面開源，并在官網(wǎng)可體驗。

新模型又快又省 AIME25使用工具Token消耗較其他模型省64.5%

據(jù)了解，新模型主要通過創(chuàng)新架構等方式實現(xiàn)了高效推理與穩(wěn)定訓練的結果。具體來看：

為了解決強化學習領域混合訓練的穩(wěn)定性問題，美團LongCat團隊設計了一種領域并行方案，將STEM、代碼和智能體任務的優(yōu)化過程解耦。這一方法采用了多領域并行訓練再融合的先進策略，實現(xiàn)模型能力的均衡提升，綜合性能達到帕累托最優(yōu)（Pareto-optimal）。

圖1：LongCat-Flash-Thinking 的訓練流程（資料圖）

新模型訓練的基石是異步彈性共卡系統(tǒng)（Dynamic Orchestration for Asynchronous Rollout）。該系統(tǒng)通過彈性共卡調度（Elastic Colocation）與多版本異步流水線（Multi-Version Asynchronous Pipeline）設計，在實現(xiàn)相較于同步RL訓練框架三倍提速的同時，確保了每條樣本的策略一致性。同時，系統(tǒng)進一步實現(xiàn)了高效的 KV 緩存復用，能夠支撐萬卡規(guī)模集群的穩(wěn)定運行。值得一提的是，在大規(guī)模異步強化學習（RL）訓練階段，F(xiàn)LOPs（Floating Point Operations）的投入約為預訓練階段的20%，為模型性能提升提供了堅實的算力保障。

此外，美團LongCat團隊設計了全新的“雙路徑推理框架”以提升模型的智能體能力。

該框架能夠自主篩選最優(yōu)查詢樣本，并通過自動化流程將智能體推理與工具使用相結合，使模型能夠智能識別并調用外部工具（如代碼執(zhí)行器、API等），從而高效解決復雜任務?；贏IME25實測數(shù)據(jù)，LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調用（Agentic Tool Use）能力，在確保90%準確率的前提下，相較于不使用工具調用節(jié)省了64.5%的Tokens（從19653到6965），顯著優(yōu)化了推理過程的資源利用率。

為了克服當前開源通用大型語言模型在形式化證明任務中的不足，團隊還針對形式化推理設計了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法。該流程利用集成了 Lean4 服務器的專家迭代框架，生成經過嚴格驗證的證明過程，從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強了模型的形式化推理能力，提高了其在學術和工程應用中的可靠性。

專注高復雜度任務 “快”模型刷新多項權威評測紀錄

值得關注的是，LongCat-Flash-Chat于本月1日開源，一經發(fā)布就因“快”的體驗引發(fā)了市場廣泛關注和討論，不少業(yè)內人士稱其為“最快的大參數(shù)模型”。

LongCat-Flash-Thinking繼承了“快”的特點，并在邏輯、數(shù)學、代碼、智能體等領域的多項權威評測中刷新紀錄，展現(xiàn)出“理科學霸”的新特點：

圖2：LongCat-Flash-Thinking在推理基準測試上的平均性能比較（資料圖）

通用推理能力：模型在需要結構化邏輯的任務中表現(xiàn)突出，ARC-AGI基準測試中以50.3分超過OpenAI o3、Gemini-2.5 Pro等閉源模型，表現(xiàn)出優(yōu)異的通用推理能力。

數(shù)學能力：在數(shù)學推理方面，也已躋身當前頂尖模型行列，并且在更具挑戰(zhàn)性的基準測試中優(yōu)勢更加明顯——在HMMT和AIME相關基準上取得突破性成績，超越OpenAI o3 ，這也證明了新模型解決復雜、多步驟問題的水平。

代碼能力：在編程領域，LongCat-Flash-Thinking展現(xiàn)出開源模型最先進的性能（SOTA）與綜合實力。在LiveCodeBench上以 79.4 分顯著超越其他參與評估的開源模型，并與閉源模型GPT-5表現(xiàn)相當，證明其解決高難度編程競賽問題的優(yōu)秀能力。在OJBench基準測試中也以40.7的得分保持競爭力，接近Gemini-2.5 Pro的水平。

智能體能力：LongCat-Flash-Thinking 在復雜的、工具增強型推理（tool-augmented reasoning）方面表現(xiàn)同樣突出，并在智能體工具調用（agentic tool using）上有不錯表現(xiàn)。其在 τ2-Bench-Airline 上以 67.5分刷新開源SOTA成績，并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中排名居前。

ATP形式推理能力：LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1 獲得67.6的高分，領先所有其他參與評估的模型，在pass@8和pass@32中同樣保持了領先優(yōu)勢。新模型在生成結構化證明和形式化數(shù)學推理方面具有優(yōu)勢。

浙江網(wǎng)經社信息科技公司擁有18年歷史，作為中國領先的數(shù)字經濟新媒體、服務商，提供“媒體+智庫”、“會員+孵化”服務；（1）面向電商平臺、頭部服務商等PR條線提供媒體傳播服務；（2）面向各類企事業(yè)單位、政府部門、培訓機構、電商平臺等提供智庫服務；（3）面向各類電商渠道方、品牌方、商家、供應鏈公司等提供“千電萬商”生態(tài)圈服務；（4）面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務。

網(wǎng)經社“電數(shù)寶”電商大數(shù)據(jù)庫（DATA.100EC.CN，免費注冊體驗全庫）基于電商行業(yè)18年沉淀，包含100+上市公司、新三板公司數(shù)據(jù)，150+獨角獸、200+千里馬公司數(shù)據(jù)，4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù)，全面覆蓋“頭部+腰部+長尾”電商，旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè)，挖掘行業(yè)市場潛力，助力企業(yè)決策，做電商人研究、決策的“好參謀”。