日韩成人黄片电影|日本高清无码免费一区|久久草在线免费青青青av|91人人草人人操人人爽|亚洲AV成人Av|多人轮奸视频播放免费成人|91性生活电影日韩在线妻|国内日本欧美在线|日韩欧美图片区偷窥自拍|一区毛片电影无码成人国产

當前位置:100EC>產業(yè)數(shù)字化>美團發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復雜度任務
美團發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復雜度任務
網(wǎng)經社發(fā)布時間:2025年09月22日 15:48:05

(網(wǎng)經社訊)9月22日,美團高效推理模型 LongCat-Flash-Thinking正式發(fā)布。新模型除保持龍貓模型一貫“快”的特點同時,在邏輯、數(shù)學、代碼、智能體等多個領域的推理任務中,也達到了全球開源模型的最先進水平(SOTA),部分任務性能接近閉源模型GPT5-Thinking。

據(jù)網(wǎng)經社產業(yè)電商臺(B2B.100EC.CN)了解,LongCat-Flash-Thinking增強了智能體自主調用工具的能力,并擴展了形式化定理證明能力,成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。該團隊還表示,尤其在高復雜度的任務(如數(shù)學、代碼、智能體任務)處理上,新模型具備顯著優(yōu)勢。

目前, LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網(wǎng)可體驗。

新模型又快又省 AIME25使用工具Token消耗較其他模型省64.5%

據(jù)了解,新模型主要通過創(chuàng)新架構等方式實現(xiàn)了高效推理與穩(wěn)定訓練的結果。具體來看:

為了解決強化學習領域混合訓練的穩(wěn)定性問題,美團LongCat團隊設計了一種領域并行方案,將STEM、代碼和智能體任務的優(yōu)化過程解耦。這一方法采用了多領域并行訓練再融合的先進策略,實現(xiàn)模型能力的均衡提升,綜合性能達到帕累托最優(yōu)(Pareto-optimal)。

image.png

圖1:LongCat-Flash-Thinking 的訓練流程(資料圖)

新模型訓練的基石是異步彈性共卡系統(tǒng)(Dynamic Orchestration for Asynchronous Rollout)。該系統(tǒng)通過彈性共卡調度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設計,在實現(xiàn)相較于同步RL訓練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統(tǒng)進一步實現(xiàn)了高效的 KV 緩存復用,能夠支撐萬卡規(guī)模集群的穩(wěn)定運行。值得一提的是,在大規(guī)模異步強化學習(RL)訓練階段,F(xiàn)LOPs(Floating Point Operations)的投入約為預訓練階段的20%,為模型性能提升提供了堅實的算力保障。

此外,美團LongCat團隊設計了全新的“雙路徑推理框架”以提升模型的智能體能力。

該框架能夠自主篩選最優(yōu)查詢樣本,并通過自動化流程將智能體推理與工具使用相結合,使模型能夠智能識別并調用外部工具(如代碼執(zhí)行器、API等),從而高效解決復雜任務?;贏IME25實測數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調用(Agentic Tool Use)能力,在確保90%準確率的前提下,相較于不使用工具調用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過程的資源利用率。

為了克服當前開源通用大型語言模型在形式化證明任務中的不足,團隊還針對形式化推理設計了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法。該流程利用集成了 Lean4 服務器的專家迭代框架,生成經過嚴格驗證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強了模型的形式化推理能力,提高了其在學術和工程應用中的可靠性。

專注高復雜度任務 “快”模型刷新多項權威評測紀錄

值得關注的是,LongCat-Flash-Chat于本月1日開源,一經發(fā)布就因“快”的體驗引發(fā)了市場廣泛關注和討論,不少業(yè)內人士稱其為“最快的大參數(shù)模型”。

LongCat-Flash-Thinking繼承了“快”的特點,并在邏輯、數(shù)學、代碼、智能體等領域的多項權威評測中刷新紀錄,展現(xiàn)出“理科學霸”的新特點:

image.png

圖2:LongCat-Flash-Thinking在推理基準測試上的平均性能比較(資料圖)

通用推理能力:模型在需要結構化邏輯的任務中表現(xiàn)突出,ARC-AGI基準測試中以50.3分超過OpenAI o3、Gemini-2.5 Pro等閉源模型,表現(xiàn)出優(yōu)異的通用推理能力。

數(shù)學能力:在數(shù)學推理方面,也已躋身當前頂尖模型行列,并且在更具挑戰(zhàn)性的基準測試中優(yōu)勢更加明顯——在HMMT和AIME相關基準上取得突破性成績,超越OpenAI o3 ,這也證明了新模型解決復雜、多步驟問題的水平。

代碼能力:編程領域,LongCat-Flash-Thinking展現(xiàn)出開源模型最先進的性能(SOTA)與綜合實力。在LiveCodeBench上以 79.4 分顯著超越其他參與評估的開源模型,并與閉源模型GPT-5表現(xiàn)相當,證明其解決高難度編程競賽問題的優(yōu)秀能力。在OJBench基準測試中也以40.7的得分保持競爭力,接近Gemini-2.5 Pro的水平。

智能體能力:LongCat-Flash-Thinking 在復雜的、工具增強型推理(tool-augmented reasoning)方面表現(xiàn)同樣突出,并在智能體工具調用(agentic tool using)上有不錯表現(xiàn)。其在 τ2-Bench-Airline 上以 67.5分 刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中排名居前。

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1 獲得67.6的高分,領先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領先優(yōu)勢。新模型在生成結構化證明和形式化數(shù)學推理方面具有優(yōu)勢。

浙江網(wǎng)經社信息科技公司擁有18年歷史,作為中國領先的數(shù)字經濟新媒體、服務商,提供“媒體+智庫”、“會員+孵化”服務;(1)面向電商平臺、頭部服務商等PR條線提供媒體傳播服務;(2)面向各類企事業(yè)單位、政府部門、培訓機構、電商平臺等提供智庫服務;(3)面向各類電商渠道方、品牌方、商家、供應鏈公司等提供“千電萬商”生態(tài)圈服務;(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務。

網(wǎng)經社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費注冊體驗全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【版權聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經社歡迎各方(自)媒體、機構轉載、引用我們原創(chuàng)內容,但要嚴格注明來源網(wǎng)經社;同時,我們倡導尊重與保護知識產權,如發(fā)現(xiàn)本站文章存在版權問題,煩請將版權疑問、授權證明、版權證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實、處理。

        平臺名稱
        平臺回復率
        回復時效性
        用戶滿意度
          微信公眾號
          微信二維碼 打開微信“掃一掃”
          微信小程序
          小程序二維碼 打開微信“掃一掃”