日韩成人黄片电影|日本高清无码免费一区|久久草在线免费青青青av|91人人草人人操人人爽|亚洲AV成人Av|多人轮奸视频播放免费成人|91性生活电影日韩在线妻|国内日本欧美在线|日韩欧美图片区偷窥自拍|一区毛片电影无码成人国产

當(dāng)前位置:100EC>數(shù)字生活>美團發(fā)布 LongCat-Flash-Omni:全球首個實現(xiàn)大規(guī)模高效實時音視頻交互的開源全模態(tài)模型
美團發(fā)布 LongCat-Flash-Omni:全球首個實現(xiàn)大規(guī)模高效實時音視頻交互的開源全模態(tài)模型
網(wǎng)經(jīng)社發(fā)布時間:2025年11月03日 11:00:40

(網(wǎng)經(jīng)社訊)11月3日, LongCat-Flash系列再升級,全新家族成員LongCat-Flash-Omni正式發(fā)布并開源,LongCat官方App同步上線公測。目前,新App已支持聯(lián)網(wǎng)搜索、語音通話等功能,視頻通話等功能會稍后上線;Web端則增加圖片、文件上傳和語音通話等功能。

3f31baba04b212548e5368d624c7835b.png

據(jù)介紹,LongCat-Flash-Omni以LongCat-Flash系列的高效架構(gòu)設(shè)計為基礎(chǔ)(Shortcut-Connected MoE,含零計算專家),集成了高效多模態(tài)感知模塊與語音重建模塊,在總參數(shù) 5600 億(激活參數(shù) 270 億)的龐大參數(shù)規(guī)模下,仍實現(xiàn)低延遲的實時音視頻交互能力,為開發(fā)者的多模態(tài)應(yīng)用場景提供了更高效的技術(shù)選擇。

新模型也是業(yè)界首個實現(xiàn)“全模態(tài)覆蓋、端到端架構(gòu)、大參數(shù)量高效推理”于一體的開源大語言模型,首次在開源范疇內(nèi)實現(xiàn)了對標(biāo)閉源模型的全模態(tài)能力,并憑借創(chuàng)新的架構(gòu)設(shè)計與工程優(yōu)化,讓大參數(shù)模型在多模態(tài)任務(wù)中能實現(xiàn)毫秒級響應(yīng),解決行業(yè)內(nèi)推理延遲的痛點。

具體來看,LongCat-Flash-Omni在一體化框架中整合了離線多模態(tài)理解與實時音視頻交互能力,并采用完全端到端的設(shè)計,以視覺與音頻編碼器作為多模態(tài)感知器,由 LLM 直接處理輸入并生成文本與語音token,再通過輕量級音頻解碼器重建為自然語音波形,從而實現(xiàn)低延遲的實時交互。所有模塊均基于高效流式推理設(shè)計,視覺編碼器、音頻編解碼器均為輕量級組件,參數(shù)量均約為6億,延續(xù)了 LongCat-Flash 系列的創(chuàng)新型高效架構(gòu)設(shè)計,實現(xiàn)了性能與推理效率間的最優(yōu)平衡。

9e157026b9413f75e4934be41fed2a8f.png

▲LongCat-Flash-Omni模型架構(gòu)

與此同時,新模型突破“大參數(shù)規(guī)模與低延遲交互難以兼顧”的瓶頸,在大規(guī)模架構(gòu)基礎(chǔ)上實現(xiàn)高效實時音視頻交互:模型總參數(shù)達 5600 億(激活參數(shù) 270 億),卻依托 LongCat-Flash 系列創(chuàng)新的 ScMoE 架構(gòu)(含零計算專家)作為 LLM 骨干,結(jié)合高效多模態(tài)編解碼器和“分塊式音視頻特征交織機制”,最終實現(xiàn)低延遲、高質(zhì)量的音視頻處理與流式語音生成。模型可支持128K tokens上下文窗口及超 8 分鐘音視頻交互,在多模態(tài)長時記憶、多輪對話、時序推理等能力上具有優(yōu)勢。

全模態(tài)模型訓(xùn)練的核心挑戰(zhàn)之一是 “不同模態(tài)的數(shù)據(jù)分布存在顯著異質(zhì)性”,LongCat-Flash-Omni采用漸進式早期多模融合訓(xùn)練策略,在平衡數(shù)據(jù)策略與早期融合訓(xùn)練范式下,逐步融入文本、音頻、視頻等模態(tài),確保全模態(tài)性能強勁且無任何單模態(tài)性能退化。

0c9e83b5d351aecfaf91c400183c6bfe.png

綜合評估結(jié)果表明,LongCat-Flash-Omni在綜合性的全模態(tài)基準(zhǔn)測試(如Omni-Bench, WorldSense)上達到了開源最先進水平(SOTA),并在文本、圖像、音頻、視頻等各項模態(tài)的能力位居開源模型前列,實現(xiàn)“全模態(tài)不降智”的結(jié)果:

8184ced141035bc27a42000238eab82d.png

▲LongCat-Flash-Omni 的基準(zhǔn)測試性能

文本:LongCat-Flash-Omni 延續(xù)了該系列卓越的文本基礎(chǔ)能力,且在多領(lǐng)域均呈現(xiàn)領(lǐng)先性能。相較于 LongCat-Flash 系列早期版本,該模型不僅未出現(xiàn)文本能力的衰減,反而在部分領(lǐng)域?qū)崿F(xiàn)了性能提升。這一結(jié)果不僅印證了該團隊訓(xùn)練策略的有效性,更凸顯出全模態(tài)模型訓(xùn)練中不同模態(tài)間的潛在協(xié)同價值。

圖像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)與閉源全模態(tài)模型 Gemini-2.5-Pro 相當(dāng),且優(yōu)于開源模型 Qwen3-Omni;多圖像任務(wù)優(yōu)勢尤為顯著,核心得益于高質(zhì)量交織圖文、多圖像及視頻數(shù)據(jù)集上的訓(xùn)練成果。

音頻能力:從自動語音識別(ASR)、文本到語音(TTS)、語音續(xù)寫維度進行評估,Instruct Model 層面表現(xiàn)突出:ASR 在 LibriSpeech、AISHELL-1 等數(shù)據(jù)集上優(yōu)于 Gemini-2.5-Pro;語音到文本翻譯(S2TT)在 CoVost2 表現(xiàn)強勁;音頻理解在 TUT2017、Nonspeech7k 等任務(wù)達當(dāng)前最優(yōu);音頻到文本對話在 OpenAudioBench、VoiceBench 表現(xiàn)優(yōu)異,實時音視頻交互評分接近閉源模型,類人性指標(biāo)優(yōu)于 GPT-4o,實現(xiàn)基礎(chǔ)能力到實用交互的高效轉(zhuǎn)化。

視頻理解:LongCat-Flash-Omni 視頻到文本任務(wù)性能達當(dāng)前最優(yōu),短視頻理解大幅優(yōu)于現(xiàn)有參評模型,長視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL,這得益于動態(tài)幀采樣、分層令牌聚合的視頻處理策略,及高效骨干網(wǎng)絡(luò)對長上下文的支持。

跨模態(tài)理解:性能優(yōu)于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真實世界音視頻理解WorldSense 基準(zhǔn)測試上,相較其他開源全模態(tài)模型展現(xiàn)出顯著的性能優(yōu)勢,印證其高效的多模態(tài)融合能力,是當(dāng)前綜合能力領(lǐng)先的開源全模態(tài)模型。

2f5be0d75595c926efa47d29c19dfd7c.png

端到端交互:由于目前行業(yè)內(nèi)尚未有成熟的實時多模態(tài)交互評估體系,LongCat團隊構(gòu)建了一套專屬的端到端評測方案,該方案由定量用戶評分(250 名用戶評分)與定性專家分析(10 名專家,200 個對話樣本)組成。定量結(jié)果顯示:圍繞端到端交互的自然度與流暢度,LongCat-Flash-Omni 在開源模型中展現(xiàn)出顯著優(yōu)勢 —— 其評分比當(dāng)前最優(yōu)開源模型 Qwen3-Omni 高出 0.56 分;定性結(jié)果顯示:LongCat-Flash-Omni 在副語言理解、相關(guān)性與記憶能力三個維度與頂級模型持平,但是在實時性、類人性與準(zhǔn)確性三個維度仍存在差距,也將在未來工作中進一步優(yōu)化。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國領(lǐng)先的數(shù)字經(jīng)濟新媒體、服務(wù)商,提供“媒體+智庫”、“會員+孵化”服務(wù);(1)面向電商平臺、頭部服務(wù)商等PR條線提供媒體傳播服務(wù);(2)面向各類企事業(yè)單位、政府部門、培訓(xùn)機構(gòu)、電商平臺等提供智庫服務(wù);(3)面向各類電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬商”生態(tài)圈服務(wù);(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費注冊體驗全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴格注明來源網(wǎng)經(jīng)社;同時,我們倡導(dǎo)尊重與保護知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實、處理。

        平臺名稱
        平臺回復(fù)率
        回復(fù)時效性
        用戶滿意度
          微信公眾號
          微信二維碼 打開微信“掃一掃”
          微信小程序
          小程序二維碼 打開微信“掃一掃”