(網(wǎng)經(jīng)社訊)10月14日,騰訊優(yōu)圖實驗室正式開源了其通用文本表示模型Youtu-Embedding。該模型專為企業(yè)級應用設計,參數(shù)規(guī)模達20億,支持文本檢索、意圖理解、相似度判斷、分類聚類及重排序等六類核心自然語言處理任務。
據(jù)網(wǎng)經(jīng)社云計算臺(CC.100EC.CN)了解,Youtu-Embedding通過三階段訓練流程提升模型性能:首先進行大規(guī)?;A預訓練,使用3萬億中英文Token語料夯實語言理解基礎;隨后采用弱監(jiān)督對齊技術,使模型能夠辨識語義相近但表述不同的文本;最后通過協(xié)同-判別式微調(diào)框架,結(jié)合統(tǒng)一數(shù)據(jù)格式、任務專屬損失函數(shù)和動態(tài)采樣機制,有效解決了多任務訓練中的負遷移問題。
在技術評測方面,該模型在中文文本嵌入基準CMTEB上以77.46的綜合得分位居榜首(截至2025年9月),在檢索、分類、聚類等細分任務中均展現(xiàn)出領先性能。模型特別適用于RAG(檢索增強生成)系統(tǒng)、智能客服和知識管理場景,能有效提升語義匹配準確率并減少大模型幻覺現(xiàn)象。
目前,模型權(quán)重、推理代碼及完整訓練框架已在GitHub和Hugging Face平臺開源,支持本地部署與云端API調(diào)用兩種方式,可集成至LangChain、LlamaIndex等主流開發(fā)框架。
浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國領先的數(shù)字經(jīng)濟新媒體、服務商,提供“媒體+智庫”、“會員+孵化”服務;(1)面向電商平臺、頭部服務商等PR條線提供媒體傳播服務;(2)面向各類企事業(yè)單位、政府部門、培訓機構(gòu)、電商平臺等提供智庫服務;(3)面向各類電商渠道方、品牌方、商家、供應鏈公司等提供“千電萬商”生態(tài)圈服務;(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務。
網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費注冊體驗全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。
【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴格注明來源網(wǎng)經(jīng)社;同時,我們倡導尊重與保護知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實、處理。