(網(wǎng)經(jīng)社訊)11月11日信息,Meta公司發(fā)布名為Omnilingual ASR的創(chuàng)新語音識別系統(tǒng),能夠處理超過1600種口語語言,其中包括500種此前從未被任何AI系統(tǒng)覆蓋的語言。這一突破性技術(shù)旨在解決全球語言資源不平等問題,推動人工智能向“通用轉(zhuǎn)錄系統(tǒng)”邁進(jìn)。系統(tǒng)通過先進(jìn)的機(jī)器學(xué)習(xí)模型,為資源匱乏的語言提供實(shí)用支持,標(biāo)志著在消除語言障礙方面取得重大進(jìn)展。
網(wǎng)經(jīng)社教育臺(EDU.100EC.CN)了解到,Omnilingual ASR系統(tǒng)的核心優(yōu)勢體現(xiàn)在其高精度與強(qiáng)大擴(kuò)展性上。測試數(shù)據(jù)顯示,系統(tǒng)在78%的支持語言中實(shí)現(xiàn)了字符錯誤率低于10個的高標(biāo)準(zhǔn)表現(xiàn)。對于擁有至少10小時訓(xùn)練音頻的資源豐富語言,這一精度標(biāo)準(zhǔn)覆蓋率達(dá)到95%;即使是訓(xùn)練資源不足10小時的低資源語言,也有36%達(dá)到相同標(biāo)準(zhǔn),展現(xiàn)出系統(tǒng)對不同資源條件語言的適應(yīng)能力。系統(tǒng)最具創(chuàng)新性的特點(diǎn)是引入“自帶語言”的情境學(xué)習(xí)功能,借鑒大語言模型技術(shù),用戶只需提供少量音頻文本配對樣本,即可讓系統(tǒng)快速學(xué)習(xí)新語言,無需重新訓(xùn)練或大量計(jì)算資源。這一技術(shù)理論上可將支持語言擴(kuò)展至5400種,遠(yuǎn)超當(dāng)前行業(yè)水平。
為推動技術(shù)普及,Meta采取全面開源策略:以Apache2.0許可證發(fā)布基于PyTorch的fairseq2框架模型,提供從3億參數(shù)到70億參數(shù)的不同版本;同步發(fā)布包含350種代表性不足語言的大型轉(zhuǎn)錄語音數(shù)據(jù)集,采用知識共享署名許可協(xié)議。這些舉措將助力全球開發(fā)者定制本地化語音識別方案,特別為少數(shù)民族和瀕危語言群體提供技術(shù)支撐。該系統(tǒng)的推出不僅填補(bǔ)了語言技術(shù)覆蓋的空白,更通過開源生態(tài)建設(shè)促進(jìn)全球語言平等,為教育、醫(yī)療、文化保護(hù)等領(lǐng)域的數(shù)字化轉(zhuǎn)型提供新可能,標(biāo)志著人工智能技術(shù)在實(shí)現(xiàn)真正普惠性方面邁出關(guān)鍵一步。


































