(網(wǎng)經(jīng)社訊)阿里云近日發(fā)布了多模態(tài)交互開發(fā)套件,旨在將旗下通義系列大模型的能力,更便捷地集成到各類硬件終端中。該套件集成了千問、萬相、百聆三款基礎(chǔ)大模型,并預(yù)置了覆蓋生活、工作、娛樂、教育等多個場景的十余款智能體(Agent)和工具(MCP),可應(yīng)用于AI眼鏡、學(xué)習(xí)機、陪伴玩具、智能機器人等設(shè)備。
據(jù)網(wǎng)經(jīng)社云計算臺(CC.100EC.CN)了解,該套件的推出,源于行業(yè)對硬件設(shè)備智能化提升的需求。目前,僅靠基礎(chǔ)大模型難以同時滿足硬件對低成本、低時延、功能豐富及高質(zhì)量效果的綜合性要求。阿里云此套件意在為硬件企業(yè)和解決方案商提供一個開發(fā)門檻較低、響應(yīng)速度快、場景覆蓋面廣的平臺。
在技術(shù)層面,該套件適配了30多款主流的ARM、RISC-V和MIPS架構(gòu)終端芯片,以滿足市面上大多數(shù)硬件設(shè)備的快速接入需求。阿里云表示,未來通義大模型將與玄鐵RISC-V進行軟硬全鏈路的協(xié)同優(yōu)化,以實現(xiàn)模型在RISC-V架構(gòu)上的高效部署和推理。
在模型優(yōu)化方面,除通義模型家族外,阿里云還針對多模態(tài)交互場景推出了專用模型,支持全雙工語音、視頻、圖文等交互方式,端到端語音交互時延可低至1秒,視頻交互時延可低至1.5秒。
該套件還接入了阿里云的百煉平臺生態(tài),用戶可添加其他開發(fā)者提供的工具或智能體模板,并通過A2A協(xié)議兼容第三方智能體,以擴展應(yīng)用能力邊界?,F(xiàn)場展示的應(yīng)用方案包括,在AI眼鏡場景中,可實現(xiàn)同聲傳譯、拍照翻譯等功能;在家庭陪伴機器人場景中,可實現(xiàn)實時監(jiān)測異常、視頻內(nèi)容查找定位以及與機器人對話控制設(shè)備等。
根據(jù)國際研究機構(gòu)Gartner發(fā)布的生成式AI(GenAI)技術(shù)創(chuàng)新指南報告,阿里云在GenAI云基礎(chǔ)設(shè)施、GenAI工程、GenAI模型及AI知識管理應(yīng)用四大維度均位列“新興領(lǐng)導(dǎo)者”象限,是入選全部四項的亞太唯一廠商。


































