(網(wǎng)經(jīng)社訊)核心觀點(diǎn)
1.虛擬數(shù)字人的三大特征是虛擬化、NLP\CV\語(yǔ)音等多種技術(shù)共同成熟、高度擬人化。在技術(shù)層面上分為靈活的真人驅(qū)動(dòng)型和基于深度學(xué)習(xí)的計(jì)算驅(qū)動(dòng)型。
2.在2030年,我國(guó)虛擬數(shù)字人整體市場(chǎng)規(guī)模將達(dá)到2700億。身份型虛擬數(shù)字人約1750億。服務(wù)型虛擬數(shù)字人總規(guī)模超過(guò)950億。目前市場(chǎng)仍處于前期培育階段。
3.虛擬數(shù)字人的應(yīng)用可分為服務(wù)型虛擬人和身份型虛擬人。替代真人服務(wù)中的虛擬主播和虛擬IP中的虛擬偶像是目前的市場(chǎng)熱點(diǎn)。
4.虛擬數(shù)字人產(chǎn)業(yè)鏈。各廠商規(guī)劃在未來(lái)對(duì)核心技術(shù)進(jìn)行外包。
6. 國(guó)內(nèi)外在細(xì)分市場(chǎng)上的競(jìng)爭(zhēng)差異較大,具體包含技術(shù)層面、商業(yè)模式、細(xì)分市場(chǎng)及發(fā)展路線。
7. 行業(yè)門檻及瓶頸主要來(lái)源于三方面:上限偏高的技術(shù)及美術(shù)門檻;客戶積累帶來(lái)的業(yè)務(wù)認(rèn)知;在各細(xì)分市場(chǎng)亟待實(shí)現(xiàn)的標(biāo)準(zhǔn)化復(fù)制。
虛擬數(shù)字人定義
虛擬數(shù)字人指存在于非物理世界中,由計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語(yǔ)音合成等計(jì)算機(jī)手段創(chuàng)造及使用,并具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產(chǎn)物。市面上也多將其稱為為虛擬形象、虛擬人、數(shù)字人等,代表性的細(xì)分應(yīng)用包括虛擬助手、虛擬客服、虛擬偶像/主播等。
其具體特征可拆分為“虛擬”、“數(shù)字”及“人”三個(gè)部分。在試用了相關(guān)產(chǎn)品后,我們認(rèn)為,“人”是其中的核心的因素。高度擬人化為用戶帶來(lái)的親切感、關(guān)懷感與沉浸感是多數(shù)消費(fèi)者的核心使用動(dòng)力。能否提供足夠自然逼真的相處體驗(yàn),將成為虛擬數(shù)字人在各個(gè)場(chǎng)景中取代真人,完成語(yǔ)音交互方式升級(jí)的重要標(biāo)準(zhǔn)。
虛擬—存在于非物理世界中,不同場(chǎng)景實(shí)現(xiàn)難度不同
目前,虛擬數(shù)字人主要以圖片、視頻、實(shí)時(shí)直播、實(shí)時(shí)動(dòng)畫等方式存在于電子屏中,如APP、小程序、軟硬一體顯示設(shè)備。在未來(lái),VR設(shè)備與全息投影也將成為其重要存在方式。
需注意的是,盡管其存在方式均在非物理世界中,由于各場(chǎng)景所需的時(shí)延(如直播等實(shí)時(shí)場(chǎng)景要求低時(shí)延,但內(nèi)容生成場(chǎng)景無(wú)該要求)、驅(qū)動(dòng)方式(計(jì)算驅(qū)動(dòng)對(duì)模型的深度學(xué)習(xí)能力有極高要求)等不同,對(duì)技術(shù)、運(yùn)營(yíng)等要求差異較大。
數(shù)字—依托多項(xiàng)技術(shù)存在,相關(guān)技術(shù)成熟成為其發(fā)展重要推動(dòng)力
虛擬數(shù)字人是典型的多技術(shù)綜合產(chǎn)物。除CG建模+真人驅(qū)動(dòng)的類別外,多模態(tài)技術(shù)與深度學(xué)習(xí)成為其核心點(diǎn)。該部分將在技術(shù)中詳細(xì)展開。多位從業(yè)人員認(rèn)為,虛擬數(shù)字人近年的發(fā)展來(lái)源于CG(Computer Graphics,利用計(jì)算機(jī)進(jìn)行視覺設(shè)計(jì)和生產(chǎn))、語(yǔ)音識(shí)別、圖像識(shí)別、動(dòng)捕等相關(guān)技術(shù)的共同成熟。
人—在外表、行為、交互行為等方面高度擬人化,外在表現(xiàn)和交互效果已成為核心發(fā)展路線
外表:虛擬數(shù)字人的面部長(zhǎng)相和整體形象。會(huì)受到虛擬數(shù)字人類別(如直接借用真人形象、高保真建模、風(fēng)格化)、制作細(xì)節(jié)(對(duì)汗毛、皮膚、頭發(fā)等細(xì)節(jié)的建模)、渲染水平、設(shè)計(jì)審美等影響。
行為:虛擬數(shù)字人的面部表情、形體表達(dá)、語(yǔ)音表述等。會(huì)受到驅(qū)動(dòng)方式(真人驅(qū)動(dòng)、計(jì)算驅(qū)動(dòng)、預(yù)制調(diào)節(jié)等)、驅(qū)動(dòng)模型類別(精細(xì)面部肌肉驅(qū)動(dòng)、語(yǔ)音合成模型中對(duì)語(yǔ)氣詞、韻律的處理等)、訓(xùn)練數(shù)據(jù)、驅(qū)動(dòng)模型精度等影響。
交互:虛擬數(shù)字人與現(xiàn)實(shí)世界的交互水平,包括回答內(nèi)容、肢體反應(yīng)等,會(huì)受到語(yǔ)音識(shí)別能力、自然語(yǔ)言理解及處理水平、知識(shí)圖譜、預(yù)先設(shè)置知識(shí)庫(kù)等影響。



































