新時(shí)代虛擬數(shù)字人技術(shù)發(fā)展及應(yīng)用研究

2023-07-27 03:41:58吳昊

現(xiàn)代電影技術(shù) 2023年7期

吳昊

浙江傳媒學(xué)院動(dòng)畫與數(shù)字藝術(shù)學(xué)院，浙江杭州 310018

1 虛擬數(shù)字人藝術(shù)的背景與現(xiàn)狀

數(shù)字人的概念可以追溯到20 世紀(jì)60 年代，當(dāng)時(shí)計(jì)算機(jī)科學(xué)家伊凡·蘇澤蘭（Ivan Sutherland）提出了“虛擬現(xiàn)實(shí)”的概念，并在此基礎(chǔ)上提出了“數(shù)字人”概念。他認(rèn)為，數(shù)字人是一種可以在計(jì)算機(jī)中創(chuàng)建、操縱和顯示的虛擬人類。這個(gè)概念在后來的幾十年中得到了不斷發(fā)展和完善，如今已經(jīng)成為了虛擬現(xiàn)實(shí)（VR）和計(jì)算機(jī)圖形學(xué)（CG）領(lǐng)域中一個(gè)非常重要的概念。1964 年由波音公司研究員威廉·費(fèi)特（William Fetter）首次使用電腦圖形技術(shù)制作的第一個(gè)數(shù)字人物形象“波音人”（圖1），用于駕駛員座艙設(shè)計(jì)及功效學(xué)研究。之所以將該“波音人”界定為數(shù)字人，“數(shù)字”是與計(jì)算機(jī)技術(shù)相關(guān)，“波音人”是第一個(gè)利用計(jì)算機(jī)創(chuàng)建的人物形象，標(biāo)志著數(shù)字人技術(shù)在工業(yè)設(shè)計(jì)中的首次應(yīng)用。

圖1 威廉·費(fèi)特制作的“波音人”

最近，產(chǎn)業(yè)界、教育界等多個(gè)群體正在關(guān)注元宇宙市場，元宇宙概念正以迅雷不及掩耳之勢席卷各個(gè)行業(yè)，其已逐漸被廣大機(jī)構(gòu)視為數(shù)字世界未來發(fā)展的形態(tài)。元宇宙發(fā)展趨勢下，虛擬數(shù)字人將是不可或缺的因素[1]。元宇宙中的虛擬數(shù)字人不僅是虛擬的商業(yè)或藝術(shù)形象，也不是對人單純靜態(tài)的生理模擬，而是綜合利用各種新技術(shù)對人的生理屬性和社會(huì)屬性的全方位模擬和系統(tǒng)性仿真，是具備社交功能的社會(huì)人[2]。在數(shù)字技術(shù)的早期階段，數(shù)字人主要應(yīng)用于計(jì)算機(jī)圖形學(xué)、動(dòng)畫和游戲等領(lǐng)域，用于創(chuàng)建數(shù)字人的二維、三維圖像或動(dòng)畫。到了虛擬人階段，數(shù)字技術(shù)的應(yīng)用更加廣泛，虛擬人可以通過數(shù)字技術(shù)模擬人的外貌、動(dòng)作和行為等多個(gè)方面，并應(yīng)用于虛擬現(xiàn)實(shí)、視頻游戲、影視制作和教育等領(lǐng)域。虛擬人一般具有比數(shù)字人更為真實(shí)的外觀和行為表現(xiàn)。而到了虛擬數(shù)字人階段，數(shù)字技術(shù)的應(yīng)用進(jìn)一步提高，虛擬數(shù)字人不僅能夠模擬人的外貌和行為，還能夠生成具有感情和智能化的虛擬人。虛擬數(shù)字人的應(yīng)用范圍更加廣泛，不僅可以用于虛擬現(xiàn)實(shí)、游戲、影視制作和教育等領(lǐng)域，還可以用于虛擬購物、虛擬醫(yī)療、人機(jī)交互、社交媒體和數(shù)字營銷等領(lǐng)域。有學(xué)者認(rèn)為，虛擬數(shù)字人是數(shù)字科技與二次元文化結(jié)合的產(chǎn)物，其本身并不以實(shí)體形式存在，是建立在后現(xiàn)代消費(fèi)主義下的文化產(chǎn)物[3]。虛擬數(shù)字人的出現(xiàn)標(biāo)志著數(shù)字技術(shù)已經(jīng)進(jìn)入到一個(gè)全新的發(fā)展階段。虛擬數(shù)字人對于元宇宙的發(fā)展和應(yīng)用具有重要的推動(dòng)作用。

數(shù)字人技術(shù)可以制作具有與真人相同的人物形象，這在各種媒體平臺中的使用由來已久。例如，2001 年，維塔工作室的團(tuán)隊(duì)利用動(dòng)作捕捉技術(shù)打造了《指環(huán)王》中的經(jīng)典角色咕嚕姆。但是，直到2012年，科切拉音樂節(jié)上，數(shù)字王國（Digital Domain Media Group，DDMG）利用全息技術(shù)將已故說唱歌手圖帕克·夏庫爾（Tupac Shakur）“復(fù)活”，在舞臺上呈現(xiàn)出他的形象并表演了幾首歌曲（圖2）。這項(xiàng)技術(shù)引起了廣泛的關(guān)注和討論，也表明了虛擬數(shù)字人技術(shù)在娛樂產(chǎn)業(yè)中的潛力和前景。在“虛擬”與“現(xiàn)實(shí)”并行的元宇宙中，每個(gè)人在不同的平臺上都會(huì)出現(xiàn)對應(yīng)的“虛擬化身”，即“虛擬數(shù)字人（MetaHuman）”，這是運(yùn)用先進(jìn)技術(shù)所構(gòu)建真人的“數(shù)字孿生”。作為人的虛擬化身，這是綜合利用數(shù)字技術(shù)對人的生理屬性和社會(huì)屬性的全方位模擬[2]。最近，以深度學(xué)習(xí)為基礎(chǔ)的人工智能（AI）技術(shù)的發(fā)展極大地改進(jìn)了基于真人動(dòng)作的數(shù)字人生成技術(shù)。十多年前，寫實(shí)數(shù)字人形象創(chuàng)作還需要專業(yè)設(shè)計(jì)師使用3D 動(dòng)畫軟件完成，因此，除了以3D 動(dòng)畫片為特色的電影產(chǎn)業(yè)外，在現(xiàn)實(shí)中很難為公眾提供人體虛擬形象的服務(wù)。例如，虛擬數(shù)字人羅茜（Rozy）（圖3）是由韓國Sidus Studio X 公司制作的虛擬人，早在2020 年8 月便在社交媒體SNS 上展開活動(dòng)[4]。近些年，技術(shù)環(huán)境的改善為虛擬數(shù)字人的發(fā)展提供了更多機(jī)遇。隨著技術(shù)的不斷進(jìn)步，虛擬數(shù)字人的形象更加逼真，交互體驗(yàn)也更加流暢，為各個(gè)領(lǐng)域帶來更多創(chuàng)新和應(yīng)用機(jī)會(huì)。

圖2 數(shù)字虛擬歌手圖帕克·夏庫爾

圖3 虛擬網(wǎng)紅羅茜

虛擬數(shù)字人的目標(biāo)主要是積極利用社交媒體（SNS）來迎合“Z 世代”受眾群體，即在1995～2010 年出生的青年群體，他們伴隨著數(shù)字技術(shù)的一路成長，對新鮮事物的個(gè)性選擇以及對數(shù)字化與自身生活的結(jié)合表現(xiàn)出超越以往人群的強(qiáng)烈意愿[5]。當(dāng)前，流通業(yè)之所以關(guān)注虛擬數(shù)字人，是因?yàn)橥ㄟ^社交媒體可以與主要消費(fèi)層“Z 世代”群體進(jìn)行近距離溝通。根據(jù)量子位智庫發(fā)布的《虛擬數(shù)字人深度產(chǎn)業(yè)報(bào)告》，2030 年我國虛擬數(shù)字人市場規(guī)模將達(dá)到2700 億元，目前市場仍處于前期培育階段，有著廣闊的發(fā)展前景[6]。因此，預(yù)計(jì)數(shù)字人的市場規(guī)模也將會(huì)逐步擴(kuò)大。

數(shù)字人技術(shù)起源于影視領(lǐng)域。隨著游戲行業(yè)的發(fā)展，數(shù)字人領(lǐng)域中已經(jīng)開始獲得越來越多的技術(shù)賦能，包括建模、綁定、動(dòng)態(tài)抓取、渲染、AI 語音識別以及圖像識別等，而這些技術(shù)也大大提高了數(shù)字人的生成效率[7]。近些年，人工智能技術(shù)的發(fā)展，虛擬數(shù)字人制作技術(shù)取得新突破，角色建模方式不再是依賴于專業(yè)人員在三維建模軟件里創(chuàng)建出人體的三維模型，而是可以通過幾張人體的掃描照片就能自動(dòng)生成高精度數(shù)字人模型，并且這些模型還可以呈現(xiàn)出不同的藝術(shù)風(fēng)格[8]。例如，可以制作真實(shí)虛擬人的MetaHuman、Daz 3D，或可以制作動(dòng)畫片的Mixamo、可以制作卡通風(fēng)格2D 角色的VRoid、可以制作各種3D 角色的Character Creator 4 等。下面將具體對數(shù)字人創(chuàng)作流程中的各項(xiàng)技術(shù)進(jìn)行研究。

2 虛擬數(shù)字人的創(chuàng)作方法

2.1 MetaHuman 數(shù)字人建模與面部表情

MetaHuman 應(yīng)用程序是一種基于人工智能技術(shù)的創(chuàng)作軟件，可以生成高度逼真的虛擬人物，并為其賦予各種行為和情感表現(xiàn)能力。這項(xiàng)技術(shù)將大量的數(shù)據(jù)和算法應(yīng)用于計(jì)算機(jī)視覺（CV）、自然語言處理（NLP）和運(yùn)動(dòng)學(xué)等領(lǐng)域，使得虛擬人物能夠以與真實(shí)人類相似的方式交互和表現(xiàn)。MetaHuman 可以在游戲、電影、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域應(yīng)用，成為數(shù)字娛樂產(chǎn)業(yè)的一個(gè)重要組成部分。

MetaHuman 主要特點(diǎn)是可以將動(dòng)畫實(shí)時(shí)應(yīng)用到逼真的角色上，實(shí)現(xiàn)不同年齡、體型和種族的多樣性。MetaHuman 為所有創(chuàng)作者提供非常逼真的人類角色制作功能的框架，且具有直觀的界面，即使是新手也可以輕松應(yīng)用。更改角色細(xì)節(jié)的方式有三種，第一種是混合模式（Blend Mode）。混合模式用戶可以通過調(diào)整數(shù)字人物的面部表情和身體動(dòng)作等關(guān)鍵點(diǎn)，實(shí)現(xiàn)對角色表情和姿態(tài)的微調(diào)和改變。這種模式適用于需要對數(shù)字人物進(jìn)行微調(diào)的情況。第二種是雕刻模式（Sculpt Mode）。雕刻模式下用戶可以在MetaHuman 編輯器中直接對數(shù)字人物的頭部、身體、四肢等部位進(jìn)行手動(dòng)編輯和更改，實(shí)現(xiàn)角色的重塑和調(diào)整。這種模式適用于需要對數(shù)字人物進(jìn)行大范圍改動(dòng)的情況，同時(shí)相對于其他兩種方法，需要更多的時(shí)間，但可以進(jìn)行更精細(xì)的調(diào)整。第三種是移動(dòng)模式（Move Mode）。通過調(diào)整標(biāo)記組來調(diào)整臉部較大的部分，相對于精細(xì)的調(diào)整，這種方式可以在較短時(shí)間內(nèi)修改整體外觀，特別適用于修改整體外觀而非精細(xì)調(diào)整的情況。

MetaHuman 軟件可以實(shí)現(xiàn)數(shù)字人的自然面部表情動(dòng)畫的工具。利用這些工具，無需專業(yè)知識，可以輕松制作高質(zhì)量逼真的數(shù)字人物，只需掌握應(yīng)用簡單的照明、姿勢和表情預(yù)設(shè)即可制作生動(dòng)的數(shù)字人。然而，MetaHuman 提供的身材種類（苗條、普通、豐滿）、性別和身高選擇范圍較窄，只能根據(jù)模型庫所提供的角色骨架、發(fā)型等類型內(nèi)部使用，因此其使用范圍較為有限。因此，對于實(shí)現(xiàn)所需人物或預(yù)設(shè)角色的設(shè)定方面通用性較低。為了彌補(bǔ)這一點(diǎn)，新引入的技術(shù)是“Mesh to MetaHuman”。

2.2 Mesh to MetaHuman 技術(shù)擴(kuò)展了數(shù)字人的模型庫

Mesh to MetaHuman 技術(shù)是一種使用外部應(yīng)用程序生成的3D 角色網(wǎng)格（Mesh）來創(chuàng)建MetaHuman 的新方法。該功能允許創(chuàng)作人員將自己或其他藝術(shù)家創(chuàng)造的現(xiàn)有模型（如角色、生物、機(jī)械等）轉(zhuǎn)換為MetaHuman 數(shù)字人物，從而在更短的時(shí)間內(nèi)創(chuàng)建更多的數(shù)字人物。利用該技術(shù)，可以克服MetaHuman 創(chuàng)作者的缺點(diǎn)，突破變形限制，更自由地生成網(wǎng)格。Mesh to MetaHuman 通過在虛幻引擎5 中啟用Meta-Human 插件并通過Quixel Bridge 導(dǎo)入MetaHuman 來實(shí)現(xiàn)連接。最重要的部分是Mesh Morpher 算法，可以將多邊形信息應(yīng)用于現(xiàn)有的面部特征網(wǎng)格數(shù)據(jù)，從而通過該算法給予變化，以便輕松快速地獲得效率更高的面部制作，脫離原有的框架。利用這項(xiàng)技術(shù)對面部細(xì)節(jié)進(jìn)行微調(diào)，以達(dá)到更高的逼真度。Morpher 算法在MetaHuman Creator 中被廣泛使用，可以幫助數(shù)字人物表現(xiàn)出豐富的情感和表情，使其更加生動(dòng)。

2.3 項(xiàng)目案例中Mesh to MetaHuman 技術(shù)應(yīng)用

在MetaHuman 中，將3D 角色模型網(wǎng)格導(dǎo)入到項(xiàng)目中。模型網(wǎng)格可以是已有的模型素材，也可以是掃描現(xiàn)實(shí)中的對象，生成glTF、FBX 或OBJ 等幾種格式為基本模型。筆者在項(xiàng)目實(shí)驗(yàn)應(yīng)用中結(jié)合手機(jī)App 寶麗來軟件工具進(jìn)行現(xiàn)實(shí)人的掃描，按照螺旋運(yùn)動(dòng)軌跡掃描錄制完整的人物面部，并進(jìn)行解算。然后生成glTF 格式文件導(dǎo)入到三維軟件中，將掃描過程中錯(cuò)誤和不需要的多邊形面進(jìn)行刪除。新建并打開UE5 中的插件MetaHuman 本體，將模型導(dǎo)入，選擇中立姿勢（Neutral Pose），進(jìn)行提升幀數(shù)操作。下一步進(jìn)行追蹤活動(dòng)幀，此時(shí)將完成對角色模型眼睛、法令紋和嘴部的跟蹤。之后，進(jìn)行MetaHuman 的本體解算，生成MetaHuman 的網(wǎng)格模型。最后，選擇創(chuàng)建身體部分，并選擇網(wǎng)格體轉(zhuǎn)為MetaHuman 命令，完成MetaHuman 網(wǎng)格模型的創(chuàng)建，該結(jié)果上傳到Bridge中的賬號中(圖4)。

圖4 將掃描完成的模型進(jìn)行修改調(diào)整后進(jìn)行臉部的模型追蹤活動(dòng)幀的操作

下面通過Bridge 中的MetaHuman,對模型進(jìn)行導(dǎo)入，在自定義網(wǎng)格體中對面部各結(jié)構(gòu)的區(qū)域形體（包括皮膚、牙齒、眼睛、毛發(fā)以及身體等部位）進(jìn)行調(diào)節(jié)（圖5）。

圖5 自定義網(wǎng)格體和角色模型各部分調(diào)節(jié)

對角色頭部的局部調(diào)節(jié)，可以在混合模式下通過添加3～6 個(gè)角色模型區(qū)進(jìn)行面部特征細(xì)微調(diào)整。根據(jù)角色面部特征進(jìn)行調(diào)節(jié)，即將這幾個(gè)添加的預(yù)制角色特征去做插值。此外，可以對角色的身體動(dòng)作和面部表情動(dòng)畫進(jìn)行設(shè)置，MetaHuman 提供了各種姿勢和動(dòng)作，包括行走、跑步、跳躍等。在面部表情方面，可以通過選擇設(shè)置實(shí)現(xiàn)不同的表情動(dòng)畫（圖6）。

圖6 混合模式下對模型面部的局部調(diào)整并添加表情動(dòng)畫

2.4 虛擬數(shù)字人中的動(dòng)作捕捉技術(shù)

動(dòng)作捕捉技術(shù)已經(jīng)發(fā)展了很長時(shí)間，自20 世紀(jì)70 年代，動(dòng)作捕捉技術(shù)開始應(yīng)用于醫(yī)療和軍事領(lǐng)域；到了80 年代，其應(yīng)用逐漸蔓延至CGI 產(chǎn)業(yè)，開始被人們所熟知，一直活躍至今，目前主要應(yīng)用于電影，并廣泛用于動(dòng)畫和游戲中[9]。隨著科技的發(fā)展，動(dòng)作捕捉技術(shù)不斷更新，從最初的磁感應(yīng)式方法發(fā)展到基于慣性傳感器和光學(xué)式方法等更加先進(jìn)的技術(shù)，實(shí)現(xiàn)了更加精確和逼真的動(dòng)作捕捉。如今，人工智能技術(shù)的應(yīng)用讓動(dòng)作捕捉技術(shù)更加智能化和高效化。比如，基于深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)的人體姿態(tài)估計(jì)算法可以通過對攝影場景中的人體姿態(tài)和動(dòng)作進(jìn)行分析和識別，從而實(shí)時(shí)估計(jì)和預(yù)測出未被捕捉到的部分，如手臂、腿部等遮蔽或未被捕捉到的部位，從而實(shí)現(xiàn)更加完整和準(zhǔn)確的動(dòng)作捕捉。

主要應(yīng)用于電影或游戲等領(lǐng)域的光學(xué)式動(dòng)作捕捉技術(shù)可以實(shí)時(shí)拍攝目標(biāo)的動(dòng)作，無需受到限制，并且可以應(yīng)用于非人類生物，具有強(qiáng)大的優(yōu)勢，但需要額外的空間安裝相機(jī)，并且只能在相應(yīng)空間內(nèi)進(jìn)行捕捉。該技術(shù)最大的缺點(diǎn)是成本，根據(jù)制造商的不同，引進(jìn)成本不同，對于中小型工作室來說，使用該類設(shè)備的成本是很大的負(fù)擔(dān)。此外，由于相機(jī)必須照射標(biāo)記，因此根據(jù)演員的動(dòng)作，相機(jī)陰影區(qū)域的產(chǎn)生可能會(huì)導(dǎo)致數(shù)據(jù)丟失。

為了彌補(bǔ)這些缺點(diǎn)，可以使用傳感器式的動(dòng)作捕捉工具Rokoko。Rokoko 是將傳感器添加到套裝面料之內(nèi)，內(nèi)置共19個(gè)傳感器，每個(gè)傳感器內(nèi)都有陀螺儀、羅盤儀和加速計(jì)。通過套裝將運(yùn)動(dòng)數(shù)據(jù)記錄在本地或者通過Wi-Fi 將數(shù)據(jù)傳輸?shù)奖镜鼐W(wǎng)絡(luò)。Rokoko 與實(shí)時(shí)3D 角色動(dòng)畫軟件Rokoko Studio 相結(jié)合使用，最具特色的部分是雖然能夠進(jìn)行面部捕捉、動(dòng)作捕捉和手部捕捉，但其價(jià)格相對便宜，而且可以實(shí)時(shí)進(jìn)行互動(dòng)和錄制。通常進(jìn)行動(dòng)作捕捉時(shí)需要寬敞的空間和沒有反射的物體，但Rokoko 通過安裝在套裝上的傳感器進(jìn)行捕捉，擁有比傳統(tǒng)動(dòng)畫工作流更直觀的界面，并可以在成本方面大大節(jié)省，是一種有效的動(dòng)作捕捉工具。利用Rokoko 拍攝的動(dòng)作捕捉數(shù)據(jù)可以使用虛幻引擎的動(dòng)畫重定向技術(shù)。動(dòng)畫重定向允許不同比例的角色共享相同的骨架資產(chǎn)，以便重用動(dòng)畫。加載從動(dòng)作捕捉中獲得的動(dòng)畫數(shù)據(jù)，然后輕松地使用它們而無需進(jìn)行精細(xì)的修改。在重定位之前，不同形狀的角色具有不同的骨骼，因此在應(yīng)用相同動(dòng)作時(shí)形狀會(huì)崩潰。但是通過動(dòng)畫重定位，動(dòng)畫以角色的骨盆和關(guān)節(jié)為中心重新設(shè)置以適應(yīng)骨骼（圖7）。

圖7 通過虛幻引擎5對動(dòng)畫重新定位

2.5 逼真的面部表情技術(shù)：Live Link Face 面部識別技術(shù)

面部表情技術(shù)的發(fā)展讓數(shù)字虛擬角色的神情更加生動(dòng)且充滿活力。傳統(tǒng)的面部表情捕捉設(shè)備一般需要佩戴專用頭盔和捕捉套件，便捷性較差[10]。本次測試中面部捕捉思路則是以手機(jī)攝像頭拍攝采集為基礎(chǔ)，實(shí)現(xiàn)面部數(shù)據(jù)捕捉。以Live Link Face 應(yīng)用為例，Live Link Face 軟件可以將用攝像頭捕捉到的人臉動(dòng)作和表情實(shí)時(shí)傳輸?shù)饺S虛擬角色上，從而實(shí)現(xiàn)人臉捕捉和動(dòng)畫制作。它廣泛用于電影、電視、游戲和虛擬現(xiàn)實(shí)等領(lǐng)域。Live Link Face 軟件可以與虛幻引擎和iOS 設(shè)備一起使用，用戶可以使用手機(jī)的前置攝像頭捕捉面部表情和動(dòng)作，并將這些數(shù)據(jù)傳輸?shù)教摶靡嬷?，然后?yīng)用到虛擬角色上，實(shí)現(xiàn)高度逼真的面部動(dòng)畫效果。此外，Live Link Face 還支持實(shí)時(shí)流媒體，用戶可以將捕捉到的面部動(dòng)畫實(shí)時(shí)傳輸?shù)狡渌O(shè)備或平臺上，以便遠(yuǎn)程協(xié)作和實(shí)時(shí)表演。這種技術(shù)在電影、電視、游戲和虛擬現(xiàn)實(shí)等領(lǐng)域有著廣泛的應(yīng)用。

隨著虛幻引擎5.0 的發(fā)布，Live Link Face 變得更加先進(jìn)，可以精細(xì)和準(zhǔn)確地實(shí)現(xiàn)面部表情。由于面部跟蹤數(shù)據(jù)包括頭部和頸部旋轉(zhuǎn)數(shù)據(jù)，因此即使沒有運(yùn)動(dòng)作捕捉套裝或頭戴式設(shè)備，也可以自由地創(chuàng)建數(shù)字化角色的動(dòng)作。由于不需要額外的工具，無論是個(gè)人藝術(shù)家還是專業(yè)公司，都可以在所有拍攝現(xiàn)場捕捉高質(zhì)量的面部動(dòng)畫。

在測試應(yīng)用中，Live Link Face 軟件需要配備具有TrueDepth 原深感前置攝像頭的iPhone 手機(jī)和ARKit 技術(shù)，可以對表演者的面部進(jìn)行Z 軸深度檢測和交互追蹤，并通過虛幻引擎內(nèi)置的Live Link 接收功能直接將該數(shù)據(jù)從手機(jī)發(fā)送到電腦端的虛幻引擎中。此外，通過Live Link Face 中打開流送頭像旋轉(zhuǎn)命令可對頭部轉(zhuǎn)動(dòng)進(jìn)行跟蹤。通過這種方式，用戶可以更加方便地實(shí)現(xiàn)高度逼真的面部表情動(dòng)畫效果，從而提高制作效率和質(zhì)量（圖8）。

圖8 使用MetaHuman 和Live Link Face 的面部捕捉設(shè)置

通過以上簡易動(dòng)作捕捉的其中一種方法的制作流程示例，使用一部手機(jī)和相對廉價(jià)的傳感器動(dòng)作捕捉工具Rokoko，能夠?qū)崿F(xiàn)讓肢體動(dòng)作捕捉和面部表情跟蹤捕捉同時(shí)進(jìn)行，完成高效率、便捷化的數(shù)字虛擬形象整體交互動(dòng)作驅(qū)動(dòng)（圖9）。

圖9 MetaHuman 虛擬數(shù)字人應(yīng)用整體驅(qū)動(dòng)實(shí)現(xiàn)流程示意圖

3 人工智能技術(shù)對虛擬數(shù)字人未來發(fā)展的影響

3.1 人工智能技術(shù)將賦予虛擬數(shù)字人思維的大腦

人工智能（AI）時(shí)代，媒體行業(yè)被徹底重構(gòu)和顛覆。大數(shù)據(jù)和人工智能技術(shù)已經(jīng)進(jìn)入媒體行業(yè)的每一個(gè)環(huán)節(jié)，并對新聞內(nèi)容的制作、分發(fā)以及觀眾的互動(dòng)交流等進(jìn)行了全面重建。隨著ChatGPT 等大語言模型的進(jìn)步通過未來將強(qiáng)大的自然語言處理（NLP）能力應(yīng)用于虛擬數(shù)字人領(lǐng)域，將為虛擬數(shù)字人賦予一定程度具備思維能力的大腦。使其能更加智能地與人類進(jìn)行交流和互動(dòng)，并進(jìn)一步提升了虛擬數(shù)字人的逼真性和人性化。ChatGPT 對虛擬人技術(shù)發(fā)展的潛力在媒體、娛樂和其他領(lǐng)域的應(yīng)用都有著廣闊的前景。

（1）虛擬數(shù)字人與ChatGPT 類大語言模型技術(shù)的結(jié)合，可以更準(zhǔn)確地理解用戶的情感狀態(tài)，并以適當(dāng)方式進(jìn)行情感和情緒的表達(dá)，這將增強(qiáng)用戶與數(shù)字虛擬人之間的感情連接，從而提升用戶體驗(yàn)。此外，ChatGPT 類大語言模型技術(shù)可以通過深度學(xué)習(xí)和大量數(shù)據(jù)訓(xùn)練，獲得更豐富的語言知識和理解能力。這也使它能夠生成具有邏輯性和連貫性的回答，從而提供更加真實(shí)和流暢的體驗(yàn)，進(jìn)一步推動(dòng)虛擬數(shù)字人在其應(yīng)用領(lǐng)域的拓展。

（2）ChatGPT 類大語言模型技術(shù)可用于多種平臺和設(shè)備，包括智能手機(jī)、智能音響和虛擬現(xiàn)實(shí)設(shè)備等。虛擬數(shù)字人可以脫離物理的軀殼，通過與Chat-GPT 類大語言模型技術(shù)的結(jié)合，實(shí)現(xiàn)虛擬數(shù)字人在不同平臺上的統(tǒng)一性和連續(xù)性。用戶可以在不同設(shè)備上與虛擬數(shù)字人進(jìn)行交互，感受智能化的服務(wù)和體驗(yàn)。例如，總部位于新西蘭的Soul Machines 公司專注于虛擬數(shù)字人技術(shù)和人工智能交互解決方案。他們的目標(biāo)是通過創(chuàng)造高度逼真、情感豐富和可交互的虛擬數(shù)字人來提供更具人性化和智能化的用戶體驗(yàn)。他們開發(fā)了一種名為“Digital DNA”的技術(shù)，該技術(shù)結(jié)合了虛擬數(shù)字人和GPT 的能力，是一種基于人工智能和生物學(xué)原理的技術(shù)，旨在模擬和復(fù)制人的情感和互動(dòng)方式。通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法，將人類的語音、面部表情、身體動(dòng)作等特征進(jìn)行模擬仿真，從而創(chuàng)造出逼真的虛擬數(shù)字人。該技術(shù)的發(fā)展有望為各個(gè)行業(yè)帶來革命性的變革。

3.2 個(gè)性化定制和精準(zhǔn)推薦

通過對用戶的語言交互和行為數(shù)據(jù)進(jìn)行分析，虛擬數(shù)字人可以深入了解用戶的喜好和需求。基于這些信息，虛擬數(shù)字人可以向用戶提供個(gè)性化的推薦內(nèi)容，如新聞、音樂、電影等，以滿足用戶的個(gè)性化興趣和需求。首先，通過對用戶的語言交互進(jìn)行分析，虛擬數(shù)字人可以了解用戶的喜好和習(xí)慣。通過分析用戶的提問、回答和表達(dá)，從中提取關(guān)鍵詞和意圖，進(jìn)而推斷用戶對不同話題的喜好和偏好，從而為用戶提供個(gè)性化的服務(wù)。其次，通過對用戶的行為數(shù)據(jù)分析，虛擬數(shù)字人可以了解用戶的使用習(xí)慣和消費(fèi)偏好，根據(jù)用戶的行為數(shù)據(jù)向其推薦類似的內(nèi)容，以滿足個(gè)性化需求。通過與用戶建立長期互動(dòng)，從而建立起對用戶的個(gè)性化認(rèn)識，并為其量身定制服務(wù)，這種個(gè)性化定制和精準(zhǔn)推薦的能力將進(jìn)一步提高用戶對虛擬數(shù)字人的依賴和信任。同時(shí)，也能夠增強(qiáng)用戶與虛擬數(shù)字人之間的情感聯(lián)結(jié)，從而推動(dòng)虛擬數(shù)字人技術(shù)在各個(gè)領(lǐng)域的應(yīng)用。

4 結(jié)論

虛擬數(shù)字人交互體驗(yàn)是否滿意主要涉及到人物形象設(shè)計(jì)、肢體動(dòng)作以及語音交互等方面。首先，人物形象設(shè)置至關(guān)重要，通過使用先進(jìn)技術(shù)如MetaHuman 可以快速而準(zhǔn)確地創(chuàng)建出高度逼真和個(gè)性化的角色。其次，動(dòng)作捕捉技術(shù)和面部識別技術(shù)可以實(shí)現(xiàn)虛擬數(shù)字人自然、流暢和逼真的肢體動(dòng)作和情感表達(dá)；通過高度準(zhǔn)確的驅(qū)動(dòng)技術(shù)可以使虛擬數(shù)字人的動(dòng)作和用戶指令實(shí)時(shí)同步，并展現(xiàn)出豐富的情感和肢體語言。最后，語音交互也是影響虛擬數(shù)字人交互體驗(yàn)的重要因素。具有個(gè)性化人類思想的語音交互技術(shù)可以增強(qiáng)虛擬數(shù)字人與用戶之間的親切感和溝通效果。預(yù)先錄制的傳統(tǒng)語音交互技術(shù)往往具有機(jī)械和生硬感，難以滿足用戶個(gè)性化的需求。隨著人工智能技術(shù)發(fā)展，個(gè)性化語音技術(shù)為虛擬數(shù)字人的交互體驗(yàn)帶來許多優(yōu)勢，為用戶提供更溫暖、個(gè)性化的交互體驗(yàn)。這種情感化的交互使得虛擬數(shù)字人在各個(gè)領(lǐng)域的應(yīng)用更具吸引力和實(shí)用性。

綜上所述，人工智能技術(shù)的發(fā)展必將對虛擬數(shù)字人技術(shù)產(chǎn)生深遠(yuǎn)影響。虛擬數(shù)字人通過與Chat-GPT 類大語言模型技術(shù)等智能技術(shù)的結(jié)合，實(shí)現(xiàn)了思維的賦能、情感識別和表達(dá)的增強(qiáng)。這些進(jìn)步將推動(dòng)虛擬數(shù)字人技術(shù)在教育、娛樂、客戶服務(wù)領(lǐng)域的廣泛應(yīng)用，并為用戶提供更加智能、個(gè)性化和沉浸式的交互體驗(yàn)。隨著元宇宙概念的興起和發(fā)展，虛擬數(shù)字人將在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和在線社交等場景中發(fā)揮重要作用。虛擬數(shù)字人的應(yīng)用潛力是巨大的，它可以是模擬當(dāng)下現(xiàn)實(shí)世界中存在的人物形象，也可以創(chuàng)建歷史上公眾記憶中已故的人物形象，通過結(jié)合模擬語音和人工智能思維，將為用戶提供豐富多樣的體驗(yàn)和服務(wù)。然而，我們也應(yīng)該發(fā)現(xiàn)虛擬數(shù)字人的應(yīng)用也面臨著一些挑戰(zhàn)和問題，例如，如何保護(hù)虛擬數(shù)字人的知識產(chǎn)權(quán)和個(gè)人隱私，如何處理虛擬數(shù)字人與現(xiàn)實(shí)人的交互界限等都是需要考慮的問題。總而言之，虛擬數(shù)字人在未來有著巨大的發(fā)展?jié)摿?，我們可以通過逐步建立倫理、法律和社會(huì)規(guī)范，推動(dòng)虛擬數(shù)字人的可持續(xù)發(fā)展，使其能在數(shù)字藝術(shù)、娛樂和其他領(lǐng)域中發(fā)揮積極的作用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡