刁雅琴 王新偉
“我叫‘靈,是‘挑戰(zhàn)杯001號參賽者,我將與大學(xué)生參賽者同屏參與、同臺競技”2023年3月17日晚,第十三屆“挑戰(zhàn)杯”全國決賽開幕式的現(xiàn)場大屏上,北京理工大學(xué)數(shù)字人科研團(tuán)隊(duì)“孕育”的“挑戰(zhàn)杯”辦賽史上的第一位數(shù)字仿真人——“靈”閃亮登場。
自2015年起,北京理工大學(xué)光電學(xué)院翁冬冬教授的課題組開始圍繞虛擬現(xiàn)實(shí)技術(shù)和數(shù)字人光場重建技術(shù),開展了大量文化科技融合的前沿研究。
團(tuán)隊(duì)堅(jiān)信,隨著人口老齡化和信息技術(shù)的飛速發(fā)展,未來人類在虛擬環(huán)境中的時間會大幅增加,人與人的交往將更依賴沉浸式互聯(lián)網(wǎng)完成。當(dāng)用戶戴上VR眼鏡,進(jìn)入三維互聯(lián)網(wǎng)世界后,數(shù)字人就成為人類在虛擬世界的重要傳輸載體。它不僅能代替人在虛擬世界中傳情達(dá)意,還能在虛實(shí)場景中進(jìn)行交互,讓用戶擁有完整的虛擬感官體驗(yàn)。
在團(tuán)隊(duì)的多次調(diào)研中,他們發(fā)現(xiàn)數(shù)字人的商業(yè)價值早已不容小覷。2021年5月,超寫實(shí)數(shù)字人“AYAYI”亮相小紅書,其發(fā)布的第一篇筆記就收獲了近300萬閱讀量和10萬+點(diǎn)贊,一夜間漲粉4萬人,它的整個商業(yè)估值達(dá)6億人民幣。而這還只是一個2D虛擬人物形象。
數(shù)字人能實(shí)現(xiàn)7*24小時不間斷的服務(wù),這極大降低了企業(yè)的人力成本,更重要的是數(shù)字人的價值主體、數(shù)字資產(chǎn)都?xì)w公司所有。事實(shí)上,今天已有一批數(shù)字人涉足了不同產(chǎn)業(yè)和領(lǐng)域,如游戲主播、博物館虛擬講解員、虛擬教師、虛擬主持人等。
“神韻”何來?
光學(xué)工程專業(yè)2020級博士生包儀華是最早加入北理工數(shù)字人科研團(tuán)隊(duì)的同學(xué)之一,負(fù)責(zé)數(shù)字人技術(shù)迭代和表情驅(qū)動的她始終困惑于老師所強(qiáng)調(diào)的“感覺與神韻”,“‘感覺與神韻這種美學(xué)范疇的抽象觀念,確實(shí)很難被我們以相對客觀的技術(shù)表達(dá)來呈現(xiàn)?!卑鼉x華笑著說道。
人類的表情是個復(fù)合構(gòu)成,每個人的面部都由44塊表情肌組成,它們與血管、骨骼相互配合,形成表情。科學(xué)研究表明,人類的面部最多能組合出5000多種不同的表情。哪怕一個最簡單的微笑,牽動的也不只是嘴角,還有臉頰、蘋果肌和眼角的微微顫動,不然就成了皮笑肉不笑。
除了相貌的差異,光線打在不同人臉上也會產(chǎn)生不同效果。比如年輕女孩的皮膚透亮、紅潤,血?dú)夥絼偟男』镒幽樕铣3S椭?,老人的皮膚則缺少光澤和彈性。此外,真實(shí)的人眼里有光的反射點(diǎn),如果數(shù)字人的眼球只有白色鞏膜和黑色瞳孔,目光看起來就很無神。所以,想要做出栩栩如生的數(shù)字人,面部高逼真、表情自然生動是第一步。
包儀華清楚傳統(tǒng)復(fù)現(xiàn)真人的做法,是由原畫師一幀幀畫出來。作為光電專業(yè)的學(xué)生,他們顯然不具備專業(yè)的繪畫功底,利用光學(xué)專業(yè)知識和相機(jī)成像的基礎(chǔ)技術(shù)成為首選。團(tuán)隊(duì)把畫家作畫模式變成了他們擅長的數(shù)字拍攝模式,自主研發(fā)了3D光場采集重建系統(tǒng),利用“照相術(shù)”替代“繪畫師”打造高逼真可實(shí)時驅(qū)動的數(shù)字人。
在北理工光電學(xué)院的數(shù)字人實(shí)驗(yàn)室里,成員們搭建了一個特殊的“大球”,它由80個三角面,42個頂點(diǎn)和120條邊組成。邊的中點(diǎn)和頂點(diǎn)上安裝了156組可編程LED燈源,球形燈光舞臺圍繞其中心均勻排布32臺佳能850D相機(jī),可對用戶的多種表情進(jìn)行采集,并得到不同光照,不同視角,不同偏振狀態(tài)的圖像數(shù)據(jù)。
被采集者坐在“大球”的正中央,根據(jù)要求作出各種表情。在快門頻繁開合間,團(tuán)隊(duì)獲得了梯度光場下的圖像,經(jīng)過后臺算法的解析,他們重建了人臉3D模型以及基于物理模型的皮膚貼圖,不僅讓人的臉部特寫有了真實(shí)皮膚質(zhì)感,就連面部毛孔、鼻子上的小痘痘、臉上的小斑點(diǎn)乃至皮膚紋理都清晰可見。
復(fù)現(xiàn)人的表情神態(tài)需要更細(xì)致地拆解。首先是掃描被采集者的面部肌肉運(yùn)動、臉部的皺褶等,再根據(jù)模特作出的表情,編碼成幾百個基礎(chǔ)表情元素。比如完全閉上左眼、左眼半睜開、完全閉上右眼、嘴角向上微微揚(yáng)起但人在做表情時,臉上很多部位是聯(lián)動的。所以,負(fù)責(zé)數(shù)字人面部模型重建和動作捕捉的田澤俞博士要先將已掃描出的表情拆分成單個的表情元素,再根據(jù)實(shí)際需要,將這些元素重新組合起來,構(gòu)成新的表情。
但此時的數(shù)字人仍是2D的,想讓它在3D虛擬世界里動起來,就需要實(shí)現(xiàn)數(shù)字人的個性化驅(qū)動能力。團(tuán)隊(duì)專門打造了另一套動態(tài)面部捕捉的4D系統(tǒng),通過高速相機(jī)的矩陣,逐幀采集并重建演員的動作,達(dá)到了個性化的面部運(yùn)動采樣與捕捉。
這套4D動態(tài)設(shè)備與3D靜態(tài)光場采集系統(tǒng)聯(lián)合捕捉人的表情、運(yùn)動特征和個性化信息,以此構(gòu)建了數(shù)字人完整立體的形象數(shù)據(jù)集。
克服“人工智障”
硬件設(shè)備置辦齊了,數(shù)字人團(tuán)隊(duì)迫切希望采集更多人的數(shù)據(jù)。因?yàn)槿说囊粋€表情,至少可以拆成近10個表情,之后再通過算法讓這些表情運(yùn)動起來,又能組合出來上百種表情,從而能達(dá)到傳遞微妙信息的效果。
采什么人呢?基于北京理工大學(xué)同中央戲劇學(xué)院簽訂的戰(zhàn)略合作協(xié)議,團(tuán)隊(duì)聯(lián)系了中戲宋震教授負(fù)責(zé)的戲劇數(shù)字化團(tuán)隊(duì)進(jìn)行這部分?jǐn)?shù)據(jù)采集的合作,宋教授給他們很大幫助。包儀華解釋,之所以選擇專業(yè)的演員,不僅因?yàn)檫@些人有著符合大眾審美的外貌,讓人第一眼見到就賞心悅目。還因?yàn)樗麄兪苓^專業(yè)的表演訓(xùn)練,能夠做出更豐富、更準(zhǔn)確的表情和動作,還能更精準(zhǔn)地傳達(dá)自己的情緒,即表演級表情。他們的表情驅(qū)動力比那些只能拍硬照的網(wǎng)紅、模特更符合要求。
但數(shù)據(jù)采集過程中遇到的困難遠(yuǎn)比想象中多。負(fù)責(zé)數(shù)字人數(shù)據(jù)采集與驅(qū)動的于秦伯是電子信息專業(yè)的研三學(xué)生,他2020年剛進(jìn)實(shí)驗(yàn)室時,自主研制的核心光場正在飛速迭代中,但總還有些“人工智障”,設(shè)備的穩(wěn)定性和自動化難以達(dá)到標(biāo)準(zhǔn),算法也有一定的優(yōu)化空間。
為方便進(jìn)行采集和后續(xù)的合作,2020年9月,團(tuán)隊(duì)將整體設(shè)備遷移到中戲。按要求,光場應(yīng)放在無光環(huán)境下,但當(dāng)時可以放置設(shè)備的地點(diǎn)只能在樓頂帶有天窗的畫室,對于采集環(huán)境來說并不達(dá)標(biāo),團(tuán)隊(duì)緊急協(xié)調(diào),在中戲老師們的幫助下采用遮光簾暫時進(jìn)行了光源的隔斷,但設(shè)備打開后的溫度問題仍然存在,再加上老樓沒有保溫層,光場里布滿了LED燈和相機(jī)鏡頭,雖然開了空調(diào),但屋子里始終熱氣騰騰,為了給設(shè)備散熱,于秦伯給每個設(shè)備都加上了風(fēng)扇,導(dǎo)致工作時,光場的噪音極大,人機(jī)交互體驗(yàn)不好。
由于早期技術(shù)還在迭代,錄完的數(shù)據(jù)精度不夠完美,仍然需要一些人工操作來實(shí)現(xiàn)數(shù)據(jù)的重建。而系統(tǒng)不穩(wěn)定也導(dǎo)致了小麻煩頻出。不是演員剛做幾個動作,系統(tǒng)卡住了。就是演員做完動作后,數(shù)據(jù)怎么都出不來,設(shè)備連續(xù)工作過熱,需要散熱和調(diào)試。平均每半天到一天才能采集一個人的數(shù)據(jù),每天最少持續(xù)工作八九個小時,整個數(shù)據(jù)采集周期大約持續(xù)了兩個多月而后期的數(shù)字人重建和制作又是一個漫長的周期,雖然已經(jīng)比傳統(tǒng)影視行業(yè)動輒以年為單位計(jì)算快了很多,但仍然沒達(dá)成老師理想的“一鍵生成”。于秦伯粗略計(jì)算過,當(dāng)時還原一個數(shù)字人物資產(chǎn)并實(shí)現(xiàn)實(shí)時驅(qū)動,至少需要奮戰(zhàn)兩個月。
田澤俞心里更急,運(yùn)動攝像機(jī)1秒可以錄60幀,也就是60個細(xì)微的表情。而1秒的數(shù)據(jù)量約是3GB,采集完1個人的信息得有4?5TB的數(shù)據(jù)量。數(shù)據(jù)量呈百倍地增長,光靠人力根本無法完成,必須改進(jìn)技術(shù),實(shí)現(xiàn)批量化和自動化的分布式處理,解決數(shù)據(jù)量大的問題。
好圖像是一切基礎(chǔ)的開端,想提高精度、降低誤差,必須做好相機(jī)的選型及硬件系統(tǒng)的聯(lián)調(diào)。首先得了解每款相機(jī)的各種參數(shù)值,然后將它們有機(jī)組合成一個整體,這樣才能捕獲到團(tuán)隊(duì)想要的數(shù)據(jù),這是個系統(tǒng)工程。
光場所需的相機(jī)大多是外國產(chǎn)的工業(yè)相機(jī),價格昂貴,一個相機(jī)頭動輒四五萬元人民幣。再加上需求量小,國內(nèi)廠家通常不存現(xiàn)貨,購買就直接從國外發(fā)貨。為了不造成不必要的損失,田澤俞翻閱了大量的專業(yè)資料,先從原理上進(jìn)行驗(yàn)證和構(gòu)思,再按要求找機(jī)器。如今動捕房內(nèi)已有14臺工業(yè)相機(jī),能達(dá)到不錯的效果。
要想相機(jī)照明好,就得縮短快門,以避免運(yùn)動畫面模糊,這涉及到軟件成像、電路及計(jì)算機(jī)的三維幾何測量等知識。但能借鑒的資料實(shí)在太少了,田澤俞所找到的相關(guān)論文中并沒有具體的實(shí)現(xiàn)細(xì)節(jié),更找不到工程實(shí)踐的經(jīng)驗(yàn),不僅如此,他們也沒有現(xiàn)成的函數(shù)庫、現(xiàn)成的軟件供使用。為了減少流程中出現(xiàn)的潛在問題,所有細(xì)節(jié)必須系統(tǒng)管理,很多底層算法、底層流程控制軟件都要團(tuán)隊(duì)自行開發(fā)。
相機(jī)的手調(diào)也是個專業(yè)技術(shù)活。因?yàn)槊總€人坐的角度、姿態(tài)、身高、身材不同,基本上每進(jìn)去一個人后都要調(diào)試相機(jī)的姿態(tài)精度、成像參數(shù)、攝像參數(shù)等。不僅如此,光場中300多盞LED燈前的偏振片,也需要一個個校正角度。在開機(jī)運(yùn)行了一段時間后,相機(jī)表面溫度已足有六七十度了,那感覺就像手里攥著一只發(fā)燙的燈泡,但田澤俞不能戴手套,因?yàn)槟菢泳蜔o法精確對焦,每次一圈調(diào)試下來,他的雙手總被燙得通紅。但調(diào)好后的圖像果真更清晰了,就連人嘴上的汗毛都看得真切。
經(jīng)過團(tuán)隊(duì)的小伙伴一次次技術(shù)迭代,在今天的第六代核心光場中,軟件的穩(wěn)定性和流程的自動化程度均得到大大的改善。機(jī)器在采集到人的靜態(tài)、動作數(shù)據(jù)后,能快速送入后臺系統(tǒng),按要求自動生成符合要求的模型,制作完善一個人物資產(chǎn)的時間被縮減到一兩周內(nèi)。
AI大腦和AI小腦
除了高逼真,數(shù)字人技術(shù)要想走得長遠(yuǎn),必須實(shí)現(xiàn)“可交互”功能。北理工數(shù)字人團(tuán)隊(duì)給出的解決方案是AI大腦和AI小腦的結(jié)合。團(tuán)隊(duì)中負(fù)責(zé)人機(jī)交互的光學(xué)工程專業(yè)研二學(xué)生杜秋欣解釋:AI大腦賦予了數(shù)字人邏輯思維能力,AI小腦則能讓數(shù)字人擁有運(yùn)動能力。
“AI大腦”負(fù)責(zé)實(shí)現(xiàn)數(shù)字人自然語言的處理、知識管理、對話系統(tǒng)等功能,實(shí)現(xiàn)對多個業(yè)務(wù)系統(tǒng)的實(shí)時連接,提供人機(jī)交流的主題邏輯功能。但問題是,人與人進(jìn)行溝通時,人的微表情、細(xì)節(jié)、神態(tài)等多模態(tài)信息,都是邏輯腦無法解決的,那該怎么辦呢?基于采集到的行為資產(chǎn),團(tuán)隊(duì)專門訓(xùn)練了一個驅(qū)動數(shù)字人運(yùn)動的深度學(xué)習(xí)網(wǎng)絡(luò),?將AI大腦和小腦相結(jié)合,這樣做出來的數(shù)字人不僅超逼真,也十分有智慧。
作為團(tuán)隊(duì)的最新作品,“靈”的面部表情由800多根“骨骼”協(xié)同控制,而面部材質(zhì)則由82個材質(zhì)參數(shù)進(jìn)行動態(tài)調(diào)整。她是語義、語音、視覺三大AI技術(shù)融合的結(jié)晶,代表著未來人機(jī)交互的新范式,是未來元宇宙世界溝通真實(shí)與虛擬的關(guān)鍵。
包儀華和團(tuán)隊(duì)的小伙伴堅(jiān)信,未來在AI技術(shù)的支持下,一定能實(shí)現(xiàn)機(jī)器與情感的連接和流動,終將會有更真實(shí)的數(shù)字人參與人類的生活。
責(zé)任編輯:刁雅琴