王小豪
最近在科創(chuàng)界,先后出現(xiàn)了兩件令人驚奇的新聞,都與“數(shù)字人”有關(guān)。
第一件是ChatGPT推出了真人語(yǔ)音功能,它能夠扮演5個(gè)不同的角色來(lái)回答用戶(hù)的問(wèn)題。和Siri等語(yǔ)音助手不同的地方在于,它的回答更加自然,甚至還會(huì)出現(xiàn)停頓、語(yǔ)氣詞,口水音,和正常人類(lèi)說(shuō)話(huà)沒(méi)什么兩樣。如果不事先知道這個(gè)聲音來(lái)自AI,很難分辨得出來(lái)。
另一件事情,是扎克伯格接受了一場(chǎng)特殊的采訪(fǎng),他和視頻博主Lex Fridman戴上了最新版的Quest Pro頭顯,進(jìn)入Meta的元宇宙中,用各自的虛擬形象進(jìn)行交談。令人嘖嘖稱(chēng)奇的是,他們?cè)谠钪胬锏哪樋仔蜗?,已?jīng)與他們的真實(shí)模樣相差無(wú)幾,微笑、咧嘴、皺眉等細(xì)微表情都能得到細(xì)致還原。
這不得不讓人驚嘆,畢竟一年前扎克伯格在元宇宙展示出來(lái)的虛擬分身,還是個(gè)像“小丸子爺爺”那般簡(jiǎn)陋的卡通形象,當(dāng)時(shí)還受到了輿論群嘲。僅一年的時(shí)間,他就擁有了一個(gè)超越“恐怖谷”效應(yīng)的元宇宙版本的“自己”。
這兩則新聞,一則指向了AI的擬人化,一則指向了人類(lèi)的虛擬化,看起來(lái)是截然不同的方向,但這兩條路徑的目標(biāo)顯然是一致的—在虛擬世界復(fù)刻真實(shí)的人類(lèi)生活,而不論這個(gè)“人”該如何定義。
扎克伯格的這場(chǎng)元宇宙訪(fǎng)談,談到了兩個(gè)細(xì)節(jié),可以作為我們討論“數(shù)字人”的引子。
首先是他逼真的虛擬形象。他解釋道,自己的虛擬形象采用的是目前最先進(jìn)的臉譜掃描技術(shù),需要通過(guò)幾百個(gè)相機(jī)進(jìn)行長(zhǎng)達(dá)數(shù)小時(shí)、360度無(wú)死角的掃描才能實(shí)現(xiàn)。但他的團(tuán)隊(duì)正在努力縮短這個(gè)流程,未來(lái)讓用戶(hù)只需要拿起手機(jī)在臉上晃幾分鐘,說(shuō)幾句話(huà),做幾個(gè)表情,就可以?huà)呙枰粋€(gè)高精度的人像模型。
其次,在扎克伯格的設(shè)想中,這項(xiàng)技術(shù)與AI的聯(lián)系非常緊密,他希望將兩者結(jié)合起來(lái),打造具有自主思維和逼真形象的“數(shù)字人”,為人們提供社交、游戲等服務(wù)。
他談到的這兩點(diǎn),基本上涵蓋了當(dāng)前“數(shù)字人”在技術(shù)上的研發(fā)要點(diǎn):“擬真度”和“互動(dòng)能力”。我們先從“擬真度”談起,這個(gè)領(lǐng)域可以分為兩種技術(shù)方向,以Meta為代表的走的是“還原”路線(xiàn),旨在盡可能地復(fù)刻真人相貌,令其充當(dāng)替身。另一種方向則是創(chuàng)造全新的臉孔,在這條路徑里,三星旗下的STAR Lab在2020年發(fā)布的“neon數(shù)字人”便提供了很好的示范。
Neon數(shù)字人最令人驚嘆的地方是,它的樣貌、行為乃至思維習(xí)慣和真人別無(wú)二致,它有著真人比例的大小,形態(tài)各異的造型,活動(dòng)起來(lái)就像是在看一段真人錄制的視頻。但區(qū)別在于,這些臉孔都是“原創(chuàng)”的。更新奇的地方是,每個(gè)“neon數(shù)字人”還有著自己的脾性,它可以從事瑜伽教練、接待員、客服助手等工作,但也會(huì)因?yàn)殚L(zhǎng)時(shí)間“打工”而感到厭倦。
簡(jiǎn)言之,它不是語(yǔ)音助手,而是“虛擬人類(lèi)”,如果對(duì)他不好,他可是會(huì)鬧脾氣的。
在“互動(dòng)能力”方面,應(yīng)該說(shuō),以ChatGPT為代表的生成式AI的飛躍式發(fā)展,讓業(yè)界真正看到了創(chuàng)造智能化“數(shù)字人”的希望。在此之前,并沒(méi)有多少企業(yè)或機(jī)構(gòu)把可交互性當(dāng)作“數(shù)字人”的研發(fā)重點(diǎn)。
對(duì)“數(shù)字人”的研發(fā)最早可以追溯到上世紀(jì)80年代,從日本的動(dòng)漫、宅文化中衍生出來(lái)的二次元“虛擬偶像”。1982年,日本動(dòng)畫(huà)《超時(shí)空要塞》的女主角林明美被制作成首個(gè)虛擬偶像歌手。2007年,初音未來(lái)誕生,并采用全息投影技術(shù)舉辦了全球首個(gè)“虛擬偶像”演唱會(huì)。
此后,隨著數(shù)字建模技術(shù)的進(jìn)步,業(yè)界才逐漸走向真人化“數(shù)字人”的研發(fā)。追求形體的擬真,是“數(shù)字人”由來(lái)已久的研究方向,而且在電影、游戲、音樂(lè)等行業(yè)有著真切的商用需求。但這一方向走到底,最多也只能做到外表上的百分百相同,但它的交互要么依賴(lài)真人,要么非常程式化。盡管三星開(kāi)發(fā)的“neon數(shù)字人”形象極為逼真,但官方展示出來(lái)的“數(shù)字人”都經(jīng)過(guò)預(yù)渲染處理,實(shí)際上臨場(chǎng)交互能力達(dá)不到宣傳的高度。
直到生成式AI技術(shù)的崛起,開(kāi)發(fā)“數(shù)字人”的獨(dú)立交互能力,才真正有了技術(shù)基礎(chǔ)。
斯坦福大學(xué)的研究者們創(chuàng)建了一個(gè)名為Smallville的虛擬小鎮(zhèn),在里面植入了25個(gè)AI像素人,他們?cè)诶锩婀ぷ?、社交、甚至舉辦情人節(jié)派對(duì),看起來(lái)像極了AI版的《星露谷物語(yǔ)》。
英偉達(dá)在把自己開(kāi)發(fā)的游戲AI智能體“voyager”接入GPT-4后,他們甚至可以自行在游戲里挖礦、建造房屋,進(jìn)行遠(yuǎn)程探險(xiǎn)。
AI的擬人化、人類(lèi)的虛擬化,看起來(lái)是截然不同的方向,但這兩條路徑的目標(biāo)顯然是一致的—在虛擬世界復(fù)刻真實(shí)的人類(lèi)生活。
設(shè)想一下,如果把Smallville里的像素小人替換成真人形象數(shù)字人,那么就是扎克伯格所暢想的元宇宙圖景了。不妨大膽想象,如果未來(lái)兩個(gè)“i人”在元宇宙里見(jiàn)面,尷尬得不知道聊點(diǎn)什么時(shí),可以召喚一個(gè)“e人”性格的AI數(shù)字人出來(lái)活絡(luò)氣氛,充當(dāng)社交潤(rùn)滑劑。
而生成式AI與游戲NPC的合體,無(wú)疑將使游戲玩家們的體驗(yàn)上升一大截,與具有獨(dú)立思考能力的NPC進(jìn)行互動(dòng),在游戲體驗(yàn)上肯定比現(xiàn)在程式化的設(shè)計(jì)要好得多。
也難怪已經(jīng)“All in 元宇宙”的扎克伯格,在不久前的2023財(cái)年第三季度財(cái)報(bào)電話(huà)會(huì)議上表示,AI技術(shù)將成為Meta在2024年最大的投資領(lǐng)域。
就像“互聯(lián)網(wǎng)+”改變了各行各業(yè)一樣,生成式AI也可以“+”任何事情,包括賦予“數(shù)字人”以靈魂。
如果說(shuō)先進(jìn)的科研機(jī)構(gòu)、科技巨頭還在琢磨怎么“創(chuàng)造人類(lèi)”,那么講究實(shí)用的業(yè)界,已經(jīng)把一些更為粗糙、簡(jiǎn)陋的“數(shù)字人”應(yīng)用到了商業(yè)領(lǐng)域。
應(yīng)用最廣泛的便是直播行業(yè)。如今,“數(shù)字人”主播已經(jīng)十分普及,在抖音、快手等短視頻直播平臺(tái),很多在鏡頭前滔滔不絕、兜售商品的主播,其實(shí)是“數(shù)字人”。
這些直播間里的“數(shù)字人”的外觀(guān)五花八門(mén),有2D、3D的二次元人物,也有仿真人、真人建模等走現(xiàn)實(shí)主義的“數(shù)字人”。其內(nèi)里的“靈魂”,可能來(lái)自后臺(tái)的真人,也可能是根據(jù)文字生成的語(yǔ)音,再高級(jí)點(diǎn)的則用上擬真的聲線(xiàn)。
這些“數(shù)字人”的制作過(guò)程也不復(fù)雜。如果是“拷貝”一個(gè)真人形象,通過(guò)動(dòng)作捕捉技術(shù),只需要主播在綠幕前穿上幾件出鏡用的衣服,記錄下一些常用動(dòng)作、手勢(shì),就可以在不到5分鐘的時(shí)間里制作出一個(gè)足以“以假亂真”的分身。
有up主曾在自己的視頻欄目里做過(guò)測(cè)試,在視頻播出了近5分鐘后,他才以真人面目出現(xiàn),告訴觀(guān)眾們前面出鏡的其實(shí)是“數(shù)字人”版的自己,而幾乎沒(méi)有觀(guān)眾發(fā)現(xiàn)異樣。
更高級(jí)一些的技術(shù),還能在仿真的基礎(chǔ)上任意地改變自己的外貌特征,讓自己看起來(lái)更年輕或者更成熟,如果愿意的話(huà),可以一直保持在“凍齡”狀態(tài)。
如果要求低一些,還可以用一些“公?!保P者在進(jìn)行研究時(shí),選擇了騰訊智影這款數(shù)字人播報(bào)產(chǎn)品進(jìn)行體驗(yàn),它默認(rèn)提供了幾個(gè)人物形象,只需要在右側(cè)的文字框輸入想要生成的語(yǔ)音文字,隨后點(diǎn)擊“合成視頻”,稍等片刻,就可以得到一段帶有“真人播報(bào)”的視頻。
細(xì)看還是能看出異樣,例如臉部與身體的銜接有點(diǎn)不自然,肢體動(dòng)作也比較簡(jiǎn)單,看上去有點(diǎn)像掉幀的畫(huà)面。在聲音方面則是和我們?cè)诘貓D導(dǎo)航中聽(tīng)到的差不多,雖然為了逼真一些,可以在文本中插入“停頓時(shí)間”,但無(wú)法與ChatGPT極為逼真的口語(yǔ)表達(dá)相比擬。
雖然說(shuō)這些“數(shù)字人”的形態(tài)比較粗糙,無(wú)法還原真實(shí)人類(lèi)的相貌體態(tài),口型也經(jīng)常對(duì)不上,但在手機(jī)這樣的狹小屏幕內(nèi),對(duì)精度的要求并沒(méi)有那么高,這點(diǎn)瑕疵無(wú)傷大雅。
和真人主播相比,這些“數(shù)字人”主播最大的優(yōu)點(diǎn)在于不用休息,可以24小時(shí)不間斷地直播,還不需要場(chǎng)地、攝影器材和人力投入。
此外,制作這些“數(shù)字人”主播的成本差異很大,上至幾十萬(wàn),下至幾百元,從便宜的2D形象到精細(xì)的真人“拷貝”,完全豐儉由人。平均下來(lái),“數(shù)字人”主播的成本不及真人主播的幾十分之一。
從最終的效果來(lái)看,觀(guān)眾也為這些“數(shù)字人”主播買(mǎi)單,例如,在拼多多的特步直播間里,數(shù)字人主播日均GMV約為4.1萬(wàn)元。甚至有的“數(shù)字人”主播的日均成交額比真人主播還高。
商業(yè)上的前景,極大地推動(dòng)了這一行業(yè)的發(fā)展。據(jù)數(shù)據(jù)統(tǒng)計(jì),僅2022年,數(shù)字人相關(guān)企業(yè)注冊(cè)數(shù)量就高達(dá)948家,增速68%,已然成為一個(gè)新的風(fēng)口。
站在當(dāng)下這個(gè)時(shí)間點(diǎn),我們還很難定義“數(shù)字人”究竟是什么,因?yàn)樗鼈兊男螒B(tài)各異,外在形式與內(nèi)在邏輯也各不相同。
從已經(jīng)實(shí)現(xiàn)的程度來(lái)看,它更像人的“虛擬外殼”,這個(gè)外殼形態(tài)各異,但仍依賴(lài)人的思維進(jìn)行驅(qū)動(dòng)。但從研究重點(diǎn)與發(fā)展潮流來(lái)看,它必然會(huì)在生成式AI的加持下,走向發(fā)展出獨(dú)立行為邏輯的智能體的路徑,實(shí)現(xiàn)自我驅(qū)動(dòng)。
對(duì)人的形象,特別是臉孔的確認(rèn),既是親密感產(chǎn)生的重要方式,也是信任關(guān)系得以建立的前提,而無(wú)論這個(gè)形象是否真實(shí)存在。
那么我們?cè)撊绾慰创墒紸I與“數(shù)字人”之間的關(guān)系?
從功能上看,毫無(wú)疑問(wèn)是生成式AI促進(jìn)了“數(shù)字人”的發(fā)展,推動(dòng)其從低級(jí)邁向高級(jí)。如果它現(xiàn)在是有效率的生產(chǎn)機(jī)器—制造永不停歇的人類(lèi)形象,用來(lái)帶貨、講課、表演,帶來(lái)商業(yè)、文化、娛樂(lè)等方面的價(jià)值,那么未來(lái),它將成為人們投射情感,滿(mǎn)足陪伴需求的對(duì)象,甚至參與到人與人的交往中,成為關(guān)系網(wǎng)絡(luò)的有機(jī)組成部分。
但是,生成式AI與“數(shù)字人”之間的關(guān)系可能并不是簡(jiǎn)單的單向關(guān)系。
站在用戶(hù)角度,“數(shù)字人”的內(nèi)在是否具有“靈魂”,可能并不是最重要的事情,畢竟當(dāng)前流行于直播間里的粗糙版本,也有不少受眾,甚至已經(jīng)培育出了一個(gè)日益成熟的行業(yè)。
另一方面,生成式AI的核心能力—輸出“原創(chuàng)文本”,并不因套上一個(gè)人類(lèi)的外殼而變得更加先進(jìn)。
因此,反過(guò)來(lái)思考這個(gè)問(wèn)題,可能有助于我們厘清兩者的關(guān)系:把AI智能體加載在“人類(lèi)形象”上的必要性在哪里?
答案或許就在“人類(lèi)形象”本身。在現(xiàn)實(shí)生活中,很多關(guān)鍵的互動(dòng),都是在人與人的直接接觸時(shí)完成的。
設(shè)想一下,如果一個(gè)直播間沒(méi)有主播在場(chǎng),而只有聲音在飄蕩,其實(shí)很難建立起主播與觀(guān)眾之間的情感聯(lián)系,也會(huì)給人一種很不踏實(shí)的感覺(jué)。
對(duì)人的形象,特別是臉孔的確認(rèn),既是親密感產(chǎn)生的重要方式,也是信任關(guān)系得以建立的前提,而無(wú)論這個(gè)形象是否真實(shí)存在,畢竟人們可以把自己的情感投射到電影、游戲、動(dòng)漫等虛構(gòu)角色里去,從這個(gè)角度來(lái)說(shuō),具象比真實(shí)更為重要。
這種“面對(duì)面”效應(yīng),在人與AI的互動(dòng)里同樣存在。對(duì)于AI這樣一個(gè)“多智而近妖”的智能體來(lái)說(shuō),無(wú)論它能夠?qū)崿F(xiàn)什么樣的功能,賦予它一個(gè)“臉孔”,使它在最自然、熟悉的情景下與人互動(dòng),才能讓它的本領(lǐng)最大化地發(fā)揮。
就好比在元宇宙的世界里,我們不會(huì)希望由一個(gè)佇立著的黑色石碑來(lái)?yè)?dān)任指導(dǎo),它的神秘氣息只會(huì)讓我們覺(jué)得自己是《2001太空漫游》里的猿人。
從這個(gè)意義來(lái)講,成為“數(shù)字人”,或許是AI更進(jìn)一步發(fā)展的必然之路。