“數(shù)字人”狂飆

2023-11-11 16:04:07王小豪

南風(fēng)窗 2023年23期

王小豪

最近在科創(chuàng)界，先后出現(xiàn)了兩件令人驚奇的新聞，都與“數(shù)字人”有關(guān)。

第一件是ChatGPT推出了真人語(yǔ)音功能，它能夠扮演5個(gè)不同的角色來(lái)回答用戶(hù)的問(wèn)題。和Siri等語(yǔ)音助手不同的地方在于，它的回答更加自然，甚至還會(huì)出現(xiàn)停頓、語(yǔ)氣詞，口水音，和正常人類(lèi)說(shuō)話(huà)沒(méi)什么兩樣。如果不事先知道這個(gè)聲音來(lái)自AI，很難分辨得出來(lái)。

另一件事情，是扎克伯格接受了一場(chǎng)特殊的采訪(fǎng)，他和視頻博主Lex Fridman戴上了最新版的Quest Pro頭顯，進(jìn)入Meta的元宇宙中，用各自的虛擬形象進(jìn)行交談。令人嘖嘖稱(chēng)奇的是，他們?cè)谠钪胬锏哪樋仔蜗?，已?jīng)與他們的真實(shí)模樣相差無(wú)幾，微笑、咧嘴、皺眉等細(xì)微表情都能得到細(xì)致還原。

這不得不讓人驚嘆，畢竟一年前扎克伯格在元宇宙展示出來(lái)的虛擬分身，還是個(gè)像“小丸子爺爺”那般簡(jiǎn)陋的卡通形象，當(dāng)時(shí)還受到了輿論群嘲。僅一年的時(shí)間，他就擁有了一個(gè)超越“恐怖谷”效應(yīng)的元宇宙版本的“自己”。

這兩則新聞，一則指向了AI的擬人化，一則指向了人類(lèi)的虛擬化，看起來(lái)是截然不同的方向，但這兩條路徑的目標(biāo)顯然是一致的—在虛擬世界復(fù)刻真實(shí)的人類(lèi)生活，而不論這個(gè)“人”該如何定義。

生成式AI+數(shù)字人

扎克伯格的這場(chǎng)元宇宙訪(fǎng)談，談到了兩個(gè)細(xì)節(jié)，可以作為我們討論“數(shù)字人”的引子。

首先是他逼真的虛擬形象。他解釋道，自己的虛擬形象采用的是目前最先進(jìn)的臉譜掃描技術(shù)，需要通過(guò)幾百個(gè)相機(jī)進(jìn)行長(zhǎng)達(dá)數(shù)小時(shí)、360度無(wú)死角的掃描才能實(shí)現(xiàn)。但他的團(tuán)隊(duì)正在努力縮短這個(gè)流程，未來(lái)讓用戶(hù)只需要拿起手機(jī)在臉上晃幾分鐘，說(shuō)幾句話(huà)，做幾個(gè)表情，就可以?huà)呙枰粋€(gè)高精度的人像模型。

其次，在扎克伯格的設(shè)想中，這項(xiàng)技術(shù)與AI的聯(lián)系非常緊密，他希望將兩者結(jié)合起來(lái)，打造具有自主思維和逼真形象的“數(shù)字人”，為人們提供社交、游戲等服務(wù)。

他談到的這兩點(diǎn)，基本上涵蓋了當(dāng)前“數(shù)字人”在技術(shù)上的研發(fā)要點(diǎn)：“擬真度”和“互動(dòng)能力”。我們先從“擬真度”談起，這個(gè)領(lǐng)域可以分為兩種技術(shù)方向，以Meta為代表的走的是“還原”路線(xiàn)，旨在盡可能地復(fù)刻真人相貌，令其充當(dāng)替身。另一種方向則是創(chuàng)造全新的臉孔，在這條路徑里，三星旗下的STAR Lab在2020年發(fā)布的“neon數(shù)字人”便提供了很好的示范。

Neon數(shù)字人最令人驚嘆的地方是，它的樣貌、行為乃至思維習(xí)慣和真人別無(wú)二致，它有著真人比例的大小，形態(tài)各異的造型，活動(dòng)起來(lái)就像是在看一段真人錄制的視頻。但區(qū)別在于，這些臉孔都是“原創(chuàng)”的。更新奇的地方是，每個(gè)“neon數(shù)字人”還有著自己的脾性，它可以從事瑜伽教練、接待員、客服助手等工作，但也會(huì)因?yàn)殚L(zhǎng)時(shí)間“打工”而感到厭倦。

簡(jiǎn)言之，它不是語(yǔ)音助手，而是“虛擬人類(lèi)”，如果對(duì)他不好，他可是會(huì)鬧脾氣的。

在“互動(dòng)能力”方面，應(yīng)該說(shuō)，以ChatGPT為代表的生成式AI的飛躍式發(fā)展，讓業(yè)界真正看到了創(chuàng)造智能化“數(shù)字人”的希望。在此之前，并沒(méi)有多少企業(yè)或機(jī)構(gòu)把可交互性當(dāng)作“數(shù)字人”的研發(fā)重點(diǎn)。

對(duì)“數(shù)字人”的研發(fā)最早可以追溯到上世紀(jì)80年代，從日本的動(dòng)漫、宅文化中衍生出來(lái)的二次元“虛擬偶像”。1982年，日本動(dòng)畫(huà)《超時(shí)空要塞》的女主角林明美被制作成首個(gè)虛擬偶像歌手。2007年，初音未來(lái)誕生，并采用全息投影技術(shù)舉辦了全球首個(gè)“虛擬偶像”演唱會(huì)。

此后，隨著數(shù)字建模技術(shù)的進(jìn)步，業(yè)界才逐漸走向真人化“數(shù)字人”的研發(fā)。追求形體的擬真，是“數(shù)字人”由來(lái)已久的研究方向，而且在電影、游戲、音樂(lè)等行業(yè)有著真切的商用需求。但這一方向走到底，最多也只能做到外表上的百分百相同，但它的交互要么依賴(lài)真人，要么非常程式化。盡管三星開(kāi)發(fā)的“neon數(shù)字人”形象極為逼真，但官方展示出來(lái)的“數(shù)字人”都經(jīng)過(guò)預(yù)渲染處理，實(shí)際上臨場(chǎng)交互能力達(dá)不到宣傳的高度。

直到生成式AI技術(shù)的崛起，開(kāi)發(fā)“數(shù)字人”的獨(dú)立交互能力，才真正有了技術(shù)基礎(chǔ)。

斯坦福大學(xué)的研究者們創(chuàng)建了一個(gè)名為Smallville的虛擬小鎮(zhèn)，在里面植入了25個(gè)AI像素人，他們?cè)诶锩婀ぷ?、社交、甚至舉辦情人節(jié)派對(duì)，看起來(lái)像極了AI版的《星露谷物語(yǔ)》。

英偉達(dá)在把自己開(kāi)發(fā)的游戲AI智能體“voyager”接入GPT-4后，他們甚至可以自行在游戲里挖礦、建造房屋，進(jìn)行遠(yuǎn)程探險(xiǎn)。

AI的擬人化、人類(lèi)的虛擬化，看起來(lái)是截然不同的方向，但這兩條路徑的目標(biāo)顯然是一致的—在虛擬世界復(fù)刻真實(shí)的人類(lèi)生活。

設(shè)想一下，如果把Smallville里的像素小人替換成真人形象數(shù)字人，那么就是扎克伯格所暢想的元宇宙圖景了。不妨大膽想象，如果未來(lái)兩個(gè)“i人”在元宇宙里見(jiàn)面，尷尬得不知道聊點(diǎn)什么時(shí)，可以召喚一個(gè)“e人”性格的AI數(shù)字人出來(lái)活絡(luò)氣氛，充當(dāng)社交潤(rùn)滑劑。

而生成式AI與游戲NPC的合體，無(wú)疑將使游戲玩家們的體驗(yàn)上升一大截，與具有獨(dú)立思考能力的NPC進(jìn)行互動(dòng)，在游戲體驗(yàn)上肯定比現(xiàn)在程式化的設(shè)計(jì)要好得多。

也難怪已經(jīng)“All in 元宇宙”的扎克伯格，在不久前的2023財(cái)年第三季度財(cái)報(bào)電話(huà)會(huì)議上表示，AI技術(shù)將成為Meta在2024年最大的投資領(lǐng)域。

就像“互聯(lián)網(wǎng)+”改變了各行各業(yè)一樣，生成式AI也可以“+”任何事情，包括賦予“數(shù)字人”以靈魂。

趕早集的直播行業(yè)

如果說(shuō)先進(jìn)的科研機(jī)構(gòu)、科技巨頭還在琢磨怎么“創(chuàng)造人類(lèi)”，那么講究實(shí)用的業(yè)界，已經(jīng)把一些更為粗糙、簡(jiǎn)陋的“數(shù)字人”應(yīng)用到了商業(yè)領(lǐng)域。

應(yīng)用最廣泛的便是直播行業(yè)。如今，“數(shù)字人”主播已經(jīng)十分普及，在抖音、快手等短視頻直播平臺(tái)，很多在鏡頭前滔滔不絕、兜售商品的主播，其實(shí)是“數(shù)字人”。

這些直播間里的“數(shù)字人”的外觀(guān)五花八門(mén)，有2D、3D的二次元人物，也有仿真人、真人建模等走現(xiàn)實(shí)主義的“數(shù)字人”。其內(nèi)里的“靈魂”，可能來(lái)自后臺(tái)的真人，也可能是根據(jù)文字生成的語(yǔ)音，再高級(jí)點(diǎn)的則用上擬真的聲線(xiàn)。

這些“數(shù)字人”的制作過(guò)程也不復(fù)雜。如果是“拷貝”一個(gè)真人形象，通過(guò)動(dòng)作捕捉技術(shù)，只需要主播在綠幕前穿上幾件出鏡用的衣服，記錄下一些常用動(dòng)作、手勢(shì)，就可以在不到5分鐘的時(shí)間里制作出一個(gè)足以“以假亂真”的分身。

有up主曾在自己的視頻欄目里做過(guò)測(cè)試，在視頻播出了近5分鐘后，他才以真人面目出現(xiàn)，告訴觀(guān)眾們前面出鏡的其實(shí)是“數(shù)字人”版的自己，而幾乎沒(méi)有觀(guān)眾發(fā)現(xiàn)異樣。

更高級(jí)一些的技術(shù)，還能在仿真的基礎(chǔ)上任意地改變自己的外貌特征，讓自己看起來(lái)更年輕或者更成熟，如果愿意的話(huà)，可以一直保持在“凍齡”狀態(tài)。

如果要求低一些，還可以用一些“公?！保P者在進(jìn)行研究時(shí)，選擇了騰訊智影這款數(shù)字人播報(bào)產(chǎn)品進(jìn)行體驗(yàn)，它默認(rèn)提供了幾個(gè)人物形象，只需要在右側(cè)的文字框輸入想要生成的語(yǔ)音文字，隨后點(diǎn)擊“合成視頻”，稍等片刻，就可以得到一段帶有“真人播報(bào)”的視頻。

細(xì)看還是能看出異樣，例如臉部與身體的銜接有點(diǎn)不自然，肢體動(dòng)作也比較簡(jiǎn)單，看上去有點(diǎn)像掉幀的畫(huà)面。在聲音方面則是和我們?cè)诘貓D導(dǎo)航中聽(tīng)到的差不多，雖然為了逼真一些，可以在文本中插入“停頓時(shí)間”，但無(wú)法與ChatGPT極為逼真的口語(yǔ)表達(dá)相比擬。

雖然說(shuō)這些“數(shù)字人”的形態(tài)比較粗糙，無(wú)法還原真實(shí)人類(lèi)的相貌體態(tài)，口型也經(jīng)常對(duì)不上，但在手機(jī)這樣的狹小屏幕內(nèi)，對(duì)精度的要求并沒(méi)有那么高，這點(diǎn)瑕疵無(wú)傷大雅。

和真人主播相比，這些“數(shù)字人”主播最大的優(yōu)點(diǎn)在于不用休息，可以24小時(shí)不間斷地直播，還不需要場(chǎng)地、攝影器材和人力投入。

此外，制作這些“數(shù)字人”主播的成本差異很大，上至幾十萬(wàn)，下至幾百元，從便宜的2D形象到精細(xì)的真人“拷貝”，完全豐儉由人。平均下來(lái)，“數(shù)字人”主播的成本不及真人主播的幾十分之一。

從最終的效果來(lái)看，觀(guān)眾也為這些“數(shù)字人”主播買(mǎi)單，例如，在拼多多的特步直播間里，數(shù)字人主播日均GMV約為4.1萬(wàn)元。甚至有的“數(shù)字人”主播的日均成交額比真人主播還高。

商業(yè)上的前景，極大地推動(dòng)了這一行業(yè)的發(fā)展。據(jù)數(shù)據(jù)統(tǒng)計(jì)，僅2022年，數(shù)字人相關(guān)企業(yè)注冊(cè)數(shù)量就高達(dá)948家，增速68%，已然成為一個(gè)新的風(fēng)口。

AI發(fā)展需要“數(shù)字人”

站在當(dāng)下這個(gè)時(shí)間點(diǎn)，我們還很難定義“數(shù)字人”究竟是什么，因?yàn)樗鼈兊男螒B(tài)各異，外在形式與內(nèi)在邏輯也各不相同。

從已經(jīng)實(shí)現(xiàn)的程度來(lái)看，它更像人的“虛擬外殼”，這個(gè)外殼形態(tài)各異，但仍依賴(lài)人的思維進(jìn)行驅(qū)動(dòng)。但從研究重點(diǎn)與發(fā)展潮流來(lái)看，它必然會(huì)在生成式AI的加持下，走向發(fā)展出獨(dú)立行為邏輯的智能體的路徑，實(shí)現(xiàn)自我驅(qū)動(dòng)。

對(duì)人的形象，特別是臉孔的確認(rèn)，既是親密感產(chǎn)生的重要方式，也是信任關(guān)系得以建立的前提，而無(wú)論這個(gè)形象是否真實(shí)存在。

那么我們?cè)撊绾慰创墒紸I與“數(shù)字人”之間的關(guān)系？

從功能上看，毫無(wú)疑問(wèn)是生成式AI促進(jìn)了“數(shù)字人”的發(fā)展，推動(dòng)其從低級(jí)邁向高級(jí)。如果它現(xiàn)在是有效率的生產(chǎn)機(jī)器—制造永不停歇的人類(lèi)形象，用來(lái)帶貨、講課、表演，帶來(lái)商業(yè)、文化、娛樂(lè)等方面的價(jià)值，那么未來(lái)，它將成為人們投射情感，滿(mǎn)足陪伴需求的對(duì)象，甚至參與到人與人的交往中，成為關(guān)系網(wǎng)絡(luò)的有機(jī)組成部分。

但是，生成式AI與“數(shù)字人”之間的關(guān)系可能并不是簡(jiǎn)單的單向關(guān)系。

站在用戶(hù)角度，“數(shù)字人”的內(nèi)在是否具有“靈魂”，可能并不是最重要的事情，畢竟當(dāng)前流行于直播間里的粗糙版本，也有不少受眾，甚至已經(jīng)培育出了一個(gè)日益成熟的行業(yè)。

另一方面，生成式AI的核心能力—輸出“原創(chuàng)文本”，并不因套上一個(gè)人類(lèi)的外殼而變得更加先進(jìn)。

因此，反過(guò)來(lái)思考這個(gè)問(wèn)題，可能有助于我們厘清兩者的關(guān)系：把AI智能體加載在“人類(lèi)形象”上的必要性在哪里？

答案或許就在“人類(lèi)形象”本身。在現(xiàn)實(shí)生活中，很多關(guān)鍵的互動(dòng)，都是在人與人的直接接觸時(shí)完成的。

設(shè)想一下，如果一個(gè)直播間沒(méi)有主播在場(chǎng)，而只有聲音在飄蕩，其實(shí)很難建立起主播與觀(guān)眾之間的情感聯(lián)系，也會(huì)給人一種很不踏實(shí)的感覺(jué)。

對(duì)人的形象，特別是臉孔的確認(rèn)，既是親密感產(chǎn)生的重要方式，也是信任關(guān)系得以建立的前提，而無(wú)論這個(gè)形象是否真實(shí)存在，畢竟人們可以把自己的情感投射到電影、游戲、動(dòng)漫等虛構(gòu)角色里去，從這個(gè)角度來(lái)說(shuō)，具象比真實(shí)更為重要。

這種“面對(duì)面”效應(yīng)，在人與AI的互動(dòng)里同樣存在。對(duì)于AI這樣一個(gè)“多智而近妖”的智能體來(lái)說(shuō)，無(wú)論它能夠?qū)崿F(xiàn)什么樣的功能，賦予它一個(gè)“臉孔”，使它在最自然、熟悉的情景下與人互動(dòng)，才能讓它的本領(lǐng)最大化地發(fā)揮。

就好比在元宇宙的世界里，我們不會(huì)希望由一個(gè)佇立著的黑色石碑來(lái)?yè)?dān)任指導(dǎo)，它的神秘氣息只會(huì)讓我們覺(jué)得自己是《2001太空漫游》里的猿人。

從這個(gè)意義來(lái)講，成為“數(shù)字人”，或許是AI更進(jìn)一步發(fā)展的必然之路。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“數(shù)字人”狂飆

生成式AI+數(shù)字人

趕早集的直播行業(yè)

AI發(fā)展需要“數(shù)字人”