国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“數(shù)字人”狂飆

2023-11-11 16:04:07王小豪
南風(fēng)窗 2023年23期
關(guān)鍵詞:扎克真人主播

王小豪

最近在科創(chuàng)界,先后出現(xiàn)了兩件令人驚奇的新聞,都與“數(shù)字人”有關(guān)。

第一件是ChatGPT推出了真人語(yǔ)音功能,它能夠扮演5個(gè)不同的角色來(lái)回答用戶(hù)的問(wèn)題。和Siri等語(yǔ)音助手不同的地方在于,它的回答更加自然,甚至還會(huì)出現(xiàn)停頓、語(yǔ)氣詞,口水音,和正常人類(lèi)說(shuō)話(huà)沒(méi)什么兩樣。如果不事先知道這個(gè)聲音來(lái)自AI,很難分辨得出來(lái)。

另一件事情,是扎克伯格接受了一場(chǎng)特殊的采訪(fǎng),他和視頻博主Lex Fridman戴上了最新版的Quest Pro頭顯,進(jìn)入Meta的元宇宙中,用各自的虛擬形象進(jìn)行交談。令人嘖嘖稱(chēng)奇的是,他們?cè)谠钪胬锏哪樋仔蜗?,已?jīng)與他們的真實(shí)模樣相差無(wú)幾,微笑、咧嘴、皺眉等細(xì)微表情都能得到細(xì)致還原。

這不得不讓人驚嘆,畢竟一年前扎克伯格在元宇宙展示出來(lái)的虛擬分身,還是個(gè)像“小丸子爺爺”那般簡(jiǎn)陋的卡通形象,當(dāng)時(shí)還受到了輿論群嘲。僅一年的時(shí)間,他就擁有了一個(gè)超越“恐怖谷”效應(yīng)的元宇宙版本的“自己”。

這兩則新聞,一則指向了AI的擬人化,一則指向了人類(lèi)的虛擬化,看起來(lái)是截然不同的方向,但這兩條路徑的目標(biāo)顯然是一致的—在虛擬世界復(fù)刻真實(shí)的人類(lèi)生活,而不論這個(gè)“人”該如何定義。

生成式AI+數(shù)字人

扎克伯格的這場(chǎng)元宇宙訪(fǎng)談,談到了兩個(gè)細(xì)節(jié),可以作為我們討論“數(shù)字人”的引子。

首先是他逼真的虛擬形象。他解釋道,自己的虛擬形象采用的是目前最先進(jìn)的臉譜掃描技術(shù),需要通過(guò)幾百個(gè)相機(jī)進(jìn)行長(zhǎng)達(dá)數(shù)小時(shí)、360度無(wú)死角的掃描才能實(shí)現(xiàn)。但他的團(tuán)隊(duì)正在努力縮短這個(gè)流程,未來(lái)讓用戶(hù)只需要拿起手機(jī)在臉上晃幾分鐘,說(shuō)幾句話(huà),做幾個(gè)表情,就可以?huà)呙枰粋€(gè)高精度的人像模型。

其次,在扎克伯格的設(shè)想中,這項(xiàng)技術(shù)與AI的聯(lián)系非常緊密,他希望將兩者結(jié)合起來(lái),打造具有自主思維和逼真形象的“數(shù)字人”,為人們提供社交、游戲等服務(wù)。

他談到的這兩點(diǎn),基本上涵蓋了當(dāng)前“數(shù)字人”在技術(shù)上的研發(fā)要點(diǎn):“擬真度”和“互動(dòng)能力”。我們先從“擬真度”談起,這個(gè)領(lǐng)域可以分為兩種技術(shù)方向,以Meta為代表的走的是“還原”路線(xiàn),旨在盡可能地復(fù)刻真人相貌,令其充當(dāng)替身。另一種方向則是創(chuàng)造全新的臉孔,在這條路徑里,三星旗下的STAR Lab在2020年發(fā)布的“neon數(shù)字人”便提供了很好的示范。

Neon數(shù)字人最令人驚嘆的地方是,它的樣貌、行為乃至思維習(xí)慣和真人別無(wú)二致,它有著真人比例的大小,形態(tài)各異的造型,活動(dòng)起來(lái)就像是在看一段真人錄制的視頻。但區(qū)別在于,這些臉孔都是“原創(chuàng)”的。更新奇的地方是,每個(gè)“neon數(shù)字人”還有著自己的脾性,它可以從事瑜伽教練、接待員、客服助手等工作,但也會(huì)因?yàn)殚L(zhǎng)時(shí)間“打工”而感到厭倦。

簡(jiǎn)言之,它不是語(yǔ)音助手,而是“虛擬人類(lèi)”,如果對(duì)他不好,他可是會(huì)鬧脾氣的。

在“互動(dòng)能力”方面,應(yīng)該說(shuō),以ChatGPT為代表的生成式AI的飛躍式發(fā)展,讓業(yè)界真正看到了創(chuàng)造智能化“數(shù)字人”的希望。在此之前,并沒(méi)有多少企業(yè)或機(jī)構(gòu)把可交互性當(dāng)作“數(shù)字人”的研發(fā)重點(diǎn)。

對(duì)“數(shù)字人”的研發(fā)最早可以追溯到上世紀(jì)80年代,從日本的動(dòng)漫、宅文化中衍生出來(lái)的二次元“虛擬偶像”。1982年,日本動(dòng)畫(huà)《超時(shí)空要塞》的女主角林明美被制作成首個(gè)虛擬偶像歌手。2007年,初音未來(lái)誕生,并采用全息投影技術(shù)舉辦了全球首個(gè)“虛擬偶像”演唱會(huì)。

此后,隨著數(shù)字建模技術(shù)的進(jìn)步,業(yè)界才逐漸走向真人化“數(shù)字人”的研發(fā)。追求形體的擬真,是“數(shù)字人”由來(lái)已久的研究方向,而且在電影、游戲、音樂(lè)等行業(yè)有著真切的商用需求。但這一方向走到底,最多也只能做到外表上的百分百相同,但它的交互要么依賴(lài)真人,要么非常程式化。盡管三星開(kāi)發(fā)的“neon數(shù)字人”形象極為逼真,但官方展示出來(lái)的“數(shù)字人”都經(jīng)過(guò)預(yù)渲染處理,實(shí)際上臨場(chǎng)交互能力達(dá)不到宣傳的高度。

直到生成式AI技術(shù)的崛起,開(kāi)發(fā)“數(shù)字人”的獨(dú)立交互能力,才真正有了技術(shù)基礎(chǔ)。

斯坦福大學(xué)的研究者們創(chuàng)建了一個(gè)名為Smallville的虛擬小鎮(zhèn),在里面植入了25個(gè)AI像素人,他們?cè)诶锩婀ぷ?、社交、甚至舉辦情人節(jié)派對(duì),看起來(lái)像極了AI版的《星露谷物語(yǔ)》。

英偉達(dá)在把自己開(kāi)發(fā)的游戲AI智能體“voyager”接入GPT-4后,他們甚至可以自行在游戲里挖礦、建造房屋,進(jìn)行遠(yuǎn)程探險(xiǎn)。

AI的擬人化、人類(lèi)的虛擬化,看起來(lái)是截然不同的方向,但這兩條路徑的目標(biāo)顯然是一致的—在虛擬世界復(fù)刻真實(shí)的人類(lèi)生活。

設(shè)想一下,如果把Smallville里的像素小人替換成真人形象數(shù)字人,那么就是扎克伯格所暢想的元宇宙圖景了。不妨大膽想象,如果未來(lái)兩個(gè)“i人”在元宇宙里見(jiàn)面,尷尬得不知道聊點(diǎn)什么時(shí),可以召喚一個(gè)“e人”性格的AI數(shù)字人出來(lái)活絡(luò)氣氛,充當(dāng)社交潤(rùn)滑劑。

而生成式AI與游戲NPC的合體,無(wú)疑將使游戲玩家們的體驗(yàn)上升一大截,與具有獨(dú)立思考能力的NPC進(jìn)行互動(dòng),在游戲體驗(yàn)上肯定比現(xiàn)在程式化的設(shè)計(jì)要好得多。

也難怪已經(jīng)“All in 元宇宙”的扎克伯格,在不久前的2023財(cái)年第三季度財(cái)報(bào)電話(huà)會(huì)議上表示,AI技術(shù)將成為Meta在2024年最大的投資領(lǐng)域。

就像“互聯(lián)網(wǎng)+”改變了各行各業(yè)一樣,生成式AI也可以“+”任何事情,包括賦予“數(shù)字人”以靈魂。

趕早集的直播行業(yè)

如果說(shuō)先進(jìn)的科研機(jī)構(gòu)、科技巨頭還在琢磨怎么“創(chuàng)造人類(lèi)”,那么講究實(shí)用的業(yè)界,已經(jīng)把一些更為粗糙、簡(jiǎn)陋的“數(shù)字人”應(yīng)用到了商業(yè)領(lǐng)域。

應(yīng)用最廣泛的便是直播行業(yè)。如今,“數(shù)字人”主播已經(jīng)十分普及,在抖音、快手等短視頻直播平臺(tái),很多在鏡頭前滔滔不絕、兜售商品的主播,其實(shí)是“數(shù)字人”。

這些直播間里的“數(shù)字人”的外觀(guān)五花八門(mén),有2D、3D的二次元人物,也有仿真人、真人建模等走現(xiàn)實(shí)主義的“數(shù)字人”。其內(nèi)里的“靈魂”,可能來(lái)自后臺(tái)的真人,也可能是根據(jù)文字生成的語(yǔ)音,再高級(jí)點(diǎn)的則用上擬真的聲線(xiàn)。

這些“數(shù)字人”的制作過(guò)程也不復(fù)雜。如果是“拷貝”一個(gè)真人形象,通過(guò)動(dòng)作捕捉技術(shù),只需要主播在綠幕前穿上幾件出鏡用的衣服,記錄下一些常用動(dòng)作、手勢(shì),就可以在不到5分鐘的時(shí)間里制作出一個(gè)足以“以假亂真”的分身。

有up主曾在自己的視頻欄目里做過(guò)測(cè)試,在視頻播出了近5分鐘后,他才以真人面目出現(xiàn),告訴觀(guān)眾們前面出鏡的其實(shí)是“數(shù)字人”版的自己,而幾乎沒(méi)有觀(guān)眾發(fā)現(xiàn)異樣。

更高級(jí)一些的技術(shù),還能在仿真的基礎(chǔ)上任意地改變自己的外貌特征,讓自己看起來(lái)更年輕或者更成熟,如果愿意的話(huà),可以一直保持在“凍齡”狀態(tài)。

如果要求低一些,還可以用一些“公?!保P者在進(jìn)行研究時(shí),選擇了騰訊智影這款數(shù)字人播報(bào)產(chǎn)品進(jìn)行體驗(yàn),它默認(rèn)提供了幾個(gè)人物形象,只需要在右側(cè)的文字框輸入想要生成的語(yǔ)音文字,隨后點(diǎn)擊“合成視頻”,稍等片刻,就可以得到一段帶有“真人播報(bào)”的視頻。

細(xì)看還是能看出異樣,例如臉部與身體的銜接有點(diǎn)不自然,肢體動(dòng)作也比較簡(jiǎn)單,看上去有點(diǎn)像掉幀的畫(huà)面。在聲音方面則是和我們?cè)诘貓D導(dǎo)航中聽(tīng)到的差不多,雖然為了逼真一些,可以在文本中插入“停頓時(shí)間”,但無(wú)法與ChatGPT極為逼真的口語(yǔ)表達(dá)相比擬。

雖然說(shuō)這些“數(shù)字人”的形態(tài)比較粗糙,無(wú)法還原真實(shí)人類(lèi)的相貌體態(tài),口型也經(jīng)常對(duì)不上,但在手機(jī)這樣的狹小屏幕內(nèi),對(duì)精度的要求并沒(méi)有那么高,這點(diǎn)瑕疵無(wú)傷大雅。

和真人主播相比,這些“數(shù)字人”主播最大的優(yōu)點(diǎn)在于不用休息,可以24小時(shí)不間斷地直播,還不需要場(chǎng)地、攝影器材和人力投入。

此外,制作這些“數(shù)字人”主播的成本差異很大,上至幾十萬(wàn),下至幾百元,從便宜的2D形象到精細(xì)的真人“拷貝”,完全豐儉由人。平均下來(lái),“數(shù)字人”主播的成本不及真人主播的幾十分之一。

從最終的效果來(lái)看,觀(guān)眾也為這些“數(shù)字人”主播買(mǎi)單,例如,在拼多多的特步直播間里,數(shù)字人主播日均GMV約為4.1萬(wàn)元。甚至有的“數(shù)字人”主播的日均成交額比真人主播還高。

商業(yè)上的前景,極大地推動(dòng)了這一行業(yè)的發(fā)展。據(jù)數(shù)據(jù)統(tǒng)計(jì),僅2022年,數(shù)字人相關(guān)企業(yè)注冊(cè)數(shù)量就高達(dá)948家,增速68%,已然成為一個(gè)新的風(fēng)口。

AI發(fā)展需要“數(shù)字人”

站在當(dāng)下這個(gè)時(shí)間點(diǎn),我們還很難定義“數(shù)字人”究竟是什么,因?yàn)樗鼈兊男螒B(tài)各異,外在形式與內(nèi)在邏輯也各不相同。

從已經(jīng)實(shí)現(xiàn)的程度來(lái)看,它更像人的“虛擬外殼”,這個(gè)外殼形態(tài)各異,但仍依賴(lài)人的思維進(jìn)行驅(qū)動(dòng)。但從研究重點(diǎn)與發(fā)展潮流來(lái)看,它必然會(huì)在生成式AI的加持下,走向發(fā)展出獨(dú)立行為邏輯的智能體的路徑,實(shí)現(xiàn)自我驅(qū)動(dòng)。

對(duì)人的形象,特別是臉孔的確認(rèn),既是親密感產(chǎn)生的重要方式,也是信任關(guān)系得以建立的前提,而無(wú)論這個(gè)形象是否真實(shí)存在。

那么我們?cè)撊绾慰创墒紸I與“數(shù)字人”之間的關(guān)系?

從功能上看,毫無(wú)疑問(wèn)是生成式AI促進(jìn)了“數(shù)字人”的發(fā)展,推動(dòng)其從低級(jí)邁向高級(jí)。如果它現(xiàn)在是有效率的生產(chǎn)機(jī)器—制造永不停歇的人類(lèi)形象,用來(lái)帶貨、講課、表演,帶來(lái)商業(yè)、文化、娛樂(lè)等方面的價(jià)值,那么未來(lái),它將成為人們投射情感,滿(mǎn)足陪伴需求的對(duì)象,甚至參與到人與人的交往中,成為關(guān)系網(wǎng)絡(luò)的有機(jī)組成部分。

但是,生成式AI與“數(shù)字人”之間的關(guān)系可能并不是簡(jiǎn)單的單向關(guān)系。

站在用戶(hù)角度,“數(shù)字人”的內(nèi)在是否具有“靈魂”,可能并不是最重要的事情,畢竟當(dāng)前流行于直播間里的粗糙版本,也有不少受眾,甚至已經(jīng)培育出了一個(gè)日益成熟的行業(yè)。

另一方面,生成式AI的核心能力—輸出“原創(chuàng)文本”,并不因套上一個(gè)人類(lèi)的外殼而變得更加先進(jìn)。

因此,反過(guò)來(lái)思考這個(gè)問(wèn)題,可能有助于我們厘清兩者的關(guān)系:把AI智能體加載在“人類(lèi)形象”上的必要性在哪里?

答案或許就在“人類(lèi)形象”本身。在現(xiàn)實(shí)生活中,很多關(guān)鍵的互動(dòng),都是在人與人的直接接觸時(shí)完成的。

設(shè)想一下,如果一個(gè)直播間沒(méi)有主播在場(chǎng),而只有聲音在飄蕩,其實(shí)很難建立起主播與觀(guān)眾之間的情感聯(lián)系,也會(huì)給人一種很不踏實(shí)的感覺(jué)。

對(duì)人的形象,特別是臉孔的確認(rèn),既是親密感產(chǎn)生的重要方式,也是信任關(guān)系得以建立的前提,而無(wú)論這個(gè)形象是否真實(shí)存在,畢竟人們可以把自己的情感投射到電影、游戲、動(dòng)漫等虛構(gòu)角色里去,從這個(gè)角度來(lái)說(shuō),具象比真實(shí)更為重要。

這種“面對(duì)面”效應(yīng),在人與AI的互動(dòng)里同樣存在。對(duì)于AI這樣一個(gè)“多智而近妖”的智能體來(lái)說(shuō),無(wú)論它能夠?qū)崿F(xiàn)什么樣的功能,賦予它一個(gè)“臉孔”,使它在最自然、熟悉的情景下與人互動(dòng),才能讓它的本領(lǐng)最大化地發(fā)揮。

就好比在元宇宙的世界里,我們不會(huì)希望由一個(gè)佇立著的黑色石碑來(lái)?yè)?dān)任指導(dǎo),它的神秘氣息只會(huì)讓我們覺(jué)得自己是《2001太空漫游》里的猿人。

從這個(gè)意義來(lái)講,成為“數(shù)字人”,或許是AI更進(jìn)一步發(fā)展的必然之路。

猜你喜歡
扎克真人主播
James Legge’s Translating Chinese Classics into English:An Examination of Translational Eco-environment and his Multidimensional Adaptive Selection
第一次做小主播
冬天的畫(huà)稿
Imaginations and Reimaginations of National Origin—A Case Study of the Two Times that the Gaxian Cave was Discovered
我是小主播
傳播真相 追求真理 涵育真人——我的高中歷史教育之夢(mèng)
我是小主播
我是小主播
扎克伯格寫(xiě)給初生女兒的信
COCO×讀者 真人親身拍攝體驗(yàn)
Coco薇(2015年12期)2015-12-10 03:49:41
全南县| 龙州县| 紫云| 淄博市| 华阴市| 石首市| 巴彦淖尔市| 克东县| 水富县| 右玉县| 衡东县| 麻江县| 新巴尔虎右旗| 安康市| 辽宁省| 彝良县| 新闻| 历史| 哈巴河县| 晋城| 城市| 舟曲县| 双鸭山市| 衡水市| 米泉市| 施秉县| 三明市| 云林县| 厦门市| 西安市| 遂昌县| 乃东县| 永清县| 桓台县| 灵台县| 平邑县| 顺义区| 祁门县| 荆门市| 宾川县| 花莲市|