馬迪
不久前,一個默默無聞的抖音新號“柳夜熙”發(fā)布了一條題為《現(xiàn)在,我看到的世界,你也能看到了》的視頻。短短兩分鐘的時間,賽博朋克和奇幻古風的場景交叉上演,借著Facebook改名Meta的“東風”,一下打開了數(shù)百萬觀眾的“元宇宙”想象。
這大概是虛擬人第一次如此高調(diào)地進入大眾視野?!傲刮酢笔装l(fā)視頻在當晚5小時內(nèi)獲贊247.7萬,創(chuàng)造了兩條視頻漲粉500萬的“奇跡”。#柳夜熙#柳夜熙是誰#當美妝遇上元宇宙……各種相關話題在抖音上已有超過10億次播放,向大眾普及“虛擬人”“元宇宙”可謂功不可沒。
事實上,虛擬偶像并不是全新概念。最早的虛擬偶像鼻祖要算2007年出現(xiàn)的“初音未來”。這是由日本雅馬哈公司以語音合成程序為基礎開發(fā)的虛擬少女偶像,有著官方設定的水藍色頭發(fā)和眼睛,穿著水手服,動人的聲音能唱無數(shù)首歌曲,在二次元文化盛行的日本社會可謂家喻戶曉,甚至跟LadyGaga同過臺。
2004年,雅馬哈開發(fā)出語音合成核心引擎Vocaloid,這就是后來初音未來和中國第一位虛擬歌手“洛天依”的核心。作為目前最主流的語音合成方式,Vocaloid采用的是“拼接合成”技術(shù)來進行電子音樂制作?;A聲音數(shù)據(jù)則來自于配音演員,使用者只要輸入音符和歌詞即可生成一首歌曲,并且可以通過更改音調(diào)、調(diào)整參數(shù)對“歌聲”進行微調(diào),模擬出類似人的呼吸、口型甚至顫音。原本破碎的聲音數(shù)據(jù),就這樣變成了連貫的電子聲音。
采用這種方式來創(chuàng)作,可以實現(xiàn)對歌曲最精確的控制,但另一方面,也很需要作者調(diào)整各項參數(shù)的功力。Vocaloid就像一把樂器,創(chuàng)作者擁有完全的自由。
隨著AI技術(shù)的進步,新一代的“虛擬歌姬”開始了更深的進化。比如首位簽約華納、正式發(fā)行單曲的虛擬音樂藝人“哈醬”就是首個AI仿真人聲,采用了微軟智能語音定制技術(shù),背靠強大的神經(jīng)網(wǎng)絡語音模型,累積、分析了人類語音的各種元素比如音色、年齡、口音、韻律等等。在這樣的一個“胚子”上精雕細刻,不斷訓練數(shù)據(jù),最終形成了屬于“哈醬”自己的中文語音音色。雖然“哈醬”擁有敘述、新聞、客服等15種風格,可以挑戰(zhàn)真人做不到的音調(diào)和語速,堪稱是一個十分豐富的人聲模型,但情感演繹仍然是AI界的超級難題。
此次迅速出圈的柳夜熙,實現(xiàn)了仿真虛擬人在短視頻上的首次嘗試。按照出品公司的說法,這是一個2.5次元的形象設計,處于二次元動漫形象和三次元的真實世界人物形象之間的位置。
其實這類“超仿真”形象的后期開發(fā)過程非常漫長,需要高水準的原畫設計、高寫實的3D建模、高效率的虛擬人引擎、高精度的動作捕捉、高清晰的修幀渲染。每個步驟都耗時耗力,幾乎就是用金錢和技術(shù)堆出來的“寶貝”。
柳夜熙的連貫動作也和背后的演員分不開。由于純動畫的特效制作成本高昂,所以虛擬人普遍采用真人動作捕捉技術(shù),即由行動演員穿著包含多個傳感器節(jié)點的動捕服,將他們的動作嫁接到角色身上。超高精度的動態(tài)捕捉甚至可以捕捉到演員眼球的顫動。
AI技術(shù)甚至還能彌補動作捕捉的不足。以面部表情為例,假設通過攝像頭能夠定位演員面部的150個跟蹤點,AI可以通過面部表情大數(shù)據(jù)訓練,由150個跟蹤點推導出40000個點,從而模擬出更精細的表情。
從本質(zhì)上講,柳夜熙確實是一個出色的后期特效作品,但也僅此而已。作為虛擬人物,柳夜熙類似于游戲、電影中的角色,不能和觀眾互動,進行有邏輯、有個性的交互和反饋,更別提像人一樣思考和學習了。
這就是虛擬偶像難以走出2.5次元的原因—能夠為觀眾帶來新的視覺、聽覺體驗,但刺激過后總讓人感覺到空虛。像人一樣,這四個字簡簡單單,代表的是人們對下一代AI的沉重期待和漫長探索。虛擬偶像能否突破次元壁,也將在此一舉。