迄今,人工智能(AI)技術(shù)已廣泛應(yīng)用于電影聲音生成和制作領(lǐng)域,可精準(zhǔn)模仿特定演員的聲音、語調(diào)和語速,以實(shí)現(xiàn)高度逼真的語音合成和自動(dòng)配音,尤其適用于處理語言障礙或需要重新配音的情況;AI 還可根據(jù)特定文本生成自然流暢的語音,用于電影旁白、解說或虛擬角色對(duì)話。
但在實(shí)際應(yīng)用過程中,AI 生成的人聲質(zhì)量參差不齊,易出現(xiàn)音色模仿不夠精準(zhǔn)等問題,其主要原因在于音色轉(zhuǎn)換質(zhì)量。當(dāng)前其他相關(guān)領(lǐng)域中AI音色轉(zhuǎn)換技術(shù)的創(chuàng)新應(yīng)用可借鑒于電影制作中,以有效改善AI生成的人聲質(zhì)量。
近期,國內(nèi)音樂平臺(tái)出現(xiàn)歌手“AI 孫燕姿”的眾多作品,聲音與孫燕姿本人極為相似?!癆I 孫燕姿”是一個(gè)虛擬歌手,是人工智能模型訓(xùn)練的產(chǎn)物。最早的虛擬歌手是2007 年面世的初音未來,由日本克理普敦未來媒體有限公司(Crypton Future Media,INC.)以雅馬哈的VOCALOID 系列語音合成軟件為基礎(chǔ)開發(fā)。隨后,嗶哩嗶哩虛擬偶像洛天依、《英雄聯(lián)盟》衍生虛擬樂隊(duì)K/DA 女團(tuán)等也采用了類似的“二次元形象+語音合成引擎”方式。然而,這些AI 歌手并沒有引起太大反響,其中一個(gè)重要原因是其通常具有鮮明的虛擬形象和電音音色,使人們很清楚這僅僅是一種娛樂產(chǎn)品,而不會(huì)“以假亂真”。而“AI 孫燕姿”的聲音和風(fēng)格與真人極為相近,其將人們帶入到人工智能逐步逼近人類智能的前沿科技場(chǎng)景。
“AI 孫燕姿”使用的核心技術(shù)來源于Sovits4.0 歌聲轉(zhuǎn)換模型,其基于so-vits-svc 開源軟件研發(fā)。Sovits4.0模型是一種音色轉(zhuǎn)換模型,可將一個(gè)人的聲音轉(zhuǎn)換成另一個(gè)人的聲音,具有極高的準(zhǔn)確性和逼真度。這意味著“AI 孫燕姿”可通過該模型學(xué)習(xí)并模仿孫燕姿的音色和唱腔特點(diǎn),應(yīng)用于其他歌手甚至其他語言的歌聲中,從而創(chuàng)造出逼真的孫燕姿風(fēng)格歌曲。Sovits4.0 具體實(shí)現(xiàn)過程主要包括訓(xùn)練數(shù)據(jù)集創(chuàng)建、模型訓(xùn)練、模型推理等步驟。其中,訓(xùn)練數(shù)據(jù)主要用于提取原聲特征,生成訓(xùn)練模型;模型推理主要用于提取目標(biāo)歌曲音調(diào)、音高,將翻唱者的音色訓(xùn)練模型與目標(biāo)聲音相匹配;最后,再對(duì)生成的歌聲進(jìn)行后期優(yōu)化,例如加入混響或簡單修音,一首AI翻唱歌曲即制作完成。
(1)訓(xùn)練數(shù)據(jù)集創(chuàng)建
要想獲得逼真的歌手聲音,首先要模擬聲源,這是用來讓AI 模型訓(xùn)練的聲音素材。對(duì)于歌手來說,可以搜集歌手的高品質(zhì)歌曲并從中提取干凈人聲,或直接使用語音素材,至少需要準(zhǔn)備30 分鐘以上的有效人聲素材,1~2 小時(shí)為佳。聲音素材的質(zhì)量會(huì)極大影響訓(xùn)練準(zhǔn)確度,為提升人聲質(zhì)量,可對(duì)語音素材做預(yù)加重、去噪等處理,然后對(duì)人聲文件進(jìn)行分割,每段人聲不超過15 秒,便于訓(xùn)練器計(jì)算。最后將訓(xùn)練數(shù)據(jù)集放在模型要求的訓(xùn)練目錄中。
(2)模型訓(xùn)練
so-vits-svc 是一款開源免費(fèi)的AI 語音轉(zhuǎn)換軟件,可實(shí)現(xiàn)“識(shí)別數(shù)據(jù)集→數(shù)據(jù)預(yù)處理→配置訓(xùn)練超參數(shù)與設(shè)置信息→模型訓(xùn)練”這一流程,其中數(shù)據(jù)預(yù)處理主要是對(duì)數(shù)據(jù)進(jìn)行響度匹配、重采樣、生成配置文件、提取特征,并選擇適合的特征編碼器,表1列舉了該軟件提供的幾款基礎(chǔ)編碼器特點(diǎn)。
表1 特征編碼器對(duì)比
配置超參數(shù)是指選擇適合的批量大小、學(xué)習(xí)率以及保存訓(xùn)練模型的訓(xùn)練步數(shù)要求等。參數(shù)配置完成后,即可開始模型訓(xùn)練,訓(xùn)練中可通過觀察損失函數(shù)(Loss Function)曲線的收斂情況,及時(shí)終止訓(xùn)練,進(jìn)而獲得訓(xùn)練模型。
(3)模型推理
模型推理是將目標(biāo)歌曲的人聲替換為訓(xùn)練模型文件的音色。在推理轉(zhuǎn)換過程中,除加載正確的訓(xùn)練模型與配置文件外,還有可選推理參數(shù)幫助生成更加逼真的音色效果,包括變調(diào)參數(shù)、聚類模型混合比例、使用自動(dòng)f0 預(yù)測(cè)、使用f0 均值濾波等。變調(diào)參數(shù)用于設(shè)置音色變調(diào),參數(shù)范圍為-12~12,如男聲轉(zhuǎn)女聲需要升高,可設(shè)置為5~8,女聲轉(zhuǎn)男聲需要降低,可設(shè)置為-5~-8。聚類模型混合比例可控制使用聚類模型的占比,有限提升音色相似度,但會(huì)降低咬字準(zhǔn)確度。該參數(shù)的范圍為0~1, 0 為不啟用,越靠近1, 則音色越相似,咬字越模糊。自動(dòng)f0 預(yù)測(cè)用于將模型音高匹配到推理源音高,主要用于轉(zhuǎn)換語音,使用時(shí)會(huì)導(dǎo)致變調(diào)參數(shù)失效。f0 均值濾波開啟后能有效改善啞音,但可能會(huì)導(dǎo)致跑調(diào)。
模型推理完成后即可得到轉(zhuǎn)換后的人聲,如果轉(zhuǎn)換效果不理想,還可通過調(diào)整訓(xùn)練迭代次數(shù)、編碼器參數(shù)設(shè)置、推理參數(shù)設(shè)置等,進(jìn)一步優(yōu)化模型,直到輸出滿意結(jié)果。后續(xù)通過合成伴奏,增加合理混響,即可得到AI歌手演唱的新歌。
Sovits4.0 的訓(xùn)練生成過程雖已較為成熟,但“AI孫燕姿”的音色逼真程度高,很大程度還要?dú)w功于歌手本人音色的獨(dú)特性,使AI 模型提取的特征更為顯著。值得注意的是,AI 歌手在情緒、咬字、換氣等細(xì)節(jié)處理上還有所欠缺,若應(yīng)用于影片角色配音,還需進(jìn)一步調(diào)整優(yōu)化。
除音色轉(zhuǎn)換,AI 聲音制作還可服務(wù)于電影音樂和音效。音效方面,AI 可分析場(chǎng)景中的視覺元素,并自動(dòng)生成相應(yīng)的聲音效果,如爆炸聲、雨聲等。音樂方面,基于人工智能的音樂推薦創(chuàng)作系統(tǒng)可根據(jù)電影的情節(jié)、氛圍和風(fēng)格,智能推薦或創(chuàng)作適合的背景音樂和配樂。2023 年1 月,谷歌發(fā)布有“音樂版Chat-GPT”之稱的MusicLM,可自由混搭不同類型的風(fēng)格和樂器,通過輸入“晚宴上的爵士樂”這類指定地點(diǎn)和時(shí)間的文字,就能自動(dòng)創(chuàng)作出符合當(dāng)下情緒的樂曲。我國中央音樂學(xué)院開發(fā)的AI 自動(dòng)作曲系統(tǒng),可通過人工智能算法進(jìn)行作曲、編曲、歌唱、混音,能夠在23 秒快速創(chuàng)作出一首歌曲,并達(dá)到一般作曲家的水平。迄今市場(chǎng)上已有許多AI 作曲的商業(yè)軟件,如Boomy、MURU、Amper Music、AIVA 等。以Amper Music 為例,該工具可通過幾次點(diǎn)擊設(shè)置音樂風(fēng)格、樂器、時(shí)長、節(jié)奏,就可生成一首原創(chuàng)音樂,生成后還能繼續(xù)編輯音軌,包括調(diào)整音量、混響、節(jié)奏、旋律、添加或刪除樂器等。這些應(yīng)用不僅提高了聲音制作的效率和質(zhì)量,還為電影創(chuàng)作生產(chǎn)提供了更多創(chuàng)新升級(jí)的可能性。