人工智能音色轉(zhuǎn)換模型可有效服務(wù)和促進(jìn)電影創(chuàng)作生產(chǎn)

2024-01-05 06:47:38王薇娜

現(xiàn)代電影技術(shù) 2023年12期

迄今，人工智能（AI）技術(shù)已廣泛應(yīng)用于電影聲音生成和制作領(lǐng)域，可精準(zhǔn)模仿特定演員的聲音、語調(diào)和語速，以實(shí)現(xiàn)高度逼真的語音合成和自動(dòng)配音，尤其適用于處理語言障礙或需要重新配音的情況；AI 還可根據(jù)特定文本生成自然流暢的語音，用于電影旁白、解說或虛擬角色對(duì)話。

但在實(shí)際應(yīng)用過程中，AI 生成的人聲質(zhì)量參差不齊，易出現(xiàn)音色模仿不夠精準(zhǔn)等問題，其主要原因在于音色轉(zhuǎn)換質(zhì)量。當(dāng)前其他相關(guān)領(lǐng)域中AI音色轉(zhuǎn)換技術(shù)的創(chuàng)新應(yīng)用可借鑒于電影制作中，以有效改善AI生成的人聲質(zhì)量。

近期，國內(nèi)音樂平臺(tái)出現(xiàn)歌手“AI 孫燕姿”的眾多作品，聲音與孫燕姿本人極為相似?！癆I 孫燕姿”是一個(gè)虛擬歌手，是人工智能模型訓(xùn)練的產(chǎn)物。最早的虛擬歌手是2007 年面世的初音未來，由日本克理普敦未來媒體有限公司（Crypton Future Media,INC.）以雅馬哈的VOCALOID 系列語音合成軟件為基礎(chǔ)開發(fā)。隨后，嗶哩嗶哩虛擬偶像洛天依、《英雄聯(lián)盟》衍生虛擬樂隊(duì)K/DA 女團(tuán)等也采用了類似的“二次元形象+語音合成引擎”方式。然而，這些AI 歌手并沒有引起太大反響，其中一個(gè)重要原因是其通常具有鮮明的虛擬形象和電音音色，使人們很清楚這僅僅是一種娛樂產(chǎn)品，而不會(huì)“以假亂真”。而“AI 孫燕姿”的聲音和風(fēng)格與真人極為相近，其將人們帶入到人工智能逐步逼近人類智能的前沿科技場(chǎng)景。

“AI 孫燕姿”使用的核心技術(shù)來源于Sovits4.0 歌聲轉(zhuǎn)換模型，其基于so-vits-svc 開源軟件研發(fā)。Sovits4.0模型是一種音色轉(zhuǎn)換模型，可將一個(gè)人的聲音轉(zhuǎn)換成另一個(gè)人的聲音，具有極高的準(zhǔn)確性和逼真度。這意味著“AI 孫燕姿”可通過該模型學(xué)習(xí)并模仿孫燕姿的音色和唱腔特點(diǎn)，應(yīng)用于其他歌手甚至其他語言的歌聲中，從而創(chuàng)造出逼真的孫燕姿風(fēng)格歌曲。Sovits4.0 具體實(shí)現(xiàn)過程主要包括訓(xùn)練數(shù)據(jù)集創(chuàng)建、模型訓(xùn)練、模型推理等步驟。其中，訓(xùn)練數(shù)據(jù)主要用于提取原聲特征，生成訓(xùn)練模型；模型推理主要用于提取目標(biāo)歌曲音調(diào)、音高，將翻唱者的音色訓(xùn)練模型與目標(biāo)聲音相匹配；最后，再對(duì)生成的歌聲進(jìn)行后期優(yōu)化，例如加入混響或簡單修音，一首AI翻唱歌曲即制作完成。

（1）訓(xùn)練數(shù)據(jù)集創(chuàng)建

要想獲得逼真的歌手聲音，首先要模擬聲源，這是用來讓AI 模型訓(xùn)練的聲音素材。對(duì)于歌手來說，可以搜集歌手的高品質(zhì)歌曲并從中提取干凈人聲，或直接使用語音素材，至少需要準(zhǔn)備30 分鐘以上的有效人聲素材，1～2 小時(shí)為佳。聲音素材的質(zhì)量會(huì)極大影響訓(xùn)練準(zhǔn)確度，為提升人聲質(zhì)量，可對(duì)語音素材做預(yù)加重、去噪等處理，然后對(duì)人聲文件進(jìn)行分割，每段人聲不超過15 秒，便于訓(xùn)練器計(jì)算。最后將訓(xùn)練數(shù)據(jù)集放在模型要求的訓(xùn)練目錄中。

（2）模型訓(xùn)練

so-vits-svc 是一款開源免費(fèi)的AI 語音轉(zhuǎn)換軟件，可實(shí)現(xiàn)“識(shí)別數(shù)據(jù)集→數(shù)據(jù)預(yù)處理→配置訓(xùn)練超參數(shù)與設(shè)置信息→模型訓(xùn)練”這一流程，其中數(shù)據(jù)預(yù)處理主要是對(duì)數(shù)據(jù)進(jìn)行響度匹配、重采樣、生成配置文件、提取特征，并選擇適合的特征編碼器，表1列舉了該軟件提供的幾款基礎(chǔ)編碼器特點(diǎn)。

表1 特征編碼器對(duì)比

配置超參數(shù)是指選擇適合的批量大小、學(xué)習(xí)率以及保存訓(xùn)練模型的訓(xùn)練步數(shù)要求等。參數(shù)配置完成后，即可開始模型訓(xùn)練，訓(xùn)練中可通過觀察損失函數(shù)（Loss Function）曲線的收斂情況，及時(shí)終止訓(xùn)練，進(jìn)而獲得訓(xùn)練模型。

（3）模型推理

模型推理是將目標(biāo)歌曲的人聲替換為訓(xùn)練模型文件的音色。在推理轉(zhuǎn)換過程中，除加載正確的訓(xùn)練模型與配置文件外，還有可選推理參數(shù)幫助生成更加逼真的音色效果，包括變調(diào)參數(shù)、聚類模型混合比例、使用自動(dòng)f0 預(yù)測(cè)、使用f0 均值濾波等。變調(diào)參數(shù)用于設(shè)置音色變調(diào)，參數(shù)范圍為-12～12，如男聲轉(zhuǎn)女聲需要升高，可設(shè)置為5～8，女聲轉(zhuǎn)男聲需要降低，可設(shè)置為-5～-8。聚類模型混合比例可控制使用聚類模型的占比，有限提升音色相似度，但會(huì)降低咬字準(zhǔn)確度。該參數(shù)的范圍為0～1, 0 為不啟用，越靠近1, 則音色越相似，咬字越模糊。自動(dòng)f0 預(yù)測(cè)用于將模型音高匹配到推理源音高，主要用于轉(zhuǎn)換語音，使用時(shí)會(huì)導(dǎo)致變調(diào)參數(shù)失效。f0 均值濾波開啟后能有效改善啞音，但可能會(huì)導(dǎo)致跑調(diào)。

模型推理完成后即可得到轉(zhuǎn)換后的人聲，如果轉(zhuǎn)換效果不理想，還可通過調(diào)整訓(xùn)練迭代次數(shù)、編碼器參數(shù)設(shè)置、推理參數(shù)設(shè)置等，進(jìn)一步優(yōu)化模型，直到輸出滿意結(jié)果。后續(xù)通過合成伴奏，增加合理混響，即可得到AI歌手演唱的新歌。

Sovits4.0 的訓(xùn)練生成過程雖已較為成熟，但“AI孫燕姿”的音色逼真程度高，很大程度還要?dú)w功于歌手本人音色的獨(dú)特性，使AI 模型提取的特征更為顯著。值得注意的是，AI 歌手在情緒、咬字、換氣等細(xì)節(jié)處理上還有所欠缺，若應(yīng)用于影片角色配音，還需進(jìn)一步調(diào)整優(yōu)化。

除音色轉(zhuǎn)換，AI 聲音制作還可服務(wù)于電影音樂和音效。音效方面，AI 可分析場(chǎng)景中的視覺元素，并自動(dòng)生成相應(yīng)的聲音效果，如爆炸聲、雨聲等。音樂方面，基于人工智能的音樂推薦創(chuàng)作系統(tǒng)可根據(jù)電影的情節(jié)、氛圍和風(fēng)格，智能推薦或創(chuàng)作適合的背景音樂和配樂。2023 年1 月，谷歌發(fā)布有“音樂版Chat-GPT”之稱的MusicLM，可自由混搭不同類型的風(fēng)格和樂器，通過輸入“晚宴上的爵士樂”這類指定地點(diǎn)和時(shí)間的文字，就能自動(dòng)創(chuàng)作出符合當(dāng)下情緒的樂曲。我國中央音樂學(xué)院開發(fā)的AI 自動(dòng)作曲系統(tǒng)，可通過人工智能算法進(jìn)行作曲、編曲、歌唱、混音，能夠在23 秒快速創(chuàng)作出一首歌曲，并達(dá)到一般作曲家的水平。迄今市場(chǎng)上已有許多AI 作曲的商業(yè)軟件，如Boomy、MURU、Amper Music、AIVA 等。以Amper Music 為例，該工具可通過幾次點(diǎn)擊設(shè)置音樂風(fēng)格、樂器、時(shí)長、節(jié)奏，就可生成一首原創(chuàng)音樂，生成后還能繼續(xù)編輯音軌，包括調(diào)整音量、混響、節(jié)奏、旋律、添加或刪除樂器等。這些應(yīng)用不僅提高了聲音制作的效率和質(zhì)量，還為電影創(chuàng)作生產(chǎn)提供了更多創(chuàng)新升級(jí)的可能性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能音色轉(zhuǎn)換模型可有效服務(wù)和促進(jìn)電影創(chuàng)作生產(chǎn)