霉霉說中文，AI再陷隱憂

2023-12-19 05:50非田

看世界 2023年23期

非田

近日，綽號“霉霉”的美國歌手泰勒·斯威夫特的一則說中文視頻，刷屏了中國社交媒體。

在短短幾十秒的視頻里，霉霉操著一口流利的普通話，講述著自己最近的旅行—霉霉居然學(xué)會了中文，這是為來中國巡演做準(zhǔn)備嗎？事實上，這段視頻是利用AI工具制作而成，有別于刻板印象中AI死板的翻譯，和發(fā)音對不上口型，這次的視頻幾乎以假亂真，網(wǎng)友被這個“沒有譯制片腔調(diào)的翻譯”深深震撼到。

AI與人聲這兩個關(guān)鍵詞結(jié)合，在今年已經(jīng)貢獻(xiàn)了一個又一個熱搜，先是不斷有網(wǎng)友以AI模擬孫燕姿聲線發(fā)布翻唱，為后者贏得了“AI歌后”的昵稱，再到近來香港老牌藝人尹光，推出了一首本人和自己AI聲線合唱的歌曲，他也成為香港首個注冊了自己AI形象的歌手。

當(dāng)下AI再度“進(jìn)化”，以“霉霉說中文”視頻中用到的軟件“HeyGen”為例，即便是不懂技術(shù)的小白，也可以輕松實現(xiàn)視頻中完美口型和語音卡點的效果，這對營銷、配音等行業(yè)，乃至大家的日常生活，都是一次巨大的沖擊。

為了讓電腦能和人類一樣“說話”，科技工作者經(jīng)歷了多年的漫長探索，如今AI時代來臨，如此逼真的深度合成技術(shù)，對人類而言，究竟是驚喜還是驚嚇呢？

免費開源工具

事實上，在AI的幫助下，要想讓外國人“說中文”并不困難，但背后需要應(yīng)用多種不同的AI模型。

正如“霉霉說中文”視頻上傳者所說，制作這個視頻，要掌握地道的口語翻譯、語音克隆和替換嘴型。

先是語音類，包括語音轉(zhuǎn)文本（Speech To Text，即“STT”）和文本轉(zhuǎn)語音（Text To Speech，即“TTS”）兩部分。以微軟、谷歌為代表的技術(shù)大廠，開發(fā)迭代了一系列語音類通用模型，國內(nèi)如網(wǎng)易、訊飛等，也都開放了免費的語音識別類模型，類似微信等軟件所采用的“語音打字”，就應(yīng)用了STT技術(shù)。

以微軟為例，其STT可快速準(zhǔn)確地將音頻轉(zhuǎn)錄為超過100種語言和方言的文本，還能通過自定義模型，提高特定術(shù)語的準(zhǔn)確性。

而短視頻網(wǎng)站上充斥著“這個男人叫小帥”“N分鐘看完一部劇”式的影視解說，所用的“解說聲音”，大多也是來自微軟的TTS模型。

然后是翻譯，ChatGPT等語言模型的誕生，讓翻譯變得更為自然準(zhǔn)確，避免了轉(zhuǎn)折生硬的“機(jī)翻口吻”，從而能生成出一份更接近口語的文本。

再就是聲音，這一步通常需要用到歌聲合成（Singing Voice Synthesis，即“SVS”）和歌聲轉(zhuǎn)換（Singing Voice Conversion，即“SVC”）技術(shù)。AI可以將一段人聲音頻轉(zhuǎn)換為符合用戶需求的另一種聲線—初音未來、洛天依等虛擬歌手、地圖軟件里的明星虛擬導(dǎo)航員、此前異?；鸨腁I翻唱，大多是應(yīng)用了這類技術(shù)。

得益于AI行業(yè)的突飛猛進(jìn)，上述步驟均有免費的開源軟件方案可以提供。

AI配音平臺HeyGen

處理完上述步驟后，還必須讓生成的視頻與口型同步，這一步同樣需要AI利用計算機(jī)視覺技術(shù)，生成出逼真度極高、在任意角度和距離下都不失真的三維模型。

得益于AI行業(yè)的突飛猛進(jìn)，上述步驟均有免費的開源軟件方案可以提供，只要用戶不嫌麻煩，可以先將視頻里的語音提取成文字，翻譯后語音輸出，再經(jīng)聲音克隆和嘴型修正，從而讓任何外國人“說中文”，而且不花一分錢。

可一鍵生成

不過，實際制作類似視頻的過程并沒有這么麻煩，如HeyGen、AI Dubbing、LipDub、Verbalate等軟件，都可以通過融合及應(yīng)用上述模型實現(xiàn)一鍵生成。

以知名度較高的HeyGen為例，其背后的詩云科技是一家2020年在深圳成立的公司，兩位創(chuàng)始人本科都畢業(yè)于同濟(jì)大學(xué)。目前該公司已經(jīng)獲得了兩輪百萬美元級別的融資，在加利福尼亞州也設(shè)有辦公室。

幾個月前，HeyGen發(fā)布了兩則其公司創(chuàng)始人面對鏡頭侃侃而談的視頻，并表示，該視頻全部內(nèi)容包括人像和聲音均為AI自動生成。這讓不少網(wǎng)友大開眼界，一些媒體開始以“AI視頻領(lǐng)域的Midjourney”來稱呼HeyGen。

Midjourney是一款繪畫類AI，可根據(jù)文字描述自動生成出符合要求的圖片，其生成的圖片也解決了AI繪圖中常見的六指或人臉表情過于僵硬等常見問題。而HeyGen也頗具顛覆性—媒體發(fā)布的那兩則視頻里，除了AI數(shù)字人眨眼過于頻繁外，幾乎看不出破綻。

HeyGen趁熱打鐵，在今年9月開放了“視頻翻譯”（Video Translate）功能，再度在國外社交媒體上霸榜，其網(wǎng)站當(dāng)月的訪問量突破700萬次，同比上漲了約92%。

兩則視頻里，除了AI數(shù)字人眨眼過于頻繁外，幾乎看不出破綻。

《未定事件簿》采用A I 配音的角色莫弈

HeyGen在官網(wǎng)介紹中寫著，“一鍵翻譯您的視頻，使用語音克隆技術(shù)，還原自然真實說話風(fēng)格”。有媒體指出，HeyGen接入了負(fù)責(zé)翻譯的ChatGPT、實現(xiàn)語音克隆的11Labs，以及同步人物口型的wav2lip-2三個AI模型。

如今掛在HeyGen首頁被當(dāng)作范例的，是一段頭部科技博主Brownlee說西班牙語，和埃隆·馬斯克說法語的視頻。付費版的HeyGen價格為24-192美元（約合人民幣175-1400元）/月，可實現(xiàn)近20種語言視頻的無縫轉(zhuǎn)換，單個視頻最多支持5分鐘時長，免費版在視頻時長等方面均有所限制，等待時間也較長。

配音行業(yè)沖擊幾何？

每一次新的AI技術(shù)應(yīng)用，都會對原有行業(yè)產(chǎn)生沖擊，AI語音同樣不例外。當(dāng)AI不僅可以克隆音色，還能無縫翻譯時，這對配音行業(yè)無疑是巨大的沖擊。

這一兩年來，AI配音在游戲行業(yè)里也引發(fā)了不少討論。知名游戲《賽博朋克2077》在不久前推出的最新DLC中，就用AI技術(shù)重現(xiàn)了已故知名配音演員Mi?ogost Reczek的聲音。據(jù)國外媒體報道，游戲開發(fā)商使用的也是類似SVC的技術(shù)，邀請了一位聲線與Reczek接近的配音演員參與配音，再通過AI復(fù)刻。

國內(nèi)游戲廠商也同樣不排斥AI聲音。米哈游的《未定事件簿》和網(wǎng)易的《時空中的繪旅人》兩款游戲，在去年9月都出現(xiàn)了部分配音演員因故無法參與的情況，而兩家公司選擇的方案都是用AI配音來代替。

盡管AI與頂級配音演員相比仍顯遜色，但在輕重、停頓、顫音等聲音細(xì)節(jié)方面都有一定的表現(xiàn)力?！安恍芯蛽QAI”，甚至成為一些玩家吐槽配音水準(zhǔn)太差時的常用語。

但并非所有游戲在運用AI聲音上都能讓人滿意，一款名為《The Finals》的多人競技射擊游戲，近來在國外游戲圈頗為火爆，既因為這款游戲在玩法上能看到諸多經(jīng)典同類型游戲的影子，卻也因為它的配音過于難聽和洗腦。

該游戲開發(fā)團(tuán)隊成員隨后承認(rèn)，游戲除了呼吸聲等AI難以模擬的聲音外，大多數(shù)人聲都是AI完成，并坦稱目的就是為了能花更少錢，得到更專業(yè)的配音。

對于大多數(shù)玩家而言，AI與否或許并不重要，更有感情、更像人聲才是重點。但對于配音演員來說，AI登場后，情況明顯嚴(yán)峻得多。

據(jù)路透社報道，在美國演員工會掀起的罷工浪潮中，有98.32%的工會成員同意對包括動視、迪士尼、EA等在內(nèi)的10家大型游戲公司進(jìn)行罷工。

雙方無法就如何合理地使用人工智能等問題達(dá)成一致，一些由知名演員或聲優(yōu)參與配音、動作捕捉的游戲勢必受到影響，該工會主席弗蘭·弗雷舍爾稱：“AI再一次將我們的成員置于減少工作機(jī)會的危機(jī)之中?！?h3>監(jiān)管問題難解

除了具體的行業(yè)外，語音類AI對普通人的影響也不容忽視。

首先是心理層面。1970年代，日本機(jī)器人專家森政弘提出了“恐怖谷效應(yīng)”理論，大意是指，當(dāng)機(jī)器人與人類的接近程度超過一定界限時，人類在心理上對機(jī)器人的好感就會降至冰點。而如今隨著AI技術(shù)發(fā)展，離取代一部分人越來越近，人類對AI的驚懼隨之攀升，歷史進(jìn)程也走到了屬于AI的“恐怖谷”時段。

在現(xiàn)實層面，HeyGen無疑給深度造假（Deepfakes）提供了更多可能。當(dāng)Faceswap等換臉AI問世時，視頻畫面的內(nèi)容就不再100%可信，“眼見為實”的規(guī)律被打破。

而如今HeyGen等AI上線，甚至連視頻里聽見的聲音都不一定為實。從AI換臉再到如今AI換聲，技術(shù)的加持讓居心不良者，幾乎可以憑空捏造出一個不存在的視頻，欺騙公眾的難度大大降低，普通人想要分辨哪些信息是由AI生成，也將變得更難。

得益于AI技術(shù)的發(fā)展與大量免費開源AI，創(chuàng)造虛假信息的難度越來越低，只要稍具名氣，都可能成為的“受害者”，名人更是不勝其擾。更不用說，這種技術(shù)正在滋生新型詐騙。

11月1日，首屆全球人工智能安全峰會在英國舉行

日前，國外社交媒體上流傳著一段印度尼西亞總統(tǒng)佐科以流利中文發(fā)表演講的視頻，視頻的背景音還有觀眾的笑聲，顯得相當(dāng)真實。然而，該國通信和信息技術(shù)部信息應(yīng)用司司長杰拉潘在調(diào)查后稱，該視頻畫面截取自2015年的一場活動，但內(nèi)容是利用深度造假技術(shù)偽造而成。

極低的創(chuàng)作門檻低意味著更難的監(jiān)管。一些國家已經(jīng)推出了相關(guān)的規(guī)定—以中國為例，以今年4月公布的《生成式人工智能服務(wù)管理辦法（征求意見稿）》規(guī)定，相關(guān)AI技術(shù)在向公眾提供服務(wù)前，都需經(jīng)安全評估和備案。但從世界范圍來看，相關(guān)法規(guī)還遠(yuǎn)遠(yuǎn)稱不上完善。

值得慶幸的是，人類在當(dāng)下已經(jīng)就AI問題達(dá)成了一定共識。11月1日，在首屆全球人工智能安全峰會上，中英美等近30個國家和地區(qū)及歐盟聯(lián)合簽署了《布萊切利宣言》，共同應(yīng)對AI可能帶來的挑戰(zhàn)。英國媒體稱，這是罕見的全球團(tuán)結(jié)表現(xiàn)。

技術(shù)不分善惡，如何牽好技術(shù)的韁繩，不讓人淪為技術(shù)進(jìn)步的犧牲品，這是全人類需要共同關(guān)注的課題。

責(zé)任編輯吳陽煜 wyy@nfcmag.com

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

霉霉說中文，AI再陷隱憂

免費開源工具

可一鍵生成

配音行業(yè)沖擊幾何？

霉霉說中文，AI再陷隱憂