国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

霉霉說中文,AI再陷隱憂

2023-12-19 05:50非田
看世界 2023年23期
關(guān)鍵詞:語音游戲模型

非田

近日,綽號“霉霉”的美國歌手泰勒·斯威夫特的一則說中文視頻,刷屏了中國社交媒體。

在短短幾十秒的視頻里,霉霉操著一口流利的普通話,講述著自己最近的旅行—霉霉居然學(xué)會了中文,這是為來中國巡演做準(zhǔn)備嗎?事實上,這段視頻是利用AI工具制作而成,有別于刻板印象中AI死板的翻譯,和發(fā)音對不上口型,這次的視頻幾乎以假亂真,網(wǎng)友被這個“沒有譯制片腔調(diào)的翻譯”深深震撼到。

AI與人聲這兩個關(guān)鍵詞結(jié)合,在今年已經(jīng)貢獻(xiàn)了一個又一個熱搜,先是不斷有網(wǎng)友以AI模擬孫燕姿聲線發(fā)布翻唱,為后者贏得了“AI歌后”的昵稱,再到近來香港老牌藝人尹光,推出了一首本人和自己AI聲線合唱的歌曲,他也成為香港首個注冊了自己AI形象的歌手。

當(dāng)下AI再度“進(jìn)化”,以“霉霉說中文”視頻中用到的軟件“HeyGen”為例,即便是不懂技術(shù)的小白,也可以輕松實現(xiàn)視頻中完美口型和語音卡點的效果,這對營銷、配音等行業(yè),乃至大家的日常生活,都是一次巨大的沖擊。

為了讓電腦能和人類一樣“說話”,科技工作者經(jīng)歷了多年的漫長探索,如今AI時代來臨,如此逼真的深度合成技術(shù),對人類而言,究竟是驚喜還是驚嚇呢?

免費開源工具

事實上,在AI的幫助下,要想讓外國人“說中文”并不困難,但背后需要應(yīng)用多種不同的AI模型。

正如“霉霉說中文”視頻上傳者所說,制作這個視頻,要掌握地道的口語翻譯、語音克隆和替換嘴型。

先是語音類,包括語音轉(zhuǎn)文本(Speech To Text,即“STT”)和文本轉(zhuǎn)語音(Text To Speech,即“TTS”)兩部分。以微軟、谷歌為代表的技術(shù)大廠,開發(fā)迭代了一系列語音類通用模型,國內(nèi)如網(wǎng)易、訊飛等,也都開放了免費的語音識別類模型,類似微信等軟件所采用的“語音打字”,就應(yīng)用了STT技術(shù)。

以微軟為例,其STT可快速準(zhǔn)確地將音頻轉(zhuǎn)錄為超過100種語言和方言的文本,還能通過自定義模型,提高特定術(shù)語的準(zhǔn)確性。

而短視頻網(wǎng)站上充斥著“這個男人叫小帥”“N分鐘看完一部劇”式的影視解說,所用的“解說聲音”,大多也是來自微軟的TTS模型。

然后是翻譯,ChatGPT等語言模型的誕生,讓翻譯變得更為自然準(zhǔn)確,避免了轉(zhuǎn)折生硬的“機(jī)翻口吻”,從而能生成出一份更接近口語的文本。

再就是聲音,這一步通常需要用到歌聲合成(Singing Voice Synthesis,即“SVS”)和歌聲轉(zhuǎn)換(Singing Voice Conversion,即“SVC”)技術(shù)。AI可以將一段人聲音頻轉(zhuǎn)換為符合用戶需求的另一種聲線—初音未來、洛天依等虛擬歌手、地圖軟件里的明星虛擬導(dǎo)航員、此前異?;鸨腁I翻唱,大多是應(yīng)用了這類技術(shù)。

得益于AI行業(yè)的突飛猛進(jìn),上述步驟均有免費的開源軟件方案可以提供。

AI配音平臺HeyGen

處理完上述步驟后,還必須讓生成的視頻與口型同步,這一步同樣需要AI利用計算機(jī)視覺技術(shù),生成出逼真度極高、在任意角度和距離下都不失真的三維模型。

得益于AI行業(yè)的突飛猛進(jìn),上述步驟均有免費的開源軟件方案可以提供,只要用戶不嫌麻煩,可以先將視頻里的語音提取成文字,翻譯后語音輸出,再經(jīng)聲音克隆和嘴型修正,從而讓任何外國人“說中文”,而且不花一分錢。

可一鍵生成

不過,實際制作類似視頻的過程并沒有這么麻煩,如HeyGen、AI Dubbing、LipDub、Verbalate等軟件,都可以通過融合及應(yīng)用上述模型實現(xiàn)一鍵生成。

以知名度較高的HeyGen為例,其背后的詩云科技是一家2020年在深圳成立的公司,兩位創(chuàng)始人本科都畢業(yè)于同濟(jì)大學(xué)。目前該公司已經(jīng)獲得了兩輪百萬美元級別的融資,在加利福尼亞州也設(shè)有辦公室。

幾個月前,HeyGen發(fā)布了兩則其公司創(chuàng)始人面對鏡頭侃侃而談的視頻,并表示,該視頻全部內(nèi)容包括人像和聲音均為AI自動生成。這讓不少網(wǎng)友大開眼界,一些媒體開始以“AI視頻領(lǐng)域的Midjourney”來稱呼HeyGen。

Midjourney是一款繪畫類AI,可根據(jù)文字描述自動生成出符合要求的圖片,其生成的圖片也解決了AI繪圖中常見的六指或人臉表情過于僵硬等常見問題。而HeyGen也頗具顛覆性—媒體發(fā)布的那兩則視頻里,除了AI數(shù)字人眨眼過于頻繁外,幾乎看不出破綻。

HeyGen趁熱打鐵,在今年9月開放了“視頻翻譯”(Video Translate)功能,再度在國外社交媒體上霸榜,其網(wǎng)站當(dāng)月的訪問量突破700萬次,同比上漲了約92%。

兩則視頻里,除了AI數(shù)字人眨眼過于頻繁外,幾乎看不出破綻。

《未定事件簿》采用A I 配音的角色莫弈

HeyGen在官網(wǎng)介紹中寫著,“一鍵翻譯您的視頻,使用語音克隆技術(shù),還原自然真實說話風(fēng)格”。有媒體指出,HeyGen接入了負(fù)責(zé)翻譯的ChatGPT、實現(xiàn)語音克隆的11Labs,以及同步人物口型的wav2lip-2三個AI模型。

如今掛在HeyGen首頁被當(dāng)作范例的,是一段頭部科技博主Brownlee說西班牙語,和埃隆·馬斯克說法語的視頻。付費版的HeyGen價格為24-192美元(約合人民幣175-1400元)/月,可實現(xiàn)近20種語言視頻的無縫轉(zhuǎn)換,單個視頻最多支持5分鐘時長,免費版在視頻時長等方面均有所限制,等待時間也較長。

配音行業(yè)沖擊幾何?

每一次新的AI技術(shù)應(yīng)用,都會對原有行業(yè)產(chǎn)生沖擊,AI語音同樣不例外。當(dāng)AI不僅可以克隆音色,還能無縫翻譯時,這對配音行業(yè)無疑是巨大的沖擊。

這一兩年來,AI配音在游戲行業(yè)里也引發(fā)了不少討論。知名游戲《賽博朋克2077》在不久前推出的最新DLC中,就用AI技術(shù)重現(xiàn)了已故知名配音演員Mi?ogost Reczek的聲音。據(jù)國外媒體報道,游戲開發(fā)商使用的也是類似SVC的技術(shù),邀請了一位聲線與Reczek接近的配音演員參與配音,再通過AI復(fù)刻。

國內(nèi)游戲廠商也同樣不排斥AI聲音。米哈游的《未定事件簿》和網(wǎng)易的《時空中的繪旅人》兩款游戲,在去年9月都出現(xiàn)了部分配音演員因故無法參與的情況,而兩家公司選擇的方案都是用AI配音來代替。

盡管AI與頂級配音演員相比仍顯遜色,但在輕重、停頓、顫音等聲音細(xì)節(jié)方面都有一定的表現(xiàn)力?!安恍芯蛽QAI”,甚至成為一些玩家吐槽配音水準(zhǔn)太差時的常用語。

但并非所有游戲在運用AI聲音上都能讓人滿意,一款名為《The Finals》的多人競技射擊游戲,近來在國外游戲圈頗為火爆,既因為這款游戲在玩法上能看到諸多經(jīng)典同類型游戲的影子,卻也因為它的配音過于難聽和洗腦。

該游戲開發(fā)團(tuán)隊成員隨后承認(rèn),游戲除了呼吸聲等AI難以模擬的聲音外,大多數(shù)人聲都是AI完成,并坦稱目的就是為了能花更少錢,得到更專業(yè)的配音。

對于大多數(shù)玩家而言,AI與否或許并不重要,更有感情、更像人聲才是重點。但對于配音演員來說,AI登場后,情況明顯嚴(yán)峻得多。

據(jù)路透社報道,在美國演員工會掀起的罷工浪潮中,有98.32%的工會成員同意對包括動視、迪士尼、EA等在內(nèi)的10家大型游戲公司進(jìn)行罷工。

雙方無法就如何合理地使用人工智能等問題達(dá)成一致,一些由知名演員或聲優(yōu)參與配音、動作捕捉的游戲勢必受到影響,該工會主席弗蘭·弗雷舍爾稱:“AI再一次將我們的成員置于減少工作機(jī)會的危機(jī)之中?!?h3>監(jiān)管問題難解

除了具體的行業(yè)外,語音類AI對普通人的影響也不容忽視。

首先是心理層面。1970年代,日本機(jī)器人專家森政弘提出了“恐怖谷效應(yīng)”理論,大意是指,當(dāng)機(jī)器人與人類的接近程度超過一定界限時,人類在心理上對機(jī)器人的好感就會降至冰點。而如今隨著AI技術(shù)發(fā)展,離取代一部分人越來越近,人類對AI的驚懼隨之攀升,歷史進(jìn)程也走到了屬于AI的“恐怖谷”時段。

在現(xiàn)實層面,HeyGen無疑給深度造假(Deepfakes)提供了更多可能。當(dāng)Faceswap等換臉AI問世時,視頻畫面的內(nèi)容就不再100%可信,“眼見為實”的規(guī)律被打破。

而如今HeyGen等AI上線,甚至連視頻里聽見的聲音都不一定為實。從AI換臉再到如今AI換聲,技術(shù)的加持讓居心不良者,幾乎可以憑空捏造出一個不存在的視頻,欺騙公眾的難度大大降低,普通人想要分辨哪些信息是由AI生成,也將變得更難。

得益于AI技術(shù)的發(fā)展與大量免費開源AI,創(chuàng)造虛假信息的難度越來越低,只要稍具名氣,都可能成為的“受害者”,名人更是不勝其擾。更不用說,這種技術(shù)正在滋生新型詐騙。

11月1日,首屆全球人工智能安全峰會在英國舉行

日前,國外社交媒體上流傳著一段印度尼西亞總統(tǒng)佐科以流利中文發(fā)表演講的視頻,視頻的背景音還有觀眾的笑聲,顯得相當(dāng)真實。然而,該國通信和信息技術(shù)部信息應(yīng)用司司長杰拉潘在調(diào)查后稱,該視頻畫面截取自2015年的一場活動,但內(nèi)容是利用深度造假技術(shù)偽造而成。

極低的創(chuàng)作門檻低意味著更難的監(jiān)管。一些國家已經(jīng)推出了相關(guān)的規(guī)定—以中國為例,以今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》規(guī)定,相關(guān)AI技術(shù)在向公眾提供服務(wù)前,都需經(jīng)安全評估和備案。但從世界范圍來看,相關(guān)法規(guī)還遠(yuǎn)遠(yuǎn)稱不上完善。

值得慶幸的是,人類在當(dāng)下已經(jīng)就AI問題達(dá)成了一定共識。11月1日,在首屆全球人工智能安全峰會上,中英美等近30個國家和地區(qū)及歐盟聯(lián)合簽署了《布萊切利宣言》,共同應(yīng)對AI可能帶來的挑戰(zhàn)。英國媒體稱,這是罕見的全球團(tuán)結(jié)表現(xiàn)。

技術(shù)不分善惡,如何牽好技術(shù)的韁繩,不讓人淪為技術(shù)進(jìn)步的犧牲品,這是全人類需要共同關(guān)注的課題。

責(zé)任編輯吳陽煜 wyy@nfcmag.com

猜你喜歡
語音游戲模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
數(shù)獨游戲
瘋狂的游戲
3D打印中的模型分割與打包
爆笑游戲