国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語(yǔ)音合成及偽造、鑒偽技術(shù)綜述①

2022-08-04 09:58王林元
關(guān)鍵詞:頻譜語(yǔ)音特征

楊 帥,喬 凱,陳 健,王林元,閆 鑌

(中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué),鄭州 450001)

1 引言

語(yǔ)音作為人類接受外界信息的重要來(lái)源,在日常交流活動(dòng)中扮演了不可替代的角色. 特別是近些年來(lái)隨著電話、電腦、智能手機(jī)等信息設(shè)備的普及,人們對(duì)于豐富多彩的語(yǔ)音服務(wù)例如語(yǔ)音通話、語(yǔ)音助手、短視頻配音等需求量越來(lái)越大. 隨著網(wǎng)絡(luò)語(yǔ)音資源的爆發(fā)式產(chǎn)出和算力水平的顯著躍升,人工智能在語(yǔ)音處理技術(shù)方面大放異彩,有效地滿足了社會(huì)需求; 但同時(shí),一些不法分子利用現(xiàn)代語(yǔ)音技術(shù)進(jìn)行電信詐騙或其他違法活動(dòng),引起了人們的擔(dān)憂和廣泛關(guān)注.

語(yǔ)音偽造技術(shù)一般包含文本到語(yǔ)音(text-to-speech,TTS)和語(yǔ)音轉(zhuǎn)換(voice conversion,VC)兩種形式. 文本到語(yǔ)音是指從文本中生成自然語(yǔ)音[1],通常不具有欺騙性,常被用于手機(jī)中的語(yǔ)音助理、導(dǎo)航語(yǔ)音以及智能音響等. 語(yǔ)音轉(zhuǎn)換是指將源人物語(yǔ)音的特定信息轉(zhuǎn)換為目標(biāo)人物語(yǔ)音,同時(shí)保證其他屬性不改變[2]. 語(yǔ)音轉(zhuǎn)換常涉及頻譜和韻律兩個(gè)方面的轉(zhuǎn)換,并且依賴大量的目標(biāo)語(yǔ)音數(shù)據(jù). 將TTS 和VC 結(jié)合,可以從文字中生成具有某人聲音特點(diǎn)的語(yǔ)音,具有極強(qiáng)的欺騙性.

語(yǔ)音偽造技術(shù)的發(fā)展?jié)M足現(xiàn)實(shí)應(yīng)用需求的同時(shí),也帶來(lái)很多潛在的威脅. 個(gè)性化語(yǔ)音生成增強(qiáng)了軟件對(duì)用戶的吸引力,如美團(tuán)的提示音、高德地圖的導(dǎo)航語(yǔ)音; 短視頻平臺(tái)的文字朗讀功能方便了用戶短視頻的制作; 延續(xù)風(fēng)格的影視配音作品可以帶給觀眾懷舊的體驗(yàn). 另一方面,偽造語(yǔ)音具有破解微信、支付寶等聲紋識(shí)別模塊的能力,放大了泄露隱私、損失財(cái)產(chǎn)等風(fēng)險(xiǎn),給不法分子騙取財(cái)物提供可乘之機(jī). 因此,如何有效的檢測(cè)偽造語(yǔ)音成為語(yǔ)音處理技術(shù)發(fā)展道路上不得不直面的難題.

本文組織結(jié)構(gòu)如下: 第2 節(jié)介紹了經(jīng)典的語(yǔ)音合成系統(tǒng),并對(duì)文本到語(yǔ)音和語(yǔ)音轉(zhuǎn)換兩項(xiàng)技術(shù)進(jìn)行了系統(tǒng)的梳理; 第3 節(jié)對(duì)目前流行的語(yǔ)音鑒偽技術(shù)進(jìn)行了分類歸納; 第4 節(jié)分析了目前語(yǔ)音偽造和鑒偽領(lǐng)域的挑戰(zhàn),并對(duì)未來(lái)的發(fā)展方向進(jìn)行展望.

2 語(yǔ)音合成技術(shù)

語(yǔ)音合成技術(shù)是利用電子計(jì)算機(jī)或其他裝置模擬人說(shuō)話的技術(shù),主要包括文本到語(yǔ)音和語(yǔ)音轉(zhuǎn)換兩種技術(shù)路線. 語(yǔ)音偽造則是語(yǔ)音合成的一個(gè)應(yīng)用方向,一方面語(yǔ)音偽造生成結(jié)果形式與語(yǔ)音合成一致,另一方面語(yǔ)音偽造有更明確的應(yīng)用目標(biāo)和需求導(dǎo)向. 因此語(yǔ)音合成系統(tǒng)是語(yǔ)音偽造技術(shù)的基礎(chǔ),理解語(yǔ)音合成的基本過(guò)程對(duì)深入研究語(yǔ)音偽造大有裨益.

本節(jié)主要結(jié)構(gòu)如圖1 所示,首先對(duì)語(yǔ)音合成系統(tǒng)的一般劃分進(jìn)行介紹,進(jìn)而對(duì)文本到語(yǔ)音和語(yǔ)音轉(zhuǎn)換兩類語(yǔ)音偽造技術(shù)進(jìn)行梳理.

圖1 本節(jié)結(jié)構(gòu)梳理

2.1 語(yǔ)音合成系統(tǒng)

如圖2 所示,經(jīng)典的語(yǔ)音合成系統(tǒng)一般由3 個(gè)模塊構(gòu)成,依次為特征分析提取、聲學(xué)模型和聲碼器. 將原始語(yǔ)音輸入到特征分析提取模塊中提取出源特征,經(jīng)聲學(xué)模型處理得到對(duì)應(yīng)的目標(biāo)語(yǔ)音特征后通過(guò)聲碼器得到音頻輸出.

圖2 語(yǔ)音合成流程

具體介紹3 個(gè)模塊的功能. 特征分析提取模塊可以根據(jù)任務(wù)需求提取原始輸入的特征,例如短時(shí)傅里葉變換幅度譜、基頻和梅爾倒譜[3]等. 聲學(xué)模型是整個(gè)系統(tǒng)中的關(guān)鍵部分,將原始的聲學(xué)特征轉(zhuǎn)化為目標(biāo)的聲學(xué)特征,主要由統(tǒng)計(jì)學(xué)模型和深度學(xué)習(xí)模型來(lái)構(gòu)建. 早期的統(tǒng)計(jì)學(xué)方法主要基于矢量量化和頻譜映射的模型[4]、聯(lián)合概率密度的高斯混合模型[5]和隱馬爾科夫模型[6,7]. 近年來(lái)聲學(xué)模型中的深度學(xué)習(xí)模塊使用呈現(xiàn)多樣化、普遍化的趨勢(shì),典型的方法有深度神經(jīng)網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、注意力機(jī)制[8]等,并且單個(gè)模型中往往會(huì)使用多種不同的模塊來(lái)增強(qiáng)模型的學(xué)習(xí)和表達(dá)能力. 聲碼器的作用是將聲學(xué)特征重新恢復(fù)成語(yǔ)音信號(hào),不同的聲學(xué)特征采用不同的聲碼器進(jìn)行處理. 傳統(tǒng)的聲碼器假設(shè)語(yǔ)音的生成是信號(hào)源對(duì)濾波器系統(tǒng)激勵(lì)產(chǎn)生的結(jié)果[9],近期基于深度學(xué)習(xí)的聲碼器[10–12]突破了傳統(tǒng)的規(guī)則假設(shè),在龐大語(yǔ)音數(shù)據(jù)的驅(qū)動(dòng)下能夠?qū)W習(xí)到更好的語(yǔ)音恢復(fù)能力.

2.2 文本到語(yǔ)音

文本到語(yǔ)音從語(yǔ)音合成系統(tǒng)的角度來(lái)看輸入和輸出分別對(duì)應(yīng)文本和語(yǔ)音. 首先要對(duì)文本進(jìn)行包括文本規(guī)范化、形態(tài)分析、句法分析、音素化、韻律生成等多個(gè)步驟[13]的自然語(yǔ)言預(yù)處理過(guò)程. 其中文本規(guī)范化是指糾正文本中的錯(cuò)誤,并將縮寫(xiě)、縮略詞等轉(zhuǎn)化為完整文本; 形態(tài)分析是指將句子分割為多個(gè)單詞; 句法分析是指根據(jù)分詞和詞義對(duì)語(yǔ)句構(gòu)造進(jìn)行拆分; 音素化是指根據(jù)單詞到發(fā)音的字典進(jìn)行確定; 韻律生成是進(jìn)一步確定音素的音調(diào)變化、時(shí)長(zhǎng)、重音、節(jié)奏等特征. 進(jìn)行自然語(yǔ)言處理之后,需進(jìn)一步進(jìn)行數(shù)字信息處理. 數(shù)字信息處理方法以基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法為代表,下面進(jìn)行具體介紹.

2.2.1 基于規(guī)則的方法

基于規(guī)則的合成方法主要通過(guò)模擬聲學(xué)物理過(guò)程來(lái)建立發(fā)聲模型,主要包括發(fā)音合成、共振峰合成. 發(fā)音合成是通過(guò)對(duì)人類聲道發(fā)音過(guò)程的模擬來(lái)實(shí)現(xiàn)語(yǔ)音的合成. 為實(shí)現(xiàn)聲道模型效果,需要指定發(fā)音動(dòng)作和對(duì)應(yīng)此動(dòng)作的發(fā)聲器官變量變化,例如嘴唇閉合的姿勢(shì)需要下巴、下唇和上唇的協(xié)同配合[14]. 發(fā)音合成的難點(diǎn)在于無(wú)法對(duì)人類聲道進(jìn)行完全模擬,因此合成的質(zhì)量欠佳,但在解釋性和靈活性方面具有一定優(yōu)勢(shì). 共振峰合成是基于源和濾波器模型的一種文本到語(yǔ)音聲音合成方法,包含級(jí)聯(lián)型、并聯(lián)型和混合型3 種常用模型. 共振峰是指聲音中能夠反映人類聲道特征的能量集中頻段,因此對(duì)共振峰進(jìn)行合成即可實(shí)現(xiàn)對(duì)人類聲音的模擬,大概20 多個(gè)不同的共振峰即可實(shí)現(xiàn)較好的人聲恢復(fù)[15]. 該技術(shù)的優(yōu)點(diǎn)在于可以在內(nèi)存和計(jì)算速率不高的平臺(tái)實(shí)現(xiàn),而缺點(diǎn)在于合成聲音的自然性不足.

2.2.2 基于數(shù)據(jù)的方法

基于數(shù)據(jù)的方法一般需要在提前構(gòu)建的語(yǔ)音數(shù)據(jù)庫(kù)支持下進(jìn)行,可分為拼接合成和單元選擇合成兩類.拼接合成通過(guò)串聯(lián)提前準(zhǔn)備的音頻單元來(lái)生成語(yǔ)音,這些語(yǔ)音單元可分為音素、半音節(jié)、單音節(jié)、雙音節(jié)或者三音節(jié). 單元長(zhǎng)度越長(zhǎng),同樣的一句話中連接節(jié)點(diǎn)越少,合成語(yǔ)音的效果越自然,但同時(shí)內(nèi)存的占用越大[16]. 并且在拼接之前需要根據(jù)語(yǔ)義對(duì)語(yǔ)音單元的韻律進(jìn)行變化,從而提高合成語(yǔ)音的真實(shí)度. 單元選擇合成方法比拼接合成的數(shù)據(jù)庫(kù)更加復(fù)雜,因?yàn)槠鋵?duì)相同語(yǔ)音單元不同韻律的數(shù)據(jù)也進(jìn)行了存儲(chǔ),因此占用內(nèi)存更大.

基于數(shù)據(jù)的方法直接對(duì)真實(shí)語(yǔ)音進(jìn)行操作,從而其合成語(yǔ)音比基于規(guī)則的方法結(jié)果清晰度更高; 但其數(shù)據(jù)庫(kù)的構(gòu)建需要巨大的儲(chǔ)存空間,原始數(shù)據(jù)的標(biāo)記也是一項(xiàng)非常繁瑣的任務(wù),因此該方法實(shí)用性不足.

2.2.3 基于統(tǒng)計(jì)的方法

基于統(tǒng)計(jì)的方法主要使用隱馬爾可夫模型、高斯混合模型作為基本框架,從而利用數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律生成語(yǔ)音. 典型的基于馬爾可夫模型的方法[17]對(duì)上下文相關(guān)的頻譜和激勵(lì)參數(shù)進(jìn)行建模,并使用期望最大化進(jìn)行最大似然估計(jì),最后通過(guò)激勵(lì)生成模塊和合成濾波器模塊產(chǎn)生語(yǔ)音波形. 基于高斯混合模型的方法[18]在發(fā)音、頻譜參數(shù)向量以及動(dòng)態(tài)參數(shù)等的聯(lián)合概率空間內(nèi)進(jìn)行建模,并結(jié)合最小均方誤差或者最大似然估計(jì)實(shí)現(xiàn)音素到語(yǔ)音的映射. 與基于數(shù)據(jù)的方法相比,基于統(tǒng)計(jì)的方法不用建立復(fù)雜龐大的數(shù)據(jù)庫(kù),并且可通過(guò)自適應(yīng)、插值和特征聲音對(duì)合成語(yǔ)音的特征進(jìn)行改變[19]; 但此方法的合成質(zhì)量距離真實(shí)語(yǔ)音還有差距.

2.2.4 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)主要由感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)等深度網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建,在特定的數(shù)據(jù)集上通過(guò)針對(duì)性的訓(xùn)練策略來(lái)完成某種學(xué)習(xí)任務(wù). 早期深度學(xué)習(xí)與文本到語(yǔ)音技術(shù)的結(jié)合主要通過(guò)將深度學(xué)習(xí)作為傳統(tǒng)語(yǔ)音合成的流程中一部分來(lái)體現(xiàn),也被稱為非端到端的深度學(xué)習(xí)TTS. 例如Zen 等人[20]利用深度神經(jīng)網(wǎng)絡(luò)替代上下文相關(guān)隱馬爾可夫模型中的決策樹(shù)聚類模塊,有效改善了原模型無(wú)法表達(dá)復(fù)雜的上下文依賴的問(wèn)題; Kang 等人[21]使用深度信念網(wǎng)絡(luò)對(duì)頻譜和基頻等語(yǔ)音參數(shù)直接進(jìn)行建模,取得了比傳統(tǒng)隱馬爾科夫模型保真度更好的效果; Fan 等人[22]采用帶有雙向長(zhǎng)短時(shí)記憶模塊的遞歸神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算語(yǔ)音的時(shí)間相關(guān)信息,從而完成參數(shù)化TTS 合成,提升了語(yǔ)音合成的質(zhì)量和穩(wěn)定性.

隨著大型語(yǔ)音數(shù)據(jù)集不斷提出、網(wǎng)絡(luò)結(jié)構(gòu)的不斷優(yōu)化和計(jì)算能力的不斷提升,更多的研究重點(diǎn)集中到了端對(duì)端的TTS 系統(tǒng)上來(lái). 端對(duì)端系統(tǒng)沒(méi)有諸如高斯過(guò)程此類的假設(shè),也沒(méi)有任何關(guān)于音頻的先驗(yàn)知識(shí),因此可以直接看做量化信號(hào)的非線性因果濾波器. 這種系統(tǒng)的好處在于模型可以更直接的收斂到數(shù)據(jù)的本質(zhì),而不會(huì)出現(xiàn)不當(dāng)?shù)募僭O(shè)導(dǎo)致生成語(yǔ)音細(xì)節(jié)過(guò)度損失的情況. 但同時(shí)這種模型的設(shè)計(jì)也是十分困難的,模型的好壞決定了收斂的難度和輸出的質(zhì)量. WaveNet[10]是一種直接生成音頻的網(wǎng)絡(luò)模型,能夠基于來(lái)自輸入文本的語(yǔ)言特征生成對(duì)應(yīng)的語(yǔ)音. 如圖3 所示,WaveNet首先將輸入經(jīng)過(guò)一層因果卷積,以保證模型不會(huì)違反建模數(shù)據(jù)的順序; 之后經(jīng)多層殘差模塊,殘差模塊中的空洞卷積使用幾層即可保證指數(shù)級(jí)的感受野; 每層殘差模塊的輸出和連接到兩層ReLU 函數(shù),最后通過(guò)Softmax 層計(jì)算當(dāng)前音頻的量化值. WaveNet 高效的生成了超越以往模型的自然語(yǔ)音,但受到感受野大小的影響,仍存在長(zhǎng)期依賴的問(wèn)題.

圖3 WaveNet 網(wǎng)絡(luò)結(jié)構(gòu)

同樣引人注目的工作是百度提出的DeepVoice 系列算法[23–25]. DeepVoice 按照傳統(tǒng)TTS 的流程用深度學(xué)習(xí)的方法構(gòu)建了分離相鄰音素的分割模型、字素到音素的變換模型、音素時(shí)間長(zhǎng)度估計(jì)模型、基頻預(yù)測(cè)模型和音頻合成模型5 個(gè)基本模塊,可以實(shí)現(xiàn)實(shí)時(shí)的文字到語(yǔ)音轉(zhuǎn)換. DeepVoice2 是一種文本到語(yǔ)音的增強(qiáng)技術(shù),可以從不到半個(gè)小時(shí)的語(yǔ)音數(shù)據(jù)中學(xué)習(xí)到針對(duì)目標(biāo)人物的高質(zhì)量音頻合成能力. DeepVoice3 包括編碼器、解碼器和轉(zhuǎn)換器3 個(gè)主要結(jié)構(gòu),其核心在于完全卷積和注意力機(jī)制. 其中編碼器是全卷積結(jié)構(gòu),能夠?qū)⑽谋揪幋a成(key,value)組合向量; 解碼器以完全卷積的結(jié)構(gòu)將文本編碼解碼為對(duì)應(yīng)于輸出音頻的梅爾對(duì)數(shù)幅度譜; 轉(zhuǎn)換器將解碼出的聲學(xué)特征表示為最終的聲碼器參數(shù). 第3 代模型避免了端對(duì)端模型中的常見(jiàn)錯(cuò)誤模式,取得了更加逼真的語(yǔ)音效果.

谷歌公司提出的Tacotron 文本到語(yǔ)音合成系統(tǒng)[26,27]也是該領(lǐng)域的一個(gè)重要算法分支. Tacotron 是一種和DeepVoice3 類似的編解碼結(jié)構(gòu),以字符為輸入生成線性光譜圖,最后轉(zhuǎn)化為語(yǔ)音波形. 該模型不需要音素對(duì)齊,只需給定文本和對(duì)應(yīng)的音頻,因此大容量樣本庫(kù)的構(gòu)建并不困難. Tacotron2 對(duì)Tacotron 結(jié)構(gòu)進(jìn)行精簡(jiǎn),并采用WaveNet 聲碼器替代Griffin-Lim 從而提高了語(yǔ)音質(zhì)量. Tacotron2 由編碼器、解碼器以及聲碼器組成,其中編碼器包括字符嵌入模塊、3 層卷積和一個(gè)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),能夠?qū)⑽谋巨D(zhuǎn)為編碼特征; 解碼器由局部敏感注意力模塊、兩層長(zhǎng)短時(shí)網(wǎng)絡(luò)、兩個(gè)線性投影模塊和一個(gè)五層卷積的Post-Net 組成,將編碼特征轉(zhuǎn)化為梅爾頻譜; 最后的聲碼器改進(jìn)自WaveNet,更加適合將12.5 毫秒幀跳的梅爾譜圖特征轉(zhuǎn)化為時(shí)域波形.

2.3 語(yǔ)音轉(zhuǎn)換

語(yǔ)音轉(zhuǎn)換是將語(yǔ)音中話者語(yǔ)音特點(diǎn)進(jìn)行變換的技術(shù),一方面用于生成具有特定人物語(yǔ)音特征的聲音,另一方面可以解決文本到語(yǔ)音技術(shù)中存在的合成效果不夠自然的問(wèn)題. 語(yǔ)音轉(zhuǎn)換涉及多項(xiàng)語(yǔ)音處理技術(shù)[28],其中語(yǔ)音分析是指將原始語(yǔ)音信號(hào)分解成某種形式的中間表達(dá)形式; 頻譜轉(zhuǎn)換是指對(duì)頻譜中的幅度譜、對(duì)數(shù)譜、倒譜等基本參數(shù)進(jìn)行映射和轉(zhuǎn)換,是目前受到廣泛關(guān)注和重點(diǎn)解決的問(wèn)題[29]; 韻律轉(zhuǎn)換主要通過(guò)對(duì)基頻包絡(luò)進(jìn)行操作,進(jìn)而實(shí)現(xiàn)話者的節(jié)奏、情感和情緒的轉(zhuǎn)換; 語(yǔ)音編碼和話者表征是將語(yǔ)音中的某類信息進(jìn)行編碼和壓縮,從而便于表示和減少數(shù)據(jù)量.

早期的語(yǔ)音轉(zhuǎn)換技術(shù)一般通過(guò)統(tǒng)計(jì)方法建立模型,近年來(lái)深度學(xué)習(xí)方法在本領(lǐng)域做出很多新的貢獻(xiàn). 本節(jié)將從統(tǒng)計(jì)建模方法和深度學(xué)習(xí)方法兩個(gè)角度進(jìn)行梳理,并根據(jù)是否使用并行訓(xùn)練數(shù)據(jù)進(jìn)一步劃分.

2.3.1 基于統(tǒng)計(jì)建模的語(yǔ)音轉(zhuǎn)換

在語(yǔ)音轉(zhuǎn)換中,統(tǒng)計(jì)建模的方法主要有碼書(shū)映射、高斯混合模型、頻率扭曲、單元選擇算法、INCA算法和話者建模算法等. 其中高斯混合模型、碼書(shū)映射、頻率扭曲需要并行訓(xùn)練數(shù)據(jù)的支持,即訓(xùn)練數(shù)據(jù)集中要有不同人物說(shuō)的相同語(yǔ)音; 而單元選擇算法、INCA算法和話者建模算法則可以用非并行數(shù)據(jù)進(jìn)行訓(xùn)練.

碼書(shū)映射的方法將話者的語(yǔ)音個(gè)性表示為碼本中的碼向量,因此語(yǔ)音轉(zhuǎn)換的問(wèn)題即可表示為找到兩個(gè)碼本之間的映射函數(shù). Abe 等人[4]通過(guò)實(shí)現(xiàn)矢量量化和頻譜映射對(duì)音頻進(jìn)行變換,在模型構(gòu)建階段得到頻譜參數(shù)、功率值和音調(diào)頻率的映射碼本,并在source碼本和target 碼本之間進(jìn)行映射. Matsumoto 等人[30]通過(guò)對(duì)典型頻譜的估計(jì)說(shuō)話人向量進(jìn)行內(nèi)插,從而最小化模糊目標(biāo)函數(shù),有效降低了矢量量化的量化誤差.

基于高斯混合模型的方法[31]不是對(duì)特定的聲學(xué)特征進(jìn)行操作,而是對(duì)整個(gè)頻譜包絡(luò)進(jìn)行轉(zhuǎn)換. 此方法首先通過(guò)動(dòng)態(tài)時(shí)間扭曲對(duì)源話者和目標(biāo)話者語(yǔ)音進(jìn)行對(duì)齊,之后用高斯混合模型參數(shù)進(jìn)行描述并用最小二乘優(yōu)化求解. 此方法結(jié)合高斯混合模型作為矢量量化方法的拓展,起到了改善語(yǔ)音質(zhì)量的效果,但存在過(guò)渡平滑的問(wèn)題. Toda 等人[5]提出了使用動(dòng)態(tài)的特征統(tǒng)計(jì)和考慮全局方差特性顯著地緩解了過(guò)渡平滑效應(yīng); Takamichi 等人[32]提出使用基于調(diào)制頻譜修正的濾波器來(lái)減輕高斯混合模型中的過(guò)平滑問(wèn)題.

基于高斯混合模型的方法通常無(wú)法保留語(yǔ)音的細(xì)節(jié),從而出現(xiàn)語(yǔ)音模糊效應(yīng). 這是因?yàn)榇朔椒ɡ昧似骄穆晫W(xué)特征但缺少細(xì)節(jié)的保留,而直接改變?cè)碱l譜的頻譜扭曲方法可以較好地解決此類問(wèn)題. 基于頻譜扭曲的語(yǔ)音轉(zhuǎn)換方法主要通過(guò)放大或縮小頻率區(qū)間來(lái)調(diào)整波峰的位置和頻譜寬度,通過(guò)放大或縮減波峰高度來(lái)調(diào)節(jié)能量大小,最終完成原始語(yǔ)言到目標(biāo)語(yǔ)音的變換[29]. Valbret 等人[33]最早提出使用線性多元回歸和動(dòng)態(tài)頻率扭曲的方法,系統(tǒng)被分為如圖4 所示的3 個(gè)階段. 第1 階段,語(yǔ)音波形被分解為平緩的源信號(hào)和全局包絡(luò)信號(hào)兩個(gè)分量; 第2 階段,使用Time-Domain-PSOLA 算法改變韻律,使用動(dòng)態(tài)頻率扭曲來(lái)改變頻譜包絡(luò); 第3 階段將修改后的兩個(gè)分量轉(zhuǎn)換為最終音頻.此方法較好地保留了頻譜的結(jié)構(gòu)信息,但其轉(zhuǎn)換后的保真度存在明顯的差距. 為改善此問(wèn)題,很多相關(guān)研究提出一些更加復(fù)雜的頻譜扭曲技術(shù),例如Sündermann等人[34]提出了單參數(shù)扭曲函數(shù)和多參數(shù)分段線性函數(shù)的處理方法,Tian 等人[35]結(jié)合頻率扭曲和基于樣本的轉(zhuǎn)換方法以保持轉(zhuǎn)換后的細(xì)節(jié).

圖4 基于頻譜扭曲的語(yǔ)音轉(zhuǎn)換系統(tǒng)

在語(yǔ)音轉(zhuǎn)換的實(shí)際應(yīng)用中一般很難找到大量并行的數(shù)據(jù),因而模型訓(xùn)練的難度也會(huì)大大提升. 如果能把語(yǔ)音分解成足夠細(xì)小的顆粒,那么在數(shù)據(jù)量足夠的情況下,即便是兩個(gè)人的非并行數(shù)據(jù),也能找到對(duì)應(yīng)的細(xì)小顆粒. Duxans 等人[36]采用單元選擇技術(shù)構(gòu)建偽并行樣本數(shù)據(jù)庫(kù),進(jìn)而結(jié)合并行轉(zhuǎn)換方法對(duì)語(yǔ)音進(jìn)行轉(zhuǎn)換.此方法的問(wèn)題在于數(shù)據(jù)庫(kù)的構(gòu)建較為困難.

INCA 算法[37]結(jié)合了最近鄰搜索和轉(zhuǎn)換步驟,在目標(biāo)聲學(xué)空間和源聲學(xué)空間中分別找到對(duì)應(yīng)的最近鄰向量,進(jìn)一步迭代構(gòu)造中間樣本和目標(biāo)樣本的對(duì)準(zhǔn)數(shù)據(jù)集. Stylianou 等人[38]在高斯混合模型的基礎(chǔ)上實(shí)現(xiàn)了INCA 算法,實(shí)驗(yàn)結(jié)果表明此方法與使用相當(dāng)數(shù)據(jù)量的并行樣本效果基本類似.

基于話者建模的轉(zhuǎn)換方法是一種首先利用文本無(wú)關(guān)的語(yǔ)音數(shù)據(jù)建立源人物和目標(biāo)任務(wù)的發(fā)音模型,然后再進(jìn)行語(yǔ)音轉(zhuǎn)換的技術(shù). Wu 等人[39]將語(yǔ)音向量分解為語(yǔ)音成分和說(shuō)話人特征成分,并對(duì)說(shuō)話人空間采用混合因子分析器[40]進(jìn)行因子分析,從而細(xì)化語(yǔ)音轉(zhuǎn)換中JD-GMM 的協(xié)方差. 此方法大大降低了訓(xùn)練樣本的需求量,并且方法性能在主觀和客觀指標(biāo)上都優(yōu)于傳統(tǒng)JD-GMM 方法.

2.3.2 基于深度學(xué)習(xí)的語(yǔ)音轉(zhuǎn)換

基于統(tǒng)計(jì)建模的語(yǔ)音轉(zhuǎn)化方法往往面臨著模型泛化能力不足的問(wèn)題,從而致使轉(zhuǎn)換后的語(yǔ)音缺失細(xì)節(jié)、真實(shí)度不足. 深度學(xué)習(xí)的優(yōu)勢(shì)在于能夠擬合任何復(fù)雜的函數(shù),因此可以更好地學(xué)習(xí)語(yǔ)音特點(diǎn)這一類的高級(jí)語(yǔ)義. 在數(shù)據(jù)量足夠大的情況下,深度學(xué)習(xí)的優(yōu)勢(shì)更加突出,因此語(yǔ)音訓(xùn)練數(shù)據(jù)的準(zhǔn)備也是十分重要的問(wèn)題.

(1)基于并行數(shù)據(jù)的方法

早期的深度學(xué)習(xí)模型大多只能在并行訓(xùn)練數(shù)據(jù)的支撐下完成語(yǔ)音轉(zhuǎn)換任務(wù). Xie 等人[41]用神經(jīng)網(wǎng)絡(luò)將基音和譜特征直接進(jìn)行轉(zhuǎn)換,提高了語(yǔ)音合成的質(zhì)量.Chen 等人[42]提出使用深度神經(jīng)網(wǎng)絡(luò)對(duì)玻爾茲曼機(jī)進(jìn)行生成性訓(xùn)練,并模擬源話者和目標(biāo)話者的頻譜包絡(luò)分布,較好地改善了生成語(yǔ)音中平滑效應(yīng)帶來(lái)的問(wèn)題.一些基于LSTM 的工作[43,44]建模了語(yǔ)音幀之間的時(shí)間相關(guān)性,增強(qiáng)了轉(zhuǎn)換語(yǔ)音的連續(xù)性和自然性.

(2)基于編解碼器結(jié)構(gòu)的方法

并行數(shù)據(jù)雖然易于使用,但制作數(shù)據(jù)庫(kù)難度較大,不利于徹底發(fā)揮深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力. 并且上一段提到的方法都是一對(duì)一的語(yǔ)音轉(zhuǎn)換,若目標(biāo)改變還需要重新制作數(shù)據(jù)集、訓(xùn)練新的模型,因此靈活性和操作性明顯不足. 借鑒計(jì)算機(jī)視覺(jué)中的思想,說(shuō)話人的轉(zhuǎn)換可以看做語(yǔ)音風(fēng)格的轉(zhuǎn)換,也就可以借鑒風(fēng)格遷移中的非監(jiān)督訓(xùn)練方法. Hsu 等人[45]提出利用自動(dòng)編碼器分提取與說(shuō)話人無(wú)關(guān)的信息,并串聯(lián)一個(gè)熱向量代表目標(biāo)說(shuō)話人,再經(jīng)解碼器實(shí)現(xiàn)具有目標(biāo)話者特征的音頻輸出. 此方法顯式的引入了說(shuō)話人的身份,但該模型沒(méi)有應(yīng)對(duì)未知說(shuō)話人語(yǔ)音轉(zhuǎn)換的能力. Chou 等人[46]提出了一種通過(guò)實(shí)例規(guī)范化分離說(shuō)話人和說(shuō)話內(nèi)容的語(yǔ)音轉(zhuǎn)換方法,僅需一組實(shí)例語(yǔ)音就可以執(zhí)行. 如圖5所示,整個(gè)模型包括對(duì)應(yīng)目標(biāo)話者的話者編碼器、對(duì)應(yīng)源話者的內(nèi)容編碼器和綜合兩路信息的解碼器. 其中話者編碼器用來(lái)對(duì)說(shuō)話人的聲音特征進(jìn)行提取,內(nèi)容編碼器負(fù)責(zé)將除源說(shuō)話人身份特征的內(nèi)容提取出,解碼器綜合兩路信息并合成轉(zhuǎn)換后的語(yǔ)音. 該模型的優(yōu)點(diǎn)在于提供了一個(gè)真正的多對(duì)多模型,減輕了數(shù)據(jù)和訓(xùn)練上的要求. 但此方法轉(zhuǎn)換后的效果欠佳,模型和訓(xùn)練策略都可進(jìn)一步改進(jìn).

圖5 實(shí)例規(guī)范化語(yǔ)音轉(zhuǎn)換流程

上述方法遵循逐幀轉(zhuǎn)換的框架,因此不能實(shí)現(xiàn)序列到序列建模持續(xù)修改的優(yōu)點(diǎn). 文獻(xiàn)[47]構(gòu)造了語(yǔ)音序列的識(shí)別編碼器和基于神經(jīng)網(wǎng)絡(luò)的話者編碼器,能夠?qū)⒙曇籼卣鬓D(zhuǎn)換為解糾纏的語(yǔ)言內(nèi)容和話者特征表示; 同時(shí)建立了序列到序列的解碼器,從編碼器的輸出中重新獲取聲學(xué)特征,并進(jìn)一步通過(guò)WaveNet 聲碼器進(jìn)行波形重構(gòu). 此方法性能接近最先進(jìn)的并行訓(xùn)練模型,并且在2018 年語(yǔ)音轉(zhuǎn)換挑戰(zhàn)競(jìng)賽[48]中取得冠軍.

(3)基于風(fēng)格遷移的方法

除了編解碼器結(jié)構(gòu),計(jì)算機(jī)視覺(jué)中的CycleGAN[49]也常被用到風(fēng)格轉(zhuǎn)換的領(lǐng)域中. CycleGAN 能夠在訓(xùn)練樣本不匹配時(shí)實(shí)現(xiàn)兩類樣本之間的風(fēng)格遷移,其核心點(diǎn)在于循環(huán)一致性損失和對(duì)抗損失. 循環(huán)一致性損失限制了X域的樣本變換到Y(jié)域后再經(jīng)Y域到X域的變換也要符合X域的分布,從而使轉(zhuǎn)換后的樣本在獲得其他域風(fēng)格的同時(shí)仍保留原始的必要特征. 對(duì)抗損失則促進(jìn)判別器的鑒別能力和生成器的生成能力同步提高,進(jìn)而提高風(fēng)格遷移的效果. Kaneko 等人[50]在原始CycleGAN 的基礎(chǔ)上提出CycleGAN-VC,引入門(mén)控卷積神經(jīng)網(wǎng)絡(luò)和身份映射損失,在非并行數(shù)據(jù)下的效果與基于并行數(shù)據(jù)的傳統(tǒng)方法效果相當(dāng). 為彌補(bǔ)轉(zhuǎn)換語(yǔ)音在自然度和真實(shí)性方面的不足,CycleGANVC2[51]通過(guò)引入兩步對(duì)抗損失、2-1-2 維卷積網(wǎng)絡(luò)和PatchGAN,進(jìn)一步提升了模型的性能.

針對(duì)CycleGAN-VC 不能實(shí)現(xiàn)many-to-many 轉(zhuǎn)換的缺點(diǎn),StarGAN-VC[52]通過(guò)擴(kuò)展CycleGAN-VC 條件設(shè)置變量實(shí)現(xiàn)了單一生成器下非并行多域語(yǔ)音轉(zhuǎn)換. 但StarGAN-VC 生成語(yǔ)音的質(zhì)量?jī)H僅能達(dá)到和CycleGANVC 相當(dāng)?shù)乃?與真實(shí)語(yǔ)音之間還存在人耳可以分辨的差別. 為了解決這一問(wèn)題,StarGAN-VC2[53]從損失函數(shù)和網(wǎng)絡(luò)架構(gòu)兩個(gè)角度進(jìn)行反思,并進(jìn)一步提出更先進(jìn)的方法. 其中在損失函數(shù)方面,StarGAN-VC2 提出源-目標(biāo)條件對(duì)抗損失函數(shù),促使所有轉(zhuǎn)換后的數(shù)據(jù)在源和目標(biāo)方面都接近真實(shí)數(shù)據(jù); 在網(wǎng)絡(luò)架構(gòu)方面,此方法引入一種基于調(diào)制的條件方法,從而以領(lǐng)域相關(guān)的方式實(shí)現(xiàn)聲學(xué)調(diào)制的轉(zhuǎn)換.

上述風(fēng)格遷移的方法可以實(shí)現(xiàn)說(shuō)話人身份的改變,但對(duì)于情緒的控制并沒(méi)有涉及,這使得轉(zhuǎn)換語(yǔ)音的情感缺失. 為更好地實(shí)現(xiàn)語(yǔ)音情緒操縱,Zhou 等人[54]提出一種采用非配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練的語(yǔ)音情感轉(zhuǎn)換方法.如圖6 所示,該方法運(yùn)行時(shí)首先使用WORLD 聲碼器從源語(yǔ)音中提取頻譜特征Sp、基頻F0 和非周期Ap;通過(guò)對(duì)F0 進(jìn)行連續(xù)小波變換(continuous wavelet transform,CWT)分析得到10 尺度的F0 特征; 將F0 和梅爾譜系數(shù)(Mel-cepstral coefficients,MCEPs)分別輸入到對(duì)應(yīng)訓(xùn)練好的CycleGAN 模型中進(jìn)行頻譜和韻律轉(zhuǎn)換; 最后利用CWT 合成逼近法重構(gòu)F0,并由WORLD聲碼器重新構(gòu)造轉(zhuǎn)換后的語(yǔ)音.

圖6 文獻(xiàn)[54]工作流程

3 語(yǔ)音鑒偽

隨著語(yǔ)音處理技術(shù)不斷提升,偽造語(yǔ)音的身影在社會(huì)生活中出現(xiàn)的更加頻繁. 一方面語(yǔ)音提醒、語(yǔ)音解鎖、短視頻配音等自動(dòng)化語(yǔ)音技術(shù)方便了人們的生活,滿足了大眾追求美好生活的需要. 另一方面,語(yǔ)音技術(shù)的不當(dāng)使用甚至濫用影響了人們的正常生活,更有甚者給社會(huì)和國(guó)家造成惡劣影響,成為不得不關(guān)注的安全隱患. 例如不法分子暗中收集手機(jī)用戶的語(yǔ)音數(shù)據(jù),并偽造聲紋破解移動(dòng)支付的密碼進(jìn)而對(duì)錢(qián)財(cái)進(jìn)行竊取; 結(jié)合深度視覺(jué)偽造技術(shù),對(duì)他人聲譽(yù)形象進(jìn)行破壞,一些針對(duì)各國(guó)重要人物的語(yǔ)音偽造甚至?xí)鹫趾蜕鐣?huì)的動(dòng)蕩. 在此背景下,如何實(shí)現(xiàn)合成語(yǔ)音的有效識(shí)別成為語(yǔ)音技術(shù)廣泛應(yīng)用不得不面臨的重要問(wèn)題.

最原始的語(yǔ)音鑒偽方法是直接讓聽(tīng)眾判斷,然后計(jì)算平均意見(jiàn)分?jǐn)?shù)(mean opinion score,MOS)[55],從而對(duì)音頻的真實(shí)度和相似程度進(jìn)行評(píng)判. 此種方法簡(jiǎn)單有效,在科研學(xué)術(shù)中常被用作算法評(píng)價(jià)的重要依據(jù),但同時(shí)存在花費(fèi)大量精力、主觀評(píng)價(jià)成分多的不足. 近年來(lái)深度學(xué)習(xí)在語(yǔ)音偽造領(lǐng)域的興起促進(jìn)了語(yǔ)音合成往質(zhì)量高、速度快的方向發(fā)展,我們需要更客觀、準(zhǔn)確、有效的鑒偽方法來(lái)應(yīng)對(duì)該領(lǐng)域的新變化. 目前主流的語(yǔ)音鑒偽技術(shù)主要包括基于特征的語(yǔ)音鑒偽和基于數(shù)據(jù)的語(yǔ)音鑒偽.

3.1 基于特征的語(yǔ)音鑒偽

基于特征的語(yǔ)音鑒偽一般分為2 步,第1 步通過(guò)人工構(gòu)建或者神經(jīng)網(wǎng)絡(luò)提取的方式獲取特征,第2 步將特征輸入分類器進(jìn)行下一步的判別. Patel 等人[56]提出基于耳蝸濾波器倒譜系數(shù)和瞬時(shí)頻率變化構(gòu)造幀級(jí)特征,再借助高斯混合模型進(jìn)行判別,以此捕獲跨幀的特征變化. Villalba 等人[57]使用基于深度神經(jīng)網(wǎng)絡(luò)的頻譜對(duì)數(shù)濾波器組和相對(duì)相移特征作為分類器的輸入,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征降維后通過(guò)支持向量機(jī)進(jìn)一步分類. 上述2 種方法逐幀的提取特征,無(wú)法在時(shí)間維度建立數(shù)據(jù)之間的聯(lián)系,因此無(wú)法應(yīng)對(duì)更復(fù)雜的偽造情況.

Gomez-Alanis 等人[58]提出一種集成輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)LC-GRNN,從而同時(shí)實(shí)現(xiàn)提取幀級(jí)特征和學(xué)習(xí)時(shí)間相關(guān)性. 如圖7 所示,對(duì)于一段語(yǔ)音的頻譜圖,該方法按照幀長(zhǎng)和幀間隔逐幀提取語(yǔ)音內(nèi)容,并輸入到輕量級(jí)門(mén)控循環(huán)單元細(xì)胞LC-GRU 中,在最后一個(gè)時(shí)間幀之后的最后一層輸入到全連接層進(jìn)行判決. 實(shí)驗(yàn)表明,該方法的檢測(cè)效果優(yōu)于未考慮時(shí)間相關(guān)性的鑒偽模型.

圖7 LC-GRNN 工作流程

3.2 基于數(shù)據(jù)的語(yǔ)音鑒偽

基于特征的語(yǔ)音鑒偽往往利用人工構(gòu)造的聲學(xué)特征,對(duì)于某項(xiàng)單一的檢測(cè)任務(wù)能達(dá)到要求. 但隨著語(yǔ)音偽造技術(shù)的不斷更迭,互聯(lián)網(wǎng)上各種復(fù)雜的語(yǔ)音情況此起彼伏,對(duì)語(yǔ)音鑒偽的廣泛性和集約性提出了更高的要求. 僅僅靠提取單個(gè)或幾個(gè)語(yǔ)音特征再進(jìn)行分類的做法不足以徹底挖掘龐大復(fù)雜數(shù)據(jù)的潛力,更多研究的重點(diǎn)轉(zhuǎn)移到了基于數(shù)據(jù)的語(yǔ)音鑒偽.

Jung 等人[59]采用端到端的深度神經(jīng)網(wǎng)絡(luò)代替手工提取聲學(xué)特征的過(guò)程,同時(shí)將高分辨率的功率譜密度和頻譜圖輸入到網(wǎng)絡(luò)中進(jìn)行處理,在沒(méi)有專業(yè)知識(shí)的輔助的情況下有效完成了檢測(cè)任務(wù). Zeinali 等人[60]融合了具有單通道對(duì)數(shù)頻譜圖特征的VGG 網(wǎng)絡(luò)和兩個(gè)不同dropout 概率的SincNet,雖然能夠在訓(xùn)練集上有很好的表現(xiàn),但泛化能力不足,無(wú)法檢測(cè)訓(xùn)練時(shí)看不到的攻擊. 考慮基于語(yǔ)音合成和語(yǔ)音轉(zhuǎn)換的麥克風(fēng)級(jí)攻擊和再現(xiàn)攻擊,Monteiro 等人[61]引入改進(jìn)后的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和注意力層,從而應(yīng)對(duì)不同的輸入長(zhǎng)度和某些重點(diǎn)部分. 該工作表明訓(xùn)練數(shù)據(jù)有限時(shí)使用輕型模型會(huì)導(dǎo)致性能的下降,并觀察到語(yǔ)音輸入形式對(duì)不同類型的攻擊檢測(cè)效果有相當(dāng)大的影響. Chettri等人[62]建立了包含卷積神經(jīng)網(wǎng)絡(luò)、卷積循環(huán)網(wǎng)絡(luò)、Wave-U-Net、支持向量機(jī)以及高斯混合模型的集成模型,在訓(xùn)練和驗(yàn)證期間存在攻擊類型不同的情況下仍然有著不錯(cuò)的鑒偽效果. 該研究表明,集成的方法有利于提高語(yǔ)音鑒偽模型的魯棒性.

4 研究展望

盡管深度學(xué)習(xí)的不斷突破和創(chuàng)新給語(yǔ)音偽造和鑒偽領(lǐng)域已經(jīng)帶來(lái)了巨大的進(jìn)步,但這些領(lǐng)域仍存在諸多亟待克服的困難. 對(duì)于語(yǔ)音偽造來(lái)說(shuō),現(xiàn)有的模型大多是一對(duì)一的模型,無(wú)法方便有效的遷移到其他未知人物的語(yǔ)音合成任務(wù)上; 即便是一對(duì)一的模型,若要實(shí)現(xiàn)令人滿意的效果也需要大量?jī)?nèi)容上高度一致的配對(duì)訓(xùn)練數(shù)據(jù),這對(duì)于數(shù)據(jù)集的構(gòu)建提出了嚴(yán)格的要求; 同時(shí)大多數(shù)的模型專注于頻率的偽造,對(duì)于韻律的偽造并沒(méi)有更多的研究. 另外,如果要落地到現(xiàn)實(shí)的應(yīng)用場(chǎng)景,還需要考慮轉(zhuǎn)換速率、模型大小以及惡劣噪聲環(huán)境影響的問(wèn)題. 針對(duì)于這些挑戰(zhàn),語(yǔ)音偽造下一步應(yīng)朝以下方向發(fā)展.

(1)多對(duì)多模型. 理想的語(yǔ)音偽造框架應(yīng)該自動(dòng)的提取目標(biāo)說(shuō)話人的風(fēng)格,而不限于說(shuō)話人的具體身份,因此對(duì)于文本到語(yǔ)音任務(wù)我們只需輸入模型一段文本和一段目標(biāo)話者的語(yǔ)音,對(duì)于語(yǔ)音轉(zhuǎn)換任務(wù)我們只需要分別提供一段源話者和目標(biāo)話者的語(yǔ)音. 這樣的模型需要學(xué)習(xí)真正將語(yǔ)音的內(nèi)容和風(fēng)格完全分離,因此模型的體量和訓(xùn)練數(shù)據(jù)集的大小應(yīng)該都是有一定規(guī)模.

(2)自監(jiān)督的訓(xùn)練方法. 深度學(xué)習(xí)是依賴數(shù)據(jù)的技術(shù),因此要想提升模型的效果,數(shù)據(jù)集必然越大越好、覆蓋性越廣越好. 自監(jiān)督的訓(xùn)練方法大大降低的龐大數(shù)據(jù)集的使用難度,顯著減輕了人工標(biāo)注的壓力,有利于徹底挖掘模型和數(shù)據(jù)潛力. 我們可以借鑒目前較為流行的自監(jiān)督對(duì)比學(xué)習(xí)方法[63],提出適合語(yǔ)音偽造任務(wù)的訓(xùn)練策略.

(3)考慮韻律轉(zhuǎn)換的模型. 人的語(yǔ)音特征可分為頻率特征和韻律特征,頻率特征決定了人的音色,而韻律特征代表人的說(shuō)話的節(jié)奏、韻腳等. 現(xiàn)有的模型如Tacotron 都未考慮韻律的轉(zhuǎn)換,因此合成的語(yǔ)音較為生硬,下一步的模型應(yīng)著重實(shí)現(xiàn)韻律轉(zhuǎn)換.

(4)更魯棒的模型. 實(shí)際的語(yǔ)音質(zhì)量并不一定良好,很多有背景噪聲、音樂(lè)等干擾,如何消除非語(yǔ)音信息的干擾是該領(lǐng)域需要重點(diǎn)關(guān)注的方向.

(5)更快更小的模型. 我們要將模型壓縮的技術(shù)應(yīng)用到現(xiàn)有語(yǔ)音偽造模型上,只有模型的體量降低下來(lái),移動(dòng)端設(shè)備才可以廣泛的使用這些模型,適用的應(yīng)用場(chǎng)景才會(huì)越來(lái)越豐富.

同樣的,語(yǔ)音鑒偽領(lǐng)域也存在不可避免的挑戰(zhàn). 從本質(zhì)上講,偽造語(yǔ)音檢測(cè)也是一種分類任務(wù),因此分類中常見(jiàn)的問(wèn)題在偽造語(yǔ)音檢測(cè)中也會(huì)遇到. 首先,在模型訓(xùn)練中看不到的偽造樣本在測(cè)試階段同樣也很難檢測(cè)出,這就導(dǎo)致了偽造和鑒偽成了一對(duì)貓鼠游戲,總會(huì)有新的偽造方法來(lái)躲避既有鑒偽方法的檢測(cè),而現(xiàn)有的鑒偽模型又不得不不斷地在訓(xùn)練集中納入新的偽造樣本. 其次,即便是訓(xùn)練集中存在的偽造樣本,也會(huì)存在樣本不均衡的問(wèn)題,導(dǎo)致某些特定的偽造方法難以被檢測(cè)出. 針對(duì)以上問(wèn)題,語(yǔ)音鑒偽未來(lái)需要關(guān)注以下幾點(diǎn).

(1)實(shí)際使用中關(guān)注最新的語(yǔ)音偽造方法,不斷更新訓(xùn)練集,盡可能多的包含不同種類的樣本.

(2)采用重采樣、人工產(chǎn)生數(shù)據(jù)樣本等方法改善訓(xùn)練樣本中數(shù)據(jù)不均衡的問(wèn)題.

(3)在集成模型方面進(jìn)行更多的嘗試. 現(xiàn)有工作表明集成模型對(duì)未知攻擊有一定的檢測(cè)效果,未來(lái)構(gòu)建更好的集成模型也是重點(diǎn)需要關(guān)注的方向.

此外,語(yǔ)音偽造與視覺(jué)偽造的結(jié)合也是建立未來(lái)虛擬世界的支柱,需要研究視覺(jué)和聽(tīng)覺(jué)協(xié)同時(shí)將面臨的新挑戰(zhàn). 面對(duì)語(yǔ)音偽造的威脅,一些個(gè)人賬戶平臺(tái)可以采用多種手段進(jìn)行驗(yàn)證,以提升抵御未知風(fēng)險(xiǎn)的能力.

5 結(jié)束語(yǔ)

新的技術(shù)帶來(lái)新的發(fā)展,新的發(fā)展迎來(lái)新的挑戰(zhàn).語(yǔ)音技術(shù)是現(xiàn)代人工智能發(fā)展的一個(gè)縮影,給人們的生活、社會(huì)的進(jìn)步帶來(lái)新的活力. 同時(shí)技術(shù)被一些不法分子掌握之后,又給社會(huì)帶來(lái)了不穩(wěn)定的因素. 我們要看清楚技術(shù)本身并沒(méi)有好壞之分,無(wú)論怎樣都不能抵制技術(shù)的發(fā)展,而要引導(dǎo)技術(shù)往好的方向去應(yīng)用. 這就要求我們技術(shù)的研發(fā)者要多方面的考慮問(wèn)題,既要做推動(dòng)技術(shù)騰飛的發(fā)動(dòng)機(jī),也要守好基本底線,做遏制技術(shù)脫離正軌的防護(hù)欄.

猜你喜歡
頻譜語(yǔ)音特征
微信語(yǔ)音恐懼癥
魔力語(yǔ)音
Magic Phonetics魔力語(yǔ)音
抓特征解方程組
不忠誠(chéng)的四個(gè)特征
對(duì)方正在輸入……
中國(guó)向左走,向右走?
FCC啟動(dòng) 首次高頻段5G頻譜拍賣
動(dòng)態(tài)頻譜共享簡(jiǎn)述
認(rèn)知無(wú)線電中一種新的頻譜接入方法
威远县| 香港 | 鲁甸县| 囊谦县| 永德县| 灌云县| 黄浦区| 南阳市| 黄冈市| 平昌县| 丰都县| 蕲春县| 永州市| 商河县| 济源市| 桐乡市| 绥中县| 阿拉善盟| 兴隆县| 承德市| 嵩明县| 东乡县| 右玉县| 保靖县| 平顺县| 垦利县| 澄迈县| 克山县| 且末县| 上饶县| 会东县| 邻水| 房山区| 海林市| 桐乡市| 玉田县| 东城区| 和政县| 尼木县| 九寨沟县| 双牌县|