情感語音合成技術(shù)或?qū)β暭y鑒定準(zhǔn)確性產(chǎn)生影響

2018-01-29 10:30白海莉

科技創(chuàng)新與應(yīng)用 2018年36期

白海莉

摘要：聲紋鑒定運(yùn)用語言學(xué)、計(jì)算機(jī)科學(xué)等知識，對涉案語音和樣本語音進(jìn)行聽覺辨識，同時(shí)運(yùn)用頻譜圖進(jìn)行綜合分析，判斷二者是否由同一音源發(fā)出，或者判斷聲音性質(zhì)。聲紋鑒定結(jié)果可以為偵查和訴訟活動提供線索或證據(jù)。深度學(xué)習(xí)可以促進(jìn)情感語音合成技術(shù)的發(fā)展，而情感語音合成技術(shù)的發(fā)展水平越高，合成語音與人聲的差異就越小，聲紋鑒定的難度就越大。文章旨在研究深度學(xué)習(xí)以及情感語音合成技術(shù)發(fā)展的發(fā)展?fàn)顩r，以此分析其可能對聲紋鑒定準(zhǔn)確性產(chǎn)生影響的因素。

關(guān)鍵詞：語音；聲紋鑒定；深度學(xué)習(xí)；語音合成；情感語音合成

中圖分類號：TN912.33 文獻(xiàn)標(biāo)志碼：A 文章編號：2095-2945（2018）36-0024-02

Abstract： Voiceprint identification uses the knowledge of linguistics and computer science to identify the involved speech and the sample speech. At the same time， it uses the spectral analysis to determine whether the two are generated by the same sound source， or the nature of the voice. The results of voiceprint identification can provide clues or evidence for investigation and litigation activities. Deep learning can promote the development of emotional speech synthesis technology， and the higher the development level of emotional speech synthesis technology， the smaller the difference between synthetic speech and human voice， and the more difficult it is to identify voiceprint. The purpose of this paper is to study the development of deep learning and emotional speech synthesis technology， and to analyze the factors that may affect the accuracy of voiceprint identification.

Keywords： speech； voiceprint identification； deep learning； speech synthesis； emotional speech synthesis

1 聲紋鑒定依據(jù)及科學(xué)性

語音屬于聲音，具有音高、音強(qiáng)、音色和音長基本特征，也可用頻率、波長等物理參量表述。人類辨識語音目的：識別說話內(nèi)容；判斷說話人。聲紋即語音頻譜圖，在法庭科學(xué)領(lǐng)域稱為聲紋。聲紋鑒定依據(jù)的重要原理是語音同一認(rèn)定，主要依據(jù)語音反映性、個(gè)人語音特征穩(wěn)定性、個(gè)人語音特征總體差異性。人體發(fā)音器官構(gòu)造差異和發(fā)音習(xí)慣形成過程中生理、心理差異決定語音特殊性；個(gè)人發(fā)音器官解剖結(jié)構(gòu)相對固定和發(fā)音習(xí)慣的動力定型，決定了同一個(gè)人發(fā)出聲音的聲紋圖譜本質(zhì)上一致。但這項(xiàng)鑒定目前主要依賴鑒定人個(gè)人能力，這決定了鑒定不可避免地含有鑒定人主觀因素。目前語音同一認(rèn)定主要方法是語音學(xué)分析法。它是綜合運(yùn)用嗓音音質(zhì)、口頭言語和頻譜等特征分析語音是否同一的鑒定方法。以特征音節(jié)頻譜特征為主、聽覺特征為輔的比對方法是語音鑒定最有效方法。

2 深度學(xué)習(xí)對語音領(lǐng)域的影響

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中一個(gè)分支，本質(zhì)是訓(xùn)練深層結(jié)構(gòu)模型的方法，可理解為人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。深度學(xué)習(xí)已在語音識別領(lǐng)域大量使用，聲紋識別技術(shù)應(yīng)用需要解決特征提取和模式識別兩個(gè)技術(shù)。深度結(jié)構(gòu)能夠處理人類語音、自然聲音等，能夠分析識別提取數(shù)據(jù)特征，進(jìn)而泛化學(xué)習(xí)。用深度學(xué)習(xí)算法理解人類情感思維難度巨大，要實(shí)現(xiàn)此技術(shù)，首要的是建立破譯人類感情的算法模型，然后建立能理解多維度情感的算法。對深度學(xué)習(xí)的研究和發(fā)展對于語音合成，特別是情感語音合成是非常好的契機(jī)。

3 語音合成技術(shù)與情感語音合成技術(shù)

3.1 語音合成技術(shù)

語音合成和語音識別是語音技術(shù)的兩個(gè)分支。語音合成技術(shù)就是將文字信息轉(zhuǎn)化對應(yīng)的語的音片段并合成為標(biāo)準(zhǔn)流暢的語音朗讀出來，語音合成研究的目的是制造會說話的機(jī)器?；谟?jì)算機(jī)和合成方法側(cè)重點(diǎn)不同，主流的分類是將語音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動（rule-based）方法和數(shù)據(jù)驅(qū)動（data-based）方法。規(guī)則驅(qū)動方法有共振峰合成以及發(fā)音過程合成兩種方法，而數(shù)據(jù)驅(qū)動方法有波形拼接合成，基于隱馬爾可夫模型合成以及深度神經(jīng)網(wǎng)絡(luò)合成方法。發(fā)音過程模擬合成是直接模擬人的發(fā)音這一物理過程。

3.2 情感語音合成技術(shù)

當(dāng)合成的語音自然度、靈活度等基本滿足人們要求時(shí)，需考慮的是改變基頻建模，使之能夠調(diào)整基頻來合成情感語音。賦予合成語音情感，讓合成語音表現(xiàn)出個(gè)性生理、心理等特點(diǎn)，是語音合成領(lǐng)域一個(gè)難題。但已有學(xué)者提出建立多視角情感描述模型，描述認(rèn)知、心理、生理等影響因素之間的關(guān)聯(lián)性，并通過語音頻譜特征表現(xiàn)出來。基于文本的情感分析屬于情感語音合成系統(tǒng)語言模型的一部分。

據(jù)報(bào)道，加拿大一公司已經(jīng)發(fā)布了人工智能（AI）語音系統(tǒng)，該系統(tǒng)比對分析文本和語音之間的關(guān)系并在很短的時(shí)間內(nèi)模仿語音。該系統(tǒng)在錄入時(shí)使用仿人腦思維模型，分析個(gè)體發(fā)音特點(diǎn)，并可以深度學(xué)習(xí)個(gè)體語音情感及認(rèn)知，進(jìn)而輸出語音。盡管該系統(tǒng)合成語音和人的語音還有一定的差異，但是人工智能發(fā)展讓減弱甚至背景噪音和機(jī)器發(fā)音特點(diǎn)成為可能，計(jì)算機(jī)精確模擬人類發(fā)音器官發(fā)出聲音指日可待。

4 結(jié)束語

聲紋鑒定所采用的技術(shù)決定了這種鑒定不可避免地含有鑒定人主觀因素，對于一些介于本質(zhì)差異與非本質(zhì)差異的臨界差異，不同人看法不同。而個(gè)性化發(fā)音、情感語音正是鑒定中的難點(diǎn)。深度學(xué)習(xí)可以促進(jìn)情感語音合成技術(shù)的發(fā)展，而情感語音合成技術(shù)的發(fā)展水平越高，合成語音與人聲差異就越小，聲紋鑒定的難度就越大。對于從事鑒定工作的人員而言，關(guān)注科技發(fā)展可能對鑒定工作產(chǎn)生的影響對提升個(gè)人鑒定技能同樣重要。

參考文獻(xiàn)：

[1]徐立根.物證技術(shù)學(xué)（第四版）[M].北京：中國人民大學(xué)出版社，2011：267-284.

[2]王英利，李敬陽，曹洪林.聲紋鑒定技術(shù)綜述[J].警察技術(shù)，2012（4）：54-56.

[3]王英利.關(guān)于聲紋鑒定技術(shù)的若干問題[A].第九屆中國語音學(xué)學(xué)術(shù)會議論文集[C].2010.

[4]侯一民，周慧瓊，王政一.深度學(xué)習(xí)在語音識別中的研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究，2017（8）：2242-2246.

[5]郭麗麗，丁世飛.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)，2015（5）：28-33.

[6]張斌，全昌勤，任福繼.語音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng)，2016（1）：186-192.

[7]井曉陽，羅飛，王亞棋.漢語語音合成技術(shù)綜述[J].計(jì)算機(jī)科學(xué)，2012（11A）：386-390.

[8]高瑩瑩，朱維彬.面向情感語音合成的言語情感描述與預(yù)測[J].清華大學(xué)學(xué)報(bào)（自然科學(xué)版），2017（2）：202-207.

[9]韓超.語音合成技術(shù)的功能設(shè)計(jì)和實(shí)現(xiàn)[J].科技創(chuàng)新與生產(chǎn)力，2016（12）：84-87.

[10]張建明，詹智財(cái)，成科揚(yáng)，等.深度學(xué)習(xí)的研究與發(fā)展[J].江蘇大學(xué)學(xué)報(bào)（自然科學(xué)版），2015（2）：191-200.

[11]聶翠蓉.“傾聽”1分鐘，就能開口模仿人類“講話”新款人工智能語音系統(tǒng)高效復(fù)制人聲[N].科技日報(bào)，2017-5-4（001）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

情感語音合成技術(shù)或?qū)β暭y鑒定準(zhǔn)確性產(chǎn)生影響