国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度神經(jīng)網(wǎng)絡(luò)的語音深度特征提取方法

2018-10-11 00:38李濤曹輝郭樂樂
聲學技術(shù) 2018年4期
關(guān)鍵詞:音素錯誤率特征參數(shù)

李濤,曹輝,郭樂樂

?

深度神經(jīng)網(wǎng)絡(luò)的語音深度特征提取方法

李濤,曹輝,郭樂樂

(陜西師范大學物理學與信息技術(shù)學院,陜西西安 710100)

為了提升連續(xù)語音識別系統(tǒng)性能,將深度自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音信號特征提取。通過堆疊稀疏自編碼器組成深度自編碼器(Deep Auto-Encoding, DAE),經(jīng)過預訓練和微調(diào)兩個步驟提取語音信號的本質(zhì)特征,使用與上下文相關(guān)的三音素模型,以音素錯誤率大小為系統(tǒng)性能的評判標準。仿真結(jié)果表明相對于傳統(tǒng)梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)特征以及優(yōu)化后的MFCC特征,基于深度自編碼器提取的深度特征更具優(yōu)越性。

語音識別;深度自編碼器;梅爾頻率倒譜系數(shù);

0 引言

語音識別是人類與機器進行語音交流,機器理解、識別人類的語音信號后將其轉(zhuǎn)換成對應(yīng)的文本或者命令的過程[1]。語音識別過程主要包括3個部分:語音特征的提取、建立聲學模型與解碼[2-3]。語音信號的特征提取在整個語音識別系統(tǒng)中至關(guān)重要,對這些特征進行降維、去噪,準確地提取出表示該語音本質(zhì)的特征參數(shù)將使得后面的分類識別更有效,識別率更高。目前表示語音信息主要用的是短時頻譜特征,比如梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、差分倒譜特征(Shifted Delta Cepstra, SDC)、感知線性預測特征(Perceptual Linear Predictive, PLP)等。但這些短時頻譜特征在實際的使用中都存在一些不足:以MFCC為例,每幀只包含20~30 ms語音,不但容易受到噪聲干擾,而且還會忽略語音信號的動態(tài)特性和語音信號中所含有的類別信息,這些不足都會影響語音識別的準確率[4]。

2006年Hinton等[5]提出基于深度信念網(wǎng)絡(luò)(Deep Believe Network, DBN)的非監(jiān)督貪心逐層訓練算法,將深度學習算法應(yīng)用于訓練多層神經(jīng)網(wǎng)絡(luò),它特殊的訓練方式可以給神經(jīng)網(wǎng)絡(luò)提供較優(yōu)的初始權(quán)值與偏置,使得網(wǎng)絡(luò)能夠快速地收斂于合理的極值點,有效避免了傳統(tǒng)多層感知器(Multi-Layer Perceptron, MLP)在增加隱含層的同時易陷入局部最優(yōu)解和需要大量有標記數(shù)據(jù)的問題。同時DBN的深度結(jié)構(gòu)被證明相對于原有的淺層建模方法能夠更好地對語音、圖像信號進行建模。利用可以有效提升傳統(tǒng)語音識別系統(tǒng)性能的深度神經(jīng)網(wǎng)絡(luò)DBN來進行語音識別[5],學習到了更能表征原始數(shù)據(jù)本質(zhì)的特征。隨后Hinton等[6-7]提出了自編碼器(Auto Encoder, AE)的深層結(jié)構(gòu):深度自編碼器(Deep Auto Encoder, DAE)。自編碼神經(jīng)網(wǎng)絡(luò)是一種網(wǎng)絡(luò)誤差函數(shù)定義與DBN不同的典型深度神經(jīng)網(wǎng)絡(luò)。當隱含層節(jié)點的輸入、輸出呈線性關(guān)系,且訓練網(wǎng)絡(luò)采用最小均方誤差(Least Mean Square Error, LMSE)準則時,整個編碼過程與主成分分析(Principle Component Analysis, PCA)等效。當隱含層映射呈非線性映射時,即為自動編碼器。本文采用這種自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行語音信號特征的提取。

1 深度自編碼器的工作原理

深度自編碼器是一種期望網(wǎng)絡(luò)得到的輸出為其原始輸入的特殊深度神經(jīng)網(wǎng)絡(luò)。由于令該網(wǎng)絡(luò)的輸出趨近與它的原始輸入,所以該網(wǎng)絡(luò)中間層的編碼完整地包含了原始數(shù)據(jù)的全部信息。但是是以一種不同的形式來對原始輸入數(shù)據(jù)進行分解和重構(gòu),逐層學習了原始數(shù)據(jù)的多種表達。因此整個編碼過程可看作是對信號的分解重構(gòu)。將該網(wǎng)絡(luò)結(jié)構(gòu)用于特征壓縮時,隱含層的神經(jīng)元個數(shù)少于輸入層神經(jīng)元個數(shù);把特征映射到高維空間時,則隱含層神經(jīng)元個數(shù)多于輸入層神經(jīng)元個數(shù)。

自編碼器是使用了無監(jiān)督學習與反向傳播算法,并令目標值趨近于輸入值的前向傳播神經(jīng)網(wǎng)絡(luò)??蓪Ω呔S數(shù)據(jù)進行降維,進而得到低維的特征向量。設(shè)向量為輸入樣本,則隱含層、輸出層神經(jīng)元的激活情況計算公式為

在訓練自動編碼器時,為了確保在處理數(shù)據(jù)過程中隱層神經(jīng)元只有少部分被激活,故而限制隱含層的神經(jīng)元被激活的數(shù)量,在損失函數(shù)中引入對激活隱層神經(jīng)元數(shù)目的約束項,也就是實現(xiàn)對原始輸入數(shù)據(jù)的稀疏編碼,經(jīng)證明稀疏編碼能夠有效降低模型的識別錯誤率[9]。損失函數(shù)為

的方法:上層的輸出參數(shù)作為下層的原始輸入?yún)?shù)依次訓練整個網(wǎng)絡(luò);微調(diào)階段利用反向傳播算法調(diào)整所有層的參數(shù)。

常見的自編碼器含有一個隱含層,如圖1所示。文獻[10]將深度神經(jīng)網(wǎng)絡(luò)定義為隱含層層數(shù)超過一層的神經(jīng)網(wǎng)絡(luò)。在本文中構(gòu)建一個含有兩層隱含層的深度神經(jīng)網(wǎng)絡(luò)來提取語音信號的深度特征。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖1 單隱含層神經(jīng)網(wǎng)絡(luò)

圖2 深度神經(jīng)網(wǎng)絡(luò)

2 基于DAE模型的深度特征提取

因說話人、說話方式不同及噪聲等影響,可能使在實驗環(huán)境下表現(xiàn)優(yōu)異的語音識別系統(tǒng)在實際應(yīng)用中的識別性能不穩(wěn)定。因此,使用改善系統(tǒng)的魯棒性和自適應(yīng)能力的方法來優(yōu)化聲學特征參數(shù),增強識別系統(tǒng)的抗干擾能力,使其性能更加穩(wěn)定,能夠應(yīng)對多種環(huán)境。目前常用解決方法是:為增強特征參數(shù)的適應(yīng)能力而對其進行特征變換處理;或為提高特征參數(shù)的魯棒性而對語音信號進行增強、濾波、去噪等處理。

新型的審批模式推廣與應(yīng)用的必要的前提就是至上而下的重視和全面的科學指導與培訓,這是平臺運用成功的關(guān)鍵和必要的基礎(chǔ)條件。

提取深度特征之前,先對提取的MFCC特征進行特征變換,再作為深度自編碼器的原始輸入,進而得到識別率更高的語音深度特征,對原始MFCC特征依次進行線性判別分析、最大似然線性變換和最大似然線性回歸變換處理。

考慮到協(xié)同發(fā)音的影響,將已提取的39維MFCC特征向量(靜態(tài)、一階、二階差分)進行前后5幀的拼接,得到39 ×11=429維的特征向量。對這429維特征向量進行線性判別分析(Liner Discriminant Analysis, LDA)抽取分類信息,同時降低維度至40維從而得到LDA特征。然后對這40維LDA特征向量進行最大似然線性變換(Maximum Likelihood Linear Transformation, MLLT)來去除相關(guān)性得到LDA+MLLT特征,最后對經(jīng)過去除相關(guān)性的40維LDA+MLLT特征在特征空間上進行最大似然線性回歸(Feature-space Maximum Likelihood Linear Regression, fMLLR)說話人自適應(yīng)訓練,實現(xiàn)特征參數(shù)自適應(yīng),減小測試聲學特征與聲學模型參數(shù)之間的不匹配,得到了40維的LDA+MLLT+fMLLR特征。仿真結(jié)果表明,以上特征變換均能有效降低音素識別的錯誤率。

深度自編碼器能夠更好地對語音信號中與音素相關(guān)的信息進行逐層表征,基于深度自編碼器提取的語音深度特征過程,實質(zhì)上是一種非線性的特征變換和降維過程。利用神經(jīng)網(wǎng)絡(luò)的層次化提取信息過程來作為對原始輸入特征的非線性特征提取與轉(zhuǎn)換,使得特征維度與神經(jīng)網(wǎng)絡(luò)訓練目標尺度分離。相對網(wǎng)絡(luò)首層輸入層而言,隱層的神經(jīng)元個數(shù)要少得多,所以隱層在通過學習到原始輸入樣本的低維表示的同時,還可以最大限度地包含與高維表示相同的信息。并且可以通過更精細的子音素類別來表示音素目標,最終由原始輸入向量經(jīng)過逐層映射得出對應(yīng)隱含層的輸出向量。由此就得到能夠最大限度地包含輸入向量信息的一個低維編碼,這使得輸出的深度特征具有比傳統(tǒng)底層聲學語音特征參數(shù)相近或更好的特性區(qū)分性,還帶有類別信息,加強了特征表示聲學單元的能力,得到更有效的特征表達,進而提高后期語音識別系統(tǒng)的性能。使用DAE提取深度特征的流程圖如圖3所示。

圖3 深度特征提取流程

本文使用的原始輸入特征是進行前后5幀拼接的40維LDA+MLLT+fMLLR特征,形成40×11=440維的輸入特征向量,這11幀拼接的LDA+MLLT+fMLLR特征相對于傳統(tǒng)的單幀特征更具優(yōu)勢[11]:一個音素持續(xù)的時間大約在9幀左右,所以大約9幀的信息量就能夠包含一個完整的音素,同時也含有其他音素的部分信息,它可以提供單幀特征所體現(xiàn)不出的更細致更豐富的音素變化信息。

利用深度自編碼器神經(jīng)網(wǎng)絡(luò)進行深度特征參數(shù)提取的步驟如下:

(1) 以11幀拼接LDA+MLLT+fMLLR特征作為輸入,經(jīng)訓練得出第一層隱含層的網(wǎng)絡(luò)參數(shù),并以此計算第一層隱含層輸出;

(3) 繼續(xù)把上一層的輸出作為第三層的輸入,再用同樣的方法訓練該層網(wǎng)絡(luò)的參數(shù),而后利用反向傳播算法微調(diào)所有層的參數(shù)。最后將輸出層輸出的深度特征參數(shù)作為最終音素識別系統(tǒng)的輸入。

3 仿真結(jié)果與分析

3.1 數(shù)據(jù)庫與仿真環(huán)境

以11幀拼接的LDA+MLLT+fMLLR特征作為原始輸入,經(jīng)過歸一化之后,所有輸入數(shù)據(jù)大小都在0~1之間。為保證實驗的準確性和客觀性,音素識別的基線系統(tǒng)選擇常用的混合隱馬爾科夫模型(Hidden Markov Model, HMM)+深度神經(jīng)網(wǎng)絡(luò)模型(Deep Neural Network, DNN)音素識別系統(tǒng)。

3.2 分析

本文設(shè)計2個實驗來驗證深度特征的優(yōu)越性,用音素錯誤率(Phoneme Error Rate, PER)作為評價特征有效性的標準。

3.2.1 最優(yōu)神經(jīng)網(wǎng)絡(luò)配置

隱層單元數(shù)與隱層數(shù)的選擇將影響后期識別的音素錯誤率。若神經(jīng)元過少,學習的容量有限,網(wǎng)絡(luò)所獲取的解決問題的信息不足,難以存儲訓練樣本中蘊含的所有規(guī)律。若神經(jīng)元過多就會增加網(wǎng)絡(luò)訓練時間,還可能把樣本中非規(guī)律性的內(nèi)容存儲進去,反而會降低泛化能力。通過改變隱層層數(shù)與每層神經(jīng)元個數(shù)來確定網(wǎng)絡(luò)最佳配置,設(shè)置隱層層數(shù)從1到3層變化,每個隱層所含神經(jīng)元個數(shù)以50的偶數(shù)倍增加,最多為400個。為降低計算量,減少訓練時間,將每層隱含層的神經(jīng)元設(shè)置成相同個數(shù)。對比不同網(wǎng)絡(luò)結(jié)構(gòu)配置下音素識別率的變化,進而選定最優(yōu)參數(shù)配置。圖4顯示了改變隱含層的層數(shù)與神經(jīng)元個數(shù)對最終音素識別錯誤率的影響。

圖4 不同隱層層數(shù)與神經(jīng)元個數(shù)對音素識別錯誤率的影響

從圖4可以看出,改變隱層層數(shù)和隱層神經(jīng)元個數(shù)對降低音素識別錯誤率有一定影響,當隱含層為兩層且隱含層神經(jīng)元為100時與隱含層為三層隱含神經(jīng)元為200時錯誤率最小,并不是隱含層數(shù)與神經(jīng)元個數(shù)越多越好。當隱層層數(shù)與隱層神經(jīng)元個數(shù)增加至一定數(shù)量時,音素錯誤率不會降低反而上升,同時由于計算參數(shù)的增加使得訓練時間增長,為減少計算參數(shù)及訓練時間,同時確保音素識別正確率,本文選擇建立含有兩個隱含層的深度神經(jīng)網(wǎng)絡(luò)。深度自編碼器的輸入神經(jīng)元個數(shù)即為輸入特征的維數(shù)440,每一隱含層神經(jīng)元個數(shù)為100,輸出層神經(jīng)元個數(shù)設(shè)置為40,則該深度自編碼器結(jié)構(gòu)可表示為440-[100-100]-40,“[ ]”中數(shù)字為隱層神經(jīng)元的個數(shù)。

3.2.2 特征有效性對比

將本文特征解碼的結(jié)果與以下四種特征解碼得出的音素錯誤率進行對比,結(jié)果如表1所示。作為對比的四種特征分別為:(1) 原始MFCC特征參數(shù);(2) LDA+MLLT特征:MFCC在三音素模型的基礎(chǔ)上進行LDA+MLLT變換;(3) LDA+MLLT +fMLLR特征:在(2)的基礎(chǔ)上進行基于特征空間的最大似然線性回歸(fMLLR)的說話人自適應(yīng)訓練;(4) bottleneck特征:以11幀拼接的MFCC特征作為原始輸入,建立含有五個隱含層的DBN網(wǎng)絡(luò),輸入輸出層神經(jīng)元個數(shù)為440,第四隱含層為瓶頸層且其神經(jīng)元個數(shù)為40,其余隱含層神經(jīng)元個數(shù)為1 024,提取出bottleneck特征。

由表1可知,與傳統(tǒng)特征以及特征變換后的優(yōu)化特征作為HMM+DNN系統(tǒng)的輸入相比,將深度特征作為系統(tǒng)原始輸入時,系統(tǒng)的音素錯誤率明顯下降,同時相對于使用DBN網(wǎng)絡(luò)提取bottleneck特征,其網(wǎng)絡(luò)參數(shù)的計算量和訓練時長較少。表1中的結(jié)果也證明了本文提取的深度特征的有效性。

表1 傳統(tǒng)特征與深度特征的音素錯誤率對比

4 結(jié)語

針對傳統(tǒng)語音特征的不足,本文對原始MFCC特征參數(shù)優(yōu)化之后,建立含有兩個隱層的深度自編碼器,將優(yōu)化后的MFCC參數(shù)作為其輸入,實現(xiàn)原始輸入的特征變換與降維,提取了可以更好地反應(yīng)語音本質(zhì)特征的深度特征參數(shù),作為HMM+DNN 系統(tǒng)的輸入。實驗證明了本文特征的有效性。下一步研究將在本研究基礎(chǔ)上與DBN結(jié)合,提取更優(yōu)異的聲學特征,進一步提高語音識別系統(tǒng)的性能。

[1] 韓紀慶, 張磊, 鄭鐵然. 語音信號處理[M]. 北京: 清華大學出版社, 2005.

HAN Jiqing, ZHANG Lei, ZHENG Tieran. Speech Signal Processing[M]. Beijing: Tsinghua University Press, 2005.

[2] 陳雷, 楊俊安, 王一, 等. LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 信號處理, 2015, 31(3): 290 -298.

CHEN Lei, YANG Junan, WANG Yi, et al. A feature extraction method based on discriminative and adaptive bottleneck deep confidence network in LVCSR system[J]. Signal Processing, 2015, 31 (3): 290-298.

[3] SCHWARZ P. Phoneme Recognition Based on Long Temporal Context[EB/ OL]. [2013-07-10]. http://speech. Fit. Vutbr. cz/ software/Phoneme-recognizer-based-long-temporal-context.

[4] GREZL F, FOUSEK P. Optimizing bottleneck feature for LVCSR[C]//IEEE International Confe rence on Acoustics, Speech and Signal Processing, 2008: 4792-4732.

[5] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[6] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[7] 孫志軍, 薛磊, 許陽明, 等. 深度學習研究綜述[J]. 計算機應(yīng)用研究, 2012, 29(8): 2806-2810.

SUN Zhijun, XUE Lei, XU Yangming, et al. Review of deep learning research[J]. Journal of Computer Applications, 2012, 29 (8): 2806-2810.

[8] 張開旭, 周昌樂. 基于自動編碼器的中文詞匯特征無監(jiān)督學習[J].中文信息學報, 2013, 27(5): 1-7.

ZHANG Kaixu, ZHOU Changle. Unsupervised learning of Chinese vocabulary features based on automatic encoder[J]. Journal of Chinese Information Processing, 2013, 27(5): 1-7.

[9] COATES A, NG A Y, LEE H. An analysis of single- layer networks inunsupervised feature learnin[C]//Proc of International Conferenceon Artificial Intelligence and Statistics. 2011: 215-223.

[10] HINTON G E, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[11] SIVARAM G, HERMANSKY H. Sparse multilayer per-ceptron for phoneme recognition[J]. IEEE Transac-tions on Audio, Speech, and Language Processing, 2012, 20(1): 23-29.

Speech deep feature extraction method for deep neural network

LI Tao, CAO Hui,GUO Le-le

(School of Physics and Information Technology,Shaanxi Normal University,Xian,710100, Shaanxi, China)

In order to improve the performance of continuous speech recognition system, this paper applies the deep auto-encoder neural network to the speech signal feature extraction process. The deep auto-encoder is formed by stacking sparsely the auto-encoder. The neural networks based on deep learning introduce the greedy layer-wise learning algorithm by pre-training and fine-tuning. The context-dependent three-phoneme model is used in the continuous speech recognition system, and the phoneme error rate is taken as the criterion of system performance. The simulation results show that the deep auto-encoder based deep feature is more advantageous than the traditional MFCC features and optimized MFCC features.

speech recognition; Deep Auto-Encoding (DAE); Mel-Frequency Cepstral Coefficient (MFCC)

H107

A

1000-3630(2018)-04-0367-05

10.16300/j.cnki.1000-3630.2018.04.013

2017-08-04;

2017-10-18

國家自然科學基金資助(1202020368、11074159、11374199)。

李濤(1992-), 男, 新疆伊犁人, 碩士研究生, 研究方向為信號與信息處理。

曹輝,E-mail:caohui@snnu.edu.cn

猜你喜歡
音素錯誤率特征參數(shù)
依托繪本課程,培養(yǎng)學生英語音素意識
小學英語課堂中音素意識與自然拼讀整合訓練的探索
在拼讀閱讀課中培養(yǎng)學生英語閱讀素養(yǎng)
小學生分數(shù)計算高錯誤率成因及對策
零基礎(chǔ)速記48個音標音素
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于視頻的車輛特征參數(shù)算法研究
正視錯誤,尋求策略
解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
绿春县| 敖汉旗| 鄢陵县| 宁津县| 五寨县| 囊谦县| 桃源县| 丰镇市| 衡阳市| 甘德县| 吉林市| 巴青县| 牙克石市| 汕头市| 独山县| 昔阳县| 常山县| 兴国县| 嘉祥县| 广水市| 阳西县| 枝江市| 蓬莱市| 南城县| 左云县| 库尔勒市| 克什克腾旗| 镶黄旗| 屏山县| 乌兰察布市| 沙湾县| 平原县| 疏附县| 平远县| 永安市| 澎湖县| 高密市| 新竹县| 丹阳市| 荆州市| 中山市|