国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)在語(yǔ)音識(shí)別聲學(xué)建模中的應(yīng)用

2018-11-01 05:19:12楊洋汪毓鐸
電腦知識(shí)與技術(shù) 2018年18期
關(guān)鍵詞:語(yǔ)音識(shí)別人機(jī)交互深度學(xué)習(xí)

楊洋 汪毓鐸

摘要:目前人工智能時(shí)代已經(jīng)到來(lái),自動(dòng)語(yǔ)音識(shí)別技術(shù)無(wú)疑是最好的人機(jī)交互方式之一。深度學(xué)習(xí)憑借其強(qiáng)大的建模能力在語(yǔ)音識(shí)別領(lǐng)域得到廣泛使用。首先對(duì)深度學(xué)習(xí)進(jìn)行簡(jiǎn)介;其次重點(diǎn)介紹了幾種主流深度學(xué)習(xí)聲學(xué)模型的研究現(xiàn)狀;最后總結(jié)了語(yǔ)音識(shí)別領(lǐng)域直到現(xiàn)在仍存在的問(wèn)題以及未來(lái)的可能研究方向。

關(guān)鍵詞:人機(jī)交互;深度學(xué)習(xí);聲學(xué)建模;語(yǔ)音識(shí)別

中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0190-03

Application of Deep Learning in Acoustic Modeling of Speech Recognition

YANG Yang,WANG Yu-duo

(School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China)

Abstract: At present, the era of artificial intelligence has come. Automatic speech recognition technology is undoubtedly one of the best human-computer interaction methods. Deep learning is widely used in the field of speech recognition for its powerful modeling capabilities. Firstly, this article introduces the deep learning. Secondly, it mainly introduces the research status of several mainstream deep learning acoustic models. Finally, it summarizes the problems that still exist in the field of speech recognition and the possible research directions in the future.

Key words:Human–Computer Interaction;Deep learning;Acoustic modeling;Speech Recognition

1 引言

人與機(jī)器之間最理想的交流方式就是語(yǔ)音,語(yǔ)音識(shí)別是實(shí)現(xiàn)機(jī)器智能化的關(guān)鍵技術(shù)。語(yǔ)音信號(hào)具有復(fù)雜性、隨機(jī)性以及非平穩(wěn)的性質(zhì)。由于語(yǔ)音識(shí)別的某些理論一直存在一定的假設(shè),導(dǎo)致很長(zhǎng)一段時(shí)間語(yǔ)音識(shí)別的研究都停滯不前,不能很好地適用于復(fù)雜多變的場(chǎng)景。為了解決語(yǔ)音識(shí)別的瓶頸問(wèn)題需要引入一些新的方法。2006年,深度學(xué)習(xí)理論成功應(yīng)用在機(jī)器學(xué)習(xí)中,由此研究人員開(kāi)始將深度學(xué)習(xí)用于語(yǔ)音識(shí)別。深度網(wǎng)絡(luò)能提取語(yǔ)音信號(hào)中更高層次的抽象特征,能對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行有效的建模。基于深度學(xué)習(xí)的聲學(xué)模型相比于傳統(tǒng)的基于高斯混合模型—隱馬爾可夫模型(Gaussian Mixture Model – Hidden Markov Model, GMM-HMM)語(yǔ)音識(shí)別系統(tǒng),在性能上有很大的提高,語(yǔ)音識(shí)別率有質(zhì)的飛躍,其逐漸成為語(yǔ)音識(shí)別主流的聲學(xué)模型。

2 深度學(xué)習(xí)簡(jiǎn)介

深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)(Artificial neural networks,ANN)的延伸和拓展,截至目前,其已經(jīng)成為機(jī)器學(xué)習(xí)的一個(gè)重要分支。從本質(zhì)上來(lái)說(shuō)深度學(xué)習(xí)就是訓(xùn)練深層次神經(jīng)網(wǎng)絡(luò)模型的一種機(jī)器學(xué)習(xí)算法。普遍認(rèn)為,深層結(jié)構(gòu)學(xué)習(xí)算法正式發(fā)端于2006年,以Hinton 等人提出的深度信念網(wǎng)絡(luò)( deep belief network,DBN) 為標(biāo)志。一般來(lái)說(shuō),其基本過(guò)程包括兩個(gè)階段:

1) 預(yù)訓(xùn)練( pre-training)階段,即特征學(xué)習(xí)階段,就是利用受限波爾茲曼機(jī)進(jìn)行自底向上的逐層非監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)一般都是采用無(wú)標(biāo)簽數(shù)據(jù)去訓(xùn)練每一層,然后將每一層的訓(xùn)練輸出作為其高一層的輸入。

2) 微調(diào)階段,按照誤差反向傳播算法(back propagation,BP)利用有標(biāo)簽的數(shù)據(jù)自頂向下對(duì)所有層的權(quán)值和偏置進(jìn)行微小的調(diào)整。

由于深度學(xué)習(xí)在進(jìn)行特征學(xué)習(xí)時(shí)是通過(guò)學(xué)習(xí)無(wú)標(biāo)簽的數(shù)據(jù)來(lái)對(duì)網(wǎng)絡(luò)進(jìn)行初始化的,而不是隨機(jī)初始化,因此,深度神經(jīng)網(wǎng)絡(luò)的權(quán)值以及偏置初值更接近全局最優(yōu)值,與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,其學(xué)習(xí)算法效果更好。深度學(xué)習(xí)方法發(fā)展至今,已經(jīng)形成了一系列的有監(jiān)督和無(wú)監(jiān)督的特征學(xué)習(xí)算法、層次概率模型以及神經(jīng)網(wǎng)絡(luò)[1]。一般來(lái)說(shuō),我們把深層結(jié)構(gòu)學(xué)習(xí)算法模型分為兩類:

(1)無(wú)監(jiān)督學(xué)習(xí)的生成式模型,這種深度模型可以在數(shù)據(jù)沒(méi)有目標(biāo)類標(biāo)簽信息的情況下學(xué)習(xí)到數(shù)據(jù)更具有表征能力的抽象特征,這類神經(jīng)網(wǎng)絡(luò)一般包括受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)、深度置信網(wǎng)絡(luò)、自編碼器(Automatic Encoder,AE)等。RBM具有兩層結(jié)構(gòu),包括一層可視層和一層隱含層,其中層間節(jié)點(diǎn)可以相互連接,層內(nèi)節(jié)點(diǎn)無(wú)連接。由多個(gè)RBM堆疊就可以構(gòu)造出一個(gè)深度置信網(wǎng)絡(luò)。自動(dòng)編碼器只包含一個(gè)隱層,它的顯著特點(diǎn)就是輸出與輸入接近相同,一般需要RBM進(jìn)行預(yù)訓(xùn)練。

(2)有監(jiān)督學(xué)習(xí)的判別式模型,這種深度模型一般針對(duì)的是有目標(biāo)類標(biāo)簽的數(shù)據(jù),它具有對(duì)數(shù)據(jù)進(jìn)行模式分類的判別能力。這類模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),以及長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。RNN能夠利用信號(hào)中的時(shí)間依賴性提取數(shù)據(jù)特征,是一種具有記憶性的模型,它在傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)中加入了反饋連接。CNN是根據(jù)貓視覺(jué)系統(tǒng)的感受野神經(jīng)機(jī)制提出來(lái)的,具有局部連接、共享權(quán)值的特點(diǎn)。就神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)說(shuō),它與其他神經(jīng)網(wǎng)絡(luò)的不同之處在于隱層包含卷積層和池化層,并在圖像識(shí)別與分類、目標(biāo)定位等領(lǐng)域得到廣泛使用。LSTM和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是基于RNN提出來(lái)的一種改進(jìn)深度學(xué)習(xí)模型,能夠克服傳統(tǒng)RNN在經(jīng)過(guò)較多的時(shí)間步驟以后出現(xiàn)的梯度消失問(wèn)題,其已成功應(yīng)用在了語(yǔ)音識(shí)別、文字識(shí)別等領(lǐng)域。

3 深度學(xué)習(xí)在聲學(xué)建模中的研究現(xiàn)狀

語(yǔ)音識(shí)別流程如圖1所示。語(yǔ)音識(shí)別過(guò)程首先需要對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行分幀、預(yù)加重、端點(diǎn)檢測(cè)等預(yù)處理操作,接著提取語(yǔ)音數(shù)據(jù)的聲學(xué)特征,然后用提取到的聲學(xué)特征參數(shù)去訓(xùn)練聲學(xué)模型;語(yǔ)言模型通常是利用文本形式的語(yǔ)料(如人民日?qǐng)?bào))訓(xùn)練而得,從語(yǔ)料中學(xué)習(xí)當(dāng)前詞序列出現(xiàn)的可能性,簡(jiǎn)單來(lái)說(shuō)語(yǔ)言模型的作用就是把一個(gè)詞序列組合為一句符合人們使用規(guī)范的語(yǔ)句;解碼搜索是構(gòu)建一個(gè)狀態(tài)空間,利用聲學(xué)模型得分和語(yǔ)言模型得分,采用維特比算法將總體分?jǐn)?shù)最高的詞序列作為最終的識(shí)別結(jié)果。

目前深度學(xué)習(xí)已經(jīng)成功應(yīng)用在了音素識(shí)別、聲韻母識(shí)別、孤立詞識(shí)別以及大詞匯量語(yǔ)音識(shí)別中。具體到語(yǔ)音識(shí)別的流程中,深度學(xué)習(xí)主要應(yīng)用在提取更加抽象的高層聲學(xué)特征以及對(duì)現(xiàn)有隱馬爾可夫聲學(xué)模型的構(gòu)建進(jìn)行加強(qiáng)。下文主要對(duì)深度學(xué)習(xí)在聲學(xué)建模中的發(fā)展現(xiàn)狀進(jìn)行闡述。

2009年,文獻(xiàn)[2]基于TIMIT數(shù)據(jù)庫(kù)將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)首次用于聲學(xué)建模進(jìn)行語(yǔ)音識(shí)別,系統(tǒng)性能有很大提升。文獻(xiàn)[3]基于RM語(yǔ)音庫(kù)進(jìn)行DNN-HMM聲學(xué)建模,識(shí)別正確率要比GMM-HMM聲學(xué)模型提高了30%。文獻(xiàn)[4]提出了一種基于DAE-HMM的聲學(xué)模型構(gòu)建方法,實(shí)驗(yàn)結(jié)果表明,對(duì)于具有不同信噪比的小詞匯孤立詞語(yǔ)音識(shí)別系統(tǒng),DAE具有良好的抗噪聲性能。

對(duì)于RNN,文獻(xiàn)[5]最早提出將聲學(xué)模型中的GMM用RNN來(lái)代替,并且在TIMIT語(yǔ)音數(shù)據(jù)庫(kù)中取得了較好的結(jié)果。采用雙向LSTM做語(yǔ)音識(shí)別相比于DNN能獲得了20%的性能提升。為了進(jìn)一步簡(jiǎn)化語(yǔ)音識(shí)別的流程,從語(yǔ)音數(shù)據(jù)的輸入到最后的文字串識(shí)別結(jié)果的輸出,只有一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,不再需要其他的模型,實(shí)現(xiàn)端到端的語(yǔ)音識(shí)別, Graves等提出一種新的聲學(xué)模型將連接時(shí)序分類技術(shù)(Connectionist Temporal Classification,CTC)和LSTM結(jié)合[6],將語(yǔ)音識(shí)別問(wèn)題表述成語(yǔ)音特征序列與其對(duì)應(yīng)的音素序列之間的序列轉(zhuǎn)換問(wèn)題。文獻(xiàn)[7]研究藏語(yǔ)的語(yǔ)音識(shí)別時(shí)將CTC與雙向LSTM結(jié)合,語(yǔ)音識(shí)別率提升了2.93%。

CNN在時(shí)域和頻域上能夠?qū)崿F(xiàn)卷積運(yùn)算的平移不變性,因此在用于聲學(xué)建模時(shí)能夠克服語(yǔ)音信號(hào)的多樣性。CNN,LSTM和DNN在建模能力上是互補(bǔ)的,因?yàn)镃NN在減少頻率變化方面很出色,LSTM擅長(zhǎng)時(shí)間建模,而DNN適合將特征映射到更加可分離的空間。文獻(xiàn)[8]利用CNN,LSTM和DNN的互補(bǔ)性將它們組合成一個(gè)統(tǒng)一的CLDNN體系結(jié)構(gòu),與單類型的深度學(xué)習(xí)聲學(xué)模型相比,語(yǔ)音識(shí)別系統(tǒng)性能有很大改善。文獻(xiàn)[9]提出的非常深的CNN體系結(jié)構(gòu)可以顯著降低噪聲魯棒語(yǔ)音識(shí)別的詞錯(cuò)率。目前,微軟、百度、科大訊飛等公司提出自己的Deep CNN模型,語(yǔ)音識(shí)別取得巨大突破。百度公司采用VGGNET以及包括Residual的Deep CNN等模型,結(jié)合LSTM和CTC的端到端語(yǔ)音識(shí)別技術(shù),使得系統(tǒng)有10%的相對(duì)性能改善。

大量的研究工作表明,為了獲得語(yǔ)音識(shí)別中較低的詞錯(cuò)率,以及能夠較好地適用于各種復(fù)雜的實(shí)際應(yīng)用場(chǎng)景,用深層次的神經(jīng)網(wǎng)絡(luò)替換傳統(tǒng)聲學(xué)模型中的GMM部分是非??扇〉模彩欠浅3晒Φ?。

4 結(jié)束語(yǔ)

目前基于深度學(xué)習(xí)的語(yǔ)音識(shí)別器在發(fā)音規(guī)范且相對(duì)安靜的環(huán)境下,識(shí)別率已經(jīng)很高了,而且已經(jīng)可以實(shí)用化了,比如阿里巴巴的天貓精靈產(chǎn)品、蘋果的Siri系統(tǒng)等。但是在復(fù)雜噪聲干擾、發(fā)音不規(guī)范、方言、說(shuō)話不連貫存在較長(zhǎng)時(shí)間的停頓時(shí)以及遠(yuǎn)場(chǎng)情況下,基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)的識(shí)別率會(huì)急劇下降。目前還沒(méi)有一個(gè)系統(tǒng)的語(yǔ)音識(shí)別技術(shù)去解決這些復(fù)雜條件下語(yǔ)音識(shí)別存在的問(wèn)題。而且語(yǔ)音識(shí)別領(lǐng)域仍然存在的一個(gè)嚴(yán)峻問(wèn)題是缺少大規(guī)模的語(yǔ)音數(shù)據(jù)(比如幾十萬(wàn)小時(shí)的語(yǔ)音)去進(jìn)行深度學(xué)習(xí)聲學(xué)模型的訓(xùn)練,以得到足夠的魯棒性。

對(duì)于未來(lái)的語(yǔ)音識(shí)別研究方向,研究者應(yīng)該關(guān)注于如何讓機(jī)器去盡可能地模仿人腦機(jī)制去識(shí)別語(yǔ)音,以應(yīng)對(duì)復(fù)雜環(huán)境下識(shí)別正確率的迅速降低。而且由于目前基于深度學(xué)習(xí)成熟的識(shí)別語(yǔ)音技術(shù)在整個(gè)識(shí)別過(guò)程中需要較多煩瑣的步驟,例如要獨(dú)立訓(xùn)練聲學(xué)模型和聲學(xué)模型,然后送到解碼網(wǎng)絡(luò)中進(jìn)行解碼,所以基于深度學(xué)習(xí)的端到端的語(yǔ)音識(shí)別技術(shù)在未來(lái)是一個(gè)值得研究的方向。

參考文獻(xiàn):

[1] 鄧力, 俞棟. 深度學(xué)習(xí): 方法及應(yīng)用[M]. 機(jī)械工業(yè)出版社, 2016.

[2] Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips Workshop on Deep Learning for Speech Recognition and Related Application.Whistler, BC, Canda:MIT Press, 2009:39.

[3] 李晉徽, 楊俊安, 王一. 一種新的基于瓶頸深度信念網(wǎng)絡(luò)的特征提取方法及其在語(yǔ)種識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)科學(xué), 2014, 41(3):263-266.

[4] 黃麗霞, 王亞楠, 張雪英,等. 基于深度自編碼網(wǎng)絡(luò)語(yǔ)音識(shí)別噪聲魯棒性研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(13):49-54.

[5] Graves A, Mohamed A R, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[J]. 2013, 38(2003):6645-6649.

[6] Graves A, Jaitly N. Towards end-to-end speech recognition with recurrent neural networks[C]// International Conference on Machine Learning. 2014:1764-1772.

[7] 王慶楠, 郭武, 解傳棟. 基于端到端技術(shù)的藏語(yǔ)語(yǔ)音識(shí)別[J]. 模式識(shí)別與人工智能, 2017, 30(4):359-364.

[8] Sainath T N, Vinyals O, Senior A, et al. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015:4580-4584.

[9] Qian Y, Bi M, Tan T, et al. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016, 24(12):2263-2276.

猜你喜歡
語(yǔ)音識(shí)別人機(jī)交互深度學(xué)習(xí)
通話中的語(yǔ)音識(shí)別技術(shù)
某型柴油機(jī)虛擬維修系統(tǒng)研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
人機(jī)交互課程創(chuàng)新實(shí)驗(yàn)
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
人形交互式服務(wù)機(jī)器人研究現(xiàn)狀及發(fā)展趨勢(shì)
面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
一種靜態(tài)手勢(shì)數(shù)字識(shí)別的實(shí)現(xiàn)及應(yīng)用
寻乌县| 高清| 黎川县| 德庆县| 新昌县| 铁岭市| 桦川县| 玛多县| 肥城市| 综艺| 江永县| 嘉义县| 万荣县| 如东县| 蒙山县| 石渠县| 大埔区| 沿河| 乳山市| 高州市| 邓州市| 富顺县| 清原| 新平| 甘肃省| 镇雄县| 靖远县| 新晃| 大方县| 怀宁县| 徐汇区| 蚌埠市| 阿拉尔市| 阳朔县| 明水县| 中宁县| 上虞市| 揭阳市| 宣恩县| 水城县| 固阳县|