于曉明
摘 ?要: 人類生活中,語(yǔ)言是必不可少的信息傳達(dá)媒介,作為模式識(shí)別技術(shù)之一的語(yǔ)音識(shí)別技術(shù)獨(dú)有其發(fā)展的亮點(diǎn)。文章對(duì)語(yǔ)音識(shí)別的發(fā)展歷程進(jìn)行了總結(jié),從語(yǔ)音識(shí)別的原理出發(fā),在端點(diǎn)檢測(cè)、特征提取等方面介紹了語(yǔ)音識(shí)別模型的建構(gòu)。例舉了語(yǔ)音識(shí)別技術(shù)的應(yīng)用,探討了語(yǔ)音識(shí)別的技術(shù)突破和發(fā)展前景。
關(guān)鍵詞: 語(yǔ)音識(shí)別; 語(yǔ)音信號(hào); 預(yù)處理; 特征提取
中圖分類號(hào):TP393 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1006-8228(2019)11-28-04
Abstract: Language is an indispensable medium of information transmission in human life. Speech recognition technology, as one of the pattern recognition technologies, has its own bright spot. This paper summarizes the development process of speech recognition, and starting from the principle of speech recognition, introduces the construction of speech recognition model in the aspects of endpoint detection and feature extraction and so on. The application of speech recognition technology is described, and the technological breakthroughs and development prospects of speech recognition are discussed.
Key words: speech recognition; speech signal; preprocessing; feature extraction
0 引言
語(yǔ)言最初是人類所特有的交流工具,但隨著科技的不斷進(jìn)步,人類如今不只局限于人與人的交流,并開(kāi)始逐漸向人與機(jī)器的交流方向發(fā)展,即通過(guò)語(yǔ)言的溝通讓機(jī)器能像人類一樣聽(tīng)懂對(duì)方所傳達(dá)的信息。如今的語(yǔ)音識(shí)別技術(shù)正是此方向突破的關(guān)鍵,信息領(lǐng)域和自動(dòng)化領(lǐng)域的專業(yè)研究人員不斷進(jìn)行這方面的研究,機(jī)器自動(dòng)的語(yǔ)言識(shí)別,使機(jī)器能為人類所用增加人們的生產(chǎn)生活效率,推動(dòng)人類歷史的發(fā)展進(jìn)步。語(yǔ)音識(shí)別技術(shù)是涉及模式識(shí)別、人工智能的多領(lǐng)域研究學(xué)科,是人類與機(jī)器之間聯(lián)系的關(guān)鍵。
1 語(yǔ)音識(shí)別的發(fā)展歷程
語(yǔ)音識(shí)別技術(shù)最初的興起是在20世紀(jì)50年代,此時(shí)我國(guó)的語(yǔ)音識(shí)別技術(shù)也開(kāi)始出現(xiàn),國(guó)外當(dāng)時(shí)只是在貝爾實(shí)驗(yàn)室里進(jìn)行關(guān)于識(shí)別英文數(shù)字的簡(jiǎn)單發(fā)音裝置的研究,而后帶來(lái)了小詞匯量和單個(gè)詞語(yǔ)的識(shí)別,在進(jìn)入20世紀(jì)70年代,才有了語(yǔ)音識(shí)別實(shí)質(zhì)性的進(jìn)展,出現(xiàn)了逐漸成為主流的隱式馬爾科夫模型技術(shù)(HMM)[1],并且從傳統(tǒng)的目標(biāo)匹配方式向基于統(tǒng)計(jì)的數(shù)學(xué)化方向有很大的進(jìn)展。進(jìn)入20世紀(jì)80年代,語(yǔ)音識(shí)別技術(shù)繼續(xù)深入發(fā)展,人工神經(jīng)網(wǎng)絡(luò)進(jìn)入模式識(shí)別的范疇,出現(xiàn)了利用人工神經(jīng)網(wǎng)絡(luò)[1,2]進(jìn)行語(yǔ)音識(shí)別問(wèn)題的處理思路,研究不只是在簡(jiǎn)單詞語(yǔ)數(shù)字的識(shí)別上,有了連續(xù)語(yǔ)音的識(shí)別和基于大量詞語(yǔ)的識(shí)別[3]。我國(guó)在此時(shí)期執(zhí)行863計(jì)劃,語(yǔ)音識(shí)別技術(shù)的研究與國(guó)外同步發(fā)展,這是語(yǔ)音識(shí)別技術(shù)的一個(gè)過(guò)渡階段。20世紀(jì)90年代之后,語(yǔ)音識(shí)別技術(shù)逐漸進(jìn)入飽和階段,基于語(yǔ)音識(shí)別的產(chǎn)品開(kāi)始進(jìn)入人們的生產(chǎn)生活,隨著時(shí)代的不斷遷移,基于BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),大量的語(yǔ)音識(shí)別都基于此進(jìn)行識(shí)別系統(tǒng)產(chǎn)品的設(shè)計(jì)。
2 語(yǔ)音識(shí)別構(gòu)建模型
語(yǔ)音識(shí)別技術(shù)的過(guò)程包括語(yǔ)音信號(hào)的預(yù)處理、特征提取、模式匹配和判決三個(gè)方面。首先由系統(tǒng)接收語(yǔ)音輸入,經(jīng)過(guò)信號(hào)的預(yù)處理和特征提取,得到目標(biāo)信息的語(yǔ)音數(shù)據(jù)形成語(yǔ)音信息模式庫(kù),再進(jìn)行輸入的語(yǔ)音信號(hào)和模式庫(kù)的模式匹配得到兩者信息匹配的結(jié)果。(如圖1)
2.1 語(yǔ)音信號(hào)的預(yù)處理
2.1.1 語(yǔ)音信號(hào)預(yù)加重
在如今十分成熟的A/D轉(zhuǎn)換操作之后,最初獲取的語(yǔ)音信號(hào)中語(yǔ)音信息被多種噪聲影響且高頻信號(hào)部分不明顯,因而要事先對(duì)于語(yǔ)音信號(hào)進(jìn)行預(yù)加重,預(yù)加重的實(shí)現(xiàn)結(jié)果是提高目標(biāo)信號(hào)和噪聲信號(hào)的對(duì)比度,便于能很好地對(duì)于語(yǔ)音信號(hào)進(jìn)行濾波,目前廣泛使用的是一階濾波器來(lái)實(shí)現(xiàn)預(yù)加重。
其中,z是語(yǔ)音信號(hào),H為預(yù)加重后的信號(hào),μ為一階濾波器的參數(shù)。
2.1.2 加窗分幀
在預(yù)加重處理的信號(hào)之后,為得到語(yǔ)音信號(hào)的分析頻譜,要將語(yǔ)音信號(hào)分成多個(gè)窗口,這樣就把一段持續(xù)的語(yǔ)音信號(hào)分成多段信號(hào),為了保持每段信號(hào)連接的平滑性,在斷接點(diǎn)處設(shè)置交疊的部分,便于不同分幀之間的平滑移動(dòng)。對(duì)于加窗處理,常使用漢明窗,漢明窗的通頻特性好,在信號(hào)的分區(qū)截取中保證了連續(xù)性平滑性,減小了分析頻譜的泄露。
2.1.3 端點(diǎn)檢測(cè)
端點(diǎn)檢測(cè)在整個(gè)語(yǔ)音識(shí)別過(guò)程中是十分關(guān)鍵的,在一段語(yǔ)音信息中有正常的語(yǔ)音信息,有間斷信息,有無(wú)聲信息,端點(diǎn)檢測(cè)就是保證將三者能很好地區(qū)分出來(lái),排除無(wú)聲信息等摻雜的信號(hào),選取所需要的正常的語(yǔ)音信息。目前端點(diǎn)檢測(cè)的研究具有多樣化且處于發(fā)展的黃金時(shí)期,有基于語(yǔ)音信號(hào)的時(shí)域特性的能量大小、平均過(guò)零率、能量變化率等,基于頻域特性的頻譜變化、譜熵的測(cè)定。下面主要通過(guò)語(yǔ)言信息的譜熵來(lái)進(jìn)行簡(jiǎn)要的介紹。首先取某點(diǎn)Xi的概率表示為P{Xi},則在點(diǎn)Xi的熵定義為:
通過(guò)設(shè)置一個(gè)邊界范圍,在此范圍之內(nèi)的數(shù)據(jù)即為正常的語(yǔ)音信號(hào),若超出這一范圍則將其他噪音信號(hào)去除掉,通過(guò)選擇熵函數(shù)實(shí)現(xiàn)了端點(diǎn)檢測(cè)的操作。
2.2 語(yǔ)音信號(hào)的特征提取
應(yīng)用模式識(shí)別技術(shù),只有將所測(cè)試信息的信號(hào)特征提取出來(lái),才能供實(shí)驗(yàn)的研究分析。語(yǔ)音信號(hào)的特征提取歷史悠久,其算法的實(shí)現(xiàn)已經(jīng)有多種形式[4]針對(duì)特定的倒譜特征,本文將介紹兩個(gè)經(jīng)典的LPCC[5]和MFCC[6-7]參數(shù)來(lái)進(jìn)行語(yǔ)音信號(hào)的特征提取。通過(guò)傅里葉變換譜經(jīng)對(duì)數(shù)運(yùn)算再取傅里葉反變換即可得到信號(hào)的倒譜,LPCC既能實(shí)現(xiàn)它的預(yù)測(cè)功能,又能提供進(jìn)行聲道模型參數(shù)的提取過(guò)程,在LPCC分析過(guò)程中首先將語(yǔ)音信號(hào)視作全極點(diǎn)形式,在LPC基礎(chǔ)上進(jìn)行運(yùn)算:
2.3 模式匹配和判決
如今模式匹配的聲學(xué)模型技術(shù)得到許多研究者關(guān)注,深度學(xué)習(xí)在模式匹配的研究[8,9]模式匹配方式有了很大的改進(jìn),模式匹配包括聲學(xué)模型和語(yǔ)言模型。聲學(xué)模型是將獲取語(yǔ)言信息的發(fā)音標(biāo)準(zhǔn)與模式庫(kù)中的發(fā)音標(biāo)準(zhǔn)進(jìn)行匹配而設(shè)計(jì)的模型,它通過(guò)矢量量化的分析將不同發(fā)音模板提取出來(lái),常用的就是HMM聲學(xué)模型,在此基礎(chǔ)上[10]引入了狀態(tài)段長(zhǎng),對(duì)于不同語(yǔ)音段的劃分提高了原始基本識(shí)別的性能,神經(jīng)網(wǎng)絡(luò)的引入也給模式匹配環(huán)節(jié)帶來(lái)了性能的進(jìn)步。語(yǔ)言模型是針對(duì)不同語(yǔ)言的語(yǔ)法結(jié)構(gòu)進(jìn)行上下文分析確定詞義,在統(tǒng)計(jì)方面的語(yǔ)言模型的建立,將一系列相同的語(yǔ)法規(guī)則集中起來(lái)就在一定程度上減少了系統(tǒng)的識(shí)別時(shí)間。識(shí)別結(jié)果就是將事先測(cè)試的語(yǔ)音信息進(jìn)行預(yù)處理和特征提取,與模式庫(kù)的聲學(xué)模型進(jìn)行不同程度的匹配,通過(guò)統(tǒng)計(jì)識(shí)別信號(hào)的正確數(shù)量得到識(shí)別率,基于相同的識(shí)別率可以通過(guò)識(shí)別時(shí)間的比較進(jìn)行算法優(yōu)良性能的判決。
3 語(yǔ)音識(shí)別應(yīng)用
語(yǔ)音識(shí)別技術(shù)的應(yīng)用十分廣泛,從孤立詞的識(shí)別到關(guān)鍵詞的識(shí)別,最后根據(jù)說(shuō)話人連續(xù)的語(yǔ)言的識(shí)別,如許多社交軟件都實(shí)現(xiàn)了從開(kāi)始的鍵盤輸入到語(yǔ)音識(shí)別輸入,語(yǔ)音輸入技術(shù)的突破給人們的生活帶來(lái)了很大的便利,圖2介紹了一部分基于語(yǔ)音識(shí)別的應(yīng)用網(wǎng)絡(luò),為未來(lái)的語(yǔ)音識(shí)別網(wǎng)絡(luò)提供可視化模型。
⑴ 語(yǔ)音助手。語(yǔ)音識(shí)別作為機(jī)器與人交流的媒介,在語(yǔ)音助手方向有很大的可操作性,目前已存在語(yǔ)言的自動(dòng)識(shí)別功能的小型機(jī)器人(例天貓精靈、小度),在網(wǎng)絡(luò)銷售中即可購(gòu)買,事先通過(guò)內(nèi)部下載的程序進(jìn)行機(jī)器人和手機(jī)的聯(lián)合配對(duì),針對(duì)使用者的語(yǔ)言進(jìn)行開(kāi)關(guān)電視、播放音樂(lè)、設(shè)置鬧鐘等操作,這是最終全面實(shí)現(xiàn)智能家居[11-12]的一個(gè)發(fā)展趨勢(shì)。智能家居是將語(yǔ)音識(shí)別系統(tǒng)嵌入家庭使用設(shè)備中,使家用設(shè)備系統(tǒng)網(wǎng)絡(luò)一體化,這種操作能極大的豐富人們的生活;車載語(yǔ)音助手[13]如今也有了明顯的發(fā)展,利用語(yǔ)音傳輸進(jìn)行音樂(lè)播放、導(dǎo)航配置的控制,在一定程度上改善了駕駛?cè)说鸟{駛環(huán)境。
⑵ 身份確認(rèn)。如今在科技高速發(fā)展的時(shí)代,人類身份的確認(rèn)尤為重要,除了在生物體特征識(shí)別之外,語(yǔ)音識(shí)別也能達(dá)到其期望的效果[14]。身份的確定基于說(shuō)話人聲道的不同,發(fā)出聲音頻率的不同進(jìn)行不同的區(qū)分,解決了如今身份密碼的缺憾,密碼作為保護(hù)信息的一種途徑容易被破解且固定不可遷移,從現(xiàn)在技術(shù)高超的譯碼技術(shù)能枚舉破解固定的密碼,但基于人物語(yǔ)音的不同,發(fā)音習(xí)慣的差異對(duì)于身份的確認(rèn)十分有益處。在門禁系統(tǒng)中,人物可以事先將自己的語(yǔ)言信息存儲(chǔ)在系統(tǒng)模塊庫(kù)中,當(dāng)涉及具體的人物識(shí)別的時(shí)候,將采集的語(yǔ)言數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)進(jìn)行識(shí)別對(duì)比得到說(shuō)話人的身份;語(yǔ)音識(shí)別的身份確認(rèn)在公安系統(tǒng)的案件偵查中也有很大的效用,將語(yǔ)音識(shí)別與身份證信息的結(jié)合也是出彩的操作,語(yǔ)音輸入加上生物體特征識(shí)別技術(shù)的配合就將得到多重身份保證。
4 語(yǔ)音識(shí)別的技術(shù)突破及發(fā)展前景
4.1 技術(shù)突破
語(yǔ)音識(shí)別有了歷史性的進(jìn)展,但是仍存在一些技術(shù)上的不足。語(yǔ)音識(shí)別過(guò)程中的噪聲處理仍然是一個(gè)很難突破的難題,在上例的天貓精靈就有此方面的缺陷,超過(guò)一定的距離機(jī)器就很難識(shí)別使用者的語(yǔ)言,甚至是停止工作不進(jìn)行識(shí)別工作,不僅有距離上的影響,當(dāng)面臨于嘈雜的環(huán)境中,系統(tǒng)也很難辨析出講話人的語(yǔ)言。在身份識(shí)別中也存在一定的缺陷,單從聲音信息來(lái)說(shuō),當(dāng)今處于互聯(lián)網(wǎng)時(shí)代,圖像聲音的處理軟件十分發(fā)達(dá),信息有被復(fù)制和融合的可能性,這就對(duì)于身份的確認(rèn)很容易造成誤差,在此部分未被突破前只有與生物識(shí)別技術(shù)相結(jié)合才能進(jìn)一步保證識(shí)別信息的準(zhǔn)確性。
4.2 發(fā)展前景
語(yǔ)音識(shí)別技術(shù)在未來(lái)是十分熱門的領(lǐng)域,許多企業(yè)家將加大對(duì)于語(yǔ)音識(shí)別的資金投入,首先基于其原理進(jìn)行適當(dāng)?shù)恼雇?其次從應(yīng)用領(lǐng)域進(jìn)行可視化的分析,目前全球中有大部分的聽(tīng)覺(jué)受限的人員,每人都擁有人工耳蝸是不經(jīng)濟(jì)的也是不現(xiàn)實(shí)的,但是語(yǔ)音識(shí)別技術(shù)將有十分優(yōu)勢(shì)方面,若配合語(yǔ)音識(shí)別系統(tǒng),將對(duì)此問(wèn)題有很大的幫助,將說(shuō)話方的語(yǔ)言通過(guò)語(yǔ)音識(shí)別技術(shù)顯示給聽(tīng)力受限的人群,作為一個(gè)類似于輔助助聽(tīng)器的應(yīng)用軟件,不僅有效而且經(jīng)濟(jì);再次是技術(shù)層面,將噪音從獲取的語(yǔ)音信息中完全過(guò)濾,使機(jī)器像人群一樣不受限于嘈雜的環(huán)境,對(duì)于生活中嵌入的應(yīng)用是很有發(fā)展價(jià)值的。
參考文獻(xiàn)(References):
[1] 袁翔.基于HMM和DNN的語(yǔ)音識(shí)別算法研究與實(shí)現(xiàn)[D].江西理工大學(xué),2017.
[2] 戚龍,趙丹.基于BP神經(jīng)網(wǎng)絡(luò)的非特定人語(yǔ)音識(shí)別算法[J].科學(xué)技術(shù)與工程,2017.17(31):277-282
[3] 劉加.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J].電子學(xué)報(bào),2000.1:85-91
[4] 惠博.語(yǔ)音識(shí)別特征提取算法的研究及實(shí)現(xiàn)[D].西北大學(xué),2008.
[5] 張文克.融合LPCC和MFCC特征參數(shù)的語(yǔ)音識(shí)別技術(shù)的研究[D].湘潭大學(xué),2016.
[6] 田莎莎,唐菀,佘緯.改進(jìn)MFCC參數(shù)在非特定人語(yǔ)音識(shí)別中的研究[J].科技通報(bào),2013.29(3):139-142,146
[7] 袁正午,肖旺輝.改進(jìn)的混合MFCC語(yǔ)音識(shí)別算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009.45(33):108-110
[8] 戴禮榮,張仕良,黃智穎.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理,2017.32(2):221-231
[9] 侯一民,周慧瓊,王政一.深度學(xué)習(xí)在語(yǔ)音識(shí)別中的研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2017.34(8):2241-2246
[10] 袁里馳.基于改進(jìn)的隱馬爾科夫模型的語(yǔ)音識(shí)別方法[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2008.39(6):1303-1308
[11] 王愛(ài)蕓.語(yǔ)音識(shí)別技術(shù)在智能家居中的應(yīng)用[J].軟件,2015.36(7):104-107
[12] 徐子豪,張騰飛.基于語(yǔ)音識(shí)別和無(wú)線傳感網(wǎng)絡(luò)的智能家居系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)測(cè)量與控制,2012.20(01):180-182
[13] 茍鵬程,宗群.車載語(yǔ)音識(shí)別及控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2017.34(5):129-134
[14] 陳大為.基于HMM的說(shuō)話人識(shí)別改進(jìn)研究及應(yīng)用[D].浙江大學(xué),2002.
[15] 倪崇嘉,劉文舉,徐波.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009.23(1):112-123,128
[16] 于俊婷,劉伍穎,易綿竹,李雪,李娜.國(guó)內(nèi)語(yǔ)音識(shí)別研究綜述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014.17(10):76-78
[17] 詹新明,黃南山,楊燦.語(yǔ)音識(shí)別技術(shù)研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2008.9:43-45,50
[18] 柯登峰,徐波.互聯(lián)網(wǎng)時(shí)代語(yǔ)音識(shí)別基本問(wèn)題[J].中國(guó)科學(xué):信息科學(xué),2013.43(12):1578-1597
[19] 金學(xué)驥,葉秀清,顧偉康.預(yù)加重與MMSE結(jié)合的語(yǔ)音增強(qiáng)方法[J].傳感技術(shù)學(xué)報(bào),2005.2:300-302,306