周紅鍇
摘? 要: 由于孤立詞語(yǔ)音自動(dòng)識(shí)別技術(shù)具有操作簡(jiǎn)便,方便日常生活的特點(diǎn),因此該文設(shè)計(jì)基于單片機(jī)控制的孤立詞語(yǔ)音自動(dòng)識(shí)別系統(tǒng)。系統(tǒng)采用型號(hào)為SH86270主控單片機(jī)接收由SH69P848AM芯片控制的語(yǔ)音識(shí)別電路輸出結(jié)果,通過A/D轉(zhuǎn)換器得到離散數(shù)字語(yǔ)音信號(hào),將孤立詞語(yǔ)音信號(hào)轉(zhuǎn)換為電信號(hào),再經(jīng)A/D轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號(hào)后輸入系統(tǒng)進(jìn)行預(yù)處理。采用動(dòng)態(tài)時(shí)間規(guī)整算法獲取距離最短語(yǔ)音信息,得到孤立詞語(yǔ)音識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)具有較好的聲學(xué)相似性,可有效識(shí)別出測(cè)試的孤立詞語(yǔ)音信號(hào)與標(biāo)準(zhǔn)信號(hào)的最小距離,識(shí)別率和濾除干擾率均很高,識(shí)別時(shí)間短,識(shí)別效果顯著。
關(guān)鍵詞: 孤立詞語(yǔ)音識(shí)別; 系統(tǒng)設(shè)計(jì); 電路設(shè)計(jì); 語(yǔ)音信號(hào)獲取; 信號(hào)轉(zhuǎn)換; 信號(hào)預(yù)處理
中圖分類號(hào): TN876?34; TU855? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)18?0064?03
Abstract: As the isolated?word speech recognition technology has the characteristics of easy for operation and convenient for daily life, an isolated?word speech recognition system based on SCM (single chip microcomputer) control is designed. In the system, the SH86270 SCM is used to receive the output results of speech recognition circuit controlled by SH69P848AM chip, the discrete digital speech signal is obtained by A/D converter, and the isolated?word speech signal is converted into the electrical signal and then is converted into digital signal by A/D converter for inputting into the system for preprocessing. The speech information with the shortest distance is obtained by means of the dynamic time warping algorithm to gain the results of the isolated?word speech recognition. The experimental results show that the system has better acoustic similarity, can effectively recognize the minimum distance between the tested isolated?word speech signal and the standard signal, has high recognition rate, high interference filtering rate, short recognition time, and remarkable recognition effect.
Keywords: isolatedword speech recognition; system design; circuit design; speech acquisition; signal conversion; signal preprocessing
0? 引? 言
語(yǔ)音識(shí)別功能正慢慢地走進(jìn)人們的生活[1],語(yǔ)音識(shí)別技術(shù)中的孤立詞語(yǔ)音識(shí)別技術(shù)已應(yīng)用到多種領(lǐng)域當(dāng)中,孤立詞語(yǔ)音識(shí)別技術(shù)在智能建筑、車庫(kù)開啟等方面較為常見,比如密碼鎖的開啟、電視語(yǔ)音換臺(tái)、圖書館語(yǔ)音搜索圖書、手機(jī)導(dǎo)航語(yǔ)音查找等[2],這些功能的廣泛應(yīng)用使孤立詞語(yǔ)音識(shí)別技術(shù)更加貼近人們的生活,尤其對(duì)殘疾人或是老年人的生活有很大幫助。但孤立詞語(yǔ)音自動(dòng)識(shí)別技術(shù)的算法相對(duì)繁瑣,給研究人員帶來(lái)了工作難度。因此,該文設(shè)計(jì)基于單片機(jī)控制的孤立詞語(yǔ)音自動(dòng)識(shí)別系統(tǒng)。該系統(tǒng)的主控單片機(jī)選擇Sinowealth公司生產(chǎn)的SH86270型號(hào)單片機(jī),同時(shí)選擇該公司SH69P848AM型號(hào)的芯片完成語(yǔ)音識(shí)別過程,該芯片內(nèi)部集成優(yōu)化過的孤立詞語(yǔ)音識(shí)別算法,可促進(jìn)語(yǔ)音自動(dòng)識(shí)別任務(wù)的高效完成。
1? 孤立詞語(yǔ)音自動(dòng)識(shí)別系統(tǒng)設(shè)計(jì)
1.1? 硬件電路設(shè)計(jì)
主控制器電路和語(yǔ)音識(shí)別電路共同構(gòu)成硬件電路,采用SH86270主控單片機(jī)控制SH69P848AM芯片,SH69P848AM芯片控制語(yǔ)音識(shí)別電路,同時(shí)控制語(yǔ)音識(shí)別電路,輸出結(jié)果也由SH86270主控單片機(jī)處理,該單片機(jī)利用總線進(jìn)行監(jiān)控[3]。
1.1.1? 控制器電路
將SH86270主控單片機(jī)看成一個(gè)控制器,采用精簡(jiǎn)指令集計(jì)算機(jī)結(jié)構(gòu),在該結(jié)構(gòu)內(nèi)設(shè)置256 KB FLASH,SH86270主控單片機(jī)由于自身的高性能和低能耗在語(yǔ)音自動(dòng)識(shí)別系統(tǒng)中具有很大的優(yōu)勢(shì),且可將其看成是一種8位微處理器。
1.1.2? SH69P848AM語(yǔ)音識(shí)別電路
SH69P848AM芯片集成語(yǔ)音識(shí)別處理器、濾波電路、A/D轉(zhuǎn)換器、聲音輸出接口等[4],將SH69P848AM芯片的迷你磁盤設(shè)置為高電平,SPIS為低電平,SDI,SDO等都是SPI總線的引腳,中斷端口為INTB,發(fā)現(xiàn)識(shí)別結(jié)果與MP3數(shù)據(jù)不一致后,中斷端口會(huì)發(fā)生中斷[5]。此時(shí),主控單片機(jī)接收到中斷信號(hào)后處理該中斷信號(hào)。
1) 濾波電路
濾波電路負(fù)責(zé)過濾掉語(yǔ)音輸入時(shí)存在的噪聲,當(dāng)上截頻為3 380 Hz、下截頻為58 Hz時(shí),傳遞到多單片機(jī)系統(tǒng)的數(shù)據(jù)錯(cuò)誤率很低,單片機(jī)計(jì)算的繁雜程度被大幅度降低[6]。為了排除數(shù)字信號(hào)的干擾,后置濾波通常會(huì)通過巴特沃斯濾波電路,實(shí)現(xiàn)語(yǔ)音的準(zhǔn)確回放[7]。
2) A/D和D/A轉(zhuǎn)換
該系統(tǒng)以ADl674作為A/D轉(zhuǎn)換芯片,D/A轉(zhuǎn)換需要通過選擇DA5651A作為電流輸出性轉(zhuǎn)換器,并外接一個(gè)轉(zhuǎn)換電路,得到模擬電壓的輸出[8]。SH86270主控單片機(jī)存在一個(gè)P0口,將該P(yáng)0口當(dāng)成D/A轉(zhuǎn)換器的數(shù)據(jù)傳遞口,P2.3口會(huì)接收到SH86270主控單片機(jī)發(fā)出的輸入寄存選擇信號(hào)CS,且當(dāng)P2.3口輸出低電平時(shí),向SH86270主控單片機(jī)傳達(dá)模擬轉(zhuǎn)換命令,使該單片機(jī)完成模擬轉(zhuǎn)換。
1.2? 系統(tǒng)軟件設(shè)計(jì)
1.2.1? 孤立詞語(yǔ)音識(shí)別的基本原理
語(yǔ)音信號(hào)被A/D轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號(hào),看成系統(tǒng)輸入[9]。系統(tǒng)對(duì)其進(jìn)行抗混疊濾波、分幀、加窗等預(yù)處理,預(yù)處理后開始端點(diǎn)檢測(cè)、特征提取等,完成后開始訓(xùn)練和識(shí)別處理。訓(xùn)練過程中某語(yǔ)音單元會(huì)被多次重復(fù)[10],系統(tǒng)選擇多個(gè)特征信號(hào),組成標(biāo)準(zhǔn)信息庫(kù);語(yǔ)音信息全部錄入到系統(tǒng)中,系統(tǒng)將提取的特征信息與標(biāo)準(zhǔn)信息庫(kù)中的特征信息進(jìn)行對(duì)比,選擇最相似的語(yǔ)音信息即為識(shí)別結(jié)果。
1.2.2? 語(yǔ)音識(shí)別算法
時(shí)間規(guī)整和距離測(cè)度計(jì)算相融合的動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping)即為DTW算法。標(biāo)準(zhǔn)信息匹配過程中,對(duì)彎折斜率存在一定限制,使外部的格點(diǎn)相應(yīng)的幀匹配距離無(wú)需計(jì)算[11]。當(dāng)對(duì)格點(diǎn)進(jìn)行計(jì)算時(shí),每一列格點(diǎn)的匹配計(jì)算只需要用到前一列的4個(gè)網(wǎng)格,對(duì)于產(chǎn)生的幀匹配距離矩陣以及累積距離矩陣均無(wú)需保留。以上算法可以降低DTW算法的繁雜程度,減少對(duì)存儲(chǔ)空間的要求,使計(jì)算更加高效。當(dāng)將動(dòng)態(tài)彎折分為三部分時(shí),分別設(shè)置為(1,[ma]),([ma]+1,[mb]),([mb]+1,P),式中:
假設(shè)[ma]和[mb]的取值均為相近的整數(shù),因此獲取Q和P相應(yīng)長(zhǎng)度的限制條件為:
當(dāng)[ma]和[mb]的取值并不符合以上條件時(shí),則可判定[ma]和[mb]取值的差距較大,動(dòng)態(tài)彎折匹配無(wú)法實(shí)現(xiàn)。此時(shí),x軸上的語(yǔ)音幀只需與y軸上[ymin,ymax]的語(yǔ)音幀相對(duì)比,則ymin和ymax為:
2? 實(shí)驗(yàn)分析
2.1? 孤立詞語(yǔ)音識(shí)別結(jié)果
實(shí)驗(yàn)選取含有350個(gè)孤立詞的小系統(tǒng)詞表,采用文中系統(tǒng)對(duì)孤立詞表進(jìn)行語(yǔ)音識(shí)別,識(shí)別前需訓(xùn)練所有待識(shí)別的孤立詞,設(shè)置參加訓(xùn)練人數(shù)為15人,未參加訓(xùn)練人數(shù)為12人,采用文中系統(tǒng)對(duì)孤立詞語(yǔ)音信號(hào)進(jìn)行識(shí)別。訓(xùn)練孤立詞與未訓(xùn)練孤立詞的部分語(yǔ)音識(shí)別結(jié)果如圖1所示。
由圖1可知,采用本文系統(tǒng)識(shí)別經(jīng)過訓(xùn)練的孤立詞語(yǔ)音信號(hào)時(shí),識(shí)別率均超過95%,未經(jīng)訓(xùn)練的孤立詞語(yǔ)音信號(hào)的識(shí)別率最高僅為86.58%;采用文中系統(tǒng)識(shí)別多人訓(xùn)練的孤立詞語(yǔ)音信號(hào)時(shí),識(shí)別時(shí)間最高為0.57 s,但未經(jīng)訓(xùn)練的信號(hào)識(shí)別時(shí)間最高達(dá)到0.78 s。顯然,經(jīng)過訓(xùn)練的孤立詞樣本不僅識(shí)別率高,且識(shí)別時(shí)間短。因此,該文系統(tǒng)可識(shí)別出經(jīng)過訓(xùn)練的孤立詞樣本和未經(jīng)過訓(xùn)練的孤立詞樣本,但針對(duì)于經(jīng)過訓(xùn)練的孤立詞樣本,其語(yǔ)音識(shí)別效果更好。
在實(shí)際的孤立詞語(yǔ)音識(shí)別過程中,針對(duì)未經(jīng)訓(xùn)練的孤立詞樣本識(shí)別率低且用時(shí)多的問題,可通過增大樣本數(shù)增加識(shí)別率,縮短識(shí)別時(shí)間。
2.2? 孤立詞識(shí)別效果
選取PC機(jī)錄制的語(yǔ)音信號(hào),且設(shè)定采樣頻率為7 600 kHz,量化存儲(chǔ)為7 bit,語(yǔ)音信號(hào)為PCM格式且單聲道。通常語(yǔ)音信號(hào)的平穩(wěn)幀長(zhǎng)為12~32 ms,為了降低計(jì)算的繁雜性,文中系統(tǒng)選用的幀長(zhǎng)P和幀移Q的語(yǔ)音點(diǎn)分別為256和128。
指定一人讀取數(shù)字“1~5”,將該語(yǔ)音錄制下來(lái),作為測(cè)試的孤立詞語(yǔ)音信號(hào),采用文中系統(tǒng)識(shí)別測(cè)試的孤立詞語(yǔ)音信號(hào)與標(biāo)準(zhǔn)信號(hào)間的距離,如表1所示。
表1中,行為測(cè)試的孤立詞語(yǔ)音信號(hào),列為標(biāo)準(zhǔn)信號(hào)。由該表可知,測(cè)試的孤立詞語(yǔ)音信號(hào)中的“1~5”與標(biāo)準(zhǔn)信號(hào)中的“1~5”中每一個(gè)對(duì)應(yīng)的數(shù)字均存在最小距離,而且表格形成對(duì)角線方向的距離值最小,由此可知,該文系統(tǒng)具有較好的聲學(xué)相似性,識(shí)別效果更為明顯。
以上面的錄制數(shù)字實(shí)驗(yàn)為依據(jù),指定一人發(fā)出“開機(jī)”“關(guān)機(jī)”“東方衛(wèi)視”“中央五套”“音量降低”5個(gè)孤立詞的發(fā)音,將該組發(fā)音作為測(cè)試的孤立詞語(yǔ)音信號(hào),采用文中系統(tǒng)識(shí)別測(cè)試的孤立詞語(yǔ)音信號(hào)與標(biāo)準(zhǔn)信號(hào)間的距離,如表2所示。
由表2可知,與錄制數(shù)字孤立詞語(yǔ)音識(shí)別實(shí)驗(yàn)一樣,本文系統(tǒng)有效地識(shí)別了表格所形成對(duì)角線方向的距離值最小。因此文中系統(tǒng)的識(shí)別效果明顯。
2.3? 孤立詞識(shí)別性能
為了驗(yàn)證文中系統(tǒng)在孤立詞識(shí)別性能方面的優(yōu)勢(shì),分別采用HMM非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)、基于ZCPA和DHMM的孤立詞語(yǔ)音識(shí)別系統(tǒng),以及文中系統(tǒng)對(duì)上文實(shí)驗(yàn)中的5個(gè)孤立詞的發(fā)音進(jìn)行識(shí)別,比較3個(gè)系統(tǒng)的識(shí)別性能,如表3所示。
由表3可知,采用HMM非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)、基于ZCPA和DHMM的孤立詞語(yǔ)音識(shí)別系統(tǒng)以及文中系統(tǒng)識(shí)別實(shí)驗(yàn)中的5個(gè)孤立詞時(shí),文中系統(tǒng)無(wú)論在識(shí)別率、識(shí)別時(shí)間,還是濾除干擾率方面都表現(xiàn)出了良好的優(yōu)勢(shì)。
3? 結(jié)? 論
孤立詞語(yǔ)音自動(dòng)識(shí)別技術(shù)不僅使日常活動(dòng)更為便捷,而且使生活設(shè)備更加現(xiàn)代化。該文系統(tǒng)通過單機(jī)片控制整個(gè)孤立詞語(yǔ)音自動(dòng)識(shí)別系統(tǒng),結(jié)合語(yǔ)音信號(hào)預(yù)處理、端點(diǎn)檢測(cè)、特征提取等技術(shù),完成孤立詞語(yǔ)音自動(dòng)識(shí)別過程。結(jié)果表明,文中系統(tǒng)無(wú)論在孤立詞的語(yǔ)音識(shí)別率、識(shí)別時(shí)間,還是濾除干擾率方面效果明顯,因此文中設(shè)計(jì)系統(tǒng)具有廣闊的發(fā)展前景。
參考文獻(xiàn)
[1] 侯一民,李永平.基于卷積神經(jīng)網(wǎng)絡(luò)的孤立詞語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(6):1751?1756.
[2] 許良鳳,劉泳海,胡敏,等.語(yǔ)譜圖改進(jìn)完全局部二值模式的語(yǔ)音情感識(shí)別[J].電子測(cè)量與儀器學(xué)報(bào),2018,32(5):25?32.
[3] 李璨,王讓定,嚴(yán)迪群.基于卷積神經(jīng)網(wǎng)絡(luò)的翻錄語(yǔ)音檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,2018,38(1):79?83.
[4] 李云紅,梁思程,賈凱莉,等.一種改進(jìn)的DNN?HMM的語(yǔ)音識(shí)別方法[J].應(yīng)用聲學(xué),2019,38(3):371?377.
[5] 姜芃旭,傅洪亮,陶華偉,等.一種基于卷積神經(jīng)網(wǎng)絡(luò)特征表征的語(yǔ)音情感識(shí)別方法[J].電子器件,2019,42(4):998?1001.
[6] 劉明珠,李曉琴,陳洪恒.基于支持向量機(jī)的語(yǔ)音情感識(shí)別算法研究[J].哈爾濱理工大學(xué)學(xué)報(bào),2019,24(4):118?126.
[7] 韓燕燕,程衛(wèi)軍.基于北斗系統(tǒng)的語(yǔ)音通信終端設(shè)計(jì)與實(shí)現(xiàn)[J].電視技術(shù),2017,41(z4):167?171.
[8] 陳哲懷,鄭文露,游永彬,等.標(biāo)簽同步解碼算法及其在語(yǔ)音識(shí)別中的應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2019,42(7):1511?1523.
[9] 張曉冰,楊啟亮,邢建春,等.面向軟件模糊自適應(yīng)的語(yǔ)音式任務(wù)目標(biāo)識(shí)別與結(jié)構(gòu)化轉(zhuǎn)換[J].計(jì)算機(jī)工程,2018,44(4):59?65.
[10] 潘瑋,汪靜瑩,劉天俐,等.基于語(yǔ)音的抑郁癥識(shí)別[J].科學(xué)通報(bào),2018,63(20):2081?2092.
[11] 艾斯卡爾·肉孜,王東,李藍(lán)天,等.說(shuō)話人識(shí)別中的分?jǐn)?shù)域語(yǔ)速歸一化[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,58(4):337?341.