国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Kaldi 的智能語(yǔ)音識(shí)別在物聯(lián)網(wǎng)中的應(yīng)用研究

2022-04-01 11:33:38廖盛澨
電聲技術(shù) 2022年1期
關(guān)鍵詞:聲學(xué)識(shí)別率音頻

廖盛澨,曾 俊,徐 崇

(江西應(yīng)用技術(shù)職業(yè)學(xué)院,江西 贛州 341000)

0 引言

智能語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition,ASR)是以人類語(yǔ)音為輸入的新型交互技術(shù)。通過(guò)智能語(yǔ)音識(shí)別技術(shù),人類可以與機(jī)器進(jìn)行“交流”,機(jī)器能夠聽懂人類的語(yǔ)言,并且能夠反饋結(jié)果給人類。智能語(yǔ)音識(shí)別系統(tǒng)主要由語(yǔ)音的采集與識(shí)別、語(yǔ)義的理解以及語(yǔ)音的合成組成。實(shí)際上,人們?cè)?0 世紀(jì)50 年代就開始研究智能語(yǔ)音識(shí)別技術(shù),時(shí)至今日,語(yǔ)音識(shí)別技術(shù)已經(jīng)取得突破性的進(jìn)展。智能語(yǔ)音識(shí)別是實(shí)現(xiàn)人機(jī)智能交互最好的入口,也是完全機(jī)器翻譯和自然語(yǔ)言理解的基礎(chǔ)。特別是近年來(lái),大數(shù)據(jù)和云計(jì)算時(shí)代的到來(lái),加上深度神經(jīng)網(wǎng)絡(luò)技術(shù)的進(jìn)步,語(yǔ)音識(shí)別系統(tǒng)的性能獲得了顯著的提升。語(yǔ)音識(shí)別技術(shù)也逐步走向?qū)嵱没彤a(chǎn)品化,智能語(yǔ)音識(shí)別技術(shù)在物聯(lián)網(wǎng)產(chǎn)品中也得到更廣泛的應(yīng)用。從各種離線物聯(lián)網(wǎng)(Internet of Things,IoT)設(shè)備,再到各種公共服務(wù)和智慧政務(wù)等場(chǎng)合的應(yīng)用,智能語(yǔ)音識(shí)別技術(shù)正在逐步影響人們的生活。

目前常用的語(yǔ)音識(shí)別工具有CMU Sphinx、HTK、Julius、ISIP 及Kaldi。其中,Kaldi 是由Dan Povey 博士和BUT 大學(xué)合作開發(fā)的一套完整的語(yǔ)音識(shí)別套件[1]。Kaldi 的文檔覆蓋全面,代碼靈活易于擴(kuò)展。作為一個(gè)開源項(xiàng)目,Kaldi 的社區(qū)比較活躍,版本穩(wěn)定。而且,Kaldi 同時(shí)包括了語(yǔ)音識(shí)別解決方案中的語(yǔ)音和深度學(xué)習(xí)方法。Kaldi 智能語(yǔ)音識(shí)別算法主要由C++編程語(yǔ)言實(shí)現(xiàn),作為一個(gè)跨平臺(tái)的相對(duì)輕量級(jí)的智能語(yǔ)音識(shí)別算法,比較適合移植到嵌入式領(lǐng)域中。

1 智能語(yǔ)音識(shí)別技術(shù)原理

語(yǔ)音識(shí)別原理比較復(fù)雜,主要分為前端處理和后端處理兩部分,系統(tǒng)結(jié)構(gòu)如圖1 所示。其中,前端處理是對(duì)麥克風(fēng)采集的音頻數(shù)據(jù)做處理,主要過(guò)程可分為端點(diǎn)檢測(cè)、降噪及語(yǔ)音特征提??;后端處理主要是對(duì)音頻數(shù)據(jù)與聲學(xué)模型、語(yǔ)言模型進(jìn)行匹配,以及對(duì)音頻數(shù)據(jù)的解碼。

圖1 語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)框圖

端點(diǎn)檢測(cè)也叫語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD),它的目的是從帶有噪聲的語(yǔ)音中準(zhǔn)確地定位出語(yǔ)音的開始點(diǎn)和結(jié)束點(diǎn),去掉靜音的部分,降低對(duì)后續(xù)步驟造成的干擾[2]。

降噪又稱噪聲抑制(Noise Reduction),麥克風(fēng)采集到的音頻通常會(huì)有一定的噪音,如果噪聲較大,會(huì)對(duì)語(yǔ)音識(shí)別產(chǎn)生較大的影響,比如影響語(yǔ)音識(shí)別率,導(dǎo)致端點(diǎn)檢測(cè)靈敏度下降等。所以,噪聲抑制在語(yǔ)音的前端處理中顯得尤為重要。

特征提取是將預(yù)處理之后的語(yǔ)音的特征值提取出來(lái),由于語(yǔ)音波形在時(shí)域上的表述能力很弱,需要將語(yǔ)音做波形轉(zhuǎn)換。常見的一種變換方法為MFCC 特征值提取。

聲學(xué)模型、語(yǔ)言模型和解碼器是語(yǔ)音識(shí)別系統(tǒng)最重要也是最復(fù)雜的部分。聲學(xué)模型主要用來(lái)構(gòu)建輸入語(yǔ)音和輸出聲學(xué)單元之間的概率映射關(guān)系;語(yǔ)言模型用來(lái)描述不同字詞之間的概率搭配關(guān)系;解碼器負(fù)責(zé)結(jié)合聲學(xué)單元概率數(shù)值和語(yǔ)言模型在不同搭配上的打分進(jìn)行篩選,最終得到最可能的識(shí)別結(jié)果[3]。

2 Kaldi 語(yǔ)音識(shí)別套件

Kaldi 是當(dāng)前最流行的開源語(yǔ)音識(shí)別工具(Toolkit),它使用有限加權(quán)狀態(tài)轉(zhuǎn)換機(jī)(Weighted Finite State Transducers,WFST)來(lái)實(shí)現(xiàn)解碼算法。Kaldi 的主要代碼由C++語(yǔ)言編寫,在此基礎(chǔ)上使用bash 和python 腳本做了一些工具,比較適合移植到嵌入式設(shè)備當(dāng)中。此外,Kaldi 開源社區(qū)相對(duì)于其他開源社區(qū)更加活躍,可以更高效地得到技術(shù)反饋。因此,Kaldi 是物聯(lián)網(wǎng)應(yīng)用的較好選擇。

Kaldi 的框架如圖2 所示,最上面是外部的工具,包括線性代數(shù)庫(kù)BLAS/LAPACK 和OpenFst。中間是Kaldi 的庫(kù),包括HMM 和GMM 等代碼,接下來(lái)是可執(zhí)行程序,最下面則是一組腳本,用于實(shí)現(xiàn)語(yǔ)音識(shí)別的不同步驟(比如特征提取、訓(xùn)練單因子模型等)。

圖2 Kaldi 框架圖

以前常用的聲學(xué)模型是GMM-HMM 模型,由于建模能力有限,無(wú)法準(zhǔn)確地表征語(yǔ)音內(nèi)部復(fù)雜的結(jié)構(gòu),因此識(shí)別率低。Kaldi 支持DNN-HMM 聲學(xué)模型。相比于GMM-HMM 模型,DNN-HMM 模型加入了深度學(xué)習(xí)模型,不需要假設(shè)聲學(xué)特征所服從的分布,所使用的特征是FBank,這個(gè)特征保持著相關(guān)性。為了充分利用上下文的信息,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)采用連續(xù)的拼接幀作為輸入[4]。本文采用DNN-HMM 模型,在服務(wù)器中訓(xùn)練好之后,將DNN-HMM 模型移植到G1 平臺(tái)中。

3 基于G1 和Kaldi 的物聯(lián)網(wǎng)應(yīng)用

本文采用煊揚(yáng)G1 的嵌入式處理器作為硬件平臺(tái)。G1 是輕型AIoT 雙核芯片,內(nèi)置了一顆音頻編解碼器,是作為離線語(yǔ)音識(shí)別平臺(tái)的較好選擇。語(yǔ)音識(shí)別模型需要在服務(wù)器中訓(xùn)練好之后移植到G1平臺(tái)中?;贕1 的語(yǔ)音識(shí)別框架如圖3 所示。

圖3 基于G1 芯片的智能語(yǔ)音識(shí)別框架圖

在實(shí)現(xiàn)中,將CPU Core0 主要用做麥克風(fēng)數(shù)據(jù)的采集和音頻數(shù)據(jù)的前處理,CPU Core1 運(yùn)行Kaldi 語(yǔ)音識(shí)別套件。CPU Core0 處理完的數(shù)據(jù)是PMD 數(shù)字音頻信號(hào)。將該信號(hào)送給音頻Decoder,然后將解碼后的音頻信號(hào)傳給CPU Core1。CPU Core1 將運(yùn)行Kaldi 語(yǔ)音識(shí)別算法,得到最終的識(shí)別結(jié)果。

基于G1 芯片的智能語(yǔ)音識(shí)別平臺(tái)實(shí)物如圖4 所示。本文將采用風(fēng)扇作為控制對(duì)象,G1 芯片將識(shí)別后的結(jié)果發(fā)送給控制風(fēng)扇的微控制單元(Micro Control Unit,MCU),從而達(dá)到利用語(yǔ)音控制風(fēng)扇的目的。

圖4 基于G1 芯片的智能語(yǔ)音識(shí)別平臺(tái)實(shí)物

4 測(cè)試結(jié)果

在G1 平臺(tái)上完成Kaldi 整套工具移植后,需要對(duì)系統(tǒng)進(jìn)行測(cè)試。本文總共測(cè)試8 條命令,第一條命令為喚醒詞,如表1 所示。由于喚醒詞的識(shí)別率最能影響客戶體驗(yàn),因此針對(duì)喚醒詞在Kaldi 中做了客制化,用來(lái)提升喚醒詞的識(shí)別率。

表1 測(cè)試命令表

本文的測(cè)試方法是:先用PC 錄音工具錄取10個(gè)人的語(yǔ)料,然后用PC 播放器反復(fù)播放語(yǔ)料,來(lái)測(cè)試?yán)^承了Kaldi 套件的G1 平臺(tái)的語(yǔ)音識(shí)別效果。通過(guò)抓取G1 平臺(tái)串口打印的信息,可以計(jì)算總共識(shí)別成功的次數(shù),從而計(jì)算出識(shí)別率。由于聲音的大小直接影響到識(shí)別率,本實(shí)驗(yàn)在PC 中設(shè)置了三種不同的聲音大小,分別為30 dB、50 dB、70 dB。喚醒詞每種聲音大小測(cè)試2 000 次,其他命令各測(cè)試1 000 次。

測(cè)試結(jié)果如表2 所示??梢钥闯?,喚醒詞的識(shí)別率在92.4%以上,其他7 條命令的識(shí)別率大多在85%以上。命令識(shí)別率偏低的原因主要是當(dāng)時(shí)風(fēng)扇正在工作,從麥克風(fēng)采集的語(yǔ)音數(shù)據(jù)具有較大噪音。G1 作為輕型的物聯(lián)網(wǎng)芯片,搭載Kaldi 語(yǔ)音識(shí)別框架,選擇風(fēng)扇作為控制對(duì)象,識(shí)別率能夠達(dá)到85%以上。

表2 Kaldi 智能識(shí)別算法識(shí)別率

5 結(jié)語(yǔ)

本設(shè)計(jì)通過(guò)對(duì)開源智能語(yǔ)音識(shí)別套件Kaldi 的研究,將Kaldi 移植到煊揚(yáng)G1 語(yǔ)音芯片中,將風(fēng)扇作為語(yǔ)音控制對(duì)象,實(shí)現(xiàn)了智能語(yǔ)音離線識(shí)別。經(jīng)過(guò)系統(tǒng)測(cè)試,語(yǔ)音識(shí)別率在85%以上,證明可以滿足日常物聯(lián)網(wǎng)產(chǎn)品需求。

隨著物聯(lián)網(wǎng)芯片性能的逐步加強(qiáng)和5G 通信技術(shù)的普及,加上大數(shù)據(jù)技術(shù)和云計(jì)算技術(shù)的逐漸成熟,在線智能語(yǔ)音識(shí)別運(yùn)用在物聯(lián)網(wǎng)中將會(huì)成為主流[5],識(shí)別率和識(shí)別速度將得到很大提升。如何將智能語(yǔ)音識(shí)別技術(shù)和云計(jì)算、大數(shù)據(jù)技術(shù)融合運(yùn)用,將會(huì)是今后的研究方向。

猜你喜歡
聲學(xué)識(shí)別率音頻
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
泸定县| 广东省| 灵寿县| 武隆县| 望谟县| 仪征市| 元江| 彩票| 阿城市| 合作市| 潍坊市| 疏勒县| 平阴县| 文昌市| 贵德县| 吐鲁番市| 伊吾县| 航空| 鲜城| 昌宁县| 大冶市| 南皮县| 珠海市| 永兴县| 焦作市| 五常市| 枣强县| 合作市| 浮梁县| 大城县| 浦城县| 南木林县| 江山市| 景谷| 宿松县| 桐柏县| 名山县| 工布江达县| 河津市| 长海县| 武汉市|