国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BP 神經(jīng)網(wǎng)絡(luò)的英語語音識別混合算法

2023-11-10 07:38:02王飛燕徐衡
成長 2023年11期
關(guān)鍵詞:特征參數(shù)語音神經(jīng)網(wǎng)絡(luò)

王飛燕 徐衡

南通理工學(xué)院 (江蘇省南通市 226002)

1 引言

語言是人類不同于其它動物所獨有的技能,語音作為語言的媒介,在信息傳播與情感抒發(fā)過程中扮演著獨一無二的角色。正是由于這個原因,一直以來,人類都希望人與機(jī)器之間能夠像人與人之間進(jìn)行自然的語音交流,即讓機(jī)器能夠“聽懂”人的語言并做出正確的反應(yīng)。語音識別技術(shù)需要在最短的時間內(nèi)使機(jī)器正確識別語音指令的內(nèi)容并做出正確的響應(yīng),包括了信號處理,模式識別、人工智能算法等[1-2]。近幾年來,隨著數(shù)字時代的發(fā)展,語音識別技術(shù)得到了長足的發(fā)展,逐漸由實驗室走向應(yīng)用。伴隨著移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算的飛速進(jìn)步,語音識別技術(shù)呈現(xiàn)出了前所未有的使用前景和市場價值,很多互聯(lián)網(wǎng)公司的產(chǎn)品都以語音識別技術(shù)來吸引用戶。而語音識別技術(shù)作為人機(jī)交互的關(guān)鍵技術(shù)手段,在世界范圍內(nèi)也掀起了研究熱潮[3-4]。所以,探索語音識別技術(shù)并研發(fā)出相關(guān)的產(chǎn)品,具有普遍的社會意義和經(jīng)濟(jì)意義。

對語音識別技術(shù)的研究,首先是從國外開始的,貝爾實驗室首先開發(fā)出了Andry 系統(tǒng),該系統(tǒng)可以進(jìn)行語音識別,并且可以簡單地識別10 個英語數(shù)字[5]。21 世紀(jì)的二十年代,語音識別的研究主要集中于兩個方向:一是繼續(xù)提升基于DNN-HMM 的語音識別的性能;二是開發(fā)端到端的語音識別系統(tǒng),改變傳統(tǒng)的將聲學(xué)模型和語言模型區(qū)分開的識別方式。隨著語音識別研究的開展,其應(yīng)用場景也從單一的特定任務(wù)場合擴(kuò)展到與人們生活息息相關(guān)的各個方面。微軟公司發(fā)布了Cortana 個人智能助手,可以實現(xiàn)辦公室娛樂聊天、與用戶語音交互等功能。我國對語音識別研究起步較晚,于五十年代開始,但最近幾十年代有了迅猛的發(fā)展,從實驗室逐步走向?qū)嵱?。其中比較有代表性的是科大訊飛研制語音識別系統(tǒng),其識別精度達(dá)到了98% 以上,已成為國內(nèi)外領(lǐng)先的佼佼者。神經(jīng)網(wǎng)絡(luò)中的諸多方法在語音識別中應(yīng)用越來越普遍,隨著人們對這些現(xiàn)代智能算法的運(yùn)用更加成熟,語音識別技術(shù)也必將迎來一個飛躍式的發(fā)展。

語音識別不僅在各個領(lǐng)域發(fā)揮著重要的作用,同時也逐步融入到人們的生活中來。所以,如何提高識別準(zhǔn)確率成為了關(guān)鍵性因素,它體現(xiàn)的是一個公司乃至一個國家的科技前沿的發(fā)展水平。

2 BP 神經(jīng)網(wǎng)絡(luò)在英語語音識別中的應(yīng)用

2.1 BP 神經(jīng)網(wǎng)絡(luò)原理

如今,人工智能的研究日益受到人們重視,同時將人工智能技術(shù)與其他學(xué)科領(lǐng)域結(jié)合應(yīng)用到工程實踐中也越來越流行于多層前饋網(wǎng)絡(luò)的訓(xùn)練經(jīng)常采用誤差反向傳播算法,人們也常把多層前饋網(wǎng)絡(luò)稱為BP 網(wǎng)絡(luò)。BP(Back-Propagation) 神經(jīng)網(wǎng)絡(luò)是發(fā)展最為成熟也是至今應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一。其學(xué)習(xí)原理是計算實際輸出結(jié)果與期望結(jié)果之差,然后從后向前反饋,通過不停的迭代修正內(nèi)部參數(shù)來實現(xiàn)進(jìn)化學(xué)習(xí)的效果。其在復(fù)雜的非線性系統(tǒng)中具有較高的建模能力,所以十分適合應(yīng)用于預(yù)測和模式識別領(lǐng)域。由于BP 神經(jīng)網(wǎng)絡(luò)具有穩(wěn)定優(yōu)越的性能,其被廣泛應(yīng)用于模式識別分類、系統(tǒng)仿真、故障預(yù)測診斷、圖像處理等領(lǐng)域。如圖1 所示為BP 神經(jīng)網(wǎng)絡(luò)算法的流程。

BP(back propagation)神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播的計算理論生成的多層前饋神經(jīng)網(wǎng)絡(luò)。它由輸入層、輸出層和一個或多個隱藏層組成。每一層都由多個可以并行計算的神經(jīng)元素組成,同一層的神經(jīng)元之間沒有連接,層與層之間的神經(jīng)元節(jié)點都是相互連接的。

BP 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)分為兩個階段。第一級是通過輸入信號的前向傳播;第二階段是誤差反向傳播。在第一階段,訓(xùn)練樣本信息被輸入到輸入層,然后被隱藏層處理,然后傳輸?shù)捷敵鰧?。如果實際輸出和預(yù)期輸出之間存在誤差,它將進(jìn)入第二階段,即誤差反向傳播階段。在這個過程中,輸出信號的誤差最終按照原始路徑從隱藏層傳輸?shù)捷斎雽?,然后將每一層的誤差信號分別分配給每一層的所有神經(jīng)元單元。每個神經(jīng)元根據(jù)信號改變每個網(wǎng)絡(luò)的連接權(quán)值,最終誤差信號逐漸減小。這兩個階段反復(fù)出現(xiàn)。事實上,網(wǎng)絡(luò)學(xué)習(xí)階段是一個不斷調(diào)整和修改連接權(quán)重的過程。該過程持續(xù)進(jìn)行,直到誤差值降低到允許的范圍或達(dá)到預(yù)設(shè)的訓(xùn)練時間。

2.2 BP 神經(jīng)網(wǎng)絡(luò)的應(yīng)用

BP 神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)的工作流程有以下兩個步驟:

(1)對語音信號進(jìn)行特征參數(shù)提??;

(2)通過神經(jīng)網(wǎng)絡(luò)的計算和學(xué)習(xí),輸出準(zhǔn)確的識別結(jié)果。

設(shè)計神經(jīng)網(wǎng)絡(luò)和語音識別系統(tǒng)時,應(yīng)堅持以下原則:

選擇正確的語音表現(xiàn)形式:為了使神經(jīng)網(wǎng)絡(luò)能夠接受和識別,要從語音中進(jìn)行特征參數(shù)的提煉。

設(shè)定網(wǎng)絡(luò)模型:包括激活函數(shù)、選擇正確的連接方式,還要針對各類語音的特點、以及所采用的典型模型,擴(kuò)充和改造原來的神經(jīng)元,還可以將多種網(wǎng)絡(luò)模型結(jié)合起來。

設(shè)定網(wǎng)絡(luò)參數(shù)選擇:設(shè)定好網(wǎng)絡(luò)的層數(shù)、輸入、輸出、隱層神經(jīng)元的數(shù)目。

選擇學(xué)習(xí)和訓(xùn)練算法:設(shè)定嚴(yán)格的網(wǎng)絡(luò)規(guī)則,并及時改進(jìn),學(xué)習(xí)時還要從各個算法出發(fā),來進(jìn)行初始化。因為如下兩個原因,本文在進(jìn)行時間規(guī)整處理時,以前端網(wǎng)絡(luò)為主:

因為人們在說話時,速度快慢發(fā)生變化,有的音節(jié)速度較快,難以持續(xù)太長時間,有的音節(jié)則過慢,拖得時間很長。這種現(xiàn)象的存在,造成難以通過權(quán)重處理語音各幀的特征矢量。而要解決這個問題,可以通過合并一些特征矢量來解決,經(jīng)過這樣的處理后,最終導(dǎo)致從語音中提取到的特征參數(shù)和語音中的一樣,從而改善了說話速度快慢不定所造成的影響,也避免了因為說話語速問題引起的語音識別的誤差。

為了提高神經(jīng)網(wǎng)絡(luò)分類器識別的準(zhǔn)確率,對于每一個單詞在特征矢量提取上都設(shè)定相關(guān)的規(guī)則,在對語音進(jìn)行段落劃分后,和詞匯表中的各單詞相比,其數(shù)量比這些詞的音素數(shù)更高。在實際的孤立識別實踐中,通常將語音分為4-8 段,這樣的話,只要用2-3 個特征矢量,就能對任何一個音素進(jìn)行描述。

2.3 BP 神經(jīng)網(wǎng)絡(luò)算法的改進(jìn)

通常來說,BP 算法有兩種改進(jìn)方案,一是提高自適應(yīng)學(xué)習(xí)速率,另一種則是提高動量因子的數(shù)量,但這兩種方法都有各自明顯的不足之處。前者對學(xué)習(xí)速率的初始值要求高且非常敏感,通常為了加快收斂速率會設(shè)置較大的初始值,但是修改不當(dāng)則會使得整個網(wǎng)絡(luò)不收斂,而過小的初始值又會使得收斂速率降低,后者的缺點則是無法避免陷入局部極小值點。本文基于傳統(tǒng)的改進(jìn)方法做如下改進(jìn):

(1)動量因子的優(yōu)化方法。BP 算法的標(biāo)準(zhǔn)權(quán)值調(diào)整如式(1)所示,它兼容性不強(qiáng),不適用于以前的梯度,所以有時會出現(xiàn)振蕩現(xiàn)象。式(2)便是動量因子得到增加后,所進(jìn)行的調(diào)整過程。而權(quán)值的調(diào)整不但要將本次誤差計算在內(nèi),還要加入上一次的部分計算量。這樣在利用BP 網(wǎng)絡(luò)來局部調(diào)整誤差曲面時,敏感度可以進(jìn)行調(diào)節(jié)。其中,α 為動量因子,η 為學(xué)習(xí)速率。

但是各種方法都有一個弊端,那就是若是α 固定不變了,BP 網(wǎng)絡(luò)的整個學(xué)習(xí)過程也就定型了,而且在設(shè)置α 的時方法并沒有統(tǒng)一,主要靠慣例,一般會先定為0.9。

(2)自適應(yīng)速率方法。在一般的BP 算法中,η 通常被設(shè)為固定值,但這樣的話,不一定是網(wǎng)絡(luò)最佳學(xué)習(xí)速率。觀察整個誤差平面發(fā)現(xiàn):在平坦區(qū)間內(nèi),η 較小時,迭代次數(shù)會增多,若是區(qū)間內(nèi)曲面急劇變化,η 如果設(shè)得太大,權(quán)值也會跟著出現(xiàn)較大的調(diào)整,從而引發(fā)振蕩現(xiàn)象。因此,本文提出了如式(3)所示的自動調(diào)節(jié)的方法。

本文后續(xù)就將使用結(jié)合著兩種方法的改進(jìn)方法。既能通過動量因子來有效的加快網(wǎng)絡(luò)的收斂速度也能通過η 的自動調(diào)整來降低初始η 對網(wǎng)絡(luò)的影響,使得最佳的η 能較快得出。

3 語音識別仿真實驗

3.1 實驗數(shù)據(jù)來源

本文仿真實驗所選用的英文語音數(shù)據(jù)庫叫做 TIMIT,TIMIT 語音庫包含總共6300 句話,即來自于美國8 個主要方言區(qū)域的630 名說話人分別說10 句話,采樣頻率為16kHz,總共大約 500M 左右大小。

3.2 數(shù)據(jù)預(yù)處理

對于神經(jīng)網(wǎng)絡(luò),大多數(shù)都有時間規(guī)律性的問題。由于神經(jīng)網(wǎng)絡(luò)分類器的結(jié)構(gòu)是固定的,輸入語音信號的長度是可變的,即提取的語音特征參數(shù)存在維數(shù)不等的問題,因此必須將可變長度的語音特征參數(shù)轉(zhuǎn)換為相同長度的特征向量。本文采用分段平均法對TIMIT 數(shù)據(jù)集的語音特征參數(shù)進(jìn)行預(yù)處理,如降維和正則化。

4 仿真實驗結(jié)果分析

本文使用DTW 和HMM 模型語音識別算法的與本文提出的算法進(jìn)行性能對比,性能指標(biāo)為語音識別正確率,其值均為統(tǒng)計平均結(jié)果。

表1 語音識別率比較結(jié)果

如表1 所示,DTW 的語音識別正確率低于HMM 和IBPNN,證明本文提出的IBPNN 模型性能更優(yōu)。其次,分析不同語音識別算法的訓(xùn)練參數(shù)規(guī)模。對于DTW,其訓(xùn)練參數(shù)規(guī)模為12000;而對于HMM 和IBPNN,其訓(xùn)練參數(shù)規(guī)模最大分別為 7200 和 9800,遠(yuǎn)遠(yuǎn)小于 DTW 訓(xùn)練參數(shù)規(guī)模。在訓(xùn)練集中語音樣本有限的情況下,如果訓(xùn)練參數(shù)規(guī)模較大,很容易導(dǎo)致訓(xùn)練模型的過擬合問題。通過減小訓(xùn)練參數(shù)的規(guī)模,可以有效地避免訓(xùn)練模型的過擬合問題。在訓(xùn)練集中語音樣本有限的情況下,本文提出的IBPNN 模型大大減少了訓(xùn)練參數(shù)的規(guī)模,從而提高了模型的識別性能。

5 結(jié)論

在計算機(jī)輔助語音學(xué)習(xí)中,語音識別技術(shù)和語音評價技術(shù)是核心所在。其中,語音識別技術(shù)尤為關(guān)鍵,發(fā)揮著至關(guān)重要的作用。原因在于,語音識別是語音評價的重要基礎(chǔ)和前提條件,只有高準(zhǔn)確度的語音識別才能進(jìn)一步取得良好的語音評價結(jié)果。因此,本文將BP 神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于英語語音識別,建立基于改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的語音識別模型。通過對比實驗證明,本文提出的語音識別模型性能較優(yōu),但仍有很大的完善空間。不同群體(如小學(xué)生、中學(xué)生、大學(xué)生、商務(wù)人士等)對學(xué)習(xí)英語口語的要求不盡相同,其英語發(fā)音質(zhì)量評價標(biāo)準(zhǔn)也不同。因此,后續(xù)可從評價指標(biāo)及模型的效度和信度分析驗證入手,研究面向不同對象的多參量評價指標(biāo)及其評價模型。

猜你喜歡
特征參數(shù)語音神經(jīng)網(wǎng)絡(luò)
故障診斷中信號特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
临西县| 阿拉善左旗| 八宿县| 连山| 宁南县| 来凤县| 涟水县| 曲松县| 建瓯市| 太谷县| 桂阳县| 福海县| 外汇| 聊城市| 澳门| 建阳市| 台东县| 承德县| 法库县| 鲜城| 眉山市| 灵山县| 景德镇市| 连江县| 罗山县| 漳浦县| 酉阳| 平和县| 句容市| 临沧市| 盐城市| 五华县| 临城县| 东安县| 广元市| 韩城市| 葫芦岛市| 峨眉山市| 井研县| 崇明县| 喀什市|