国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CNN邊緣影響分析與改進的語音識別

2021-09-23 02:30方園園
現(xiàn)代電子技術 2021年18期
關鍵詞:池化層梅爾對折

方園園,朱 敏

(南京航空航天大學,江蘇 南京 210016)

0 引 言

近年來,隨著人工智能的發(fā)展,自動語音識別技術(Automatic Speech Recognition,ASR)也被不斷研究與發(fā)展,并被應用到各種不同的領域,例如:聲音驅動指令、人機界面、相關文本翻譯以及醫(yī)療超聲[1?8]等,為人類生活帶來了巨大的便利。語音識別技術在發(fā)展的過程中,其相關研究幾乎都致力于相關模型算法的優(yōu)化。被應用廣泛的模型有隱馬爾可夫模型(Hidden Markov Model,HMM)、短 時 記 憶(Long Short?Term Memory,LSTM)網絡、深度神經網絡(Deep Neural Network,DNN)以及卷積神經網絡(Convolutional Neural Network,CNN)等,多年來被不斷地改進來改善語音識別率。例如:文獻[9]關于LSTM、DNN和CNN的各自優(yōu)劣將它們組合成一個改進模型CLDNN;文獻[10]致力于改進代價與激勵函數(shù)來生成一個新的CNN改進模型,提高語音準確率。但是,網絡模型的優(yōu)化會涉及層數(shù)的加深和模型結構的復雜化,這樣不但會使得實驗中計算和算法相對復雜,也可能會造成網絡訓練中的過擬合。

作為當今語音識別深度學習模型的主流,CNN具有局部卷積及池化的顯著特點[10],通過對一定量的視覺圖像的分析學習,來達到圖像識別、語音處理[11]和推薦系統(tǒng)[12]等的效果。此模型常以二維或三維圖像為輸入數(shù)據,并且對此類結構的信息非常敏感,也是現(xiàn)如今廣泛用于計算機視覺領域的網絡模型。對于基于CNN的語音識別技術,現(xiàn)有的研究大多將表示為時域和頻域的二維形式的語音特征直接輸入到CNN或是改進優(yōu)化的CNN中。在本次實驗中,通過觀察大量經過語音活動檢測(Voice Activity Detection,VAD)等預處理的二維語言特征,發(fā)現(xiàn)大多特征存在非零特征區(qū)域邊緣化的特點,即大多數(shù)非零特征區(qū)域位于整個二維特征的邊緣位置。這樣的特點會造成在CNN的訓練階段中,因為CNN中的局部卷積和池化的特點,語音特征中邊緣區(qū)域信息丟失,從而大幅度降低CNN語音識別的準確率。在本文中,將由于非零特征區(qū)邊緣化造成的影響稱為邊緣影響,并針對該影響展開了研究,認為解決該邊緣影響的方法應起到將非零特征區(qū)域“移動”到遠離邊緣位置的效果。本次實驗采取了幾種幾何改進方法來緩解邊緣影響,通過相同的CNN結構以及訓練時長在自錄制與公共數(shù)據庫的混合數(shù)據的識別準確率,證明了經過幾何改進的二維特征,在CNN中的識別性能都優(yōu)于存在邊緣影響的原始特征。

1 特征提取

在關于CNN的語音識別中,語音特征的提取過程通常如圖1所示。語言特征提取過程包括對標準數(shù)據庫的數(shù)據獲取及生成數(shù)據語音幀,再讓每一幀語音經過梅爾濾波器生成不同頻率帶寬的能量特征值,最后將得到的二維特征放入卷積神經網絡進行訓練。

圖1 二維語音特征提取步驟結構圖

1.1 數(shù)據獲取

數(shù)據獲取的主要內容是預處理和數(shù)據幅值的縮放[13],例如歸一化和去噪等部分。文獻[14]在獲取數(shù)據庫時,采用了二次采樣、歸一化去直流以及語音活動檢測(Voice Activity Detection,VAD)的方法,便于之后語音特征提取等操作時,不受周圍噪聲等的干擾,也方便數(shù)據庫中大量語音的統(tǒng)一操作。從文獻[15]可知,對于經過歸一化去直流的語音數(shù)據,所提取的一維梅爾特征在人工神經網絡(Artificial Neural Network)的訓練效果并不理想,魯棒性較差。經過對大量該類語音的觀察,發(fā)現(xiàn)語音之間的開始和終止時間差異較大。此外,在未發(fā)音階段也存在周圍環(huán)境的聲音(噪聲)。這些因素都會影響語音識別的正確率和魯棒性。為了區(qū)分人聲部分和無聲部分,VAD被應用來提取每段語音的人聲部分,使得每段語音數(shù)據的開始和終止時刻更加統(tǒng)一,也可以去除周圍噪聲造成的干擾。如圖2所示,對來自于第一個男性的語音數(shù)據“eight”(Speech,如圖2實線所示),計算對應的短時能量(Short?Time Energy,STE),如圖2虛線所示,并通過設定的閾值來篩選人聲部分。在圖2中,STE值與原始語音數(shù)據一一對應,所有與高于閾值的STE值時間點相同的語音數(shù)據,都會被提取出來,作為新的語音數(shù)據,用于后續(xù)處理。

圖2 歸一化的短時能量與語音數(shù)據結構圖

1.2 梅爾倒譜系數(shù)

梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCCs)是應用最為廣泛的語音特征提取方法之一。采用該系數(shù)計算所需的濾波器組,梅爾濾波器組(Mel Filter Banks,MFBs)是經由大量實驗所得的一系列頻譜帶寬,這些濾波器的帶寬大小,反映了人耳對于不同語音頻率帶寬的敏感程度。語音頻率值與梅爾頻率值正、逆變換公式分別為:

式中,f和m分別為頻率值和梅爾刻度值。

將語音頻率的上、下限值先經由(1)變換為梅爾頻率的上、下限值,再根據所需梅爾濾波器個數(shù)進行等份,等份而得的梅爾刻度再經由式(2)得到梅爾濾波器的邊緣值與中間值。本文根據所選取的語音數(shù)據庫,取32個頻率濾波器以及一個最大頻率范圍,即最低頻率300 Hz和最高頻率4 kHz;再根據這兩個頻率最值經由梅爾變換得到梅爾刻度范圍,并將該范圍劃分為32個等份即34個梅爾刻度值,如式(3)所示;最后再應用梅爾逆變換由梅爾刻度得到頻率值,最后得到如圖3所示的32個三角形梅爾頻率濾波器。

圖3 32個梅爾頻率濾波器

2 邊緣影響分析

2.1 特征生成

本文在提取生成語音特征時,經過多次試驗后決定的一些參數(shù)如下所示。首先是在數(shù)據獲取階段中的VAD部分,經過多次嘗試,本文選擇了0.02的閾值。在實際操作中,將STE值高于0.02的第一個數(shù)據點所對應的相同時間的語音數(shù)據會被作為新的初始點,而此點之后的所有數(shù)據將會被保留。以內容為“seven”的男性錄音為例,原始語音數(shù)據與VAD處理之后篩選出來的人聲部分的對比,如圖4所示。經過VAD之后,人聲部分在本文中的語音特征被表現(xiàn)為二維的形式:時域坐標和頻域坐標[11?12]。在經過濾波器之前,以50%的重復率將語音分成多個語音幀,然后將每一幀語音通過32個梅爾濾波器,計算各自不同時域的頻率能量特征。需要注意的是,與一維特征的情況不同,二維特征除了頻率坐標系之外,還要表示時域上的坐標。通常的梅爾倒譜系數(shù)計算是通過梅爾濾波器的語音能量,再經由離散余弦變換(Discrete Cosine Transformation,DCT)和對數(shù)變換而得。但是DCT反映了被映射在另一個基(basis)的音譜信息,而非傳統(tǒng)的時域坐標。從而造成能量值的偏移,影響特征在CNN中的局部提取[10],所以本文將DCT部分去掉。去掉DCT而計算得到的特征,稱為MFSC特征[16]。生成的二維語音特征的表示如圖5所示(“nine”,male,32×32)。

圖4 VAD前后的語音數(shù)據

圖5 MFSC二維語音特征

2.2 特征邊緣化

在實驗初期,將經過歸一化去直流和VAD的語音信號進行特征提取,得到的部分二維特征如圖6所示,在CNN中的識別效果并不理想。其CNN模型的改進,例如激勵函數(shù)和層結構的加深,也未能改進CNN對所得二維特征的識別效果。

圖6 男性與女性二維語音特征(32×32)

經過觀察CNN中每一層卷積層或者池化層的輸出,發(fā)現(xiàn)大量的特征在經過卷積和池化層之后,所得的輸出圖大部分都看不出明顯的特征效果,如圖7所示。經分析,主要原因是大量特征的非零特征區(qū)域處于整個特征圖的邊緣位置。在具有局部卷積及池化等明顯特征[10]的CNN模型中,會使得這些非零特征在卷積層或池化層的響應不明顯。這樣,CNN的邊緣化影響會大大降低CNN語音識別的正確率。

3 特征幾何改進

為了減小卷積的邊緣化影響,本文采取相應的幾何改進措施,將非零特征區(qū)域“移動”使之遠離邊緣區(qū)域,這樣才能讓卷積層以及池化層得到更多特征部分的響應。本次實驗采取的措施分別為幾何對折、雙線性插值、零值填充和翻折填充,下面將介紹這幾種幾何改進措施。

3.1 幾何對折

以圖6a)左側的初始特征為例,將該特征在水平、豎直和對角線方向上進行對折,得到了如圖8所示(男性,“nine”)最右方的對折特征??梢钥闯觯ㄟ^幾何對折的方式,雖然特征被復制,但是非零特征區(qū)域還是被完整地“移動”到二維特征值的中心位置。

圖8 幾何對折過程

3.2 雙線性插值

雙線性插值在圖像處理中比較常見,本次實驗采用雙線性插值(Bilinear Interpolation)。通過該方法,可以改變圖像的尺寸,但不會造成圖像很大的變化。如圖9所示(男性,“nine”,左男性,右女性),將圖6a)進行雙線性插值,非零特征區(qū)域的“形狀”并沒有太大改變。

圖9 雙線性插值特征

在雙線性插值的具體施行中,因為輸入和輸出圖像尺寸不同,分別為wi,hi(輸入圖像的寬、高)以及wo,ho(輸出圖像的寬、高),所以由寬和高的尺寸系數(shù),可得到新像素點坐標(x,y),其中,x,y分別為:

式中(m,n)表示輸出圖像對應的輸入圖像的位置點。值得注意的是x,y基本上為浮點數(shù),所以新圖像的像素點坐標應該是取其整數(shù)的(x′,y′)。

以上是關于得到新圖像的像素點坐標,而得到的對應灰度值為:

在本次實驗中,經過雙線性插值的二維特征取得的識別正確率要比初始特征改善許多,但仍然沒有達到理想的標準。

3.3 零值填充

零值填充是將初始特征的周圍填充零值,如圖10所示(“nine”,左男性,右女性)。圖10a)的初始特征,在經過零填充后,非零特征值不會在左上角位置,視覺上會感覺往中心方向“移動”了一些。根據CNN中卷積層的核尺寸,本次實驗嘗試了兩種大小的零值填充特征,分別為64×64和48×48,不難看出,圖10a)的非零特征區(qū)域相較于圖10b)要更遠離邊緣區(qū)域。

圖10 零值填充特征

3.4 翻折填充

在本次實驗中,“翻折”不同于“對折”,不是將整個初始特征進行復制,而是將特征的一部分(選取含有非零特征的部分),在水平、豎直和對角線方向上進行翻折。如圖11所示(“nine”,左男性,右女性),選取非零特征中的8行和16行以及完全翻折的幾何對折的不同。其中,形成的特征尺寸大小同樣也是基于CNN卷積層的核尺寸。從圖11可以看出,翻折特征與幾何對折特征有一個很大的不同,就是特征區(qū)域的不完整。雖然包含了初始特征的部分,但是部分被翻折的特征處于整個特征圖的邊緣。

圖11 翻折填充特征

4 卷積神經網絡

本文基于對CNN相關知識的學習[17],進行了CNN的設計。此節(jié)將會涉及CNN的學習過程以及本次實驗具體設計CNN的細節(jié)。

4.1 網絡結構

圖12展示的是訓練數(shù)據中的一個特征(“eight”,女性)經過幾何對折的特征圖經過CNN向前傳播的過程。為了清楚表示幾何改進方法的效果,本次實驗中對于每一種改進特征都采用相同結構的CNN模型,CNN模型結構可以用以下序列表示,[I1,280,C2,10,P3,10,C4,20,P4,20,F5,150,F6,50,F7,10]。其中,I,C,P和F分別表示輸入層、卷積層、池化層和完全連接層,其下標中的第一、二個數(shù)字分別表示它們位于CNN的第幾層和尺寸大小,例如:C2,10表示CNN中的第二層為卷積層,卷積核大小為10×10。值得注意的是,與圖7比較,經過相同的層結構,幾何對折特征的“信息”比初始特征要明顯。

圖12 CNN向前傳播結構圖

4.2 學習過程

在了解CNN學習過程之前,首先,要了解CNN常用的幾個主要組成部分,分別為:卷積層、池化層和完全連接層。本次實驗設計的CNN的向前傳播如下:

式中,若第i層為卷積層,“學習”的過程則是將上一次卷積層或者是池化層輸出的特征圖Fi-1(若i=1,則Fi-1表示輸入圖像),與當前卷積層里的核Ki(k)進行卷積,再加上偏離數(shù)列bi。最后,將此結果代入當前卷積層的激勵函數(shù)fi中,得到第i層的第k個輸出特征圖Fi(k)。而當?shù)趇層為池化層時,對上一層特征圖的處理如下:

式中Hi(k)為第i層的第k個池化層核。因為本次實驗采用的池化層為平均池化層,故其核為H=

完全連接層一般都處于整個CNN結構的末尾(一般是不少于一層),不同于卷積層與池化層,它輸出的不是二維的特征圖而是一維的數(shù)列,對于上一層的輸出結果(二維或者一維都有可能)處理如下:

式中,W和B分別為完全連接層的權重系數(shù)和偏離數(shù)列,它們都是與第i層節(jié)點數(shù)和上一層的輸出維度相關的隨機數(shù)。

5 實驗結果與分析

5.1 基于標準數(shù)據庫的實驗結果

本次實驗的數(shù)據庫來自于專門用于語音研究的標準數(shù)據庫,要識別的語音內容為從“zero”到“nine”的單詞發(fā)音。選取的數(shù)據庫是來自4位男性和4位女性的320個錄音(持續(xù)時間都為1 s),每個人的聲音特點,包括口音、聲音大小以及說話開始和結束時間等,都不一樣。在訓練神經網絡時,語音數(shù)據中的訓練數(shù)據(Training Data)分配有280個,每個單詞分配28個語音,每個人的錄音涵蓋有3~4個;測試數(shù)據(Testing Data)40個,每個單詞分配4個語音,由于隨機抽取,每個人的錄音涵蓋有0~2個。經過采用的幾種特征幾何改進方法后,幾種情況的二維特征所取得的語音識別效果如表1所示,每種特征都經過CNN獨立訓練10次得到平均值和方差,以說明其識別的正確率及其魯棒性。由表1可知,對于未經任何幾何改進的初始特征,CNN的識別正確率非常低,而且方差很大,穩(wěn)定性不高。雙線性插值特征,相較于初始特征,特征圖尺寸增大,而非零特征區(qū)域仍處于邊緣位置,正確率和方差都有所改善,但仍未到達理想的標準。在同樣的尺寸下,64×64的零值填充特征卻達到了比較理想的效果,而48×48的零值填充特征則正確率稍弱,但仍大大優(yōu)于雙線性插值特征,這樣的優(yōu)劣對比也證明了非零特征區(qū)域越遠離邊緣,訓練的效果則越好。

表1 CNN檢測正確率

對于翻折特征和幾何對折特征,可以放在一塊進行說明,幾何對折特征取得了所有情況中最好的效果。而不同于零填充的情況,48×48的翻折特征比64×64的翻折特征效果更好,其原因也在于,64×64的不完整特征部分更多,對CNN的識別造成了更多的干擾。

6 結 論

本文提出的基于CNN邊緣化分析所采取的對二維語音特征的幾何改進,在不改進CNN結構與不增加數(shù)據量的前提下,有效地改善了CNN的語音識別正確率。通過由專門用于語音研究的公共數(shù)據庫[17]上的結果表明,經過不同幾何改進的二維特征,相較于存在邊緣影響的初始特征,其在CNN的識別效果都有了不同程度的改進。希望在未來,該類改進方法可以運用到更多種類信號,例如EEG、心電圖等信號在CNN中識別效果的改進。

猜你喜歡
池化層梅爾對折
基于梅爾頻譜分離和LSCNet的聲學場景分類方法
對折十次
卷積神經網絡模型研究分析*
基于卷積神經網絡的紙幣分類與點鈔
基于深度學習卷積神經網絡的人體行為識別研究
梅爾維爾鯨
女詩人梅爾詩集《十二背后》三人談
“熊”視眈眈
基于全卷積神經網絡的SAR圖像目標分類*
平移、對折和旋轉,一網打盡
鹿邑县| 兴业县| 民乐县| 普格县| 剑阁县| 谢通门县| 上虞市| 肃北| 都江堰市| 太仆寺旗| 尼勒克县| 县级市| 平遥县| 那坡县| 苏尼特左旗| 林周县| 浦东新区| 南乐县| 八宿县| 博白县| 靖西县| 志丹县| 孝昌县| 内乡县| 宁海县| 昌江| 波密县| 甘德县| 湘乡市| 武川县| 军事| 武汉市| 伊吾县| 巨野县| 阿巴嘎旗| 柳州市| 时尚| 朔州市| 托克托县| 长岛县| 湘阴县|