国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN的普米語孤立詞語譜圖分類

2021-02-01 04:04:54
關(guān)鍵詞:語譜語音準確率

董 華 珍

黔西南州廣播電視大學 人事科,貴州 興義 562400

近年來國內(nèi)語音識別技術(shù)快速發(fā)展,并取得顯著成效.國內(nèi)語音識別領(lǐng)域處于領(lǐng)先地位的科大訊飛、百度語音實驗室等對漢語語音識別率可以達到95%以上,但對瀕危少數(shù)民族語言,如普米語、佤語等語言的語音識別技術(shù)研究仍處于空白狀態(tài).普米族主要居住于云南省和四川省,普米語為其民族語言,由于沒有文字,語言和文化僅限于口口相傳[1].隨著年長的人相繼離世,普米族的語言和文化正逐漸消亡.為了促進普米族語言和文化的傳承和發(fā)展,語音識別技術(shù)介入迫在眉睫.

盡管目前語音識別的方法很多,但總的來說可以歸結(jié)為基于語音信號和基于語譜圖的2種語音識別方法.語音識別中,同一個詞不同說話者的語速不同,同一個人發(fā)同一個音,在不同時刻,所用的時間也不相同[2-3].因此,通過語音信號來統(tǒng)計人類語音的發(fā)音特征非常困難.基于語音信號的語音識別中提取的特征參數(shù)主要有梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、線性預測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)等,其中MFCC、LPCC是最有效的[4],但這2個特征參數(shù)的提取是比較困難的.而基于語譜圖的方法能夠包含發(fā)音特點,并將語音信號的所有特征以圖像的形式顯示出來.通過傅里葉變換將語音信號轉(zhuǎn)換為語譜圖,借助圖像處理的方法提取語譜圖特征,最后利用分類器,可以實現(xiàn)基于語譜圖的語音識別,從而大大減小了語音識別的難度.近年來國內(nèi)對基于語譜圖的語音識別展開了研究.如: 宋洋[5]提取語譜圖的邊界特征和二值特征作為語譜特征,通過構(gòu)造BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)維吾爾語音素分類.唐閨臣等[6]通過提取語譜圖中的Hu不變矩特征、紋理特征和部分語譜特征,基于SVM實現(xiàn)了對語音情感的分類.梁士利等[7]將語譜圖的頻域圖矩陣進行投影后的值作為特征值,并利用SVM實現(xiàn)二字漢語詞匯語音識別.

基于語譜圖的語音識別,其本質(zhì)是實現(xiàn)語譜圖的分類.普米語孤立詞語譜圖分類屬于模式識別的范疇[8],模式識別算法的選擇是普米語孤立詞語譜圖分類的難點也是核心問題.目前常用的模式識別算法有神經(jīng)網(wǎng)絡(luò)算法(Neural Network Algorithm,NNA)、K-近鄰分類器(K-Nearest Neighbor Classifier,KNNC)[9]、支持向量機(Support Vector Machine,SVM)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等.神經(jīng)網(wǎng)絡(luò)算法、K-近鄰分類器進行模型訓練時需要大量訓練樣本.此外,神經(jīng)網(wǎng)絡(luò)算法[10]基于經(jīng)驗風險最小化原則,面臨“過學習的風險”的問題.SVM針對多分類和大樣本數(shù)據(jù)時,單一核在學習過程中存在學習能力強泛化能力弱或泛化能力強學習能力弱等局限性,需要引入多核支持向量機[11].卷積神經(jīng)網(wǎng)絡(luò)[12-14]是深度學習的一個重要算法,其提供了一種端到端的學習模型,通過梯度下降算法可對模型的參數(shù)進行訓練,并自動地學習圖像的特征完成圖像的分類.

1 基于CNN的語譜圖分類模型

基于Google公司開源的一個機器學習框架系統(tǒng)Tensorflow,本文搭建了一個卷積神經(jīng)網(wǎng)絡(luò)模型,在此基礎(chǔ)上利用語譜圖樣本集對模型進行訓練.模型訓練的步驟為: ① 初始化普米語語譜圖數(shù)據(jù)集; ② 訓練模型的參數(shù); ③ 模型的測試.由此得到語譜圖分類的卷積神經(jīng)網(wǎng)絡(luò)模型.

1.1 CNN模型的構(gòu)造

CNN模型由7個卷積層和2個全連接層組成.將彩色語譜圖直接輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,由于圖像是彩色的,故模型通道數(shù)為3.對輸入的圖片進行卷積操作后,采用ReLU激活函數(shù),對卷積核的輸出值進行非線性變換,接著采用maxpoolig完成最大池化操作.全連接層采用的激活函數(shù)是ReLU函數(shù),為了防止模型訓練過擬合,在全連接層后都添加Dropout層,設(shè)置dropout_ratio參數(shù)值為0.5,即在模型訓練過程中隨機讓網(wǎng)絡(luò)中50%的節(jié)點不工作(輸出置0),表1列出了CNN網(wǎng)絡(luò)結(jié)構(gòu)的詳細參數(shù)表.

表1 CNN網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)表

1.2 CNN模型的訓練過程

1.2.1 數(shù)據(jù)的初始化

1) 在Tensorflow根目錄下的子目錄Spectrogram-Final文件夾中創(chuàng)建一個名為“tp-jpg”的文件夾,該文件夾用于存放語譜圖樣本集.部分訓練樣本如圖1所示.

2) 在Spectrogram-Final文件夾中有一個名為“bmp2jpg”的運行腳本,可將bmp格式的圖片轉(zhuǎn)換為jpg格式,并利用resize函數(shù)對圖像進行縮放.

3) 通過執(zhí)行Spectrogram-Final文件夾中的data-util.py代碼,能將樣本集嚴格地分為訓練集和測試集,并且得到圖名稱與標簽.

圖1 部分訓練樣本圖

1.2.2 構(gòu)造CNN模型

Spectrogram-Final文件夾中的cnn-model.py為設(shè)計好的卷積神經(jīng)網(wǎng)絡(luò)模型腳本,里面有卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)造的詳細內(nèi)容,包括每一個卷積層、池化層的參數(shù)設(shè)計.設(shè)計好的卷積神經(jīng)網(wǎng)絡(luò)模型,執(zhí)行cnn-model.py的代碼,通過Tensorboard可以查看網(wǎng)絡(luò)模型的示意圖.

1.2.3 訓練CNN模型

卷積神經(jīng)網(wǎng)絡(luò)的訓練方式分為逐個樣例訓練方式、批量樣例訓練方式和隨機批量樣本訓練3種方式.本文設(shè)計的模型采用的是批量樣例訓練,每個批次訓練150個樣本,迭代260次,在迭代過程中,利用梯度下降算法和反向傳播算法對模型的參數(shù)權(quán)值和偏置值進行修改.

1) Spectrogram-Final文件夾中的train.py文件為卷積神經(jīng)網(wǎng)絡(luò)模型的訓練代碼.將data-util.py所生成的訓練樣本和測試樣本輸入到上述已經(jīng)設(shè)計好的模型中,其中每批次訓練的數(shù)量為150個樣本,迭代260個周期,每迭代一次就測試一次數(shù)據(jù).網(wǎng)絡(luò)的基礎(chǔ)學習率為0.0005,隨著網(wǎng)絡(luò)的訓練,學習率將慢慢減小,從而使結(jié)果收斂.執(zhí)行該程序,即可訓練上述定義的卷積神經(jīng)網(wǎng)絡(luò)模型.

2) 通過Spectrogram-Final文件夾中的nohup.out GPU文件,可以查看模型訓練過程中準確率的變化情況,如圖2所示,IFNO代表分類準確率的變化情況.此外,也可以通過Tensorboard-logdir train.log/命令啟動train.log模型訓練日志查看Accuracy和cross entropy的變化曲線,從曲線中能夠清楚地看到Accuracy和cross entropy的變化情況.

3) Spectrogram-Final文件夾中的checkpoint文件夾,用于存放訓練好的模型,可以自行查看訓練后保存的模型、驗證模型.checkpoint文件夾中包含checkpoint、model_260.ckpt.data-00000-of-00001、model_260.ckpt.index、model_260.ckpt.meta 4個文件.checkpoint是一個文本文件,記錄了訓練過程中所有中間節(jié)點上保存的模型的名稱,圖3為checkpoint文件中間節(jié)點上保存的模型名稱示意圖.model_260.ckpt.meta文件是以“protocol buffer”的格式存儲模型的結(jié)構(gòu)圖、定義的操作等信息.model_260.ckpt.data-00000-of-00001文件保存網(wǎng)絡(luò)結(jié)構(gòu)的變量值,而model_260.ckpt.index文件則保存model_260.ckpt.data-00000-of-00001中數(shù)據(jù)和model_260.ckpt.meta文件之間的對應(yīng)關(guān)系.

圖2 CNN模型訓練過程中準確率的變化情況示例圖

圖3 中間節(jié)點上保存的模型名稱示意圖

2 基于CNN的普米語孤立詞語譜圖分類實驗

針對已訓練好的卷積神經(jīng)網(wǎng)絡(luò)模型,通過實驗檢驗各項因素對語譜圖分類準確率的影響,從而得到卷積神經(jīng)網(wǎng)絡(luò)模型適當?shù)膮?shù).在參數(shù)確定后,將卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(SVM)、BP神經(jīng)網(wǎng)絡(luò)做了對比實驗,以驗證算法的可行性和有效性,并對CNN優(yōu)于SVM、BP神經(jīng)網(wǎng)絡(luò)的原因進行分析.

2.1 數(shù)據(jù)集

實驗室研究團隊在云南省蘭坪白族普米族自治縣河西鄉(xiāng)箐花村和錄音棚中共采集了1 650個普米語孤立詞語音語料,發(fā)音人為2男2女,每個詞8遍,總計得到52 800條普米語孤立詞語音.通過傅里葉變換可將這52 800條語音轉(zhuǎn)換為語譜圖,形成本文使用的樣本集.

2.2 實驗的評價標準

在測試實驗中,當輸入的一張語譜圖經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后,輸出的類別與其對應(yīng)的標簽相符,則表明該語譜圖的分類正確.反之,則網(wǎng)絡(luò)對該語譜圖的分類錯誤.將測試集輸入至卷積神經(jīng)網(wǎng)絡(luò)中,最終的準確率作為該網(wǎng)絡(luò)的評價指標,也作為普米語孤立詞語譜圖分類的最終準確率.準確率的高低作為卷積神經(jīng)網(wǎng)絡(luò)性能的評價指標.而且通過卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)分類器進行分類效果的比較,可以判斷卷積神經(jīng)網(wǎng)絡(luò)性能的優(yōu)劣.實驗的分類準確率定義為

2.3 CNN的測試實驗

實驗包括彩色語譜圖測試實驗,以及在不同學習率、不同樣本比例、不同激活函數(shù)下的對比實驗,由此,可以得到卷積神經(jīng)網(wǎng)絡(luò)模型的適當參數(shù).基于已設(shè)計好的CNN模型,利用普米語孤立詞語譜圖進行訓練,并與傳統(tǒng)分類器進行對比,從而可以對CNN的性能進行判斷.

普米語孤立詞語音信號的采樣頻率為44 100 Hz,單通道,語音信號為.wav格式.傅里葉變換設(shè)置的點數(shù)為1 024,重疊的長度512,窗長為1 024.下述實驗中從語料庫中選取了1 650條普米語孤立詞語音信號,生成13 200張語譜圖,其中11 550張為訓練集,1 000張為測試集,650張為驗證集.

2.3.1 彩色語譜圖實驗

在Python程序中,調(diào)用已經(jīng)編寫好的Specgram程序?qū)⒄Z音信號轉(zhuǎn)換為彩色語譜圖,生成的語譜圖為200×900 px.利用resize函數(shù)可將語譜圖大小修改為200×150 px,其修改后的語譜圖直接作卷積神經(jīng)網(wǎng)絡(luò)的輸入,進行網(wǎng)絡(luò)模型訓練并測試性能.圖4為調(diào)用Specgram函數(shù)后,語音信號轉(zhuǎn)換為語譜圖的示例,圖5為彩色語譜圖Accuracy曲線圖,圖6則為彩色語譜圖cross-entropy曲線圖.

圖4 語音信號轉(zhuǎn)換為語譜圖的示例圖

圖5 彩色語譜圖Accuracy曲線圖

圖6 彩色語譜圖Cross-entropy曲線圖

圖4中能夠看出,語音信號轉(zhuǎn)換為語譜圖,語音特征更加直觀.圖5可觀察到在卷積神經(jīng)網(wǎng)絡(luò)的訓練過程中,彩色語譜圖的Accuracy值逐漸向0.95靠近,并趨于平緩.圖6中cross-entropy的值逐漸向0.01靠近,由此可以對網(wǎng)絡(luò)模型參數(shù)進行調(diào)整.

班彪《北征賦》的空間維度論析 …………………………………………………………………… 邢培順(5.64)

2.3.2 學習率對比實驗

卷積神經(jīng)網(wǎng)絡(luò)學習率的大小影響普米語孤立詞語譜圖的分類效果.學習率過大,卷積神經(jīng)網(wǎng)絡(luò)學習的速度會加快,造成Accuracy曲線震蕩或者發(fā)散; 而學習率過小,會造成訓練過程算法過早收斂.因此,本次實驗采用0.000 5、0.001、0.005、0.05、0.01、0.1這6種不同的學習率進行對比實驗,找出最佳學習率的值.表2為6種不同學習率下的對比實驗結(jié)果.

表2 不同學習率對比實驗

從表2的對比實驗中可以看出,學習率不同,語譜圖分類準確率也不同.從表中還可以看出,雖然迭代次數(shù)在增加,但卷積神經(jīng)網(wǎng)絡(luò)學習率的值變化趨勢越來越平緩,說明模型的學習能力趨于穩(wěn)定.當學習率為0.000 5時,分類準確率最高,故本文所采用的卷積神經(jīng)網(wǎng)絡(luò)學習率為0.000 5.

2.3.3 樣本對比實驗

表3為4種不同樣本比例的對照表,表4則為每一類語譜圖的4種樣本比例對照表,表5和表6為不同規(guī)模樣本集下的對比實驗.從表5中可以得出少量的樣本無法訓練模型,對語譜圖的最終分類準確率產(chǎn)生的影響較大.當樣本比例為7∶1時,分類準確率最高,達到95.31%.

在實驗中,語譜圖共有1 650類,每一類有8張.每一類的訓練樣本集與測試樣本集比例的不同,都會影響每一類的分類準確率.由此每一類訓練樣本集與測試樣本集比例分別為3∶5、4∶4、6∶2、7∶1,表6則為每一類不同樣本比例的對比實驗結(jié)果.表6可以得出結(jié)論,當每類樣本的訓練集與測試集之間的比率為7∶1時,語譜圖的分類準確率最高,約為95%.樣本比例為6∶2時,準確率達到78.98%,而樣本比例分別為3∶5、4∶4時,分類準確率分別為37%、44.49%.相比之下,當比例為7∶1時,可在一定程度上提高最終的分類準確率.

表3 4種樣本比例對照表

表4 每一類不同樣本比例對照表

表5 4種樣本比例的對比實驗結(jié)果

表6 每一類不同樣本比例的對比實驗結(jié)果

2.3.4 全連接層輸出節(jié)點對比實驗

2.3.5 激活函數(shù)對比實驗

卷積操作實際上是一種線性操作,然而許多機器學習的問題是非線性的,需要將一個特征空間的向量通過非線性變換映射到另一個空間中,才能實現(xiàn)線性可分.激活函數(shù)是非線性變換的一種手段.常用的4種激活函數(shù)特點不一樣,有的激活函數(shù)可能會在模型訓練過程中出現(xiàn)“梯度消失”的問題,而有的則不會出現(xiàn)此問題.由此,需要通過實驗找出分類效果好、收斂速度快的激活函數(shù),實驗結(jié)果如表8所示.

表7 全連接層不同輸出節(jié)點的對比實驗

表8 4種激活函數(shù)對比實驗

從表8中可以看出,在卷積神經(jīng)網(wǎng)絡(luò)模型中,以ReLU函數(shù)作為激活函數(shù),模型訓練時間最短,并且語譜圖的分類效果是最好的.故本文模型選用ReLU函數(shù)作為激活函數(shù).

2.3.6 CNN模型參數(shù)設(shè)置

上述實驗分別從輸入的樣本比例、學習率等方面進行對比實驗,由此得到CNN模型的最佳設(shè)置參數(shù),表9為卷積神經(jīng)網(wǎng)絡(luò)模型的最終參數(shù)設(shè)置.

2.4 基于SVM、BP神經(jīng)網(wǎng)絡(luò)和CNN的語譜圖分類實驗

為了說明該CNN模型對普米語孤立詞語譜圖分類具有可行性和有效性,在相同實驗條件下,本文進行基于SVM、BP神經(jīng)網(wǎng)絡(luò)和CNN的對比實驗.從普米語孤立詞語譜圖樣本集中選擇400張進行基于SVM、BP神經(jīng)網(wǎng)絡(luò)的分類實驗,其中320張作為訓練集,80張作為測試集,提取每張語譜圖的二值特征,得到16×16的特征矩陣.

1) 基于SVM的語譜圖分類實驗中,核函數(shù)與參數(shù)的確定將直接影響分類精度和泛化性能.針對這些問題,首先進行了線性核、多項式核、高斯徑向基核、多層感知器核函數(shù)的對比實驗,由實驗結(jié)果得出: 采用徑向基函數(shù)作為SVM的核函數(shù),預測分類準確率最高.其次,為了確定各個獨立核的懲罰參數(shù)c和核函數(shù)參數(shù)g的值,先利用網(wǎng)格法來找最優(yōu)參數(shù).然而,該方法只能找到局部最優(yōu)參數(shù).免疫遺傳算法將免疫算子添加到遺傳算法中,避免了傳統(tǒng)遺傳算法不成熟收斂的問題,具有隨機并行搜索的優(yōu)點.因此,利用它進行SVM參數(shù)的全局優(yōu)化.結(jié)果表明,當c=5.278,g=0.062 5時,分類準確率最高,其結(jié)果如表10所示.

2) 基于BP神經(jīng)網(wǎng)絡(luò)的語譜圖分類實驗中,本文構(gòu)建由輸入層、隱含層、輸出層組成的三層的BP神經(jīng)網(wǎng)絡(luò)模型進行語譜圖的分類實驗,模型的結(jié)構(gòu)為256-28-80,即輸入層有256個節(jié)點,隱含層有28個節(jié)點,輸出層為80個節(jié)點,其模型的基本參數(shù)學習率、期望精度、迭代次數(shù)分別為0.000 5、10-5、60次.

3) 在上述的對比實驗中,得到卷積神經(jīng)網(wǎng)絡(luò)模型適當?shù)膮?shù),并利用調(diào)整參數(shù)之后的模型進行普米語孤立詞語譜圖的分類實驗.3種方法的分類準確率如表10所示.

表9 CNN模型最終參數(shù)設(shè)置

表10 SVM、BP神經(jīng)網(wǎng)絡(luò)和CNN的性能比較

在上述SVM、BP神經(jīng)網(wǎng)絡(luò)和CNN的對比實驗中,基于SVM的語譜圖分類準確率為63%,而BP神經(jīng)網(wǎng)絡(luò)的分類準確率為58%,基于CNN的語譜圖分類準確率最高,達到91%.因此,可以得出CNN與傳統(tǒng)分類器SVM和BP神經(jīng)網(wǎng)絡(luò)相比,語譜圖分類準確率最高,性能最好.

BP神經(jīng)網(wǎng)絡(luò)在訓練過程中容易出現(xiàn)過擬合的問題,影響分類準確率.SVM針對小樣本,雖然有很強的學習能力和泛化能力,可得到現(xiàn)有信息下的最優(yōu)分類模式,但對多分類和大樣本數(shù)據(jù),需要引入多核支持向量機,核函數(shù)的組合以及參數(shù)尋優(yōu)十分困難.而卷積神經(jīng)網(wǎng)絡(luò)采用ReLU激活函數(shù),避免了過擬合的問題,大樣本數(shù)據(jù)則有利于模型參數(shù)的調(diào)整,此外,CNN能從圖像中自動提取復雜的特征.因此,分類效果最好.

3 結(jié) 論

本文在機器學習框架系統(tǒng)Tensorflow上搭建了一個包含7個卷積層和2個全連接層的卷積神經(jīng)網(wǎng)絡(luò)模型,并完成了普米語孤立詞語譜圖的分類實驗.通過不同樣本比例、不同學習率、不同激活函數(shù)、不同輸出節(jié)點數(shù)等的對比實驗,分析各項因素對分類準確率的影響,得到模型適當?shù)膮?shù).在此基礎(chǔ)上,分別對卷積神經(jīng)網(wǎng)絡(luò)、SVM和BP神經(jīng)網(wǎng)絡(luò)的實驗結(jié)果進行比較,判斷卷積神經(jīng)網(wǎng)絡(luò)模型的性能.

實驗表明,在基于卷積神經(jīng)網(wǎng)絡(luò)的普米語語譜圖分類實驗中,分類準確率受學習率、激活函數(shù)、同一類訓練樣本與測試樣本比例等因素的影響,但通過模型的訓練,可找到適當?shù)膮?shù),對模型參數(shù)進行調(diào)整.相比于SVM和BP神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)的性能較好,對普米語孤立詞語譜圖的分類是有效的.通過實驗分析各項因素對分類準確率的影響,從而得到了適當?shù)膮?shù)并在訓練好的模型上進行普米語孤立詞語譜圖的分類實驗.

猜你喜歡
語譜語音準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
魔力語音
HR-DCGAN方法的帕金森聲紋樣本擴充及識別研究
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
高速公路車牌識別標識站準確率驗證法
基于時頻域特征的場景音頻研究
甘肃省| 和平区| 中山市| 岗巴县| 汝南县| 砀山县| 鄂伦春自治旗| 东光县| 嘉鱼县| 曲阳县| 聊城市| 丹江口市| 顺义区| 克什克腾旗| 栖霞市| 四会市| 蒙阴县| 枞阳县| 太谷县| 家居| 吉木乃县| 东丰县| 岢岚县| 康马县| 上蔡县| 海兴县| 萨嘎县| 如皋市| 什邡市| 拜泉县| 共和县| 新巴尔虎右旗| 香河县| 雷山县| 乌兰察布市| 荔浦县| 精河县| 松江区| 五大连池市| 南京市| 大港区|