国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于AlexNet模型的佤語(yǔ)語(yǔ)譜圖識(shí)別

2019-07-31 09:28:24解雪琴和麗華潘文林
關(guān)鍵詞:語(yǔ)譜識(shí)別率交叉

王 翠,王 璐,解雪琴,和麗華,潘文林

(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)

語(yǔ)言和文字是一個(gè)民族的文化最重要的組成部分,在文化快速融合的時(shí)代,佤族的語(yǔ)言和文字面臨消亡的處境.佤族是跨境而居的民族,而佤語(yǔ)作為佤族唯一的溝通交流工具,佤語(yǔ)語(yǔ)音的識(shí)別研究對(duì)國(guó)家安全和跨邊境文化的交流有著重要的意義.中國(guó)語(yǔ)言資源保護(hù)工程(“語(yǔ)保工程”)錄制大量的少數(shù)民族語(yǔ)音語(yǔ)料,佤語(yǔ)雖作為“語(yǔ)保工程”的一部分,但其國(guó)際音標(biāo)人工標(biāo)注信息并沒(méi)有達(dá)到可信可用的程度,原因在于精確的標(biāo)注不僅困難而且昂貴.本文選用了“語(yǔ)保工程”中的佤語(yǔ)作為研究對(duì)象,針對(duì)標(biāo)注信息中出現(xiàn)的問(wèn)題,最終實(shí)現(xiàn)佤語(yǔ)國(guó)際音標(biāo)的自動(dòng)標(biāo)注及糾錯(cuò),該任務(wù)分2步完成:第1步實(shí)現(xiàn)佤語(yǔ)識(shí)別,第2步基于識(shí)別結(jié)果進(jìn)行國(guó)際音標(biāo)自動(dòng)標(biāo)注.本文為研究目標(biāo)的第1步.

佤語(yǔ)的主流研究方向有2個(gè):語(yǔ)音學(xué)、傳統(tǒng)的深度學(xué)習(xí).語(yǔ)音學(xué)對(duì)佤語(yǔ)語(yǔ)言本身的語(yǔ)言結(jié)構(gòu)進(jìn)行研究[1-4]:音系歸納整理和語(yǔ)音演變探究,從宏觀上為佤語(yǔ)的語(yǔ)音研究奠定了堅(jiān)實(shí)的基礎(chǔ),但是如何應(yīng)用科學(xué)實(shí)驗(yàn)的手段對(duì)佤語(yǔ)進(jìn)行識(shí)別研究的工作很少.傳統(tǒng)深度學(xué)習(xí)對(duì)佤語(yǔ)識(shí)別研究工作主要有:傅美君基于遺傳算法的支持向量機(jī)對(duì)佤語(yǔ)進(jìn)行分類[5-6],測(cè)試集在佤語(yǔ)音節(jié)分類的預(yù)測(cè)準(zhǔn)確率達(dá)到84.83%.佤語(yǔ)音節(jié)分類基于多核支持向量機(jī)對(duì)免疫遺傳進(jìn)行優(yōu)化,顯著的增強(qiáng)音節(jié)分類的準(zhǔn)確性.佤語(yǔ)語(yǔ)言動(dòng)態(tài)共振峰提取自適應(yīng)變分模式[7](AVWD)分解來(lái)研究佤語(yǔ)的共振峰特性與Praat軟件獲得的頻率相比得到86%的正確率.陳紹雄[8-9]基于HTK的佤語(yǔ)特定人和非特定人的孤立詞準(zhǔn)確率達(dá)到92%.主要應(yīng)用傳統(tǒng)的深度學(xué)習(xí)方法對(duì)佤語(yǔ)進(jìn)行識(shí)別研究,但實(shí)驗(yàn)結(jié)果的識(shí)別率還沒(méi)有達(dá)到可用的程度.

近年來(lái),主流語(yǔ)言應(yīng)用深度學(xué)習(xí)的語(yǔ)音識(shí)別產(chǎn)品已較為成熟:百度使用端到端的深度學(xué)習(xí)方法高效的識(shí)別英語(yǔ)或普通話[10];谷歌使用最先進(jìn)的序列到序列語(yǔ)音識(shí)別模型,使詞錯(cuò)誤率(WER)降到5.6%[11].而對(duì)少數(shù)民族語(yǔ)言語(yǔ)音識(shí)別的研究還較少,主要從語(yǔ)音信號(hào)和語(yǔ)譜圖兩個(gè)角度切入.語(yǔ)音信號(hào),主要的研究方法有隱馬爾科夫模型、深度置信網(wǎng)絡(luò)等.蔡琴[12]建立了維吾爾語(yǔ)的連續(xù)數(shù)字語(yǔ)音聲學(xué)模型,對(duì)維吾爾語(yǔ)連續(xù)數(shù)字短語(yǔ)識(shí)別率達(dá)到80%,詞識(shí)別率達(dá)到91.19%.胡文君[13]分別訓(xùn)練了5種不同的聲學(xué)模型: Monophone、Triphone1、Triphone2、O-SGMM、G-DNN,實(shí)驗(yàn)結(jié)果表明,隨著語(yǔ)料量的增加,系統(tǒng)魯棒性提高.語(yǔ)譜圖,宋洋[14]針對(duì)維吾爾語(yǔ)音素的語(yǔ)譜圖像提取二值和邊緣特征,建立基于數(shù)學(xué)形態(tài)學(xué)分析的概率函數(shù),應(yīng)用近似模式識(shí)別計(jì)算音素特征矩陣的相似度,在單音素環(huán)境下識(shí)別率達(dá)77.5%,在連續(xù)語(yǔ)流中音素識(shí)別率達(dá)64%;最后,在神經(jīng)網(wǎng)絡(luò)中對(duì)音素的語(yǔ)音學(xué)特征進(jìn)行分類,利用混沌矩陣給出分類的正確率約70%.由于主流語(yǔ)言應(yīng)用深度學(xué)習(xí)的語(yǔ)音識(shí)別產(chǎn)品已較為成熟,然而少數(shù)民族語(yǔ)音識(shí)別采用傳統(tǒng)的深度學(xué)習(xí)方法的識(shí)別率并沒(méi)達(dá)到可用的程度,所以本文采用深度學(xué)習(xí)方法對(duì)佤語(yǔ)語(yǔ)音識(shí)別進(jìn)行研究提高可用性.基于卷積神經(jīng)網(wǎng)絡(luò)在處理二維像素網(wǎng)格[15-16]、語(yǔ)義分類中的優(yōu)勢(shì)[17]、本文數(shù)據(jù)集的大小、網(wǎng)絡(luò)參數(shù)量等參數(shù)的綜合考量,選擇運(yùn)用卷積網(wǎng)絡(luò)的AlexNet模型對(duì)佤語(yǔ)語(yǔ)譜圖識(shí)別.

1 深度學(xué)習(xí)理論

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在處理圖片上有一定的優(yōu)勢(shì),并且可以用來(lái)處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù).CNN的稀疏交互、參數(shù)共享、等變表示等特性,可以有效降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目.對(duì)數(shù)據(jù)的平移、扭曲、縮放具有一定程度的不變性,易于網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練和優(yōu)化,使模型具有強(qiáng)魯棒性、強(qiáng)容錯(cuò)能力.卷積神經(jīng)網(wǎng)絡(luò)前端由多個(gè)卷積層、匯聚層組成,可以看作網(wǎng)絡(luò)的特征提取層.后端由多個(gè)全連接層組成,可以看作模式識(shí)別層.

卷積層用于提取圖片的特征,每層數(shù)據(jù)之間的正向傳播遵循非線性函數(shù),輸入變量記為x=(x1,x2, …,xn),層之間的連接權(quán)重記為w=(w1,w2, …,wn),偏置項(xiàng)記為b,則正向傳播函數(shù)為y=wx+b,因RELU激活函數(shù)具有單側(cè)抑制、相對(duì)寬闊的興奮邊界、稀疏激活性等優(yōu)勢(shì),所以卷積層和全連接層皆選用RELU激活函數(shù),激活后的輸出結(jié)果記為Y=RELU(y).RELU激活函數(shù)如(式1)所示.

(1)

匯聚層主要對(duì)卷積層得到的特征進(jìn)行選擇,由此不僅降低特征的數(shù)量而且減少參數(shù)的數(shù)量.最大匯聚層(max pooling)如(式2)所示,一般取匯聚區(qū)域的最大值.

(2)

對(duì)于多分類問(wèn)題,損失函數(shù)采用交叉熵(cross entropy)損失,以此讓預(yù)測(cè)分布q逼近真實(shí)分布p,如(式3)所示.

H(p,q)=-∑p(x)logq(x) .

(3)

反向傳播選用隨機(jī)梯度下降法(SGD),其中梯度估計(jì)可以表示成(式4)所示:

(4)

式中,m表示樣本個(gè)數(shù),x(i)表示第i個(gè)樣本,y(i)表示x(i)對(duì)應(yīng)目標(biāo),為學(xué)習(xí)率.

輸出層的分類選用Softmax函數(shù),如式5所示.

(5)

2 AlexNet模型

AlexNet[18-19]網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,整個(gè)網(wǎng)絡(luò)有8個(gè)需要訓(xùn)練參數(shù)的層(不包括匯聚層和局部響應(yīng)歸一化層——LRN層),前 5層為卷積層,其中3個(gè)卷積層后面連接最大匯聚層,后 3 層為全連接層.卷積層和匯聚層可以看作是從一般抽象到高級(jí)抽象的特征提取層,全連接層可以看作特征映射層,因此整個(gè)AlexNet表示為嵌套的層次概念體系.AlexNex最后一層是有1 860類輸出的Softmax層用作分類.LRN層出現(xiàn)在第1個(gè)及第2個(gè)卷積層后,而最大匯聚層出現(xiàn)在兩個(gè)LRN層及最后一個(gè)卷積層后.在這8個(gè)網(wǎng)絡(luò)層每一層的后面都應(yīng)用ReLU激活函數(shù).AlexNet模型流程如表1所示.

表1 Alxnet模型流程圖

續(xù)表1

結(jié)構(gòu)詳細(xì)參數(shù)卷積層4num(kernel) = 384, kernel = 3×3,strides = 1,channel = 384,padding=SAME卷積層5num(kernel) = 256, kernel = 3×3,strides = 1,channel = 384,padding=SAMELRN 3—匯聚層3Max pooling,ksize = 3×3,strides = 2,padding=VALID全連接層outputNum = 4096全連接層outputNum = 4096全連接層outputNum = 1000

表1中,kernel:卷積核大小,channel:通道數(shù),num(kernel):卷積核個(gè)數(shù),strides:移動(dòng)步長(zhǎng),padding:采樣方式,ksize:池化核大小,outputNum:全連接輸出神經(jīng)元個(gè)數(shù).LRN,即局部響應(yīng)歸一化層,LRN函數(shù)類似DROPOUT和數(shù)據(jù)增強(qiáng)作為RELU激勵(lì)之后防止數(shù)據(jù)過(guò)擬合而提出的一種處理方法.

3 實(shí)驗(yàn)

AlexNet用于佤語(yǔ)語(yǔ)譜圖識(shí)別流程,如圖1所示,具體步驟如下:

1) 選用佤語(yǔ)語(yǔ)音數(shù)據(jù)集作為研究對(duì)象,數(shù)據(jù)集中總計(jì)37 200條佤語(yǔ)孤立詞語(yǔ)音,37 200 =((2(女) + 2(男)) × 1 860(類)× 5(遍)).

2) 語(yǔ)譜圖可同時(shí)反應(yīng)語(yǔ)音信號(hào)的時(shí)頻域三維信息(時(shí)間、頻率、能量),且寬帶語(yǔ)譜圖具有較好的時(shí)間分辨率,但頻率分辨率較低,能給出語(yǔ)音的共振峰頻率及清輔音的能量匯集區(qū).計(jì)算37 200條語(yǔ)音信號(hào)的彩色寬帶語(yǔ)譜圖,語(yǔ)譜圖大小為640×480×3.以編號(hào)296佤語(yǔ)語(yǔ)音信號(hào)為例,其語(yǔ)譜圖如圖2所示.圖2中橫軸表示時(shí)間,縱軸表示頻率,顏色的深淺表示能量.

3) 以佤語(yǔ)孤立詞類別種類數(shù)作為標(biāo)簽,并對(duì)標(biāo)簽采用one-hot編碼.

4) 選用數(shù)據(jù)集中的60%作為訓(xùn)練集,剩余的40%作為測(cè)試集,網(wǎng)絡(luò)每訓(xùn)練一次,隨機(jī)從訓(xùn)練集中抓取一個(gè)批次的數(shù)據(jù)做交叉驗(yàn)證.

5) 將每個(gè)語(yǔ)譜圖及其對(duì)應(yīng)標(biāo)簽轉(zhuǎn)換成tensorflow可讀的文件形式(.tfrecords).

6) AlexNet模型參數(shù)設(shè)置:批次數(shù)150;網(wǎng)絡(luò)迭代次數(shù)2 200,每迭代100次顯示一次學(xué)習(xí)率及交叉驗(yàn)證率結(jié)果;為了有效的訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),采用學(xué)習(xí)率衰減,初始學(xué)習(xí)率α0=0.003,在第t(步長(zhǎng)為500)次迭代時(shí)的學(xué)習(xí)率如式(6)所示,網(wǎng)絡(luò)輸出神經(jīng)元個(gè)數(shù)1 860,

(6)

7) 實(shí)驗(yàn)結(jié)果如圖3所示,為了直觀的顯示佤語(yǔ)語(yǔ)譜圖識(shí)別過(guò)程中迭代次數(shù)、交叉驗(yàn)證準(zhǔn)確率和交叉驗(yàn)證損失之間的變化關(guān)系,將實(shí)驗(yàn)結(jié)果繪制成曲線圖.圖中橫坐標(biāo)表示迭代次數(shù),圖3(a)縱坐標(biāo)表示交叉驗(yàn)證準(zhǔn)確率,圖3(b)縱坐標(biāo)表示交叉損失.從圖中可以發(fā)現(xiàn),隨著迭代次數(shù)的增加,交叉驗(yàn)證準(zhǔn)確率逐漸提升,交叉驗(yàn)證損失逐漸降低,當(dāng)?shù)螖?shù)達(dá)到1 200時(shí),交叉驗(yàn)證準(zhǔn)確率波動(dòng)范圍<1%,基本趨于平穩(wěn)狀態(tài).基于該模型最終的實(shí)驗(yàn)準(zhǔn)確率可以達(dá)到97%.實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)譜圖的語(yǔ)音識(shí)別可以有效避免清輔音對(duì)實(shí)驗(yàn)的干擾,系統(tǒng)魯棒性強(qiáng),最終的訓(xùn)練準(zhǔn)確率為99.33%,測(cè)試準(zhǔn)確率為96%.

4 結(jié)語(yǔ)

語(yǔ)譜圖已經(jīng)將語(yǔ)音的所有特征表示在圖片上,無(wú)需考慮清、濁音的影響.本文使用傅里葉變換將圖片轉(zhuǎn)換為對(duì)應(yīng)的語(yǔ)譜圖.由于成熟的AlexNet模型處理圖片具有一定的優(yōu)勢(shì),所以選用AlexNet深度模型用于佤語(yǔ)語(yǔ)譜圖識(shí)別.該方法不僅可以有效避免語(yǔ)音信號(hào)中清輔音對(duì)識(shí)別結(jié)果的影響,還可通過(guò)表示學(xué)習(xí)的方式得到圖片更抽象的特征參數(shù).本文研究主要針對(duì)語(yǔ)譜圖的分類問(wèn)題,但對(duì)佤語(yǔ)的語(yǔ)音識(shí)別還未真正解決.在接下的工作中,本課題組會(huì)針對(duì)以上問(wèn)題,對(duì)模型作相應(yīng)更改,使用端到端模型實(shí)現(xiàn)佤語(yǔ)語(yǔ)音識(shí)別.

猜你喜歡
語(yǔ)譜識(shí)別率交叉
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
“六法”巧解分式方程
基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
基于時(shí)頻域特征的場(chǎng)景音頻研究
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別
連一連
高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
基于Fast-ICA的Wigner-Ville分布交叉項(xiàng)消除方法
太仓市| 桃江县| 永昌县| 科技| 横山县| 绥阳县| 安吉县| 惠州市| 西青区| 五莲县| 昆明市| 玉环县| 兰考县| 洪湖市| 米易县| 吴堡县| 莫力| 湟源县| 会宁县| 独山县| 博野县| 海晏县| 资源县| 龙海市| 锦州市| 顺义区| 白银市| 桂林市| 松溪县| 庆阳市| 连云港市| 五家渠市| 青岛市| 吉木萨尔县| 雷州市| 吴江市| 花垣县| 易门县| 东兰县| 永仁县| 淮滨县|