国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機制的大同方言語音翻譯模型研究

2020-04-29 14:26:50劉曉峰宋文愛余本國郇晉俠陳小東李志媛
關(guān)鍵詞:源語言解碼器編碼器

劉曉峰,宋文愛,余本國,郇晉俠,陳小東,李志媛

(中北大學(xué) 軟件學(xué)院,山西 太原 030051)

0 引 言

中國幅員遼闊,有著傳承千年的文化,豐富而多元,方言種類更是多種多樣. 在眾多的地方方言中,山西方言的種類尤其多,是名副其實的十里方言不一樣. 大同市地處山西省最北部,且其地方方言屬于晉語的“大包片”,與普通話有較大的區(qū)別. 大同方言包含21個聲母,36個韻母,5個聲調(diào),聲調(diào)分為陰平、 陽平、 上聲、 去聲、 入聲[1],相比于普通話多出了“入聲”聲調(diào),入聲是古漢語的四聲之一,其讀音短促,一發(fā)即收,在現(xiàn)代普通話中已經(jīng)消失,而在大同方言中,入聲卻是常見的發(fā)音現(xiàn)象[2]. 除此之外,大同方言還包括一些其他的發(fā)音特點,比如: 平舌音與翹舌音不加區(qū)分,韻母變化,后鼻音代替前鼻音等. 當(dāng)?shù)啬切┠昙o(jì)較大的人們在年輕的時候并沒有系統(tǒng)地學(xué)習(xí)過普通話的發(fā)音,也不了解普通話與大同方言之間的一些語法差別,所以與外地人交流時存在較大的困難[3]. 因此,大同方言語音轉(zhuǎn)為普通話的任務(wù)亟待完成.

一般來說,大同方言語音轉(zhuǎn)普通話的任務(wù)可歸類為語音翻譯(Speech Translation)任務(wù),傳統(tǒng)的語音翻譯任務(wù)是通過將源語言上訓(xùn)練的語音識別系統(tǒng)和在目標(biāo)語言上訓(xùn)練翻譯文本的機器翻譯系統(tǒng)之間建立聯(lián)系來完成的,這種級聯(lián)的模型會相互影響,降低翻譯正確率. 2016年,Bérard等人嘗試構(gòu)建了一個端到端語音到文本的翻譯系統(tǒng),實驗證明該方法可以很好地推廣到一個新的語言的語音翻譯系統(tǒng)的構(gòu)建中[4]. 2017年,Weiss、 Chorowski等人構(gòu)建的端到端的語音翻譯模型在訓(xùn)練時直接運用輸入語音對應(yīng)的目標(biāo)語言文本對輸出序列進行監(jiān)督,免去了對源語言的語言標(biāo)準(zhǔn)的依賴,其模型結(jié)構(gòu)與端到端的語音識別模型大致相同,非常適合兩種語言之間語音到文本的轉(zhuǎn)換[5].

訓(xùn)練大同方言語音識別系統(tǒng)的必備條件是利用一套完整的、 系統(tǒng)的大同方言語言標(biāo)準(zhǔn)訓(xùn)練得到一個較為完備的大同方言語言模型來指導(dǎo)系統(tǒng)輸出正確結(jié)果,但由于方言的低資源性,制定語言標(biāo)準(zhǔn)非常困難. 針對此問題,本文提出了一種結(jié)合注意力機制(Attention)的端到端大同方言語音翻譯模型,在該模型的內(nèi)部,語音信號特征將被映射成為一個較高維度的向量,直接與中文普通話文本建立聯(lián)系,基于此模型結(jié)構(gòu),大同方言語音轉(zhuǎn)為普通話文本的任務(wù)便能夠擺脫制定大同方言語言標(biāo)準(zhǔn)的麻煩,相對而言,端到端的語音翻譯模型也比傳統(tǒng)語音翻譯模型的復(fù)雜性更低,翻譯準(zhǔn)確度更高. 與此同時,對大同方言的語音翻譯的研究也旨在克服大同人與外地人的交流障礙,促進交流與發(fā)展.

1 “編碼器-解碼器”模型與注意力機制(Attention)

2014年,Cho等人[6]提出了編碼器-解碼器模型,這種模型也被稱為“seq2seq (序列到序列) ”模型,他們把用此模型計算出的短語對的條件概率作為已有對數(shù)線性模型的一個附加特征,對機器翻譯系統(tǒng)的性能進行了改進,并通過實驗證明了該模型在完成機器翻譯這種輸入輸出都是不定長序列的任務(wù)中有著良好的效果[6].

“編碼器-解碼器”模型由編碼器和解碼器兩部組成,編碼器的作用是將輸入序列x=(xi|i=1,2,…,I)映射成為該序列對應(yīng)的隱含特征狀態(tài)h=(hi|i=1,2,…,I),并將整個輸入序列的隱藏狀態(tài)通過q函數(shù)匯總到上下文背景向量c,大部分編碼器是由一個多層感知器實現(xiàn)的,由于序列到序列模型需要考慮相鄰時刻的狀態(tài)對當(dāng)前時刻狀態(tài)的影響,所以編碼器大都由循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)來實現(xiàn),但是傳統(tǒng)的RNN存在梯度爆炸和梯度消失等問題,所以在編碼器中通常采用長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)代替了RNN.

c=q(h1,h2,…,hi).

(1)

解碼器通常也是使用RNN來實現(xiàn)的,它要求每一時刻的輸出y=(yo|o=1,2,…,O)同時由前一時刻的輸出yo-1和上下文背景向量c決定,即

(2)

其中

P(yo|y1,y2,…,yo-1,c)=g(yo-1,so,c),

(3)

so=f(so-1,yo-1,c),

(4)

式中:so為對應(yīng)于輸出序列yo的隱含狀態(tài).f為一個使用重置門作為激活函數(shù)的全連接層計算,g可理解為一個由Maxout層和Softmax層組成的多層感知器. 最后通過最小化P(y|x)的負(fù)對數(shù)似然來得到最佳結(jié)果

(5)

式中:L為用于組合對應(yīng)于x中每個元素標(biāo)簽的所有字符集合. 以上是“編碼器-解碼器”模型的實現(xiàn)原理,Attention模型在“編碼器-解碼器”模型的基礎(chǔ)上對c做了一些修改,在Attention模型中,c不再是一個固定的向量,而是對應(yīng)于不同時刻輸入序列的上下文背景向量集c=(co|o=1,2,…,O),co在此表示為

(6)

由co的定義可知,αo,i表示輸入序列i時刻隱含狀態(tài)的權(quán)重,即i時刻輸入對輸出的影響程度,模型在此便體現(xiàn)了“Attention”思想.αo,i利用Softmax函數(shù)輸出得到:

(7)

其中

eo.i=a(so-1,hi).

(8)

式中:eo,i為輸出序列(so-1)前一時刻的隱含狀態(tài)與當(dāng)前時刻輸入序列的隱含狀態(tài)(hi)建立聯(lián)系后的結(jié)果,通過一個多層感知器a計算得到.

這樣,Attention模型的結(jié)果可表示為

最后可通過最小化P(y│x)的負(fù)對數(shù)似然來得到最佳結(jié)果

(10)

“編碼器-解碼器”模型與注意力機制尤其擅長完成機器翻譯和語音識別這種“序列到序列”模型的任務(wù),2014年,Bahdana和Cho等人首先將注意力機制加入到機器翻譯的研究中,使機器翻譯的準(zhǔn)確率有了大幅提升[7]; 同年,Chorowski等人將Attention模型應(yīng)用于語音識別,并在TIMIT數(shù)據(jù)集上做了實驗,證明該模型較其他早期的語音識別模型有相對較高的識別率[8].

2 端到端的大同方言語音翻譯模型

基于Attention的端到端模型分別在機器翻譯和語音識別研究領(lǐng)域有著良好的表現(xiàn),而語音翻譯模型類似于基于Attention的語音識別模型,區(qū)別是在編碼器中輸入的是源語言的音頻數(shù)據(jù),解碼器的輸出域是目標(biāo)語言的字符集.

方言與普通話在語調(diào)、 語序等方面有較大的差異,且兩種語言一般情況下難以正常交流,所以方言與普通話在某種程度上可歸類于兩種不同的語言. 因此,將方言語音轉(zhuǎn)換為普通話文本的任務(wù)便可以使用語音翻譯技術(shù)來完成.

按照傳統(tǒng)的方法,語音翻譯這個任務(wù)是通過流水線操作完成的,即在一個使用源語言語料數(shù)據(jù)訓(xùn)練好的語音識別系統(tǒng)后連接一個機器翻譯系統(tǒng),語音識別系統(tǒng)負(fù)責(zé)將源語言音頻轉(zhuǎn)化為源語言文本,機器翻譯系統(tǒng)負(fù)責(zé)將語音識別系統(tǒng)輸出的源語言文本翻譯成目標(biāo)語言文本. 單獨訓(xùn)練的語音識別和機器翻譯模型可能在單獨工作時表現(xiàn)良好,而在兩者協(xié)同工作時效果卻不好,因為語音識別系統(tǒng)并不能保證百分之百的輸出正確率,輸出序列可能會伴有“插入” “刪除” “替換”等錯誤,在其后連接的機器翻譯系統(tǒng)很有可能接收到伴有這些錯誤的語音識別結(jié)果,從而影響翻譯結(jié)果. 不僅如此,在源語言沒有系統(tǒng)標(biāo)注規(guī)則或官方語言標(biāo)準(zhǔn)等極端的情況下,要想訓(xùn)練單獨的語音識別系統(tǒng)就必須要先制訂一套完整的、 系統(tǒng)的語言標(biāo)準(zhǔn),僅僅這項工作就將會耗費大量的資源[2].

seq2seq這種端到端模型能夠精確地模擬非常復(fù)雜的概率分布,它足以強大到將一種語言的音頻直接翻譯成另一種語言的文本,即在訓(xùn)練時,音頻使用一種語言,而文本標(biāo)注使用另一種語言,因為音頻與文本符號之間并沒有固有的聯(lián)系,所以將音頻抽象為高維特征向量后,可以通過神經(jīng)網(wǎng)絡(luò)映射到任意一種文本符號,且在實際應(yīng)用期間,端到端模型相比于兩個獨立系統(tǒng)的級聯(lián)模型延遲更低.

2.1 特征提取

語音處理的一個重要步驟是用各種特征來表征音頻信號,其中梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)特征系數(shù)的提取過程更符合人耳的聽覺特性,因此在語音處理領(lǐng)域被廣泛使用. 圖1 描述了音頻特征提取過程.

圖1 音頻特征提取過程Fig.1 The process of audio feature extraction

2.2 編碼過程

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)在語音識別領(lǐng)域有著廣泛應(yīng)用,在處理音頻頻譜時可有效對聲學(xué)模型進行建模,同時也可以減少后續(xù)層的計算量,從而減少建模時間成本[9],所以在建模時首先為編碼器設(shè)置了兩層卷積層來提取數(shù)據(jù)特征,并用ReLU函數(shù)激活,每層卷積層后加了池化層[10],隨后將卷積層的輸出向量層層傳遞至后續(xù)四層雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, BLSTM),最終編碼器輸出上下文背景向量co,co中包含編碼器生成的Attention概率αo,i,起到對齊音頻與字符的作用,如圖2 所示,縱坐標(biāo)為目標(biāo)字符,橫坐標(biāo)為輸入的音頻特征,對于一段音頻,其每一幀都有一定概率對應(yīng)某些字符,顏色越深,概率越大. 雖然方言與普通話的聲調(diào)、 發(fā)音以及同一事物的表達方式都不盡相同,但是因為方言與普通話的語序大致相同,所以在方言語音翻譯模型的Attention概率圖中,音頻特征與目標(biāo)字符基本呈順序?qū)?yīng)的狀態(tài).

圖2 語音翻譯模型的Attention概率圖Fig.2 Attention probability map of speech translation model

2.3 解碼過程

將預(yù)先初始化后的yo-1和so-1與co連接,一起輸入至解碼器網(wǎng)絡(luò)來預(yù)測當(dāng)前時刻的輸出字符,解碼器由兩層LSTM組成,最后接一層Softmax層來預(yù)測輸出字符集中每個符號的概率,之后可利用波束搜索算法進行解碼,得到輸出序列,整個模型的訓(xùn)練過程如圖3 所示.

圖3 基于Attention的語音翻譯模型訓(xùn)練過程Fig.3 Attention-based speech translation model training process

3 實 驗

3.1 實驗數(shù)據(jù)

實驗時使用先期收集到的大同方言語音語料數(shù)據(jù),其中包含朗讀語音和自然語音,在參考了一些中文語音語料庫的建庫方法之后,對這些語音數(shù)據(jù)做了數(shù)據(jù)清洗、 標(biāo)注、 加工等工作,標(biāo)注時分別為大同方言音頻數(shù)據(jù)標(biāo)注了普通話的拼音和大同方言的拼音,將其建立成為大同方言語音語料庫[11-13],語音時長總計12 h 21 min 13 s,共8 894條,在訓(xùn)練基于Attention的語音翻譯模型時可直接使用語料庫里的數(shù)據(jù).

表1 大同方言語音數(shù)據(jù)集

3.2 編碼器解碼器層數(shù)實驗

雙語評估替換(Bilingual Evaluation Understudy, BLEU), 是2002年P(guān)apineni等人提出的比較候選文本翻譯與其他一個或多個參考翻譯的評價分?jǐn)?shù),可用于翻譯文本質(zhì)量評估[14].

在機器翻譯模型中,編碼器通常是由比較深層的RNN構(gòu)成,因為模型的輸入序列和輸出序列是兩種不同的語言,所以編碼器要將輸入序列映射成為一個使解碼器更加容易“理解”的特征向量. 由于端到端語音翻譯模型直接使用帶有普通話標(biāo)注的大同方言語音數(shù)據(jù)對模型進行訓(xùn)練,而大同方言與普通話在某種程度上屬于兩種不同的語言,語序和語法有一些差異,所以編碼器應(yīng)該采用較深層次的RNN. 如圖4 所示,在實驗時發(fā)現(xiàn),保持解碼器網(wǎng)絡(luò)層數(shù)不變,編碼器中BLSTM層數(shù)在增加到四層以后,模型性能不再有大幅度提升,綜合考慮訓(xùn)練的時間成本,將編碼器中BLSTM的層數(shù)固定為4層較為合理.

圖4 編碼器中BLSTM層數(shù)對BLEU分?jǐn)?shù)的影響Fig.4 The effect of the number of BLSTM layers on the BLEU score in the encoder

應(yīng)用于語音識別中的Attention模型通常使用層數(shù)比較少的解碼器,因為在一般情況下,語音識別任務(wù)中的音頻和標(biāo)注文本的語序是基本一致的,而在翻譯任務(wù)中,輸入序列和輸出序列的語序卻是不同的,同時解碼器是為了解決更為復(fù)雜的詞匯關(guān)聯(lián)問題,所以需要更深層次的解碼器網(wǎng)絡(luò),但是大同方言與普通話同屬中文語系,二者的語序在大部分情況下是一致的,所以理論上不需要設(shè)置更加深層次的解碼器網(wǎng)絡(luò),實驗結(jié)果也證明了這一觀點,如圖5 所示.

圖5 解碼器中LSTM層數(shù)對BLEU分?jǐn)?shù)的影響Fig.5 Effect of the number of LSTM layers on the BLEU score in the decoder

3.3 語音翻譯模型BLEU分?jǐn)?shù)對比實驗

傳統(tǒng)的語音翻譯方法是由語音識別(Automatic Speech Recognition, ASR)與機器翻譯(Machine Translation, MT)級聯(lián)模型來實現(xiàn)的. 級聯(lián)模型中的語音識別模塊分別可使用以下三個模型: 深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型[15](Deep Neural Networks-Hidden Markov Model, DNN-HMM)、 雙向長短時記憶網(wǎng)絡(luò)-連接時序分類模型[16-17](Bi-directional Long Short-Term Memory - Connectionist Temporal Classification, BLSTM-CTC)和基于Attention的語音識別模型[8]. 實驗利用大同方言語音數(shù)據(jù)集對各模型進行評估,結(jié)果表明,基于Attention的語音識別模型在驗證集和測試集的表現(xiàn)更好,詞錯誤率(Word Error Rate, WER)更低,結(jié)果如表2 所示.

表2 級聯(lián)模型中語音識別模塊WER對比實驗

完成語音識別模塊的選取之后,利用大同方言語音數(shù)據(jù)集中包含的方言文本和與之對應(yīng)普通話文本,訓(xùn)練并測試了基于Attention的機器翻譯模塊,并將其應(yīng)用于級聯(lián)模型中作為基線模型,與端到端的語音翻譯模型的性能進行對比.

在實驗中發(fā)現(xiàn),級聯(lián)系統(tǒng)中通常會因為語音識別結(jié)果的不準(zhǔn)確而增加了機器翻譯結(jié)果的錯誤率,這是級聯(lián)系統(tǒng)的一個致命缺陷,反觀端到端的語音翻譯方法,編碼器首先將語音信號映射為高維的潛在向量,解碼器再擬合這些向量,輸出每段語音對應(yīng)的文本符號的概率,最后通過波束搜索算法得到最終輸出文本序列,期間并沒有利用到源語言的轉(zhuǎn)錄文本,也排除了多個系統(tǒng)不能很好地協(xié)同工作的問題.

這些模型都用大同方言語音數(shù)據(jù)集進行訓(xùn)練,實驗對比了級聯(lián)模型與端到端模型在驗證集與測試集上的BLEU分?jǐn)?shù)表現(xiàn),結(jié)果如表3 所示.

表3 語音翻譯模型的BLEU分?jǐn)?shù)對比

4 結(jié)論與展望

基于Attention的端到端語音翻譯模型與基于Attention的語音識別系統(tǒng)具有相似的模型,可以將一種語言的語音直接翻譯成另一種語言的文本,這種端到端的語音翻譯模型首先將語音信號通過編碼器映射成一個高維的向量表示,解碼時使用目標(biāo)語言標(biāo)簽對整個模型進行有監(jiān)督訓(xùn)練,輸出每個字符的標(biāo)簽概率,最后通過波束搜索算法得到最終輸出序列. 總而言之,編碼器和解碼器這兩個子網(wǎng)絡(luò)交換的信息是抽象的高維實值向量.

此外,端到端的語音翻譯模型較ASR和MT級聯(lián)模型有著更低的延遲,有效節(jié)約了時間成本,在大同方言語音數(shù)據(jù)集上的BLEU分?jǐn)?shù)表現(xiàn)也有了部分提升,說明端到端的語音翻譯技術(shù)更加適合完成方言語音轉(zhuǎn)普通話文本的任務(wù).

我國方言種類繁多,且編制一份系統(tǒng)的方言語言標(biāo)準(zhǔn)便是一項重大的工程,而語音翻譯技術(shù)在整個翻譯過程中沒有使用源語言的轉(zhuǎn)錄文本對訓(xùn)練進行監(jiān)督,對于沒有標(biāo)準(zhǔn)化語言體系的語言具有良好的適應(yīng)性,使研究人員的工作量大大減少,所以語音翻譯技術(shù)有著極大的研究意義,在今后的工作中,應(yīng)繼續(xù)加強模型的研究,在不斷的實踐中提升模型性能.

猜你喜歡
源語言解碼器編碼器
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
林巍《知識與智慧》英譯分析
淺析日語口譯譯員素質(zhì)
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計
跨文化視角下對具有修辭手法諺語英譯漢的研究
速讀·下旬(2016年7期)2016-07-20 08:50:28
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
时尚| 平顺县| 呼玛县| 黎平县| 竹山县| 东安县| 漳州市| 宜兰县| 深圳市| 苗栗市| 锡林浩特市| 友谊县| 普兰县| 和田市| 凌源市| 沈丘县| 汉阴县| 庆阳市| 襄垣县| 明星| 平山县| 杨浦区| 藁城市| 白河县| 龙门县| 苏州市| 绥德县| 济宁市| 顺昌县| 股票| 临邑县| 清水河县| 都江堰市| 宁津县| 大厂| 十堰市| 卓尼县| 容城县| 乌拉特中旗| 崇义县| 长沙市|