国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合單語語言模型的藏漢機(jī)器翻譯方法研究

2019-12-30 02:36:14慈禎嘉措桑杰端珠孫茂松色差甲周毛先
中文信息學(xué)報(bào) 2019年12期
關(guān)鍵詞:藏漢藏語解碼器

慈禎嘉措, 桑杰端珠,孫茂松,色差甲,周毛先

(1. 青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3. 清華大學(xué) 計(jì)算機(jī)系,北京 100084)

0 引言

早期的語言模型和機(jī)器翻譯方法受限于人工構(gòu)建的規(guī)則,由于語言的復(fù)雜性和多樣性,基于規(guī)則的方法需要構(gòu)建規(guī)模龐大的規(guī)則庫(kù)才能刻畫語言的特性,但規(guī)則庫(kù)的維護(hù)和復(fù)雜性又依賴于人類專家的經(jīng)驗(yàn)和知識(shí),無法對(duì)語言現(xiàn)象進(jìn)行完備的描述。為解決規(guī)則機(jī)器翻譯的缺陷和不足,基于統(tǒng)計(jì)的機(jī)器翻譯研究開始涌現(xiàn),其方法是通過大規(guī)模的標(biāo)注語料學(xué)習(xí)語言的基本特性,由于統(tǒng)計(jì)機(jī)器翻譯需要大規(guī)模的標(biāo)注數(shù)據(jù)會(huì)消耗大量的人力物力。目前,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯能夠較好地解決規(guī)則和統(tǒng)計(jì)方法存在的問題。與傳統(tǒng)方法相比,以Transformer為代表的神經(jīng)網(wǎng)絡(luò)方法對(duì)數(shù)據(jù)更加依賴,因?yàn)槠渚薮蟮木W(wǎng)絡(luò)參數(shù)空間需要用大規(guī)模數(shù)據(jù)進(jìn)行參數(shù)估計(jì),從而導(dǎo)致翻譯性能并不理想。

為了解決低資源下機(jī)器翻譯中存在的問題,2016年Zoph Barret等提出了一種遷移學(xué)習(xí)方法,其主要思想是先訓(xùn)練一個(gè)完備的機(jī)器翻譯系統(tǒng)模型,然后將這個(gè)模型的參數(shù)傳遞給低資源的機(jī)器翻譯模型,從而達(dá)到低資源模型參數(shù)的初始化和約束訓(xùn)練,這樣可以顯著提高低資源條件下機(jī)器翻譯的性能[1]。2017年Robert Ostling等利用向量間的依賴關(guān)系和單詞對(duì)齊來解決翻譯中的排序問題,并且證明了NMT也可用于低資源場(chǎng)景[2]。2018年Ebtesam H Almansor等提出了遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相融合的機(jī)器翻譯模型,用來解決低資源下阿拉伯語到英語的機(jī)器翻譯問題[3]。2018年Tao Feng等為了解決低資源下機(jī)器翻譯的性能問題,提出了兩種解決方法,第一種方法采用解碼器權(quán)重共享來增強(qiáng)低資源NMT系統(tǒng)的目標(biāo)語言模型,第二種方法應(yīng)用跨語言嵌入和源語言表示空間共享來加強(qiáng)低資源NMT編碼器[4]。

1 總體框架和相關(guān)理論

基于神經(jīng)網(wǎng)絡(luò)構(gòu)架的藏漢機(jī)器翻譯研究剛剛起步,特別是對(duì)低資源條件下的藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯相關(guān)研究很少。本文首先利用Transformer作為基線系統(tǒng)搭建藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),然后在編碼器中將源語言置空,也就是說編碼器只訓(xùn)練單語的語言模型,然后利用現(xiàn)有資源對(duì)解碼器中兩個(gè)語言(藏漢)之間的對(duì)應(yīng)關(guān)系進(jìn)行訓(xùn)練,通過加入不同規(guī)模的語料,對(duì)比和分析其實(shí)驗(yàn)結(jié)果,期望得到一個(gè)低資源條件下高效的藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)。

1.1 總體框架

以Transformer為主體框架,首先在編碼器端訓(xùn)練藏語單語語言模型,將其作為輸入;然后將藏語單語語言信息與編碼器端的預(yù)輸出進(jìn)行加權(quán)處理,使源語言與目標(biāo)語言產(chǎn)生映射關(guān)系,最終輸出目標(biāo)語言,如圖1所示。

圖1 總體框架

圖1中,LM表示編碼器端訓(xùn)練的藏語單語語言模型,?表示歸一化處理,LMT表示在解碼器端加入的藏語語言信息。

1.2 Transformer框架

2014年Ilya Sutskever等為了解決神經(jīng)網(wǎng)絡(luò)對(duì)序列任務(wù)不適用的問題,提出了一種端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯構(gòu)架[5]。這種構(gòu)架用一個(gè)多層的LSTM網(wǎng)絡(luò)將輸入序列映射(編碼)為一個(gè)固定大小維度的向量,再用另外一個(gè)多層的LSTM網(wǎng)絡(luò)來解碼該向量作為輸出序列[5]。同年,Bahdanau D等使用固定長(zhǎng)度向量提高編碼器—解碼器架構(gòu)性能,并且為了打破這種架構(gòu)的瓶頸,使用詞表的自動(dòng)對(duì)齊來擴(kuò)展模型的性能[6]。直到2017年,Google的Ashish Vaswani等提出了一種基于自注意力機(jī)制(self-attention)的模型構(gòu)架,這種構(gòu)架可以建模各種自然語言處理問題,并在多項(xiàng)任務(wù)中取得了最好成績(jī)。相較于利用RNN或者CNN作為編碼器—解碼器(encoder-decoder)的傳統(tǒng)的神經(jīng)機(jī)器翻譯,谷歌提出的基于attention的Transformer模型拋棄了傳統(tǒng)的構(gòu)架,并沒有用任何CNN或者RNN的結(jié)構(gòu)。該模型可以完全地進(jìn)行并行運(yùn)算,在提升翻譯性能的同時(shí)訓(xùn)練速度非???。Transformer模型構(gòu)架如圖2所示。

圖2 Transformer模型框架

從圖2可以看出,編碼器由多個(gè)相同的層堆疊在一起,每一層又有兩個(gè)支層,第一個(gè)支層是一個(gè)多頭的自注意力機(jī)制,第二個(gè)支層是一個(gè)簡(jiǎn)單的全連接前饋網(wǎng)絡(luò),解碼器和編碼器的結(jié)構(gòu)相似,但多了一個(gè)多頭注意力機(jī)制,如式(1)所示。

因?yàn)樵诰幋a器和解碼器中都沒有遞歸和卷積運(yùn)算,Transformer無法自然地利用序列中的位置信息,但是對(duì)于機(jī)器翻譯任務(wù),序列中的各個(gè)元素的位置是非常重要的。為解決這個(gè)問題,Transformer 使用了一個(gè)稱為位置編碼(positional encoding)的方法將每個(gè)元素的位置信息顯式地嵌入到網(wǎng)絡(luò)中,即編碼器的輸入為位置編碼向量加上(⊕)輸入序列的嵌入式表示。位置編碼的學(xué)習(xí)通過三角函數(shù)完成,如式(2)所示。

其中,pos代表序列中元素的位置,2i表示位置向量的維度;dmodel表示自注意力網(wǎng)絡(luò)的輸出維度。因?yàn)槿呛瘮?shù)具有周期性,對(duì)于固定長(zhǎng)度的偏差k,P(pos+k)可以表示為P)的線性函數(shù),使模型能夠很容易地學(xué)習(xí)序列中各個(gè)元素的相對(duì)位置關(guān)系信息[6-7]。

圖3 縮放點(diǎn)積注意力的計(jì)算示意圖

圖4 多頭注意力網(wǎng)絡(luò)示意圖

1.3 單語語言模型融合策略

本文使用Transformer構(gòu)架來對(duì)系統(tǒng)進(jìn)行實(shí)現(xiàn),在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中,總共有三個(gè)參數(shù)影響其翻譯性能,如式(4)所示。

式(4)中,yi表示i時(shí)刻生成的目標(biāo)語言,x表示源語言的輸入,y

如式(5)所示,翻譯的性能是由編碼器和解碼器共同決定的(乘積的關(guān)系),在低資源的藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中,解碼器的性能無法再次得到提升(因?yàn)樾枰笠?guī)模的平行語料),那么只能通過提高編碼器的性能來提升機(jī)器翻譯的性能,而在神經(jīng)網(wǎng)絡(luò)模型架構(gòu)中,整個(gè)訓(xùn)練過程是一個(gè)完整體,很難被打斷或者是分割,嵌入語言模型的難度也很大,在編碼端把源語言置空,只訓(xùn)練單語的語言模型,從而達(dá)到與嵌入單語語言模型相同的效果。

本文將藏語單語訓(xùn)練的語言模型作為編碼器一端,本質(zhì)上是刪除編碼端上下文向量Ci的信息,神經(jīng)網(wǎng)絡(luò)必須完全依賴于前一個(gè)網(wǎng)絡(luò)的輸出來預(yù)測(cè)下一個(gè)網(wǎng)絡(luò)的輸出,這就相當(dāng)于上下文信息被刪除。本文將這種設(shè)置看作是多任務(wù)學(xué)習(xí),當(dāng)源語言已知時(shí),這個(gè)任務(wù)就是藏漢機(jī)器翻譯,當(dāng)源語言未知時(shí),神經(jīng)網(wǎng)絡(luò)進(jìn)行藏語單語語言建模。在訓(xùn)練過程中,本文以1∶1的比例使用對(duì)齊語料和藏語單語語料進(jìn)行訓(xùn)練,并隨機(jī)打亂。在解碼器端,本文將上一時(shí)刻yt-1作為當(dāng)前時(shí)刻的輸入。同時(shí),藏語單語語言模型也在影響整個(gè)網(wǎng)絡(luò)的輸出,訓(xùn)練的翻譯模型生成的詞和語言模型所生成的詞重新加權(quán)排序,得到一個(gè)最優(yōu)的輸出,如圖5所示。

圖5 融合單語語言模型信息

在每步預(yù)測(cè)每個(gè)詞之前,將神經(jīng)網(wǎng)絡(luò)的解碼器的隱藏狀態(tài)stTM與藏語單語語言模型stLM進(jìn)行合并,控制器gt用于重新計(jì)算語言模型的權(quán)重。如式(6)所示。

本文首先將藏語單語語言模型與神經(jīng)網(wǎng)絡(luò)模型的解碼器進(jìn)行融合,使隱藏狀態(tài)串聯(lián)起來(圖5)。然后,在計(jì)算下一個(gè)單詞的輸出概率時(shí),對(duì)模型進(jìn)行微調(diào),使用這兩個(gè)模型的隱藏狀態(tài)(式(6))。與一般的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型不同,每個(gè)網(wǎng)絡(luò)輸出的隱藏層除了神經(jīng)網(wǎng)絡(luò)本來?yè)碛械慕獯a器、前一時(shí)刻的單詞之外,還將藏語單語語言模型的隱藏狀態(tài)作為輸入。其中,本文使用stTM和stLM分別表示神經(jīng)網(wǎng)絡(luò)解碼端和單語語言模型的隱藏狀態(tài)。在訓(xùn)練過程中,只更新用于參數(shù)化輸出的參數(shù),以確保藏語單語語言模型所學(xué)到的特性不會(huì)被覆蓋[9]。

2 實(shí)驗(yàn)分析

2.1 數(shù)據(jù)的來源(準(zhǔn)備)

本文總共收集400萬句藏語單語語料,其中單語語料中310萬為新聞?lì)I(lǐng)域的語料,40萬為法律領(lǐng)域語料,50萬為其他領(lǐng)域的語料;收集160萬句對(duì)為藏漢雙語平行語料,其中90萬為新聞?lì)I(lǐng)域語料,40萬為法律領(lǐng)域語料,30萬為其他語料。語料的整體結(jié)構(gòu)如表1所示。

表1 語料領(lǐng)域分布表

2.2 實(shí)驗(yàn)

深層融合方法(deep fusion)見式(6)與圖5,在訓(xùn)練過程中,只更新用于參數(shù)化輸出的參數(shù),以確保藏語單語語言模型所學(xué)到的語言特性不會(huì)被覆蓋。在融合過程中,本文將權(quán)值和標(biāo)準(zhǔn)差進(jìn)行了設(shè)置,在訓(xùn)練速率上,每10K訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行一次模型BLEU值的計(jì)算,直到模型性能不再提升為止。本文Transformer的參數(shù)設(shè)置如表2所示。

表2 模型參數(shù)設(shè)定

續(xù)表

各個(gè)模型的BLEU值如表3所示:

表3 各個(gè)模型BLEU值

2.3 分析

實(shí)驗(yàn)結(jié)果顯示,基線系統(tǒng)藏漢機(jī)器翻譯的BLEU值為21.1,漢藏機(jī)器翻譯的BLEU值為18.6,而融合藏語單語語言模型的機(jī)器翻譯系統(tǒng),藏漢機(jī)器翻譯的BLEU值為24.5,漢藏機(jī)器翻譯的BULE值為23.3,比原有的基線系統(tǒng)BLEU值分別提高了3.4和4.7 。BLEU實(shí)驗(yàn)結(jié)果表明,基于單語語言模型融合的藏漢(漢藏)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)比原有的基線系統(tǒng)更加有效。

3 總結(jié)與展望

本文以目前效率最高的Transformer為基線系統(tǒng),對(duì)藏漢(漢藏)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)進(jìn)行了實(shí)現(xiàn),首先對(duì)單語語言模型融合的機(jī)器翻譯系統(tǒng)進(jìn)行了實(shí)現(xiàn),將藏語單語訓(xùn)練的語言模型作為編碼器一端,以1∶1的比例使用對(duì)齊語料和藏語單語語料進(jìn)行訓(xùn)練,并把藏語單語語言模型與神經(jīng)網(wǎng)絡(luò)模型的解碼器進(jìn)行融合,將它們的隱藏狀態(tài)串聯(lián)起來,再計(jì)算下一個(gè)輸出的概率,對(duì)模型進(jìn)行微調(diào),實(shí)現(xiàn)了一個(gè)融合單語語言模型的藏漢(漢藏)機(jī)器翻譯系統(tǒng),最終的實(shí)驗(yàn)結(jié)果表明,單語語言模型融合策略可以有效地提高原有藏漢(漢藏)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的性能。

猜你喜歡
藏漢藏語解碼器
日常交際用語之藏漢對(duì)比分析
客聯(lián)(2022年4期)2022-07-06 05:46:23
藏漢孩子是一家
黃河之聲(2022年4期)2022-06-21 06:54:52
淺談藏語中的禮儀語
客聯(lián)(2022年2期)2022-04-29 22:05:07
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
漢藏語及其音樂
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
藏語拉達(dá)克話的幾個(gè)語音特征
西藏研究(2017年3期)2017-09-05 09:44:58
藏語地理分布格局的形成原因
西藏研究(2016年5期)2016-06-15 12:56:42
宁阳县| 和林格尔县| 会泽县| 临海市| 白朗县| 永仁县| 九江县| 花莲市| 海口市| 上饶市| 嘉峪关市| 沁阳市| 湖南省| 高要市| 黄梅县| 泗洪县| 云和县| 孝义市| 商洛市| 宾阳县| 永和县| 措勤县| 玉山县| 富平县| 吴川市| 阿拉善右旗| 交城县| 资中县| 林西县| 郸城县| 临夏市| 桐乡市| 芦溪县| 衡东县| 浦县| 茂名市| 竹溪县| 黄冈市| 江山市| 榆社县| 洛川县|