国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于NMT的RS10-CLOUD工業(yè)軟件生產(chǎn)全過(guò)程的業(yè)務(wù)標(biāo)簽同步翻譯

2022-05-26 13:01:14楊英櫻喬運(yùn)華趙怡靜
制造業(yè)自動(dòng)化 2022年5期
關(guān)鍵詞:源語(yǔ)言目標(biāo)語(yǔ)言術(shù)語(yǔ)

楊英櫻,喬運(yùn)華,趙怡靜

(1.北京機(jī)械工業(yè)自動(dòng)化研究所,北京 100120;2.北京機(jī)械工業(yè)自動(dòng)化研究所有限公司,北京 100120)

0 引言

RS10-CLOUD快速開發(fā)平臺(tái)

RS10-CLOUD快速開發(fā)平臺(tái)(RS10-CLOUD DEVELOPMENT PLATFORM)隸屬于國(guó)家重大項(xiàng)目RS10-CLOUD云平臺(tái),是一個(gè)基于微服務(wù)開發(fā)的、容器化的前后臺(tái)代碼快速開發(fā)系統(tǒng),具有可持續(xù)集成、獨(dú)立服務(wù)部署、自帶授權(quán)頁(yè)面、獨(dú)立于業(yè)務(wù)邏輯等特點(diǎn)。

該平臺(tái)可以為用戶提供可視化的業(yè)務(wù)數(shù)據(jù)管理以及基于配置項(xiàng)的頁(yè)面數(shù)據(jù)綁定,為匹配業(yè)務(wù)系統(tǒng)通用模板的開發(fā)以及特殊業(yè)務(wù)的個(gè)性化定制開發(fā)提供了匹配的配置方式、并且可以根據(jù)配置信息自動(dòng)生成可供開發(fā)的代碼。實(shí)現(xiàn)了業(yè)務(wù)系統(tǒng)低代碼的開發(fā),減少大量重復(fù)性工作,為企業(yè)節(jié)約開發(fā)過(guò)程中的人力成本時(shí)間成本。

快速開發(fā)平臺(tái)的后臺(tái)工具首先通過(guò)服務(wù)器獲取前臺(tái)文件,后臺(tái)開發(fā)工具根據(jù)頁(yè)面配置調(diào)用自動(dòng)生成代碼服務(wù)后封裝代碼java文件存儲(chǔ)上傳到服務(wù)器中??焖匍_發(fā)平臺(tái)流程圖如圖1所示:

圖1

RS10-CLOUD中的業(yè)務(wù)標(biāo)簽維護(hù)

業(yè)務(wù)標(biāo)簽主要是對(duì)于數(shù)據(jù)表下字段的中文名稱,在不同的子系統(tǒng)下業(yè)務(wù)標(biāo)簽名是不同的。

在RS10-CLOUD快速開發(fā)平臺(tái)中的頁(yè)面業(yè)務(wù)標(biāo)簽維護(hù),實(shí)現(xiàn)了業(yè)務(wù)類數(shù)據(jù)標(biāo)簽的統(tǒng)一規(guī)范管理、并且維護(hù)后的所有頁(yè)面可及時(shí)動(dòng)態(tài)生效。本文訓(xùn)練翻譯模型旨在該滿足模塊的多語(yǔ)言翻譯功能,滿足該平臺(tái)智能化、高效率的特點(diǎn),不需要手動(dòng)輸入進(jìn)行維護(hù)翻譯,而是調(diào)用翻譯模型的接口進(jìn)行自動(dòng)翻譯,滿足不同語(yǔ)種的需求,更加國(guó)際化。

業(yè)務(wù)標(biāo)簽維護(hù)的邏輯流程圖如圖2所示。

圖2

針對(duì)中英的翻譯訓(xùn)練,本文將在下面詳細(xì)介紹幾種針基于NMT的對(duì)平行語(yǔ)料進(jìn)行處理的訓(xùn)練模型方法并且進(jìn)行對(duì)比分析。

1 神經(jīng)機(jī)器翻譯NMT

神經(jīng)機(jī)器翻譯NMT是一種不同于統(tǒng)計(jì)機(jī)器翻譯的方法,它是神經(jīng)網(wǎng)絡(luò)利用端到端的建模方式進(jìn)行翻譯的過(guò)程,具有捕獲長(zhǎng)距離依賴關(guān)系的能力。隨著2017年Transformer橫空出世后,NMT(Neural Machine Translation)領(lǐng)域得到了飛速的發(fā)展,注意力機(jī)制在NMT中起著至關(guān)重要的作用,因?yàn)樗砻鹘獯a器應(yīng)該關(guān)注哪些源詞,以便預(yù)測(cè)下一個(gè)目標(biāo)詞。

NMT仍然很大的發(fā)展空間,為了使訓(xùn)練的模型翻譯更加準(zhǔn)確,本文研究了將先驗(yàn)知識(shí)融合到NMT模型中,即給模型加入人為設(shè)計(jì)的先驗(yàn)信息會(huì)讓模型學(xué)習(xí)到一些關(guān)鍵的特征,主要是針對(duì)一些新詞術(shù)語(yǔ)的約束。

基于詞匯約束的NMT研究大致可分為硬約束和軟約束兩大類。

1.1 基于硬詞匯約束的NMT

硬約束通過(guò)修改解碼算法來(lái)確保所有約束都出現(xiàn)在輸出端中。

Hokamp和Liu[2017]引入了一種算法,用于強(qiáng)制某些單詞出現(xiàn)在輸出中,稱為網(wǎng)格波束搜索(GBS)。該算法在beam search的基礎(chǔ)上,beam擴(kuò)展到grid的形式,多了約束的維度,可以保證某個(gè)詞一定會(huì)出現(xiàn)在最終輸出序列中.但是因?yàn)樗慕獯a復(fù)雜度在約束數(shù)量上是線性的,這導(dǎo)致它的解碼速度非常慢且計(jì)算時(shí)復(fù)雜度高。因?yàn)榇蠖鄶?shù)解碼器會(huì)在模型加載時(shí)為了優(yōu)化計(jì)算圖形會(huì)指定波束大小,那每個(gè)句子的波束大小發(fā)生變化還會(huì)使增加吞吐量的波束搜索優(yōu)化變得復(fù)雜。

Post和Vilar[2018]提出了一種新的算法動(dòng)態(tài)波束分配(DBA)算法,他的算法復(fù)雜度是恒定的。通過(guò)約束訓(xùn)練或解碼方法調(diào)整NMT中的詞匯約束,將假設(shè)按滿足約束數(shù)量分組成bank,并在每個(gè)時(shí)間步將一個(gè)固定大小的波束(beam)動(dòng)態(tài)的分配到不同的bank,他不再將波束大小K乘以約束的數(shù)量C,這樣降低了計(jì)算復(fù)雜度,從而加快了GBS的速度。并且,該算法能夠容易地縮放并擴(kuò)展到使用例如BPE等技術(shù)處理產(chǎn)生的大詞或短語(yǔ)約束集。

這些硬約束的共同點(diǎn)是,它們以完全相同的形式將詞匯約束復(fù)制到輸出中,因此不適合使用噪聲約束進(jìn)行解碼。也就是說(shuō),如果使用一種形式作為解碼的硬約束,那么另一種形式就不會(huì)出現(xiàn)在句子的翻譯中,硬約束缺少了對(duì)于根元素多種形式形態(tài)自然語(yǔ)言現(xiàn)象的考慮。

1.2 基于軟詞匯約束的NMT

相比之下,軟約束并不確保所有約束都出現(xiàn)在翻譯后的輸出中。軟約束通過(guò)修改NMT模型或者訓(xùn)練過(guò)程來(lái)實(shí)現(xiàn)對(duì)于詞匯約束的翻譯。

Song等人(2019)根據(jù)雙語(yǔ)詞典,用目標(biāo)術(shù)語(yǔ)約束替換成對(duì)應(yīng)的源術(shù)語(yǔ),通過(guò)混合初始的平行語(yǔ)料庫(kù)和合成的平行語(yǔ)料庫(kù)來(lái)增加NMT的訓(xùn)練數(shù)據(jù)集。同時(shí),Dinu等人(2019)提出了類似的方法,將字典中對(duì)應(yīng)的目標(biāo)術(shù)語(yǔ)替換源術(shù)語(yǔ)或追加到源術(shù)語(yǔ)后,即使用ETA(exact target annotations)來(lái)修改源術(shù)語(yǔ)進(jìn)而準(zhǔn)備訓(xùn)練數(shù)據(jù)集。他們的方法都是只能做到有限的復(fù)制,在目標(biāo)語(yǔ)言與源語(yǔ)言語(yǔ)態(tài)形式等復(fù)雜的情況下表現(xiàn)得并不好。并且這兩種方法都是使用雙語(yǔ)詞典構(gòu)建訓(xùn)練數(shù)據(jù),因此其翻譯性能在很大程度上取決于雙語(yǔ)詞典的質(zhì)量。此外,當(dāng)術(shù)語(yǔ)約束沒有出現(xiàn)在雙語(yǔ)詞典中或?qū)?yīng)的源語(yǔ)言單詞不連續(xù)時(shí),推理模型就會(huì)失效。

在此基礎(chǔ)上,Bergmanis and Pinnis (2021)做了一些修改。他們不使用ETA(exact target annotations)的目標(biāo)術(shù)語(yǔ)來(lái)代替源術(shù)語(yǔ),而是用TLA(target language lemmas)來(lái)約束源術(shù)語(yǔ),這樣這些數(shù)據(jù)訓(xùn)練的模型不會(huì)像Song等人(2019)和Dinu等人(2019)那樣簡(jiǎn)單機(jī)械地學(xué)習(xí)復(fù)制詞匯的樣子,而是學(xué)習(xí)復(fù)制變化的行為過(guò)程,從而解決軟術(shù)語(yǔ)約束的需求和單詞輸出和上下文不一致的問(wèn)題。Jon and Paulo Aires等人(2021)也做了類似的工作,他們并沒有像Bergmanis and Pinnis(2021)那樣進(jìn)行源語(yǔ)言和目標(biāo)語(yǔ)言的詞對(duì)齊以及標(biāo)注動(dòng)詞和名詞,而是直接將進(jìn)行詞性還原的目標(biāo)詞連接到源語(yǔ)言的后面,通過(guò)這種方式,不但簡(jiǎn)化了訓(xùn)練數(shù)據(jù)的準(zhǔn)備工作,并且根據(jù)他們得到的實(shí)驗(yàn)結(jié)果這樣做對(duì)訓(xùn)練結(jié)果性能造成的影響微乎其微。

2 實(shí)驗(yàn)

為了保證訓(xùn)練效果可以包容更多復(fù)雜的詞匯形式,以及實(shí)驗(yàn)的可行性考慮,本文采用Jon and Paulo Aires等人(2021)的方法來(lái)進(jìn)行模型訓(xùn)練。

在Bergmanis和Pinnis(2021)以及Jon and Paulo Aires等人(2021)的實(shí)驗(yàn)中,為了減少對(duì)雙語(yǔ)詞典的依賴,他們都進(jìn)行了隨機(jī)提取子序列的實(shí)驗(yàn)。他們的隨機(jī)選擇策略不同,但本文經(jīng)過(guò)大量的實(shí)驗(yàn)數(shù)據(jù)計(jì)算,目標(biāo)詞被選中的概率趨于0.5左右。實(shí)驗(yàn)過(guò)程中我認(rèn)為這樣每個(gè)單詞被選中的概率有點(diǎn)大,所以本文改變了一下策略,在下文中會(huì)詳細(xì)介紹,本策略經(jīng)過(guò)大數(shù)據(jù)計(jì)算后每個(gè)詞被選中的概率為0.36。

2.1 實(shí)驗(yàn)預(yù)處理

1)配置相關(guān)環(huán)境,下載相關(guān)數(shù)據(jù):

下載雙語(yǔ)詞典;下載wiktionary詞典新詞術(shù)語(yǔ)庫(kù)和iate詞典新詞術(shù)語(yǔ)庫(kù)。

下載平行語(yǔ)料;從CSDN找的對(duì)齊的200w條英語(yǔ)和中文的平行語(yǔ)料庫(kù),一部分作為訓(xùn)練集,一部分作為測(cè)試集。其中80%作為訓(xùn)練集數(shù)據(jù),20%作為測(cè)試集的數(shù)據(jù)。

配置環(huán)境和參數(shù);根據(jù)openNMT模型的官方文檔,修改toy_en_de.yaml配置文件。

2)對(duì)平行語(yǔ)料源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行數(shù)據(jù)預(yù)處理,主要包括:

過(guò)濾處理;用正則表達(dá)式對(duì)下載的平行語(yǔ)料過(guò)濾,提取出干凈的語(yǔ)料內(nèi)容,去掉多余的空格以及一些特殊符號(hào),如:$%^*等。

分詞處理;用正則表達(dá)式對(duì)英文中的標(biāo)點(diǎn)符號(hào)進(jìn)行分詞處理,即將標(biāo)點(diǎn)符號(hào)單獨(dú)作為一個(gè)token處理。對(duì)中文采用jieba分詞對(duì)中文進(jìn)行處理。這樣做是為了增加模型的魯棒性,因?yàn)楝F(xiàn)實(shí)中輸入的平行語(yǔ)料是含有標(biāo)點(diǎn)符號(hào)的。

篩選處理;通過(guò)第二步的分詞處理后可以篩選出token大于10小于40的句子,這樣可以獲得比較干凈的平行語(yǔ)料,也能保證訓(xùn)練的效果更好。

2.2 模型訓(xùn)練

本文采用的是OpenNMT框架進(jìn)行訓(xùn)練,OpenNMT框架是一個(gè)開源的Torch神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),它的底層是Tensorflow。用到的是損失函數(shù)是Cross Entropy Loss,使用softmax函數(shù)將網(wǎng)絡(luò)的輸出轉(zhuǎn)化為概率值,即將輸出的結(jié)果進(jìn)行處理,使其多個(gè)分類的預(yù)測(cè)值和為1,再通過(guò)交叉熵來(lái)計(jì)算損失。

本實(shí)驗(yàn)訓(xùn)練了三個(gè)翻譯模型:

模型一(Baseline):沒有添加任何約束處理,直接用預(yù)處理后的平行語(yǔ)料進(jìn)行訓(xùn)練的模型,此模型作為基準(zhǔn)模型。

模型二(Dictionary):依賴雙語(yǔ)字典進(jìn)行約束的翻譯模型。根據(jù)雙語(yǔ)字典匹配同時(shí)在源語(yǔ)言和目標(biāo)語(yǔ)言都出現(xiàn)的token,如果匹配成功,則將對(duì)目標(biāo)語(yǔ)言中的token用python中的spacy庫(kù)進(jìn)行詞性還原,這與Jon and Paulo Aires等人(2021)中的方法略有不同,他們是先對(duì)平行語(yǔ)料和雙語(yǔ)字典進(jìn)行還原,然后再去匹配。匹配和還原的部分完成后,則將選中的術(shù)語(yǔ)約束詞與源語(yǔ)言對(duì)應(yīng)句子進(jìn)行連接,連接規(guī)則如下:如果作為該句的第一個(gè)約束則用<sep>進(jìn)行連接,如果不是第一個(gè)約束則用<c>進(jìn)行連接。將連接處理后的句子作為源語(yǔ)言與目標(biāo)語(yǔ)言形成平行語(yǔ)料,最后通過(guò)OpenNMT進(jìn)行訓(xùn)練。

模型三(Random):隨機(jī)選取目標(biāo)語(yǔ)言中的token作為約束,隨機(jī)選擇的策略如下:將第一個(gè)token被選中的概率設(shè)為0.2,后續(xù)的token依賴于上一個(gè)token是否被選中,如果沒被選中則后續(xù)token被選中的概率為0.56。將隨機(jī)選中的token進(jìn)行詞性還原,并與源語(yǔ)言對(duì)應(yīng)的句子進(jìn)行連接。連接規(guī)則同模型二:即如果作為該句的第一個(gè)約束則用<sep>進(jìn)行連接,如果不是第一個(gè)約束則用<c>進(jìn)行連接。第三個(gè)模型和第二個(gè)模型的主要區(qū)別在于選取約束不同,選取約束后的處理方式是相同的。最后將處理完的源語(yǔ)言和目標(biāo)語(yǔ)言合成平行語(yǔ)料,通過(guò)OpenNMT進(jìn)行訓(xùn)練得到第三個(gè)模型。

2.3 實(shí)驗(yàn)結(jié)果

通過(guò)moses對(duì)BLEU值進(jìn)行打分。BLEU 是IBM在2002年提出的機(jī)器翻譯評(píng)價(jià)指標(biāo),它的總體思想是比較候選譯文和參考譯文里的n-gram(其中n-gram指的是連續(xù)的單詞個(gè)數(shù)為n)重合程度,重合程度越高就認(rèn)為譯文質(zhì)量越高。選不同長(zhǎng)度的n-gram是因?yàn)?,BLEU-1的準(zhǔn)確率可以用于衡量單詞翻譯的準(zhǔn)確性,更高階的n-gram的準(zhǔn)確率可以用來(lái)衡量句子的流暢性。

訓(xùn)練出的翻譯模型結(jié)果如下圖所示:

從實(shí)驗(yàn)結(jié)果來(lái)看,依賴雙語(yǔ)詞典訓(xùn)練的翻譯模型效果更好,在Jon and Paulo Aires等人(2021)的論文中也可以看出來(lái),在newstest-2020的測(cè)試集中,無(wú)論測(cè)試集是否受到約束,是否進(jìn)行了詞性還原,依賴雙語(yǔ)字典進(jìn)行約束和隨機(jī)選擇子序列進(jìn)行約束的訓(xùn)練模型的BLEU值都優(yōu)于基準(zhǔn)模型。這與本文的實(shí)驗(yàn)結(jié)果一致。但是隨機(jī)選取術(shù)語(yǔ)的表現(xiàn)不夠好,可能與隨機(jī)選取token的策略有關(guān)。并且與不同語(yǔ)系之間的翻譯語(yǔ)法也有關(guān)系,他們是對(duì)英語(yǔ)(印歐語(yǔ)系)與捷克語(yǔ)(印歐語(yǔ)系)進(jìn)行的翻譯訓(xùn)練,而本文是對(duì)中文(屬于漢藏語(yǔ)系)到英文(印歐語(yǔ)系)進(jìn)行訓(xùn)練。

3 結(jié)語(yǔ)

本次實(shí)驗(yàn)訓(xùn)練出了中文到英文的翻譯模型,解決了RS10-CLOUD平臺(tái)模塊優(yōu)化的問(wèn)題,即實(shí)現(xiàn)工業(yè)管理軟件生產(chǎn)全過(guò)程的中業(yè)務(wù)標(biāo)簽同步自動(dòng)翻譯,有利于自主掌握研發(fā)數(shù)據(jù)減少外資企業(yè)注入,為工業(yè)產(chǎn)業(yè)的生產(chǎn)管理成本提供考量。

從實(shí)驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行分析來(lái)看效果不夠理想,尤其是針對(duì)產(chǎn)線專用、攜帶規(guī)格型號(hào)的物料翻譯效果有待提升。其原因可能為本次試驗(yàn)中下載的平行語(yǔ)料非工業(yè)專用術(shù)語(yǔ),現(xiàn)今工業(yè)領(lǐng)域的平行語(yǔ)料非常珍貴很難從網(wǎng)上下載到,后續(xù)會(huì)在研究過(guò)程中,參與到實(shí)際的工業(yè)軟件項(xiàng)目開發(fā)及測(cè)試生產(chǎn)過(guò)程中,以期用工業(yè)專用語(yǔ)料集獲得更收斂的結(jié)果,這樣訓(xùn)練模型會(huì)更加完善,并且給出最終模型訓(xùn)練效果,以便更好地應(yīng)用到RS10-CLOUD 快速開發(fā)平臺(tái)業(yè)務(wù)標(biāo)簽管理的支持多語(yǔ)言翻譯功能中。

猜你喜歡
源語(yǔ)言目標(biāo)語(yǔ)言術(shù)語(yǔ)
林巍《知識(shí)與智慧》英譯分析
淺析日語(yǔ)口譯譯員素質(zhì)
教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
速讀·下旬(2016年7期)2016-07-20 08:50:28
以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
考試周刊(2015年36期)2015-09-10 15:03:38
二語(yǔ)習(xí)得過(guò)程中的石化現(xiàn)象分析
概念任務(wù)下中英雙語(yǔ)者非目標(biāo)語(yǔ)言的詞匯通達(dá)
多媒體英語(yǔ)學(xué)習(xí)法
有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
中超| 阜阳市| 保亭| 咸丰县| 石家庄市| 新巴尔虎左旗| 高唐县| 乡宁县| 江川县| 修水县| 琼结县| 博野县| 桐乡市| 山东省| 天柱县| 陇西县| 奉新县| 西峡县| 湘潭市| 新沂市| 乌拉特前旗| 利津县| 岚皋县| 山阳县| 湘潭市| 射阳县| 嘉黎县| 弥渡县| 惠州市| 河间市| 广宁县| 淮安市| 曲松县| 高阳县| 阆中市| 阿图什市| 浦城县| 登封市| 铁力市| 上栗县| 丰镇市|