機(jī)器翻譯技術(shù)的研究和發(fā)展

2018-12-21 03:47王子航

電子制作 2018年22期

王子航

（武漢鋼鐵公司第三子弟中學(xué)，湖北武漢，430000）

0 前言

隨著人工智能技術(shù)的不斷發(fā)展，圖像處理、內(nèi)容推薦、自然語(yǔ)言處理等作為其主要的應(yīng)用方向也隨之加速迭代發(fā)展。相比于其他應(yīng)用方向，自然語(yǔ)言處理發(fā)展還不夠完善，仍有較大的進(jìn)步空間。機(jī)器翻譯技術(shù)作為自然語(yǔ)言處理中的一個(gè)重要分支，早在上個(gè)世紀(jì)四十年代就被提出，而后二十年間，在大量人力物力的促進(jìn)推動(dòng)下，取得了一定的發(fā)展，但是受限于當(dāng)時(shí)計(jì)算機(jī)技術(shù)等諸多條件，未能取得實(shí)質(zhì)性的突破，機(jī)器翻譯也隨之陷入了沉寂[1]。近些年來，人工智能技術(shù)的發(fā)展、語(yǔ)言理論的進(jìn)步以及統(tǒng)計(jì)學(xué)在翻譯技術(shù)中的廣泛應(yīng)用，加上計(jì)算機(jī)硬件以摩爾定律的速度飛速發(fā)展，已經(jīng)可以支撐海量數(shù)據(jù)的存儲(chǔ)和計(jì)算，這些條件使得人們對(duì)機(jī)器翻譯技術(shù)本身有了更完備的認(rèn)知，新一代的處理方法在此背景之下取得了長(zhǎng)足的發(fā)展。

本文首先將從整體的角度介紹典型的機(jī)器翻譯技術(shù)的分類，然后從人工智能和機(jī)器翻譯結(jié)合的角度出發(fā)，分別介紹機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在機(jī)器翻譯中的結(jié)合方式和應(yīng)用方法。最后對(duì)當(dāng)前翻譯技術(shù)存在的限制和問題作出總結(jié)合展望。

1 典型機(jī)器翻譯技術(shù)

機(jī)器翻譯技術(shù)的目的是為了節(jié)省人力資源，使機(jī)器能夠最大限度的替代人們重復(fù)的工作。它建立在諸多復(fù)雜的學(xué)科之上，如語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息論等等。如此紛繁復(fù)雜的體系難以迅速形成一套行之有效的解決方案[2]。在機(jī)器翻譯的理論早期，研究的主流是基于規(guī)則的機(jī)器翻譯技術(shù)，而后隨著概率統(tǒng)計(jì)學(xué)的引入，機(jī)器翻譯達(dá)到了新的高度。接下來，本文將對(duì)基于規(guī)則和基于統(tǒng)計(jì)兩個(gè)研究方向作以介紹。

■1.1 基于規(guī)則的機(jī)器翻譯技術(shù)

在上個(gè)世紀(jì)機(jī)器翻譯技術(shù)剛剛提出時(shí)，人們對(duì)語(yǔ)言的認(rèn)知局限于在有限的規(guī)則集內(nèi)形成的一套體系。尤其在Chomsky提出的短語(yǔ)結(jié)構(gòu)語(yǔ)法，給出了“從規(guī)則生成句子“的原則以后，基于規(guī)則的機(jī)器翻譯技術(shù)確立了其在當(dāng)時(shí)的機(jī)器翻譯技術(shù)中的主流地位。

基于規(guī)則的機(jī)器翻譯技術(shù)的指導(dǎo)思想是：語(yǔ)言的規(guī)則是無限的，而語(yǔ)言都是可以由這些無限的規(guī)則推導(dǎo)而來的。而后在基于規(guī)則的思想指導(dǎo)下，產(chǎn)生了三種主流的規(guī)則翻譯方法，分別是直譯式、轉(zhuǎn)換式和中間語(yǔ)言式。其中直譯式比較簡(jiǎn)單，通過分析源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)應(yīng)關(guān)系，直接進(jìn)行轉(zhuǎn)換，而后對(duì)目標(biāo)語(yǔ)言進(jìn)行符合目標(biāo)規(guī)則的重新排列；轉(zhuǎn)換式不僅考慮到兩種語(yǔ)言在單純意義上的對(duì)應(yīng)，也考慮到了句子文法結(jié)構(gòu)上的對(duì)應(yīng)，從詞法、語(yǔ)法、語(yǔ)義等層層遞進(jìn)的分析句子的含義，它對(duì)語(yǔ)言的規(guī)則挖掘的更深、更完善，因此一般能取得比直譯式更加好的效果；中間語(yǔ)言方法采用了一種折衷的方法，既考慮句子的多層次意義，又盡量忽略語(yǔ)言上復(fù)雜的結(jié)構(gòu)關(guān)系，創(chuàng)造一種相對(duì)簡(jiǎn)單的中間語(yǔ)言作為翻譯的過渡，先講源語(yǔ)言映射到中間語(yǔ)言相對(duì)簡(jiǎn)單的結(jié)構(gòu)上，然后在通過中間語(yǔ)言進(jìn)行翻譯。綜上三種基于規(guī)則的方法都要求有兩種語(yǔ)言的對(duì)應(yīng)語(yǔ)料，并且對(duì)預(yù)料在詞義和結(jié)構(gòu)上的對(duì)應(yīng)度要求都比較高，否則對(duì)結(jié)果有很大的影響。此外，基于規(guī)則的翻譯技術(shù)也有著明顯的優(yōu)點(diǎn)，翻譯的過程是可解釋的，并且規(guī)則和語(yǔ)義都是可較為直觀的表述的，這對(duì)人們更好的控制翻譯過程有著很大的幫助。

■1.2 基于統(tǒng)計(jì)的機(jī)器翻譯技術(shù)

語(yǔ)言本身是非常復(fù)雜的，縱然假設(shè)無限的規(guī)則是可以完美表述語(yǔ)言本身，但是資源是有限的，無法總結(jié)并表達(dá)出無限的規(guī)則，也因此，基于規(guī)則的機(jī)器翻譯一直都無法達(dá)到理想的效果，更無法實(shí)現(xiàn)產(chǎn)業(yè)化。而隨著統(tǒng)計(jì)學(xué)、信息論的發(fā)展，研究的方向逐漸向統(tǒng)計(jì)學(xué)靠攏。一方面是因?yàn)榇鎯?chǔ)條件的發(fā)展促生了大規(guī)模語(yǔ)料庫(kù)，另一方面是計(jì)算資源的支持使得我們可以在海量數(shù)據(jù)中較為迅速提取有效信息?；诮y(tǒng)計(jì)的機(jī)器翻譯技術(shù)也主要分為兩種，一種是利用統(tǒng)計(jì)來做語(yǔ)言的預(yù)處理或后處理工作，比如典型的詞性消岐、詞性標(biāo)注、分詞技術(shù)等等，這些和傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的結(jié)合較為緊密，另一種是利用統(tǒng)計(jì)的方法提取語(yǔ)料庫(kù)中體現(xiàn)出的重要知識(shí)，或特定任務(wù)中針對(duì)的某些特定知識(shí)，并根據(jù)這些信息來做機(jī)器翻譯，這一部分和深度學(xué)習(xí)結(jié)合較為緊密[3]。綜上來說，基于統(tǒng)計(jì)的翻譯技術(shù)應(yīng)用范圍廣且粒度很細(xì)，接下來本文將從傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)與機(jī)器翻譯不同的結(jié)合角度切入，來對(duì)基于統(tǒng)計(jì)的機(jī)器翻譯方法作出介紹。

2 結(jié)合機(jī)器學(xué)習(xí)的機(jī)器翻譯技術(shù)

機(jī)器翻譯技術(shù)發(fā)展至今，無論是基于規(guī)則還是統(tǒng)計(jì)方法都要求大量的對(duì)應(yīng)語(yǔ)料進(jìn)行訓(xùn)練，語(yǔ)料的質(zhì)量都直接決定了翻譯效果，此外翻譯質(zhì)量的校驗(yàn)和優(yōu)化也對(duì)翻譯效果有深遠(yuǎn)的影響。傳統(tǒng)的機(jī)器學(xué)習(xí)方法在這些語(yǔ)料庫(kù)構(gòu)建和后處理優(yōu)化的過程中表現(xiàn)十分優(yōu)越，在當(dāng)前的機(jī)器翻譯技術(shù)中得到了廣泛的應(yīng)用。

■2.1 機(jī)器學(xué)習(xí)算法在機(jī)器翻譯中的應(yīng)用方向

機(jī)器學(xué)習(xí)在機(jī)器翻譯中的應(yīng)用方向充斥在各個(gè)角落中，小到參數(shù)調(diào)優(yōu)，大到翻譯模型的建立，無不體現(xiàn)出機(jī)器學(xué)習(xí)的思想。下面從語(yǔ)料庫(kù)構(gòu)建、語(yǔ)言模型等方面來闡述機(jī)器學(xué)習(xí)在機(jī)器翻譯中的應(yīng)用方向。

語(yǔ)料庫(kù)，顧名思義是統(tǒng)一存儲(chǔ)特定的格式的一種或多種語(yǔ)言的倉(cāng)庫(kù)。對(duì)于機(jī)器翻譯來說，語(yǔ)料庫(kù)一般指雙語(yǔ)或多種語(yǔ)言的對(duì)應(yīng)語(yǔ)料，語(yǔ)料庫(kù)構(gòu)建需要解決多個(gè)問題，比如詞義消岐、語(yǔ)義消岐、對(duì)于中文還有分詞問題等等[4]。這些問題或多或少的都需要機(jī)器學(xué)習(xí)來處理。比如詞義消岐，需要借助貝葉斯模型，利用給定的語(yǔ)料計(jì)算待選語(yǔ)義的后驗(yàn)概率，取其大者作為參考項(xiàng)；中文分詞問題則需要借助多個(gè)模型來選定最佳的分詞位置，這些都是構(gòu)建語(yǔ)料庫(kù)中存在的關(guān)鍵問題。語(yǔ)言模型，是為了表述句子出現(xiàn)的概率而創(chuàng)造的一種模型，從原理上來說是基于統(tǒng)計(jì)學(xué)、信息論等學(xué)科，但從原理上來說其推導(dǎo)和應(yīng)用的過程和監(jiān)督式機(jī)器學(xué)習(xí)基本一致。語(yǔ)言模型在目標(biāo)翻譯語(yǔ)句的選擇中發(fā)揮重要的作用，其本身的概率學(xué)原理和樸素貝葉斯類似，在實(shí)際應(yīng)用中，往往不會(huì)選擇單模型來做選擇，而是選取等多個(gè)模型共同抉擇，其中涉及到的參數(shù)優(yōu)化，模型融合等無不體現(xiàn)出機(jī)器學(xué)習(xí)的思想。

■2.2 經(jīng)典算法與機(jī)器翻譯的結(jié)合

經(jīng)典的機(jī)器學(xué)習(xí)算法分為兩大類，監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。前者通過學(xué)習(xí)帶標(biāo)注的數(shù)據(jù)中屬性和標(biāo)注存在的關(guān)聯(lián)關(guān)系，總結(jié)規(guī)律并作出預(yù)測(cè)，整體步驟一般由模型、損失函數(shù)和優(yōu)化算法三部分組成；后者是通過學(xué)習(xí)無標(biāo)注的數(shù)據(jù)中屬性之間存在的潛在關(guān)系來對(duì)數(shù)據(jù)進(jìn)行歸類總結(jié)，進(jìn)而達(dá)到分類的目的。兩種學(xué)習(xí)方式都是機(jī)器學(xué)習(xí)的重要組成部分，接下來本文將對(duì)在自然語(yǔ)言處理和機(jī)器翻譯中有著廣泛應(yīng)用的幾個(gè)監(jiān)督和無監(jiān)督模型，以及其與自然語(yǔ)言處理的聯(lián)系作出介紹。

(1)樸素貝葉斯

樸素貝葉斯實(shí)際上是貝葉斯模型加上了較強(qiáng)的獨(dú)立性假設(shè)而來的，以詞性消岐任務(wù)來說，若我們想獲取某個(gè)詞對(duì)應(yīng)詞義出現(xiàn)的概率，設(shè)待選詞義為Xi，給定語(yǔ)料中相關(guān)特征的集合為A，則在給定語(yǔ)料庫(kù)中的該語(yǔ)義出現(xiàn)的概率可以根據(jù)下式進(jìn)行轉(zhuǎn)換：

上式便是經(jīng)典的貝葉斯公式，其中，任務(wù)所求的是給定語(yǔ)料的屬性集A時(shí)待選語(yǔ)義出現(xiàn)的概率 P( Xi|A)，可以根據(jù)上述公式轉(zhuǎn)化為在語(yǔ)料庫(kù)中給定待選語(yǔ)義Xi時(shí)屬性A出現(xiàn)的概率 P( A |Xi)與P( Xi)的乘積。在計(jì)算過程中，乘積的左項(xiàng)概率是由是由多個(gè)概率聯(lián)合組成的，即 P( A |Xi)= P( A0A1… Aj| Xi)，聯(lián) 合概率非常復(fù)雜，若嚴(yán)格按照條件概率乘積展開，參數(shù)達(dá)到了指數(shù)級(jí)別，難以計(jì)算。樸素貝葉斯模型加入了獨(dú)立性假設(shè)，將其不同的特征視為互相獨(dú)立的，即將計(jì)算轉(zhuǎn)化為，因而大大減小了計(jì)算量，又有大數(shù)定理，當(dāng)語(yǔ)料庫(kù)足夠大時(shí)用各項(xiàng)條件概率出現(xiàn)的頻率近似替代概率，進(jìn)而可以得到上式中分子的值，由于各個(gè)計(jì)算的分母相同，故比較分子獲取最大者即為所求語(yǔ)義。

樸素貝葉斯雖然忽略了語(yǔ)序信息，且語(yǔ)序信息對(duì)語(yǔ)義本身的影響是至關(guān)重要的，但是，樸素貝葉斯在實(shí)際工程中的應(yīng)用卻是十分廣泛，一方面是因?yàn)槠淠Ｐ褪菑?qiáng)可解釋的，另一方面有研究表明樸素貝葉斯的獨(dú)立性假設(shè)效果是要優(yōu)于考慮各個(gè)因素相關(guān)性，因?yàn)楦鱾€(gè)關(guān)系之間出現(xiàn)了互相抵消的效果。

(2)K–Means

K–Means算法是無監(jiān)督學(xué)習(xí)的經(jīng)典模型，其在自然語(yǔ)言處理中也有著廣泛應(yīng)用，常用于文本分類、語(yǔ)義識(shí)別等領(lǐng)域，用于計(jì)算不同樣本之間的相似度，進(jìn)而幫助人們獲取關(guān)鍵數(shù)據(jù)信息，提升模型的效果。

算法旨在提取樣本在特征空間中的分布信息，通過挖掘不同樣本反映出的分布信息，迭代的尋找最合適的分類方法。在執(zhí)行前需要給定幾個(gè)比較重要的超參數(shù)信息，第一個(gè)是K值，也就是目標(biāo)分類數(shù)，往往根據(jù)不同任務(wù)的需要而定，第二個(gè)是樣本相似度的度量標(biāo)準(zhǔn)，經(jīng)常采用的有歐式距離和皮爾遜相似度等。在確定了K值和相似度評(píng)價(jià)標(biāo)準(zhǔn)之后，在特征空間內(nèi)隨機(jī)的選取K個(gè)中心點(diǎn)，然后遍歷一次所有樣本，將每個(gè)樣本劃分至距離其最近的樣本中心點(diǎn)類，接下來對(duì)每個(gè)類別中的所有樣本計(jì)算平均值作為新的中心點(diǎn)，至此中心點(diǎn)完成了一次迭代。重復(fù)上述步驟直到中心點(diǎn)的無變化或者變化幅度小于某一閾值即可。

3 結(jié)合深度學(xué)習(xí)的機(jī)器翻譯技術(shù)

傳統(tǒng)機(jī)器學(xué)習(xí)作為統(tǒng)計(jì)機(jī)器翻譯中的重要技術(shù)，雖然突破了基于規(guī)則的機(jī)器翻譯技術(shù)的限制，效果也得到了巨大的提升，但是隨著技術(shù)的進(jìn)一步發(fā)展，面臨著嚴(yán)重的結(jié)構(gòu)問題。比如對(duì)特征設(shè)計(jì)依賴、對(duì)模型假設(shè)的依賴等等，都嚴(yán)重的限制了模型的效果上限。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)中的一個(gè)分支，已經(jīng)發(fā)展壯大為一個(gè)獨(dú)立的體系，其突破了模型假設(shè)和特征設(shè)計(jì)等限制，在參數(shù)量足夠的情況下，理論上可以完美逼近任何函數(shù)，深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用真正幫助機(jī)器翻譯達(dá)到了工業(yè)化的標(biāo)準(zhǔn)[5]。

■3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

首先介紹經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是處理序列問題的經(jīng)典架構(gòu)，神經(jīng)網(wǎng)絡(luò)由一個(gè)神經(jīng)元構(gòu)成，神經(jīng)元的輸入由單詞和上一步的隱狀態(tài)構(gòu)成，在每一步的轉(zhuǎn)換中維護(hù)并生成一個(gè)新的隱狀態(tài)，通過隱狀態(tài)的改變實(shí)現(xiàn)對(duì)序列信息的記憶[6]。在傳統(tǒng)的序列到序列的循環(huán)神經(jīng)網(wǎng)絡(luò)中，每一步的隱狀態(tài)都可以利用一次全連接產(chǎn)生輸出，但是這并不符合機(jī)器翻譯的需要。比如翻譯“今天的天空很藍(lán)”這句中文，每次輸入一個(gè)詞就產(chǎn)生翻譯的話很可能結(jié)果是“Todays sky is blue.”，顯然這種翻譯效果無法考慮到語(yǔ)義整體的信息，并且難以形成符合目標(biāo)語(yǔ)言規(guī)則的翻譯結(jié)果。

■3.2 編碼解碼器

編碼解碼器框架是為處理翻譯問題而設(shè)計(jì)的深度學(xué)習(xí)框架，由循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)改動(dòng)而成，實(shí)現(xiàn)了利用深度學(xué)習(xí)框架來進(jìn)行序列到序列的自動(dòng)翻譯轉(zhuǎn)換。

編碼–解碼器由兩部分組成，第一部分只輸入不產(chǎn)生輸出，稱為編碼部分，通過隱狀態(tài)學(xué)習(xí)并記錄輸入的信息，最終形成的隱狀態(tài)包含了所輸入語(yǔ)句的所有信息。然后進(jìn)入架構(gòu)的第二部分，稱為解碼部分，以編碼產(chǎn)生的最終隱狀態(tài)為初始狀態(tài)開始進(jìn)行解碼翻譯，每一步以上一步的輸出作為輸入并產(chǎn)生一個(gè)輸出，組合起來即為翻譯結(jié)果。編碼解碼器很好的考慮的全局信息，并且可以很好的組成符合目標(biāo)語(yǔ)言語(yǔ)法的翻譯結(jié)果，由于其出色的翻譯效果，使得其在工業(yè)中獲得了廣泛的應(yīng)用。

4 總結(jié)與展望

機(jī)器學(xué)習(xí)從上個(gè)世紀(jì)發(fā)展至今，已經(jīng)在深度學(xué)習(xí)這一潮流之中獲得了長(zhǎng)足的發(fā)展，基于機(jī)器翻譯技術(shù)的產(chǎn)品也如雨后春筍般接連出現(xiàn)。雖然如此，由于自然語(yǔ)言本身技術(shù)發(fā)展的限制，如語(yǔ)料庫(kù)在規(guī)模和領(lǐng)域不夠、詞義消岐的精度不足，這些都限制了翻譯模型所能達(dá)到的效果上限。因此如何繼續(xù)發(fā)展機(jī)器學(xué)習(xí)技術(shù)，更好的將其應(yīng)用于自然語(yǔ)言處理領(lǐng)域成為至關(guān)重要的問題。本文即是在介紹了機(jī)器翻譯發(fā)展歷史和研究?jī)?nèi)容的基礎(chǔ)上，進(jìn)而從機(jī)器學(xué)習(xí)領(lǐng)域開始，逐步闡述深度學(xué)習(xí)的應(yīng)用?，F(xiàn)在的機(jī)器翻譯技術(shù)發(fā)展仍被語(yǔ)言復(fù)雜和多變的結(jié)構(gòu)所限制，相信隨著語(yǔ)言理論、計(jì)算機(jī)技術(shù)的發(fā)展，機(jī)器翻譯技術(shù)一定會(huì)一步一步趨于完善。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡