王子航
(武漢鋼鐵公司第三子弟中學(xué),湖北武漢,430000)
隨著人工智能技術(shù)的不斷發(fā)展,圖像處理、內(nèi)容推薦、自然語(yǔ)言處理等作為其主要的應(yīng)用方向也隨之加速迭代發(fā)展。相比于其他應(yīng)用方向,自然語(yǔ)言處理發(fā)展還不夠完善,仍有較大的進(jìn)步空間。機(jī)器翻譯技術(shù)作為自然語(yǔ)言處理中的一個(gè)重要分支,早在上個(gè)世紀(jì)四十年代就被提出,而后二十年間,在大量人力物力的促進(jìn)推動(dòng)下,取得了一定的發(fā)展,但是受限于當(dāng)時(shí)計(jì)算機(jī)技術(shù)等諸多條件,未能取得實(shí)質(zhì)性的突破,機(jī)器翻譯也隨之陷入了沉寂[1]。近些年來,人工智能技術(shù)的發(fā)展、語(yǔ)言理論的進(jìn)步以及統(tǒng)計(jì)學(xué)在翻譯技術(shù)中的廣泛應(yīng)用,加上計(jì)算機(jī)硬件以摩爾定律的速度飛速發(fā)展,已經(jīng)可以支撐海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,這些條件使得人們對(duì)機(jī)器翻譯技術(shù)本身有了更完備的認(rèn)知,新一代的處理方法在此背景之下取得了長(zhǎng)足的發(fā)展。
本文首先將從整體的角度介紹典型的機(jī)器翻譯技術(shù)的分類,然后從人工智能和機(jī)器翻譯結(jié)合的角度出發(fā),分別介紹機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在機(jī)器翻譯中的結(jié)合方式和應(yīng)用方法。最后對(duì)當(dāng)前翻譯技術(shù)存在的限制和問題作出總結(jié)合展望。
機(jī)器翻譯技術(shù)的目的是為了節(jié)省人力資源,使機(jī)器能夠最大限度的替代人們重復(fù)的工作。它建立在諸多復(fù)雜的學(xué)科之上,如語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息論等等。如此紛繁復(fù)雜的體系難以迅速形成一套行之有效的解決方案[2]。在機(jī)器翻譯的理論早期,研究的主流是基于規(guī)則的機(jī)器翻譯技術(shù),而后隨著概率統(tǒng)計(jì)學(xué)的引入,機(jī)器翻譯達(dá)到了新的高度。接下來,本文將對(duì)基于規(guī)則和基于統(tǒng)計(jì)兩個(gè)研究方向作以介紹。
在上個(gè)世紀(jì)機(jī)器翻譯技術(shù)剛剛提出時(shí),人們對(duì)語(yǔ)言的認(rèn)知局限于在有限的規(guī)則集內(nèi)形成的一套體系。尤其在Chomsky提出的短語(yǔ)結(jié)構(gòu)語(yǔ)法,給出了“從規(guī)則生成句子“的原則以后,基于規(guī)則的機(jī)器翻譯技術(shù)確立了其在當(dāng)時(shí)的機(jī)器翻譯技術(shù)中的主流地位。
基于規(guī)則的機(jī)器翻譯技術(shù)的指導(dǎo)思想是:語(yǔ)言的規(guī)則是無限的,而語(yǔ)言都是可以由這些無限的規(guī)則推導(dǎo)而來的。而后在基于規(guī)則的思想指導(dǎo)下,產(chǎn)生了三種主流的規(guī)則翻譯方法,分別是直譯式、轉(zhuǎn)換式和中間語(yǔ)言式。其中直譯式比較簡(jiǎn)單,通過分析源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)應(yīng)關(guān)系,直接進(jìn)行轉(zhuǎn)換,而后對(duì)目標(biāo)語(yǔ)言進(jìn)行符合目標(biāo)規(guī)則的重新排列;轉(zhuǎn)換式不僅考慮到兩種語(yǔ)言在單純意義上的對(duì)應(yīng),也考慮到了句子文法結(jié)構(gòu)上的對(duì)應(yīng),從詞法、語(yǔ)法、語(yǔ)義等層層遞進(jìn)的分析句子的含義,它對(duì)語(yǔ)言的規(guī)則挖掘的更深、更完善,因此一般能取得比直譯式更加好的效果;中間語(yǔ)言方法采用了一種折衷的方法,既考慮句子的多層次意義,又盡量忽略語(yǔ)言上復(fù)雜的結(jié)構(gòu)關(guān)系,創(chuàng)造一種相對(duì)簡(jiǎn)單的中間語(yǔ)言作為翻譯的過渡,先講源語(yǔ)言映射到中間語(yǔ)言相對(duì)簡(jiǎn)單的結(jié)構(gòu)上,然后在通過中間語(yǔ)言進(jìn)行翻譯。綜上三種基于規(guī)則的方法都要求有兩種語(yǔ)言的對(duì)應(yīng)語(yǔ)料,并且對(duì)預(yù)料在詞義和結(jié)構(gòu)上的對(duì)應(yīng)度要求都比較高,否則對(duì)結(jié)果有很大的影響。此外,基于規(guī)則的翻譯技術(shù)也有著明顯的優(yōu)點(diǎn),翻譯的過程是可解釋的,并且規(guī)則和語(yǔ)義都是可較為直觀的表述的,這對(duì)人們更好的控制翻譯過程有著很大的幫助。
語(yǔ)言本身是非常復(fù)雜的,縱然假設(shè)無限的規(guī)則是可以完美表述語(yǔ)言本身,但是資源是有限的,無法總結(jié)并表達(dá)出無限的規(guī)則,也因此,基于規(guī)則的機(jī)器翻譯一直都無法達(dá)到理想的效果,更無法實(shí)現(xiàn)產(chǎn)業(yè)化。而隨著統(tǒng)計(jì)學(xué)、信息論的發(fā)展,研究的方向逐漸向統(tǒng)計(jì)學(xué)靠攏。一方面是因?yàn)榇鎯?chǔ)條件的發(fā)展促生了大規(guī)模語(yǔ)料庫(kù),另一方面是計(jì)算資源的支持使得我們可以在海量數(shù)據(jù)中較為迅速提取有效信息?;诮y(tǒng)計(jì)的機(jī)器翻譯技術(shù)也主要分為兩種,一種是利用統(tǒng)計(jì)來做語(yǔ)言的預(yù)處理或后處理工作,比如典型的詞性消岐、詞性標(biāo)注、分詞技術(shù)等等,這些和傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的結(jié)合較為緊密,另一種是利用統(tǒng)計(jì)的方法提取語(yǔ)料庫(kù)中體現(xiàn)出的重要知識(shí),或特定任務(wù)中針對(duì)的某些特定知識(shí),并根據(jù)這些信息來做機(jī)器翻譯,這一部分和深度學(xué)習(xí)結(jié)合較為緊密[3]。綜上來說,基于統(tǒng)計(jì)的翻譯技術(shù)應(yīng)用范圍廣且粒度很細(xì),接下來本文將從傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)與機(jī)器翻譯不同的結(jié)合角度切入,來對(duì)基于統(tǒng)計(jì)的機(jī)器翻譯方法作出介紹。
機(jī)器翻譯技術(shù)發(fā)展至今,無論是基于規(guī)則還是統(tǒng)計(jì)方法都要求大量的對(duì)應(yīng)語(yǔ)料進(jìn)行訓(xùn)練,語(yǔ)料的質(zhì)量都直接決定了翻譯效果,此外翻譯質(zhì)量的校驗(yàn)和優(yōu)化也對(duì)翻譯效果有深遠(yuǎn)的影響。傳統(tǒng)的機(jī)器學(xué)習(xí)方法在這些語(yǔ)料庫(kù)構(gòu)建和后處理優(yōu)化的過程中表現(xiàn)十分優(yōu)越,在當(dāng)前的機(jī)器翻譯技術(shù)中得到了廣泛的應(yīng)用。
機(jī)器學(xué)習(xí)在機(jī)器翻譯中的應(yīng)用方向充斥在各個(gè)角落中,小到參數(shù)調(diào)優(yōu),大到翻譯模型的建立,無不體現(xiàn)出機(jī)器學(xué)習(xí)的思想。下面從語(yǔ)料庫(kù)構(gòu)建、語(yǔ)言模型等方面來闡述機(jī)器學(xué)習(xí)在機(jī)器翻譯中的應(yīng)用方向。
語(yǔ)料庫(kù),顧名思義是統(tǒng)一存儲(chǔ)特定的格式的一種或多種語(yǔ)言的倉(cāng)庫(kù)。對(duì)于機(jī)器翻譯來說,語(yǔ)料庫(kù)一般指雙語(yǔ)或多種語(yǔ)言的對(duì)應(yīng)語(yǔ)料,語(yǔ)料庫(kù)構(gòu)建需要解決多個(gè)問題,比如詞義消岐、語(yǔ)義消岐、對(duì)于中文還有分詞問題等等[4]。這些問題或多或少的都需要機(jī)器學(xué)習(xí)來處理。比如詞義消岐,需要借助貝葉斯模型,利用給定的語(yǔ)料計(jì)算待選語(yǔ)義的后驗(yàn)概率,取其大者作為參考項(xiàng);中文分詞問題則需要借助多個(gè)模型來選定最佳的分詞位置,這些都是構(gòu)建語(yǔ)料庫(kù)中存在的關(guān)鍵問題。語(yǔ)言模型,是為了表述句子出現(xiàn)的概率而創(chuàng)造的一種模型,從原理上來說是基于統(tǒng)計(jì)學(xué)、信息論等學(xué)科,但從原理上來說其推導(dǎo)和應(yīng)用的過程和監(jiān)督式機(jī)器學(xué)習(xí)基本一致。語(yǔ)言模型在目標(biāo)翻譯語(yǔ)句的選擇中發(fā)揮重要的作用,其本身的概率學(xué)原理和樸素貝葉斯類似,在實(shí)際應(yīng)用中,往往不會(huì)選擇單模型來做選擇,而是選取等多個(gè)模型共同抉擇,其中涉及到的參數(shù)優(yōu)化,模型融合等無不體現(xiàn)出機(jī)器學(xué)習(xí)的思想。
經(jīng)典的機(jī)器學(xué)習(xí)算法分為兩大類,監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。前者通過學(xué)習(xí)帶標(biāo)注的數(shù)據(jù)中屬性和標(biāo)注存在的關(guān)聯(lián)關(guān)系,總結(jié)規(guī)律并作出預(yù)測(cè),整體步驟一般由模型、損失函數(shù)和優(yōu)化算法三部分組成;后者是通過學(xué)習(xí)無標(biāo)注的數(shù)據(jù)中屬性之間存在的潛在關(guān)系來對(duì)數(shù)據(jù)進(jìn)行歸類總結(jié),進(jìn)而達(dá)到分類的目的。兩種學(xué)習(xí)方式都是機(jī)器學(xué)習(xí)的重要組成部分,接下來本文將對(duì)在自然語(yǔ)言處理和機(jī)器翻譯中有著廣泛應(yīng)用的幾個(gè)監(jiān)督和無監(jiān)督模型,以及其與自然語(yǔ)言處理的聯(lián)系作出介紹。
(1)樸素貝葉斯
樸素貝葉斯實(shí)際上是貝葉斯模型加上了較強(qiáng)的獨(dú)立性假設(shè)而來的,以詞性消岐任務(wù)來說,若我們想獲取某個(gè)詞對(duì)應(yīng)詞義出現(xiàn)的概率,設(shè)待選詞義為Xi,給定語(yǔ)料中相關(guān)特征的集合為A,則在給定語(yǔ)料庫(kù)中的該語(yǔ)義出現(xiàn)的概率可以根據(jù)下式進(jìn)行轉(zhuǎn)換:
上式便是經(jīng)典的貝葉斯公式,其中,任務(wù)所求的是給定語(yǔ)料的屬性集A時(shí)待選語(yǔ)義出現(xiàn)的概率 P( Xi|A),可以根據(jù)上述公式轉(zhuǎn)化為在語(yǔ)料庫(kù)中給定待選語(yǔ)義Xi時(shí)屬性A出現(xiàn)的概率 P( A |Xi)與P( Xi)的乘積。在計(jì)算過程中,乘積的左項(xiàng)概率是由是由多個(gè)概率聯(lián)合組成 的, 即 P( A |Xi)= P( A0A1… Aj| Xi), 聯(lián) 合 概 率 非 常復(fù)雜,若嚴(yán)格按照條件概率乘積展開,參數(shù)達(dá)到了指數(shù)級(jí)別,難以計(jì)算。樸素貝葉斯模型加入了獨(dú)立性假設(shè),將其不同的特征視為互相獨(dú)立的,即將計(jì)算轉(zhuǎn)化為,因而大大減小了計(jì)算量,又有大數(shù)定理,當(dāng)語(yǔ)料庫(kù)足夠大時(shí)用各項(xiàng)條件概率出現(xiàn)的頻率近似替代概率,進(jìn)而可以得到上式中分子的值,由于各個(gè)計(jì)算的分母相同,故比較分子獲取最大者即為所求語(yǔ)義。
樸素貝葉斯雖然忽略了語(yǔ)序信息,且語(yǔ)序信息對(duì)語(yǔ)義本身的影響是至關(guān)重要的,但是,樸素貝葉斯在實(shí)際工程中的應(yīng)用卻是十分廣泛,一方面是因?yàn)槠淠P褪菑?qiáng)可解釋的,另一方面有研究表明樸素貝葉斯的獨(dú)立性假設(shè)效果是要優(yōu)于考慮各個(gè)因素相關(guān)性,因?yàn)楦鱾€(gè)關(guān)系之間出現(xiàn)了互相抵消的效果。
(2)K–Means
K–Means算法是無監(jiān)督學(xué)習(xí)的經(jīng)典模型,其在自然語(yǔ)言處理中也有著廣泛應(yīng)用,常用于文本分類、語(yǔ)義識(shí)別等領(lǐng)域,用于計(jì)算不同樣本之間的相似度,進(jìn)而幫助人們獲取關(guān)鍵數(shù)據(jù)信息,提升模型的效果。
算法旨在提取樣本在特征空間中的分布信息,通過挖掘不同樣本反映出的分布信息,迭代的尋找最合適的分類方法。在執(zhí)行前需要給定幾個(gè)比較重要的超參數(shù)信息,第一個(gè)是K值,也就是目標(biāo)分類數(shù),往往根據(jù)不同任務(wù)的需要而定,第二個(gè)是樣本相似度的度量標(biāo)準(zhǔn),經(jīng)常采用的有歐式距離和皮爾遜相似度等。在確定了K值和相似度評(píng)價(jià)標(biāo)準(zhǔn)之后,在特征空間內(nèi)隨機(jī)的選取K個(gè)中心點(diǎn),然后遍歷一次所有樣本,將每個(gè)樣本劃分至距離其最近的樣本中心點(diǎn)類,接下來對(duì)每個(gè)類別中的所有樣本計(jì)算平均值作為新的中心點(diǎn),至此中心點(diǎn)完成了一次迭代。重復(fù)上述步驟直到中心點(diǎn)的無變化或者變化幅度小于某一閾值即可。
傳統(tǒng)機(jī)器學(xué)習(xí)作為統(tǒng)計(jì)機(jī)器翻譯中的重要技術(shù),雖然突破了基于規(guī)則的機(jī)器翻譯技術(shù)的限制,效果也得到了巨大的提升,但是隨著技術(shù)的進(jìn)一步發(fā)展,面臨著嚴(yán)重的結(jié)構(gòu)問題。比如對(duì)特征設(shè)計(jì)依賴、對(duì)模型假設(shè)的依賴等等,都嚴(yán)重的限制了模型的效果上限。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)中的一個(gè)分支,已經(jīng)發(fā)展壯大為一個(gè)獨(dú)立的體系,其突破了模型假設(shè)和特征設(shè)計(jì)等限制,在參數(shù)量足夠的情況下,理論上可以完美逼近任何函數(shù),深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用真正幫助機(jī)器翻譯達(dá)到了工業(yè)化的標(biāo)準(zhǔn)[5]。
首先介紹經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是處理序列問題的經(jīng)典架構(gòu),神經(jīng)網(wǎng)絡(luò)由一個(gè)神經(jīng)元構(gòu)成,神經(jīng)元的輸入由單詞和上一步的隱狀態(tài)構(gòu)成,在每一步的轉(zhuǎn)換中維護(hù)并生成一個(gè)新的隱狀態(tài),通過隱狀態(tài)的改變實(shí)現(xiàn)對(duì)序列信息的記憶[6]。在傳統(tǒng)的序列到序列的循環(huán)神經(jīng)網(wǎng)絡(luò)中,每一步的隱狀態(tài)都可以利用一次全連接產(chǎn)生輸出,但是這并不符合機(jī)器翻譯的需要。比如翻譯“今天的天空很藍(lán)”這句中文,每次輸入一個(gè)詞就產(chǎn)生翻譯的話很可能結(jié)果是“Todays sky is blue.”,顯然這種翻譯效果無法考慮到語(yǔ)義整體的信息,并且難以形成符合目標(biāo)語(yǔ)言規(guī)則的翻譯結(jié)果。
編碼解碼器框架是為處理翻譯問題而設(shè)計(jì)的深度學(xué)習(xí)框架,由循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)改動(dòng)而成,實(shí)現(xiàn)了利用深度學(xué)習(xí)框架來進(jìn)行序列到序列的自動(dòng)翻譯轉(zhuǎn)換。
編碼–解碼器由兩部分組成,第一部分只輸入不產(chǎn)生輸出,稱為編碼部分,通過隱狀態(tài)學(xué)習(xí)并記錄輸入的信息,最終形成的隱狀態(tài)包含了所輸入語(yǔ)句的所有信息。然后進(jìn)入架構(gòu)的第二部分,稱為解碼部分,以編碼產(chǎn)生的最終隱狀態(tài)為初始狀態(tài)開始進(jìn)行解碼翻譯,每一步以上一步的輸出作為輸入并產(chǎn)生一個(gè)輸出,組合起來即為翻譯結(jié)果。編碼解碼器很好的考慮的全局信息,并且可以很好的組成符合目標(biāo)語(yǔ)言語(yǔ)法的翻譯結(jié)果,由于其出色的翻譯效果,使得其在工業(yè)中獲得了廣泛的應(yīng)用。
機(jī)器學(xué)習(xí)從上個(gè)世紀(jì)發(fā)展至今,已經(jīng)在深度學(xué)習(xí)這一潮流之中獲得了長(zhǎng)足的發(fā)展,基于機(jī)器翻譯技術(shù)的產(chǎn)品也如雨后春筍般接連出現(xiàn)。雖然如此,由于自然語(yǔ)言本身技術(shù)發(fā)展的限制,如語(yǔ)料庫(kù)在規(guī)模和領(lǐng)域不夠、詞義消岐的精度不足,這些都限制了翻譯模型所能達(dá)到的效果上限。因此如何繼續(xù)發(fā)展機(jī)器學(xué)習(xí)技術(shù),更好的將其應(yīng)用于自然語(yǔ)言處理領(lǐng)域成為至關(guān)重要的問題。本文即是在介紹了機(jī)器翻譯發(fā)展歷史和研究?jī)?nèi)容的基礎(chǔ)上,進(jìn)而從機(jī)器學(xué)習(xí)領(lǐng)域開始,逐步闡述深度學(xué)習(xí)的應(yīng)用?,F(xiàn)在的機(jī)器翻譯技術(shù)發(fā)展仍被語(yǔ)言復(fù)雜和多變的結(jié)構(gòu)所限制,相信隨著語(yǔ)言理論、計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器翻譯技術(shù)一定會(huì)一步一步趨于完善。