国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨語言詞向量模型的蒙漢查詢詞擴展方法研究

2019-08-05 01:42馬路佳趙小兵
中文信息學(xué)報 2019年6期
關(guān)鍵詞:蒙古文源語言目標語言

馬路佳,賴 文,趙小兵

(中央民族大學(xué) 國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081)

0 引言

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,信息檢索已經(jīng)成為人們充分利用各種信息資源不可或缺的工具。從最初的基于關(guān)鍵字匹配到現(xiàn)在的基于語義分析、基于上下文分析,以及應(yīng)用各種統(tǒng)計方法進行分析等,已經(jīng)逐漸形成了一套比較完善的檢索算法,并被學(xué)術(shù)界和工業(yè)界廣泛應(yīng)用。然而,隨著網(wǎng)絡(luò)的進一步發(fā)展及用戶對查詢的需求不斷提高,單語言信息檢索技術(shù)所表現(xiàn)出來的局限性越來越明顯,人們已經(jīng)不能滿足于僅僅在同一種語言中進行檢索,用戶逐漸將需求轉(zhuǎn)變?yōu)槎嗾Z言的信息檢索。

1973年,美國康奈爾大學(xué)G Salton教授提出的跨語言信息檢索(Cross-Language Information Retrieval,CLIR)[1]技術(shù)是信息檢索領(lǐng)域重要的研究方向之一,該技術(shù)主要研究根據(jù)源語言查詢詞檢索到與源語言查詢詞上下文語境相關(guān)的目標語言文檔[2]。該技術(shù)的主要思想為:在傳統(tǒng)的單一語言信息檢索技術(shù)基礎(chǔ)上,通過跨語言相關(guān)技術(shù)實現(xiàn)源語言到目標語言的映射,根據(jù)映射選取與源語言查詢詞相匹配的目標語言描述信息。目前,主流的跨語言信息檢索方法主要是基于機器翻譯技術(shù)展開的一系列研究,主要包括:查詢詞翻譯的方法、文檔翻譯的方法以及中間語言翻譯方法[3]。利用非翻譯方法進行跨語言信息檢索的研究幾乎空白。

查詢詞翻譯方法[4]的主要思想為:在進行跨語言信息檢索之前,將源語言查詢詞翻譯為目標語言查詢詞,再根據(jù)翻譯的目標語言查詢詞通過單一語言的信息檢索技術(shù)實現(xiàn)跨語言信息檢索。這種方法的優(yōu)點是:在整個跨語言信息檢索過程中僅對源語言查詢詞進行翻譯,并沒有涉及其他相關(guān)技術(shù),工作量較小,可以與傳統(tǒng)的單一語種的信息檢索技術(shù)進行無縫對接。這種方法的缺點,一是查詢詞的翻譯歧義問題無法解決,因而需要擴大目標語言的查詢搜索空間,換言之,查詢詞的翻譯錯誤對最終跨語言信息檢索的結(jié)果將產(chǎn)生很大的影響;二是跨語言信息檢索結(jié)果用目標語言返回,這對最終跨語言信息檢索性能的主觀評價造成很大的困撓。當(dāng)前,查詢詞翻譯方法主要包括以下三種:基于詞典的方法、基于語料的方法、基于機器翻譯模塊的方法。

文檔翻譯方法的主要思想為:在進行跨語言信息檢索之前,將所有源語言文檔翻譯為對應(yīng)的目標語言文檔,通過單一語言的信息檢索技術(shù)將源語言查詢詞返回的檢索結(jié)果映射到目標語言結(jié)果中。這種方法相比于查詢詞翻譯方法的優(yōu)點是:該方法生成的跨語言信息檢索結(jié)果能夠充分利用上下文信息,可以很好地解決翻譯的歧義問題。這種方法的缺點是:由于當(dāng)前基于文檔的機器翻譯的準確率還無法達到很好的效果,該方法的檢索性能很大程度上取決于機器翻譯的性能,故這種方法不管是在研究中還是在實用中都遠不如基于查詢詞翻譯方法。當(dāng)前,文檔翻譯方法主要包括以下兩種:基于字典進行文檔索引詞翻譯的方法和基于文檔的機器翻譯系統(tǒng)方法。

中間語言翻譯方法的主要思想為:在進行跨語言信息檢索之前,將所有源語言和目標語言文檔翻譯為一種中間語言,并將源語言的查詢詞翻譯為中間語言,最后通過單一語言的信息檢索技術(shù)將中間語言查詢詞進行信息檢索。這種方法的優(yōu)點是:在源語言與目標語言之間不能很好地進行翻譯時,采用一種中間語言作為樞軸語言進行翻譯,可以很好地緩解由機器翻譯困難帶來的對信息檢索性能的影響。這種方法的缺點是:當(dāng)前基于樞軸語言的機器翻譯技術(shù)并不成熟,特別是對于資源比較稀缺的語言,其性能遠不能滿足用戶的需求。

非翻譯方法的主要思想為:在進行跨語言信息檢索時,完全摒棄基于翻譯的方法。這種方法的主要思想是在Deerwester等[5]提出的淺層語義分析(LSI)的基礎(chǔ)上實現(xiàn)的。這種方法的優(yōu)點是:可以有效地避免機器翻譯帶來的翻譯歧義問題。缺點是:跨語言信息檢索性能很大程度取決于對兩種語言之間的語義信息的提取準確率。當(dāng)前,越來越多的學(xué)者也將目光轉(zhuǎn)向非翻譯方法的跨語言信息檢索研究中,主要是基于淺層語義分析檢索方法實現(xiàn)的跨語言信息檢索方法。

Mikolov等[6]首次提出不同的語言之間的詞向量空間具有一定的相似性,通過映射源語言詞向量到目標語言詞向量可以實現(xiàn)“詞翻譯”,例如,英文詞向量空間模型中“movie”對應(yīng)的詞向量和漢文詞向量空間中“電影”對應(yīng)的詞向量的余弦距離是最接近的。跨語言詞向量訓(xùn)練方式一般分為有監(jiān)督(在訓(xùn)練過程中使用雙語詞典等)方式和無監(jiān)督(在訓(xùn)練過程中不需要雙語詞典等)方式。最近,F(xiàn)acebook提出的MUSE跨語言詞向量訓(xùn)練方法[7]可以不依賴任何平行語料等先驗知識,利用對抗學(xué)習(xí)(general adversarial networks,GANs)和跨領(lǐng)域相似度局部縮放(cross-domain similarity local scaling,CSLS)等方法來獲得跨語言詞向量模型,該方法在詞翻譯等任務(wù)上實驗的效果對比其他方法要好,很多情況下甚至比有監(jiān)督的方法效果還好。

由于現(xiàn)有的高質(zhì)量蒙漢平行語料數(shù)量較少,訓(xùn)練出優(yōu)良的蒙漢機器翻譯模型尚存在一定的困難,并且利用機器翻譯方法來實現(xiàn)跨語言信息檢索時要考慮到存儲空間和系統(tǒng)的可擴展性要求;同時,未登錄詞、消岐等方面的問題也會在很大程度上影響信息檢索的效能。

本文采用非翻譯的方法實現(xiàn)跨語言信息檢索,即基于跨語言詞向量模型實現(xiàn)語言統(tǒng)一和查詢擴展目標。主要步驟為:首先,通過大規(guī)模的漢文、蒙古文單語數(shù)據(jù)及蒙漢雙語詞典進行跨語言詞向量的訓(xùn)練;其次,通過訓(xùn)練得到的跨語言詞向量,將漢文查詢詞映射為蒙文;最后,通過蒙文進行單一語言的信息檢索。本文使用的方法與基于翻譯的信息檢索方法相比存在如下優(yōu)點:一是本文提出的方法不需要平行句對進行機器翻譯,直接利用大規(guī)模的單語數(shù)據(jù)進行跨語言詞向量的訓(xùn)練,存儲空間小,不依賴于具體的語言,適用性更強;二是本文提出的方法在一定的程度上減弱了未登錄詞的影響,提升了跨語言信息檢索的召回率。

1 相關(guān)研究

跨語言詞向量(Cross-Lingual Word Embeddings)是一種對單語言環(huán)境下的模型進行多語言擴展的有效手段。通過平行語料得到不同語種之間詞向量的關(guān)聯(lián),使用這種關(guān)聯(lián)關(guān)系實現(xiàn)了跨語言信息擴展的任務(wù)。近年來,越來越多的學(xué)者將目光轉(zhuǎn)移到跨語言詞向量的相關(guān)研究中,主要原因有兩個:一是跨語言詞向量可以在多語言環(huán)境中推斷詞語的語義;二是跨語言詞向量可以實現(xiàn)不同語言之間的知識遷移,并計算多任務(wù)語言之間的相關(guān)性。

2012年,Klementiev等[8]首次提出跨語言詞向量的概念,其主要思路為:首先,使用大規(guī)模的單語數(shù)據(jù)構(gòu)建源語言和目標語言的初始詞向量;然后,利用部分雙語對齊語料中的詞共現(xiàn)特征表征跨語言詞向量??缯Z言詞向量概念的提出,為自然語言處理任務(wù)提供了研究基礎(chǔ),取得了很多突破性的進展。Faruqui等[9]基于詞匯語義內(nèi)容在語言之間的不變性特征,提出一種基于典型相關(guān)性分析的簡單技術(shù),并將多語言的特征并入單語言的生成向量中。該方法相比于單語言技術(shù)也表現(xiàn)出更好的語義表示性能,但由于采用串行級聯(lián)形式表征詞向量,故很難將單語言和跨語言的詞向量表示同時學(xué)習(xí)到。Chandar等[10]使用基于自編碼方法實現(xiàn)跨語言詞向量表示,通過簡單的學(xué)習(xí)在不同語言之間去重建句子級別的詞袋表示,可以得到更高的性能,并且不需要詞語對齊。這種方法構(gòu)建的詞向量表示對句子級別的信息表示具有很好的性能,但對詞級別的信息表示缺乏語義層面的表達。此后,很多學(xué)者設(shè)計不同的目標函數(shù)來提升跨語言詞向量的性能[11-13]。2015年后,越來越多的學(xué)者將跨語言詞向量方法轉(zhuǎn)化為單語言詞向量的方法實現(xiàn)跨語言詞表示[14-16],具體做法為:首先,采用不同的算法對訓(xùn)練語料中的單詞進行隨機混合;然后,將得到的混合語料作為訓(xùn)練數(shù)據(jù),將跨語言詞嵌入表示學(xué)習(xí)轉(zhuǎn)化為單一語言詞嵌入表示學(xué)習(xí)。

蒙古語信息檢索相關(guān)研究起步較晚,鞏文婧[17]提出采用詞相關(guān)性擴展、加入距離模型的擴展以及關(guān)聯(lián)詞與詞對共現(xiàn)距離相結(jié)合的擴展方法進行漢蒙信息檢索的查詢擴展。

2 本文提出的方法

本文提出的跨語言查詢擴展模式在模型的可擴展性、數(shù)據(jù)冗余性以及存儲空間的消耗方面相較于其他方法都有較為明顯的優(yōu)勢,具體表現(xiàn)如下:

(1) 基于機器翻譯方法進行跨語言探索,需要消耗大量的存儲空間,并且在翻譯的過程中會產(chǎn)生大量的冗余數(shù)據(jù)??缯Z言詞向量方式只需經(jīng)過一次詞向量訓(xùn)練,后續(xù)的跨語言信息檢索只需要對已訓(xùn)練的詞向量進行查詢詞的擴展和映射,占用的資源較少。

(2) 基于跨語言詞向量查詢擴展方式,存儲空間消耗小、依賴較少且易擴展。這使得它很容易移植到其他語言的跨語言信息檢索任務(wù)中,是一種語言無關(guān)的跨語言信息檢索查詢擴展方法。

基于以上兩點,本文提出使用三種策略進行蒙漢跨語言詞向量的查詢擴展,分別為:串聯(lián)式查詢擴展、串聯(lián)式查詢擴展過濾、交叉驗證篩選擴展。

2.1 串聯(lián)式查詢擴展

該方法的主要步驟為:首先,根據(jù)大規(guī)模的單語訓(xùn)練數(shù)據(jù)及蒙漢雙語詞典訓(xùn)練源語言(漢文)和目標語言(蒙古文)的跨語言詞向量;其次,根據(jù)跨語言詞向量將漢文查詢式中的所有詞進行擴展并得到其蒙古文查詢詞;最后,將擴展的蒙古文查詢詞根據(jù)漢文查詢式中的查詢詞先后關(guān)系串聯(lián)拼接,得到最后的蒙古文查詢式。本文使用的跨語言詞向量映射方式如圖1所示。

圖1 跨語言詞向量映射方式

圖1中x表示一個漢文查詢詞,X表示漢文的詞向量空間,Y表示蒙古文的詞向量空間,Vx為漢文查詢詞x在漢文詞向量空間X中的詞向量表示,通過計算蒙古文詞向量空間Y中與Vx余弦距離,并選擇距離最近的k個蒙古文詞作為其候選擴展詞y1,y2…,yk。

2.2 串聯(lián)式查詢擴展過濾

2.3 交叉驗證篩選過濾

對于串聯(lián)式查詢擴展和串聯(lián)式查詢擴展過濾兩種方法,存在一個很大的問題:對于一個漢文查詢詞,經(jīng)過跨語言詞向量映射可以擴展出多個蒙古文查詢詞,因此,如何對擴展出的蒙古文查詢詞進行篩選和排序成為提高跨語言信息檢索性能的重要途徑。交叉驗證篩選方法的主要思想為:利用跨語言詞向量對查詢詞進行擴展時,同時考慮到漢文查詢詞與蒙古文候選擴展詞之間的余弦相似度以及蒙古文候選擴展詞與其他漢文查詢詞之間的余弦相似度,根據(jù)漢文查詢詞上下文語義,對蒙古文擴展詞與其周圍的詞進行排序以達到蒙古文查詢擴展式上下文語義的連貫。具體做法如下:

Step1計算蒙古文候選擴展詞集合中的每一個詞與漢文查詢式中的其他查詢詞之間的余弦相似度,如式(1)所示。

(1)

Step2從候選蒙古文擴展詞集合中選取n個最相似的擴展詞。

該方法的跨語言詞向量映射如圖2所示。

圖2 交叉驗證篩選過濾映射方式

其中,x1,x2,x3,x4為漢文查詢詞,交叉驗證篩選方法的目標就是從x2的蒙古文候選擴展詞y21,y22,y23中選擇一個使跨語言信息檢索性能最優(yōu)的擴展詞。具體做法為:計算每個蒙古文候選擴展詞和漢文查詢式x1,x2,x3,x4之間的整體相似度(計算方法見公式(1))來對這些候選詞進行排序。例如,對于擴展詞y21,計算其與漢文查詢式的整體相似度值cos(x1+x2+x3,y21),經(jīng)計算,y21,y22,y23對應(yīng)的結(jié)果分別為s1,s2,s3,最后選擇最大相似度值對應(yīng)的蒙古文候選擴展詞作為x2最終的擴展詞。

3 實驗

3.1 實驗數(shù)據(jù)與準備

本文所使用的語料為實驗室收集的大量的蒙古文文檔,共包括28 166篇文檔。實驗中使用的蒙古文查詢詞來源于訓(xùn)練詞向量語料中的高頻詞,共收集21個蒙古文查詢詞,這些擴展詞語并不包含在訓(xùn)練跨語言詞向量時所使用的小規(guī)模蒙漢雙語詞典中,平均每個查詢詞語對應(yīng)300個候選文檔進行實驗驗證。

本文實驗中使用的查詢詞語與鞏文婧等[17]相同,如表1所示。

在訓(xùn)練跨語言詞向量之前,需要利用蒙古文和漢文大規(guī)模的單語數(shù)據(jù)訓(xùn)練各自的詞向量,本文使用FastText來訓(xùn)練蒙古文和漢文的單語言詞向量,其中漢文單語數(shù)據(jù)來源于維基百科中文語料,共1.1GB,蒙古文單語數(shù)據(jù)來源于實驗室從蒙古文網(wǎng)頁中爬取的數(shù)據(jù)及CWMT全國機器翻譯評測蒙漢任務(wù)數(shù)據(jù)集中的蒙古文數(shù)據(jù),共329MB。相關(guān)訓(xùn)練詞向量參數(shù)為:

表1 漢文查詢詞經(jīng)跨語言查詢擴展后的蒙古文查詢式

—minn:最短子串長度,兩種語言都指定為2;—maxn:最長子串長度,蒙古文指定為15,中文指定為4;—dim:詞向量維度300維。

訓(xùn)練蒙漢跨語言詞向量時訓(xùn)練集詞典大小為3 224,測試集詞典大小7 732,漢文詞不唯一。

本文使用的跨語言詞向量訓(xùn)練工具為Facebook開源的MUSE[7],最終生成跨語言詞向量包括蒙古文167MB,漢文698MB。

3.2 實驗結(jié)果與對比分析

本文使用平均精度均值(mean average precession,MAP)作為信息檢索的評價指標。該評價指標的計算方法如式(2)所示。

(2)

其中,Pi為第i個查詢式的平均計算精度。

3.2.1 串聯(lián)式查詢擴展

串聯(lián)式查詢擴展方法將每個漢文查詢詞擴展為兩個蒙古文查詢式,結(jié)果如表2所示。

從表2可以看出,串聯(lián)式查詢擴展方式擴展出來的蒙古文詞語相當(dāng)于詞翻譯的效果,出現(xiàn)了很多冗余的詞,這些冗余擴展詞的出現(xiàn)在很大程度上影響了信息檢索性能。故過濾冗余擴展詞成為了提升信息檢索性能有效的解決辦法。

表2 串聯(lián)式查詢擴展方法

經(jīng)計算,使用串聯(lián)式查詢擴展方法實驗結(jié)果如下:MAPseries=0.440 5,準確率:0.743 7,查全率:0.692 7。

3.2.2 串聯(lián)式查詢擴展過濾

對串聯(lián)式查詢擴展方法擴展出來的蒙古文查詢式進行過濾,本方法采用余弦相似度進行擴展詞的過濾,取得了很好的效果。在對蒙古文擴展詞進行過濾時,設(shè)置一個閾值(本文選取0.51),根據(jù)閾值過濾掉相似度值低于閾值的詞。該方法生成的蒙古文查詢式如表3所示

表3 串聯(lián)式查詢擴展過濾方法

經(jīng)計算,使用串聯(lián)式查詢擴展過濾方法實驗結(jié)果如下:MAPseries_opt=0.626 2,準確率:0.809 7,查全率:0.781 9。

3.2.3 交叉驗證篩選過濾

交叉驗證篩選過濾方法是在串聯(lián)式查詢擴展過濾方法的基礎(chǔ)上充分考慮上下文信息對檢索結(jié)果的影響,對擴展式進行進一步的篩選,以及對候選擴展詞重排序的一種方法,該方法生成的蒙古文查詢擴展式如表4所示。

表4 交叉驗證篩選過濾方法

經(jīng)計算,使用交叉驗證篩選過濾方法實驗結(jié)果如下:MAPcross_valid=0.706 8,準確率:0.851 9,查全率:0.818 7。

3.2.4 三種查詢擴展方式對比

本文以文檔翻譯方法為基線方法,分別對本文提出的三種跨語言查詢擴展方式進行對比實驗,結(jié)果如表5所示。

對于串聯(lián)式查詢擴展過濾方法,通過去除冗余的查詢擴展詞可以明顯地提升系統(tǒng)的檢索效果。對于交叉驗證篩選過濾方法,充分利用查詢詞的上下文信息對候選擴展式進行篩選和重排序,取得了最佳性能,其MAP值超過了基準測試的MAP值0.601 2,說明了當(dāng)前方法的有效性。

表5 跨語言方法性能對比

對于“十九大”、“一帶一路”以及“四風(fēng)”這樣的詞,詞本身表示一個完整的含義,而經(jīng)過分詞處理后含義與分詞前的含義完全無關(guān)(例如,“一帶一路”分詞后變?yōu)椤耙粠А焙汀耙宦贰?。在面對這些詞時,文中的方法不再適用,結(jié)果不理想,查詢結(jié)果如表6所示。

表6 非疊加詞結(jié)果

對于上面3個查詢式,結(jié)果為MAP:0.042,準確率:0.215,查全率:0.211。

4 結(jié)論

本文基于跨語言詞向量模型,提出了串聯(lián)式擴展、串聯(lián)式查詢擴展過濾以及交叉驗證篩選過濾查詢擴展3種查詢擴展方法,實驗表明,本文提出的方法,在進行信息檢索時,可以根據(jù)漢文查詢詞本身的上下文信息生成符合蒙古文上下文語境的擴展詞,大大提升了檢索性能。

猜你喜歡
蒙古文源語言目標語言
敖漢旗萬壽白塔蒙古文碑文新釋
中國大學(xué)生對越南語虛詞的誤用
林巍《知識與智慧》英譯分析
部分海外藏蒙古文文獻及其目錄
淺析日語口譯譯員素質(zhì)
教材插圖在英語課堂閱讀教學(xué)中的運用及實例探討
烏蘭察布蒙古文網(wǎng)站正式上線
以口譯實例談雙語知識的必要性
從目的論角度看《紅高粱》中文化負載詞的翻譯
多媒體英語學(xué)習(xí)法
茂名市| 利川市| 昆明市| 尉犁县| 加查县| 普定县| 北安市| 镇宁| 衢州市| 子洲县| 郎溪县| 田阳县| 田林县| 吴堡县| 财经| 梨树县| 萍乡市| 郯城县| 枝江市| 铜鼓县| 莆田市| 玉环县| 阳原县| 大同县| 涞水县| 宜都市| 南城县| 娱乐| 镇康县| 沅陵县| 休宁县| 余庆县| 浑源县| 盐源县| 大余县| 喜德县| 丰原市| 沈阳市| 东丰县| 琼中| 南投市|