韓越,艾山·吾買(mǎi)爾
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊830046;2.新疆大學(xué)新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,烏魯木齊830046)
跨語(yǔ)言詞嵌入旨在學(xué)習(xí)一個(gè)共享的語(yǔ)義空間,在機(jī)器翻譯[1]、文本分類(lèi)[2]、信息檢索[3]中都有重要意義。當(dāng)前流行的跨語(yǔ)言詞嵌入方法是基于單語(yǔ)詞嵌入的線性映射[4]。該方法基于大規(guī)模單語(yǔ)語(yǔ)料訓(xùn)練單語(yǔ)詞嵌入。認(rèn)為不同語(yǔ)言上訓(xùn)練的單語(yǔ)詞嵌入具有相似性,從而可以學(xué)習(xí)源語(yǔ)言嵌入到目標(biāo)語(yǔ)言嵌入的映射關(guān)系,將兩種或多種語(yǔ)言的嵌入映射到同一語(yǔ)義空間。這一思想被后續(xù)的很多研究繼承和發(fā)展。但語(yǔ)言的固有屬性致使不同語(yǔ)言家族的語(yǔ)言具有同構(gòu)性這一假設(shè)面臨著巨大挑戰(zhàn)[5]。同時(shí),低資源場(chǎng)景下訓(xùn)練的單語(yǔ)詞嵌入因語(yǔ)料少難以訓(xùn)練充分或語(yǔ)料差異較大[6],難以得到符合同構(gòu)性假設(shè)的單語(yǔ)詞嵌入。
在以往基于映射方法的跨語(yǔ)言詞嵌入研究中,對(duì)于單語(yǔ)詞嵌入的訓(xùn)練沒(méi)有一個(gè)統(tǒng)一的約束。但是對(duì)于基于映射的方法來(lái)說(shuō),單語(yǔ)詞嵌入是跨語(yǔ)言詞嵌入成功的基礎(chǔ)。因此,訓(xùn)練高質(zhì)量的單語(yǔ)詞嵌入進(jìn)行跨語(yǔ)言詞嵌入的學(xué)習(xí)至關(guān)重要。
基于以上問(wèn)題提出:將不同單語(yǔ)詞嵌入訓(xùn)練方法得到的詞嵌入進(jìn)行融合得到元嵌入從而提高跨語(yǔ)言詞嵌入的質(zhì)量。該方法背后的假設(shè)為:不同的單語(yǔ)詞嵌入方法捕獲了語(yǔ)言中單詞的不同特征,將不同單語(yǔ)詞嵌入訓(xùn)練方法訓(xùn)練的嵌入進(jìn)行融合,可以從更多維度對(duì)單詞進(jìn)行描述,從而得到更高質(zhì)量的詞嵌入。該方法操作簡(jiǎn)單,有效性強(qiáng)并且具有可擴(kuò)展性,可以隨著單語(yǔ)詞嵌入模型和跨語(yǔ)言詞嵌入模型質(zhì)量的提高而提高。
雙語(yǔ)詞嵌入近些年來(lái)被廣泛研究。研究方法之間最大的不同在于監(jiān)督信號(hào)的強(qiáng)度。最開(kāi)始研究者在平行語(yǔ)料[7-9]以及可比語(yǔ)料[10-11]上訓(xùn)練跨語(yǔ)言詞嵌入。進(jìn)一步的,專(zhuān)家們使用了詞典資源,利用WordNet[12]、ConceptNet[13]等詞典資源。然而在很多語(yǔ)言上平行語(yǔ)料、可比語(yǔ)料難以獲得,甚至高質(zhì)量的詞典也無(wú)法直接獲得,因此研究者們致力于盡可能地減少監(jiān)督信號(hào)。
2013年Mikolov提出基于線性映射的跨語(yǔ)言詞嵌入[4]。該方法首先基于單語(yǔ)語(yǔ)料庫(kù)訓(xùn)練單語(yǔ)詞嵌入得到不同語(yǔ)言的詞表示,再通過(guò)5000個(gè)詞典對(duì)作為監(jiān)督信號(hào),將不同語(yǔ)言的詞嵌入映射到同一語(yǔ)義空間。從而,給定一種語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中的某個(gè)單詞,可以在映射到的語(yǔ)義空間中得到與該單詞意義相同的另一語(yǔ)言的單詞。后來(lái)的方法大多基于此研究和發(fā)展。Xing通過(guò)歸一化詞嵌入以及正交約束來(lái)優(yōu)化這一方法[14]。前面的方法是將一種語(yǔ)言的嵌入空間映射到另一種語(yǔ)言。Faruqui和Dyer通過(guò)典型相關(guān)分析將兩種語(yǔ)言的單語(yǔ)詞嵌入空間映射到一個(gè)新的空間,從而提高跨語(yǔ)言詞嵌入的性能[15]。Artetxe在Mikolov的基礎(chǔ)上添加了白化技術(shù),使得性能進(jìn)一步提升,除此之外,還對(duì)先前方法底層的關(guān)聯(lián)做了重新解釋[16]。這一系列方法相比使用平行語(yǔ)料、可比語(yǔ)料等資源進(jìn)行跨語(yǔ)言詞嵌入的訓(xùn)練,不僅簡(jiǎn)單,而且使用較少的監(jiān)督信號(hào),這在低資源場(chǎng)景下大有裨益。
盡管先前的方法已經(jīng)有了不錯(cuò)的表現(xiàn),但是學(xué)者們致力于進(jìn)一步減少監(jiān)督信號(hào),希望在少量種子詞典甚至在沒(méi)有任何監(jiān)督信號(hào)的情況下訓(xùn)練跨語(yǔ)言詞嵌入。Artetxe僅使用25個(gè)種子詞典對(duì)學(xué)習(xí)映射,使用學(xué)習(xí)的映射以自學(xué)習(xí)的方式從單語(yǔ)詞嵌入中歸納新的詞典,使用新的詞典學(xué)習(xí)新的映射[17]。Conneau僅使用單語(yǔ)詞嵌入而無(wú)需任何監(jiān)督信號(hào)來(lái)學(xué)習(xí)跨語(yǔ)言詞嵌入。通過(guò)對(duì)抗訓(xùn)練來(lái)學(xué)習(xí)原語(yǔ)言空間到目標(biāo)語(yǔ)言空間的線性映射,達(dá)到了與監(jiān)督方法相匹敵的效果[18]。
本文提出的方法將目標(biāo)轉(zhuǎn)移到提高單語(yǔ)詞嵌入的質(zhì)量,通過(guò)在不同維度上對(duì)不同單語(yǔ)詞嵌入模型訓(xùn)練的單語(yǔ)詞嵌入進(jìn)行融合,對(duì)單詞進(jìn)行更好的語(yǔ)義表示,從而更好的訓(xùn)練跨語(yǔ)言詞嵌入。該方法能夠和任何現(xiàn)有的單語(yǔ)詞嵌入訓(xùn)練模型和跨語(yǔ)言詞嵌入訓(xùn)練模型相結(jié)合,并隨著它們質(zhì)量的提高而提高。
當(dāng)前最流行的兩種訓(xùn)練單語(yǔ)詞嵌入的模型為Word2Vec[19]和FastText[20]。因此實(shí)驗(yàn)中主要采取這兩類(lèi)模型訓(xùn)練單語(yǔ)詞嵌入。
Word2Vec是2013年Mikolov年最開(kāi)始提出來(lái)的將單詞用分布式向量表示的方法。Word2Vec中包含兩種訓(xùn)練模式分別為:CBOW以及Skip-Gram。它們的不同之處在于,CBOW通過(guò)上下文單詞的詞嵌入預(yù)測(cè)當(dāng)前詞的詞嵌入,而Skip-Gram使用當(dāng)前詞的詞嵌入預(yù)測(cè)上下文的詞嵌入。使用Word2Vec訓(xùn)練的詞嵌入是詞級(jí)別的。在詞典內(nèi)的單詞會(huì)被分配一個(gè)詞嵌入,而詞典外的單詞的詞向量由所有詞典內(nèi)單詞向量的平均值表示。
FastText是基于Mikolov提出的詞嵌入方法的擴(kuò)展,通過(guò)學(xué)習(xí)子詞信息的向量,將子詞的向量表示之和作為單詞的詞向量。同樣的FastText也有CBOW和Skip-Gram兩種訓(xùn)練模式。由于FastText訓(xùn)練的詞嵌入是通過(guò)單詞的子詞信息而來(lái),因此,即使一個(gè)單詞未在訓(xùn)練集中出現(xiàn),但其詞向量可以通過(guò)訓(xùn)練集中的子詞信息而來(lái)。相比Word2Vec,它對(duì)未見(jiàn)詞能有更好的表示。
由于以往的實(shí)驗(yàn)中對(duì)單語(yǔ)詞嵌入的訓(xùn)練模型并沒(méi)有同一的規(guī)定,不同方法間無(wú)法直接比較。因此實(shí)驗(yàn)中采用了兩種詞嵌入模型的兩種訓(xùn)練模式,除了探討不同的單語(yǔ)詞嵌入方法對(duì)跨語(yǔ)言詞嵌入的影響,還探討將同一模型不同模式下訓(xùn)練的詞嵌入加以集成以及將不同模型的相同模式加以集成對(duì)跨語(yǔ)言詞嵌入的影響。
令X和Z表示給定雙語(yǔ)詞典的兩種語(yǔ)言的詞嵌入矩陣,該詞嵌入矩陣的第i行Xi*和Zi*是字典中第i個(gè)條目的詞嵌入。要找到一個(gè)線性映射矩陣W,使得XW接近Z,需要將歐幾里得距離的平方最小化。即:
這等效于最小化殘差矩陣的Frobenius范數(shù):
因此,W將是線性矩陣方程XW=Z的所謂最小二乘解。這在線性代數(shù)中是一個(gè)著名的問(wèn)題,可以通過(guò)取摩爾彭羅斯偽逆X+=(XTX)-1XT為W=X+Z,而這可以使用SVD進(jìn)行計(jì)算。
實(shí)驗(yàn)中所采用的跨語(yǔ)言詞嵌入模型為公開(kāi)軟件VecMap[16]。VecMap實(shí)現(xiàn)了以上算法,并添加了一些額外的技術(shù),例如正交約束、詞嵌入歸一化、均值居中、白化等技術(shù),形成一個(gè)統(tǒng)一的框架,能夠訓(xùn)練魯棒的跨語(yǔ)言詞嵌入。
元嵌入是集成了給定語(yǔ)言的多個(gè)預(yù)訓(xùn)練詞嵌入的向量空間表示,這些預(yù)訓(xùn)練詞嵌入可能使用不同的語(yǔ)料,或者對(duì)相同的語(yǔ)料使用不同的模型進(jìn)行訓(xùn)練[19]。實(shí)驗(yàn)中主要對(duì)Word2Vec和FastText訓(xùn)練的詞嵌入進(jìn)行集成,集成辦法如下:
(1)將Word2Vec的CBOW模式訓(xùn)練的詞嵌入以及Word2Vec的Skip-Gram訓(xùn)練的詞嵌入加以集成。
(2)將FastText的CBOW模式訓(xùn)練的詞嵌入以及FastText的Skip-Gram訓(xùn)練的詞嵌入加以集成。
(3)將Word2Vec的CBOW模式訓(xùn)練的詞嵌入以及FastText的CBOW模式訓(xùn)練的詞嵌入加以集成。
(4)將Word2Vec的Skip-Gram模式訓(xùn)練的詞嵌入以及FastText的Skip-Gram模式訓(xùn)練的詞嵌入加以集成。
(5)將不同窗口上兩個(gè)模型上兩種模式的詞嵌入加以集成。
后續(xù)實(shí)驗(yàn)中我們將Word2Vec的CBOW訓(xùn)練的單語(yǔ)詞嵌入用WC表示,Word2Vec的Skip-Gram訓(xùn)練的單語(yǔ)詞嵌入用WS表示。將FastText的CBOW訓(xùn)練的單語(yǔ)詞嵌入FC表示,F(xiàn)astText的Skip-Gram訓(xùn)練的單語(yǔ)詞嵌入FS表示。
最常見(jiàn)的元嵌入方法是平均Meta-average和拼接Meta-con方法。文中首先探討了這兩種簡(jiǎn)單的集成方法,其次采用兩種額外的對(duì)齊策略:先對(duì)不同模型訓(xùn)練的同一語(yǔ)言的單語(yǔ)詞嵌入利用跨語(yǔ)言的詞嵌入方法進(jìn)行對(duì)齊,再將對(duì)齊后的詞嵌入進(jìn)行平均和拼接。具體如下:
(1)平均(Meta-average)方法。將不同模型訓(xùn)練的相同單詞的詞向量對(duì)應(yīng)維度進(jìn)行相加操作再除以2。
(2)拼接(Meta-con)方法。將不同模型訓(xùn)練的相同單詞的詞向量進(jìn)行拼接,此時(shí)詞嵌入的維度是之前的2倍。
(3)對(duì)齊平均(Aligned_average)。將不同模型訓(xùn)練的同一語(yǔ)料庫(kù)的詞嵌入先利用跨語(yǔ)言詞嵌入的方法進(jìn)行對(duì)齊,將對(duì)齊后的詞嵌入進(jìn)行平均。
(4)對(duì)齊拼接(Aligned_con)。將不同模型訓(xùn)練的同一語(yǔ)料庫(kù)的詞嵌入先利用跨語(yǔ)言詞嵌入的方法進(jìn)行對(duì)齊,將對(duì)齊后的詞嵌入進(jìn)行拼接。
由于不同模型對(duì)相同語(yǔ)料訓(xùn)練的詞嵌入具有不同的嵌入空間。每個(gè)嵌入空間既有區(qū)別又有聯(lián)系,因此利用訓(xùn)練出的詞向量單詞構(gòu)建詞典,來(lái)將使用同一語(yǔ)料訓(xùn)練的不同嵌入空間映射到同一個(gè)空間,期望映射后的詞嵌入集成可以得到更好的單詞表示。
本實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為Python 3.7、PyTorch 1.4。使用的CPU為Intel Xeon CPU E5-2640 v4@2.40GHz。
實(shí)驗(yàn)中采用的數(shù)據(jù)是由新疆大學(xué)多語(yǔ)種實(shí)驗(yàn)室小組建立的數(shù)據(jù)集,包括100萬(wàn)句英語(yǔ)數(shù)據(jù)以及100萬(wàn)句漢語(yǔ)句子。為驗(yàn)證提出的方法在不同數(shù)據(jù)集大小上的有效性,實(shí)驗(yàn)中在20萬(wàn)和100萬(wàn)數(shù)據(jù)集上分別做了實(shí)驗(yàn)。其中,小數(shù)據(jù)集是大數(shù)據(jù)的子集。對(duì)英語(yǔ)句子使用Moses中的tokenize進(jìn)行分詞,對(duì)漢語(yǔ)句子使用結(jié)巴分詞。利用分好詞的文本進(jìn)行單于詞嵌入的訓(xùn)練,采用的模型分別是Word2Vec[19]和FastText[20]。分別使用兩種模型的Skip-Gram模式和CBOW模式。詞嵌入的大小為300維,窗口的大小為10,訓(xùn)練的迭代次數(shù)為15。除非特別指定,后面的實(shí)驗(yàn)均采用此默認(rèn)設(shè)置。
實(shí)驗(yàn)中使用公開(kāi)的MUSE[18]詞典訓(xùn)練并評(píng)估跨語(yǔ)言詞嵌入,通過(guò)提供的詞典對(duì)進(jìn)行跨語(yǔ)言詞嵌入的訓(xùn)練。訓(xùn)練好跨語(yǔ)言詞嵌入之后,給定MUSE詞典的測(cè)試集,進(jìn)行準(zhǔn)確性評(píng)估。具體實(shí)現(xiàn)方式為:給定測(cè)試集中的源語(yǔ)言單詞,通過(guò)訓(xùn)練好的跨語(yǔ)言詞嵌入,使用最近鄰算法找出距離最近的目標(biāo)語(yǔ)言單詞。查看該單詞是否與測(cè)試集中的單詞一致。
作為跨語(yǔ)言詞嵌入的內(nèi)部評(píng)估標(biāo)準(zhǔn),它的準(zhǔn)確率的提升一般主要來(lái)源于提高的跨語(yǔ)言詞嵌入算法,以及相關(guān)檢索方法的優(yōu)化。
3.3.1 同一單語(yǔ)詞嵌入模型的不同訓(xùn)練模式相集成
為了驗(yàn)證不同語(yǔ)料規(guī)模下,相同模型不同訓(xùn)練模式訓(xùn)練的單語(yǔ)詞嵌入集成是否會(huì)對(duì)跨語(yǔ)言詞嵌入產(chǎn)生影響。將WS與WC相集成。FS與FC相集成。實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同訓(xùn)練模式相集成
其中,CORPUS_SIZE表示語(yǔ)料規(guī)模,Method表示訓(xùn)練單語(yǔ)詞嵌入的方法。Baseline表示不使用任何集成方法時(shí)的結(jié)果。例如:表中的23.34表示當(dāng)訓(xùn)練單語(yǔ)詞嵌入的方法為基于Word2Vec的Skip-Gram模型時(shí),訓(xùn)練的跨語(yǔ)言詞嵌入在詞典上的準(zhǔn)確率為23.34。Meta-average表示將單語(yǔ)詞嵌入進(jìn)行平均。例如表中的22.42表示將WS和WC訓(xùn)練的單語(yǔ)詞嵌入相集成后訓(xùn)練跨語(yǔ)言詞嵌入進(jìn)行評(píng)估得到的準(zhǔn)確率大小。同樣的,Meta-con表示將單語(yǔ)詞嵌入進(jìn)行拼接。前文已加以描述,在此不加以贅述。Aligned-average則表示將訓(xùn)練的單語(yǔ)詞嵌入先進(jìn)行對(duì)齊,再進(jìn)行平均。Aligned-con同理。
對(duì)實(shí)驗(yàn)結(jié)果從不同維度分析可以得到多個(gè)結(jié)論。首先從baseline上可以看到無(wú)論是在20萬(wàn)語(yǔ)料還是100萬(wàn)語(yǔ)料上,總是FS訓(xùn)練的單語(yǔ)詞嵌入性能更好,在20萬(wàn)語(yǔ)料上,F(xiàn)S相對(duì)于最差的結(jié)果高達(dá)6.8%。在100萬(wàn)語(yǔ)料上,也能高達(dá)6%。這說(shuō)明,單語(yǔ)詞嵌入的質(zhì)量對(duì)跨語(yǔ)言模型的訓(xùn)練至關(guān)重要。
其次,采用此種集成方法,簡(jiǎn)單的進(jìn)行單語(yǔ)言詞嵌入平均會(huì)降低跨語(yǔ)言詞嵌入的性能。簡(jiǎn)單的拼接單語(yǔ)詞嵌入在FastText模型上能夠觀察到明顯的提升,準(zhǔn)確率提高了2.47-5.7。隨著語(yǔ)料規(guī)模增大,集成方法帶來(lái)的收益減少。而在Word2Vec上提升不明顯,甚至在20萬(wàn)語(yǔ)料上,準(zhǔn)確率降低。同時(shí),提出的先對(duì)齊再平均、拼接的方法帶來(lái)了明顯的準(zhǔn)確率的提升。它的結(jié)果始終高于基線,這表明了我們提出的方法的有效性。
3.3.2 不同單語(yǔ)詞嵌入模型的相同訓(xùn)練模式相集成
為了研究不同語(yǔ)料規(guī)模下,不同模型下相同訓(xùn)練模式訓(xùn)練的單語(yǔ)詞嵌入集成會(huì)對(duì)跨語(yǔ)言詞嵌入產(chǎn)生怎樣的影響。將WS與FS相集成。WC與FC相集成。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同模型相集成
通過(guò)表2實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):將不同模型下的相同訓(xùn)練模式訓(xùn)練的單語(yǔ)詞嵌入進(jìn)行集成時(shí),簡(jiǎn)單的平均只在語(yǔ)料大小為20萬(wàn)時(shí),將兩個(gè)模型的CBOW進(jìn)行集成時(shí),準(zhǔn)確率提高了1.1。其他情況下并沒(méi)有理想的結(jié)果。同時(shí)先對(duì)齊再進(jìn)行平均的方法雖然相比簡(jiǎn)單的平均準(zhǔn)確率有所提高,但是相比于沒(méi)有集成的最好結(jié)果并沒(méi)有很大的競(jìng)爭(zhēng)性。而先對(duì)齊再拼接的集成方法在語(yǔ)料規(guī)模較大的100萬(wàn)上觀察到了提升,在20萬(wàn)上有所下降。這說(shuō)明語(yǔ)料規(guī)模對(duì)這種集成方法較為敏感。令人驚訝的是,直接將不同模型的單語(yǔ)詞嵌入進(jìn)行拼接,反而會(huì)有明顯的準(zhǔn)確率的提高,準(zhǔn)確率在20萬(wàn)語(yǔ)料上提高3.87%~4.54%,在100w語(yǔ)料上提高3.49%~12.53%。這一點(diǎn)與先對(duì)齊再拼接的集成策略表現(xiàn)一致。因此,可以得出結(jié)論,當(dāng)語(yǔ)料規(guī)模增大時(shí),將不同模型上相同訓(xùn)練模式訓(xùn)練的詞嵌入進(jìn)行拼接會(huì)有很大收益。
3.3.3 不同窗口上兩個(gè)模型兩種模式相集成
單語(yǔ)詞嵌入的空間結(jié)構(gòu)很大程度上依賴(lài)單詞的共現(xiàn)統(tǒng)計(jì),這是由上下文窗口大小所決定的。不同的上下文窗口大小決定了當(dāng)前單詞捕獲的不同特征。當(dāng)上下文窗口較大時(shí),生成的單詞嵌入捕獲主題相似性,當(dāng)上下文窗口較小時(shí),生成的單詞捕獲共能相似性。因此是否將不同窗口上訓(xùn)練的詞嵌入進(jìn)行集成可以得到更好的單詞表示,從而更好地為跨語(yǔ)言詞嵌入訓(xùn)練提供幫助是這一集成策略背后的動(dòng)機(jī)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同窗口下的詞嵌入集成
其中,W表示上下文窗口的大小。例如:表中的3.86表示當(dāng)訓(xùn)練單語(yǔ)詞嵌入的模型是Word2Vec的Skip-Gram時(shí),設(shè)置上下文窗口大小為1。此時(shí)訓(xùn)練的單語(yǔ)詞嵌入用于訓(xùn)練跨語(yǔ)言詞嵌入,在測(cè)試詞典上得到的準(zhǔn)確率是3.86。表中的6.09則表示將窗口大小為1和窗口大小為10時(shí)訓(xùn)練的單語(yǔ)詞嵌入進(jìn)行平均后訓(xùn)練跨語(yǔ)言詞嵌入進(jìn)行評(píng)估得到的結(jié)果。
同樣的,該實(shí)驗(yàn)在不同語(yǔ)料大小上進(jìn)行的實(shí)驗(yàn)表現(xiàn)出相同的實(shí)驗(yàn)結(jié)果。即無(wú)論是語(yǔ)料大小為20萬(wàn)還是100萬(wàn),簡(jiǎn)單的拼接方法總是能帶來(lái)最大的提升。在20萬(wàn)語(yǔ)料上準(zhǔn)確率的提升在1.16-9.57之間,100萬(wàn)語(yǔ)料上準(zhǔn)確率的提升在2.73-3.41之間。這與3.3.2中提到的集成策略表現(xiàn)一致。其他的集成方法在大多數(shù)情況下能帶來(lái)競(jìng)爭(zhēng)性的結(jié)果,但這一結(jié)果相比簡(jiǎn)單的拼接稍顯遜色。同實(shí)驗(yàn)一的相似之處在于,F(xiàn)astText模型相比于Word2Vec模型在跨語(yǔ)言詞嵌入任務(wù)的學(xué)習(xí)上顯示出了絕對(duì)的優(yōu)勢(shì)。
在之前的實(shí)驗(yàn)中,跨語(yǔ)言詞嵌入的訓(xùn)練及其評(píng)估主要包含以下4步:①分別用多個(gè)模型訓(xùn)練兩種語(yǔ)言的單語(yǔ)詞嵌入。②將不同模型下訓(xùn)練的單語(yǔ)詞嵌入進(jìn)行集成。③利用現(xiàn)有跨語(yǔ)言詞嵌入工具將集成后的單語(yǔ)詞嵌入作為輸入,學(xué)習(xí)源語(yǔ)言到目標(biāo)語(yǔ)言的映射關(guān)系,最終得到同一語(yǔ)義空間中的不同語(yǔ)言的詞嵌入表示。④給定源語(yǔ)言單詞,根據(jù)相關(guān)的檢索算法,如:最近鄰算法、CSLS算法等找到與該單詞相同意義的目標(biāo)單詞。然而在實(shí)驗(yàn)中發(fā)現(xiàn),在訓(xùn)練時(shí),學(xué)習(xí)目標(biāo)語(yǔ)言到源語(yǔ)言的映射關(guān)系,但是在歸納雙語(yǔ)詞典時(shí),給定原語(yǔ)言單詞,檢索與該單詞對(duì)應(yīng)的目標(biāo)單詞會(huì)極大程度地提高測(cè)試詞典的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如表4所示。
表4 反向訓(xùn)練實(shí)驗(yàn)結(jié)果
該實(shí)驗(yàn)可以直接與3.3.2的實(shí)驗(yàn)結(jié)果做對(duì)比,都是基于不同模型的相同模式進(jìn)行集成的。首先從不加任何集成方法的baseline就可以看出,在20萬(wàn)語(yǔ)料上,測(cè)試詞典上的準(zhǔn)確率是之前的2倍多。在100萬(wàn)語(yǔ)料上準(zhǔn)確率提升了7.67%~15.5%。除此之外,提出的集成策略在此基礎(chǔ)上帶來(lái)了更大的提升。和之前的實(shí)驗(yàn)表現(xiàn)基本一致,平均的集成策略似乎并不利于跨語(yǔ)言詞嵌入的學(xué)習(xí)。而拼接方法能夠帶來(lái)更大的收益。這樣一來(lái),先將單語(yǔ)詞嵌入進(jìn)行集成,再反向訓(xùn)練跨語(yǔ)言詞嵌入,可以在雙語(yǔ)詞典歸納中得到更好的表現(xiàn)。在該實(shí)驗(yàn)中的100萬(wàn)語(yǔ)料上,最高的準(zhǔn)確率是基線的2倍,從一開(kāi)始的27.77到集成、反向訓(xùn)練后的50.51。而在20萬(wàn)的低資源上最高準(zhǔn)確率幾乎是基線的4倍,從一開(kāi)始的7.25到現(xiàn)在的27.73。
在主流的跨語(yǔ)言詞嵌入研究中,單語(yǔ)詞嵌入是該類(lèi)方法的基礎(chǔ),因此,訓(xùn)練高質(zhì)量的單語(yǔ)詞嵌入至關(guān)重要。在英漢上的實(shí)驗(yàn)首先探討了不同單語(yǔ)詞嵌入模型訓(xùn)練的詞嵌入對(duì)跨語(yǔ)言詞嵌入影響,發(fā)現(xiàn)融合了子詞信息的FastText模型下的Skip-Gram訓(xùn)練的單語(yǔ)詞嵌入更加有益于跨語(yǔ)言詞嵌入訓(xùn)練。其次,在不同數(shù)據(jù)規(guī)模上,實(shí)驗(yàn)了多種對(duì)不同單語(yǔ)詞嵌入進(jìn)行集成得到元嵌入從而進(jìn)行跨語(yǔ)言詞嵌入研究的策略。實(shí)驗(yàn)結(jié)果表明,無(wú)論數(shù)據(jù)規(guī)模有多大,集成辦法總是有效的,并且簡(jiǎn)單的詞嵌入拼接方法似乎更加有利于跨語(yǔ)言詞嵌入的訓(xùn)練。最后,經(jīng)驗(yàn)表明,當(dāng)反向訓(xùn)練的時(shí)候,準(zhǔn)確率會(huì)有極大的提升,這為之后的研究提供了新的思路。該方法極具擴(kuò)展性,包括:在實(shí)踐中,可以將更大語(yǔ)料上的詞嵌入進(jìn)行集成,可以將更多樣的單語(yǔ)詞嵌入模型進(jìn)行集成。同時(shí),該方法與跨語(yǔ)言詞嵌入模型的訓(xùn)練無(wú)關(guān),因此,它可以與任何跨語(yǔ)言詞嵌入模型相結(jié)合。并隨著跨語(yǔ)言詞嵌入模型算法的改進(jìn)進(jìn)一步提高雙語(yǔ)詞典歸納的準(zhǔn)確率。