代佳洋,周 棟
(湖南科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,湖南 湘潭 411201)
隨著互聯(lián)網(wǎng)的發(fā)展與全球化進(jìn)程的推進(jìn),信息數(shù)量飛速增加,用戶在非母語條件下進(jìn)行檢索的需求也逐漸提高。如何使用戶便捷高效地獲取其他語種的信息成為研究的熱點(diǎn)[1]。借助跨語言信息檢索(cross-language information retrieval, CLIR)技術(shù),用戶可以使用母語直接檢索多種其他語言的信息,因而跨語言檢索技術(shù)的研究有重要的現(xiàn)實(shí)意義。
傳統(tǒng)的信息檢索通常通過簡單的關(guān)鍵字匹配,或是依賴人工編制特征進(jìn)行檢索[2-3]。前者效果較差,后者過程復(fù)雜且成本高昂。近些年,深度神經(jīng)網(wǎng)絡(luò)技術(shù)的突破使得神經(jīng)檢索模型在單語言信息檢索領(lǐng)域獲得了巨大的成功。例如,Pang等[4]提出MatchPyramid模型,將查詢和文檔交互構(gòu)成一張“圖”,使用多層卷積提取查詢和文本的交互信息進(jìn)行檢索。Xiong等[5]提出KNRM模型,首先生成查詢和文檔的交互矩陣,然后通過不同均值的高斯核提取交互矩陣上不同級(jí)別的余弦相似度,最后匯總相似度信息進(jìn)行檢索。相比人工編制特征的傳統(tǒng)方法,深度神經(jīng)網(wǎng)絡(luò)能自動(dòng)提取數(shù)據(jù)特征,一方面降低了特征提取的難度,另一方面能獲取人工難以提取的復(fù)雜特征[6]。
神經(jīng)檢索模型在單語言檢索任務(wù)中取得的成功,使得一些學(xué)者開始關(guān)注其在跨語言檢索領(lǐng)域的潛力[7-8]。例如,Yu等[7]嘗試在跨語言詞嵌入(cross-language word embedding, CLWE)空間中使用現(xiàn)有的神經(jīng)檢索模型執(zhí)行CLIR任務(wù),其實(shí)驗(yàn)結(jié)果表明,現(xiàn)有的神經(jīng)檢索模型可以不經(jīng)修改,直接在CLWE空間中工作。CLWE通過將不同的語言映射到同一個(gè)向量空間中實(shí)現(xiàn)[9]。Bonab等[8]認(rèn)為不同語種間詞的不一致影響了神經(jīng)檢索模型在跨語言嵌入空間下的性能,因而提出一種稱為Smart Shuffling的跨語言嵌入方法,以生成更高效的跨語言嵌入空間,實(shí)驗(yàn)結(jié)果表明,經(jīng)彌合后的跨語言嵌入明顯提升了神經(jīng)檢索模型的效果。
相關(guān)研究表明,神經(jīng)檢索模型的性能與文本特征提取的效果有關(guān)[10]。目前,在跨語言條件下使用神經(jīng)檢索模型的相關(guān)研究大多使用單任務(wù)學(xué)習(xí),這導(dǎo)致模型提取的文本特征較為單一。另外,在跨語言條件下,不同語言在語法、單詞等方面的差異進(jìn)一步加大了文本特征提取的難度[11]。以上原因限制了神經(jīng)檢索模型在跨語言檢索任務(wù)中的運(yùn)用。
不同任務(wù)的特征提取模式、噪聲形式等通常是不同的[12],通過多任務(wù)學(xué)習(xí)可以使模型獲得層次更豐富、噪聲更低、泛化性更強(qiáng)的特征,從而提升模型性能。例如,Liu等[13]構(gòu)建了一個(gè)多任務(wù)神經(jīng)網(wǎng)絡(luò),同時(shí)執(zhí)行文本分類和信息檢索的特征提取,然后利用提取出的文本特征進(jìn)行檢索,實(shí)驗(yàn)結(jié)果表明,多任務(wù)學(xué)習(xí)能明顯增強(qiáng)模型的特征提取能力,從而增強(qiáng)檢索效果。
本文提出一個(gè)結(jié)合文本分類任務(wù)與跨語言檢索任務(wù)的多任務(wù)學(xué)習(xí)方法,并使用外部語料庫進(jìn)一步提升文本特征的豐富度。具體來說,該方法將外部語料、查詢和文檔通過預(yù)訓(xùn)練的跨語言詞向量模型轉(zhuǎn)換為詞向量,然后將其輸入到一個(gè)基于雙向門控循環(huán)(bidirectional gated recurrent units, Bi-GRU)網(wǎng)絡(luò)的文本分類模型中以提取文本特征,其中,外部語料的文本特征用于執(zhí)行文本分類任務(wù),而查詢和文檔的文本特征被輸入到神經(jīng)檢索模型中用于執(zhí)行跨語言檢索任務(wù)。本文的主要貢獻(xiàn)如下:
1)提出一個(gè)基于多任務(wù)學(xué)習(xí)的跨語言信息檢索方法,并在CLEF 2000-2003數(shù)據(jù)集的4個(gè)語言對(duì)上進(jìn)行實(shí)驗(yàn),證明方法的有效性。
2)研究文本分類任務(wù)對(duì)神經(jīng)匹配檢索模型的輔助機(jī)制,為在CLIR模型中使用多任務(wù)學(xué)習(xí)提供一定的參考。
3)研究外部語料庫對(duì)于CLIR任務(wù)的促進(jìn)作用。
跨語言信息檢索的任務(wù)流程通常分為3步[14]:統(tǒng)一查詢和文檔的語種、提取文本特征、執(zhí)行檢索。根據(jù)統(tǒng)一查詢和文檔語種方法的不同,CLIR模型通??梢苑譃椋夯诜g的CLIR模型[15-20]和基于語義的CLIR模型[7,8,21-27]。
基于翻譯的CLIR模型是目前最主流的CLIR模型[28-29],其通過對(duì)查詢或文檔進(jìn)行翻譯以進(jìn)行語種統(tǒng)一。早期往往使用人工翻譯、詞典等手段,近些年,由于機(jī)器翻譯領(lǐng)域的突破,基于翻譯的CLIR模型已經(jīng)逐漸轉(zhuǎn)向使用機(jī)器翻譯。
例如,Elayeb等[15]提出一個(gè)結(jié)合詞典和機(jī)器翻譯的CLIR模型,首先借助外部詞典對(duì)查詢中的實(shí)體詞進(jìn)行精確翻譯,然后利用翻譯后的實(shí)體詞,輔助機(jī)器翻譯模型對(duì)查詢進(jìn)行翻譯。相比僅使用機(jī)器翻譯,該模型的翻譯精度更高,檢索效果更好。黃名選等[16]提出一種結(jié)合查詢擴(kuò)展和查詢翻譯的CLIR方法,該方法使用剪枝策略挖掘加權(quán)關(guān)聯(lián)規(guī)則,然后根據(jù)規(guī)則提取高質(zhì)量擴(kuò)展詞對(duì)查詢進(jìn)行擴(kuò)展,再翻譯擴(kuò)展后的查詢用于CLIR任務(wù)。Ture等[17]構(gòu)建一個(gè)用于CLIR任務(wù)的分層翻譯系統(tǒng),將翻譯任務(wù)分為短語、語法、語義3個(gè)層級(jí),然后整合3個(gè)層級(jí)的翻譯結(jié)果,相比直接翻譯整個(gè)句子,這個(gè)立體翻譯模型輸出的翻譯更適用于CLIR任務(wù)。Azarbonyad等[18]提出一種通過LTR(learn to ranking)技術(shù)同時(shí)使用多個(gè)翻譯資源的方法,該方法使用多個(gè)獨(dú)立的翻譯資源對(duì)查詢進(jìn)行翻譯,然后通過LTR選取數(shù)個(gè)最優(yōu)的翻譯并將其組合以獲取最終翻譯結(jié)果,結(jié)果表明,LTR可成功地組合不同翻譯資源以提高CLIR性能。梁少博等[19]通過抽取雙語數(shù)據(jù)集中的命名實(shí)體構(gòu)建雙語詞典,并使用提問式翻譯策略實(shí)現(xiàn)查詢和文檔的統(tǒng)一。Chandra等[20]建立一個(gè)雙向翻譯系統(tǒng)來執(zhí)行CLIR任務(wù),這個(gè)雙向翻譯系統(tǒng)將文本翻譯之后再反向翻譯回原來的語種,通過反向翻譯的結(jié)果對(duì)翻譯系統(tǒng)的效果進(jìn)行評(píng)估以改善其質(zhì)量,結(jié)果表明,反向翻譯提升了翻譯的質(zhì)量,從而改善了CLIR任務(wù)的表現(xiàn)。
基于翻譯的CLIR模型的準(zhǔn)確性依賴于翻譯的準(zhǔn)確性[30],但不同語種間的詞匯通常難以完全匹配,翻譯模型的性能會(huì)因詞匯不匹配導(dǎo)致的翻譯錯(cuò)誤而受損[7],影響檢索效果。而基于語義的CLIR模型在應(yīng)對(duì)詞匯不匹配的問題時(shí)效果更好?;谡Z義的CLIR技術(shù)是指通過語義模型,將2種不同的語言在語義上進(jìn)行統(tǒng)一后再執(zhí)行IR任務(wù)。由于近些年深度學(xué)習(xí)技術(shù)的發(fā)展,基于語義的CLIR模型展現(xiàn)出極大的發(fā)展?jié)摿Α?/p>
馬路佳等[21]提出一種基于跨語言詞向量和查詢擴(kuò)展的CLIR方法,該方法使用跨語言詞向量建立漢語查詢到蒙古文查詢之間的映射,然后使用3種不同的查詢擴(kuò)展方法對(duì)翻譯后的蒙古文查詢進(jìn)行擴(kuò)展和篩選,再執(zhí)行CLIR任務(wù)。Litschko等[22]提出一種使用多個(gè)單語言語料庫進(jìn)行無監(jiān)督學(xué)習(xí)訓(xùn)練CLWE并進(jìn)行CLIR的方法。具體來說,通過GAN誘導(dǎo)2個(gè)單語詞向量進(jìn)行對(duì)齊,彌合不同語言間的語義鴻溝以生成CLWE空間,然后通過TbT-QT和BWE-Agg模型完成CLIR任務(wù)。TbT-QT利用CLWE將每個(gè)查詢詞翻譯成與其最接近的跨語言鄰居詞,然后使用查詢似然模型進(jìn)行單語言檢索。BWE-Agg通過匯總查詢和文本的CLWE獲得查詢和文檔嵌入的余弦相似度,再使用相似度對(duì)查詢和文檔進(jìn)行排名。
Yu等[7]利用CLWE把查詢和文檔映射到同一個(gè)語義空間中,再通過神經(jīng)匹配模型進(jìn)行檢索,實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)的神經(jīng)匹配模型能夠不經(jīng)過修改直接在CLWE空間中工作。Bonab等[8]提出一種稱為Smart Shuffling的跨語言嵌入方法,該方法通過彌合不同語言間的差異以生成更高質(zhì)量的跨語言嵌入空間,有效改善神經(jīng)檢索模型在CLIR中的表現(xiàn)。鄒小芳等[23]提出借助中間語義空間對(duì)平行語料進(jìn)行建模的方法,實(shí)驗(yàn)結(jié)果表明,在中間語義空間中對(duì)語料進(jìn)行建模的穩(wěn)定性較高,檢索效果更好。
近些年深度學(xué)習(xí)領(lǐng)域的突破,使得許多新技術(shù)得以在CLIR領(lǐng)域中運(yùn)用,但其中大部分方法都僅使用單任務(wù)學(xué)習(xí),導(dǎo)致提取的文本特征較為單一,這限制了神經(jīng)檢索模型在CLIR任務(wù)中的效果。因而本文嘗試使用多任務(wù)學(xué)習(xí)技術(shù)增強(qiáng)文本特征的提取,從而改善神經(jīng)檢索模型在CLIR任務(wù)中的表現(xiàn)。
首先給出CLIR任務(wù)的定義:
q=γquery(qo),
(1)
d=γdoc(do),
(2)
f(q,d)=g(ψ(q),φ(d),η(q,d))。
(3)
式中:qo和do是原始查詢和文檔;γquery和γdoc是轉(zhuǎn)換查詢和文檔使其語義統(tǒng)一的模型;q和d是語義統(tǒng)一后的查詢和文檔;ψ和φ是提取查詢和文檔特征的函數(shù);η是提取查詢和文檔交互的函數(shù);g是相關(guān)性計(jì)算函數(shù),它基于查詢和文檔的特征以及它們的交互關(guān)系來計(jì)算兩者的相關(guān)性得分。在本文方法中:γquery和γdoc是預(yù)訓(xùn)練的跨語言詞向量模型,通過將查詢和文檔映射到統(tǒng)一的詞嵌入空間中對(duì)查詢和文檔進(jìn)行建模;ψ和φ是文本分類模型中的Bi-GRU層;η和g是神經(jīng)檢索模型。
圖1是本文模型的總體框架,由以下3個(gè)部分組成:
圖1 總體框架Fig. 1 Overall framework
1)文本分類模型(輔助任務(wù)):該模型通過外部語料進(jìn)行訓(xùn)練。利用預(yù)訓(xùn)練的跨語言詞向量模型將外部語料轉(zhuǎn)換為詞向量后,通過神經(jīng)網(wǎng)絡(luò)提取文檔的特征并進(jìn)行分類。圖1中的文本特征提取層本質(zhì)上是一個(gè)Bi-GRU層。整個(gè)模型具體結(jié)構(gòu)在2.1節(jié)給出。
2)共享的文本特征提取層:本層為文本分類模型的特征提取層,本文通過在CLIR模型中共享該層以進(jìn)行多任務(wù)學(xué)習(xí),即CLIR任務(wù)的文本特征提取工作由該層完成。查詢與文檔通過預(yù)訓(xùn)練的跨語言詞向量模型轉(zhuǎn)換為詞向量后,使用該共享特征提取層提取文本特征,供神經(jīng)檢索模型使用。雖然本模型中的跨語言詞向量層也是共享的,但是該層是一個(gè)固定的詞向量層。
3)神經(jīng)檢索模型(主任務(wù)):為了驗(yàn)證本文提出的多任務(wù)學(xué)習(xí)方法的可靠性,使用數(shù)個(gè)不同的基于交互的神經(jīng)檢索模型進(jìn)行實(shí)驗(yàn),其計(jì)算流程基本相同。首先,利用文本分類模型提取的查詢和文檔特征,計(jì)算兩者間的交互關(guān)系并提取信息;然后,將其輸入深度神經(jīng)網(wǎng)絡(luò)中執(zhí)行檢索任務(wù);最后,輸出查詢和文檔的匹配分?jǐn)?shù)。
在文本分類任務(wù)上,本文使用HAN(hierarchical attention network)模型[31],其結(jié)構(gòu)如圖2所示。
圖2 HAN模型Fig. 2 HAN model
HAN是一個(gè)雙層文本分類模型,第一層為詞編碼層,通過詞編碼向量計(jì)算每個(gè)句子的編碼向量;第二層為句子編碼層,利用每個(gè)句子的編碼向量計(jì)算出整個(gè)文檔的編碼向量,最后通過文檔編碼向量預(yù)測文檔的類別。具體來說,其計(jì)算流程如下:
首先,將文檔每個(gè)句子中每個(gè)詞轉(zhuǎn)換為詞向量,然后再輸入到詞編碼層的Bi-GRU層中,獲得每個(gè)單詞的隱藏向量:
vij=Word2vec(wij),
(4)
sij=Bi-GRU(vij)。
(5)
獲得每個(gè)單詞的隱藏狀態(tài)后,通過注意力層將其整合為句子的編碼向量:
uij=tanh(Wwhij+bw),
(6)
(7)
(8)
式中:Ww和bw為待學(xué)習(xí)參數(shù);uw是一個(gè)隨機(jī)初始化的向量,通過其與uij的點(diǎn)乘來計(jì)算對(duì)應(yīng)單詞的注意力權(quán)重αij;si為句子i的編碼向量。
獲得所有句子的編碼向量后,將其逐個(gè)送入句編碼層的Bi-GRU層中,獲得每個(gè)句子的隱藏狀態(tài),再通過注意力層進(jìn)行整合,從而獲得整個(gè)文檔的編碼向量:
hi=Bi-GRU(si),
(9)
ui=tanh(Wshi+bs),
(10)
(11)
(12)
最后利用這個(gè)編碼向量預(yù)測文本分類,y是文本分類任務(wù)的輸出:
y=Softmax(v)。
(13)
現(xiàn)有的神經(jīng)檢索模型通常利用查詢和文檔的文本特征來捕捉兩者之間的匹配關(guān)系以進(jìn)行檢索,其性能與文本特征的提取效果直接相關(guān)。在單任務(wù)學(xué)習(xí)的模式下,模型只能學(xué)習(xí)一個(gè)任務(wù)的特征模式,導(dǎo)致提取的文本特征較為單一,從而影響對(duì)查詢與文檔之間匹配關(guān)系的捕捉。在跨語言環(huán)境下,不同語種間的差異進(jìn)一步增加了捕捉匹配關(guān)系的難度。
為此,本文將文本分類任務(wù)和CLIR任務(wù)結(jié)合進(jìn)行多任務(wù)學(xué)習(xí),通過使用HAN模型的一個(gè)文本特征提取層進(jìn)行CLIR任務(wù)的特征提取,使該層同時(shí)學(xué)習(xí)不同的特征提取模式,從而改善特征提取工作的效果。具體來說,本文使用HAN模型句編碼層中的Bi-GRU模型提取文本特征,把查詢和文檔轉(zhuǎn)換為詞向量后直接送入句編碼層的Bi-GRU中,不經(jīng)過詞編碼層,獲得每個(gè)詞的隱藏狀態(tài)后也不通過句注意力層整合。這是因?yàn)镠AN模型的詞編碼層是獨(dú)立處理每個(gè)句子的,CLIR任務(wù)的文本無法進(jìn)行此處理,如果通過句注意力層整合隱藏向量,將會(huì)影響后續(xù)交互矩陣的構(gòu)建。
檢索任務(wù)特征提取的計(jì)算流程如下:
vqi=Wordvecquery(wqi),
(14)
sqi=Bi-GRU(vqi),
(15)
vdj=Wordvecdoc(wdj),
(16)
sdj=Bi-GRU(vdj)。
(17)
當(dāng)模型進(jìn)行訓(xùn)練時(shí),該共享特征提取層將接受不同優(yōu)化目標(biāo)的訓(xùn)練,從而同時(shí)學(xué)習(xí)文本分類任務(wù)和CLIR任務(wù)的特征模式和噪聲規(guī)律,使輸出的sqi和sdj含有層次更豐富的文本特征。此外,分類文檔的語料內(nèi)容會(huì)沿著Bi-GRU傳遞,使sqi和sdj一定程度上含有了外部語料的特征信息,這進(jìn)一步增加了文本特征的豐度。
IR模型取得成功的原因主要?dú)w功于2點(diǎn):多層次匹配模式的學(xué)習(xí)和端到端的詞表征學(xué)習(xí)[7]。因此,本文選擇了2種具有代表性的神經(jīng)IR模型進(jìn)行實(shí)驗(yàn): MatchPyramid和KNRM。
MatchPyramid(MP)是一個(gè)基于交互的神經(jīng)IR模型,該模型首先在單詞級(jí)別上進(jìn)行匹配,通過計(jì)算每個(gè)查詢詞和每個(gè)文檔詞的交互,獲得一個(gè)交互矩陣。然后,將這個(gè)交互矩陣當(dāng)作一張“圖”,將檢索任務(wù)轉(zhuǎn)換為一個(gè)“圖像”識(shí)別任務(wù),對(duì)交互“圖”進(jìn)行多層卷積。最后,利用卷積生成的交互向量計(jì)算查詢與文檔的匹配程度。MP能夠在短語、句子、段落等不同層級(jí)上捕捉查詢與文檔的匹配關(guān)系。
KNRM模型采用查詢-文檔的交互矩陣表征查詢和文檔間的交互(類似于MP),但它使用不同均值μ的高斯核將交互“分類”為不同級(jí)別的余弦相似度,然后整合不同級(jí)別的余弦相似度以計(jì)算查詢和文檔的相似度。KNRM允許梯度穿過高斯內(nèi)核進(jìn)行反向傳播,因此這個(gè)模型支持端到端的詞表征學(xué)習(xí)。
這2個(gè)模型的計(jì)算流程相似,如圖3所示,都是首先提取文本特征,然后根據(jù)文本特征構(gòu)建交互矩陣,再利用神經(jīng)網(wǎng)絡(luò)提取交互矩陣捕捉到的交互信息,最后計(jì)算查詢和文檔的相似度。這2個(gè)模型的計(jì)算流程可以抽象為
圖3 神經(jīng)檢索模型Fig. 3 Neural retrieval model
Sscore=model(sq,sd)。
(18)
式中:
sq=[sq1,sq2,…,sqn];
(19)
sd=[sd1,sd2,…,sdm]。
(20)
sqn和sdm分別為文本特征提取層輸出的查詢中第n個(gè)詞的狀態(tài)向量和文檔中第m個(gè)詞的狀態(tài)向量。
(21)
由于本文選取的數(shù)據(jù)集使用二元的相關(guān)性標(biāo)記,故對(duì)CLIR任務(wù)使用Hinge loss,其具體定義為
LΘ(q,d+,d-)=max(0,1-s(q,d+)+s(q,d-))。
(22)
式中:q是查詢;文檔d+與查詢q相關(guān),而文檔d-與查詢q不相關(guān);s(q,d)表示模型預(yù)測(q,d)間的匹配分?jǐn)?shù);Θ表示神經(jīng)網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù)。
最終,模型的損失函數(shù)為
L=LΘ+Lc。
(23)
本文實(shí)驗(yàn)的硬件平臺(tái)CPU為AMD Ryzen7 3700X,GPU為NVIDIA RTX 3070;操作系統(tǒng)版本為Windows10 1909;使用的軟件為Python 3.6,深度學(xué)習(xí)框架Pytorch 1.2.0。
3.2.1 數(shù)據(jù)集
對(duì)于CLIR任務(wù),本文使用CLEF 2000-2003數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估,這個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。查詢和文檔之間的關(guān)系使用0或1進(jìn)行標(biāo)記,1為相關(guān),0為不相關(guān)。本文共選用4個(gè)語言對(duì):EN→FR、EN→ES、EN→DE、EN→RU,前者為查詢的語種,后者為文檔的語種。為了保證計(jì)算效率,將每個(gè)查詢保留前50個(gè)詞,每個(gè)訓(xùn)練集保留前500個(gè)詞。所有的查詢和文檔均轉(zhuǎn)換為小寫,且刪除了標(biāo)點(diǎn)符號(hào)。
表1 CLEF 2000-2003數(shù)據(jù)集的基本統(tǒng)計(jì)數(shù)據(jù)Tab. 1 Basic statistics of CLEF 2000-2003 data set
對(duì)于文本分類任務(wù),本文使用了XNLI-MT數(shù)據(jù)集。該數(shù)據(jù)集是一個(gè)多語種自然語言推斷數(shù)據(jù)集,每條數(shù)據(jù)由一個(gè)句子對(duì)和一個(gè)真實(shí)標(biāo)記構(gòu)成,模型需要判斷出2個(gè)句子之間的關(guān)系,可能的結(jié)果有3種:蘊(yùn)含、無關(guān)、矛盾。使用該數(shù)據(jù)集的原因是其語種足夠豐富,實(shí)驗(yàn)結(jié)果表明,文本分類模型能夠在這個(gè)數(shù)據(jù)集上正常工作。XNLI-MT數(shù)據(jù)集的每個(gè)句子截?cái)嗟?0個(gè)詞。
本文使用MUSE(multilingual unsupervised and supervised embeddings)對(duì)Wiki語料庫訓(xùn)練出的單語言詞向量進(jìn)行無監(jiān)督對(duì)齊以獲得CLWE。
為了保證實(shí)驗(yàn)結(jié)果的可靠性,本文采用帶有驗(yàn)證和測試集的5折交叉驗(yàn)證:將數(shù)據(jù)集劃分為5組,并進(jìn)行5輪實(shí)驗(yàn),每輪抽取之前沒有抽取過的1組數(shù)據(jù)作為驗(yàn)證集,1組作為測試集,剩余的3組作為訓(xùn)練集。最終結(jié)果取5輪實(shí)驗(yàn)的平均值。
3.2.2 對(duì)比算法
為了檢驗(yàn)本文多任務(wù)學(xué)習(xí)方法對(duì)于神經(jīng)檢索模型的提升效果,本文按照Yu等[7]的實(shí)驗(yàn)設(shè)置,使用工作在跨語言詞向量上的神經(jīng)檢索模型KNRM和MP作為對(duì)比算法,這2個(gè)模型均有一些變體。根據(jù)Yu等[7]的實(shí)驗(yàn)結(jié)果,在CLWE空間中,使用基于余弦相似度的版本效果最好,因而本文使用基于余弦相似度的KNRM、MP模型,并將其分別命名為MP-Cosine、KRNM-Cosine。
另外,為了證明在使用同樣跨語言詞向量的情況下,本文提出的多任務(wù)學(xué)習(xí)方法能使神經(jīng)檢索模型的性能優(yōu)于目前的非神經(jīng)CLIR方法,本文還使用3種基于CLWE的非神經(jīng)CLIR模型作為對(duì)比算法,分別為BWE-Agg-Add、BWE-Agg-IDF和TbT-QT。這幾個(gè)算法是近幾年非神經(jīng)檢索模型的研究成果,均基于跨語言詞向量對(duì)查詢和文檔進(jìn)行統(tǒng)一。
MP-Cosine:該模型基于查詢表征和文檔表征間的相似度計(jì)算其交互,并將全部交互信息構(gòu)成一張交互圖,再通過多層卷積,捕捉查詢和文檔間多級(jí)別的交互信息,最后輸出查詢和文檔的匹配。
KRNM-Cosine:該模型與MP模型類似,采用查詢-文檔的交互矩陣表征查詢和文檔間的交互,但它使用不同均值μ的高斯核將交互分為不同級(jí)別的余弦相似度,以獲得不同級(jí)別的交互信息,然后將不同高斯核輸出的向量加權(quán),或者最終的向量交互,再通過這個(gè)向量計(jì)算出查詢和文檔的相似度。
BWE-Agg-Add:通過匯總查詢和文檔的CLWE獲得查詢和文檔的表示向量,然后根據(jù)查詢和文檔向量的余弦相似度進(jìn)行排序,從而獲得檢索結(jié)果。BWE-Agg-Add使用簡單計(jì)算均值的方法匯總查詢和文檔的嵌入。
BWE-Agg-IDF:同BWE-Agg-Add,但BWE-Agg-IDF使用單詞的TF-IDF進(jìn)行加權(quán)來匯總CLWE,以獲得查詢和文檔嵌入。
TbT-QT:該模型將CLWE作為查詢翻譯資源,通過CLWE將源語言轉(zhuǎn)換為目標(biāo)語言中最接近的單詞,然后使用查詢似然模型進(jìn)行檢索。
對(duì)于多任務(wù)學(xué)習(xí)(multi-task learning, MTL),由于CLIR任務(wù)輸入的語種不同,本文使用2種輔助任務(wù)設(shè)置:一種是執(zhí)行英語文本的分類任務(wù),即與查詢(Query)的語種一致;另一種是執(zhí)行其他語種文本的分類任務(wù),即與文檔(Doc)語種一致。再根據(jù)使用神經(jīng)檢索模型的不同,將其分別命名為MP-MTL-Query、KNRM-MTL-Query、MP-MTL-Doc和KNRM-MTL-Doc。
對(duì)于MP模型,按照原論文的設(shè)置使用單層卷積,其內(nèi)核大小設(shè)置為3×3,動(dòng)態(tài)池大小設(shè)置為5×1,內(nèi)核計(jì)數(shù)設(shè)置為64。對(duì)于KNRM模型,內(nèi)核數(shù)設(shè)置為20,每個(gè)高斯內(nèi)核的標(biāo)準(zhǔn)偏差設(shè)置為0.1。
每個(gè)正樣本采樣5個(gè)負(fù)樣本,每次采樣隨機(jī)選擇被標(biāo)記為不相關(guān)的文檔。在設(shè)置batch size為60的條件下,使用隨機(jī)梯度下降法,設(shè)定初始學(xué)習(xí)率為0.001進(jìn)行優(yōu)化,最多訓(xùn)練20個(gè)epoch。為了提高訓(xùn)練的效率,本文使用Early Stopping。但為了優(yōu)先保證CLIR任務(wù)的訓(xùn)練質(zhì)量,Early Stopping根據(jù)CLIR任務(wù)的損失LΘ進(jìn)行,而不是總損失函數(shù)L。
實(shí)驗(yàn)結(jié)果如表2和表3所示,表2為CLIR任務(wù)(主任務(wù))的MAP值,表3為文本分類任務(wù)(輔助任務(wù))的精確度。
表2 CLEF任務(wù)的MAP值Tab. 2 MAP value of CLEF task
表3 文本分類任務(wù)的精確度Tab. 3 Accuracy of text classification tasks
由表2可知,相比直接運(yùn)行在CLWE空間中的MP和KNRM模型,使用本文提出的多任務(wù)學(xué)習(xí)方法后,除了一組實(shí)驗(yàn)的MAP值低于對(duì)應(yīng)的單任務(wù)學(xué)習(xí)實(shí)驗(yàn)之外,其余各組實(shí)驗(yàn)均有明顯提升。其中,提升幅度最大的實(shí)驗(yàn)分組為工作在EN→RU語對(duì)上的MP-MTL-Query分組,MAP值提高了0.188;而提升幅度最小的是工作在EN→DE語對(duì)上的MP-MTL-Doc分組,其MAP值提高了0.012。這表明本文提出的多任務(wù)學(xué)習(xí)方法是有效的。另外,無論是否使用多任務(wù),神經(jīng)檢索模型的效果均優(yōu)于非神經(jīng)檢索模型。但2種不同的多任務(wù)學(xué)習(xí)方式?jīng)]有明顯的性能區(qū)別,即多任務(wù)方法的提升效果沒有隨著輔助任務(wù)輸入語料的語種變化而發(fā)生改變,這表明,外部語料對(duì)改善文本特征提取的貢獻(xiàn)較小。
相比MP模型,本文的多任務(wù)學(xué)習(xí)方法對(duì)KNRM模型的提升更大。經(jīng)過計(jì)算,使用MP模型的多任務(wù)學(xué)習(xí)實(shí)驗(yàn)組的總體平均提升為0.066,而使用KNRM模型的多任務(wù)實(shí)驗(yàn)組的總體平均提升為0.144。如前文所述,KNRM的優(yōu)勢在于其可以端到端地訓(xùn)練詞表征。根據(jù)文獻(xiàn)[5]描述,如果禁止KNRM訓(xùn)練詞表征,則其性能會(huì)受到較大影響,即高效的詞表征能更明顯地增強(qiáng)KNRM模型的性能,這證明本文的多任務(wù)學(xué)習(xí)方法改善了文本特征提取的效果。
在4個(gè)語言對(duì)中,EN→RU語言對(duì)的提升最明顯。由表1可知,CLEF 2000-2003的俄語數(shù)據(jù)集僅有37個(gè)查詢,平均每個(gè)查詢僅有4.08個(gè)正樣本,即俄語數(shù)據(jù)集僅有151個(gè)正樣本,每輪學(xué)習(xí)時(shí)為5倍負(fù)采樣,并且使用五折交叉學(xué)習(xí),這使得實(shí)際參加訓(xùn)練的樣本僅有761條,極大地影響了神經(jīng)檢索模型(尤其是KNRM模型)的性能。在引入多任務(wù)學(xué)習(xí)之后,多模式特征的捕捉和外部語料起到了數(shù)據(jù)增強(qiáng)的作用,從而使得神經(jīng)檢索模型的性能獲得了明顯提升,表明多任務(wù)學(xué)習(xí)在低資源跨語言檢索領(lǐng)域有著巨大潛力。
由表3可知,在使用多任務(wù)學(xué)習(xí)后,HAN模型在文本分類任務(wù)上的精度有所下降,這可能是因?yàn)镃LIR任務(wù)的文本特征干擾了文本分類任務(wù)的執(zhí)行,也可能是因?yàn)槟P陀?xùn)練時(shí)的Early Stopping以CLIR任務(wù)的損失為計(jì)算標(biāo)準(zhǔn),導(dǎo)致HAN模型欠擬合或過擬合。
本節(jié)繪制各個(gè)神經(jīng)檢索模型在測試階段的epoch-MAP曲線,以了解多輔助任務(wù)對(duì)于主任務(wù)的提升機(jī)制。由于使用的語言對(duì)和神經(jīng)檢索模型各不相同,各組實(shí)驗(yàn)的epoch-MAP曲線沒有表現(xiàn)出統(tǒng)一的模式,但仍然可以得出以下幾個(gè)結(jié)論:
與4.2的結(jié)論一致,多任務(wù)學(xué)習(xí)改善了神經(jīng)檢索模型的性能。由圖4和圖5可知,多任務(wù)學(xué)習(xí)模式的神經(jīng)檢索模型的epoch-MAP曲線普遍高于單任務(wù)學(xué)習(xí)模式曲線,這表明多任務(wù)學(xué)習(xí)的神經(jīng)檢索模型不僅在最終性能上優(yōu)于單任務(wù)學(xué)習(xí)的神經(jīng)檢索模型,而且在整個(gè)訓(xùn)練期間的性能都優(yōu)于單任務(wù)方法。
圖4 使用MP模型時(shí)所有語言對(duì)測試的epoch-MAP曲線Fig. 4 Epoch-MAP curves of all language pairs during testing for MP model
圖5 使用KNRM模型時(shí)所有語言對(duì)測試的epoch-MAP曲線Fig. 5 Epoch-MAP curves of all language pairs tested for KNRM model
從圖4(d)和圖5(d)可以看出,由于俄語數(shù)據(jù)集的規(guī)模過小,在沒有使用多任務(wù)學(xué)習(xí)時(shí),模型的性能幾乎不會(huì)隨著學(xué)習(xí)的進(jìn)行而獲得提升,這表明神經(jīng)檢索模型本身很難提取小規(guī)模數(shù)據(jù)集的文本特征。而使用多任務(wù)學(xué)習(xí)方法提取文本特征之后,在不改變數(shù)據(jù)集規(guī)模的情況下,神經(jīng)檢索模的性能有了明顯提升。這證明本文的方法對(duì)神經(jīng)檢索模型的提升更多來自于更高效、更精確的特征捕捉。
使用本文提出的多任務(wù)學(xué)習(xí)方法后,神經(jīng)檢索模型的收斂速度有明顯提高,大部分多任務(wù)學(xué)習(xí)的分組在epoch 6~8即可到達(dá)較高的MAP;而單任務(wù)學(xué)習(xí)的神經(jīng)檢索模型通常在10個(gè)epoch的訓(xùn)練左右到達(dá)較高的MAP。由于使用了Early Stopping,各多任務(wù)實(shí)驗(yàn)組和對(duì)應(yīng)的單任務(wù)學(xué)習(xí)對(duì)照組在訓(xùn)練中觸發(fā)Early Stopping時(shí)的epoch如表4所示。由于本文使用五折交叉訓(xùn)練,故表4記錄的epoch值為5輪訓(xùn)練的均值。經(jīng)計(jì)算,相比單任務(wù)學(xué)習(xí),多任務(wù)學(xué)習(xí)實(shí)驗(yàn)組的收斂速度平均提高了24.3%。這表明,多任務(wù)學(xué)習(xí)還提高了神經(jīng)檢索模型的訓(xùn)練效率,使其能更快訓(xùn)練到最佳狀態(tài),這是本文的多任務(wù)學(xué)習(xí)方法有效的另一個(gè)原因。
表4 提前終止訓(xùn)練時(shí)的epoch值Tab. 4 Epoch when training is terminated early
如4.2節(jié)所述,不同外部語料對(duì)各組實(shí)驗(yàn)沒有展示出明顯的性能影響,即外部語料的貢獻(xiàn)有限,這個(gè)結(jié)論在epoch-MAP曲線上得到了一定程度的驗(yàn)證。一部分實(shí)驗(yàn)組的epoch-MAP曲線在MTL-Query和MTL-Doc呈現(xiàn)了類似的趨勢,而另一部分則是完全不同的模式,即外部語料對(duì)本文的多任務(wù)學(xué)習(xí)方法沒有特定的影響模式。
本文提出一種基于多任務(wù)學(xué)習(xí)的跨語言信息檢索方法,利用文本分類模型捕捉CLIR任務(wù)所需的特征,并通過外部語料對(duì)其進(jìn)行補(bǔ)充,最后利用捕捉的特征在基于匹配的神經(jīng)檢索模型上執(zhí)行CLIR任務(wù)。相比僅進(jìn)行單任務(wù)學(xué)習(xí)的跨語言神經(jīng)檢索方法,多任務(wù)學(xué)習(xí)方法獲取到的特征層次更加豐富,能有效地提高神經(jīng)檢索模型的效果。在4種不同語言對(duì)上進(jìn)行的實(shí)驗(yàn)表明,本文提出的多任務(wù)學(xué)習(xí)方法使神經(jīng)檢索模型的MAP值提高0.012~0.188,并使模型的收斂速度平均提高了24.3%,證明了本文方法的有效性。
由于現(xiàn)階段跨語言神經(jīng)檢索模型的表現(xiàn)欠佳,本文方法為跨語言環(huán)境下使用經(jīng)典的單語神經(jīng)檢索模型提供了一定參考。此外,在俄語數(shù)據(jù)集上的結(jié)果表明,本文方法在數(shù)據(jù)集規(guī)模較小的情況下對(duì)神經(jīng)檢索模型的提升幅度更多,因此該方法在低資源跨語言檢索領(lǐng)域存在巨大潛力,這為今后研究的方向提供了指引。另外,實(shí)驗(yàn)結(jié)果表明,外部語料在本文方法中的貢獻(xiàn)有限,未來可以考慮提出一種不依賴于外部語料的多任務(wù)CLIR方法,例如使CLIR語料能同時(shí)應(yīng)用于文本分類模型和神經(jīng)檢索模型,這將增強(qiáng)多任務(wù)學(xué)習(xí)在CLIR領(lǐng)域的實(shí)用性。