李炫達,周蘭江,張建安
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
老撾與我國云南接壤,其語言老撾語屬漢藏語系,在機器翻譯中屬于資源稀缺型語言。漢老雙語句子相似度計算是指計算漢語和老撾語之間的句子語義相似程度,是抽取漢老雙語平行句對的重要方法,在老撾語研究中具有非常重要的地位。
近年來,傳統(tǒng)方法和基于神經(jīng)網(wǎng)絡模型的方法在跨語言句子相似度計算任務中均取得了很好的效果,然而目前主流的傳統(tǒng)方法如基于雙語詞典匹配的方法[1-2]、基于特征工程的方法[3-4]等往往需要大規(guī)模的語料數(shù)據(jù)和提取大量的文本特征來表征句子相似度;基于神經(jīng)網(wǎng)絡模型的方法[5-8]雖然可以使用網(wǎng)絡結構提取文本特征,通過計算特征向量間的距離來表征句子相似度,但在面對跨度較大的語言時,其使用網(wǎng)絡結構提取特征的效果較差,因此對于語言結構差異性較大的語言,大多考慮在神經(jīng)網(wǎng)絡模型中融合傳統(tǒng)方法文本特征。
目前已有的工作大多為使用基于特征工程的方法提取文本特征后,將其對應的特征向量與句子的分布式表示進行拼接以融合特征信息[9],通過神經(jīng)網(wǎng)絡模型表征句子的相似度。老撾語的基礎研究薄弱,目前還沒有成熟的句法分析工具,難以使用傳統(tǒng)方法提取特征,因此本文在研究了漢語和老撾語的句子結構異同后,構建了一種根據(jù)關鍵詞性和位置信息來獲取老撾語句子結構特征的特征模板,提出一種融合句子結構特征的漢老雙語句子相似度計算方法。不同于目前提取特征向量再進行拼接的方法,由于本文特征模板提取句子結構特征需要確定詞性和位置信息,因此需要先添加特征標記,再將含有特征標記的句子進行分布式表示,并映射到共享的語義空間,最后通過帶有自注意力(self-attention)機制的雙向長短時記憶網(wǎng)絡(BiLSTM)模型得到漢老雙語句子的相似度分數(shù)。實驗結果表明,與目前主流方法相比,本文方法在有限的語料下具有更優(yōu)的表現(xiàn),模型的F1值達到了70.24%。
本文的主要貢獻如下:
(1) 提出一種通過關鍵詞性和位置信息來獲取老撾語句子結構特征的特征模板。
(2) 將漢-老雙語詞嵌入映射到共享的語義空間,減少了漢、老語言間的差異性。
(3) 在BiLSTM網(wǎng)絡中加入自注意力機制,有效提高跨語言句子相似度計算模型的效果。
本文組織結構如下: 引言部分介紹本文的研究背景及目的,第1節(jié)為相關工作,綜述雙語句子相似度計算的相關文獻;第2節(jié)介紹漢語和老撾語句子結構的異同;第3節(jié)介紹本文使用模型的結構;第4節(jié)為本文模型的設置與相關實驗的結果;第5節(jié)為總結與展望。
傳統(tǒng)的雙語句子相似度計算方法主要有以下三類方法。
(1) 基于雙語詞典匹配的方法這類方法的思想是使用雙語詞典將源語言和目標語言轉換為中間層語言,通過計算詞的相似度來衡量句子的相似性,如石杰等人[1]使用多語言版本的WordNet將漢語和泰語轉換為英語,通過轉換后文本的特征詞匹配來計算相似度;閆紅等人[2]通過HowNet的多義詞消歧對句子中的詞語進行處理,以詞語相似度為基礎計算了句子的相似度。
(2) 基于特征工程的方法這類方法的思想是通過抽取文本特征來表示句子的語義信息,從而計算句子間的相似度,如Tian等人[3]通過提取句子的序列特征、句法分析特征、句子對齊特征來表示句子語義信息,計算英語、阿拉伯語和西班牙語間的句子語義相似度;黃洪等人[4]利用依存句法分析方法得到句子中各成分的關系特征,以獲取句子的核心詞和關鍵詞,通過詞匹配的方法計算句子相似度。
(3) 基于機器翻譯模型的方法這類方法的思想是將源語言翻譯成目標語言來計算跨語言句子的相似度,如Erdmann等人[10]將雙語維基百科的文章翻譯為同一語言來計算文章的相似度,構建了雙語詞典;Wu等人[11]將目標語言翻譯為英語后,通過WordNet詞典中層次樹結構的非重疊信息計算了英語、阿拉伯語和西班牙語間的句子語義相似度。
傳統(tǒng)方法雖然取得了不錯的效果,但基于雙語詞典匹配的方法仍需要大量的雙語詞典資源來解決未登錄詞問題,特征工程的方法需要人工抽取大量的文本特征以保證句子語義信息的準確性,機器翻譯模型的方法依賴于翻譯的效果。隨著深度學習的興起,基于神經(jīng)網(wǎng)絡模型的跨語言句子相似度計算方法在無需傳統(tǒng)特征的基礎上取得了較好的結果[12-14]。Mueller等人[5]提出了一種連體LSTM網(wǎng)絡結構(Siamese LSTM),通過將句子對輸入到共享參數(shù)的LSTM網(wǎng)絡,得到特征向量后計算向量間的曼哈頓距離表征句子對的相似度;李霞等人[6]分別運用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)和注意力機制(attention mechanism)得到每個句子的局部語義信息和全局語義信息,將其拼接后傳輸?shù)饺B接網(wǎng)絡層,計算得到句子間的相似度分數(shù);Chi等人[7]將改進的連體LSTM網(wǎng)絡與注意力機制結合,得到更加準確的句子語義向量,通過全連接網(wǎng)絡層計算向量間的相對差與相對積來獲得句子間的相似性分數(shù)。Chien等人[8]通過學習轉換矩陣將訓練好的漢語詞嵌入映射到英語詞嵌入語義空間,然后計算漢語和英語句子的平均逐詞相似度,從而獲取平行句子對。
老撾語的句子構成分為主要成分和次要成分,主要成分指句子的主謂(或主謂賓)成分;次要成分指解釋句子主要成分的附加部分,即定語、狀語、補語等。漢語和老撾語的主要成分具有相同的順序結構,均為主謂賓順序(SVO),并且漢語和老撾語的主要成分通常由相同詞性的單詞構成[15],如表1所示的例句為經(jīng)過詞性標注和句子主要成分標注處理的句子,其中,/p、/r、/v、/u、/m、/n、/a分別表示介詞、代詞、動詞、助詞、數(shù)詞、名詞和形容詞性標記;Subject,Verb,Object分別表示句子的主語、謂語和賓語。通過表1可知,具有完整主謂賓結構的漢老雙語句子,其主謂賓在句子中具有相同或相近的位置,并且通常由相近詞性的單詞來構成主謂賓成分;缺少賓語結構的漢老雙語句子,其主語和謂語具有相同或相近的位置,并且同樣由相近詞性的單詞來構成主謂成分。
漢語和老撾語的主語都可以由名詞、代詞等詞性充當,并且在句子中處于相同的位置;謂語由動詞、形容詞等詞性充當,并且謂語都位于主語之后;賓語構成的詞類一致,并且都位于謂語之后。因此對于老撾語,可以通過句子中的名詞、代詞、動詞和形容詞以及其在句子中對應的位置來識別老撾語句子的主要成分,提取句子的結構特征。
表1 漢語-老撾語句子結構示例
本文構建模型的基本思路如下: 首先對漢語和老撾語的平行句對進行分詞和詞性標注預處理,通過漢語句法分析工具和本文提出的老撾語句子結構特征標記模板分別獲取漢、老句子的句子結構特征,加入特征標記;其次,預訓練含有特征標記的漢語和老撾語詞向量分布式表示,使用雙語種子詞典將漢老雙語詞嵌入映射到共享的語義空間,通過帶有自注意力機制的雙向長短時記憶網(wǎng)絡(BiLSTM)獲取含有長距離語義信息的雙語句子對特征向量表示;最后,分別計算雙語特征向量的相對差和相對積,將結果拼接后傳輸?shù)饺B接網(wǎng)絡層計算出相似度分數(shù),模型的結構如圖1所示。
本文模型由以下部分構成:
(1)預處理層: 對給定的漢語、老撾語雙語句子進行分詞和詞性標注,分別使用CoreNLP工具和本文提出的特征模板對漢語和老撾語添加句子結構特征標記。
(2)詞嵌入層: 輸入預處理好的具有句子結構特征標記的漢老雙語句子對,利用預訓練的方式映射在共享語義空間的雙語詞向量進行轉換,得到對應的詞向量序列。
(3)BiLSTM層: 針對句子訓練的問題,是一個典型的序列到序列的問題,BiLSTM可以較好地捕捉到句子之間的特征[16],將漢老雙語句子對應的詞向量序列輸入到BiLSTM網(wǎng)絡中,得到含有雙向語義信息的特征向量。
(4)自注意力層: 自注意力層可以有效捕獲長距離語義特征[17]。將含有雙向語義信息的特征向量傳輸?shù)阶宰⒁饬又?,得到含有長距離語義信息的漢老雙語句子特征向量。
(5)全連接層: 將得到的漢老雙語句子特征向量分別進行按位減和按位乘操作,把結果進行拼接后傳輸?shù)饺B接網(wǎng)絡層中計算得到漢老句子對的相似度分數(shù)。
老撾語是一種缺少語料資源的稀缺語言,由于缺少成熟的句法分析工具,無法直接獲取句法特征向量。本文在對漢語和老撾語句子結構進行研究后,發(fā)現(xiàn)漢老雙語句子成分相似[15],并且具有相同的主謂賓結構(SVO),因此可以通過關鍵詞性和位置信息在原句中添加句子成分標記, 獲 取句子結構特征。使用實驗室開發(fā)的老撾語分詞工具[18]和詞性標注工具[19]對老撾語句子進行處理,保留句子中的名詞、動詞、形容詞和代詞詞性,按以下規(guī)則構建特征標記模板來獲取老撾句子結構標記:
圖1 融合老撾語句子結構特征的漢老雙語句子相似度計算模型圖
(1) 若老撾語句子保留的詞性中擁有除動詞和形容詞詞性以外的其他詞性,則將句子中連續(xù)的動詞和形容詞詞性視為一個成分,在末尾添加標記verb;將老撾語句子中連續(xù)的名詞、代詞詞性視為一個成分,在末尾添加標記func_tag;
(2) 若句子僅有一個verb標記且具有多個func_tag標記,則verb前的func_tag標記部分為主語成分,替換func_tag為sub標記;verb后的func_tag為賓語成分,替換為obj標記;
(3) 若句子僅有一個verb標記和一個func_tag標記,且func_tag位于verb之前,則把句子視為缺少賓語的主謂句,func_tag為主語成分,將其替換為sub標記;
(4) 不滿足以上條件時,句子多為成分不全的簡單句或具有從句的復雜句,使用特征標記模板難以獲取句子結構特征,因此不做處理。
圖2 老撾語句子結構標記過程圖
圖3 漢語句子結構標記過程圖
圖3為使用CoreNLP對例句“他特別喜歡運動”進行標記的過程,首先經(jīng)過分詞和詞性標記處理后,通過CoreNLP的句法分析得到句子的主謂賓成分,最后將多余句子成分標記去除后,替換為和老撾語相同的標記(sub)、(verb)、(obj)。
通過以上處理,即可在漢語和老撾語句子中加入特征標記。
詞向量分布式表示可以將單詞映射到低維空間中,不同的維度可以表征不同的語義信息。對于跨度較大的語言,通常將不同語言的詞嵌入映射到相同的向量空間中,保證單語言下的語義不變性,同時確保具有相同語義的詞非常接近。漢語和老撾語的語言差異性較大,因此在本模型中通過利用漢老雙語種子詞典映射的方式將漢語和老撾語映射到共享的語義空間。
對于分別預訓練好且?guī)в刑卣鳂擞浀臐h語和老撾語詞嵌入矩陣S、T,與Artetxe[20]等人的方法類似,引入雙語種子詞典M,通過SVD以自學習的方式和迭代算法學習線性轉換矩陣,得到最佳映射矩陣W*后對漢語詞嵌入矩陣進行線性變換得到S′,即可將漢語和老撾語詞向量映射在共享的語義空間,如式(1)、式(2)所示。
S′=SW*
(1)
(2)
其中,Si表示第i個漢語的詞嵌入,Tj表示第j個老撾語的詞嵌入。隨機抽取100對漢老雙語詞向量,映射前和映射后的詞嵌入在二維空間下的分布如圖4、圖5所示。
圖4 映射前的漢老雙語詞嵌入圖
圖5 映射后的漢老雙語詞嵌入圖
通過以上處理,即可將漢老雙語分布式表示映射到共享的語義空間,縮小語言的差異性。
BiLSTM通過一個正向順序讀取句子的LSTM和一個反向順序讀取句子的LSTM來分別生成兩個隱藏狀態(tài),將其拼接得到含有雙向信息輸出的網(wǎng)絡結構。LSTM的計算如式(3)~式(8)所示。
其中,it表示LSTM的輸入門,ft表示遺忘門,ot表示輸出門,ht為LSTM網(wǎng)絡輸出的隱藏狀態(tài);Wi、Wf、Wo、Wu、Ui、Uf、Uo、Uu是權重數(shù)據(jù);bi,bf,bo,bu為偏置量。
(9)
通過以上處理,即可分別得到含有雙向語義信息的漢老雙語句子特征向量表示。
自注意力層是一般注意力機制(attention)的一種特殊情況[17],與一般的注意力機制相比,自注意力機制可以無視詞之間的距離而直接計算依賴關系,對于捕獲句子長距離依賴關系和學習句子內(nèi)部結構的特點具有更好的效果。本文處理的對象為漢老雙語句子對,使用自注意力機制可以得到更加準確的句子特征表示。將BiLSTM網(wǎng)絡層得到的漢老雙語句子輸出狀態(tài)H1和H2分別輸入到自注意力層,通過自注意力層學習詞和特征的重要性,同時學習句子的序列信息,最終分別得到含有長距離語義信息的漢老雙語句子對特征向量。自注意力層的計算如式(10)所示。
a=softmax(wl2tanh(wl1H))
(10)
圖6 自注意力機制計算過程
自注意力層的計算過程如圖6所示,其中,H表示BiLSTM網(wǎng)絡層的輸出結果,H∈RT×j,T為句子長度,j為LSTM單元的輸出維度,wl1和wl2為自注意力網(wǎng)絡層學習得到的權重矩陣。通過將漢語和老撾語的輸出結果H1和H2輸出自注意力機制層,經(jīng)過第一層線性網(wǎng)絡層L1和第二層線性網(wǎng)絡層L2計算后分別得到句子中詞的特征權重分數(shù)a1和a2,將其與對應的向量和加權求和,得到含有長距離語義信息的漢老句子對特征向量C1和C2,計算如式(11)所示。
Ci=ai⊕Hi
(11)
通過自注意力層的計算,即可分別得到含有長距離語義信息的漢老雙語句子特征向量表示。
對于漢老雙語句子對S1和S2,通過3.1~3.5節(jié)所描述的方法獲取含有長距離語義信息和句子結構信息的漢老雙語句子語義表示向量C1和C2后,分別對其進行按位減和按位乘操作,捕獲句子對間的匹配信息,將結果進行拼接后傳輸?shù)饺B接網(wǎng)絡層,計算漢老雙語句子對的相似度分數(shù)p。具體計算如式(12)~式(15)所示。
其中,W1,W2,Ws,b,c為模型參數(shù),p為取值介于0至1之間的相似度分數(shù)。模型采用交叉熵(cross entropy)作為目標函數(shù),如式(16)所示。
L=ylog(p)+(1-y)log(1-p)
(16)
通過以上公式,即可計算得到漢老句子對S1和S2的相似度分數(shù)p。
4.1.1實驗數(shù)據(jù)與模型設置
表2 漢老雙語數(shù)據(jù)集
實驗在固定隨機種子數(shù)下使用10折交叉驗證,將構建的漢老雙語平行句對語料庫的90%作為訓練集,剩余的10%作為測試集分別訓練10次,取實驗結果的均值,每次訓練使用的數(shù)據(jù)集劃分如表3所示。
表3 數(shù)據(jù)集劃分
模型實現(xiàn)使用Python語言及Keras框架,表4 列出了模型的實驗參數(shù)設置。
表4 模型超參數(shù)
4.1.2 評價指標
本文按照標準評價指標,統(tǒng)計了各種方法的準確率P和召回率R,在此基礎上將各方法的F1值作為衡量模型是否可以正確分類漢語-老撾語的平行句子的最終評價指標。采用0.5作為句子相似的判別閾值,當句子對的相似度分數(shù)大于0.5時即將其分為相似句子對。準確率P、召回率R、F1值的具體計算如式(17)~式(19)所示。
本文使用的模型框架為帶有自注意力機制的BiLSTM模型,在此基礎上加入了句子結構特征來豐富句子語義表示。為了驗證自注意力機制對模型的有效性,在不同設定下訓練了四個模型,每個模型的設定如下:
(1) BiLSTM模型;
(2) 帶有注意力機制(attention)的BiLSTM模型;
(3) 帶有自注意力機制的BiLSTM模型;
(4) 加入句子結構特征(struct_tag)的帶有自注意力機制的BiLSTM模型,即本文方法。
其中,設定(1)是本文的基準模型(Base Model);設定(2)和設定(3)是為了比較不同注意力機制對模型性能的影響;設定(4)為本文方法。此外,與目前主流的3種跨語言句子相似度計算模型作了對比:
(1)Siamese LSTM模型[5]: 將平行句對分別輸入共享參數(shù)的LSTM網(wǎng)絡提取句子對的特征向量,通過計算特征向量間的曼哈頓距離得到句子對的相似度分數(shù)。模型結構設置與超參數(shù)均與原文一致,LSTM隱狀態(tài)維度為50維,優(yōu)化算法選擇Adadelta。
(2)CNN+Self-Attention模型[6]: 對輸入的平行句對分別運用CNN和自注意力機制(self-attention)得到每個句子的局部語義信息和全局語義信息,將其拼接后計算特征向量間的相對差和相對積,將結果拼接后傳輸?shù)饺B接網(wǎng)絡層計算得到句子間的相似度分數(shù)。模型結構設置與超參數(shù)均與原文一致,其中,CNN卷積核設定為300,池化操作中的k設置為3,自注意力機制設置8個頭,每個頭的參數(shù)矩陣設置為16維,全連接層中第一層神經(jīng)元節(jié)點設置為900,第二層設置為6。
(3)LSTM+ Attention模型[7]: 對輸入的句子對使用帶有注意力機制的LSTM提取句子對的特征向量,計算特征向量間的相對差和相對積,將結果拼接通過全連接網(wǎng)絡層計算相似度分數(shù)。模型結構設置與超參數(shù)均與原文一致,其中LSTM隱狀態(tài)維度為50,dropout設置為0.2,損失函數(shù)中L2正則設置為0.000 1,優(yōu)化算法使用Adam。
以上7個模型均在相同訓練語料下采用10折交叉驗證進行實驗,并且固定隨機種子數(shù),實驗結果如表5所示。
表5 不同模型對比結果
續(xù)表
由表5可知,加入注意力機制可有效提升模型性能,與基準模型相比F1值提升了5.88%,這是由于注意力機制可以快速提取數(shù)據(jù)的重要特征,而自注意力機制作為注意力機制的改進,將注意力機制替換為自注意力機制后模型的F1值進一步提升了1.02%,原因是自注意力機制減少了對外部信息的依賴,可以更有效地捕獲數(shù)據(jù)和特征的內(nèi)部關聯(lián)性。設定(2)和設定(3)訓練的模型相比較,說明了自注意力機制在研究句子相似度任務上的有效性。此外,加入句子結構特征使模型的F1值提升了3.07%,說明設定(4)的特征方法對于漢老雙語句子相似度的研究是有效的。
另一方面,Siamese LSTM模型和CNN+Self-Attention模型與本文模型相比F1值分別低了10.75%及4.82%。分析原因后發(fā)現(xiàn)Siamese LSTM模型的框架雖然對于跨語言句子相似度計算具有較好的適應性,并且LSTM網(wǎng)絡可以在一定程度上捕獲句子的特征信息,但對于高維度的特征向量,通過曼哈頓距離來度量相似性存在一定的誤差;而CNN+Self-Attention模型則是對同一語系或差異性較小的語言具有較好的效果,漢語-老撾語的語言跨度較大,雖然通過自注意力機制可以在一定程度上提取句子更加準確的語義特征,但CNN提取的漢老雙語句子特征具有較大差異性,因此與本文方法相比該方法的實驗結果較差。LSTM+Attention模型相比本文模型的F1值低了4.57%,并且與模型(2)相比F1值低了0.48%,出現(xiàn)這一結果的原因是BiLSTM網(wǎng)絡相比LSTM網(wǎng)絡可以更好地進行句子建模,增加句子語義表示的準確性。
總結而言,在漢老雙語句子相似度計算任務中,由于語言差異性較大,BiLSTM網(wǎng)絡相比于LSTM網(wǎng)絡和CNN網(wǎng)絡可以更好地對句子進行建模,并且加入自注意力機制和句子結構特征可以進一步提升模型效果。
由4.2小節(jié)設定(4)訓練的模型可知,使用特征模板獲取句子結構特征可以有效提升模型性能。為了驗證本文提出的特征模板的有效性,探索特征模板的不同標記方法對模型結果產(chǎn)生的影響,本節(jié)按以下設定額外訓練了7個模型,并且與3.2節(jié)中的設定(3)和(4)做比較,具體設定如下:
(1) 帶有自注意力機制的BiLSTM模型;
(2) 在設定(1)的基礎上加入句子的主語特征標記(sub);
(3) 在設定(1)的基礎上加入句子的謂語特征標記(verb);
(4) 在設定(1)的基礎上加入句子的賓語特征標記(obj);
(5) 在設定(1)的基礎上加入句子的主語和謂語特征標記(sub+verb);
(6) 在設定(1)的基礎上加入句子的主語和賓語特征標記(sub+obj);
(7) 在設定(1)的基礎上加入句子的謂語和賓語特征標記(verb+obj);
(8) 在設定(1)的基礎上加入句子的詞性標記(pos_tag);
(9) 在設定(1)的基礎上加入完整的句子結構特征標記(sub+verb+obj),用struct_tag表示,即本文方法。
在以上9個設定訓練的模型中,設定(1)和設定(9)分別為4.2節(jié)中設定(3)和設定(4)訓練好的模型。在本節(jié)中,設定(1)為驗證特征標記對模型影響的基準模型;設定(2)、設定(3)、設定(4)和設定(5)、設定(6)、設定(7)是為了探索不同特征標記對模型的影響,以及探索不同組合的特征標記對提升模型性能的有效性;設定(8)和設定(9)則是比較了加入詞性特征標記與句子結構特征標記對模型性能的影響。以上模型均使用同一訓練語料采用10折交叉驗證進行實驗,并且固定隨機種子數(shù),實驗結果如表6所示。
表6 不同特征標記對模型性能的影響
續(xù)表
由實驗結果發(fā)現(xiàn),在加入一種特征標記的模型中[設定(2)、設定(3)、設定(4)],加入主語標記(sub)的設定(2)對模型效果提升最大,與設定(1)的F1值相比提升了1.19%;加入兩種特征標記的模型中[設定(5)、設定(6)、設定(7)],加入主語和賓語標記(sub+obj)的設定(6)對模型的性能提升最高,相比設定(1)的F1值提升了2.43%;而加入完整句子結構特征(本文方法)的設定(9)取得了最好的效果,相比設定(1)的F1值提升了3.07%。設定(2)和設定(6)在兩組對比中得到了最好的效果,并且兩者均未含有謂語標記(verb),分析后發(fā)現(xiàn)原因是由于在句子結構中,謂語成分通常位于句子的中間或末尾,具有模糊的位置關系,通過本文提出的特征模板對老撾語的謂語成分進行標記存在一定的誤差;而主語和賓語成分通常位于句子的兩端,使用本文的特征模板可以較好地確定標記位置,因此設定(6)在加入兩種特征標記的模型中F1值提升最大。設定(8)在加入詞性特征標記后相比未加入前的設定(1),模型的F1值反而降低了3.41%,得到這一結果的原因是由于漢語和老撾語雖然在句子的主要成分上具有一致的順序結構(SVO),但句子的次要成分具有差異性。例如,漢語的定語通常在主語之前,狀語在主語之后,而老撾語則正好相反,僅添加詞性標記反而使模型更難獲取句子的特征信息。
總的來說,使用特征模板獲取的句子結構特征對漢老雙語句子相似度計算任務是個十分有效的方法,可以彌補語料資源稀缺對模型性能的影響。
為了減少漢老雙語的語言差異性,與 Artetxe[20]等人提出的方法類似,本文采用弱監(jiān)督映射方法將雙語詞嵌入映射到共享的語義空間。為了驗證方法的有效性,本節(jié)與目前主要使用的無監(jiān)督和監(jiān)督映射的方法[23-24]做對比,其中無監(jiān)督映射方法指通過自學習方式學習線性變換矩陣進行映射[24],監(jiān)督映射方法指使用較大雙語詞典學習映射矩陣的方法[25]。將未經(jīng)過詞嵌入映射的模型作為基準模型(Base Model_2),分別使用unsupervised、supervised和semi_supervised代表無監(jiān)督、監(jiān)督和弱監(jiān)督映射方法,其中弱監(jiān)督映射方法即本文方法。實驗結果如表7所示,模型均在同一數(shù)據(jù)集下采用10折交叉驗證進行實驗,并且固定隨機種子數(shù),超參數(shù)均使用原文中參數(shù),監(jiān)督映射方法和弱監(jiān)督映射方法使用的映射詞典為同一種子詞典(836對常用詞)。
表7 不同詞嵌入映射方式對模型性能的影響
由結果可知,在使用了詞嵌入映射后模型的性能均獲得了提升,與基準模型相比,監(jiān)督映射方法(supervised)的提升最小,F(xiàn)1值僅提升了1.4%,而無監(jiān)督映射方法(unsupervised)的F1值提升了1.89%,得到這一結果的原因是監(jiān)督映射的方法需要在較大規(guī)模的雙語詞典下才能取得較好的效果,而由于老撾語資源稀缺,目前僅擁有小規(guī)模的詞典,因此效果較差;無監(jiān)督映射的方法不需要種子詞典,而是通過線性變換學習轉換矩陣,因此取得了一定的效果。弱監(jiān)督映射(semi_supervised)的方法取得了最好的效果,F(xiàn)1值提升了3.38%,原因是該方法僅需要較小的種子詞典即可學習到效果較好的轉換矩陣,并且由于漢語和老撾語的語言差異較大,僅通過無監(jiān)督映射學習存在一定的困難,因此與無監(jiān)督方法相比,弱監(jiān)督方法取得了最好的效果。
綜上所述,對于漢語和老撾語的句子相似度計算,通過使用雙語詞嵌入映射的方法可以有效縮小語言間的差異性,提升模型的性能。
本文根據(jù)漢語和老撾語句子結構的特點提出一種融合句子結構特征的漢老雙語句子相似度計算方法,在將雙語詞嵌入映射到共享語義空間縮小語言差異性的基礎上,通過加入句子結構特征有效提高了漢老雙語句子相似度計算模型的性能。實驗結果表明,本文方法在有限的訓練樣本下效果明顯優(yōu)于目前的主流方法,F(xiàn)1值達到了70.24%。下一步將考慮利用該方法提取漢老雙語句子對,融入機器翻譯和其他老撾語相關的自然語言處理工作中來提升效果。