基于局部和全局語義融合的跨語言句子語義相似度計算模型

2019-08-05 01:42劉承標章友豪蔣盛益

中文信息學報 2019年6期

李霞, 劉承標, 章友豪, 蔣盛益

(1. 廣州市非通用語種智能處理重點實驗室，廣東廣州 510006；2. 廣東外語外貿(mào)大學信息科學與技術(shù)學院，廣東廣州 510006)

0 引言

跨語言句子語義相似度是指計算不同語言句子之間的語義相似程度，它被廣泛應用于機器翻譯、平行語料庫構(gòu)建、跨語言文本推薦、跨語言信息檢索等領(lǐng)域。目前，單語言(尤其以英語為代表的單語言)句子語義相似度度量取得了很大的成功，然而，由于缺乏足夠的訓練語料，跨語言句子語義相似度研究還存在諸多挑戰(zhàn)[1-2]。

傳統(tǒng)的句子語義相似度研究工作主要集中在抽取句子的文本特征來計算句子間的語義相似度。如傳統(tǒng)使用向量空間模型和n-gram特征的語義相似度計算方法[3-6]、基于句子語法結(jié)構(gòu)特征的方法[7-9]、基于機器翻譯的方法[10]以及基于雙語詞典或平行語料的方法[11-14]等。Tian[15]和Wu[16]的工作通過抽取句子之間豐富的文本特征來表示句子之間的語義信息，取得較好的效果，分別在SemEval 2017[注]http://alt.qcri.org/semeval2017/task1/index.php?id=data-and-tools比賽任務中取得第一名和第二名的成績。其中，Tian等[15]使用了句對的匹配特征、基于機器翻譯的特征、n-gram重合特征、句子序列特征、句法分析特征、句子對齊特征等豐富的文本特征來表示句子的語義信息。Wu[16]的工作則采用了WordNet詞典中語義層次樹結(jié)構(gòu)中的非重疊信息來計算句子間的語義相似度，并取得了很好的結(jié)果。

傳統(tǒng)方法使用豐富的文本特征提取句子語義信息從而計算句子之間語義相似度的方法雖然取得了不錯的結(jié)果，但需要復雜的手工特征抽取。近年來，基于神經(jīng)網(wǎng)絡模型的跨語言句子語義相似度研究工作在無需傳統(tǒng)特征的基礎(chǔ)上可以獲得較好的句子表示并取得較好的結(jié)果[17-20]。已有基于神經(jīng)網(wǎng)絡模型的跨語言句子語義相似度研究工作中，主要采用的是基于卷積神經(jīng)網(wǎng)絡或遞歸神經(jīng)網(wǎng)絡模型的方法，如He等[19]使用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)獲取句子的局部語義信息作為句子的表示，最后計算句子間的相似度分數(shù)。Mueller等[17]提出使用LSTM網(wǎng)絡(long short term memory,LSTM)[21]學習句子的表示，并通過計算句子向量之間的曼哈頓距離得到句子的整體相似度。Zhuang等[18]使用雙向門遞歸單元(Bidirectional Gated Recurrent Unit, BGRU)[22]結(jié)合注意力機制對句子生成向量表示，同時結(jié)合了平行句對中詞對的余弦相似度特征向量作為輔助特征，將句向量和特征向量輸入多層感知器得到句子的相似性分數(shù)。

已有工作中卷積神經(jīng)網(wǎng)絡可以獲得句子的局部信息，但不能較好地獲取句子中遠距離單詞之間的語義相關(guān)性。LSTM網(wǎng)絡雖然可以獲得句子內(nèi)一定距離內(nèi)單詞的依賴關(guān)系，但是它捕捉的是句子內(nèi)前后單詞之間的序列語義關(guān)系。而在跨語言句子相似度任務中，由于跨語言訓練語料的不足，現(xiàn)有工作主要采用的方法[15-16,19]是將非英語語言翻譯為英語，以英語為中間語言，通過將其他語種翻譯為英語，然后計算翻譯后英語句對之間的語義相似度作為原始跨語言句對的語義相似度。由于翻譯結(jié)果的誤差，可能導致翻譯結(jié)果中單詞語序的不對。例如，例1為SemEval 2017數(shù)據(jù)集Track4a中西班牙語—英語的一個原始跨語言句對和經(jīng)過機器翻譯后的結(jié)果句對。

例1原始句對：

Spanish(source):Unamujeresunbloquedetofucortadoencubospequeos.

English(target):Awomaniscuttingablockoftofuintosmallcubes.

翻譯后句對：

English(source):Awomanisablockoftofucutintosmallcubes.

English(target):Awomaniscuttingablockoftofuintosmallcubes.

我們可以看到西班牙語翻譯為英語后，句子單詞的語序發(fā)生了錯誤，A woman在語義上被錯誤翻譯為A woman is...tofu。如果使用LSTM網(wǎng)絡獲得句子中長距離關(guān)系，可能會因為序列的不正確導致語義上的不正確。基于以上兩點，受已有工作的啟發(fā)[23-25]，本文提出了基于局部信息和全局信息融合的跨語言句子語義相似度計算模型，其主要動機是通過自注意力機制獲得句子內(nèi)的遠距離單詞之間的語義相關(guān)信息，并將句子的平均詞向量作為句子的最后一個單詞拼接到句子末尾作為初始輸入，盡可能獲取句子的全局信息。同時結(jié)合門卷控積神經(jīng)網(wǎng)絡獲得句子的局部n-grams信息，分別對卷積操作使用最大池化和對自注意力機制操作使用平均池化，并將結(jié)果進行拼接后獲得句子的最終語義表示。本文的模型結(jié)構(gòu)如圖1所示，在得到兩個句子的語義表示后，通過兩個語義表示向量的差值和乘積運算獲得句子對之間的差異信息和相似信息，最后通過全連接層和softmax函數(shù)得到句子對的相似度分數(shù)。

本文在SemEval 2017和STS Benchmark[注]http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark兩個數(shù)據(jù)集上進行了實驗測試，結(jié)果表明本文所提出的模型具有較好的實驗結(jié)果，獲得了在SemEval 2017數(shù)據(jù)集上無任何特征工程的神經(jīng)網(wǎng)絡模型的最好結(jié)果。

圖1 本文模型結(jié)構(gòu)圖

1 基于門控卷積神經(jīng)網(wǎng)絡和自注意力機制的跨語言文本語義相似度計算模型

1.1 句子輸入編碼

為了盡可能獲得句子的全局信息，本文模型的輸入包括兩個部分，一部分是原始句子中每個單詞的詞向量，另一部分是句子中每個單詞詞向量的平均值。

設句子最大長度為L，對于輸入模型的句子，若句子長度lengthL，則舍棄第L個詞后面的所有詞。設句子S=[x1,x2,x3,…,xL]，其中xi為句子S第i個詞的詞向量，我們將S中所有詞向量求平均值作為其句向量xs，并將這兩個部分拼接作為句子的初始化表示，即以S′=[x1,x2,x3,…,xL,xs]作為句子的初始化輸入編碼。其中，xs的計算如式(1)所示。

(1)

1.2 句子局部信息抽取

為了捕獲句子的局部特征信息，本文仍然采用卷積神經(jīng)網(wǎng)絡機制。這是因為卷積神經(jīng)網(wǎng)絡具有較好的獲取句子局部語義信息的能力，尤其具有獲取句子n-grams語義信息的優(yōu)點。不同于前人的工作，本文使用門控卷積神經(jīng)網(wǎng)絡(gated convolutional neural network,GCNN)[26]更好地捕獲句子的局部語義信息。

假設待計算的句子為S，門卷積神經(jīng)網(wǎng)絡采用兩個結(jié)構(gòu)一致(即卷積核數(shù)和窗口大小都一致)的獨立卷積結(jié)構(gòu)，其中一個用sigmoid函數(shù)激活，另外一個不加激活函數(shù)，最后將它們逐位相乘，得到最終的輸出S′，其計算方法如式(2)所示。

S′=conv1(S)?σ(conv2(S))

(2)

為了更好地捕獲句子的局部信息，我們使用了不同卷積核大小的卷積塊對句子進行卷積。如圖1所示，我們分別使用了卷積核窗口為1、2和3三個卷積塊對句子進行卷積，每個卷積核的數(shù)量均為300。然后分別使用長度為3的最大池化操作，并對三個卷積塊池化的結(jié)果進行了拼接，從而得到句子的局部語義信息表示。

1.3 句子中長距離語義相關(guān)信息抽取

在跨語言句子語義相似度計算過程中，經(jīng)過翻譯過后的語言句子單詞的詞序可能會不準確，但是其單詞信息往往是正確的。受已有工作的啟發(fā)[23-25]，考慮到自注意力機制可以獲取句子中不同單詞對之間的語義相關(guān)關(guān)系，并且這種關(guān)系不受單詞的語序和句子中單詞所在位置的影響，因此本文采用自注意力機制來捕獲句子中長距離單詞的相關(guān)語義關(guān)系。

類似Vaswani等的工作[25]，我們并行使用多個頭對句子的輸入進行自注意力(Self-attention)操作。假定得到句子的輸入編碼(如1.1節(jié)描述)矩陣S′∈(L+1)×d，則對句子的Self-attention計算如(3～5)所示。其中L表示句子的長度，d表示句子中單詞的詞向量維度，S′T表示輸入句子編碼矩陣S′的轉(zhuǎn)置。

當獲得句子內(nèi)容表示S′后，使其與參數(shù)矩陣W1i進行點乘操作，從而執(zhí)行投影操作，得到矩陣S′W1i，對句子內(nèi)容表示矩陣的轉(zhuǎn)置與參數(shù)矩陣W2i進行點乘執(zhí)行投影操作得到矩陣S′TW2i，然后對兩個投影S′W1i和S′TW2i執(zhí)行矩陣相乘操作，從而得到反映句子內(nèi)各單詞之間語義相關(guān)性的矩陣S′W1i×S′TW2i，最后使用softmax函數(shù)對其進行正則化，然后與經(jīng)過投影的原始句子輸入S′W3i執(zhí)行點乘操作獲得句子最后的語義表示，這一語義表示很好地反映了句中遠距離單詞之間的相關(guān)關(guān)系。這里的i表示Self-attention中的第i個頭，W1i，W2i，W3i表示第i個頭的參數(shù)矩陣。Self-attention使用不同的頭來捕獲不同的相關(guān)語義關(guān)系。式(3～5)中的h表示Self-attention使用的并行Attention的個數(shù)，W0為參數(shù)矩陣，用于對所有h個頭輸出結(jié)果最后做一次投影。

1.4 句對的語義相似度表示

使用1.1～1.3節(jié)所描述的方法分別獲取句子的局部信息和句子中遠距離單詞之間的語義相關(guān)信息，最后對這些信息分別執(zhí)行最大池化操作和平均池化操作，然后對池化的結(jié)果進行拼接，得到句子的最后語義表示。模型中，我們采用了K最大池化操作，目的是為了保留每個特征映射中前k個特征元素，減少池化過程中語義信息的丟失。拼接后的句子的語義表示包含了句子中的局部信息、全局信息以及句子中不同單詞之間的語義相關(guān)性信息。

為了計算兩個句子的語義相似度，類似于Shao的工作[20]，我們分別對兩個句子的最終語義表示執(zhí)行按位減操作(取絕對值)和按位乘操作，然后進行拼接從而獲得兩個句子的語義相似度的表示對，其計算如式(6)所示。將句子的語義相似度表示輸入兩個全連接層，最后輸入softmax函數(shù)得到兩個句子表示的語義相似度概率分布。

(6)

其中，source表示每個句子對中的第一個句子，target表示每個句子對中的第二個句子。?表示元素對應相減，?表示元素對應相乘。

2 實驗

2.1 實驗數(shù)據(jù)

本文實驗選取了SemEval-2017和STS Benchmark兩個數(shù)據(jù)集對模型進行測試。其中，SemEval-2017評測數(shù)據(jù)包含單語言和跨語言句子對共7種類型，涉及語種包括阿拉伯語、英語、西班牙語、土耳其語等。與評測中其他隊伍一樣，我們采用谷歌翻譯[注]https://translate.google.com將其他語言的句子均翻譯為英語。同時，我們類似于前人的工作，使用SemEval 2012～SemEval 2015比賽數(shù)據(jù)[注]http://ixa2.si.ehu.es/stswiki/index.php/Main_Page中的所有英文句對一共13 191對數(shù)據(jù)作為模型的訓練數(shù)據(jù)。STS Benchmark數(shù)據(jù)是STS 任務中在2012—2017 年的英文評測數(shù)據(jù)集上抽取得到的訓練集、開發(fā)集和測試集。所用數(shù)據(jù)集的詳細信息分別如表1和表2所示。數(shù)據(jù)集中，每個句對都被標注了0～5的相似度得分，0表示兩個句子在語義上幾乎不相關(guān)，5表示兩個句子在語義上幾乎等同。為了更好地比較實驗在不同數(shù)據(jù)集上的結(jié)果差異，我們還對SemEval 2017評測數(shù)據(jù)集和STS Benchmark中不同數(shù)據(jù)的句對平均句長進行了統(tǒng)計，結(jié)果如表1和表2所示?？梢钥吹剑赟emEval-2017評測數(shù)據(jù)集中，除了Track4b的平均句長為19.23外，其他Track的數(shù)據(jù)集句對的平均句長在7.74～8.7之間。這是因為，Track4b數(shù)據(jù)集是來自機器翻譯的測試數(shù)據(jù)，數(shù)據(jù)的來源領(lǐng)域不同，且測試集中句子長度也長于一般的普通句子。

表1 SemEval-2017評測數(shù)據(jù)

表2 STSBenchmark數(shù)據(jù)

2.2 實驗設置

實驗參考了Tian等的工作[15]中使用的paragram[注]https://drive.google.com/file/d/0B9w48e1rj-MOck1fRGxa ZW1LU2M/view詞向量[26]，實驗中詞向量的維度設置為300，句子長度設定為30。每個門控卷積神經(jīng)網(wǎng)絡卷積塊的卷積核設定為300，卷積池化操作中的k設置為3。Self-attention中設置了8個頭，每個頭的參數(shù)矩陣均設置為16維。全連接層中，第一個全連接層神經(jīng)元節(jié)點個數(shù)為900，第二個全連接層的輸出節(jié)點數(shù)為6。

采用Adam算法[27]優(yōu)化模型，學習率為0.001。實驗參考已有工作[15-16,20]所使用的評測指標，采用皮爾森相關(guān)系數(shù)(Pearson correlation coefficient，PCC)作為評測指標，batch size設置為128。實驗采用相對熵作為損失函數(shù)，損失函數(shù)如式(7)所示，其中，P(x)為系統(tǒng)預測分值，Q(x)為人工評定的分值。

(7)

2.3 實驗結(jié)果與分析

為了驗證本文模型的有效性，我們選取SemEval 2017 任務1前三名方法作為我們的基準方法，分別是第一名Tian等的工作[15]、第二名Wu等的工作[16]和基于神經(jīng)元網(wǎng)絡方法的Shao的工作[20]。這三個基準方法所對應的模型分別是ECNU[15]、BIT[16]和HCTI[20]。

ECNU模型該模型采用聯(lián)合學習方法，分別訓練基于傳統(tǒng)特征的機器學習模型和基于神經(jīng)元網(wǎng)絡的模型，兩個模型共同決定最終結(jié)果。其中傳統(tǒng)特征方面分別抽取了基于翻譯和對齊等方法的34種句對匹配特征以及基于詞袋、語義依存等33種單句特征，并將這67種特征歸一化后使用隨機森林等多個機器學習算法進行回歸建模。在神經(jīng)網(wǎng)絡模型方面，該模型分別以句子的平均詞向量、平均詞向量投影、深度平均網(wǎng)絡(deep average network, DAN)[28]以及LSTM網(wǎng)絡作用于句子詞向量得到單個句子的最終語義表示，然后對兩個句子進行相乘和相減，通過全連接得到句對的分數(shù)。

BIT模型該模型基于WordNet計算句子中詞語的概念信息熵，將得到的句子信息熵結(jié)合對齊特征以及詞向量模型分別進行相似度計算。

HCTI模型該模型將跨語言句對中的詞共現(xiàn)、數(shù)字共現(xiàn)和詞性等特征融入詞向量中，以此為輸入使用卷積神經(jīng)網(wǎng)絡進行卷積和池化后作為句子的最終語義表示，然后對兩個句子進行相乘和相減，通過全連接得到句對的分數(shù)。

為了說明本文提出的模型的有效性，本文還比較了單獨使用卷積神經(jīng)網(wǎng)絡(CNN)、單獨使用門控卷積神經(jīng)網(wǎng)絡(GCNN)以及使用GCNN+Self-attention組合的實驗結(jié)果對比。

2.3.1 SemEval 2017數(shù)據(jù)集的實驗結(jié)果

首先我們在SemEval 2017數(shù)據(jù)集上進行了實驗，實驗結(jié)果如表3所示。從表3可以看出，本文提出的純神經(jīng)網(wǎng)絡模型方法(GCNN+Self-attention)在Track1～Track6共7個Track上的Primary指標上超出第二名Wu等工作[16]中提出的BIT模型2.35個百分點，超出第三名Shao等工作[20]中提出的HCTI神經(jīng)網(wǎng)絡模型4.26個百分點。

另外我們發(fā)現(xiàn)，在SemEval 2017數(shù)據(jù)集上，本文方法低于第一名Tian等工作[15]提出的ECNU模型2.92個百分點。對此我們分析，ECNU模型融合了具有豐富傳統(tǒng)特征的多個機器學習方法以及多個神經(jīng)網(wǎng)絡方法，并采用聯(lián)合學習得到最優(yōu)結(jié)果。從該結(jié)果可以看出，傳統(tǒng)豐富的特征，如面向跨語言句子相似度的句對匹配特征等可以較好抽取到句對之間的相關(guān)語義信息，如基于機器翻譯的詞對齊特征、句子依存句法特征、句子n-grams特征、句子對齊特征等。然而ECNU模型使用了67個句對匹配特征和單個句子的特征，其手工抽取特征的代價較高。而本文方法無需任何手工特征，只需要預先訓練好的詞向量作為輸入，相比ECNU模型簡單高效。另外，由于SemEval 2017數(shù)據(jù)集中的跨語言訓練數(shù)據(jù)相對純神經(jīng)網(wǎng)絡模型來說，數(shù)據(jù)量較少，這也可能導致神經(jīng)網(wǎng)絡模型的結(jié)果沒有達到最優(yōu)。整體而言，本文模型相比已有的純神經(jīng)網(wǎng)絡模型方法取得了最好的結(jié)果。

同時我們發(fā)現(xiàn)，數(shù)據(jù)集的句子長度對模型的結(jié)果具有較大影響。SemEval 2017評測數(shù)據(jù)集中，Track4b的平均句長為19.23，遠高于其他6個Track數(shù)據(jù)集的句子長度。同時Track4b數(shù)據(jù)集的來源領(lǐng)域不同，使得所有模型在Track4b上的模型效果不佳。其中，HCTI[20]模型在該數(shù)據(jù)集上效果不佳的原因，我們認為這可能是因為單純簡單的CNN模型對于捕獲較長句子的語義表示效果不佳。而BIT[16]模型所采用的方法對句對本身的質(zhì)量要求較高，而Track4b數(shù)據(jù)集中，由于句子較長，機器翻譯結(jié)果質(zhì)量不佳，導致BIT模型在該Track上的結(jié)果不太好。本文模型由于從多個方面捕捉到了句子的語義信息，一定程度上消除了機器翻譯所導致的句對質(zhì)量不佳或語序不對所帶來的影響，在Track4b數(shù)據(jù)集上，本文模型分別高出HCTI模型和BIT模型10.09個百分點和13.85個百分點。ECNU模型[15]對Track4b數(shù)據(jù)集采用了兩種操作模式，一種和BIT、HCTI以及本文模型一樣，該數(shù)據(jù)集整體翻譯為英語句對，在這種模式下的結(jié)果為28.89[15]。另一種是整體翻譯為西班牙語句對，這種模式下的結(jié)果為33.63。

表3 SemEval-2017數(shù)據(jù)集上的實驗結(jié)果(%)

2.3.2 STS Benchmark數(shù)據(jù)集的實驗結(jié)果

本文還在STS Benchmark數(shù)據(jù)集上進行了測試，實驗結(jié)果如表4所示。從表4中可以看出，本文模型相比現(xiàn)有的基于神經(jīng)網(wǎng)絡的HCTI模型[20]高出1.7個百分點，同時在測試集上相比第二名相差0.8個百分點。但是，在開發(fā)集上，本文方法相比第二名高出1.3個百分點，同時接近第一名的結(jié)果。

實驗中我們還對比了使用經(jīng)典CNN和使用GCNN以及使用GCNN+Self-attention的實驗結(jié)果。從表3和表4可以看出，在SemEval-2017和STS Benchmark兩個數(shù)據(jù)上，使用GCNN均比單純簡單使用CNN具有一定的提升，這說明GCNN確實通過門控制操作一定程度上提升了有效信息的獲取。而使用GCNN+Self-attention的結(jié)果在兩個數(shù)據(jù)集上均取得最好的結(jié)果，這說明使用Self-attention后捕獲到了句子中長距離單詞之間的語義相關(guān)性，一定程度上提升了句子的語義表示能力，從而提升了句對之間的語義相似度計算準確性。

表4 STS Benchmark數(shù)據(jù)集上的實驗結(jié)果(%)

2.4 案例分析

為了能夠更好地解釋本文的模型，我們以一個實際例子來闡述Self-attention所學習到的語義關(guān)系。我們將Self-attention分別對翻譯后句子“Awomanisablockoftofucutintosmallcubes.”(該句原始的西班牙語為：Unamujeresunbloquedetofucortadoencubospequeos.)和目標英語句子“Awomaniscuttingablockoftofuintosmallcubes.”所學習得到的語義信息進行分析，結(jié)果如圖2所示，圖2(a)表示翻譯后的源句，圖2(b)表示目標句。其中，圖2中的箭頭表示詞與詞之間的相關(guān)性，箭頭的顏色深淺則代表詞對之間語義的相關(guān)程度，顏色越深表示兩個單詞之間的語義相關(guān)性越強。

在圖2中，我們可以看到翻譯后的源句中存在語序錯誤，這導致翻譯結(jié)果的語義存在錯誤(結(jié)果為A woman is...toufu.)。雖然翻譯結(jié)果的單詞語序不正確，但是我們可以看到，Self-attention機制依然學習到了正確的語義相關(guān)關(guān)系。例如，翻譯后源句中的tofu和block、cut、cubes語義關(guān)聯(lián)較強，而cut和woman、block、tofu、into語義關(guān)聯(lián)較強。而在目標句中，cutting和woman、block、into、cubes語義關(guān)聯(lián)較強，而tofu和cutting、cubues語義關(guān)聯(lián)較強。這表明雖然源句由于翻譯導致語序錯誤，但是兩個句子中單詞之間的語義關(guān)聯(lián)依然是相似的，這使得源句和目標句的語義相似度計算結(jié)果依然可以正確得到。

圖2 Self-attention在錯誤翻譯句對上的學習效果

3 相關(guān)工作

傳統(tǒng)句子語義相似度研究主要采用基于特征工程的方法，包括：基于詞的語義的方法，如宋彥等[6]提出的基于n-gram特征的語義相似度計算方法；基于句法結(jié)構(gòu)的方法，如黃洪等[9]提出的使用句子依存句法特征來計算句子之間的相似度；基于知識庫的方法，如閆紅等[13]使用HowNet詞典抽取句子中的特征信息，從而得到句子之間的相似度；基于語料庫的方法，如Guo等[14]提出的基于語料庫使用潛在語義分析方法提取句子的特征信息，從而計算句子之間的語義相似度。傳統(tǒng)基于句子結(jié)構(gòu)特征或詞典和語料庫方法的計算方法存在語義稀疏或語料不充分等問題。

針對傳統(tǒng)特征抽取方法所帶來的問題，近年來研究人員提出了基于神經(jīng)網(wǎng)絡模型的句子語義相似度計算方法。Mueller等[17]提出了基于MaLSTM模型的句子相似度計算方法，該模型將句子切分成由Word2Vec[28]表示的詞向量，并經(jīng)過LSTM網(wǎng)絡得到句子向量，通過計算句子向量之間的曼哈頓距離得到句子的整體相似度。Zhuang等[18]使用遞歸神經(jīng)網(wǎng)絡并結(jié)合注意力機制生成句向量，同時還結(jié)合了平行句對中詞對的余弦相似度特征向量，通過聯(lián)合句子向量和特征向量輸入多層感知器得到句子的相似性分數(shù)。He等[19]將卷積神經(jīng)網(wǎng)絡應用到句子相似度的計算上，該模型通過兩個不同的卷積核以及三種不同的池化操作多角度提取句子中的特征信息生成句向量，計算句向量之間相似性度量值并經(jīng)過全連接層后輸出句子的相似性分數(shù)。

在SemEval 2017年的評測任務中，Shao等[20]使用卷積神經(jīng)網(wǎng)絡對句子建模，抽取句子中的詞共現(xiàn)、數(shù)字共現(xiàn)和詞性等特征，將特征向量與詞向量拼接后的向量作為輸入，增加句子的語義信息，同時對于卷積后的句向量采用求差和乘積的方法分別獲取句子之間的差異信息以及相同信息，最后通過全連接的方式得到句子之間的相似性分數(shù)。Wu等[16]針對句子相似度計算任務設計了三個實驗方案，他們首先基于WordNet計算句子中詞語的概念信息熵，通過在同一個概念向量空間中得到句子的相似度，更深層次地考慮句子的語義信息，其次他們又將得到的句子信息熵結(jié)合對齊特征以及詞向量模型分別進行相似度計算，最終確定信息熵和Word2Vec的結(jié)合方法效果最好，該方法同時考慮詞語的表征信息和句子的深層語義信息，但詞向量模型所包含的句法結(jié)構(gòu)信息甚少，直接影響句子的相似度計算。Tian[15]等結(jié)合傳統(tǒng)特征工程和深度學習的方法，提高句子相似度計算的整體性能，在傳統(tǒng)特征工程方面，他們提取n-gram、序列、句法、基于翻譯和對齊等34種句對匹配特征以及詞袋、語義依存、詞向量等33種單句特征，并將這67種特征歸一化后用于回歸建模；在深度學習模塊，他們將預處理后的詞向量通過深層平均網(wǎng)絡和LSTM神經(jīng)網(wǎng)絡得到句向量，輸入全連接層得到句子相似度分數(shù)，最終聯(lián)合傳統(tǒng)特征工程的分數(shù)得到句子之間的整體相似度分數(shù)。該方法結(jié)果雖然超出其他研究方法，但其67種特征抽取的工程復雜度也相對較高。

雖然現(xiàn)有基于神經(jīng)網(wǎng)絡的跨語言句子語義相似度模型取得了較好的效果，但現(xiàn)有模型中CNN網(wǎng)絡和LSTM網(wǎng)絡對語序錯誤句子的語義學習捕獲到的可能依舊是錯誤的語義信息。基于此，本文提出了基于GCNN+Self-attention機制的模型結(jié)構(gòu)，目的在于學習到句子的局部和全局語義信息，以及句子中不同單詞之間的相關(guān)語義信息，并通過拼接融合得到最后的向量，用于句子的最后語義表示。在兩個不同數(shù)據(jù)集上的多個實驗表明，本文提出的思想和模型取得了較好的性能。

4 結(jié)論

跨語言句子語義相似度計算在跨語言摘要、跨語言平行句對抽取等多個任務中具有重要的應用。本文針對現(xiàn)有的基于神經(jīng)網(wǎng)絡模型的跨語言句子語義相似度計算方法中存在的問題，提出了基于局部和全局信息融合的跨語言句子語義相似度計算模型。

首先在句子輸入時，將句子中的所有單詞平均詞向量作為反映句子全局信息的向量加入到句子的最后，以此來獲取句子的全局信息部分。在此基礎(chǔ)上，分別使用門控卷積神經(jīng)網(wǎng)絡學習句子的局部信息，使用自注意力機制學習句子中遠距離單詞之間的語義相關(guān)關(guān)系，最后通過最大池化和平均池化得到的結(jié)果拼接后得到句子的最后語義表示。

該方法得到兩個句子的語義表示后，通過句子語義向量的差值運算和相似度運算并拼接輸入到全連接層，最后通過softmax得到句子的語義相似度概率分值。模型分別在SemEval 2017評測任務和STS Benchmark數(shù)據(jù)集上進行了實驗測試，結(jié)果表明本文提出的模型超出了SemEval-2017評測任務的第二名成績，同時也是基于純神經(jīng)網(wǎng)絡模型的最好結(jié)果，證明了我們所提方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡