梁艷春, 房愛(ài)蓮
(華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200062)
在信息爆炸的現(xiàn)代社會(huì), 快速獲得準(zhǔn)確的信息具有重大意義, 關(guān)系抽取則是幫助我們從海量數(shù)據(jù)中獲取關(guān)鍵信息的重要方式之一. 關(guān)系抽取也被稱為關(guān)系分類, 即從自然語(yǔ)言文本中識(shí)別出關(guān)鍵實(shí)體后, 再判斷兩個(gè)或多個(gè)實(shí)體間的語(yǔ)義關(guān)系, 屬于多分類問(wèn)題. 作為重要的語(yǔ)義處理任務(wù), 關(guān)系抽取也在知識(shí)庫(kù)填充、問(wèn)題回答、自動(dòng)知識(shí)庫(kù)構(gòu)建等復(fù)雜應(yīng)用中起著中間作用.
為了抽取出兩個(gè)實(shí)體間的正確關(guān)系, 需要解析句子的句法特征和語(yǔ)義特征. 句法特征是指句子的組成部分以及它們的排列順序, 語(yǔ)義特征是指詞語(yǔ)的意義以及在句子中詞語(yǔ)意義如何相互結(jié)合以形成句子意義. 為了學(xué)習(xí)這些特征, 早期的關(guān)系抽取方法通常需要解析文本并人工構(gòu)建特征, 這些方法很大程度上依賴于外部自然語(yǔ)言處理工具, 如詞性標(biāo)注、語(yǔ)法分析等. 而卷積神經(jīng)網(wǎng)絡(luò)(CNN)建模語(yǔ)句的最短依存路徑, 將語(yǔ)法分析融入深度學(xué)習(xí)框架中. 因此, CNN可以代替句法樹(shù)提供語(yǔ)法信息. 但中文句法結(jié)構(gòu)比英文更為復(fù)雜, 如何自動(dòng)地從句子中學(xué)習(xí)特征, 最小化對(duì)外部工具包和資源的依賴,實(shí)現(xiàn)端到端的中文關(guān)系抽取, 是值得研究的問(wèn)題.
為解決上述難點(diǎn), 本文在CNN的基礎(chǔ)上提出了MCNN_Att_RL模型. 該模型將兩種類型的詞向量輸入卷積層, 每個(gè)通道都用分層的網(wǎng)絡(luò)結(jié)構(gòu), 使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到不同的表示. 為了學(xué)習(xí)到更多的語(yǔ)義特征, 還加入注意力機(jī)制, 獲得強(qiáng)調(diào)實(shí)體的句子表示. 此外, 采用兩層池化結(jié)構(gòu), 先用分段平均池化融入句子的結(jié)構(gòu)特征, 再經(jīng)過(guò)最大池化保留句子的最大信息. 同時(shí), 采用基于邊界的排序損失函數(shù), 替代普遍使用的Softmax分類函數(shù)和交叉熵函數(shù), 排序損失函數(shù)使模型更能區(qū)分易于分錯(cuò)的類別. 綜上,本文的主要貢獻(xiàn)如下.
(1)研究了多通道CNN方法如何用于中文文本關(guān)系抽取, 在沒(méi)有外部信息的情況下, 學(xué)習(xí)到句子不同的表示.
(2)加入注意力機(jī)制獲取句子的語(yǔ)義特征, 并通過(guò)分段平均池化融入句子結(jié)構(gòu)特征, 在不依賴外部工具包的情況下, 實(shí)現(xiàn)了端到端的關(guān)系抽取.
(3)用排序損失函數(shù)代替交叉熵函數(shù)進(jìn)行訓(xùn)練, 以區(qū)分易于分錯(cuò)的類別, 提高了中文文本關(guān)系抽取的準(zhǔn)確性.
關(guān)系抽取的方法可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí). 其中監(jiān)督學(xué)習(xí)的關(guān)系集合通常是確定的, 可以當(dāng)作分類問(wèn)題去處理. 半監(jiān)督學(xué)習(xí)方法利用少量的標(biāo)注信息作為種子模板, 從非結(jié)構(gòu)化數(shù)據(jù)中抽取大量新的實(shí)例來(lái)構(gòu)成新的訓(xùn)練數(shù)據(jù), 由于這種方法依賴于模板和規(guī)則, 會(huì)導(dǎo)致數(shù)據(jù)不太精確,存在大量噪聲. 無(wú)監(jiān)督方法一般利用語(yǔ)料中存在的大量冗余信息做聚類, 在聚類結(jié)果的基礎(chǔ)上給定關(guān)系, 但聚類方法本身就存在難以描述關(guān)系和低頻實(shí)例召回率低等問(wèn)題, 因此無(wú)監(jiān)督學(xué)習(xí)一般難以得到很好的抽取效果. 下面主要介紹監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法.
早期的方法通?;谡齽t表達(dá)式表示的模式和規(guī)則. 模式方法假設(shè)同一關(guān)系類型的所有句子具有相同的語(yǔ)言環(huán)境, 其不能覆蓋所有的語(yǔ)言形式, 導(dǎo)致了很低的召回率.
在2013年, Liu等[1]最先提出用CNN方法做關(guān)系分類. 他們使用的網(wǎng)絡(luò)結(jié)構(gòu)很簡(jiǎn)單, 即是將同義詞的嵌入表示作為輸入, 之后是卷積層全連接層以及用Softmax分類. 相比于傳統(tǒng)方法, 該方法具有一定的提升, 為后續(xù)神經(jīng)網(wǎng)絡(luò)用于關(guān)系抽取提供了啟發(fā). 2014年, Zeng等[2]在此基礎(chǔ)上進(jìn)行了改進(jìn),使用預(yù)處理的詞向量, 并設(shè)置了實(shí)體, 即實(shí)體的上位詞、實(shí)體的上下文環(huán)境、詞位置等詞匯特征, 結(jié)果表明, WordNet和位置特征比較重要. 2015年, Zhang等[3]開(kāi)始嘗試用RNN做關(guān)系抽取, 在不使用任何詞匯特征的情況下, 效果與CNN結(jié)合詞匯特征相類似. Zhou等[4]在RNN的基礎(chǔ)上, 用LSTM(Long Short-Term Memory)替代RNN模型, 并加入注意力機(jī)制, 效果取得了提升. 之后, Zhu等[5]也在CNN中采用注意力機(jī)制, 并改進(jìn)損失函數(shù), 在英文數(shù)據(jù)集SemEval 2010 Task8 中獲得了當(dāng)前最佳結(jié)果. Li等[6]則設(shè)計(jì)了一種雙卷積神經(jīng)網(wǎng)絡(luò)方法, 結(jié)合注意力機(jī)制, 并借助知識(shí)庫(kù)提升關(guān)系抽取性能.此外, Hong等[7]通過(guò)改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò), 用一種新的感知注意力機(jī)制來(lái)獲取實(shí)體間的關(guān)系表示, 在多個(gè)公共數(shù)據(jù)集上取得了較好的效果.
上述的全監(jiān)督方法是在完全正確的標(biāo)注數(shù)據(jù)集上做的, 數(shù)據(jù)量小. 而半監(jiān)督學(xué)習(xí)方法則在大數(shù)據(jù)集上做關(guān)系抽取, 需要考慮數(shù)據(jù)中的噪聲問(wèn)題. 2015年, Zeng等[8]在自己2014年的研究基礎(chǔ)上, 使用多示例學(xué)習(xí)方法解決遠(yuǎn)程監(jiān)督自動(dòng)標(biāo)注數(shù)據(jù)產(chǎn)生的大量噪聲以及錯(cuò)誤標(biāo)注數(shù)據(jù)的問(wèn)題, 并進(jìn)行了分段池化. 雖然這種方法減弱了噪聲的影響, 但也丟失了一部分信息. Lin等[9]在Zeng的基礎(chǔ)上引入注意力機(jī)制, 這樣既可以減弱噪聲, 加強(qiáng)正樣本, 也可以充分利用信息. 之后, Kim等[10]提出了在文本中附加可確定的顯著實(shí)體, 幫助識(shí)別傳統(tǒng)方法無(wú)法識(shí)別的關(guān)系. Sun等[11]則采用多頭自注意力網(wǎng)絡(luò)去噪方法以提取關(guān)聯(lián), 跟傳統(tǒng)模型相比達(dá)到了較好效果. Chen等[12]通過(guò)融合強(qiáng)化學(xué)習(xí), 設(shè)計(jì)了DQN(Deep Q Network)對(duì)句子進(jìn)行降噪, 減少錯(cuò)誤標(biāo)簽的影響, 提高了關(guān)系抽取的準(zhǔn)確度.
英文關(guān)系抽取技術(shù)的研究相對(duì)比較成熟, 但由于中文數(shù)據(jù)集的缺乏, 中文關(guān)系抽取相應(yīng)地研究較少. 其中, Wu等[13]采用基于注意力的CNN做中文關(guān)系抽取, 并加入了HowNet上位詞嵌入信息, 在ACE 2005中文語(yǔ)料中取得了一定的效果提升. 而針對(duì)中文文學(xué)作品沒(méi)有明顯連詞關(guān)聯(lián), 主語(yǔ)比較隱蔽, 詞的用法相對(duì)復(fù)雜等難點(diǎn), Wen等[14]利用結(jié)構(gòu)正則化去除句法信息中的噪聲, 通過(guò)最短依賴路徑進(jìn)行中文文學(xué)文本關(guān)系的提取. Li等[15]利用外部語(yǔ)義信息, 將字義、詞義、同義詞等通過(guò)Lattice LSTM融入一起, 在多個(gè)中文數(shù)據(jù)集上驗(yàn)證了模型較好的魯棒性. 張等[16]則針對(duì)中文電子病歷, 采用雙向GRU模型, 并引入注意力機(jī)制提升了在特定領(lǐng)域中中文關(guān)系抽取的準(zhǔn)確性.
多通道機(jī)制是圖像處理方法的基礎(chǔ), 在圖像處理領(lǐng)域, 圖像由3個(gè)通道(紅色、綠色和藍(lán)色)組成.每個(gè)通道都使用多層神經(jīng)網(wǎng)絡(luò)進(jìn)行處理, 由于每個(gè)通道在循環(huán)傳播過(guò)程中互不影響, 因此它使神經(jīng)網(wǎng)絡(luò)能從每個(gè)通道學(xué)習(xí)不同的表示. 基于單通道CNN處理句子的方法與處理圖像不同, 它們?cè)诓豢紤]句子結(jié)構(gòu)的情況下對(duì)整個(gè)句子進(jìn)行卷積. 整個(gè)方法忽略了一個(gè)重要問(wèn)題: 單詞可能具有多種含義. 單一詞向量只能表征自然語(yǔ)言的一部分語(yǔ)義信息, 這限制了總的信息輸入量. 基于此, 本文采用了多通道CNN結(jié)構(gòu), 每個(gè)通道輸入不同的預(yù)訓(xùn)練詞向量, 多個(gè)通道表征了輸入語(yǔ)句的更多語(yǔ)義信息, 從而使模型學(xué)習(xí)出區(qū)分度更強(qiáng)的語(yǔ)義特征, 對(duì)自然語(yǔ)言具有更強(qiáng)的表征能力.
本文提出的MCNN_Att_RL模型如圖1所示. 該模型主要由向量映射層、注意力層、卷積層、分段平均池化層、最大池化層和全連接層組成. 由圖1可以看到, 本文模型不同于普通CNN模型的地方在于, 這里使用了兩種詞向量將輸入映射到兩條通道, 并在通道2中加入了注意力機(jī)制以獲得面向?qū)嶓w的向量表示. 此外, 在經(jīng)過(guò)雙通道CNN獲得多個(gè)通道信息后, 按實(shí)體位置將其分成5段通過(guò)平均池化層, 以融入句子的結(jié)構(gòu)信息. 最后經(jīng)過(guò)最大池化層, 學(xué)習(xí)到句子的最終表示. 這樣, 網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)到更豐富的特征.
2.2.1 向量映射層
經(jīng)典的one-hot編碼方法將詞與詞間視為相互獨(dú)立, 具有高稀疏性的缺點(diǎn). 2013年, Mikolov等[17]提出了Word2vec模型. Word2vec模型分為Skip-gram模型和CBOW模型, 它可通過(guò)學(xué)習(xí)文本的方式將每個(gè)字映射成低維的實(shí)值向量, 從而得到字的語(yǔ)義表征. 使用Word2vec模型訓(xùn)練好的詞向量直接輸入下一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行使用. 自然語(yǔ)言處理領(lǐng)域使用詞向量的方式一般分為兩種: 一種是使用大型數(shù)據(jù)預(yù)訓(xùn)練的詞向量; 另一種是針對(duì)特定任務(wù)或特定數(shù)據(jù)集訓(xùn)練詞向量, 這兩種方式都只能使用一種詞向量, 獲取的是句子的單一表示. 在本文的MCNN_Att_RL模型中, 采用了兩個(gè)通道融合兩種詞向量, 獲得的是詞的不同語(yǔ)義特征, 其中通道1使用在Gigaword[14]中預(yù)訓(xùn)練的中文詞向量, 通道2則使用特定于中文文學(xué)作品的詞向量.
圖 1 MCNN_Att_RL模型結(jié)構(gòu)Fig. 1 MCNN_Att_RL model structure
2.2.2 注意力層
其中, 函數(shù)f表示web和wi的內(nèi)積和. 之后, 計(jì)算相關(guān)性矩陣ab, 矩陣ab的元素為
其中,b=1,2;i=1,2,···,n. 令
得到面向?qū)嶓w對(duì)的向量
其中,i=1,2,···,n. 最終融入語(yǔ)義信息的句子S表示為E={e1,e2,···,en}.
2.2.3 卷積層
2.2.4 平均池化層
為了獲取句子的結(jié)構(gòu)信息, 根據(jù)實(shí)體1跟實(shí)體2的位置, 將c分成5段. 假設(shè)實(shí)體1的起始與終止位置為a、b, 實(shí)體2的起始位置與終止位置為c、d, 則c被劃分為 [c1,···,ca?1] 、 [ca,···,cb] 、 [cb+1,···,cc?1] 、[cc,···,cd] 、 [cd+1,···,cn] 5部分, 將c表示為
將每段輸入分別通過(guò)平均池化層, 得到
對(duì)于庫(kù)里南,用文字去仔細(xì)形容它的座椅舒適程度其實(shí)是相當(dāng)乏味的,只有親身體驗(yàn)才能明白其中的奧妙。不過(guò)遺憾的是,在官方重點(diǎn)宣傳的“覽景坐席”并沒(méi)有出現(xiàn)在我體驗(yàn)的那輛庫(kù)里南上。要不然,在后備廂開(kāi)啟“覽景坐席”的兩個(gè)座椅,讓自己沐浴在三亞冬天溫暖的陽(yáng)光下,也算是一種很容易就忘記煩惱的愉快。
其中,j=1,2,3,4,5 . 這樣, 每段輸入都在平均池化層的作用下得到一個(gè)值, 組合在一起就得到了融入了句子結(jié)構(gòu)信息的特征向量.
2.2.5 最大池化層
為了保留最大的信息特征, 再加入最大池化層對(duì)平均池化后的結(jié)果進(jìn)行最大化操作, 得到最后的特征信息, 即
其中,j=1,2,3,4,5 .
2.2.6 全連接層
最后采用全連接層進(jìn)行全局調(diào)節(jié), 得到最終的輸出
其中,wf為模型的參數(shù), 在反向傳播時(shí)進(jìn)行訓(xùn)練.
2.2.7 分?jǐn)?shù)計(jì)算
不同于用Softmax分類函數(shù)計(jì)算關(guān)系概率, 這里用句子最終表示與關(guān)系類別c的相關(guān)性作為得分. 即
其中,wc為關(guān)系c的嵌入向量, 通過(guò)關(guān)系嵌入查找表得到.sscore,c為句子中的實(shí)體預(yù)測(cè)為關(guān)系c的分?jǐn)?shù), 因此, 最終預(yù)測(cè)的關(guān)系類別為
2.2.8 損失函數(shù)
不再使用交叉熵函數(shù)作為損失函數(shù), 而是采用基于邊界的排序損失函數(shù). 在獲得關(guān)系分?jǐn)?shù)后, 損失函數(shù)定義為
由于中文關(guān)系抽取語(yǔ)料庫(kù)的缺乏, 2017年, Xu等[18]爬取了1 000多篇中文文章, 去掉太短和噪聲太多的文章, 歷時(shí)3個(gè)月從837篇中文文學(xué)作品中獲得語(yǔ)料, 定義了7種實(shí)體類型和9種關(guān)系類型用于中文文本命名實(shí)體識(shí)別和關(guān)系抽取. 本文選取這個(gè)中文文學(xué)文本數(shù)據(jù)集進(jìn)行關(guān)系抽取實(shí)驗(yàn), 其中關(guān)系類別定義如表1所示.
對(duì)該語(yǔ)料進(jìn)行預(yù)處理, 共獲得21 240個(gè)句子. 其中17 227個(gè)句子作為訓(xùn)練集, 4 013個(gè)句子用作測(cè)試集. 每一句都有標(biāo)記好的兩個(gè)實(shí)體, 預(yù)處理后的部分?jǐn)?shù)據(jù)示例如圖2所示.
這些句子均從中文文學(xué)作品中得到, 中文關(guān)系抽取任務(wù)為抽取兩個(gè)實(shí)體之間的語(yǔ)義關(guān)系. 例如,幽蘭、山谷, “幽蘭在山谷, 本自無(wú)人識(shí)”. 這里, 標(biāo)記的兩個(gè)實(shí)體為“幽蘭”和“山谷”. 模型的輸入為句子的嵌入向量表示, 輸出為關(guān)系類別5, 對(duì)應(yīng)表1中的Located關(guān)系.
表 1 關(guān)系類別Tab. 1 Relationship category
圖 2 預(yù)處理數(shù)據(jù)Fig. 2 Pre-processed data
對(duì)于給定樣本集, 評(píng)估機(jī)器學(xué)習(xí)算法預(yù)測(cè)結(jié)果的方式有: 查準(zhǔn)率P, 即分為正例的實(shí)例中實(shí)際值為正例的比例; 查全率R, 又叫召回率, 即正例被分到正例的比例. 由于查準(zhǔn)率P和查全率R會(huì)出現(xiàn)矛盾, 需要綜合考慮, 所以用P和R的加權(quán)調(diào)和平均地去評(píng)估是最好的方式. 在多分類問(wèn)題中, 查準(zhǔn)率和召回率的調(diào)和平均F1值的計(jì)算為[19]
其中,n是指關(guān)系類別的數(shù)量, 在本文所用數(shù)據(jù)集中,n為9.
本文中模型超參數(shù)設(shè)置如表2所示. 表2中, batch、epoch、Dropout、學(xué)習(xí)速率、隱藏層個(gè)數(shù)、詞向量維度等均為其他文獻(xiàn)中的經(jīng)驗(yàn)所得; 而縮放系數(shù)z, 邊界系數(shù)a、b, 卷積核大小等通過(guò)五折交叉驗(yàn)證確定, 驗(yàn)證集從測(cè)試集中隨機(jī)選擇.
為了評(píng)估MCNN_Att_RL模型的有效性, 本文選取了CNN[3]模型、BiLSTM[4]模型、加入注意力機(jī)制的BiLSTM[5]模型這3種基線模型, 并增加了3組對(duì)比實(shí)驗(yàn)?zāi)P? 即雙通道CNN模型MCNN、在MCNN模型中加入注意力機(jī)制的MCNN_Att模型、在MCNN_Att模型中加入了分段平均池化的MCNN_Att_P模型. 實(shí)驗(yàn)結(jié)果如表3所示.
表 2 實(shí)驗(yàn)的參數(shù)Tab. 2 Experimental parameters
表 3 實(shí)驗(yàn)結(jié)果Tab. 3 Experimental results
從實(shí)驗(yàn)結(jié)果可以看出: ①相比于只使用預(yù)處理詞向量的CNN模型, 融合兩種詞向量的MCNN模型的分類性能有很大提升, 說(shuō)明詞向量中確實(shí)包含自然語(yǔ)句的豐富表示, 多通道網(wǎng)絡(luò)結(jié)構(gòu)能學(xué)習(xí)到句子更多的語(yǔ)義特征; ②加入注意力機(jī)制的MCNN_Att模型比MCNN模型F1值提高了2.78%, 也證實(shí)了融入更多語(yǔ)義信息的重要性; ③加入分段平均池化的MCNN_Att_P模型比直接進(jìn)行最大池化的MCNN_Att模型提升了1%左右的F1值, 說(shuō)明雖然之前已經(jīng)突出了實(shí)體位置, 并且雙通道卷積層也在一定程度上提供了句子的語(yǔ)法信息, 但融入句子的結(jié)構(gòu)特征還是提供了更多的有效信息; ④采用排序損失函數(shù)替代交叉熵函數(shù),F1值也提升了1%左右, 證實(shí)了排序損失函數(shù)也適用多分類問(wèn)題;⑤MCNN_Att_RL模型在無(wú)須任何外部語(yǔ)言信息的情況下得到了最佳的效果. 相比于使用語(yǔ)義分析工具或資源(如依存句法[14]、同義詞信息[15]等)使關(guān)系抽取效果得到提升的方式, 該模型僅改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)就學(xué)習(xí)到了更多的語(yǔ)義和結(jié)構(gòu)特征, 也給其他自然語(yǔ)言處理任務(wù)提供啟發(fā); ⑥相比于其他模型, 本文模型用來(lái)實(shí)現(xiàn)融合兩種詞向量的雙通道結(jié)構(gòu)是并行計(jì)算的, 在提高抽取效果的同時(shí)仍不降低計(jì)算效率.
本文提出了一種雙通道CNN模型, 其中加入了注意力機(jī)制, 采用兩層池化, 并用排序損失函數(shù)代替交叉熵函數(shù). 在不依賴外部信息源和工具的情況下, 實(shí)現(xiàn)了中文文學(xué)文本上端到端的關(guān)系抽取. 該模型中的雙通道結(jié)構(gòu), 使用兩種詞向量作為輸入, 以得到不同的語(yǔ)義信息. 而注意力機(jī)制又關(guān)注了每個(gè)字對(duì)句子的貢獻(xiàn), 得到了面向?qū)嶓w對(duì)的向量表示. 最后為了學(xué)習(xí)句子的結(jié)構(gòu)特征, 采用分段平均池化和最大池化. 實(shí)驗(yàn)結(jié)果表明, MCNN_Att_RL模型的關(guān)系抽取效果優(yōu)于其他神經(jīng)網(wǎng)絡(luò)模型. 未來(lái)的工作包括以下兩個(gè)方面: ①嘗試將模型應(yīng)用在其他語(yǔ)言的關(guān)系抽取上, 特別是藏語(yǔ)等一些小眾語(yǔ)言,可用的外部工具包較少, 需要這種端到端的關(guān)系抽取方式; ②嘗試引入更多的特征, 如同義字向量表示等作為第三個(gè)通道, 進(jìn)一步提升模型的性能.