国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機制的遠程監(jiān)督實體關(guān)系抽取

2021-02-25 01:17邢毅雪朱永華高海燕
關(guān)鍵詞:向量卷積實體

邢毅雪,朱永華,高海燕, 周 金, 張 克

(1. 上海大學上海電影學院, 上海 200072; 2. 上海大學生命科學學院, 上海 200444)

近年來, 由于信息技術(shù)發(fā)展迅速, 需要處理的文本信息量成倍增長, 構(gòu)成了一個巨大的信息資源庫, 如何從海量開放領(lǐng)域數(shù)據(jù)中快速提取出所需有效信息變得尤為重要. 實體關(guān)系抽取(relation extraction)是信息抽取和文本挖掘的核心任務(wù)之一, 其在實體識別的基礎(chǔ)上通過對文本信息建模, 自動地從大量非結(jié)構(gòu)化文本中抽取實體對間預(yù)先定義的語義關(guān)系. 美國組織的自動內(nèi)容抽取(automatic content extraction, ACE)評測會議于2000 年將關(guān)系抽取作為其評測的任務(wù)之一. ACE 的目標是關(guān)注新聞領(lǐng)域的實體和實體關(guān)系抽取, 為抽取任務(wù)提供評測語料和實體關(guān)系類型, ACE 標志著關(guān)系抽取研究開始進一步細化. ACE 在2009 年被歸入TAC(Text Analysis Conference)的一個專題, 從此關(guān)系抽取任務(wù)成為構(gòu)建知識庫的重要組成部分, 其研究成果被廣泛應(yīng)用于機器翻譯、知識圖譜[1]、問答系統(tǒng)、文本摘要等領(lǐng)域.

經(jīng)典的實體關(guān)系抽取技術(shù)中, 監(jiān)督學習能更有效地抽取特征, 獲得較高的準確率和召回率, 但這種方法所需的大量訓(xùn)練語料要人工標注, 非常耗費時間和人力, 增加了成本. 針對這個局限, Mintz等[2]提出了將遠程監(jiān)督(distant supervision)應(yīng)用于實體關(guān)系抽取任務(wù)中, 將紐約時報中的新聞文本與已存在的知識庫Freebase 進行了實體對齊, 并將對齊結(jié)果作為實體關(guān)系的標注; Zeng 等[3]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)對實體進行了關(guān)系抽取, 將詞向量和詞位置向量串接后輸入網(wǎng)絡(luò), 并根據(jù)2 個實體將句子分成3 段這一特點對池化層做了修改.

本工作提出了一種基于注意力機制的端到端的分段卷積神經(jīng)網(wǎng)絡(luò)(piecewise CNN,PCNN)方法. 為了檢測更加細微的特征, 在網(wǎng)絡(luò)輸入層添加了注意力機制, 自動學習句子中與關(guān)系抽取相關(guān)的內(nèi)容; 基于位置特征和詞向量特征對句子進行編碼, 使用CNN 抽取句子特征并進行分類, 并在網(wǎng)絡(luò)中使用了效率較高的最大邊界損失函數(shù)衡量模型的性能. 實驗結(jié)果表明, 該模型準確率相比于幾種基線模型表現(xiàn)更出色.

1 相關(guān)工作

經(jīng)典的實體關(guān)系抽取方法有監(jiān)督、無監(jiān)督、弱監(jiān)督、半監(jiān)督4 種[17]. 由于經(jīng)典方法的特征提取誤差傳播問題很大程度上影響了抽取結(jié)果, 故學者們逐漸開始采用深度學習方法進行實體關(guān)系抽取[4]. 基于深度學習的有監(jiān)督方法是近年來關(guān)系抽取的研究熱點, 通過有效避免人工選擇特征過程改善誤差積累問題. 根據(jù)實體識別和實體關(guān)系抽取2 個子任務(wù)完成的先后順序區(qū)別, 基于深度學習的有監(jiān)督學習方法可分為聯(lián)合學習(joint learning)[19-20]方法和流水線(pipeline)[10,20]方法. Zeng 等[5]首次提出了使用CNN 進行實體關(guān)系分類; Katiyar 等[6]首次在聯(lián)合提取實體和實體關(guān)系中運用了注意力機制和雙向遞歸神經(jīng)網(wǎng)絡(luò). 目前監(jiān)督學習方法在關(guān)系抽取任務(wù)中效果較好.

然而在監(jiān)督學習中, 大量的訓(xùn)練數(shù)據(jù)需要耗費大量時間和人力去手工標注, 成本大大增加. 為了解決這一問題, 基于深度學習的遠程監(jiān)督[7]關(guān)系抽取方法逐漸被提出. 該方法主要應(yīng)用神經(jīng)網(wǎng)絡(luò), 包括CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)、長短時記憶網(wǎng)絡(luò)(long short term memory network, LSTM)等結(jié)構(gòu)[18]. 使用遠程監(jiān)督方法進行實體關(guān)系抽取時存在2 個問題. 首先, 遠程監(jiān)督是將語料庫中的文本與已存在的大型知識庫(Freebase)進行啟發(fā)式對齊, 并將對齊結(jié)果作為文本的標注. 然而啟發(fā)式對齊的假設(shè)過于強烈, 會不可避免地造成大量標簽錯誤. 其次, 目前基于統(tǒng)計學的方法過于依賴自然語言處理工具提取特征, 特征處理過程中生成的噪聲積累嚴重影響抽取結(jié)果. 因此, 一些學者在傳統(tǒng)方法上進行了很多改進, 初步解決了錯誤標簽和特征抽取誤差積累問題. Zeng 等[3]提出了一種PCNN 方法, 在詞向量基礎(chǔ)上融合了詞位置向量, 對句子進行更詳細的向量表示, 并且提出了分段max-pooling層自動學習相關(guān)特征; Lin 等[8]提出了將PCNN 與注意力機制融合的方法; Ji 等[9]提出了在PCNN 和Attention 基礎(chǔ)上添加知識庫中實體的描述信息來進行實體關(guān)系抽取. 這些方法在實體關(guān)系抽取任務(wù)中均效果較好.

2 輸入表示

由于該實驗的輸入是原始的詞表示(word token), 故如果在實驗中使用神經(jīng)網(wǎng)絡(luò), 則需要將句子中的單詞轉(zhuǎn)換成低維向量. 在該模型中, 首先使用詞向量表示對輸入的句子進行編碼,為了更詳細地挖掘上下文語義和捕獲詞語順序, 在編碼中加入每個詞的位置向量. 為了捕獲每個單詞與目標實體間更詳細的潛在關(guān)系, 在輸入向量上添加了一個基于對角矩陣的注意力機制.

2.1 輸入向量表示

2.1.1 詞向量

詞向量表示將文本中的每一個詞映射成一個m維分布式實值向量, 目的在于捕獲每個單詞的句法和語義信息. 給定一個包含m個詞的句子S={w1,w2,··· ,wm}和2 個句子中已標注的目標實體e1和e2, 每個詞wi均以實值向量形式表示, 最后得到一個維度為dw×|V|的詞向量矩陣Wv, 其中V是輸入的詞匯,dw是詞向量的維度, 每個詞wi被映射成一個列向量∈Rdw.

2.1.2 位置向量

在實體關(guān)系抽取中, 單詞距離目標實體越近, 其包含決定實體對間關(guān)系的信息就越多.本工作使用了每個單詞相對于目標實體對位置信息編碼了位置向量, 以便幫助神經(jīng)網(wǎng)絡(luò)捕獲每個詞相對于頭部實體e1和尾部實體e2的位置, 由2 個位置共同構(gòu)成位置向量. 比如在句子“Bill Gates is the founder of Microsoft”中, 第i(i=4)個詞“foun der”與頭部實體“Bill Gates”距離為-3, 與尾部實體“Microsoft”距離為2:

對于一個給定詞i, 分別得到2 個與實體e1和e2相關(guān)的位置向量wPi,1和wPi,2, 將詞向量和位置向量串接起來得到第i個詞的向量, 表示為. 假設(shè)位置向量的維度為dp,wMi ∈Rd(d=dw+dp×2), 所有詞語最終編碼的向量形式為

2.2 輸入注意力機制

本工作對輸入句子中的詞匯做了處理, 在詞向量基礎(chǔ)上加入了位置向量的編碼, 但是仍然無法非常準確及全面地捕獲句子中特殊詞語與目標實體間的關(guān)系及其對目標關(guān)系的影響.Attention 機制和多示例方法都被用來減弱錯誤標簽帶來的噪聲問題, 但多示例只用了包中1條語句信息, 而Attention 機制則綜合利用了包中所有的示例語句信息[16,21], 能夠更好地提升遠程監(jiān)督在實體關(guān)系抽取任務(wù)中的效果. 由于每個句子的長度不一樣, 無論句子多長, 可能只有少量單詞包含決定了目標實體間關(guān)系的有用信息, 因此本模型在整個句子和2 個已標注的實體上添加了Attention 機制, 來決定句子中哪部分對2 個實體間關(guān)系影響最深, 從而自動識別輸入句子中包含決定實體關(guān)系的豐富信息的單詞. 輸入表示和輸入層上加的注意力機制結(jié)構(gòu)如圖1 所示.

圖1 網(wǎng)絡(luò)輸入層加入注意力機制Fig.1 Attention-based network input representation

比如, 在例子“Bill Gates is the founder of Microsoft”中, 非實體單詞“founder”對實體關(guān)系的抽取有重要的影響, 而根據(jù)語料庫也能發(fā)現(xiàn)“founder”和尾部實體“Microsoft”之間存在特殊的聯(lián)系. 因此本工作在輸入層加入了2 個對角矩陣Pj, 對角矩陣的值是第i個詞wi向量表示和第j個實體ej向量表示的內(nèi)積, 記為f(ej,wi), 這里函數(shù)f為內(nèi)積函數(shù), 隨訓(xùn)練過程不斷更新. 計算第i個詞wi和第j個目標實體ej的關(guān)聯(lián)度(j ∈{1,2}), 定義因子為

在得到2 個目標實體相關(guān)因子α1i和α2i后, 將2 個因子與上面得到的向量表示進行3 種不同形式的聯(lián)合計算, 得到神經(jīng)網(wǎng)絡(luò)的最終輸入形式. 這里, 第1 種處理形式是將2 個因子直接進行簡單的平均操作:

第2 種處理方式是將2 個向量直接串聯(lián)來獲得每個詞與實體e1和e2關(guān)系之間的豐富語義信息:

第3 種處理方式是將關(guān)系看成2 個實體間的映射, 通過計算實體間的距離來捕獲2 個實體間的關(guān)系:

最終融合注意力機制的神經(jīng)網(wǎng)絡(luò)模型的輸入表示為R= [r1,r2,··· ,rm], 這里m為句子長度.

3 分段卷積神經(jīng)網(wǎng)絡(luò)模型

對于給定的句子集合{x1,x2,··· ,xn}和每個句子中標注的目標實體e1和e2, 本工作提出的模型預(yù)測是實體對間所有可能關(guān)系r的概率. 關(guān)系抽取任務(wù)中存在的最大挑戰(zhàn)是句子中任何單詞都可能成為包含決定目標實體間關(guān)系的重要信息, 故需要利用句子中都有的局部特征進行學習. 在對句子進行向量表示后, 本工作使用了Zeng 等[3]提出的PCNN 對句子進行特征提取, 其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示. 圖中,W為卷積核,R為輸入序列,b表示偏置向量. 本工作使用滑動窗口從卷積層提取局部特征, 長度為l. 將提取的局部特征全部結(jié)合, 輸入改進的分段池化操作層, 最終得到一個已定義尺寸的向量. 最后在Softmax 層定義了網(wǎng)絡(luò)預(yù)測輸出g與候選關(guān)系y的距離函數(shù), 基于此函數(shù)提出基于邊界的損失函數(shù)對網(wǎng)絡(luò)進行迭代訓(xùn)練.

圖2 用于句子編碼的PCNN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 PCNN network structure for sentence encoding

3.1 卷積

卷積操作是求權(quán)重矩陣w和輸入序列R的內(nèi)積. 這里, 權(quán)重矩陣又叫做卷積核W ∈Rdc×(l×d), 其中dc為句子向量. 對于輸入句子序列R = [r1,r2,··· ,rm], 定義向量qi ∈Rl×d作為第i個窗口內(nèi)的m個詞向量的串接

由于滑動窗口存在滑到句子邊界之外的可能, 故本工作給句子邊界設(shè)置了填充邊距, 即所有超出輸入向量范圍的部分都看作是零向量. 考慮到需要抽取不同特征, 本工作使用了多個卷積核. 假設(shè)實驗過程中本工作使用了n個卷積核(W={w1,w2,··· ,wn}),b為偏置向量, 卷積層第i個卷積核提取特征為

可見, 卷積操作得到的結(jié)果是一個矩陣P={p1,p2,··· ,pn}∈Rn×(m+l-1).

3.2 分段最大池化

為了避免特征抽取過程受句子長度影響, 需要將卷積層抽取到的特征結(jié)合起來. 傳統(tǒng)的CNN 中通常使用最大池化操作來解決句子長度多變的問題, 捕捉每個特征圖中的最有效特征.但是, 單層的最大池化操作過于粗糙, 難以捕捉關(guān)系抽取中的細粒度特征和2 個實體間的結(jié)構(gòu)信息. 在利用遠程監(jiān)督進行關(guān)系提取時, 輸入句子中已標注的2 個目標實體將句子劃分為3 個部分, 因此提出一種分段最大池化操作返回每一部分最大值的方法. 每個過濾器的輸出pi被頭部實體e1和尾部實體e2分為3 部分:{pi1,pi2,pi3}, 分別在3 個部分中進行池化操作, 最終輸出結(jié)果為

每個過濾器的輸出經(jīng)過分段最大池化操作后得到一個3 維向量ci={ci1,ci2,ci3}, 然后將所有向量串接為ci:n, 最后采用一個雙曲正切非線性激活函數(shù). 池化層最終輸出向量為

此時g的大小固定, 不再與句子長度有關(guān),g ∈R3m.

3.3 損失函數(shù)

學習過程存在2 個向量, 一個是將輸入句子編碼后映射到關(guān)系空間中得到的向量g, 另一個是模型自動學習的實體對對應(yīng)的所有關(guān)系y ∈Y的向量My. 基于這2 個向量, 本工作定義了模型輸出g與候選關(guān)系y的距離函數(shù)

基于上述目標函數(shù)設(shè)計了一個基于邊界的損失函數(shù)L, 其中1 為邊界,δθ(S,-)為g和一個不正確的關(guān)系標簽-的距離,δθ(S,-)為從所有不正確類中選出的得分最高項:

這種基于邊界的損失函數(shù)和其他損失函數(shù)相比具有較高的效率, 基于前面求出的距離函數(shù), 本工作最小化了預(yù)測輸出與ground-truth 標簽之間的差距, 同時最大化了與所選錯誤類別之間的距離, 參數(shù)θ′隨著隨機梯度下降(stochastic gradient descent, SGD)迭代更新, 最終使δθ(S,y)逐漸減小, 而δθ()逐漸增大. 參數(shù)更新為

式中:λ和λ1為學習率,

4 實 驗

4.1 數(shù)據(jù)集及評價標準

本實驗使用的數(shù)據(jù)集是Riedel 等[11]提出的NYT-FB,Hoffmann 等[12]和Surdeanu 等[13]也在該數(shù)據(jù)集上進行了實驗. NTY-FB 是實體關(guān)系抽取的標準語料庫, 包含自己標注命名實體的紐約時報語料庫文本, 該語料庫使用斯坦福的命名實體識別系統(tǒng)[14]標注, 并且自動將實體鏈接到Freebase 知識庫中, 通過將NYT 中成對的命名實體與Freebase 對齊來標記實體的關(guān)系類型. 數(shù)據(jù)集中的關(guān)系被分為2 個部分, 分別用來訓(xùn)練和測試. 訓(xùn)練數(shù)據(jù)為知識庫對齊2005 年、2006 年文本獲得的, 測試數(shù)據(jù)為知識庫對齊2007 年文本獲得的. NYTFB 數(shù)據(jù)集中共有53 種關(guān)系, 包括一個特殊的關(guān)系NA(NA 表示頭部實體和尾部實體間沒有關(guān)系). 數(shù)據(jù)集中共有695 059 條數(shù)據(jù), 其中訓(xùn)練集包含522 611 條訓(xùn)練數(shù)據(jù), 281 270個實體對和18 252 個實體關(guān)系, 訓(xùn)練數(shù)據(jù)中有接近80% 的句子標簽為NA. 測試集包含172 448 條測試語句, 96 678 個實體對和1 950 個關(guān)系事實.

本實驗使用Mintz 等[15]提出的留出評估法對模型進行評估. 這種方法通過比較測試語料庫中學習到的關(guān)系與Freebase 中的關(guān)系事實來評估模型的性能. 該評估方法不需要耗費大量時間去人工評估, 也能達到很高的精確度. 將準確率(precision)和召回率(recall)作為模型評估的基本評價指標:

4.2 實驗參數(shù)設(shè)置

4.2.1 詞向量

本工作中使用詞袋模型Word2vec 在NYT 語料庫上訓(xùn)練詞向量. 首先從訓(xùn)練文本數(shù)據(jù)中構(gòu)造一個詞匯庫, 然后學習單詞的向量表示. 訓(xùn)練過程中只保留在語料庫中出現(xiàn)的頻率超過100 的詞匯, 對于由多個詞組成的實體, 將多個詞向量進行串接.

4.2.2 參數(shù)設(shè)置

根據(jù)之前的工作, 本工作使用網(wǎng)格搜索確定最優(yōu)參數(shù), 選擇隨機梯度下降方法的學習率λ ∈{0.3,0.03,0.003,0.000 3},λ1∈{0.1,0.01,0.001,0.000 1}, 滑動窗口長度l ∈{1,2,3,4,5,6,7,8}, 句子向量大小n ∈{50,60,··· ,300}, batch sizeB ∈{40,160,640,1 280}. 由于其他參數(shù)對實驗結(jié)果影響非常小, 故本工作采用Zeng 等[5]實驗中的參數(shù)設(shè)置, 所有訓(xùn)練數(shù)據(jù)迭代訓(xùn)練25 次(見表1).

表1 參數(shù)設(shè)置Table 1 Parameter setting

4.3 實驗結(jié)果分析

表2 展示了本工作提出的基于注意力的PCNN 模型與當前其他方法實驗結(jié)果比較. 經(jīng)過比較發(fā)現(xiàn), 本工作提出的新的基于注意力的網(wǎng)絡(luò)結(jié)構(gòu)在實體關(guān)系分類數(shù)據(jù)集上取得了顯著的效果. 該網(wǎng)絡(luò)結(jié)構(gòu)在神經(jīng)網(wǎng)絡(luò)的輸入層加入了注意力機制, 卷積操作完成后經(jīng)過分層最大池化操作生成固定大小的輸出向量, 然后在Softmax 層對輸出向量應(yīng)用了一個基于邊界的新的損失函數(shù), 這種方法在NYT 數(shù)據(jù)集上取得了88.2%的準確率. 為了解決標簽錯誤問題, Jiang等[16]提出了一種多示例多標簽CNN(multi-instance multi-label CNN, MIMLCNN) 模型對實體關(guān)系抽取進行分類, 而本工作提出的模型結(jié)果準確率比MIMLCNN 模型(69.0%)高了很多.后來, Zeng 等[3]提出了廣泛應(yīng)用于實體關(guān)系抽取的遠程監(jiān)督模型PCNN, 被用作實體關(guān)系抽取的基線模型, 該模型將PCNN 模型與多示例學習結(jié)合, 取得了不錯的成果, 但本工作結(jié)果比經(jīng)典的PCNN+MIL 模型(86.0%)提高了2.0%, 相比于Ji 等[9]提出的在模型中加入實體描述信息和在網(wǎng)絡(luò)輸出加入注意力機制的APCNN+D 模型(87.0%)也提高了1.0%.

表2 不同方法分類結(jié)果準確率比較Table 2 Precision comparison of accuracy for relation extraction in the entity pairs with different methods

為了更好地衡量模型中各部分的不同組合效果, 本工作還在另外幾個簡化模型上進行了實驗. 第1 種簡化模型是將模型輸入層的注意力機制去掉, 將詞向量和位置向量的串接直接輸入網(wǎng)絡(luò)中訓(xùn)練; 第2 種是將基于邊界的損失函數(shù)換成一個簡單的基于內(nèi)積的損失函數(shù). 實驗結(jié)果可以看出, 這2 種簡化模型相對于基線模型準確率都有所提升.

表3 主模型和簡化模型變體結(jié)果準確率比較Table 3 Comparison of accuracy between main and simplified models

5 結(jié)束語

本工件沒有使用復(fù)雜的自然語言預(yù)處理工具, 而是在應(yīng)用于實體關(guān)系抽取任務(wù)的經(jīng)典遠程監(jiān)督模型PCNN 輸入層中添加了注意力機制, 并且在Softmax 層使用了一種新的基于邊界的損失函數(shù). 實驗結(jié)果表明, 與過于依賴結(jié)構(gòu)化模型和NLP 資源先驗知識的各種方法相比, 本工作提出的這種簡單高效的模型性能更加優(yōu)異. 在以后的研究中, 如何進一步提高實體關(guān)系分類的準確率和模型的學習效率, 如何改進本模型使其可以應(yīng)用于更多其他自然語言處理子任務(wù)是要繼續(xù)努力的方向.

猜你喜歡
向量卷積實體
向量的分解
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
聚焦“向量與三角”創(chuàng)新題
從濾波器理解卷積
實體書店步入復(fù)興期?
2017實體經(jīng)濟領(lǐng)軍者
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
无棣县| 连云港市| 茂名市| 宁津县| 阜城县| 黔西县| 固镇县| 阿克陶县| 丹东市| 新泰市| 邵阳市| 昭觉县| 临洮县| 柯坪县| 葫芦岛市| 南安市| 梁山县| 福建省| 秦皇岛市| 彩票| 梁河县| 潮州市| 肥西县| 塘沽区| 衡山县| 浦江县| 泽库县| 开封市| 民勤县| 清丰县| 永宁县| 宝丰县| 芒康县| 左权县| 集安市| 五莲县| 团风县| 江川县| 项城市| 苍南县| 盐池县|