王 磊, 劉 露,2,3,, 牛 亮, 胡封曄, 彭 濤,2
(1.吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012;2.吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室, 長(zhǎng)春 130012;3.吉林大學(xué) 軟件學(xué)院, 長(zhǎng)春 130012;4.吉林大學(xué) 通信工程學(xué)院, 長(zhǎng)春 130012;5.吉林大學(xué) 第一醫(yī)院, 長(zhǎng)春 130021)
知識(shí)圖譜本質(zhì)上是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù), 用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系[1].近年來, 隨著人工智能的發(fā)展, 知識(shí)圖譜在搜索引擎(Google, Bing)、 問答系統(tǒng)(微軟小娜、 Siri)及臨床決策支持(IBM watson health)等領(lǐng)域應(yīng)用廣泛.知識(shí)獲取、 知識(shí)融合及知識(shí)計(jì)算等過程都是構(gòu)建知識(shí)圖譜的關(guān)鍵步驟和基礎(chǔ)[2].作為知識(shí)獲取的主要方式之一, 信息抽取是通過從文本信息中抽取實(shí)體、 實(shí)體屬性及實(shí)體關(guān)系, 將半/非結(jié)構(gòu)化文本信息轉(zhuǎn)換成結(jié)構(gòu)化信息的技術(shù)[3].
關(guān)系抽取的主要任務(wù)是從句子中識(shí)別給定實(shí)體對(duì)之間的關(guān)系類型, 進(jìn)而從非結(jié)構(gòu)化文本信息中抽取三元組(ei,rij,ej), 其中ei與ej為給定的實(shí)體對(duì),rij為實(shí)體之間的關(guān)系類型.例如, 利用關(guān)系抽取算法, 能從句子“The burst has been caused by water hammer pressure.”中識(shí)別出給定實(shí)體對(duì)“burst”與“pressure”的關(guān)系類型為“Cause-Effect”.無(wú)監(jiān)督的關(guān)系發(fā)現(xiàn)與有監(jiān)督的關(guān)系分類為關(guān)系抽取的主要研究方法[4].基于規(guī)則的方法為早期的無(wú)監(jiān)督關(guān)系抽取方法, 其通過人工構(gòu)建好的規(guī)則模板進(jìn)行關(guān)系識(shí)別[5-6].該方法嚴(yán)重依賴規(guī)則模板, 需大量的語(yǔ)言學(xué)專家來保證規(guī)則的準(zhǔn)確性.隨著數(shù)據(jù)規(guī)模的擴(kuò)大, 需要構(gòu)建的規(guī)則模板不斷增加并難以移植, 從而制約了該方法的發(fā)展與應(yīng)用.基于依存關(guān)系的關(guān)系抽取方法作為一種非監(jiān)督關(guān)系抽取方法在開放式關(guān)系抽取中應(yīng)用廣泛[7], 該方法通過分析句子的句法結(jié)構(gòu)找到實(shí)體對(duì)的關(guān)系詞進(jìn)行關(guān)系抽取, 但難以得到實(shí)體對(duì)的關(guān)系類型.無(wú)監(jiān)督關(guān)系抽取方法不需要大量有標(biāo)簽的訓(xùn)練數(shù)據(jù), 但可移植性差并且準(zhǔn)確率較低.隨著機(jī)器學(xué)習(xí)在關(guān)系抽取上的大規(guī)模應(yīng)用, 出現(xiàn)了大量基于特征向量或核函數(shù)的有監(jiān)督關(guān)系抽取方法, 關(guān)系抽取的準(zhǔn)確率也在不斷提高.其中: 基于特征向量的方法根據(jù)標(biāo)注好的訓(xùn)練數(shù)據(jù)訓(xùn)練分類器, 再用訓(xùn)練好的分類器對(duì)新實(shí)例進(jìn)行關(guān)系抽取[8];而基于核函數(shù)的方法能充分利用實(shí)體對(duì)的上下文信息進(jìn)行關(guān)系抽取[9].有監(jiān)督的關(guān)系抽取方法需要大量人工標(biāo)注的訓(xùn)練數(shù)據(jù), 為了解決該問題, Mintz等[10]提出了遠(yuǎn)程監(jiān)督的方法, 該方法通過找出知識(shí)庫(kù)中包含具有特定關(guān)系的實(shí)體對(duì)的實(shí)例擴(kuò)大訓(xùn)練數(shù)據(jù)集.此后, Surdeanu等[11]采用多實(shí)例學(xué)習(xí)算法緩解了遠(yuǎn)程監(jiān)督錯(cuò)誤標(biāo)記(噪聲)的問題.
深度學(xué)習(xí)模型具有多層非線性映射的深層結(jié)構(gòu), 能通過逐層學(xué)習(xí)算法獲取輸入數(shù)據(jù)的主要驅(qū)動(dòng)變量[12].因此, 與傳統(tǒng)有監(jiān)督關(guān)系抽取模型相比, 深度學(xué)習(xí)模型能捕獲更多的特征信息, 從而提高關(guān)系抽取的準(zhǔn)確率.目前, 應(yīng)用在關(guān)系抽取上的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(CNN)[13]、 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[14]及其變體長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[15]與門控循環(huán)單元(GRU)[16]等.Liu等[17]率先嘗試采用CNN并引入同義詞作為特征進(jìn)行關(guān)系抽取, 取得了較好的效果;Zhou等[18]利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型與注意力機(jī)制構(gòu)建了關(guān)系抽取模型, 該模型僅需詞向量作為輸入, 其準(zhǔn)確率超過了大部分算法;Wang等[19]考慮語(yǔ)言之間的一致性與多樣性, 使用對(duì)抗神經(jīng)網(wǎng)絡(luò)為每個(gè)句子構(gòu)建獨(dú)立且一致的表示進(jìn)行關(guān)系抽取, 得到了優(yōu)于其他模型的實(shí)驗(yàn)結(jié)果.
基于深度學(xué)習(xí)的關(guān)系抽取方法打破了傳統(tǒng)方法的性能瓶頸, 但這些方法具有模型復(fù)雜、 訓(xùn)練成本高的缺點(diǎn), 嚴(yán)重影響關(guān)系抽取的訓(xùn)練效率.因此, 本文提出一種基于關(guān)系觸發(fā)詞與單層GRU模型的關(guān)系抽取方法.該方法首先通過對(duì)句子進(jìn)行句法依存分析找到句子中的關(guān)系觸發(fā)詞, 再利用Word2Vec模型將觸發(fā)詞與實(shí)體對(duì)轉(zhuǎn)換成詞向量, 將其作為單層GRU模型的輸入進(jìn)行關(guān)系抽取.該方法僅采用單層GRU作為關(guān)系抽取模型, 結(jié)構(gòu)簡(jiǎn)單, 縮減了訓(xùn)練時(shí)間.此外, 該關(guān)系抽取模型僅需關(guān)系觸發(fā)詞與實(shí)體對(duì)轉(zhuǎn)換后的詞向量作為輸入數(shù)據(jù), 提高了關(guān)系抽取的效率.在SemEval 2010 Task 8數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 該方法能有效提取出句子中的關(guān)系觸發(fā)詞, 具有較高的關(guān)系抽取準(zhǔn)確率.
實(shí)體關(guān)系觸發(fā)詞是句子中用于詳細(xì)說明實(shí)體對(duì)構(gòu)成實(shí)體關(guān)系所表達(dá)意義的詞語(yǔ), 也被稱為關(guān)系指示詞、 關(guān)系描述詞[20].例如, 在英文中, “Cause-Effect”關(guān)系觸發(fā)詞有“cause”,“result”和“produce”等, “Entity-Origin”關(guān)系觸發(fā)詞有“from”,“of”和“made”等.關(guān)系觸發(fā)詞不但能幫助人們理解并確定實(shí)體關(guān)系, 且其具有的關(guān)系特征在關(guān)系抽取中具有指導(dǎo)作用.因此, 準(zhǔn)確地從句子中提取出實(shí)體關(guān)系觸發(fā)詞并充分利用其關(guān)系特征有助于提高關(guān)系抽取的性能.
圖1 句法依存分析結(jié)構(gòu)樹
句法依存分析是自然語(yǔ)言處理的關(guān)鍵技術(shù)之一, 其任務(wù)是對(duì)輸入的單詞序列進(jìn)行分析, 得到符合語(yǔ)法的句法結(jié)構(gòu)[21].例如, 使用Stanford CoreNLP工具對(duì)句子“The elephant descended from an aquatic animal.”進(jìn)行句法依存分析可得到如圖1所示的結(jié)構(gòu)樹.由圖1可見, 句子中實(shí)體對(duì)“elephant”與“animal”的關(guān)系觸發(fā)詞為“descended”, 且其根據(jù)依存關(guān)系到實(shí)體節(jié)點(diǎn)的路徑都是1, 在原始單詞序列中位于實(shí)體對(duì)中間.因此, 本文定義依存距離與序列距離提取關(guān)系觸發(fā)詞.
定義1(依存距離) 給定句法依存分析樹, 忽略其中弧的方向并將其轉(zhuǎn)換成無(wú)向圖G={V,E}, 其中:V={v1,v2,…,vn}為句子中的單詞節(jié)點(diǎn)集合;E為單詞節(jié)點(diǎn)之間句法依存關(guān)系的集合.單詞節(jié)點(diǎn)vi到實(shí)體e的依存距離為其在依存關(guān)系圖上到實(shí)體e的最短路徑.圖2為各單詞節(jié)點(diǎn)到實(shí)體“elephant”的依存距離, 單詞“descended”與單詞“The”到實(shí)體“elephant”的依存距離都為1, 在依存關(guān)系圖上距離實(shí)體“burst”最近.
由于各單詞節(jié)點(diǎn)到實(shí)體節(jié)點(diǎn)的依存距離較小, 為準(zhǔn)確并合理地評(píng)估單詞節(jié)點(diǎn)在依存關(guān)系圖上到實(shí)體對(duì)的遠(yuǎn)近程度, 本文采用其到實(shí)體對(duì)中每個(gè)實(shí)體的依存距離的幾何平均數(shù)作為其到實(shí)體對(duì)的依存距離, 計(jì)算公式為
(1)
其中,dd(vi,e1)與dd(vi,e2)分別表示單詞節(jié)點(diǎn)vi到實(shí)體節(jié)點(diǎn)e1與實(shí)體節(jié)點(diǎn)e2的依存距離.如圖3所示, 單詞節(jié)點(diǎn)“descended”到實(shí)體對(duì)“elephant”與“animal”的依存距離為1, 除實(shí)體對(duì)外最小.而實(shí)體節(jié)點(diǎn)到自身的依存距離為0, 到實(shí)體對(duì)的依存距離也為0.
圖2 各單詞節(jié)點(diǎn)到實(shí)體“elephant”的依存距離
圖3 各單詞節(jié)點(diǎn)到實(shí)體對(duì)“elephant”與“animal”的依存距離
定義2(序列距離) 給定單詞序列W={w1,w2,…,wn}, 若wk為實(shí)體單詞e, 則單詞wi到實(shí)體e的序列距離為
sd(wi,e)=|i-k|.
(2)
例如, 在句子“The elephant descended from an aquatic animal.”中, 單詞“descended”到實(shí)體“elephant”的序列距離為1, 到實(shí)體“animal”的序列距離為4.用單詞在句子的原始序列中到實(shí)體對(duì)的每個(gè)實(shí)體序列距離的平均值作為單詞到實(shí)體對(duì)的序列距離, 計(jì)算公式為
(3)
其中,sd(wi,e1)與sd(wi,e2)分別是單詞wi到實(shí)體對(duì)e1與e2的序列距離.當(dāng)單詞在原始序列中位于實(shí)體對(duì)的兩側(cè)時(shí), 其到實(shí)體對(duì)的序列距離相對(duì)較大;當(dāng)單詞位于實(shí)體對(duì)之間時(shí), 其到實(shí)體對(duì)的序列距離相對(duì)較小.因此, 序列距離能衡量單詞在原始序列中與實(shí)體對(duì)的相對(duì)位置.圖4為各單詞到實(shí)體對(duì)“elephant”與“animal”的序列距離.由圖4可見, 實(shí)體對(duì)之間的所有單詞到實(shí)體對(duì)的序列距離相等且最小.
本文使用依存距離與序列距離之和作為評(píng)估值選擇關(guān)系觸發(fā)詞.由于觸發(fā)詞的詞性一般為名詞、 動(dòng)詞、 形容詞、 副詞與介詞, 因此選擇除實(shí)體對(duì)外評(píng)估值最小且詞性滿足以上條件的單詞作為關(guān)系觸發(fā)詞.如圖5所示, 單詞“descended”的評(píng)估值為3.5, 除實(shí)體對(duì)“elephant”與“animal”外最小, 且其詞性為動(dòng)詞, 因此被選為最終的關(guān)系觸發(fā)詞.
圖4 各單詞到實(shí)體對(duì)“elephant”與“animal”的序列距離
圖5 各單詞的評(píng)估值
基于距離的關(guān)系觸發(fā)詞提取方法步驟如下.
算法1基于距離的關(guān)系觸發(fā)詞提取方法.
輸入:句子s, 實(shí)體對(duì)(e1,e2);
輸出:關(guān)系觸發(fā)詞t;
1)procedure
2)對(duì)s進(jìn)行分詞、 詞性標(biāo)注及句法依存分析, 得到標(biāo)注好的單詞序列W及依存關(guān)系圖G={V,E};
3)forwi(vi)inW(V)then
4)計(jì)算依存距離dd(vi,(e1,e2));
5)計(jì)算序列距離sd(wi,(e1,e2));
6)計(jì)算評(píng)估值dd(vi,(e1,e2))+sd(wi,(e1,e2));
7)end for
8)選擇除實(shí)體對(duì)外評(píng)估值最小且詞性是名詞、 動(dòng)詞、 形容詞、 副詞或介詞之一的單詞作為關(guān)系觸發(fā)詞;
9)end procedure.
英文句子中的關(guān)系觸發(fā)詞多數(shù)情形下不是單個(gè)單詞而是一個(gè)短語(yǔ), 同一個(gè)動(dòng)詞后面的介詞不同所表示的關(guān)系類型也不同, 如短語(yǔ)“made by”是“Product-Producer”關(guān)系觸發(fā)詞, 而短語(yǔ)“made with”是“Component-Whole”關(guān)系觸發(fā)詞.可見, 直接利用上文得到的單一關(guān)系觸發(fā)詞進(jìn)行關(guān)系抽取, 其具有的關(guān)系特征可能并不完整.因此, 本文選擇從句子中提取多個(gè)關(guān)系觸發(fā)詞進(jìn)行關(guān)系抽取.計(jì)算出所有單詞序列的評(píng)估值后, 選擇t個(gè)除實(shí)體對(duì)外評(píng)估值最小并且詞性滿足要求的單詞作為關(guān)系觸發(fā)詞.將實(shí)體對(duì)加入到關(guān)系觸發(fā)詞中, 按照句子中的原始序列進(jìn)行排序, 作為訓(xùn)練單詞序列.
由于分類器不能直接處理自然語(yǔ)言中的單詞, 因此需要使用詞嵌入模型將單詞轉(zhuǎn)換成詞向量以便分類器進(jìn)行處理.Word2Vec是一種經(jīng)典的詞向量計(jì)算模型, 能很好地進(jìn)行詞嵌入并捕獲單詞的語(yǔ)義[22].本文采用維基百科數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)訓(xùn)練Word2Vec模型, 將訓(xùn)練單詞序列轉(zhuǎn)換成詞向量, 作為分類器的輸入進(jìn)行關(guān)系抽取.考慮到訓(xùn)練單詞序列中的語(yǔ)序, 采用GRU模型作為關(guān)系抽取的分類器.GRU模型是LSTM模型的一個(gè)變體, 與LSTM模型相比結(jié)構(gòu)更簡(jiǎn)單, 訓(xùn)練時(shí)間更短[23].GRU模型的基本公式如下:
rt=σ(Wr·[ht-1,xt]),
(4)
zt=σ(Wz·[ht-1,xt]),
(5)
(6)
(7)
關(guān)系抽取的分類模型由單層GRU層、 Dropout層和Softmax層構(gòu)成, 其中GRU層用于捕獲語(yǔ)序特征, Dropout層防止過擬合, Softmax層進(jìn)行多分類概率計(jì)算.由Word2Vec模型轉(zhuǎn)換得到的單詞向量作為模型的輸入, 關(guān)系類別概率作為該模型的輸出, 模型結(jié)構(gòu)如圖7所示.
圖6 GRU單元結(jié)構(gòu)
圖7 基于關(guān)系觸發(fā)詞與GRU的關(guān)系抽取模型結(jié)構(gòu)
下面通過在SemEval 2010 Task 8數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 對(duì)基于關(guān)系觸發(fā)詞與單層GRU模型的關(guān)系抽取方法進(jìn)行驗(yàn)證與分析.
關(guān)系抽取常用的數(shù)據(jù)集有ACE 2005數(shù)據(jù)集、 NYT數(shù)據(jù)集和SemEval 2010 Task 8數(shù)據(jù)集等.本文在SemEval 2010 Task 8數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn).SemEval 2010 Task 8數(shù)據(jù)集是名詞對(duì)語(yǔ)義關(guān)系的多維分類數(shù)據(jù)集, 常被用于關(guān)系方法的驗(yàn)證.該數(shù)據(jù)集包含9種關(guān)系類別與“Other”關(guān)系類別, 各種關(guān)系類別及其數(shù)據(jù)量列于表1.其中訓(xùn)練集共包含8 000個(gè)實(shí)例, 測(cè)試集共包含2 717個(gè)實(shí)例, 數(shù)據(jù)格式如圖8所示.
表1 SemEval 2010 Task 8數(shù)據(jù)集的關(guān)系類別與數(shù)據(jù)量
圖8 SemEval 2010 Task 8數(shù)據(jù)集的數(shù)據(jù)格式
本文采用直接劃分好的訓(xùn)練集與測(cè)試集進(jìn)行實(shí)驗(yàn), 但考慮到“Other”關(guān)系類別對(duì)實(shí)驗(yàn)的干擾及實(shí)體相鄰的句子中并不存在關(guān)系觸發(fā)詞, 因此從數(shù)據(jù)集中去除“Other”類別與實(shí)體對(duì)相距為1的實(shí)例, 得到包含6 274個(gè)實(shí)例的訓(xùn)練集與包含2 163個(gè)實(shí)例的測(cè)試集進(jìn)行實(shí)驗(yàn).
作為有監(jiān)督的學(xué)習(xí)方法, 關(guān)系抽取的評(píng)估結(jié)果能直接反映本文方法的性能.監(jiān)督學(xué)習(xí)的常用評(píng)估指標(biāo)有準(zhǔn)確率(Precision)、 召回率(Recall)和F1值, 計(jì)算公式如下:
(8)
(9)
(10)
其中: TP表示正確分類到當(dāng)前關(guān)系類別的實(shí)體對(duì)個(gè)數(shù); FP表示被誤認(rèn)為是當(dāng)前關(guān)系類別的實(shí)體對(duì)個(gè)數(shù); TN表示屬于當(dāng)前關(guān)系類別但被誤分類到其他關(guān)系類別的實(shí)體對(duì)個(gè)數(shù).準(zhǔn)確率表示模型計(jì)算出的當(dāng)前類別實(shí)體對(duì)中真正屬于當(dāng)前類別的實(shí)體對(duì)比例, 能反映模型拒絕不相關(guān)實(shí)體對(duì)的能力.召回率是被正確分類到當(dāng)前關(guān)系類別的實(shí)體對(duì)占當(dāng)前關(guān)系類別全部實(shí)體對(duì)的比例, 可反映模型找到所有相關(guān)實(shí)體對(duì)的能力.F1值是準(zhǔn)確率與召回率的調(diào)和平均數(shù), 能更全面地評(píng)估模型關(guān)系抽取性能.
準(zhǔn)確率、 召回率與F1值適用于二分類有監(jiān)督學(xué)習(xí)方法的評(píng)估, 而關(guān)系抽取中存在多個(gè)關(guān)系類別, 屬于多分類問題, 無(wú)法直接應(yīng)用這些評(píng)估指標(biāo).因此, 本文通過計(jì)算宏準(zhǔn)確率(Macro-P)、 宏召回率(Macro-R)與宏F1值(Macro-F1)評(píng)估實(shí)驗(yàn)結(jié)果, 計(jì)算公式如下:
其中k是關(guān)系類別的個(gè)數(shù).這些評(píng)估指標(biāo)將關(guān)系抽取視為多個(gè)二分類問題, 計(jì)算出每個(gè)關(guān)系類別的評(píng)估指標(biāo)后再計(jì)算平均數(shù), 能更合理地對(duì)關(guān)系抽取結(jié)果進(jìn)行評(píng)估.實(shí)驗(yàn)結(jié)果越理想, 這些評(píng)估指標(biāo)越趨近于1, 反之則越趨近于0.
關(guān)系抽取模型的相關(guān)參數(shù)設(shè)定如下:觸發(fā)詞個(gè)數(shù)t=2;詞向量維度為200;批量大小為200;迭代次數(shù)為100;學(xué)習(xí)率為10-3;Dropout為0.5;分類模型為GRU.
為了評(píng)估本文提出的關(guān)系觸發(fā)詞提取方法的提取效果, 采用SemEval 2010 Task 8數(shù)據(jù)集中的測(cè)試集進(jìn)行實(shí)驗(yàn).統(tǒng)計(jì)實(shí)驗(yàn)數(shù)據(jù)得到的結(jié)果表明, 大部分句子中實(shí)體對(duì)的關(guān)系觸發(fā)詞個(gè)數(shù)為2, 因此設(shè)置參數(shù)t=2.表2列出了部分實(shí)驗(yàn)結(jié)果, 圖9為“Entity-Origin”類別中出現(xiàn)頻率最高的7個(gè)關(guān)系觸發(fā)詞.
表2 部分關(guān)系觸發(fā)詞提取結(jié)果
圖9 “Entity-Origin”關(guān)系類別中頻率最高的7個(gè)關(guān)系觸發(fā)詞
由表2可見, 從句子“The sound system is contained in a suitcase and controlled from within the steering wheel.”中得到實(shí)體對(duì)“system”與“suitcase”的關(guān)系觸發(fā)詞為“contained in”, 這與理解句意后從句子中得到的觸發(fā)詞一致.由圖9可見, 從屬于“Entity-Origin”關(guān)系類別的句子中提取出的觸發(fā)詞中頻率最高的7個(gè)單詞也都具備“Entity-Origin”的含義.表明本文提出的關(guān)系觸發(fā)詞提取方法能較準(zhǔn)確地從句子中提取出實(shí)體對(duì)的關(guān)系觸發(fā)詞.對(duì)于那些關(guān)系觸發(fā)詞在原始句子中不相鄰的句子, 該方法也能較準(zhǔn)確地提取出關(guān)系觸發(fā)詞.
參數(shù)t表示參與關(guān)系抽取的觸發(fā)詞個(gè)數(shù),t越大表明參與關(guān)系抽取的觸發(fā)詞越多, 分類模型越復(fù)雜;t越小表明參與關(guān)系抽取的觸發(fā)詞個(gè)數(shù)越少, 分類模型能獲取的關(guān)系特征越少, 因此參數(shù)t在關(guān)系抽取過程中具有重要作用.為了確定t的合適取值, 本文進(jìn)行如下實(shí)驗(yàn):對(duì)參數(shù)t從0~5進(jìn)行取值提取關(guān)系觸發(fā)詞, 將得到的觸發(fā)詞與實(shí)體對(duì)一起按照在句子中的原始順序用Word2Vec模型轉(zhuǎn)換成詞向量, 最后用GRU模型進(jìn)行關(guān)系抽取, 分別計(jì)算宏準(zhǔn)確率、 宏召回率與宏F1值, 結(jié)果如圖10所示.
圖10 不同關(guān)系觸發(fā)詞個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
圖11 不同分類器的實(shí)驗(yàn)結(jié)果
由圖10可見:當(dāng)t=0時(shí), 宏準(zhǔn)確率、 宏召回率與宏F1值最低, 隨著t的不斷增大, 3個(gè)評(píng)估值都在增加;當(dāng)t=2時(shí), 3個(gè)評(píng)估值均取得最大值;當(dāng)t>2時(shí), 隨著t的增大評(píng)估值減小.當(dāng)t=0時(shí), 進(jìn)行關(guān)系抽取的數(shù)據(jù)只有實(shí)體對(duì), 實(shí)驗(yàn)結(jié)果的宏準(zhǔn)確率、 宏召回率與宏F1值均約為0.7, 說明實(shí)體所具有的特征在關(guān)系抽取中具有重要作用; 當(dāng)t=1時(shí), 評(píng)估值顯著增大, 表明關(guān)系觸發(fā)詞的關(guān)系特征有助于提高關(guān)系抽取的準(zhǔn)確率;當(dāng)t=2時(shí), 3個(gè)評(píng)估值均取得了最大值, 表明句子中關(guān)系觸發(fā)詞的上限為2;當(dāng)t>2時(shí), 隨著參與關(guān)系抽取觸發(fā)詞的增加, 評(píng)估值不斷降低, 說明得到的多余關(guān)系觸發(fā)詞對(duì)關(guān)系抽取產(chǎn)生了干擾, 該實(shí)驗(yàn)結(jié)果也從側(cè)面體現(xiàn)出句子中的關(guān)系觸發(fā)詞存在上限.此外, 為了驗(yàn)證單詞的語(yǔ)序?qū)﹃P(guān)系抽取是否存在影響, 本文在上述實(shí)驗(yàn)條件下隨機(jī)打亂參數(shù)關(guān)系抽取單詞的順序, 再進(jìn)行相同實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明, 保持單詞在句子中原始順序的實(shí)驗(yàn)結(jié)果優(yōu)于打亂順序, 語(yǔ)序特征在關(guān)系抽取中有一定的作用.
分類器是本文關(guān)系抽取模型的重要組成部分, 分類器的性能決定最終關(guān)系抽取的結(jié)果.為了選擇合適的分類器, 本文在SemEval 2010 Task 8數(shù)據(jù)集上分別用GRU、 神經(jīng)網(wǎng)絡(luò)(NN)和支持向量機(jī)(SVM)進(jìn)行實(shí)驗(yàn), 設(shè)參數(shù)t=2, 實(shí)驗(yàn)結(jié)果如圖11所示.由圖11可見, GRU模型的宏準(zhǔn)確率、 宏召回率與宏F1值都高于NN與SVM.與SVM相比, GRU模型與神經(jīng)網(wǎng)絡(luò)模型能捕獲更多的特征, 且GRU模型能捕獲語(yǔ)序特征, 因此該模型取得了最好的實(shí)驗(yàn)結(jié)果.
下面將本文關(guān)系抽取方法與目前已有的幾種關(guān)系抽取方法在SemEval 2010 Task 8數(shù)據(jù)集上進(jìn)行對(duì)比, 比較它們的宏F1值, 結(jié)果列于表3.由表3可見, 本文關(guān)系抽取方法的宏F1值高于其他方法, 表明本文方法具有較高的關(guān)系抽取性能.此外, 與其他方法相比, 本文方法的特征數(shù)量較少, 具有較簡(jiǎn)單的模型結(jié)果, 理論訓(xùn)練效率較高.
表3 不同模型F1值的對(duì)比結(jié)果
綜上所述, 本文提出了一種基于關(guān)系觸發(fā)詞與單層GRU模型的關(guān)系抽取方法.該方法根據(jù)句法依存關(guān)系計(jì)算依存距離與序列距離提取關(guān)系觸發(fā)詞, 將關(guān)系觸發(fā)詞與實(shí)體對(duì)經(jīng)Word2Vec模型轉(zhuǎn)換成詞向量后, 作為GRU模型的輸入進(jìn)行關(guān)系抽取.實(shí)驗(yàn)結(jié)果表明:本文方法能更有效地提取出關(guān)系觸發(fā)詞, 在關(guān)系抽取方面, 本文提出的關(guān)系抽取方法比其他對(duì)比方法的實(shí)驗(yàn)效果更好; 與其他方法相比, 本文提出的方法具有模型結(jié)構(gòu)簡(jiǎn)單且所需的特征較少, 不需要過多的計(jì)算資源.