姚賢明,甘健侯,徐堅(jiān)
(1. 曲靖師范學(xué)院 信息工程學(xué)院,云南 曲靖 655011; 2. 云南師范大學(xué) 民族教育信息化教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
實(shí)體關(guān)系抽取是指從文本中抽取實(shí)體與實(shí)體之間,實(shí)體與數(shù)值表達(dá)式之間的語義關(guān)系,這種語義關(guān)系體現(xiàn)了二者之間的相互作用[1]。例如“鄧兆祥游覽廬山”,其中“鄧兆祥”與“廬山”之間存在“游覽”關(guān)系[2]。
實(shí)體關(guān)系抽取任務(wù)最早在1989年的MUC評(píng)測會(huì)議中被提出,在ACE、TAC等一系列評(píng)測會(huì)議的推動(dòng)下,獲得了長足的發(fā)展,陸續(xù)提出了基于規(guī)則的[3-4]、基于支持向量機(jī)等有監(jiān)督的[5-6]和基于聚類等無監(jiān)督[7-8]實(shí)體關(guān)系獲取方法[9],本文稱這些方法為傳統(tǒng)方法。傳統(tǒng)方法主要是面向特定領(lǐng)域,預(yù)先定義了實(shí)體類型和關(guān)系類型,通過人工標(biāo)注訓(xùn)練數(shù)據(jù)提交給機(jī)器學(xué)習(xí)算法自動(dòng)學(xué)習(xí)分類規(guī)則,從而實(shí)現(xiàn)文本中實(shí)體關(guān)系的自動(dòng)識(shí)別。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,海量多源異構(gòu)信息構(gòu)成了互聯(lián)網(wǎng)的主體,機(jī)器翻譯、問答系統(tǒng)和知識(shí)庫等應(yīng)用系統(tǒng)的發(fā)展也逐漸面向互聯(lián)網(wǎng)開展相關(guān)研究,傳統(tǒng)方法已經(jīng)不能滿足現(xiàn)實(shí)的需求,因?yàn)樵诋?dāng)前環(huán)境中,實(shí)體類型、實(shí)體關(guān)系都是未知的,雖然有部分文章提出了上百種實(shí)體類型[10-11],對(duì)相關(guān)研究也產(chǎn)生了積極影響,但是仍然不能滿足現(xiàn)實(shí)中千變?nèi)f化的需求,因此開放域?qū)嶓w關(guān)系抽取任務(wù)被提出[9]。
開放域?qū)嶓w關(guān)系抽取的發(fā)展正在經(jīng)歷2個(gè)階段[12-13]:二元實(shí)體關(guān)系抽取、多元實(shí)體關(guān)系抽取。
二元實(shí)體關(guān)系抽取主要以抽取動(dòng)詞為主,通常是從一句完整的語句中抽取到一對(duì)實(shí)體之間的關(guān)系。以 TextRunner[14]、KnowItAll[15]、WOE[16]、和Reverb[17-18]等為代表的系統(tǒng)已推動(dòng)了二元實(shí)體關(guān)系抽取接近成熟。采用的方法主要包括遠(yuǎn)程監(jiān)督(distant supervision)和有監(jiān)督的方法。遠(yuǎn)程監(jiān)督[19-20]利用百科信息框的結(jié)構(gòu)化信息對(duì)非結(jié)構(gòu)化文本進(jìn)行自動(dòng)標(biāo)注,訓(xùn)練識(shí)別模型,通過一定的技巧(trick)能達(dá)到較好的效果,該方法降低了人工標(biāo)注語料的繁重負(fù)擔(dān);有監(jiān)督的方法仍然以支持向量機(jī)等方法為主,但是在特征選擇方面,通常選擇句法、依存關(guān)系等具有領(lǐng)域通用性的特征[21-22],從而使其模型具有跨領(lǐng)域能力。
多元實(shí)體關(guān)系指的是語句中多個(gè)實(shí)體之間存在的不同語義關(guān)系,因此多元實(shí)體關(guān)系抽取的任務(wù)是抽取這些實(shí)體之間的語義關(guān)系。相對(duì)于二元實(shí)體關(guān)系抽取來說,該任務(wù)具有更大的挑戰(zhàn)性。目前,多元實(shí)體關(guān)系的抽取還處于探索階段。文獻(xiàn)[23]在構(gòu)建Kraken系統(tǒng)的過程中,給出了多元實(shí)體關(guān)系抽取的基本思路如下:
1)檢測事件短語。Kraken將動(dòng)詞、修飾詞和介詞視為事件。
2)檢測實(shí)體中心詞。Kraken從事件短語出發(fā),根據(jù)nsubject等依存關(guān)系找到實(shí)體中心詞。
3)檢測實(shí)體全稱。Kraken從實(shí)體中心詞出發(fā),遞歸地查找所有向下連接的實(shí)體詞。
最終,Kraken將實(shí)體全稱和事件短語組合成三元組,并將其視為抽取到的實(shí)體關(guān)系。以句子“Doublethink, a word that was coined by Orwell in the novel 1984, describes a fictional concept.”為例,使用該方法可獲得3個(gè)實(shí)體間的語義關(guān)系:
關(guān)系 1:(Doublethink, was coined, by Orwell),關(guān)系 2:(Doublethink, was coined, in the novel 1984),關(guān)系 3:(Doublethink, describes, a fictional concept)[23]。
從上面的結(jié)果可看出,相對(duì)于二元實(shí)體關(guān)系抽取僅僅只能抽取一對(duì)實(shí)體之間的語義關(guān)系而言,多元實(shí)體關(guān)系抽取能夠抽取到更多的實(shí)體之間的關(guān)系。在英文中,多元實(shí)體關(guān)系占據(jù)了40%的所有實(shí)體關(guān)系[24],因此,多元實(shí)體關(guān)系的抽取是實(shí)體關(guān)系抽取中一項(xiàng)十分重要的工作,而這也是今后實(shí)體關(guān)系發(fā)展的一個(gè)重要方向。目前,在英文的多元實(shí)體關(guān)系抽取方面已經(jīng)取得了初步的研究成果[25-29]。
在中文領(lǐng)域,多元實(shí)體關(guān)系抽取方面目前鮮有提及,主要的工作集中在二元實(shí)體關(guān)系抽取[30-31]。本文以Kraken系統(tǒng)提供的方法為基礎(chǔ),結(jié)合中文自身的特點(diǎn),提出了基于依存語法的開放域多元實(shí)體關(guān)系抽取方法,本文將該方法應(yīng)用于民族、自然科學(xué)、法律、經(jīng)濟(jì)、人文歷史5個(gè)領(lǐng)域以驗(yàn)證該方法的有效性,實(shí)驗(yàn)結(jié)果表明,該方法具有一定的參考價(jià)值。
在英文的實(shí)體關(guān)系抽取中,主要以謂語作為實(shí)體之間關(guān)系的指示詞,因此在中文的關(guān)系抽取中沿用了該方法[32]。文獻(xiàn)[2]以謂語作為關(guān)鍵字,構(gòu)建上下文特征,訓(xùn)練識(shí)別器,實(shí)現(xiàn)了旅游領(lǐng)域的實(shí)體關(guān)系抽取,但是仍屬于有監(jiān)督的方法,而且針對(duì)的是二元關(guān)系抽取。文獻(xiàn)[33]利用依存分析結(jié)果,結(jié)合啟發(fā)規(guī)則實(shí)現(xiàn)三元組的抽取。文獻(xiàn)[34]以句法分析結(jié)果作為基礎(chǔ),以動(dòng)詞為中心,抽取主謂賓結(jié)構(gòu),同時(shí)給出了句子中存在多個(gè)連續(xù)動(dòng)詞的復(fù)雜情況下,抽取主謂賓結(jié)構(gòu)的解決方案,但是該文獻(xiàn)沒有詳細(xì)給出存在零指代的情況下獲取主語的方法??傮w而言,在中文實(shí)體關(guān)系抽取方面,仍然缺乏針對(duì)復(fù)雜中文句子結(jié)構(gòu)的有效實(shí)體關(guān)系抽取方法,在多元實(shí)體關(guān)系抽取方面更是缺乏相關(guān)研究。
從中文句法結(jié)構(gòu)來看,主語、謂語和賓語構(gòu)成了句子的主體,是描述事實(shí)的基本組成單元。語句可以是由一個(gè)主謂賓構(gòu)成的簡單句子,也可以是由多個(gè)主謂賓構(gòu)成的復(fù)雜語句,復(fù)雜語句以動(dòng)詞作為事件鏈,表述了實(shí)體(主語、賓語)之間的語義關(guān)系。
以語句“1937年6月4日,周恩來第一次登上廬山,入住仙巖旅館,同蔣介石進(jìn)行國共第二次合作談判?!盵2]為例,其中包含了3個(gè)連續(xù)事件:登上→入住→進(jìn)行,對(duì)應(yīng)的實(shí)體關(guān)系分別為:(周恩來,登上,廬山)、(周恩來,入住,仙巖旅館)和(周恩來,進(jìn)行,國共第二次合作談判)。
對(duì)于語句“到1910年的時(shí)候,美國科學(xué)家摩爾根,他研究果蠅的遺傳規(guī)律的時(shí)候發(fā)現(xiàn),遺傳信息是位于染色體上面,所以知道染色體跟遺傳有非常大的關(guān)系”,該句子的句法結(jié)構(gòu)分析結(jié)果如圖1和圖2所示(限于篇幅,本文將句法分析結(jié)果分割成為兩部分,兩部分的首尾以詞語“發(fā)現(xiàn)”作為連接點(diǎn))。從圖中的結(jié)果可以看出,各個(gè)單句之間不完全是以動(dòng)詞為主的連續(xù)鏈結(jié)構(gòu)(COO),也包括以賓語(VOB)為主的連續(xù)鏈結(jié)構(gòu)。直觀上看,可得出如下2個(gè)重要事實(shí):事實(shí)1,(遺傳信息,位于,染色體上面);事實(shí)2,(染色體,跟遺傳有,關(guān)系)。另外更為重要的是,這兩個(gè)事實(shí)都是“德國科學(xué)家摩爾根”“發(fā)現(xiàn)”而“知道”的,因此,這里還存在另外一層實(shí)體與事實(shí)之間的關(guān)系(德國科學(xué)家摩爾根,發(fā)現(xiàn),事實(shí)1)和(德國科學(xué)家摩爾根,知道,事實(shí)2),展開即為(德國科學(xué)家摩爾根,發(fā)現(xiàn),(遺傳信息,位于,染色體上面))和(德國科學(xué)家摩爾根,知道,(染色體,跟遺傳有,關(guān)系))。除此之外,該句中還存在另外一個(gè)實(shí)體關(guān)系(德國科學(xué)家摩爾根,研究,果蠅遺傳規(guī)律),只是該實(shí)體關(guān)系隱藏在偏正結(jié)構(gòu)中。
圖 1 句子依存句法分析結(jié)果(第1部分)Fig. 1 Dependency parsing analysis result for example sentence (part 1)
圖 2 例句“到 1910 年的時(shí)候······”依存句法分析結(jié)果 (第 2 部分)Fig. 2 Dependency par sing analysis r esult for sentence “Dao4 1910 nian2 de1 shi2 hou4” (par t 2)
通過以上的分析可知,實(shí)體關(guān)系在句子中呈現(xiàn)以下3個(gè)特點(diǎn):
1)實(shí)體關(guān)系在謂語上表現(xiàn)為連續(xù)鏈結(jié)構(gòu)。所有連續(xù)的事件依照出現(xiàn)的先后順序以COO相互連接。
2)實(shí)體關(guān)系在實(shí)體本身也可能存在蘊(yùn)含關(guān)系。作為實(shí)體關(guān)系中的實(shí)體,可能為一實(shí)體名稱,也可能為一事件,或者該事件本身又是一種迭代的結(jié)構(gòu)。
3)存在一些游離狀態(tài)的實(shí)體關(guān)系。這些關(guān)系以松耦合的形式構(gòu)成句子的一部分。
基于以上特點(diǎn),本文提出了基于依存語法的開放域多元實(shí)體關(guān)系抽取方法。該方法以哈工大LTP平臺(tái)的句法分析結(jié)果作為依據(jù),抽取句子中以主謂賓結(jié)構(gòu)為代表的實(shí)體關(guān)系,具體算法步驟為:
1)句法分析。將句子提交到LTP平臺(tái)獲取句法分析結(jié)果。
2)事件鏈獲取。獲取句法分析結(jié)果中的root節(jié)點(diǎn)作為入口,查找與該節(jié)點(diǎn)以LTP中定義的事件關(guān)系(COO,IS)相連接的動(dòng)詞并添加到動(dòng)詞集合。
3)主謂賓獲取。依據(jù)LTP定義的主語角色(SBV)和賓語角色 (VOB,IOB,F(xiàn)OB),查找每個(gè)動(dòng)詞的主語和賓語集合(可能存在多個(gè)主語和賓語并列的情形)。如果連接的角色是名詞則將其添加到對(duì)應(yīng)的主語或賓語集合,并查找其他并列的主語或賓語;如果連接的角色是動(dòng)詞,則以該動(dòng)詞作為root節(jié)點(diǎn),并跳轉(zhuǎn)到2)。
4)實(shí)體關(guān)系獲取。將每次循環(huán)過程中獲取到的主謂賓添加到實(shí)體關(guān)系集合中,如果存在主語或賓語并列的情況,則進(jìn)行組合之后添加到實(shí)體關(guān)系集合中。
5)順序掃描句子中所有尚未在上述步驟中查找到的動(dòng)詞,將其作為root節(jié)點(diǎn),跳轉(zhuǎn)到2)。
6)主語填充。利用一定的規(guī)則,對(duì)實(shí)體關(guān)系集合中缺乏主語(零指代)的主謂賓組合填充其主語。
7)獲取主語和賓語的定語部分。依據(jù)LTP平臺(tái)定義的屬性角色(ATT)獲取主語和賓語的定語部分。
8)輸出所有以主謂賓形式表示的實(shí)體關(guān)系。
該算法的核心思想就是根據(jù)事件關(guān)系順序和遞歸地查找所有的主謂賓結(jié)構(gòu),然后獲取實(shí)體的修飾成分。值得注意的是,由于實(shí)體關(guān)系之間存在蘊(yùn)含關(guān)系,一個(gè)事實(shí)可能為另外一個(gè)事實(shí)的成分,需要采用迭代的方式來獲取,3)中最后獲取root節(jié)點(diǎn)就體現(xiàn)了該過程。該算法能夠有效地獲取句子中復(fù)雜的多元實(shí)體關(guān)系,避免無意義的實(shí)體關(guān)系對(duì)抽取結(jié)果的影響。
作為目前比較新的研究方向,多元實(shí)體關(guān)系抽取尚缺乏權(quán)威的評(píng)測數(shù)據(jù),在中文領(lǐng)域中目前亦如此。為了獲得更加客觀公正的測試結(jié)果,同時(shí)也為了驗(yàn)證算法的跨領(lǐng)域抽取能力,本文選取了歷史、經(jīng)濟(jì)、民族、科技、法律5個(gè)領(lǐng)域的文本進(jìn)行測試。其中經(jīng)濟(jì)和科技的文本屬于口述性文本,民族領(lǐng)域文本來源于百度百科,法律文本則來自于法律條款,民族和法律領(lǐng)域的文本相對(duì)來說更加標(biāo)準(zhǔn)規(guī)范。
本文從這些領(lǐng)域文本中選取了部分具有代表性的句子作為評(píng)測數(shù)據(jù),總共包含167個(gè)句子,其中包含多個(gè)實(shí)體關(guān)系的句子總數(shù)為149個(gè),客觀存在的實(shí)體關(guān)系總數(shù)為408對(duì),抽取到的正確實(shí)體關(guān)系數(shù)量為214對(duì),由此可見,該方法獲取到的數(shù)量遠(yuǎn)大于二元實(shí)體關(guān)系抽取。
為了對(duì)具體領(lǐng)域的抽取效果有更直觀的印象,本文采用信息抽取中常用的指標(biāo)對(duì)系統(tǒng)性能進(jìn)行評(píng)估,即正確率、召回率和F值。3個(gè)指標(biāo)的數(shù)據(jù)來源于上述選取的167個(gè)句子。每個(gè)指標(biāo)在具體每個(gè)領(lǐng)域中的性能表現(xiàn)如表1所示。
表 1 本文算法在不同領(lǐng)域中的表現(xiàn)Table 1 Performance of algorithm in this paper in different domains %
從表1中數(shù)據(jù)可以看出,總體的指標(biāo)達(dá)到了60%左右,取得了一定的效果,也證明了本文中的方法具有一定可行性。在歷史領(lǐng)域的文本中性能較差,但在其他領(lǐng)域中都有不俗的表現(xiàn),而且在不同領(lǐng)域中的表現(xiàn)相對(duì)比較穩(wěn)定,說明該方法具有一定的跨領(lǐng)域能力。
表2中列出了本文與其他文獻(xiàn)開放域?qū)嶓w關(guān)系抽取的性能對(duì)比結(jié)果。其中,ZORE是文獻(xiàn)[35]中提出的ZORE系統(tǒng),使用句法分析結(jié)果抽取中文開放域?qū)嶓w關(guān)系,與本文采用的方法類似,該系統(tǒng)的準(zhǔn)確率等指標(biāo)是性能最佳情況下的表現(xiàn),該文獻(xiàn)也是較早研究中文開放域?qū)嶓w關(guān)系抽取的工作之一;UnCORE是哈工大秦兵教授在文獻(xiàn)[30]中提出的面向大規(guī)模網(wǎng)絡(luò)文本的無指導(dǎo)中文開放式實(shí)體關(guān)系抽取模型,在該文獻(xiàn)中給出了正確率,但是因?yàn)槲谋疽?guī)模較大,無法統(tǒng)計(jì)召回率,因此相關(guān)指標(biāo)沒有給出;Kraken是文獻(xiàn)[23]在英文領(lǐng)域抽取多元實(shí)體關(guān)系的性能表現(xiàn),這也是英文多元實(shí)體關(guān)系抽取研究最早的工作之一。
表 2 與其他開放域?qū)嶓w關(guān)系抽取系統(tǒng)性能對(duì)比Table 2 Comparisons with other open domain entity relation extraction systems %
從表2中的數(shù)據(jù)可以看出,與ZORE相比,本文的召回率更高,體現(xiàn)出本文從文本中抽取到的實(shí)體關(guān)系數(shù)量更豐富,對(duì)于復(fù)雜句式效果更好,同時(shí)F值也更高。與UnCORE系統(tǒng)相比,本文的準(zhǔn)確率不高,但是UnCORE系統(tǒng)是在大規(guī)模文本環(huán)境下運(yùn)行的,數(shù)據(jù)的冗余性使得準(zhǔn)確率得以提升,而召回率和F值這些指標(biāo)卻無法統(tǒng)計(jì)。與Kraken系統(tǒng)相比,本文所有的指標(biāo)略有小幅下降,但是作為在中文領(lǐng)域中的一種嘗試,本文得到這樣的運(yùn)行表現(xiàn)證明該方法具有一定的參考價(jià)值。
本文對(duì)實(shí)體關(guān)系抽取在不同領(lǐng)域錯(cuò)誤的原因進(jìn)行分析,對(duì)抽取到的實(shí)體關(guān)系的錯(cuò)誤部分與未抽取到的實(shí)體關(guān)系進(jìn)行了統(tǒng)計(jì),將錯(cuò)誤的原因大致分成6種情形,具體每種錯(cuò)誤在不同領(lǐng)域中的占比如表3所示。
表 3 本文算法在不同領(lǐng)域中出現(xiàn)錯(cuò)誤的原因及占比統(tǒng)計(jì)Table 3 Case of errors and its proportion in different domain with method used in this paper %
從表3可看出,導(dǎo)致錯(cuò)誤的原因比較集中,主要包括情形1、情形3和情形5,占比總和達(dá)到了79.67%,這也為今后的工作指明了方向。對(duì)于每種錯(cuò)誤的分析如下:
情形1 動(dòng)詞詞性導(dǎo)致的錯(cuò)誤,名動(dòng)詞被標(biāo)注為動(dòng)詞,導(dǎo)致名詞性短語難以正確識(shí)別。本文使用的分詞工具為哈爾濱工業(yè)大學(xué)LTP語言技術(shù)平臺(tái)[36]本地工具包(LTP4J),工具中動(dòng)詞只包含一種類型“v”,該詞性分類體系與北京理工大學(xué)的NLPIR[37]采用的計(jì)算所漢語詞性標(biāo)記集不同,后者將動(dòng)詞 (v)分成了 9種 (vd、vn、vshi、vyou、vf、vx、vi、vl、vg)類型,每種類型的動(dòng)詞的作用更加清晰。本文使用LTP平臺(tái)的主要原因是該平臺(tái)具有句法分析、依存分析等功能,同時(shí)該平臺(tái)的分詞能力在本文所使用的語料中表現(xiàn)更佳。
LTP平臺(tái)對(duì)句子“三線建設(shè),是1964年在毛澤東同志和中共中央的決策下進(jìn)行的一場以戰(zhàn)備為中心的經(jīng)濟(jì)建設(shè)戰(zhàn)略”的詞性標(biāo)注結(jié)果為:“三線/j建設(shè)/v,/wp 是/v 1964 年/nt······”,從本例中可以看出本句的主語為“三線建設(shè)”,但是由于“建設(shè)”的詞性為“v”,根據(jù)本文算法,會(huì)繼續(xù)尋找其主語,從而導(dǎo)致主語“三線建設(shè)”識(shí)別失敗,但是如果將其標(biāo)注為動(dòng)名詞“vn”,則可以有效地提取到該主語。從表2中可以看出,該問題導(dǎo)致抽取失敗的占比達(dá)到了27.30%,其影響非常大。本文曾嘗試使用NLPIR對(duì)該問題進(jìn)行修復(fù),但是由于分詞結(jié)果不同,因此效果不佳。
情形2 動(dòng)詞相鄰,在位置上前后緊密連接。以句子“毛澤東所說的‘屁股’,是指基礎(chǔ)工業(yè)”,其分詞結(jié)果為“······,/wp 是/v 指/v 基礎(chǔ)/n 工業(yè)/v”。直觀上說,“是指”可作為本句中的謂語,然而由于在句法分析結(jié)果中二者是以VOB連接,因此會(huì)以情形1中相同的方式進(jìn)行處理,從而導(dǎo)致錯(cuò)誤的發(fā)生。
情形3 實(shí)體詞(主語或賓語等)在句子的附加結(jié)構(gòu)中。以句子“從公元前21世紀(jì)以后,相繼出現(xiàn)了夏、商、西周幾個(gè)王朝”為例,本例中包含實(shí)體關(guān)系(公元前21世紀(jì)以后,出現(xiàn),夏王朝),此處時(shí)間“公元前21世紀(jì)以后”雖然不是主語,但是作為時(shí)間修飾成分,同樣也描述了基本的事實(shí),因此可作為實(shí)體關(guān)系而被抽取。但是在該句中,“從公元前21世紀(jì)以后”是作為ADV類型的狀中結(jié)構(gòu)存在,本文采用的方法無法抽取到實(shí)體“公元前21世紀(jì)以后”這種時(shí)間類型的實(shí)體詞。該情形是廣泛存在于多元實(shí)體關(guān)系抽取中的問題,在錯(cuò)誤中的總占比為32.96%,同時(shí)由于本文之前尚未定義該類型實(shí)體關(guān)系的抽取規(guī)則,幾乎所有的實(shí)體關(guān)系都沒有被檢測到,因此增加此類實(shí)體抽取規(guī)則將在很大程度上提升召回率。
情形4 省略了主語情況下,主語的自動(dòng)填充結(jié)果帶來的錯(cuò)誤。在中文行文中,省略語與指代是廣泛存在的現(xiàn)象,在實(shí)體關(guān)系抽取結(jié)果中占據(jù)非常大的比例。本文采用了簡單的規(guī)則來彌補(bǔ)此問題:在缺乏主語或存在代詞的情況下,向前一個(gè)語言片段尋找主語實(shí)體詞,將找到的第一個(gè)主語作為被省略的主語或代詞的實(shí)體詞,如果在一個(gè)句子中前面位置找不到實(shí)體詞,則向后尋找。例如:語句“漢族是中國的主體民族,是上古時(shí)期黃帝和炎帝部落的后裔”,該句第二個(gè)語言片段表達(dá)的是“漢族是上古時(shí)期黃帝和炎帝部落的后裔”,但是“漢族”本身是前一個(gè)語句的主語,通過本文的主語填充規(guī)則可以輕松地獲得事實(shí)(漢族,是,上古時(shí)期黃帝部落后裔)和(漢族,是,上古時(shí)期炎帝部落后裔)。該方法有效地降低了主語被省略的情況對(duì)實(shí)體抽取的影響。但是由于該方法過于簡單,也帶來了一些錯(cuò)誤,如找到錯(cuò)誤的主語,或主語找不到的情況。
情形5 實(shí)體詞存在并列的情況。實(shí)體詞并列出現(xiàn)的現(xiàn)象在文本中是廣泛存在的,存在幾個(gè)并列關(guān)系就存在幾種事實(shí),而本文的抽取規(guī)則尚未完整地考慮到所有并列的情形,因此并列關(guān)系的存在對(duì)抽取結(jié)果產(chǎn)生了較大的影響。以句子“佤族主要分布云南省西南部的西盟、滄源、瀾滄、孟連、雙江、耿馬、永德、鎮(zhèn)康等縣”為例,本句包含多個(gè)事實(shí):(佤族,分布,云南省西南部西盟縣)、(佤族,分布,云南省西南部滄源縣)······(佤族,分布,云南省西南部鎮(zhèn)康縣),總共8個(gè)事實(shí),而本文的方法只能抽取到(佤族,分布,云南省西南部西盟縣)這個(gè)事實(shí),其余的7個(gè)事實(shí)則被忽略掉。由此可見,對(duì)并列結(jié)構(gòu)中實(shí)體關(guān)系的抽取會(huì)極大地降低召回率。從表2中的數(shù)據(jù)也可以看出,其在總的錯(cuò)誤中占比達(dá)到了19.41%,因此提升空間是巨大的。
情形6 其他原因,包括由于句子邊界識(shí)別、未登錄詞、句子結(jié)構(gòu)復(fù)雜等原因而導(dǎo)致的無法識(shí)別的情形。該情形在民族與科技領(lǐng)域中存在的情況比較常見。
作為在中文開放領(lǐng)域中多元實(shí)體關(guān)系抽取的一種嘗試,本文從依存語法的角度出發(fā),通過對(duì)句法分析的結(jié)果進(jìn)行分析,抽取以主謂賓結(jié)構(gòu)為代表的多元實(shí)體關(guān)系,并獲得了一定的成效。同時(shí)本文對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析,總結(jié)了導(dǎo)致抽取失敗的5種主要情形,這也為今后的研究工作指明了方向。另外,本文只獲取了主語和賓語的定語部分,但是對(duì)補(bǔ)語和狀語沒有進(jìn)行抽取,這使得部分抽取結(jié)果理解比較困難,因此還需要進(jìn)一步優(yōu)化算法。