王智廣,文紅英,魯 強(qiáng),申昊鍇
(1.中國(guó)石油大學(xué)(北京) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 102249;2.中國(guó)石油大學(xué)(北京) 石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 102249)
實(shí)體關(guān)系抽取是信息抽取的核心任務(wù)之一[1],其目的就是從文本中抽取實(shí)體及實(shí)體間的語(yǔ)義關(guān)系,并將其表示為結(jié)構(gòu)化的三元組(實(shí)體1,關(guān)系,實(shí)體2),用于構(gòu)建知識(shí)圖譜或推薦等任務(wù)。與通用領(lǐng)域相比,地質(zhì)領(lǐng)域的實(shí)體關(guān)系抽取的研究面臨兩大難點(diǎn)。第一,地質(zhì)領(lǐng)域的實(shí)體和關(guān)系種類多樣,難以對(duì)實(shí)體及關(guān)系類型進(jìn)行準(zhǔn)確的定義。例如,我們很難給出實(shí)體“若爾蓋坳陷”、“千佛巖組”、“奧陶紀(jì)”和關(guān)系“沉積巖最大厚度”、“上覆巖層最早時(shí)期”的準(zhǔn)確定義,這些實(shí)體和關(guān)系與通用領(lǐng)域的實(shí)體和關(guān)系差異較大,難以把通用領(lǐng)域的實(shí)體及關(guān)系類型定義遷移到地質(zhì)領(lǐng)域。第二,地質(zhì)領(lǐng)域缺乏類似于Wikipedia或Freebase的大規(guī)模知識(shí)庫(kù)。而人工標(biāo)注依靠領(lǐng)域?qū)<?,難以獲得大量的高質(zhì)量的標(biāo)注數(shù)據(jù)(三元組及來(lái)源語(yǔ)句)。為了應(yīng)對(duì)這一挑戰(zhàn),一些研究者提出了一種可以自動(dòng)標(biāo)注大規(guī)模標(biāo)注數(shù)據(jù)的遠(yuǎn)監(jiān)督方法[2,3]。但是,遠(yuǎn)監(jiān)督方法可能會(huì)產(chǎn)生嘈雜的數(shù)據(jù),這會(huì)阻礙基于此類嘈雜數(shù)據(jù)訓(xùn)練的模型的性能。盡管遠(yuǎn)監(jiān)督方法在過(guò)濾噪聲數(shù)據(jù)方面已取得重大進(jìn)展,但遠(yuǎn)監(jiān)督方法只能抽取知識(shí)庫(kù)中已存在的關(guān)系。而地質(zhì)領(lǐng)域?qū)嶓w關(guān)系抽取中另一個(gè)主要挑戰(zhàn)是領(lǐng)域語(yǔ)料庫(kù)中實(shí)體和關(guān)系種類的多樣性,這使得我們很難準(zhǔn)確地預(yù)定義實(shí)體和關(guān)系。因此,遠(yuǎn)監(jiān)督和基于神經(jīng)網(wǎng)絡(luò)的方法在地質(zhì)領(lǐng)域難以取得較好的效果。開放式實(shí)體關(guān)系抽取直接從文本中抽取實(shí)體及實(shí)體間的關(guān)系,對(duì)標(biāo)注語(yǔ)料的依賴小且解決了預(yù)先定義關(guān)系類型體系的問(wèn)題[4]。因此,本文主要研究大規(guī)模地質(zhì)領(lǐng)域語(yǔ)料背景下的開放式實(shí)體關(guān)系抽取。
目前,通用領(lǐng)域的實(shí)體和關(guān)系抽取方法仍然存在同一對(duì)實(shí)體間存在多種關(guān)系的關(guān)系重疊等問(wèn)題,并且這些方法仍然需要大量的標(biāo)注語(yǔ)料庫(kù)[5],無(wú)法有效解決地質(zhì)等專業(yè)領(lǐng)域?qū)嶓w關(guān)系抽取的兩個(gè)主要挑戰(zhàn):①實(shí)體和關(guān)系類型復(fù)雜;②缺少標(biāo)注數(shù)據(jù)。上述方法很難從通用領(lǐng)域遷移到地質(zhì)領(lǐng)域。受遠(yuǎn)監(jiān)督方法[6]和DSNFs系統(tǒng)[7]的啟發(fā),本文建立了一種根據(jù)中文句法結(jié)構(gòu)抽取實(shí)體及關(guān)系的聯(lián)合開放式抽取模型CSSEM(Chinese syntactic structure extraction mo-del)。該模型解決了地質(zhì)領(lǐng)域?qū)嶓w關(guān)系類型復(fù)雜和缺少標(biāo)注數(shù)據(jù)的問(wèn)題,為地質(zhì)等專業(yè)領(lǐng)域的知識(shí)圖譜的構(gòu)建提供知識(shí)支持,為需要訓(xùn)練數(shù)據(jù)的有監(jiān)督和遠(yuǎn)監(jiān)督方法建立了基礎(chǔ)。
實(shí)體關(guān)系抽取的研究主要?dú)w類為兩大類方法:流水線方法和聯(lián)合學(xué)習(xí)方法。流水線方法首先對(duì)句子進(jìn)行命名實(shí)體識(shí)別,然后對(duì)識(shí)別出來(lái)的實(shí)體進(jìn)行兩兩組合,再進(jìn)行關(guān)系分類,最后把存在關(guān)系的三元組作為輸出。這種方法存在錯(cuò)誤傳播和產(chǎn)生冗余信息的缺點(diǎn),實(shí)體識(shí)別的結(jié)果影響關(guān)系抽取的性能。Jia等提出了一種基于抽取范式的開放式關(guān)系抽取系統(tǒng)DSNFs[7]。該系統(tǒng)是基于流水線方法的系統(tǒng),它根據(jù)定義的范式直接抽取關(guān)系。抽取范式的普適性有待商榷;且其抽取結(jié)果依賴于命名實(shí)體識(shí)別任務(wù),實(shí)體識(shí)別的結(jié)果影響關(guān)系抽取的性能,抽取結(jié)果的準(zhǔn)確率和召回率都有待提高。盡管深度神經(jīng)模型的最新進(jìn)展使我們能夠構(gòu)建可靠的命名實(shí)體識(shí)別系統(tǒng),而無(wú)需人工構(gòu)建特征[8,9]。但是,這樣的方法需要大量的手動(dòng)標(biāo)注的訓(xùn)練數(shù)據(jù)。人們一直在努力通過(guò)遠(yuǎn)監(jiān)督(結(jié)合外部詞典)來(lái)代替人工標(biāo)注,而生成的嘈雜標(biāo)簽對(duì)學(xué)習(xí)有效的神經(jīng)模型提出了重大挑戰(zhàn)[10]。因此,基于流水線的模型不適用于地質(zhì)領(lǐng)域中的實(shí)體關(guān)系抽取。理想的聯(lián)合學(xué)習(xí)可以描述為:輸入一個(gè)句子,通過(guò)實(shí)體識(shí)別和關(guān)系抽取聯(lián)合模型,直接得到實(shí)體關(guān)系三元組。這種方法可以克服上面流水線方法的缺點(diǎn),更適合地質(zhì)等專業(yè)領(lǐng)域的實(shí)體關(guān)系抽取。同時(shí),由于用于關(guān)系抽取的深度神經(jīng)網(wǎng)絡(luò)(DNN)的快速發(fā)展,一些研究者提出使用神經(jīng)網(wǎng)絡(luò)抽取實(shí)體和關(guān)系的聯(lián)合模型。Zheng等[11]提出一個(gè)使用LSTM和CNN分別抽取實(shí)體和關(guān)系的模型,該模型無(wú)需設(shè)計(jì)復(fù)雜的特征工程,但其實(shí)體識(shí)別和關(guān)系抽取是分離的,會(huì)產(chǎn)生信息冗余。Zheng等[12]提出了一個(gè)新穎的標(biāo)注機(jī)制,將聯(lián)合抽取問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,解決了分離地抽取實(shí)體和關(guān)系并且產(chǎn)生信息冗余的問(wèn)題。但該方法無(wú)法解決一個(gè)實(shí)體和多個(gè)實(shí)體之間存在關(guān)系以及同一實(shí)體對(duì)存在多個(gè)關(guān)系的關(guān)系重疊的問(wèn)題。Wang等[13]通過(guò)設(shè)計(jì)一個(gè)有向圖機(jī)制將聯(lián)合抽取任務(wù)轉(zhuǎn)換為一個(gè)有向圖問(wèn)題,使用基于轉(zhuǎn)移的解析框架來(lái)解決實(shí)體和關(guān)系的信息未能完全利用的問(wèn)題,該方法解決了一個(gè)實(shí)體和多個(gè)實(shí)體之間存在關(guān)系的問(wèn)題,但無(wú)法解決同一實(shí)體對(duì)存在多個(gè)關(guān)系的問(wèn)題。
現(xiàn)有的通用領(lǐng)域?qū)嶓w和關(guān)系聯(lián)合抽取方法仍然存在諸如關(guān)系重疊之類的問(wèn)題。同時(shí),大多數(shù)現(xiàn)有方法需要大量的手動(dòng)標(biāo)注語(yǔ)句來(lái)訓(xùn)練監(jiān)督模型。這在地質(zhì)等專業(yè)領(lǐng)域尤其具有挑戰(zhàn)性,因?yàn)閷I(yè)領(lǐng)域的標(biāo)注代價(jià)昂貴且獲取較慢。為了解決上述問(wèn)題,本文提出了一種地質(zhì)領(lǐng)域的開放式實(shí)體關(guān)系抽取模型CSSEM,該模型從少量地質(zhì)領(lǐng)域標(biāo)注數(shù)據(jù)中學(xué)習(xí)模式,并將提取模式應(yīng)用于新的領(lǐng)域特定語(yǔ)料庫(kù)以提取實(shí)體和關(guān)系。CSSEM模型主要解決的問(wèn)題及創(chuàng)新點(diǎn)如下:
(1)為解決地質(zhì)領(lǐng)域存在的實(shí)體及關(guān)系類型復(fù)雜的問(wèn)題,CSSEM模型給出了一種基于模式的地質(zhì)領(lǐng)域?qū)嶓w識(shí)別和關(guān)系抽取方法。模型基于抽取模式開放式地抽取三元組,解決了關(guān)系類型復(fù)雜的問(wèn)題;同時(shí),在抽取基本三元組之后,模型基于實(shí)體識(shí)別模式擴(kuò)展實(shí)體信息,解決了地質(zhì)領(lǐng)域?qū)嶓w類型復(fù)雜而難以準(zhǔn)確定義的問(wèn)題;
(2)為解決地質(zhì)領(lǐng)域存在的缺乏標(biāo)注語(yǔ)料(三元組及來(lái)源語(yǔ)句)的問(wèn)題,模型采用Bootstrapping算法基于少量的高精度初始標(biāo)注語(yǔ)料獲得一定量的訓(xùn)練語(yǔ)料,之后在訓(xùn)練語(yǔ)料上依據(jù)句法結(jié)構(gòu)從訓(xùn)練語(yǔ)料中學(xué)習(xí)高頻抽取模式,最后使用模式從非結(jié)構(gòu)化的文本中開放式地抽取出大量的三元組,解決了地質(zhì)領(lǐng)域缺少標(biāo)注數(shù)據(jù)的問(wèn)題。模型使用基于句法結(jié)構(gòu)的模式抽取實(shí)體和關(guān)系,模式不限定關(guān)系類型,解決了同一實(shí)體對(duì)存在多個(gè)關(guān)系的關(guān)系重疊問(wèn)題。
圖1為CSSEM模型的整體框架思想,模型主要包括訓(xùn)練語(yǔ)料的獲取、開放抽取模式的學(xué)習(xí)和基于抽取模式的開放式實(shí)體識(shí)別及關(guān)系抽取3個(gè)模塊。其中,n代表句子個(gè)數(shù),m代表實(shí)體個(gè)數(shù),r代表關(guān)系個(gè)數(shù)。2.1小節(jié)~2.3小節(jié)分別對(duì)CSSEM模型的3個(gè)模塊進(jìn)行分析。
圖1 CSSEM模型框架
Bootstrapping算法是一個(gè)能利用知識(shí)庫(kù)反復(fù)迭代以獲取到置信度較高的標(biāo)注語(yǔ)料的過(guò)程。對(duì)于知識(shí)庫(kù)中的三元組,BootStrapping算法提取包含三元組中所有詞的句子,選擇置信度較高的句子和三元組一起作為標(biāo)注數(shù)據(jù)加入到標(biāo)注語(yǔ)料中。由于地質(zhì)領(lǐng)域缺乏類似于Wikipedia或Freebase的大規(guī)模知識(shí)庫(kù),我們首先人工標(biāo)注少量的高精度初始標(biāo)注語(yǔ)料InitialSet(三元組T和來(lái)源語(yǔ)句S)。CSSEM模型基于Bootstrapping算法使用初始標(biāo)注語(yǔ)料InitialSet來(lái)獲得大量的置信度較高的訓(xùn)練語(yǔ)料TrainSet。例如,初始標(biāo)注語(yǔ)料InitialSet中存在三元組(萬(wàn)安盆地,位于,南沙海域西部)。我們將該三元組與地質(zhì)領(lǐng)域文檔中的所有語(yǔ)句相匹配后得到包含三元組所有詞語(yǔ)的語(yǔ)句“萬(wàn)安盆地位于南沙海域西部”。獲取包含三元組的語(yǔ)句之后,我們將該句子和三元組一起作為標(biāo)注語(yǔ)料加入到訓(xùn)練語(yǔ)料TrainSet。
獲取到訓(xùn)練語(yǔ)料TrainSet之后,在TrainSet上學(xué)習(xí)開放抽取模式。實(shí)體關(guān)系抽取中的模式是指基于語(yǔ)義分析的詞法、句法和語(yǔ)法結(jié)構(gòu)的結(jié)合,它需要符合人類表達(dá)的語(yǔ)言規(guī)律,是對(duì)人類復(fù)雜語(yǔ)言表示的一種總結(jié)[14]。圖1中的抽取模式是從地質(zhì)領(lǐng)域文檔的句法結(jié)構(gòu)和少量標(biāo)注中學(xué)習(xí)出的開放式模式。所謂開放式指的是在抽取之前并不知道實(shí)體和關(guān)系的類型和結(jié)果,直接從文本中抽取實(shí)體及實(shí)體間的關(guān)系。但與傳統(tǒng)的基于Bootstrapping的OLLIE系統(tǒng)[15]不同,OLLOE系統(tǒng)基于語(yǔ)句學(xué)習(xí)抽取模板,而模型CSSEM學(xué)到的抽取模式是基于中文句法結(jié)構(gòu)的。句法結(jié)構(gòu)的基本類型有主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、偏正結(jié)構(gòu)、補(bǔ)充結(jié)構(gòu)和聯(lián)合結(jié)構(gòu)[7]。這5種類型體現(xiàn)了漢語(yǔ)的基本語(yǔ)法關(guān)系。中文句子的表述沒有通用的模版,但中文的句法結(jié)構(gòu)包括5種基本的類型,也就是說(shuō),中文的句法結(jié)構(gòu)是有通用定義的。因此,CSSEM模型基于中文句法結(jié)構(gòu)學(xué)習(xí)的抽取模式是具有代表性和普適性的,同樣適用于地質(zhì)領(lǐng)域。
CSSEM模型基于句法結(jié)構(gòu)學(xué)習(xí)開放式抽取模式以抽取實(shí)體及實(shí)體之間的關(guān)系,而依存句法分析的任務(wù)是通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系來(lái)揭示其句法結(jié)構(gòu)[16]。因此,CSSEM模型依賴依存句法分析的結(jié)果。
本文依存句法分析的實(shí)現(xiàn)基于LTP[16]平臺(tái)?;谝来骊P(guān)系的模型已被驗(yàn)證在關(guān)系提取中非常有效,它們捕獲了表現(xiàn)形式模糊的遠(yuǎn)距離句法關(guān)系[17]。因此,本文的模型在句子較長(zhǎng)或句子結(jié)構(gòu)復(fù)雜的地質(zhì)領(lǐng)域能夠取得較好的效果。以圖2為例,圖2是例句經(jīng)過(guò)LTP依存句法分析后得到的結(jié)果。圖中連接線上的標(biāo)簽是由LTP定義的依賴標(biāo)簽,代表不同句法成分的關(guān)系即句法結(jié)構(gòu)。例如,圖2中的“礫巖”和“分布”之間是主謂關(guān)系,以SBV標(biāo)簽標(biāo)識(shí)。圖中從左到右標(biāo)簽的含義分別是:HED代表整個(gè)句子的核心,ATT代表定中關(guān)系,SBV代表主謂關(guān)系,ADV代表狀中結(jié)構(gòu),POB代表介賓關(guān)系,VOB代表動(dòng)賓關(guān)系,WP代表著標(biāo)點(diǎn),COO代表并列關(guān)系,CMP代表動(dòng)補(bǔ)結(jié)構(gòu)。圖2包含了下文中圖3、圖4和圖5中提到的所有標(biāo)簽。
圖2 依存句法分析標(biāo)簽
為了學(xué)習(xí)模式,我們首先在依存句法分析結(jié)果上提取連接每個(gè)三元組和相關(guān)句子的實(shí)體和關(guān)系詞的依賴路徑。使用標(biāo)簽注釋路徑中的實(shí)體和關(guān)系節(jié)點(diǎn),即將具體實(shí)體詞變?yōu)椤皩?shí)體”標(biāo)簽,并用“關(guān)系”標(biāo)簽替換依賴路徑中關(guān)系內(nèi)容詞來(lái)創(chuàng)建每個(gè)三元組的關(guān)系模式。模型統(tǒng)計(jì)訓(xùn)練語(yǔ)料中相似的關(guān)系模式,同時(shí),對(duì)所有相似的關(guān)系模式進(jìn)行排序以獲得高頻的抽取模式。學(xué)習(xí)的關(guān)系抽取模式如圖3所示。圖中的模式是模型達(dá)到穩(wěn)定后的抽取模式,可覆蓋大部分地質(zhì)領(lǐng)域的語(yǔ)句。關(guān)系抽取模式1屬于主謂結(jié)構(gòu),關(guān)系抽取模式2是動(dòng)賓結(jié)構(gòu)的抽取模式,模式3~模式5屬于偏正結(jié)構(gòu)的關(guān)系抽取模式,模式6代表補(bǔ)充結(jié)構(gòu)的關(guān)系抽取模式,模式7~模式9代表聯(lián)合結(jié)構(gòu)的關(guān)系抽取模式。實(shí)體識(shí)別模式10如圖4所示,[ ]*代表出現(xiàn)一次或多次。
圖3 高頻的關(guān)系抽取模式
圖4 擴(kuò)展實(shí)體信息的實(shí)體識(shí)別模式
得到高頻的抽取模式之后,CSSEM模型在抽取時(shí)應(yīng)用學(xué)習(xí)到的抽取模式。本節(jié)描述如何使用這些開放模式從新句子中識(shí)別實(shí)體及抽取關(guān)系。雖然模型中實(shí)體識(shí)別和關(guān)系抽取是一同進(jìn)行的,但為闡述清晰,本節(jié)將其分成兩小節(jié)分析。
2.3.1 基于抽取模式的實(shí)體識(shí)別
由于地質(zhì)領(lǐng)域的實(shí)體種類復(fù)雜,難以對(duì)實(shí)體類型進(jìn)行準(zhǔn)確的定義。例如:“大巴山構(gòu)造烴源巖”、“四川盆地油氣儲(chǔ)層”。通用領(lǐng)域的實(shí)體類型包括人名、地名、機(jī)構(gòu)名、專有名詞等,該實(shí)體類型分類在地質(zhì)領(lǐng)域意義不大。分析地質(zhì)領(lǐng)域的實(shí)體特點(diǎn),本文中地質(zhì)領(lǐng)域的實(shí)體類型包括地名、專業(yè)術(shù)語(yǔ)、地名+專業(yè)術(shù)語(yǔ)、專業(yè)術(shù)語(yǔ)+專業(yè)術(shù)語(yǔ)的組合等。例如“四川盆地油氣儲(chǔ)層”就是專業(yè)術(shù)語(yǔ)“四川盆地”和專業(yè)術(shù)語(yǔ)“油氣儲(chǔ)層”的組合,代表地質(zhì)領(lǐng)域的實(shí)體。由于地質(zhì)領(lǐng)域缺乏相應(yīng)的實(shí)體標(biāo)注語(yǔ)料,采用已有的實(shí)體識(shí)別模型進(jìn)行訓(xùn)練和識(shí)別較為困難。并且分析地質(zhì)領(lǐng)域?qū)嶓w特點(diǎn)可知,地質(zhì)領(lǐng)域文檔的實(shí)體在句子成分中充當(dāng)主語(yǔ)或賓語(yǔ)的成分。綜合以上領(lǐng)域?qū)嶓w特點(diǎn),并結(jié)合基于訓(xùn)練集TrainSet學(xué)習(xí)出的抽取模式,模型給出了一種不依賴實(shí)體標(biāo)注語(yǔ)料的基于抽取模式的地質(zhì)領(lǐng)域?qū)嶓w識(shí)別方法,方法包括抽取基本實(shí)體和擴(kuò)展實(shí)體信息兩部分。
(1)抽取基本的實(shí)體詞:首先基于依存句法分析結(jié)果,從ROOT節(jié)點(diǎn)出發(fā),找到與HED標(biāo)簽連接的“關(guān)系詞”節(jié)點(diǎn)。再根據(jù)“關(guān)系詞”和“實(shí)體”以某種依存關(guān)系相連定位基本的“實(shí)體”,不同句法結(jié)構(gòu)對(duì)應(yīng)的依存標(biāo)簽不同,如圖3所示。圖3主謂結(jié)構(gòu)中與關(guān)系節(jié)點(diǎn)以SBV標(biāo)簽相連的節(jié)點(diǎn)代表基本的實(shí)體,圖3動(dòng)賓結(jié)構(gòu)中與關(guān)系節(jié)點(diǎn)以VOB標(biāo)簽相連的是基本的實(shí)體。
(2)擴(kuò)展實(shí)體信息:定位基本實(shí)體后,采用圖4中的實(shí)體識(shí)別模式擴(kuò)展實(shí)體的信息,獲得語(yǔ)義完整的且具有實(shí)際意義的實(shí)體。
結(jié)合圖5中例句“背景因素主要包括盆地類型、沉積巖厚度”對(duì)實(shí)體識(shí)別方法進(jìn)行解釋,圖中步驟2中依存句法分析結(jié)果中的ROOT節(jié)點(diǎn)是抽取模型的入口。我們?cè)诓襟E3中首先找到與ROOT節(jié)點(diǎn)以HED標(biāo)簽相連的關(guān)系詞“包括”;再根據(jù)模式8關(guān)系詞找到基本的實(shí)體詞“因素”;最后,由于基本的實(shí)體詞“因素”和前面的擴(kuò)展詞“背景”之間存在依存句法分析標(biāo)簽ATT,匹配擴(kuò)展實(shí)體信息的實(shí)體識(shí)別模式可得完整的實(shí)體“背景因素”。
傳統(tǒng)的基于流水線的實(shí)體關(guān)系抽取是在實(shí)體已經(jīng)識(shí)別的情況下抽取實(shí)體間的關(guān)系。但地質(zhì)領(lǐng)域難以訓(xùn)練命名實(shí)體識(shí)別模型,所以導(dǎo)致基于命名實(shí)體識(shí)別任務(wù)的關(guān)系抽取模型效果較差。一般情況下,關(guān)系是存在于兩個(gè)實(shí)體之間的。我們的模型CSSEM首先獲得關(guān)系詞,之后在關(guān)系詞的基礎(chǔ)上利用句法層面的信息輔助識(shí)別實(shí)體,識(shí)別的實(shí)體類型不受限制。經(jīng)分析和實(shí)驗(yàn)結(jié)果驗(yàn)證可知,本文提出的實(shí)體識(shí)別方法利用句法層面的信息輔助抽取實(shí)體,在地質(zhì)專業(yè)領(lǐng)域的實(shí)體識(shí)別上取得較好的效果,解決了地質(zhì)領(lǐng)域的實(shí)體識(shí)別存在的問(wèn)題。
2.3.2 基于抽取模式的關(guān)系抽取
上一節(jié)介紹模型中的實(shí)體識(shí)別,本節(jié)進(jìn)一步分析基于抽取模式的地質(zhì)領(lǐng)域關(guān)系抽取。
基于抽取模式的地質(zhì)領(lǐng)域關(guān)系抽取如圖1中模塊3所示。輸入是一系列非結(jié)構(gòu)化文本,模型預(yù)處理這些文本,即將這些文本按句子劃分;然后,模型通過(guò)依賴分析工具(如LTP)分析句子成分;再用學(xué)習(xí)到的抽取模式匹配句子的依存關(guān)系的結(jié)構(gòu)并識(shí)別出實(shí)體和關(guān)系節(jié)點(diǎn),從而得到三元組。如圖5所示,根據(jù)學(xué)習(xí)的關(guān)系抽取模式8匹配句子“背景因素主要包括盆地類型、沉積巖厚度”的依存句法結(jié)構(gòu)從而獲得三元組(背景因素,包括,盆地類型)、(背景因素,包括,沉積巖厚度)。最后,對(duì)抽取結(jié)果進(jìn)行評(píng)估,將高質(zhì)量的三元組加入訓(xùn)練集TrainSet中。對(duì)于有一定代表性的不正確的三元組,可人工修改為正確的三元組,并將其反饋到訓(xùn)練集TrainSet中。人工參與步驟是可以選擇的,若人工修正難度較大,可忽略人工干預(yù)步驟,直接將評(píng)估結(jié)果進(jìn)行反饋。當(dāng)模型將評(píng)估結(jié)果擴(kuò)充加入TrainSet中,重新進(jìn)行學(xué)習(xí),但學(xué)習(xí)到的高頻抽取模式?jīng)]有發(fā)生很大的變化時(shí),我們認(rèn)為該模型學(xué)習(xí)到的抽取模式已經(jīng)較為完善了。圖3中的抽取模式是我們反復(fù)迭代后模型達(dá)到穩(wěn)定時(shí)的高頻抽取模式,具有一定的代表性,能完成大部分地質(zhì)領(lǐng)域語(yǔ)句的實(shí)體識(shí)別關(guān)系抽取,模型在地質(zhì)領(lǐng)域取得了較好的應(yīng)用效果。
圖5 基于抽取模式的實(shí)體識(shí)別和關(guān)系抽取流程
3.1.1 語(yǔ)料數(shù)據(jù)選取
CSSEM模型是基于地質(zhì)領(lǐng)域的實(shí)體及關(guān)系特點(diǎn)進(jìn)行研究的,但其模型同樣適用于其它領(lǐng)域。為驗(yàn)證CSSEM模型可以抽取不同領(lǐng)域的開放式實(shí)體及關(guān)系,選擇兩種類型的測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。第一種是從中文維基百科中獲得初始標(biāo)注集Initial_GSA,標(biāo)注集包括維基百科的文本及從該文本抽取的三元組。同時(shí)隨機(jī)選取的包含歷史、文學(xué)、新聞等類型的數(shù)據(jù)集GSA,共計(jì)37 102個(gè)語(yǔ)句。劃分GSA數(shù)據(jù)集,一部分在Initial_GSA上使用Bootstrapping算法擴(kuò)充訓(xùn)練語(yǔ)料以學(xué)習(xí)抽取模式,另一部分作為測(cè)試數(shù)據(jù)使用學(xué)習(xí)的抽取模式識(shí)別實(shí)體和抽取關(guān)系。
第二種是領(lǐng)域?qū)<覙?biāo)注的少量標(biāo)注集Initial_OSA,標(biāo)注集包含地質(zhì)領(lǐng)域的文本及從該文本抽取的三元組。之后從地質(zhì)領(lǐng)域文本中隨機(jī)選取的語(yǔ)料集合OSA,共計(jì)93 287個(gè)語(yǔ)句。將OSA數(shù)據(jù)集分為兩部分,一部分在Initial_OSA上使用Bootstrapping算法擴(kuò)充訓(xùn)練語(yǔ)料以學(xué)習(xí)抽取模式,另一部分作為測(cè)試數(shù)據(jù)使用學(xué)習(xí)的抽取模式識(shí)別實(shí)體和抽取關(guān)系。
3.1.2 模型抽取
模型抽取包括CSSEM和DSNFs兩個(gè)模型的抽取任務(wù)。引言中還提到了目前中文開放式關(guān)系抽取的UnCORE、ZORE和其它聯(lián)合抽取方法,但這些模型都需要大量的標(biāo)注語(yǔ)料來(lái)訓(xùn)練。地質(zhì)領(lǐng)域缺乏相應(yīng)的數(shù)據(jù),因此本文沒有與這些模型進(jìn)行對(duì)比。
如圖1所示,模型基于少量標(biāo)注語(yǔ)料從非結(jié)構(gòu)的文檔中擴(kuò)充訓(xùn)練語(yǔ)料;依據(jù)句法結(jié)構(gòu)從訓(xùn)練語(yǔ)料中學(xué)習(xí)高頻抽取模式;然后基于模式從非結(jié)構(gòu)化的文本中開放式地抽取出大量的三元組;最后對(duì)抽取結(jié)果進(jìn)行評(píng)估,將高質(zhì)量的三元組加入訓(xùn)練集中。對(duì)于有一定代表性的不正確的三元組,可人工修改為正確的三元組,并將其反饋到訓(xùn)練集中。不斷迭代學(xué)習(xí)直到高頻抽取模式不再發(fā)生大的變化時(shí),我們認(rèn)為該模型學(xué)習(xí)到的抽取模式已經(jīng)較為完善了,可結(jié)束學(xué)習(xí)過(guò)程,直接將抽取模式應(yīng)用于新語(yǔ)句的實(shí)體識(shí)別和關(guān)系抽取。
3.1.3 模型性能評(píng)價(jià)
由于本文研究的是地質(zhì)領(lǐng)域的開放式關(guān)系抽取,該領(lǐng)域缺乏標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)。因此我們采用人工投票統(tǒng)計(jì)的方式,多個(gè)領(lǐng)域?qū)<彝瑫r(shí)對(duì)三元組進(jìn)行評(píng)估,如果多數(shù)人投票認(rèn)為抽取出的某個(gè)三元組是正確的,本文就認(rèn)為該三元組抽取正確。
本文采用3個(gè)標(biāo)準(zhǔn)作為模型性能評(píng)價(jià)指標(biāo),即精確率(P)、召回率(R)和F值(F)。計(jì)算公式如下
(1)
(2)
(3)
其中,C1表示抽取出的正確三元組的個(gè)數(shù),C2表示實(shí)際抽取出的三元組的個(gè)數(shù),C3表示測(cè)試集中應(yīng)該抽取出的三元組的個(gè)數(shù)。
3.2.1 依存句法分析效果
CoreNLP是斯坦福大學(xué)NLP(natural language processing)小組開發(fā)的自然語(yǔ)言處理項(xiàng)目,Stanford CoreNLP集成了分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析等工具。語(yǔ)言技術(shù)平臺(tái)(language technology platform,LTP)是哈工大研制的一整套開放中文自然語(yǔ)言處理系統(tǒng),語(yǔ)言技術(shù)平臺(tái)提供中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析等自然語(yǔ)言處理技術(shù)。兩者都提供了通用領(lǐng)域的依存句法分析技術(shù),因此,我們?cè)O(shè)計(jì)了相關(guān)的實(shí)驗(yàn),從通用領(lǐng)域文本GSA和地質(zhì)領(lǐng)域文本OSA兩種語(yǔ)料中隨機(jī)選取300條語(yǔ)句分別構(gòu)成測(cè)試集GSA_300、OSA_300。CoreNLP和LTP兩種平臺(tái)分別在測(cè)試集上進(jìn)行依存句法分析,并在地質(zhì)領(lǐng)域測(cè)試集上加入專業(yè)詞典進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果見表1。
表1 兩種NLP工具對(duì)比
由實(shí)驗(yàn)結(jié)果可知,同樣條件下,CoreNLP在中文通用領(lǐng)域語(yǔ)料GSA_300的依存句法分析正確的語(yǔ)句數(shù)量為145,LTP依存句法分析結(jié)果正確的語(yǔ)句數(shù)量為240。CoreNLP和LTP在地質(zhì)領(lǐng)域語(yǔ)料OSA_300的依存句法分析正確的語(yǔ)句數(shù)量分別為40和184。因此可以推斷,CoreNLP在中文上的依存句法分析正確率不如LTP,且CoreNLP和LTP在地質(zhì)領(lǐng)域的效果都不如通用領(lǐng)域的效果。但加入詞典后兩者在地質(zhì)領(lǐng)域語(yǔ)料OSA_300上的依存分析正確的語(yǔ)句數(shù)量分別提升為115和225,正確率有了明顯的提高,如圖6所示。分析原因可知是由于地質(zhì)領(lǐng)域有些詞匯較為專業(yè)和復(fù)雜,CoreNLP和LTP等自然語(yǔ)言處理工具無(wú)法正確處理專業(yè)詞匯,而加入專業(yè)詞典后兩者的分析效果都明顯提升。依存句法分析的效果影響模型的性能,本文選擇LTP作為通用領(lǐng)域和地質(zhì)領(lǐng)域的依存分析的工具。
圖6 地質(zhì)領(lǐng)域加入詞典前后依存句法分析對(duì)比
3.2.2 實(shí)驗(yàn)結(jié)果對(duì)比及分析
依據(jù)3.1節(jié)的實(shí)驗(yàn)設(shè)計(jì),對(duì)語(yǔ)料GSA和OSA進(jìn)行實(shí)驗(yàn)。由于抽取出的三元組數(shù)量較多,表2只給出了抽取出的部分三元組結(jié)果。實(shí)驗(yàn)抽取出的三元組數(shù)量結(jié)果見表3。
表2 模型抽取出的部分三元組結(jié)果
表3 兩種模型抽取出的三元組數(shù)量
由表3可看出本文模型(CSSEM)抽取出的三元組數(shù)量明顯多于DSNFs模型。分析造成上述差異的主要原因:
(1)在領(lǐng)域?qū)嶓w關(guān)系抽取上同樣數(shù)量的語(yǔ)料下CSSEM模型實(shí)際輸入的語(yǔ)句數(shù)量多于現(xiàn)有的DSNFs模型。DSNFs屬于流水線方法,其關(guān)系抽取是基于命名實(shí)體識(shí)別的。命名實(shí)體識(shí)別的任務(wù)是識(shí)別文本中具有特定意義的實(shí)體,例如人名、地名、組織名等。而地質(zhì)領(lǐng)域缺乏相應(yīng)的實(shí)體標(biāo)注語(yǔ)料,采用已有的實(shí)體識(shí)別模型進(jìn)行訓(xùn)練和識(shí)別較為困難。文本中大多數(shù)實(shí)際存在的實(shí)體不會(huì)被此任務(wù)識(shí)別出來(lái)。DSNFs過(guò)濾掉了文本中實(shí)體個(gè)數(shù)少于兩個(gè)的語(yǔ)句,導(dǎo)致幾乎大部分語(yǔ)句由于命名實(shí)體沒有被識(shí)別出來(lái)都被過(guò)濾掉了。如例句“沉積學(xué)研究主要包括粒度、礦物學(xué)”,其中實(shí)體有“粒度”、“礦物學(xué)”,DSNFs中采用命名實(shí)體識(shí)別任務(wù)抽取實(shí)體,實(shí)驗(yàn)顯示上述例句經(jīng)命名實(shí)體識(shí)別后識(shí)別出的實(shí)體個(gè)數(shù)為0,DSNFs會(huì)過(guò)濾掉上述例句,而我們的模型CSSEM能抽取出上述兩個(gè)實(shí)體,因此抽取出的三元組數(shù)量更多。表4是模型CSSEM在GSA語(yǔ)料上隨機(jī)選取200、400、600條測(cè)試語(yǔ)句后實(shí)際用于關(guān)系抽取的語(yǔ)句個(gè)數(shù),以及DSNFs系統(tǒng)在同樣的測(cè)試語(yǔ)句上錯(cuò)誤地過(guò)濾后實(shí)際用于關(guān)系抽取的語(yǔ)句個(gè)數(shù)。可以看出CSSEM模型在領(lǐng)域關(guān)系抽取上的優(yōu)勢(shì)是同樣的,語(yǔ)料下模型實(shí)際輸入的語(yǔ)句數(shù)量多于現(xiàn)有的DSNFs模型。
表4 模型實(shí)際輸入的語(yǔ)句數(shù)量
(2)DSNFs的模型考慮了主語(yǔ)和賓語(yǔ)的并列情況,但其未考慮謂語(yǔ)并列或混合并列等更復(fù)雜的情況。而謂語(yǔ)并列和混合并列等復(fù)雜的情況在地質(zhì)領(lǐng)域的文本中較為常見,不能忽略不計(jì)。本文模型學(xué)習(xí)得到聯(lián)合結(jié)構(gòu)的3種抽取模式,如圖3模式7~模式9所示,這3種模式能夠解決謂語(yǔ)和混合并列的問(wèn)題,我們的模型CSSEM學(xué)習(xí)的模式將主語(yǔ)、賓語(yǔ)、謂語(yǔ)及混合并列情況考慮進(jìn)了模型中,并且涵蓋了5種基本的句法結(jié)構(gòu),因而召回率有了顯著的提高,更加準(zhǔn)確和豐富地表達(dá)了語(yǔ)句的語(yǔ)義信息。
由于GSA和OSA語(yǔ)料數(shù)據(jù)規(guī)模較大,我們只從兩種語(yǔ)料中隨機(jī)選取500條語(yǔ)句分別構(gòu)成測(cè)試集GSA_500、OSA_500。為保證評(píng)估的可靠性,我們選取的500條輸入語(yǔ)句是DSNFs和CSSEM實(shí)際輸入的不會(huì)由于命名實(shí)體識(shí)別被DSNFs過(guò)濾掉的語(yǔ)句。即兩個(gè)模型的實(shí)際輸入語(yǔ)句數(shù)量都是相同的。在上述兩種測(cè)試集上比較兩種模型的準(zhǔn)確率、召回率、F值。評(píng)估結(jié)果見表5。結(jié)果表明,在通用領(lǐng)域,本文的模型準(zhǔn)確率、召回率、F值略高于DSNFs模型;在地質(zhì)領(lǐng)域,本文的模型抽取性能明顯高于DSNFs模型。
表5 模型抽取結(jié)果評(píng)價(jià)
值得注意的是,我們的模型解決了地質(zhì)領(lǐng)域關(guān)系抽取的關(guān)系重疊問(wèn)題。關(guān)系重疊問(wèn)題指的是同一對(duì)實(shí)體之間存在多個(gè)關(guān)系的問(wèn)題。由于大多的基于神經(jīng)網(wǎng)絡(luò)模型屬于關(guān)系分類模型。關(guān)系分類模型一般預(yù)先定義好待抽取的關(guān)系,使用模型中的分類器判別新輸入的句子中實(shí)體之間的關(guān)系屬于預(yù)先定義好關(guān)系中的哪一種,兩個(gè)實(shí)體之間有且只能有一種關(guān)系。而我們的模型CSSEM屬于開放式關(guān)系抽取模型,直接從文本中抽取實(shí)體及實(shí)體之間的關(guān)系,無(wú)需預(yù)先定義關(guān)系類型,因此,不限制抽取出的關(guān)系類型。如例句“晚古生代油頁(yè)巖主要沉積在新疆妖魔山地區(qū)”和“晚古生代油頁(yè)巖主要分布于新疆妖魔山地區(qū)”,其中實(shí)體對(duì)“晚古生代油頁(yè)巖”和“新疆妖魔山地區(qū)”有兩種關(guān)系“沉積”和“分布”。我們的模型CSSEM可直接從文本中抽取上述兩種關(guān)系,解決了關(guān)系抽取的重疊問(wèn)題。
3.2.3 基于AUC評(píng)價(jià)性能
在GSA和OSA數(shù)據(jù)集下對(duì)召回率進(jìn)行評(píng)估是困難的。由于抽取的三元組的數(shù)量與召回成正比,且抽取的三元組數(shù)量容易計(jì)算,因此,本文參考OLLIE系統(tǒng)的評(píng)估,將抽取的三元組數(shù)量與準(zhǔn)確率的曲線近似為準(zhǔn)確率召回率曲線(PR曲線),其面積差異與標(biāo)準(zhǔn)PR曲線等效。
通用領(lǐng)域和地質(zhì)領(lǐng)域的近似PR曲線分別如圖7、圖8所示。AUC(area under curve)被定義為ROC曲線下與坐標(biāo)軸圍成的面積。使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說(shuō)明哪個(gè)分類器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類器效果更好。比較曲線下的面積(AUC),可知我們的模型在通用領(lǐng)域AUC。DSNFs高2.64%,在地質(zhì)領(lǐng)域AUC比DSNF高42.93%。
圖7 通用領(lǐng)域GSA數(shù)據(jù)集近似PR曲線
圖8 地質(zhì)領(lǐng)域OSA數(shù)據(jù)集近似PR曲線
由實(shí)驗(yàn)結(jié)果分析可知,模型抽取的三元組有一部分是不完整的或不正確的。同時(shí),還存在一些實(shí)際應(yīng)該抽取但模型沒有抽取的三元組。這兩種錯(cuò)誤分別影響評(píng)價(jià)的準(zhǔn)確率和召回率,對(duì)模型的改進(jìn)有重要作用。通過(guò)本模型抽取結(jié)果中存在問(wèn)題的三元組,分析通用領(lǐng)域影響抽取性能的原因,不同錯(cuò)誤原因占比結(jié)果見表6。其中自然語(yǔ)言預(yù)處理錯(cuò)誤占比72%,包括分詞效果不佳、詞性標(biāo)注錯(cuò)誤、依存句法分析結(jié)果出錯(cuò)等。28%的錯(cuò)誤是由于模型設(shè)計(jì)缺陷,主要是因?yàn)橹形谋磉_(dá)方式多種多樣,模型中的抽取模式只覆蓋了出現(xiàn)頻率較高的句法結(jié)構(gòu),還存在一些不常見但確實(shí)存在的復(fù)雜語(yǔ)句。地質(zhì)領(lǐng)域分析結(jié)果見表7,其中,自然語(yǔ)言處理錯(cuò)誤仍為主要原因,主要是由于地質(zhì)領(lǐng)域語(yǔ)句結(jié)構(gòu)復(fù)雜、專業(yè)詞匯較多。同時(shí),模型仍存在設(shè)計(jì)缺陷,錯(cuò)誤占比13%。
表6 通用領(lǐng)域數(shù)據(jù)集錯(cuò)誤分析
表7 地質(zhì)領(lǐng)域數(shù)據(jù)集錯(cuò)誤分析
針對(duì)地質(zhì)領(lǐng)域?qū)嶓w和關(guān)系類型復(fù)雜且缺乏標(biāo)注數(shù)據(jù)的特點(diǎn),提出了一個(gè)基于漢語(yǔ)句法結(jié)構(gòu)實(shí)現(xiàn)開放式關(guān)系抽取的聯(lián)合模型CSSEM。模型主要包括訓(xùn)練語(yǔ)料的獲取、開放抽取模式的學(xué)習(xí)和基于抽取模式的開放式實(shí)體識(shí)別及關(guān)系抽取三部分。同時(shí),盡管NLP技術(shù)目前存在性能局限,但是該技術(shù)對(duì)缺乏標(biāo)注數(shù)據(jù)的專業(yè)領(lǐng)域的實(shí)體關(guān)系抽取的研究有重要意義。本文提出的模型CSSEM為地質(zhì)等專業(yè)領(lǐng)域的知識(shí)圖譜的構(gòu)建提供了知識(shí)支持,為需要標(biāo)注數(shù)據(jù)的遠(yuǎn)監(jiān)督和有監(jiān)督方法建立了基礎(chǔ)。值得注意的是,本文中的抽取模式只覆蓋了出現(xiàn)頻率較高的句法結(jié)構(gòu),并不能適用于全部的中文語(yǔ)句。