国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于維基百科的中文嵌套命名實(shí)體識別語料庫自動構(gòu)建

2018-11-20 06:42:56李雁群何云琪錢龍華周國棟
計算機(jī)工程 2018年11期
關(guān)鍵詞:維基百科維基嵌套

李雁群,何云琪,錢龍華,周國棟

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院 自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

0 概述

信息抽取的目的是從無結(jié)構(gòu)的自由文本中抽取出實(shí)體及其相互關(guān)系并轉(zhuǎn)化為結(jié)構(gòu)化表達(dá)形式,從而為知識庫的構(gòu)造提供數(shù)據(jù)基礎(chǔ)[1-2]。嵌套命名實(shí)體是一種特殊形式的實(shí)體,其內(nèi)部包含其他實(shí)體,嵌套在里面的實(shí)體稱為內(nèi)部實(shí)體,最外層的實(shí)體稱為外部實(shí)體。如外部實(shí)體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”包含“[中共]nt”“[北京]ns”和“[中共北京市委]nt”3個內(nèi)部實(shí)體。其中,嵌套實(shí)體的類型標(biāo)注采用《人民日報》語料的格式,即nr表示人名,ns表示地名,nt表示組織名。由于嵌套命名實(shí)體含有豐富的實(shí)體信息以及實(shí)體之間的相互關(guān)系,且其結(jié)構(gòu)復(fù)雜多變,因此嵌套命名實(shí)體的識別成為信息抽取中值得研究的任務(wù)之一。

目前的嵌套命名實(shí)體識別都采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,因而需要一定規(guī)模的語料庫。GENIA V3.02[3]是生物醫(yī)學(xué)領(lǐng)域內(nèi)的命名實(shí)體語料庫,其中包含了嵌套命名實(shí)體,被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識別研究。該語料庫包含2 000條MEDLLINE摘要和94 014個實(shí)體引用,其中約有17%的實(shí)體嵌套在其他實(shí)體中。EPPI[4]是生物醫(yī)學(xué)領(lǐng)域內(nèi)另一個標(biāo)注了蛋白質(zhì)及其相互作用關(guān)系的語料庫,它包含217個從PubMed和PubMedCentral選出來的摘要和全文文獻(xiàn),總共有134 059個實(shí)體引用。RCAHMS[5]是一個標(biāo)注實(shí)體及其語義關(guān)系的歷史檔案語料庫,包含1 546個文本和28 272個實(shí)體引用,其中18.7%的實(shí)體嵌套在其他實(shí)體中。

中文方面的命名實(shí)體語料有來源廣泛的MSRA語料和新聞領(lǐng)域的1998年1月份的 《人民日報》語料,兩者都標(biāo)注了最外層實(shí)體,但后者還標(biāo)出了嵌套在內(nèi)層的命名實(shí)體,因此中文嵌套命名實(shí)體識別研究大都基于《人民日報》語料[6-7]。該語料庫總共有61 922個實(shí)體引用,其中,13.8%的實(shí)體嵌套在其他實(shí)體中。不過,由于《人民日報》語料是1998年的新聞?wù)Z料,因而其局限性較大,難于拓展到其他領(lǐng)域的嵌套命名實(shí)體識別。本文提出基于中文維基百科的方法來自動構(gòu)建面向?qū)挿侯I(lǐng)域的中文嵌套命名實(shí)體識別語料庫。該方法對中文維基百科的條目進(jìn)行實(shí)體分類,并從這些實(shí)體條目中自動構(gòu)造出中文嵌套命名實(shí)體。

1 相關(guān)工作

嵌套命名實(shí)體識別方法主要分為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。早期的方法是在基本實(shí)體識別的基礎(chǔ)上采用基于規(guī)則的后處理方法來識別嵌套命名實(shí)體[8-9],其不足之處是規(guī)則的靈活性較差?;跈C(jī)器學(xué)習(xí)的方法大都采用層次模型,即將嵌套命名實(shí)體的識別轉(zhuǎn)換成多個層次的序列標(biāo)注問題。層次模型可以從3個層面展開:1)標(biāo)簽層次化[4],即擴(kuò)充一個詞的標(biāo)記使它反映出該詞所參與的所有實(shí)體類型,然后用一個序列化標(biāo)注模型來識別,其不足之處是標(biāo)記集龐大,從而導(dǎo)致訓(xùn)練語料稀疏,訓(xùn)練時間較長;2)模型層次化[4,10],即采用多個疊加的序列化標(biāo)注模型,第1個序列化模型首先識別出基本實(shí)體,然后再用第2個模型識別出第2層嵌套命名實(shí)體,以此類推,其特點(diǎn)是模型數(shù)量較多;3)語料層次化[5],即將一定范圍內(nèi)的單詞從左到右連成長度不一的詞串作為實(shí)例,然后用序列化標(biāo)注模型來識別,其缺點(diǎn)是數(shù)據(jù)復(fù)雜度較高。

與序列化標(biāo)注方法不同,文獻(xiàn)[11]采用判別式成分句法分析器來訓(xùn)練嵌套命名實(shí)體識別模型。該方法把每個嵌套命名實(shí)體轉(zhuǎn)換成一棵句法分析樹,其中每一個詞作為該樹的葉子節(jié)點(diǎn),而每個內(nèi)部實(shí)體作為該樹的子樹,其優(yōu)點(diǎn)是樹的表示法可以清晰地表示任意層數(shù)的嵌套命名實(shí)體。

中文嵌套命名實(shí)體識別的研究都是在《人民日報》語料上進(jìn)行的,大都采用層次化模型。文獻(xiàn)[6]將人名和地名作為基本實(shí)體在第1層進(jìn)行識別,然后將識別結(jié)果傳遞到第2層模型進(jìn)行嵌套組織機(jī)構(gòu)名的識別。文獻(xiàn)[12]用相似的方法,差別在于第1層識別基本實(shí)體,第2層再識別3層實(shí)體,如果要識別更高層的嵌套命名實(shí)體還要采用啟發(fā)式規(guī)則進(jìn)行后處理。與上述研究工作不同的是,文獻(xiàn)[7]提出一種聯(lián)合學(xué)習(xí)模型,將中文嵌套命名實(shí)體識別看作是一種聯(lián)合切分和標(biāo)注任務(wù),采用平均感知器算法進(jìn)行在線訓(xùn)練,運(yùn)用集束搜索算法進(jìn)行解碼。該方法獲得了較快的收斂速度和較好的識別效果,缺點(diǎn)是只能識別兩層嵌套命名實(shí)體。

2 嵌套命名實(shí)體識別語料庫的構(gòu)建

本文的核心思想是利用中文維基百科來自動構(gòu)建一個高質(zhì)量的中文嵌套命名實(shí)體語料庫。一方面,中文維基百科含有大量的條目,其中包含大量的各種類型的命名實(shí)體,如人物、組織和機(jī)構(gòu)等,可以采用機(jī)器學(xué)習(xí)的方法從這些維基條目中以較高的性能識別出命名實(shí)體及其類型[13]。另一方面,這些維基百科條目之間本身就蘊(yùn)含著上下級關(guān)系,如條目“上海市虹口區(qū)足球場”為地名實(shí)體,而其中的“上海市”和“虹口區(qū)”又分別都是維基條目中的地名實(shí)體。因此,可以利用這樣的包含關(guān)系來自動構(gòu)建一個嵌套命名實(shí)體“[[上海市]ns [虹口區(qū)]ns 足球場]ns”。具體而言,從維基百科構(gòu)建嵌套命名實(shí)體語料庫包含以下2個步驟:

1)中文維基條目實(shí)體分類。利用機(jī)器學(xué)習(xí)的方法對所有的維基百科條目進(jìn)行分類,從中識別出命名實(shí)體條目。

2)嵌套命名實(shí)體自動生成。利用維基條目實(shí)體分類結(jié)果以及維基頁面中的相關(guān)信息進(jìn)行嵌套命名實(shí)體自動標(biāo)注。

2.1 中文維基條目實(shí)體分類

對英文維基百科條目進(jìn)行分類主要有2種方法:基于啟發(fā)式規(guī)則的方法[14]和基于機(jī)器學(xué)習(xí)的方法[15-17]。在中文維基百科上,文獻(xiàn)[13]采用機(jī)器學(xué)習(xí)的方法進(jìn)行維基條目的實(shí)體分類,從中文維基百科條目的半結(jié)構(gòu)化信息及維基頁面的文本中提取各類特征,并根據(jù)中文的特點(diǎn)加入更多額外特征,構(gòu)造相應(yīng)的特征向量,然后使用SVM分類器進(jìn)行條目實(shí)體分類,獲得了較高的分類性能。本文使用該方法進(jìn)行中文維基條目的實(shí)體分類,其主要特征包括以下4個方面:

1)信息框?qū)傩悦?。頁面信息框的?nèi)容是關(guān)于該條目的基本屬性,每一個屬性包含屬性名和屬性值,將其中所有的屬性名以詞包形式提取出來作為一個特征。例如,在一個人物條目的信息框中可能有屬性對<“國籍”“中華人民共和國”><“姓名”“XXX”>和<“出生日期”“XXXX年XX月XX日”>等,分別提取“國籍”“姓名”和“出生日期”等作為詞包特征。

2)分類框中心詞。每個條目所對應(yīng)頁面的分類框?yàn)楫?dāng)前條目所屬的各個類別。例如,一個人物的分類框中可能有“XXXX年出生”“在世人物”和“中國人民大學(xué)校友”等類別信息,分別提取每個類別的中心詞“出生”“人物”和“校友”等作為特征。

3)定義句中心詞。每個維基頁面文本的第一段通常為該條目的摘要,而第一句則是定義句,介紹當(dāng)前條目的基本概念。通過對定義句進(jìn)行分詞和詞性標(biāo)注,找出其最右邊的名詞作為定義句的中心詞。此外,當(dāng)定義句的句式結(jié)構(gòu)為 “……是(為)……”時,還能通過正則匹配獲得該句中心詞。例如,從“馬云”維基條目的摘要中提取到的特征為“企業(yè)家”。

4)中文相關(guān)特征。與中文有關(guān)的4個額外特征,具體如下:

(1)條目標(biāo)題的首字是否為中國人名的姓氏且標(biāo)題長度為2個到4個字。

(2)條目標(biāo)題中是否包含外國人譯名中使用的分隔符“·”。

(3)標(biāo)題的最后一個字和詞,詞可以通過分詞工具獲得。

(4)維基百科分類框中心詞在同義詞詞林[18]中的語義編碼。

在人工標(biāo)注的條目實(shí)體類型語料上的實(shí)驗(yàn)結(jié)果表明,該方法的總體性能較高,準(zhǔn)確率達(dá)到97%,召回率達(dá)到95%,平均性能F1指數(shù)達(dá)到了96%,這樣的性能滿足了后續(xù)要求。

2.2 嵌套命名實(shí)體自動生成

通過上述的維基條目實(shí)體分類得到了一個大規(guī)模的實(shí)體字典,其中有大量的實(shí)體條目包含了其他實(shí)體條目,很多情況下一個實(shí)體中甚至包含了3個到4個內(nèi)部實(shí)體,這為自動構(gòu)建嵌套命名實(shí)體語料庫提供了大量的數(shù)據(jù)基礎(chǔ)。雖然該實(shí)體字典規(guī)模很大,但也存在下列問題:

1)字典匹配的假正例問題。在實(shí)體文本中進(jìn)行單純的字典匹配經(jīng)常會產(chǎn)生假的嵌套命名實(shí)體,這種情況尤其會發(fā)生在外國實(shí)體名稱中。如“奧雷爾韋爾拉克”是法國阿韋龍省的一個市鎮(zhèn),而“奧雷”則是法國利穆贊大區(qū)上維埃納省的一個市鎮(zhèn),兩者沒有任何的嵌套關(guān)系。簡單的名稱匹配很容易使后者成為前者的內(nèi)部實(shí)體,但這是一個假正例。

2)實(shí)體歧義問題。如“中國”這個詞在當(dāng)今語境下(包括《人民日報》語料庫和微軟語料庫)沒有任何歧義,就是指“中華人民共和國”,但由于中文維基百科是一個綜合性的知識庫,其中“中國”還可以指向1931年由中國共產(chǎn)黨所創(chuàng)建的“中華蘇維埃共和國”,1927年建立的以南京為首都的“中華民國”,袁世凱在1915年稱帝成立的“中華帝國”等,甚至還可以指向日本九州的“中國”地區(qū),這種實(shí)體的歧義給的構(gòu)建工作帶來了困難。

為了解決上述問題,本文提出了自動構(gòu)造中文嵌套命名實(shí)體的算法。

算法嵌套命名實(shí)體自動生成

輸入CWE[],中文維基實(shí)體名稱列表

WID{},中文維基實(shí)體名稱到維基條目id的映射表

WLK{},維基條目id到該維基頁面中的內(nèi)鏈接列表的映射表

輸出CNE[],中文嵌套命名實(shí)體列表

初始化:CNE=[]

1.對每一個中文維基實(shí)體名稱CWE[i]:

2. 如果WID{CWE[i]}有多個元素,則跳過該實(shí)體

3. 以CWE為字典,使用最長匹配原則從左到右識別出其中所包含的內(nèi)部實(shí)體,匹配后的嵌套實(shí)體為ne

4. 將ne加入到CNE數(shù)組

5.對每一個中文嵌套命名實(shí)體CNE[i]:

6. 對CNE[i]的每一個內(nèi)部實(shí)體e:

7. 若WID{e}中存在一個id等于WID{CNE[i]},則在CNE[i]中刪除e的標(biāo)注

8. 若WID{e}中沒有一個id在WLK{WID{CNE[i]}}中,則刪除CNE[i]

9.對每一個中文嵌套命名實(shí)體CNE[i]:

10. 對每一個中文嵌套命名實(shí)體CNE[i]:

11. 若CNE[i]以內(nèi)部實(shí)體e出現(xiàn)在CNE[i]中,則用CNE[i]的標(biāo)注代替CNE[i]中e的標(biāo)注

在算法中,CWE為從上節(jié)獲得的中文維基實(shí)體名稱列表,WID將實(shí)體名稱映射到維基id,當(dāng)id有多個時,表明實(shí)體名稱具有多個含義,即岐義性,WLK可根據(jù)id得到該頁面中的所有內(nèi)鏈接的id列表。該算法主要包括匹配、過濾和匯聚3個步驟:

1)匹配。即基于字典的命名實(shí)體識別(第1步~第4步)。對實(shí)體字典中的每一個實(shí)體名稱(稱為外部實(shí)體),以字典本身作為詞表,使用最長匹配原則從左到右識別出其中所包含的所有內(nèi)部實(shí)體。如果外部實(shí)體本身有歧義時,則不考慮該實(shí)體。如實(shí)體名稱“[上海交通大學(xué)徐匯校區(qū)]ns”,字典中包含“[上海交通大學(xué)]nt”和“[徐匯]ns”2個實(shí)體,因此可直接得到嵌套命名實(shí)體“[[上海交通大學(xué)]nt [徐匯]ns 校區(qū)]ns”。

2)過濾。把不滿足嵌套關(guān)系的內(nèi)部實(shí)體作為假正例過濾掉(第5步~第8步),原則如下:

(1)內(nèi)部實(shí)體的某一個含義和外部實(shí)體指向同一個維基頁面(第7步),如“[西藏自治區(qū)]ns”中的“[西藏]ns”指向同一個維基頁面,因此后者不能作為前者的內(nèi)部實(shí)體。事實(shí)上,“[西藏自治區(qū)]ns”是一個不能再分割的整體。

(2)內(nèi)部實(shí)體的任何一個含義所指向的實(shí)體都沒有出現(xiàn)在外部實(shí)體的頁面中(第8步),其中,WLK{WID{CNE[i]}}表示外部實(shí)體所指向的維基頁面中的所有內(nèi)鏈接id列表,即如果在外部實(shí)體的頁面中找不到對內(nèi)部實(shí)體的引用,則認(rèn)為兩者之間的嵌套關(guān)系不存在,如實(shí)體“[奧雷爾韋爾拉克]ns”頁面中不存在對實(shí)體“[奧雷]ns”的引用,因而嵌套關(guān)系不成立。同樣,實(shí)體“[中國中央電視臺]nt”的頁面中出現(xiàn)了“中國”的一個含義“[中華人民共和國]ns”的引用,因此“[中國]ns”就是一個內(nèi)部實(shí)體。需要注意的是,這個規(guī)則也會把一些真正的正例過濾掉,如“[七十三軍抗戰(zhàn)陣亡將士墓]ns”中的內(nèi)部實(shí)體“[七十三軍]nt”,由于沒有出現(xiàn)在前者的頁面中而被濾掉。因此,直接把它從實(shí)體列表中移除,既不作為正例,也不作為負(fù)例。

3)匯聚。如果一個包含內(nèi)部實(shí)體的外部實(shí)體又作為內(nèi)部實(shí)體出現(xiàn)在另一個外部實(shí)體中(稱為上級實(shí)體),則將它的嵌套關(guān)系匯聚到上級實(shí)體中,這樣就可以保證一個外部實(shí)體包含所有可能層次的內(nèi)部實(shí)體(第9步~第11步)。如實(shí)體“[[上海]ns 交通大學(xué)]nt”和“[[上海交通大學(xué)]nt [徐匯]ns 校區(qū)]ns”可以匯聚成一個單一嵌套命名實(shí)體“[[[上海]ns 交通大學(xué)]nt[徐匯]ns校區(qū)]ns”。

3 語料庫統(tǒng)計和評估的自動構(gòu)建

3.1 語料庫統(tǒng)計的自動構(gòu)建

通過上述方法從維基百科中自動構(gòu)建出包含嵌套命名實(shí)體層次結(jié)構(gòu)的實(shí)體列表,稱為嵌套命名實(shí)體識別自動構(gòu)建語料,該語料可用于從外部實(shí)體中識別出它所包含的內(nèi)部實(shí)體。語料庫的統(tǒng)計情況如表1所示。

表1 維基語料實(shí)體統(tǒng)計

從表1可以看出:

1)人名沒有嵌套現(xiàn)象,但人名可以出現(xiàn)在內(nèi)部實(shí)體中。

2)無嵌套結(jié)構(gòu)的外部實(shí)體中大部分是人名(約55%)和地名(約39%),以及少量的組織名(約6%)。

3)有嵌套結(jié)構(gòu)的外部實(shí)體中地名(約53%)和組織名(約47%)差不多各占一半,而內(nèi)部實(shí)體則反之,大部分是地名(約82%),小部分是組織名(約13%)和人名(約5%)。

3.2 語料庫人工評估的自動構(gòu)建

為了衡量自動構(gòu)建語料庫的質(zhì)量,從中隨機(jī)選取了200個外部實(shí)體,首先進(jìn)行嵌套命名實(shí)體的手工標(biāo)注,然后再與自動標(biāo)注的嵌套命名實(shí)體進(jìn)行比較,并采用與準(zhǔn)確率和召回率相類似的標(biāo)對率和標(biāo)全率以及F1指數(shù)來反映語料的自動標(biāo)注質(zhì)量,抽樣統(tǒng)計結(jié)果如表2所示。

表2 自動標(biāo)注語料質(zhì)量的抽樣統(tǒng)計

從表2可以看出,整體標(biāo)對率達(dá)到了92.31%,然而整體標(biāo)全率較低,只達(dá)到了72.85%。錯標(biāo)17條地名漏標(biāo)的主要原因有:

1)維基條目缺失(12條),如地名“境主廟水庫”應(yīng)該標(biāo)注為“[[境主廟]ns 水庫]ns”,但是維基條目中沒有地名“境主廟”這個條目。

2)維基鏈接缺失(4條),如“大坂產(chǎn)業(yè)大學(xué)短期大學(xué)部”應(yīng)標(biāo)注為“[[[大坂]ns 產(chǎn)業(yè)大學(xué)]nt 短期大學(xué)部]nt”,但因?yàn)椤按筵喈a(chǎn)業(yè)大學(xué)”頁面沒有包含“大坂”的鏈接,所以最后標(biāo)注為“[[大坂產(chǎn)業(yè)大學(xué)]nt 短期大學(xué)部]nt”。

3)條目類型錯誤(1條),即在維基條目實(shí)體分類時識別為非實(shí)體,如“汲水門燈籠洲燈塔”應(yīng)標(biāo)注為“[[汲水門]ns [燈籠洲]ns 燈塔]ns”,但由于“燈籠洲”的條目類型識別為非實(shí)體,因此標(biāo)注為“[[汲水門]ns 燈籠洲燈塔]ns”。

4 自動構(gòu)建語料的實(shí)驗(yàn)評估

為了衡量自動標(biāo)注語料的實(shí)用性,把它應(yīng)用于具體的嵌套命名實(shí)體識別任務(wù)中。首先在已有中文實(shí)體識別語料基礎(chǔ)上人工構(gòu)建一個嵌套命名實(shí)體的測試語料,稱為人工標(biāo)注語料,然后再用它來衡量自動構(gòu)建語料上訓(xùn)練出來的模型的識別性能。

4.1 人工標(biāo)注語料

目前,中文命名實(shí)體識別[19]中常用的語料有微軟語料和《人民日報》語料,其中后者還標(biāo)注了嵌套命名實(shí)體,因此為了減少標(biāo)注工作量,把《人民日報》語料作為測試語料。不過,該語料只標(biāo)注了二層嵌套結(jié)構(gòu),且都是命名實(shí)體。如嵌套命名實(shí)體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”不能滿足對嵌套命名實(shí)體的定義,其正確的標(biāo)注應(yīng)該是“[[[中共]nt [北京]ns市委]nt宣傳部]nt”。

本文采用自動抽取加人工調(diào)整的方式來產(chǎn)生中文嵌套命名實(shí)體測試語料,同時為了減少重復(fù)標(biāo)注,只對實(shí)體而非一個實(shí)體的多個引用進(jìn)行標(biāo)注,具體過程為:

1)自動抽取。從1998年1月的《人民日報》語料中抽取出復(fù)雜命名實(shí)體,并去除重復(fù)的實(shí)體引用,保留其中的命名實(shí)體標(biāo)注。如實(shí)體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”提取后變成實(shí)體“[中共 [北京]ns 市委宣傳部]nt”。

2)人工調(diào)整。人工標(biāo)注提取出的嵌套命名實(shí)體,通常是添加新的內(nèi)部實(shí)體。如第1步中的實(shí)體“[中共 [北京]ns 市委宣傳部]nt” 經(jīng)人工調(diào)整后為“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”。

標(biāo)注后的《人民日報》中所有實(shí)體統(tǒng)計情況如表3所示,從表3可以看出,無嵌套結(jié)構(gòu)的外部實(shí)體中的組成與維基語料差別不大,大部分是地名(約47%)和人名(約43%),再加少量的組織名(約10%);有嵌套結(jié)構(gòu)的外部實(shí)體的組成與維基語料大為不同,大部分是組織名(約90%),再加少量的地名(約10%),而內(nèi)部實(shí)體的組成與維基語料基本一致,大部分是地名(約75%),小部分是組織名(約24%),還有極少數(shù)是人名(約1%)。

表3 《人民日報》語料嵌套命名實(shí)體統(tǒng)計

4.2 實(shí)驗(yàn)方法

嵌套命名實(shí)體識別是從外部實(shí)體中識別出嵌套的內(nèi)部實(shí)體,因此首先需要從文本中識別出外部實(shí)體,然后再從外部實(shí)體中識別出內(nèi)部嵌套命名實(shí)體。由于本文的研究重點(diǎn)在于語料庫的自動構(gòu)建,而不在于方法本身,因此選擇較易實(shí)現(xiàn)的基于序列標(biāo)注的CRF模型來實(shí)現(xiàn)最外層實(shí)體的識別。

4.2.1 嵌套命名實(shí)體識別方法

對于嵌套命名實(shí)體識別,采用由內(nèi)而外的層次模型方法,即使用多個CRF模型來識別由內(nèi)到外不同嵌套層次的實(shí)體。初步實(shí)驗(yàn)結(jié)果表明,由內(nèi)而外的方法總體上優(yōu)于其他嵌套命名實(shí)體識別方法。

圖1列出了嵌套命名實(shí)體“[[[中共]nt [北京]ns 市委]nt宣傳部]nt”中各個層次的標(biāo)簽,其中零層標(biāo)簽是指最外層實(shí)體識別時的標(biāo)簽(為一致起見省略了其上下文),其生成的模型稱為零層模型,一層到三層標(biāo)簽是指在識別嵌套命名實(shí)體時各層模型采用的標(biāo)簽,這3層模型可以統(tǒng)稱為多層模型。零層模型的訓(xùn)練和測試需要考慮外層實(shí)體所在的上下文,而多層模型是在外層實(shí)體的范圍內(nèi)進(jìn)行訓(xùn)練和測試,與外層實(shí)體的上下文無關(guān),因而訓(xùn)練和測試速度較快。

圖1 嵌套命名實(shí)體識別的各層標(biāo)簽

4.2.2 CRF特征

以往的中文命名實(shí)體識別研究表明[20],以字為單位的CRF模型在資源最少(即不進(jìn)行分詞)的情況下能取得較好的識別性能,因此本文也采用基于字符的CRF模型,且只采用了最基本的上下文特征,具體如下:

Cn(n=-2,-1,0,1,2)

CnCn+1(n=-1,0)

其中,C0代表當(dāng)前的字,Cn代表當(dāng)前位置之后第n位的字,CnCn+1代表第n位及其下一個字的組合。例如,對于序列“中華人民共和國”來說,當(dāng)以字為單位時,若C0為“人”,則C1代表“民”,C-1代表“華”,而C0C1代表“人民”。

需要說明的是,訓(xùn)練零層模型時只有字特征,而訓(xùn)練多層模型時除包含字特征外,還包含所有下層的標(biāo)簽作為特征,而在測試時多層模型則采用下層模型識別的結(jié)果作為其特征。

4.2.3 評估方法

采用常規(guī)的P、R、F1指數(shù)來評估實(shí)體識別的性能,P為準(zhǔn)確率,R為召回率,F1為兩者的調(diào)和平均。實(shí)驗(yàn)評估包含2個部分:一是交叉驗(yàn)證,即和其他《人民日報》語料上的研究工作一樣[7]采用十折交叉方法,將《人民日報》語料劃分為10份,其中,1份作為測試集,另外9份作為訓(xùn)練集,總體性能取10次結(jié)果的平均值;二是跨庫驗(yàn)證,即使用自動構(gòu)建語料庫訓(xùn)練出多層模型,然后在《人民日報》語料最外層實(shí)體識別出來的基礎(chǔ)上再進(jìn)行嵌套命名實(shí)體的識別。

4.3 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)結(jié)果主要包括以下方面:

1)外層實(shí)體識別的交叉驗(yàn)證性能

表4列出了在《人民日報》語料上最外層實(shí)體識別的交叉驗(yàn)證性能,同時也給出了各個類型的實(shí)體數(shù)量和占總數(shù)百分比。從表4可以看出,外層實(shí)體識別的總體F1性能達(dá)到了88%,且各個類型上的識別性能相差不大,盡管組織名實(shí)體所占比例較少(約20%)。

表4 外層實(shí)體識別的交叉驗(yàn)證性能

2)嵌套命名實(shí)體識別的交叉驗(yàn)證性能

表5列出了在《人民日報》語料上嵌套命名實(shí)體識別的交叉驗(yàn)證性能,該性能是在外層實(shí)體識別的基礎(chǔ)上采用多層訓(xùn)練模型得到的結(jié)果。

表5 嵌套命名實(shí)體識別的交叉驗(yàn)證性能

從表5可以看出:

(1)嵌套命名實(shí)體識別的總體性能低于外層實(shí)體識別性能,特別是召回率較低,其主要原因是有些較長的外層實(shí)體在零層模型中沒有被召回,因而導(dǎo)致其中的嵌套命名實(shí)體在下一步也無法識別出來。

(2)人名實(shí)體的性能比地名和組織名實(shí)體的性能要低很多,這主要是由于其數(shù)量很少,但同時對總體性能的影響也微乎其微。

3)嵌套命名實(shí)體識別的跨庫驗(yàn)證性能

利用維基條目自動構(gòu)建語料庫來訓(xùn)練多層模型,然后利用該模型來識別表4中已經(jīng)識別出的外層實(shí)體中的嵌套命名實(shí)體,從而通過實(shí)驗(yàn)來驗(yàn)證自動構(gòu)建語料庫的質(zhì)量。實(shí)驗(yàn)結(jié)果如表6所示。

表6 嵌套命名實(shí)體識別的跨庫驗(yàn)證性能

從表6可以看出:

(1)自動構(gòu)建語料在中文嵌套命名實(shí)體識別上取得了67.19%的F1值,雖然不如人工標(biāo)注語料的性能高,但這是在沒有任何人工標(biāo)注的前提下取得的結(jié)果。

(2)與人工標(biāo)注語料相比,召回率仍然偏低,這可能是由于維基語料中還有不少噪音,即遺漏了需標(biāo)注的嵌套命名實(shí)體,這也是今后進(jìn)一步研究的方向。

4)與其他嵌套命名實(shí)體識別系統(tǒng)的性能比較

表7列出了各中文嵌套命名實(shí)體識別系統(tǒng)在《人民日報》語料上的實(shí)驗(yàn)結(jié)果。需要指出的是,該結(jié)果僅供參考,主要原因是:

(1)文獻(xiàn)[6-7,10]采用的《人民日報》嵌套命名實(shí)體語料沒有任何的調(diào)整,它只標(biāo)注了嵌套命名實(shí)體,因此只有二層嵌套,而本文重新標(biāo)注了多層的嵌套命名實(shí)體。

(2)文獻(xiàn)[6-7]給出了所有實(shí)體(包含外層實(shí)體)的識別性能,而文獻(xiàn)[10]的計算方法和本文的方法相近,只考慮了嵌套命名實(shí)體的識別性能。

總體而言,嵌套命名實(shí)體的識別性能還不夠理想,今后還需要進(jìn)一步的研究。

表7 中文嵌套命名實(shí)體識別系統(tǒng)的性能比較 %

5 結(jié)束語

本文在中文維基百科條目實(shí)體分類的基礎(chǔ)上,通過匹配、過濾和匯聚3個階段,自動構(gòu)建了一個大規(guī)模的中文嵌套命名實(shí)體識別語料庫。在人工標(biāo)注的《人民日報》中文嵌套命名實(shí)體識別上的實(shí)驗(yàn)結(jié)果表明,雖然自動構(gòu)建語料的性能不能與手工標(biāo)注語料的性能相媲美,但是維基語料具有規(guī)模大和領(lǐng)域廣的特點(diǎn),能夠適應(yīng)寬泛領(lǐng)域上的中文嵌套命名實(shí)體識別任務(wù)。本文的不足之處在于,目前自動構(gòu)建的維基百科語料在實(shí)驗(yàn)性能上召回率不高,主要原因是維基條目中的部分嵌套命名實(shí)體沒有被自動標(biāo)注出來,即標(biāo)全率不高。因此,下一步的研究包括:改善該語料的標(biāo)全率,使用更多的百科資源是一個有效的途徑;將維基百科語料進(jìn)行領(lǐng)域劃分,從而更好地適應(yīng)不同目標(biāo)領(lǐng)域的中文嵌套命名實(shí)體識別任務(wù)。

猜你喜歡
維基百科維基嵌套
維基百科影響司法
英語世界(2023年10期)2023-11-17 09:18:46
基于嵌套Logit模型的競爭性選址問題研究
維基百科青年
英語文摘(2021年8期)2021-11-02 07:17:46
愛的最后一課
基于變長隱馬爾科夫模型的維基詞條編輯微過程挖掘
維基解密大爭論:爭論固有焦點(diǎn)和在互聯(lián)網(wǎng)時代呈現(xiàn)的爭論新特征
新聞傳播(2015年4期)2015-07-18 11:11:29
APP
一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
無背景實(shí)驗(yàn)到有背景實(shí)驗(yàn)的多重嵌套在電氣專業(yè)應(yīng)用研究
河南科技(2014年23期)2014-02-27 14:19:17
IBM的監(jiān)視
意林(2014年2期)2014-02-11 11:09:17
云霄县| 枝江市| 兰西县| 白玉县| 开平市| 邹城市| 新泰市| 尼勒克县| 务川| 汉寿县| 迁西县| 漳平市| 沐川县| 宜川县| 滨海县| 巢湖市| 庆元县| 桃江县| 定安县| 若羌县| 依安县| 吉安市| 徐汇区| 荥经县| 峡江县| 长乐市| 无为县| 大化| 泌阳县| 邹平县| 车致| 泰安市| 澄城县| 阿拉善左旗| 新竹县| 肇州县| 长泰县| 鹤壁市| 许昌市| 宁德市| 友谊县|