唐旭日,陳小荷,許 超,李 斌
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
地理要素如地形要素(山脈,河流等)、行政區(qū)劃、街道等的自動識別是基于文本的地理信息挖掘的前提。各類地理要素在自然語言中一般被標(biāo)示為地名或機(jī)構(gòu)名。因此,地理要素的識別可以看作是命名實(shí)體識別的一項子任務(wù)。而文本中地名信息往往多于機(jī)構(gòu)名稱,且許多機(jī)構(gòu)地名都包含地名,因此地名識別是基于文本的地理信息挖掘首先要面臨的任務(wù),其識別質(zhì)量的好壞也將影響機(jī)構(gòu)名的識別。
在最近的幾年里,地名識別的研究受到高度重視,且頗有成效[1-12]??傮w看來,地名識別的研究存在以下趨勢:復(fù)雜統(tǒng)計模型的使用;統(tǒng)計模型與語言知識的結(jié)合;內(nèi)部結(jié)構(gòu)特征與上下文特征的結(jié)合?;诮y(tǒng)計模型的機(jī)器學(xué)習(xí)是當(dāng)前自然語言處理的主要技術(shù)來源,地名識別方面當(dāng)然也不例外。多個統(tǒng)計學(xué)習(xí)模型如隱馬爾科夫模型[8]、支持向量機(jī)[9]、最大熵[7]、條件隨機(jī)場(Conditional Random Fields,簡寫為CRFs)[11]等都被用于地名識別,且模型越來越復(fù)雜,存在多個模型集成使用,如文獻(xiàn)[13]將隱馬爾科夫模型與最大熵模型混合起來使用,或單個模型進(jìn)行層疊使用(如文獻(xiàn)[8]),或?qū)υ谢灸P瓦M(jìn)行修改,如文獻(xiàn)[10]所采用的最大間隔隱馬爾科夫模型(Max-margin H idden M arkov Model)等。從文獻(xiàn)看,層疊隱馬爾科夫模型、條件隨機(jī)場以及基于最大間隔的隱馬爾科夫模型在地名識別方面具有較大的優(yōu)勢,但是由于訓(xùn)練語料和測試語料并不一致,所以還不能明確判斷各個模型之間的優(yōu)劣。地名識別的第二個趨勢是語言知識在統(tǒng)計模型中的充分應(yīng)用。各種語言資源如地名列表、地名用字、地名特征尾字(或地名通名)列表等以各種形式與統(tǒng)計模型結(jié)合起來,如作為狀態(tài)標(biāo)注集合、特征判斷等。語言資源的加入有利于地名識別精度的提高。文獻(xiàn)[11]在CRFs模型的基礎(chǔ)上加入了特征尾字,文獻(xiàn)[8]采用角色標(biāo)注對地名進(jìn)行進(jìn)一步分類,區(qū)分了中國地名、音譯地名和其他地名,文獻(xiàn)[5]對帶特征詞地名和不帶特征詞地名的區(qū)分,對比試驗(yàn)都表明了識別精度獲得進(jìn)一步提高。地名識別的第三個趨勢是內(nèi)部結(jié)構(gòu)特征與上下文特征分析的結(jié)合。由于地名與其他類型字串存在千絲萬縷的聯(lián)系,僅依靠內(nèi)部結(jié)構(gòu)分析不足以判斷其是否為一地名,因此,綜合考慮內(nèi)部結(jié)構(gòu)特征和外部上下文特征是提高識別精度的有效方法。較早的地名識別研究(如文獻(xiàn)[1])僅使用了地名內(nèi)部結(jié)構(gòu)的統(tǒng)計分析。而最近的研究中各種統(tǒng)計模型都使用了外部的上下文特征,其區(qū)別僅在于所考察的上下文的范圍?,F(xiàn)有的模型一般僅考察左右相鄰3~4個字的區(qū)間,而對于語言中長距離依存關(guān)系的考察比較缺乏。
本文提出了篇章地名識別的概念和系統(tǒng)實(shí)現(xiàn)方法。該方法以篇章作為地名識別參照系,包含簡單地名識別和復(fù)雜地名識別兩個階段,其中簡單地名由基于條件隨機(jī)場的簡單地名識別模塊和基于篇章地名關(guān)系的簡單地名識別模塊順序構(gòu)成。復(fù)雜地名識別由基于條件隨機(jī)場的復(fù)雜地名識別模塊構(gòu)成。該方法在三個方面進(jìn)行了有益探索:(1)在未分詞語料上直接識別。現(xiàn)有地名識別大多建立在分詞的基礎(chǔ)上,依賴于分詞預(yù)處理的精度。本文則嘗試?yán)靡宰譃閱挝坏耐獠啃畔?采用無分詞的地名識別策略;(2)區(qū)分簡單地名和復(fù)雜地名,采用層疊條件隨機(jī)場順序處理簡單地名和復(fù)雜地名;(3)將篇章地名關(guān)系這一長距離依賴信息納入地名識別,突破了僅使用地名的左右鄰字信息的局限,為提高系統(tǒng)性能提供新的動力。對比實(shí)驗(yàn)表明,采用上述策略的系統(tǒng)在整體上表現(xiàn)出良好性能,封閉測試和開放測試中F值分別達(dá)到92.87%和89.76%,說明綜合利用短距離和長距離依存關(guān)系可以有效提高地名識別效果。研究同時還發(fā)現(xiàn),在地名性判斷中地名確信度低的字串對于地名識別干擾性較大,是導(dǎo)致地名識別精確度的降低的重要因素;應(yīng)用篇章地名關(guān)系進(jìn)行地名識別,能夠在保持識別精確度不變的情況下有效提高召回率。
論文的第2節(jié)討論了簡單地名與復(fù)雜地名的區(qū)分和無分詞地名識別策略,并給出了系統(tǒng)整體流程;第3、4、5節(jié)分別討論基于CRFs的簡單地名標(biāo)注與文本分詞、基于篇章的簡單地名識別和復(fù)雜地名識別;第6節(jié)給出了系統(tǒng)的試驗(yàn)結(jié)果及相關(guān)分析;第7節(jié)為結(jié)語。
系統(tǒng)流程構(gòu)建以充分利用地名的內(nèi)部結(jié)構(gòu)信息及其外部語境信息為指導(dǎo)思想。在內(nèi)部構(gòu)造特征方面,漢語中地名存在兩種結(jié)構(gòu)類型:簡單地名和復(fù)雜地名。簡單地名內(nèi)部由詞素構(gòu)成,成分結(jié)構(gòu)相對穩(wěn)定,構(gòu)成方法具有規(guī)律性,如“天安門”、“黃河”、“棗嶺鄉(xiāng)”等。復(fù)雜地名事實(shí)上是一種短語結(jié)構(gòu),由二個或多個詞組成,如“香港 特別 行政區(qū)”、“珠江三角洲”、“抗日戰(zhàn)爭紀(jì)念館”等。復(fù)雜地名中一般都包含簡單地名。對北京大學(xué)1998年1至6月份《人民日報》標(biāo)注語料(后簡稱為北大語料)中復(fù)雜地名分析顯示,語料庫中復(fù)雜地名中嵌套有簡單地名的有4 935例,占復(fù)雜地名總數(shù)的83%。
簡單地名和復(fù)雜地名的結(jié)構(gòu)方式不同,應(yīng)采用不同的識別模式。本文借鑒了文獻(xiàn)[14]在進(jìn)行機(jī)構(gòu)名識別研究時的層疊條件隨機(jī)場方法,采用按層疊加條件隨機(jī)場模型,簡單地名識別與復(fù)雜地名識別在系統(tǒng)的不同階段完成。分層結(jié)構(gòu)具有三個優(yōu)勢。首先,內(nèi)嵌在復(fù)雜地名中的簡單地名獲得了與非內(nèi)嵌地名一致的處理方式,有助于緩解數(shù)據(jù)稀疏問題;其次,分層處理可利用“復(fù)雜地名一般都包含簡單地名”這一結(jié)構(gòu)性規(guī)律,在復(fù)雜地名識別時利用已識別的簡單地名信息;此外,分層處理有利于分別針對簡單地名和復(fù)雜地名的結(jié)構(gòu)特征與上下文信息識別進(jìn)行優(yōu)化處理,而不會彼此干擾。
外部語境在地名識別中具有非常重要的作用。外部語境信息包括近距離依存關(guān)系和長距離依存關(guān)系。本文通過采用無分詞地名識別策略和條件隨機(jī)場的特征模板設(shè)置來應(yīng)用近距離依存關(guān)系?,F(xiàn)有命名實(shí)體識別研究[7-8,14]一般在進(jìn)行識別之前先做分詞處理。然而由于地名常為未登錄詞,分詞的結(jié)果對地名識別效果影響較大。采用無分詞識別策略,以漢字作為基本特征單位,顆粒度細(xì),能夠緩解以詞為單位造成的知識顆粒度大和數(shù)據(jù)稀疏問題。試分析例1。
例1 (a)到達(dá)鎮(zhèn)江 (b)抵達(dá)鎮(zhèn)江 (c)送達(dá)鎮(zhèn)江
如在訓(xùn)練語料中包含例1(a),與例1(b),而不包含例1(c)時,以“字”為基本特征單位的無分詞策略可利用兩次出現(xiàn)的“達(dá)”字作為上下文信息,而以詞為基本特征時,例1(a)與例1(b)都不能為正確判斷例1(c)提供有用信息。有關(guān)條件隨機(jī)場的特征模板設(shè)置在第3節(jié)中詳細(xì)說明。
外部語境的另一個重要信息是長距離依存關(guān)系。地名的長距離依存關(guān)系還沒有被地名識別研究者所重視。在已有研究中,地名自動識別所考慮的上下文語境一般為地名字串的左右鄰字。僅有個別研究涉及了如何利用篇章中地名重現(xiàn)的問題,如文獻(xiàn)[7]提出“在同一篇文章內(nèi),同一個人名或地名往往反復(fù)出現(xiàn),已經(jīng)出現(xiàn)的專名應(yīng)該對文中其他地方的相同出現(xiàn)起指導(dǎo)提示作用”,并使用“動態(tài)詞表”來記錄同一篇章中出現(xiàn)的地名或人名。文獻(xiàn)[13]也采用Cache方法對同一篇章中出現(xiàn)的命名實(shí)體進(jìn)行儲存。但是語篇中地名關(guān)系及其在地名識別中的應(yīng)用還缺乏系統(tǒng)性。
本文認(rèn)為,地名長距離依存關(guān)系的一種表現(xiàn)是篇章中地名語義關(guān)系,文獻(xiàn)[7]提及的篇章地名同現(xiàn)是篇章地名語義關(guān)系的一種類型。篇章分析理論指出,篇章要完成其作為語言交際基本單位的功能,“必須具備語篇特征,它所表達(dá)的是整體意義。語篇中各成分是連貫的,而不是彼此無關(guān)的”[15]8。地名之間的語義關(guān)聯(lián)是篇章連貫性的一種表現(xiàn)。以篇章為單位進(jìn)行地名識別,可以利用篇章中地名之間存在的動態(tài)地名關(guān)系與靜態(tài)地名關(guān)系有利于提高地名識別的效果。
基于以上分析,圖1給出了地名識別流程。輸入文本首先進(jìn)入簡單地名標(biāo)注與分詞一體化處理,并作為基于篇章的簡單地名識別模塊的輸入,然后再進(jìn)行復(fù)雜地名識別。簡單地名與文本分詞一體化處理、復(fù)雜地名識別兩個模塊以條件隨機(jī)場模型為依托,基于篇章的簡單地名識別則利用了地名庫,篇章地名關(guān)系庫和地名判斷模型。
圖1 地名識別流程圖
地名標(biāo)注與文本分詞的不同之處在于文本分詞僅對詞邊界進(jìn)行標(biāo)記,而地名標(biāo)注增加了詞語的句法范疇標(biāo)記信息。然而兩者都通過對字符串潛在狀態(tài)標(biāo)記完成,因此,可以對地名標(biāo)記與文本分詞進(jìn)行一體化處理。例2給出了本文采用的一體化標(biāo)注形式的示例。
例2.
(a)引/S閩/B-ns江/E-ns水/S沖/B污/E線/B路/E西/S起/S閩/B-ns侯/C-ns縣/E-ns文/B-ns山/C-ns里/E-ns 、/S東/B-ns至/C-ns湖/B-ns前/C-ns河/E-ns。/S
(b)黨/B-nt中/C-nt央/E-nt國/B-nt務(wù)/C-nt院/E-nt對/S太/B-ns湖/E-ns流/B域/E的/S污/B染/E問/B題/E高/B度/E重/B視/E
考慮到機(jī)構(gòu)名中也常常含有地名,表1中給出了本文采用的18位標(biāo)注集,分為地名、機(jī)構(gòu)名和其他三種類型,每種類型包含六個標(biāo)記。
表1 簡單地名標(biāo)注集
采用一體化標(biāo)注集,通過訓(xùn)練可獲取簡單地名識別模型。本文采用了CRF++①CRF++是Taku Kudo采用C++語言編寫的CRFs工具包,軟件包下載地址為h ttp://crfpp.sou rceforge.net。作為模型訓(xùn)練平臺。在標(biāo)注集確定情況下,影響識別結(jié)果的因素主要包括以下幾個方面:(1)訓(xùn)練語料大小及語料中地名分布情況;(2)勢函數(shù)選擇;(3)參數(shù)估算算法。訓(xùn)練語料的大小與模型的識別效果直接相關(guān),太小會遭遇到數(shù)據(jù)稀疏問題,太大則可能包含噪音,訓(xùn)練時間也會大幅延長。為此,我們選擇從語料中抽取僅包含地名的句子生成訓(xùn)練語料,從而在避免數(shù)據(jù)稀疏的情況下減少訓(xùn)練時間,同時也避免噪音的影響。
依據(jù)CRFs模型[16-17],給定一觀察序列,其標(biāo)注序列的概率由一組勢函數(shù)確定:
影響概率值P的因素是λ(權(quán)重向量)、狀態(tài)轉(zhuǎn)移勢函數(shù) t和狀態(tài)特征函數(shù) s。本文采用了 LBFGS參數(shù)評估算法獲取λ值。勢函數(shù)選擇在CRF++通過特征模板確定詳見表2。
續(xù)表
運(yùn)用獲取的CRFs簡單地名識別模型,對輸入的文本進(jìn)行識別,即可獲得帶有分詞和地名、機(jī)構(gòu)名標(biāo)記的輸出結(jié)果,如例3。
例3 歷史給上海/ns提供了新一輪發(fā)展機(jī)遇。
基于篇章的簡單地名識別以一體化處理結(jié)果為基礎(chǔ),利用篇章中地名之間的各種固有或概率語義關(guān)系重新考察地名標(biāo)注??疾彀▽σ褬?biāo)注地名字串的分析和未標(biāo)注地名字串的分析兩個方面。通過分析已標(biāo)注地名字串的組成結(jié)構(gòu)以及該字串是否與篇章中其他地名存在篇章語義關(guān)系,對標(biāo)注進(jìn)行修改,以提高標(biāo)注準(zhǔn)確率。對于未標(biāo)注字串,如果該字串可以作為地名使用,且與篇章中其他地名存在篇章語義關(guān)系,則修改該字串為地名,從而提高標(biāo)注召回率。分析未標(biāo)注字串又有兩種方案。一種方案是直接利用一體化處理所給出的地名標(biāo)注和文本分詞結(jié)果(如例3所示)。另一方案是不使用一體化處理中的分詞結(jié)果,而采用逆向最大匹配對非地名字串進(jìn)行重新切分,然后考察切分結(jié)果是否可能為地名,并將識別結(jié)果與原有識別結(jié)果合并。后面給出了基于篇章的簡單地名識別流程。流程中步驟4分析已標(biāo)注地名字串,步驟5分析未標(biāo)注地名字串。兩個步驟相對獨(dú)立。
由流程可知,基于篇章的簡單地名識別,需要兩個關(guān)鍵組塊,其一是依據(jù)已識別地名集合 T獲取篇章地名擴(kuò)展集合T′。篇章地名擴(kuò)展集合的實(shí)質(zhì)是篇章地名同現(xiàn)集合,即在同一篇章中可能共同出現(xiàn)的地名集合。語篇的連貫性以及地名之間固有的語義關(guān)系,決定了同一篇章中一些地名會共同出現(xiàn)。第二個關(guān)鍵組塊是地名性判斷,即給定一個字串,在孤立語境中,通過對該字串的內(nèi)部結(jié)果分析,判斷該字串用作地名的概率。本文4.1節(jié)與4.2節(jié)詳細(xì)介紹兩個組塊的獲取方法。
基于篇章的簡單地名識別流程如下:
步驟1:設(shè)定分詞方案一為直接使用一體化處理結(jié)果,方案二為使用逆向最大匹配;
步驟2:給定一個篇章,通過簡單地名標(biāo)注與文本分詞一體化處理得到分詞與標(biāo)注字串向量W;
步驟3:對W進(jìn)行掃描,獲取已識別地名集合 T,并依據(jù)T和篇章地名關(guān)系,獲取篇章地名擴(kuò)展集合T′=f(T);
步驟4:對W進(jìn)行掃描,并重復(fù)以下操作:
4a.輸入下一字串β,如β為空,退出本流程,否則轉(zhuǎn)至4b;
4b.如果字串β被標(biāo)注為地名,且β?T′,且地名性判斷中確信度小于預(yù)定閾值,則修改β標(biāo)注為非地名;
步驟5:對W以句子S為單位重新掃描并執(zhí)行以下操作:
5a.從S重復(fù)讀入字串β,如β為空,退出步驟5;否則,如采用方案一,轉(zhuǎn)至5b;如采用方案二,則對S使用逆向最大匹配分詞,并獲取對應(yīng)位置且包含β的字串β′,并令β=β′,并轉(zhuǎn)至5b;
5b.如β已被識別為地名,轉(zhuǎn)至5a,否則,轉(zhuǎn)至5c;
5c.對β進(jìn)行地名性判定,如確信度大于預(yù)定閾值,轉(zhuǎn)至 5d,否則,轉(zhuǎn)至5a;
5d.如果β∈T′,則將β標(biāo)識為地名;轉(zhuǎn)至 5a;
步驟6:在W中合并原有標(biāo)注地名與新標(biāo)注地名并輸出。
在簡單地名識別過程已識別的地名組成篇章地名集合T。在 T基礎(chǔ)上,利用地名之間的同指關(guān)系、靜態(tài)地理關(guān)系和動態(tài)地理關(guān)系,可以獲得篇章地名擴(kuò)展集合 T′,即
其中CR(T)、SR(T)、DR(T)分別為依據(jù) T獲得的同指關(guān)系集合、靜態(tài)地理關(guān)系集合和動態(tài)地理關(guān)系集合。
地理實(shí)體的地名形式判斷算法:
給定一地理實(shí)體的全稱為C1C2…Cn-2Cn-1Cn,待定字串 C′=C′1C′2C′3…C′m-2C′m-1C′m,如果滿足如 下三 個條件,則稱字串C′為α的一種表征形式:
同指關(guān)系CR(T)基于如下事實(shí):某一地理實(shí)體往往以不同地名形式在同一語篇中反復(fù)出現(xiàn),從而形成不同地名形式之間的同指關(guān)系。例如,“西雙版納傣族自治州”、“西雙版納”、“西雙版納自治州”、“西雙版納州”都可以用來指向行政區(qū)劃“西雙版納傣族自治州”,而在文本中四種地名形式都可能出現(xiàn)。通過地理實(shí)體的地名形式判斷算法可以獲得地理實(shí)體的不同語言使用形式。地名形式判斷的基本思路是如果一個字符串長度大于或等于2,且其首尾能夠與某一地理實(shí)體名稱(參見表3name字段)模糊匹配,那么這一字符串被認(rèn)為是該地理實(shí)體的一種表征形式。同一地理實(shí)體的不同地名形式具有同指關(guān)系。
靜態(tài)地理關(guān)系SR(T)是指不同地理要素之間由于天然的或人為的原因而形成的穩(wěn)定的地理關(guān)系。這種地理關(guān)系常被人們用來作為方位的參照體系。典型的靜態(tài)地理關(guān)系為行政區(qū)劃隸屬關(guān)系,例如“西雙版納傣族自治州”與“云南省”之間的隸屬關(guān)系。靜態(tài)地理關(guān)系是世界知識的一部分,本文采用地名庫作為靜態(tài)地理關(guān)系數(shù)據(jù)庫。該地名庫包含162 344個中國地理實(shí)體,地名庫結(jié)構(gòu)如表3所示。給定兩個地名,通過地名庫查詢可以判斷兩者是否存在行政區(qū)劃隸屬關(guān)系。
表3 地理要素庫數(shù)據(jù)結(jié)構(gòu)
動態(tài)地理關(guān)系SR(T)是由于人們的社會活動而形成的相互聯(lián)系,表現(xiàn)為兩個地名在同一篇章中出現(xiàn)。例如在同一語篇中,“中國”與“美國”、“英國”、“法國”之間的相互關(guān)聯(lián)是由于外交關(guān)系而形成的;“新疆”與“廣州”之間由于“廣州中國進(jìn)出口商品交易會”在同一語篇中形成的相互聯(lián)系。本文以標(biāo)注語料庫為數(shù)據(jù)基本來源,以語篇為單位,通過獲取語篇中地名的同現(xiàn)關(guān)系來獲取動態(tài)地理關(guān)系,建立動態(tài)地理關(guān)系數(shù)據(jù)庫。在實(shí)驗(yàn)中,我們從北大語料1至5月份語料中共抽取322 012個動態(tài)地理關(guān)系對。其中既包括了國家與國家之間的地理關(guān)系,如“中國—美國”,也包括了我國內(nèi)部的地理關(guān)系,如“華北—石景山”。
“字串”地名性判斷是在不考慮上下文的情況下,僅從字串內(nèi)部信息來考察一個字串被標(biāo)注為地名的概率。例如,“淥口”標(biāo)注為地名的概率遠(yuǎn)高于“宋本”。本文將字串的地名性判斷看作漢字潛在狀態(tài)標(biāo)注問題,使用CRF++作為訓(xùn)練平臺建立基于條件隨機(jī)場的地名性判斷模型,表4給出了模型訓(xùn)練中地名的狀態(tài)標(biāo)記集合,非地名采用6位標(biāo)注集①例如:如/B果/E沒/B有/E工/B人/C階/D級/E的/S支/B持/E(B,C,D,I,E,S)。訓(xùn)練詞表采用從北大語料庫1至5月份語料抽取的詞表。運(yùn)用該模型對字串進(jìn)行地名性判斷,可以獲取兩類重要信息:給定字串的最優(yōu)標(biāo)注和最優(yōu)標(biāo)注的確信度。最優(yōu)標(biāo)注確信度C f=P(標(biāo)注序列/觀察序列)為CRF中觀察字串序列采用最優(yōu)標(biāo)注序列的條件概率(文獻(xiàn)[17]給出了CRF中條件概率的定義)。例4給出了地名性判斷示例。
表4 基于地名結(jié)構(gòu)的簡單地名標(biāo)注集及示例
例4:
(a)民和縣 → 民/B-LMC和/I-LMC縣/ELCC確信度:94.80%
(b)民和委 → 民/B和/C委/E,確信度:99.58%
其中例4(a)在孤立語境中標(biāo)注為地名的確信度為94.80%,而例4(b)為非地名的確信度為99.58%。判斷為地名的字串所具有的確信度在基于篇章的簡單地名識別流程中被用作閾值設(shè)置的依據(jù)。
復(fù)雜地名識別接受簡單地名識別的輸出,其中包含簡單地名標(biāo)注信息和分詞信息。復(fù)雜地名識別也通過條件隨機(jī)場模型識別。模型訓(xùn)練平臺、數(shù)據(jù)來源、參數(shù)獲取算法與簡單地名相同。數(shù)據(jù)格式為“詞+[O|ns]+標(biāo)注”,其中O表示非地名,ns表示地名。狀態(tài)標(biāo)注集采用6位標(biāo)注集(S,B,I,E1,E,O)②S為獨(dú)立構(gòu)成地名字,B、E1、E和 I分別表示地名首詞,結(jié)尾倒數(shù)第2詞,尾詞和其他位置詞。如:香港/B-ns特別/E1-ns行政區(qū)/E-ns。O為非地名。。特征選擇見表5。
表5 復(fù)雜地名CRFs模型特征選擇
為方便比較,我們參照文獻(xiàn)[8],選擇北大語料1至5月份語料為訓(xùn)練語料,1月份語料為封閉測試語料,6月份語料為開放測試語料。首先僅采用由條件隨機(jī)場簡單地名識別模塊、復(fù)雜地名條件隨機(jī)場模塊組成的層疊條件隨機(jī)場模型進(jìn)行實(shí)驗(yàn)。表6給出了簡單地名識別的實(shí)驗(yàn)結(jié)果,表7給出了復(fù)雜地名識別的實(shí)驗(yàn)結(jié)果,表8給出了層疊條件隨機(jī)場地名識別結(jié)果。
表6 簡單地名識別結(jié)果
表7 復(fù)雜地名識別結(jié)果
表8 綜合地名識別結(jié)果
與已有研究相比,采用層疊條件隨機(jī)場無分詞策略在封閉測試和開放測試都取得了較好的性能,開放測試F值與已有類似研究相比高出大約3%。表6、表7和表8中封閉測試和開放測試F值變化不大,說明模型性能相對穩(wěn)定。而表7顯示,在假定分詞和簡單地名識別完全正確的情況下,復(fù)雜地名層級的識別精度可以達(dá)到98.86%和95.62%,說明進(jìn)一步提高地名識別精度的突破口應(yīng)放在簡單地名的識別方面。
由第4節(jié)可知,基于篇章的簡單地名識別包含對已標(biāo)注字串的考察和未標(biāo)注字串的考察兩個環(huán)節(jié),且每一環(huán)節(jié)都存在地名性判斷閾值設(shè)置問題。此外,在對未標(biāo)注地名考察時還有兩種方案:基于一體化處理和基于最大匹配。實(shí)驗(yàn)首先考察了在一體化處理的基礎(chǔ)上不同閾值設(shè)置對簡單地名識別結(jié)果的影響,在處理中省略基于篇章的簡單地名識別流程中步驟4,而直接執(zhí)行步驟5。圖2、圖3分別給出了不同閾值在封閉測試和開放測試中的識別結(jié)果??梢钥闯?隨著確信度閾值趨向于0,封閉測試和開放測試中召回率和F值呈上升趨勢,而精確率基本保持不變,說明在對未標(biāo)注地名進(jìn)行判斷時,僅依靠篇章地名關(guān)系就可以正確判斷未標(biāo)注地名是否為地名。
圖2 步驟5不同閾值封閉測試結(jié)果
圖3 步驟5不同閾值開放測試結(jié)果
為考察分詞錯誤對于地名識別的影響,我們進(jìn)一步分別采用基于CRFs的一體化處理(CRFs)和逆向最大匹配(BMM)兩種方案進(jìn)行了試驗(yàn)(圖4、圖5)??梢钥闯?BMM在閾值為0.60時封閉測試時F值方面有小幅提高,而在開放測試中與CRFs差距不明顯。BMM在召回率方面的優(yōu)勢較為明顯,這說明分詞錯誤對地名識別具有具有較大影響。但是BMM需要對文本進(jìn)行重新處理,處理時間會大幅延長。
圖4 封閉測試兩種方案測試結(jié)果
圖5 開放測試兩種方案測試結(jié)果
在此基礎(chǔ)上,我們選擇以一體化處理結(jié)果為基礎(chǔ),在對未標(biāo)注地名考察時地名性判斷閾值設(shè)置為0,在處理時執(zhí)行基于篇章的簡單地名識別流程中所有步驟,即包括步驟4和步驟5。表9和表10分別給出了在步驟4中地名性判斷閾值設(shè)置為不同閾值的結(jié)果??梢钥闯?在閾值設(shè)置為0.10時,相對于閾值為0,即不對已識別地名進(jìn)行處理時,系統(tǒng)召回率在封閉測試與開放測試分別降低了 1.34%和1.67%,而精確率分別提高了1.85%和2.38%,F值提高0.35%;在閾值為0.5的情況下,精確度會得到進(jìn)一步的提高,召回率呈現(xiàn)下降趨勢,F值也會下降。這說明地名性判斷中確信度較低的地名會對地名識別精度產(chǎn)生較大影響,而將這一部分過濾后系統(tǒng)性能提高幅度較大。
表9 已識別地名不同閾值封閉測試
表10 已識別地名不同閾值開放測試
上述實(shí)驗(yàn)也說明,使用一體化處理結(jié)果,在對已識別地名處理中地名判斷確信度閾值設(shè)置為0.1,對未識別地名處理中地名判斷確信度閾值設(shè)置為0時,基于篇章地名識別達(dá)到最好效果,封閉測試精確率和F值分別比一體化處理結(jié)果提高 1.87%和1.58%,開放測試精確率和F值分別提高2.33%和0.84%。
采用6.2節(jié)基于篇章識別地名處理的最優(yōu)設(shè)置,使用一體化處理結(jié)果,在對以識別地名處理中地名判斷確信度閾值設(shè)置為0.1,對未識別地名處理中地名判斷確信度閾值設(shè)置為0,對簡單地名和復(fù)雜地名進(jìn)行了綜合實(shí)驗(yàn),表11給出了測試結(jié)果。與表7相比較,在封閉測試中,精確度提高 2.85%,召回率提高0.49,F值提高1.72%,開放測試中,精確度提高2.45%,召回率下降0.33,F值提高1.16%。分析可以看出,過濾地名判斷確信度較低的地名,采用篇章地名關(guān)系進(jìn)行地名識別能夠有效地提高地名識別精確率。
表11 加入地名關(guān)系后處理模塊的整體識別結(jié)果
本文探討了以篇章為單位的地名識別策略和方法,以充分利用地名內(nèi)部結(jié)構(gòu)信息、左右近鄰字等短距離依存關(guān)系以及篇章地名關(guān)系這一長距離依存關(guān)系為指導(dǎo)思想,構(gòu)建了中文地名識別系統(tǒng)。該系統(tǒng)采用無分詞策略,應(yīng)用條件隨機(jī)場作為基本模型,分別建立了基于條件隨機(jī)場的簡單地名識別模塊、基于篇章的簡單地名識別模塊和基于條件隨機(jī)場的復(fù)雜地名識別模塊。在基于篇章的簡單地名識別模塊中,構(gòu)建了篇章地名語義關(guān)系知識庫和地名性判斷模塊。試驗(yàn)顯示,基于上述策略的地名識別系統(tǒng)在封閉測試和開放測試中F值都達(dá)到了較高水平,說明以充分利用短距離依存關(guān)系和長距離依存關(guān)系的系統(tǒng)構(gòu)建方法能夠建立有效的地名識別模型。
長距離依存不僅表現(xiàn)在篇章地名關(guān)系方面,也表現(xiàn)在其他類型的命名實(shí)體中,因此這一方法有可能應(yīng)用于其他類型命名實(shí)體識別之中。此外,如果能夠建立基于條件隨機(jī)場的綜合考慮短距離和長距離依賴關(guān)系的模型,有可能會使系統(tǒng)性能得到進(jìn)一步提升。這些是我們下一步的研究工作。
[1] 劉開瑛.中文文本自動分詞與標(biāo)注[M].北京:商務(wù)印書館,2000.
[2] 樂小虬,楊崇俊,劉冬林.空間命名實(shí)體的識別.計算機(jī)工程,2005,31:49-53.
[3] 向曉雯,史曉東,曾華琳.一個統(tǒng)計與規(guī)則相結(jié)合的中文命名實(shí)體識別系統(tǒng)[J].計算機(jī)應(yīng)用,2005,25:2404-2406.
[4] 莊明,老松楊,吳玲達(dá).一種統(tǒng)計和詞性相結(jié)合的命名實(shí)體發(fā)現(xiàn)方法[J].計算機(jī)應(yīng)用,2005,24:22-24.
[5] 黃德根,孫迎紅.中文地名的自動識別[J].計算機(jī)工程,2006,32:220-222.
[6] 李麗雙,黃德根,陳春榮,楊元生.SVM 與規(guī)則相結(jié)合的中文地名自動識別[J].中文信息學(xué)報,2006,20(5):51-57.
[7] 錢晶,張杰,張濤.基于最大熵的漢語人名地名識別方法研究[J].小型微型計算機(jī)系統(tǒng),2006,27:1761-1765.
[8] 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.基于層疊隱馬爾科夫模型的中文命名實(shí)體識別[J].通信學(xué)報,2006,27:87-94.
[9] 李麗雙,黃德根,陳春榮,楊元生.基于支持向量機(jī)的中文文本中地名識別[J].大連理工大學(xué)學(xué)報,2007,47:433-438.
[10] L.Li,Z.Ding,and D.Huang.Recognizing Location Names from Chinese Texts Based on Max-M argin Network[C]//Proceedings of International Conference on Natural Language Processing and Know ledge Engineering 2008,Beijing,China,2008:325-331.
[11] 馮元勇,孫樂,張大鯤,李文波.基于小規(guī)模尾字特征的中文命名實(shí)體識別研究[J].電子學(xué)報,2008,36:1833-1838.
[12] 黃德根,岳廣玲,楊元生.基于統(tǒng)計的中文地名識別[J].中文信息學(xué)報,2003,17(2):36-41.
[13] 張曉艷,王挺,陳火旺.基于混合統(tǒng)計模型的漢語命名實(shí)體識別方法[J].計算機(jī)工程與科學(xué),2006,128:135-139.
[14] 周俊生,戴新宇,尹存燕,陳家俊.基于層疊條件隨機(jī)場模型的中文機(jī)構(gòu)名自動識別[J].電子學(xué)報,2006,34:804-809.
[15] 黃國文.語篇分析概要[M].長沙:湖南教育出版社,1983.
[16] H.M.W allach.Conditional Random Fields:An Introduction[R].University of Pennsy lvania,2004.
[17] J.Lafferty,A.M cCallum,and F.Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//International Con ferenceon Machine Learning,2001.