前后綴與特征詞相結(jié)合的地名地址提取

2016-04-11 01:25王克永劉紀平

測繪通報 2016年2期

關(guān)鍵詞：詞庫特征詞后綴

王克永，劉紀平，羅　安，王　勇

(1. 山東農(nóng)業(yè)大學，山東泰安 271018； 2. 中國測繪科學研究院，北京 100830)

前后綴與特征詞相結(jié)合的地名地址提取

王克永1,2，劉紀平2，羅安2，王勇2

(1. 山東農(nóng)業(yè)大學，山東泰安 271018； 2. 中國測繪科學研究院，北京 100830)

Extracting Toponomy and Location Based on the Combination of Prefix and Suffix with Feature Words

WANG Keyong,LIU Jiping,LUO An,WANG Yong

摘要：隨著地理信息與計算機技術(shù)的發(fā)展，網(wǎng)絡中的非結(jié)構(gòu)化地名地址數(shù)據(jù)越來越多，逐步成為地理信息更新的重要途徑之一。針對互聯(lián)網(wǎng)中地名地址的存在方式及結(jié)構(gòu)特點，本文提出了一種前后綴與特征詞相結(jié)合的地名地址識別提取方法。首先利用HMM訓練進行分詞，接著通過地名地址前后綴詞庫進行候選地名切分與預提取，最后根據(jù)特征詞進行匹配過濾，實現(xiàn)對地名地址的準確提取。試驗結(jié)果證明，本文方法提高了地名地址識別的準確率和召回率,很大程度上解決了未登錄地址提取問題。

關(guān)鍵詞：前后綴；特征詞；HMM分詞；地名地址

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，多源網(wǎng)絡中廣泛存在數(shù)量龐大、種類繁多的新聞、報道、軍事、生活信息，它們大多是文本數(shù)據(jù)，不容易被自動挖掘與提取。然而，蘊藏在文本中的地理信息不僅能為政府關(guān)注各類事件的分析、研究和決策提供支撐，而且還可以豐富地理信息的內(nèi)容[1]，可以利用GIS軟件進行空間分析與應用[2]。目前，地理信息中地名地址搜索大多利用關(guān)鍵詞[3-4]及其出現(xiàn)詞頻統(tǒng)計結(jié)果進行分析和應用，導致搜索數(shù)據(jù)存在模糊、歧義等問題，使地名地址識別的準確率降低。因此，從海量網(wǎng)絡資源中抽取準確的地名地址信息顯得格外重要。

地名地址識別是從文本數(shù)據(jù)中識別具有空間位置表達能力的地名地址要素，如帶有行政區(qū)劃的組織機構(gòu)、門樓地址、餐飲、購物商場等。目前，國內(nèi)外主要相關(guān)研究成果可以分為基于字典與統(tǒng)計的地名地址識別、基于規(guī)則的地名地址識別及基于機器學習的地名地址識別三方面。翟鳳文等提出了一種字典與統(tǒng)計相結(jié)合的中文分詞方法，提高了交集型歧義切分的準確率，并且在一定條件下解決了語境中高頻未登錄詞問題[5]；李宏波提出的分詞詞典和統(tǒng)計分析相結(jié)合的解決方案，合理解決了歧義詞和未登錄詞兩大難題[6]；趙偉等結(jié)合規(guī)則和語料庫統(tǒng)計兩種分詞方法進行分詞[7]；張雪英等以大規(guī)模地名詞典和地址數(shù)據(jù)庫為數(shù)據(jù)源，提出了中文地址的數(shù)字表達方式，提高了識別的準確率[8]；馬學峰分析了地名地址規(guī)律，整合了地名地址數(shù)據(jù)庫[9]；潘正高在構(gòu)造內(nèi)部規(guī)則和外部規(guī)則的同時，采用了概率統(tǒng)計的中文命名實體的識別方法[10]；李麗雙等提出了支持向量機(SVM)與規(guī)則相結(jié)合的中文地名自動識別方法，得到了SVM識別地名的機器學習模型[11]。

本文在研究國內(nèi)外方法的基礎(chǔ)上，根據(jù)前人提出的隱馬爾可夫模型(HMM)進行語義訓練與分詞，將中文文本分成多個獨立詞語，并利用語義庫提取的前后詞綴對HMM分詞結(jié)果進行候選地名地址的預提取，再結(jié)合構(gòu)建的地名地址特征詞庫對候選地名地址進行匹配過濾。

一、地名地址識別提取

網(wǎng)絡中涉及的地名地址具有種類繁多、樣式復雜及未登錄詞出現(xiàn)頻率高等特點，導致地名地址的提取難度大且識別精度低。結(jié)合網(wǎng)絡中中文地名地址的上下文特征，本文提出一種基于前后綴的地名地址識別與提取方法，具體技術(shù)流程如圖1所示。首先利用訓練出的HMM對中文文本信息進行自動分詞，將整個中文文本信息切分成若干個獨立的詞語；然后根據(jù)建立的地名地址前綴詞庫和后綴詞庫，對切分的文本信息進行前后綴匹配，從而將前后綴之間的文本提取出來作為候選地名地址，形成候選的地名地址庫；最后通過構(gòu)建的地名地址特征詞庫，對候選地名地址庫進行一一比對和過濾，將其中不包含地名地址要素的文本信息剔除，實現(xiàn)中文地名地址的自動識別與提取，有效提高地名地址識別的準確率。

圖1　地名地址識別流程

1.基于隱馬爾可夫模型(HMM)的文本分詞

前后綴詞庫中的詞語涉及范圍大，格式不統(tǒng)一，為了避免前后綴詞將完整的地址進行切分，需要對網(wǎng)絡文本信息進行分詞預處理。本文采用隱馬爾夫模型(HMM)對網(wǎng)絡文本進行中文分詞，將整個中文文本信息切分成若干個獨立的詞語，為下一步基于前后綴的候選地名地址提供基礎(chǔ)。

隱馬爾卡夫過程是一種雙重隨機過程，結(jié)合傳統(tǒng)HMM的特征，本文利用海量網(wǎng)絡地名地址文本信息對HMM參數(shù)進行自學習訓練得到最佳分詞參數(shù)，確保分詞后地名地址的完整性。具體HMM描述與訓練過程如下。

隱馬爾夫模型是個五元組模型N、M、A、B、π，它們表現(xiàn)的意義分別是：

N={q1,q2，…，qN}，表示狀態(tài)的集合，地名地址識別中，有單字成詞、詞首、詞中、詞尾4種狀態(tài)。

M={v1,v2，…，vM}，表示觀察值的有限集合。

π={πi}，表示狀態(tài)的初始概率。

A={aij}，aij=P(qt=Sj|qt-1=Si)，轉(zhuǎn)移概率矩陣，本文中為S的4種狀態(tài)之間的轉(zhuǎn)換，理論上有42種轉(zhuǎn)換，考慮到地名識別的實際情況，只有單字成詞→單字成詞、單字成詞→詞首、詞首→詞中、詞首→詞尾、詞中→詞中、詞中→詞尾、詞尾→詞首、詞首→單字成詞8種轉(zhuǎn)移。

B={bjk}，bjk=P(Ot=vk|qt=Sj)，為觀察值概率分布矩陣。

一般而言，A、B確定后，M與N也能夠確定，因此給定一系列觀察樣本，從而可以將HMM描述為λ(π,A,B)模型，滿足某種優(yōu)化條件，使P(O|π)最大，具體重估迭代公式如下

2. 基于前后綴詞庫的候選地名地址預提取

在基于HMM分詞的基礎(chǔ)上，利用前后綴詞庫進行地名地址前后綴詞語的隊列匹配，即首先通過地名前綴詞語進行詞語的逐一匹配，然后根據(jù)與該前綴詞語對應后綴詞的權(quán)重進行地名地址后綴詞的匹配，只有當前后綴詞語完全匹配成功后，才將中間的文本信息串連起來，作為候選地名地址，最終形成候選地名地址庫。

由于候選地名地址提取的準確性在很大程度上依賴于前后綴詞庫的豐富程度，因此本文采用大量網(wǎng)絡文本信息作為語料庫，利用常伴隨地名地址同時出現(xiàn)的前綴詞與后綴詞的頻率與詞性，通過機器自學習的方式來自動豐富與完善地名地址前后綴詞庫(部分前后綴詞庫如圖2、圖3所示)，并通過前后綴詞詞性與搭配情況，構(gòu)建前后綴詞庫對應連接關(guān)系，即為前綴詞所對應的后綴詞賦予權(quán)重，提高后綴詞匹配分詞的速度與準確性，具體賦予權(quán)重公式如下

圖2　前綴詞庫部分前綴詞

圖3　后綴詞庫部分后綴詞

具體過程如下：本文以1998年1月一條新聞為例，首先去除語料庫中每條新聞開始的時間(如19980101-02-003-003/m)，以避免時間造成的誤差；然后對專屬名詞與地名地址進行合并，有效統(tǒng)計地名地址的前后綴詞詞性及對應出現(xiàn)的頻率；最后統(tǒng)計后綴詞中相同詞出現(xiàn)的頻率，詞性頻率與詞的頻率相加作為前綴詞確定下后綴詞出現(xiàn)的權(quán)重。如“[那曲/ns 地區(qū)/n]ns”合并為“那曲地區(qū)/ns”，“[西藏/ns 自治區(qū)/n 政府/n]nt”合并為“西藏自治區(qū)政府/nt”，根據(jù)地址(ns)出現(xiàn)的位置提取前后綴，在“今晚/t 的/u 長安街/ns 流光溢彩/l”中，提取出地址“長安街/ns”的前綴是助詞(u)“的”，后綴是習用語(l)“流光溢彩”。在提取的過程中，根據(jù)前綴助詞(u)確定權(quán)重由大到小的后綴詞，并依次匹配，直至匹配到出現(xiàn)的后綴詞“流光溢彩”。

3. 結(jié)合特征詞的地名地址提取

利用地名地址元素特征對上文形成的候選地名地址庫中地名地址逐一進行匹配，剔除未包含地名地址要素及不符合地名地址構(gòu)詞規(guī)則的噪音信息，提取包含地址元素特征詞的地名地址，確保地名地址識別與提取的正確性與效率，主要包括特征詞提取與特征詞過濾。

(1) 特征詞提取

1) 候選地名地址中包含行政區(qū)劃要素的則作為地名地址信息，具體公式為：AdminLib[i]∈Loc(wait)?Loc(y)，其中AdminLib為行政區(qū)劃庫(精確到村級)，如北京、濟南、海淀等，i為集合中的一個元素；Loc(y)為地名地址集合。

2) 提取包含專有地名名詞的候選地名地址作為地名地址：Loclist[i]∈Loc(wait)?Loc(y)，其中Loclist為專有地名名詞集合，如河流、湖泊、道路等。

3) 候選地名地址中含有經(jīng)緯度信息的作為地名地址：Lonlat[i]∈Loc(wait)?Loc(y)，其中Lonlat[i]為經(jīng)緯度詞，如東經(jīng)、北緯、西經(jīng)、南緯。

4) 含有企事業(yè)單位特征詞的候選地名地址作為地名地址：Unit[i]∈Loc(wait)?Loc(y)，其中Unit[i]為企事業(yè)單位詞，如公司、學校、客運站、展覽館、銀行等。

(2) 特征詞過濾

1) 含有姓氏且含有人物描述詞的候選地名地址判斷為非地名地址：Familyname[i]∈Loc(wait)&&Figurelist[i]∈Loc(wait)?Loc(n)[11]，其中Familyname為人名姓氏集合，如趙、錢、孫等；Figurelist為人物描述后綴詞，如女士、先生、叔叔、阿姨等；Loc(n)為非地名地址集合。

2) 候選地名地址中既含有人物代詞也含有人物描述后綴詞的被判斷為非地名地址：Pronlist[i]∈Loc(wait)&&Figurelist[i]∈Loc(wait)?Loc(n)，Pronlist為人物代詞集合，如你們、我們、他等。

二、試驗與結(jié)果分析

由于新華社網(wǎng)站的新聞具有權(quán)威、報道精準、傳播范圍廣、涉及范圍大等優(yōu)勢，本文選取新華社網(wǎng)站上的新聞文本作為試驗數(shù)據(jù)，利用Web爬蟲技術(shù)，采集新華社網(wǎng)站的1200條數(shù)據(jù)記錄。同時為了驗證本文提出方法的有效性和優(yōu)越性，試驗將基于本文提出的方法與HMM分詞方法進行對比，并將試驗數(shù)據(jù)進行人工判讀，最終采用召回率R、準確率P、F值(F-Measure)來反映本文方法和HMM分詞方法的區(qū)別，具體計算公式如下

本試驗將1200條數(shù)據(jù)分為300條、600條、900條、1200條4種樣本進行對比試驗，采用前綴詞1483個，后綴詞2312個，企事業(yè)單位特征詞204個，專有地名名詞138個，姓氏名詞4100個，人物描述后綴詞86個，人物代詞52個，行政區(qū)劃庫數(shù)據(jù)精確到村級，試驗結(jié)果見表1。試驗結(jié)果顯示，1200條新聞信息時，本文提出的方法準確性為92.11%，召回率達到89.13%，F(xiàn)值達到90.60%，其中F值對比如圖4所示。

表1　兩種方法對比　(%)

圖4　4種樣本識別F值對比圖

本文方法對地名地址識別的準確率和召回率都高于HMM分詞方法。通過分析發(fā)現(xiàn)，其原因是在地名地址識別時，對于出現(xiàn)頻率不高的詞語，HMM分詞方法學習度不夠，從而引起錯分，而本文方法經(jīng)過前后綴預提取與特征詞匹配過濾后，可以有效地將錯分地址組合到一起，并提取出來。同時，為了測試方法的應用效果，本方法已經(jīng)在基礎(chǔ)地理信息更新中得到了相應的應用，通過識別并提取網(wǎng)絡上地理信息網(wǎng)站發(fā)布新聞中的地名地址數(shù)據(jù)，實現(xiàn)對地理信息數(shù)據(jù)庫中的原始數(shù)據(jù)更新，系統(tǒng)如圖5所示。

圖5　地名地址提取與定位效果

三、結(jié)束語

本文提出了前后綴與構(gòu)詞規(guī)則相結(jié)合的地名地址識別方法，充分考慮了網(wǎng)絡地名地址前后綴詞庫及未登錄詞的結(jié)構(gòu)特征，利用訓練的HMM分詞技術(shù)，實現(xiàn)了地名地址的自動識別與提取，提高了地名地址的識別準確率、召回率，最后通過與傳統(tǒng)地名地址識別方法的對比試驗，驗證了本文方法的有效性，并將本方法應用在基礎(chǔ)地理信息更新領(lǐng)域。

參考文獻：

[1]劉紀平,張福浩,王亮,等.電子政務地理信息服務[M].北京:測繪出版社,2014:136.

[2]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].測繪通報,2011(2):59-62.

[3]曾文,鄢軍霞.城市GIS地名定位工具的設(shè)計及應用[J].地球科學:中國地質(zhì)大學學報,2006,31(5):725-728.

[4]王平,薄正權(quán).地名地址數(shù)據(jù)采集方法與實踐[J].城市勘測,2013(2):54-57.

[5]翟鳳文,赫楓齡,左萬利,等.字典與統(tǒng)計相結(jié)合的中文分詞方法[J].小型微型計算機系統(tǒng),2006,27(9):1766-1771.

[6]李宏波.詞典與統(tǒng)計相結(jié)合的中文分詞算法研究[J].武漢理工大學學報(信息與管理工程版),2010,32(6):907-913.

[7]趙偉,戴新宇,尹存燕,等.一種規(guī)則與統(tǒng)計相結(jié)合的漢語分詞方法[J].計算機應用研究,2004,21(3):23-25.

[8]張雪英,閭國年,李伯秋,等.基于規(guī)則的中文地址要素解析方法[J].地球信息科學學報,2010,12(1):9-16.

[9]馬學峰.湛江市地名地址數(shù)據(jù)庫設(shè)計與實現(xiàn)[J].測繪通報,2014(S1):288-291.

[10]潘正高.基于規(guī)則和統(tǒng)計相結(jié)合的中文命名實體識別研究[J].情報科學,2012,30(5):708-712.

[11]李麗雙,黃德根,陳春榮,等.SVM與規(guī)則相結(jié)合的中文地名自動識別[J].中文信息學報,2006,20(5):51-57.

[12]陳玉萍,張秀. 地名地址普查與建庫研究[J]. 測繪通報,2015(6):103-107.

[13]數(shù)字城市地理信息公共平臺地名/地址編碼規(guī)則.中華人民共和國行業(yè)標準：GB/T 23705—2009[S].北京:中國標準出版社,2009.

[14]鄒崇堯,朱貴方,趙雙明. 基于搜索引擎技術(shù)的地名地址定制查詢研究[J]. 測繪通報,2014(8):92-94.

[15]李榮,胡志軍,鄭家恒.基于遺傳算法和隱馬爾可夫模型的web信息抽取的改進[J].計算機科學，2012,39(3)：196-199.

中圖分類號：P208

文獻標識碼：B

文章編號：0494-0911(2016)02-0064-05

作者簡介：王克永(1990—)，男，碩士生，主要從事3S技術(shù)集成與應用。E-mail: yongkewang@126.com

基金項目：國家863計劃(2012AA12A402；2013AA12A403)；中國測繪科學研究院基本科研業(yè)務費(7771403)

收稿日期：2015-01-27；修回日期： 2015-11-06

引文格式：王克永，劉紀平，羅安,等. 前后綴與特征詞相結(jié)合的地名地址提取[J].測繪通報，2016(2)：64-68.DOI:10.13474/j.cnki.11-2246.2016.0050.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

前后綴與特征詞相結(jié)合的地名地址提取