国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

開放式地理實(shí)體關(guān)系抽取的Bootstrapping方法

2016-09-06 09:13:20劉希亮
測繪學(xué)報(bào) 2016年5期
關(guān)鍵詞:語料實(shí)例實(shí)體

余 麗,陸 鋒,劉希亮

1. 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2. 中國科學(xué)院大學(xué),北京 100101; 3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023

?

開放式地理實(shí)體關(guān)系抽取的Bootstrapping方法

余麗1,2,陸鋒1,3,劉希亮1

1. 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2. 中國科學(xué)院大學(xué),北京 100101; 3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023

Foundation support: The National Natural Science Foundation of China (No.41271408); The National High-Tech Research and Development Program of China (863 Program) (No.2013AA120305)

從網(wǎng)絡(luò)文本中抽取地理實(shí)體間空間關(guān)系和語義關(guān)系要求高時(shí)效性和強(qiáng)魯棒性。本文提出一種開放式地理實(shí)體關(guān)系的自動(dòng)抽取方法,通過bootstrapping技術(shù)統(tǒng)計(jì)詞語的詞性、位置和距離特征來計(jì)算語境中詞語權(quán)值,據(jù)此確定描述地理實(shí)體關(guān)系的關(guān)鍵詞,最終組織成結(jié)構(gòu)化實(shí)例,并使用百度百科和Stanford CoreNLP開展了試驗(yàn)。研究結(jié)果表明,本文方法能自動(dòng)挖掘自然語言的部分詞法特征,無須領(lǐng)域?qū)<抑R和大規(guī)模標(biāo)注語料,適用于未知關(guān)系類型的信息抽取任務(wù);較之經(jīng)典的Frequency、TF-IDF和PPMI頻率統(tǒng)計(jì)方法,精度和召回率分別提升約5%和23%。

文本挖掘;地理實(shí)體;關(guān)系抽??;定量評價(jià);bootstrapping

包含地理實(shí)體(如地名、組織機(jī)構(gòu)、地緣政治實(shí)體)間語義關(guān)系(如從屬、合作、繼承關(guān)系)和空間關(guān)系(如拓?fù)?、方位、距離關(guān)系)的文本資源在廣義地理信息采集與服務(wù)中占據(jù)重要地位[1-2],為地圖數(shù)據(jù)庫更新提供了巨大潛能,催生了開放式地理實(shí)體關(guān)系抽取研究[3-5]。開放式地理實(shí)體關(guān)系抽取旨在從自然語言文本中抽取地理實(shí)體間的空間關(guān)系和語義關(guān)系,形成結(jié)構(gòu)化的表達(dá)形式[6]。它不限定于處理規(guī)范的新聞文本或者特定領(lǐng)域文本,無須預(yù)先定義關(guān)系的類別;以“抽取”代替“識別”,挖掘文本中蘊(yùn)含的一切關(guān)系實(shí)例,能更好地適應(yīng)高動(dòng)態(tài)、富信息的網(wǎng)絡(luò)文本的處理需求[7]。

相比實(shí)體關(guān)系抽取[8],地理實(shí)體關(guān)系抽取有如下特殊性:①缺乏大規(guī)模地理實(shí)體關(guān)系標(biāo)注語料[9]用于訓(xùn)練監(jiān)督的機(jī)器學(xué)習(xí)模型,以檢測種類繁多的關(guān)系類型;②缺乏典型的地理知識庫作為啟動(dòng)弱監(jiān)督機(jī)器學(xué)習(xí)模型的種子。現(xiàn)有的地理知識庫(GeoNames Ontology、OSM SemanticNetwork、GeoWordNet等)僅限于描述面狀地理實(shí)體間的“分離”、“包含”和“相鄰”3種空間關(guān)系,遠(yuǎn)不能滿足多類型地理實(shí)體關(guān)系抽取的需求;③文本蘊(yùn)含的地理實(shí)體關(guān)系實(shí)例分布異質(zhì)性極強(qiáng),熱點(diǎn)地理實(shí)體相關(guān)的關(guān)系描述頻繁出現(xiàn),而不受關(guān)注的地理實(shí)體文本描述較少;④地理實(shí)體關(guān)系抽取結(jié)果難以定量評價(jià)。人工逐條檢查上萬條地理實(shí)體關(guān)系實(shí)例的質(zhì)量是不切實(shí)際的,而小規(guī)模的隨機(jī)采樣又無法計(jì)算系統(tǒng)的召回率。因此,從自然語言文本中抽取地理實(shí)體關(guān)系面臨著巨大的挑戰(zhàn)。

本文重在解決開放式地理實(shí)體關(guān)系抽取的兩個(gè)核心問題:①缺乏大規(guī)模標(biāo)注語料和地理知識庫的前提下,如何自動(dòng)產(chǎn)生地理實(shí)體間空間關(guān)系和語義關(guān)系的結(jié)構(gòu)化元組;②如何定量評價(jià)開放式地理實(shí)體關(guān)系抽取效果。本文利用bootstrapping技術(shù)分析關(guān)系詞的詞法特征,引入到關(guān)鍵詞提取的權(quán)值計(jì)算中,據(jù)此將共現(xiàn)地理實(shí)體組織成結(jié)構(gòu)化形式,然后分析結(jié)果集的質(zhì)量分布情況,計(jì)算關(guān)系抽取精度和召回率,并基于百度百科文本驗(yàn)證方法的有效性。

1 相關(guān)工作

針對文本蘊(yùn)含地理實(shí)體關(guān)系抽取的問題,大量的研究成果集中在模式匹配方法。該方法通過提取和泛化詞法(句法)模式,可識別出有限的關(guān)系實(shí)例。文獻(xiàn)[10]將蘊(yùn)含“包含”和“相鄰”空間關(guān)系的隱式表達(dá)(文本中未出現(xiàn)關(guān)系詞)定義為詞法模式,作為查詢條件在Google和Yahoo中搜索新的地理實(shí)體關(guān)系實(shí)例。該方法適用于按照行政區(qū)劃級別排列的規(guī)范化地址文本,但僅能抽取指定的兩種地理實(shí)體關(guān)系。文獻(xiàn)[11]使用人工設(shè)計(jì)的493種中文模式與網(wǎng)頁摘要進(jìn)行匹配,以獲取顯式表達(dá)(文本中出現(xiàn)關(guān)系詞)的地理實(shí)體關(guān)系實(shí)例。該方法能識別出多種類型的地理實(shí)體關(guān)系,但需要預(yù)先準(zhǔn)備大規(guī)模的空間詞典和模式庫。與文獻(xiàn)[11]的方法相同,文獻(xiàn)[12]使用234個(gè)空間動(dòng)詞建立語法規(guī)則,實(shí)現(xiàn)了意大利語空間關(guān)系抽取。上述的模式匹配方法,其模式發(fā)現(xiàn)過程仍依賴于手工勞動(dòng),需要領(lǐng)域?qū)<抑R;且有限的模式難以適應(yīng)文本快速增長和變化需求。文獻(xiàn)[13]基于自建立的大規(guī)??臻g關(guān)系標(biāo)注語料,采用序列比對的方法自動(dòng)生成空間關(guān)系句法模式庫。該方法提高了模式挖掘的自動(dòng)化程度,但仍需耗費(fèi)大量人力構(gòu)建標(biāo)注語料庫。與之不同,關(guān)系抽取的模式發(fā)現(xiàn)過程充分利用了海量文本的冗余性,整個(gè)模式庫的構(gòu)建過程無須人工干預(yù)。利用該方法建立的經(jīng)典關(guān)系抽取系統(tǒng)有Reverb、OLLIE、OpenIE。然而,這些系統(tǒng)仍需由領(lǐng)域?qū)<翌A(yù)先定義詞法或句法規(guī)則。

為了放松地理實(shí)體關(guān)系抽取方法對領(lǐng)域?qū)<抑R的限制,一些研究者使用監(jiān)督的機(jī)器學(xué)習(xí)方法從文本中自動(dòng)抽取地理實(shí)體關(guān)系:通過大規(guī)模的標(biāo)記數(shù)據(jù)訓(xùn)練某個(gè)分類模型,再對未標(biāo)記數(shù)據(jù)自動(dòng)分配某種預(yù)定義的關(guān)系類型。該方法的主要障礙是缺乏可獲取的地理實(shí)體關(guān)系標(biāo)注語料??紤]到存在大量未標(biāo)注的文本且人工標(biāo)注語料的成本太高,自動(dòng)生成大規(guī)模標(biāo)注語料的弱監(jiān)督學(xué)習(xí)方法逐步成為研究熱點(diǎn)。文獻(xiàn)[14]使用在線的酒店點(diǎn)評文本自動(dòng)構(gòu)建了地理實(shí)體“相鄰”關(guān)系的標(biāo)注語料,規(guī)模為10.6萬個(gè)文檔。文獻(xiàn)[15]使用維基百科自動(dòng)回標(biāo)技術(shù),建立了河流與水系的“流入”關(guān)系、郊區(qū)與城鎮(zhèn)的“組成”關(guān)系。然而,上述自動(dòng)構(gòu)建標(biāo)注語料的方法僅能建立指定類型的關(guān)系標(biāo)注語料。當(dāng)建立新類型的關(guān)系標(biāo)注語料時(shí),仍需一定的手工勞動(dòng),難以快速適應(yīng)地理實(shí)體關(guān)系的多樣性。此外,以空間本體為知識庫的弱監(jiān)督學(xué)習(xí)算法也備受關(guān)注。文獻(xiàn)[16]通過手動(dòng)建立空間本體,成功抽取了地理實(shí)體之間的拓?fù)浜头轿魂P(guān)系。相比自動(dòng)生成大規(guī)模標(biāo)注語料的方法,空間本體更容易擴(kuò)展到新類型的地理實(shí)體關(guān)系抽??;然而該方法不能識別出一對地理實(shí)體之間的多種關(guān)系。

目前,業(yè)界尚未開展開放式地理實(shí)體關(guān)系抽取無監(jiān)督機(jī)器學(xué)習(xí)方法研究,而在關(guān)系抽取領(lǐng)域已有大量的無監(jiān)督機(jī)器學(xué)習(xí)研究成果。其中,頻率統(tǒng)計(jì)[17-18]是一種廣泛應(yīng)用于無監(jiān)督關(guān)系抽取的重要技術(shù),其核心思想是通過統(tǒng)計(jì)詞語頻數(shù)反映詞語重要性,并選擇權(quán)值最大的詞語作為關(guān)系名稱。然而,頻率統(tǒng)計(jì)方法要求表征關(guān)系的詞語頻繁出現(xiàn),難以適用于稀疏分布的地理實(shí)體關(guān)系實(shí)例。

2 方 法

地理實(shí)體關(guān)系抽取過程包含:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理和數(shù)學(xué)計(jì)算,如圖1所示。下文將重點(diǎn)闡述數(shù)學(xué)計(jì)算子過程。

圖1 地理實(shí)體關(guān)系抽取流程Fig.1 Flowchart of geo-entity relation extraction

2.1任務(wù)定義

本文研究范圍僅限于抽取一個(gè)句子中共現(xiàn)的兩個(gè)地理實(shí)體之間的空間關(guān)系詞語和語義關(guān)系詞語,且關(guān)系詞語存在于句中,即顯式表達(dá)的二元地理實(shí)體關(guān)系。針對一個(gè)句子中共現(xiàn)的兩個(gè)地理實(shí)體(e1, e2);從所在的句中提取詞語組成一個(gè)語境s,并過濾停用詞“了”、“的”等。關(guān)鍵詞抽取即是從集合s中選擇一個(gè)詞語k,使得k能表達(dá)一種空間關(guān)系或者語義關(guān)系。

semanticrelation=(e1,k,e2)

(1)

semanticrelation=(e1,d,k,m,e2)

(2)

式(1)將語義關(guān)系實(shí)例作為屬性表達(dá)式,用于描述地理實(shí)體指定類型的屬性值。式(2)將空間關(guān)系實(shí)例作為位置表達(dá)式,用于描述一個(gè)地理實(shí)體相對于參考地理實(shí)體的空間位置。分析文本發(fā)現(xiàn),空間關(guān)系表達(dá)習(xí)慣于同時(shí)使用方位和拓?fù)湓~語(“天津東臨渤?!?,或者同時(shí)使用方位、行為和度量詞語(“西子灣距高雄市中心車程約20分鐘”)。因此,式(2)中d表示方位詞語(“東”、“中心”),m表示度量詞語(“20分鐘”)。

2.2特征選擇

本文借鑒實(shí)體關(guān)系抽取和關(guān)鍵詞提取方法,探索自然語言表達(dá)的地理實(shí)體關(guān)系文本在“詞性”、“位置”、“長度”和“距離”方面的規(guī)律,為下文地理實(shí)體關(guān)系抽取提供先驗(yàn)知識。

(1) 詞性POS(名詞、動(dòng)詞、介詞或者其他)。

(2) 位置LOC(e1的左邊,e1和e2中間,e2的右邊)。

(3) 左邊有連詞或者介詞時(shí)的位置LCCP(e1的左邊,e1和e2中間,e2的右邊)。

(4) 到e1的距離DIS(e1)。

(5) 到句尾的距離DIS(e2)。

(6) 長度LEN,以字為單位。

(7)e1到e2的距離DIS(e1,e2),以詞語為單位。

考慮到文本數(shù)量龐大且構(gòu)建標(biāo)注語料的成本太高,本文使用bootstrapping技術(shù)[19]分析上述7個(gè)特征。bootstrapping的原理是通過隨機(jī)重采樣,利用小樣本來推測總體的統(tǒng)計(jì)量;當(dāng)樣本規(guī)模足夠大時(shí),基于樣本的統(tǒng)計(jì)結(jié)果即可代表總體的水平。首先,隨機(jī)排列句子,利用等間距抽樣的方法選擇100個(gè)句子;然后,手工標(biāo)注每個(gè)句子的關(guān)系詞語,形成標(biāo)注語料;最后,從標(biāo)注語料中隨機(jī)采樣形成一個(gè)等規(guī)模的新樣本。該過程重復(fù)多次(10 000次)得到一個(gè)大規(guī)模的樣本集合,統(tǒng)計(jì)每個(gè)樣本中上述7個(gè)特征的值,計(jì)算出各項(xiàng)特征的均值。

統(tǒng)計(jì)結(jié)果如表1、表2所示,得到如下規(guī)律:①15%的句子不存在地理實(shí)體關(guān)系,超過半數(shù)的關(guān)系詞為名詞,余下的為動(dòng)詞和介詞;②沒有關(guān)系詞位于e1的左邊,大多數(shù)都位于e2的右邊;③當(dāng)關(guān)系詞的左邊存在連詞或者介詞時(shí),94.16%的關(guān)系詞位于e2的右邊;④關(guān)系詞到e1的距離為1的比例最大;⑤關(guān)系詞位于句尾的比例最大;⑥關(guān)系詞遠(yuǎn)離地理實(shí)體e2的概率最高;⑦名詞長度至少為2個(gè)字,且跨度較大;⑧當(dāng)存在關(guān)系詞時(shí),兩個(gè)地理實(shí)體之間的距離不超過6個(gè)詞語。

與現(xiàn)有方法中獲取的詞法和句法規(guī)則不同[20],上述規(guī)律不是直接用于模式匹配,而是輔助數(shù)據(jù)預(yù)處理并將在2.3節(jié)使用統(tǒng)計(jì)學(xué)方法將其定量化表達(dá),以指導(dǎo)地理實(shí)體關(guān)系抽取。同時(shí),這些規(guī)律不是某個(gè)文本的變換形式,而是真實(shí)數(shù)據(jù)直觀反映出的人們對關(guān)系表達(dá)的普遍認(rèn)知??紤]到語言的地域、文化和認(rèn)知差異性,bootstrapping方法針對不同體裁、風(fēng)格的文本獲取規(guī)律的取值范圍將發(fā)生變化。

表1 特征的平均比例

表2 特征的平均取值范圍

2.3關(guān)鍵詞提取

基于bootstrapping方法得到的統(tǒng)計(jì)結(jié)果,本文引入詞語的詞性、位置和距離的重要性,設(shè)計(jì)關(guān)鍵詞提取方法,如式(3)—(6)。針對詞語i,wgti表示在詞性、位置、距離影響下的重要性。POSi、locationi、distancei分別表示詞性、位置、距離重要性。Ii、Ie1、Ie2、Iccp分別表示詞語i、地理實(shí)體e1和e2、連詞或者介詞在句中的索引,Len表示句子長度。對于每一對地理實(shí)體(e1,e2),使用式(3)從語境s中選擇一個(gè)重要程度最高的詞語k,作為表達(dá)地理實(shí)體關(guān)系的關(guān)鍵詞。公式中數(shù)字來源于2.2節(jié)的統(tǒng)計(jì)結(jié)果,如式(4)中0.56表示樣本中有56%的關(guān)系詞是名詞。這些數(shù)字不是人為設(shè)定的固定值,會隨著數(shù)據(jù)變化而變化。

wgti=(wgt(POSi)+wgt(locationi)+

wgt(distancei))/3

(3)

(4)

(5)

wgt(distancei)=

(6)

2.4關(guān)系實(shí)例構(gòu)建

將每一對地理實(shí)體(e1,e2)和它的關(guān)鍵詞k代入式(1)組成語義關(guān)系實(shí)例(e1,k,e2)。然而,本文僅為一對地理實(shí)體提取一個(gè)關(guān)鍵詞,不能完整地描述空間關(guān)系實(shí)例(e1,d,k,m,e2)。具體地,方位詞語d受到分詞結(jié)果的影響:若d和拓?fù)湓~被劃分成一個(gè)整體(“東鄰”),則提取的關(guān)鍵詞既蘊(yùn)含方位關(guān)系又包含拓?fù)潢P(guān)系;若d和拓?fù)湓~被劃分成兩個(gè)部分(“東”和“鄰”),則提取的關(guān)鍵詞僅表達(dá)方位關(guān)系。同時(shí),度量詞語m通過預(yù)定義的規(guī)則來識別:①若句中存在數(shù)量詞(詞性為CD),且位于地理實(shí)體e2右邊x個(gè)窗口內(nèi)(取值為3),則保存該數(shù)量詞和單位(詞性為M)作為度量詞m;②默認(rèn)地關(guān)系表達(dá)式(1)和(2)中e1是主體,e2是客體,如果關(guān)鍵詞k位于e2右邊,則將e1設(shè)置為客體,e2設(shè)置為主體。

3 試 驗(yàn)

3.1試驗(yàn)數(shù)據(jù)

本文以新浪旅游的中國景點(diǎn)名稱作為地理實(shí)體的基礎(chǔ)地名,在百度百科中逐個(gè)獲取對應(yīng)的簡介或正文首段,使用Stanford CoreNLP進(jìn)行數(shù)據(jù)預(yù)處理(分段、分句、分詞、詞性標(biāo)注、地理實(shí)體識別),構(gòu)建了地理實(shí)體關(guān)系抽取的文本集合,數(shù)據(jù)分布如表3所示。

表3 不同階段的語料規(guī)模

3.2真值

本文使用bootstrapping技術(shù),基于少量的手工評價(jià)結(jié)果,自動(dòng)產(chǎn)生大規(guī)模的真值:首先,使用等間距隨機(jī)采樣法選擇100個(gè)句子(不包括特征選擇使用的句子),逐句標(biāo)注地理實(shí)體關(guān)系實(shí)例;然后,從標(biāo)注句子中隨機(jī)采樣形成一個(gè)等規(guī)模的新樣本,該過程重復(fù)10 000次,共產(chǎn)生10 000個(gè)樣本,作為評價(jià)結(jié)果質(zhì)量的標(biāo)注語料,每個(gè)語料的規(guī)模為100個(gè)句子。此外,本文將與經(jīng)典的3種頻率統(tǒng)計(jì)方法(Frequency、TF-IDF和PPMI)進(jìn)行質(zhì)量對比。

3.3評價(jià)指標(biāo)

本文結(jié)合地理實(shí)體關(guān)系抽取任務(wù)描述,定義精度和召回率如表4。Ri表示結(jié)果集i,G(unrel)i表示標(biāo)注語料i中不存在關(guān)系的實(shí)例,G(rel)i表示標(biāo)注語料i中存在關(guān)系的實(shí)例,每個(gè)標(biāo)注語料的精度和召回率計(jì)算如式(7),均值計(jì)算如式(8)。

表4 精度和召回率的定義

(7)

(8)

4 結(jié)果與討論

本文針對18 588對地理實(shí)體共抽取了27 012個(gè)關(guān)系實(shí)例,一對地理實(shí)體可擁有多種關(guān)系。4種方法的精度和召回率如圖2所示(本文方法表示為WFS)。試驗(yàn)結(jié)果顯示,本文方法的精度和召回率分別為80%和87.79%,比其他3種統(tǒng)計(jì)方法的均值分別提高了約5%和23%。

圖2 4種方法的精度和召回率的均值Fig.2 Means of precision and recall of four approaches

表5展示了百度百科詞條“海寧”的文本抽取地理實(shí)體關(guān)系的結(jié)果。其中,斜體表示根據(jù)句意表達(dá)的邏輯調(diào)整元素順序后的關(guān)系實(shí)例,黑體表示擴(kuò)展了度量詞后的空間關(guān)系實(shí)例。本文針對一個(gè)句子中共現(xiàn)的兩個(gè)地理實(shí)體僅提取一個(gè)關(guān)鍵詞。例如表5,若“東鄰”被劃分成一個(gè)詞語,則提取的關(guān)系詞為“東鄰”;否則提取的關(guān)系詞為“東”。為了避免分詞結(jié)果不一致導(dǎo)致的信息誤判,本文認(rèn)為上述的兩種關(guān)系抽取結(jié)果都是正確的。

表5 地理實(shí)體關(guān)系抽取的示例

據(jù)統(tǒng)計(jì),試驗(yàn)文本中97.63%的語境存在多個(gè)頻數(shù)最大的詞語。此時(shí),TF-IDF和PPMI僅與詞語在整個(gè)文本集合中的分布有關(guān),將賦予低頻詞語更大的權(quán)值;而Frequency恰好相反,將賦予高頻詞語更大的權(quán)值。因此對于分布稀疏的地理實(shí)體關(guān)系實(shí)例,單純地依靠頻率統(tǒng)計(jì)難以判斷詞語在句中的重要程度。本文基于自然語言描述的詞法特征,通過bootstrapping技術(shù)自動(dòng)引入詞語的詞性、位置和距離的重要性,提取關(guān)鍵詞作為描述地理實(shí)體關(guān)系的線索。對比Frequency、TF-IDF和PPMI 3種頻率統(tǒng)計(jì)方法,本文方法產(chǎn)生了更高質(zhì)量的關(guān)系實(shí)例。同時(shí),本文方法無須領(lǐng)域?qū)<抑R和大規(guī)模標(biāo)注語料,不限定地理實(shí)體關(guān)系的類型,僅需少量的標(biāo)注語料即可啟動(dòng)算法,能快速適應(yīng)新領(lǐng)域的地理實(shí)體關(guān)系抽取需求。

然而,本文抽取的地理實(shí)體關(guān)系實(shí)例中存在兩類錯(cuò)誤:①不存在關(guān)系的地理實(shí)體對提取出關(guān)系(FP);②存在關(guān)系的地理實(shí)體對提取出錯(cuò)誤的關(guān)系(FN)。針對上述兩類錯(cuò)誤,本文使用bootstrapping技術(shù)對結(jié)果集中10 000個(gè)標(biāo)注語料進(jìn)行統(tǒng)計(jì),結(jié)果如表6所示。FP錯(cuò)誤可分為4種情況:①是地理實(shí)體對之間不存在關(guān)系,本文方法僅能通過語境為空或者地理實(shí)體之間的距離大于6個(gè)詞語判斷不存在關(guān)系,尚未深入到句意理解層次;②是不能識別隱式的地理實(shí)體關(guān)系,本文的研究范圍僅限于明確提及關(guān)鍵詞的顯式地理實(shí)體關(guān)系抽取;③和④均是由文本預(yù)處理帶來的級聯(lián)錯(cuò)誤。FN錯(cuò)誤可分為6種情況:①是當(dāng)關(guān)系詞語(“進(jìn)入”)作為謂語且存在多個(gè)狀語修飾詞(“間或”“蜿蜒”),長距離的影響增大了狀語修飾詞的權(quán)值,無法準(zhǔn)確提取出謂語關(guān)系詞;②是當(dāng)多個(gè)地理實(shí)體按照行政級別順次排列(“中國”“云南省”“麗江市”),僅僅依靠詞語本身的特征尚不能準(zhǔn)確識別出嵌套地理實(shí)體之間復(fù)雜的空間關(guān)系;③是當(dāng)多個(gè)詞語組成一個(gè)復(fù)雜的關(guān)系描述,單個(gè)關(guān)鍵詞語無法概括完整的語義;④—⑥均是由文本預(yù)處理帶來的級聯(lián)錯(cuò)誤。

綜上所述,本文針對顯式表達(dá)的地理實(shí)體關(guān)系,僅考慮了詞法特征,尚未深入到句法分析和語義理解層次。同時(shí),本文未考慮中文分詞、詞性標(biāo)注、地理實(shí)體識別、指代消解等環(huán)節(jié)帶來的級聯(lián)錯(cuò)誤,文本預(yù)處理的質(zhì)量有待提高;且本文僅使用百度百科進(jìn)行試驗(yàn),語料的規(guī)模和多樣性有待進(jìn)一步擴(kuò)展。此外,本文產(chǎn)生的27 012個(gè)關(guān)系實(shí)例共有9148種關(guān)系類型,存在大量語義相似但描述不同的關(guān)系,例如“位于”“處于”“在”“地處”“坐落”均表達(dá)同一種空間關(guān)系。本文研究的關(guān)鍵詞提取方法是語義聚類的基礎(chǔ),下一步將研究語義聚類問題,以減少關(guān)系實(shí)例表達(dá)的冗余,為地理實(shí)體高動(dòng)態(tài)信息的增量更新提供基礎(chǔ)數(shù)據(jù)。

表6 錯(cuò)誤分析

5 結(jié) 論

本文研究了開放式地理實(shí)體關(guān)系抽取中的關(guān)鍵詞提取方法。通過bootstrapping技術(shù)驗(yàn)證了本文的關(guān)鍵詞提取方法在精度和召回率上均優(yōu)于3種經(jīng)典的頻率統(tǒng)計(jì)方法。同時(shí),本文方法無須領(lǐng)域?qū)<抑R和大規(guī)模標(biāo)注語料,不限定地理實(shí)體關(guān)系的類型,具有潛在的領(lǐng)域移植性。在后續(xù)的工作中,需要加入不同領(lǐng)域、體裁、規(guī)模的文本擴(kuò)充試驗(yàn),以驗(yàn)證方法的可移植性;同時(shí)需要研究語義聚類技術(shù),以降低地理實(shí)體關(guān)系實(shí)例的冗余性。

[1]陸鋒, 張恒才. 大數(shù)據(jù)與廣義GIS[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2014, 39(6): 645-654.

LU Feng, ZHANG Hengcai. Big Data and Generalized GIS[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 645-654.

[2]劉紀(jì)平, 栗斌, 石麗紅, 等. 一種本體驅(qū)動(dòng)的地理空間事件相關(guān)信息自動(dòng)檢索方法[J]. 測繪學(xué)報(bào), 2011, 40(4): 502-508.

LIU Jiping, LI Bin, SHI Lihong, et al. An Automated Retrieval Method of Geo-spatial Event Information Based on Ontology[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(4): 502-508.

[3]張春菊. 面向中文文本的事件時(shí)空與屬性信息解析方法研究[J]. 測繪學(xué)報(bào), 2015, 44(5): 590. DOI: 10.11947/j.AGCS.2015.20140657.

ZHANG Chunju. Interpretation of Event Spatio-temporal and Attribute Information in Chinese Text[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(5): 590. DOI: 10.11947/j.AGCS.2015.20140657.

[4]張恒才, 陸鋒, 陳潔. 微博客蘊(yùn)含交通信息的提取[J]. 中國圖象圖形學(xué)報(bào), 2013, 18(1): 123-129.

ZHANG Hengcai, LU Feng, CHEN Jie. Extracting Traffic Information from Massive Micro-blog Messages[J]. Journal of Image and Graphics, 2013, 18(1): 123-129.

[5]JONES C B, PURVES R S, CLOUGH P D, et al. Modelling Vague Places with Knowledge from the Web[J]. International Journal of Geographical Information Science, 2008, 22(10): 1045-1065.

[6]JONES C B, PURVES R S. Geographical Information Retrieval[J]. International Journal of Geographical Information Science, 2008, 22(3): 219-228.

[7]趙軍, 劉康, 周光有, 等. 開放式文本信息抽取[J]. 中文信息學(xué)報(bào), 2011, 25(6): 98-110.

ZHAO Jun, LIU Kang, ZHOU Guangyou, et al. Open Information Extraction[J]. Journal of Chinese Information Processing, 2011, 25(6): 98-110.

[8]楊博, 蔡東風(fēng), 楊華. 開放式信息抽取研究進(jìn)展[J]. 中文信息學(xué)報(bào), 2014, 28(4): 1-11, 36.YANG Bo, CAI Dongfeng, YANG Hua. Progress in Open Information Extraction[J]. Journal of Chinese Information Processing, 2014, 28(4): 1-11, 36.

[9]張雪英, 張春菊, 朱少楠. 中文文本的地理空間關(guān)系標(biāo)注[J]. 測繪學(xué)報(bào), 2012, 41(3): 468-474.ZHANG Xueying, ZHANG Chunju, ZHU Shaonan. Annotation for Geographical Spatial Relations in Chinese Text[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(3): 468-474.

[10]SCHOCKAERT S, SMART P D, ABDELMOTY A I, et al. Mining Topological Relations from the Web[C]∥Proceedings of the 19th International Workshop on Database and Expert Systems Application. Turin: IEEE, 2008: 652-656.

[11]CAO Cungen, WANG Shi, JIANG Lin. A Practical Approach to Extracting Names of Geographical Entities and Their Relations from the Web[C]∥Proceedings of the 7th International Conference on Knowledge Science, Engineering and Management. Switzerland: Springer, 2014: 210-221.

[12]ELIA A, GUGLIELMO D, MAISTO A, et al. A Linguistic-based Method for Automatically Extracting Spatial Relations from Large Non-structured Data[C]∥Proceedings of the 13th International Conference on Algorithms and Architectures for Parallel Processing. Switzerland: Springer, 2013: 193-200.

[13]ZHU Shaonan, ZHANG Xueying, ZHANG Chunju. Syntactic Pattern Recognition of Geospatial Relations Described in Natural Language[C]∥Proceedings of the 2010 International Conference on Broadcast Technology and Multimedia Communication. New York: IEEE, 2010: 354-357.

[14]WALLGRüN J O, KLIPPEL A, BALDWIN T. Building a Corpus of Spatial Relational Expressions Extracted from Web Documents[C]∥Proceedings of the 8th Workshop on Geographic Information Retrieval. New York: ACM, 2014.

[15]BLESSING A, SCHüTZE H. Fine-grained Geographical Relation Extraction from Wikipedia[C]∥Proceedings of the 7th International Conference on Language Resources and Evaluation. Valletta: LREC, 2010.

[16]LOGLISCI C, IENCO D, ROCHE M, et al. Toward Geographic Information Harvesting: Extraction of Spatial Relational Facts from Web Documents[C]∥Proceedings of the 2012 IEEE 12th International Conference on Data Mining Workshops. Brussels: IEEE, 2012: 789-796.

[17]MORO A, NAVIGLI R. Integrating Syntactic and Semantic Analysis into the Open Information Extraction Paradigm[C]∥Proceedings of the 23rd International Joint Conference on Artificial Intelligence. Beijing: [s.n.], 2013: 2148-2154.

[18]LIU Zhiyuan, CHEN Xinxiong, ZHENG Yabin, et al. Automatic Keyphrase Extraction by Bridging Vocabulary Gap[C]∥Proceedings of the 15th Conference on Computational Natural Language Learning. Stroudsburg: Association for Computational Linguistics, 2011: 135-144.

[19]ABNEY S P. Bootstrapping[C]∥Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002: 360-367.

[20]鄧敏, 徐銳, 李志林, 等. 空間查詢中自然語言空間關(guān)系與度量空間關(guān)系的轉(zhuǎn)換方法研究: 以面目標(biāo)為例[J]. 測繪學(xué)報(bào), 2009, 38(6): 527-531.

DENG Min, XU Rui, LI Zhilin, et al. A Spatial-query-driven Transformation between Metric Spatial Relations and Natural Language Spatial Relations: Taking Regions as Example[J]. Acta Geodaetica et Cartographica Sinica, 2009, 38(6): 527-531.

(責(zé)任編輯:宋啟凡)

YU Li (1986—), female, PhD candidate, majors in spatial information mining in internet.

A Bootstrapping Based Approach for Open Geo-entity Relation Extraction

YU Li1,2,LU Feng1,3,LIU Xiliang1

1. State Key Lab of Resources and Environmental Information System, The Institute of Geographic Sciences and Natural Resources Research, Beijing 100101, China; 2. University of Chinese Academy of Sciences, Beijing 100101, China; 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China

Extracting spatial relations and semantic relations between two geo-entities from Web texts, asks robust and effective solutions. This paper puts forward a novel approach: firstly, the characteristics of terms (part-of-speech, position and distance) are analyzed by means of bootstrapping. Secondly, the weight of each term is calculated and the keyword is picked out as the clue of geo-entity relations. Thirdly, the geo-entity pairs and their keywords are organized into structured information. Finally, an experiment is conducted with Baidubaike and Stanford CoreNLP. The study shows that the presented method can automatically explore part of the lexical features and find additional relational terms which neither the domain expert knowledge nor large scale corpora need. Moreover, compared with three classical frequency statistics methods, namely Frequency, TF-IDF and PPMI, the precision and recall are improved about 5% and 23% respectively.

text mining; geo-entities; relation extraction; quantitative evaluation; bootstrapping

2015-04-07

2016-02-02

余麗(1986—),女,博士生,研究方向?yàn)榛ヂ?lián)網(wǎng)空間信息搜索。

E-mail: yul@lreis.ac.cn

陸鋒

LU Feng

E-mail: luf@lreis.ac.cn

10.11947/j.AGCS.2016.20150181.

YU Li,LU Feng,LIU Xiliang.A Bootstrapping Based Approach for Open Geo-entity Relation Extraction[J]. Acta Geodaetica et Cartographica Sinica,2016,45(5):616-622. DOI:10.11947/j.AGCS.2016.20150181.

P208

A

1001-1595(2016)05-0616-07

國家自然科學(xué)基金(41271408);國家863計(jì)劃(2013AA120305)

引文格式:余麗,陸鋒,劉希亮.開放式地理實(shí)體關(guān)系抽取的Bootstrapping方法[J].測繪學(xué)報(bào),2016,45(5):616-622.

猜你喜歡
語料實(shí)例實(shí)體
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
完形填空Ⅱ
完形填空Ⅰ
伽师县| 淄博市| 小金县| 尉氏县| 天津市| 德庆县| 赞皇县| 安丘市| 子洲县| 陕西省| 平陆县| 翁源县| 剑河县| 花莲县| 鄂温| 大英县| 邓州市| 荆门市| 定南县| 无棣县| 会昌县| 宁蒗| 确山县| 晋城| 自贡市| 东辽县| 灵武市| 溆浦县| 阿合奇县| 沁阳市| 澜沧| 池州市| 汉川市| 达州市| 甘孜县| 晋宁县| 杨浦区| 石狮市| 东辽县| 出国| 三台县|