国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于條件隨機(jī)場的人物信息抽取

2016-03-25 17:40鄭軼?k
關(guān)鍵詞:人物

鄭軼?k

摘要:近年來,信息抽取成為自然語言處理的一個(gè)熱點(diǎn),同時(shí)也是難點(diǎn)。針對不同的問題,大家提出了不同的方法,而大多數(shù)的方法是基于啟發(fā)式規(guī)則或者抽象成分類問題,本文將從人物百科中抽取人物信息看成是一個(gè)序列標(biāo)注的問題,利用條件隨機(jī)場對生語料進(jìn)行序列標(biāo)注。此外,文中詳細(xì)介紹數(shù)據(jù)分析的方法以及特征選取方法,所提出的方法直接從生語料中抽取,節(jié)省了大部分方法的數(shù)據(jù)預(yù)處理部分,同時(shí)避開了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了兩組對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本方法能夠非常準(zhǔn)確地從HTML生語料中抽取出人物信息。

關(guān)鍵詞:CRFs;人物;人物信息;信息抽取

中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:A

1引言

隨著互聯(lián)網(wǎng)的不斷發(fā)展,每天網(wǎng)絡(luò)中產(chǎn)生的信息越來越多,各種信息也呈爆炸式增長。而如何有效的從網(wǎng)絡(luò)中抽取出我們感興趣的信息,則顯得非常重要了。

傳統(tǒng)的信息抽取方法一般來說分為兩類:基于無監(jiān)督的啟發(fā)式規(guī)則進(jìn)行抽取,和基于機(jī)器學(xué)習(xí)方法進(jìn)行有監(jiān)督的信息抽取。其過程一般是定義一個(gè)清晰的信息抽取需求,然后分析所要處理語料的數(shù)據(jù)格式,再選擇合適的方法進(jìn)行信息抽取。

為了從大規(guī)模的信息中抽取出所需要的信息,以及促進(jìn)信息抽取的發(fā)展,美國華盛頓大學(xué)圖靈中心(University of Washington Turing Center)提出開放信息抽?。∣pen Information Extraction),這一理念也被稱為“新型抽取范式”的一種知識抽取方法[1]。

信息抽取系統(tǒng)的發(fā)展主要經(jīng)歷了幾個(gè)階段,每一個(gè)階段都有其典型的系統(tǒng),例如TEXTRUNNER系統(tǒng)[2]、REVERB系統(tǒng)[3]、R2A2系統(tǒng)[5]等。其中TEXTRUNNER系統(tǒng)是最早的開放信息抽取系統(tǒng),主要通過自監(jiān)督的學(xué)習(xí)器、信息抽取器和基于重復(fù)信息的評價(jià)器三個(gè)部分來進(jìn)行信息抽取,其相比之前出現(xiàn)的KNOWITALL系統(tǒng),錯(cuò)誤率降低了30%[4]。但是EXTRUNNER有其自身的問題,首先是其抽取出的信息有些是無意義的,第二由于其light verb construction的現(xiàn)象導(dǎo)致丟失了關(guān)鍵信息。在此基礎(chǔ)上出現(xiàn)了REVERB系統(tǒng),它的主要原理是以動(dòng)詞作為句子的核心抽取標(biāo)記,增加語法限制和詞匯限制,通過一定量的訓(xùn)練語料發(fā)現(xiàn)信息抽取模式并進(jìn)行泛化[5],其抽取效果較好,但是明顯的缺點(diǎn)是重動(dòng)詞輕其他詞性,如以名詞作為中心詞的關(guān)系就抽取不出,而名詞作為中心詞在語言現(xiàn)象中出現(xiàn)的情況也屬常見,同時(shí)其論元的確定有寫也是錯(cuò)誤的。這兩類信息抽取方法都是依據(jù)簡單的啟發(fā)式規(guī)則或簡單論元進(jìn)行,不能適合大部分的復(fù)雜的語言語境,而后面出現(xiàn)的R2A2增加了論元識別器,即ARGLEARNER,目的是識別每一個(gè)Arg1和Arg2的左右邊界,原理是采用REPTree和條件隨機(jī)場以及正則表達(dá)式等技術(shù)進(jìn)行語法監(jiān)測,其準(zhǔn)確率和召回率較前面的系統(tǒng)都有顯著的提升。

信息抽取的很重要的過程是分析數(shù)據(jù)文本,對指定信息進(jìn)行定義,并發(fā)現(xiàn)其特征。本文借鑒了前面采用的信息抽取技術(shù),并針對本文應(yīng)用的百科數(shù)據(jù)進(jìn)行分析,重點(diǎn)在于信息定義以及分析數(shù)據(jù)中信息特征,進(jìn)行信息識別及抽取的過程,提出了基于條件隨機(jī)場的信息抽取方法。

3基于條件隨機(jī)場的人物信息抽取

本文的主要內(nèi)容是做網(wǎng)頁信息的序列標(biāo)注,所以這里本文采用CRF++開源工具包作為本文的分類器。CRF++工具包提供了兩類特征接口,一類是Unigram特征,一類是Bigram特征,其不同點(diǎn)在于生成特征時(shí),包不包含前面一個(gè)輸出,顧名思義,Bigram是包含的,因此其能產(chǎn)生較多的特征,但同時(shí)效率也較低。

3.1數(shù)據(jù)分析

本文采用的數(shù)據(jù)語料是從網(wǎng)絡(luò)中爬取的歷史人物百科信息。該語料的特點(diǎn)是數(shù)據(jù)完全是原始的HTML數(shù)據(jù),也正是因?yàn)槿绱耍瑪?shù)據(jù)中包含了大量的HTML標(biāo)簽和大量的對識別無意義的標(biāo)識符。因此如何從生語料中分析出有價(jià)值信息就顯得格外重要。

經(jīng)過仔細(xì)分析數(shù)據(jù)特點(diǎn),我們發(fā)現(xiàn)對于人物百科HTML源碼,人物簡介部分,和人物介紹部分的HTML標(biāo)簽并不固定,是會(huì)變化的。而且部分內(nèi)容會(huì)以圖片連接的形式加入到HTML中,所以對于這些特殊情況,我們要對數(shù)據(jù)進(jìn)行預(yù)處理。

3.2序列標(biāo)注

從網(wǎng)頁源代碼中抽取人物信息的過程可以看成是序列標(biāo)注的過程,即識別出HTML源中哪些部分是我們需要的語句塊,對于語句塊的序列標(biāo)注具有多種表示方法,較常見的是IOB表示法和start/end表示法[7]。

IBO表示方法又可以分為IOB1,IOB2,IOE1和IOE2等四種。IOB1最早在[8]中提出,后來[9]在IOB1上進(jìn)行改進(jìn),提出了其他幾種方法。但是其本質(zhì)是相同的。表示如下:

B代表當(dāng)前元素是一個(gè)組塊的開始。

I 代表當(dāng)前元素是一個(gè)組塊的內(nèi)部元素。

E代表當(dāng)前元素是一個(gè)組塊的結(jié)束。

O代表當(dāng)前元素不在任何一個(gè)組塊當(dāng)中。

start/end是另外一種表示方法,最早由[10]中提出。其表達(dá)內(nèi)容相比于IOB更加細(xì)致,共有I,O,E,B,S五種符號。其中BIEO表達(dá)的意思和上面一樣,而S代表當(dāng)前元素獨(dú)立成一個(gè)組塊。

本文采用start/end表示方法,將我們所需要標(biāo)注的訓(xùn)練語料和測試語料都用BIEOS的方式標(biāo)注。

3.3特征選擇

與以往進(jìn)行序列標(biāo)注的任務(wù)不同,我們的數(shù)據(jù)對象是HTML生文本,因此不需要進(jìn)行Parser等工作,如此對于特征選取的效率會(huì)有一定的提高,但是同時(shí)也提高了分析數(shù)據(jù)特征的困難程度。對傳統(tǒng)的文本進(jìn)行特征提取方式會(huì)提取句法結(jié)構(gòu)、詞性等自然語言元素,對于本課題的任務(wù),由于采用CRF++工具包作為分類器,本文采取以下特征模板:

Unigram:

1)div中每一個(gè)標(biāo)簽中間的句的句原型。因?yàn)闃?biāo)簽中句原型是該部分的最直接、最明顯的信息特征,因此這是第一個(gè)最重要的特征。

2)中句原型所對應(yīng)的HTML標(biāo)簽,沒有則為NULL。即該句原型是被什么HTML標(biāo)簽所包含,不同的HTML標(biāo)簽表達(dá)的信息不同,因此HTML標(biāo)簽可看作為該句的描述。

3)當(dāng)前標(biāo)簽前的class內(nèi)容(-1,-2,-3,-4),沒有則為NULL。其中-1表示當(dāng)前標(biāo)簽的前一個(gè)class的內(nèi)容,-2表示當(dāng)前標(biāo)簽的前兩個(gè)的class內(nèi)容,以此類推,該項(xiàng)共表達(dá)了4個(gè)特征。class在HTML中表達(dá)固定部分的信息,其對應(yīng)的是css樣式。如果前4個(gè)class都存在體現(xiàn)了標(biāo)簽間互相包含的層次關(guān)系。

4)當(dāng)前句的父class,沒有則為NULL。由于CRFs并不體現(xiàn)推理關(guān)系,也就是說各個(gè)特征之間在算法層面相互獨(dú)立,因此對于該特征與3中特征并不重復(fù),該特征體現(xiàn)當(dāng)前句是包含在哪個(gè)class中,對于當(dāng)前句具有識別作用。

5)當(dāng)前句后面的HTML標(biāo)簽(+1,+2,+3,+4),沒有則為NULL。其中,+1表示當(dāng)前句后第一個(gè)HTML標(biāo)簽,+2表示當(dāng)前句后第二個(gè)HTML標(biāo)簽,以此類推,該項(xiàng)共表達(dá)了4個(gè)特征。由于部分HTML標(biāo)簽有結(jié)束標(biāo)記,部分HTML標(biāo)簽沒有結(jié)束標(biāo)記,因此用該特征來標(biāo)記當(dāng)前句的HTML信息。

6)當(dāng)前句距離本

的距離歸一化值。用來標(biāo)記當(dāng)前詞的位置信息,位置對于序列標(biāo)注具有重要的作用,而為了統(tǒng)一標(biāo)準(zhǔn),這里對其進(jìn)行歸一化處理。

Bigram:

1)class內(nèi)容-4/ class內(nèi)容-3/ class內(nèi)容-2/ class內(nèi)容-1。也即Unigram中的特征3中的4個(gè)特征的組合特征,組合特征會(huì)產(chǎn)生更豐富的信息,有利于序列標(biāo)注的準(zhǔn)確性。

2)HTML標(biāo)簽+1/ HTML標(biāo)簽+2/ HTML標(biāo)簽+3/ HTML標(biāo)簽+4。也即Unigram特征5中4個(gè)特征的組合特征。

4實(shí)驗(yàn)結(jié)果

根據(jù)上述標(biāo)注方法,本文標(biāo)注了3組不同數(shù)量的測試集,8組不同數(shù)量的訓(xùn)練集。

從表中我們可以看出,人物描述部分TITLE和CONTENT是一一對應(yīng)的。測試結(jié)果1:

第一,測試不同標(biāo)注數(shù)量的訓(xùn)練集對測試的影響。首先選定測試集為TEST1,當(dāng)訓(xùn)練集為TRAIN1TRAIN8時(shí)整體準(zhǔn)確率、召回率和F值的變化如下:

1)隨著標(biāo)注數(shù)量的增多,從標(biāo)注1200組數(shù)據(jù)到標(biāo)注2000組數(shù)據(jù)的過程中,整體的準(zhǔn)確率上升幅度非常大,說明標(biāo)注的數(shù)量對于整體的準(zhǔn)確率影響很大。

2)SUMMARY部分的準(zhǔn)確率一直處于100%狀態(tài),說明選取特征與實(shí)際HTML中的情況相對吻合,但由于召回率起始并不高,說明標(biāo)注語料覆蓋的程度較小。

3)TITLE和CONTENT部分的F值一直處于100%狀態(tài)。這一現(xiàn)象說明用于CRFs訓(xùn)練的特征與實(shí)際HTML中的TITLE、CONTENT部分的分布情況十分吻合,同時(shí)根據(jù)我們所選取的特征說明HTML源中該部分的HTML標(biāo)記相對規(guī)則。

測試結(jié)果2:

第二,測試使用標(biāo)注數(shù)量最大的訓(xùn)練集對相對大規(guī)模的網(wǎng)頁文本進(jìn)行抽取,統(tǒng)計(jì)其準(zhǔn)確度情況。

從表中我們可以看出:

1)隨著測試集的增多,使用同一訓(xùn)練集的召回率在不斷下降,說明所標(biāo)注的訓(xùn)練集的內(nèi)容并沒有覆蓋所有的實(shí)際情況。

2)盡管測試集數(shù)量從2000上升到10000SUMMARY、TITLE和CONTENT部分的準(zhǔn)確率始終保持在98%左右, 說明我們所選取的特征確實(shí)反映了實(shí)際HTML中的情況。

從上面的兩組結(jié)果我們可以看到,本文所提出的基于條件隨機(jī)場的人物信息抽取,對于百科文本具有十分良好的效果,其準(zhǔn)確率和召回率能夠滿足實(shí)際應(yīng)用的需要,信息抽取出的結(jié)果有利于下一步科研的進(jìn)行。后續(xù)工作我們還會(huì)繼續(xù)添加訓(xùn)練語料,以盡可能完整地覆蓋實(shí)際百科HTML中的實(shí)際情況。

5結(jié)論與展望

本文中,根據(jù)特定的任務(wù)分析出數(shù)據(jù)的特點(diǎn),有效地利用了人物百科HTML源中各個(gè)標(biāo)簽所起的作用,分析出能夠合理表示我們所需信息的特征及其組合。

以往的信息抽取或者利用啟發(fā)式規(guī)則進(jìn)行抽取,或者將其抽象成分類問題進(jìn)行抽取,本文將信息抽取看成是一個(gè)序列標(biāo)注問題進(jìn)行序列標(biāo)注,而不是抽取。在特征選擇的部分,拋開以往方法所用到的句法分析等耗時(shí)的步驟,直接從生語料中選取特征,一方面節(jié)省了大量的時(shí)間,另一方面減少了對生語料的處理步驟,從整體上講,大幅度的提高了信息抽取的效率。此外本文所提出的方法并不僅限于人物百科的抽取,同樣的方法可以應(yīng)用到其他對于HTML源的信息抽取任務(wù),提供了一種新穎的信息抽取思路。

信息抽取是當(dāng)前自然語言處理的熱點(diǎn)也是難點(diǎn),如何從每天產(chǎn)生的海量數(shù)據(jù)中抽取出我們所需要的、感興趣的信息,對于節(jié)省人力物力非常有意義,當(dāng)前的信息抽取一般采用基于啟發(fā)式規(guī)則和機(jī)器學(xué)習(xí)相結(jié)合的方法來進(jìn)行。但是大多是針對特定任務(wù)而提出的方法,并不具有通用性,因此如何提出一個(gè)普適的信息抽取方法將成為信息抽取發(fā)展的一個(gè)方向,這將為自然語言處理的發(fā)展,做出巨大的貢獻(xiàn)。

參考文獻(xiàn)

[1]張智雄,吳振新,劉建華,等. 當(dāng)前知識抽取的主要技術(shù)方法解析[J]. 現(xiàn)代圖書情報(bào)技術(shù),2008,08:2-11.

[2]Michele Banko, Michael J Cafarella, Stephen Scoderl, Matt Broadhead, Oren Etzioni. Open Iniformation Extraction from the Web[C]. In Proceedings of Conference on Arti_cial Intelligence, 2007:2670-2676

[3]Anthony Fader, Stephen Soderland, Oren Etzioni. Identifying Relations for Open Information Extraction[C]. In Proceedings of the Conference of Empirical Methods in Natural Language Processing, 2011

[4]SCHMITZ M,BART R,SODERLAND S,et al.Open language learning for information extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 523-534.

[5]ETZIONI O,F(xiàn)ADER A, CHRISTENSEN J, et al. Open information extraction: The second generation[C]//Proceedings of the Twenty-Second international joint conference on Artificial IntelligenceVolume Volume One. AAAI Press, 2011: 3-10.

[6]孫靜, 李軍輝, 周國棟. 基于條件隨機(jī)場的無監(jiān)督中文詞性標(biāo)注[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011, 28(4): 21-23.

[7]丁偉偉,常寶寶. 基于語義組塊分析的漢語語義角色標(biāo)注[J]. 中文信息學(xué)報(bào),2009,05:53-61+74.

[8]RAMSHAW L A,MARCUS M P.Text chunking using transformation based learning[C]//Proceedings of the 3rd Workshop on VeryLarge Corpora. 1995.

[9]SANG E F,KIM T J. Veenstra. Representing text chunks [C]//Proceedingsof the 38th Annual Meetingof the Association for Computational Linguistics, Hong Kong, China. 1999.

[10]UCHIMOTO K,MA Q,MURATA M,OZAKU H,ISAHARA H.Named Entity Extraction Based on A Maximum Entropy Model and Transformation Rules [C]// Proceedings of the 38thAnnual Meeting of the Association for Computational Linguistics, Hong Kong, China. 2000.

猜你喜歡
人物
戲曲人物表演藝術(shù)漫談
音樂劇《迷藏》中“方老師”一角的飾演體會(huì)
論紅色電影《英雄兒女》中的愛國情懷
南阳市| 资源县| 左云县| 石城县| 泗阳县| 水城县| 侯马市| 门源| 徐州市| 通渭县| 灯塔市| 新巴尔虎左旗| 商洛市| 霸州市| 太仓市| 七台河市| 泸州市| 榆林市| 壶关县| 大名县| 嘉义县| 渭南市| 永顺县| 长葛市| 顺昌县| 基隆市| 微山县| 连南| 久治县| 邓州市| 海淀区| 江永县| 灵台县| 泌阳县| 凉山| 海兴县| 栖霞市| 三明市| 台前县| 上杭县| 金山区|