姜偉
摘?要:新興媒體時(shí)代的發(fā)展使大量的信息涌入了我們的視線(xiàn)和大腦,廣大網(wǎng)名用戶(hù)在面對(duì)網(wǎng)上的信息時(shí)需要找尋符合自己的資料,在這種情況下,信息抽取發(fā)展起來(lái)了。國(guó)內(nèi)的信息抽取技術(shù)起步時(shí)間較短,又由于中文信息的復(fù)雜性,所以在中文信息抽取領(lǐng)域,此技術(shù)還不是特別的成熟。在本文中,作者對(duì)基于規(guī)則的中文人名抽取技術(shù)進(jìn)行了初步探索和研究。
關(guān)鍵詞:自然語(yǔ)言處理,信息抽取,命名實(shí)體識(shí)別,人名識(shí)別
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2012)10(a)-0065-02
1 有關(guān)背景
信息時(shí)代的發(fā)展,我們每天都會(huì)面臨大量的信息,不同的用戶(hù)接觸的信息雖然不同,但用戶(hù)都需要從這些大量的信息中抽取出自己感興趣和有實(shí)際用途的信息,信息抽取技術(shù)在這種情況下慢慢地發(fā)展了起來(lái)。目前,信息抽取的主要任務(wù)是將文字中大量的信息準(zhǔn)確地進(jìn)行分詞、識(shí)別、整理,提取出人和事的關(guān)鍵特征詞,組織成關(guān)鍵語(yǔ)句,方便于查詢(xún)檢索,提高檢索效率。在互聯(lián)網(wǎng)時(shí)代,信息抽取技術(shù)是信息檢索技術(shù)的技術(shù)支撐,它既可以提高檢索效率,又能準(zhǔn)確的抓取面對(duì)用戶(hù)有用的信息。例如,信息抽取系統(tǒng)可以從用戶(hù)感興趣的信息中分詞抽取出時(shí)間、地點(diǎn)、關(guān)鍵人物、原因等,將抽取結(jié)果保存在數(shù)據(jù)庫(kù)中,為用戶(hù)進(jìn)一步查詢(xún)和分析提供支持和幫助。 信息抽取的關(guān)鍵任務(wù)包括:命名實(shí)體識(shí)別、句法分析、篇章分析與推理、知識(shí)獲取等。
本文主要對(duì)基于規(guī)則的中文人名識(shí)別與抽取技術(shù)進(jìn)行了研究和實(shí)現(xiàn)。
2信息抽取的研究方式
目前,信息抽取主流的研究方式主要有三種:基于規(guī)則的、基于統(tǒng)計(jì)的和基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方式。
2.1 基于規(guī)則的抽取方式
基于規(guī)則的信息抽取是一個(gè)基于學(xué)習(xí)經(jīng)驗(yàn)和應(yīng)用的兩個(gè)階段過(guò)程:規(guī)則的確定和應(yīng)用確定的規(guī)則獲取用戶(hù)所需要的信息。信息的抽取的規(guī)則是建立在大量的學(xué)習(xí)經(jīng)驗(yàn)和既定的某一領(lǐng)域?qū)崿F(xiàn)的,在經(jīng)驗(yàn)學(xué)習(xí)的基礎(chǔ)上,確定漢語(yǔ)的語(yǔ)言結(jié)構(gòu)和常用文法結(jié)構(gòu),例如“名詞”+“動(dòng)詞”,“主語(yǔ)”+“謂語(yǔ)”等形式,在這些規(guī)則確立之后,將保存在信息庫(kù)中以備匹配。在語(yǔ)句經(jīng)過(guò)分詞后,將這分詞后的結(jié)構(gòu)語(yǔ)句和信息庫(kù)中的規(guī)則相匹配,確定分詞后的語(yǔ)句結(jié)構(gòu),再經(jīng)過(guò)句法分析、篇章分析、知識(shí)獲取之后,抽取出語(yǔ)句中的有用信息,抽取的任務(wù)就完成了。所以,基于的規(guī)則信息抽取,規(guī)則本身的正確與否是提取成功的關(guān)鍵。
2.2 基于統(tǒng)計(jì)的抽取方式
基于統(tǒng)計(jì)的信息抽取是目前比較常用中文信息抽取技術(shù),也是比較準(zhǔn)確和靈活的信息抽取技術(shù)。常用的統(tǒng)計(jì)模型有:馬爾科夫模型、隱馬爾科夫、最大熵模型等。其中,隱馬爾科夫模型已經(jīng)形成了比較健全的算法,具備較強(qiáng)的理論基礎(chǔ),很適合自然語(yǔ)言的處理。
2.3 基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方式
基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方式是一種比較理想的信息抽取技術(shù)?;谝?guī)則和基于統(tǒng)計(jì)的方法雖說(shuō)都有各自的優(yōu)點(diǎn),但是二者的缺點(diǎn)也不可避免。因此,專(zhuān)家提出了將二者結(jié)合起來(lái)的方法,二者混合方法通過(guò)啟發(fā)式規(guī)則可以減少識(shí)別問(wèn)題的復(fù)雜性,與此同時(shí),也通過(guò)統(tǒng)計(jì)模型增加系統(tǒng)的適應(yīng)性,并減少由于數(shù)據(jù)庫(kù)的不完全而帶來(lái)的負(fù)面影響。
2.4 其他方法
當(dāng)然,信息抽取發(fā)展這些年以來(lái),專(zhuān)家們也提出除了以上三種方法之外的其他方法。例如利用機(jī)器學(xué)習(xí)的方法,先建立學(xué)習(xí)模型,訓(xùn)練模型,再用訓(xùn)練的模型對(duì)真實(shí)文本進(jìn)行識(shí)別;還可以利用機(jī)器學(xué)習(xí)和其他統(tǒng)計(jì)模型相結(jié)合,或者多種機(jī)器學(xué)習(xí)的方法相結(jié)合來(lái)識(shí)別中文名等,這些方法各有優(yōu)缺點(diǎn),在此不再贅述。
以上是信息抽取中比較常見(jiàn)的研究方式,筆者只對(duì)基于規(guī)則的方式進(jìn)行了研究,其他方法在以后的學(xué)習(xí)和研究中會(huì)逐漸的深入下去。
3 基于規(guī)則的中文人名識(shí)別與抽取算法與實(shí)現(xiàn)
3.1 基于規(guī)則的信息抽取技術(shù)的階段
基于規(guī)則的信息抽取技術(shù)分為兩個(gè)階段:規(guī)則的確定和規(guī)則的應(yīng)用,其中,規(guī)則的確定是此項(xiàng)技術(shù)的關(guān)鍵。規(guī)則提取的起步階段,研究人員大多采用人工編制規(guī)則的方法,由于人工編制規(guī)則準(zhǔn)確度較高,所以在起始階段,此規(guī)則得到了廣泛的應(yīng)用。但是,這種規(guī)則提取的方式也有很多弊端。首先,這種規(guī)則的提取工作由于牽扯到大量的自然語(yǔ)言處理知識(shí)和專(zhuān)業(yè)的領(lǐng)域知識(shí),所以只能是具有很精熟的專(zhuān)業(yè)知識(shí)的人才才能做好,這對(duì)人才的獲取就提出了很大的挑戰(zhàn);其次,在規(guī)則提取和編制過(guò)程中,由于面對(duì)的是大量的文字信息,所以這個(gè)過(guò)程是比較費(fèi)時(shí)、費(fèi)力、耗神、枯燥,規(guī)則的提取容易出錯(cuò),從事規(guī)則提取的工作人員成本較高,提高了開(kāi)發(fā)的技術(shù)成本。另外,手工提取規(guī)則的信息庫(kù)比較窄,人力不可能把所有的領(lǐng)域文字信息、所有的語(yǔ)言規(guī)則都提取出來(lái),這是不現(xiàn)實(shí)的,所以,手工提取規(guī)則有其片面性和局限性,覆蓋面較低,系統(tǒng)的可移植性較差。因而在不斷的總結(jié)經(jīng)驗(yàn)和摸索下,自動(dòng)地獲取規(guī)則逐漸成為受開(kāi)發(fā)人員歡迎的技術(shù),也逐漸成為一個(gè)較為普遍的研究課題。
規(guī)則的自動(dòng)提取是從未被標(biāo)注的文本信息中學(xué)習(xí)和提取規(guī)則,基本不需要專(zhuān)業(yè)的領(lǐng)域知識(shí),基本不需要手工參與,避免了大量的工作和枯燥性,這樣便降低了開(kāi)發(fā)的人力成本,可移植性很好,普遍性更強(qiáng)。
但是,由于起步時(shí)間較晚,且漢語(yǔ)語(yǔ)法規(guī)則的特殊性和復(fù)雜性遠(yuǎn)遠(yuǎn)超過(guò)英文,所以目前對(duì)中文信息抽取規(guī)則提取方法的研究并不是特別多。由于漢語(yǔ)的特異性,英文規(guī)則提取技術(shù)并不能照搬應(yīng)用,所以需要研究新的提取方法。
3.2本文采用的規(guī)則提取算法
本文提供的算法是從信息中提取出人名。
信息數(shù)據(jù)庫(kù)中已經(jīng)保存了常用人名的姓氏和名字,供依據(jù)規(guī)則使用。
所提取的規(guī)則如下:人名:<姓氏>+<名字>
具體的算法描述如下:
步驟1:從標(biāo)注的語(yǔ)料信息中輸入一個(gè)實(shí)例。
步驟2:對(duì)文本進(jìn)行分詞、詞性標(biāo)注。
步驟3:對(duì)分詞后的文本進(jìn)行從左到右的掃描,查找姓氏。姓氏是識(shí)別姓名的觸發(fā)條件。若查到姓氏,則轉(zhuǎn)到步驟4;否則,轉(zhuǎn)到步驟6
步驟4:再向右掃描一個(gè)字,若所掃描到的字是信息庫(kù)中的名字,則抽取出姓氏和名字,轉(zhuǎn)到步驟6;若不是信息庫(kù)中的名字,則轉(zhuǎn)到步驟5。
步驟5:再向右掃描一個(gè)字。若連續(xù)掃描的兩個(gè)字為信息庫(kù)中的名字,則抽取出姓氏和名字。
步驟6:繼續(xù)對(duì)文本進(jìn)行從左到右的掃描,若查找到姓氏,則返回步驟4。
步驟7:直至文本信息結(jié)束,掃描結(jié)束,輸出抽取的名字。
本文所采取的算法可以抽取出人名結(jié)構(gòu)僅為<姓氏>+<名字>,在實(shí)際抽取中肯定有很大的局限性。因?yàn)槿嗣慕Y(jié)構(gòu)有很多種形式。主要可分為兩大類(lèi):
1)完整形式:即“姓氏+名字”的結(jié)構(gòu),其中姓氏里包含單姓和復(fù)姓,名字包含單字和雙字。
2)不完整形式:這又可分為5類(lèi):(1)前綴+姓氏,例如:小姜、老劉;(2)姓氏+后綴,例如:李總、張總、陳老;(3)姓氏+稱(chēng)謂詞,例如:劉老師、陳市長(zhǎng),王先生;(4)有姓無(wú)名,例如:張來(lái)到王家后就當(dāng)自家,從不客氣;(5)有名無(wú)姓,例如:政治文件中的錦濤同志。
另外,人名內(nèi)部可能組成一個(gè)詞。即姓氏與名字,或者名字與名字組成詞語(yǔ),例如:張國(guó)立,賀國(guó)強(qiáng),汪洋。人名首部也可能與其上文,人名尾部可能與其下文組合成詞語(yǔ),例如:有一次開(kāi)會(huì),馬化騰坐在李彥宏和馬云中間,韓寒冷不丁的寫(xiě)了一篇文章,鄧小平等同志等。在這些復(fù)雜的情況下,需要進(jìn)一步自然語(yǔ)言的處理。自動(dòng)分詞能夠區(qū)別出在特定的語(yǔ)句環(huán)境下,哪些是真正的人名,哪些只是語(yǔ)句中的詞語(yǔ),所以,想抽取出文本信息中更多的姓名,使抽取出的姓名更準(zhǔn)確,還可以進(jìn)一步完善此基于規(guī)則的方法。
4結(jié)語(yǔ)
信息抽取有著非常廣泛的應(yīng)用,搜索技術(shù)需要信息抽取技術(shù)作支撐才能進(jìn)一步進(jìn)行處理,最近新浪和百度合作的抓取相關(guān)微博的業(yè)務(wù)也是信息抽取技術(shù)的體現(xiàn)。信息抽取技術(shù)是從大量的信息中提取出對(duì)用戶(hù)有用的信息,存儲(chǔ)到數(shù)據(jù)庫(kù)中以備用戶(hù)進(jìn)一步應(yīng)用。信息抽取技術(shù)是人工智能自然語(yǔ)言處理領(lǐng)域面向?qū)嶋H應(yīng)用產(chǎn)生的一個(gè)新分支。它從一段語(yǔ)言文字中抽取出用戶(hù)指定的事件和人物信息,形成一種數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。此種技術(shù)雖有較強(qiáng)的可用性和靈活性,但是技術(shù)難度也更大,要掌握此種技術(shù),但就作者本人而言,還有一定的距離和難度,需要進(jìn)一步學(xué)習(xí)和研究。
基于規(guī)則的信息抽取技術(shù)在抽取過(guò)程中,依托制定好的語(yǔ)言規(guī)則,在自動(dòng)分詞之后只需要進(jìn)行語(yǔ)言規(guī)則的配對(duì)就行,所以其優(yōu)勢(shì)在于抽取的速度更快,準(zhǔn)確度較高,但不足之處也很明顯,即規(guī)則的應(yīng)用只能在一個(gè)特定的領(lǐng)域,不能擴(kuò)散到其他文字語(yǔ)言領(lǐng)域,系統(tǒng)可移植性差,領(lǐng)域改變之后,需要再進(jìn)行規(guī)則的提取才能進(jìn)行新領(lǐng)域信息的抽取。
本文中只是簡(jiǎn)單的提及基于統(tǒng)計(jì)的信息抽取技術(shù),并沒(méi)有詳細(xì)的介紹和實(shí)現(xiàn),是因?yàn)樽约涸谶@方面還有很多需要學(xué)習(xí),不足以形成理論性的知識(shí),還需要在以后的學(xué)習(xí)中進(jìn)一步深入研究和鍛煉。但沒(méi)有介紹并不代表作者不重視此項(xiàng)技術(shù),實(shí)際上實(shí)際應(yīng)用中,基于統(tǒng)計(jì)的方法比基于規(guī)則的方法應(yīng)用更為廣泛。所以以后作者想在這方面深入研究下去的話(huà),基于統(tǒng)計(jì)方法的信息抽取技術(shù)是必須要學(xué)習(xí)的??傊?,基于規(guī)則的信息抽取是信息抽取的一個(gè)方面,將來(lái)這個(gè)領(lǐng)域還有更深層次的內(nèi)容需要學(xué)習(xí)。
本文在我校周法國(guó)老師的悉心指點(diǎn)下,經(jīng)過(guò)多次改動(dòng)終于成型,在此特向周老師作出衷心感謝,感謝周老師的耐心指導(dǎo)和對(duì)學(xué)生成長(zhǎng)的關(guān)心及包容。
參考文獻(xiàn)
[1]車(chē)萬(wàn)翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào),2005.
[2]常迥.信息理論基礎(chǔ)[M].北京:清華大學(xué)出版社,1993.
[3]朱雪龍.應(yīng)用信息論基礎(chǔ)[M].北京:清華大學(xué)出版社,2001.
[4]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003.
[5]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2007(7).
[6]王小婕,常寶寶.自然語(yǔ)言處理技術(shù)[M].北京郵電大學(xué)出版社.
[7]王曉龍,關(guān)毅.計(jì)算機(jī)自然語(yǔ)言處理[M].清華大學(xué)出版社.