基于規(guī)則的中文人名識(shí)別與抽取關(guān)鍵技術(shù)研究

2012-04-29 00:44:03姜偉

科技創(chuàng)新導(dǎo)報(bào) 2012年28期

姜偉

摘?要：新興媒體時(shí)代的發(fā)展使大量的信息涌入了我們的視線(xiàn)和大腦，廣大網(wǎng)名用戶(hù)在面對(duì)網(wǎng)上的信息時(shí)需要找尋符合自己的資料，在這種情況下，信息抽取發(fā)展起來(lái)了。國(guó)內(nèi)的信息抽取技術(shù)起步時(shí)間較短，又由于中文信息的復(fù)雜性，所以在中文信息抽取領(lǐng)域，此技術(shù)還不是特別的成熟。在本文中，作者對(duì)基于規(guī)則的中文人名抽取技術(shù)進(jìn)行了初步探索和研究。

關(guān)鍵詞：自然語(yǔ)言處理，信息抽取，命名實(shí)體識(shí)別，人名識(shí)別

中圖分類(lèi)號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-098X（2012）10（a）-0065-02

1 有關(guān)背景

信息時(shí)代的發(fā)展，我們每天都會(huì)面臨大量的信息，不同的用戶(hù)接觸的信息雖然不同，但用戶(hù)都需要從這些大量的信息中抽取出自己感興趣和有實(shí)際用途的信息，信息抽取技術(shù)在這種情況下慢慢地發(fā)展了起來(lái)。目前，信息抽取的主要任務(wù)是將文字中大量的信息準(zhǔn)確地進(jìn)行分詞、識(shí)別、整理，提取出人和事的關(guān)鍵特征詞，組織成關(guān)鍵語(yǔ)句，方便于查詢(xún)檢索，提高檢索效率。在互聯(lián)網(wǎng)時(shí)代，信息抽取技術(shù)是信息檢索技術(shù)的技術(shù)支撐，它既可以提高檢索效率，又能準(zhǔn)確的抓取面對(duì)用戶(hù)有用的信息。例如，信息抽取系統(tǒng)可以從用戶(hù)感興趣的信息中分詞抽取出時(shí)間、地點(diǎn)、關(guān)鍵人物、原因等，將抽取結(jié)果保存在數(shù)據(jù)庫(kù)中，為用戶(hù)進(jìn)一步查詢(xún)和分析提供支持和幫助。信息抽取的關(guān)鍵任務(wù)包括：命名實(shí)體識(shí)別、句法分析、篇章分析與推理、知識(shí)獲取等。

本文主要對(duì)基于規(guī)則的中文人名識(shí)別與抽取技術(shù)進(jìn)行了研究和實(shí)現(xiàn)。

2信息抽取的研究方式

目前，信息抽取主流的研究方式主要有三種：基于規(guī)則的、基于統(tǒng)計(jì)的和基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方式。

2.1 基于規(guī)則的抽取方式

基于規(guī)則的信息抽取是一個(gè)基于學(xué)習(xí)經(jīng)驗(yàn)和應(yīng)用的兩個(gè)階段過(guò)程：規(guī)則的確定和應(yīng)用確定的規(guī)則獲取用戶(hù)所需要的信息。信息的抽取的規(guī)則是建立在大量的學(xué)習(xí)經(jīng)驗(yàn)和既定的某一領(lǐng)域?qū)崿F(xiàn)的，在經(jīng)驗(yàn)學(xué)習(xí)的基礎(chǔ)上，確定漢語(yǔ)的語(yǔ)言結(jié)構(gòu)和常用文法結(jié)構(gòu)，例如“名詞”+“動(dòng)詞”，“主語(yǔ)”+“謂語(yǔ)”等形式，在這些規(guī)則確立之后，將保存在信息庫(kù)中以備匹配。在語(yǔ)句經(jīng)過(guò)分詞后，將這分詞后的結(jié)構(gòu)語(yǔ)句和信息庫(kù)中的規(guī)則相匹配，確定分詞后的語(yǔ)句結(jié)構(gòu)，再經(jīng)過(guò)句法分析、篇章分析、知識(shí)獲取之后，抽取出語(yǔ)句中的有用信息，抽取的任務(wù)就完成了。所以，基于的規(guī)則信息抽取，規(guī)則本身的正確與否是提取成功的關(guān)鍵。

2.2 基于統(tǒng)計(jì)的抽取方式

基于統(tǒng)計(jì)的信息抽取是目前比較常用中文信息抽取技術(shù)，也是比較準(zhǔn)確和靈活的信息抽取技術(shù)。常用的統(tǒng)計(jì)模型有：馬爾科夫模型、隱馬爾科夫、最大熵模型等。其中，隱馬爾科夫模型已經(jīng)形成了比較健全的算法，具備較強(qiáng)的理論基礎(chǔ)，很適合自然語(yǔ)言的處理。

2.3 基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方式

基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方式是一種比較理想的信息抽取技術(shù)?；谝?guī)則和基于統(tǒng)計(jì)的方法雖說(shuō)都有各自的優(yōu)點(diǎn)，但是二者的缺點(diǎn)也不可避免。因此，專(zhuān)家提出了將二者結(jié)合起來(lái)的方法，二者混合方法通過(guò)啟發(fā)式規(guī)則可以減少識(shí)別問(wèn)題的復(fù)雜性，與此同時(shí)，也通過(guò)統(tǒng)計(jì)模型增加系統(tǒng)的適應(yīng)性，并減少由于數(shù)據(jù)庫(kù)的不完全而帶來(lái)的負(fù)面影響。

2.4 其他方法

當(dāng)然，信息抽取發(fā)展這些年以來(lái)，專(zhuān)家們也提出除了以上三種方法之外的其他方法。例如利用機(jī)器學(xué)習(xí)的方法，先建立學(xué)習(xí)模型，訓(xùn)練模型，再用訓(xùn)練的模型對(duì)真實(shí)文本進(jìn)行識(shí)別；還可以利用機(jī)器學(xué)習(xí)和其他統(tǒng)計(jì)模型相結(jié)合，或者多種機(jī)器學(xué)習(xí)的方法相結(jié)合來(lái)識(shí)別中文名等，這些方法各有優(yōu)缺點(diǎn)，在此不再贅述。

以上是信息抽取中比較常見(jiàn)的研究方式，筆者只對(duì)基于規(guī)則的方式進(jìn)行了研究，其他方法在以后的學(xué)習(xí)和研究中會(huì)逐漸的深入下去。

3 基于規(guī)則的中文人名識(shí)別與抽取算法與實(shí)現(xiàn)

3.1 基于規(guī)則的信息抽取技術(shù)的階段

基于規(guī)則的信息抽取技術(shù)分為兩個(gè)階段：規(guī)則的確定和規(guī)則的應(yīng)用，其中，規(guī)則的確定是此項(xiàng)技術(shù)的關(guān)鍵。規(guī)則提取的起步階段，研究人員大多采用人工編制規(guī)則的方法，由于人工編制規(guī)則準(zhǔn)確度較高，所以在起始階段，此規(guī)則得到了廣泛的應(yīng)用。但是，這種規(guī)則提取的方式也有很多弊端。首先，這種規(guī)則的提取工作由于牽扯到大量的自然語(yǔ)言處理知識(shí)和專(zhuān)業(yè)的領(lǐng)域知識(shí)，所以只能是具有很精熟的專(zhuān)業(yè)知識(shí)的人才才能做好，這對(duì)人才的獲取就提出了很大的挑戰(zhàn)；其次，在規(guī)則提取和編制過(guò)程中，由于面對(duì)的是大量的文字信息，所以這個(gè)過(guò)程是比較費(fèi)時(shí)、費(fèi)力、耗神、枯燥，規(guī)則的提取容易出錯(cuò)，從事規(guī)則提取的工作人員成本較高，提高了開(kāi)發(fā)的技術(shù)成本。另外，手工提取規(guī)則的信息庫(kù)比較窄，人力不可能把所有的領(lǐng)域文字信息、所有的語(yǔ)言規(guī)則都提取出來(lái)，這是不現(xiàn)實(shí)的，所以，手工提取規(guī)則有其片面性和局限性，覆蓋面較低，系統(tǒng)的可移植性較差。因而在不斷的總結(jié)經(jīng)驗(yàn)和摸索下，自動(dòng)地獲取規(guī)則逐漸成為受開(kāi)發(fā)人員歡迎的技術(shù)，也逐漸成為一個(gè)較為普遍的研究課題。

規(guī)則的自動(dòng)提取是從未被標(biāo)注的文本信息中學(xué)習(xí)和提取規(guī)則，基本不需要專(zhuān)業(yè)的領(lǐng)域知識(shí)，基本不需要手工參與，避免了大量的工作和枯燥性，這樣便降低了開(kāi)發(fā)的人力成本，可移植性很好，普遍性更強(qiáng)。

但是，由于起步時(shí)間較晚，且漢語(yǔ)語(yǔ)法規(guī)則的特殊性和復(fù)雜性遠(yuǎn)遠(yuǎn)超過(guò)英文，所以目前對(duì)中文信息抽取規(guī)則提取方法的研究并不是特別多。由于漢語(yǔ)的特異性，英文規(guī)則提取技術(shù)并不能照搬應(yīng)用，所以需要研究新的提取方法。

3.2本文采用的規(guī)則提取算法

本文提供的算法是從信息中提取出人名。

信息數(shù)據(jù)庫(kù)中已經(jīng)保存了常用人名的姓氏和名字，供依據(jù)規(guī)則使用。

所提取的規(guī)則如下：人名：<姓氏>+<名字>

具體的算法描述如下：

步驟1：從標(biāo)注的語(yǔ)料信息中輸入一個(gè)實(shí)例。

步驟2：對(duì)文本進(jìn)行分詞、詞性標(biāo)注。

步驟3：對(duì)分詞后的文本進(jìn)行從左到右的掃描，查找姓氏。姓氏是識(shí)別姓名的觸發(fā)條件。若查到姓氏，則轉(zhuǎn)到步驟4；否則，轉(zhuǎn)到步驟6

步驟4：再向右掃描一個(gè)字，若所掃描到的字是信息庫(kù)中的名字，則抽取出姓氏和名字，轉(zhuǎn)到步驟6；若不是信息庫(kù)中的名字，則轉(zhuǎn)到步驟5。

步驟5：再向右掃描一個(gè)字。若連續(xù)掃描的兩個(gè)字為信息庫(kù)中的名字，則抽取出姓氏和名字。

步驟6：繼續(xù)對(duì)文本進(jìn)行從左到右的掃描，若查找到姓氏，則返回步驟4。

步驟7：直至文本信息結(jié)束，掃描結(jié)束，輸出抽取的名字。

本文所采取的算法可以抽取出人名結(jié)構(gòu)僅為<姓氏>+<名字>，在實(shí)際抽取中肯定有很大的局限性。因?yàn)槿嗣慕Y(jié)構(gòu)有很多種形式。主要可分為兩大類(lèi)：

1）完整形式：即“姓氏+名字”的結(jié)構(gòu)，其中姓氏里包含單姓和復(fù)姓，名字包含單字和雙字。

2）不完整形式：這又可分為5類(lèi)：（1）前綴+姓氏，例如：小姜、老劉；（2）姓氏+后綴，例如：李總、張總、陳老；（3）姓氏+稱(chēng)謂詞，例如：劉老師、陳市長(zhǎng)，王先生；（4）有姓無(wú)名，例如：張來(lái)到王家后就當(dāng)自家，從不客氣；（5）有名無(wú)姓，例如：政治文件中的錦濤同志。

另外，人名內(nèi)部可能組成一個(gè)詞。即姓氏與名字，或者名字與名字組成詞語(yǔ)，例如：張國(guó)立，賀國(guó)強(qiáng)，汪洋。人名首部也可能與其上文，人名尾部可能與其下文組合成詞語(yǔ)，例如：有一次開(kāi)會(huì)，馬化騰坐在李彥宏和馬云中間，韓寒冷不丁的寫(xiě)了一篇文章，鄧小平等同志等。在這些復(fù)雜的情況下，需要進(jìn)一步自然語(yǔ)言的處理。自動(dòng)分詞能夠區(qū)別出在特定的語(yǔ)句環(huán)境下，哪些是真正的人名，哪些只是語(yǔ)句中的詞語(yǔ)，所以，想抽取出文本信息中更多的姓名，使抽取出的姓名更準(zhǔn)確，還可以進(jìn)一步完善此基于規(guī)則的方法。

4結(jié)語(yǔ)

信息抽取有著非常廣泛的應(yīng)用，搜索技術(shù)需要信息抽取技術(shù)作支撐才能進(jìn)一步進(jìn)行處理，最近新浪和百度合作的抓取相關(guān)微博的業(yè)務(wù)也是信息抽取技術(shù)的體現(xiàn)。信息抽取技術(shù)是從大量的信息中提取出對(duì)用戶(hù)有用的信息，存儲(chǔ)到數(shù)據(jù)庫(kù)中以備用戶(hù)進(jìn)一步應(yīng)用。信息抽取技術(shù)是人工智能自然語(yǔ)言處理領(lǐng)域面向?qū)嶋H應(yīng)用產(chǎn)生的一個(gè)新分支。它從一段語(yǔ)言文字中抽取出用戶(hù)指定的事件和人物信息，形成一種數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。此種技術(shù)雖有較強(qiáng)的可用性和靈活性，但是技術(shù)難度也更大，要掌握此種技術(shù)，但就作者本人而言，還有一定的距離和難度，需要進(jìn)一步學(xué)習(xí)和研究。

基于規(guī)則的信息抽取技術(shù)在抽取過(guò)程中，依托制定好的語(yǔ)言規(guī)則，在自動(dòng)分詞之后只需要進(jìn)行語(yǔ)言規(guī)則的配對(duì)就行，所以其優(yōu)勢(shì)在于抽取的速度更快，準(zhǔn)確度較高，但不足之處也很明顯，即規(guī)則的應(yīng)用只能在一個(gè)特定的領(lǐng)域，不能擴(kuò)散到其他文字語(yǔ)言領(lǐng)域，系統(tǒng)可移植性差，領(lǐng)域改變之后，需要再進(jìn)行規(guī)則的提取才能進(jìn)行新領(lǐng)域信息的抽取。

本文中只是簡(jiǎn)單的提及基于統(tǒng)計(jì)的信息抽取技術(shù)，并沒(méi)有詳細(xì)的介紹和實(shí)現(xiàn)，是因?yàn)樽约涸谶@方面還有很多需要學(xué)習(xí)，不足以形成理論性的知識(shí)，還需要在以后的學(xué)習(xí)中進(jìn)一步深入研究和鍛煉。但沒(méi)有介紹并不代表作者不重視此項(xiàng)技術(shù)，實(shí)際上實(shí)際應(yīng)用中，基于統(tǒng)計(jì)的方法比基于規(guī)則的方法應(yīng)用更為廣泛。所以以后作者想在這方面深入研究下去的話(huà)，基于統(tǒng)計(jì)方法的信息抽取技術(shù)是必須要學(xué)習(xí)的?？傊?，基于規(guī)則的信息抽取是信息抽取的一個(gè)方面，將來(lái)這個(gè)領(lǐng)域還有更深層次的內(nèi)容需要學(xué)習(xí)。

本文在我校周法國(guó)老師的悉心指點(diǎn)下，經(jīng)過(guò)多次改動(dòng)終于成型，在此特向周老師作出衷心感謝，感謝周老師的耐心指導(dǎo)和對(duì)學(xué)生成長(zhǎng)的關(guān)心及包容。

參考文獻(xiàn)

[1]車(chē)萬(wàn)翔，劉挺，李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào)，2005.

[2]常迥.信息理論基礎(chǔ)[M].北京：清華大學(xué)出版社，1993.

[3]朱雪龍.應(yīng)用信息論基礎(chǔ)[M].北京：清華大學(xué)出版社，2001.

[4]李保利，陳玉忠，俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用，2003.

[5]劉遷，焦慧，賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究，2007（7）.

[6]王小婕，常寶寶.自然語(yǔ)言處理技術(shù)[M].北京郵電大學(xué)出版社.

[7]王曉龍，關(guān)毅.計(jì)算機(jī)自然語(yǔ)言處理[M].清華大學(xué)出版社.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于規(guī)則的中文人名識(shí)別與抽取關(guān)鍵技術(shù)研究