摘要:中文信息處理是NLP(自然語言處理)的一個組成部分,它是研究自然語言的學科,它和其他學科如計算機學,文學,理工學等有著一定的綜合聯(lián)系。中文跨文本指代消解是中文信息處理的核心技術,是提高信息抽取和信息檢索正確率的基礎,主要任務是解決重名消歧和多名聚合兩大問題。該文從基本概念入手,描述在語言處理中典型的指代現(xiàn)象和指代消解所需的基本語言知識;同時簡單介紹指代消解中商用的算法和技術。
關鍵詞:中文信息處理技術;切詞;指代消解;語料庫創(chuàng)建
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)15-3447-02
中文信息處理是利用計算機對存儲在計算機內(nèi)的中文的音、形、義等信息進行加工和處理。中文信息處理一般可以繼續(xù)分為漢字信息處理和漢語信息處理,具體內(nèi)容包括對字詞句、段落的處理,加工步驟首先為為輸入—存儲—傳輸—輸出,其次是識別—轉(zhuǎn)換壓縮—檢索—分析理解和生成等方面的處理技術。中文信息處理的應用主要是信息抽取和信息檢索,在信息抽取和信息檢索過程中,難免會遇到多個指代詞指向同一個實體,或者多個實體同一個名稱的現(xiàn)象,如何解決這兩大問題是當今研究的主要方向,單一文本指代消解技術目前已相對成熟,而跨文本指代消解技術更加復雜。下面先介紹相關基本概念。
1 相關基本技術
1) 中文信息處理技術在語言處理階段分為基礎技術和應用技術,基礎技術涉及到詞處理,句處理,篇章處理。應用技術主要應用在信息檢索,信息抽取方面。統(tǒng)計方法階段的技術主要有語料庫的建立,統(tǒng)計模型建立,利用語料庫訓練模型參數(shù),編寫算法解決問題等技術。
2) 指代分為兩種情況,指代主要有回指和共指消解主要有兩項任務,即:重名消歧和多名聚合。重名消歧義主要指同一個名稱指代的物體不同,在信息檢索中常出現(xiàn),而多名聚合主要指多個名稱指向同一個物體,一般應用在信息抽取中。指代主要有回指和共指,如:“小明放學了,媽媽去接他”,句中的“他”一般就是回指“小明”,再如:“中國國家主席和毛澤東”就是共指。指代消解方法主要有一般有基于句法的方法和基于語料庫的方法,基于語料庫的指代消解方法是當今研究學者用到最多的方法。
3) 語料庫創(chuàng)建技術
語料庫通俗的來講就是存放語料的倉庫,利用語料庫可以進行語言學研究,它的特點是,必須是真實環(huán)境中的語言材料,必須以計算機為載體,必須是經(jīng)過加過處理過的。利用計算機來搜集整理加工語料最終形成語料庫是中文信息處理技術的基礎,語料庫的創(chuàng)建技術也是中文信息處理技術的關鍵。語料庫不僅可以用作訓練用,還可以用為評估指代消解的質(zhì)量
4) 詞處理技術
分詞的方法主要有,第一種,理解式切分法,利用漢語的結(jié)構(gòu)對詞進行界定,并建立成詞庫,數(shù)據(jù)庫。該方法假設機器具有人類的思維,一般較難實現(xiàn)。第二種方法為機械式分詞法,按照一定的策略,如正向最大方法,比較易于實現(xiàn),第三種方法為基于頻度統(tǒng)計的方法,該方法通過相鄰字出現(xiàn)的頻率來確定是否成詞。目前采用的分詞技術是多種方法相結(jié)合的技術。在切分詞的過程中,遇到的最大困難時歧義詞和未登錄詞的切分。
5) 分詞歧義消解技術
在進行分詞過程中,難免會出現(xiàn)未登錄詞現(xiàn)象和歧義切分現(xiàn)象,歧義的類型有很多種,詞的歧義,結(jié)構(gòu)的歧義,指代和省略中的歧義,或者其他更復雜的情形。如:“物理學是一門基礎科學”和“物理學起來很難”中的“物理學”究竟是“物理+學”還是“物理學”這。再如:“他的確切地址在這兒”和“這塊肉的確切得不錯”的“的確切”究竟怎么組合。目前我們一般采用規(guī)則知識和統(tǒng)計信息相結(jié)合的方法來處理,首先運用分詞規(guī)則,在規(guī)則使用無效的情況下再使用統(tǒng)計信息方法,
2 指代消解研究基本方法
1) 基于句法的指代消解方法
在指代消解初期,研究者一般是基于句法進行指代消解研究,RAP算法就是基于句法的代表,它的原理是利用人們對句法層面所掌握的知識,結(jié)合啟發(fā)式的方法用于消解。該方法先進行句內(nèi)過濾,如“小明打了他”,這個“他”不可能指代“小明”,然后基于人稱,性和數(shù)排除不可能的NP,接著判斷冗余的代詞,根據(jù)字詞之間的約束關系識別在同一句內(nèi)所有可能的現(xiàn)行語,特別要注意是互質(zhì)代詞和反身代詞的先行語,接著對候選的NP進行突顯性賦值,把回指的節(jié)點作為等價類,形成一個回指鏈,重點是最后一步,就是要從代詞的先行語候選庫中選擇出可能的優(yōu)先元素。RAP算法事先通過人工方式,降低了系統(tǒng)的可移植性和自動化程度,主要考慮第三人稱,指代消解的準確率為86%。
2) 近期基于語料庫的指代消解方法
現(xiàn)在語言學高速發(fā)展,用來實驗的語料庫也不斷出新,不管是個人創(chuàng)建的小型語料庫還是前期研究學者公開發(fā)布的大型語料庫都有了飛速的發(fā)展,在這個基礎上,基于語料庫的指代消解方法也受到了研究者的青睞。具有代表性的主要有基于規(guī)則的、基于統(tǒng)計的、基于特征向量的三種方法。
基于規(guī)則的方法從語言學和認知學的觀念出發(fā),事先制定語言學規(guī)則,要求機器必須按照設定的規(guī)則理解自然語言。但隨著目前我們對客觀存在認知的不段了解、深入,就必然會要求語言規(guī)則不段增加,當前的規(guī)則系統(tǒng)已經(jīng)存在有限性和封閉性,導致已設定的規(guī)則只能滿足部分語言現(xiàn)象,所以基于規(guī)則的方法應用起來不是很靈活。
基于統(tǒng)計的方法是結(jié)合計算機學和統(tǒng)計學兩者所涵蓋的知識出發(fā),統(tǒng)計大規(guī)模的預料,把統(tǒng)計后的結(jié)果加以整理,用來理解自然語言?;诮y(tǒng)計的方法依賴語料庫的規(guī)模,語料規(guī)模不可能包含所有語言的可能性,這將導致統(tǒng)計的非遍歷性。
這兩種方法雖然能夠基本解決自然語言處理領域面臨的一些問題,但仍然存在一些弊端和局限。有些研究者把基于規(guī)則和基于統(tǒng)計的方法相結(jié)合,在一定程度上提高指代消解的準確率。
基于特征向量的方法:第一步,要對語料庫進行標注,指出指代關系,第二步,將侯選項和照應語的屬性賦予一個特征向量,將特征向量與分類模型進行訓練,結(jié)束后,分類器可以用來消解指代關系。在新文檔輸入時,把新文檔進行預處理,如:分詞、詞性標注、基本短語識別,預處理后的結(jié)果是為每個照應語構(gòu)建候選先行集合,利用分類器判斷兩者之間是否存在指代關系。
3 常用指代消解基本框架
1) 預處理
預處理是中文跨文檔消解的前提必要條件,也是形成語料庫的基礎,預處理技術主要有對字的處理及對語句的處理,如句子識別,命名實體的識別,切分詞語,詞性標注,時空短語的判斷及規(guī)范化。目前用的比較多的預處理工具是中科院研發(fā)的ICTCLAS系統(tǒng),它是一個概率型的自然語言句法分析器。
2) 傳記信息、相容信息、文檔層信息的抽取。
傳記信息的抽取是在預處理中對句子識別所形成的文檔中進行抽取一句話,并判斷句子所屬的類別,是否是傳記信息經(jīng)常出現(xiàn)的句子類型,若是,應用句型模式抽取出傳記信息,若否,抽取下一句,直到文檔尾。
3) 特征選擇、權(quán)值計算、相容度計算,聚類,指代鏈的合并。
文本聚類主要有基于概率的方法,該方法是用概率的分布方式來描述文本聚類的結(jié)果,它是基于距離的方法,就是將文檔賦予一個特征向量,把整篇文章看作是向量空間的一個點,通過計算點與點之間的距離來進行聚類。所有中文原始文檔先經(jīng)過消解,然后形成了每個文檔對應的指代鏈,接著判斷兩篇文檔的相似度,如果大于規(guī)定的某個閥值,說明這兩篇文檔中的實體表示同一實體,那就把這兩篇的指代鏈進行合并。
4 指代消解評估指標
典型的評測標準有正確率、召回率、成功率
1) 正確率指正確消解的指代數(shù)目和試圖消解的指代數(shù)目的比值。
2) 找回率指正確消解的指代數(shù)目和系統(tǒng)識別的指代數(shù)目的比值。
3) 成功率指正確消解的指代數(shù)目和全部消解的指代數(shù)目的比值。
5 結(jié)束語
本文簡單介紹了指代消解的概念和過程,以及用到的相關技術,希望對初學者有所幫助,在今后的研究工作中,自己還需要很大的努力和大量的工作,以提高對指代消解的全面認知。
參考文獻:
[1] 季紅潔,趙知緯,錢龍華.面向信息抽取的中文跨文本指代消解研究[J].福建電腦,2012(11)
[2] 馮志偉.漢字和漢語的計算機處理[J].當代語言學,2001(1).
[3] NLP技術在中文全文信息處理中的應用研究[EB/OL].http://www.lunwentianxia.com/product.sf.4075981.1/
[4] 陳小荷.中文信息處理概述[J].南京師范大學文學院學報,2002(1).
[5] 孔芳,周國棟,朱巧明,等.指代消解綜述[J].計算機工程,2010(4).
[6] 王厚峰.指代消解的基本方法和實現(xiàn)技術[J].中文信息學報,2002(6).