夏 靜,柴玉梅,昝紅英
(鄭州大學信息工程學院,河南鄭州450001)
在中文信息處理領域的研究中,漢語語料庫的質量具有舉足輕重的作用,高質量的語料庫越來越受到學者們的關注。目前有許多研究領域都使用到了漢語語料庫,比如:機器翻譯、語音識別、文字識別、信息檢索等。要得到高質量的語料庫,詞性標注是基礎,目前漢語的詞性標注已經成為一個很重要的研究課題。由于詞的兼類現象的普遍存在,給詞性標注帶來了很大困難,因此,正確識別兼類詞的詞性是詞性標注問題的關鍵之一。
“兼類詞“指的是在一定的詞類體系中兼屬兩個或兩個以上不同詞類的詞。那么,兼類詞的數量與給定的詞性標記集有關,一般情況下,詞性標記集越詳細,詞的兼類情況就越復雜。兼類詞的數量雖然不多,但使用頻率很高,因此解決好兼類詞的詞性標注問題對于提高詞性標注的正確率具有重要意義。目前對于兼類詞的詞性標注的研究,有許多相關的技術和文獻:基于分類器集成的兼類詞消歧研究[1]、基于條件隨機場 (CRFs)的中文詞性標注方法[2]、基于分類的漢語語料庫詞性標注一致性檢查[3]等。這些研究中有些僅僅是選取詞作為特征,在數據稀疏時會影響分類的結果;有些僅僅是采用了一種方法對兼類詞進行了研究沒有充分的對比說明,并且沒有考慮到上下文窗口對標注的影響,針對目前的研究現狀兼類詞的識別問題還有待進一步的研究。
本文基于兼類詞的詞性與它所在的上下文環(huán)境之間的依賴關系,綜合考慮了影響兼類詞識別的詞語信息、詞性信息以及詞語和詞性的復合信息作為特征,通過對上下文窗口的設置來改變特征語料的提取,不斷進行測試以找到合適的窗口。采用統(tǒng)計的不同方法和規(guī)則的方法分別對兼類詞的識別進行了進一步的研究,并取得了較好的結果。
近年來,在自然語言處理 (NLP)研究中,已經有許多機器學習的統(tǒng)計模型,其中有隱馬爾科夫模型 (HMM)、支持向量機 (SVM)、最大熵 (ME)以及條件隨機場(CRF)等,本文采用了在詞性標注方面應用較多且效果比較好的條件隨機場模型、最大熵模型和k最近鄰算法對兼類詞進行標注,針對統(tǒng)計方法效果不夠理想的詞,又嘗試了規(guī)則的方法進行標注,最后給出了相應的實驗結果,并進行對比分析。
條件隨機場 (conditional RandomFields,CRF)的概念自2001年被J.Lafferty等人[4]提出以來,被廣泛應用在信息抽取、命名實體識別、語義角色標注[5]、漢語詞義消歧[6]等領域。CRF的突出優(yōu)點就是可以相對任意地加入任何與處理對象相關的語言學特征,并且能夠充分考慮上下文中的特征,綜合利用詞和詞性等資源,所以,對于基于CRF模型的兼類詞識別,主要考慮選取哪些特征對詞性識別有利,而不必顧及其他的因素。
兼類詞的詞性識別看做是一個序列標注任務,通過判斷該兼類詞所在的不同的上下文環(huán)境,即考慮詞語、詞性以及詞語和詞性的復合信息進行特征的選取,并根據這些特征判斷其所屬的詞性。
在基于CRF的兼類詞詞性標注中,需要將訓練文件和測試文件轉換成一定的文件格式。訓練和測試文件必須包含多個塊,一個中文句子對應一個塊,塊與塊之間用空格間隔,每個塊包含多個tokens,每個token必須寫在一行上,且包含多個列,各列之間用空格間隔。Token的定義可以根據具體的要求來選擇,如詞語信息、詞性信息等。我們需要對語料進行預處理,把含有該兼類詞的所有句子都提取出來。表1為上下文窗口為4的數據格式。
在表1中,W代表的是該兼類詞,W-i(i=1、2、3……),P-i(i=1、2、3……)分別代表在上下文環(huán)境中該兼類詞左邊 (上文)緊鄰的詞語和詞性信息。W+i(i=1、2、3……),P+i(i=1、2、3……)分別表示在上下文環(huán)境中該兼類詞右邊 (下文)緊鄰的詞語和詞性。P表示該兼類詞的詞性編碼。
表1 上下文窗口為4的數據格式
例如,兼類詞“以”的上下文窗口為4的數據格式如下
以根本 a利益 n,wd并 c此 rz作為 vl改革 v發(fā)展 v p
模板文件可以定義一元特征、二元特征及n元特征,同時也可以定義復合特征。模板的格式樣例如下所示:
#Unigram
U01:%x[0,1]/%x [0,2]
U02:%x[0,3]/%x [0,4]
U03:%x[0,5]/%x [0,6]
U04:%x[0,7]/%x [0,8]
U05:%x[0,9]/%x [0,10]
U06:%x[0,11]/%x [0,12]
U07:%x[0,13]/%x [0,14]
U08:%x[0,15]/%x [0,16]
#Bigram
B
通過選擇不同的模板進行標注,我們需要得到以下結果,用兼類詞“以”為例,如下是標注后的結果:
以根本a利益n,wd并c此rz作為vl改革v發(fā)展v p p
對比標注后的結果,第17列代表兼類詞“以”在未標注語料句子中的原始詞性,即標注前的詞性;第18列表示實驗標注后的詞性,即CRF標注的結果。
最大熵模型的概念最早是由E.T.Jaynes在1957年提出[7],其基本原理就是當把不完整的信息當做依據去做預測時,應當由滿足分布限制條件且熵最大的概率分布得到,也就是對未知的知識進行預測時根據已有的知識建模,而對未知的知識不做任何的假設。在自然語言處理中,最大熵模型已經有許多重要的應用,在詞義消歧[8]、詞性標注[9]、文本情感傾向性分類[10]、組塊分析等方面取得了較好的效果,因為其對特征之間不要求其獨立性,所以不用考慮它們之間是否會相互影響。
針對最大熵模型在兼類詞識別的問題上,可以把兼類詞的目標類看成是在其上下文的環(huán)境中所發(fā)生的概率,這個語境條件可以包括上下文的詞語、詞性以及句子結構等信息特征。在本文中主要考慮選取哪些特征對兼類詞的識別有用而不用顧及其它的因素,通過對語料的大量分析,主要選擇兼類詞所在上下文中的“詞語”信息、 “詞性”信息、“詞語+詞性”復合信息作為ME模型的特征,對于不同的兼類詞來說,特征選擇不同識別結果也會不同。本文把最大熵模型應用在兼類詞的識別方面,并取得了較好的實驗結果。
在基于ME的兼類詞詞性標注中,需要將訓練文件和測試文件轉換成如下的文件格式
其中,lable是兼類詞標注的類別,f1,f2,…,fn是提取特征的相應標號,v1,v2,…,vn是所提取的不同特征。
例如,上下文窗口為4的兼類詞“以”所使用的訓練數據和測試數據格式:
“p w0=以 w-4=根本 p-4=a wp-4=根本a w-3=利益 p-3=n wp-3=利益n w-2=,p-2=wd wp-2=,wd w-1=并 p-1=c wp-1=并 c w+1=此p+1=rz wp+1=此rz w+2=作為 p+2=vl wp+2=作為vl w+3=改革 p+3=v wp+3=改革v w+4=發(fā)展 p+4=v wp+4=發(fā)展v”
其中,w表示詞語,p表示詞性,wp表示詞語與詞性的組合特征,,w0表示待標注的兼類詞,p為待標注兼類詞的詞性編碼。對于測試數據來說第一列可以去掉,但為了便于實驗結果的統(tǒng)計,保留測試數據中的第一列。當標準語料經過預處理得到上述格式后,就可以根據需要的不同特征對數據進行不同的預處理。
K近鄰方法 (k-nearest neighbor,KNN)是基于統(tǒng)計的分類算法,是數據挖掘分類算法中比較常用的一種方法,它是由Cover和Hart在1968年首次提出的,屬于懶惰學習方法,思想十分簡單直觀,原理上依賴于極限定理。分類思想是:給定一個待分類的樣本x,首先找出與x最接近的或最相似的K個已知類別標簽的訓練集樣本,然后根據這K個訓練樣本的類別標簽確定樣本x的類別。
在KNN算法中,所選擇的鄰居都是已經正確分類的對象,該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別,主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。同時,在類別分類的時候,影響分類的結果只與少量的最相似樣本相關,所以,KNN算法可以有效的避免樣本分布不平衡所帶來的影響。在這里k的選擇比較關鍵,如果k值太小,可能對數據的局部特征比較敏感導致分類結果不穩(wěn)定,k值太大,也會平滑掉單個數據點產生的影響,造成結果偏差。
在基于k最近鄰算法的識別中,我們選擇數據挖掘中最常用的工具weka進行實驗,針對需要得到的不同特征結果,編寫預處理程序,不需要寫特征模板。在這里,我們分別選取了 (詞、詞性、詞+詞性)3種不同特征對實驗語料進行了處理,并且通過選擇合適的窗口得到不同的特征信息,綜合考慮了在KNN方法中,這3種特征對兼類詞識別的影響。
基于規(guī)則的兼類詞識別,就是針對兼類詞在不同上下文中的使用構建識別規(guī)則,然后通過編制識別程序,對語料庫中的兼類詞進行詞性識別和標注。目前,鄭州大學自然語言處理實驗室根據現代漢語虛詞用法特征的不同表現,構建了三位一體的虛詞知識庫[11-12]。
本文主要是針對一些用統(tǒng)計方法識別效果不夠好的兼類詞考慮基于規(guī)則的方法,即根據它們不同詞性的不同特征,抽取其中具有可操作性的判斷條件,利用BNF范式對兼類詞的詞性進行了描述。具體做法是:首先根據這些兼類詞在上下文中的詞語、詞性信息以及在句子中的結構關系構建一組規(guī)則,未來得到正確性和完備性更好的規(guī)則,需要在大量的語料上對規(guī)則進行反復測試、改進,最終得到識別效果比較好的規(guī)則庫。
兼類詞詞性的規(guī)則可以形式化描述為:
<ID > → [F][M][L][R][N][E]
F→<詞1>|<詞2>|…|a|v|n|…
M→<詞1>|<詞2>|…|a|v|n|…
L→<詞1>|<詞2>|…|a|v|n|…
R→<詞1>|<詞2>|…|a|v|n|…
N→<詞1>|<詞2>|…|a|v|n|…
E→<詞1>|<詞2>|…|a|v|n|…
其中,ID為所識別的兼類詞的詞性編碼,F表示句首信息,M表示其左邊搭配的詞語或詞性信息,L表示其左邊緊鄰的信息,R表示其右邊緊鄰的信息,N表示其右邊搭配的信息,E表示句末信息。
如下是兼類詞“首先”的規(guī)則描述樣例:
MYM首先
@ <c>→N^N→其次|第二|然后|隨后|之后|再
@ <d>→R^R→v
@ <c>→F^F→ ~
@ <d>→N^N→ [w]*v
兼類詞的每一個詞性規(guī)則都可以看做是一個模式表達式,因為符號的特殊性,這個模式語言的定義并不能認為是正則表達式。在本文中我們考慮把兼類詞的識別問題看成是字符串的匹配問題,而正則表達式在文本字符的處理方面具有高效、易用的優(yōu)點,所以考慮將BNF范式的規(guī)則轉換成正則表達式,即將BNF形式的規(guī)則中各種特征所定義的詞性進行實例化,然后用實例化后所得到的詞集去替換對應的詞性字符,在對其它的匹配字符也做相應的轉化,就得到了規(guī)則的正則表達式,最后對語料在特征屬性匹配器上進行字符串的匹配,根據匹配結果確定兼類詞的詞性編碼。
具體的算法思想如下:
(1)初始化語料庫和兼類詞的規(guī)則庫,讀取的語料按行存放,即將文本語料切分成一個個的句子,并以動態(tài)數組的形式讀入內存中,兼類詞的規(guī)則是以哈希表的形式寫入內存。
(2)讀取待識別的一個整句,并找出句子中所要識別的兼類詞以及對應的規(guī)則,然后對整句進行預處理,得出兼類詞在原始語句中的位置。
(3)第三步是一個規(guī)則解析、識別匹配的過程,在找到待標兼類詞的規(guī)則后,按照規(guī)則順序讀取規(guī)則,按照規(guī)則的描述由匹配器調度程序確定出發(fā)的匹配器類型,然后由相應的匹配器解析規(guī)則并進行對應的匹配。
(4)最后根據匹配的結果確定兼類詞的詞性標注結果,如果這個句子中的所有兼類詞都已經標注完畢,就轉到上一步中繼續(xù)讀取下一個句子,循環(huán)進行,直到所有句子都標注完畢。
以2000年1月份分詞和詞性標注的《人民日報》語料作為兼類詞識別研究的語料庫之一,下面是包含兼類詞“首先”的語料樣例:
機器在對其進行識別的時候,首先要讀取語料文件和規(guī)則文件,也就是對語料和規(guī)則進行初始化,語料以行為單位讀入數組中,規(guī)則是以哈希表的形式存放在內存中,讀取一條規(guī)則判斷是否與數組中的語料匹配,如果匹配不成功,則繼續(xù)讀取第二條規(guī)則,判斷是否與語料進行匹配,如果匹配成功,則把該規(guī)則所表示的詞性代碼標注在語料上。如下是兼類詞“首先“標注后的結果樣例:
實驗語料采用的是2000年1月的已完成切詞和詞性標注的《人民日報》語料,并進行人工校對后作為實驗用的標準語料。標注系統(tǒng)的性能很大程度上取決于訓練和測試模型所使用的特征,根據不同模型訓練數據的格式和兼類詞語境的特點,我們把上下文窗口的有效范圍控制在 (-5,5),即考慮該兼類詞在句子中上下文窗口5以內的詞語、詞性及 (詞語+詞性)復合信息,這樣可以獲得較好的識別結果,如果窗口再增大,有效信息也不會明顯的增加,反而會帶來更多的噪音。
本文采用CRF++工具包 (CRF++:Yet Another Toolkit[CP/OL].http://www.chasen.org/ ~ taku/software/CRF++)作為自動標注工具。為了更好地驗證模型的性能,對每個詞都采用了4折交叉驗證,最后得到各個詞的平均交叉結果。
表2是3種不同特征的CRF模型實驗結果對比,對常用的兼類詞進行了實驗,下表中選取了幾個具有代表性的兼類詞。其中,a代表使用詞語為特征的信息,b代表使用詞性為特征的信息,c代表使用 (詞語+詞性)復合特征的信息。
表2 CRF準確率
從表2的實驗結果可以看出,用基于統(tǒng)計CRF模型的方法進行兼類詞的識別,正確率基本上可以達到90%以上,當選取兼類詞上下文的詞性信息做為特征進行兼類詞的識別時,正確率比其他兩種特征 (詞語或者詞語+詞性)都要高,由此可見,特征模板b能夠有效的提高兼類詞標注的正確率。當然也不排除出現的個別現象,比如上面的兼類詞“首先”就是在選取詞語為特征時正確率比較高。
本文在基于最大熵的兼類詞識別實驗中,模型的訓練和測試使用了Zhang Le的最大熵工具包maxent maxent(http://homepages.inf.ed.ac.uk/s0450736/maxent_too lkit.html)。
在本文實驗中,我們對實驗所用的標準語料按照maxent工具包可識別的格式進行預處理。我們選取了不同的特征(a詞語特征、b詞性特征、c詞語+詞性復合特征)進行實驗,對每個詞的ME模型都采用了4折交叉驗證,得到各個詞的平均交叉結果,并把3種不同特征的結果進行比較分析。表3是三種不同特征的ME模型的實驗結果對比。
表3 ME準確率
由表3的實驗結果可以得出,用基于最大熵模型的方法對兼類詞進行識別時,大部分兼類詞在選取特征模板b(上下文的詞性信息)進行實驗時正確率比較高,但整體分類效果不如CRF模型的好。也有一些個別現象,如兼類詞“首先”的ME正確率略高于CRF模型的結果。
我們用的是數據挖掘最常用的工具weka進行分類實驗,首先通過預處理程序對實驗語料進行不同特征的處理,通過實驗選取合適的k值,并且經過大量的交叉驗證實驗得出,大部分的詞都是在交叉系數為10或者11時正確率比較高。表4是3種不同特征的KNN方法的實驗結果對比。
表4 KNN準確率
由表4的實驗結果可以得出,用基于k最近鄰的方法對兼類詞進行識別時可以有效的提高識別的正確率,并且標注正確率可以達到90%左右。當我們選取上下文的 (詞+詞性)為特征時,也就是用特征模板c可以更好地提高識別正確率,但整體效果不如前兩種方法。有些兼類詞的個別現象主要是由于它的詞性在語料中分布不均勻所造成的。
圖1 三種統(tǒng)計方法的實驗結果
從圖1的結果可以看出,在用基于條件隨機場方法對兼類詞進行識別,并且選取詞性信息作為特征模板時,正確率比較高,總體上優(yōu)于ME方法和KNN方法,并且在用不同的統(tǒng)計方法進行兼類詞的識別時,針對不同的方法選取對其有效的特征信息也是很重要的。但觀察圖1中兼類詞的實驗結果發(fā)現,這些詞并不是都存在一致的現象,如:“首先”就是ME模型識別效果比較好,針對這些個別現象,我們考慮了規(guī)則的方法。
針對以上統(tǒng)計方法識別效果不夠好的兼類詞,如:“首先”、“只有”等,這些兼類詞在用統(tǒng)計方法以及特征選取時跟大部分兼類詞的情況不一致,對于這些個別現象的詞,又嘗試了利用規(guī)則的識別方法,以下是規(guī)則的實驗結果。
表5 規(guī)則結果對比
對于統(tǒng)計方法識別結果不好的詞,可能是由于這些詞在不同上下文的語境中很難找到一個整體一致的特征,其特征呈現多樣化,以此影響了識別的準確率。由表5結果可以看出,這幾個兼類詞的規(guī)則識別效果高于統(tǒng)計方法的結果,所以針對基于統(tǒng)計方法識別準確率不高的兼類詞,可以嘗試利用規(guī)則的方法來進一步的提高其正確率,當然這里邊獲得一個綜合性很高的規(guī)則是很重要的,需要經過在大量的語料上進行測試,不斷發(fā)現規(guī)則的問題,并且反復的修改規(guī)則庫來提高識別的正確率。
本文主要使用了基于條件隨機場、最大熵、K最近鄰三種統(tǒng)計方法對常用的兼類詞進行識別研究,并針對不同的方法分別考慮了兼類詞本身的特點以及在上下文中的詞語、詞性以及詞語+詞性的綜合信息對其產生的影響,通過對上下文窗口的設置進一步改變對特征的提取以達到較高的識別準確率。針對統(tǒng)計方法中的個別現象又考慮了用規(guī)則的方法進行研究,并介紹了規(guī)則的形式化描述及基于規(guī)則的兼類詞識別算法思想。進一步的工作是針對更多的兼類詞嘗試用規(guī)則的方法進行識別,完善規(guī)則庫,并且嘗試用聚類的方法對兼類詞的識別進行研究。
[1]ZHANG Yizhe,QU Weiguang,LIU Jinke.Research on disambiguation of multiple syntactic category words based on ensemble of classifiers[J].Journal of Nanjing Normal University,2010,33(4):144-147(in Chinese).[張一哲,曲維光,劉金克.基于分類器集成的兼類詞消歧研究[J].南京師大學報,2010,33(4):144-147.]
[2]HONG Mingcai,ZHANG Kuo,TANG Jie.A Chinese part of speech tagging approach using conditional random fields [J].Computer Science,2006,33(10):148-151(in Chinese).[洪銘材,張闊,唐杰.基于條件隨機場 (CRFs)的中文詞性標注方法 [J].計算機科學,2006,33(10):148-151.]
[3]ZHANGHu,ZHENG Jiaheng.Consistency check on POStagging of Chinese corpus based on classification [J].Computer Engineering,2008,34(8):90-92(in Chinese).[張虎,鄭家恒.基于分類的漢語語料庫詞性標注一致性檢查 [J].計算機工程,2008,34(8):90-92.]
[4]Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th ICML-01,2001:282-289.
[5]Cohn T,Blunsom P.Semantic role labeling with tree conditio-nal random fields[C]//Proceedings of the Ninth Conference on Computational Natural Language Learning.Ann Arbor,Michigan:Association for Computational Linguistics,2005:169-172.
[6]MIAO Xuelei.Chinese word sense disambiguation method based on conditional random fields[D].Shenyang:Shenyang Aerospace U-niversity,2007(in Chinese).[苗雪雷.基于條件隨機場的漢語詞義消歧方法研究[D].沈陽:沈陽航空工業(yè)學院,2007.]
[7]Jaynes E T.Information theory and statistical mechanics [J].Physics Reviews,1957.
[8]CHEN Xiaorong,QIN Jin.Maximum entropy-based chinese word sense disambiguation [J].Computer Science,2005,32(5):174-176(in Chinese).[陳笑蓉,秦進.基于最大熵原理的漢語詞義消歧[J].計算機科學,2005,32(5):174-176.]
[9]ZHANG Lei.Chinese POStagging study based on maximum entropy[D].Dalian:Dalian University of Technology,2008(in Chinese).[張磊.基于最大熵模型的漢語詞性標注研究 [D].大連:大連理工大學,2008.]
[10]PENG Qiwei.Classification of emotional tendency of the Chinese text based on statistical methods[D].Taiyuan:Shanxi University,2007(in Chinese).[彭其偉.基于統(tǒng)計方法的中文文本情感傾向分類研究[D].太原:山西大學,2007.]
[11]ZAN Hongying,ZHANG Kunli,CHAI Yumei.The formal description of the modern Chinese adverb usage[C]//The8th Chinese Lexical Semantics Workshop Proceedings,The Hong Kong Polytechnic University,2007(in Chinese).[昝紅英,張坤麗,柴玉梅.現代漢語副詞用法的形式化描述 [C]//第八屆漢語詞匯語義學研討會論文集,香港理工大學,2007.]
[12]ZAN Hongying,ZHANG Kunli,CHAI Yumei.Studies on the functional word knowledge base of modern Chinese[J].Journal of Chinese Information Processing,2007,21(5):107-111(in Chinese).[昝紅英,張坤麗,柴玉梅.現代漢語虛詞知識庫的研究 [J].中文信息學報,2007,21(5):107-111.]