孫瑞娜,古麗拉·阿東別克
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
哈薩克語(簡(jiǎn)稱哈語)基本名詞短語自動(dòng)識(shí)別研究是自然語言淺層句法分析的重要任務(wù)之一,在自然語言研究領(lǐng)域越來越受到重視?;久~短語的識(shí)別可以簡(jiǎn)化句子結(jié)構(gòu),降低后續(xù)句法分析的難度,對(duì)機(jī)器翻譯、信息檢索、文本處理均具有重要作用。目前哈語詞類標(biāo)注系統(tǒng)基本實(shí)現(xiàn)了對(duì)哈語語料庫進(jìn)行詞類標(biāo)注的第一步,要深化哈語語料庫語言學(xué)研究,必須在詞類標(biāo)注的基礎(chǔ)上對(duì)語料庫進(jìn)一步做短語標(biāo)注,使哈語語料庫盡快轉(zhuǎn)變?yōu)榫浞ńY(jié)構(gòu)樹庫,從而創(chuàng)建功能更加完備的語言知識(shí)庫,只有這樣才能使語言研究者對(duì)語言現(xiàn)象進(jìn)行定量分析。其他語言的信息處理實(shí)踐也證實(shí)了這一點(diǎn)[1-5]。因此,現(xiàn)階段系統(tǒng)研究短語內(nèi)部結(jié)構(gòu)特征,完成對(duì)哈語語料庫短語級(jí)的標(biāo)注是繼續(xù)進(jìn)行語料庫深加工、建立大規(guī)模樹庫的先決條件。哈語基本名詞短語的自動(dòng)識(shí)別研究是哈語語料短語標(biāo)注這一系統(tǒng)工程的重要組成部分之一,它的順利實(shí)現(xiàn)必將對(duì)少數(shù)民族語言學(xué)、翻譯理論等產(chǎn)生重要的推動(dòng)作用。
本文在參考他人研究成果[ 6-10]的基礎(chǔ)上,從哈語基本名詞短語屬性入手,設(shè)計(jì)了基本名詞短語自動(dòng)識(shí)別系統(tǒng)。研究?jī)?nèi)容主要包括兩個(gè)部分:一部分是哈語基本名詞短語標(biāo)注語料庫的建立。為減少人工對(duì)短語標(biāo)注的工作量,根據(jù)哈語自身的特點(diǎn),對(duì)哈語基本名詞短語的結(jié)構(gòu)進(jìn)行研究,歸納出哈語基本名詞短語結(jié)構(gòu)規(guī)則,提出了16個(gè)相應(yīng)的形式化描述規(guī)則群體,根據(jù)這些規(guī)則,編程實(shí)現(xiàn)對(duì)30萬詞級(jí)哈語語料庫的基本名詞短語標(biāo)注。在此標(biāo)注基礎(chǔ)上,再通過人工從識(shí)別結(jié)果中修正標(biāo)錯(cuò)條目,補(bǔ)充未標(biāo)注條目,建立哈語基本名詞短語標(biāo)注語料庫;另一部分是使用統(tǒng)計(jì)和規(guī)則相結(jié)合方法。通過互信息進(jìn)行基本名詞短語邊界預(yù)測(cè),再由基本名詞短語構(gòu)成規(guī)則對(duì)預(yù)測(cè)邊界進(jìn)行校對(duì)和修正并加入標(biāo)注符,實(shí)現(xiàn)基本名詞短語識(shí)別系統(tǒng)。
哈語是SOV(主—賓—謂)語言,哈語中用此作確定句子詞序和語類的依據(jù),理論上它可有四種排列,即SOV、SVO、OSV、OVS與漢語詞序有很大不同,這給哈語短語識(shí)別帶來了困難。
哈語的時(shí)態(tài)和人稱附加成分非常豐富,因而有曲折短語IP,哈語最基本短語規(guī)則為:
Rule:IP→ SI
S→KP VP
KP→NP K
VP→KP V
其中:S-句子,KP-格短語,NP-名詞性短語,VP-動(dòng)詞性短語。
哈語基本名詞短語是由語義上能夠搭配的兩個(gè)或兩個(gè)以上的實(shí)詞帶入表達(dá)某種結(jié)構(gòu)關(guān)系的詞組模式得出的句法單位。哈語作為一種典型的黏著性語言,單詞的構(gòu)成特點(diǎn)與漢語有很大的不同,哈語單詞是通過在詞干后按一定的順序連接各種詞綴(又稱構(gòu)形附加成分)來構(gòu)成的,除了從外來語引進(jìn)的詞前綴外,語言本身不存在詞前綴,而且哈語中各類后綴的連接有嚴(yán)格的規(guī)律可循。因此,根據(jù)哈語構(gòu)詞的特點(diǎn),基本名詞短語的識(shí)別不能單純考慮標(biāo)注的詞性,要結(jié)合考慮哈語詞綴,對(duì)哈語基本名詞短語識(shí)別率的提高會(huì)有重要意義。本文對(duì)哈語基本名詞短語的識(shí)別研究是在經(jīng)過詞性標(biāo)注和構(gòu)形附加成分切分的哈語語料庫上進(jìn)行的研究。
本文結(jié)合哈語的特點(diǎn)對(duì)基本名詞短語定義如下:哈語名詞短語是符合一定句法功能的非遞歸短語,每個(gè)基本名詞短語都有一個(gè)核心(Head),基本名詞短語內(nèi)部所有成分都圍繞著這個(gè)核心進(jìn)行擴(kuò)展。
在基本名詞短語結(jié)構(gòu)規(guī)則中出現(xiàn)的詞性標(biāo)記,采用基于XML文件的哈語語料庫詞性(Pos)標(biāo)注符號(hào),即v動(dòng)詞,n名詞,adj形容詞,prep介詞,ono 相聲詞,pron 代詞,int 感嘆詞,conj 連詞,num 數(shù)詞,adv 副詞,[ ]詞性不明。本文通過分析語料庫,結(jié)合《現(xiàn)代哈薩克語實(shí)用語法》[11]《現(xiàn)代哈薩克語結(jié)構(gòu)研究》[12],以詞類信息的詞性及構(gòu)形附加成分為核心,再附加一些限定條件,歸納了哈語基本名詞短語內(nèi)部構(gòu)成規(guī)則。
表1 基本名詞短語構(gòu)形附加成分
本文首先將基本名詞短語的結(jié)構(gòu)關(guān)系從語料庫中提取出來,用統(tǒng)計(jì)歸納的方法,總結(jié)出以下10個(gè)基本結(jié)構(gòu):1) n+n; 2) n+conj+n; 3) pron+conj+pron; 4) pron+n; 5) adj+conj+adj; 6) adj+n; 7) adj+adv+n; 8) num+n; 9) v+n; 10)[ ]+n。再重點(diǎn)統(tǒng)計(jì)分析了基本名詞短語構(gòu)形附加成分中的后綴和詞尾,制定了相應(yīng)的符號(hào)標(biāo)記,建立了基本名詞短語構(gòu)形附加成分集,提出了16個(gè)相應(yīng)的形式化描述規(guī)則群體,由于篇幅有限,只列舉部分具有代表性的附加成分和規(guī)則。表1 所示為部分基本名詞短語構(gòu)形附加成分。
部分哈語基本名詞短語規(guī)則集,形式化表示如下:
R01 n+n[AL1|AL2|AL3|AL4|AL5|AL6]+n[BLF1|BLF2|BLF3|BLF4|BLF5|BLF6|BLF7|BLS8|BLS9|BLS10|BLS11|BLS12|BLS13|BLT14|BLT15| BLT16|BLT17]
R02 pron+ EC1| EC2| EC3| EC4| EC5+ pron
R03 pron+n[BLF1|BLF2|BLF3|BLF4|BLF5|BLF6|BLF7|BLS8|BLS9|BLS10|BLS11|BLS12|BLS13|BLT14|BLT15|BLT16]
R04 adj + EC1+ adj
R05 v+n[BLF1|BLF2|BLF3|BLF4|BLF5|BLF6|BLF7|BLS8|BLS9|BLS10|BLS11|BLS12| BLT15| BLT16| BLT17]
……
用規(guī)則標(biāo)注語料,是對(duì)已做詞性標(biāo)注和構(gòu)形附加成分切分的XML 文件進(jìn)行基本名詞短語標(biāo)注。根據(jù)上下文環(huán)境用規(guī)則對(duì)每個(gè)詞加短語標(biāo)記B、I、O,“B”基本名詞短語開始,“I”基本名詞短語內(nèi)部,“O”基本名詞短語外部。標(biāo)注過程如下:
(1) 提取XML語料庫文本三個(gè)信息:詞性:“pos”,構(gòu)形附加成分:“affix”, 單詞:“word”;
(2) 進(jìn)行匹配規(guī)則,采用最長(zhǎng)匹配原則;
(3) 匹配成功,對(duì)XML文本的每個(gè)詞加入基本名詞短語邊界標(biāo)記屬性np=“B”or“I”or“O”。
對(duì)31天的《新疆日?qǐng)?bào)》XML格式的語料庫進(jìn)行基本名詞短語標(biāo)注,封閉測(cè)試準(zhǔn)確率為80.2%,開放測(cè)試準(zhǔn)確率為72.1%。規(guī)則方法標(biāo)注界面如圖1所示。
圖1 規(guī)則方法標(biāo)注界面
從規(guī)則方法標(biāo)注的基本名詞短語語料庫中選擇15天的語料(16萬多詞),人工方式對(duì)識(shí)別結(jié)果修正標(biāo)錯(cuò)條目,補(bǔ)充未標(biāo)注條目,建立統(tǒng)計(jì)方法所需的訓(xùn)練語料庫。
首先對(duì)語料庫文本進(jìn)行粗切分,即按常見的切分標(biāo)志,如用分號(hào)、逗號(hào)、句號(hào)、感嘆號(hào)、問號(hào)進(jìn)行切分,再采用互信息進(jìn)行基本名詞短語邊界預(yù)測(cè),然后通過基本名詞短語構(gòu)成規(guī)則對(duì)預(yù)測(cè)邊界進(jìn)行調(diào)整,加入標(biāo)注符。系統(tǒng)結(jié)構(gòu)如圖2所示。
互信息是信息論中的一個(gè)概念[13],它用來度量一個(gè)消息中兩個(gè)信號(hào)之間的相互依賴程度。二元互信息是兩個(gè)事件的概率的函數(shù),公式如下:
(1)
那么對(duì)于一個(gè)有n個(gè)詞的哈語語句“w1/c1/w2/c2/…wn/cn”,wi(0
圖2 系統(tǒng)結(jié)構(gòu)
圖3 統(tǒng)計(jì)和規(guī)則結(jié)合方法的標(biāo)注界面
(1) 對(duì)待識(shí)別的哈語語句“w1/c1/w2/c2/…wn/cn”設(shè)詞串為t=w1w2…wn,對(duì)應(yīng)的詞性串為s=c1c2…cn,對(duì)于n元關(guān)系(n>2)詞串可以簡(jiǎn)單地看作是一個(gè)t1=w1w2…wk-1元(k=1,2…,n-1)和一個(gè)t2=wk…wn元之間的二元關(guān)系,這里t1+t2=t。對(duì)于詞性串同樣有s1=c1c2…ck-1,s2=ck…cns=s1+s2。本文主要考慮詞性。
(2) 設(shè)f(s)為詞性串c1c2…cn在語料中共同出現(xiàn)的頻率;p(s)為詞性串c1c2…cn在語料中共同出現(xiàn)的概率。
根據(jù)最大似然估計(jì),p(s) ≈f(s),對(duì)詞性串s=c1c2…cn根據(jù)公式(3)可以定義其互信息為
(2)
(k=1,2…,n-1)
如果詞性串s結(jié)合十分緊密,那么f(s)就與f(s1)或f(s2)相差不大,據(jù)式(2)計(jì)算的詞性串互信息就比較大;反之f(s1)和f(s2)就會(huì)遠(yuǎn)大于f(s),這樣計(jì)算出的互信息就較小,因此我們通過互信息的值來預(yù)測(cè)基本名詞短語的邊界,在測(cè)試語料庫中加入左“[”右“]”邊界信息。
由于式(2)需要大規(guī)模的經(jīng)過基本名詞短語標(biāo)注的語料庫,目前這種語料很難獲得,本研究只手工標(biāo)注了部分語料,語料規(guī)模小對(duì)通過互信息得到的基本名詞短語預(yù)測(cè)結(jié)果的準(zhǔn)確率有很大影響,預(yù)測(cè)邊界不能夠保證獲得的短語符合基本名詞短語的語法屬性,且預(yù)測(cè)的邊界存在邊界歧義,為了解決這個(gè)問題,結(jié)合規(guī)則的方法對(duì)統(tǒng)計(jì)得到的結(jié)果做進(jìn)一步處理,通過基本名詞短語構(gòu)成規(guī)則對(duì)預(yù)測(cè)邊界進(jìn)行調(diào)整。
(1) 讀入一句經(jīng)邊界預(yù)測(cè)后的哈語句子,從右向左掃描該句做括號(hào)匹配。
(2) 判斷是否出現(xiàn)邊界歧義的短語,即是否出現(xiàn)以下邊界匹配歧義“[*[* *]”、“[* *]*]”、“[*[* *]*]”若沒有出現(xiàn),則對(duì)短語加入標(biāo)注符“np”,否則轉(zhuǎn)第(3)步。
(3) 調(diào)用基本名詞短語構(gòu)成規(guī)則庫,對(duì)邊界匹配進(jìn)行選取。若沒有匹配的規(guī)則,則刪除該短語的歧義邊界,否則轉(zhuǎn)第(4)步。
(4) 若邊界匹配后得到的詞性串符合基本名詞短語內(nèi)部構(gòu)成規(guī)則,則選取使得基本名詞短語長(zhǎng)度最大的邊界匹配,刪除錯(cuò)誤邊界,并加入短語標(biāo)記“np”。
從《新疆日?qǐng)?bào)》(其中包括文藝、體育和新聞等題材)語料庫中抽取15天人工標(biāo)注的XML格式語料 (1.78MB)做訓(xùn)練文本和15天的TXT格式語料(1.02MB)做測(cè)試文本,分別進(jìn)行封閉和開放測(cè)試,封閉測(cè)試準(zhǔn)確率為82.9%,開放測(cè)試準(zhǔn)確率為74.2%,標(biāo)注界面如圖3所示。
一般情況下,基本名詞短語識(shí)別評(píng)估系統(tǒng)有三個(gè)重要指標(biāo)分別是準(zhǔn)確率、召回率和F值。定義如下:
a= 正確識(shí)別的基本名詞短語的個(gè)數(shù)
b= 沒有識(shí)別的基本名詞短語的個(gè)數(shù)
c= 識(shí)別錯(cuò)誤的基本名詞短語的個(gè)數(shù)
(3)
(4)
(5)
兩種方法的實(shí)驗(yàn)結(jié)果比較如表2所示。
表2 實(shí)驗(yàn)結(jié)果
表2表明:與基于規(guī)則的方法相比,統(tǒng)計(jì)和規(guī)則相結(jié)合的方法可以使精確率提高2.5%。雖然精確率提高幅度不大,但這說明結(jié)合互信息方法在一定程度上可以彌補(bǔ)規(guī)則方法的不足,提高精確率。 相對(duì)于精確率,召回率較小,因?yàn)榕c召回率相關(guān)的是未召回的基本名詞短語數(shù),對(duì)于系統(tǒng)的影響較小,而錯(cuò)誤召回不僅錯(cuò)誤識(shí)別了基本名詞短語,還會(huì)波及后期將識(shí)別其他短語,因此本研究寧可增大未召回基本名詞短語數(shù),而盡量提高精確率,這是短語識(shí)別的一個(gè)原則,所以識(shí)別結(jié)果中召回率相對(duì)較低不能作為系統(tǒng)性能評(píng)價(jià)的主要因素。
從實(shí)驗(yàn)結(jié)果來看,識(shí)別方法基本令人滿意,但因哈語中含有曲折短語,與其他語言的短語有很大區(qū)別,且哈語中用做確定句子詞序和語類依據(jù)的有四種排列方式,與漢語詞序有很大不同,這些對(duì)哈語短語識(shí)別帶來了一定困難。因此,同其他語言在基本名詞短語識(shí)別的性能相比,目前兩種識(shí)別方法的精確率、召回率較低,尚需進(jìn)一步提高。下面分析自動(dòng)識(shí)別錯(cuò)誤的幾方面原因:
(1) 目前語料庫加工的校驗(yàn)工作未能跟上, 錄入錯(cuò)誤、詞性標(biāo)注及附加成分切分錯(cuò)誤時(shí)而出現(xiàn)。后期修正語料庫錯(cuò)誤,重點(diǎn)完善詞性標(biāo)注及附加成分切分錯(cuò)誤的不足,提高短語規(guī)則在識(shí)別中的作用。
(2) 對(duì)于基于規(guī)則的方法。通過經(jīng)人工校對(duì)的正確的基本名詞短語標(biāo)注,對(duì)人工總結(jié)的基本短語規(guī)則的分布情況進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)識(shí)別所用規(guī)則多集中在n+n,[ ]+n,pron+n結(jié)構(gòu)中,對(duì)于出現(xiàn)錯(cuò)誤多的規(guī)則,下一步考慮采用錯(cuò)誤驅(qū)動(dòng)策略對(duì)規(guī)則進(jìn)行限制。
(3) 在標(biāo)注語料庫中還存在未登錄的新詞構(gòu)成的短語,人工總結(jié)的規(guī)則存在不足,需要在后期結(jié)合考慮未登錄詞,改進(jìn)并完善規(guī)則庫。
(4) 對(duì)于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法。使用統(tǒng)計(jì)方法進(jìn)行基本名詞識(shí)別所用的是二元模型,只考慮了相鄰詞之間的作用,忽略了遠(yuǎn)距離詞對(duì)基本名詞短語識(shí)別的影響,后期通過提高模型的元數(shù)降低錯(cuò)誤,同時(shí)因?yàn)橛?xùn)練語料規(guī)模太小,對(duì)識(shí)別有一定的副作用,后期加大訓(xùn)練語料規(guī)模。
本文首先采用基于規(guī)則的方法對(duì)哈語語料庫進(jìn)行基本名詞短語標(biāo)注,在此標(biāo)注基礎(chǔ)上,再通過人工修正標(biāo)錯(cuò)條目,補(bǔ)充未標(biāo)注條目,建立基本名詞短語標(biāo)注語料庫。進(jìn)一步又嘗試了基于統(tǒng)計(jì)和規(guī)則相結(jié)合的識(shí)別方法,通過互信息預(yù)測(cè)短語邊界,再利用基本名詞短語構(gòu)成規(guī)則調(diào)整預(yù)測(cè)邊界,識(shí)別結(jié)果達(dá)到了預(yù)期目標(biāo)。在今后的研究中,將進(jìn)一步擴(kuò)大語料庫規(guī)模,完善基本名詞短語構(gòu)成規(guī)則庫,改進(jìn)識(shí)別算法。
[1] Steven Abney. Parsing by chunks:In Pobert Berwick, Steven Abney, Carol Tenny eds.Principle-Based Parsing[C]//Dordrecht:Kluwer Academic Publishers, 1991: 257-278.
[2] 趙軍,黃昌寧.基于轉(zhuǎn)換的漢語基本名詞短語識(shí)別模型[J].中文信息學(xué)報(bào),1999,13(2):46-63.
[3] 劉芳,趙鐵軍,于浩等.基于統(tǒng)計(jì)的漢語組塊分析[J].中文信息學(xué)報(bào),2000,14(6):28-32.
[4] 張昱琪,周強(qiáng).漢語基本短語的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2002,16(6):1-8.
[5] 華沙寶,達(dá)胡白乙拉.對(duì)蒙古語語料庫基本名詞短語的定界與統(tǒng)計(jì)分析[J].中文信息學(xué)報(bào),2005,19(5):52-58.
[6] 周強(qiáng).漢語短語的自動(dòng)劃分和標(biāo)注[J].中文信息學(xué)報(bào),1997,11(1):1-10.
[7] 張鋒,許云,侯艷,等.基于互信息的中文術(shù)語抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5):72-73.
[8] 俞士汶,朱學(xué)鋒,段慧明.大規(guī)?,F(xiàn)代漢語標(biāo)注語料庫的加工規(guī)范[J].中文信息學(xué)報(bào),2000,14(6):58-64.
[9] 李衍,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學(xué)報(bào),2004,18(2):1-7.
[10] 代翠,周俏麗,蔡?hào)|風(fēng).統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長(zhǎng)名詞短語自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2008,22(6):112-117.
[11] 張定京.現(xiàn)代哈薩克語實(shí)用語法[M].北京:中央民族大學(xué)出版社,2004.
[12] 楊凌.現(xiàn)代哈薩克語結(jié)構(gòu)研究[M].新疆:新疆大學(xué)出版社,2002.
[13] Magerman D, Marcus M. Parsing a Natural Language Using Mutual Information Statistics[C]//Proceedings of AAAI’90,1990:984-989.