萬紅雅 劉丙麗 牛雅嫻 董 藝
摘 要:詞性標(biāo)注問題一直是計算語言學(xué)中的一個難點(diǎn)問題,對于一些詞類的標(biāo)注標(biāo)準(zhǔn)和方法,至今仍未統(tǒng)一,如兼類詞、區(qū)別詞,這給進(jìn)一步的句法分析和語料庫的共享帶來了很大困難,甚至有時候會造成資源的浪費(fèi)。本著實(shí)用的目的,在參考各家標(biāo)注策略的基礎(chǔ)上,本文對兼類詞、區(qū)別詞和狀態(tài)詞的標(biāo)注給出了統(tǒng)一的標(biāo)注策略。
關(guān)鍵詞:詞性標(biāo)注 句法分析 兼類詞 區(qū)別詞 狀態(tài)詞
一、引言
在大多數(shù)情況下,對語料進(jìn)行詞性標(biāo)注,只是語料庫建設(shè)的一個開始,而不是終點(diǎn)。句法標(biāo)注是當(dāng)前的一個研究熱點(diǎn),是建立在詞性標(biāo)注基礎(chǔ)上的一項(xiàng)工作。我們在對語料進(jìn)行句法標(biāo)注的過程中發(fā)現(xiàn),分詞系統(tǒng)中一些詞類標(biāo)記會給句法分析工作帶來一些困擾。這些問題不僅影響到句法標(biāo)注的效率,也影響到標(biāo)注的準(zhǔn)確性和一致性。因此,在分詞及詞性標(biāo)注階段,應(yīng)考慮詞類標(biāo)記對句法層面的影響,以節(jié)省人力、物力。
首先,分詞類別(或POS標(biāo)記)應(yīng)該在句法上有功能意義,例如名詞、動詞等。因?yàn)槟切┎皇菑木浞▽用鎰澐殖鰜淼臉?biāo)記,即使標(biāo)示出來也無法在句法分析中進(jìn)行處理。
其次,在有意義的基礎(chǔ)上,我們需要把握一個度。因?yàn)榕c語言本體或語言理論研究追求細(xì)致和完美的目的不同,語言工程更多地是要求時效性和可行性。在語料庫的標(biāo)注過程中,詞類劃分不宜過多或過少。詞類過少,對句法分析的深度和精度不夠。詞類過多,又會使語言分析和處理的過程太復(fù)雜,代價太高。那么,到底劃分多少詞類才能在句法層面達(dá)到自足呢?對世界上13種語言依存句法的考察表明,在進(jìn)行自動句法分析時,一種語言所劃分出的詞類數(shù)量一般應(yīng)當(dāng)控制在在10~20之間。
本文通過系統(tǒng)①,探討了兼類詞以及區(qū)別詞和狀態(tài)詞的詞性標(biāo)注問題。我們將首先對所討論的標(biāo)記概念進(jìn)行界定,然后對比當(dāng)今國內(nèi)幾大分詞系統(tǒng)對其的處理,最后經(jīng)過綜合分析探討之后,提出一些具有可行性的建議。
二、兼類詞
兼類詞從狹義上講是指同一個義項(xiàng)(嚴(yán)格說是同一概括詞)兼屬多個詞類。如“小時(n/q)”。從廣義上講還包括意義上有聯(lián)系的幾個義項(xiàng)屬于不同詞類。如“通知(v/n)”。
兼類詞的處理在計算語言學(xué)中一直是個頗有爭議的難點(diǎn)問題,怎么來處理兼類詞,區(qū)分還是不做區(qū)分,粗分還是細(xì)分。為了回答這些問題,我們從語言本體和計算機(jī)處理的角度,對國內(nèi)的幾個分詞系統(tǒng)進(jìn)行了分析和比較。
據(jù)統(tǒng)計,兼類詞主要出現(xiàn)在名詞、動詞、形容詞、副詞之間。那么,這幾個分詞系統(tǒng)是如何處理這些詞類的呢?表1為幾個系統(tǒng)對五種詞類的標(biāo)注:
表1:四大標(biāo)注系統(tǒng)的五類標(biāo)記對比
從上面的對比和對具體語料的考察可知,四個系統(tǒng)對兼類都做了不程度的區(qū)分:A和D較嚴(yán)格地區(qū)分了各種兼類情況,并且連“名物化”現(xiàn)象都做了區(qū)分。B系統(tǒng)的分詞類別最為詳盡,但具體對兼類的處理和C系統(tǒng)并沒有大的差別,它們都只對明顯的兼類情況做了區(qū)分。
但是,當(dāng)在這些系統(tǒng)輸出的基礎(chǔ)上進(jìn)行句法分析時我們卻發(fā)現(xiàn):(1)由于語言使用的靈活性,機(jī)器還不能對大量的兼類做很好的區(qū)分,如像“工作”類廣義的兼類詞都不能很好地區(qū)分,仍需要人工排查。(2)由于動詞性兼類大量不做區(qū)分,致使動詞成了全能詞,其功能在數(shù)據(jù)上的區(qū)分度在所有詞類中最低。(3)兼類詞的不做區(qū)分不利于計算機(jī)句法分析,也不利于基于語料庫的語言學(xué)研究。
基于以上分析,我們認(rèn)為,對兼類的處理應(yīng)該采取嚴(yán)格區(qū)分的標(biāo)準(zhǔn),綜合考慮進(jìn)一步句法分析的需要和寬泛意義上的通用性需要,并參考本體語言學(xué)的有關(guān)研究成果。因此我們提出如下建議:
第一,對于兼類詞的第二種情況,也即意義上有聯(lián)系的幾個義項(xiàng)屬于不同的詞類的,既然是不同詞類,就必須分開,如“鎖、領(lǐng)導(dǎo)、工作、死”等。陸儉明認(rèn)為,從本體研究的需要出發(fā),這些詞并不屬于兼類詞,也就是說雖同音,但意義不同,所以必須分開。
第二,對于兼類詞的第一種情況,這也是分詞系統(tǒng)的難點(diǎn)問題,是我們主要解決的問題。在四個系統(tǒng)中,只有A和D對其做了區(qū)分,但其區(qū)分并沒有改變詞類,只是從活用的角度在小類內(nèi)部做了區(qū)分,如vd與vn,雖然從詞類上看似比較合理,但對進(jìn)一步的句法分析并沒有什么大的幫助。況且我們仔細(xì)分析就會發(fā)現(xiàn),不只是動詞和形容詞存在這種情況,名詞也會有這種情況,比如現(xiàn)在看來已經(jīng)很普遍的“很+名”現(xiàn)象,如果按這樣的觀點(diǎn),很大一部分名詞如“陽光、女人”都應(yīng)該標(biāo)為na,但為什么沒有標(biāo)呢?
這類兼類主要有以下幾種情況:
1.“v-n”兼類、“v-d”兼類
在黃昌寧等的統(tǒng)計中,動詞和名詞的兼類在《中學(xué)生詞典》中占兼類詞總數(shù)的49.8%,在《兼類詞選釋》中占兼類詞總數(shù)的37.6%。據(jù)郭銳統(tǒng)計,具有名詞性的動詞在10300個動詞中有2381個,占23%,在詞頻最高的前3925個詞中共有1220個,占31%。因此,對這類詞的處理對句法分析會產(chǎn)生較大的影響,應(yīng)分開處理,如“研究、調(diào)查、學(xué)習(xí)、發(fā)展、解決”等。動詞和副詞的兼類雖然數(shù)量上沒有前者多,但由于其功能性比較明顯(直接作狀語),因此我們也建議分開。
2.“a-n”兼類、“a-d”兼類
因?yàn)閯釉~和形容詞同屬謂詞類,且這類兼類情況在兼類中的數(shù)量僅次于動名兼類,因此,我們也建議區(qū)分開來。形容詞和名詞的兼類如“安全、健康、平衡、奧妙”等,形容詞和副詞的兼類如“認(rèn)真、深入”等。
3.“n-q”兼類
有些名詞可以經(jīng)常用在數(shù)詞的后面表示物量或者動量,前者如“碗、桶、車”等,后者如“刀、筆、天”等。因?yàn)槠涔δ鼙容^明顯,并且在數(shù)據(jù)庫中這類詞的數(shù)量也并不少,因此按量詞處理。
4.名詞的其他活用
雖然我們對動詞、形容詞的活用都做了區(qū)分,但考慮到這類名詞活用現(xiàn)象的數(shù)量有限性和意義單一性,我們對名詞臨時具有形容詞性質(zhì)的情況不做區(qū)分,仍按名詞處理。
三、區(qū)別詞和狀態(tài)詞
形容詞是漢語實(shí)詞中非常重要的一類詞,一般表示事物的性質(zhì)、狀態(tài),其內(nèi)部分類比較復(fù)雜。在比較早期的語法書當(dāng)中,以下的幾類詞統(tǒng)統(tǒng)被歸為形容詞:
a.黃、慢、大、幼稚、美妙、透明、簡單,安全……
b.黝黑、雪白、火熱、碧藍(lán)、稀里糊涂、古里古怪……
c.上等、慢性、有線、長途、活期、金、副……
其中,c類最早由呂叔湘、饒長溶(1981)提出,他們稱之為“非謂形容詞”,是形容詞的一個次類。朱德熙先生在《語法講義》里首次將c類形容詞單列為“區(qū)別詞”。
對應(yīng)于語法上的不同分類,現(xiàn)存的國內(nèi)語料庫在詞性標(biāo)注這一問題上,存在著明顯的差別。有的系統(tǒng)把區(qū)別詞從形容詞中劃分出來,如系統(tǒng)a、c。在系統(tǒng)a中,還對區(qū)別詞進(jìn)行了更為細(xì)致的區(qū)分:①一般為切分單位,并標(biāo)以詞性b,如女/b司機(jī)/n,金/b手鐲/n;②單音節(jié)區(qū)別詞和單音節(jié)名詞或名語素組合,作為一個切分單位,并標(biāo)以名詞詞性n,如雄雞/n,雌象/n;③少數(shù)“單音節(jié)區(qū)別詞+雙音節(jié)詞”的結(jié)構(gòu)作為一個詞收入了詞典,則不再切分??倳?n。與之不同,系統(tǒng)b把形容詞分為四類:性質(zhì)形容詞aq、區(qū)別詞b、唯謂形容詞ap、狀態(tài)形容詞as;系統(tǒng)d則把區(qū)別詞從形容詞當(dāng)中分割出來,將區(qū)別詞分為b區(qū)別詞、b1區(qū)別詞性慣用語,而且把狀態(tài)詞也從形容詞中分割出來并給予一個z作標(biāo)記。
從計算語言學(xué)的角度來看,這些對形容詞的分類都因太復(fù)雜而影響到了句法分析的效率。如何處理才能更適合進(jìn)一步的句法分析呢?首先從語言本體的方面,針對這三類詞的不同性質(zhì)特征,作一個比較,見表2:
表2:三種形容詞的對比
不難發(fā)現(xiàn),盡管這三類詞的語法功能各不相同,但是,它們有一個唯一的共同點(diǎn),即作名詞的定語。不同的分詞標(biāo)準(zhǔn),服務(wù)于不同的研究目的。由于“區(qū)別詞的詞類本質(zhì)是修飾,功能固定而單一”。較好地體現(xiàn)了形容詞性成分的功能,所以遵循著靈活的分類意見,本文建議將這三類詞歸并在一起。區(qū)別詞可以看作作定語的形容詞當(dāng)中的一個小部分,狀態(tài)詞則或作謂語,或作補(bǔ)語,或作定語的形容詞中的一個小部分。
在語言本體研究上應(yīng)該把區(qū)別詞和形容詞作一個明確的區(qū)分,區(qū)分的理論價值不容否認(rèn)。而“區(qū)別詞的詞類本質(zhì)是修飾,功能固定而單一”。從工程的角度,即從語料庫的建設(shè)角度所采取的劃分則與之迥異。因?yàn)榕c語言本體或語言理論研究追求細(xì)致和完美的目的不同,語言工程更多是要求可行性和可操作性。
四、結(jié)語
在計算語言學(xué)中,語料庫的標(biāo)注是進(jìn)行一切研究的基礎(chǔ),從語料庫工程建設(shè)的角度講,我們應(yīng)堅(jiān)持經(jīng)濟(jì)省力原則,對于不必要的詞類標(biāo)記建議能簡則簡。正如本文所述,在參考各家本體語言學(xué)研究的基礎(chǔ)上,對于兼類詞,除少數(shù)名詞活用之外,我們建議嚴(yán)格按功能區(qū)分詞性,將其劃到各個詞類之中;而區(qū)別詞、狀態(tài)詞,則建議不再和形容詞區(qū)分開來。標(biāo)注方案的一致性不僅能節(jié)約資源,減少建設(shè)語料庫的資金投入,同時也能給我們的研究和應(yīng)用帶來便利,為進(jìn)一步開發(fā)語料庫奠定基礎(chǔ)。
(本文為中國傳媒大學(xué)“211工程”三期重點(diǎn)學(xué)科建設(shè)項(xiàng)目,名稱為“漢語有聲媒體語言依存句法樹庫構(gòu)建與應(yīng)用研究”。)
注 釋:
①A系統(tǒng):北京大學(xué)現(xiàn)代漢語語料庫加工規(guī)范,《中文信息學(xué)報》,
16卷第5期;B系統(tǒng):國家語言文字應(yīng)用研究所計算語言學(xué)研究室,信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范,《語言文字應(yīng)用》,2001年8月第3期;C系統(tǒng):哈工大信息檢索研究室漢語依存樹庫;D系統(tǒng):中科院計算所漢語詞性標(biāo)記集。
參考文獻(xiàn):
[1]郭銳.現(xiàn)代漢語詞類研究[M].北京:商務(wù)印書館,2002.
[2]Liu,Haitao&Huang,Wei.A Chinese Dependency Syntax for Treebanking[M].Beijing:Tsinghua University Press,2006.
[3]陸儉明.現(xiàn)代漢語語法研究教程[M].北京:北京大學(xué)出版社,2005.
[4]黃昌寧,童翔.漢語真實(shí)文本的語義自動標(biāo)注[J].語言文字應(yīng)用,1993,(4).
[5]俞士汶,段慧明,朱學(xué)峰,孫斌.北京大學(xué)現(xiàn)代漢語語料庫加工規(guī)范[J].中文信息學(xué)報,2002,(5).
[6]北京大學(xué)中文系現(xiàn)代漢語教研室.現(xiàn)代漢語專題教程[M].北京:北京大學(xué)出版社,2003.
(萬紅雅 劉丙麗 牛雅嫻 董藝 北京 中國傳媒大學(xué)應(yīng)用語言學(xué)研究所 100024)