周 潭, 莫禮平, 曾 虎, 雷 智, 李文宇, 吳 瑩
(吉首大學(xué) 信息科學(xué)與工程學(xué)院, 湖南 吉首 416000)
詞性標(biāo)注是自然語(yǔ)言信息處理的基本內(nèi)容,也是文本索引、文本分類、語(yǔ)言合成、語(yǔ)料加工、機(jī)器翻譯、信息檢索等應(yīng)用領(lǐng)域不可缺少的一個(gè)環(huán)節(jié)。從概念上來講,詞性標(biāo)注就是根據(jù)上下文語(yǔ)法關(guān)系,判定句子中每個(gè)詞語(yǔ)的語(yǔ)法范疇,以確定其詞性并加以標(biāo)注的過程[1]。詞性標(biāo)注對(duì)于消除詞語(yǔ)歧義、減少查詢模糊性、降低索引量、提高檢索效果及效率有著重要作用。Wilks Y[2]在利用英文詞性標(biāo)注幫助實(shí)現(xiàn)語(yǔ)義消歧的研究中指出“詞性標(biāo)注是實(shí)現(xiàn)語(yǔ)義消歧的第一步”;利用詞性標(biāo)注減少查詢模糊性的研究也表明,在搜索引擎的信息查詢系統(tǒng)中加入詞性標(biāo)注功能,有助于系統(tǒng)更準(zhǔn)確理解用戶的查詢意圖,能夠返回更符合用戶要求的結(jié)果[3]。詞性標(biāo)注集是用來表示詞類的工具,是詞性標(biāo)注系統(tǒng)必不可少的組成部分。任何語(yǔ)言的詞性標(biāo)注都必須以詞性標(biāo)注集為基礎(chǔ)。詞性標(biāo)注集的建立及詞性標(biāo)注技術(shù)的發(fā)展與語(yǔ)料庫(kù)建設(shè)緊密相聯(lián)。20世紀(jì)60年代初,以N.Francis為首的一批學(xué)者在美國(guó)的布朗大學(xué)建成了當(dāng)今最早的機(jī)讀語(yǔ)料庫(kù)—Brown語(yǔ)料庫(kù)。在Brown語(yǔ)料庫(kù)的建設(shè)過程中,人們開始研究英文詞性標(biāo)注問題。20 世紀(jì) 80-90 年代,進(jìn)入第二代、第三代電子語(yǔ)料庫(kù)時(shí)代,百萬(wàn)、千萬(wàn)、上億詞級(jí)的深度標(biāo)注語(yǔ)料庫(kù)出現(xiàn)。此期間,英語(yǔ)詞性標(biāo)注集的建立及詞性標(biāo)注技術(shù)得到了長(zhǎng)足的發(fā)展[4]。歷經(jīng)近50多年的發(fā)展,英語(yǔ)詞性標(biāo)注集的建立及詞性標(biāo)注技術(shù)已趨于成熟,面向德文[5]、法文[6]、意大利文[7]、阿拉伯文[8-9]、印度文[10]的各種類型文本詞性標(biāo)注集的建立及詞性標(biāo)注技術(shù)也發(fā)展迅速。近年來,面向稀缺語(yǔ)言[11]的詞性標(biāo)注研究工作逐漸見諸報(bào)道。
本文根據(jù)方塊苗文這一稀缺語(yǔ)言文字的造字原理及方塊苗文詞語(yǔ)的使用特點(diǎn),結(jié)合對(duì)方塊苗文原始語(yǔ)料中詞語(yǔ)統(tǒng)計(jì)的結(jié)果,討論方塊苗文詞語(yǔ)的種類、詞性的確定和劃分方法,并嘗試參考漢語(yǔ)詞性標(biāo)注規(guī)范及標(biāo)注集的設(shè)計(jì)方法,制訂方塊苗文的詞性標(biāo)注符號(hào)和詞性標(biāo)記集。
湘西方塊苗文是清朝末年以來武陵山地區(qū)湘西苗族人民根據(jù)“取個(gè)人認(rèn)為最易認(rèn)、易記的漢字作為代表符號(hào)”的原則自創(chuàng)的一種文字[12-13],是中國(guó)民間苗族文化的主要載體之一。湘西方塊苗文分為3種,按照其產(chǎn)生和使用地區(qū),分別稱之為板塘苗文、老寨苗文、古丈苗文。這3種苗文都是清末以來苗族文人為記錄、整理、創(chuàng)作苗歌而創(chuàng)造的漢字式的苗文。當(dāng)?shù)孛缱迦罕姺Q之為“土字”、“鄉(xiāng)字”。其中,板塘苗文至今仍在附近數(shù)百里苗鄉(xiāng)流傳使用,對(duì)苗族文化的發(fā)展和傳播起到了良好的推進(jìn)作用。
湘西方塊苗文是武陵山地區(qū)湘西苗族人民因民族文化生活的需要而產(chǎn)生的一種借源文字。3種苗文均脫胎于漢字這一母體,記錄同一種語(yǔ)言。因此,3種方塊苗文在結(jié)構(gòu)和造字法方面都不謀而合,均采用方塊結(jié)構(gòu),且基本上都是一字一音節(jié)地標(biāo)記一個(gè)語(yǔ)素或詞;并借鑒了漢字的造字方法,創(chuàng)造性地運(yùn)用形聲、會(huì)意、假借、雙聲、象形等手段,借用包括義符、聲符、形符(特指象形偏旁)在內(nèi)的漢字或漢字構(gòu)件造字,酷似漢字而實(shí)非漢字。方法苗文中,源自形聲構(gòu)字的湘西方塊苗文約占總字?jǐn)?shù)的四分之三左右[12-13]。不同結(jié)構(gòu)的方塊苗文及其漢義如圖1所示。
圖1 不同結(jié)構(gòu)的方塊苗文及其漢義
Fig.1ExamplesofsquareHmongcharactersindifferentstructureandthecorrespondingChinesemeanings
實(shí)際應(yīng)用中,方塊苗文通常是在苗族人民創(chuàng)作的歌本、劇本中與漢字混合出現(xiàn)。方塊苗文的詞語(yǔ)以單字詞為主,有少量雙字詞,鮮有3字及以上的詞語(yǔ)出現(xiàn)。
詞性(part-of-speech)又稱為詞類,是以語(yǔ)法特征(包括句法功能和形態(tài)變化)為主要依據(jù)、兼顧詞匯意義的基礎(chǔ)上,對(duì)詞進(jìn)行劃分的結(jié)果。從組合和聚合關(guān)系來說,一個(gè)詞類就是指眾多具有相同句法功能,并可以在同樣的組合位置中出現(xiàn)的詞聚合在一起所形成的語(yǔ)言范疇。詞類劃分具有層次性。例如,漢語(yǔ)中的詞可以分成實(shí)詞和虛詞,實(shí)詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。
詞性標(biāo)注(part-of-speech tagging),又稱為詞類標(biāo)注,是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的過程,也即確定每個(gè)詞是名詞、動(dòng)詞、形容詞或者其它詞性的過程。
詞性標(biāo)注集系指對(duì)詞的類別進(jìn)行劃分的集合,是用來表示詞類的工具,是詞性標(biāo)注系統(tǒng)必不可少的組成部分。某一種語(yǔ)言的一套詞性標(biāo)注集應(yīng)該將詞性具體劃分為多少個(gè)類別,沒有統(tǒng)一的規(guī)定。因此,同一種語(yǔ)言可能建立多種詞性標(biāo)注集。在語(yǔ)言的實(shí)際應(yīng)用中,使用什么樣的詞性標(biāo)注集取決于應(yīng)用的目的及應(yīng)用所需要的信息量。在計(jì)算語(yǔ)言學(xué)不同的領(lǐng)域中,人們對(duì)詞性依賴的程度不同,處理的精度不同,所以對(duì)詞性分類的粒度的定義也不同。
詞性標(biāo)注有小標(biāo)注集和大標(biāo)注集。例如,小標(biāo)注集將所有代詞都?xì)w為一類,而大標(biāo)注集則將代詞進(jìn)一步細(xì)分為指示代詞、人稱代詞和疑問代詞3類。采用小標(biāo)注集比較容易實(shí)現(xiàn),但是太小的標(biāo)注集可能會(huì)導(dǎo)致類型區(qū)分度不夠。劃分越細(xì)致的詞性標(biāo)注集越有利于信息區(qū)分,但詞性標(biāo)注的難度也就越大。
每種語(yǔ)言都有自己的詞性標(biāo)注集。最早出現(xiàn)的詞性標(biāo)注集是英文詞性標(biāo)注集,著名的Brown語(yǔ)料庫(kù)所使用的標(biāo)注集(Brown標(biāo)注集)是歷史上最有影響的英語(yǔ)標(biāo)注集,包含87個(gè)標(biāo)記。多數(shù)的英語(yǔ)標(biāo)注集都是從該標(biāo)注集發(fā)展而來。賓州樹庫(kù)(Penn Treebank)使用的標(biāo)注集是經(jīng)過對(duì)Brown標(biāo)注集的簡(jiǎn)化而得到,包括45個(gè)標(biāo)記,現(xiàn)在已經(jīng)成為計(jì)算語(yǔ)言學(xué)領(lǐng)域使用最為廣泛的英語(yǔ)標(biāo)注集。同英語(yǔ)詞性標(biāo)注集一樣,漢語(yǔ)詞性標(biāo)注集目前也沒有統(tǒng)一的標(biāo)準(zhǔn)。因此,根據(jù)對(duì)詞性分類體系的不同理解和不同應(yīng)用領(lǐng)域的要求,出現(xiàn)了多種漢語(yǔ)詞性標(biāo)注集。中科院計(jì)算所劉群等制訂的“ICTPOS3.0漢語(yǔ)詞性標(biāo)記集”是當(dāng)前最有影響的詞性標(biāo)注集之一。
為了方便指明詞的詞性,詞性標(biāo)注集需要給每個(gè)詞性編碼。例如,見表1的《PFR人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)》的詞性編碼表就是根據(jù)詞性的英文單詞的首字母進(jìn)行詞性編碼。把“名詞”編碼成“n”、“形容詞”編碼成“a”、“動(dòng)詞”編碼成“v”等。
表1《PFR人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)》的詞性編碼表截表
Tab.1ScreenshotofthePOScodelistof"PFRPeople'sDailyLabelingCorpus"
詞性編碼詞性名稱注解Ag形語(yǔ)素形容詞性語(yǔ)素a形容詞取英語(yǔ)形容詞adjective的第1個(gè)字母ad副形詞直接作狀語(yǔ)的形容詞an名形詞具有名詞功能的形容詞b區(qū)別詞取漢子“別”的聲母c練詞取英語(yǔ)連詞conjunction的第一個(gè)字母d副詞取adverb的第二個(gè)字母dg副語(yǔ)素副詞性語(yǔ)素e嘆詞取英語(yǔ)嘆詞exclamation的第一個(gè)字母f方位詞取漢字“方”g語(yǔ)素絕大多數(shù)語(yǔ)素都能作為合成詞的“詞根”h前接部分取英語(yǔ)head的一個(gè)字母i成語(yǔ)取英語(yǔ)成語(yǔ)idiom的第一個(gè)字母j簡(jiǎn)稱略語(yǔ)取漢字“筒”的聲母…un未知詞不可識(shí)別詞及用戶自定義詞組
仿漢字結(jié)構(gòu)的方塊苗文基本上是一字標(biāo)記一個(gè)語(yǔ)素或詞。因此,實(shí)際應(yīng)用文檔中出現(xiàn)的方塊苗文詞語(yǔ)主要是單字詞和少量雙字詞,極少有3字及以上的詞語(yǔ)。這些詞語(yǔ)的詞性及使用方法類似于漢語(yǔ)詞語(yǔ)。而且,相對(duì)于漢語(yǔ),方塊苗文的詞語(yǔ)的數(shù)量較少,詞性也相對(duì)較少,語(yǔ)法較為簡(jiǎn)單,出現(xiàn)兼詞的詞語(yǔ)數(shù)量也很少。
在對(duì)已整理出的苗文初級(jí)生語(yǔ)料進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,根據(jù)方塊苗文詞語(yǔ)的漢義,將方塊苗文詞語(yǔ)分為實(shí)詞和虛詞2個(gè)大類。實(shí)詞分為7個(gè)小類:名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、副詞。虛詞分為介詞、助詞2個(gè)小類。此外,針對(duì)個(gè)別不可識(shí)別的詞語(yǔ)以及當(dāng)前漢義不明確的詞語(yǔ),增加一個(gè)類別,即未知詞。
由于方塊苗文詞語(yǔ)是根據(jù)其漢義確定所屬詞性分類,故可以直接借鑒漢語(yǔ)詞性標(biāo)注集的詞性編碼方法進(jìn)行方塊苗文詞性標(biāo)注集中詞性標(biāo)注的符號(hào)、形式和風(fēng)格的設(shè)計(jì)。依據(jù)北京大學(xué)計(jì)算語(yǔ)言學(xué)研究俞士汶主編的《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工―詞語(yǔ)切分與詞性標(biāo)注規(guī)范與手冊(cè)》,研究制訂了方塊苗文詞性標(biāo)注集,該詞性標(biāo)注集的部分內(nèi)容見表2。
表2方塊苗文詞性標(biāo)注集中的詞性編碼表截表
Tab.2ScreenshotofthePOScodelistinthePOStagsetforthesquareHmongcharacters
依據(jù)上述的方塊苗文詞性標(biāo)注集,筆者嘗試使用詞性標(biāo)注算法對(duì)整理出的苗文手稿資料文檔中的部分方塊苗文進(jìn)行詞性標(biāo)注。標(biāo)注效果如圖2所示。
方塊苗文是武陵山地區(qū)民間苗族文化的主要載體之一,其信息化對(duì)于弘揚(yáng)苗族文化,推進(jìn)民族文化旅游產(chǎn)業(yè)發(fā)展和苗族文化非物質(zhì)遺產(chǎn)數(shù)字化保護(hù)進(jìn)程有著重要意義。然而,方塊苗文信息處理研究起步較晚,僅有莫禮平等人[14-18]2013年以來,在方塊苗文的字信息處理層面取得的少量研究成果見于報(bào)道。實(shí)現(xiàn)字信息處理層面基本技術(shù)之后,語(yǔ)信息層面的詞性標(biāo)注技術(shù)研究和詞性標(biāo)注語(yǔ)料庫(kù)建設(shè)成為方塊苗文信息化研究需要解決的問題。而設(shè)計(jì)詞性標(biāo)注規(guī)范,并據(jù)此制訂完整的詞性標(biāo)記集,正是實(shí)現(xiàn)方塊苗文詞性標(biāo)注技術(shù)和建設(shè)方塊苗文語(yǔ)料庫(kù)的重要環(huán)節(jié)。本文結(jié)合方塊苗文的造字原理及詞語(yǔ)的使用特點(diǎn),參考漢語(yǔ)詞性標(biāo)注規(guī)范及標(biāo)注集的設(shè)計(jì)方法,初步制訂的方塊苗文詞性標(biāo)記集,將成為方塊苗文詞性標(biāo)注過程中進(jìn)行詞類表示的參考工具,為最終完整的信息處理用方塊苗文詞性標(biāo)記集的建立打下良好基礎(chǔ)。
圖2 詞性標(biāo)注效果截圖