莫禮平 胡美琪 唐琰
摘要:為了解決詞性標(biāo)注技術(shù)研究過程中所涉及的詞性標(biāo)注語料及詞性標(biāo)注規(guī)則等知識的管理問題,以系統(tǒng)功能、詞性標(biāo)注語料庫、詞性電子詞典、詞性標(biāo)注規(guī)則庫和詞性標(biāo)注規(guī)則自動獲取方法的設(shè)計與實現(xiàn)為重點,構(gòu)建了一個湘西苗文詞性標(biāo)注知識庫系統(tǒng)。測試情況表明,該系統(tǒng)不但具備詞性標(biāo)注語料及詞性標(biāo)注標(biāo)注規(guī)則的常規(guī)管理功能,而且支持用戶從語料庫自動提取詞性標(biāo)注規(guī)則,并對測試語料進行詞性自動標(biāo)注,能夠滿足湘西苗文詞性標(biāo)注技術(shù)研究的基本需求。
關(guān)鍵詞:詞性標(biāo)注;知識庫系統(tǒng);語料庫;規(guī)則庫
中圖分類號:TP391.1 ? ? ?文獻標(biāo)識碼:A
文章編號:1009-3044(2021)31-0009-04
The Construction of the Knowledge Base System for Part-of-Speech Tagging in Xiangxi Hmong
MO Li-ping*, HU Mei-qi, TANG Yan
(College of Information Science & Engineering, Jishou University,Jishou 416000, China)
Abstract: To solve the problem of knowledge management such as part-of-speech (POS) tagging corpus and POS tagging rules involved in the research process of POS tagging technology, a knowledge base system for POS tagging in Xiangxi Hmong is constructed by focusing on the design and implementation of system functions, POS tagging corpus, POS electronic dictionary, POS tagging rule base, and automatic acquisition method of POS tagging rules. The test results show that the POS tagging knowledge base system not only has the regular management functions of POS tagging corpus and rules, but also supports users to automatically extract POS tagging rules from the corpus and automatically tag corpus, which can meet the basic needs of the research on the technology of part-of-speech tagging in Xiangxi Hmong.
Key words: part-of-speech tagging; knowledge base system; corpus; rule base
1 引言
詞性標(biāo)注是自然語言處理領(lǐng)域的基礎(chǔ)課題之一,在語義理解、機器翻譯、文本語音轉(zhuǎn)換等自然語言處理應(yīng)用中起著至關(guān)重要的作用。詞性標(biāo)注相關(guān)研究始于上世紀(jì) 60 年代初對世界最早的機讀語料庫—Brown語料庫中的英文語料的詞性標(biāo)注工作[1]。歷經(jīng)近60年的發(fā)展,英文詞性標(biāo)注技術(shù)已趨于成熟,國外面向意大利文、阿拉伯文等文字的詞性標(biāo)注技術(shù)也發(fā)展迅速[2-3]。國內(nèi)面向漢字、藏文、維吾爾文、蒙古文等文字的詞性標(biāo)注研究工作起步較早且成果豐碩[4]。面向漢、藏、維、蒙的詞性標(biāo)注技術(shù)當(dāng)前已同深度學(xué)習(xí)模型緊密結(jié)合,取得了比傳統(tǒng)詞性標(biāo)注方法顯著優(yōu)異的詞性標(biāo)注效果[5-8]。然而,國內(nèi)面向苗文的詞性標(biāo)注相關(guān)研究工作剛剛起步,前期僅有周潭等[9]從詞性標(biāo)記集的設(shè)計,Li H C等[10]從基于隱馬爾可夫模型(Hidden Markov Model,HMM)的苗漢混合文本詞性自動標(biāo)注等方面開展了一些嘗試性研究工作。
本文結(jié)合苗文信息化的實際需要,探討湘西苗文詞性標(biāo)注知識庫系統(tǒng)的設(shè)計和實現(xiàn)方法,以期為湘西苗文的詞性自動標(biāo)注和智能處理技術(shù)研究奠定基礎(chǔ),并為武陵山片區(qū)湘西民族文化資源大數(shù)據(jù)的開發(fā)及利用提供工具支持。
2 湘西苗文語料收集處理及詞性標(biāo)記集設(shè)計
2.1 語料收集處理
湘西苗文是指在武陵山片區(qū)湘西土家族苗族自治州苗民聚居地流行使用的苗文,分為圖 1所示的方塊苗文和方言苗文兩大類。方塊苗文是一種仿漢字結(jié)構(gòu)的文字,是表意苗文的代表,共分為老寨苗文、古丈苗文和板塘苗文三套[11]。方言苗文(也稱湘西新苗文)基于拉丁字母,是拼音苗文的代表。據(jù)文獻[12],中國科學(xué)院1956年組織中國少數(shù)民族語言第二調(diào)查隊詳細(xì)調(diào)查了湘西苗語使用情況,根據(jù)調(diào)查結(jié)果創(chuàng)制了湘西方言的《苗文方案(草案)》,并從1958年開始在湘西花垣縣和鳳凰縣試驗推行新苗文,1961年因故中止,1983年得以恢復(fù)。推行期間,政府編印出版了大量新苗文讀物,取得文字普及的良好效果,有力地推動了當(dāng)?shù)亟?jīng)濟文化事業(yè)的發(fā)展。方言苗文又分為中東部土語苗文和西部土語苗文兩類。前者分布在湘西自治州的瀘溪、吉首、龍山等縣,以龍山苗語苗文為代表;后者則分布在吉首、鳳凰、龍山、鳳凰、花垣等縣,其代表是吉衛(wèi)苗語苗文和矮寨苗語苗文。
通過學(xué)校圖書館民族文獻借閱、網(wǎng)絡(luò)文獻檢索、民間實地調(diào)查搜集等途徑,我們已經(jīng)搜集了大量記載苗文詞匯、語句、民間故事、民歌民謠等湘西苗文相關(guān)手稿、書稿和其他類型的資料。在對這些資料進行整理歸類的基礎(chǔ)上,經(jīng)拍照、掃描、圖片加工等處理,借助國際音標(biāo)輸入法軟件、“掃描全能王”文字識別軟件,以及方塊苗文輸入法軟件錄入湘西苗文原始語料;然后,結(jié)合向日征編著的《漢苗詞典(湘西方言)》和石如金編著的《苗漢漢苗詞典》,設(shè)計語料數(shù)據(jù)庫,制成了與漢語對等理解度的湘西苗文詞級生語料。
2.2 詞性標(biāo)記集的設(shè)計
在根據(jù)生語料的統(tǒng)計分析結(jié)果確定湘西苗文詞語的種類和詞性的基礎(chǔ)上,我們直接借鑒北京大學(xué)計算語言學(xué)研究俞士汶主編的《現(xiàn)代漢語語料庫加工―詞語切分與詞性標(biāo)注規(guī)范與手冊》中的詞性編碼方法進行苗文詞性標(biāo)注符號、形式和風(fēng)格的設(shè)計。通過對周潭等[9]設(shè)計的方塊苗文詞性標(biāo)記集進行擴充,建立了如表1所示的較完整的湘西苗文詞性標(biāo)記集。
3 湘西苗文詞性標(biāo)注知識庫系統(tǒng)的設(shè)計
下面從系統(tǒng)功能模塊設(shè)計、苗文詞性電子詞典設(shè)計、苗文詞性規(guī)則庫設(shè)計,以及詞性標(biāo)注規(guī)則自動獲取方法設(shè)計等幾個方面來介紹湘西苗文詞性標(biāo)注知識庫系統(tǒng)的設(shè)計方法。
3.1系統(tǒng)功能模塊設(shè)計
湘西苗文詞性標(biāo)注知識庫系統(tǒng)主要包括語料庫管理、規(guī)則處理和詞性自動標(biāo)注三個重要模塊。其中的核心子模塊功能設(shè)計如下:
(1)語料庫管理功能:湘西苗文詞性標(biāo)注知識庫系統(tǒng)中的語料以文件形式保存,用戶可以將已標(biāo)注語料以文件形式導(dǎo)入或?qū)С?,也可以通過操作系統(tǒng)的資源管理器選擇語料文件來查詢、添加、修改或刪除;
(2)規(guī)則手動導(dǎo)入功能:允許用戶把事先手工編制的詞性標(biāo)注規(guī)則文件導(dǎo)入系統(tǒng);
(3)規(guī)則自動提取功能:利用關(guān)聯(lián)規(guī)則挖掘算法從已標(biāo)注語料庫中自動提取規(guī)則,并將規(guī)則保存在知識庫系統(tǒng)的規(guī)則庫中;
(4)規(guī)則管理功能:手動導(dǎo)入及自動提取的詞性標(biāo)注規(guī)則在湘西苗文詞性標(biāo)注知識庫系統(tǒng)中均以條目形式進行保存,用戶可以對相應(yīng)規(guī)則進行增加、查詢、修改或刪除等常規(guī)管理;
(5)詞性自動標(biāo)注功能:用戶可以利用規(guī)則庫中存儲的詞性標(biāo)注規(guī)則對語料測試樣例進行詞性標(biāo)注,并對標(biāo)注結(jié)果進行保存或輸出處理;
(6)測試樣例管理功能:用戶可以從外部文件導(dǎo)入語料測試樣例以供自動標(biāo)注測試,并對測試樣例進行查詢、添加、修改、刪除等操作。
3.2 苗文詞性電子詞典設(shè)計
湘西苗文詞性電子詞典結(jié)構(gòu)按照漢語語法的傳統(tǒng)用法來設(shè)計。首先,將苗文粗分為實詞和虛詞兩大類;然后,再在這兩大類的基礎(chǔ)上根據(jù)詞的語法功能進行細(xì)分,并對其進行詳細(xì)地描述。電子詞典的結(jié)構(gòu)包括如下三部分:
(1)詞性本身:名詞、動詞、副詞、形容詞等;
(2)語法功能:邏輯結(jié)構(gòu)、功能描述、形式結(jié)構(gòu)等;
(3)其他:習(xí)慣用法、詞語搭配、語言色彩、解釋說明等。
3.3 苗文詞性標(biāo)注語料庫設(shè)計
首先依據(jù)苗文詞性電子詞典來手工標(biāo)注湘西苗文詞性,進而創(chuàng)建苗文詞性標(biāo)注語料庫。語料庫中手工標(biāo)注的語料以“詞性”為基礎(chǔ),對文本進行漢語翻譯和分詞后對每一個詞語附上相應(yīng)的詞性標(biāo)簽。表2以方言苗文為例,給出了湘西苗文詞性標(biāo)注語料庫的內(nèi)容示例及附加說明。
3.4 苗文詞性標(biāo)注規(guī)則庫設(shè)計
詞性標(biāo)注規(guī)則是規(guī)則類詞性自動標(biāo)注方法進行詞性標(biāo)注的依據(jù)。湘西苗文詞性標(biāo)注規(guī)則庫中存儲的規(guī)則通常設(shè)計為形如“if … then …”的產(chǎn)生式規(guī)則。例如,“if(Word1,Tag1) then(Word2,Tag2)”和“if(Word1,Tag1) and(Word2,Tag2) then(Word3,Tag3)”的產(chǎn)生式規(guī)則分別表示前1-2個詞或詞性的組合對當(dāng)前詞的詞性影響的規(guī)則。由于同一個詞語在不同上下文環(huán)境中可能擁有不同詞性,使得根據(jù)不同規(guī)則來確定同一詞語的詞性時可能發(fā)生沖突,為了提高標(biāo)注的準(zhǔn)確率,每一條規(guī)則定義一個置信度來表示該規(guī)則的準(zhǔn)確程度。進行詞性標(biāo)注時,優(yōu)先選擇置信度較高的規(guī)則作為標(biāo)注依據(jù)。
湘西苗文詞性標(biāo)注規(guī)則庫中存儲的規(guī)則既包括結(jié)合苗文詞性電子詞典和詞性標(biāo)注語料庫手工編制的詞性標(biāo)注規(guī)則,又包括應(yīng)用關(guān)聯(lián)規(guī)則挖掘FP-Growth算法從詞性標(biāo)注訓(xùn)練語料庫中自動獲取的詞性標(biāo)注規(guī)則。
3.5 基于FP-Growth算法的詞性標(biāo)注規(guī)則自動獲取方法設(shè)計
湘西苗文詞性標(biāo)注知識庫系統(tǒng)涉及到的核心算法是用于自動獲取詞性標(biāo)注規(guī)則的FP-Growth算法。該算法過程主要包括計算候選模式集、提取頻繁模式集和生成關(guān)聯(lián)規(guī)則三個階段。FP-Growth算法應(yīng)用于詞性標(biāo)注規(guī)則自動獲取的方法設(shè)計如下:
(1)以詞性標(biāo)注訓(xùn)練語料庫作為事務(wù)數(shù)據(jù)庫;
(2)采用FP-Growth算法掃描事務(wù)數(shù)據(jù)庫,構(gòu)建模式前綴樹FP-tree來存儲候選模式集,從訓(xùn)練集的句子中提取不同長度的模式,用以生成候選模式集;
(3)構(gòu)建條件模式基FP-tree,并根據(jù)用戶給定的最小支持度,從候選模式集中挖掘大于最小支持度的各種長度模式的頻繁模式集;
(4)針對各個頻繁模式,生成形如“a1a2,...,ak-1ak=>(wk,ak)”的關(guān)聯(lián)規(guī)則;
(5)如果得到的關(guān)聯(lián)規(guī)則滿足用戶給定的最小置信度,則將規(guī)則改寫成形如“if(Word1,Tag1) then(Word2,Tag2)”或“if(Word1,Tag1) and(Word2,Tag2) then(Word3,Tag3)”的產(chǎn)生式規(guī)則,將其加入規(guī)則庫。
4 湘西苗文詞性標(biāo)注知識庫系統(tǒng)功能界面的實現(xiàn)
下面以語料庫管理、詞性標(biāo)注規(guī)則處理、自動標(biāo)注三個功能為例來介紹湘西苗文詞性標(biāo)注知識庫系統(tǒng)主要功能界面的實現(xiàn)。
4.1語料庫管理功能界面
湘西苗文詞性標(biāo)注知識庫系統(tǒng)中的語料主要來自于吉衛(wèi)苗語苗文、湘西矮寨苗語苗文和龍山苗語苗文,以及三套方塊苗文。前期,我們已針對《苗文課本》(1-4冊)、《吉衛(wèi)苗語研究》《龍山苗語實錄與導(dǎo)讀》《苗族語言與文化》《湘西矮寨苗語》等書籍內(nèi)容,在進行人工錄入、檢驗、分詞和標(biāo)注等工作的基礎(chǔ)上,建立了湘西苗文詞性標(biāo)注語料數(shù)據(jù)庫。數(shù)據(jù)庫中存儲的語料既包含手工標(biāo)注語料,也包括前期采用隱馬爾科夫模型方法自動標(biāo)注的語料。湘西苗文詞性標(biāo)注知識庫系統(tǒng)提供了對這些語料進行添加、查詢、修改和刪除的功能。語料庫管理功能界面運行效果如圖2所示。
實現(xiàn)語料庫管理功能界面的關(guān)鍵源代碼如下。
<div class="bgai" id="fun1" style="display: none;">
<div class="leftm">
<div class="opt" onclick="location.href='input_rule.html'">新增語料</div>
<div class="opt">查詢語料</div>
<div class="opt">修改語料</div>
<div class="opt">刪除語料</div>
</div>
<div class="topseek">
<div class="tip">輸入文件名:</div>
<input type="text" id="edt" onclick="" />
<input type="button" id="btn" value="查詢" onclick="" />
</div>
<div class="btmlist">
<div class="item"><div class="itemtext">吉衛(wèi)苗語例句STD.txt</div><button>查詢</button></div>
<div class="item"><div class="itemtext">苗語語料002a.txt</div><button>查詢</button></div>
<div class="item"><div class="itemtext">苗語語料002b.txt</div><button>查詢</button></div>
<div class="item"><div class="itemtext">苗語語料04.txt</div><button>查詢</button></div>
</div>
</div>
4.2 詞性標(biāo)注規(guī)則處理功能界面
湘西苗文詞性標(biāo)注知識庫系統(tǒng)中的詞性標(biāo)注規(guī)則以條目形式進行保存。用戶可以將事先手工編制的詞性標(biāo)注規(guī)則文件導(dǎo)入到系統(tǒng)的規(guī)則庫中,也可以利用關(guān)聯(lián)規(guī)則挖掘FP-Growth算法從已標(biāo)注語料庫中自動提取規(guī)則,并將提取的規(guī)則保存到系統(tǒng)的規(guī)則庫。用戶使用系統(tǒng)提供的規(guī)則管理功能對規(guī)則庫中的規(guī)則進行新增、查詢、修改或刪除等常規(guī)管理。規(guī)則處理功能界面運行效果如圖3所示。
實現(xiàn)規(guī)則處理功能界面的關(guān)鍵源代碼如下。
<div class="bgai" id="fun1" style="display: none;">
<div class="leftm">
<div class="opt" onclick="location.href='input_rule.html'">新增規(guī)則</div>
<div class="opt">查詢規(guī)則</div>
<div class="opt">修改規(guī)則</div>
<div class="opt">刪除語料</div>
</div>
<div class="topseek">
<div class="tip">輸入文件名:</div>
<input type="text" id="edt" onclick="" />
<input type="button" id="btn" value="查詢" onclick="" />
</div>
<div class="btmlist">
<div class="item"><div class="itemtext">苗語標(biāo)注規(guī)則1</div><button>查詢</button></div>
<div class="item"><div class="itemtext">苗語標(biāo)注規(guī)則2</div><button>查詢</button></div>
<div class="item"><div class="itemtext">苗語標(biāo)注規(guī)則3</div><button>查詢</button></div>
<div class="item"><div class="itemtext">苗語標(biāo)注規(guī)則4</div>button>查詢</button></div>
</div>
</div>
4.3 語料自動標(biāo)注功能界面
湘西苗文詞性標(biāo)注知識庫系統(tǒng)提供了詞性自動標(biāo)注功能,允許用戶利用規(guī)則庫中存儲的詞性標(biāo)注規(guī)則對語料測試樣例進行詞性標(biāo)注,并把結(jié)果進行保存或輸出。用戶可以從外部文件導(dǎo)入語料測試樣例以供自動標(biāo)注測試。同語料庫管理功能一樣,系統(tǒng)也支持對測試樣例的增加、查詢、添加、刪除等操作。自動標(biāo)注功能界面運行效果如圖4所示。
實現(xiàn)語料自動標(biāo)注功能界面的關(guān)鍵源代碼如下。
<div class="bgai" id="fun2">
<input type="text" value="語料庫>語料B.txt" />
<input type="button" value="手動輸入測試樣例" />
<input type="button" value="從語料庫中選擇" />
<div id="inputarea">輸入預(yù)覽</div>
<textarea></textarea>
<div id="outputarea">標(biāo)注結(jié)果</div>
<textarea></textarea>
<div id="out">導(dǎo)出結(jié)果</div>
</div>
5 結(jié)束語
構(gòu)建湘西苗文詞性標(biāo)注知識庫系統(tǒng)之后,我們根據(jù)重新收集整理得到的湘西苗文語料,對系統(tǒng)中詞性標(biāo)注語料庫和詞性標(biāo)注規(guī)則庫的內(nèi)容進行了補充豐富。然后,對經(jīng)上述處理后的湘西苗文詞性標(biāo)注知識庫系統(tǒng)進行了較全面的運行測試。測試結(jié)果表明,該系統(tǒng)基本到達(dá)預(yù)期目標(biāo),具備湘西苗文詞性標(biāo)注技術(shù)研究所需要的基本功能。
本文從語料收集處理及詞性標(biāo)記集設(shè)計、系統(tǒng)的設(shè)計、系統(tǒng)主要功能模塊的實現(xiàn)等幾個方面闡述了湘西苗文詞性標(biāo)注知識庫系統(tǒng)的構(gòu)建過程,對于面向其他文字的詞性標(biāo)注相關(guān)知識庫系統(tǒng)的設(shè)計和開發(fā)能夠起到一定的借鑒作用。
參考文獻:
[1] Leech G. The state of the art in corpus linguistics[A]. In K. Aijmer & B. Altenberg(eds. ). English CorpusLinguistics: Studies in Honor of Jan Swartvik [C]. London: Longman, 1991, 9-11.
[2] Bosco C,Tamburini F,Bolioli A,et al.Overview of the EVALITA 2016[M]//EVALITA.Evaluation of NLP and Speech Tools for Italian.Accademia University Press,2016:78-84.
[3] Abumalloh R A, Al-Sarhan H M, Ibrahim O, et al. Arabic Part-of-Speech Tagging[J]. J. Soft Comput. Decis. Support Syst, 2016, 3(2): 45-52.
[4] 中文信息處理發(fā)展報告(2016), 中國中文信息學(xué)會, 北京: 2016.
[5] 謝逸,饒文碧,段鵬飛,等.基于CNN和LSTM混合模型的中文詞性標(biāo)注[J].武漢大學(xué)學(xué)報(理學(xué)版),2017,63(3):246-250.
[6] Wang L L,Chen Z Y,Yang H W.TPOS tagging method based on BiLSTM_CRF model[M]//Communications in Computer and Information Science.Singapore:Springer Singapore,2019:490-503.
[7] 帕麗旦·木合塔爾,吾守爾·斯拉木,買買提阿依甫.基于混合模型的維吾爾文詞性標(biāo)注方法[J].計算機仿真,2019,36(1):268-273.
[8] 劉婉婉,蘇依拉,烏尼爾,等.基于門控循環(huán)神經(jīng)網(wǎng)絡(luò)詞性標(biāo)注的蒙漢機器翻譯研究[J].中文信息學(xué)報,2018,32(8):68-74.
[9] 周潭,莫禮平,曾虎,等.方塊苗文詞性標(biāo)注集的設(shè)計[J].智能計算機與應(yīng)用,2019,9(1):131-134.
[10] Li H C,Mo L P,Zhou K Q.A part-of-speech tagging approach for Chinese-Hmong mixed text[J].IOP Conference Series:Materials Science and Engineering,2020,864:012064.
[11] 趙麗明,劉自齊.湘西方塊苗文[J].民族語文,1990(1):44-49.
[12] 魏忠.中國的多種民族文字及文獻[M].北京:民族出版社,2004.
【通聯(lián)編輯:唐一東】
收稿日期:2021-06-25
基金項目:湖南省語委語言文字應(yīng)用研究專項課題(XYJ2019GB09);湖南省自然科學(xué)基金項目(2019JJ40234);湖南省教育廳科學(xué)研究重點項目(19A414);吉首大學(xué)本科生科研項目(JDX19031)
作者簡介:胡美琪(1999—),女,本科生,主要研究方向:自然語言處理;莫禮平(1972—),通信作者,女,碩士,教授,主要研究方向:自然語言處理、智能計算及應(yīng)用研究;唐琰(1998—),男,本科生,主要研究方向:自然語言處理。