楊世超 紀(jì)月 趙立鵬
摘要:雖然古漢語數(shù)字化程度已經(jīng)較高,但是自動化信息處理仍進(jìn)展緩慢,針對這一問題,采用條件隨機(jī)場模型制定特征模板進(jìn)行古漢語分詞研究并構(gòu)建古漢語訓(xùn)練語料庫。實(shí)驗(yàn)分析表明,制定具有語言特征的特征模板可以獲得較高的分詞性能。
關(guān)鍵詞:古漢語;分詞;條件隨機(jī)場;特征模板;語料庫
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)22-0183-02
1概述
古漢語典籍記載了中華民族的精華,存世古籍總計(jì)10萬種以上,如果計(jì)入碑刻、家譜等約15萬種,這些存世古籍負(fù)載著厚重的中華文明,凝聚著民族智慧。目前香港中文大學(xué)已經(jīng)做了中文分詞的數(shù)字化工作,然而針對古漢語的研究僅僅停留在數(shù)字化層面,近年來隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,人們在解決計(jì)算機(jī)視覺、機(jī)器翻譯等方面逐漸成熟,但是在古漢語自然語言處理方面仍進(jìn)展緩慢,要想實(shí)現(xiàn)古漢語的篇章理解、文本分析,首先需要將古漢語進(jìn)行準(zhǔn)確率、召回率以及F值都較高的分詞,才能保障后續(xù)工作的正確性。
2古漢語分詞面臨的問題
目前公開的分詞系統(tǒng)都是針對現(xiàn)代漢語的分詞工具,該分詞結(jié)果顯然不能滿足古漢語自高性能古漢語分詞系統(tǒng)不僅需要好的古漢語分詞模型,而且需要有充足的古漢語訓(xùn)練語料。但是仍沒有公開的古漢語分詞語料庫。
3語料庫的構(gòu)建
考慮到人工標(biāo)記語料工作量大、成本高,且標(biāo)記規(guī)范不一致等問題,首先參照《用于信息處理的現(xiàn)代漢語分詞規(guī)范》制定統(tǒng)一的分詞規(guī)范,然后使用人工制定的語料訓(xùn)練模型,之后采用該模型進(jìn)行分詞,將輸出的分詞結(jié)果進(jìn)行人工校訂放人標(biāo)準(zhǔn)語料庫。最終獲得的語料庫如下表2《孟子》語料所示。
4條件隨機(jī)場
2001年J.Lafferty等人提出的條件隨機(jī)場是一種無向圖模型,給定輸入可以根據(jù)一定的條件概率對輸出進(jìn)行預(yù)測的統(tǒng)計(jì)模型。該模型可以用于解決序分詞、命名實(shí)體識別等序列標(biāo)注任務(wù)。CRF改進(jìn)了隱馬爾科夫模型和最大熵馬爾科夫模型,可以更好地解決標(biāo)注偏置問題以得到更佳的判別值。它的特征模板允許加入更多復(fù)雜特征,可以將古漢語復(fù)雜特征設(shè)計(jì)到特征模。
4.1制定特征模板
古漢語有不同于現(xiàn)代漢語的詞法、語法特點(diǎn),為了獲得較高效的古漢語分詞系統(tǒng),制定帶有古漢語特征的CRF特征模板是非常必要的,例如,“者在”古漢語里經(jīng)常作為詞綴使用,這一用法通常跟在一個(gè)形容詞后,如“老”者表示“上年紀(jì)的老人”。因此,本文設(shè)計(jì)的特征模板的復(fù)雜特征加入了詞綴特征。
4.2條件隨機(jī)場實(shí)現(xiàn)古漢語分詞
4.2.1語料及標(biāo)記方案
選取《論語》《孟子》《大學(xué)》《中庸》作為實(shí)驗(yàn)的數(shù)據(jù)來源。實(shí)驗(yàn)中采用4詞位標(biāo)記進(jìn)行古漢語的字標(biāo)注,分別用B表示首字符、E表示尾字符以、M表示中間字符及S表示單字詞。
4.2.2數(shù)據(jù)預(yù)處理
本文所采用的條件隨機(jī)場方法基于開源的CRF++實(shí)現(xiàn),根據(jù)上述4詞位集表示方法將訓(xùn)練語料表示成輸入數(shù)據(jù)所需格式:天B;時(shí)E;不B;如E;地B;利E。
將數(shù)據(jù)均分為10等份,按照9:1進(jìn)行劃分訓(xùn)練集和測試集。
4.2.3模型訓(xùn)練
采用上述預(yù)處理后格式的文件,作為CRF++的輸入,進(jìn)行古漢語分詞模型的訓(xùn)練。
4.2.4模型測試
采用訓(xùn)練好的模型對古漢語字符序列進(jìn)行分詞,并和測試集進(jìn)行比較,得出模型的準(zhǔn)確率、召回率以及F值。
5實(shí)驗(yàn)結(jié)果及結(jié)論
通過10-折交叉驗(yàn)證,每次用平均劃分的份語料中的9份作為訓(xùn)練語料,剩余一份作為測試語料,計(jì)算十次實(shí)驗(yàn)的平局測評數(shù)據(jù)來對模型進(jìn)行測評,實(shí)驗(yàn)結(jié)果如下表3所示:
本文采用條件隨機(jī)場模型實(shí)現(xiàn)了古漢語分詞任務(wù),實(shí)驗(yàn)發(fā)現(xiàn)可以通過人工制定符合古漢語語言特征的特征模板來獲得較好的分詞效果。