王興金,周蘭江,張金鵬,周 楓,郭劍毅
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院 智能信息處理重點(diǎn)實(shí)驗(yàn)室,昆明 650500)2(云南財(cái)經(jīng)大學(xué) 信息管理中心,昆明 650221)
詞性標(biāo)注是根據(jù)句子上下文信息,為句子中每個(gè)詞標(biāo)注正確詞性的過(guò)程,即要確定句子中每個(gè)詞是動(dòng)詞、名詞或其他詞性.詞性標(biāo)注是很多自然語(yǔ)言處理(natural language processing,NLP)任務(wù)的預(yù)處理步驟之一,它能為句法分析、信息提取、詞匯獲取等后續(xù)研究提供很大幫助.
老撾語(yǔ)和中文同屬于孤立性語(yǔ)言,即并非使用詞的形態(tài)變化來(lái)表達(dá)語(yǔ)法意義,而是使用虛詞與詞序來(lái)表達(dá).然而老撾語(yǔ)有著自己獨(dú)特的語(yǔ)法特點(diǎn):其一,老撾語(yǔ)中有許多針對(duì)量詞、名詞等詞性的句法固定搭配.其二,老撾語(yǔ)中的狀語(yǔ)和定語(yǔ)在句中的位置比中文更加靈活.對(duì)這些語(yǔ)法規(guī)則加以總結(jié)研究,可以運(yùn)用于老撾語(yǔ)詞性標(biāo)注中,提高標(biāo)注精確度.
早期詞性標(biāo)注使用基于規(guī)則的方法[1],即由專家總結(jié)大量語(yǔ)法規(guī)則來(lái)指導(dǎo)詞性標(biāo)注.該方法針對(duì)特定領(lǐng)域準(zhǔn)確率很高,但制定規(guī)則非常艱難,由此基于統(tǒng)計(jì)的方法得以發(fā)展.應(yīng)用比較廣泛的有隱馬爾科夫模型(hidden markov model,HMM)、最大熵(maximum entropy,ME)模型[2]和條件隨機(jī)場(chǎng)(conditional random fields,CRFs)模型[3].ME模型對(duì)語(yǔ)料庫(kù)依賴性強(qiáng),CRF訓(xùn)練代價(jià)大、復(fù)雜度高,而HMM不存在這些缺點(diǎn).因此學(xué)者們以HMM為基礎(chǔ),并做出各種改進(jìn)來(lái)利用詞與詞性信息.文獻(xiàn)[4]使用決策樹(shù)創(chuàng)建HMM的轉(zhuǎn)移概率矩陣,以便在低資源語(yǔ)料下充分利用影響標(biāo)注的信息;文獻(xiàn)[5]使用HMM與規(guī)則結(jié)合的方法進(jìn)行詞性標(biāo)注,在有限語(yǔ)料的情況下提高了HMM的準(zhǔn)確率;文獻(xiàn)[6]提出用三元語(yǔ)言模型構(gòu)建2階HMM,TNT算法處理數(shù)據(jù)平滑,利用詞綴信息解決未登錄詞標(biāo)注,該方法被廣泛應(yīng)用.這類研究的下述經(jīng)驗(yàn)值得借鑒:第一,對(duì)傳統(tǒng)HMM進(jìn)行了改進(jìn),考慮了更多影響詞性標(biāo)注的信息;第二,基于規(guī)則與統(tǒng)計(jì)的方法結(jié)合來(lái)進(jìn)行詞性標(biāo)注,以提高模型準(zhǔn)確率和標(biāo)注速度.但此類研究仍未能解決一個(gè)問(wèn)題:HMM詞性標(biāo)注只能利用當(dāng)前標(biāo)注的上文信息,未能利用后文詞性信息.此外,未登錄詞詞性標(biāo)注是所有詞性標(biāo)注研究中的重要問(wèn)題,因?yàn)槿粑吹卿浽~詞性標(biāo)注錯(cuò)誤,則會(huì)導(dǎo)致誤差傳遞,對(duì)后續(xù)標(biāo)注有很大的影響.
目前老撾語(yǔ)詞性標(biāo)注研究較少.從現(xiàn)有發(fā)表文獻(xiàn)來(lái)看,基于HMM的老撾語(yǔ)詞性標(biāo)注最高準(zhǔn)確率為89.8%[7],文獻(xiàn)中使用半監(jiān)督學(xué)習(xí)解決了語(yǔ)料庫(kù)規(guī)模小的問(wèn)題,訓(xùn)練詞綴概率模型解決未登錄詞標(biāo)注.綜上所述,本文借鑒上述研究經(jīng)驗(yàn),對(duì)未有效解決的問(wèn)題做出改進(jìn),并研究了未解決的問(wèn)題,構(gòu)建融合詞預(yù)測(cè)的半監(jiān)督隱馬爾科夫老撾語(yǔ)詞性標(biāo)注模型.長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[8]是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,適合用于處理時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的任務(wù).本文首先基于LSTM建立了詞預(yù)測(cè)模型,并改進(jìn)維特比(Viterbi)算法,將詞預(yù)測(cè)模型融入HMM中以解決未登錄詞詞性標(biāo)注問(wèn)題.其次,研究老撾語(yǔ)語(yǔ)法,制定老撾語(yǔ)法規(guī)則集,采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法來(lái)提高HMM標(biāo)注精度與速度.再有,使用半監(jiān)督學(xué)習(xí)方法,以拓展老撾語(yǔ)詞性標(biāo)注語(yǔ)料庫(kù),并得到正、反半監(jiān)督HMM.最后,使用正、反半監(jiān)督HMM進(jìn)行詞性標(biāo)注,并考慮后文詞性的影響,對(duì)標(biāo)注結(jié)果進(jìn)行優(yōu)化.
在HMM詞性標(biāo)注過(guò)程中,若未登錄詞詞性標(biāo)注錯(cuò)誤,則誤差會(huì)傳遞影響后續(xù)標(biāo)注.以往研究采用訓(xùn)練詞綴概率模型、統(tǒng)計(jì)未登錄詞分布、同義詞替換等方法來(lái)處理,但存在未考慮詞序影響、受詞窗口大小選取限制,近義詞查找失敗等問(wèn)題.為有效解決此問(wèn)題,本文首先基于LSTM建立詞預(yù)測(cè)模型來(lái)預(yù)測(cè)未登錄詞的預(yù)測(cè)詞集;然后,將預(yù)測(cè)詞集交給改進(jìn)的Viterbi算法,確定未登錄詞詞性.本節(jié)對(duì)詞預(yù)測(cè)模型的使用和構(gòu)建作介紹,Viterbi算法的改進(jìn)在3.2節(jié)介紹.
詞預(yù)測(cè)模型使用未登錄詞周圍的已登錄詞來(lái)對(duì)未登錄詞進(jìn)行預(yù)測(cè),用預(yù)測(cè)詞替換未登錄詞參與詞性標(biāo)注.預(yù)測(cè)過(guò)程考慮了未登錄詞前后已登錄詞與詞序的信息,因而預(yù)測(cè)詞與未登錄詞在句子結(jié)構(gòu)中,同一詞性的概率很高.但若只預(yù)測(cè)一個(gè)詞來(lái)替換未登錄詞,詞性標(biāo)注仍有可能出錯(cuò).為了進(jìn)一步提高詞性標(biāo)注的準(zhǔn)確率,本文挑選多個(gè)預(yù)測(cè)詞(前N個(gè)概率最大的詞)來(lái)組成預(yù)測(cè)詞集,再將預(yù)測(cè)詞集交給改進(jìn)的Viterbi算法,以選擇未登錄詞的最佳詞性.
詞預(yù)測(cè)模型的準(zhǔn)則是:利用盡可能多的已登錄詞對(duì)未登錄詞進(jìn)行預(yù)測(cè).使用詞預(yù)測(cè)模型預(yù)測(cè)未登錄詞前,需要找到盡可能多的已登錄詞:從未登錄詞位置開(kāi)始同時(shí)向左、右最大匹配已登錄詞,匹配中遇到其它未登錄詞或首、尾詞則停止,得到左詞集(L-Sets)和右詞集(R-Sets).接下來(lái),設(shè)置詞預(yù)測(cè)模型的預(yù)測(cè)詞數(shù)量,將左、右詞集輸入到詞預(yù)測(cè)模型中,就可以得到預(yù)測(cè)詞集R.為保證預(yù)測(cè)準(zhǔn)確率,雖然對(duì)未登錄詞進(jìn)行了預(yù)測(cè),但在之后其他預(yù)測(cè)中仍認(rèn)為它屬于未登錄詞.已登錄詞匹配時(shí),若左右連接詞皆未登錄,則認(rèn)為未登錄詞的詞性唯一且為普通名詞.因?yàn)榻?jīng)過(guò)統(tǒng)計(jì),語(yǔ)料庫(kù)中普通名詞是最多的,占36%的比例.
詞預(yù)測(cè)模型構(gòu)建是基于LSTM,其專門(mén)用來(lái)處理長(zhǎng)期依賴缺失問(wèn)題.LSTM的關(guān)鍵在于它的細(xì)胞狀態(tài),在LSTM結(jié)構(gòu)內(nèi),通過(guò)門(mén)結(jié)構(gòu)來(lái)決定細(xì)胞狀態(tài)信息的增加或刪除.由于LSTM具有長(zhǎng)時(shí)記憶特點(diǎn),詞預(yù)測(cè)模型只要輸入足夠多的已登錄詞信息,便能夠取得不錯(cuò)的預(yù)測(cè)效果.LSTM結(jié)構(gòu)如圖1所示:
圖1 LSTM結(jié)構(gòu)Fig.1 LSTM structure
LSTM結(jié)構(gòu)內(nèi)部共有3種門(mén):輸入門(mén)i,遺忘門(mén)f和輸出門(mén)o.輸入門(mén)控制記憶單元更新的信息量,其決定讓多少新的信息加入到單元狀態(tài)中;遺忘門(mén)控制前一個(gè)時(shí)刻記憶單元信息被利用的量,也就是決定上一個(gè)細(xì)胞狀態(tài)中丟棄什么無(wú)用信息;輸出門(mén)控制輸出到下一個(gè)隱藏狀態(tài)的信息量.
圖2為詞預(yù)測(cè)模型結(jié)構(gòu)圖,其包括4層:輸入層、隱藏層、全連接層與輸出層.輸入層接收的數(shù)據(jù)是老撾詞,詞在進(jìn)入隱藏層前需要轉(zhuǎn)換為對(duì)應(yīng)的詞向量,因此需要在隱藏層與輸入層之間構(gòu)建一個(gè)詞向量矩陣(Embeddings).詞向量矩陣的行數(shù)為詞匯表的大小,列數(shù)可以根據(jù)語(yǔ)料的復(fù)雜度來(lái)設(shè)計(jì).訓(xùn)練開(kāi)始時(shí),首先將詞向量矩陣隨機(jī)初始化,之后在全連接層到輸出層之間作為權(quán)值進(jìn)行訓(xùn)練,直到模型收斂.為了能夠更好的擬合老撾詞分布規(guī)則,模型設(shè)計(jì)了兩個(gè)隱藏層,并使用LSTM.為了避免模型陷入過(guò)擬合,數(shù)據(jù)進(jìn)入LSTM前都會(huì)有一個(gè)隨機(jī)Dropout的功能,將數(shù)據(jù)按比例隨機(jī)去掉一部分.全連接層使用簡(jiǎn)單的神經(jīng)單元,其作用是將隱藏層的兩個(gè)輸出向量進(jìn)行拼接,并把維度轉(zhuǎn)換為詞匯表的大小.輸出層使用Softmax函數(shù),用來(lái)計(jì)算預(yù)測(cè)詞在詞匯表上的概率分布.在模型預(yù)測(cè)時(shí),可以從分布中挑選概率最大的若干個(gè)詞構(gòu)成預(yù)測(cè)詞集R.
圖2 詞預(yù)測(cè)模型結(jié)構(gòu)Fig.2 Word prediction model structure
在模型使用前,需要訓(xùn)練它的參數(shù).訓(xùn)練使用交叉熵?fù)p失函數(shù)來(lái)計(jì)算預(yù)測(cè)值概率分布與真實(shí)值概率分布之間的差距,并且使用Adam優(yōu)化算法來(lái)優(yōu)化模型的參數(shù)以減小差距.使用篇章老撾語(yǔ)分詞語(yǔ)料庫(kù),令模型學(xué)習(xí)老撾詞分布規(guī)則.當(dāng)出現(xiàn)未登錄詞時(shí),將未登錄詞的左、右詞集輸入到輸入層中,模型可以利用學(xué)習(xí)到的分布規(guī)則對(duì)未登錄詞進(jìn)行預(yù)測(cè).
HMM是用來(lái)描述一個(gè)含有隱含未知參數(shù)的馬爾科夫過(guò)程,是一種靜態(tài)馬爾科夫模型.本文使用的老撾語(yǔ)詞性標(biāo)注模型是以2階HMM為基礎(chǔ)的,其包括下面5個(gè)基本要素:
1)老撾語(yǔ)詞性的隱藏狀態(tài)數(shù)N.如果S是詞性狀態(tài)集合,則S={S1,S2,…,SN}.
2)老撾詞的觀察狀態(tài)數(shù)M.如果V為觀測(cè)詞的集合,則V={O1,O2,…,OM}.
3)老撾詞詞性的初始概率分布π,分布可以表示為π={πi,1≤i≤N}.其中:πi表示詞性Si處于初始狀態(tài)下的概率.
4)老撾詞詞性的轉(zhuǎn)移矩陣A={aijk}.其中:aijk=P(Sk|Sj,Si),0
5)觀測(cè)詞概率矩陣B={bij(Om)}.其中:bij(Om)=P(Om|Si,Sj),0 一般的,HMM在數(shù)學(xué)上可以表示為:λ={A,B,π}.對(duì)于轉(zhuǎn)移矩陣A與觀測(cè)詞概率矩陣B存在的數(shù)據(jù)稀疏問(wèn)題,本文使用文獻(xiàn)[9]提出的TnT算法來(lái)解決. HMM詞性標(biāo)注時(shí),使用的是Viterbi算法,該算法利用HMM的5個(gè)基本要素,動(dòng)態(tài)規(guī)劃的為一個(gè)老撾語(yǔ)句子搜索最佳標(biāo)注序列.使用詞預(yù)測(cè)模型可以得到未登錄詞的預(yù)測(cè)詞集R,如果使用傳統(tǒng)Viterbi算法,無(wú)法利用預(yù)測(cè)詞集的信息.因此本節(jié)對(duì)Viterbi算法進(jìn)行改進(jìn),以便利用預(yù)測(cè)詞集確定未登錄詞位置每種詞性的最大概率. 首先在老撾句子o1…om…on的首尾加入o0與on+1,o0與on+1分別對(duì)應(yīng)詞性標(biāo)注′Start′與′End′,計(jì)算過(guò)程如下: Step 1.初始化: 若o1已登錄,使用公式(1)計(jì)算δ1: δ1(i,j)=πjbij(o1) (1) 若o1未登錄,首先利用詞預(yù)測(cè)模型來(lái)預(yù)測(cè)o1的替換詞集R1,然后利用公式(2)進(jìn)行計(jì)算δ1: (2) 計(jì)算δ1后,使用公式(3)對(duì)Ψ1賦初值: Ψ1(i,j)=0 (3) 這里的i表示o0詞性(即:′Start′),j表示o1詞性,0 Step 2.對(duì)t=2,3,4…n+1進(jìn)行遞推: 若ot已登錄,使用公式(4)計(jì)算δt: (4) 若ot未登錄,首先利用詞預(yù)測(cè)模型來(lái)預(yù)測(cè)ot的替換詞集Rt,然后使用公式(5)進(jìn)行計(jì)算δt: (5) 計(jì)算δt后,使用公式(6)計(jì)算Ψt: (6) 其中,1≤i,j,k≤N. Step 3.停止: (7) (8) Step 4.對(duì)t=n-1,…,2進(jìn)行最優(yōu)路徑回溯: (9) 老撾語(yǔ)有獨(dú)特的語(yǔ)法規(guī)則,本文對(duì)其進(jìn)行詳細(xì)總結(jié),作為老撾語(yǔ)法規(guī)則集來(lái)指導(dǎo)詞性標(biāo)注,以提高標(biāo)注準(zhǔn)確率.規(guī)則由參考文獻(xiàn)[10]及專家指導(dǎo)制定: 1)量詞不能重疊.例如:漢語(yǔ)中可以使用“只只”來(lái)表達(dá)“每一”,但是在老撾語(yǔ)中卻不能這樣表達(dá). 2)除表達(dá)日期外,數(shù)詞后幾乎都是接量詞. 3)當(dāng)修飾年、月、日時(shí)間名詞或行政單位時(shí),省略量詞.如:表達(dá)“兩個(gè)月”時(shí),老撾語(yǔ)為“兩月”;‘兩個(gè)學(xué)校’,老撾語(yǔ)為‘兩學(xué)?!? 4)老撾語(yǔ)時(shí)間表達(dá),采用“時(shí)間名詞+時(shí)間數(shù)詞”形式. 6)利用數(shù)詞對(duì)名詞進(jìn)行修飾時(shí),語(yǔ)法為:“名詞+數(shù)詞+量詞”.如:“兩個(gè)蘋(píng)果”,老撾語(yǔ)為“蘋(píng)果兩個(gè)”. 7)老撾語(yǔ)在人名前加稱謂.如:“主席+習(xí)近平”. 9)老撾語(yǔ)中98%的數(shù)詞使用阿拉伯?dāng)?shù)字表示,可以使用正則表達(dá)式來(lái)輔助數(shù)詞的標(biāo)注. 本文準(zhǔn)備了50596個(gè)詞的老撾語(yǔ)分詞、標(biāo)注篇章語(yǔ)料,20006個(gè)詞的老撾語(yǔ)分詞篇章語(yǔ)料.為了拓展老撾語(yǔ)分詞、標(biāo)注語(yǔ)料庫(kù),利用Self-training算法,令上述得到的融合詞預(yù)測(cè)與規(guī)則的HMM進(jìn)行半監(jiān)督學(xué)習(xí).使用Self-training算法前,需要設(shè)定分類策略:句子標(biāo)注可靠率在80%以上認(rèn)定為合格(比較正、逆向標(biāo)注,標(biāo)注一致的部分認(rèn)為可靠,否則不可靠[11];句子標(biāo)注可靠率=句子中可靠標(biāo)注個(gè)數(shù)/句子標(biāo)注總個(gè)數(shù)).首先,用正、逆序分詞、標(biāo)注語(yǔ)料訓(xùn)練融合詞預(yù)測(cè)與規(guī)則的HMM,得到正、反HMM,用于對(duì)老撾句子正、逆向標(biāo)注.其次,用正、反HMM標(biāo)注分詞語(yǔ)料,并找到標(biāo)注結(jié)果滿足分類策略的語(yǔ)料.最后,將這些語(yǔ)料從分詞語(yǔ)料中取出,將其及對(duì)應(yīng)標(biāo)注加入分詞、標(biāo)注語(yǔ)料中,返回第一步再次訓(xùn)練正、反HMM.將上述步驟反復(fù)迭代,以得到正、反半監(jiān)督HMM,兩模型將用于3.5節(jié)的詞性標(biāo)注及不可靠標(biāo)注檢測(cè). Self-training算法具體過(guò)程如下: Step 1.計(jì)算分詞語(yǔ)料庫(kù)的大小,作為迭代執(zhí)行的最大次數(shù),并設(shè)置分類策略; Step 2.循環(huán)執(zhí)行以下步驟,達(dá)到最大迭代次數(shù)為止,以得到正、反半監(jiān)督HMM; Step 3.使用正、逆序分詞、標(biāo)注語(yǔ)料訓(xùn)練融合詞預(yù)測(cè)與規(guī)則的HMM,得到正、反HMM; Step 4.使用正、反HMM對(duì)分詞語(yǔ)料庫(kù)進(jìn)行標(biāo)注,并且檢測(cè)每條語(yǔ)料是否滿足分類策略; Step 5.從分詞語(yǔ)料取出滿足策略的語(yǔ)料,將語(yǔ)料及對(duì)應(yīng)標(biāo)注加入分詞、標(biāo)注語(yǔ)料中,并返回Step 3. 由Viterbi算法可知,HMM在詞性標(biāo)注過(guò)程中,未能考慮后續(xù)詞性對(duì)當(dāng)前標(biāo)注的影響.例如:二階HMM對(duì)句子“桌上有只筆”進(jìn)行詞性標(biāo)注,當(dāng)標(biāo)注“有”的詞性時(shí),能利用的信息有“桌、上”的詞性與詞“有”,無(wú)法利用“只、筆”的詞性信息.因此本文對(duì)標(biāo)注結(jié)果進(jìn)行了優(yōu)化.具體操作如下: Step 1.使用正、反半監(jiān)督HMM對(duì)老撾句子進(jìn)行正、逆序標(biāo)注; Step 2.將逆序標(biāo)注作為參照,查找正序標(biāo)注中的不可靠標(biāo)注(標(biāo)注結(jié)果的不一致部分).若正序標(biāo)注中的不可靠標(biāo)注左右連接為可靠標(biāo)注,則使用公式(10)對(duì)不可靠標(biāo)注進(jìn)行修改,否則保留原標(biāo)注結(jié)果.修改完成后,返回正序標(biāo)注為最終結(jié)果. (10) 其中:L為左可靠詞性,R為右可靠詞性,J為任意詞性,i為不可靠標(biāo)注的位置.對(duì)標(biāo)注結(jié)果里存在的不可靠標(biāo)注,公式(10)可以使用其上下文詞性信息進(jìn)行修改,此過(guò)程有效解決未考慮后續(xù)詞性對(duì)當(dāng)前標(biāo)注影響的問(wèn)題. 表1 語(yǔ)料信息 InformationWords HMM Model -Training Set43006HMM Model -Testing Set7590The Unknown Words of Testing Set213Word Prediction Model-Training Set62012 實(shí)驗(yàn)使用的數(shù)據(jù)有兩部分:第一部分是經(jīng)過(guò)分詞、標(biāo)注的老撾語(yǔ)篇章語(yǔ)料,有28種詞性、50596個(gè)詞;第二部分是只被分詞的老撾語(yǔ)篇章語(yǔ)料,有20006個(gè)詞.語(yǔ)料取自老撾網(wǎng)站,并經(jīng)人工校準(zhǔn).將第一部分語(yǔ)料的85%作為訓(xùn)練集,用于正、反半監(jiān)督HMM的構(gòu)建;15%作為測(cè)試集,用于標(biāo)注準(zhǔn)確率測(cè)試.第二部分及第一部分中的訓(xùn)練集用于訓(xùn)練詞預(yù)測(cè)模型.測(cè)試集中的未登錄詞的數(shù)量為213.所有數(shù)據(jù)在使用前都做了預(yù)處理工作:用Number來(lái)替換數(shù)字、去除所有的標(biāo)點(diǎn)符號(hào)、詞頻低于三的詞用“unk”來(lái)替換,以及在句子的首尾加入“Start”、“End”字符來(lái)表示開(kāi)始與結(jié)束. 由于詞預(yù)測(cè)模型的輸入數(shù)據(jù)有2766個(gè)非重復(fù)詞,因此詞向量矩陣為2766行.詞預(yù)測(cè)模型參數(shù)經(jīng)過(guò)多次調(diào)整,設(shè)置如表2所示. 表2 詞預(yù)測(cè)模型參數(shù) ParametersValueEmbeddings(2766,150)Dropout10%Lstm-dim150Maximum gradient norm5R3 本文對(duì)HMM詞性標(biāo)注進(jìn)行4個(gè)方面改進(jìn):第一,為解決未登錄詞標(biāo)注問(wèn)題,構(gòu)建了基于LSTM的詞預(yù)測(cè)模型,并對(duì)Viterbi算法進(jìn)行改進(jìn),將詞預(yù)測(cè)模型融入HMM中;第二,制定了老撾語(yǔ)法規(guī)則集,并融入HMM中;第三,對(duì)HMM使用了半監(jiān)督學(xué)習(xí);第四,對(duì)標(biāo)注結(jié)果進(jìn)行優(yōu)化. 為了測(cè)試改進(jìn)的效果,實(shí)驗(yàn)設(shè)計(jì)五個(gè)模型進(jìn)行對(duì)比分析.模型1是本文所提出,為HMM加入四個(gè)改進(jìn)后得到的老撾語(yǔ)詞性標(biāo)注模型,其他模型在模型1的基礎(chǔ)上改變一種改進(jìn),與模型1作對(duì)比,以測(cè)試四種改進(jìn)的效果.模型2、模型3、模型4和模型5分別用于測(cè)試未登錄詞標(biāo)注、老撾語(yǔ)法規(guī)則集指導(dǎo)、半監(jiān)督學(xué)習(xí)和結(jié)果優(yōu)化的詞性標(biāo)注效果.其中,模型2未采用未登錄詞處理,模型3未采用老撾語(yǔ)法規(guī)則集,模型4采用有監(jiān)督學(xué)習(xí)的方式,模型5中未采用結(jié)果優(yōu)化.表3給出各模型的詞性標(biāo)注準(zhǔn)確率. 表3 對(duì)比模型設(shè)計(jì) ModelUnknown Word ProcessingLao Rules SetLearning StyleResult OptimizationPrecision(%)1Word Predic-tion ModelSemi-su-pervised92.552?Semi-su-pervised79.703Word Predic-tion Model?Semi-su-pervised91.764Word Predic-tion ModelSupervised91.315Word Predic-tion ModelSemi-su-pervised?91.92 本文提出的模型1表現(xiàn)最佳,標(biāo)注準(zhǔn)確率為92.55%.模型2未處理未登錄詞,準(zhǔn)確率僅為79.70%,較模型1低了12.85%.因?yàn)槿舨惶幚砦吹卿浽~,該詞及之后詞的標(biāo)注都將失敗,標(biāo)注準(zhǔn)確率受到了很大的影響.在老撾語(yǔ)法規(guī)則集效果測(cè)試中,模型3的準(zhǔn)確率為91.76%,比模型一低了0.79%.因?yàn)槔蠐胝Z(yǔ)法規(guī)則集指導(dǎo)下,使得滿足規(guī)則詞及該詞周圍詞的標(biāo)注準(zhǔn)確率都得到了提高.此外,老撾語(yǔ)法規(guī)則集還可以加快HMM的標(biāo)注速度.在學(xué)習(xí)方式測(cè)試中,模型4的準(zhǔn)確率為91.31%,比模型1低了1.24%.因?yàn)榘氡O(jiān)督學(xué)習(xí)將分詞語(yǔ)料庫(kù)不斷擴(kuò)充到標(biāo)注語(yǔ)料庫(kù),用于訓(xùn)練HMM.半監(jiān)督學(xué)習(xí)結(jié)束后,HMM已經(jīng)被大規(guī)模標(biāo)注語(yǔ)料訓(xùn)練,并得到正、反半監(jiān)督HMM,可以用于詞性標(biāo)注及結(jié)果優(yōu)化.在結(jié)果優(yōu)化測(cè)試中,模型5的準(zhǔn)確率為91.92%,較模型1低了0.63%.優(yōu)化過(guò)程采用正、反半監(jiān)督HMM來(lái)檢驗(yàn)標(biāo)注結(jié)果,以發(fā)現(xiàn)不可靠標(biāo)注,并對(duì)不可靠標(biāo)注進(jìn)行優(yōu)化.優(yōu)化的過(guò)程有效考慮了后續(xù)詞性的影響,因此提高了模型的標(biāo)注性能. 本文使用相同測(cè)試集,測(cè)試了應(yīng)用于老撾語(yǔ)及其他語(yǔ)言詞性標(biāo)注的代表性HMM方法. 方法1.文獻(xiàn)[6]用TNT算法解決數(shù)據(jù)平滑問(wèn)題,并用生詞的詞綴信息和詞類型來(lái)解決未登錄標(biāo)注. 方法2.文獻(xiàn)[7]用整體規(guī)劃進(jìn)行半監(jiān)督學(xué)習(xí),并使用詞綴信息來(lái)解決未登錄詞標(biāo)注. 方法3.文獻(xiàn)[11]利用二次計(jì)算進(jìn)行半監(jiān)督學(xué)習(xí),使用word2vec[12]計(jì)算詞相似度,用近義詞的詞性來(lái)構(gòu)成未登錄詞的詞類.實(shí)驗(yàn)結(jié)果見(jiàn)表4. 表4 不同方法對(duì)比 MethodPrecision(%)189.2289.6392.23Ours92.55 表5給出了測(cè)試集中,主要詞性的個(gè)數(shù),標(biāo)注的準(zhǔn)確率、召回率及F值. 表5 主要詞性信息 TagTotalPrecision(%)Recall(%)F score(%)CNM20710098.599.2PRA246100100100N119693.395.794.5V73195.597.296.3CLF12286.287.586.8PRE54992.795.494ADJ2658390.586.5REL13293.170.280.0 針對(duì)老撾語(yǔ)詞性標(biāo)注問(wèn)題,構(gòu)建了融合詞預(yù)測(cè)的半監(jiān)督老撾語(yǔ)詞性標(biāo)注模型,該模型在HMM的基礎(chǔ)上做出四種改進(jìn):構(gòu)建詞預(yù)測(cè)模型,改進(jìn)Viterbi算法來(lái)對(duì)未登錄詞進(jìn)行詞性標(biāo)注、HMM與老撾語(yǔ)法規(guī)則集的結(jié)合、半監(jiān)督學(xué)習(xí)、標(biāo)注結(jié)果優(yōu)化.基于LSTM構(gòu)建了詞預(yù)測(cè)模型,并改進(jìn)Viterbi算法,將詞預(yù)測(cè)模型融入HMM中,以解決未登錄詞詞性標(biāo)注問(wèn)題.詞預(yù)測(cè)模型預(yù)測(cè)時(shí),在充分考慮未登錄詞前后已登錄詞及詞序的影響,標(biāo)注具備普適性的前提下,選擇出現(xiàn)概率最大的三個(gè)詞構(gòu)成未登錄詞的預(yù)測(cè)詞集,進(jìn)而確定未登錄詞詞性,提高了詞預(yù)測(cè)的準(zhǔn)確率.在實(shí)驗(yàn)中,該方法的詞性標(biāo)注準(zhǔn)確率高于對(duì)比文獻(xiàn)采用方法,老撾語(yǔ)詞性標(biāo)注準(zhǔn)確率達(dá)到了92.55%.使用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,較為全面的總結(jié)了老撾語(yǔ)法特點(diǎn),用于制定老撾語(yǔ)法規(guī)則集.規(guī)則與HMM的結(jié)合,不僅提高了標(biāo)注準(zhǔn)確率,而且加快了模型標(biāo)注速度.實(shí)驗(yàn)結(jié)果表明,加入規(guī)則后模型標(biāo)注準(zhǔn)確率提升了0.79%.為了拓展老撾語(yǔ)詞性標(biāo)注語(yǔ)料庫(kù),使用半監(jiān)督學(xué)習(xí)方法,提高了老撾語(yǔ)詞性標(biāo)注模型的泛化能力.相比有監(jiān)督學(xué)習(xí),標(biāo)注準(zhǔn)確率提高了1.24%.HMM在詞性標(biāo)注時(shí),未考慮后續(xù)詞性的影響,因此提出結(jié)果優(yōu)化方法.由半監(jiān)督學(xué)習(xí)得到正、反半監(jiān)督HMM,用于詞性標(biāo)注、查找不可靠標(biāo)注.對(duì)不可靠標(biāo)注,使用其對(duì)應(yīng)詞以及該詞的前后可靠詞性來(lái)進(jìn)行優(yōu)化,使得標(biāo)注準(zhǔn)確率提升了0.63%.未來(lái)的工作中,將會(huì)考慮使用三元HMM,使用更多影響詞性的信息,并制定更加詳細(xì)的老撾語(yǔ)法規(guī)則集來(lái)提升標(biāo)注的準(zhǔn)確率.3.2 Viterbi算法改進(jìn)
3.3 老撾語(yǔ)法規(guī)則集
3.4 半監(jiān)督學(xué)習(xí)
3.5 詞性標(biāo)注及結(jié)果優(yōu)化
Table 1 Corpus information4 實(shí)驗(yàn)與分析
4.1 數(shù)據(jù)準(zhǔn)備與參數(shù)設(shè)置
Table 2 Word prediction model parameters4.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
Table 3 Contrast model design4.3 不同方法對(duì)比實(shí)驗(yàn)
Table 4 Comparison of different methods4.4 標(biāo)注結(jié)果具體分析
Table 5 Information of main part-of-speech5 結(jié) 論