古麗尼格爾·阿不都外力,吐?tīng)柛ひ啦祭?,卡哈爾江·阿比的熱西提,王路?/p>
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2. 新疆大學(xué) 新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
維吾爾語(yǔ)是典型的形態(tài)豐富的黏著語(yǔ)。黏著語(yǔ)種的單詞由詞干和詞綴組成,詞干主要表達(dá)詞的意義,而詞綴提供語(yǔ)法信息(所屬性,形態(tài),復(fù)數(shù))。作為維吾爾語(yǔ)自然語(yǔ)言處理中的基礎(chǔ)性研究,詞干提取的質(zhì)量會(huì)直接影響維吾爾語(yǔ)言處理的其他任務(wù),如詞性標(biāo)注、命名實(shí)體識(shí)別等[1]。除此之外,維吾爾語(yǔ)中詞干與詞綴相連接時(shí),連接處由于結(jié)合的不規(guī)則性,會(huì)發(fā)生一系列的音系現(xiàn)象[2],這種音系現(xiàn)象對(duì)詞干提取帶來(lái)了一定的困難。
維吾爾語(yǔ)自然語(yǔ)言處理技術(shù)還處于發(fā)展初期[3],目前維吾爾語(yǔ)中的詞干提取大致可以分成基于詞典/規(guī)則的方法[4]、基于統(tǒng)計(jì)的方法[5]和基于神經(jīng)網(wǎng)絡(luò)的方法[6]?;谠~典/規(guī)則的方法工作量較大,需要語(yǔ)言學(xué)家制定語(yǔ)言學(xué)規(guī)則并構(gòu)造限制條件。這種方法雖然結(jié)果更加準(zhǔn)確,但需要大量的語(yǔ)言學(xué)知識(shí),受詞干提取詞典大小的限制,而且語(yǔ)言學(xué)規(guī)則只適用于常規(guī)詞形變換,缺乏全面性。基于統(tǒng)計(jì)的方法是通過(guò)詞的分布統(tǒng)計(jì)規(guī)律進(jìn)行詞干提取,能較好地處理OOV現(xiàn)象和一般構(gòu)詞規(guī)律構(gòu)成的詞形?;诮y(tǒng)計(jì)學(xué)習(xí)的維吾爾語(yǔ)詞干提取研究雖然有了初步的成果,但需要人工選擇和提取特征,而且還存在著過(guò)度切分、不切分和歧義切分等問(wèn)題?;谏窠?jīng)網(wǎng)絡(luò)的方法是一種特征學(xué)習(xí)的過(guò)程,通過(guò)后向傳播算法學(xué)習(xí)出最適合維吾爾語(yǔ)詞干提取模型的參數(shù)。此方法通過(guò)自動(dòng)學(xué)習(xí)數(shù)據(jù)中的特征表示來(lái)緩解人工選擇和提取特征的過(guò)程中成本較大的問(wèn)題,但仍然存在過(guò)度切分、不切分和歧義切分的問(wèn)題。
為了解決以上問(wèn)題,本文提出了基于Bi-LSTM-CRF神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)詞干提取方法。該方法將采用BIO2標(biāo)記,引入字符特征、音類特征以及語(yǔ)音特征作為候選特征。為了進(jìn)一步證明模型的有效性,本文將分兩組做實(shí)驗(yàn)對(duì)比:
(1) 將Bi-LSTM-CRF模型應(yīng)用到維吾爾語(yǔ)詞干提取上,并與CRF、LSTM、Bi-LSTM、LSTM-CRF模型做實(shí)驗(yàn)對(duì)比,驗(yàn)證Bi-LSTM-CRF模型能有效地解決詞干提取時(shí)出現(xiàn)的過(guò)度切分、不切分和歧義切分等情況;
(2) 引入不同的候選特征,驗(yàn)證當(dāng)逐步加入字符特征、音類特征以及部分語(yǔ)音特征組時(shí),特征集對(duì)維吾爾語(yǔ)詞干提取質(zhì)量的影響。
除了維吾爾語(yǔ),國(guó)內(nèi)少數(shù)民族語(yǔ)言中屬于黏著語(yǔ)的還有蒙古語(yǔ)、哈薩克語(yǔ)等。由于國(guó)內(nèi)少數(shù)民族語(yǔ)言的詞干提取技術(shù)發(fā)展得比較晚,因此基于詞典/規(guī)則相結(jié)合的方法比較多。史建國(guó)等[7]利用詞典和規(guī)則的方法對(duì)蒙古文進(jìn)行詞切分,得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng);李婧等[8]采用基于規(guī)則、字典查找和最大匹配相結(jié)合的方法對(duì)哈薩克語(yǔ)進(jìn)行詞干提取,并提出了結(jié)合哈薩克語(yǔ)元音和諧規(guī)律、詞干詞性和詞尾綴接順序切分詞尾的方法,使得詞干提取正確率達(dá)95.26%;早克熱·卡德?tīng)柕萚9]首先構(gòu)造了名詞的有限狀態(tài)自動(dòng)機(jī),并用最大熵模型給有限狀態(tài)自動(dòng)機(jī)加入了歧義詞綴識(shí)別能力,建立了基于規(guī)則和信道噪聲模型的元音和諧處理方法。隨著統(tǒng)計(jì)學(xué)習(xí)模型在自然語(yǔ)言處理領(lǐng)域中的廣泛應(yīng)用,詞干提取也從傳統(tǒng)的方法逐步過(guò)渡到了統(tǒng)計(jì)的方法。賽迪亞古麗·艾尼瓦爾等[5]以N-gram為基準(zhǔn)模型,根據(jù)維吾爾語(yǔ)構(gòu)詞規(guī)律,提出了融合詞性特征和上下文詞干信息的維吾爾語(yǔ)詞干提取模型,由于語(yǔ)料庫(kù)規(guī)模較小,模型依賴于上下文特征和詞性特征,而且可能存在一些重復(fù)單詞等原因,當(dāng)語(yǔ)料庫(kù)規(guī)模逐漸增大時(shí),模型準(zhǔn)確率提升較緩慢;那日松等[10]設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn),將蒙古文的分詞問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,使用了四詞位標(biāo)注集,利用CRF模型,以上下文詞形和蒙古文連寫的構(gòu)形附加成分作為特征,實(shí)驗(yàn)結(jié)果表明,上下文作為特征的實(shí)驗(yàn)組比附加成分作為特征的實(shí)驗(yàn)組效果更好;李文等[11]將維吾爾語(yǔ)和蒙古語(yǔ)作為研究對(duì)象,介紹了基于最大后驗(yàn)概率模型非監(jiān)督式形態(tài)切分方法,在非監(jiān)督式切分的基礎(chǔ)上,通過(guò)加入調(diào)參的方式,使模型更適用于特定的語(yǔ)言。實(shí)驗(yàn)結(jié)果表明,雖然切分的準(zhǔn)確性提高了,但此方法只適合用于特定的語(yǔ)言,而且也有過(guò)渡切分的問(wèn)題;姜文斌等[12]將維吾爾詞語(yǔ)的層次結(jié)構(gòu)引入到詞法分析研究中,提出了維吾爾詞法分析的有向圖模型,對(duì)于音系現(xiàn)象又提出了基于詞內(nèi)字母對(duì)齊算法的自動(dòng)還原模型,其詞干提取的正確率達(dá)到了94.70%,但由于只根據(jù)從訓(xùn)練集中自動(dòng)抽取的詞干表和詞綴作為當(dāng)前切分詞的遞歸窮舉可能的候選結(jié)構(gòu),因此導(dǎo)致過(guò)多的候選,而且只限制于詞干庫(kù)表和詞綴庫(kù)表;哈里旦木·阿布都克里木等[6]提出了基于語(yǔ)素序列的維吾爾語(yǔ)形態(tài)切分方法,將單詞切分成若干個(gè)語(yǔ)素(詞根和詞綴),從而緩解了數(shù)據(jù)稀疏問(wèn)題。
條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[13]是一種無(wú)向圖模型,近年來(lái)已經(jīng)廣泛應(yīng)用到其他自然語(yǔ)言處理任務(wù)中,如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等。其結(jié)合了最大熵(MEM)和隱馬爾可夫(HMM)的特點(diǎn),通過(guò)考慮上下文中標(biāo)簽之間的相關(guān)性來(lái)防止HMM和MEM中的有限特征選擇。除此之外,CRF可以通過(guò)全局特征歸一化的過(guò)程獲得全局最優(yōu),CRF鏈?zhǔn)浇Y(jié)果如圖1所示。
圖1 CRF鏈?zhǔn)浇Y(jié)構(gòu)
現(xiàn)給定可觀察序列W=w1w2…wn,與之相應(yīng)的標(biāo)記序列為Y=y1y2…yn,則條件概率定義如式(1)所示。
(1)
其中,fk為特征函數(shù),λk為參數(shù),Z(W)為規(guī)一化因子,使給定所有可能狀態(tài)序列的概率之和為1。而觀察序列需要搜索概率最大的Y*=arg maxp(Y|W)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),是一種通過(guò)隱藏層節(jié)點(diǎn)周期性的連接來(lái)獲得序列化數(shù)據(jù)中動(dòng)態(tài)信息的神經(jīng)網(wǎng)絡(luò),可以對(duì)序列化的數(shù)據(jù)進(jìn)行分類。但是,RNN對(duì)長(zhǎng)跨度時(shí)間可能會(huì)有梯度消失或爆炸的問(wèn)題。為了解決長(zhǎng)距離依賴的問(wèn)題,Hochreiter S等[14]提出了一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)——長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM),LSTM可以選擇性忘記歷史信息以及更新存儲(chǔ)的信息,這將有效地解決RNN的梯度消失或爆炸問(wèn)題,LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
LSTM單元由三個(gè)門(遺忘門、輸入門、輸出門)和一個(gè)細(xì)胞狀態(tài)組成,其結(jié)構(gòu)如圖3所示。
圖3 LSTM單元模型結(jié)構(gòu)
遺忘門決定歷史細(xì)胞狀態(tài)的保留信息,這由sigmoid函數(shù)來(lái)控制,它會(huì)根據(jù)上一時(shí)刻的輸出和當(dāng)前的輸入來(lái)產(chǎn)生一個(gè)0~1的ft值,來(lái)決定上一時(shí)刻學(xué)到的信息是否通過(guò)以及通過(guò)多少,計(jì)算如式(2)所示。
ft=σ(Wf·[ht-1,xt]+bf)
(2)
輸入門控制將新的信息中哪些部分保存到細(xì)胞狀態(tài)中,首先用sigmoid函數(shù)來(lái)決定哪些值用來(lái)更新,而用tanh函數(shù)來(lái)生成新的后選值,并將這兩部分生成的值進(jìn)行結(jié)合并更新,計(jì)算如式(3)~式(5)所示。
決定輸出門控制全部更新后的細(xì)胞狀態(tài)中哪些部分被輸出,首先通過(guò)sigmoid函數(shù)得到初始的輸出,之后用tanh函數(shù)將Ct值映射到-1到1的區(qū)間,再通過(guò)初始輸出值逐對(duì)相乘,最終得到輸出,計(jì)算如式(6)、式(7)所示。
Bi-LSTM-CRF模型[15]是由Bi-LSTM和CRF模型結(jié)合的模型,從Bi-LSTM輸出的向量作為CRF模型的輸入值,Bi-LSTM-CRF模型不僅能保留Bi-LSTM上下文信息,而且能通過(guò)CRF層考慮前后的標(biāo)簽信息。Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)圖
(8)
維吾爾語(yǔ)中詞干和詞綴拼接時(shí),一般在詞干或詞綴中會(huì)出現(xiàn)音系現(xiàn)象(弱化、增音、脫落等),這將嚴(yán)重影響切分準(zhǔn)確度,也成為了維吾爾語(yǔ)詞干提取過(guò)程中的難點(diǎn)。由圖5我們可以發(fā)現(xiàn),Bi-LSTM-CRF模型克服了LSTM模型只記錄上文信息、不考慮下文信息的缺點(diǎn),將通過(guò)Bi-LSTM得到的兩個(gè)隱藏層單元輸出結(jié)果進(jìn)行拼接,作為整體網(wǎng)絡(luò)隱藏層輸出,并將其輸出結(jié)果輸入到CRF層里,將維吾爾語(yǔ)詞干提取轉(zhuǎn)變成序列標(biāo)注的過(guò)程。
圖5 基于Bi-LSTM-CRF模型的維吾爾語(yǔ)詞干提取結(jié)構(gòu)
本文中我們考慮幾種候選特征作為特征集合,確定哪一個(gè)特征對(duì)詞干提取有較為顯著的影響,選取候選特征時(shí),我們參考了文獻(xiàn)[16]提出的特征,分別為當(dāng)前字符的字符特征C(字符本身)、音類特征S(當(dāng)前字符為元音,則特征為V;當(dāng)前字符為輔音,則特征為C)和語(yǔ)音特征P1、P2、P3(當(dāng)前音類為元音時(shí),則根據(jù)元音發(fā)音時(shí)橫向舌位、縱向舌位和展圓情況進(jìn)行分類;當(dāng)前音類為輔音時(shí),則根據(jù)發(fā)音時(shí)聲帶的振動(dòng)情況、發(fā)音部位和發(fā)音方式進(jìn)行分類)。
通過(guò)這種表示方法,將單詞根據(jù)標(biāo)注語(yǔ)料映射成由獨(dú)立標(biāo)記組成的功能塊,即可將詞干提取任務(wù)轉(zhuǎn)換成序列標(biāo)注問(wèn)題。
目前為止,由于維吾爾語(yǔ)詞干提取公開(kāi)的標(biāo)注數(shù)據(jù)集或語(yǔ)料庫(kù)還未見(jiàn)公開(kāi),因此本文將從天山網(wǎng)爬取新聞數(shù)據(jù),并進(jìn)行人工校對(duì)和人工提取詞干(數(shù)據(jù)大?。?15萬(wàn)),按詞長(zhǎng)進(jìn)行由長(zhǎng)到短的排序,并選出其中最長(zhǎng)的1萬(wàn)個(gè)單詞進(jìn)行預(yù)處理,采用交叉驗(yàn)證法對(duì)標(biāo)記語(yǔ)料進(jìn)行分割產(chǎn)生訓(xùn)練集、測(cè)試集和驗(yàn)證集(分割比為0.75∶0.15∶0.1),語(yǔ)料具體統(tǒng)計(jì)如表1所示。
表1 語(yǔ)料統(tǒng)計(jì)表
標(biāo)記集在數(shù)據(jù)集中的分布統(tǒng)計(jì)如圖6所示。
LONG Jun-rui, SHAN Chan-juan, YANG Qun-di, LIU Xin-ying, WANG Jiu-sheng, MEI Chang-lin, XIONG Lin-ping
圖6 標(biāo)記集在數(shù)據(jù)集中的分布
數(shù)據(jù)集中最長(zhǎng)的單詞長(zhǎng)度、詞干長(zhǎng)度、詞綴長(zhǎng)度和最短的單詞長(zhǎng)度、詞干長(zhǎng)度、詞綴長(zhǎng)度(由于數(shù)據(jù)是基于詞的,因此只考慮了字符特征)如表2所示。
表2 單詞、詞干、詞綴長(zhǎng)度
數(shù)據(jù)集有以下特點(diǎn):
① 包含的單詞、詞干和詞綴長(zhǎng)度比較長(zhǎng);
② 包含較多的外來(lái)詞、不規(guī)則詞;
③ 以字符(維吾爾文字母)作為最小的分割單位;
④ 由無(wú)重復(fù)的維吾爾語(yǔ)單詞構(gòu)成,沒(méi)有上下文語(yǔ)言環(huán)境。
為了進(jìn)一步驗(yàn)證模型和特征對(duì)詞干提取的影響,在本節(jié)中分別設(shè)計(jì)不同模型、特征的對(duì)比實(shí)驗(yàn),尋找最適合詞干提取的模型和特征,確定最佳的提取效果。在實(shí)驗(yàn)過(guò)程中,將使用F值(F1)作為評(píng)測(cè)指標(biāo),衡量詞干提取效果。
表3 神經(jīng)網(wǎng)絡(luò)超參數(shù)
3.2.1 不同模型的對(duì)比實(shí)驗(yàn)
本組實(shí)驗(yàn)中,將對(duì)CRF、LSTM、Bi-LSTM、LSTM-CRF和Bi-LSTM-CRF等模型分別做實(shí)驗(yàn)對(duì)比,其實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果(%)
(1) 從表中可見(jiàn),Bi-LSTM-CRF模型的詞干提取明顯高于CRF、LSTM、Bi-LSTM和LSTM-CRF模型,F(xiàn)值分別提升了10.05、50.05、24.26、17.27個(gè)點(diǎn)。實(shí)驗(yàn)結(jié)果說(shuō)明,Bi-LSTM-CRF模型比其他模型更加準(zhǔn)確地識(shí)別了詞干和詞綴,而且也正確地切分了詞干和詞綴。
(2) LSTM-CRF模型和Bi-LSTM-CRF模型的識(shí)別效果都高于LSTM和Bi-LSTM,而且CRF模型也高于LSTM模型和Bi-LSTM,其實(shí)驗(yàn)結(jié)果說(shuō)明,采用序列標(biāo)注方法對(duì)維吾爾語(yǔ)進(jìn)行詞干提取時(shí),對(duì)提取結(jié)果是有一定的幫助的。
(3) LSTM模型和LSTM-CRF模型分別低于Bi-LSTM模型和Bi-LSTM-CRF模型,其原因可能是通過(guò)雙向的LSTM模型有效地考慮了上下文信息,并且對(duì)于單向的LSTM模型,雙向的具有一定的互補(bǔ)性,因此對(duì)形態(tài)復(fù)雜的維吾爾語(yǔ)進(jìn)行詞干提取時(shí),雙向的神經(jīng)網(wǎng)絡(luò)明顯優(yōu)越于單向的神經(jīng)網(wǎng)絡(luò)。
表5 維吾爾詞干提取實(shí)例分析
3.2.2 不同特征的對(duì)比實(shí)驗(yàn)
在對(duì)比實(shí)驗(yàn)(1)的基礎(chǔ)上將對(duì)CRF模型和Bi-LSTM-CRF模型引入手工提取的特征,如字符特征(C)、音類特征(S)、語(yǔ)音特征(P1,P2,P3)等(候選特征的輸入維度為30),實(shí)驗(yàn)結(jié)果如表6所示。
(1) 當(dāng)Bi-LSTM-CRF模型不加候選特征的F值比CRF模型加特征的F值提高了8.2個(gè)點(diǎn),說(shuō)明不加特征的Bi-LSTM-CRF模型詞干提取的效果比加候選特征的CRF模型更好。
(2) 當(dāng)輸入所有候選特征、模型不同時(shí),Bi-LSTM-CRF模型與CRF模型相比F值提升了9.33個(gè)點(diǎn)。
(3) 當(dāng)模型相同、輸入候選特征不同時(shí),與不加特征的Bi-LSTM-CRF模型相比,F(xiàn)值分別提升了1.47、0.93、0.6和1.8個(gè)點(diǎn),實(shí)驗(yàn)結(jié)果說(shuō)明,通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步提高詞干提取性能時(shí),可以考慮加入候選特征。
表6 實(shí)驗(yàn)結(jié)果(%)
(4) 有些候選特征對(duì)詞干提取影響不同,例如,特征C+S+P1+P2組合時(shí),其F值最高,提升了1.8個(gè)點(diǎn),但當(dāng)所有特征組合在一起時(shí),其F值沒(méi)有比特征組C+S+P1+P2提升的高。(網(wǎng)絡(luò)模型參數(shù)參考表3)。
除此之外,通過(guò)分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)以下兩種情況對(duì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確率有較大的影響:
以上情況可能是由于在構(gòu)建語(yǔ)料庫(kù)中沒(méi)有考慮詞性特征或上下文語(yǔ)言環(huán)境所造成的。
本文將維吾爾語(yǔ)詞干提取看成序列標(biāo)注問(wèn)題,以字符為切分粒度來(lái)表征維吾爾語(yǔ)的構(gòu)成機(jī)制,采用CRF、LSTM、Bi-LSTM、LSTM-CRF及Bi-LSTM-CRF模型對(duì)比維吾爾語(yǔ)詞干提取效果和處理過(guò)度切分、不切分和歧義切分的能力,并在此基礎(chǔ)上分析維吾爾語(yǔ)字符特點(diǎn),引入字符特征、音類特征以及語(yǔ)音特征,對(duì)比幾個(gè)特征組對(duì)維吾爾語(yǔ)詞干提取影響。本文采用的基于Bi-LSTM-CRF模型在維吾爾語(yǔ)詞干提取上的取得了較好的效果。實(shí)驗(yàn)結(jié)果表明:①Bi-LSTM-CRF模型能比較準(zhǔn)確地識(shí)別維吾爾語(yǔ)中詞干和詞綴,有效緩解過(guò)度切分、不切分和歧義切分等現(xiàn)象; ②本文引入的候選特征對(duì)維吾爾語(yǔ)的詞干提取是有效的,其特征集中特征組字符特征(C)、音類特征(S)以及部分語(yǔ)音特征(P1和P2)的提取效果最佳。
本文還有一些局限性,比如沒(méi)有研究詞干與詞綴連接時(shí)所出現(xiàn)的音系現(xiàn)象或詞干提取時(shí)還原原詞干(由于音系現(xiàn)象,詞干中的一些字母會(huì)發(fā)生變化)等問(wèn)題。故在以后的研究中,考慮更多特征因素,通過(guò)改進(jìn)模型來(lái)提高維吾爾語(yǔ)詞干提取的效果。