国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞典和統(tǒng)計(jì)相結(jié)合的維吾爾語拼寫檢查方法

2014-04-14 07:51麥合甫熱提艾山吾買爾麥熱哈巴艾力吐爾根伊布拉音
中文信息學(xué)報(bào) 2014年2期
關(guān)鍵詞:維吾爾語詞綴元音

麥合甫熱提,艾山·吾買爾,麥熱哈巴·艾力,吐爾根·伊布拉音,張 健

(1.新疆大學(xué)教務(wù)處,新疆烏魯木齊830046;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046;3.新疆虹聯(lián)軟件責(zé)任公司,新疆烏魯木齊830002)

1 引言

人工進(jìn)行拼寫檢查是一項(xiàng)時(shí)間耗費(fèi)量巨大而繁雜的任務(wù)。因此計(jì)算機(jī)自動(dòng)校對系統(tǒng)的研究與開發(fā)是自然語言處理的主要應(yīng)用領(lǐng)域之一,可應(yīng)用于報(bào)刊及出版社、打字、文字識(shí)別等需要進(jìn)行文本校對的行業(yè)。

在中國,中文(漢文)校對方面的研究已有了一定的深度,有很多研究成果現(xiàn)已商品化,如黑馬校對系統(tǒng)、金山校對系統(tǒng)、工智校對通等。維吾爾語校對方面也有了一些商品化的軟件。如,Yulghun維吾爾語正字法校對系統(tǒng),維軟公司維吾爾文正字法校對系統(tǒng)等。但這類軟件是基于詞匯庫的,由于軟件的準(zhǔn)確率取決于詞匯庫的容量,因此對詞匯庫的要求很高。為了彌補(bǔ)基于詞典的查錯(cuò)方法具有魯棒性不高,對詞干提取無法檢查連接的詞綴是否有效等不足,結(jié)合維吾爾語的特點(diǎn),我們提出了詞典與統(tǒng)計(jì)相結(jié)合的方法。

2 維吾爾語拼寫檢查

維吾爾語屬于黏著語言[1],因此在拼寫過程中難免會(huì)出現(xiàn)拼寫錯(cuò)誤,而且拼寫錯(cuò)誤率較高。在實(shí)際使用過程中,有些單詞的拼寫檢查根本不會(huì)影響讀者對內(nèi)容的正確理解。但是,拼寫錯(cuò)誤不僅對出版行業(yè)重要,對語言自身的健康發(fā)展也很重要。

拼寫錯(cuò)誤一般指的是鍵入的文本,即人們鍵入文本時(shí),無意識(shí)或不知正確拼寫的情況下,根據(jù)發(fā)音拼寫單詞而產(chǎn)生的錯(cuò)誤。拼寫錯(cuò)誤一般情況下可以歸于兩類:非詞錯(cuò)誤和真詞錯(cuò)誤[2]。本文對非詞錯(cuò)誤的差錯(cuò)進(jìn)行研究。例如,(作者們)這個(gè)單詞如果在文章中錯(cuò)誤地寫為:那么拼寫檢查的任務(wù)就是及時(shí)發(fā)現(xiàn)錯(cuò)誤,并用正確的拼寫替換錯(cuò)誤的拼寫。

3 詞典與統(tǒng)計(jì)相結(jié)合的拼寫檢查方法

3.1 基于詞典和詞干提取的拼寫檢查方法

維吾爾語屬于高度或強(qiáng)黏著語言,在實(shí)際的文本中多數(shù)單詞為表達(dá)語法功能,在單詞詞尾附加詞綴。維吾爾語中所有詞類的構(gòu)形詞綴大約有210個(gè),這些詞綴不僅可以單獨(dú)出現(xiàn),也可以相互連接。因此,一般情況下很難把每一個(gè)單詞的所有形態(tài)變化或詞形收錄于詞匯庫。表1所示單詞“書”(kitab)的部分詞形。

表1 名詞“書”的各種形態(tài)變化

為了提高查錯(cuò)能力,減少正確單詞因形態(tài)而被判斷為拼寫有誤的單詞,本文中采用了先從常見正確詞庫匹配詞匯,然后對未被匹配的單詞進(jìn)行詞干提取,并對詞干進(jìn)行詞干庫匹配的策略。

正確詞匯庫是從生語料庫收集所遇的詞匯,并對其進(jìn)行頻率統(tǒng)計(jì),然后根據(jù)單詞頻率進(jìn)行人工校對而建設(shè)。目前,詞匯庫包括的單詞有30萬詞匯,詞干庫有11萬多詞干。為了不斷地?cái)U(kuò)充詞匯庫,使詞干提取后被判斷為正確的單詞增加到正確詞詞匯庫,提出基于詞匯庫和詞干提取的拼寫檢查算法如下:

S1:讀入詞匯Wi;

S2:從詞匯庫檢索Wi,若存在轉(zhuǎn)S6,否則轉(zhuǎn)S3;

S3:對Wi進(jìn)行詞干提取,若詞干Si與Wi相同,則轉(zhuǎn)S7,否則轉(zhuǎn)S4;

S4:從詞干庫檢索詞干Si和詞綴組合,若存在轉(zhuǎn)S5,否則轉(zhuǎn)S7;

S5:把Wi加入詞匯庫;

S6:返回正確;

S7:返回錯(cuò)誤;

例如,“kitab”的變形為正確拼寫詞匯庫,對單詞“kitabtek”(像書那么…)進(jìn)行拼寫檢查時(shí),因詞匯庫不包含該詞匯,系統(tǒng)對其進(jìn)行詞干提取,因詞干“kitab”和詞綴“tek”存在于詞干庫,系統(tǒng)判斷該單詞拼寫無誤,并把“kitabtek”加入詞匯庫。通過這種方法可以不斷地?cái)U(kuò)充詞典,減少詞干提取,系統(tǒng)速度會(huì)得到較高的提高。

3.2 基于統(tǒng)計(jì)的詞干和詞綴連接有效性判斷模

基于詞典的查錯(cuò)方法具有判斷結(jié)果可靠,速度快等特點(diǎn),但是也有魯棒性不高、對詞干提取無法檢查連接的詞綴是否有效等不足。維吾爾語詞法語音和諧規(guī)則中指定,單詞元音或最后音節(jié)的元音是前元音,則只能附加包含前元音的詞綴,若單詞的最后音節(jié)的元音是后元音,則詞綴只能附加包含后元音的詞綴。例如,詞干“kitab”可以附加詞綴“ta”而不能附加“te”。因?yàn)椤発itab”最后音節(jié)“tab”所包含的是后元音“a”,因此,只能連接包含后元音的“ta”,而不能連接包含前元音的“te”。雖然,詞干和詞綴的連接具有元音和諧的規(guī)則,但是還有很多情況,并不能根據(jù)元音的前后特性來予以判斷。例如,詞干可以附加但不能連接詞綴這個(gè)兩個(gè)詞匯完全符合元音和諧規(guī)則;詞干(巴扎爾)可以連接詞綴而不能連接詞干尾處附加構(gòu)形詞綴,不僅符合元音的和諧規(guī)則,還要看語義上是否合適。

根據(jù)研究,目前還沒有比較可靠的規(guī)則可用。為了檢查詞綴連接的有效性以及提高系統(tǒng)對未登錄詞的檢查能力,本文中使用N語言語法建立維吾爾語詞干詞綴有效性判斷模型和詞干提取匹配失敗的單詞拼寫檢查模型。

N-gram是最為常用的統(tǒng)計(jì)語言模型,其中尤以二元文法(Bigram)和三元文法(Trigram)模型應(yīng)用最為廣泛。n-gram以馬爾可夫模型為理論基礎(chǔ),對一字符串L=l1l2l3,...,li,可以認(rèn)為字母li(1≤i≤n)的出現(xiàn)與上文的前n個(gè)字母相關(guān),則字符串L出現(xiàn)的概率可通過如下的方法得出:

一般來說,n取2或3。該模型在維吾爾語可以建立為字母序列概率模型、音節(jié)序列概率計(jì)算模型,不僅僅可以為拼寫檢查提供服務(wù)、還可以為OCR、語音識(shí)別等提供語言模型服務(wù)。比如,可以計(jì)算出單詞基于二元、三元或音節(jié)的困惑度如式(2)所示。

困惑度越高表示該序列的自然率就越高,困惑度越低表示該序列越接近于自然情況。根據(jù)困惑度所表示的信息,可以得出拼寫有誤單詞的困惑度大于拼寫正確的單詞困惑度。另外,為了建立該模型,還可以計(jì)算某些序列后出現(xiàn)某一個(gè)字符或字符串或音節(jié)等的概率P(s|c(diǎn)ontext);為了確定適合于維吾爾語單詞拼寫判斷,利用30萬詞的詞匯庫構(gòu)建了基于二元、三元、四元以及五元的模型訓(xùn)練,并進(jìn)行了測試。表2所示的是對詞干各類形態(tài)的實(shí)例進(jìn)行計(jì)算的結(jié)果。

表2 詞匯困惑度計(jì)算實(shí)例

續(xù)表

由表2可知,正確單詞的困惑度取值范圍比較穩(wěn)定,而大部分錯(cuò)誤單詞的困惑度隨著N的變化而發(fā)生較大的變化,根據(jù)實(shí)驗(yàn)發(fā)現(xiàn)N越大的時(shí)候,正確和錯(cuò)誤單詞困惑度的差距越大。因?yàn)榫S吾爾語字母互相搭配頻率較高,且比較靈活,二元、三元等較短的N元組合無法充分體現(xiàn)同現(xiàn)規(guī)律,而四元、五元等因較長,所以能代表一定的局部,具有較強(qiáng)的約束能力,計(jì)算出的困惑度也具有較高的可靠性和代表性。另外,不同正確單詞的困惑度的變化也較大,難以使用統(tǒng)一的閾值來判斷單詞是否正確。例如,雖然錯(cuò)誤單詞等的困惑度比正確單詞較大,而的困惑度比正確單詞較少。根據(jù)實(shí)驗(yàn)結(jié)果,本文中提出階梯層判別模式,分三層計(jì)算單詞三元至五元的困惑度,根據(jù)語料庫中建設(shè)的詞干平均困惑度來判斷詞綴連接的有效性。

具體過程如下:

利用正確詞匯訓(xùn)練三元、四元、五元模型;

對詞匯庫進(jìn)行詞干提取,把所有的單詞根據(jù)詞干進(jìn)行分類;

把同一個(gè)詞干的詞匯根據(jù)連接的詞綴數(shù)進(jìn)行分類;

通過以上過程構(gòu)建的詞干和詞綴概率庫文件結(jié)構(gòu)如表3所示。

表3 根據(jù)詞干和詞綴分類實(shí)例

從表3中的數(shù)據(jù)產(chǎn)生詞干的困惑度詞典,詞典中保存詞干附加一個(gè)詞綴的困惑度范圍和詞干附加兩個(gè)或三個(gè)詞綴的困惑度范圍。詞典結(jié)構(gòu)如表4所示。

對詞干在詞干庫中存在的單詞進(jìn)行判斷時(shí),先計(jì)算該單詞的困惑度,然后根據(jù)該單詞連接的詞綴個(gè)數(shù)與困惑度范圍詞典進(jìn)行比較。若在范圍之內(nèi),判斷為正確,否則判斷為錯(cuò)誤。例如,表2中的單詞的詞干為詞綴為()“m”,該單詞三元、四元、五元的困惑度分別為-2.946 22、-2.946 219 921、-2.946 219 92,該單詞的困惑度不在困惑度范圍詞典中的取值范圍之內(nèi),因此判斷為錯(cuò)誤詞綴連接。

表4 詞干形態(tài)困惑度范圍詞典

3.3 基于詞典和統(tǒng)計(jì)相結(jié)合拼寫檢查方法

基于詞典的方法具有可靠、速度快等特點(diǎn),但魯棒性較低,對未登錄詞沒有任何處理能力;而基于統(tǒng)計(jì)的方法對未登錄詞有一定的處理能力,但存在判斷結(jié)果不完全可靠的不足之處。為了彌補(bǔ)各種方法的缺點(diǎn),有效利用資源和經(jīng)驗(yàn)值,最大程度上減少未登錄詞的人工處理,本文中把基于詞典、詞干提取和基于統(tǒng)計(jì)的詞干和詞綴連接有效性判斷模型相結(jié)合,提出了統(tǒng)計(jì)與詞典結(jié)合的維吾爾語查錯(cuò)方法。

圖1 基于混合策略的維吾爾語拼寫檢查方法

4 實(shí)驗(yàn)與分析

本節(jié)中的實(shí)驗(yàn)使用新疆多語種重點(diǎn)實(shí)驗(yàn)室自然語言處理組研制的維吾爾語語料庫,其中正確單詞規(guī)模為30萬詞、拼寫錯(cuò)誤與正確寫法對照單詞1.4萬詞,詞干庫11萬詞干。

4.1 基于詞典的拼寫檢查

為了觀察拼寫檢查詞匯庫的覆蓋面,我們從新疆維吾爾自治區(qū)人民政府新聞網(wǎng)站(http://uygur.xinjiang.gov.cn/index.htm)下載100篇文章進(jìn)行拼寫檢查,其中最長的文章有567個(gè)單詞、最少的有150多個(gè)單詞。經(jīng)過測試,最高匹配率為99.12%,最低匹配率84.24%,不匹配的單詞主要集中在術(shù)語、詞綴層疊較高的詞匯、外國人名、企業(yè)名稱以及一些新產(chǎn)品名稱等。

4.2 基于詞干提取的拼寫檢查測試

對4.1中沒有識(shí)別的單詞進(jìn)行基于詞干提取的拼寫檢查后,最高匹配比例沒有變化仍然是99.12%,但是最低匹配率提高到92.37%,主要對術(shù)語、詞綴層疊較高的詞匯的檢查起到了一定的作用。基于詞干提取后,未能匹配的單詞主要是詞綴弱化的外國人名、企業(yè)名稱以及一些新產(chǎn)品名稱等。

4.3 基于統(tǒng)計(jì)的詞干和詞綴連接有效性判斷模型實(shí)驗(yàn)

在基于統(tǒng)計(jì)的詞綴連接檢查模型使用隨機(jī)選出的25萬詞進(jìn)行模型訓(xùn)練,其余的5萬詞和拼寫錯(cuò)誤的1.4萬詞作為測試數(shù)據(jù)使用。經(jīng)過訓(xùn)練得到了7 308個(gè)三元、24 882個(gè)四元和36 974個(gè)五元。

為了更客觀的評價(jià)模型的性能,我們采用準(zhǔn)確率(Precision)、召回率(Recall)、F1值(F1-Measure)等性能指標(biāo)進(jìn)行評價(jià)。計(jì)算公式如下:

實(shí)驗(yàn)結(jié)果如下,召回率為87.52%、準(zhǔn)確率為86.67%,F(xiàn)值為87.09%。經(jīng)過錯(cuò)誤分析發(fā)現(xiàn),詞綴正確附加詞干錯(cuò)誤判斷的情況占95%,而詞綴錯(cuò)誤附加詞干判斷為正確的情況占5%。

第一種錯(cuò)誤的原因是在詞典中按照附加的詞綴數(shù)量進(jìn)行范圍匹配,實(shí)際上同一個(gè)單詞的不同詞綴具有不同的長度,尤其是單詞本身長度也不長,單詞詞綴的字符數(shù)比較多的情況一詞中 是詞干,長度為等為詞綴)。因此,計(jì)算困惑度時(shí)較長詞綴的困惑度值會(huì)超出范圍。

表5 單詞“beyjing”(北京)連接一個(gè)不同的詞綴的困惑度

表5中可以看出,單詞“Beyjing+lar”被模型判斷為正確的詞干和詞綴連接,實(shí)際上是錯(cuò)誤的連接,即錯(cuò)誤的單詞。經(jīng)過對類似的錯(cuò)判的單詞進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),這些單詞和詞綴的連接符合維吾爾文的詞法的元音和諧規(guī)則,所以在訓(xùn)練庫中大量的出現(xiàn)過一樣的三元、四元、五元參數(shù),這些參數(shù)值影響模型的判斷結(jié)果。

第二種錯(cuò)誤是外來的詞單詞結(jié)構(gòu)與維吾爾文單詞具有較大的差距,而大部分統(tǒng)計(jì)值來自于維吾爾語單詞,所以對外來詞的誤判較多。

5 結(jié)術(shù)語

本文提出了由多種策略組成的拼寫查錯(cuò)方法,并實(shí)現(xiàn)了實(shí)用的維吾爾文文字校對軟件。在查錯(cuò)方法中為了彌補(bǔ)基于詞典的方法的不足,提出了利用形態(tài)分析方法檢查的方法。為了提高該方法的可靠性,又使用N元語法模型檢查了詞干和詞綴連接的有效性。

在國內(nèi)屬于同類語系的有哈薩克語、柯爾克孜語,在國外有土耳其語、烏茲別克語、土庫曼語等。維吾爾語在這方面的研究,將對這些國內(nèi)外語言的研究具有很大的促進(jìn)作用。

[1] Kukich K.Techniques for automatically correcting words in text[C].Proceedings of the ACM Computing Surveys,1992,24(2),377-439

[2] Boswell D.Language Models for Spelling Correction[C].Proceedings of the CSE 256,2004.

[3] Rickard J C.Domeij Viggo Kann Ola Knutsson.A Swedish Grammar Checker[R].Association for Computational Linguistics,2000.

[4] Dhanabalan T,Parthasarathi R,Geetha T V.Tamil Spell Checker[C].Proceedings of the Sixth Tamil Internet 2003Conference,Chennai,Tamilnadu,India,2003:22-24.

[5] Hamrouni B M.Logic compression of dictionaries for multilingual spelling checkers[C]//Proceedings of the 15th Conference on Computational Linguistics,Kyoto,Japan,1994:5-9.

[6] Menno van Zaanen,Gerhard van Huyssteen.Improving a Spelling Checker for Afrikaans[C]//Proceedings of the Language and Computers,Publisher Rodopi,ISSN 0921-5034,2003,47(1):143-156.

[7] Arif Billah Al-Mahmud Abdullah,Rahman A.A Generic Spell Checker Engine for South Asian Languages[J].IASTED 2003,2003:3-5.

[8] Dembitz S,Knezevic P,Sokele M.Developing a Spell Checker as an Expert System[J].Journal of Computing and Information Technology-CIT 11,2004:285-291.

[9] 施得勝,等.基于統(tǒng)計(jì)的中文錯(cuò)字偵測法[J].電腦與通訊.1992,8:19.

[10] 張仰森,丁冰青.基于二元接續(xù)關(guān)系檢查的字詞級自動(dòng)查錯(cuò)方法[J].中文信息學(xué)報(bào),2001,15(3):36-43.

[11] 阿里甫·庫爾班,吐爾根·依布拉音,阿布力米提.維吾爾文單詞拼寫檢查器的研究與實(shí)現(xiàn)[A].中國科學(xué)技術(shù)協(xié)會(huì).

[12] 瑪依熱·依布拉音,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯(cuò)與糾錯(cuò)研究[J].中文信息學(xué)報(bào),2008,22(3):110-114.

[13] 海米體·鐵木爾.現(xiàn)代維吾爾語語法(詞匯學(xué))[M].北京:民族出版社.1987.

[14] 古麗拉·阿東別克,米吉提·阿布力米提.維吾爾語詞切分方法初探[J].中文信息學(xué)報(bào),2004,18(6):61-65.

[15] 米熱古麗·艾力,米吉提·阿不力米提,艾斯卡爾·艾木都拉.基于詞法分析的維吾爾語元音弱化算法研究.中文信息學(xué)報(bào)[J],2008,22(4):43-48.

[16] 梁奇,鄭方,徐明星,吳文虎.基于tri-gram語體特征分類的語言模型自適應(yīng)方法.中文信息學(xué)報(bào)[J],2006,20(4).

[17] 麥合甫熱提.維吾爾語文本詞語拼寫檢錯(cuò)和糾錯(cuò)算法研究和實(shí)現(xiàn)[D].新疆大學(xué)碩士學(xué)位論文.2010.

猜你喜歡
維吾爾語詞綴元音
從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
元音字母和元音字母組合的拼讀規(guī)則
元音字母和元音字母組合的拼讀規(guī)則
淺析維吾爾語表可能語氣詞
詞尾與詞綴的區(qū)別研究
維吾爾語助動(dòng)詞及其用法
淺談現(xiàn)代漢語類詞綴
釋西夏語詞綴wji2
統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
基于深度學(xué)習(xí)的維吾爾語名詞短語指代消解