維吾爾文智能輸入法研究

2013-10-15 01:38米日姑肉孜吐爾根依布拉音麥熱哈巴艾力

中文信息學(xué)報 2013年2期

米日姑·肉孜，吐爾根·依布拉音，麥熱哈巴·艾力

（新疆大學(xué) 信息科學(xué)與工程學(xué)院，多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室，新疆烏魯木齊830046）

1 引言

從20世紀(jì)90年代開始的智能輸入法演變到現(xiàn)在的“搜狗”輸入法、谷歌輸入法、QQ拼音、百度輸入法，形成了百花齊放的市場格局。至今為止，在維吾爾文信息處理當(dāng)中還沒有出現(xiàn)一個類似于“智能ABC”、“搜狗”輸入法等功能強(qiáng)大的維吾爾文智能輸入系統(tǒng)。輸入維吾爾文時我們都希望輸入單詞的前幾個字母，系統(tǒng)自動列出以這個字母開頭的單詞候選列表，但是維吾爾文當(dāng)中每一個單詞都有幾十個到幾千個的形態(tài)［1]，以某一個字母開頭的單詞也有幾千個到幾萬個［2]，即使系統(tǒng)給我們列出這些候選詞，但在這些候選詞當(dāng)中找出我們想要的單詞花費(fèi)的時間，遠(yuǎn)遠(yuǎn)超過了用戶把單詞的每一個字母逐步輸入時耗費(fèi)的時間。還有很重要的一點(diǎn)，那就是用戶輸入維吾爾文內(nèi)容時經(jīng)常出現(xiàn)拼寫錯誤，因此也得考慮拼寫檢查這個因素。

維吾爾文的結(jié)構(gòu)和語法跟漢字完全不一樣，漢字是象形文字，維吾爾文是拼音文字，所以不能把漢字輸入法［3－4]的特點(diǎn)完全使用在維吾爾語當(dāng)中。維吾爾文智能輸入當(dāng)中要解決的問題很多，因此，做一個類似與中文智能輸入法基本功能的維吾爾文輸入法是相當(dāng)困難的。

現(xiàn)在維吾爾文輸入法的種類很多，比較常用的有：維軟公司的Alkatip、維吾爾計算機(jī)科學(xué)協(xié)會發(fā)布的Uyghur Unicode I ME、艾維達(dá)公司發(fā)布的Elpida Unicode、愛革網(wǎng)絡(luò)科技公司的愛革維文輸入法，還有Alamas、Ilikyurt、Hiyal等。雖然編碼方式統(tǒng)一到了國際標(biāo)準(zhǔn)（Unicode），但這些輸入法共同存在的缺點(diǎn)都是沒有智能輸入功能：每個輸入法都是基于單字母的輸入，用戶錄入時必須一個字母一個字母地敲擊鍵盤，不像現(xiàn)在流行的中文智能輸入法一樣具備單詞自動預(yù)測、單詞聯(lián)想輸入、校錯和自動學(xué)習(xí)功能。因此在編寫文檔、網(wǎng)上聊天、論壇發(fā)帖、寫博、評論等網(wǎng)絡(luò)應(yīng)用中，用戶輸入維吾爾文時導(dǎo)致輸入速度慢，而且容易發(fā)生錯誤，發(fā)生的錯誤雖然不影響閱讀，但是嚴(yán)重妨礙了計算機(jī)處理。因此開發(fā)一個具備自動預(yù)測、單詞聯(lián)想、自動學(xué)習(xí)和校對功能的輸入法具有很重要的意義。

2 維吾爾文字的特點(diǎn)

現(xiàn)在使用的維吾爾文是在晚期察合臺文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。它與中文和西文有很大的區(qū)別，維吾爾文字輸入有如下特點(diǎn)：

現(xiàn)行維吾爾文有8個元音字母，24個輔音字母，書寫方向是從右到左，行向從上到下。每個字母按出現(xiàn)在詞首、詞中、詞末的位置有2到6種變體。通過英文26個字母輸入維吾爾文32個字母時，有6個字母需要借助上檔鍵（Shift＋），因此這些字母輸入時不但影響速度，而且容易出錯。比如：（新疆）錯成（因?yàn)楹驮谕粋€鍵上），（人民）錯成（和在同一個鍵上）。因此使用Shift鍵會導(dǎo)致打字速度變慢。

維吾爾人同時并用過以拉丁字母為基礎(chǔ)的維吾爾文，1965～1982年整整使用了17年，該文字對各方面的影響還較深，很多應(yīng)用軟件根本無法識別我們現(xiàn)用的阿拉伯文為基礎(chǔ)的維吾爾文的輸入（如：騰訊QQ，Messenger等），所以現(xiàn)在很多維吾爾人在計算機(jī)交流時還在使用拉丁字母為基礎(chǔ)的維吾爾文。然而阿拉伯文為基礎(chǔ)的維吾爾文和拉丁字母為基礎(chǔ)的維吾爾文的鍵盤布局有所不同，這兩種文字字母鍵盤布局對照如表1所示?，F(xiàn)在很多人用計算機(jī)打字的時候經(jīng)常會把這兩種文字的布局搞混，如：想輸入“”字母時就會錯按成A鍵，而不是F鍵。

表1 兩種維吾爾文字母鍵盤布局對照表

維吾爾文單詞是由字母拼寫而成的，發(fā)什么音就寫什么字。但是由于方言、發(fā)音習(xí)慣以及發(fā)音相近字母的影響等原因，導(dǎo)致許多單詞的發(fā)音與其書面形式不同。因此打字時就按口語發(fā)音錄入，不遵守維吾爾文字母的拼寫規(guī)則，就容易出現(xiàn)正字錯誤。如表2所示。

考慮以上幾種情況，開發(fā)一個具備自動預(yù)測、單詞聯(lián)想、自動學(xué)習(xí)和校對功能的輸入法，不僅可以提高打字速度，從大的方面來說，對新疆的信息化、社會經(jīng)濟(jì)發(fā)展都將產(chǎn)生很大的影響。

表2 維吾爾語詞與口語形勢比較

3 輸入系統(tǒng)的處理過程

3.1 輸入系統(tǒng)

本輸入系統(tǒng)的處理過程如圖1所示。以下是其中主要模塊的功能。

（1）在索引詞庫中檢索數(shù)據(jù)：為了提升輸入檢索速度，首先建立一個完整的索引詞庫，然后根據(jù)用戶輸入對詞庫進(jìn)行檢索，將檢索到的結(jié)果輸出給屏幕。使用前方一致的檢索方法，對檢索結(jié)果排序時完全一致的檢索結(jié)果優(yōu)先，其次是前方一致的檢索結(jié)果。比如：用戶輸入這個關(guān)鍵詞以后，系統(tǒng)自動推薦等一些候選列表，并按以下形式排序：。

（2）拼寫校對［5]：如果用戶輸入的內(nèi)容在詞庫中不存在，系統(tǒng)對此內(nèi)容進(jìn)行自動校對并對修正結(jié)果重新檢索，生成相應(yīng)的檢索結(jié)果。此功能在3.2節(jié)會詳細(xì)討論。

（3）學(xué)習(xí)用戶選擇：用戶在輸入內(nèi)容時可能出現(xiàn)系統(tǒng)預(yù)測錯誤，聯(lián)想出來的內(nèi)容不夠合理，需要用戶選擇或更正。在維吾爾文輸入系統(tǒng)中，系統(tǒng)學(xué)習(xí)的行為主要是跟蹤并記錄用戶的選擇及其上下文，以便提高候選詞列表排序的合理性。

圖1 輸入系統(tǒng)的處理過程

3.2 拼寫校對

拼寫校對在本輸入法中起很大的作用。此模塊工作流程如圖2所示。拼寫校對模塊的組成部分如下：

（1）預(yù)處理：首先在詞庫中搜索用戶輸入的單詞，如果詞庫中存在，則認(rèn)為拼寫正確，否則預(yù)處理。預(yù)處理階段的主要任務(wù)是，分析單詞的前三個字母的組成并進(jìn)行刪除和字母的偏移序列替換。這里的偏移序列指的是：用戶在鍵盤上敲打字母時，用戶的手指可能從正確的字母鍵位偏移到其他字母的鍵位，或者因?yàn)镾HIFT鍵引起的錯輸，也可能是因?yàn)橛脩袅?xí)慣性地按照基于拉丁字母的輸入習(xí)慣來輸入內(nèi)容，如：基于拉丁字母的“a”和基于阿拉伯字母的“”不是同一個鍵位，因此引起誤敲。通過實(shí)驗(yàn)，偏移位置大致在這個正確鍵位附近的鍵，比如：“”的偏移序列是（）。比如：用戶輸入的單詞是，經(jīng)過偏移處理后的序列：；很明顯，其中正確的單詞可能是或者還有其他的。

（2）特征提?。簭挠脩糨斎氲膬?nèi)容進(jìn)行預(yù)處理，如果預(yù)處理結(jié)果中沒有正確的單詞，則系統(tǒng)從這些預(yù)處理結(jié)果單詞中提取單詞的特征，生成一個特定的單詞模式。

圖2 拼寫校對處理過程

（3）模式匹配：按照預(yù)處理結(jié)果中生成的匹配規(guī)則，從詞庫中進(jìn)行模式匹配，找出與此模式成功匹配的單詞集合。

（4）計算相似度：經(jīng)過模式匹配獲取到的單詞集合與用戶輸入的內(nèi)容進(jìn)行相似度計算。通過相似度計算獲取與用戶輸入的內(nèi)容相似度最高單詞集合。

（5）排序并顯示給用戶：通過相似度計算得來的單詞集合，按照它們相似的度量進(jìn)行排序，相似度量最高的排在最前面視為最優(yōu)的單詞候選。

4 基于二元語法模型（Bigram）的維吾爾文分詞

為了使輸入法具有聯(lián)想功能，本文采用二元文法模型［6－8]對語料進(jìn)行分詞并保存。對用戶輸入的單詞根據(jù)二元模型聯(lián)想出其最佳的搭配。

當(dāng)輸入完前段單詞以后，后面的單詞用戶很想知道可能輸入的單詞是哪一個？比如：＿＿＿后面的空格從單詞列表當(dāng)中用戶很可能輸入哪一個單詞呢？怎樣找出最佳候選？輸入法的實(shí)現(xiàn)，首先需要建立一個輸入法語言模型。從統(tǒng)計角度來看，自然語言中的任何句子s可以由若干個單詞構(gòu)成。

對于一個句子T而言一個詞的出現(xiàn)僅僅依賴于它前面出現(xiàn)的有限的一個或者幾個詞。如果一個詞的出現(xiàn)僅依賴于它前面出現(xiàn)的一個詞，稱之為bigram。即：

下面我們用Bigra m舉個例子。

假設(shè)語料庫中有10000個單詞：

表3 單詞和單詞序列頻度表

按照Bigram模型，實(shí)現(xiàn)了單詞自動聯(lián)想輸入功能。單詞自動聯(lián)想輸入是用戶輸入某一個單詞以后，系統(tǒng)自動聯(lián)想出跟當(dāng)前單詞匹配的最佳單詞結(jié)果到候選列表中供用戶選擇。如圖3所示單詞聯(lián)想功能原理圖。

5 接口編碼

在中文Windows系統(tǒng)下，維吾爾文輸入法的設(shè)計主要是根據(jù) Windows系統(tǒng)所定義的I MM－I ME結(jié)構(gòu)。按照該結(jié)構(gòu)的規(guī)范，在結(jié)構(gòu)的框架內(nèi)使用I ME API（輸入法程序編程接口）為各個部分編寫程序代碼，實(shí)現(xiàn)維吾爾文智能輸入法功能。輸入法運(yùn)行結(jié)果界面如圖4所示。

圖3 單詞聯(lián)想原理

圖4 輸入法界面

6 實(shí)驗(yàn)

圖5 單詞聯(lián)想界面

為了驗(yàn)證輸入法程序的性能，對不同用戶進(jìn)行了輸入測試。抽出的6名用戶打字速度不同。經(jīng)過從政府文獻(xiàn)中選取的有關(guān)《中華人民共和國郵政法》的一頁（包含4個段落、252個維吾爾文單詞、33個標(biāo)點(diǎn)符號）內(nèi)容進(jìn)行測試，并得到了測試數(shù)據(jù)。測試結(jié)果如表4所示。

表4 輸入法輸入測試數(shù)據(jù)表

從表4中可以看出，用戶1明顯比其他用戶打字速度慢，而且輸錯的單詞數(shù)目也比較多。完成測試之后可以看出使用本智能輸入法輸入時，速度比傳統(tǒng)方式輸入速度平均提高了38.1%，錯誤率平均下降了47%。但仍存在輸錯單詞的情況，主要是因?yàn)橛脩暨€不太適應(yīng)，還有候選詞選擇錯誤，翻頁查找候選詞等因素引起了輸錯或者選擇候選詞時的停頓，都影響了輸入法的性能［9]。通過完善訓(xùn)練詞庫可以提高輸入速度。

7 結(jié)束語

本文在分析維吾爾文智能輸入技術(shù)現(xiàn)狀的基礎(chǔ)上，提出并討論了一種基于混合Bigra m語言模型的智能輸入技術(shù)，最后討論了自動預(yù)測和自動聯(lián)想功能和系統(tǒng)自動校對功能的維吾爾文智能輸入的技術(shù)。此維吾爾文輸入系統(tǒng)的自動預(yù)測和聯(lián)想功能明顯提高了輸入速度，基本實(shí)現(xiàn)了預(yù)期目標(biāo)。但是，測試的結(jié)果也說明了系統(tǒng)存在一些問題，尤其是出現(xiàn)用戶輸入訓(xùn)練集以外的內(nèi)容時正確率有所下降，發(fā)現(xiàn)混合Bigram模型還不夠精確，用于訓(xùn)練該模型的語料選取太偏重于小說、新聞、社科等領(lǐng)域，不夠全面，要擴(kuò)大訓(xùn)練語料的規(guī)模；通過系統(tǒng)自動學(xué)習(xí)，采用高階語言模型和進(jìn)行數(shù)據(jù)平滑技術(shù)［10]能顯著提高維吾爾文輸入系統(tǒng)的性能。

［1]http：／／kenjisoft.ho melinux.co m／i mla／index.ht ml，2007－1－3.

［2]艾尼瓦爾·麥麥提，吐爾根·依布拉音.維吾爾文字母頻率統(tǒng)計及其應(yīng)用［C]／／第二屆全國學(xué)生計算語言學(xué)研討會論文集，2004年.

［3]李亭騫，曹渠江.Windows平臺下的漢字輸入法機(jī)制及應(yīng)用［J].計算機(jī)應(yīng)用與軟件，2006，（1）：40－42.

［4]高升，王曉龍.語句級漢字輸入系統(tǒng)中語義規(guī)則研究［J].計算機(jī)工程與應(yīng)用，2003，39（4）：80－82.

［5]陳正，李開復(fù).拼寫糾正在拼音輸入法中的應(yīng)用［J].計算機(jī)學(xué)報，2001，（7）：758－763.

［6]刑永康，馬少平.統(tǒng)計語言模型綜述［J].計算機(jī)科學(xué)，2003，30（9）：22－26.

［7]馮志偉.自然語言的計算機(jī)處理［M].上海外語教育出版社，1996.

［8]趙以寶江，孫圣和.一種基于單字統(tǒng)計二元文法的自組詞音字轉(zhuǎn)換算法［J].電子學(xué)報，1998，（10）：55－59.

［9]湯步洲，王曉龍，等.語句級漢字拼音輸入技術(shù)評估方法的研究［J].中文信息學(xué)報，2008，22（5）：51－55.

［10]黃永文，何中市.基于互信息的統(tǒng)計語言模型平滑技術(shù)［J].中文信息學(xué)報，2005，19（4）：46－51.

［11]朱巧明，倪明逸.基于統(tǒng)計的智能輸入技術(shù)分析［J].蘇州大學(xué)學(xué)報（自然科學(xué)版），2001（2）：43－47.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡