阿布都哈力力·阿布都熱依木+卿松+張建業(yè)+張超+塔拉甫·加盤
摘要:為了提高漢-維電費自助繳費終端準確率,給出了基于Moses算法的漢-維翻譯方法,并在此提出上設(shè)計了電費自助繳費終端。該終端系統(tǒng)對給予的維吾爾文字資料進行詞法分析,根據(jù)預(yù)料的知識進行翻譯,并輸出結(jié)果。由于新疆維吾爾自治區(qū)電力行業(yè)中還沒有漢語-維吾爾語自助繳費終端,具有廣泛的應(yīng)用前景。
關(guān)鍵詞:moses;自助繳費繳費終端漢-維統(tǒng)計翻譯電力行業(yè)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)34-8188-03
隨著社會向信息化社會發(fā)展,在西部大開發(fā)的推進下,基于少數(shù)民族文的IT行業(yè)進入快速發(fā)展的時期。在新疆維吾爾自治區(qū)電力系統(tǒng)中用電用戶的分布比較廣,13個地州公司,89個縣公司、營業(yè)區(qū),業(yè)務(wù)覆蓋用戶數(shù)約378萬戶,電力自助繳費終端的應(yīng)用很大程度上減少了電力公司收電費成本。但是由于新疆是中國多民族多語言的省區(qū),漢族與維吾爾族各占40%,剩下20%是其他民族,使用語言有漢語、維吾爾語、哈薩克語等,其中吐魯番、哈密、阿克蘇、巴州、疆南、和田六地州是居住少數(shù)民族同志較多的地區(qū),大部分的維吾爾民族同志不會漢語,使電力自助繳費終端的推廣受到阻礙。漢-維自助繳費終端來說,疆內(nèi)有建設(shè)銀行等銀行業(yè)有了初步的推廣應(yīng)用,但目前的電力行業(yè)還是以漢語版本為主,并且顯示的內(nèi)容是動態(tài)信息,沒有提供具有本地化支持的自助繳費終端。
1 Moses介紹
機器翻譯研究歷史可以追溯到上世紀三四十年代,當時法國科學(xué)家G.B.阿爾楚尼提出了用機器來進行翻譯的想法。從提出機器翻譯到現(xiàn)在已過80年的歷程,其中提出了許多基于數(shù)學(xué)與計算機方法的翻譯算法。這些算法大致分兩類一類是基于規(guī)則的方法,另一個是基于統(tǒng)計的方法。
基于規(guī)則的方法是把各種語法規(guī)則和雙語詞典告訴計算機,讓計算機通過這些規(guī)則完成翻譯。該方法優(yōu)點是直觀,能夠直接表達翻譯知識,具有較強的概括能力,擅長處理復(fù)雜的結(jié)構(gòu)和進行深層次的理解。缺點是規(guī)則提煉時間長、需要大量的調(diào)試,規(guī)則之間容易發(fā)生沖突。
統(tǒng)計機器翻譯是將翻譯看作搜索問題,而非匹配問題,從所有可能的譯文中選擇概率最大的譯文,目前機器翻譯所用的主流算法。公式1中h為源語句即漢語,u為對應(yīng)h的維吾爾語序列,要找出最大評分參量?。
Moses是統(tǒng)計機器翻譯中最有效的統(tǒng)計翻譯系統(tǒng)。對任何語言可自動進行翻譯模型訓(xùn)練 ,把所有你所需要的翻譯文本放到平行語料庫中。在翻譯過程中你所訓(xùn)練的翻譯模型對平行語料庫進行搜索,并且按照選擇指數(shù)把概率最高選為翻譯結(jié)果。
現(xiàn)在隨著電子和計算機網(wǎng)路技術(shù)的發(fā)展,使基于復(fù)雜算法的翻譯技術(shù)成為可能與此同時少數(shù)民族語言文字已進入信息化時代,大量的少數(shù)民族詞庫可以通過互聯(lián)網(wǎng)找到并進行翻譯。通過互聯(lián)網(wǎng)很容易對漢語和維吾爾語平行語料庫進行改善和擴充。
2 終端系統(tǒng)總體設(shè)計
系統(tǒng)設(shè)計上采用松散架構(gòu),內(nèi)部耦合的方式進行組織,要層次分明、模塊清晰易用,系統(tǒng)界面友好,技術(shù)上既要保證先進可靠性,又要考慮擴展性,以應(yīng)對未來變化,保證系統(tǒng)今后的擴展順利完成。同時,系統(tǒng)保證要有很強的容錯能力,進行各種系統(tǒng)異常捕捉,保證系統(tǒng)的運行穩(wěn)定。
漢-維電費自助繳費終端系統(tǒng)通過服務(wù)的方式,為電費自助繳費終端及其它電力業(yè)務(wù)系統(tǒng)提供機器翻譯服務(wù),系統(tǒng)主要由數(shù)據(jù)庫、數(shù)據(jù)庫接口、應(yīng)用服務(wù)、Web service服務(wù)、電力業(yè)務(wù)系統(tǒng)、語料庫管理客戶端、漢-維電費自助繳費終端構(gòu)成。圖1中語料庫管理客戶端具有系統(tǒng)管理、語料庫維護以及對信息進行編輯和審核的功能,信息通過語料庫管理客戶端發(fā)送到Web service服務(wù)層,通過Web service服務(wù)層到應(yīng)用服務(wù)層,應(yīng)用服務(wù)層對接收的信息進行分析,并與雙語實例語料庫進行對比,如果雙語實例庫維語庫中存在該信息,則直接發(fā)送到Web service服務(wù)層。反之通過機器翻譯對該信息進行翻譯,機器翻譯采用Moses翻譯模型和SIRLM語言模型,翻譯結(jié)果發(fā)送到Web service服務(wù)層和維語庫。翻譯結(jié)果通過Web service服務(wù)層到電力業(yè)務(wù)系統(tǒng),最后在自助繳費終端中顯示。數(shù)據(jù)庫主要分雙語語料庫、漢語庫和維語庫,其中雙語語料庫中存儲靜態(tài)的漢語信息以及與其一一對應(yīng)的維語信息,它們主要用于終端頁面和一些固定信息的翻譯。漢語庫維動態(tài)信息庫,用于存放一些及時更新的信息。數(shù)據(jù)接口主要用于數(shù)據(jù)庫和應(yīng)用服務(wù)連接,同時為語料庫的管理和維護提供語料庫管理服務(wù)。
漢-維翻譯服務(wù)采用Web Service技術(shù)部署實現(xiàn),語料庫管理采用 C / S 架構(gòu),項目整體采用 java 平臺開發(fā),運行環(huán)境基于JDK1.6,應(yīng)用服務(wù)中間件采用Tomcat 6.0版本。
系統(tǒng)總體技術(shù)架構(gòu)設(shè)計,如下圖:
終端主控制器采用32位ARM11嵌入式工控板作為主控單元,功耗低、處理能力強,高達2G Byte 的NAND Flash,特別采用4位糾錯技術(shù),確保信息存儲安全可靠;高速、安全的TCP/IP通訊方式,可輕松接入局域網(wǎng)內(nèi)工作。其中ARM11系列微處理器是ARM公司近年推出的新一代RISC處理器,它是ARM新指令架構(gòu)——ARMv6的第一代設(shè)計實現(xiàn)。該系列主要有ARM1136J,ARM1156T2和ARM1176JZ三個內(nèi)核型號,分別針對不同應(yīng)用領(lǐng)域。用戶通過觸摸屏和鍵盤對繳費終端進行操作,觸摸屏是15—17寸防爆、TFT32真彩色觸摸屏,操作指令通過主控制器進行分類并按照指令要求進行數(shù)據(jù)處理。在這過程中維吾爾族用電用戶可以在觸摸屏上對人機交互界面進行切換,切換成維吾爾族文字的界面。Flash 存儲系統(tǒng)啟動所需程序如Bootloadert等,SDRAM用存儲臨時數(shù)據(jù)這兩個存儲器通過總線與控制器連接。貨幣識別器可靠性高,可以識別目前流通的所有人民幣。讀卡器可支持銀聯(lián)卡的操作。終端使用嵌入式熱敏打印機,無需油墨,打印質(zhì)量高達200DPI(8dots/mm),憑條打印機可以檢測黑標、自動切紙,通過RS232與主控制器通信。供電模塊控制著開關(guān)電源和UPS電源,當停電時自動啟用UPS電源并對數(shù)據(jù)進行備份和保存處理。主控制器通過TCP/IP方式與電力服務(wù)系統(tǒng)連接。endprint
3 漢-維翻譯引擎流程
機器翻譯服務(wù)是該系統(tǒng)的核心部分,其主要分為訓(xùn)練模型和基于統(tǒng)計的翻譯模型兩部分。在訓(xùn)練模型時首先建立大量的維吾爾文語料庫,其次對已建立的維吾爾文語料庫,在SRILM算法的基礎(chǔ)上建立維吾爾語的語言模型。對平行語料庫進行基于Mkcls算法的單詞分類。用GIZA++實現(xiàn)了IBM模型1~5的所有代碼,在生成源語言語目標語言之間翻譯概率的同時,產(chǎn)生了翻譯模型。
翻譯模型時從漢文數(shù)據(jù)庫提取相應(yīng)的漢文信息。對漢文進行詞法分析。通過Moses譯碼機實現(xiàn)漢-維翻譯,并顯示維吾爾文的翻譯結(jié)果。
4 漢-維翻譯引擎實驗
4.1 實驗材料
本文用的語料庫是針對國網(wǎng)新疆電力公司專用的科學(xué)用電常識、安全用電常識、節(jié)約用電常識、電力設(shè)施保護條例、中華人民共和國電力法、電力供應(yīng)與使用條例,電力設(shè)施保護條例,國家電網(wǎng)公司供電服務(wù)“十項承諾”,國家電網(wǎng)公司供電服務(wù)“十項承諾”。
實驗所用訓(xùn)練模型需要的漢-維平行語料庫是對上述材料進行訓(xùn)練得到的句子,共3萬個,實現(xiàn)語言模型的維文句子6萬個,實驗測試漢文句子500個。
4.2 實驗結(jié)果
本實驗用的譯碼機是Moses系統(tǒng),一般Moses系統(tǒng)結(jié)果評價分人工評價和自動評價兩種,該文中我們采用國際評價標準BLEU(Bilingual Evaluation Understudy)和NIST(The National Institute of Standards and Technology)來評價翻譯結(jié)果。
5 結(jié)束語
通過對漢-維機器翻譯方法的研究和分析,該文提出了基于Moses的翻譯方法,并開發(fā)了相應(yīng)的自助繳費終系統(tǒng)和終端硬件設(shè)計。硬件采用32位ARM11嵌入式工控板,充分考慮了終端的各功能和相應(yīng)的軟件措施。Moses方法的應(yīng)用提高了系統(tǒng)的翻譯準確度和翻譯速度,已經(jīng)完全能勝任電力營銷業(yè)務(wù)和其他信息的翻譯,由于漢-維語料庫的量在不斷地擴充中,會進一步提高翻譯準確率執(zhí)行速率。
參考文獻:
[1] Hsin-Hsi Chen,Yung-Wei Ding,Shih-Chung Tsai.Named Entity Extraction for Information Retrieval[J].Computer Processing of Oriental Languages, Special Issue on Information Retrieval on Oriental Languages , 1998,12(1):75-85.
[2] Keller F, Lapata M.Using the Web to Obtain Frequencies for Unseen Bigrams[J].Computational Linguistics, 2003,29(3):59-484.
[3] Resnik P, Smith N A. The Web as a Parallel Corpus[J].Computational Linguistics,2003,29(3):349-380.endprint
3 漢-維翻譯引擎流程
機器翻譯服務(wù)是該系統(tǒng)的核心部分,其主要分為訓(xùn)練模型和基于統(tǒng)計的翻譯模型兩部分。在訓(xùn)練模型時首先建立大量的維吾爾文語料庫,其次對已建立的維吾爾文語料庫,在SRILM算法的基礎(chǔ)上建立維吾爾語的語言模型。對平行語料庫進行基于Mkcls算法的單詞分類。用GIZA++實現(xiàn)了IBM模型1~5的所有代碼,在生成源語言語目標語言之間翻譯概率的同時,產(chǎn)生了翻譯模型。
翻譯模型時從漢文數(shù)據(jù)庫提取相應(yīng)的漢文信息。對漢文進行詞法分析。通過Moses譯碼機實現(xiàn)漢-維翻譯,并顯示維吾爾文的翻譯結(jié)果。
4 漢-維翻譯引擎實驗
4.1 實驗材料
本文用的語料庫是針對國網(wǎng)新疆電力公司專用的科學(xué)用電常識、安全用電常識、節(jié)約用電常識、電力設(shè)施保護條例、中華人民共和國電力法、電力供應(yīng)與使用條例,電力設(shè)施保護條例,國家電網(wǎng)公司供電服務(wù)“十項承諾”,國家電網(wǎng)公司供電服務(wù)“十項承諾”。
實驗所用訓(xùn)練模型需要的漢-維平行語料庫是對上述材料進行訓(xùn)練得到的句子,共3萬個,實現(xiàn)語言模型的維文句子6萬個,實驗測試漢文句子500個。
4.2 實驗結(jié)果
本實驗用的譯碼機是Moses系統(tǒng),一般Moses系統(tǒng)結(jié)果評價分人工評價和自動評價兩種,該文中我們采用國際評價標準BLEU(Bilingual Evaluation Understudy)和NIST(The National Institute of Standards and Technology)來評價翻譯結(jié)果。
5 結(jié)束語
通過對漢-維機器翻譯方法的研究和分析,該文提出了基于Moses的翻譯方法,并開發(fā)了相應(yīng)的自助繳費終系統(tǒng)和終端硬件設(shè)計。硬件采用32位ARM11嵌入式工控板,充分考慮了終端的各功能和相應(yīng)的軟件措施。Moses方法的應(yīng)用提高了系統(tǒng)的翻譯準確度和翻譯速度,已經(jīng)完全能勝任電力營銷業(yè)務(wù)和其他信息的翻譯,由于漢-維語料庫的量在不斷地擴充中,會進一步提高翻譯準確率執(zhí)行速率。
參考文獻:
[1] Hsin-Hsi Chen,Yung-Wei Ding,Shih-Chung Tsai.Named Entity Extraction for Information Retrieval[J].Computer Processing of Oriental Languages, Special Issue on Information Retrieval on Oriental Languages , 1998,12(1):75-85.
[2] Keller F, Lapata M.Using the Web to Obtain Frequencies for Unseen Bigrams[J].Computational Linguistics, 2003,29(3):59-484.
[3] Resnik P, Smith N A. The Web as a Parallel Corpus[J].Computational Linguistics,2003,29(3):349-380.endprint
3 漢-維翻譯引擎流程
機器翻譯服務(wù)是該系統(tǒng)的核心部分,其主要分為訓(xùn)練模型和基于統(tǒng)計的翻譯模型兩部分。在訓(xùn)練模型時首先建立大量的維吾爾文語料庫,其次對已建立的維吾爾文語料庫,在SRILM算法的基礎(chǔ)上建立維吾爾語的語言模型。對平行語料庫進行基于Mkcls算法的單詞分類。用GIZA++實現(xiàn)了IBM模型1~5的所有代碼,在生成源語言語目標語言之間翻譯概率的同時,產(chǎn)生了翻譯模型。
翻譯模型時從漢文數(shù)據(jù)庫提取相應(yīng)的漢文信息。對漢文進行詞法分析。通過Moses譯碼機實現(xiàn)漢-維翻譯,并顯示維吾爾文的翻譯結(jié)果。
4 漢-維翻譯引擎實驗
4.1 實驗材料
本文用的語料庫是針對國網(wǎng)新疆電力公司專用的科學(xué)用電常識、安全用電常識、節(jié)約用電常識、電力設(shè)施保護條例、中華人民共和國電力法、電力供應(yīng)與使用條例,電力設(shè)施保護條例,國家電網(wǎng)公司供電服務(wù)“十項承諾”,國家電網(wǎng)公司供電服務(wù)“十項承諾”。
實驗所用訓(xùn)練模型需要的漢-維平行語料庫是對上述材料進行訓(xùn)練得到的句子,共3萬個,實現(xiàn)語言模型的維文句子6萬個,實驗測試漢文句子500個。
4.2 實驗結(jié)果
本實驗用的譯碼機是Moses系統(tǒng),一般Moses系統(tǒng)結(jié)果評價分人工評價和自動評價兩種,該文中我們采用國際評價標準BLEU(Bilingual Evaluation Understudy)和NIST(The National Institute of Standards and Technology)來評價翻譯結(jié)果。
5 結(jié)束語
通過對漢-維機器翻譯方法的研究和分析,該文提出了基于Moses的翻譯方法,并開發(fā)了相應(yīng)的自助繳費終系統(tǒng)和終端硬件設(shè)計。硬件采用32位ARM11嵌入式工控板,充分考慮了終端的各功能和相應(yīng)的軟件措施。Moses方法的應(yīng)用提高了系統(tǒng)的翻譯準確度和翻譯速度,已經(jīng)完全能勝任電力營銷業(yè)務(wù)和其他信息的翻譯,由于漢-維語料庫的量在不斷地擴充中,會進一步提高翻譯準確率執(zhí)行速率。
參考文獻:
[1] Hsin-Hsi Chen,Yung-Wei Ding,Shih-Chung Tsai.Named Entity Extraction for Information Retrieval[J].Computer Processing of Oriental Languages, Special Issue on Information Retrieval on Oriental Languages , 1998,12(1):75-85.
[2] Keller F, Lapata M.Using the Web to Obtain Frequencies for Unseen Bigrams[J].Computational Linguistics, 2003,29(3):59-484.
[3] Resnik P, Smith N A. The Web as a Parallel Corpus[J].Computational Linguistics,2003,29(3):349-380.endprint