国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談新疆多語種智能化研究現(xiàn)狀

2014-02-25 10:52:18張亞軍吳曉林賀琛琛
電腦知識與技術(shù) 2014年1期
關(guān)鍵詞:多語種語料庫

張亞軍 吳曉林 賀琛琛

摘要:針對新疆地區(qū)的多語種發(fā)展現(xiàn)狀做出介紹,涉及到維哈柯語料庫、機(jī)器翻譯、維吾爾語語音識別等領(lǐng)域,重點介紹新疆多語種智能化研究機(jī)構(gòu)以及各機(jī)構(gòu)的主要研究方向和內(nèi)容。

關(guān)鍵詞:漢維機(jī)器翻譯;語料庫;維吾爾語語音識別;多語種

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)01-0138-03

隨著計算機(jī)技術(shù)的快速發(fā)展,不同語言之間翻譯不僅僅局限于傳統(tǒng)的人工翻譯,機(jī)器翻譯成為研究的重點。機(jī)器翻譯(machine translation)利用計算機(jī)把源語言轉(zhuǎn)變?yōu)槟繕?biāo)語言的過程,通常指自然語言之間句子和全文的翻譯。的研究是建立在語言學(xué)、數(shù)學(xué)和計算機(jī)科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合于計算機(jī)進(jìn)行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式化和代碼化,計算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計。缺少上述任何一方面,機(jī)器翻譯就不能實現(xiàn),機(jī)器翻譯效果的好壞,也完全取決于這3個方面的共同努力。

我國的機(jī)器翻譯研究起步于1957年,是世界上較早開始研究機(jī)器翻譯的國家之一。目前翻譯的語種和類型有英漢、俄漢、法漢、日漢、德漢等一對一的系統(tǒng),也有漢譯英、法、日、俄、德的一對多系統(tǒng)(FAJRA系統(tǒng))。在新疆地區(qū),官方文件有漢語和維語版,世居民族有13個,日常交流使用的語言最多有漢語、維吾爾語(以下簡稱維語)、哈薩克語、柯爾克孜語等,占到總?cè)丝诘?0%以上。目前雖然國內(nèi)對于新疆少數(shù)民族語言的機(jī)器翻譯研究工作起步較晚,但是在吾守爾院士、吐爾根教授等人的帶領(lǐng)和指導(dǎo)下,已經(jīng)取得巨大的進(jìn)步和豐碩成果。

1 新疆多語種機(jī)器翻譯發(fā)展歷程

在20世紀(jì)80年代出期,新疆的計算機(jī)數(shù)量很少,計算機(jī)相關(guān)操作基本都是使用英語或者少量的漢語,新疆的少數(shù)民族對計算機(jī)知識的了解和使用幾乎是空白。這個階段,沒有維語輸入法,甚至維語的32個字母在鍵盤上的布局也沒有成型的標(biāo)準(zhǔn)。這一時期的主要研究人員有新疆大學(xué)的吾守爾等人,對維語字母在計算機(jī)鍵盤上的布局等工作進(jìn)行研究,基本解決了維語字母的布局問題。

進(jìn)入20世紀(jì)90年代之后,隨著計算機(jī)的普及,研究計算機(jī)本地化的人員越來越多,研究主要集中在研究維語字符集編碼、字符點陣、如何使計算機(jī)DOS系統(tǒng)維語化等問題。該階段主要以吾守爾和吐爾根為代表,解決維語字符集編碼和DOS系統(tǒng)的維語化。

進(jìn)入21世紀(jì)至今,由于世界各國經(jīng)濟(jì)交流頻繁且計算機(jī)開始大量使用,遇到的問題之一就是如何在不同語言之間進(jìn)行翻譯,提高工作效率。由此引發(fā)了針對維語-漢語之間人工智能的研究熱潮,主要有文字識別、維漢語料庫建設(shè)、維漢機(jī)器翻譯、語音識別、語音合成等領(lǐng)域。吾守爾等人研究重點是語音識別、語音合成、嵌入式開發(fā),吐爾根和李曉等人集中研究維漢語料庫、數(shù)據(jù)挖掘和維漢機(jī)器翻譯等相關(guān)問題,田生偉等人研究維語詞匯的情感分類問題。

2 主要研究機(jī)構(gòu)和研究內(nèi)容

目前研究維語-漢語人工智能方面研究機(jī)構(gòu)比較多,主要集中在新疆地區(qū),如新疆大學(xué)、新疆理化技術(shù)研究所、新疆師范大學(xué)等機(jī)構(gòu)開展該領(lǐng)域的研究工作。下面將介紹主要研究機(jī)構(gòu)和該機(jī)構(gòu)的主要研究內(nèi)容。

2.1新疆大學(xué)

新疆大學(xué)研究多語種信息處理的學(xué)術(shù)及學(xué)科帶頭人主要有吾守爾院士和吐爾根教授等人,主要依托新疆多語種信息技術(shù)實驗室,該實驗室匯聚新疆大學(xué)計算機(jī)科學(xué)技術(shù)、電子信息、少數(shù)民族語言學(xué)等相關(guān)師資力量,研究的主要內(nèi)容如下:

2.1.1 多語種信息處理及自動化

在吾守爾院士的帶領(lǐng)下,承擔(dān)國家863計劃一項,國家自然科學(xué)基金項目7項,針對不同的操作系統(tǒng)平臺,結(jié)合新疆地區(qū)情況,實現(xiàn)新疆本地化多語種處理,早期的研究成果主要有:文獻(xiàn)[1]中提出56個標(biāo)準(zhǔn)字符的問題和解決方案,制定維文字字符鍵位基本一致的通用鍵盤,且設(shè)計出適應(yīng)于維語的七位編碼,討論計算機(jī)處理新疆多語種信息的標(biāo)準(zhǔn)化;新疆少數(shù)民族語言的編碼制定標(biāo)準(zhǔn)大部分采用了吾守爾院士的研究成果。文獻(xiàn)[2]重點介紹在IBM PC/XT計算機(jī)上根據(jù)維、哈、柯文字書寫事關(guān)開發(fā)出的多語種文字信息處理系統(tǒng)。近期主要研究成果有:基于Linux的維哈柯文操作系統(tǒng)、外掛式維哈柯文Windows操作系統(tǒng)、維哈柯語跨平臺輸入系統(tǒng)(鍵盤、手寫、印刷體文字掃描識別)、維哈柯文軟件標(biāo)準(zhǔn)體系研究及標(biāo)準(zhǔn)制定等。部分科技成果經(jīng)過轉(zhuǎn)化,形成軟件出口至中亞國家,已經(jīng)產(chǎn)生了社會和經(jīng)濟(jì)效益。

除此之外,哈力木拉提教授針對新疆維、哈、柯印刷文檔技術(shù)進(jìn)行研究,文獻(xiàn)[3]中利用投影技術(shù)分離出維語連體段中的字母,通過一系列的切分、分類、提取特征、訓(xùn)練等過程,取得較高的識別率,解決了新疆多語種文字在印刷過程中產(chǎn)生的問題。

2.1.2 自然語言理解(多語種)

該領(lǐng)域由吐爾根教授領(lǐng)軍,主要研究人員有地力木拉提、阿里甫、田生偉、艾山·吾買爾 等人,承擔(dān)國家自然科學(xué)基金8項。在20世紀(jì)初,開始研究構(gòu)建維吾爾語-漢語平行語料庫,經(jīng)過不斷的收集雙語資料、去噪處理,目前該語料庫已有數(shù)十萬規(guī)模。文獻(xiàn)[4]在直接正字匹配(DOM)的框架下,將統(tǒng)計的思想引入到維漢人名的音譯中,采用信源信道模型,將人名看成是特殊的句子,從而提高了音譯的準(zhǔn)確率。在維語名詞詞干提取研究中[5]使用基于有限狀態(tài)自動機(jī)和詞典查詢相結(jié)合的維吾爾語名詞詞干提取算法,繼而實現(xiàn)對未登錄詞的處理獲得較高的準(zhǔn)確率。在維語文本分類問題上【6】【7】,主要提出基于特征的類別分布差異和信息熵的維吾爾文文本特征選擇方法和采用詞干提取和χ2統(tǒng)計量相結(jié)合的方法對表示空間進(jìn)行降維,并采用SVM算法構(gòu)造了維吾爾文文本分類器,基本解決維語的文本分類問題。

針對維哈柯語料庫方面【8】,重點設(shè)計了高效實用的漢維哈柯雙語語料庫加工系統(tǒng)以及詞對齊,該系統(tǒng)具有文檔自動對齊、句子對齊以及詞語對齊的功能,具有高效、方便、快捷和可擴(kuò)充等特點。在漢維句子對齊級對齊問題上提出結(jié)合簡單的句子結(jié)構(gòu)相似度計算方法,通過對單詞詞干提取進(jìn)行句子相似度計算,測試驗證效果顯著。在此研究基礎(chǔ)上,設(shè)計開發(fā)了漢維雙向翻譯系統(tǒng),實現(xiàn)翻譯記憶子系統(tǒng)模型,且在記憶庫設(shè)計中采用維吾爾文和漢文句子以句子精確對齊的方式存儲,具有對記憶庫進(jìn)行查找、刪除等功能。

2.1.3多語種語音識別

多語種語音識別研究方向主要是由艾斯卡爾·艾木都拉教授負(fù)責(zé)。依據(jù)維吾爾語的特點,對Fujisaki量化模型進(jìn)行了調(diào)整,使其便于分析維語語調(diào), 以及它在通過規(guī)則合成F0曲線方面的應(yīng)用【9】。且對現(xiàn)有的維吾爾語微型語音庫的語音數(shù)據(jù)進(jìn)行手工切分、標(biāo)注得出手工詞性標(biāo)注提供的詞類信息,然后分析數(shù)據(jù)庫中的維語語句,分析其參數(shù)變化的原因。同時構(gòu)造規(guī)則,捕捉語言和說話者相關(guān)的特征,實現(xiàn)目標(biāo)語句生成人工語調(diào)曲線,具有較好的實用價值。

音節(jié)是維吾爾語的最小發(fā)音單元,因此大部分維吾爾語語音合成系統(tǒng)以音節(jié)作為基本的合成單元。但維吾爾語中音節(jié)數(shù)量很大,語料庫很難保證覆蓋所有的音節(jié)樣本[10],這會導(dǎo)致合成語音不穩(wěn)定和不連續(xù)。為解決合成語音不穩(wěn)定的情況,提出了結(jié)合單音素和三音素兩個不同基元的單元挑選算法。通過在單元挑選模塊中加入韻律參數(shù)相匹配的方法選出最佳韻律匹配的單元并解決了合成語音不連續(xù)的情況。實驗結(jié)果證實,提出的方法有效地解決了合成語音不穩(wěn)定和不連續(xù)的現(xiàn)象,從而提高了合成語音的自然度。維吾爾語中存在的形同音不同單詞(多音詞)的正確發(fā)音是影響合成系統(tǒng)可懂讀的重要原因之一。為解決此類問題,將維吾爾語中經(jīng)常用錯的16個多音詞詞根作為研究對象,以多音詞的不同特點為出發(fā)點,采取不同的規(guī)則,結(jié)合最大熵模型方法來處理不符規(guī)則的多音詞,同時用似然比方法選取關(guān)鍵詞,并用貪婪算法選擇最佳特征模板,設(shè)計出以音節(jié)和音素為最小合成單元的波形拼接式維吾爾語語音合成系統(tǒng)。

在維語語音合成方面重點研究了以32個單音素和以384個雙音素作為拼接單元的維吾爾語音合成技術(shù), 建立了由維吾爾語中的單音素、雙音素所構(gòu)成的小規(guī)模語音語料庫,利用拼接單元挑選算法參數(shù)調(diào)整算法對拼接單元語音信號的時長、基頻和短時能量等特征參數(shù)進(jìn)行調(diào)整,用編程語言實現(xiàn)了全過程,驗證該技術(shù)在小規(guī)模語音語料庫的維吾爾語音合成技術(shù)方案的可行性。在研究過程中遇到維吾爾語中弱化現(xiàn)象及處理問題,重點分析維吾爾語詞法結(jié)構(gòu)、音節(jié)結(jié)構(gòu)、詞干-詞綴連接形式等技術(shù)。處理弱化問題時,可依據(jù)詞干庫檢查弱化屬性、語音和諧規(guī)律分析是否正確連接。該技術(shù)在維語文本檢索、詞頻統(tǒng)計、文本校對等研究領(lǐng)域得到很好的應(yīng)用。

在維語韻律特征聲學(xué)問題上,從文本分析模塊入手,利用"維吾爾語語音聲學(xué)參數(shù)庫",選擇了以開音節(jié)和閉音節(jié)結(jié)尾的333個三音節(jié)詞的韻律參數(shù),包括元音時長、音高和音強(qiáng)進(jìn)行了統(tǒng)計分析,歸納了其元音時長、音高和音強(qiáng)分布模式,探討了維吾爾語三音節(jié)詞的韻律節(jié)奏模式與三音節(jié)詞重音之間的關(guān)系問題,分別研究了邊音在單音節(jié)及多音節(jié)詞中時的以及邊音出現(xiàn)在詞中位置(詞首、詞中、詞末)時的共振峰、音強(qiáng)和時長分布模式,得出了一系列結(jié)論,研究結(jié)果在維吾爾語乃至整個阿爾泰語系的韻律研究具有較高的參考價值。

結(jié)合維吾爾語語音特征,以建立維吾爾音素語料庫為目標(biāo),通過HTK工具實現(xiàn)了音素的自動切分算法【11】:首先做文本設(shè)計、錄音和手動標(biāo)注等準(zhǔn)備工作,設(shè)計出上下文屬性集,通過訓(xùn)練獲得了音素的HMM模型,隨后對任意輸入的語音句子進(jìn)行其音素構(gòu)成部分的自動切分,分析其切分準(zhǔn)確度、存在的問題及對策等。經(jīng)過驗證利用此種算法確實提高了維語語音語料庫標(biāo)注信息的一致性和準(zhǔn)確性。

2.2新疆科學(xué)院理化技術(shù)研究所

主要在李曉研究員等人的帶領(lǐng)下研究維漢機(jī)器翻譯領(lǐng)域,主要成果針對漢維平行語料庫規(guī)模較小和維吾爾語形態(tài)變化比較豐富的特點,通過對詞級的語料庫進(jìn)行切分得到詞素級的語料庫,并分別進(jìn)行詞一級的實驗和詞素級的實驗【12】。

在維語詞語切分方面提出一種改進(jìn)的非監(jiān)督維吾爾語詞切分方法。該方法采用MAP切分評價模型對規(guī)則切分打分,選取得分最高的規(guī)則切分作為該詞的最終切分形式。在一個5000詞的測試語料上進(jìn)行了實驗,證實該方法在維語切分方面的實用性。

該機(jī)構(gòu)還深入探討了對漢維/維漢翻譯有影響的各種因素,包括詞對齊問題,漢維翻譯中主語、謂語中心詞、時態(tài)等的一致性問題,維漢翻譯中OOV的問題,漢維句法結(jié)構(gòu)差異問題。同時利用多線程、任務(wù)分發(fā)的技術(shù)開發(fā)了一個在線的、高性能的民語言翻譯引擎,初步實現(xiàn)了維漢、哈漢、柯漢三種語言間的翻譯。翻譯引擎具有很好的擴(kuò)展性,具有翻譯詞、短語、句子、文件和網(wǎng)頁的功能。

2.3新疆師范大學(xué)

該機(jī)構(gòu)民文研究工作主要由計算機(jī)學(xué)院的玉素甫·艾白都拉教授主持,研究成果主要是維語語料庫中文件格式轉(zhuǎn)換技術(shù)和維語文字校對技術(shù)。

玉素甫·艾白都拉教授早期主要研究從MS-DOS系統(tǒng)上排版的書刊、雜志中獲得維吾爾語單詞,并轉(zhuǎn)換到Windows環(huán)境上RTF格式的一種快速解決方法,然后提出維吾爾文字Unicode代碼對應(yīng)的RTF代碼表和動態(tài)生成維吾爾文RTF文件的簡單方法。

近期根據(jù)文字校對的現(xiàn)狀,提出了維吾爾文文字校對系統(tǒng)的設(shè)計思路、設(shè)計詞庫類型和系統(tǒng)功能【13】。根據(jù)維吾爾語的自身特征和構(gòu)詞規(guī)律設(shè)計和實現(xiàn)維吾爾語文本校對系統(tǒng),具有維語分析、查錯、糾正拼寫錯誤等功能。該系統(tǒng)在維語的出版校對系統(tǒng)具有很好實際意義。

3 總結(jié)與展望

隨著新疆地區(qū)對外交流的擴(kuò)大和經(jīng)濟(jì)的快速發(fā)展,新疆的漢維機(jī)器翻譯得到巨大的發(fā)展和進(jìn)步,目前主要研究新疆民文的機(jī)構(gòu)有新疆大學(xué)、新疆師范大學(xué)和新疆科學(xué)院理化技術(shù)研究所,漢維(維哈柯)機(jī)器翻譯、維語語音識別、維語校對系統(tǒng)等已經(jīng)取得部分研究成果和實用價值。隨著社會各界對新疆民語言研究領(lǐng)域的關(guān)注和支持,維語的機(jī)器翻譯、語音識別將對新疆地區(qū)的輿情分析和監(jiān)督帶來極大的便利性,同時更加利于新疆各民族之間社會交流,為新疆地區(qū)的穩(wěn)定發(fā)展做出一定貢獻(xiàn)。

參考文獻(xiàn):

[1] 吾守爾,吾宗堯,蘇丹. 計算機(jī)維、哈、柯文字信息處理標(biāo)準(zhǔn)化方案[J]. 計算機(jī)研究與發(fā)展,1986(12):33-38.

[2] 吳宗堯,吾守爾,蘇丹. 維、哈、柯、漢、英多種文字信息處理系統(tǒng)[J]. 計算機(jī)學(xué)報,1987(3):155-165.

[3] 哈力木拉提,阿孜古麗. 多字體印刷維吾爾文字符識別系統(tǒng)的研究與開發(fā)[J]. 計算機(jī)學(xué)報,2004(11):1480-1484.

[4] 譚煜輝,吐爾根·依布拉音,艾山·吾買爾,買合木提·買買提. 基于統(tǒng)計的維文漢文人名音譯研究[J]. 新疆大學(xué)學(xué)報:自然科學(xué)版,2012(01):108-111.

[5] 早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等. 基于混合策略的維吾爾語名詞詞干提取系統(tǒng)[A]. 中國中文信息學(xué)會、新疆大學(xué)、內(nèi)蒙古大學(xué).少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C].中國中文信息學(xué)會、新疆大學(xué)、內(nèi)蒙古大學(xué),2010.

[6] 阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力,等. 基于SVM的維吾爾文文本分類研究[J]. 計算機(jī)工程與科學(xué),2012(12):150-154.

[7] 劉源,吐爾根·依布拉音,阿力木江·艾沙,等. 基于詞干的混合策略維吾爾語文本聚類特征選擇方法研究[J]. 計算機(jī)應(yīng)用與軟件,2012(12):30-32+50.

[8] 艾山·毛力尼亞孜,譚勛,吐爾根·依布拉音,等. 漢維哈柯雙語語料庫加工系統(tǒng)詞對齊技術(shù)的研究[J]. 電腦知識與技術(shù),2011(28):6895-6896+6925.

[9] 庫爾班·吾布力,艾斯卡爾·艾木都拉. 基于量化模型的維吾爾語調(diào)曲線F_0的合成技術(shù)研究[A]. 中國中文信息學(xué)會民族語言文字信息專委會.民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C].中國中文信息學(xué)會民族語言文字信息專委會,2007.

[10] 姑麗加瑪麗·麥麥提艾力,艾斯卡爾·肉孜,艾斯卡爾·艾木都拉. 多基元及韻律參數(shù)匹配的維吾爾語語音合成方法[J]. 計算機(jī)工程與應(yīng)用,2012(02):116-118.

[11] 阿依木尼薩·胡甫爾,艾斯卡爾·艾木都拉. 面向語音合成的維吾爾語音素自動切分算法研究[J]. 計算機(jī)應(yīng)用與軟件,2011(9):18-21.

[12] 董興華,周俊林,郭樹盛,等. 基于短語的漢維/維漢統(tǒng)計機(jī)器翻譯[J]. 計算機(jī)工程,2011(9):16-18+21.

[13] 約爾尼薩·吾不力卡司木,玉素甫·艾白都拉. 基于最小編輯距離和詞匯庫的維吾爾語文本校對系統(tǒng)的設(shè)計與算法實現(xiàn)[J]. 信息與電腦:理論版,2013(6):43-44.

猜你喜歡
多語種語料庫
青島市多語種應(yīng)急語言服務(wù)現(xiàn)狀與需求調(diào)查研究
語聯(lián)世界,言通天下
《語料庫翻譯文體學(xué)》評介
基于語料庫“隱秘”的詞類標(biāo)注初步探究
多語種《中級軍事漢語》教材的編寫思路與指導(dǎo)思想
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
北美“新清史”研究的基石何在——是多語種史料考辨互證的實證學(xué)術(shù)還是意識形態(tài)化的應(yīng)時之學(xué)?(上)
從英語碩士到法國博士——我的留學(xué)規(guī)劃和多語種學(xué)習(xí)之路
新東方英語(2014年1期)2014-01-07 20:03:00
基于網(wǎng)絡(luò)語料庫的“給力”研究
芦山县| 蓝田县| 抚州市| 娱乐| 定陶县| 上犹县| 凤阳县| 大洼县| 平顺县| 茂名市| 彰武县| 平罗县| 昭觉县| 武夷山市| 麻江县| 观塘区| 察雅县| 瑞安市| 蒲江县| 出国| 太谷县| 突泉县| 抚顺县| 侯马市| 象山县| 通辽市| 沁水县| 台北县| 安康市| 丰顺县| 日照市| 伊金霍洛旗| 东兴市| 驻马店市| 东光县| 工布江达县| 云林县| 山阴县| 民县| 荥经县| 霍城县|