哈薩克文信息處理的現(xiàn)狀和發(fā)展方向

2010-02-14 22:16木合亞提尼亞孜別克古力沙吾利

中文信息學(xué)報(bào) 2010年4期

木合亞提?尼亞孜別克,古力沙吾利

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046;2.新疆醫(yī)科大學(xué)中醫(yī)學(xué)院,新疆烏魯木齊830011)

1 引言

自1946年計(jì)算機(jī)出現(xiàn)到現(xiàn)在計(jì)算機(jī)普及的無(wú)處不有,計(jì)算機(jī)已成為日常生活中不可或缺的部件,這些還得歸功于計(jì)算機(jī)的語(yǔ)言文字信息處理的發(fā)展,我國(guó)是一個(gè)多民族國(guó)家,我國(guó)的“中文信息處理”就是中國(guó)語(yǔ)言文字信息處理的簡(jiǎn)稱(chēng),它包括漢文和中國(guó)境內(nèi)其他少數(shù)民族的語(yǔ)言文字信息處理。新疆是多民族的地區(qū),少數(shù)民族占總?cè)丝诘?0%,哈薩克語(yǔ)是僅次于維吾爾語(yǔ)通用的6種少數(shù)民族語(yǔ)言文字之一,而且是跨竟語(yǔ)言(哈薩克斯坦),建設(shè)高質(zhì)量的標(biāo)注語(yǔ)料庫(kù)是現(xiàn)代哈薩克語(yǔ)信息處理領(lǐng)域的基礎(chǔ)性工程。新疆從1980年開(kāi)始進(jìn)行了維吾爾文、哈薩克文、柯?tīng)柨俗挝牡男畔⒀芯?解決了輸入/輸出等基本問(wèn)題,并制定了DOS系統(tǒng)、W INDOWS系統(tǒng)下的維、哈、柯文的國(guó)家標(biāo)準(zhǔn),研制了DOS系統(tǒng)、W INDOWS操作系統(tǒng)、支持維、哈、柯文的 LINUX系統(tǒng)、基于Unicode編碼的維、哈、柯W INDOWS系統(tǒng)和文本編輯器,哈薩克文有了計(jì)算機(jī)信息處理的基本條件,已進(jìn)入了對(duì)其詞、語(yǔ)法、語(yǔ)料庫(kù)標(biāo)注等的信息處理研究階段,開(kāi)發(fā)和應(yīng)用具有國(guó)際水平的少數(shù)民族語(yǔ)言文字處理軟件,將是今后的一項(xiàng)重要研究課題[1]。哈薩克文信息處理作為中文信息處理家庭中的一員,哈薩克文信息處理系統(tǒng)也正在從無(wú)到有。想必,在不久的將來(lái),完整的中文信息處理平臺(tái)將服務(wù)于千家萬(wàn)戶(hù)。

2 基本情況

哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支,拼音文字,中國(guó)的哈薩克文借用了阿拉伯語(yǔ)和部分波斯文字母。哈薩克文有33個(gè)字母,其中有9個(gè)元音字母,24個(gè)輔音字母,每個(gè)字母的位置有詞首、詞中、詞末、獨(dú)立4種變體。并且,自右向左方向連續(xù)地書(shū)寫(xiě)與漢語(yǔ)書(shū)寫(xiě)順序是相反的,這樣,在計(jì)算機(jī)上處理哈文信息時(shí),存在字母間連接問(wèn)題。哈薩克語(yǔ)屬于黏著語(yǔ)類(lèi)型,哈語(yǔ)文本中的詞是由詞根附加一定的語(yǔ)素構(gòu)成的,語(yǔ)素又分為構(gòu)詞語(yǔ)素和構(gòu)形語(yǔ)素。構(gòu)詞語(yǔ)素用來(lái)構(gòu)造新詞,附加了構(gòu)詞語(yǔ)素的哈語(yǔ)詞的詞匯意義將發(fā)生變化,既有由一個(gè)語(yǔ)素構(gòu)成的,也有由多個(gè)語(yǔ)素構(gòu)成的[2]。到目前為止,在哈薩克語(yǔ)自然語(yǔ)言處理領(lǐng)域中,對(duì)于自動(dòng)詞法分析方法的研究、校對(duì)技術(shù)的研究、詞級(jí)研究、語(yǔ)料庫(kù)研究等方面非常欠缺。這樣使得這對(duì)哈薩克文信息處理領(lǐng)域的應(yīng)用無(wú)疑是一個(gè)極大的限制。所以,應(yīng)該進(jìn)一步研究、完善哈薩克文信息處理技術(shù)問(wèn)題是非常必要的。隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)絡(luò)的普及,近年來(lái)現(xiàn)代哈薩克語(yǔ)語(yǔ)料庫(kù)建設(shè)、機(jī)器翻譯、語(yǔ)音識(shí)別、自動(dòng)校對(duì)、智能檢索等等工作也得到了重視。有關(guān)專(zhuān)家們已開(kāi)始進(jìn)行大型語(yǔ)料庫(kù)建設(shè)及研制機(jī)器翻譯系統(tǒng)工作等等。語(yǔ)言信息處理的不斷發(fā)展要求借助更多的語(yǔ)言學(xué)知識(shí),對(duì)于哈薩克語(yǔ)來(lái)說(shuō)更加如此。

3 幾個(gè)關(guān)鍵概念

“哈薩克文信息處理”、“哈薩克語(yǔ)信息處理”和“哈薩克文字信息處理”之間的關(guān)系是,“哈薩克文信息處理”可劃分為“哈薩克語(yǔ)信息處理”和“哈薩克字信息處理”兩個(gè)層次。哈薩克字信息處理層面包括操作系統(tǒng)以及編碼字符集、輸入技術(shù)、字形描述與生成、存儲(chǔ)、編輯、排版、字頻統(tǒng)計(jì)和哈薩克字屬性庫(kù)等課題[3];哈薩克語(yǔ)信息處理層面包括機(jī)器翻譯、信息檢索、信息提取、文本校對(duì)、文本生成、文本分類(lèi)、自動(dòng)摘要以及哈薩克文文字識(shí)別和語(yǔ)音識(shí)別的后處理等等。兩者之間也有交叉,哈薩克語(yǔ)信息處理要以哈薩克字信息處理的實(shí)現(xiàn)為基礎(chǔ)。既要提高哈薩克字信息處理的智能水平,又要借助哈薩克語(yǔ)信息處理的成果。

4 哈薩克文信息處理技術(shù)的三要素

哈薩克文信息處理技術(shù)的研究還處于開(kāi)始階段,要解決人與計(jì)算機(jī)接口、系統(tǒng)回答、從計(jì)算機(jī)的角度出發(fā)考慮哈薩克文分詞的規(guī)范原則、依據(jù)哈薩克文詞匯的構(gòu)詞規(guī)律和特點(diǎn),制定適合計(jì)算機(jī)信息處理的哈薩克文分詞規(guī)范標(biāo)準(zhǔn)、解決自動(dòng)分詞、詞性標(biāo)注、信息檢索、語(yǔ)料庫(kù)建設(shè)等一系列重要研究課題,實(shí)現(xiàn)計(jì)算機(jī)語(yǔ)言文字信息處理必須依賴(lài)穩(wěn)定的文字處理平臺(tái)、統(tǒng)一的規(guī)范標(biāo)準(zhǔn)和可靠的語(yǔ)言知識(shí)資源,三者相輔相成、缺一不可[4]。由于我國(guó)哈薩克文、維吾爾文、柯?tīng)柨俗挝娜N文字都是阿拉伯文為基礎(chǔ)的拼音文字,它們之間大部分字母是共同的,甚至發(fā)音也相同,但也有一些字母形同但音不同,有些字母還是特有的。因此,計(jì)算機(jī)信息處理這些文字時(shí)可以統(tǒng)一做在一個(gè)系統(tǒng)上,使系統(tǒng)具有同時(shí)處理這三種文字的功能;例如：80年代后期始,國(guó)內(nèi)和新疆自治區(qū)有關(guān)研究部門(mén)、高等院校、科研院所和高科技公司等開(kāi)始進(jìn)行計(jì)算機(jī)維、哈、柯文信息處理技術(shù)研究并逐步實(shí)現(xiàn)其信息處理的應(yīng)用,制定出了相關(guān)標(biāo)準(zhǔn)。標(biāo)準(zhǔn)化是推動(dòng)當(dāng)今信息化社會(huì)進(jìn)步的基礎(chǔ),信息技術(shù)標(biāo)準(zhǔn)化是應(yīng)用信息技術(shù)的前提,也是信息系統(tǒng)有效運(yùn)行的保證。沒(méi)有相關(guān)標(biāo)準(zhǔn)作為技術(shù)先導(dǎo)和基礎(chǔ)保證,哈、維、柯等文信息交換和信息處理技術(shù)也就無(wú)從談起,哈薩克文要成為信息化社會(huì)一員的愿望也很難實(shí)現(xiàn)。特別是INTERNET得到迅猛發(fā)展和廣泛普及的今天,如果沒(méi)有信息技術(shù)標(biāo)準(zhǔn)化,那么在我國(guó)哈薩克族地區(qū)就沒(méi)有哈文軟件,哈文就不能進(jìn)入信息化社會(huì),如果不能夠普及電腦或不能夠進(jìn)行信息化交流,那么教育、科技、文化、衛(wèi)生等又如何進(jìn)步?所以,哈文信息技術(shù)的標(biāo)準(zhǔn)化和國(guó)際化顯得就更為重要[5]。

有了穩(wěn)定的文字處理平臺(tái)和統(tǒng)一的規(guī)范標(biāo)準(zhǔn),還應(yīng)有高質(zhì)量的語(yǔ)言知識(shí)資源語(yǔ)料庫(kù)和高質(zhì)量的詞義標(biāo)注語(yǔ)料庫(kù)。語(yǔ)料庫(kù)資源應(yīng)解決好語(yǔ)料來(lái)源的真實(shí)性、代表性以及各種語(yǔ)料所占的合理比例,從統(tǒng)計(jì)學(xué)的角度來(lái)看,語(yǔ)料庫(kù)越大,其反映出的語(yǔ)言就越接近真實(shí)的語(yǔ)言,就越有代表性[6]。但哈薩克語(yǔ)言的代表性并不是哈薩克語(yǔ)料的簡(jiǎn)單堆砌。在哈薩克語(yǔ)料庫(kù)中基礎(chǔ)的詞匯分析顯示,不同語(yǔ)體中的詞與語(yǔ)義的分布很不相同。往往對(duì)一個(gè)詞的直覺(jué)并不能與該詞的實(shí)際使用類(lèi)型相匹配。其次語(yǔ)料工具的兼容性、易操作性和統(tǒng)一性對(duì)語(yǔ)言文字信息處理是必不可少的,語(yǔ)料庫(kù)不僅是在真實(shí)情況下大量使用的語(yǔ)言信息集成庫(kù),還要是能供計(jì)算機(jī)檢索和專(zhuān)門(mén)作研究使用的巨型資料庫(kù)[7]。如果語(yǔ)料真實(shí)、標(biāo)注規(guī)模大、標(biāo)注質(zhì)量高,就能保證檢索快捷準(zhǔn)確,使哈文語(yǔ)言成為信息化社會(huì)的一員。另外哈文語(yǔ)料庫(kù)建設(shè)不僅要對(duì)語(yǔ)言描述框架作出研究,還要對(duì)語(yǔ)言觀(guān)念形成的社會(huì)和心理?xiàng)l件做出研究。這一工作不僅龐大而且艱辛;哈文語(yǔ)料庫(kù)中蘊(yùn)藏著豐富的語(yǔ)言知識(shí)、詞匯知識(shí)、句法知識(shí)、語(yǔ)義知識(shí)、語(yǔ)篇知識(shí),在采集大量詞匯時(shí),不僅要按詞性組織還要按同義詞集合的形式組織,而且以不同的同義詞集合之間的語(yǔ)義連接、推演關(guān)系和反義關(guān)系來(lái)組織,這樣所形成的網(wǎng)絡(luò)形式才能構(gòu)建一個(gè)機(jī)器可讀的詞庫(kù)。如果在哈文語(yǔ)料庫(kù)建設(shè)方面,能建成哈文—漢文雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù),就會(huì)為開(kāi)展哈文語(yǔ)言的機(jī)器翻譯等領(lǐng)域產(chǎn)生重要的應(yīng)用價(jià)值。

5 結(jié)論與展望

哈薩克文信息處理技術(shù)在近幾年來(lái)國(guó)家的支持下已取得了很多的進(jìn)步,但現(xiàn)有成果離真正實(shí)現(xiàn)中國(guó)語(yǔ)言文字信息處理的要求還有很大的距離[8]。雖說(shuō)相關(guān)基礎(chǔ)資源建設(shè)已初步形成,但其中存在的問(wèn)題也非常凸顯,目前我們正在建立一定規(guī)模的哈文語(yǔ)料庫(kù),但為了研究詞在文本中的真實(shí)情況,我們需要有大量的關(guān)于詞的出現(xiàn)情況的統(tǒng)計(jì)。像正式語(yǔ)言和非正式語(yǔ)言的選取,另外還有統(tǒng)計(jì)中的一些麻煩,如我們對(duì)出現(xiàn)的詞按用法和意義分類(lèi),我們又會(huì)發(fā)現(xiàn),有時(shí),一個(gè)詞的一個(gè)用法可以很典型地代表所有其他的用法,而有時(shí)侯一個(gè)詞的幾個(gè)用法在文本中只出現(xiàn)了一個(gè)。如果根據(jù)這種情況作一個(gè)描述性的說(shuō)明,那么這個(gè)說(shuō)明就沒(méi)有充分性[9]。所以建立起來(lái)的哈文語(yǔ)料庫(kù)應(yīng)該包括數(shù)百萬(wàn)的詞,以實(shí)現(xiàn)平衡。再者,哈文語(yǔ)料庫(kù)的建設(shè)是需要不斷的維護(hù)和升級(jí),任何一種語(yǔ)料庫(kù)中存在一些錯(cuò)誤需要更正是在所難免的。同時(shí),為了適應(yīng)新的軟硬件需要而對(duì)語(yǔ)料庫(kù)進(jìn)行改進(jìn)和調(diào)整都將會(huì)是必要的。并且,還應(yīng)不斷注意檢索系統(tǒng)、加工處理和分析的工具的及時(shí)和經(jīng)常地改進(jìn)?？傊?要實(shí)現(xiàn)真正完整的中文信息處理平臺(tái)—實(shí)現(xiàn)漢文和哈文信息處理系統(tǒng)的智能轉(zhuǎn)換,一是還需要不斷培養(yǎng)一批批精懂哈語(yǔ)的專(zhuān)業(yè)軟件開(kāi)發(fā)隊(duì)伍,這是哈文信息處理事業(yè)發(fā)展的根本;二是要有國(guó)家高強(qiáng)度的支持,這是哈文信息處理事業(yè)能夠持續(xù)發(fā)展的保證;三是操作系統(tǒng)這樣大型的系統(tǒng)軟件開(kāi)發(fā)必須要在政府強(qiáng)有力的支持下,要有大的企業(yè)參與開(kāi)發(fā)才有可能形成實(shí)用的產(chǎn)品。

[1] 古麗拉?阿東別克,達(dá)吾勒?阿布都哈依爾,木合亞提?尼亞孜別克.現(xiàn)代哈薩克語(yǔ)詞級(jí)標(biāo)注語(yǔ)料庫(kù)的構(gòu)建研究[J].新疆大學(xué)學(xué)報(bào),2009,26(4)：394-401.

[2] 達(dá)吾勒?阿布都哈依爾,古麗拉?阿東別克.哈薩克語(yǔ)詞法分析器的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(19)：146-149.

[3] 哈語(yǔ)語(yǔ)法(哈文)[M].新疆維吾爾自治區(qū)教育委員會(huì)民文教材審定委員會(huì).1999.

[4] 達(dá)吾勒?阿布都哈依爾,古麗拉?阿東別克.基于規(guī)則的哈薩克語(yǔ)詞干提取系統(tǒng)的研究[C]//民族語(yǔ)言文字信息技術(shù)研究,第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì).2007：109-1014.

[5] 張華平.中文信息處理技術(shù)發(fā)展簡(jiǎn)史[R].中文自然語(yǔ)言處理開(kāi)放平臺(tái).

[6] 劉艷,古麗拉?阿東別克,伊力亞爾.哈薩克語(yǔ)詞性自動(dòng)標(biāo)注研究初探[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(20)：242-244.

[7] 金澎,吳云芳,俞士汶.詞義標(biāo)注語(yǔ)料庫(kù)建設(shè)綜述[J].中文信息學(xué)報(bào),2008,22(3)：16-22.

[8] 馮志偉.文本連貫中的常識(shí)推理研究[C]//中文信息處理的探索與實(shí)踐—HNC與語(yǔ)言學(xué)研究第三次會(huì)議文集,2006：55-65.