国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)架構(gòu)設(shè)計(jì)

2016-11-21 01:22:08趙生輝西藏民族大學(xué)管理學(xué)院
圖書館理論與實(shí)踐 2016年10期
關(guān)鍵詞:語言文字代碼檢索

趙生輝(西藏民族大學(xué)管理學(xué)院)

少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)架構(gòu)設(shè)計(jì)

趙生輝
(西藏民族大學(xué)管理學(xué)院)

利用信息技術(shù)消減語言文字的差異性所帶來的溝通障礙是民族地區(qū)信息資源管理迫切需要解決的問題。在機(jī)器翻譯技術(shù)之外,計(jì)算機(jī)輔助跨語言閱讀系統(tǒng)(CARS-IRMLC)是民族地區(qū)政府公共服務(wù)機(jī)構(gòu)為只掌握了國(guó)家通用語言服務(wù)對(duì)象所特別設(shè)計(jì)的跨語言閱讀環(huán)境,該系統(tǒng)以“簡(jiǎn)化通用語義代碼體系”作為多種少數(shù)民族語言同義語素的定位、關(guān)聯(lián)、檢索的邏輯基礎(chǔ)和語義信息轉(zhuǎn)換的邏輯中介。目前CARS-IRMLC在我國(guó)民族地區(qū)政府機(jī)關(guān)和圖書館、檔案館、博物館等公共文化機(jī)構(gòu)具有廣泛的應(yīng)用前景。

少數(shù)民族語言;信息資源共享;計(jì)算機(jī)輔助閱讀;跨語言信息檢索;機(jī)器翻譯

目前,我國(guó)正在使用的少數(shù)民族語言在80種以上,正在使用的少數(shù)民族文字在30種左右。[1]語言文字的多樣性,在造就中華民族文化豐富多彩特征的同時(shí),也給不同民族人群之間的相互理解帶來了諸多不便。利用信息技術(shù)消減語言文字的差異性所帶來的溝通障礙,是民族學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、信息管理等領(lǐng)域研究人員一直試圖解決的問題。

在少數(shù)民族語言文字信息處理技術(shù)領(lǐng)域,于洪志研發(fā)了藏漢雙語信息系統(tǒng);[2]戴玉剛研發(fā)了以中文為核心的多語言基礎(chǔ)資源庫;[3]丁曉青研發(fā)了少數(shù)民族文字的統(tǒng)一識(shí)別平臺(tái);[4]塔娜等構(gòu)建了面向跨語言信息檢索的蒙漢語義詞典;[5]艾斯卡爾·艾木都拉開發(fā)了基于維吾爾語和漢語的雙語檔案信息管理系統(tǒng);[6]由國(guó)內(nèi)多家研究機(jī)構(gòu)共同參與的國(guó)家科技支撐計(jì)劃項(xiàng)目“少數(shù)民族語言文字信息處理共性關(guān)鍵技術(shù)研究與示范應(yīng)用”取得多項(xiàng)成果。[7]

在多民族語言信息資源共享技術(shù)方面,研究人員一直寄希望于少數(shù)民族語言文字機(jī)器翻譯(Machine Translation)技術(shù)的發(fā)展和成熟。然而,由于人類自然語言的復(fù)雜性,機(jī)器翻譯的效果與人們的期望和需求還有較大的差距。受到市場(chǎng)規(guī)模、語料庫規(guī)模、研究人員數(shù)量、經(jīng)費(fèi)支持力度等多種因素的制約,目前我國(guó)少數(shù)民族語言文字機(jī)器翻譯技術(shù)整體上還處在初級(jí)階段,研究成果也僅限于部分小型實(shí)驗(yàn)系統(tǒng),無法滿足廣泛應(yīng)用的需要。在機(jī)器翻譯技術(shù)之外,發(fā)展面向讀者現(xiàn)實(shí)需求的計(jì)算機(jī)輔助跨語言閱讀體系就成為一種更為經(jīng)濟(jì)和現(xiàn)實(shí)的選擇。

少數(shù)民族語言信息資源“計(jì)算機(jī)輔助跨語言閱讀”(Computer-Aided Cross-languages Reading,CACLR)系統(tǒng)是我國(guó)民族地區(qū)政府公共服務(wù)機(jī)構(gòu)為只掌握了國(guó)家通用語言服務(wù)對(duì)象所特別設(shè)計(jì)的跨語言閱讀環(huán)境。在該環(huán)境中,用戶可以用自己熟悉的國(guó)家通用語言文字作為工具,檢索由各種少數(shù)民族語言文字生成的信息資源,閱讀和理解這些信息資源的主題和內(nèi)容,并可以根據(jù)系統(tǒng)自動(dòng)生成的閱讀建議,選擇進(jìn)行人工高精度翻譯、概要瀏覽或者放棄閱讀等操作。少數(shù)民族語言信息資源計(jì)算機(jī)輔助跨語言閱讀系統(tǒng)在我國(guó)民族地區(qū)政府機(jī)關(guān)和圖書館、檔案館、博物館等公共文化機(jī)構(gòu)具有廣泛的應(yīng)用前景,也適用于互聯(lián)網(wǎng)少數(shù)民族語言信息資源的跨語言輔助閱讀,實(shí)施后對(duì)我國(guó)民族團(tuán)結(jié)的戰(zhàn)略格局將產(chǎn)生深遠(yuǎn)的影響。

1 需求分析

對(duì)于只掌握了國(guó)家通用語言文字的用戶而言,閱讀和理解少數(shù)民族語言信息資源會(huì)遇到各類困難和障礙,如:無法了解所看到的少數(shù)民族語言信息資源的主題和內(nèi)容;無法搜集到盡可能全面的同一主題、多種語言文字的信息資源;無法判斷信息資源是否符合自己的信息需求等。這些困難和障礙是用戶基于自身知識(shí)儲(chǔ)備無法有效解決的,只能求助于專業(yè)的翻譯人員或相關(guān)領(lǐng)域?qū)<?;在沒有找到合適的翻譯人員或者領(lǐng)域?qū)<視r(shí),只能暫時(shí)放棄對(duì)該信息資源的閱讀。計(jì)算機(jī)輔助閱讀則為用戶提供了一種新的選擇,改善用戶在閱讀少數(shù)民族語言信息資源時(shí)的無助感,獲得更好的閱讀體驗(yàn)。一般而言,少數(shù)民族語言信息資源的跨語言閱讀需求主要有以下方面。

1.1少數(shù)民族語言信息資源的跨語言檢索需求

跨語言信息檢索(Cross-LanguageInformation Retrieval)是指用戶以自己熟悉的語言文字來構(gòu)建和提交檢索提問式,系統(tǒng)據(jù)此檢索出符合用戶需求的多個(gè)語種的相關(guān)信息??缯Z言信息檢索的出現(xiàn),主要是為了應(yīng)對(duì)互聯(lián)網(wǎng)多語言信息資源共存對(duì)信息查全性的要求,使得內(nèi)容符合用戶需要的多個(gè)語種的信息資源都可以被檢索到。作為信息檢索非常重要的研究領(lǐng)域,跨語言信息檢索從20世紀(jì)90年代中期開始得到了廣泛的關(guān)注,一些商業(yè)公司已經(jīng)可以提供英語等使用較為廣泛的語言文字的多語言信息檢索服務(wù)。在我國(guó)少數(shù)民族語言信息資源閱讀過程中,用戶同樣有著跨語言信息檢索需求,如要查詢我國(guó)少數(shù)民族節(jié)日相關(guān)信息,使用藏文、蒙古文、維吾爾文作為記錄文字的信息資源都應(yīng)該被檢索到。在現(xiàn)實(shí)生活中,用戶有少數(shù)民族語言信息資源的閱讀需求時(shí),找到可以翻譯單一語種信息資源的專業(yè)人員相對(duì)容易,但是要找到同時(shí)熟悉多種語言文字的翻譯人員就非常困難,更不要說找到同時(shí)可以看懂?dāng)?shù)十種少數(shù)民族語言文字的人了。因此,少數(shù)民族語言信息資源跨語言檢索正是發(fā)揮了計(jì)算機(jī)在信息檢索領(lǐng)域的優(yōu)勢(shì),使用戶通過一次檢索就可以得到盡可能全面的信息檢索結(jié)果。

1.2少數(shù)民族語言信息資源的語義提示需求

少數(shù)民族語言信息資源在閱讀過程中最大的閱讀障礙是用戶對(duì)少數(shù)民族語言文字符號(hào)的語義內(nèi)涵無法識(shí)別和理解,如果計(jì)算機(jī)能夠提供相應(yīng)的語義提示功能,則可以大幅度降低跨語言閱讀的難度?!罢Z義提示”(Semantic Cue)與文本的精確翻譯有著很大的不同,“語義提示”一般只限定在詞匯和簡(jiǎn)單句型層面,即可以讓用戶通過提示信息了解信息資源的主題和概要內(nèi)容,很少涉及語法問題,其技術(shù)實(shí)現(xiàn)的難度因此要低一些。語義提示的方式有多種,如利用鼠標(biāo)的懸停菜單進(jìn)行語義提示,在信息文本當(dāng)中進(jìn)行語義混雜提示以及采用源語言和目標(biāo)語言的雙語對(duì)照排列進(jìn)行語義提示等。由于“語義提示”基本上相當(dāng)于源語言和目標(biāo)語言等價(jià)語素的直接翻譯,因此,語義提示信息的位置往往不符合語法規(guī)則,順序連讀往往不能準(zhǔn)確反映源語言的真實(shí)語義,但作為一種計(jì)算機(jī)輔助閱讀的手段,這種方法基本能夠滿足瀏覽和判斷主題相關(guān)性的需求,因而也是一種可以接受的解決方案。

1.3少數(shù)民族語言信息資源的閱讀建議需求

用戶在進(jìn)行少數(shù)民族語言信息資源跨語言閱讀時(shí),只能進(jìn)行語義信息的概要瀏覽,對(duì)于各類信息資源與用戶需求的符合程度往往不能做出精確判斷。計(jì)算機(jī)輔助閱讀則可以通過需求模型的方法有效解決這一問題。如,系統(tǒng)可以允許用戶輸入若干檢索詞并給出其權(quán)重,在檢索過程中系統(tǒng)可以計(jì)算每個(gè)信息資源中相關(guān)詞匯的詞頻信息,并根據(jù)需求模型計(jì)算出符合程度指數(shù),從而可以對(duì)檢索到的所有結(jié)果按照與需求的符合程度進(jìn)行排序?;谏鲜龅男枨蠓铣潭戎笖?shù),系統(tǒng)可以進(jìn)一步為用戶自動(dòng)生成閱讀建議。例如非常重要的信息資源,建議用戶找專業(yè)翻譯人員進(jìn)行高精度翻譯工作,一般性信息資源則建議用戶進(jìn)行全文瀏覽,低度相關(guān)的信息資源建議用戶瀏覽標(biāo)題和元數(shù)據(jù)進(jìn)行即可。為了減少用戶尋找專業(yè)翻譯人員的難度,系統(tǒng)同時(shí)可以通過網(wǎng)絡(luò)方式提供用戶與翻譯人員進(jìn)行相關(guān)服務(wù)提交和執(zhí)行的在線平臺(tái)。

1.4少數(shù)民族語言信息資源閱讀的文化支持需求

我國(guó)少數(shù)民族文化極其豐富多彩,傳統(tǒng)語言文字當(dāng)中蘊(yùn)含了大量體現(xiàn)本民族文化特征的詞匯,這些詞匯的國(guó)家通用語言詞義往往是根據(jù)少數(shù)民族詞匯的發(fā)音進(jìn)行翻譯的,即使計(jì)算機(jī)閱讀系統(tǒng)提示了其國(guó)家通用語言的詞義,用戶還是無法準(zhǔn)確理解其內(nèi)涵。因此,少數(shù)民族語言信息資源的計(jì)算機(jī)輔助閱讀系統(tǒng)應(yīng)該為用戶的這種需求提供一定程度的支持,如可以建立少數(shù)民族文化常用術(shù)語解釋列表,檢索結(jié)果當(dāng)中提供與該術(shù)語的鏈接信息,從而幫助用戶進(jìn)一步了解該術(shù)語所描述語義對(duì)象的準(zhǔn)確信息。

1.5少數(shù)民族語言信息資源的移動(dòng)輔助閱讀需求

隨著我國(guó)移動(dòng)通信技術(shù)的飛速發(fā)展,移動(dòng)互聯(lián)網(wǎng)已經(jīng)成為用戶進(jìn)行信息交互的重要方式,隨著時(shí)間的推移其發(fā)展空間還在日益擴(kuò)大,可以預(yù)見未來基于移動(dòng)通信設(shè)備的少數(shù)民族語言計(jì)算機(jī)輔助閱讀模式將成為一種新的潮流。在移動(dòng)互聯(lián)網(wǎng)環(huán)境下,用戶的少數(shù)民族語言信息資源管理需求可以得到全方位的支持,如用戶在圖書館看到某語種少數(shù)民族語言文獻(xiàn)后,只要進(jìn)行簡(jiǎn)單設(shè)定,再拍照上傳,系統(tǒng)就可以識(shí)別該文獻(xiàn)的文字信息,并啟動(dòng)語義提示功能給出該文獻(xiàn)詞匯的國(guó)家通用語言的語義提示信息。移動(dòng)互聯(lián)網(wǎng)使得少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀的應(yīng)用范圍得到了拓展,用戶進(jìn)行閱讀的時(shí)間地點(diǎn)不再是固定的某一機(jī)構(gòu),如用戶在我國(guó)民族地區(qū)看到一個(gè)使用少數(shù)民族文字記錄的地理標(biāo)記或者在某景點(diǎn)看到一個(gè)少數(shù)民族文字牌匾,均可以將其拍照上傳以獲得國(guó)家通用語言文字的語義提示。

上述需求中,跨語言檢索需求、語義提示需求、閱讀建議需求和文化支持需求屬于基本需求,是少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)開發(fā)必須考慮的問題。基于移動(dòng)通信設(shè)備的少數(shù)民族語言信息資源計(jì)算機(jī)閱讀輔助需求屬于高級(jí)階段的需求,要在滿足前四個(gè)基本需求情況下,相關(guān)技術(shù)和方法的發(fā)展成熟后才能完全實(shí)現(xiàn),如少數(shù)民族語言文字自動(dòng)識(shí)別技術(shù),少數(shù)民族語言信息資源語義信息的自動(dòng)檢索和標(biāo)注技術(shù)等,因而可以認(rèn)為是一種未來的目標(biāo)模式。

2 技術(shù)原理

少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀的關(guān)鍵任務(wù)是研究和開發(fā)“少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)”(CARS-IRMLC),該系統(tǒng)實(shí)現(xiàn)信息資源跨語言檢索和少數(shù)民族語言國(guó)家通用語言語義提示的主要原理是基于專門構(gòu)建的多民族語言“簡(jiǎn)化通用語義代碼體系”(Simplified Universal Semantic Code System,SUSCS)。

2.1多語言語義轉(zhuǎn)換的主要方法

計(jì)算機(jī)輔助跨語言閱讀的關(guān)鍵是實(shí)現(xiàn)不同語種語言文字等價(jià)語素之間的語義轉(zhuǎn)換,目前在機(jī)器翻譯領(lǐng)域常用的技術(shù)手段主要有:機(jī)讀雙語詞典(Machine-Read Bilingual Dictionary)、雙語語料庫(Bilingual Corpus)、多語言敘詞表(Multilingual Thesauri)、多語言本體(Multilingual Ontology)等,這些方法主要是為實(shí)現(xiàn)語言文字的對(duì)等翻譯而設(shè)計(jì)的,需要有專門的語言學(xué)知識(shí)作為基礎(chǔ),并且要經(jīng)過長(zhǎng)期的積累和優(yōu)化才能最終投入應(yīng)用。我國(guó)少數(shù)民族語言文字機(jī)器翻譯技術(shù)目前還處在初級(jí)階段,能夠支持機(jī)器翻譯的技術(shù)資源非常少,為了實(shí)現(xiàn)少數(shù)民族語言信息資源跨語言輔助閱讀需求,本文以各少數(shù)民族語言文字雙語詞典為基礎(chǔ),提出了一種基于通用代碼體系實(shí)現(xiàn)多語種信息語義轉(zhuǎn)換的方法。

2.2通用語義代碼的概念與功能

“通用語義代碼”是對(duì)“通用語義空間”(Universal Semantic Space)的一種形式化表述方式。這里的“通用語義空間”,是指人類社會(huì)的各種自然語言所描述的語義對(duì)象及其關(guān)系所構(gòu)成的虛擬空間,是客觀世界和思維活動(dòng)各類語義對(duì)象的總和?!巴ㄓ谜Z義空間”與各種自然語言的“語義空間”之間是“表現(xiàn)”和“映射”關(guān)系:一方面,通用語義空間是一種觀念意義上的空間,它無法脫離自然語言空間而獨(dú)立存在,通用語義空間的語義對(duì)象必須通過某種具體的自然語言才能展現(xiàn)出來從而被人們所理解;另一方面,任何一種自然語言本質(zhì)上是對(duì)“通用語義空間”進(jìn)行映射的結(jié)果,相當(dāng)于以某種具體的自然語言所展現(xiàn)的“通用語義空間”視圖。從“通用語義空間”視角看來,機(jī)器翻譯方法實(shí)際上是實(shí)現(xiàn)“通用語言空間”不同語種“自然語言視圖”的切換過程。那么,如果可以用代碼表達(dá)通用語義空間的語義對(duì)象,并基于這一代碼,實(shí)現(xiàn)多個(gè)自然語言視圖當(dāng)中等價(jià)語素的語義關(guān)聯(lián),則可以非常方便地實(shí)現(xiàn)這些等價(jià)語素不同語種語義之間的切換,可以大大降低不同語種語言文字等價(jià)語素轉(zhuǎn)換的難度和執(zhí)行速度。綜上所述,“通用語義代碼”(Universal Semantic Code,USC)是一種為實(shí)現(xiàn)多語言信息交流而專門設(shè)計(jì)的人工編碼體系,該體系獨(dú)立于任何一種具體的自然語言,其存在主要是為多種自然語言同義語素的定位和關(guān)聯(lián)提供邏輯基礎(chǔ),也是多種自然語言一體化信息檢索和語義共享的邏輯中介(見圖1)。

圖1 多語言通用語義代碼的技術(shù)原理

2.3多民族語言簡(jiǎn)化通用語言代碼體系概述

“多民族語言通用語義代碼體系”是專門針對(duì)我國(guó)多民族語言信息資源共享需求而設(shè)計(jì)的代碼體系,是實(shí)現(xiàn)我國(guó)多民族語言信息資源語義轉(zhuǎn)換的核心技術(shù)和基礎(chǔ)資源。鑒于通用語義代碼設(shè)計(jì)工作的復(fù)雜性和長(zhǎng)期性,在研究初期可以根據(jù)需求對(duì)通用語義代碼體系進(jìn)行適度簡(jiǎn)化,如,通用語義編碼主要針對(duì)等價(jià)詞匯和常用等價(jià)例句,原則上不對(duì)語法現(xiàn)象進(jìn)行編碼,從而大大降低了編碼體系構(gòu)建工作的難度。本文將這種經(jīng)過了適度簡(jiǎn)化的人工編碼體系稱為“多民族語言簡(jiǎn)化通用語義代碼體系”(Simplified Universal Semantic Code System,SUSCS)。

“通用語義代碼”本身并沒有任何特殊含義,其建構(gòu)必須以某種具體的自然語言作為語義參照對(duì)象,結(jié)合我國(guó)語言文字工作的總體規(guī)劃,多民族語言通用語義代碼體系的構(gòu)建應(yīng)當(dāng)以國(guó)家通用的漢語和規(guī)范漢字作為參照語言文字。因此,對(duì)少數(shù)民族語言信息資源進(jìn)行“簡(jiǎn)化通用語義代碼體系”(SUSCS)的標(biāo)注,本質(zhì)上是參照國(guó)家通用語言文字進(jìn)行語義映射的過程,因而也是以國(guó)家通用語言文字為核心的多民族語言信息資源共享體系的實(shí)現(xiàn)方式。

根據(jù)現(xiàn)實(shí)需求,我國(guó)多民族語言“簡(jiǎn)化通用語義代碼體系”擬采用開放式結(jié)構(gòu)設(shè)計(jì),初期主要進(jìn)行國(guó)家通用語言文字和蒙古語、藏語、維吾爾語、哈薩克語、柯爾克孜語、壯語、傣語、朝鮮語等使用人口較多,具有較大社會(huì)影響力的少數(shù)民族語言文字(少數(shù)民族語言的古代文字暫不在研究范疇)的統(tǒng)一編碼,今后根據(jù)實(shí)際需要可以繼續(xù)補(bǔ)充其他語種的少數(shù)民族語言文字。

基于通用語義代碼的語義轉(zhuǎn)換是一種新的視角和方法,為了驗(yàn)證這種方法的可行性,筆者進(jìn)行了小規(guī)模的探索性實(shí)驗(yàn)。選取國(guó)家通用語言100個(gè)詞匯按照數(shù)字1~100進(jìn)行語義編碼,對(duì)藏文和蒙古文的同義詞進(jìn)行關(guān)聯(lián);分別用藏文和蒙古文的上述詞匯組成簡(jiǎn)單句子,再進(jìn)行語義編碼標(biāo)注,最后采用國(guó)家通用語言文字關(guān)鍵詞進(jìn)行檢索,相同語義不同語言的多個(gè)文檔均可檢索到。實(shí)驗(yàn)結(jié)果表明,采用簡(jiǎn)化通用語義代碼體系進(jìn)行跨語言信息檢索在原理上是可行的。

3 架構(gòu)設(shè)計(jì)

根據(jù)少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀的需求結(jié)構(gòu)和技術(shù)原理,少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)(CARS-IRMLC)的體系架構(gòu)見圖2。在圖2當(dāng)中,CARS-IRMLC系統(tǒng)主要分為基礎(chǔ)代碼、預(yù)處理、閱讀輔助、信息輸出等環(huán)節(jié),每個(gè)環(huán)節(jié)又細(xì)分為多個(gè)模塊,主要研究?jī)?nèi)容如下。

圖2 CARS-IRMLC系統(tǒng)總體架構(gòu)

3.1基礎(chǔ)代碼體系

SUCSC是少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)建設(shè)的關(guān)鍵,決定了整個(gè)體系建設(shè)的成敗。鑒于通用語義代碼設(shè)計(jì)工作的復(fù)雜性和長(zhǎng)期性,本項(xiàng)目擬根據(jù)研究需求對(duì)通用語義代碼體系進(jìn)行適度簡(jiǎn)化,設(shè)計(jì)依據(jù)主要是國(guó)家通用語言與各語種少數(shù)民族語言的雙語詞典。參照國(guó)家通用語言文字詞典建立基本代碼體系,各少數(shù)民族語言的同義語素根據(jù)雙語詞典與通用語義代碼進(jìn)行關(guān)聯(lián),形成以國(guó)家通用語言為參照的多語言同義詞表,同時(shí)選取部分常用同義句進(jìn)行統(tǒng)一編碼,原則上不對(duì)各類語言文字語法規(guī)則進(jìn)行編碼。需要說明的是,實(shí)驗(yàn)過程中所使用的“簡(jiǎn)化通用語義代碼體系”是根據(jù)各類語言的高頻詞匯和句例制作的原型系統(tǒng),目的是驗(yàn)證技術(shù)原理的可行性,在應(yīng)用和推廣之前還需要進(jìn)行大規(guī)模補(bǔ)充完善和持續(xù)進(jìn)化。

3.2預(yù)處理功能

預(yù)處理是實(shí)現(xiàn)少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀的前提,主要包括技術(shù)預(yù)處理和語義標(biāo)注等工作。技術(shù)性預(yù)處理主要包括:①對(duì)以紙質(zhì)文檔存在的少數(shù)民族語言信息資源進(jìn)行數(shù)字化加工,結(jié)合文字識(shí)別技術(shù)和人工轉(zhuǎn)錄方法,將其轉(zhuǎn)換為計(jì)算機(jī)可以處理的少數(shù)民族語言文本文件;②為了保證多語種少數(shù)民族語言文字的正常顯示,需要將各語種信息資源按照GB18030信息編碼標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換,以保證其兼容性;③為了便于進(jìn)行信息處理,需要將各種應(yīng)用軟件產(chǎn)生的文本格式統(tǒng)一轉(zhuǎn)換為TXT格式。通用語義代碼標(biāo)注是實(shí)現(xiàn)計(jì)算機(jī)輔助閱讀的基礎(chǔ)工作,主要通過三種方式完成:①自動(dòng)標(biāo)注,由程序調(diào)用多語言通用語義代碼體系完成自動(dòng)標(biāo)注,工作精度較低;②人工標(biāo)注,在標(biāo)注程序輔助下由人工完成對(duì)語義的精確標(biāo)注,工作速度較慢;③混合標(biāo)注,由程序完成基礎(chǔ)標(biāo)注,人工方式進(jìn)行確認(rèn)和修改。

3.3閱讀輔助功能

閱讀輔助功能是系統(tǒng)的主要建設(shè)目標(biāo),包括跨語言檢索、語義提示、用戶建議、文化支持等部分。

(1)少數(shù)民族語言信息資源跨語言信息檢索算法及實(shí)現(xiàn)。主要基于多民族語言簡(jiǎn)化通用語義代碼體系,實(shí)現(xiàn)跨語言信息資源檢索。如,以國(guó)家通用語言文字為檢索詞,程序首先查找該檢索詞的SUSCS編碼,然后在系統(tǒng)中查找所有標(biāo)注為該編碼的信息資源,而不論其采用的是何種語言文字。

(2)少數(shù)民族語言信息資源通用語義提示功能的實(shí)現(xiàn)。國(guó)家通用語言語義提示是實(shí)現(xiàn)少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀的主要方式,基于查詢SUSCS編碼表當(dāng)中的多語言同義語素關(guān)聯(lián)表來實(shí)現(xiàn),語義提示主要基于三種模式:①標(biāo)簽提示模式。閱讀過程中鼠標(biāo)滑過的文字以標(biāo)簽形式現(xiàn)實(shí)其國(guó)家通用語言文字語義;②混雜文本模式。文本當(dāng)中的少數(shù)民族語言詞語之后括號(hào)內(nèi)顯示其國(guó)家通用語言文字語義;③雙語對(duì)照模式。以段或篇為單位,分別顯示少數(shù)民族語言文字和國(guó)家通用語言文字語義。

(3)少數(shù)民族語言信息資源用戶需求符合程度評(píng)價(jià)與建議功能實(shí)現(xiàn)。CARS-IRMLC系統(tǒng)允許用戶輸入多個(gè)國(guó)家通用語言文字的關(guān)鍵詞并設(shè)定其詞頻閥值,在進(jìn)行跨語言檢索過程中,自動(dòng)計(jì)算上述數(shù)據(jù),根據(jù)結(jié)果為用戶提供閱讀建議。系統(tǒng)可以提供的閱讀決策主要有三類:①高度符合。說明該信息資源對(duì)用戶非常重要,建議用戶將文本提交給專業(yè)的人工翻譯人員進(jìn)行高精度人工翻譯。②中度相關(guān)。說明該信息資源與用戶需求有一定關(guān)聯(lián),但是需求強(qiáng)度還不足以達(dá)到閥值,建議用戶逐一進(jìn)行全文瀏覽以判斷相關(guān)資源的取舍。③低度相關(guān)。說明該信息資源主題與用戶需求可能有一些聯(lián)系,建議用戶進(jìn)行標(biāo)題等元數(shù)據(jù)項(xiàng)的快速瀏覽以判斷其取舍。

(4)少數(shù)民族語言信息資源輔助閱讀文化支持功能的實(shí)現(xiàn)。文化支持功能是屬于在用戶了解少數(shù)民族語言信息資源通用語義提示信息的基礎(chǔ)上,為了幫助其準(zhǔn)確理解相關(guān)文化類詞匯的含義而提供的延伸性服務(wù),其實(shí)現(xiàn)方式主要是建立各少數(shù)民族語言文字特殊術(shù)語詞匯的解釋性列表,提供該詞匯與外部知識(shí)資源之間的鏈接,從而使其閱讀時(shí)可以進(jìn)行參考,幫助其理解這些術(shù)語的內(nèi)涵和性質(zhì)。

3.4用戶界面

少數(shù)民族語言信息資源計(jì)算機(jī)輔助閱讀系統(tǒng)用戶界面設(shè)計(jì),系統(tǒng)根據(jù)用戶使用系統(tǒng)的不同情境設(shè)計(jì)三種種類的用戶界面。①文獻(xiàn)閱讀器界面。主要適用于圖書館、檔案館、博物館等文獻(xiàn)信息資源數(shù)量較多的機(jī)構(gòu)提供少數(shù)民族語言信息資源服務(wù)時(shí)使用。②網(wǎng)絡(luò)瀏覽器界面。即少數(shù)民族語言網(wǎng)絡(luò)信息資源閱讀器插件,用戶使用Internet Explore等網(wǎng)絡(luò)瀏覽軟件訪問少數(shù)民族語言文字網(wǎng)頁的時(shí)候,只要加載該插件即可進(jìn)行國(guó)家通用語言語義提示,并給出網(wǎng)頁的閱讀建議。③移動(dòng)設(shè)備閱讀器界面。根據(jù)移動(dòng)通信設(shè)備顯示信息的特點(diǎn),設(shè)計(jì)符合用戶使用習(xí)慣的輔助閱讀界面,使用戶可以遠(yuǎn)程接受公共信息機(jī)構(gòu)的輔助閱讀服務(wù)。

CARS-IRMLC系統(tǒng)主要是針對(duì)少數(shù)民族語言信息資源跨語言輔助閱讀基本需求,基于計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境而設(shè)計(jì)的。在系統(tǒng)各項(xiàng)關(guān)鍵技術(shù)取得突破并基本成熟之后,筆者擬基于這些技術(shù)探索基于個(gè)人移動(dòng)通信設(shè)備的少數(shù)民族語言信息資源輔助閱讀系統(tǒng),用戶的移動(dòng)通信設(shè)備裝載了該系統(tǒng),可以隨時(shí)隨地將看到的少數(shù)民族語言信息資源拍照并上傳到系統(tǒng),系統(tǒng)根據(jù)文字識(shí)別等技術(shù)進(jìn)行預(yù)處理并基于SUSCS進(jìn)行閱讀輔助,給用戶反饋通過國(guó)家通用語言文字語義提示并提供閱讀建議。由于該系統(tǒng)可以實(shí)現(xiàn)中國(guó)多民族語言文字的語義共享,暫定名為“中文通”。

[1]中華人民共和國(guó)國(guó)務(wù)院新聞辦公室.中國(guó)的民族政策與各民族共同繁榮發(fā)展[M].北京:人民出版社,2009,32.

[2]于洪志,王曉軍.藏漢雙語信息處理系統(tǒng)概述[J].西北民族學(xué)院學(xué)報(bào)(自然科學(xué)版),1998(1):1-4.

[3]戴玉剛,何向真.通用藏文模板設(shè)計(jì)[J].西北民族學(xué)院學(xué)報(bào),2005(3):29-34.

[4]清華大學(xué)新聞網(wǎng).統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)在清華大學(xué)研制成功[EB/OL].[2015-02- 08].http://news.tsinghua.edu.cn/new/news.php?id=14 712.

[5]塔娜,等.面向跨語言信息檢索的蒙漢語義詞典構(gòu)建[C]//第三屆全國(guó)少數(shù)民族青年自然語言信息處理學(xué)術(shù)研討會(huì)論文集.北京:中央民族大學(xué)出版社,2002:12-15.

[6]劉登峰,艾斯卡爾·艾木都拉.維、漢多語種檔案信息管理系統(tǒng)[J].計(jì)算機(jī)工程,2008(20): 263-268.

[7]中華人民共和國(guó)科技部網(wǎng)站.信息技術(shù)領(lǐng)域“以中文為核心的多語言處理技術(shù)”重點(diǎn)項(xiàng)目[EB/OL].[2015-02-08].http://www.most.gov.cn/tztg/t2006 1001_36442.htm.

The Architecture Design of the Computer-assisted Reading System of Minority Language Information Resources

Zhao Sheng-hui

It is an urgent need to remove the communication barriers dues to language difference with the application of information technologies in information resources management in ethnic minority residence regions of China.Besides Machine Translation technology,Computer-assisted Cross-Language Reading System(CARS-IRMLC)refers to the specially designed cross-language reading environment which public service institutions of minority residence regions provided for their customers who only master national common language.CARS-IRMLC takes Simplified Semantic Code System as the logic medium for positioning,linking and retrieval of synonyms morphemes of multiple minority languages of China,as well as logic intermediary for semantic information transformation.CARS-IRMLC can be widely used in government offices,libraries,archives,museums and other public cultural institutions in minority residence regions of China.

Minority Languages of China;Information Resources Sharing;Computer-assisted Reading;Cross-language Information Retrieval;Machine Translation

G250.78

A

1005-8214(2016)10-0072-05

本文系國(guó)家社科基金項(xiàng)目“多民族語言信息資源跨語種共享策略研究”(項(xiàng)目編號(hào):14BTQ008),中國(guó)博士后科學(xué)基金項(xiàng)目“多民族語言信息共享域的架構(gòu)模型與規(guī)劃方法研究”(項(xiàng)目編號(hào):2014M561634),中國(guó)博士后科學(xué)基金特別資助項(xiàng)目“多民族語言信息資源輔助閱讀系統(tǒng)原型設(shè)計(jì)與開發(fā)研究”(項(xiàng)目編號(hào):2015T80539)的階段性成果。

趙生輝(1977-),男,陜西寶雞人,西藏民族大學(xué)管理學(xué)院公共管理系副教授,研究方向:民族信息學(xué)、數(shù)字人文、電子政務(wù)等。

2016-02-03[責(zé)任編輯]菊秋芳

猜你喜歡
語言文字代碼檢索
語言文字運(yùn)用題的變與不變
小題精練(四) 語言文字運(yùn)用
小題精練(三) 語言文字運(yùn)用
2019年第4-6期便捷檢索目錄
創(chuàng)世代碼
創(chuàng)世代碼
創(chuàng)世代碼
創(chuàng)世代碼
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
語言文字
江蘇年鑒(2014年0期)2014-03-11 17:09:51
泰兴市| 枣阳市| 屏东县| 仪征市| 虹口区| 乐亭县| 弥勒县| 梅河口市| 大庆市| 澄迈县| 多伦县| 托里县| 景德镇市| 宁蒗| 闵行区| 禹州市| 双峰县| 桑日县| 行唐县| 长白| 宁武县| 临漳县| 富蕴县| 昂仁县| 巴中市| 加查县| 青神县| 新丰县| 固安县| 聂荣县| 公安县| 高阳县| 浦县| 灵石县| 阳谷县| 清原| 社会| 张家港市| 梅河口市| 许昌县| 苍梧县|