司 莉 史雅莉
基于跨語言信息檢索的可比語料庫構(gòu)建方法研究?
司 莉 史雅莉
為滿足用戶對多語言信息表達(dá)與獲取的迫切需求,可比語料庫的研究和開發(fā)逐漸成為信息檢索領(lǐng)域研究者和系統(tǒng)開發(fā)人員的關(guān)注重點。從跨語言信息檢索視角出發(fā),可比語料庫的構(gòu)建方法主要有提問式翻譯法、特征過濾法、中間語言翻譯法、文本翻譯法和同源匹配法等。我國可比語料庫的建設(shè),應(yīng)在充分考慮系統(tǒng)整體性能的前提下,根據(jù)用戶需求選擇適用的構(gòu)建方法,完善文本翻譯及術(shù)語抽取技術(shù),并優(yōu)化文本對齊方式。圖4。參考文獻(xiàn)18。
可比語料庫 構(gòu)建方法 跨語言信息檢索
語料庫是指為一個或多個應(yīng)用目標(biāo)而專門收集加工的具有一定規(guī)模和結(jié)構(gòu),并且可被計算機程序檢索的規(guī)范化原始語料集合,可分為平行語料庫和可比語料庫兩種類型。目前,多語言信息語料庫已經(jīng)成為機器翻譯、機器輔助翻譯、翻譯知識獲取、跨語言信息檢索(Cross Language Information Retrieval,簡稱CLIR)等研究中不可或缺的重要資源。在此背景下,不少信息檢索領(lǐng)域研究者和系統(tǒng)開發(fā)人員開始將工作重點聚焦于可比語料庫的研究和開發(fā),以滿足用戶對多語言信息表達(dá)與獲取的迫切需求。本研究對基于CLIR的可比語料庫構(gòu)建方法進(jìn)行探討與比較,旨在為當(dāng)前國內(nèi)跨語言檢索系統(tǒng)中可比語料庫的構(gòu)建和完善提供借鑒和參考。
1995年,Baker首次提出了可比語料庫的概念,他認(rèn)為特定語言的非翻譯源文本資源和該文本資源的其他語言譯本共同構(gòu)成了可比語料庫(Comparable Corpus)[1]。因而,可比語料庫是一種資源倉儲,其資源是對同一主題、不同語種的文本資源進(jìn)行系統(tǒng)化、規(guī)范化處理之后,形成的文本對數(shù)據(jù)。通過對相關(guān)研究成果的深入分析,我們發(fā)現(xiàn)可比語料庫主要有以下特點:(1)側(cè)重于源文檔和目標(biāo)文檔是否是對同一事件的描述,是否具有同一主題,而非句子與句子之間的對齊;(2)庫中的翻譯詞對受語料庫質(zhì)量的影響更加顯著;(3)對未登錄詞(通常指自然語言處理所用詞典中未包含的詞,它既可能是隨著技術(shù)和社會發(fā)展新出現(xiàn)的詞,也可能是在構(gòu)建詞典過程中遺漏的詞[2])的處理能力較強。由于其主要通過互聯(lián)網(wǎng)收集語料,獲取未登錄詞的可能性相對較高[3]。
由此可見,可比語料庫應(yīng)用于CLIR,其優(yōu)勢主要表現(xiàn)在主題關(guān)聯(lián)方面,有助于關(guān)聯(lián)主題的檢索。同時,由于其語料來源于網(wǎng)絡(luò),還可從語料規(guī)模和文本對質(zhì)量方面為大型CLIR系統(tǒng)的構(gòu)建及運行提供資源保障。相關(guān)研究對阿拉伯語-英語跨語言信息檢索系統(tǒng)的調(diào)研數(shù)據(jù)表明,可比語料庫對CLIR任務(wù)有效,可單獨將其作為資源模塊運用于CLIR系統(tǒng)[4]。可比語料庫主要借助網(wǎng)絡(luò)爬蟲技術(shù)智能獲取語料,語料規(guī)??筛鶕?jù)系統(tǒng)需求進(jìn)行擴(kuò)展,因而有助于大型CLIR系統(tǒng)的開發(fā)與構(gòu)建[5]。此外,可比語料庫對語料的對齊處理不再局限于嚴(yán)格的形式對齊,而是強調(diào)源語言文檔與目標(biāo)語言文檔的主題關(guān)聯(lián)性,可有效提高CLIR系統(tǒng)的資源檢準(zhǔn)率,更加貼近用戶需求[6]。
國內(nèi)目前所構(gòu)建的可比語料庫以雙語可比語料庫為主,大多為中英可比語料庫。且多數(shù)采用單向翻譯構(gòu)建模式,一般是將同一主題的中英文文檔分別作為源語言文檔和目標(biāo)語言文檔,通過單向翻譯(在關(guān)鍵詞抽取和文檔檢索上采用單向處理,將源語言文檔關(guān)鍵詞翻譯為目標(biāo)語言檢索詞進(jìn)行檢索,不再對目標(biāo)語言文檔進(jìn)行關(guān)鍵詞抽取及翻譯)和對齊處理形成可比文檔對,構(gòu)成語料庫。由此可見,我國在可比語料庫建設(shè)方面,采用的方法較為單一,除單向翻譯構(gòu)建模式外,對其他構(gòu)建方法的研究及運用相對較少。基于此,筆者結(jié)合相關(guān)研究及實踐,對目前幾種較為常見的可比語料庫構(gòu)建方法的基本原理進(jìn)行探討,并提出構(gòu)建國內(nèi)可比語料庫的相關(guān)建議。
CLIR系統(tǒng)中可比語料庫的構(gòu)建方法主要分為:提問式翻譯構(gòu)建法、特征過濾構(gòu)建法、中間語言翻譯構(gòu)建法、文獻(xiàn)翻譯構(gòu)建法和同源匹配構(gòu)建法。以下將對這些方法的原理及特點等進(jìn)行深入分析。
2.1 提問式翻譯構(gòu)建法
目前,提問式翻譯構(gòu)建法是用于構(gòu)建可比語料庫較普遍的方法。其基本原理是:將源語言文檔中的關(guān)鍵詞翻譯為目標(biāo)語言,再對目標(biāo)語言文檔進(jìn)行單語檢索,形成對齊文檔對。在實際應(yīng)用中,該方法又可分單向與雙向翻譯兩種構(gòu)建方式。
2.1.1 單向翻譯構(gòu)建法
利用單向翻譯法構(gòu)建可比語料庫的基本流程主要涉及五個環(huán)節(jié),即文檔搜集關(guān)鍵詞提取關(guān)鍵詞單向翻譯檢索查詢文檔對齊,如圖1所示[7]。
圖1 可比語料庫單向翻譯構(gòu)建方法
具體步驟如下:
(1)文檔搜集。文檔搜集大都通過網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁信息加以實現(xiàn)。目前,常用的爬蟲工具主要有Python、MetaSeeker、Heritrix、Nutch等。由于其在開發(fā)語言、運行環(huán)境以及網(wǎng)頁處理方式等方面存在著差異,在搜集文檔時應(yīng)充分考慮系統(tǒng)兼容性和功能需求選擇合適的爬蟲工具。
(2)關(guān)鍵詞提取??杀日Z料庫的構(gòu)建更多地采用了基于主題特征的關(guān)鍵詞提取法。該方法根據(jù)LDA(Latent Dirichlet Allocation)文檔主題生成模型中主題和詞的分布情況,使用給關(guān)鍵詞賦值的方法直接抽取文檔關(guān)鍵詞,抽取出各主題的代表性詞匯[8]。一般情況下,關(guān)鍵詞提取分為五個步驟,即:1)預(yù)處理;2)主題分析;3)TF?ITF權(quán)值計算;4)候選關(guān)鍵詞合并;5)冗余短語消除[9]。
關(guān)鍵詞提取的關(guān)鍵是利用TF?ITF算法計算詞在文檔中的頻度與其反文檔頻度的權(quán)值,獲取詞匯對文檔的權(quán)重。TF?ITF是關(guān)鍵詞提取的基本算法,假設(shè)關(guān)鍵詞j至少存在于一個文檔d(dj≠0),dj/N是包含關(guān)鍵詞j的文檔數(shù)占整個文檔集合的比例,則其逆文檔頻率IDFj為:
關(guān)鍵詞j對文檔i的權(quán)重Wij(TF?ITF值)被定義為關(guān)鍵詞j在文檔i中的詞頻率乘以其逆文檔頻率,其計算公式為:
注:N:文檔集合中的文檔總數(shù),dj:包含關(guān)鍵詞j的文檔數(shù),fij:關(guān)鍵詞j在文檔i中的頻率,Wij:關(guān)鍵詞j在文檔i中的權(quán)重[10]。
(3)關(guān)鍵詞單向翻譯。在CLIR中,可比語料庫系統(tǒng)通常利用在線雙語或多語詞典對關(guān)鍵詞或查詢詞進(jìn)行翻譯。在線詞典翻譯速度快,詞匯量豐富且交互性強。目前,常用的在線翻譯詞典(軟件)主要有Google翻譯、有道詞典、金山詞霸等。但利用在線詞典翻譯仍然存在以下問題:1)未登錄詞問題,即盡管網(wǎng)絡(luò)詞典詞匯豐富,但仍有些詞找不到其對應(yīng)的翻譯;2)一詞多譯問題,即同一個詞有不止一條翻譯結(jié)果[11];3)全文翻譯問題,即在線翻譯系統(tǒng)尚無法有效識別不同語言之間的語法和文字對應(yīng)規(guī)律[12]。
(4)文檔檢索與對齊。這是構(gòu)建可比語料庫的關(guān)鍵環(huán)節(jié)。完成關(guān)鍵詞抽取工作之后,需要借助一定的檢索算法對所抽取的關(guān)鍵詞進(jìn)行規(guī)范化處理,形成檢索式。利用檢索式通過可比語料庫檢索系統(tǒng)查詢目標(biāo)語言文檔,形成文檔對并做對齊處理。在可比語料庫系統(tǒng)中,用于信息檢索的開源系統(tǒng)主要有 Lueene、Zettair、Smart、Lemur及Indri(Lemur子項目)等。其中,Indri因其在結(jié)構(gòu)化查詢方面的強大功能優(yōu)勢和靈活易用性得以廣泛應(yīng)用[13]。最初的對齊方法主要是通過檢索系統(tǒng)對查詢結(jié)果按照相關(guān)度進(jìn)行初步排序,根據(jù)發(fā)布日期以及語料庫規(guī)模選擇與源語言文檔相似度較高的目標(biāo)語言文檔形成可比文檔對。
2.1.2 雙向翻譯構(gòu)建法
利用雙向翻譯法構(gòu)建可比語料庫,其基本原理與單向翻譯構(gòu)建法相似,如圖2所示。但該方法在關(guān)鍵詞抽取和文檔檢索上采用雙向處理,即在文檔收集工作完成之后,分別提取源語言文檔與目標(biāo)語言文檔的關(guān)鍵詞來代表當(dāng)前文檔,并將提取出來的關(guān)鍵詞進(jìn)行互譯。以中英文語料為例,即將中文關(guān)鍵詞翻譯成英文,英文關(guān)鍵詞翻譯成中文并對其進(jìn)行規(guī)范化處理,分別形成檢索式。利用英文檢索語句到英文文檔集合中檢索候選英文文檔,利用中文檢索語句到中文文檔集合中檢索候選中文文檔。最后,根據(jù)發(fā)布日期和相似度對候選文檔進(jìn)行過濾,形成可比文檔對[14]。
圖2 可比語料庫雙向翻譯構(gòu)建方法
2.2 特征過濾構(gòu)建法
基于特征過濾的方法是對提問式翻譯構(gòu)建法的進(jìn)一步完善,主要用于構(gòu)建大規(guī)模的雙語可比較語料庫。這種方法是在單向翻譯檢索的基礎(chǔ)上,基于日期、相似度等特征指標(biāo)對已生成的文檔對進(jìn)行過濾,目的是過濾掉相關(guān)性小的文檔對,如圖3所示。具體來說,其從檢索構(gòu)建的可比文檔對中抽取三個特征值進(jìn)行過濾,這三個特征指標(biāo)分別是日期(Date),即新聞文檔的發(fā)布日期;文檔對相似度(Similarity of Document Pair,SDP),即由Indri檢索系統(tǒng)返回的查詢語句與目標(biāo)語言文檔的相似度;關(guān)鍵詞集合相似度(Keywords Similarity of Docuemts,簡稱KSD),即源語言文檔與目標(biāo)語言文檔對應(yīng)關(guān)鍵詞間的相似度[15]。
圖3 候選文檔對特征過濾
Date指標(biāo):在通過單向翻譯檢索詞檢索目標(biāo)語言文檔時,優(yōu)先考慮日期與源語言文檔相近的目標(biāo)語言文檔。為了更好地衡量文檔日期間的差異,可把檢索范圍限制在日期與源語言文檔相同或前后相差最近的目標(biāo)語言文檔中。
SDP指標(biāo):在相關(guān)文檔池中,按相似度大小選取n個相似度最大的文檔與源語言文檔組成可比文檔對。然后,再將這些可比文檔對按照相似度大小進(jìn)行排序并設(shè)置相似度閥值進(jìn)一步過濾。
KSD指標(biāo):該指標(biāo)主要通過FIS關(guān)鍵詞頻度信息分值來衡量(與FIS值呈正相關(guān)),測算過程基于以下假設(shè):翻譯后的關(guān)鍵詞在某個目標(biāo)語言文檔中出現(xiàn)的頻次越多,則該目標(biāo)語言文檔與源語言文檔越相關(guān)。FIS算法的基本思想是:在累計兩篇文檔相似度時,為每對詞賦權(quán)值以適當(dāng)增加或削減其對整個文檔間相似度的影響[16]。具體測算方法為:定義源語言文檔ds,目標(biāo)語言文檔dt,從ds中抽取的關(guān)鍵詞集合ks,翻譯后關(guān)鍵詞集合kts,利用詞頻、反文檔頻度等信息為ks及kts分配權(quán)重,則計算結(jié)果為[15,17]:
注:ktsLen:kts集合的大小,xi:ks中的元素,yi:kts中的元素(yi與xi互譯),BM25(w,d):w在文檔d中的標(biāo)準(zhǔn)化詞頻(TF),IDF:反文檔頻度,Dif(x,y):BM25(x,ds)與BM25(y,dt)的差值。
上述計算過程中,主要考慮了TF·IDF和Dif(x,y)兩類參數(shù)。TF·IDF的主要思想是:如果某個詞或短語在某篇文檔中出現(xiàn)的頻率TF較高,且在其他文檔中的逆文檔率IDF也較高,則該詞或者短語對這篇文檔具有較好的類別區(qū)分能力,同時也最能反映文檔主題[17]。因此,當(dāng) xi與 yi為互譯關(guān)系時,關(guān)鍵詞對xi、yi在文檔ds、dt中的TF·IDF值越高,文檔ds與dt的相似度就越高。Dif(x,y)為詞頻差值,即兩篇文檔內(nèi)容越相似,其關(guān)鍵詞信息也越相似,詞頻差值則越小。
2.3 中間語言翻譯構(gòu)建法
中間語言翻譯法是為解決源語言與目標(biāo)語言間翻譯資源不存在或極少的問題而開發(fā)的一種可比語料庫構(gòu)建模式。該方法引入除源語言與目標(biāo)語言之外的一種中間語言,把源語言與目標(biāo)語言都翻譯成中間語言,以中間語言再進(jìn)行文檔的檢索和匹配,如圖4所示。在實際應(yīng)用過程中,這種通過中間語言翻譯的方法進(jìn)行源語言與目標(biāo)語言之間的轉(zhuǎn)換,大大降低了可比語料庫系統(tǒng)開發(fā)過程中跨語言翻譯的難度。
圖4 可比語料庫中間語言翻譯構(gòu)建方法
利用中間語言翻譯法構(gòu)建可比語料庫的核心問題在于:(1)中間語言的確立。作為中間語言必須滿足兩個條件,其一是該語言為泛在語言,具有較廣泛的適用范圍,便于語料庫資源的充分利用;其二是通過在線翻譯能夠?qū)崿F(xiàn)該語言與源語言和目標(biāo)語言文檔之間的語義對齊處理,以保證可比語料庫資源的質(zhì)量。在實際應(yīng)用過程中,研究人員或系統(tǒng)開發(fā)者通常都會根據(jù)當(dāng)前網(wǎng)絡(luò)翻譯資源的語種分布情況和語言的覆蓋范圍進(jìn)行選擇,中間語言通常以英語居多。(2)翻譯工具的選取。CLIR的關(guān)鍵即源語言與目標(biāo)語言之間的翻譯問題,很多翻譯方法都依賴于機器翻譯、雙語字典或語料庫等翻譯工具。就目前實際情況而言,詞匯量規(guī)模和翻譯準(zhǔn)確度通常是翻譯工具選取過程中應(yīng)考量的重要因素。
2.4 其他構(gòu)建方法
除提問式翻譯構(gòu)建法、特征過濾構(gòu)建法、中間語言翻譯構(gòu)建法之外,相關(guān)研究者和系統(tǒng)開發(fā)人員還嘗試通過其他方法來構(gòu)建可比語料庫,主要包括文獻(xiàn)翻譯法和同源匹配法。
與提問式翻譯方法不同,文獻(xiàn)翻譯法通過把信息庫中用目標(biāo)語言描述的文獻(xiàn)全部翻譯成用源語言描述的形式,再進(jìn)行檢索。運用該方法進(jìn)行CLIR,檢索結(jié)果是用源語言描述的。由于目前文本機器翻譯技術(shù)的正確率較低,而且把信息庫中目標(biāo)語言描述的文獻(xiàn)翻譯為源語言的工作量也是巨大的,所以文獻(xiàn)翻譯方法只有在語料庫規(guī)模不大且文檔內(nèi)容相對簡單的情況下才具有可行性。
同源匹配法主要依據(jù)兩種不同語言詞語的書寫形式或者語音方面的相似性來判斷它們之間的匹配程度,無須翻譯轉(zhuǎn)換。由于該方法主要是通過詞語的形式特征來進(jìn)行匹配,文本對的語義對齊程度較低,因此,在可比語料庫的實際構(gòu)建過程中,同源匹配構(gòu)建法應(yīng)用較少。
通過以上的對比分析可以看出,各種可比語料庫構(gòu)建方法各具特色,這些方法的不斷發(fā)展和完善也為我國可比語料庫的構(gòu)建提供了新思路。根據(jù)我國可比語料庫建設(shè)現(xiàn)狀,我國在該領(lǐng)域的發(fā)展應(yīng)注意以下三個方面。
3.1 根據(jù)需求選擇適用的構(gòu)建方法
構(gòu)建方法的選取是可比語料庫建設(shè)的關(guān)鍵問題。由前文分析可知,目前我國可比語料庫的構(gòu)建仍以單向翻譯構(gòu)建法為主,在方法的采用上相對比較單一。但要真正滿足不同層次用戶的需求,提高庫內(nèi)資源的利用率,就必須充分結(jié)合實際情況選擇最佳建設(shè)方案。目前,除特定需求外,借助文獻(xiàn)翻譯或同源匹配方式構(gòu)建的小型可比語料庫已無法適用于當(dāng)前信息環(huán)境。中間語言翻譯法主要解決的是翻譯資源極少或者不存在的可比語料庫的構(gòu)建問題,在實際應(yīng)用過程中對小語種可比語料庫的構(gòu)建將會發(fā)揮重要作用。提問式翻譯構(gòu)建法是當(dāng)前發(fā)展較為成熟的可比語料庫構(gòu)建方法,大多研究者和系統(tǒng)開發(fā)人員借助于該方法進(jìn)行可比語料庫系統(tǒng)的研發(fā)。特征過濾構(gòu)建法是對提問式翻譯構(gòu)建法在文本對齊方面的進(jìn)一步完善,能夠有效提高語料庫質(zhì)量,應(yīng)用前景比較廣闊。隨著數(shù)據(jù)量的迅速增長和用戶信息需求的不斷升級,我國在可比語料庫的建設(shè)過程中,可在充分了解用戶需求的基礎(chǔ)之上,對現(xiàn)有的幾種構(gòu)建方法進(jìn)行適用性分析,從而制定出最合適的建設(shè)方案。
3.2 完善文本翻譯及術(shù)語抽取技術(shù)
由前文分析可知,可比語料庫構(gòu)建過程中主要涉及網(wǎng)頁爬蟲、機器翻譯、術(shù)語抽取等相關(guān)技術(shù)。其中,文本翻譯準(zhǔn)確率較低、提取的關(guān)鍵詞對文檔揭示度不高是國內(nèi)可比語料庫建設(shè)中面臨的較為普遍的問題。未來我國在關(guān)鍵技術(shù)方面可從以下兩方面著手:(1)文本翻譯方面,可借鑒Google在線機譯模式,除單詞、語句常規(guī)翻譯之外,開發(fā)文檔翻譯模塊,對語料庫文檔進(jìn)行全文翻譯。同時,建立在線翻譯社區(qū),對文本翻譯中的術(shù)語表達(dá)、文本結(jié)構(gòu)、語義分析等問題進(jìn)行互動交流和探討,不斷提高語料庫資源質(zhì)量。(2)術(shù)語抽取方面,為克服基于主題特征的關(guān)鍵詞提取法在文檔語義揭示方面的不足,可借鑒Dhouha等2013年基于WordNet語義相似度度量構(gòu)建的詞義消歧處理法[18]。該方法以單義詞作為消除歧義的種子集,并以此推斷多義詞的翻譯,提高雙語詞匯提取性能。
3.3 優(yōu)化文本對齊方式
文本對齊處理效果的優(yōu)劣在很大程度上決定著語料庫數(shù)據(jù)資源質(zhì)量的高低。目前,我國可比語料庫構(gòu)建過程中多采用提問式翻譯法,其在文本對齊方面通常是通過日期和相似度等傳統(tǒng)指標(biāo)對候選文檔對進(jìn)行過濾,可在一定程度上排除相似度較低的文檔對,但在文檔對的語義對齊上仍需進(jìn)一步完善。特征過濾構(gòu)建法的特色即在于其在文檔對齊方面的突破,該方法除結(jié)合傳統(tǒng)的日期、相似度等特征指標(biāo),還融合了KSD指標(biāo),并采用FIS算法對候選文檔對進(jìn)行系統(tǒng)過濾,有效提高了文檔對相似度。因此,在文本對齊處理方面,可嘗試借鑒特征過濾法,對候選文檔對進(jìn)行更加精細(xì)地對齊處理,同時也可在特征指標(biāo)上做進(jìn)一步地研究及拓展。
為滿足用戶多元化、跨語言的信息需求,研究者和系統(tǒng)開發(fā)人員嘗試采用不同的方法構(gòu)建可比語料庫,以提高CLIR效率。這些構(gòu)建方法各具特點:提問式翻譯構(gòu)建法開發(fā)較早并與現(xiàn)有查詢檢索系統(tǒng)具有較高的契合度,目前在研究和實踐中已得到較為廣泛的關(guān)注。但其在文本對齊方面以傳統(tǒng)的日期、相似度指標(biāo)進(jìn)行文本對處理,使語料庫質(zhì)量難以得到有效保障。特征過濾構(gòu)建法針對這一問題進(jìn)行了改進(jìn)和完善,通過KSD指標(biāo)和FIS算法有效地提高了可比語料庫中文本對的相似度,這對大規(guī)模可比語料庫的構(gòu)建具有重要意義。中間語言翻譯構(gòu)建法引進(jìn)中間語言翻譯機制,解決了翻譯資源較少或沒有對應(yīng)的翻譯資源時可比語料庫的構(gòu)建問題,是對提問翻譯構(gòu)建法和特征過濾構(gòu)建法的有益補充。文獻(xiàn)翻譯構(gòu)建法和同源匹配構(gòu)建法,由于目前全文翻譯技術(shù)和字形、語音智能識別等技術(shù)的發(fā)展尚不成熟,只能用于構(gòu)建小規(guī)模的本地語料庫,并且構(gòu)建成本較高。因此,我國可比語料庫建設(shè)過程中,應(yīng)在充分考慮系統(tǒng)整體性能的前提下,對不同構(gòu)建方法進(jìn)行比較分析,注重關(guān)鍵技術(shù)的引進(jìn)與完善、文本對齊處理問題的優(yōu)化,選擇真正適合用戶需求的構(gòu)建策略。
1 Baker M.Corpora in Translation Studies:An O-verview and Some Suggestions for Future Research[J].Target,1995,7(2):223-243.
2 段宇鋒,等.條件隨機場與領(lǐng)域本體元素集相結(jié)合的未登錄詞識別研究[J].現(xiàn)代圖書情報技術(shù),2015(4).
3 康小麗,等.基于可比語料庫的雙語術(shù)語抽取研究述評[J].現(xiàn)代圖書情報技術(shù),2009(10).
4 Azadeh S,Chengxiang Z.Leveraging ComparableCorpora for Cross-Lingual Information Retrieval in Resource-Lean Language Pairs[J].Inf Retrieval,2013(16):1-29.
5 Homa B.,et al.Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval[J].Information Processing and Management,2014,50(2):384-398.
6 Tuomas T,et al.Creating and Exploiting a Comparable Corpus in Cross-Language Information Retrieval[J].Acm Transactions on Information Systes,2007,25(1):79-82.
7 房璐,等.可比較語料庫構(gòu)建及在跨語言信息檢索中的應(yīng)用[J].廣西師范大學(xué)學(xué)報,2010(3).
8 劉俊,等.基于主題特征的關(guān)鍵詞抽?。跩].計算機應(yīng)用研究,2012(11).
9 朱澤德.網(wǎng)絡(luò)雙語語料挖掘關(guān)鍵技術(shù)研究[D].合肥:中國科技大學(xué),2014.
10 IA El-Khair.TF?ITF[J].Encyclopedia of Database Systems,2009(12).
11 房璐.英漢可比語料庫的構(gòu)建與應(yīng)用研究[D].蘇州:蘇州大學(xué),2011.
12 李韓芬.互聯(lián)網(wǎng)免費在線翻譯工具述評[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2007(4).
13 陳燕.基于Indri的動態(tài)索引機制探討[J].電子設(shè)計工程,2014(9).
14 王珊珊.中英可比語料庫的構(gòu)建[D].大連:大連理工大學(xué),2013.
15 趙蓮.大規(guī)模中英可比語料庫構(gòu)建[D].大連:大連理工大學(xué),2010.
16 TAO T,Chengxiang Z.Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration[C].In Proceedings of the 11th ACMSIGKDD International Conference on Knowledge Discovery in Data Mining,Chicago,USA,2005:691-696.
17 tf-idf[EB/OL].[2016-04-23].http://baike.so. com/doc/433640-459181.html.
18 胡小鵬,等.構(gòu)建和剖析中英三元組可比語料庫[J].計算機工程與應(yīng)用,2014(13).
(司 莉 教授 武漢大學(xué)信息資源研究中心 信息管理學(xué)院圖書館學(xué)系主任,史雅莉 武漢大學(xué)信息管理學(xué)院圖書館學(xué)專業(yè)2015級博士研究生)
Study on the Construction Methods of Comparable Corpus Based on Cross Language Information Retrieval
Si Li Shi Yali
In order to satisfy the urgent need of users in multi-language information expression and retrieval,the research and development of comparable corpus have gradually become the focus of researchers and developers in information retrieval.From the perspective of cross language information retrieval,this paper studies several comparable corpus construction methods,which include questions translation method,feature filtering method,intermediate language translation method,text translation method and homologous matching method. The construction of comparable corpus in China should take a full consideration of the whole performance of the system,and then choose the appropriate building method based on user requirements,improve text translation and terminology extraction technology,optimize text alignment method.4 figs.18 refs.
Comparable Corpus;Construction Method;Cross Language Information Retrieval
2016-06-14
? 本文系教育部人文社會科學(xué)重點研究基地重大項目“基于內(nèi)容的多語言信息組織與檢索研究”(項目編號:14JJD870001)研究成果之一。