国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系的跨語種文本檢索研究

2017-05-02 22:02:50尹娜高湘韓進(jìn)王小花黃曉鳴
安徽文學(xué)·下半月 2017年2期
關(guān)鍵詞:檢索文本

尹娜++高湘++韓進(jìn)+王小花+黃曉鳴

摘 要:跨語種文本檢索是在不同語種文獻(xiàn)之間實現(xiàn)檢索。本文基于語境思想,提出了一種新的以文搜文的跨語種檢索方法。本文方法將用戶提交的檢索文本轉(zhuǎn)換成關(guān)鍵詞共現(xiàn)關(guān)系的數(shù)組,再通過平行語料庫的關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型映射成其他語種的關(guān)鍵詞共現(xiàn)關(guān)系矩陣,再使用該矩陣實現(xiàn)其他語種文獻(xiàn)的檢索。該方法通過關(guān)鍵詞的共現(xiàn)關(guān)系分布統(tǒng)計,有效地解決了詞翻譯歧義、詞意模糊等問題,具有較好的檢索準(zhǔn)確率。

關(guān)鍵詞:關(guān)聯(lián)關(guān)系 跨語種 文本 檢索

★基金項目:該論文為2015年江蘇省省級一般大創(chuàng)項目結(jié)題論文,項目名稱:基于語境的日文情報檢索與分類技術(shù)研究,項目編號:201510300060Y

一、引言

近年來,由于互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)中開放的文本資源呈爆炸式增長,單一語種檢索的局限性越來越明顯。能在不同語種中檢索,獲取多渠道多方面的信息成為互聯(lián)網(wǎng)時代信息獲取新的需求[1]。由此,跨語種檢索的研究成為文本檢索研究領(lǐng)域中新的熱點。

跨語種檢索研究目前主流的方法可以分成兩類,一類是基于機(jī)器翻譯理論,該類方法主要是基于機(jī)器翻譯研究領(lǐng)域理論[2]實現(xiàn)的,有提問式翻譯、文獻(xiàn)翻譯、中間語種轉(zhuǎn)換等[3];另一類是基于語料庫的統(tǒng)計方法[4],通過對平行語料庫中文獻(xiàn)的特性進(jìn)行統(tǒng)計來實現(xiàn)跨語種檢索。

本文提出的方法即屬于第二類,但與其他跨語種檢索方法不同的是,本方法基于語境思想,認(rèn)為檢索的關(guān)鍵詞應(yīng)放置于一定的語境下才能突出其真實的語義,因此提出以文搜文的檢索方式,也即用戶提交的不是關(guān)鍵字組合,而是包含關(guān)鍵字的文本。本文方法基于該文本提取關(guān)鍵詞關(guān)聯(lián)關(guān)系,然后再利用已建立好的平行語料庫中不同語種之間關(guān)鍵詞共現(xiàn)關(guān)系的映射分布模型實現(xiàn)映射,變換成其他語種的關(guān)鍵詞共現(xiàn)關(guān)系矩陣,基于該矩陣實現(xiàn)異種語言文獻(xiàn)庫的檢索。以中日二種語言為例,創(chuàng)建了中日平行語料庫,并實現(xiàn)了中日平行語料庫中關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系的統(tǒng)計與分析,建立中日關(guān)鍵詞共現(xiàn)關(guān)系的映射分布模型,并做了一定量的實驗,結(jié)果表明該方法具有較好的跨語種檢索準(zhǔn)確率。

二、關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系與跨語種映射分布

(一)基于關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系的可計算語境模型

語境這一概念是1923年由英國民俗學(xué)家馬林諾斯基首先提出來的[6]。他認(rèn)為:語言環(huán)境對于理解語言來說是必不可少的。馬林諾斯基將語境分成三個層次:一個是最表層的,指人們談話當(dāng)下的語言上下文環(huán)境;另一個是擴(kuò)大的語義環(huán)境,指的是人們一般習(xí)慣意義上的語意環(huán)境;最后一個是指深層或沉淀的語言環(huán)境 ,是指基于某種文化背景上的語意環(huán)境。語境研究在語言學(xué)上有著長期的研究,不同的學(xué)者從不同的角度來分析與解釋語境的結(jié)構(gòu)與內(nèi)涵,如[7][8],但這些研究成果都是定性的,難以轉(zhuǎn)換成可計算的語境計算模型,因而不能直接應(yīng)用于計算機(jī)算法,實現(xiàn)文本的語境計算。

在此本文結(jié)合現(xiàn)有的語境研究成果,提出以關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系作為句子語境的潛在表達(dá)。其中關(guān)鍵詞是指除去句子中副詞、介詞、連詞、助詞、語氣詞等虛詞,而剩下的名詞、動詞等。位于同一個句子的實詞,稱它們之間具有共現(xiàn)關(guān)系,本文認(rèn)為這些共現(xiàn)關(guān)系某種程度上體現(xiàn)出該句的語境,如下圖1所示。例如:當(dāng)“吃”和“蘋果”共句時,“蘋果”自然而然地被釋義為一種水果,而當(dāng)其與“手機(jī)”或者“性能”共句時,其將會被釋義為一種電子產(chǎn)品。因此,本文使用一個句子的這些實詞之間的共現(xiàn)關(guān)聯(lián)關(guān)系作為該句子的語境模型。關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系是可以通過計算機(jī)算法進(jìn)行統(tǒng)計分析,因而該語境模型也可稱之為可計算語境模型。

(二)基于平行語料庫的跨語種關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型

圖一:基于關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系的語境模型

語料庫是格式化添加諸多標(biāo)識屬性文本資料庫,是語言學(xué)研究是基礎(chǔ)。平行語料庫是語料庫的一種,其中存儲的是兩個或多個異種語言一一對應(yīng)的語料,有的平行語料庫是以句子為單位的,實現(xiàn)同一語句不同語言的一一對應(yīng)存儲,有的平行語料庫是以文本為單位的,即同義文本不同語言的一一對應(yīng)存儲。由上文所述可知,本文使用的關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系是以句子為單位的,因此本文使用的平行語料庫也必須由句子為單位的語料組成。

假定現(xiàn)有一平行語料庫C,其中存儲有兩種語言L1,L2,其中任一條語料分別于相同句義的S1,S2組成。針對平行語料庫C,可以使用以下步驟,創(chuàng)建跨語種的關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型,如下所述。

1.在語料庫C中,取出任一屬于L1語言的兩個關(guān)鍵詞w1,w2,它們的共現(xiàn)關(guān)系記作(w1,w2);

2.考察C中L1語言的所有句子,取出所有包含(w1,w2)的句子組成集合{S1};

3.遍歷集合{S1},取出其中任一條,找到其對應(yīng)語種的語句S2,將所有對應(yīng)的S2組成集合{S2};

4.遍歷集合{S2},取出其中任一條,構(gòu)建該語句的關(guān)鍵共現(xiàn)關(guān)聯(lián)關(guān)系語境模型,統(tǒng)計每一個(w1,w2)關(guān)鍵詞共現(xiàn)關(guān)系出現(xiàn)的頻率;

5.通過查尋語言詞典,過濾與(w1,w2)詞義無關(guān)的所有(w1,w2),即得一個關(guān)鍵詞共現(xiàn)關(guān)系統(tǒng)計頻率的集合,記作{ },其中 r 為過濾剩下的(w1,w2),f為該共現(xiàn)關(guān)系的統(tǒng)計頻率;

6.將集合中的元素{ },按f從大到小排列,形成序列。

同上所述,對于語料庫中L2語言的語料作相同處理。如此,語料庫處理完成之后,將得到其中一語種的任一關(guān)鍵詞共現(xiàn)關(guān)系R所對應(yīng)的異種語言共現(xiàn)關(guān)系的統(tǒng)計頻率集合,該集合即稱之為R的跨語種關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型。這個模型實際反映了某語種中兩個關(guān)鍵詞翻譯成其他語種中對應(yīng)關(guān)鍵詞的分布概率。因為存在有同一關(guān)鍵詞翻譯成異種語種不同關(guān)鍵詞的情況,因此該映射分布概率模型是一個關(guān)鍵詞關(guān)聯(lián)關(guān)系的統(tǒng)計頻率集合??缯Z種關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型是本文所提跨語種文本檢索方法的實現(xiàn)基礎(chǔ)。

三、基于關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系的跨語種文本檢索

本文的檢索方法是基于上述可計算語境模型來實現(xiàn)的,所以一般以關(guān)鍵詞檢索的方式并不適應(yīng)于本方法,原因在于少數(shù)的幾個關(guān)鍵詞無法用來構(gòu)建語境模型。因此,本文提出以文搜文的檢索方式。用戶可以首先使用自己熟悉的語種關(guān)鍵詞來檢索,通過對檢索的結(jié)果過濾檢查后,選擇最符合用戶檢索意圖的該語種文本,從該文本出發(fā)來實現(xiàn)跨語種檢索,獲取其他語種對應(yīng)的檢索結(jié)果。

在進(jìn)行檢索之間,需要對檢索的目標(biāo)文獻(xiàn)庫中的文本進(jìn)行預(yù)處理,即遍歷庫中每一個文本,將其拆分成句,然后構(gòu)建每個句子的語境模型,提取出每個句子中關(guān)鍵詞的共現(xiàn)關(guān)系,匯總在一起,統(tǒng)計如上文所述的關(guān)鍵詞共現(xiàn)關(guān)系統(tǒng)計頻率的集合,同樣對集合中的元素進(jìn)行從大到小的排序,以該序列形成的向量,作為備檢索的依據(jù),稱之為檢索匹配向量。

本文跨語種文本檢索的算法過程,如下所述。

1.針對用戶提交L1語種的文本T,將T拆分成句子集合,針對每個句子集合構(gòu)建對應(yīng)的句子語境模型;

2.統(tǒng)計整個文本T所有句子語境模型中關(guān)鍵詞共現(xiàn)關(guān)系R出現(xiàn)的頻率;

3.使用閥值σ過濾掉所有出現(xiàn)頻率少于σ的關(guān)鍵詞共現(xiàn)關(guān)系R,將剩余的關(guān)鍵詞共現(xiàn)關(guān)系組成集合{R},設(shè)集合中R的個數(shù)為n,將n個R組成向量N;

4.遍歷集合{R}中任一關(guān)鍵詞共現(xiàn)關(guān)系R,查詢平行語料庫中該R共現(xiàn)關(guān)系所對應(yīng)的語種映射分布概率模型;

5.針對由第四步得異種語言對應(yīng)的映射分布概率列表中的每行,截取前N個,形成矩陣M。

6.計算矩陣乘積結(jié)果,N * MT,其中MT為M矩陣的轉(zhuǎn)置矩陣;

7.將所獲乘積結(jié)果矩陣中元素,進(jìn)行合并統(tǒng)計,最后再從大到小排序形成序列L;

8.再遍歷待檢索的文獻(xiàn)庫,遍歷該庫中每個文本對應(yīng)的檢索匹配向量L,計算序列L與L的歐式距離s;

9.以歐式距離s小于某個預(yù)定值γ的文本作為跨語種檢索的返回結(jié)果。

以上算法的主要思想是首先統(tǒng)計出待檢索文本中出現(xiàn)頻率最高的n個關(guān)鍵詞序列,再針對此序列中每個元素,依據(jù)平行語料庫,取出該元素對應(yīng)的共現(xiàn)關(guān)系映射分布模型。其后算法中的矩陣相乘是以待檢索文求得的共現(xiàn)關(guān)系序列中各元素的出現(xiàn)頻率作為權(quán)重,實現(xiàn)對映射分布模型中異種語言關(guān)鍵詞共現(xiàn)關(guān)系頻率的求權(quán)計算。最后,根據(jù)所得的異種語言關(guān)鍵詞共現(xiàn)關(guān)系序列來求出與該序列最為接近的被檢索文本。

四、實驗

(一)中日平行語料庫的構(gòu)建

平行語料庫是本文跨語種檢索的數(shù)據(jù)基礎(chǔ),由于本文方法是使用計算機(jī)處理分析,因此所需的語料庫除了有上文所述的結(jié)構(gòu)之外,庫中的語料必須達(dá)到一定的量才具有統(tǒng)計學(xué)上的意義。本文實驗以中日兩種語言來構(gòu)建的平行語料庫,語料庫構(gòu)建的素材來自于影視文件的字幕。在網(wǎng)絡(luò)上有很多日漫、日劇,而其中有部分被一些字幕愛好者加上了雙語字幕。這些雙語字幕以.ass或者.srt 的文件形式存在,可以從一些字幕組平臺中免費下載。

針對下載的字幕文件,按文件格式進(jìn)行解析,根據(jù)字幕文件中的標(biāo)明的時間戳,提取出其中一一對應(yīng)的中文與日文臺詞,再將得到的中日文句子分別進(jìn)行各自的分詞器分詞,如下表1和表2所示,組織成如圖3所示的語料,然后使用上文所述的算法最終構(gòu)建出各句子的可計算語境模型。

由于中日兩種語言在句子中都沒有特定的詞分割符號,因此構(gòu)建中日平行語料庫首先要的是針對中日句子進(jìn)行分詞。在此本文采用IK來作為中文的分詞器,而Kuromoji作為日文分詞器,從整體上看,這兩個工具的分詞效果較好,基本能滿足本文方法的需要。

另外一個需要注意的事項是,由于中日平行語料庫中的語料來源于影視文件字幕,因此有一定量口語化的簡單短小的句子,為了不讓這些句子對實驗產(chǎn)生干擾,本文在構(gòu)建語料庫過程中,將這些句子濾除,不錄入語料庫中。最終構(gòu)建形成的中日平行語料庫中語料的數(shù)量達(dá)到十萬余條。

(二)跨語種檢索的實驗

由于本文側(cè)重于檢索方法的研究,因此并沒有準(zhǔn)備跨語種的文獻(xiàn)庫。對此,本文采用變通的方式來進(jìn)行本文跨語種檢索方法的實驗。

首先,通過百度用戶輸入待檢索文獻(xiàn)的關(guān)鍵詞,針對百度的檢索結(jié)果,提取出最適合用戶檢索目標(biāo)的網(wǎng)頁,再從網(wǎng)頁中提取文本作為待檢索的中文文本。然后按上文所述檢索算法構(gòu)建關(guān)鍵詞共現(xiàn)關(guān)聯(lián)關(guān)系序列后,得到對應(yīng)日文的關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型,并得到最終日文的關(guān)鍵詞共現(xiàn)關(guān)系序列。

由于沒有對應(yīng)日文的文獻(xiàn)庫,因此在本文實驗中對于得到的日文的關(guān)鍵詞共現(xiàn)關(guān)系序列,登錄到Google日文網(wǎng)站,以序列中的關(guān)鍵詞進(jìn)行檢索,對獲得的檢索網(wǎng)頁抽取文本,然后再按前所述方法計算各文本與日文關(guān)鍵詞共現(xiàn)關(guān)系序列的歐式距離,獲得最終的檢索結(jié)果。

因為本文實驗并未有專門的實驗文獻(xiàn)庫,因此只能從檢索結(jié)果的準(zhǔn)確率來分析檢索方法的效果。據(jù)統(tǒng)計,經(jīng)過53次檢索實驗,其中每次檢索獲得的結(jié)果平均準(zhǔn)確率在32.3%左右,與其他同類檢索方法接近。

五、結(jié)語

本文提出了一種新的跨語種文本檢索方法,主要依據(jù)語境研究思想,使用關(guān)鍵詞在句子中的共現(xiàn)關(guān)系來構(gòu)建可計算的語境模型。通過預(yù)先構(gòu)建的平行語料庫,實現(xiàn)對語料庫中各語言每一關(guān)鍵詞共現(xiàn)關(guān)系構(gòu)建異種語言的關(guān)鍵詞共現(xiàn)關(guān)系映射分布模型,以此映射分布模型為跨語種檢索的轉(zhuǎn)換關(guān)系,來實現(xiàn)對不同語言文獻(xiàn)的檢索。本文中詳細(xì)闡述了相關(guān)算法以及構(gòu)建平行語料庫和實驗過程,從實驗結(jié)果來看,本文方法取得了與同類檢索方法接近的準(zhǔn)確率。但是本文方法仍然有較大的提升空間,主要原因有:第一,語料庫的來源不全面,因為語料庫來自動漫等日文影視字幕,在內(nèi)容上有所偏頗,影響了語料對檢索的效果支持。第二,庫中的語料數(shù)量仍然不夠,在統(tǒng)計意義上支持不足;第三,可計算語境模型仍需要進(jìn)一步研究,對關(guān)鍵詞共現(xiàn)關(guān)系的處理還要進(jìn)一步細(xì)化;因此,后期的工作將圍繞這些方面進(jìn)行。

參考文獻(xiàn)

[1] 張俊林, 曲為民, 杜林,等. 跨語言信息檢索研究進(jìn)展[J].計算機(jī)科學(xué),2004,31(7):16-19.

[2] Wu D, He D, Ji H, et al. A study of using an out-of-box commercial MT system for query translation in CLIR[C]// ACM Workshop on Improving Non English Web Searching. ACM, 2008:287-96.

[3] 牛亞萌.跨語言信息檢索技術(shù)的研究與實現(xiàn)[D].西安電子科技大學(xué),2011.

[4] Nie J Y, Simard M, Isabelle P, et al. Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web[C]// SIGIR '99: Proceedings of the, International ACM SIGIR Conference on Research and Development in Information Retrieval, August 15-19, 1999, Berkeley, Ca, Usa. 1999:74-81.

[5] 王進(jìn),陳恩紅,,張振亞,等.基于本體的跨語言信息檢索模型[J].中文信息學(xué)報,2004, 18(3):1-8.

[6] 陳進(jìn).語境的本質(zhì)及其特征[J].西安外國語大學(xué)學(xué)報,1999(3):18-20.

[7] 陳穎.語境與翻譯[D].蘭州大學(xué),2006.

[8] 譚弘劍,劉紹忠.近年來國外語境研究綜述[J].外國語文,2002,18(6):106-110.

[9] 魯晶石.中日同形語的釋義演化——以“雪”為例[J].安徽文學(xué),2016.6

猜你喜歡
檢索文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
2019年第4-6期便捷檢索目錄
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
《國外醫(yī)藥抗生素分冊》第37卷1~6期(2016年)目次檢索
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
國際|標(biāo)準(zhǔn)|檢索
沐川县| 台前县| 安陆市| 辉县市| 宣城市| 宝鸡市| 砚山县| 上林县| 越西县| 永康市| 刚察县| 始兴县| 禄劝| 保亭| 鄂尔多斯市| 中超| 三门峡市| 玛沁县| 囊谦县| 交口县| 富锦市| 大田县| 汾阳市| 珲春市| 九江市| 左云县| 贡觉县| 巴塘县| 巨野县| 工布江达县| 四会市| 积石山| 张家港市| 五家渠市| 青岛市| 宜阳县| 石嘴山市| 崇文区| 称多县| 常宁市| 阆中市|