楊亮
(廣東技術(shù)師范學(xué)院圖書館,廣州 510400)
查詢擴(kuò)展技術(shù)在跨語(yǔ)言信息檢索中的應(yīng)用
楊亮
(廣東技術(shù)師范學(xué)院圖書館,廣州 510400)
互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)資源的表現(xiàn)形式日益多樣化,其中信息資源的多語(yǔ)種問題,成為人們獲取信息的主要障礙。當(dāng)用戶檢索的信息是自己不熟悉的語(yǔ)言時(shí),往往難以獲得準(zhǔn)確的檢索結(jié)果?;贚ucene平臺(tái)設(shè)計(jì)并實(shí)現(xiàn)跨語(yǔ)言信息檢索系統(tǒng),系統(tǒng)在提問式翻譯的基礎(chǔ)上應(yīng)用查詢擴(kuò)展技術(shù)。實(shí)驗(yàn)結(jié)果表明,查詢擴(kuò)展技術(shù)可有效提高跨語(yǔ)言信息檢索的查全率。
跨語(yǔ)言信息檢索;查詢擴(kuò)展;Lucene
隨著互聯(lián)網(wǎng)的不斷發(fā)展,使用不同語(yǔ)言的互聯(lián)網(wǎng)用戶也在不斷增加,網(wǎng)絡(luò)上的海量信息資源由很多不同的語(yǔ)言所組成,當(dāng)用戶需要檢索的信息是自己不熟悉的語(yǔ)言時(shí)往往會(huì)面臨一定的障礙,這使得很多用戶不能自由地獲取信息。為了解決多語(yǔ)種問題帶來(lái)的語(yǔ)言障礙,讓用戶可以更加便捷地檢索信息,學(xué)者們開始對(duì)跨語(yǔ)言信息檢索進(jìn)行探索。
傳統(tǒng)的信息檢索研究的是單一語(yǔ)種的檢索問題,即檢索提問式和被檢索文檔集采用的是同一種語(yǔ)言表述。而跨語(yǔ)言信息檢索(Cross-Language Information Retrieval,簡(jiǎn)稱CLIR)是指用戶通過一種語(yǔ)言(通常是自己的母語(yǔ))進(jìn)行檢索,獲取以另一種或幾種語(yǔ)言表述的信息或文檔的信息檢索技術(shù)和方法[1]。在跨語(yǔ)言信息檢索中,用戶構(gòu)造檢索提問式所使用的語(yǔ)言通常稱為源語(yǔ)言(Source Language),一般是用戶的母語(yǔ)或用戶所熟悉的語(yǔ)言;而被檢索的文檔集所使用的語(yǔ)言通常稱為目標(biāo)語(yǔ)言(Target Language),目標(biāo)語(yǔ)言一般是用戶不熟悉甚至完全陌生的語(yǔ)言[2]??缯Z(yǔ)言檢索重點(diǎn)研究的是源語(yǔ)言與目標(biāo)語(yǔ)言之間翻譯匹配的問題。
目前,實(shí)現(xiàn)源語(yǔ)言與目標(biāo)語(yǔ)言的翻譯匹配主要有四種方法:提問式翻譯、文獻(xiàn)翻譯、中間語(yǔ)種轉(zhuǎn)換和非翻譯[3~6]。
提問式翻譯(Query Translation Approach)。這種方法將用戶輸入的檢索提問式翻譯為系統(tǒng)支持的語(yǔ)言,然后進(jìn)行檢索。提問式翻譯是目前最為常用的方法,它可以很容易地與傳統(tǒng)的單語(yǔ)種信息檢索相結(jié)合,特點(diǎn)是對(duì)系統(tǒng)要求不高,執(zhí)行速度快。但由于提問式比較短,通常都是一個(gè)或幾個(gè)詞,缺乏一定的上下文語(yǔ)境,對(duì)于一詞多義、一義多詞等翻譯歧義問題不能很好地解決。實(shí)現(xiàn)提問式翻譯主要有基于詞典(Dictionary-Based)和基于雙語(yǔ)語(yǔ)料庫(kù)(Bilingual Corpus-Based)兩種模式。
文獻(xiàn)翻譯(Document Translation Approach)。文獻(xiàn)翻譯在信息檢索之前,將被檢索的文檔集轉(zhuǎn)化為與檢索提問式相同的語(yǔ)種,通過該方法返回給用戶的結(jié)果是用源語(yǔ)言所描述的,且上下文語(yǔ)境信息比較寬泛,用戶選擇利用起來(lái)也就更加便利。不過由于目前機(jī)器翻譯的效果并不理想,而將系統(tǒng)中的所有文獻(xiàn)都從目標(biāo)語(yǔ)種翻譯為源語(yǔ)種的工作量十分龐大,完全由人工來(lái)翻譯又不現(xiàn)實(shí),因此,文獻(xiàn)翻譯的實(shí)用性較差。
中間語(yǔ)種轉(zhuǎn)換(Interlingual Representation Approach)。提問式翻譯將源語(yǔ)種轉(zhuǎn)化為目標(biāo)語(yǔ)種,而文獻(xiàn)翻譯將目標(biāo)語(yǔ)種轉(zhuǎn)化為源語(yǔ)種,中間語(yǔ)種轉(zhuǎn)換方法則是將源語(yǔ)種和目標(biāo)語(yǔ)種同時(shí)轉(zhuǎn)換為第三方的中間語(yǔ)種。這種方法多用于源語(yǔ)種和目標(biāo)語(yǔ)種不能直接翻譯或雙語(yǔ)詞典不存在時(shí),如德語(yǔ)和意大利語(yǔ)。
非翻譯(No Translation Approach)。該方法不對(duì)源語(yǔ)種或者目標(biāo)語(yǔ)種進(jìn)行翻譯就可以實(shí)現(xiàn)跨語(yǔ)言信息檢索,即潛語(yǔ)義索引。這種方法不需要詞典、機(jī)器翻譯系統(tǒng),但是如何針對(duì)具體問題構(gòu)造優(yōu)化的向量空間模型是一項(xiàng)經(jīng)驗(yàn)性的工作,且訓(xùn)練文檔不容易獲取。
信息需求是用戶想要查找的信息主題,信息檢索就是從大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的集合中找出滿足用戶信息需求的資料的過程。在檢索時(shí)用戶使用檢索提問式來(lái)代表其信息需求,將檢索提問式提交給系統(tǒng),系統(tǒng)從文檔集中返回與之相關(guān)的文檔[7]。然而,用戶提交的檢索提問式通常是一個(gè)很短的句子或者是少量的關(guān)鍵詞,簡(jiǎn)短的檢索提問式不能很好地代表用戶的信息需求,從而造成檢索出的文檔對(duì)用戶的需求價(jià)值不高。為此,有學(xué)者提出了查詢擴(kuò)展技術(shù)。
查詢擴(kuò)展(Query Expansion)指的是利用計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多種技術(shù),把與原查詢相關(guān)的詞語(yǔ)或者與原查詢語(yǔ)義相關(guān)聯(lián)的概念添加到原查詢,得到比原查詢更長(zhǎng)的新查詢,然后檢索文檔,以改善信息檢索的性能,解決信息檢索領(lǐng)域長(zhǎng)期困擾的詞不匹配問題,彌補(bǔ)用戶查詢信息不足的缺陷[8]。查詢擴(kuò)展技術(shù)主要分為全局分析和局部分析兩大類。全局分析是對(duì)整個(gè)文檔集的語(yǔ)詞進(jìn)行相關(guān)分析,計(jì)算每對(duì)語(yǔ)詞間的關(guān)聯(lián)程度,在檢索時(shí)選取與檢索提問式關(guān)聯(lián)程度高的語(yǔ)詞對(duì)檢索提問式進(jìn)行擴(kuò)充。全局分析需要對(duì)整個(gè)文檔集進(jìn)行相關(guān)處理,系統(tǒng)計(jì)算量大,只適合小范圍內(nèi)的信息檢索,不適用于大規(guī)模的海量檢索。局部分析利用初始檢索得到的最相關(guān)的N篇文檔作為擴(kuò)展用詞的來(lái)源,不需要對(duì)全部語(yǔ)詞進(jìn)行相關(guān)計(jì)算[9]。
在跨語(yǔ)言信息檢索領(lǐng)域,以往的研究多集中在理論和模型方面,實(shí)踐研究較少,本文基于Lucene平臺(tái)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)漢英跨語(yǔ)言信息檢索系統(tǒng),使用局部分析中的相關(guān)性反饋技術(shù)對(duì)翻譯后的檢索提問式進(jìn)行查詢擴(kuò)展[10],通過實(shí)驗(yàn)研究應(yīng)用查詢擴(kuò)展前后系統(tǒng)的檢索性能。
本文基于Lucene平臺(tái)實(shí)現(xiàn)了一個(gè)跨語(yǔ)言信息檢索系統(tǒng),結(jié)構(gòu)如圖1。系統(tǒng)應(yīng)用了查詢擴(kuò)展技術(shù)檢索系統(tǒng),采用了B/S架構(gòu),使用Eclipse開發(fā)平臺(tái)和Tomcat服務(wù)器搭建開發(fā)環(huán)境,采用Java語(yǔ)言進(jìn)行編程,并使用MySQL數(shù)據(jù)庫(kù)管理機(jī)讀詞典。
圖1 跨語(yǔ)言信息檢索系統(tǒng)結(jié)構(gòu)圖
3.1 Lucene檢索引擎
Lucene是一款高性能的、可擴(kuò)展的信息檢索(IR)工具庫(kù),是一款以Java實(shí)現(xiàn)的成熟、自由、開源的軟件,為開發(fā)者提供了完整的檢索引擎和索引引擎,可以方便地在系統(tǒng)中實(shí)現(xiàn)全文檢索的功能。同時(shí),Lucene是Apache軟件基金會(huì)(Apache Software Foundation)中的一個(gè)項(xiàng)目,基于Apache軟件許可協(xié)議授權(quán),在近年來(lái)已經(jīng)成為最受歡迎的開源信息檢索工具庫(kù)。
本文基于Lucene平臺(tái)實(shí)現(xiàn)系統(tǒng)的檢索功能,Lucene的核心API主要可分為兩類。第一類是索引過程的核心類,包括IndexWriter、Directory、Analyzer、Document等。其中IndexWriter(寫索引)是索引過程的核心組件,主要負(fù)責(zé)創(chuàng)建新索引和對(duì)索引的維護(hù)。Directory類指明了Lucene索引的位置所在。Analyzer和Document則表示在建立索引前,文本文件需要經(jīng)過分析器和文檔化的處理。第二類是搜索過程的核心類,包括IndexSearcher、QueryParser、Query、TopDocs等。其中IndexSearcher用于搜索由IndexWriter類創(chuàng)建的索引,所有的檢索操作都是通過IndexSearcher實(shí)例使用一個(gè)重載的search方法來(lái)實(shí)現(xiàn)。QueryParser類將用戶輸入的檢索提問式處理為一個(gè)具體的Query對(duì)象;大多數(shù)IndexSearcher的search方法都會(huì)以返回TopDocs對(duì)象的形式來(lái)返回搜索結(jié)果。
3.2 分詞
在英語(yǔ)環(huán)境中,英文單詞之間用空格來(lái)進(jìn)行間隔,單詞就是自然的索引單元,而在中文環(huán)境中,中文文本是以字為基本單元的,字和字之間沒有明顯的間隔,這就需要中文分詞技術(shù)來(lái)解決這個(gè)問題,運(yùn)用中文分詞技術(shù)可以將連續(xù)的文本序列按照一定的規(guī)則切分成具有獨(dú)立語(yǔ)義的詞組[11]。中文分詞是中文信息處理的基礎(chǔ)與關(guān)鍵,本文使用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)來(lái)對(duì)中文檢索提問式進(jìn)行分詞。ICTCLAS是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制出的漢語(yǔ)詞法分析系統(tǒng),主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別等。ICTCLAS是目前比較好的漢語(yǔ)詞法分析器,提供了一套完整的動(dòng)態(tài)鏈接庫(kù)供開發(fā)者直接在自己的系統(tǒng)中調(diào)用來(lái)實(shí)現(xiàn)漢語(yǔ)詞法分析,支持C/C++/C#/Delphi/Java等主流開發(fā)語(yǔ)言。
3.3 詞典翻譯
本文使用基于詞典的提問式翻譯方法對(duì)中文檢索提問式進(jìn)行翻譯處理,詞典選用了MDBG漢英詞典,該詞典屬于1997年P(guān)aul Denisowski創(chuàng)辦的CEDICT項(xiàng)目,支持簡(jiǎn)體中文、繁體中文以及拼音與英語(yǔ)的對(duì)照翻譯。詞典可以在MDBG網(wǎng)站上免費(fèi)獲取,內(nèi)容涵蓋了單字、詞組、短語(yǔ)、地名、專業(yè)術(shù)語(yǔ)等110284個(gè)詞條。
詞條示例:
世界觀世界觀[shi4 jie4 guan1]/worldview/world outlook/Weltanschauung/
3.4 建立索引
在進(jìn)行檢索前,首先要對(duì)檢索文檔建立索引,以便進(jìn)行快速檢索。索引操作把數(shù)據(jù)處理成一種高效的、可交叉引用的數(shù)據(jù)結(jié)構(gòu),這種結(jié)構(gòu)允許對(duì)存儲(chǔ)在其中的單詞進(jìn)行快速隨機(jī)存取。本文基于Lucene平臺(tái)建立索引,Lucene的索引結(jié)構(gòu)分為索引(Index)、索引段(Segment)、索引文檔(Document)、索引域(Field)和索引項(xiàng)(Term)五個(gè)層次。Lucene的每個(gè)索引結(jié)構(gòu)由若干個(gè)段組成,每個(gè)段包含若干個(gè)文檔,每個(gè)文檔管理若干個(gè)域,每個(gè)域中有若干個(gè)項(xiàng),項(xiàng)就是索引中最基本的語(yǔ)匯單元[12]。
本文對(duì)數(shù)據(jù)建立索引的過程分為三個(gè)部分:
(1)預(yù)處理:將所有檢索文檔都轉(zhuǎn)換成Lucene能夠處理的格式——純文本數(shù)據(jù)流,以.txt的格式保存在磁盤中。
(2)分析:通過Lucene索引管理器對(duì)文檔進(jìn)行分析,將文本轉(zhuǎn)換為最基本的索引項(xiàng),并且過濾掉一些頻繁出現(xiàn)卻沒有實(shí)際意義的詞,如英文中的a、an、the、in、on等停用詞,去除標(biāo)點(diǎn)符號(hào)。
(3)寫入索引:將分析處理后的結(jié)果寫入到索引文件,以倒排索引的結(jié)構(gòu)存儲(chǔ)在磁盤中。從文檔中抽取出的語(yǔ)匯單元被看作是查找關(guān)鍵詞,可以快速地執(zhí)行檢索操作。
3.5 查詢擴(kuò)展
本文使用局部分析中的相關(guān)性反饋技術(shù)對(duì)翻譯后的檢索提問式進(jìn)行查詢擴(kuò)展,根據(jù)初始檢索的結(jié)果,利用Lucene的評(píng)分機(jī)制對(duì)返回結(jié)果中的文檔進(jìn)行排序,將排名前3的文檔取出,并對(duì)這3篇文檔進(jìn)行詞匯統(tǒng)計(jì),用出現(xiàn)頻率最高的詞匯w_1去擴(kuò)展翻譯后的檢索式。如果w_1已經(jīng)出現(xiàn)在翻譯后的檢索式中,則使用出現(xiàn)頻率第二高的詞匯w_2進(jìn)行擴(kuò)展,以此類推。
3.6 實(shí)驗(yàn)過程
實(shí)驗(yàn)?zāi)康氖菧y(cè)試應(yīng)用查詢擴(kuò)展技術(shù)前后跨語(yǔ)言信息檢索系統(tǒng)的檢索性能,使用查準(zhǔn)率和查全率兩個(gè)指標(biāo)來(lái)衡量。查準(zhǔn)率是指檢出的相關(guān)文檔與檢出文檔總數(shù)的比值,查全率是指檢出的相關(guān)文檔與相關(guān)文檔總數(shù)的比值[13]。查準(zhǔn)率用來(lái)衡量系統(tǒng)的檢索精度,查全率用來(lái)衡量系統(tǒng)檢出相關(guān)文檔的能力。
實(shí)驗(yàn)運(yùn)行環(huán)境如下:CPU:Intel Pentium Dual-Core E5200、內(nèi)存:4GB、硬盤:希捷250GB、操作系統(tǒng):Windows 7 Ultimate。實(shí)驗(yàn)所用的檢索文檔全部來(lái)源于新華網(wǎng),共計(jì)300篇英文文檔,內(nèi)容涵蓋科技、健康、體育、經(jīng)濟(jì)等多個(gè)類別。針對(duì)實(shí)驗(yàn)設(shè)計(jì)了10個(gè)檢索式,先進(jìn)行一次初始檢索,然后再進(jìn)行兩次查詢擴(kuò)展,對(duì)比系統(tǒng)的查準(zhǔn)率和查全率。
具體的實(shí)驗(yàn)步驟如下:
①輸入中文檢索式,標(biāo)記為zws;
②對(duì)zws進(jìn)行分詞和去除中文停用詞的處理;
③通過機(jī)讀詞典對(duì)zws進(jìn)行翻譯,得到相應(yīng)的英文檢索式ews0;
④使用ews0進(jìn)行初始檢索,根據(jù)檢索結(jié)果計(jì)算相應(yīng)的查準(zhǔn)率和查全率;
⑤進(jìn)行第一次查詢擴(kuò)展,將擴(kuò)展結(jié)果加入到ews0中得到檢索式ews1;
⑥使用ews1進(jìn)行檢索,根據(jù)檢索結(jié)果計(jì)算相應(yīng)的查準(zhǔn)率和查全率;
⑦進(jìn)行第二次查詢擴(kuò)展,將擴(kuò)展結(jié)果加入到ews1中得到檢索式ews2;
⑧使用ews2進(jìn)行檢索,根據(jù)檢索結(jié)果計(jì)算相應(yīng)的查準(zhǔn)率和查全率。
3.7 實(shí)驗(yàn)結(jié)果
例如,用戶的信息需求是查找手機(jī)系統(tǒng)方面的信息,輸入中文檢索式“手機(jī)系統(tǒng)”,經(jīng)分詞處理后系統(tǒng)翻譯得到英文檢索式“cell phone mobile phone system”,進(jìn)行初始檢索后根據(jù)檢索結(jié)果計(jì)算出查準(zhǔn)率為0.5588,查全率為0.95。之后進(jìn)行第一次查詢擴(kuò)展,得到檢索式“cell phone mobile phone system android”,再次進(jìn)行檢索,根據(jù)檢索結(jié)果計(jì)算出查準(zhǔn)率為0.5405,查全率為1.0。然后進(jìn)行第二次查詢擴(kuò)展,得到檢索式“cell phone mobile phone system android smart”,根據(jù)檢索結(jié)果計(jì)算出查準(zhǔn)率為0.5333,查全率為1.0。
對(duì)10個(gè)檢索式初始檢索結(jié)果的查準(zhǔn)率和查全率、兩次查詢擴(kuò)展后檢索結(jié)果的查準(zhǔn)率和查全率進(jìn)行對(duì)比,如圖2、圖3。
通過檢索結(jié)果可以看出,在應(yīng)用了查詢擴(kuò)展技術(shù)后,系統(tǒng)的查全率得到了提升,同時(shí)因?yàn)楂@取了較多的檢中結(jié)果,系統(tǒng)的查準(zhǔn)率有所下降,這也是系統(tǒng)表現(xiàn)良好的一個(gè)證明。“檢索式10”的查準(zhǔn)率在第二次查詢擴(kuò)展后有明顯的下降,其查全率在第一次查詢擴(kuò)展后有明顯的上升,這是因?yàn)樵~典對(duì)一些新詞匯沒有完全收錄而產(chǎn)生的噪點(diǎn)數(shù)據(jù)。另外,當(dāng)初始查詢得到的文檔在經(jīng)過排序后,如果排名靠前的文檔與原信息需求相關(guān)性不大,在查詢擴(kuò)展時(shí)就會(huì)把一些無(wú)關(guān)的詞加入到新查詢中,也會(huì)影響檢索效果。從總體上看,查詢擴(kuò)展技術(shù)在跨語(yǔ)言信息檢索系統(tǒng)中表現(xiàn)出了良好的性能。
本文基于Lucene平臺(tái)實(shí)現(xiàn)了一個(gè)跨語(yǔ)言信息檢索系統(tǒng),通過實(shí)驗(yàn)對(duì)初始查詢、一次查詢擴(kuò)展、二次查詢擴(kuò)展進(jìn)行了比較研究,實(shí)驗(yàn)結(jié)果表明查詢擴(kuò)展技術(shù)可有效提升跨語(yǔ)言信息檢索的查全率。在一個(gè)好的系統(tǒng)中,查準(zhǔn)率往往會(huì)隨著返回文檔數(shù)目的增加而降低[7],怎樣在滿足用戶信息需求的同時(shí)控制查準(zhǔn)率和查全率之間的平衡是今后需要研究的方向。另外,本文對(duì)跨語(yǔ)言信息檢索由中文到英文的翻譯進(jìn)行了研究,中英文雙向互譯也將作為今后進(jìn)一步的研究工作。
圖2 應(yīng)用查詢擴(kuò)展前后系統(tǒng)的查準(zhǔn)率
圖3 應(yīng)用查詢擴(kuò)展前后系統(tǒng)的查全率
參考文獻(xiàn):
[1] 朱培焱,夏棟梁.漢英跨語(yǔ)言信息檢索研究[J].計(jì)算機(jī)與現(xiàn)代化,2011,08:13~16
[2] 張會(huì)平,周寧,陳立孚.跨語(yǔ)言信息檢索可視化研究[J].情報(bào)科學(xué),2007,01:134~138
[3] 任成梅.跨語(yǔ)言信息檢索的發(fā)展與展望[J].圖書館學(xué)研究,2006,04:79~82
[4] 賴茂生,侯艷飛.跨語(yǔ)言檢索技術(shù):策略與方法[J].鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,04:11~14
[5] 王昊.跨語(yǔ)言信息檢索實(shí)現(xiàn)方法與關(guān)鍵技術(shù)探討[J].情報(bào)雜志,2005,07:46~49
[6] 劉偉成,孫吉紅.跨語(yǔ)言信息檢索進(jìn)展研究[J].中國(guó)圖書館學(xué)報(bào),2008,01:88~92
[7] Manning C D,Raghavan P,Schütze H.Introduction to Information Retrieval[M].Beijing:Posts&Telecom Press,2010
[8] 陳燕紅,黃名選.基于Apriori改進(jìn)算法的局部反饋查詢擴(kuò)展[J].現(xiàn)代圖書情報(bào)技術(shù),2007,09:84-87
[9] 黃名選,嚴(yán)小衛(wèi),張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2007,11:1~4+8
[10] 鄭敏.跨語(yǔ)言信息檢索的理論與實(shí)踐[J].情報(bào)理論與實(shí)踐,2003,03:223~225+212
[11] 于雪麗.Lucene中文分詞在科研文檔全文檢索系統(tǒng)的應(yīng)用研究[D].青島大學(xué),2011
[12] 鄭榕增,林世平.基于Lucene的中文倒排索引技術(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,03:80~83
[13] Ricardo Baeza-Yates,Berthier Ribeiro-Neto等.王知津,賈福新,鄭紅軍等譯.現(xiàn)代信息檢索[M].北京:機(jī)械工業(yè)出版社,2005
Applications of Query Expansion in Cross-Language Information Retrieval
YANG Liang
(Department of Library,Guangdong Polytechnic Normal University,Guangzhou 510400)
With the rapid development of the Internet,the network resources have too many forms.Meanwhile,most of them are described in different languages,which has become a mainly obstacle when people get information.People can't get precise results if the information resource uses a language that is unfamiliar to them.Designs and implements a cross-language information retrieval system which uses query translation approach and query expansion technology based on Lucene.The experimental results show that the recall of cross-language information retrieval is improved when query expansion is applied.
Cross-Language Information Retrieval;Query Expansion;Lucene
1007-1423(2015)02-0026-05
10.3969/j.issn.1007-1423.2015.02.007
楊亮(1982-),男,江蘇豐縣人,碩士研究生,館員,研究方向?yàn)樾畔⒐芾?、信息檢索
2014-12-02
2014-12-16
廣東技術(shù)師范學(xué)院2013年校級(jí)科研項(xiàng)目(No.13KJY18)