国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多語主題詞表及其應用研究*

2013-09-29 02:49:56徐紅姣張均勝王惠臨中國科學技術(shù)信息研究所北京100038
數(shù)字圖書館論壇 2013年12期
關(guān)鍵詞:主題詞表標引信息檢索

□ 徐紅姣 張均勝 王惠臨/中國科學技術(shù)信息研究所 北京 100038

多語主題詞表及其應用研究*

□ 徐紅姣 張均勝 王惠臨/中國科學技術(shù)信息研究所 北京 100038

對多語言信息進行語義層面的精確描述,為用戶提供準確的跨語言信息資源,是當前多語言信息服務(wù)中必須面臨和解決的實際問題。多語言主題詞表正是解決這一問題的有效工具資源之一。文章首先介紹了國外三個常用多語言主題詞表,然后對多語言主題詞表在多語言信息自動標引和多語言信息檢索兩個領(lǐng)域中的應用情況進行了分析,說明多語言主題詞表在多語言信息服務(wù)領(lǐng)域的潛在應用價值。

多語言主題詞表,多語言自動標引,多語言信息檢索

1 引言

互聯(lián)網(wǎng)技術(shù)的發(fā)展使得人們能夠擺脫地域限制進行交流,但隨著網(wǎng)絡(luò)上不同語言信息資源的日益增加,人們越來越多地面臨著如何利用多語言信息的問題,迫切需要能夠適用于多語言信息處理的相關(guān)工具、方法和技術(shù)。為用戶提供具有豐富語義信息的多語種信息資源成為當前多語言信息服務(wù)必須解決的實際問題。多語言主題詞表正是解決這一問題的有效資源之一。

本文對國外多語主題詞表及其應用現(xiàn)狀進行了初步的研究,首先介紹了三個常見的多語主題詞表,然后對多語主題詞表在多語言自動標引和跨語言信息檢索兩方面的應用現(xiàn)狀進行了探討,說明多語主題詞表在多語言信息服務(wù)中的應用價值。

2 國外常用多語主題詞表

國外非常重視多語主題詞表的研究與應用,已有大量實用的多語主題詞表,下面我們將簡單介紹三個常見的多語主題詞表。

2.1 EuroVoc

EuroVoc[1],即歐盟主題詞表,是歐洲議會、歐盟委員會和歐盟出版局于1982年開始開發(fā)的多語言、多領(lǐng)域主題詞表,其目標是為信息管理和傳播服務(wù)提供一個一致的標引工具,實現(xiàn)對文檔資源的有效管理,幫助用戶進行基于受控詞的文檔檢索。最新版本的EuroVoc于2012年年底發(fā)布,涉及25個語言版本(包括22個歐盟語種),包含英文敘詞6883個,非敘詞8348個,涵蓋政治、經(jīng)濟、金融、科學、運輸?shù)?1個領(lǐng)域。從2000年底起,普通用戶可以通過EuroVoc的官網(wǎng)來瀏覽和查詢其最新版本,也可以按領(lǐng)域或者字母順序下載PDF版本的EuroVoc,或者下載不同語種的主題詞對應的excel文件。EuroVoc主題詞表在歐洲的應用范圍比較廣,包括EUR-Lex(http://eur-lex.europa.eu/)、EU Bookshop (http://bookshop.europa.eu/)、歐洲議會、歐盟多個組織和機構(gòu)、歐洲多個國家和地區(qū)的議會和政府部門等。

2.2 AGROVOC

2.3 MeSH

MeSH[3](Medical Subject Headings,醫(yī)學主題詞表)是美國國立醫(yī)學圖書館(NLM)編制的、生物醫(yī)學領(lǐng)域廣泛使用的最為權(quán)威的大型綜合性主題詞表,其目前已被翻譯成包括中文在內(nèi)的20多個語種。MeSH于1960年首次出版,此后NLM每周都會進行更新,每年都發(fā)布新版本的MeSH。自2007年起,NLM停止了印刷版MeSH的出版。用戶可以從NLM的網(wǎng)站上下載英文版的MeSH的主題詞、副主題詞、補充概念及樹結(jié)構(gòu)等,下載形式有XML、ASCII、MARC等。

MeSH Browser[4]是網(wǎng)絡(luò)版MeSH檢索系統(tǒng),能夠幫助用戶查找主題詞、副主題詞和補充概念等,查看完整MeSH記錄,顯示概念間的相互關(guān)系。為了方便對MeSH的翻譯,NLM開發(fā)了MeSH翻譯維護系統(tǒng)MTMS,實現(xiàn)對翻譯結(jié)果的持續(xù)更新,同時追蹤MeSH每年的更新,以便及時對其他語種版本的MeSH作出修改[5]。

表1對上文所述的三個多語主題詞表進行了概括。

除了上述列舉的三個主題詞表外,國外還有大量的多語言主題詞表,例如聯(lián)合國教科文組織開發(fā)的英、法、俄、西班牙語UNESCO主題詞表,歐盟教育領(lǐng)域英、法、德語主題詞表EUDISED,歐洲文化遺產(chǎn)網(wǎng)(European Heritage Network)開發(fā)的文化領(lǐng)域多語敘詞表HEREIN,歐洲環(huán)境總署開發(fā)的近13個語種的環(huán)境領(lǐng)域主題詞表GEMET等。美國國會圖書館主題詞表LCSH也被法、德、希臘、匈牙利、波蘭等多個國家以翻譯、與本國現(xiàn)有主題詞表映射等多種方式形成多語主題詞表,應用到不同信息服務(wù)系統(tǒng)中。相比起來,國內(nèi)的多語言主題詞表研究較為滯后,為了能夠更好地利用多語言信息資源,開展對多語言主題詞表的研究是非常必要的。

3 基于多語主題詞表的多語言自動賦詞標引

表1 三個常用的多語主題詞表

多語主題詞表能夠克服語種的限制,將不同語種的文檔納入到統(tǒng)一的知識系統(tǒng),揭示它們的相互關(guān)系,實現(xiàn)多語言文檔集合的有序化。傳統(tǒng)的基于主題詞表的信息資源標引主要是依靠手工進行,費時費力。為了克服人工標引效率偏低且不能滿足一致性要求的缺陷,學者們開始研究自動標引技術(shù)?;诙嗾Z主題詞表的自動賦詞標引方法大致可以分為三類:基于語言分析的方法、基于統(tǒng)計的方法及混合方法。下面將對這三種方法進行介紹。

3.1 基于語言分析的方法

多語言自動賦詞標引的對象是不同語種的自然語言文檔,因此人們便嘗試從語言學的角度進行多語文檔的自動標引。基于語言分析的多語言自動標引方法主要利用詞形還原[6]、復合詞分解[7]、去除停用詞、短語/組塊識別[8]等方法分別對待標引的文檔和主題詞表中的敘詞進行處理,將處理后的文檔中的詞匯和主題詞表中敘詞進行機械匹配,為文檔賦予標引詞。

(3)新規(guī)則成套動作評判要素突出成套總體設(shè)計、舞蹈編排內(nèi)容的創(chuàng)新性、原創(chuàng)性和隊形變化的多樣性和流動性。

主題詞表中的詞匯為受控詞匯,通常會與文檔中的自然語言詞匯有很大的形態(tài)差異,利用各種語言學方法可以很好地彌補兩者間的差異。但是,此方法沒有考慮文檔和主題詞表中敘詞的語義關(guān)聯(lián)性,生成的標引詞通常都在文檔中出現(xiàn)過,僅僅是詞形上同主題詞表中的術(shù)語有所不同。在大多數(shù)研究中,此種方法都作為對文檔的預處理手段,結(jié)合其他統(tǒng)計或機器學習方法來提高自動標引的準確率。

3.2 基于統(tǒng)計的方法

作為信息組織的重要工具,主題詞表廣泛應用于各種文獻資源的標引,積累了大量的人工標引的多語種文獻資源。基于統(tǒng)計的多語自動賦詞標引方法分析現(xiàn)有的已經(jīng)標引好的文檔資源,從中獲取標引模型并將其應用于新的文檔的自動標引。標引模型的獲取可以通過簡單的統(tǒng)計算法。例如,文獻[9]中利用人工標引的文檔,通過log-like計算獲取每個敘詞的相關(guān)詞,然后通過統(tǒng)計TF、DF、文檔的標引詞個數(shù)、敘詞在訓練語料中出現(xiàn)的頻率等參數(shù),計算敘詞和相關(guān)詞的關(guān)聯(lián)度,從而得到標引模型。在標引階段,對于每個待標引文檔,依據(jù)相同的方法獲取候選標引詞及其權(quán)重,然后計算文檔的候選標引詞向量和每個敘詞的相關(guān)詞向量的相似度,相似度較高的敘詞即可作為最終標引結(jié)果。此方法受訓練語料規(guī)模的影響,語料規(guī)模較小時,某些敘詞始終沒有作為標引詞出現(xiàn)在文檔集中,無法獲取其特征向量,從而影響自動標引的結(jié)果。

隨著人工智能技術(shù)的發(fā)展,機器學習算法也越來越多地應用到多語自動標引中,例如文獻[10]和文獻[11]中分別利用貝葉斯網(wǎng)絡(luò)和SVM算法建立自動標引模型,取得了較好的自動標引結(jié)果。機器學習算法的應用,在一定程度上提高了自動標引的準確率,但還是存在著數(shù)據(jù)稀疏和關(guān)鍵詞漏標等問題。總體來說,基于統(tǒng)計的多語自動標引方法不受語種的限制,不必針對不同語種的文檔確定不同標引方法,非常適合多語種文檔的自動賦詞標引。

3.3 混合方法

混合方法也即將語言學知識和統(tǒng)計特征結(jié)合起來進行多語言文檔自動賦詞標引的方法。盡管基于統(tǒng)計的多語自動標引方法能夠不受語種限制,但是正如上文所述,多語主題詞表中的受控詞匯和文檔中的自然語言詞匯存在著很大差異,語言分析是多語言自動標引不可缺少的步驟。Bruno Pouliquen等人的研究結(jié)果證明了對語言分析的重要性:通過使用詞形還原、多詞短語標注和去除停用詞三種方法,英語的自動標引準確率由45.6%上升到50%,西班牙語的準確率則由40.3%上升到了46.2%[9]。因此目前大部分的研究成果都采用先用語言分析方法處理文本獲取候選標引詞,再利用統(tǒng)計模型確定標引詞的多語言自動標引模式。

國外已有很多實用的基于多語主題詞表的多語言自動賦詞標引工具,表2中列舉了三個典型的基于多語主題詞表的多語言自動標引工具并對它們進行了簡單的介紹。

3.4 面臨的問題

盡管多語言自動賦詞標引技術(shù)已經(jīng)有了很大的發(fā)展,但是還存在著很多的問題,主要體現(xiàn)在:

(1)沒有充分利用主題詞表中豐富的語義關(guān)系。相比于普通的詞表,主題詞表的最大特點就是蘊含了大量的概念間的等同、等級和相關(guān)關(guān)系。常見的主題詞表詞間關(guān)系的利用方式是從文檔中選取候選標引詞時將候選標引詞擴展到其所有相關(guān)詞[11,15],文獻[16]中利用貝葉斯網(wǎng)絡(luò)對EuroVoc主題詞表中的概念及概念間關(guān)系進行建模,利用概率推理算法為文檔進行賦詞標引。多語自動標引的目標不僅是要揭示文檔的主題內(nèi)容,更為重要的是確定不同語種間文檔的相互關(guān)系,因此需要充分地利用主題詞表提供的豐富語義關(guān)系來提高自動賦詞標引的準確率。

表2 基于多語主題詞表的多語言自動賦詞標引工具

(2)自動賦詞標引的準確率不高:雖然自動標引技術(shù)多種多樣,但由于技術(shù)的限制,小規(guī)模試驗的效果較好,大規(guī)模應用的標引質(zhì)量還是不高。因此目前自動賦詞標引技術(shù)一般用來輔助進行人工標引,幫助提高人工標引的速度,克服人工標引一致性較差、隨意性較大等缺點。正如Lancaster等人所說,自動標引技術(shù)距離完全實際應用仍有很長的距離,只有機器具有足夠智能,才能完全替代人類完成這一工作[17]。

(3)自動賦詞標引的評價問題:傳統(tǒng)的自動標引評價是對照人工標引結(jié)果判別或者由專家打分,這種方法主觀性大,成本也比較高。人工標引和自動標引的特點不同,自動標引中專注于文檔中的詞匯描述,一般給出的標引詞都比較具體,而人工標引中,考慮到用戶的使用習慣,通常都會使用比較概括的詞作為標引詞[18]。鑒于人工標引與自動標引的不同特點,構(gòu)建一個適用于自動賦詞標引的評價模型是一項很有價值的研究工作。

4 多語主題詞表在多語言信息檢索中的應用

多語言信息檢索是利用一種語言的查詢式檢索多種語言文檔集合的技術(shù),主要需要解決的問題是如何將不同語種的查詢式和文檔進行匹配。多語主題詞表刻畫了不同語言中對應的領(lǐng)域知識,從而更好地解決從源語言到目標語言之間轉(zhuǎn)換過程中出現(xiàn)的語義損失和曲解等問題,有效地理解用戶的查詢意圖,獲得預期的檢索結(jié)果。在早期的多語言信息檢索研究中,基于多語主題詞表的方法占據(jù)了主導地位,而目前大多數(shù)實用的多語言信息檢索系統(tǒng)也都或多或少地應用了多語主題詞表,表3列舉了三個基于多語主題詞表的多語言信息檢索項目。

多語主題詞表在多語信息檢索中應用機制主要有三種:

(1)在查詢翻譯過程中,利用主題詞表概念、概念間關(guān)系等信息進行的語義層面的翻譯,克服由于缺乏語境造成的查詢翻譯不準確問題,實現(xiàn)查詢翻譯消歧;

(2)在查詢式翻譯前或者后,利用多語主題詞表中的上下位、相關(guān)關(guān)系等對用戶提交的查詢式或者查詢式的翻譯結(jié)果進行擴展;

(3)對文檔建立基于概念的索引,通過語義分析得到揭示文本內(nèi)容的標引詞,過濾文本存在的語義歧義,提高檢索的準確率。

第三種應用機制就是利用多語主題詞表對文檔進行標引,上文已有詳細介紹,下面我們將對多語主題詞表在查詢翻譯和查詢擴展中的相關(guān)研究進行介紹。

4.1 多語主題詞表與查詢翻譯

主題詞表在查詢翻譯中的應用有很長的歷史。1970年Salton進行的第一次跨語言信息檢索實驗使用的翻譯資源就是多語言主題詞表[19]。多語主題詞表提供了不同語種的主題詞之間的相互對照關(guān)系,還包含了主題詞結(jié)構(gòu)信息以及與之相關(guān)的概念信息,可以應用于對查詢式進行翻譯和翻譯消歧。

表3 三個基于多語主題詞表的多語信息檢索項目

將多語主題詞表作為查詢翻譯資源使用的過程中需要解決的一個重要的問題就是如何將主題詞表中的受控詞匯和用戶查詢式的自然語言詞匯進行匹配。有些多語主題詞表本身就蘊含了大量的概念和詞匯間的映射關(guān)系,可直接應用到查詢翻譯過程中。例如,UMLS超級敘詞表采用概念-術(shù)語-詞串三級結(jié)構(gòu)模式,將一個概念的不同術(shù)語連同術(shù)語的多個變異詞串有序地組織到一起,David Eichmann等人[20]就利用UMLS的這種結(jié)構(gòu)模式對查詢式進行翻譯。對于沒有提供詞匯和概念間映射關(guān)系的主題詞表,可以采用將查詢式中的詞匯映射到主題詞表的概念的方式進行查詢翻譯。Julio Gonzalo等人[21]采用詞形標注、短語識別、語義距離計算等方法將查詢式映射到EuroWordNet的中間語索引(InterLingual Index)中,實現(xiàn)概念層面的查詢式翻譯。

查詢翻譯過程中面臨的最大問題就是歧義問題。自然語言中一詞多義和一義多詞的現(xiàn)象非常普遍,而用戶查詢式的長度通常都很短,要準確判斷詞的含義就很困難。主題詞表中包含的豐富概念和概念間關(guān)系信息為消除歧義提供了很好的語境信息。Yarowsky[22]提出了一種利用Roget詞表中每個義類中所有詞的上下文信息確定一個多義詞義的方法。用這種方法對英語中l(wèi)2個多義詞進行義項標注,平均準確率達92%。Ahmad M. Hasnah等人[23]利用多語主題詞表中的同義詞和相關(guān)詞,對基于雙語詞典的查詢式的翻譯結(jié)果進行消歧。作為一種重要的語義資源,主題詞表在詞義消歧方面有著很重要的作用。

多語主題詞表應用到查詢翻譯中,最主要的問題就是其覆蓋度問題。主題詞表一般都是面向某個特殊的領(lǐng)域,提供的翻譯信息也僅限于此領(lǐng)域。但是用戶輸入的查詢式中的詞匯不可能全部都是該領(lǐng)域中的詞,僅僅利用領(lǐng)域主題詞表無法取得很好的翻譯??梢圆捎脤⑻囟I(lǐng)域主題詞表和通用領(lǐng)域的主題詞表相結(jié)合的方法[24],或利用其他領(lǐng)域平行或可比語料庫彌補現(xiàn)有主題詞表覆蓋度不夠全面的問題[21,25]。

4.2 多語主題詞表與跨語言查詢擴展

跨語言查詢擴展按照查詢擴展發(fā)生在跨語言信息檢索過程中的先后順序不同可以分為翻譯前查詢擴展、翻譯后查詢擴展以及兩者的結(jié)合??缯Z言查詢擴展和單語言查詢擴展在本質(zhì)上沒有區(qū)別,只是將單語言查詢擴展的方法運用到跨語言信息檢索過程的不同步驟,本質(zhì)還是單語言查詢擴展原理。單語言查詢擴展方法分為兩種:基于全局分析和基于局部分析方法,其中基于全局分析的方法通常就利用主題詞表、同義詞詞典等工具進行查詢擴展,因此多語主題詞表也經(jīng)常用于跨語言查詢擴展中。

利用多語主題詞表進行跨語言查詢擴展,最簡單的方式是利用主題詞表的層次結(jié)構(gòu),直接將主題詞表中與查詢式相關(guān)的主題詞的同義詞、上位詞、下位詞或相關(guān)詞信息自動添加到原始查詢式或者翻譯結(jié)果中[26],也可通過查詢詞建議的形式由用戶選擇相關(guān)詞進行更為精確的查詢擴展。在向查詢式或者翻譯結(jié)果中添加擴展詞匯時,可以通過各種統(tǒng)計方法計算添加的詞匯與查詢式或者翻譯結(jié)果的關(guān)聯(lián)度,通過為不同擴展詞設(shè)定不同權(quán)重的方式來減少某些弱相關(guān)詞匯對檢索結(jié)果的影響[27]。

跨語言查詢擴展受到諸如翻譯資源類型、翻譯資源質(zhì)量、語種等諸多因素的影響,在不同的實驗中,查詢擴展對最終檢索結(jié)果的提高的效果不一致[28],因此在查詢擴展中需要慎重添加擴展詞。作為一個輔助工具資源主題詞表可以用來對傳統(tǒng)方法獲取的查詢擴展詞進行過濾。文獻[29]利用目標語語料庫進行翻譯后的查詢擴展時,利用雙語詞典將得到的用于查詢擴展的目標語詞匯轉(zhuǎn)換為源語言,然后將其與源語言查詢式在WordNet中的定義進行比較,從而剔除不相關(guān)的擴展詞。Fredric C. Gey[26]等人基于傳統(tǒng)的偽相關(guān)反饋策略,利用英語查詢式搜索英文文檔集合并從中提取前30篇相關(guān)文檔的標引詞,按標引詞出現(xiàn)的文檔數(shù)選取并添加到翻譯后的查詢式中。

上文介紹了多語主題詞表在自動查詢翻譯和跨語言查詢擴展中的應用情況,但是,總體來說,多語主題詞表主要用于交互式的跨語言信息檢索中,輔助用戶進行查詢式的構(gòu)建和翻譯、主題詞表的瀏覽、查詢擴展等,并出現(xiàn)了很多可嵌入到現(xiàn)有信息檢索系統(tǒng)的交互界面[30,31]?;诙嗾Z主題詞表的信息檢索效率高,但是由于主題詞表不能及時反映新事物的發(fā)展,概念數(shù)量有限、結(jié)構(gòu)復雜,不易為非專業(yè)人員掌握,所以在實際的檢索系統(tǒng)中很少為普通的用戶所使用,消耗大量的人力物力對信息進行的標引和組織的結(jié)果在檢索過程中的價值沒有得到體現(xiàn),這是一種巨大的浪費。未來研究人員應該更多考慮如何輔助普通用戶更好利用多語主題詞表,更好地滿足多語言信息需求。

5 結(jié)語

隨著不同語種網(wǎng)絡(luò)信息的迅速增加,將數(shù)量龐大的資源關(guān)聯(lián)起來并為用戶提供服務(wù)成為多語言信息服務(wù)亟待解決的問題。多語主題詞表以詞匯規(guī)范控制為基礎(chǔ),采用概念和概念關(guān)系表示多語言知識的內(nèi)在關(guān)聯(lián),語義顆粒度精細、規(guī)范,提供語義擴展機制,便于對資源進行語義層面的精細化描述和精確檢索。國外關(guān)于多語主題詞表的構(gòu)建和應用等方面的研究比較重視,在理論和實踐層面均有很好的成果,相比起來,國內(nèi)對多語主題詞表的研究重視程度不夠。加強多語主題詞表的相關(guān)技術(shù)研究,實現(xiàn)信息資源的語義化和多語言化標注,為用戶提供具有豐富語義的、準確的跨語言信息資源,才能真正達到多語言信息服務(wù)的目標。

[1]EuroVoc [EB/OL]. [2013-04-30]. http://eurovoc.europa.eu/drupal/.

[2]AgroVoc [EB/OL]. [2013-04-30]. http://aims.fao.org/standards/agrovoc/about.

[3]MeSH [EB/OL]. [2013-05-07]. http://www.nlm.nih.gov/mesh/.

[4]MeSH Browser [EB/OL]. [2013-05-07]. http://www.nlm.nih.gov/mesh/MBrowser.html.

[5]NELSON S J, SCHOPEN M, SAVAGE A G, et al. The MeSH Translation Maintenance System: structure, interface design, and implementation [C/OL]// Medinfo, San Francisco, America, September 7-11, 2004 [2013-03-05]. http://www.researchgate.net/publication/ 8353100_The_MeSH_translation_maintenance_system_structure_interface_design_and_implementation.

[6]?ARI F, ?NAJDER J, BA?I B D, et al. Enhanced Thesaurus Terms Extraction for Document Indexing [C]// Proceedings of the 27th International Conference on Information Technology Interfaces, Cavtat, Hrvatska, July 20-23, 2005: 227-232.

[7]MARKó K, HAHN U, SCHULZ S, et al. Interlingual Indexing across Different Languages [C/OL]// RIAO 2004 - Conference Proceedings: Coupling Approaches, Coupling Media and Coupling Languages for Information Retrieval, Avignon, France, April 26-28, 2004 [2013-04-06]. http://pdf.aminer.org/000/734/329/interlingual_ind exing_across_different_languages.pdf.

[8]DAUDARAVICIUS V. The Influence of Collocation Segmentation and Top 10 Items to Keyword Assignment Performance [C// 11th International Conference, CICLing 2010, Iasi, Romania, March 21-27, 2010: 648-660.

[9]POULIQUEN B, STEINBERGER R, IGNAT C. Automatic Annotation of Multilingual Text Collections with a Conceptual Thesaurus [C]// Ontologies and Information Extraction. Workshop at EUROLAN’2003: The Semantic Web and Language Technology - Its Potential and Practicalities. Bucharest, Romania, July 28 -August 8, 2003: 9-19.

[10]MEDELYAN O, WITTEN I H. Domain-independent automatic keyphrase indexing with small training sets [J/OL]. Journal of the American Society for Information Science and Technology, 2008, 59(1): 1026-1040 [2013-03-05]. http://onlinelibrary.wiley.com/doi/10.1002/asi.20790/full.

[11]LAUSER B, HOTHO A. Automatic multi-label subject indexing in a multilingual environment [C/OL]// ECDL 2003, Trondheim, Norway, August 17-22, 2003:140-151 [2012-03-06]. http://www.kde.cs.uni-kassel.de/benz/hotho/pub/lauserhothoecdl03.pdf.

[12]JEX [EB/OL]. [2013-02-16]. http://ipsc.jrc.ec.europa.eu/index.php/Traineeships/60/0/.

[13]Agrotagger [EB/OL]. [2013-02-16]. http://aims.fao.org/agrotagger/.

[14]KEA [EB/OL]. [2013-02-16]. http://www.nzdl.org/Kea/.

[15]MEDELYAN O. Automatic Keyphrase Indexing with a Domain-Specific Thesaurus [D]. Breisgau, Germany: University of Freiburg, 2005.

[16]DE CAMPOS L M, FERNáNDEZ-LUNA J M, HUETE J F, et al. Automatic Indexing from a Thesaurus Using Bayesian Networks: Application to the Classification of Parliamentary Initiatives [C/OL]// ECSQARU 2007, Hammamet, Tunisia, October 31 - November 2, 2007:865-877 [2013-04-10]. http://www.cs.rhul.ac.uk/home/ aeromero/pdf/lncs07-ecsqaru-thesaurus.pdf.

[17]LANCASTER F W, WARNER A J. Intelligent Technologies in Library and Information Service Applications [M]. Medford, NJ, Information Today, 2001.

[18]CLEMENTS J. An Evaluation of Automatically Assigned Subject Metadata using Agrotagger and HIVE [R/OL]. [2013-04-10]. http://aims.fao.org/sites/default/files/ files/Clements_FAO_Metadata_Assignment.pdf.

[19]SALTON G. Automatic Processing of Foreign Language Documents [J]. Journal of the American Society for Information Science, 1970, 21(3): 187-194.

[20]Eichmann D, RUIZ M E. Cross-Language Information Retrieval with the UMLS Metathesaurus [C]// Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, Melbourne, Australia, August 24-28, 1998: 72-80.

[21]GONZALO J, VERDEJO F, PETERS C, et al. Applying EuroWordNet to cross-language text retrieval [J]. Computers and the Humanities, 1998, 32(2/3): 185-207.

[22]YAROWSKY D. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora [C]// Proceedings of the 14th conference on Computational linguistics-Volume 2. Association for Computational Linguistics, Nantes, France, August 23-28, 1992: 454-460.

[23]HASNAH A M, JAAM J M. Thesaurus-based query disambiguation method for cross-language information retrieval [J]. International Journal of Intelligent and Cooperative Information Systems, 2002, 2(2):58-68.

[24]VOLK M, RIPPLINGER B, VINTAR S, et al. Semantic annotation for concept-based cross-language medical information retrieval [J]. International Journal of Medical Informatics, 2002, 67(1): 97-112.

[25]DéJEAN H, GAUSSIER E, RENDERS J-M, et al. Automatic Processing of Multilingual Medical Terminology: Applications to Thesaurus Enrichment and Cross-Language Information Retrieval [J]. Artificial Intelligence in Medicine, 2005, 33(2): 111-124.

[26]GEY F C, JIANG H. English-german cross-language retrieval for the girt collection-exploiting a multilingual thesaurus [R]. CALIFORNIA UNIV BERKELEY DATA ARCHIVE AND TECHNICAL ASSISTANCE, 2006.

[27]SADAT F, YOSHIKAWA M, UEMURA S. Exploiting Thesauri and Hierarchical Categories in Cross-Language Information Retrieval [C/OL]// 5th International Conference, TSD 2002, Brno, Czech Republic, September 9-12, 2002:139-146 [2013-04-10]. http://www.fi.muni.cz/ tsd2002/papers/94_Fatiha_SADAT.pdf.

[28]GEY F, CHEN A. TREC-9 Cross-Language Information Retrieval (English - Chinese) Overview [C/OL]// Proceedings of the Ninth Text Retrieval Conference (TREC-9), 2001:15-23 [2013-04-10]. http://trec.nist.gov/pubs/trec9/papers/trec9-clir-overview.pdf.

[29]BELLAACHIA A, AMOR-TIJANI G. Enhanced Query Expansion in English-Arabic CLIR [C]// DEXA '08, Turin, Italy, September 1-5, 2008: 61-66.

[30]STAFFORD A, SHIRI A, RUECKER S, et al. Searchling: User-Centered Evaluation of a Visual Thesaurus-Enhanced Interface for Bilingual Digital Libraries [C]// Proceedings of the 12th European conference on Research and Advanced Technology for Digital Libraries. Aarhus, Denmark, September 14-19, 2008: 117-121.

[31]SHIRI A, RUECKER S, ANVIK K. Thesaurus-enhanced visual interfaces for multilingual information retrieval [J]. Proceedings of the American Society for Information Science and Technology, 2006, 43(1): 1-7.

Research on Multilingual Thesaurus and Its Application

Xu Hongjiao, Zhang Junsheng, Wang Huilin/Institute of Scientific and Technical Information of China, Beijing, 100038

It's an important problem for multilingual information service to describe multilingual information precisely on semantic level and to provide accurate multilingual information resources. Multilingual thesaurus is one of the most effective tools to solve this problem. In this paper, three common used multilingual thesauruses are introduced firstly and then the problem about how multilingual thesaurus can be used in multilingual automatic indexing and multilingual information retrieval is analyzed. All of these show that multilingual thesaurus is a valuable tool in the area of multilingual information service.

Multilingual thesaurus, Multilingual automatic indexing, Multilingual information retrieval

2013-06-25)

10.3772/j.issn.1673—2286.2013.12.007

*本文系中國科學技術(shù)信息研究所2012年預研項目“基于主題詞表的多語言科技信息組織與檢索方法研究”(編號:YY201223)及重點工作項目“多語言科技信息語義關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建及其應用”(編號:ZD2012-3-3)的研究成果之一。

表由詞及詞間相互關(guān)系組成,能反映各學科領(lǐng)域主題詞間的語義關(guān)系,是結(jié)構(gòu)化的概念集合,在信息資源的描述、組織和檢索中發(fā)揮重要的作用。多語言主題詞表在普通主題詞表的術(shù)語及關(guān)系中,加入了不同語種的映射。這使得它成為多語言信息組織和檢索的重要工具,而且作為多語種的語義詞典,其在語義網(wǎng)、跨語言知識組織與管理等方面均有廣闊的應用前景。

徐紅姣,碩士,信息管理專業(yè),研究方向:跨語言信息檢索。E-mail: xuhj@istic.ac.cn

張均勝,博士,計算機軟件與理論專業(yè),研究方向:多語言信息服務(wù)、語義計算。E-mail: zhangjs@istic.ac.cn

王惠臨,研究員,博士生導師,研究方向:多語言信息服務(wù)、機器翻譯、自然語言處理。E-mail: wanghl@istic.ac.cn

猜你喜歡
主題詞表標引信息檢索
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
檔案主題標引與分類標引的比較分析
本刊對來稿中關(guān)鍵詞標引的要求
醫(yī)學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
本刊對來稿中關(guān)鍵詞標引的要求
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
教學型大學《信息檢索》公選課的設(shè)計與實施
河南科技(2014年11期)2014-02-27 14:10:19
土默特右旗| 秀山| 琼海市| 星座| 邛崃市| 浏阳市| 阜城县| 怀来县| 莒南县| 阿勒泰市| 闽清县| 中江县| 苗栗县| 鄂托克前旗| 龙门县| 昌江| 凤山市| 夏河县| 固安县| 新余市| 扎兰屯市| 东海县| 中超| 成都市| 嘉善县| 特克斯县| 白玉县| 安远县| 蒙自县| 启东市| 顺平县| 凭祥市| 泰宁县| 那曲县| 顺义区| 龙岩市| 昭通市| 尼勒克县| 延川县| 玉田县| 昌平区|