司莉 賈歡
摘 要 論文探討了跨語(yǔ)言信息檢索中語(yǔ)義關(guān)聯(lián)的5種方法技術(shù),包括同義及近義關(guān)系推薦、概念中間語(yǔ)言、非翻譯方法、術(shù)語(yǔ)抽取技術(shù)、多語(yǔ)本體,并探究各種方法技術(shù)的適用性。以上方法技術(shù)通過(guò)實(shí)現(xiàn)查詢?cè)~與檢索文檔在概念層次上的匹配,實(shí)現(xiàn)跨語(yǔ)言信息檢索中的語(yǔ)義關(guān)聯(lián),為后期跨語(yǔ)言信息檢索系統(tǒng)構(gòu)建中的語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)提供借鑒。
關(guān)鍵詞 跨語(yǔ)言信息檢索 語(yǔ)義關(guān)聯(lián) 本體 主題圖
分類號(hào) G254.90
DOI 10.16810/j.cnki.1672-514X.2016.06.010
Abstract This paper discusses 5 kinds of methods and techniques about cross-language information retrieval, including synonymous relationship recommendation, concept of intermediate language, untranslated method, term extraction technology, and multilingual ontology. Their applicabilities are also explored. These methods and techniques can implement semantic relevance in cross-language information retrieval by matching queries and retrieve documents on the conceptual level, so as to provide reference for semantic association implementation in cross language information retrieval system.
Keywords Cross-language information retrieval. Semantic association. Ontology. Topic maps.
0 引言
語(yǔ)義關(guān)聯(lián)是語(yǔ)義數(shù)據(jù)模型中實(shí)體之間二維關(guān)系的知識(shí)表示形式,即實(shí)體之間的復(fù)雜關(guān)系[1]。互聯(lián)網(wǎng)用戶與信息資源的多語(yǔ)言化、互聯(lián)網(wǎng)信息資源的語(yǔ)義化是目前互聯(lián)網(wǎng)發(fā)展的明顯趨勢(shì)[2]。用戶使用母語(yǔ)或熟悉的語(yǔ)言檢索出不同語(yǔ)種相關(guān)信息的跨語(yǔ)言信息檢索應(yīng)運(yùn)而生。在語(yǔ)義關(guān)聯(lián)方面,傳統(tǒng)的信息檢索多使用查詢?cè)~與文檔相匹配方法檢索用戶所需結(jié)果,因用戶使用查詢?cè)~相對(duì)自由,以及語(yǔ)言中存在一詞多義、一義多詞等現(xiàn)象,使得此種字符級(jí)匹配的檢索方法容易漏檢或檢出冗余信息。“世界科學(xué)跨語(yǔ)言檢索平臺(tái)WorldWideScience”[3]雖能夠?qū)崿F(xiàn)多語(yǔ)言信息檢索功能,但其仍是通過(guò)檢索式與文獻(xiàn)之間的關(guān)鍵詞匹配完成檢索,語(yǔ)義關(guān)聯(lián)體現(xiàn)仍不充分。通過(guò)語(yǔ)義關(guān)聯(lián)便于系統(tǒng)理解用戶的檢索用途,有助于用戶快速定位并利用相關(guān)知識(shí),提高信息的檢索效率。本文主要從方法和技術(shù)角度出發(fā),探討跨語(yǔ)言信息檢索中的語(yǔ)義關(guān)聯(lián)的實(shí)現(xiàn)。
1 跨語(yǔ)言信息檢索中的語(yǔ)義關(guān)聯(lián)方法及技術(shù)
當(dāng)前,實(shí)現(xiàn)跨語(yǔ)言信息檢索中語(yǔ)義關(guān)聯(lián)的方法和技術(shù)主要有同義及近義關(guān)系推薦、概念中間語(yǔ)言、非翻譯方法、術(shù)語(yǔ)抽取技術(shù)、多語(yǔ)本體。
1.1 同義及近義關(guān)系推薦
同義及近義關(guān)系推薦方法能幫助用戶擴(kuò)展與提問(wèn)式有語(yǔ)義關(guān)系的同義詞及近義詞,提高查全率。如在跨語(yǔ)言信息檢索中常用的語(yǔ)言轉(zhuǎn)換策略——提問(wèn)式檢索中,先將源語(yǔ)言的提問(wèn)式翻譯為目標(biāo)語(yǔ)言,再在目標(biāo)語(yǔ)言文檔中進(jìn)行檢索,返回給用戶的檢索結(jié)果是目標(biāo)語(yǔ)言。在提問(wèn)式檢索中,用戶輸入的檢索詞較短,可能會(huì)遺漏相同意義或相近意義的關(guān)鍵詞,導(dǎo)致查全率不高。系統(tǒng)后臺(tái)可將多語(yǔ)種的同義詞或近義詞關(guān)聯(lián)起來(lái),如以英漢對(duì)齊詞典為知識(shí)庫(kù)、以等值翻譯詞對(duì)為知識(shí)表示形式,對(duì)中文術(shù)語(yǔ)和英文翻譯進(jìn)行雙向推導(dǎo)(利用多部英漢翻譯詞典,首先選擇中文術(shù)語(yǔ)C作為入口詞,推導(dǎo)出C的英語(yǔ)翻譯為E,再將E翻譯成中文C1,完成第一次同義推導(dǎo);之后將C1翻譯成英文E1,再將E1翻譯為中文C2,完成第二次推導(dǎo)),統(tǒng)計(jì)中文詞的出現(xiàn)頻率,對(duì)C2的權(quán)值進(jìn)行統(tǒng)計(jì),計(jì)算出C1的權(quán)值,按權(quán)值的高低排序,推算出C的同義詞C1[4],再將同義詞翻譯為目標(biāo)語(yǔ)言進(jìn)行查詢,具體步驟如圖1所示。
1.2 概念中間語(yǔ)言
概念中間語(yǔ)言有助于不同語(yǔ)種之間的映射,從而實(shí)現(xiàn)不同語(yǔ)種詞匯之間的語(yǔ)義關(guān)聯(lián)。其主要用于不能直接進(jìn)行翻譯的語(yǔ)種。一般選擇應(yīng)用廣泛的英語(yǔ)作為概念中間語(yǔ)言。概念中間語(yǔ)言能確保各種語(yǔ)言的文獻(xiàn)和提問(wèn)式在概念層次進(jìn)行匹配[5]。在此,以Cindor為例說(shuō)明使用概念中間語(yǔ)言實(shí)現(xiàn)跨語(yǔ)言概念匹配的過(guò)程。Cindor系統(tǒng)支持英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、意大利語(yǔ)、日語(yǔ)6種語(yǔ)言。將每個(gè)概念用一個(gè)同義詞群synset來(lái)表示,將其他語(yǔ)言的詞匯鏈接到表示他們所表達(dá)的概念對(duì)應(yīng)的synset編號(hào)上,方便概念之間的匹配,如若法語(yǔ)為母語(yǔ),選擇法語(yǔ)檢索詞“F”,系統(tǒng)將“F”與中間語(yǔ)言英語(yǔ)進(jìn)行匹配,找到對(duì)應(yīng)的英文詞匯“E”,“E”的編號(hào)為“N”,之后可以檢索出編號(hào)為“N”的其他語(yǔ)種詞匯,再在各個(gè)目標(biāo)文檔中進(jìn)行檢索,返回相關(guān)信息,完成跨語(yǔ)言信息檢索[6]。如圖2所示。
1.3 非翻譯方法
非翻譯方法是指不對(duì)查詢語(yǔ)言或目標(biāo)語(yǔ)言進(jìn)行翻譯就能實(shí)現(xiàn)跨語(yǔ)言信息檢索?;谄钚《死碚摰闹虚g語(yǔ)義的跨語(yǔ)言信息檢索方法就是一種非翻譯方法[7]。其不對(duì)查詢或者目標(biāo)文獻(xiàn)進(jìn)行翻譯,而是通過(guò)建立兩種語(yǔ)言的平行語(yǔ)料庫(kù),將兩種語(yǔ)言都投影到一個(gè)更小的語(yǔ)義空間,并建立好對(duì)應(yīng)的中間語(yǔ)義對(duì),實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián),此種方法避免了對(duì)查詢語(yǔ)言或目標(biāo)語(yǔ)言進(jìn)行翻譯過(guò)程中導(dǎo)致的語(yǔ)義偏離。針對(duì)兩種以上的語(yǔ)言,亦可通過(guò)這種方法實(shí)現(xiàn)多語(yǔ)言之間的跨語(yǔ)言信息檢索,如構(gòu)建中法跨語(yǔ)言信息檢索模型,其實(shí)現(xiàn)過(guò)程是在中英平行語(yǔ)料庫(kù)和蒙特利爾大學(xué)提供的英法平行語(yǔ)料庫(kù)基礎(chǔ)上,先對(duì)雙語(yǔ)語(yǔ)料庫(kù)的文檔進(jìn)行分析建模,建立了中英、英法跨語(yǔ)言信息檢索模型,并利用英語(yǔ)作為過(guò)渡語(yǔ)言,實(shí)現(xiàn)了中法跨語(yǔ)言信息檢索模型的構(gòu)建[8]。
1.4 術(shù)語(yǔ)抽取技術(shù)
多語(yǔ)術(shù)語(yǔ)抽取可實(shí)現(xiàn)不同語(yǔ)種概念之間的匹配,實(shí)現(xiàn)跨語(yǔ)言信息檢索中的語(yǔ)義關(guān)聯(lián)。目前,可通過(guò)構(gòu)建語(yǔ)料庫(kù)實(shí)現(xiàn)雙語(yǔ)術(shù)語(yǔ)抽取。語(yǔ)料庫(kù)是指由大量經(jīng)過(guò)整理的文本形成的具有既定格式與標(biāo)記的文本集[7]?;谡Z(yǔ)料庫(kù)的方法主要為基于平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)兩種方法[2]。第一種,利用平行語(yǔ)料庫(kù)進(jìn)行雙語(yǔ)核心術(shù)語(yǔ)抽取。將專業(yè)領(lǐng)域文檔的關(guān)鍵詞作為候選核心術(shù)語(yǔ),利用中文和英文的專業(yè)領(lǐng)域分類語(yǔ)料,通過(guò)關(guān)鍵詞抽取、術(shù)語(yǔ)度計(jì)算等關(guān)鍵技術(shù),分別進(jìn)行中文和英文的核心術(shù)語(yǔ)的識(shí)別;接著,以中英文專業(yè)領(lǐng)域平行語(yǔ)料為基礎(chǔ),利用雙語(yǔ)對(duì)齊技術(shù),自動(dòng)生成中英文對(duì)照的雙語(yǔ)核心術(shù)語(yǔ)列表,實(shí)現(xiàn)中英雙語(yǔ)核心術(shù)語(yǔ)對(duì)的抽取[9]。第二種,利用可比語(yǔ)料庫(kù)抽取中英雙語(yǔ)術(shù)語(yǔ)對(duì),在給定的主題領(lǐng)域下,選取中英文專業(yè)語(yǔ)料,從中分別獲取中英文關(guān)鍵詞,根據(jù)詞語(yǔ)共現(xiàn)統(tǒng)計(jì)獲取該主題領(lǐng)域的其他相關(guān)關(guān)鍵詞;以這些關(guān)鍵詞作為查詢?nèi)肟冢ㄟ^(guò)學(xué)術(shù)搜索引擎從網(wǎng)絡(luò)獲取候選可比語(yǔ)料;對(duì)可比語(yǔ)料進(jìn)行定量評(píng)估,以剔除不符合要求的語(yǔ)料,最終得到特定主題領(lǐng)域的可比語(yǔ)料庫(kù),實(shí)現(xiàn)中英雙語(yǔ)術(shù)語(yǔ)對(duì)的抽取[10]。
1.5 多語(yǔ)本體
本體能夠很好地描述概念的內(nèi)涵及概念間關(guān)系,具有良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持。多語(yǔ)本體是本體在不同語(yǔ)種中的具體表現(xiàn)形式,利用多語(yǔ)本體構(gòu)建領(lǐng)域知識(shí),能減少不同語(yǔ)言轉(zhuǎn)換過(guò)程中的語(yǔ)義損失和曲解[11]。在多語(yǔ)本體庫(kù)構(gòu)建中,引入了同義詞規(guī)范,使各語(yǔ)種的概念之間能夠相互對(duì)照[12]。多語(yǔ)本體將源語(yǔ)言與目標(biāo)語(yǔ)言的對(duì)應(yīng)實(shí)例統(tǒng)一在本體概念下,當(dāng)用戶用源語(yǔ)言輸入一個(gè)查詢式,系統(tǒng)在源語(yǔ)言本體庫(kù)中找到其對(duì)應(yīng)的概念,然后映射到目標(biāo)語(yǔ)言本體庫(kù),找出對(duì)應(yīng)的實(shí)例反饋給用戶。在此過(guò)程中,對(duì)查詢表達(dá)和檢索對(duì)象進(jìn)行語(yǔ)義標(biāo)注是利用多語(yǔ)本體實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)的重要環(huán)節(jié)[6]。以下是使用查詢表達(dá)和檢索對(duì)象進(jìn)行語(yǔ)義標(biāo)注的過(guò)程。(1)在查詢表達(dá)的語(yǔ)義標(biāo)注中,采用遍歷的方法,將查詢用詞與源語(yǔ)言本體庫(kù)中對(duì)應(yīng)的本體術(shù)語(yǔ)以及相關(guān)的概念術(shù)語(yǔ)建立映射,再通過(guò)源語(yǔ)言本體庫(kù)與目標(biāo)語(yǔ)言本體庫(kù)已建立的概念映射關(guān)系,最終將查詢用詞轉(zhuǎn)換為目標(biāo)語(yǔ)言概念術(shù)語(yǔ)。(2)在檢索對(duì)象的語(yǔ)義標(biāo)注中,從目標(biāo)文檔中抽取特征詞匯,根據(jù)詞匯的統(tǒng)計(jì)詞頻或者文檔創(chuàng)建者賦予的標(biāo)志,為每個(gè)特征詞賦權(quán)值,以表示它們?cè)跈z索中的重要程度。通過(guò)本體庫(kù)的查詢,查看本體中的每個(gè)術(shù)語(yǔ)的每一種語(yǔ)義,看其是否存在于已抽取出的特征詞匯中,從而把文檔(帶有權(quán)值信息)作為該領(lǐng)域本體的一個(gè)實(shí)例與領(lǐng)域本體關(guān)聯(lián)起來(lái)。
此外,主題圖屬于一種簡(jiǎn)單的本體,在揭示語(yǔ)詞概念之間的語(yǔ)義關(guān)系和多語(yǔ)言支持方面具有優(yōu)越性[13]。它是一種用于描述信息資源知識(shí)結(jié)構(gòu)的元數(shù)據(jù)格式,可以定位某一知識(shí)概念所在的資源位置,也可以表示知識(shí)概念間的相互聯(lián)系。主題圖克服了簡(jiǎn)單字符級(jí)匹配的缺陷,能夠?qū)崿F(xiàn)語(yǔ)義檢索。主要由主題、資源實(shí)體及關(guān)聯(lián)性三部分組成[14]。夏立新和王忠義提出基于主題圖的跨語(yǔ)言檢索模型[13],其實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)的過(guò)程為:先通過(guò)分別提取中文信息資源和英文信息資源中的元數(shù)據(jù),在主題圖模板和規(guī)則文檔的支持下生成中文主題圖和英文主題圖,將中文主題圖翻譯為漢英雙語(yǔ)主題圖,將漢英雙語(yǔ)主題圖與中文主題圖合并,對(duì)合并后的主題圖中未經(jīng)翻譯的漢語(yǔ)主題進(jìn)行翻譯,最終生成綜合的漢英雙語(yǔ)主題圖,實(shí)現(xiàn)使用中文或英文任一語(yǔ)種的提問(wèn)式檢索,均可獲得兩種語(yǔ)言的相關(guān)信息。
2 語(yǔ)義關(guān)聯(lián)方法技術(shù)的適用性
筆者對(duì)實(shí)現(xiàn)跨語(yǔ)言信息檢索中語(yǔ)義關(guān)聯(lián)的5種方法和技術(shù)的適用性進(jìn)行了分析,如表1所示。
在跨語(yǔ)言信息檢索語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)的過(guò)程中,以上方法和技術(shù)并非完全獨(dú)立,可互相結(jié)合或與其他技術(shù)結(jié)合使用。如可考慮將概念中間語(yǔ)言與本體技術(shù)、非翻譯方法與平行語(yǔ)料庫(kù)、術(shù)語(yǔ)抽取技術(shù)與詞共現(xiàn)技術(shù)相結(jié)合實(shí)現(xiàn)跨語(yǔ)言信息檢索中的語(yǔ)義關(guān)聯(lián)。(1)將概念中間語(yǔ)言與本體技術(shù)相結(jié)合。基于本體的跨語(yǔ)言信息檢索的關(guān)鍵技術(shù)是多語(yǔ)本體庫(kù)的相互映射,映射的關(guān)鍵在于利用中間語(yǔ)言來(lái)規(guī)范多語(yǔ)本體庫(kù)中的概念,使源語(yǔ)言與目標(biāo)語(yǔ)言內(nèi)涵表達(dá)一致,并根據(jù)含義建立多語(yǔ)映射。如Cindor系統(tǒng)采用中間語(yǔ)言翻譯技術(shù)來(lái)實(shí)現(xiàn)跨語(yǔ)言檢索,以多語(yǔ)本體作為其跨語(yǔ)言轉(zhuǎn)化的核心機(jī)制[5]。(2)非翻譯方法與平行語(yǔ)料庫(kù)相結(jié)合?;谄钚《死碚摰闹虚g語(yǔ)義的跨語(yǔ)言信息檢索屬于非翻譯方法,其是通過(guò)建立好的中英文平行語(yǔ)料庫(kù),將兩種語(yǔ)言都投影到一個(gè)更小的語(yǔ)義空間中,并建立好對(duì)應(yīng)的中間語(yǔ)義對(duì)。利用對(duì)應(yīng)的中間語(yǔ)義對(duì),在這個(gè)中間語(yǔ)義空間中計(jì)算查詢和文檔直接的相似度,實(shí)現(xiàn)CLIR。(3)術(shù)語(yǔ)抽取技術(shù)與詞共現(xiàn)技術(shù)相結(jié)合。在使用可比語(yǔ)料庫(kù)進(jìn)行雙語(yǔ)術(shù)語(yǔ)對(duì)抽取時(shí),需要使用到詞語(yǔ)共現(xiàn)技術(shù),用于獲取領(lǐng)域內(nèi)相關(guān)的關(guān)鍵詞。
3 結(jié)語(yǔ)
本文探討了跨語(yǔ)言信息檢索中語(yǔ)義關(guān)聯(lián)的方法和技術(shù),以及這些方法技術(shù)的適用性。主要包括如下5種方法技術(shù):同義及近義關(guān)系推薦、概念中間語(yǔ)言、非翻譯方法、術(shù)語(yǔ)抽取技術(shù)、多語(yǔ)本體。同義及近義關(guān)系推薦方法能幫助用戶擴(kuò)展與提問(wèn)式有語(yǔ)義關(guān)系的同義詞及近義詞;概念中間語(yǔ)言通過(guò)選擇英語(yǔ)作為中間語(yǔ)言完成不同語(yǔ)種之間的映射,實(shí)現(xiàn)不同語(yǔ)種詞匯之間的語(yǔ)義關(guān)聯(lián);非翻譯方法(指基于偏最小二乘理論的中間語(yǔ)義的跨語(yǔ)言信息檢索方法)通過(guò)建立各語(yǔ)言的平行語(yǔ)料庫(kù),將各語(yǔ)言都投影到一個(gè)更小的語(yǔ)義空間,并建立好對(duì)應(yīng)的中間語(yǔ)義對(duì),實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián);多語(yǔ)術(shù)語(yǔ)抽取通過(guò)平行語(yǔ)料庫(kù)與可比語(yǔ)料庫(kù)抽取不同語(yǔ)種的核心術(shù)語(yǔ)對(duì);多語(yǔ)本體將源語(yǔ)言查詢?cè)~映射到源語(yǔ)言本體中,再通過(guò)源語(yǔ)言本體與目標(biāo)語(yǔ)言本體的映射關(guān)系,查找出與查詢?cè)~對(duì)應(yīng)的目標(biāo)語(yǔ)言概念。以上方法技術(shù)不局限于傳統(tǒng)檢索中字符級(jí)的匹配,而是提升到概念匹配的層次,將這些方法技術(shù)應(yīng)用到跨語(yǔ)言信息檢索系統(tǒng)中,能更好地實(shí)現(xiàn)跨語(yǔ)言信息檢索中的語(yǔ)義關(guān)聯(lián)。
參考文獻(xiàn):
[ 1 ] 鄭清照.基于Linked Open Data的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)及其應(yīng)用[D].杭州:浙江大學(xué),2010.
[ 2 ] 章成志,王惠臨.面向數(shù)字圖書館應(yīng)用的多語(yǔ)言領(lǐng)域本體學(xué)習(xí)研究[J].圖書情報(bào)工作,2011,55(2):11-15,94.
[ 3 ] World Wide Science[EB/OL].[2015-01-15].http://wo-
rldwidescience.org/.
[ 4 ] 宋培彥,李靜靜,趙星.跨語(yǔ)言術(shù)語(yǔ)同義關(guān)系推薦方法及其實(shí)證[J].現(xiàn)代圖書情報(bào)技術(shù),2013(5):40-45.
[ 5 ] 吳丹.本體驅(qū)動(dòng)的跨語(yǔ)言信息檢索研究[J].現(xiàn)代圖書情報(bào)技術(shù),2006(5):22-26,85.
[ 6 ] 吳丹,王惠臨.本體在跨語(yǔ)言信息檢索中的應(yīng)用機(jī)制研究[J].圖書情報(bào)工作,2006,50(9):10-13.
[ 7 ] 黃國(guó)斌,王明文,葉浩.一種新的基于中間語(yǔ)義的跨語(yǔ)言信息檢索模型[J].中文信息學(xué)報(bào),2009(2):77-82.
[ 8 ] 鄒小芳.基于潛在中間語(yǔ)義的多語(yǔ)言信息檢索研究[D].南昌:江西師范大學(xué),2009.
[ 9 ] 章成志,王惠臨.基于專業(yè)領(lǐng)域平行語(yǔ)料的雙語(yǔ)核心術(shù)語(yǔ)抽取研究[C]//北京語(yǔ)言大學(xué).中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009).第十屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議,2009.358-363.
[10] 康小麗,章成志.用于雙語(yǔ)術(shù)語(yǔ)抽取的專業(yè)領(lǐng)域中英文可比語(yǔ)料庫(kù)構(gòu)建[J].現(xiàn)代圖書情報(bào)技術(shù),2012(2):28-33.
[11] 郝嘉樹,王惠臨,劉耀.基于本體的跨語(yǔ)言信息檢索模型和關(guān)鍵技術(shù)研究[J].情報(bào)科學(xué),2009(2):271-275.
[12] 劉偉成,孫吉紅.多語(yǔ)言本體構(gòu)建及其在跨語(yǔ)言信息檢索中的應(yīng)用[J].武漢科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2008,10(4):73-76,98.
[13] 夏立新,王忠義.基于主題圖的英漢跨語(yǔ)言檢索模型構(gòu)建[J].圖書情報(bào)工作,2008,52(11):70-74.
[14] 艾丹祥,張玉峰.利用主題圖建立概念知識(shí)庫(kù)[J].圖書情報(bào)知識(shí),2003(2):48-50,53.