方茜
摘 要: 針對跨語言信息檢索中關(guān)聯(lián)英文翻譯的選擇準確度不高的問題,提出一種基于最關(guān)聯(lián)語義本體模型匹配的跨語言信息檢索英文翻譯選取方法。首先構(gòu)建跨語言信息檢索中最關(guān)聯(lián)英文語義的本體結(jié)構(gòu)模型,采用語義指向性信息索引方法進行英文翻譯的上下文語義映射;然后根據(jù)語義本體之間的詞語知識和本體片段映射方法進行英文語義翻譯的特征提取,實現(xiàn)最關(guān)聯(lián)英文語義翻譯選取;最后進行實驗測試分析。結(jié)果表明,采用該方法進行跨語言信息檢索,英文語義翻譯選取的召回性能較好,查全率、查準率較高。
關(guān)鍵詞: 跨語言信息檢索; 語義翻譯; 語義選取; 語義映射
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)12?0039?04
Abstract: Aiming at the problem that the selection accuracy of relevant English translation in the cross?language information retrieval is not high, a selection method of English translation for cross?language information retrieval based on most relevant semantic ontology model matching is proposed. The most relevant English semantic ontology structure model for cross?language information retrieval is built first, then the semantic directivity information index method is used to make context semantic mapping of English translation, and the feature extraction of English semantic translation is conducted according to word & expression knowledge and ontology fragment mapping method to realize the relevant English semantic translation selection. The experimental and testing analysis results show that the proposed method has perfect English semantic translation selection for cross?language information retrieval, its data recall performance is better, and its precision ratio is higher.
Keywords: cross language information retrieval; semantic translation; semantic selection; semantic mapping
0 引 言
在跨語言的信息檢索Web環(huán)境中,需要采用語義本體模型匹配和特征提取方法進行各種語義翻譯處理和語義信息分析,實現(xiàn)對信息檢索庫中語義信息資源調(diào)度和模型構(gòu)建。由于跨語義信息檢索數(shù)據(jù)庫中存在一定的語義沖突,嚴重影響了語言翻譯和信息檢索的準確性,存在語義異構(gòu)和語義分歧問題,特別是在跨語言數(shù)據(jù)庫中對英文語義翻譯的關(guān)聯(lián)性不好,在信息檢索、數(shù)據(jù)集成和數(shù)據(jù)庫重構(gòu)中導(dǎo)致對關(guān)聯(lián)語義的匹配度和檢索的準確度不高[1?2]。因此,需要進行跨語言信息檢索中的最關(guān)聯(lián)英文語義翻譯選取設(shè)計,利用語義分析與提取技術(shù)提高跨語言信息檢索的準確性[3]。本文以異構(gòu)英文語義本體模型為研究對象,進行最關(guān)聯(lián)英文語義翻譯選取和特征提取研究,找出語義相同或者相似概念對,逐一地對本體之間語義信息素進行相似度信息分析和信息素導(dǎo)引,提高對語言信息數(shù)據(jù)庫的訪問和檢索能力,并取得一定的研究成果。
1 關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型構(gòu)建
1.1 跨語言信息檢索的英文翻譯語義映射
為了實現(xiàn)跨語言信息檢索中的最關(guān)聯(lián)英文語義翻譯選取,需要首先構(gòu)建跨語言信息檢索中最關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型,基于語義相似度計算方法進行跨語言信息檢索的英文語義翻譯的機器學(xué)習和訓(xùn)練。首先給出跨語言信息檢索的數(shù)據(jù)訪問和語義選取結(jié)構(gòu)圖如圖1所示。
根據(jù)圖1所示的跨語言信息檢索的數(shù)據(jù)訪問和語義選取結(jié)構(gòu),進行跨語言信息檢索語義映射關(guān)系的分類[4?5]。
定義1 英文語義映射。針對語法分析方案Ai,跨語言信息檢索英文翻譯的本體語義映射模型的形式化定義是一個五元組,其中:
C:語義修飾概念集合。C中的語句CS有m種不同的語法分類,從語義上來說,對語義相似度分析,得到跨語言數(shù)據(jù)庫中包含有多個從句。在本體中,AA是后置定語,滿足基本單元的語句語義結(jié)構(gòu)。
I:實例集合。I為每次選擇一個簡單子句的每個實例,通過語義映射得到一個惟一的個體。在本體中,實例是語句語義結(jié)構(gòu)的本體映射表象,因此也稱為語義修飾目標。
HC:語句的語義相關(guān)度的分類關(guān)系集合。這類關(guān)系可以求出非語句主干的特征映射關(guān)系(Hyponymy),用函數(shù)來表示表示本體中父概念(Super?Concept)和子概念(Sub?Concept)之間的不同的語法分析方案。
R:當前跨語言信息檢索關(guān)聯(lián)英文數(shù)據(jù)庫本體內(nèi)元素的分類集合。R所包含的關(guān)系可分成兩大類:語義指向性信息索引行為關(guān)系和概念的隸屬關(guān)系。
A:語義修飾目標集合。A中的每條語義修飾目標代表英文翻譯語義中實詞的個數(shù),它可用于語義修飾目標之間的語義相關(guān)度來描述概念和實例之間跨語言信息檢索的映射關(guān)系,或者描述第i種語法分析方案下的語義特征映射的約束關(guān)系。
1.2 語義本體相關(guān)度計算模型
在上述進行了跨語言信息檢索的英文翻譯語義映射定義基礎(chǔ)上,根據(jù)跨語言信息檢索中英文語句的多種語法分析方案,構(gòu)建最關(guān)聯(lián)英文語言翻譯的語法分析方案,如圖2所示。
假設(shè)跨語言信息檢索數(shù)據(jù)庫中關(guān)聯(lián)英文的本體映射三層集成分布概念集合的數(shù)學(xué)模型可表示為:
式中:中的是表示語句具有m種語法分析方案的個數(shù),表示語義相關(guān)度;語句主干權(quán)重系數(shù)。英語從句具有m種語法分析方案,最符合語義邏輯的語法分析方案滿足所有詞匯翻譯相關(guān)性的約束條件為:
根據(jù)跨語言信息檢索的詞語知識(Lexical knowledge)得到語義映射關(guān)系的差異性特征。通過對不同本體進行英文翻譯的語法分析,對概念的上下文(Context)進行關(guān)聯(lián)匹配度分解,在概念節(jié)點Mountain中考慮等價的語義映射,根據(jù)語義本體相關(guān)度計算,得到語法分析的最佳方案[6]。
定義2 語義本體模型??缯Z言信息檢索關(guān)聯(lián)英文翻譯的本體與之間的語義修飾互信息特征通過一個映射函數(shù)M表示, 。其中,C是本體的語義關(guān)聯(lián)度,rel是跨語言信息檢索數(shù)據(jù)庫中的英文資源信息一個實詞集合,被稱之為英文從句的歸結(jié)關(guān)系。
采用語義指向性信息索引方法進行英文翻譯的上下文語義映射,可進行從句范圍選擇中預(yù)期使用的詞匯能有效反映英文語義翻譯的單語義。根據(jù)簡單語義單元建立英文翻譯的語義修飾關(guān)系[7],如圖3所示。
由于建立本體之間英文翻譯的語義修飾關(guān)系存在異構(gòu)性,語義結(jié)構(gòu)為:,概念節(jié)點(Cs和Ct′)對英文翻譯中的語義關(guān)聯(lián)句屬于主句,還是從句進行判斷,判斷準則為:Cs與Ct′之間內(nèi)部語法結(jié)構(gòu)映射關(guān)系()、Cs與Ct′之間簡單語義單元的語義特征映射關(guān)系()、Cs與Ct′之間的自組織映射泛化關(guān)系()、Cs與Ct′之間的從句權(quán)重關(guān)系()和Cs與Ct′之間的每種語法分析方案的映射關(guān)系()。計算每個簡單語義單元的語義本體相關(guān)度,得到異構(gòu)本體之間的語義相關(guān)度值,例如:把語義塊的n個英文翻譯詞匯進行信息素濃度聚焦,實現(xiàn)知識共享、重用,得到跨語言信息檢索中英文翻譯詞句集合rel中的語義指向性信息索引的語義相關(guān)度表示為:
式中:表示語句CS中關(guān)聯(lián)英文語義翻譯的相似度;表示兩組本體片段之間進行跨語言信息檢索的語義關(guān)聯(lián)度,且系數(shù)。
2 最關(guān)聯(lián)英文語義翻譯選取實現(xiàn)
2.1 英文語義翻譯的上下文語義映射
在上述進行了關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型構(gòu)建的語義本體相關(guān)度計算的基礎(chǔ)上,進行跨語言信息檢索中的最關(guān)聯(lián)英文翻譯的選取。針對當前方法存在的弊端,本文提出一種基于最關(guān)聯(lián)語義本體模型匹配的跨語言信息檢索英文翻譯選取方法,采用語義指向性信息索引方法進行英文翻譯的上下文語義映射[8]。在一個概念詞語知識的英文語義本體模型中,語義詞典庫用一個三元組的形式K=(O,A,R)表示。其中,O是語義詞典庫的英文語義對象集合,A是跨語言檢索的屬性集合,R是O和A之間的詞語選擇語義用二元素表示。設(shè)本體模型的拓撲結(jié)構(gòu)中英文翻譯的從句屬性總數(shù)為m,各個分詞的語義信息流在翻譯采樣信息時間間隔的自相關(guān)函數(shù)為:
式中:英文語義翻譯的上下文語義映射的提取率與的差別越來越大,則解釋信息與概念信息流與完全無關(guān);作為所包含的元素節(jié)點集合的自相關(guān)函數(shù),趨于0。通過英文語義翻譯的上下文語義映射模型構(gòu)建[9],得到英文語義翻譯的上下文語義映射的規(guī)則如下:
(1) 將跨語言信息檢索中英文的連接詞和謂詞邏輯表示成概念上下文形式;
(2) 將介詞,如“in”或者“of”,表示成相應(yīng)的邏輯公式;
(3) 將帶有包含關(guān)系從句如“except”或者“but not”表示成否定形式。
根據(jù)上述規(guī)則構(gòu)建英文語義翻譯的上下文語義映射,進行最關(guān)聯(lián)英文語義翻譯選取。
2.2 跨語言檢索最關(guān)聯(lián)英文語義翻譯選取
在本體模型O=
式中:,是分別是語義標識過程中英文實詞X,Y的語義修飾目標集;是聯(lián)合訪問語義相似度詞頻信息,表示X,Y所得到的準確的語義信息召回的聯(lián)合概率密度函數(shù)。
在進行跨語言檢索最關(guān)聯(lián)英文語義翻譯選取中,假設(shè)V是形容詞,S是V的后置虛詞,O是V的最佳語義相關(guān)度,L是S,V,O中間的簡單子句,AB是前置定語,AA是跨語言信息檢索的后置謂語,PD是實詞的個數(shù),通過語義關(guān)聯(lián)度匹配,實現(xiàn)英文語義翻譯選取,步驟表述如下:
步驟1(數(shù)據(jù)預(yù)處理):根據(jù)詞匯語義進行本體映射中英文從句的分詞選擇,并獲得其詞性,為進行準確的英文翻譯提供目標從句;
步驟2(找到詞匯語義的子句):針對語句CS,對應(yīng)于n個詞匯所形成的概念樹,可以找出最佳語義相關(guān)度值,對簡單子句集合進行從句范圍選擇;
步驟3:計算分段L的語義結(jié)構(gòu),選擇計算結(jié)果最佳的簡單子句CSi,乘以權(quán)重系數(shù)KS,進行查準率優(yōu)化,語義修飾CSi;
步驟4:選擇具有最佳語義相關(guān)度值的簡單句,如果滿足約束條件,則重復(fù)步驟2,3;否則,計算所有子句的最佳語義相關(guān)度;
步驟5:針對語法分析方案Ai,選擇前置虛詞,計算一次值,當滿足英文語義翻譯的上下文語義映射的規(guī)則,算法結(jié)束。
3 實驗測試分析
在進行跨語言信息檢索的最關(guān)聯(lián)英文語義翻譯選取的實驗中,以KDDP2015跨語言數(shù)據(jù)庫作為詞匯語義資源,采用Matlab 7編程軟件進行英文語義翻譯選取的編程設(shè)計。測試英文翻譯問題來自于KDDP2015的CWT200G數(shù)據(jù)測試集,測試集中包含21個語義等價概念集、46個不同語言的從句屬性集和358個實例集。測試通過跨語言信息檢索實現(xiàn)最關(guān)聯(lián)英文語義翻譯的查全率、查準率和最佳語義相關(guān)度值測試結(jié)果見表1。
分析表1中結(jié)果得知,采用本文模型進行跨語言信息檢索的最關(guān)聯(lián)英文語義翻譯,能達到最佳語義相關(guān)度配準,提高英文語義翻譯的查全率和查準率。圖4為不同方法進行英文語義翻譯選取的查準率對比結(jié)果,結(jié)果表明,采用本文方法進行關(guān)聯(lián)英文語義翻譯的查準率高于傳統(tǒng)模型,具有優(yōu)越性。
4 結(jié) 語
為了提高跨語言信息檢索中的英文語義翻譯準確性,本文提出一種基于最關(guān)聯(lián)語義本體模型匹配的跨語言信息檢索英文翻譯選取方法。構(gòu)建跨語言信息檢索中最關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型,采用語義指向性信息索引方法進行英文翻譯的上下文語義映射,根據(jù)語義本體之間的詞語知識和本體片段映射方法進行英文語義翻譯的特征提取,實現(xiàn)最關(guān)聯(lián)英文語義翻譯選取。仿真測試結(jié)果表明,采用本文方法進行跨語言信息檢索,英文語義翻譯選取的召回性能較好,查全率、查準率較高,在英文跨語言檢索和翻譯中具有較好的應(yīng)用價值。
圖4 性能對比
參考文獻
[1] AREFI M M, ZAREI J, KARIMI H R. Adaptive output feedback neural network control of uncertain non?affine systems with unknown control direction [J]. Journal of the Franklin Institute, 2014, 351(8): 4302?4316.
[2] 楊陟卓,黃河燕.基于詞語距離的網(wǎng)絡(luò)圖詞義消歧[J].軟件學(xué)報,2012,23(4):776?785.
[3] 張瑞霞,莊晉林,楊國增.基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究[J].中文信息學(xué)報,2012,26(4):43?49.
[4] 王廣正,王喜鳳.基于知網(wǎng)語義相關(guān)度計算的詞義消歧方法[J].安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2008,25(1):71?75.
[5] 劉宇紅.從格語法到框架語義學(xué)再到構(gòu)式語法[J].解放軍外國語學(xué)院學(xué)報,2011,34(1):5?9.
[6] 張華平,劉群.基于N?最短路徑方法的中文詞語粗分模型[J].中文信息學(xué)報,2002,16(5):1?7.
[7] 李永亮,黃曙光,李永成,等.基于淺層剖析的CYK改進算法[J].計算機應(yīng)用,2011,31(5):1335?1338.
[8] DEEPESH K K, JYOTIRMAYEE C, ALOK C. Improvement in word sense disambiguation by introducing enhancements in English wordnet structure [J]. International journal on computer science and engineering, 2012, 4(7): 1366?1370.
[9] MILNE D, WITTEN I H. An effective, low?cost measure of semantic relatedness obtained from Wikipedia links [C]// Proceedings of the AAAI 2008 Workshop on Wikipedia and Artificial Intelligence: An Evolving Synergy. [S.l. : s.n.], 2008: 25?30.