国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于本體的測繪圖書檢索方法

2014-02-08 09:32徐洪秀孫立志樊紅
城市勘測 2014年2期
關(guān)鍵詞:學科分類中圖法權(quán)值

徐洪秀,孫立志,樊紅

(1.天津市測繪院,天津 300381;2.武漢大學測繪遙感信息工程國家重點實驗室,湖北武漢 430079)

1 引言

隨著科學技術(shù)的迅猛發(fā)展,各種測繪科技及相關(guān)文獻信息資源與日俱增。傳統(tǒng)的圖書資料檢索方法多為全文檢索、字段檢索、模糊匹配、精確匹配、布爾邏輯檢索、限制檢索、嵌套檢索和鄰接檢索,這些方法的本質(zhì)都為基于串匹配方式的檢索,都屬于關(guān)鍵字檢索范疇[1,2]。而關(guān)鍵字檢索存在著很多不盡如人意的地方,一方面影響著檢索的查全性,如關(guān)鍵字檢索會遺漏很多信息,不同的詞可以表示相同的意義;另一方面影響著檢索的查準性,如返回大量的無關(guān)信息,用戶通常需要做很多的過濾工作,一個詞在不同的語境中有不同的意義[3,4]。武漢大學圖書館等眾多大學圖書館仍采用傳統(tǒng)關(guān)鍵字檢索,且圖書分類沒有統(tǒng)一,普遍采用中圖法和科圖法兩種分類方法,因此圖書資料數(shù)據(jù)存在著數(shù)據(jù)源異構(gòu),相同的圖書資料表示方式不同。本文針對武漢大學圖書館信息科學分館檢索的需求,在測繪圖書資料的檢索中加入語義技術(shù),在分析圖書分類相關(guān)領(lǐng)域參考資料的基礎(chǔ)上,按照本體構(gòu)建過程,使用開源本體構(gòu)建工具Protégé構(gòu)建測繪學科信息公共本體、測繪學科分類—中圖法本體及測繪學科分類—科圖法本體;利用Oracle 11g語義技術(shù)的存儲功能,基于已建立的本體構(gòu)建測繪學科本體庫;實驗三種本體映射方法,選擇采用最適合的概念名稱和層次結(jié)構(gòu)相似度權(quán)值組合的本體映射方法來構(gòu)建測繪學科分類本體映射模型解決數(shù)據(jù)異構(gòu)問題;利用Oracle 11g語義技術(shù)的查詢和推理功能,設(shè)計并實現(xiàn)測繪學科圖書語義檢索原型系統(tǒng),并對系統(tǒng)進行檢索實驗,給出檢索的查全性和查準性評價。

2 測繪學科本體庫構(gòu)建

2.1 測繪學科相關(guān)本體構(gòu)建

本體作為語義技術(shù)的基礎(chǔ),其對信息形式化的表達可以提高信息檢索的性能[5],因此測繪學科本體構(gòu)建是否恰當、標準,會對語義檢索起到?jīng)Q定性的作用。通過咨詢武漢大學圖書館專家,得出本體構(gòu)建所依據(jù)的參考資料,包括中國圖書館分類法(簡稱中圖法)、中國科學院圖書館圖書分類法(簡稱科圖法)及測繪學科敘詞表。

分析相關(guān)資料并咨詢圖書館專家可以得出以下結(jié)論:同一種分類法概念間存在著明顯的包含關(guān)系,例如P2測繪學包含P23攝影測量與遙感;兩種分類法概念之間存在著映射關(guān)系,例如中圖法中的P2測繪學和科圖法中的56.1測繪學存在著映射關(guān)系;在測繪學科內(nèi),學科之間也存在著各種聯(lián)系,例如P23攝影測量與遙感與P207測量誤差與測量平差存在著聯(lián)系。通過對中圖法和科圖法分析可知,分類號是學科概念的唯一標識,可將分類號作為概念的屬性分別添加到三個本體中;敘詞對用戶搜索起到一定的指導作用,可以將其按照學科類別添加到測繪學科信息公共本體中;敘詞的英文翻譯對用戶的英文關(guān)鍵字搜索起到作用,可以將其按照學科類別添加到測繪學科信息公共本體中;作者和出版社信息對于語義檢索起到一定的輔助作用,可以通過從圖書數(shù)據(jù)中抽取并添加到測繪學科信息公共本體中,推薦給用戶使用。

在以上分析的基礎(chǔ)上,基于Protégé工具生成測繪學科信息公共本體、測繪學科分類—中圖法本體及測繪學科分類—科圖法本體。三種本體的類分別來自于相應(yīng)分類法中的學科概念,本體的層次關(guān)系來自于相應(yīng)分類法中的概念層次關(guān)系。

2.2 測繪學科本體庫構(gòu)建

一個語義庫只有一個語義數(shù)據(jù)網(wǎng)絡(luò),但一個語義網(wǎng)絡(luò)可以有多個語義模型,每個語義模型又對應(yīng)著一個語義表[6,7]。本文以構(gòu)建的本體為基礎(chǔ),利用Oracle 11g語義技術(shù)構(gòu)建測繪學科本體庫。語義模型的構(gòu)建過程可分為創(chuàng)建存儲RDF數(shù)據(jù)的模型、將Protégé生成的OWL數(shù)據(jù)規(guī)范化和將語義數(shù)據(jù)載入模型3個步驟[8]。本文按照以上步驟構(gòu)建支持測繪圖書檢索的語義網(wǎng)絡(luò),該網(wǎng)絡(luò)包括測繪學科信息公共本體、測繪學科分類—中圖法本體及測繪學科分類—科圖法本體3個語義模型。

3 測繪學科分類本體映射模型構(gòu)建

針對圖書資料存在著數(shù)據(jù)源異構(gòu)問題,本文通過構(gòu)建中圖法和科圖法間的本體映射模型來支持測繪圖書語義檢索,從而提高檢索的檢全性。通過實現(xiàn)三種本體映射方法并進行實驗分析,選擇概念名稱和層次結(jié)構(gòu)相似度權(quán)值組合的本體映射方法來構(gòu)建本體映射模型。

3.1 本體映射方法實驗分析

(1)基于概念名稱相似度計算的本體映射方法

通過對測繪學科分類本體元素特征的研究,采用基于概念名稱之間的語法相似度作為概念名稱的相似度。它在一定程度上反映了概念之間的相似性,可通過類似編輯距離的方法得到[9,10]。首先對本體進行遍歷,得到每個本體的概念名稱,然后按照編寫的字符串匹配算法算出兩個概念間的名稱漢字交集個數(shù)和差集個數(shù),獲得相應(yīng)的深度系數(shù),得到兩個概念間的名稱相似度,表1中列出幾對類名稱和相應(yīng)的相似度結(jié)果。

基于概念名稱相似度方法構(gòu)建的本體映射關(guān)系結(jié)果 表1

(2)基于層次結(jié)構(gòu)的相似度計算的本體映射方法

通過對測繪學科分類本體的研究發(fā)現(xiàn),假如父概念在語義上是相似的,則他們的子概念也很有可能是相似的;如果兩個概念具有相同子概念,則這兩個概念也很有可能是相似的;如果兩個概念具有相同的兄弟概念,則這兩個概念也很有可能是相似的。本文在此的基礎(chǔ)上采用了以下計算方法來計算層次結(jié)構(gòu)的相似度,如下:

其中,Sim(e1p,e2p)、Simset(e1c,e2c)及 Simset(e1s,e2s)分別表示概念e1和e2的父概念、子概念集及兄弟概念集相似度值,α、β、γ分別表示相應(yīng)的權(quán)重因子。父概念相似度值直接由名稱相似度算法計算得到,子概念集及兄弟概念集相似度值則分別通過計算兩個集合間的概念相似度值矩陣,并選出n對相似度值最高的概念相似度值的算數(shù)平均數(shù)作為集合的相似度值,其中n為相應(yīng)集合中元素個數(shù)的最小值。通過式(1)可以看出,兩個概念的結(jié)構(gòu)相似度值由上述的相似度值和相應(yīng)的權(quán)值來決定,那么權(quán)值選取的適宜性對結(jié)構(gòu)相似度的值有一定的影響。

根據(jù)對本體特征元素的分析,可知父概念的權(quán)重要大于等于子概念的權(quán)重,子概念的權(quán)重要大于等于兄弟概念的權(quán)重[11,12]。另外3個權(quán)值因子的算數(shù)和為1[13]。在此原則的基礎(chǔ)上,采取不同的權(quán)值來做實驗分析,根據(jù)得到的相似度值大于相應(yīng)閾值的映射對數(shù)目來選擇較好的權(quán)值組合,本文根據(jù)此實驗選出較好的3個權(quán)值組合,實驗結(jié)果如表2所示。

層次結(jié)構(gòu)相似度權(quán)值實驗1 表2

通過分析實驗結(jié)果可以選取第二組或第三組作為結(jié)構(gòu)相似度的權(quán)值組合。但不能僅憑相似度最大的映射對數(shù)目多來確定權(quán)值組合,也要對映射對正確的數(shù)目來進行分析,實驗的結(jié)果如表3所示。

層次結(jié)構(gòu)相似度權(quán)值實驗2 表3

綜合上面兩組實驗分析,選擇第二組權(quán)值組合來計算結(jié)構(gòu)相似度,既能保證得到多并且準確的映射對數(shù)目,部分結(jié)果如表4所示。

基于層次結(jié)構(gòu)相似度方法構(gòu)建的本體映射關(guān)系結(jié)果 表4

(3)概念名稱和層次結(jié)構(gòu)相似度權(quán)值組合的本體映射方法

對于選用多策略組合進行本體映射的方法來說,權(quán)值選取不合適,則會降低單個策略的貢獻從而對最終的映射結(jié)果造成關(guān)鍵的影響[14,15]。為了保證單個策略的貢獻最終反映到綜合相似度的結(jié)果上,本文采用權(quán)值的自適應(yīng)計算方法,即使用Sigmoid函數(shù)來確定最終的綜合相似度,公式如下:

式中Adaption為本體適應(yīng)度,用來反映映射可信度和單一策略可信度對相似度的影響。其中分子表示每種策略的本體適應(yīng)度與相應(yīng)的相似度通過相應(yīng)公式計算的和,分母表示各個策略本體適應(yīng)度的和。當i取1時,應(yīng)用的單一策略為名稱級,當i取2時,應(yīng)用的單一策略為結(jié)構(gòu)級。通過動態(tài)結(jié)合待映射本體的特征和每種映射策略所得的映射數(shù)目比重,計算出每種策略的和諧度作為該映射策略的權(quán)值,來更加合理地反映各映射策略的表現(xiàn)差異。本文本體適應(yīng)度的計算是通過對概念名稱及層次結(jié)構(gòu)兩種策略進行可信度計算,選取適合的閾值獲得單一策略的可信度、映射的可信度,再根據(jù)它們的貢獻因子結(jié)合計算求得。在確定閾值及貢獻因子參數(shù)組合時,采用逐一實驗的方法,即選取一個值不變,其他3個值進行變化,將參數(shù)值代入公式得出相似度值,取得待映射本體中每個概念的最大相似度值的映射對,并根據(jù)人工判斷出正確的映射對數(shù)目。通過多次實驗,將適合測繪學科分類本體的本體映射模型的參數(shù)列舉在表5中。其中名稱級可信度和結(jié)構(gòu)級可信度的值不受參數(shù)的影響,名稱級映射可信度和結(jié)構(gòu)級映射可信度受名稱級閾值和結(jié)構(gòu)級閾值兩個參數(shù)及名稱級可信度和結(jié)構(gòu)級可信度的影響,名稱級本體適應(yīng)度和結(jié)構(gòu)級本體適應(yīng)度受策略貢獻值和映射貢獻值及名稱級映射可信度和結(jié)構(gòu)級映射可信度值的影響。本文選擇最好的第四組參數(shù)作為獲得測繪學科分類本體的本體映射模型的參數(shù)。

策略權(quán)值相應(yīng)參數(shù)實驗 表5

通過權(quán)值自適應(yīng)計算得到每個待映射本體對的相似度值,對測繪學科分類—中圖法本體的每個概念取相似度最大值的映射對作為映射關(guān)系,表6中列舉了幾對類名稱和相應(yīng)的相似度結(jié)果,該方法是前面兩種方法的綜合,所以其兼容了前兩種方法的優(yōu)點,具有較好的映射結(jié)果。

基于多策略權(quán)值組合方法構(gòu)建的本體映射關(guān)系結(jié)果 表6

3.2 模型構(gòu)建

設(shè)計測繪學科本體的本體映射模型算法,首先進行本體特征的提取,分別計算名稱和層次結(jié)構(gòu)相似度,采用權(quán)值的自適應(yīng)計算方法,結(jié)合計算出的名稱和層次結(jié)構(gòu)相似度來計算出綜合相似度,通過建立的規(guī)則對隱含的映射對進行發(fā)掘,對得到的映射對進行映射修正得到最后的測繪學科分類本體的本體映射模型。

由于本體信息不夠豐富,根據(jù)相似度方法不能發(fā)現(xiàn)全部的映射對,可通過制定一些啟發(fā)式規(guī)則來尋求可能的映射對,共制定4條規(guī)則,分別是:

(1)如果候選映射對的父結(jié)點、子節(jié)點以及鄰居結(jié)點都存在映射關(guān)系,則可以認為該候選映射對也存在映射關(guān)系;

(2)如果候選映射對的父節(jié)點存在映射關(guān)系而部分子結(jié)點存在映射關(guān)系,則可以認為該候選映射對也存在映射關(guān)系;

(3)如果候選映射對的父節(jié)點不存在映射關(guān)系而所有的孩子結(jié)點存在映射關(guān)系,則可以認為該候選映射對也存在映射關(guān)系;

(4)如果候選映射對其中一個概念在另一個本體中沒有細分到這層,并且如果它的父節(jié)點和該候選映射對的另一個概念為映射關(guān)系,則可以認為該候選映射對也存在映射關(guān)系。

本文根據(jù)實驗證明上述規(guī)則適合測繪學科分類本體映射模型的構(gòu)建。根據(jù)隱含映射挖掘出的映射對共45對,表7中列舉出了部分結(jié)果。其中以“專業(yè)測繪”為例,其在中圖法作為一個類進行編目,但在科圖法中并沒有分這一層,所以根據(jù)規(guī)則,其父親“測繪學”的映射類為“測繪學”,所以將其與其父類的映射類組成映射對。

測繪學科分類本體映射模型-映射對挖掘結(jié)果 表7

在找到源本體中的所有映射關(guān)系后,還要對這些映射對是否正確進行判斷。如果是正確的映射關(guān)系,本體間應(yīng)符合本體自帶的類公理,包括類公理sub-Classof、equivalentClass、sameAs 及 disjointWith。通過人工的方法對獲得的映射對進行修正,把違背類公理的映射對進行刪除。

4 測繪圖書語義檢索原型系統(tǒng)及實驗分析

4.1 語義檢索流程

在進行語義檢索之前,首先是構(gòu)建本體映射模型。進入檢索模塊時,根據(jù)學科導航選擇中圖法分類下的相關(guān)學科,通過映射模型自動找到與之映射的科圖法分類下的學科名稱,并根據(jù)學科得出該學科領(lǐng)域里的專家推薦關(guān)鍵詞及用戶可能感興趣的作者和出版社信息,再加上用戶輸入的關(guān)鍵詞,這些構(gòu)成語義檢索的條件。用戶在進行語義檢索時可以自由選擇條件并對條件進行組合查詢。系統(tǒng)的執(zhí)行流程如圖1所示。

圖1 檢索執(zhí)行流程圖

4.2 語義檢索原型系統(tǒng)實現(xiàn)

測繪學科圖書語義檢索原型系統(tǒng),主要實現(xiàn)本體映射模型的構(gòu)建、圖書的語義檢索及添加圖書和相關(guān)語義信息功能。本體映射模型模塊實現(xiàn)本體映射模型構(gòu)建過程中的諸多算法,包括查看本體層次結(jié)構(gòu),名稱概念相似度、本體結(jié)構(gòu)相似度、綜合相似度的計算及閾值的實驗及查看映射結(jié)果。檢索功能包括普通檢索和語義檢索:普通檢索選擇檢索項并輸入檢索詞,通過對關(guān)鍵字匹配進行檢索;而語義檢索過程為用戶首先通過學科導航選擇感興趣的學科,輸入感興趣的關(guān)鍵詞和選擇專家推薦的關(guān)鍵詞及有可能感興趣的作者和出版社信息,然后進行語義檢索,如圖2~圖4所示。

圖2 本體結(jié)構(gòu)相似度在不同權(quán)重及閾值下的映射對及相似度計算

圖3 綜合相似度在不同權(quán)重因子及閾值下的映射對及相似度計算

圖4 在測繪遙感技術(shù)學科下進行語義檢索

4.3 檢索實驗結(jié)果分析

本文以武漢大學圖書館信息科學分館現(xiàn)有圖書目錄數(shù)據(jù)為檢索數(shù)據(jù)庫,利用測繪學科圖書語義檢索原型系統(tǒng)進行普通檢索和語義檢索的實驗,分別從查準和查全兩方面進行實驗分析。

(1)查全分析

根據(jù)本體映射模型可以找到中圖法本體到科圖法本體之間的映射關(guān)系,由于測繪學科信息數(shù)據(jù)庫中既有中圖法表示的數(shù)據(jù),也有科圖法表示的數(shù)據(jù),如果不建立映射關(guān)系,在查詢數(shù)據(jù)時就會丟失一部分數(shù)據(jù)。例如用戶想查詢“攝影測量學與測繪遙感”學科下,關(guān)鍵詞為“測量”的圖書,在未加入本體映射模型進行語義檢索,結(jié)果共有71條記錄。而加入本文所構(gòu)建的本體映射模型進行語義檢索,結(jié)果為81條記錄。通過查詢出的圖書目錄可知,在測繪學科信息數(shù)據(jù)庫中與關(guān)鍵詞“測量”匹配的并且屬于“攝影測量學與測繪遙感”學科下的圖書有71條記錄是由中圖法進行分類的,而有10條記錄是由科圖法進行分類的。由此可見,針對測繪學科信息數(shù)據(jù)的異構(gòu)問題,通過本體映射模型可以提高數(shù)據(jù)的共享性,提高檢索的查全性。

(2)查準分析

普通檢索是對關(guān)鍵詞進行匹配或者多個檢索項進行組合匹配查詢。語義檢索的過程是通過學科導航來選擇感興趣的學科,對學科范圍下的數(shù)據(jù)信息進行初步檢索。然后通過選擇感興趣的關(guān)鍵詞、作者和出版社信息進一步進行語義檢索。相比普通檢索,語義檢索可以通過準確的定位每個匹配項目從而提高檢索的查準性。例如用戶想查詢屬于“攝影測量學與測繪遙感”學科,關(guān)鍵詞為“遙感”的圖書目錄,用普通檢索方式對測繪學科信息數(shù)據(jù)庫進行檢索,結(jié)果為299條圖書目錄,而用語義檢索,則有7條目錄。通過查詢出的圖書目錄可知,多出的292條并不屬于用戶想查詢的學科范圍內(nèi)的圖書。通過反復實驗分析得知,語義檢索不僅可以提供專家推薦的關(guān)鍵詞、相關(guān)學科范圍內(nèi)感興趣的作者及出版社信息為用戶進行組合條件查詢提供方便和專業(yè)知識的推薦,而且還可以提高檢索的準確性。

5 結(jié)論

信息通過本體的形式可以讓計算機同人一樣,理解信息要表達的語義信息,讓計算機可以按照人的思維去理解和處理信息,就可以提高檢索的查準性和查全性。本文通過構(gòu)建測繪學科本體庫及測繪學科分類本體映射模型來解決圖書數(shù)據(jù)異構(gòu)問題。通過實現(xiàn)語義檢索原型系統(tǒng),并進行多次檢索實驗驗證語義檢索可提高檢索的查準性和查全性。本文研究的方法為下一步語義檢索拓展到整個測繪科技文獻,包括為測繪期刊、測繪成果等及中外多種語言文字提供科學參考。

[1] 胡必云,黃因生.基于語義的Web信息檢索[J].計算機技術(shù)與發(fā)展,2006,16(10):71 ~73.

[2]Berners-Lee T,H.J.L.O.,The Semantic Web[J].Scientific American.2001,284(5).34 ~43.

[3]安楊,邊馥苓,關(guān)佶紅.GIS中地理本體的建立與比較[J].武漢大學學報·信息科學版,2006,31(12):1108~1111.

[4]李霖,朱海紅,王紅等.基于形式本體的基礎(chǔ)地理信息語義分析——以陸地水系要素類為例[J].測繪學報,2008,37(2):230 ~235.

[5]王繼東,張瑜,李娜.基于本體的語義檢索技術(shù)研究與實現(xiàn)[J].計算機技術(shù)與發(fā)展,2009,19(10):134~137.

[6]Zhe Wu,George Eadon,Souripriya Das,Eugene Inseok Chong,Vladimir Kolovski,Melliyal Annamalai,Jagannathan Srinivasan.Implementing an Inference Engine for RDFS/OWL Constructs and User-Defined Rules in Oracle[A].In:2008 IEEE 24th International Conference on Data Engineering[C].Cancun,Mexico,2008:1239 ~1242.

[7]劉紀平,栗斌,石麗紅等.一種本體驅(qū)動的地理空間事件相關(guān)信息自動檢索方法[J].測繪學報,2011,40(4):502 ~508.

[8]SPARQL Query Language for RDF.W3C Recommendation 15 January 2008[DB/OL].http://www.w3.org/TR/rdfsparql-query/#introduction.

[9]曹澤文,錢杰,張維明等.一種綜合的概念相似度計算方法[J].計算機科學,2007,34(3):174 ~175,191.

[10]M.Ehrig,Y Sure.Ontology Mapping-An lntergrated Approach.In Proceedings of lst European Semantic Web Symposium[J].Heraklion,Greece,Springer,LNCS.2004(5):10~12.

[11]Alexander Maedche,Boris Motile,Nuno Silva,Raphael Volz.MAFRA-A Mapping Framework for Distributed Ontologies[A].13thInternational conference,EKAW2002,guenza,Spain,October 1-4,2002.Proceedings Volume 2473/2002:235.

[12]A Rodriguez,M Egehofer Determining Semantic Similarity Among Entity Classes from Different Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(2):442~456.

[13]Giunhiglia F,Shvaiko P,Yatskevich M.Semantics schema matching[R].Trento:University of Trento,2005.

[14]J.Euzenat and P.Valtchev.An integrative proximity measure for ontology alignment.In:Proceedings of the Semantic Integration workshop at the International Semantic Web Conference,2003:66 ~71.

[15]Mitra.P,Wiederhold.G,Kersten.M .A Graph-Oriented Model for articulation of Ontology Interdependencies[J].

猜你喜歡
學科分類中圖法權(quán)值
一種融合時間權(quán)值和用戶行為序列的電影推薦模型
CONTENTS
高校二級學院科研管理模式研究
基于權(quán)值動量的RBM加速學習算法研究
審計學成為一級學科可行性研究
基于多維度特征權(quán)值動態(tài)更新的用戶推薦模型研究
中醫(yī)藥信息學教育發(fā)展歷程回顧與學科發(fā)展現(xiàn)狀分析
基于學科分類下的交互式電子白板設(shè)備應(yīng)用績效評價
知識圖譜視角下《中國圖書館分類法》研究演進與思考
《中圖法》與《中分表》修訂信息(連載3)