俞婷 鄭軻
摘 要:構(gòu)建了基于本體的課程資源語義檢索模型,并設(shè)計實現(xiàn)了相應(yīng)的語義檢索原型。在綜合分析相關(guān)課程資源后,建立了課程資源本體。在構(gòu)建基于本體的課程資源語義檢索模型過程中,研究已有的語義關(guān)聯(lián)度計算方法,結(jié)合用戶檢索敏感度提出了查詢詞權(quán)重度量元。通過實例對語義檢索原型進行了驗證,結(jié)果表明,相比于基于關(guān)鍵字的檢索方法,該語義檢索系統(tǒng)在查全率和查準(zhǔn)率上都有明顯的優(yōu)勢。
關(guān)鍵詞:課程資源;相似度算法;語義關(guān)系;檢索意圖
中圖分類號:TP391.3 文獻標(biāo)識碼:A DOI:10.15913/j.cnki.kjycx.2016.19.035
信息的增長速度的數(shù)量級為每年億級,信息檢索的難度隨之增長。目前的檢索方式主要是基于關(guān)鍵字的檢索,這類檢索方式忽略了詞語之間的語義關(guān)系以及用戶真實的檢索意圖,返回的信息多是無用的,無法為用戶提供精準(zhǔn)的資源。
近年來,建立在語義網(wǎng)基礎(chǔ)上的本體語義檢索技術(shù)得到了人們的廣泛關(guān)注。相比于傳統(tǒng)的檢索技術(shù),其在檢索精度和覆蓋率上都有明顯的優(yōu)勢。本體論最早起源于哲學(xué)領(lǐng)域,古希臘的亞里士多德通過對事物存在的本質(zhì)進行了研究,得出了本體的概念。在較早時期,本體沒有一個統(tǒng)一的定義,Studer等人對本體進行了一系列的深入研究后,提出了一個在當(dāng)今被廣泛采用的定義。對于共享概念模型而言,本體就是一種明確的形式化規(guī)范的說明。
1 課程資源本體構(gòu)建
傳統(tǒng)的基于關(guān)鍵字的搜索方法由于缺少語義,常造成檢索信息的錯檢和漏檢。由于受到了本體庫的支持,基于語義的檢索能很好地彌補這一缺陷。如果要進行基于本體的語義搜索,首先要構(gòu)建規(guī)范的課程資源知識庫本體。
本文以課程資源知識點作為領(lǐng)域本體進行構(gòu)建。課程資源知識點本體的構(gòu)建主要分為兩點,即確定規(guī)范和基于規(guī)范構(gòu)建本體。以計算機網(wǎng)絡(luò)課程為例,本體存儲的是相關(guān)知識點,其中包括計算機網(wǎng)絡(luò)性能、因特網(wǎng)、計算機網(wǎng)絡(luò)體系結(jié)構(gòu)、計算機網(wǎng)絡(luò)類別、網(wǎng)絡(luò)安全五大類。這五大類的子類分別有:①計算機網(wǎng)絡(luò)性能。速率、寬帶、吞吐率、往返率、可擴展性、時延、利用率、可靠性。②因特網(wǎng)。因特網(wǎng)發(fā)展階段、因特網(wǎng)組成、下一代因特網(wǎng)。③計算機網(wǎng)絡(luò)體系結(jié)構(gòu)。五層協(xié)議體系結(jié)構(gòu)、TCP/IP體系結(jié)構(gòu)、OSI體系結(jié)構(gòu)。④計算機網(wǎng)絡(luò)類別。廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、接入網(wǎng)。⑤網(wǎng)絡(luò)安全。數(shù)字簽名、密碼體制、安全協(xié)議、防火墻。
課程本體所包含的對象屬性有蘊含關(guān)系、依賴關(guān)系、兄弟關(guān)系、平行關(guān)系、參考關(guān)系和游離關(guān)系。在構(gòu)建完本體之后,本文采用MySQL數(shù)據(jù)庫對本體文件進行存儲,達(dá)到持久化。
2 語義關(guān)聯(lián)度算法
用戶在輸入相關(guān)查詢詞進行檢索后,語義檢索系統(tǒng)對查詢詞進行形式化處理,并對形式化后的查詢詞進行語義關(guān)聯(lián)度計算。語義關(guān)聯(lián)度包括語義相似度和語義相關(guān)度。
2.1 語義相似度
本文提出元概念的定義,指在領(lǐng)域本體中存在的概念集合C,設(shè)其中任一概念為Cx,如果集合Q中存在可以與概念C中的Cx匹配的查詢詞,則稱為Cx為元概念,即將元概念作為查詢映射到的概念來進行資源查詢。
本文以知識點為單位構(gòu)建教育資源本體,所以,從知識點的角度擴展了語義。知識點之間的關(guān)系有同義、平行、包含等,本節(jié)對本體概念之間的相似度所考慮的因素主要有以下6個。
2.1.1 語義距離
語義距離對語義相似度的影響可以表示成:
/* MERGEFORMAT. (1)
概念節(jié)點之間的距離表示為len(ei),是彼此之間相連的通路邊所有對應(yīng)的距離,比如父類和子類之間的距離為1.
2.1.2 語義重合度
語義重合度對于語義相似度的影響主要表示為:
/* MERGEFORMAT. (2)
式(2)中:NodeSet(X)為節(jié)點到根節(jié)點經(jīng)過的節(jié)點數(shù)目的幾盒;NodeSet(X) NodeSet(Y)為X節(jié)點到根節(jié)點經(jīng)過的節(jié)點數(shù)和Y節(jié)點數(shù)到根節(jié)點經(jīng)過的節(jié)點數(shù)之間的交集;NodeSet(X) NodeSet(Y)為X節(jié)點到根節(jié)點經(jīng)過的節(jié)點數(shù)和Y節(jié)點到根節(jié)點經(jīng)過的節(jié)點數(shù)之間的并集。
2.1.3 節(jié)點密度
節(jié)點密度對于語義相似度的影響可以表示為:
/* MERGEFORMAT. (3)
式(3)中:degree(P)為概念節(jié)點X與概念節(jié)點Y之間最近的公共祖先P的度;degree(T)為概念樹的度。
2.1.4 節(jié)點深度
兩個節(jié)點X與Y之間的概念深度對于語義相似度的影響可以表示成為:
/* MERGEFORMAT. (4)
式(4)中:dep(X)和dep(Y)分別為概念X和概念Y的深度。
2.1.5 層次順序
層次的順序?qū)Ω拍钕嗨贫鹊挠绊憺椋?/p>
/* MERGEFORMAT. (5)
式(5)中:lyr(X)和lyr(Y)分別為X和Y節(jié)點所在的層次,根節(jié)點的層次為1;lyr(G)為領(lǐng)域本體中層次的最底層。
2.1.6 查詢詞權(quán)重
在進行最后的語義相似度階段計算時,對概念之間相似度的計算是受查詢詞權(quán)重的影響。領(lǐng)域本體之間的概念與概念節(jié)點之間的相似度的計算公式如下:
/* MERGEFORMAT.(6)
2.2 語義相關(guān)度
語義的相關(guān)度指的是詞語與詞語之間的相互有聯(lián)系的程度,它是一個隨主觀意愿變動比較強的概念。相關(guān)度的取值也在0~1,一般是兩個詞語在相同語境之中能夠替換的程度。領(lǐng)域本體概念之間的相關(guān)度公式如下:
/* MERGEFORMAT. (7)
式(7)中:rel(ei)為概念與概念之間相連的關(guān)系邊所對應(yīng)的權(quán)值。
本文中概念與概念之間的相關(guān)度定義如表1所示。
綜上所述,得出概念之間的關(guān)聯(lián)度的計算公式如下:
/* MERGEFORMAT. (7)
3 語義檢索模型
本文以教育資源的知識點為基礎(chǔ),對基于本體的教學(xué)資源的語義檢索系統(tǒng)建立了原型。本文構(gòu)建的語義檢索是對教育資源進行本體推理來實現(xiàn)教育資源的語義檢索,其中,還對向量空間模型進行了結(jié)合。語義檢索主要包含了兩個核心,即語義查詢擴展和語義數(shù)據(jù)的檢索算法。
圖1為語義檢索的模型圖。
系統(tǒng)采用VPN、SNMP等詞語進行測試,求得基于本體教學(xué)資源語義檢索算法的查全率和查準(zhǔn)率。同時,計算基于關(guān)鍵字的檢索系統(tǒng)的查全率和查準(zhǔn)率,結(jié)果如表2所示。
4 結(jié)束語
本文提出并研究了基于本體的課程資源信息語義檢索問題。文中通過課程資源知識庫本體的構(gòu)建、本體相似度計算的研究,建立了基于課程資源的語義檢索系統(tǒng)的原型,在一定程度上提高了對課程資源信息檢索的查全率和查準(zhǔn)率。下一步工作為課程資源本體的完善、探索更加精確的語義相似度計算方法,以提供給用戶更好的檢索支持。
參考文獻
[1]代曉宇.基于本體的教學(xué)資源語義檢索應(yīng)用研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[2]花開明,陳家訓(xùn),楊洪山,等.基于本體與元數(shù)據(jù)的語義檢索[J].計算機工程,2007,33(24).
[3]欒艷,丁二玉,駱斌.基于Ontology的語義檢索技術(shù)[J].計算機工程與應(yīng)用,2005,41(28).
[4]Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering:Principles and methods[J].Data & Knowledge Engineering,1998,25(02).
[5]張功杰,趙向軍,陳克建,等.面向本體的語義相似度計算及在檢索中的應(yīng)用[J].計算機工程與應(yīng)用,2010,46(29).
〔編輯:張思楠〕