黃麗芬
(廣西工業(yè)職業(yè)技術(shù)學(xué)院建筑工程系,廣西 南寧 530001)
信息技術(shù)的飛速發(fā)展,為人們提供了廣闊的共享平臺,網(wǎng)絡(luò)檢索已經(jīng)成為人們獲取信息的常用渠道,人們通過信息檢索工具來檢索相關(guān)的信息,這在一定程度上解決了資源的分類和檢索問題。然而,傳統(tǒng)的基于關(guān)鍵詞的檢索方式,由于忽視了關(guān)鍵詞本身所蘊含的語義信息,而得到較低的查全率和查準率,變得越來越不適應(yīng)檢索的要求。
語義網(wǎng)格本體論技術(shù),為信息檢索提供了一種新的方法。本文結(jié)合Ontology技術(shù),利用節(jié)點邏輯構(gòu)造及節(jié)點間語用關(guān)系變換的相關(guān)語義網(wǎng)格本體論方法對網(wǎng)絡(luò)信息的精確、智能檢索方式進行研究,實現(xiàn)快速為海量文本信息建立分類目錄有效地組織網(wǎng)上海量信息,在檢系統(tǒng)中擴展用戶的檢索需求以理解用戶真正的檢索意圖,在語義網(wǎng)格平臺上,把檢索需求定位到合適的數(shù)據(jù)源中執(zhí)行檢索服務(wù),從而進一步提高查準率與查全率,以實現(xiàn)網(wǎng)格資源精確搜索,有效利用網(wǎng)絡(luò)信息資源,消除資源孤島。
語義本體論,是語義網(wǎng)格理論的基礎(chǔ),即編制者把一整套對某一領(lǐng)域中的表述的詞和術(shù)語組成等級條目,同時規(guī)定條目的特性及其之間的關(guān)系,這些詞和術(shù)語被稱為元數(shù)據(jù),語義本體也可以看作是計算機機器用于識別語義的詞典或辭海。語義網(wǎng)格使用元數(shù)據(jù)來描述網(wǎng)格中的信息,對信息和服務(wù)進行了很好的定義,可以更好地讓計算機和人們協(xié)同工作,其關(guān)鍵之處,就是把所有的資源,包括服務(wù),都用一種機器可處理的方式來描述,其目標是實現(xiàn)語義與機器智能的互操作性。
Gnutella協(xié)議是一份關(guān)于發(fā)布檢索的P2P協(xié)議,用于完全分散化的資源搜索,該協(xié)議定義了客戶機通過網(wǎng)絡(luò)通訊的方式,包括通過客戶機進行數(shù)據(jù)通訊的描述符號集和內(nèi)部客戶機相互交互的一些規(guī)則。雖然Gnutella協(xié)議也支持傳統(tǒng)的客戶端/中心服務(wù)器的檢索規(guī)范,但Gnutella協(xié)議更主要是支持點對點的,沒有中心的檢索,每一臺Gnutella客戶機正常情況下即能執(zhí)行服務(wù)器任務(wù),為客戶端提供服務(wù)器接口,使用戶可以向服務(wù)器發(fā)出查詢請求和看檢索結(jié)果;同時自身也能接收來自其他客戶機的請求,檢查他們與自己的數(shù)據(jù)中匹配的部分,查詢檢索可用的結(jié)果。執(zhí)行Gnutella協(xié)議的網(wǎng)絡(luò)能高度容錯,即當任何客戶機離線時,網(wǎng)絡(luò)服務(wù)都不會被中斷。
Gnutella-Flooding搜索技術(shù)比較簡單,不用對維護網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和相關(guān)的路由進行計算,僅要求將接收到信息的節(jié)點以廣播方式轉(zhuǎn)發(fā)到各數(shù)據(jù)包。例如,源節(jié)點希望發(fā)送一段數(shù)據(jù)給目標節(jié)點,源節(jié)點首先通過網(wǎng)絡(luò)將數(shù)據(jù)副本傳送給其每個鄰居節(jié)點,每個鄰居節(jié)點再將數(shù)據(jù)傳送給各自的除發(fā)送數(shù)據(jù)來的節(jié)點之外的其他。如此繼續(xù)下去,直到數(shù)據(jù)傳送目標節(jié)點或者數(shù)據(jù)設(shè)定的生存期限為0為止。
Gnutella-Flooding搜索技術(shù)的特點是:
(1)簡單,無需維護,局部節(jié)點失效不影響系統(tǒng)性能;
(2)效率高,延時小,總是走最短最快的路徑;
(3)基本操作是Flooding式廣播,P2P直接通信;
(4)缺點是存在大量富余聯(lián)接,增加網(wǎng)絡(luò)交通流量,大量消耗網(wǎng)絡(luò)寬帶,直接影響并限制了網(wǎng)絡(luò)的可擴展性能。
所有的P2P系統(tǒng)的查詢技術(shù),包括Gnutella的flooding技術(shù)及其改進方法,都是基于“關(guān)鍵字”的搜索技術(shù),無法解決用戶查詢時出現(xiàn)毫不相關(guān)的“結(jié)果”的問題。
如何高效而精確地在Internet上找到用戶真正需要的答案,只有通過使用語義本體論才能最終解決問題。
本文中的語義本體論搜索方法,是通過對P2P網(wǎng)絡(luò)系統(tǒng)中Gnutella協(xié)議的Flooding方法進行簡單改造,利用基于節(jié)點的局部語義本體論技術(shù),改善Gnutella-flooding方法存在的缺陷,達到用戶精確查詢的目的。
語義本體論搜索方法認為,網(wǎng)絡(luò)資源是人們用來解決某個具體問題的信息集合體,巨大的網(wǎng)絡(luò)集群中,包括足夠解決任何問題的資源,而語義本體論是用來實現(xiàn)查找這些資源的組織方法;而且這種組織方法,是根據(jù)中國人的思維習(xí)慣及認知過程進行設(shè)計的方法,即語義本體論(庫)深刻揭示了網(wǎng)絡(luò)資源之間的內(nèi)在聯(lián)系。
本文在原有P2P網(wǎng)絡(luò)關(guān)鍵字搜索方式的邏輯結(jié)構(gòu)的基礎(chǔ)上進行改造,設(shè)計出如圖1所示的語義本體論搜索邏輯結(jié)構(gòu)圖。
圖1 語義本體論搜索邏輯結(jié)構(gòu)圖
如圖1所示的語義本體論搜索方法定義的節(jié)點邏輯里,保持原有P2P方式下關(guān)鍵字查詢方式節(jié)點的共享資源庫不變,把原有接受查詢的關(guān)鍵字處理模塊替換為語義本體論模塊,本文中具體語義本體庫采用一種目前已經(jīng)編好的語義本體語義本體論——源描述框架(Resource Description Framework,RDF),同時添加語義哈希資源表,修改哈希路由表。
哈希路由表仍然包括原有P2P關(guān)鍵字查詢方式節(jié)點的IP、Port以及具體的共享資源,只不過新引入了目前已經(jīng)被成熟使用的一種語義本體論(庫)及語義希哈共享資源表,而資源表是用“問題—答案”方式的自然語義表達的,而且其中每一個答案與問題搜索路徑中的上一個問題,有明確的被包含關(guān)系。
語義搜索網(wǎng)絡(luò)中大量使用語義哈希表,因為語義網(wǎng)絡(luò)資源中“問題—答案”的查詢過程,是利用語義哈希表的用戶節(jié)點中所包含語義本體論具體解決問題的答案來實現(xiàn),語義搜索網(wǎng)絡(luò)“查詢問題論”的語義哈希路由表結(jié)構(gòu)如表1所示。
表1 語義哈希路由表結(jié)構(gòu)表
表1是一個(問題,通信方式,節(jié)點)映射對應(yīng)表,并且設(shè)計有對回答的問題性能評價的判斷,其中節(jié)點包含IP、Pot以及具體的共享資源描述等信息。也就是說,每一個節(jié)點就是引用本體庫中某一個詳細答案的地址及信息,是具有精確地解決某一問題的能力的;通信方式有明碼及加密兩種方式,可以根據(jù)節(jié)點要求提供的加密方法,如上表中與節(jié)點i的通信要求MD5加密,可能是因為該問題是具有保密價值,要保護其通信內(nèi)容不被物理鏈路或傳輸層偵聽到。
哈希路由表的管理,包括表的增加與刪除。
(1)路由表的增加。當邏輯節(jié)點中收到帶有節(jié)點能力描述的Ping指令時,就發(fā)一個pong指令回答,并查詢其溝通通信方式是否需要加密以及加密方式等,然后檢查其是否真正具有其所申明的節(jié)點能力,檢查通過后,就加入路由表,同時向所有的其他鄰居節(jié)點立即發(fā)能力增強通知(也可以后通知)。
(2)路由表的刪除?;旧嫌脮r間策略,即長期不用的,或長期聯(lián)系不上的,或確信不再需要其能力的,就可以刪除,但為了維持節(jié)點能力的穩(wěn)定性,節(jié)點哈希路由表不應(yīng)當頻繁變化。
P2P網(wǎng)絡(luò)中Gnutella-flooding協(xié)議中因機器和網(wǎng)絡(luò)性能的原因,不能維護容量很大的路由表,否則flooding消息會很多,會造成大量的搜索冗余,同時沒有判斷搜索答案與問題之間關(guān)系的功能。
語義本體論搜索利用Gnutella-flooding協(xié)議的查詢方式,通過把其路由表改進成為哈希路由表,引入語義本體庫,形成一個可以維護盡可能大而有效的路由表,以維持自己的足夠強大的查詢能力,且不存在flooding消息泛濫問題。因為每個節(jié)點是在龐大的路由表中環(huán)環(huán)相扣選擇路由的,真正發(fā)出查詢消息的可能就一條,就可以在路由表中選擇出與之相匹配的答案。
節(jié)點語義本體論把對節(jié)點能力的查詢,即Query,通過哈希路由表傳遞給下一節(jié)點,即Queryi+1,實現(xiàn)了問題在網(wǎng)絡(luò)中的遍歷查詢,Query的遍歷過程,也是問題的求精過程,用戶將獲得逐步精確的答案,從而解決用戶的一系列由淺入深的領(lǐng)域相關(guān)問題。
本文在P2P網(wǎng)絡(luò)Gnutella-flooding搜索技術(shù)的基礎(chǔ)上,利用語義本體論搜索方法的理論,通過采用目前已經(jīng)較成熟運用的語義本體庫——資源描述框架,結(jié)合語義哈希路由表技術(shù),通過問題在網(wǎng)絡(luò)中的遍歷查詢,從路由表提供的節(jié)點從共享資源庫搜索出精確答案,實現(xiàn)本體論及Petri網(wǎng)絡(luò)相互結(jié)合達到有效地組織網(wǎng)上海量信息,在檢系統(tǒng)中擴展用戶的檢索需求以理解用戶真正的檢索意圖,實現(xiàn)精確搜索的目的。
[1]Can F,Nuray R,Sevdik A B.Automatic performance evaluation of Web search engines[J].Information Processing Management,2004,(3):42-43.
[2]LU Shi-yong,DONG Ming,F(xiàn)arshad Fotouh I.The Semantic Web:Opportunities and challenges for next-generation Web applications[J].International Journal of Information Research,2002,(4):87-89.
[3]中國互聯(lián)網(wǎng)絡(luò)信息中心.第十四次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R].2004,7//http:llwww.cnnic.net.cn
[4]吳 丹.搜索引擎的智能化研究[J].情報理論與實踐,2002,(4):293-295.