李曉紅
計算機信息檢索是計算機技術的重要構成,但傳統(tǒng)信息檢索只能完成語法層面的匹配,并不能在對用戶提供的檢索信息進行理解和信息挖掘的基礎上,進行信息篩選,極大的影響信息檢索的效率和效果,為緩解此問題,人們嘗試在本體技術的基礎上,對語義檢索和語義相似度檢索的相關技術展開研究。在此背景下,本文針對基于本體技術的語義檢索和語義相似度展開研究,為優(yōu)化計算機信息檢索功能提供參考。
【關鍵詞】本體技術 語義檢索 語義相似度
簡單的機械式關鍵詞匹配,是傳統(tǒng)搜索引擎在應用的過程中,容易出現信息丟失、無關信息檢索等問題的重要原因,所以人們嘗試在傳統(tǒng)搜索引擎的基礎上,提出具有語義分析、知識檢索、知識管理等功能的智能搜索引擎,而智能搜索引擎功能的實現,目前要建立在擁有較理想的概念層次結構、邏輯脫離能力,而且可進行語義信息表示的本體技術之上,結合語義進行。
1 基于本體技術的語義檢索
1.1 基于本體技術的語義檢索設計原理分析
傳統(tǒng)信息檢索主要通過條件檢索和導航檢索實現,而智能搜索引擎除了要應用以上兩種檢索方式外,更強調語義檢索,即基于本體和用戶的輸入條件,完成語義推理過程,對用戶檢索的意圖進行確定,進而以用戶檢索意圖為檢索方向進行查詢并向用戶反饋的檢索方式??梢娀诒倔w技術的語義檢索實際上就是用戶通過用戶界面,將搜索信息輸入數據處理和語義推理模塊,由其結合本體開發(fā)人員設計的本體知識庫和數據倉庫完成數據檢索服務的過程,換言之就是利用本體技術將用戶的搜索信息向搜索語義轉化的過程。在本體知識庫中主要存儲著描述術語等價關系的同位語義關系,描述語術包含關系的上下位語義關系兩種,前者用RelativeTerm表示,后者用BoraderTerm和NarrowerTerm表示,在本體技術知識庫建立的基礎上,結合使用規(guī)則,通過正向推理和反向推理,就可以將本體知識轉化成RDFS語義閉包,向用戶反饋,完成信息檢索過程。
1.2 基于本體技術的語義檢索實現過程分析
筆者認為要按照上述原理實現基于本體技術的語義檢索,要保證語義檢索系統(tǒng)包含以下三個結構:首先,數據服務器,在服務器中要包含以三元組形式存儲的語義詞典、知識庫等領域知識集合體;其次,Web業(yè)務層,在此結構中,既要包括可以將用戶信息檢索輸入信息向本體概念形式轉化,并依據JenaOWL推理引擎完成推理分析,實現語義求解,完成數據服務器檢索和反饋的信息檢索引擎,又要包括為語義推理提供依據的推理引擎。再次,Web終端,此結構的功能是與用戶建立連接關系,通過JSP技術對用戶的搜索進行獲取并將檢索的結果向用戶進行反饋。在以上三部分結構構成整體后,要完成信息檢索,需要先設定檢索算法,筆者認為在開始運行后,首先要通過計算機的檢索條件界面對用戶提供的查詢信息內容進行獲取,然后,依據結構中的功能語義詞典,對其需求功能的同位表達式、上位表達式和下位表達式進行獲取,然后將用戶提供的檢索信息與獲得的各種表達式作為檢索的條件進行檢索,向用戶反饋檢索結果。在以上語義檢索的過程中,必然要進行語義的推理,筆者認為在語義推理的過程中,首先推理機注冊機制要依據RDF三元組表述和本體知識庫形式,構建出產生包括推理機制模型對象的推理機,然后結合ModelAPI和OntologyAPI完成模型的處理。在此過程中需要注意以常規(guī)規(guī)則為基礎的推理機,或以自定義規(guī)則、第三方規(guī)則為基礎的推理機均可以結合實際需要進行靈活的選擇。另外,數據導入模型、模型檢索和檢索結果顯示過程均會影響到語義檢索的實際效果,在技術選擇方面均需要有意識的優(yōu)化。
2 基于本體技術的語義相似度分析
語義相似度是以語義距離為衡量的概念,換言之如果兩個語義之間的距離是無窮大的,則這兩個語義之間的相似度是非常低的,而如果兩個語義之間的距離無限接近于0,則可以視兩個語義是高度相似的,所以要對本體技術語義相似度進行分析,要有意識的建立以距離為基礎的語義相似度計算模型,在此模型構建的過程中,又要結合以下因素進行。首先語義重合度,即本體內部概念中上位關系概念相同概念的數量,此數據可以在一定程度上反映出本體概念的相同內容,在計算中直接將共同具有的內容以公共節(jié)點的形式表示。其次,語義深度,即本體內部概念所具有的層次深度,其通常與語義的相似度之間具有較顯著的正相關性;再次,語義距離,即本體中兩個節(jié)點連接通路中最短路徑所要經過的邊數,通常情況下,其具體的大小與語義相似度之間具有較顯著的負相關性。另外,語義密度,即與概念具有兄弟關系的階段的數量,通常情況下,其具體大小與語義相似度之間具有較顯著的正相關性。在進行檢索的過程中,向用戶反饋的檢索信息中包括的相似度信息通常為以上相似度反應勻速與對應的調節(jié)因子乘積之和。需要注意的是,除通過語義距離對語義相似度進行表示外,基于語義的屬性、領域本體也可以構建出反應語義相似度的模型。
在語義相似度的計算模型確定后,在信息檢索的過程中,要利用語義相似度進行信息檢索,可以在概念初始化后,對相似度閾值進行確定,然后利用相似度計算模型進行語義相似度計算,并按照序列輸出,為用戶提供檢索的結果,這在概率方面可以提升用戶獲得預期檢索結果的概率。
3 結論
通過上述分析可以發(fā)現,現階段人們已經認識到利用智能搜索引擎取代傳統(tǒng)搜索引擎,在提升信息檢索的效率和準確性方面的重要性,并在實踐中有意識的基于本體技術進行語義檢索的探究,并結合語義相似度對信息檢索過程進行優(yōu)化,語義檢索雖然設計的難度比傳統(tǒng)的關鍵詞檢索更大,但這是計算機信息檢索功能優(yōu)化的具體體現。
參考文獻
[1]朱禮軍,陶蘭,黃赤.語義萬維網的概念、方法及應用[J].計算機工程與應用,2013,11(21):167-168.
[2]白同強,劉磊.語義的研究與展望[J].吉林大學學報信息(科學版),2011,19(20):88-89.
[3]杜小勇,李曼,王大治.語義與本體研究綜述[J].計算機應用,2012,14(07):152-153.
[4]黃卿賢,胡谷雨.基于本體的網絡管理知識模型[J].北京郵電大學學報,2014,16(45):362-363.
作者單位
邵陽學院 湖南省邵陽市 422000