韋麗紅
摘要:隨著計(jì)算機(jī)應(yīng)用技術(shù)的不斷發(fā)展和網(wǎng)絡(luò)信息技術(shù)的進(jìn)步,人們的生活和工作以及商品社會(huì)的流通和交換都進(jìn)入了快速的網(wǎng)絡(luò)信息化時(shí)代。人們只需要簡單的輕觸鼠標(biāo)就可以了解到世界各地的信息,同世界范圍的人進(jìn)行交流、溝通和分享信息。之所以能夠如此簡單的實(shí)現(xiàn)信息的查找和定位,都要?dú)w功于網(wǎng)絡(luò)搜素引擎技術(shù)。該文就面向語義網(wǎng)的語義搜素引擎關(guān)鍵技術(shù)進(jìn)行詳細(xì)的討論和研究,希望為網(wǎng)絡(luò)搜素引擎技術(shù)的提高和發(fā)展提供一些借鑒和參考。
關(guān)鍵詞:語義搜索引擎;技術(shù)研究
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)12-2831-02
Research on Key Technologies for the Semantic Web Semantic Search Engine
WEI Li-hong
(Hulunbuir College, Hulunbuir 021008, China)
Abstract: With the advancement of computer technology continues to develop applications and network information technology, people live and work and social circulation and exchange of goods have entered the era of rapid information network. People only need a simple touch of the mouse you can learn information from around the world to communicate, communicate and share information with people worldwide. Has been able to achieve such a simple find and locate information, thanks to a network search engines technology. This paper conducted a semantic search engines for the key technologies of the Semantic Web detailed discussion and research, hoping to provide some reference for the search engines to improve network technology and development.
Key words: Technology research; semantic search engine
1 面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)概況
面向語義網(wǎng)的語義搜索引擎可以分為三種方式:首先,是常規(guī)的基于關(guān)鍵詞技術(shù)對(duì)網(wǎng)絡(luò)語義數(shù)據(jù)進(jìn)行重點(diǎn)處理的搜索引擎技術(shù);其次,是建立在以本體為重要組成部分的中心式語義數(shù)據(jù)數(shù)據(jù)處理技術(shù)的搜索引擎;最后,是以本體作為背景,對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)信息進(jìn)行分析、推理并提供相應(yīng)的數(shù)據(jù)處理能力的搜索引擎技術(shù)。這三種形式的基于語義搜索引擎技術(shù)都這有各自的數(shù)據(jù)處理功能和特點(diǎn),具體分析如下:
第一種關(guān)鍵詞技術(shù)的語義搜索引擎可以對(duì)網(wǎng)絡(luò)中的相關(guān)概念性信息、三元組以及語義標(biāo)簽進(jìn)行分析處理,通過匹配關(guān)鍵詞的方式來獲得相應(yīng)可能的語義數(shù)據(jù),作為響應(yīng)用戶的查詢請(qǐng)求,這種搜索引擎技術(shù)以google最具有代表性,此外在語義文檔上通過建立倒排索引和單獨(dú)建立針對(duì)本體文檔的N-GRAM索引,可以使用戶更加快速的查詢定位到相應(yīng)的語義文檔。第二種搜索引擎技術(shù)則是以實(shí)體為主要的搜索引擎處理單元,并提供給用戶相應(yīng)的需求單元,用戶獲得的通常是通過關(guān)鍵詞技術(shù)得來的實(shí)體集合。而第三種語義搜索引擎技術(shù)是包含實(shí)體,同時(shí)還可以實(shí)現(xiàn)語義的集成,是一種綜合性的新型語義搜索引擎關(guān)鍵技術(shù)。
2 面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)的特點(diǎn)
2.1 面向語義網(wǎng)的語義搜索引擎技術(shù)是更高層次描述方式
語義網(wǎng)技術(shù)集成了當(dāng)前網(wǎng)絡(luò)終端用戶的情境模型和搜索引擎結(jié)構(gòu)中的語義網(wǎng)技術(shù)應(yīng)用,是對(duì)目前的WWW網(wǎng)絡(luò)制式的進(jìn)一步擴(kuò)展,是促進(jìn)計(jì)算機(jī)和人類之間更加緊密合作的一項(xiàng)新型人機(jī)智能化應(yīng)用技術(shù)。語義網(wǎng)技術(shù)通常采用多層次形式表示框架XML,并在其中加入文檔模式來表示文檔結(jié)構(gòu),但就XML本身來講,是不具有描述結(jié)構(gòu)本身語義功能的,如果不對(duì)XML語義的元素解析,計(jì)算機(jī)是無法讀懂信息內(nèi)容的。因此,語義網(wǎng)技術(shù)中基于語義搜索引擎技術(shù)的更高層次的描述語言——RDF就可以定義相關(guān)元素的語義,也就是常說的具有三元組集特性,語義網(wǎng)中集合了XML和RDF就實(shí)現(xiàn)了語義網(wǎng)絡(luò)的人工智能,可以進(jìn)行相關(guān)事件的簡單推理。另外,完整的語義網(wǎng)還需要一個(gè)標(biāo)準(zhǔn)的概念體系,也作本體(Ontology)。而本體實(shí)際上是需要RDF子集的OWL進(jìn)行描述的,XML、RDF和Ontology三者之間構(gòu)成了完整的計(jì)算機(jī)引擎分析系統(tǒng)的基礎(chǔ),是語義搜索引擎更具智能化的重要組分。
2.2 面向語義網(wǎng)的語義搜索引擎是三種引擎技術(shù)相互關(guān)聯(lián)的統(tǒng)一整體
語義網(wǎng)的語義搜索引擎技術(shù)是將用戶情境模型和搜索引擎技術(shù)相結(jié)合在一個(gè)系統(tǒng)結(jié)構(gòu)中的,通過語義網(wǎng)和本體技術(shù)對(duì)用戶情境模型收集到的信息進(jìn)行處理,然后對(duì)情境信息進(jìn)行結(jié)構(gòu)和特征方面的形式化描述,轉(zhuǎn)化成可以被計(jì)算機(jī)理解的形式,最后在搜索引擎使用終端進(jìn)行呈現(xiàn)和使用。也就是說,面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)在于實(shí)現(xiàn)實(shí)體之間對(duì)情境信息完成語義理解,并根據(jù)已知本體的情境信息進(jìn)行推理,對(duì)搜索引擎找到的搜索結(jié)果進(jìn)行過濾、選擇和推薦,以滿足用戶的查詢需求。通常情況下,用戶端的搜索關(guān)鍵詞都具有某種聯(lián)系,通過語義網(wǎng)技術(shù)我們可以明確不同用戶使用搜索引擎過程中關(guān)鍵詞的這種內(nèi)在關(guān)聯(lián),當(dāng)用戶進(jìn)行關(guān)鍵詞檢索時(shí),語義網(wǎng)中的RDF就可以描述這種關(guān)系,并采用OWL對(duì)這種關(guān)系進(jìn)行解釋說明,達(dá)到明確關(guān)鍵詞之間關(guān)聯(lián)的目的,再通過三元組的形式將這種關(guān)聯(lián)存儲(chǔ)在本體中,以不同的意義標(biāo)識(shí)嵌入到相關(guān)網(wǎng)頁內(nèi)容中,從而實(shí)現(xiàn)相關(guān)關(guān)鍵詞內(nèi)容信息的快速查詢和呈現(xiàn)。簡而言之,面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)實(shí)際上是包含關(guān)鍵詞之間關(guān)聯(lián)內(nèi)容的統(tǒng)一整體。endprint
2.3 面向語義網(wǎng)的應(yīng)用搜索引擎關(guān)鍵技術(shù)的精準(zhǔn)性
在用戶使用搜索引擎進(jìn)行信息資料的檢索過程中,系統(tǒng)的情境管理分配的信息鏈接,也就是用戶檢索歷史信息,都可以作為擴(kuò)展搜索引擎的敘詞表,并根據(jù)用戶選取的最終檢索結(jié)果進(jìn)行跟蹤、定位、過濾和積累。對(duì)于檢索關(guān)鍵詞之間的關(guān)聯(lián)信息,需要將一些獨(dú)立的關(guān)鍵詞信息從結(jié)果中過濾出去,只吸收和包含關(guān)鍵詞又包含相關(guān)內(nèi)容關(guān)系的信息反饋給用戶,從而實(shí)現(xiàn)搜索引擎檢索結(jié)果的精簡和準(zhǔn)確,為用戶提供真正需要的信息資料。
2.4 面向語義網(wǎng)的應(yīng)用搜索引擎中的標(biāo)引技術(shù)應(yīng)用
對(duì)用戶使用搜索引擎的未來情境要進(jìn)行一系列的復(fù)雜推理,需要通過檢索歷史在本體技術(shù)上建立證明樹,并產(chǎn)生相應(yīng)的可在網(wǎng)絡(luò)中進(jìn)行查詢的語義標(biāo)記描述,將用戶的情境和對(duì)應(yīng)的信息庫的范圍盡量放大,從而提取并貯存用戶未來可能需要的情境信息,也可以在此基礎(chǔ)上適時(shí)為用戶推薦相關(guān)可能需要的信息資源。此外,還要善于管理和利用公共領(lǐng)域的本體資源,加強(qiáng)語義網(wǎng)的語義搜索引擎對(duì)于自然語言的解讀能力,再通過本體技術(shù)和語義網(wǎng)技術(shù)對(duì)相關(guān)信息進(jìn)行統(tǒng)一規(guī)范整理,建立起相似類目的使用規(guī)則和資源體系,實(shí)現(xiàn)信息資源庫構(gòu)建和搜索引擎標(biāo)記技術(shù)的統(tǒng)一,為用戶提供更好的信息資源和檢索體驗(yàn)。
3 面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)的應(yīng)用
3.1 用戶檢索情境模型的建立與搜索引擎相結(jié)合
通過收集用戶的檢索愛好,包括:習(xí)慣、目標(biāo)、心理、性格、行為、問題、專業(yè)、交流和文學(xué)創(chuàng)作以及工作內(nèi)容等方面的綜合信息,建立起適用于用戶的個(gè)性化動(dòng)態(tài)情境模型,對(duì)用戶的興趣、長期計(jì)劃、目標(biāo)進(jìn)行動(dòng)態(tài)關(guān)注,并進(jìn)行相應(yīng)的信息存儲(chǔ)、描述和推薦,將搜索引擎技術(shù)同情境模型相結(jié)合既可以實(shí)現(xiàn)搜索引擎的個(gè)性化定制,又可以建立起以用戶為中心的信息資源庫,滿足用戶各項(xiàng)檢索需求。
3.2 面向語義網(wǎng)的語義搜索引擎情境管理器模型的代理技術(shù)應(yīng)用
由于搜索引擎的用戶群體廣泛,涉及的問題十分復(fù)雜,范圍廣,數(shù)據(jù)信息龐雜,每時(shí)每刻計(jì)算機(jī)都要通過交互作用來獲取用戶的情境信息,因此,必須加強(qiáng)情境管理器的配置和管理。通過應(yīng)用不同的代理技術(shù)可以分?jǐn)偳榫彻芾砥鞯膲毫?,諸如采用情境接收器代理、情境文獻(xiàn)知識(shí)代理、查詢信息代理和集成服務(wù)代理,通過設(shè)置語義網(wǎng)的交互協(xié)議,可以根據(jù)用戶使用的喜好提出更加合理的建議,在語義網(wǎng)協(xié)議管理的條件下可以實(shí)現(xiàn)代理的自適應(yīng)性,實(shí)現(xiàn)搜索引擎技術(shù)的個(gè)性化定制服務(wù)和智能化集成應(yīng)用。
4 結(jié)束語
綜上所述,面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)在于建立智能化的人機(jī)一體化系統(tǒng)結(jié)構(gòu),同時(shí),還要具備動(dòng)態(tài)分析和推理用戶使用關(guān)鍵詞的進(jìn)一步意義,關(guān)聯(lián)到用戶可能同時(shí)感興趣的信息。此外,根據(jù)用戶輸入的關(guān)鍵詞進(jìn)行智能化識(shí)別,并采用主體存儲(chǔ)描述標(biāo)引技術(shù)使用戶在最短的時(shí)間內(nèi)找到所需信息資料是面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)發(fā)展的方向,也是實(shí)現(xiàn)搜索引擎為了智能化的重要途徑。
參考文獻(xiàn):
[1] 吳芳.基于用戶情境及語義網(wǎng)技術(shù)的個(gè)性化搜索引擎[J].江西圖書館學(xué)刊,2011,41(4):111-115.
[2] 袁穎,趙捧未.基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2010(7):1-3.
[3] 趙夷平.傳統(tǒng)搜索引擎與語義搜索引擎服務(wù)比較研究[J].情報(bào)科學(xué),2010,28(2):265-270.
[4] 張益民,呂英杰,盛國軍.搜索引擎服務(wù)內(nèi)容的發(fā)展現(xiàn)狀分析[J].現(xiàn)代情報(bào),2008(8): 9-11.
[5] 馬森,趙文,袁崇義,等.基于規(guī)則推理的語義檢索若干關(guān)鍵技術(shù)研究[J].電子學(xué)報(bào),2013,41(5):977-981.endprint