房 屹
(山東絲綢紡織職業(yè)學(xué)院,山東 淄博 255300)
隨著Internet資源的迅速增長,網(wǎng)絡(luò)資源愈發(fā)豐富,傳統(tǒng)的基于HTML的搜索技術(shù)的準(zhǔn)確率水平亟待提高。XML標(biāo)記語言可以明確的標(biāo)記多樣化的網(wǎng)絡(luò)信息,通過內(nèi)容與標(biāo)記之間的關(guān)系準(zhǔn)確定位,查找目標(biāo)。突破了傳統(tǒng)意義的全文檢索方式,減小了搜索范圍,提高搜索的精度與準(zhǔn)確度。
可擴(kuò)展標(biāo)記語言(Extensible Markup Language, XML)是互聯(lián)網(wǎng)聯(lián)合組織(W3C)創(chuàng)建的一組規(guī)范,為了便于網(wǎng)頁信息的組織而設(shè)計(jì)的。XML是一種元標(biāo)記語言,它以一種開放的自我描述方式定義數(shù)據(jù)結(jié)構(gòu),在描述數(shù)據(jù)內(nèi)容的同時(shí)能突出對結(jié)構(gòu)的描述,從而體現(xiàn)出數(shù)據(jù)之間的關(guān)系,這樣所組織的數(shù)據(jù)對于應(yīng)用程序和人類都是友好的、可操作的。所以,XML是一種優(yōu)秀的數(shù)據(jù)打包和數(shù)據(jù)交換的形式。為分析和轉(zhuǎn)換 XML文檔,XML還提供了DOM、SAX等技術(shù)于實(shí)現(xiàn)對XML文檔的解析,并提供Xpath、Xquery等查詢語言實(shí)現(xiàn)對XML文檔的有效查詢,形成XML搜索技術(shù)。
在基于XML的搜索引擎的設(shè)計(jì)中,對特定結(jié)構(gòu)的XML文檔存儲網(wǎng)站W(wǎng)eb信息,將有關(guān)Web頁面的內(nèi)容或超級鏈接文本以及它們對應(yīng)的URL分層保存在XML文檔中,并通過對XML文檔的解析實(shí)現(xiàn)信息的錄入、更新、修改,最后設(shè)計(jì)利用XML查詢技術(shù)的檢索器,通過對存儲查詢信息的 XML文檔進(jìn)行檢索,按用戶查詢字找到對應(yīng)的Web頁面的URL,在用戶瀏覽器端返回其所指的Web頁,從而實(shí)現(xiàn)基于XML的Web信息搜索。
建立Web信息集成平臺的目的就是為用戶提供涉及多個Web信息源的統(tǒng)一查詢機(jī)制?,F(xiàn)在一般有兩種方法:虛擬(virtual)方法和數(shù)據(jù)倉庫(warehousing)方法。虛擬方法是基于一個“中間模式”,但數(shù)據(jù)仍保存在各個參加集成的數(shù)據(jù)源中,通過各數(shù)據(jù)源的“包裝程序”(wrappers)將數(shù)據(jù)虛擬成中間模式,用戶的查詢是基于中間模式,即建立一個虛擬數(shù)據(jù)庫。數(shù)據(jù)倉庫法是建立一個數(shù)據(jù)倉庫,并將參加集成的各個不同的信息源裝入數(shù)據(jù)倉庫,用戶的查詢是基于數(shù)據(jù)倉庫的數(shù)據(jù)?;?XML和ASP語言的中間層方法能夠從多個不同結(jié)構(gòu)的數(shù)據(jù)源中集成數(shù)據(jù),并以XML文檔的形式把這些數(shù)據(jù)交付給查詢用戶。
用戶興趣建模為用戶提供個性化信息服務(wù),是信息推薦系統(tǒng)的核心,它代表每個用戶的不同信息需求。目前普遍采用的建立用戶興趣模型的顯示獲取和隱式獲取方式都存在一定的缺陷:以關(guān)鍵字的方式提供用戶興趣的用戶經(jīng)常不能準(zhǔn)確地表達(dá)自己的興趣;從目標(biāo)樣本文檔提取用戶興趣的不能全面發(fā)現(xiàn)用戶的興趣;用戶主動方式建立興趣的不能自動更新用戶的興趣。因此本文采用顯示和隱式相結(jié)合的方式建立用戶興趣模型。先通過用戶注冊時(shí)填寫用戶興趣的信息建立起粗略的用戶興趣模型(此部分是可選擇的,如果用戶認(rèn)為耽誤時(shí)間或怕麻煩等也可以不填),然后系統(tǒng)根據(jù)用戶的瀏覽內(nèi)容和瀏覽行為自動構(gòu)建準(zhǔn)確的用戶興趣模型,并通過對搜索結(jié)果的反饋信息更新用戶興趣。這樣可在用戶沒有明確參與的情況下,建立并更新用戶興趣。
目前關(guān)于XML數(shù)據(jù)的查詢處理都是針對專門的XML存儲系統(tǒng),對于底層采用數(shù)據(jù)庫管理系統(tǒng)的情況,則是通過將XML查詢語言書寫的查詢轉(zhuǎn)換為關(guān)系#K&語言或OK&語言查詢,利用傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的查詢處理功能來完成用戶的查詢請求。
該方法與傳統(tǒng)數(shù)據(jù)庫中的查詢處理類似,大致有以下幾個步驟:一是對查詢進(jìn)行語法分析,并將其轉(zhuǎn)換為傳統(tǒng)的SQL的形式;二是邏輯查詢計(jì)劃性生成器產(chǎn)生一個邏輯查詢計(jì)劃;三是這個邏輯查詢計(jì)劃可以產(chǎn)生很多的物理查詢執(zhí)行計(jì)劃,而物理計(jì)劃由一些物理操作符構(gòu)成,這些操作符可由查詢執(zhí)行引擎執(zhí)行。查詢優(yōu)化器通過存儲的統(tǒng)計(jì)信息和開銷模型,從眾多的物理查詢執(zhí)行計(jì)劃中選出一個最優(yōu)的;四是提交給查詢計(jì)劃執(zhí)行引擎完成查詢,并返回查詢結(jié)果。
與基于HTML的搜索引擎相比,基于XML的站內(nèi)搜索引擎適應(yīng)了計(jì)算機(jī)技術(shù)的發(fā)展需要,它的優(yōu)點(diǎn)是:①由于 XML文檔對內(nèi)容和結(jié)構(gòu)的良好支持,使搜索引擎脫離了對數(shù)據(jù)庫的依賴,并較好的支持了非結(jié)構(gòu)信息的處理。②與數(shù)據(jù)庫文件相比,XML文件存儲容量較小,減小了對存儲空間的占用,并有利于提高查詢速度。③借助于支持XML的API,減輕了數(shù)據(jù)錄入和管理的人工操作,并易于實(shí)現(xiàn)搜索信息的動態(tài)更新;實(shí)現(xiàn)了Web搜索引擎;實(shí)現(xiàn)了對Web站點(diǎn)的全部文本、圖片、音頻三類數(shù)據(jù)的索引,并且采用了 XML作為數(shù)據(jù)存儲容器,它能在大量信息的環(huán)境下大大節(jié)省空間和提高索引的速度。此外,由于 XML文檔結(jié)構(gòu)的可擴(kuò)展性,通過增加新元素和對檢索器應(yīng)用程序進(jìn)行微小調(diào)整,既可容易地進(jìn)一步擴(kuò)展搜索引擎查詢方式,如按Web頁面建立時(shí)間查詢等。并且,在動態(tài)擴(kuò)展方面,基于XML的搜索引擎也具有獨(dú)特優(yōu)勢。
本文對現(xiàn)有的XML搜索技術(shù)進(jìn)行了分析,對Web信息的集成、用戶興趣模型的建立和更新、XML數(shù)據(jù)的查詢處理方法,給出了索引的數(shù)據(jù)結(jié)構(gòu)以及查詢的優(yōu)化算法,使網(wǎng)絡(luò)信息查詢更加靈活簡便。
1 陳金森.XML搜索引擎中索引技術(shù)的研究[D].燕山大學(xué),2006