国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)系數(shù)據(jù)庫中XML全文檢索系統(tǒng)的研究與實(shí)現(xiàn)

2017-12-21 18:39吳勝斌
關(guān)鍵詞:關(guān)系數(shù)據(jù)庫

吳勝斌

摘要:本文提出一種以關(guān)系數(shù)據(jù)庫作為核心的XML全文檢索系統(tǒng),該系統(tǒng)具備全文檢索功能,能夠進(jìn)行元素級(jí)別的查詢,同時(shí)還能夠?qū)?shù)據(jù)庫查詢與全文檢索進(jìn)行緊密結(jié)合,使其能夠按照元素與文檔的重要程度進(jìn)行排序。

關(guān)鍵詞:關(guān)系數(shù)據(jù)庫;XML;全文檢索系統(tǒng)

中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)10-0072-01

社會(huì)信息化的發(fā)展使傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)難以滿足人們?nèi)找嫣嵘膽?yīng)用需求,而XML的發(fā)展也使其成為數(shù)據(jù)交換的全新標(biāo)準(zhǔn),這也使人們對(duì)XML文檔的查詢開展了大量的研究。當(dāng)前對(duì)XML文檔查詢的研究主要集中在XML文檔的結(jié)構(gòu)化方面,但對(duì)于XML關(guān)鍵字的檢索方面仍舊處于初步研究階段。

1 關(guān)系數(shù)據(jù)庫中XML全文檢索系統(tǒng)的研究

1.1 系統(tǒng)架構(gòu)的研究

關(guān)系數(shù)據(jù)庫中XML全文檢索系統(tǒng)的系統(tǒng)架構(gòu)與SQL Server的體系結(jié)構(gòu)類似,其頂層用戶能夠利用Web服務(wù)來進(jìn)行檢索功能,Web服務(wù)器會(huì)按照用戶檢索時(shí)的關(guān)鍵字來進(jìn)行轉(zhuǎn)換,使其轉(zhuǎn)換成SQL傳輸至服務(wù)器后臺(tái),關(guān)系數(shù)據(jù)庫的查詢引擎在檢測(cè)到用戶需要進(jìn)行全文索引時(shí),會(huì)從關(guān)系數(shù)據(jù)庫中對(duì)XML全文檢索引擎進(jìn)行調(diào)用,然后用于查詢工作。該系統(tǒng)還能夠?qū)θ臋z索模塊進(jìn)行調(diào)用,從而構(gòu)建出相應(yīng)的倒排索引。該系統(tǒng)與SQL Server不同的是,SQL Server會(huì)利用進(jìn)程間通信,而SQL Server系統(tǒng)則是將關(guān)鍵字與數(shù)據(jù)庫查詢進(jìn)行了結(jié)合。XML全文檢索系統(tǒng)具備以下特點(diǎn),首先,該系統(tǒng)能夠支持XML全文檢索,對(duì)XML文檔的檢索查詢的最高精度能夠達(dá)到element級(jí)別,并按照文檔級(jí)別來按照用戶需求進(jìn)行選擇。其次,XML全文檢索系統(tǒng)與XRank相比,XML全文檢索系統(tǒng)與數(shù)據(jù)庫查詢引擎實(shí)現(xiàn)了緊密的耦合,這也使其能夠適用于復(fù)雜內(nèi)容的查詢。再次,該系統(tǒng)能夠使用戶對(duì)Rank函數(shù)進(jìn)行靈活定義,進(jìn)而達(dá)到節(jié)省檢索時(shí)間的目的。最后,該系統(tǒng)能夠?qū)OT、AND、OR等多種復(fù)雜表達(dá)形式的關(guān)鍵詞予以支持,利用關(guān)系數(shù)據(jù)庫便能夠?qū)崿F(xiàn)SQL語句的邏輯運(yùn)算[1]。

1.2 Dewey ID編碼方式的研究

在傳統(tǒng)的倒排索引當(dāng)中,其在進(jìn)行索引時(shí)只是對(duì)文檔中單詞的位置信息進(jìn)行了記錄,而XML文檔不僅要對(duì)位置信息進(jìn)行記錄,還要對(duì)元素信息進(jìn)行記錄,因此需要對(duì)這些XML文檔中的元素信息進(jìn)行編碼,編碼方式有很多,但能夠適用于XML全文檢索的只有Dewey ID的研究。Dewey ID編碼方式不僅能夠?qū)υ厮穆窂叫畔⑦M(jìn)行記錄,還能夠通過不同元素間公共父元素的比較來對(duì)最長(zhǎng)字符串進(jìn)行匹配,而這有助于改善多關(guān)鍵字檢索時(shí)會(huì)將最近的公共父元素當(dāng)做檢索結(jié)果的問題。在應(yīng)用Dewey ID編碼方式時(shí),應(yīng)對(duì)其進(jìn)行擴(kuò)展,擴(kuò)展后的第一數(shù)值便是XML文檔的ID。將Dewey ID編碼方式進(jìn)行倒排是最為簡(jiǎn)單的方法,但這樣做會(huì)使倒排索引項(xiàng)產(chǎn)生不定長(zhǎng)問題,而且需要進(jìn)行重復(fù)存儲(chǔ)。因此,為了解決這一問題,還需要在Dewey ID倒排索引的基礎(chǔ)上再構(gòu)建一層自索引,這樣做能夠有效避免重復(fù)存儲(chǔ)問題的出現(xiàn),同時(shí)還能夠?qū)υ刂械年P(guān)鍵詞位置進(jìn)行快速查找[2]。

自索引的建立過程中,由于其在進(jìn)行掃描時(shí)是按照從左向右的方式進(jìn)行的,新結(jié)構(gòu)的增加也只是在最右邊,而且平面倒排索引的增長(zhǎng)方向是從左向右的,因此對(duì)于自索引倒排索引的建立相對(duì)較為簡(jiǎn)單。自索引的倒排建立算法如圖1所示。

該算法需要對(duì)所有XML文檔中的元素進(jìn)行全部掃描。在采用該算法進(jìn)行全文檢索時(shí),可能存在以下情形,第一種情形是給定的關(guān)鍵字能夠返回全部位置信息,這種情形只需要進(jìn)行遍歷G就可以;第二種情形是Dewey ID與給定的關(guān)鍵詞返回全部位置信息,這只需要按照Dewey ID的路徑并返回位置信息即可,其代價(jià)也只是對(duì)相應(yīng)G與自索引樹的遍歷。第三種情形是文件ID與給定的關(guān)鍵詞返回文件時(shí)產(chǎn)生關(guān)鍵詞的全部位置信息,這種情形可以按照文件ID的順序進(jìn)行掃描就能夠明確后續(xù)文檔的開始。

1.3 與查詢引擎的結(jié)合研究

為了使關(guān)系數(shù)據(jù)庫能夠與查詢引擎實(shí)現(xiàn)無縫結(jié)合,索引類型可以參照CoDB中的Btree或Hash進(jìn)行,即建立一種FTI索引類型,這樣不僅能夠建立索索引,還能夠利用Select語句來實(shí)現(xiàn)查詢。CoDB對(duì)索引的設(shè)計(jì)具有獨(dú)到之處,它能夠非常靈活的對(duì)新型索引類型進(jìn)行加入,并且只需要設(shè)置接品函數(shù),并在XML全文檢索系統(tǒng)的注冊(cè)表中對(duì)函數(shù)進(jìn)行注入即可。

1.4 重要度計(jì)算方式的研究

在系統(tǒng)的重要度計(jì)算方式中,應(yīng)加入衰減率概念,之所以要加入衰減率概念是因?yàn)樵谙到y(tǒng)中對(duì)XML關(guān)鍵字檢索的定義是將下劃線部分與粗體字全部作為檢索結(jié)果,不過下劃線部分要明顯優(yōu)于粗體字,因此為了使下劃線的重要程度能夠高于粗體字部分,需要加入衰減率概念。其計(jì)算方式是將檢索詞的關(guān)鍵字進(jìn)行找出,然后將ElementA中關(guān)鍵字的權(quán)重進(jìn)行定義,進(jìn)而明確衰減率的取值范圍,并在元素中找出關(guān)鍵詞中的各個(gè)元素。根據(jù)祖先節(jié)點(diǎn)中詞的重要性是以遞減形式呈現(xiàn)的原則能夠?qū)υ卦跈z索詞的重要度進(jìn)行計(jì)算。關(guān)鍵字的權(quán)重可以按照兩大原則進(jìn)行計(jì)算,其一是Element名字是關(guān)鍵字時(shí)的重要度高,其二是出現(xiàn)頻率越高的關(guān)鍵字重要度就越高。利用Rank函數(shù)能夠?qū)λ蠿ML文檔的Rank值進(jìn)行獲取,并利用Order by語句來排序[3]。

2 關(guān)系數(shù)據(jù)庫中XML全文檢索系統(tǒng)的實(shí)現(xiàn)

將關(guān)系數(shù)據(jù)庫中XML全文檢索系統(tǒng)與SQL Server全文檢索系統(tǒng)進(jìn)行對(duì)比,測(cè)試集為dblp,測(cè)試計(jì)算機(jī)為內(nèi)存512M、CPU P4 2.0G、硬盤80G,XML全文檢索系統(tǒng)的測(cè)試平臺(tái)為L(zhǎng)inux系統(tǒng),SQL Server全文檢索系統(tǒng)的測(cè)試平臺(tái)是Windows 2000 Server,對(duì)比內(nèi)容為建立索引時(shí)間、多關(guān)鍵字索引時(shí)間與單關(guān)鍵字索引時(shí)間。測(cè)試結(jié)果表明XML系統(tǒng)的索引建立時(shí)間與SQL Server系統(tǒng)相差不多,但對(duì)查詢時(shí)間卻遠(yuǎn)遠(yuǎn)超過SQL Server系統(tǒng)。由此可以證明,關(guān)系數(shù)據(jù)庫中XML全文檢索系統(tǒng)的檢索速度更快,在全文檢索功能上要更加優(yōu)越。

參考文獻(xiàn)

[1]蘇新寧.基于XML的中文全文檢索關(guān)鍵技術(shù)及其發(fā)展——簡(jiǎn)評(píng)《XML文檔全文檢索的理論與方法》[J].情報(bào)科學(xué),2013,(11):155-158.

[2]林子雨,楊冬青,王騰蛟,張東站.基于關(guān)系數(shù)據(jù)庫的關(guān)鍵詞查詢[J].軟件學(xué)報(bào),2010,(10):2454-2476.

[3]戴經(jīng)國,李運(yùn)智,謝東.關(guān)系數(shù)據(jù)庫的關(guān)鍵詞檢索[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009,(08):37-42.

猜你喜歡
關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫在高爐數(shù)據(jù)采集系統(tǒng)中的應(yīng)用
關(guān)系數(shù)據(jù)庫技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)設(shè)計(jì)中的應(yīng)用
基于索引結(jié)構(gòu)的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索
一種基于數(shù)據(jù)圖劃分的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索方法
和平县| 苏尼特左旗| 新竹市| 汤原县| 广元市| 乌鲁木齐市| 深水埗区| 中山市| 阳泉市| 临沭县| 台东市| 邮箱| 武安市| 桐庐县| 界首市| 池州市| 榆社县| 额敏县| 景泰县| 田阳县| 扶绥县| 肥东县| 页游| 郴州市| 井陉县| 永兴县| 广宗县| 清新县| 高密市| 资讯 | 防城港市| 航空| 龙泉市| 宾川县| 五峰| 武平县| 广饶县| 姚安县| 新营市| 林芝县| 济南市|