趙昊 衛(wèi)剛 趙曉東
摘要:通過分析Deep Web信息的特點(diǎn),提出一個(gè)可搜索不同主題Deep Web框架。針對框架中Deep Web數(shù)據(jù)庫發(fā)現(xiàn)和Deep Web爬蟲爬行策略兩個(gè)難題,分別提出了使用通用搜索引擎以加快發(fā)現(xiàn)不同主題的Deep Web數(shù)據(jù)庫和采用常用字最大限度下載Deep Web信息的技術(shù)。
關(guān)鍵詞:Deep Web;web數(shù)據(jù)庫;數(shù)據(jù)挖掘;搜索引擎
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)16-3792-04
Research Based on Data Mining of the Deep Web
ZHAO Hao, WEI Gang, ZHAO Xiao-dong
(Electronic and Information Engineering Department, Tongji University, Shanghai 201804,China)
Abstract: Characteristics of deep web information are analyzed, and a framework of crawler for searching different subject information in deep web is put forward, to solve the difficult problems of deep web database discovery and deep web crawler crawling strategy, the tech? nologies of discovering different subject deep web database quickly to use the universal search engine and downloading deep web informa? tion to the utmost by adopting the commonly used Chinese characters are proposed respectively.
Key words: Deep Web; Web database; data mining; search engine
隨著Internet的發(fā)展和普及,如何從互聯(lián)網(wǎng)的海量信息中獲取有效的信息成為當(dāng)務(wù)之急。因此,以谷歌,百度等網(wǎng)頁搜索引擎為代表的Internet信息資源檢索技術(shù)發(fā)展迅猛。但是由于各種技術(shù)原因,傳統(tǒng)網(wǎng)頁搜索引擎一般只訪問Surface Web中利用超鏈接能夠到達(dá)的文件、靜態(tài)網(wǎng)頁等信息資源,潛藏在Deep Web網(wǎng)絡(luò)數(shù)據(jù)庫中得海量信息卻得不到發(fā)現(xiàn)和有效利用。為了提高網(wǎng)絡(luò)資源的利用率,Deep Web數(shù)據(jù)挖掘成為Internet信息資源挖掘的新方向。
深層網(wǎng)(Deep Web),也稱隱形網(wǎng)絡(luò)(Invisible Web)和隱藏網(wǎng)絡(luò)(Hidden Web)。Web網(wǎng)資源按其蘊(yùn)含信息的深度可以分為“表層網(wǎng)”(Surface Web)和“深層網(wǎng)”(Deep Web)兩大部分。表層網(wǎng)(Surface Web)是指存儲在Web并由超鏈接指向的文件、靜態(tài)網(wǎng)頁等資源,一般可以被傳統(tǒng)搜索引擎訪問到。深層網(wǎng)(Deep Web)是指存儲在網(wǎng)絡(luò)數(shù)據(jù)庫中、超鏈接無法指向而只能通過動態(tài)網(wǎng)頁訪問的資源集合,一般不能被傳統(tǒng)的搜索引擎覆蓋到。Deep Web的資源容量是Surface Web的數(shù)百倍,而且信息更專業(yè),更有價(jià)值。
訪問Deep Web網(wǎng)絡(luò)數(shù)據(jù)庫中的資源,需要通過動態(tài)網(wǎng)頁的查詢接口提交查詢,Deep Web的數(shù)據(jù)挖掘和傳統(tǒng)搜索引擎的差別在于:
1)Deep Web數(shù)據(jù)挖掘檢索后對結(jié)果的排序依據(jù)資源的某個(gè)屬性的值,而搜索引擎檢索結(jié)果的排序依據(jù)搜索結(jié)果與查詢關(guān)鍵詞的相似程度。
2)Deep Web網(wǎng)絡(luò)數(shù)據(jù)庫的接口通常比較復(fù)雜,提供多種屬性的選擇,而搜索引擎的接口相對簡單,一般為關(guān)鍵詞的輸入即可。
3)Deep Web數(shù)據(jù)挖掘的結(jié)果多是結(jié)構(gòu)化的數(shù)據(jù)資源,而搜索引擎的結(jié)果通常是Web網(wǎng)頁。
在Deep Web的研究與應(yīng)用中,上述的第三部分內(nèi)容更受關(guān)注,這是因?yàn)榻Y(jié)構(gòu)化信息更有利用價(jià)值且有大量與之相關(guān)的技術(shù)。Deep Web數(shù)據(jù)挖掘通常是對網(wǎng)絡(luò)數(shù)據(jù)庫中結(jié)構(gòu)化數(shù)據(jù)的提取。網(wǎng)絡(luò)數(shù)據(jù)庫(WDB)是指web中可通過接口訪問的在線數(shù)據(jù)庫。靜態(tài)頁面可以通過超鏈接直接訪問,而網(wǎng)絡(luò)數(shù)據(jù)庫中的內(nèi)容沒有超鏈接指向,只有當(dāng)用戶查詢時(shí)生成動態(tài)頁面,將查詢結(jié)果返回給用戶(如圖1所示)。
以商業(yè)網(wǎng)絡(luò)數(shù)據(jù)庫為例,如圖書網(wǎng)站當(dāng)當(dāng)(http://home.dangdang.com),若用戶想要查詢有關(guān)數(shù)據(jù)庫方面的圖書,需要在如圖2(a)所示的圖書查詢的查詢接口中填入相關(guān)信息并提交,該動態(tài)網(wǎng)頁就會返回給用戶如圖2(b)所示的符合查詢條件的結(jié)果頁面。
1主題Deep Web數(shù)據(jù)挖掘中的關(guān)鍵部分及其解決方案
基于用戶可以通過網(wǎng)站動態(tài)網(wǎng)頁的查詢接口訪問隱藏在Deep Web后臺網(wǎng)絡(luò)數(shù)據(jù)庫的資源信息,該文提出一個(gè)主題Deep Web數(shù)據(jù)挖掘的框架。如圖3所示,使得該框架可以從Internet上發(fā)現(xiàn)既定主題的網(wǎng)絡(luò)數(shù)據(jù)庫,并能利用網(wǎng)站動態(tài)網(wǎng)頁提供的查詢接口,訪問后臺網(wǎng)絡(luò)數(shù)據(jù)庫,最后從返回的結(jié)果網(wǎng)頁中提取結(jié)構(gòu)化的Deep web數(shù)據(jù)信息。以下是框架中各部分的作用及其解決方法的詳細(xì)介紹。
圖5信息抽取過程
1)利用HTML Parser對返回的HTML源文件進(jìn)行規(guī)范化和解析,得到文檔對象模型樹(DOM Tree),進(jìn)而分析網(wǎng)頁結(jié)構(gòu)。2)通過對DOM Tree的相互匹配對比,除去頁面中重復(fù)部分和無關(guān)主題信息的部分,完成樣本樹的剪枝。3)利用數(shù)據(jù)塊定位法過濾信息DOM Tree無關(guān)抽取信息塊的數(shù)據(jù)塊,并生成規(guī)則。4)利用規(guī)則處理其它同站點(diǎn)返回頁面的信息抽取,并將結(jié)果存入臨時(shí)數(shù)據(jù)表中。5)匯總上述抽取過程產(chǎn)生的臨時(shí)數(shù)據(jù)表,經(jīng)數(shù)據(jù)融合模塊合并成一個(gè)主題結(jié)果數(shù)據(jù)庫。
1.5本地主題數(shù)據(jù)庫
本地主題數(shù)據(jù)庫用于存儲返回的結(jié)果頁面集以及處理后結(jié)構(gòu)化的Deep Web數(shù)據(jù)信息。
Deep Web中蘊(yùn)藏著眾多的網(wǎng)絡(luò)數(shù)據(jù)庫,而且覆蓋了現(xiàn)實(shí)世界的各個(gè)專業(yè)領(lǐng)域。研究和挖掘Deep Web有利于提高搜索準(zhǔn)確率和覆蓋率,因此對Deep Web數(shù)據(jù)的集成及利用成為當(dāng)下研究的熱點(diǎn)。該文通過總結(jié)該領(lǐng)域的相關(guān)研究成果,包括主題Deep Web網(wǎng)絡(luò)數(shù)據(jù)庫的發(fā)現(xiàn)、網(wǎng)絡(luò)數(shù)據(jù)庫的查詢接口模式、結(jié)果數(shù)據(jù)結(jié)構(gòu)化抽取等等,指出存在的技術(shù)問題并提出可能的解決方案。總之,Deep Web數(shù)據(jù)挖掘及集成仍處于研究與探索的階段,還需后續(xù)更為深入的研究。
[1]劉偉,孟小峰,孟衛(wèi)一.Deep Web數(shù)據(jù)集成研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2007(9):1475-1489.
[2]王冉冉,王剛,黃青松.基于Deep Web的信息采集系統(tǒng)[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2007, 17(10): 171-173.
[3]鄭冬冬,崔志明. Deep Web爬蟲爬行策略研究[J].計(jì)算機(jī)工程與設(shè)計(jì), 2006, 27(10): 3154-3158.
[4] He Bin, Patel Mitesh, Zhang Zhen, et a1. Accessing the Deep web: A survey[R]. Department of computer science, UIUC,2004.