王旭仁,楊 碩,何發(fā)鎂,王彥麗,張為群
(1.首都師范大學(xué) 信息工程學(xué)院,北京100048;2.北京理工大學(xué) 圖書館,北京100081;3.西南大學(xué) 計算機與信息科學(xué)學(xué)院,重慶400715)
Web數(shù)據(jù)挖掘[1]重要的基礎(chǔ)研究內(nèi)容之一是Web頁面數(shù)據(jù)抽取,目前已經(jīng)有一些Web數(shù)據(jù)自動抽取方法[2-4]和系統(tǒng)[4-7]如Omini,RoadRunner,IEPAD,MDR,DEPAT等[5]。文獻 [6]提出了一種基于隱馬爾可夫模型的中文科研論文頭部信息和引文信息抽取算法,僅在局部進行歸一化處理。文獻 [7]采用條件隨機場 (conditional random fields,CRF)模型統(tǒng)計了全局概率,考慮了數(shù)據(jù)在全局的分布。文獻 [8]提出一種Web評論自動抽取方法,但這些系統(tǒng)[7,8]只能區(qū)分Web頁面中的記錄或者抽取到記錄的內(nèi)容,沒有對記錄 (records)包含內(nèi)容中更小信息單位——字段/數(shù)據(jù)項 (items)作進一步分析,抽取的信息粒度比較粗,不能適應(yīng)對字段分析要求較高的領(lǐng)域應(yīng)用需要,例如機票搜索、房產(chǎn)信息查詢等廣泛行業(yè)應(yīng)用。
以當下熱門的房產(chǎn)數(shù)據(jù)搜索為研究對象,抽取Web字段級的數(shù)據(jù),實現(xiàn)細粒度、穩(wěn)定性好的Web 數(shù)據(jù)抽取方法。對來自不同房產(chǎn)網(wǎng)站的大量頁面進行觀察分析后發(fā)現(xiàn):幾乎所有網(wǎng)站的頁面都可以概括為兩類:①列表頁 (record pages),列表頁包含了多個記錄,由于每個記錄都是由同一模板生成,所以其格式幾乎相同,在每個記錄中包含了對于該記錄的概要信息。通常還包含通往下一頁,上一頁的鏈接。②詳情頁 (content pages),描述了某個記錄的所有詳細信息,其中有部分信息和列表頁中該記錄的信息重合。如圖1所示。抽取器的目的就是要把這兩類網(wǎng)頁中信息結(jié)構(gòu)化地提取出來。
圖1 房產(chǎn)Web頁面分類
本文提出了一整套用于結(jié)構(gòu)化數(shù)據(jù)抽取的解決方案,包括瀏覽器的半自動化模板標注插件,訓(xùn)練模板庫的建設(shè),模板自動關(guān)聯(lián)模塊,以及可視化的驗證模塊等。對包裝器生成時所依賴的信息進行了基于穩(wěn)定性的分類,并且按照信息穩(wěn)定性的高低為每個字段生成多個抽取規(guī)則,在抽取時根據(jù)多個抽取規(guī)則進行抽取,只有在所有規(guī)則失效時才會導(dǎo)致抽取失敗,提高了抽取模板的穩(wěn)定性。
本文主要抽取以下房產(chǎn)信息屬性:標題、面積、總價、幾室、幾廳、幾衛(wèi)、小區(qū)、朝向、樓層、建造年代、聯(lián)系電話等。根據(jù)頁面提供內(nèi)容的差異,規(guī)定詳情頁只有至少抽取出標題,面積,價格3 個字段和屬性才算抽取成功,列表頁要抽取出詳情頁鏈接才算抽取成功。完整的抽取器系統(tǒng)框架如圖2所示,包括兩個過程:頁面模板訓(xùn)練過程和Web信息抽取過程。
圖2 Web抽取的整體框架
訓(xùn)練過程描述如下:
使用JQuery 在網(wǎng)頁的頂部生成模板標注工具的操作界面。
根據(jù)用戶的操作,生成字段抽取規(guī)則或模板 (Item Templets)。
輸出字段的<路徑,正則表達式>到后臺服務(wù)器 (Data Base)。
Web抽取過程描述如下:
對數(shù)據(jù)進行預(yù)處理(Preprocessing),例如歸一化處理等。
根據(jù)頁面的特征選擇包裝器Wrapper。
輸出提取的字段信息,進行整合提交給用戶,包括對信息的校驗。
在訓(xùn)練過程中半自動化模板抽取插件通過交互式的方法,生成每個字段的抽取規(guī)則,然后提交到后臺的候選模板庫中。后臺檢測到有新的字段抽取規(guī)則加入后,會自動將其與同一站點的每一個種子的訓(xùn)練網(wǎng)頁庫中的網(wǎng)頁進行匹配,如果匹配上,則將該字段匹配規(guī)則加入到該種子的模板中。最后,可以通過可視化模板驗證工具對模板的抽取正確性進行驗證。
本系統(tǒng)開發(fā)了一個半自動化的工具來生成模版,大大降低了模版配置的工作量。頁面模板庫的生成由4個子過程來完成:①半自動化模板標注 (annotating)插件;②訓(xùn)練模板;③模板自動關(guān)聯(lián)種子頁面;④可視化驗證。
通過GreaseMonkey 實現(xiàn)一個網(wǎng)頁模板標注工具。GreaseMonkeysw 優(yōu)點是實現(xiàn)跨瀏覽器平臺操作。
具體算法如下所示。
圖3是加上標注后的頁面。
圖3 在頁面上生成模板標注工具
無論是記錄頁面還是詳情頁面,對記錄或者字段進行路徑標注都非常關(guān)鍵。記錄塊的路徑定位最好的情況是不需要人工參與,文獻 [8]根據(jù)視覺信息對記錄進行定位。定位準確率有待進一步提高,文獻 [9]讓用戶先選擇一個記錄塊,然后利用記錄結(jié)構(gòu)的重復(fù)特征尋找其它的記錄塊,文獻[10]首先對主要數(shù)據(jù)區(qū)進行定位,進而應(yīng)用樹匹配的方法獲得各個記錄塊的DOM 子樹,無需用戶的干涉。
在上述算法中,Locate()函數(shù)用來定位標簽節(jié)點,在實現(xiàn)上有多種定位依據(jù):根據(jù)標簽位置信息,標簽的位置信息在網(wǎng)頁上經(jīng)常變化,獲取路徑不夠準確;根據(jù)標簽的類別 (class)屬性獲取路徑,一般說來,類別屬性可以對應(yīng)到某一類節(jié)點;根據(jù)標簽的標號 (id)屬性,某些節(jié)點擁有id屬性,而且id屬性在某一頁面中一般是唯一存在的,定位較準;使用頁面中的固定文本,這類文本一般穩(wěn)定性較好,很少在改版中發(fā)生變化,這些文本通??梢宰鳛榻Y(jié)構(gòu)化數(shù)據(jù)的提示文本,用于定位精確度較高。
本文提出一種用戶交互式的方法來定位記錄塊。由于部分網(wǎng)頁的記錄塊嵌套很多層,有的時候通過手工很難選擇到正確的記錄塊節(jié)點。所以本文采用兩次點擊記錄塊內(nèi)的節(jié)點,取其路徑的公共部分作為記錄塊的路徑,解決了節(jié)點錯選的問題,提高了準確率。算法省略。
由于詳情頁的內(nèi)容較豐富、格式復(fù)雜,字段路徑的定位要分情況討論,算法流程如圖4所示。
根據(jù)用戶的操作生成模板。在生成模板后,把標注到的路徑(Xpath),正則表達式 (regular expression),字段等信息提交到后臺服務(wù)器。因為有兩種類型頁面,需要生成兩個頁面包裝器(wrapper),分別是記錄頁面包裝器(record page wrapper)和詳情頁面包裝器(content page wrapper)。
對于詳情頁,匹配模板結(jié)構(gòu)是:<Item XPath:Item Regular Expression>。
其中Item XPath是定位到某一字段節(jié)點的路徑,Item Regular Expression是用于抽取出字段內(nèi)容的正則表達式。
對于列表頁,需要先定位到記錄(record),然后再對其中的具體字段定位,模板結(jié)構(gòu)為:
圖4 詳情頁字段路徑生成算法
記錄頁面或者詳情頁的模板向數(shù)據(jù)庫提交時,并不是直接將種子與模板直接關(guān)聯(lián)起來,因為一個種子可以有多個模板,一個模板可以對應(yīng)多個種子。所以在提交模板的時候,只是把標注的模板提交進候選模板庫,具體的關(guān)聯(lián)操作在監(jiān)控程序檢測到新模板加入時才會進行。
本文提出模板和種子的一種自動關(guān)聯(lián)算法。系統(tǒng)為每個種子維護了50個最新的網(wǎng)頁作為訓(xùn)練集,10個列表頁,40個詳情頁,這些網(wǎng)頁是在下載器在下載時自動更新到數(shù)據(jù)庫中的,從而可以保證是最新的網(wǎng)頁。
2.4.1 新加入模板自動關(guān)聯(lián)種子算法
該算法的關(guān)鍵是,遍歷每一個種子的所有訓(xùn)練集網(wǎng)頁,對網(wǎng)頁嘗試抽取,如果抽取成功,則說明該模板與該種子匹配,將模板與種子關(guān)聯(lián)上,一個模板可能匹配多個種子。
2.4.2 新加入種子自動關(guān)聯(lián)模板算法
由于一個站點可能會包含很多種子,而種子間的模板大都可以共享,所以當加入一個新種子的時候,首先對候選模板庫中的模板進行嘗試匹配。
在抽取器進行抽取時,如果被抽取的網(wǎng)頁是記錄網(wǎng)頁,①通過記錄塊的路徑XPath定位記錄;②通過字段的路徑XPath定位到具體某個字段節(jié)點;③經(jīng)過正則表達式對內(nèi)容進行過濾后,提取出最終的文本。如果抽取的網(wǎng)頁是詳情網(wǎng)頁,則跳過步驟①。
抽取成功是指從目標網(wǎng)頁中抽取出了所有的必需字段,必需字段是所有抽取字段的一個子集,由具體的產(chǎn)品要求而定。抽取成功率是指在下載到的目標網(wǎng)頁中,成功提取出必需字段的比例。
計算公式:Psuccess=網(wǎng)頁抽取成功數(shù)/下載網(wǎng)頁數(shù)
抽取準確率 (Precision)評價指標主要適用于字段,用于評估每個字段的抽取正確率。計算公式:Precision=Pcorrect/Ptotal。
Pcorrect是指抽取結(jié)果包含某屬性并且該屬性抽取正確的頁面數(shù);Ptotal是抽取結(jié)果中包含該屬性的頁面數(shù)。
系統(tǒng)進行為期1個月的測試運行,涉及房產(chǎn)行業(yè)內(nèi)網(wǎng)站12家,種子39個。
(1)抽取成功率
對于抽取器,本系統(tǒng)規(guī)定詳情頁只有至少抽取出標題,面積,價格才算抽取成功,列表頁要抽取出詳情頁鏈接才算抽取成功。抽取成功率統(tǒng)計見表1。
表1 抽取成功率統(tǒng)計
抽取失敗主要由于網(wǎng)站改版而使得模板失效導(dǎo)致,在監(jiān)控器進行報警后,模板失效問題平均可以在半小時內(nèi)解決。
(2)抽取準確率
對于標題,面積,價格,小區(qū)4 個字段抽取了500 個記錄進行檢查,統(tǒng)計結(jié)果見表2。
表2 抽取正確率統(tǒng)計
小區(qū)的抽取錯誤主要是因為詳情頁面的小區(qū)字段有兩種形式,一種帶鏈接,一種不帶鏈接,在配置模板階段,只配置了帶鏈接的情況,導(dǎo)致部分頁面無法抽取出小區(qū)。
這是本系統(tǒng)抽取生成的列表頁,可以看到抓取了搜房網(wǎng),易居網(wǎng),趕集網(wǎng)等站點的信息,展示出了價格,小區(qū),居室,地址等信息。如圖5所示。
圖5 系統(tǒng)效果
在現(xiàn)有交互式模板生成機制的基礎(chǔ)上,根據(jù)統(tǒng)計數(shù)據(jù)分析了網(wǎng)頁改版的特點,給出了一整套抽取的解決方案,包括半自動的模板生成工具,后臺的模板和種子的雙向自動關(guān)聯(lián)等模塊。在系統(tǒng)實際運行中,抽取成功率達到了列表頁99%,詳情頁96%的效果,以及多數(shù)字段抽取準確率100%,部分字段抽取準確率91%的效果。在將來的研究中,還需要對生成模板信息進行穩(wěn)定性分析和優(yōu)先級排序、對動態(tài)網(wǎng)頁的抽取處理等問題進行深入研究。
[1]Soumen Chakrabarti.Mining the Web:Discovering knowledge from hypertext data [M].Beijing:Posts & Telecom Press,2009 (in Chinese). [Soumen Chakrabarti.Web 數(shù) 據(jù) 挖 掘[M].北京:人民郵電出版社,2009.]
[2]Liu Hong,Ma Yinxiao.Web data extraction research based on wrapper and XPath technology [J].Advanced Materials Research,2011,271-273:706-712.
[3]Chang Chiahui,Kayed Mohammed,Girgis Moheb Ramzy,et al.A survey of Web information extraction systems[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1411-1428.
[4]TIAN Jianwei,LI Shijun.Retrieving Deep Web data based on hierarchy tree model[J].Journal of Computer Research and Development,2011,48 (1):94-102 (in Chinese).[田建偉,李石君.基于層次樹模型的Deep Web數(shù)據(jù)提取方法 [J].計算機研究與發(fā)展,2011,48 (1):94-102.]
[5]JI Chun,JIANG Qin, WU Zhengyue.Survey of vertical search engine key technology [J].Information Research,2012(10):91-93 (in Chinese).[季春,姜琴,吳錚悅.垂直搜索引擎關(guān)鍵技術(shù)研究綜述 [J].情報探索,2012 (10):91-93.]
[6]YU Jiangde,F(xiàn)AN Xiaozhong,YIN Jihao,et al.Information extraction from Chinese research papers based on hidden markov model[J].Computer Engineering,2007,33(19):190-192(in Chinese).[于江德,樊孝忠,尹繼豪,等.基于隱馬爾可夫模型的中文科研論文信息抽?。跩].計算機工程,2007,33(19):190-192.]
[7]LIU Wei,YAN Hualiang.Unified and automatic Web news object extraction approach [J].Computer Engineering,2012,38 (11):167-169(in Chinese).[劉偉,嚴華梁.一種統(tǒng)一的Web新聞對象自動抽取方法[J].計算機工程,2012,38(11):167-169.]
[8]LIU Wei,YAN Hualiang,XIAO Jianguo,et al.Solution for automatic Web review extraction [J].Journal of Software,2010,21 (12):3220-3236 (in Chinese).[劉偉,嚴華梁,肖建國,等.一種Web 評論自動抽取方法 [J].軟件學(xué)報,2010,21 (12):3220-3236.]
[9]GUAN Mian.Research on structured data extraction from Web forums [D].Jinan:Shandong University,2010 (in Chinese).[關(guān)冕.Web論壇結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)研究 [D].濟南:山東大學(xué),2010.]
[10]ZHANG Huiying.QU Zhuwei.Approach for interactive Web data extraction based on sub-tree matching [J].Computer Engineering,2006,32 (9):78-80 (in Chinese). [張慧穎,曲著偉.基于子樹匹配的交互式Web數(shù)據(jù)抽取方法 [J].計算機工程,2006,32 (9):78-80.]