詹沐清
摘要:從互聯(lián)網(wǎng)獲取信息的手段中,Web信息抽取技術是有別于搜索引擎的,它能得到更精確和更具細粒度的信息,該文在分析了Web信息抽取技術在國內(nèi)外發(fā)展現(xiàn)狀的基礎上,提出了陶瓷產(chǎn)品信息Web信息抽取的技術路線,制定了抽取規(guī)則,開發(fā)出了一套抽取系統(tǒng),得到了相關陶瓷產(chǎn)品信息。
關鍵詞:Web抽??;陶瓷產(chǎn)品信息
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)24-5799-04
On the Application of Web Extraction System into the Ceramic E-commerce Website
ZHAN Mu-qing
(Modern Education Technology Center, Jingdezhen Ceramic Institute, Jingdezhen 333403,China)
Abstract: Among the ways of information acquisition from the internet, the Web Extraction Technology is different from Search Engine in that it can help people get more precise and more granular information. On the basis of analyzing the developing status of Web information extraction technology at home and abroad, this thesis is first to present the technical route of applying Web information exaction into the acquisition of the information of ceramic products, then to make the extraction rules, and finally to develop a set of extraction system in order to provide an access to the information of the relevant ceramic products.
Key words: Web Information extraction; information of ceramic products
隨著Internet上信息的爆炸式增長,萬維網(wǎng)(World Wide Web)已經(jīng)成為全球最大的、最重要的信息資源庫。如何從海量的Internet上快速準確地得到用戶想要的信息,大部分人是通過高知名度的Google、百度、Yahoo等搜索引擎工具進行查找,根據(jù)查詢請求,可以找到大量相關網(wǎng)頁信息,這些信息重復率高,內(nèi)容相互獨立,搜索引擎的“網(wǎng)絡爬蟲”收集不到網(wǎng)上數(shù)據(jù)庫里面的信息。因此,想要得到網(wǎng)絡中更精確更具細粒度的信息,同時又能把得到的信息形成數(shù)據(jù)庫,再根據(jù)需要進行進一步分析,便要運用到Web信息抽取技術,該文探討的就是針對陶瓷類網(wǎng)站如何進行Web信息抽取。
1 Web信息抽取的國內(nèi)外發(fā)展現(xiàn)狀
信息抽取研究始于上世紀80年代,當時具有代表性的抽取系統(tǒng)有Linguistic String系統(tǒng)、FRUMP系統(tǒng)和ATRANS系統(tǒng)等。90年代的時候互聯(lián)網(wǎng)開始蓬勃發(fā)展起來,這時信息抽取的主流變成了Web信息抽取,知名度較高的項目有卡耐基-梅隆大學“自動學習和發(fā)現(xiàn)中心(Center for Automated Learning and Discovery)”的“Web挖掘”項目;美國斯坦福大學開發(fā)出了一個從Web上提取半結構化信息的提取工具?,F(xiàn)在Web信息抽取技術已經(jīng)發(fā)展到了自動化階段,但有一個比較棘手的問題是抽取規(guī)則的適應性較差,抽取數(shù)據(jù)的準確率會隨著自動化程度越高而變得較低,實用性較差。
國內(nèi)最早涉及Web信息抽取系統(tǒng)研究的文獻資料是2001年4月發(fā)表的“基于結點語義關系的信息抽取技術”一文。距目前最近的有關文章是2013年12月發(fā)表的“基于互信息度量的Web信息抽取”一文,在該文中,提出基于互信息度量的Web 信息抽取方法,它能夠自動識別噪聲信息并保留關鍵信息,該方法將網(wǎng)頁解析成DOM 樹,計算葉子節(jié)點的互信息值;然后按DOM樹結構對葉子節(jié)點進行分塊聚集,向上遞歸求得標簽
的互信息值,并以此作為閾值區(qū)分噪聲與非噪聲。Web信息抽取系統(tǒng)研究這方面,國內(nèi)比較著名的有中國科學院的楊少華等人,提出了先生成數(shù)據(jù)模板,再利用檢測出的模板自動從網(wǎng)頁中抽取數(shù)據(jù)的新方法;浙江大學人工智能研究所提出的基于本體論的Web信息抽取等。截止目前為止,國內(nèi)外Web信息抽取系統(tǒng)研究中真正涉及陶瓷產(chǎn)品應用這一塊的不多,而本文正是主要針對陶瓷產(chǎn)品信息的Web抽取進行一些分析和研究。2 陶瓷產(chǎn)品信息Web抽取的技術路線
2.1 陶瓷產(chǎn)品信息Web抽取模型的確定
部分網(wǎng)站HTML代碼不規(guī)范,不符合XHTML標準,因此不能直接采取XPath來定位結點抽取信息。該文的設計思想是利用XHTML結構化的優(yōu)勢,通過引入PHP開源類庫SimpleDOM來進行HTML頁面解析,生成DOM樹結構,針對不同網(wǎng)站的DOM樹結點規(guī)律,解析頁面中的產(chǎn)品信息以及翻頁鏈接等其他信息,以實現(xiàn)對Web網(wǎng)頁文檔的相關信息抽取。根據(jù)查詢條件抽取得到的結果全部存立建立的
2.2 Web文檔的預處理
Web上的數(shù)據(jù)大部分是通過HTML來描述的,HTML摻雜了數(shù)據(jù)內(nèi)容及表現(xiàn)形式,不利于抽取,因此要進行Web文檔的預處理。這個處理過程一般分三步:j、將HTML文檔轉化為XHTML文檔;k、將XHTML解析為DOM樹;l、對DOM樹用匹配的方法進行過濾,去掉DOM樹中無關的節(jié)點及其內(nèi)容。
2.3 確定產(chǎn)品信息抽取規(guī)則
按站點形成產(chǎn)品信息抽取規(guī)則,如http://www.ccmall.cn/站點規(guī)則示例如下:
1) 找到頁面中ID為TableList的第一個表格
2) 循環(huán)獲取table中各行tr的第一個單元格
① [產(chǎn)品圖片鏈接]:第一個IMG標簽的SRC屬性
② [產(chǎn)品名稱]:類名為namelist的DIV中第一個A標簽的鏈接文字
③ [產(chǎn)品詳細信息鏈接]:類名為namelist的DIV中第一個A標簽的鏈接href
④ [產(chǎn)品廠家]:類名為namelist的DIV中“店鋪名稱:”后的文字
⑤ [發(fā)布時間]:類名為namelist的DIV中“發(fā)布時間:”后的文字
⑥ [產(chǎn)地]:類名為arealist的DIV的內(nèi)部文字
⑦[價格]:類名為price的SPAN的內(nèi)部文字
搭建好與之匹配的websiteextraction數(shù)據(jù)庫,確定信息抽取流程,檢索數(shù)據(jù)模型映射庫,利用該網(wǎng)站對應的數(shù)據(jù)模型映射規(guī)則,將XML文檔中的信息導入到websiteextraction數(shù)據(jù)庫。
3 系統(tǒng)前臺界面制作
3.1 系統(tǒng)登錄界面設計,效果如圖2所示
site: 站點信息表,用于儲存網(wǎng)頁抽取站點的基本信息
products:產(chǎn)品信息表,用于儲存網(wǎng)頁抽取的產(chǎn)品信息
search_product : 抽取結果關系表,用于儲存抽取條件與產(chǎn)品關聯(lián)系統(tǒng)
searchconditions : 抽取條件表,用于儲存抽取條件
4.2 功能實現(xiàn)
本系統(tǒng)主要通過搭建五個功能模塊來實現(xiàn)系統(tǒng)整個功能,分別為:登錄功能模塊index.php,信息抽取功能模塊search.php,抽取結果展示模塊result.php,SiteProductSearch類和MyDb類。
1) 登錄功能模塊index.php:該模塊主要用來實現(xiàn)登錄和注冊功能。
2) 信息抽取功能模塊search.php:該模塊主要用來輸入信息抽取條件,如把陶瓷按用途來分,可分為日用陶瓷,藝術(陳列)陶瓷,衛(wèi)生陶瓷,建筑陶瓷,電器陶瓷,電子陶瓷,化工陶瓷,紡織陶瓷,透千(燃氣輸機)陶瓷等。那我們抽取的時候就可以根據(jù)用戶需要分類進行抽取。
3) 抽取結果展示模塊result.php:該模塊用來顯示產(chǎn)品信息抽取結果,并支持EXCEL導出功能。根據(jù)查詢條件抽取得到的產(chǎn)品信息如何展示,這也是抽取系統(tǒng)的重要內(nèi)容。如上面我們根據(jù)“中國紅”這個條件得到的EXCEL圖,它按站點、產(chǎn)品、價格、圖片鏈接、產(chǎn)品鏈接、發(fā)布時間、廠商、產(chǎn)地、介紹等進行了分類。
4) SiteProductSearch類:該類按各站點實現(xiàn)相應條件的抽取,并從結果頁面中解析出產(chǎn)品信息。
部分功能代碼如下:
public function getName(){
return static::$siteInfo['name'];
}
static protected function getPageSimpleHtml($url){
$content = file_get_contents($url);
$charset = static::$siteInfo['encode'];
if($charset != 'utf8'){
$content = mb_convert_encoding($content, 'utf8', $charset);
}
$html = str_get_html($content);
if(!is_a($html, 'simple_html_dom')){
$html = null;
}
return $html;
}
abstract protected function getSerachUrl();
abstract protected function parseProducts($html);
abstract protected function parseNextPageUrl($html);
}
5) MyDb類:該類實現(xiàn)數(shù)據(jù)庫讀寫功能。
5 小結與展望
隨著信息化的高速發(fā)展,陶瓷產(chǎn)品信息在陶瓷企業(yè)發(fā)展中起著越來越重要的作用,該文為陶瓷產(chǎn)品信息的獲得提供了一個新的思路,然而這遠遠不夠,我們應該深挖客戶的需求,開發(fā)出更合理和實用的基于陶瓷類電子商務網(wǎng)站的Web信息抽取系統(tǒng),加強陶瓷產(chǎn)品信息的獲得和整理,規(guī)范陶瓷產(chǎn)品的信息資源,為陶瓷企業(yè)制定產(chǎn)品發(fā)展戰(zhàn)略提供決策依據(jù)。
參考文獻:
[1] ARASU Arvind, GARCIA-MOLINA Hector. Extracting structured data from Web pages[C].New York: Proc of the Int Conf on Management of Data,2003.
[2] 胡 睿,張冬茉,杜蓬.基于結點語義關系的信息抽取技術[J].計算機工程,2001(4).
[3] 張奇,等.基于互信息度量的Web信息抽取[J].計算機應用與軟件,2013(12).
[4] 于立艷.基于HTML的Web信息抽取技術的研究與應用[D].哈爾濱:哈爾濱工程大學,2011.