網(wǎng)頁信息自動(dòng)抽取技術(shù)的研究

2010-08-07 08:42胡少榮孟嗣儀張彥超

鐵路計(jì)算機(jī)應(yīng)用 2010年9期

胡少榮，孟嗣儀，劉云，張彥超，丁飛

（北京交通大學(xué)網(wǎng)絡(luò)輿論安全研究中心100044）

隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展及其應(yīng)用的深入，網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體之一。輿情是指在一定的社會(huì)空間內(nèi)，圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化，民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。它是公眾通過互聯(lián)網(wǎng)傳播的對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。網(wǎng)絡(luò)輿情表達(dá)快捷、信息多元，方式互動(dòng)，具備傳統(tǒng)媒體無法比擬的優(yōu)勢(shì)，因此越來越受到人們的關(guān)注。近些年來，隨著國內(nèi)網(wǎng)民數(shù)量的日益增長，網(wǎng)絡(luò)輿論所具有的強(qiáng)大力量在一些重大新聞事件中得到了很大程度的彰顯。因此科學(xué)分析輿論，對(duì)于網(wǎng)絡(luò)輿情的正確引導(dǎo)和管理，具有重要的現(xiàn)實(shí)意義。網(wǎng)絡(luò)作為巨大的數(shù)據(jù)源，如何從中提取出人們所關(guān)心的信息，濾除無用信息，是當(dāng)今研究的熱點(diǎn)。網(wǎng)絡(luò)輿情分析中網(wǎng)頁信息自動(dòng)抽取技術(shù)的研究應(yīng)運(yùn)而生。

1 網(wǎng)頁信息抽取技術(shù)

網(wǎng)絡(luò)輿情分析中的網(wǎng)頁信息抽取技術(shù)通過對(duì)網(wǎng)頁進(jìn)行處理，用一組信息描述所需要提取的信息，將其結(jié)構(gòu)化后保存到數(shù)據(jù)庫中，方便用戶獲取和利用這些信息。網(wǎng)頁信息抽取的關(guān)鍵是保證信息抽取算法的準(zhǔn)確性和健壯性。但是該技術(shù)主要的問題是要面對(duì)不斷變化、更新的海量信息，并且大多數(shù)是以用于瀏覽,而不是用于數(shù)據(jù)操作和應(yīng)用的HTML文檔的形式出現(xiàn)。這就為網(wǎng)頁信息抽取帶來了極大的不方便。

目前，比較流行的抽取技術(shù)包括：基于隱馬爾科夫鏈理論的HMM（HIDDEN Markov Model）[1]，基于ontology[2]的信息抽取，基于RBF[3]神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則的Web文本分類規(guī)則獲取方法和基于數(shù)據(jù)挖掘MDR（Mining Data Records）[4]的算法。以上算法都基于復(fù)雜的數(shù)學(xué)模型，實(shí)施起來比較困難，信息抽取的效率和準(zhǔn)確性也不盡如人意。為最大程度地實(shí)現(xiàn)信息抽取的自動(dòng)化，本文提出了網(wǎng)絡(luò)輿情分析中網(wǎng)頁信息自動(dòng)抽取的方法，主要用于高效、精確地抽取并存儲(chǔ)有用信息。目前，網(wǎng)絡(luò)輿情的主要來源有各大新聞網(wǎng)站、論壇和博客。因此本文所采用的信息自動(dòng)抽取技術(shù)也主要針對(duì)這3類網(wǎng)頁信息進(jìn)行處理。

本文涉及的網(wǎng)頁信息自動(dòng)抽取技術(shù)包括URL模板過濾網(wǎng)頁、網(wǎng)頁信息結(jié)構(gòu)化、網(wǎng)頁解析模板匹配和數(shù)據(jù)庫存儲(chǔ)，其操作方便，切實(shí)可行。

2 Web信息自動(dòng)抽取技術(shù)的算法實(shí)現(xiàn)

2.1 網(wǎng)頁信息自動(dòng)抽取

網(wǎng)頁信息自動(dòng)抽取首先通過URL模板匹配過濾出可以解析的網(wǎng)頁，然后將可解析的HTML文檔進(jìn)行網(wǎng)頁結(jié)構(gòu)化處理，生成XML文檔。最后結(jié)合DOM4J和XPath語言建立頁面解析模板，從XML文檔中抽取指定節(jié)點(diǎn)信息，并將其存儲(chǔ)進(jìn)入數(shù)據(jù)庫。抽取流程見圖1。

圖1 網(wǎng)頁信息自動(dòng)抽取流程圖

2.1.1 基于URL的模板匹配

由于在信息抽取中，頁面解析模板包含了大量的路徑信息，在進(jìn)行匹配時(shí)，會(huì)消耗大量的時(shí)間。如果能在網(wǎng)頁解析前對(duì)無關(guān)網(wǎng)頁（如廣告網(wǎng)頁、用戶沒有定制的網(wǎng)頁）進(jìn)行一定的預(yù)處理的話，勢(shì)必會(huì)對(duì)系統(tǒng)的運(yùn)行效率有很可觀的改善。

本文利用了網(wǎng)頁URL模板匹配庫來進(jìn)行URL結(jié)構(gòu)的過濾分析，該模板中主要包含了匹配URL的正則表達(dá)式和頁面解析模板的選擇參數(shù)。

正則表達(dá)式（regular expression）就是用某種模式去匹配一類字符串的一個(gè)公式。正則表達(dá)式由一些普通字符和元字符（matacharacters）組成，它被轉(zhuǎn)換成特定的算法，根據(jù)這個(gè)算法來進(jìn)行文本匹配。在許多程序設(shè)計(jì)語言中，正則表達(dá)式通常被用來作為檢索或替換字符串?dāng)?shù)據(jù)的一種強(qiáng)大的工具。

正則表達(dá)式的強(qiáng)大功能不只是表現(xiàn)在特定的字符串匹配，而是字符類型的模式匹配。正則表達(dá)式中由很多特殊字符，它們分別用來匹配不同的字符類、制定匹配位置和制定重復(fù)字符。因此可以利用它來對(duì)需要處理的網(wǎng)址進(jìn)行過濾。本平臺(tái)在開發(fā)中正是利用了正則表達(dá)式的優(yōu)點(diǎn)來對(duì)網(wǎng)頁進(jìn)行篩選的。

URL模板匹配庫是一個(gè)包含了網(wǎng)站URL特征的XML文件，與待抽取網(wǎng)頁的URL進(jìn)行模板匹配，判斷頁面是否可以被解析并確定其網(wǎng)頁解析模板。圖2表示的是匹配網(wǎng)易論壇的URL模板。其中之間的數(shù)據(jù)就是網(wǎng)易論壇URL正則表達(dá)式的匹配形式，之間的數(shù)據(jù)bbs_163_topic表示的是網(wǎng)易論壇的主題頁面。經(jīng)過URL模板庫的過濾，可以過濾出網(wǎng)易論壇的網(wǎng)頁并確定為論壇主題頁面。否則，頁面則被濾除。

圖2 網(wǎng)易論壇URL模板代碼

2.1.2 網(wǎng)頁信息結(jié)構(gòu)化

由于網(wǎng)絡(luò)上的多數(shù)信息是用HTML語言來表示，其數(shù)據(jù)的異構(gòu)性和半結(jié)構(gòu)化使得這種語言不能處理網(wǎng)絡(luò)上的很多需求。本文將XML應(yīng)用在網(wǎng)頁信息自動(dòng)抽取中的主要目的就是為了解決這兩方面的問題，為輿情分析中提供結(jié)構(gòu)化的數(shù)據(jù)。

（1）HTML

HTML（超文本標(biāo)記語言）是用于創(chuàng)建網(wǎng)頁和進(jìn)行信息發(fā)布的通用語言。格式和語法比較簡單，規(guī)定比較靈活。但是其表現(xiàn)過于簡單、擴(kuò)展性差，缺少語義性，許多功能受到了限制。

（2）XML

XML是一種元標(biāo)記語言，它將結(jié)構(gòu)、內(nèi)容和表現(xiàn)分離，提供描述結(jié)構(gòu)化資料的格式，有著良好的數(shù)據(jù)存儲(chǔ)格式、可擴(kuò)展性、高度結(jié)構(gòu)化、語義性強(qiáng)、便于網(wǎng)絡(luò)傳輸?shù)葍?yōu)勢(shì)，不僅能滿足不斷增長的網(wǎng)絡(luò)應(yīng)用需求，而且還能確保在網(wǎng)絡(luò)進(jìn)行交互時(shí)，具有良好的可靠性與互操作性。這就為本文的抽取信息方案提供了理論依據(jù)，確保其切實(shí)可行。

經(jīng)研究，HTML網(wǎng)頁均可轉(zhuǎn)換為XML文檔，經(jīng)過轉(zhuǎn)化后，可以清晰地查看到網(wǎng)頁節(jié)點(diǎn)信息，從而能很方便地定位并抽取這些信息。如圖3，這是經(jīng)過轉(zhuǎn)換后的XML的文檔片段。

2.1.3 基于XPath的網(wǎng)頁解析模板的設(shè)計(jì)

XPath（XML Path Language）是一門在XML文檔中查找信息的語言，可用來在XML文檔中對(duì)元素和屬性進(jìn)行遍歷。XPath將一個(gè)XML文檔建模成為一棵節(jié)點(diǎn)數(shù)，有不同類型的節(jié)點(diǎn)，包括元素節(jié)點(diǎn)，屬性節(jié)點(diǎn)和正文節(jié)點(diǎn)。根據(jù)節(jié)點(diǎn)的名字，利用Xpath的導(dǎo)航能力可以直接定位到包含信息的節(jié)點(diǎn)，從根節(jié)點(diǎn)開始層層深入，逐步遍歷，為每個(gè)節(jié)點(diǎn)構(gòu)建一個(gè)地址，直到返回所需要的結(jié)果，從而得到XPath表達(dá)式，這可以減小基于文本的信息提取系統(tǒng)的搜索空間。例如，在圖3中待抽取信息在模板中定義為：//DIV[@class='outContainer'] /DIV/DIV/DIV[2] /DIV/LI/STRONG。

圖3 經(jīng)轉(zhuǎn)換后的XML文檔

其中，DIV為上層節(jié)點(diǎn)名稱，class為節(jié)點(diǎn)屬性，outContainer為節(jié)點(diǎn)屬性值。表達(dá)式從根節(jié)點(diǎn)逐步遞進(jìn)到STRING節(jié)點(diǎn)，這樣結(jié)合在一起就構(gòu)成了待抽取信息相對(duì)路徑的表達(dá)式。

本文針對(duì)網(wǎng)頁信息劃分了3類模板：（1）新聞解析模板；（2）論壇解析模板；（3）博客解析模板?；旧峡梢阅依ù蟛糠志W(wǎng)絡(luò)中的熱點(diǎn)話題。在撰寫本文前，URL模板庫和網(wǎng)頁解析模板庫中已設(shè)計(jì)如下模板：論壇解析模板包括新浪、網(wǎng)易、騰訊的論壇主題頁面及論壇回復(fù)頁面模板；博客解析模板包括新浪、網(wǎng)易和聚友網(wǎng)的主題頁面及博客回復(fù)頁面模板；新聞解析模板包括網(wǎng)易、搜狐、鳳凰網(wǎng)的新聞模板。這里主要介紹論壇的網(wǎng)頁解析模板。

論壇解析模板庫同樣為XML文件格式，論壇頁面的抽取信息一般包括發(fā)帖標(biāo)題、所屬板塊、發(fā)帖作者、發(fā)帖時(shí)間、發(fā)帖內(nèi)容、回復(fù)數(shù)量、回帖作者、回帖時(shí)間、回帖內(nèi)容。這些基本上涵蓋了我們所關(guān)心的重要信息。通過對(duì)每條信息指定XPath路徑，就可以達(dá)到自動(dòng)抽取網(wǎng)頁信息的效果。另外，由于論壇有主帖和回帖之分，因此模板庫中記錄了區(qū)分主帖和回帖的統(tǒng)計(jì)信息，圖4顯示了網(wǎng)易論壇的解析模板部分代碼。

圖4 網(wǎng)頁解析模板部分代碼

其中module屬性是模板標(biāo)識(shí)，區(qū)分主帖回帖，若經(jīng)過URL匹配后得到的屬性后綴是“topic”，那么可判斷該頁面為主帖，之后利用DOM4J解析器可以從指定的XML文檔中自動(dòng)抽取出主帖信息。若判斷為回帖，則用回帖解析模板來抽取回帖信息。

2.2 數(shù)據(jù)處理及存儲(chǔ)

由于網(wǎng)絡(luò)輿情分析中需要處理的數(shù)據(jù)達(dá)到數(shù)億級(jí)，因此對(duì)數(shù)據(jù)存儲(chǔ)算法及數(shù)據(jù)庫的優(yōu)化設(shè)計(jì)就顯得極為重要。在面對(duì)海量數(shù)據(jù)存儲(chǔ)的過程中，最主要的是對(duì)重復(fù)的網(wǎng)頁信息不再進(jìn)行保存，這樣可簡化數(shù)據(jù)存儲(chǔ)時(shí)的負(fù)擔(dān)，并且為之后分析數(shù)據(jù)提供方便。文中網(wǎng)頁信息自動(dòng)抽取技術(shù)在存儲(chǔ)數(shù)據(jù)時(shí)對(duì)數(shù)據(jù)庫進(jìn)行了優(yōu)化，在解決避免重復(fù)數(shù)據(jù)的存入時(shí)，采用hashcaode（哈希值）作為表的索引，以論壇為例，通過對(duì)作者、時(shí)間、標(biāo)題這3個(gè)字段組成的字符串進(jìn)行哈希運(yùn)算，由于不同的對(duì)象有不同的哈希值，因此在數(shù)據(jù)存儲(chǔ)時(shí)能使信息數(shù)據(jù)的重復(fù)率大大降低，并且可以提高數(shù)據(jù)庫查詢效率。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)抽取評(píng)價(jià)指標(biāo)

消息理解會(huì)議（MUC）為信息檢索和信息提取領(lǐng)域內(nèi)的算法性能測(cè)試提供了一系列的評(píng)估參數(shù)，主要參數(shù)是回召率（Recall）Re和查準(zhǔn)率（Precision）Pr，公式如下：

通常，查準(zhǔn)率和回召率需要一起考慮，因此為了使得評(píng)估結(jié)果更全面、更具說服力，將二者結(jié)合成一個(gè)綜合性的數(shù)據(jù)F，能計(jì)算Re和Pr的加權(quán)幾何平均值，其計(jì)算公式：

其中β為R和Pr的相對(duì)權(quán)重，決定了Re和Pr的比值。通常β是一個(gè)預(yù)設(shè)值，決定對(duì)Pr側(cè)重還是對(duì)Re側(cè)重。通常設(shè)定為1，這樣用F一個(gè)數(shù)值就可看出系統(tǒng)的好壞[5]。

3.2 實(shí)驗(yàn)結(jié)果及分析

在如下平臺(tái)中測(cè)試本系統(tǒng)的性能：實(shí)驗(yàn)機(jī)器的CPU 為4.2 GHz，內(nèi)存2.0 G，操作系統(tǒng)是Windows XP 。運(yùn)行環(huán)境為MyEclipse 6.5，數(shù)據(jù)庫是MySql 5.0，程序使用JAVA語言。實(shí)驗(yàn)數(shù)據(jù)來源于北京交通大學(xué)紅果園論壇（http://bbs.njtu.edu.cn/）2009年10月31日至2009年11月1日的網(wǎng)頁信息。實(shí)驗(yàn)結(jié)果見表1。

表1 性能測(cè)試結(jié)果

表1中：N表示待處理的網(wǎng)頁數(shù)量；EN表示經(jīng)過URL匹配可以解析的頁面的數(shù)量；T表示抽取時(shí)間；Re表示回召率；Pr表示查準(zhǔn)率；F表示Re和Pr的加權(quán)幾何平均值。

實(shí)驗(yàn)結(jié)果表明，使用網(wǎng)頁信息自動(dòng)抽取方案可以有效地完成信息抽取任務(wù)，處理速度較快，準(zhǔn)確率較高，基本上達(dá)到了實(shí)驗(yàn)預(yù)期的目的。

4 結(jié)束語

網(wǎng)絡(luò)輿情分析越來越受到大眾的關(guān)注，如何能高效抽取網(wǎng)頁有效信息成為研究的熱點(diǎn)之一。本文提出了網(wǎng)頁信息自動(dòng)抽取方案，通過網(wǎng)頁結(jié)構(gòu)化處理將HTML文件轉(zhuǎn)換為易于數(shù)據(jù)交換的XML文檔，結(jié)合DOM4J和XPath語言建立網(wǎng)頁解析模板，根據(jù)模板的抽取規(guī)則對(duì)網(wǎng)頁信息進(jìn)行自動(dòng)抽取。實(shí)踐證明，該方法能精確高效地自動(dòng)抽取網(wǎng)頁信息，并且實(shí)現(xiàn)方便，具有較高的工程應(yīng)用價(jià)值。當(dāng)然該方案還處于初級(jí)使用階段，算法功能還不夠完善。因此，如何提高對(duì)多種網(wǎng)頁結(jié)構(gòu)的適應(yīng)性，完善算法自動(dòng)化和智能性，同時(shí)減少算法復(fù)雜性，是今后的主要研究方向。

[1] 王雷，陳治平，李志成. 基于文本分塊的多模板隱馬爾可夫模型的文本信息抽取[J] . 山東大學(xué)學(xué)報(bào)（理學(xué)版），2006，41（3）：25.

[2] 王昕，熊光楞. 基于本體的設(shè)計(jì)原理信息提取[J] . 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)，2002，14（5）：429.

[3] 王煜，徐建明. 基于RBF神經(jīng)網(wǎng)絡(luò)和決策樹的文本分類方法[J] .計(jì)算機(jī)工程與應(yīng)用，2005，42（14）：175.

[4] Liu B.，Grossman R.，Zhai YH，Mining Data Records inWeb Pages[C] .Proceedings of the Knowledge Discoveray and Data Mining（KDD）2003：601.

[5] Laender A H F,Ribeiro- Neto B A,Da Silva A S,et al.A Brief Survey of Web Data Extraction Tools[J] .SIGMOD Record，2002，31（2）：84.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡