節(jié)點進行處理,比較節(jié)點中的中文字符數(shù)量。該方法雖利用了中文網(wǎng)頁的特性,實現(xiàn)簡單,健壯性強,但未考慮英文網(wǎng)頁,且對短正文網(wǎng)頁效果不理想。(4)基于視覺分塊的方法。
通常在瀏覽網(wǎng)頁時,人們往往將不同的功能區(qū)域看成不同的語義塊。較早的分塊方式是按照HTML的樹形結(jié)構(gòu)進行[13],但隨著HTML的發(fā)展,僅僅依賴樹形結(jié)構(gòu),不足以滿足通用性。2003年,微軟亞洲研究院提出基于頁面視覺分塊的算法(VIsion-based Page Segmentation,VIPS),利用頁面的可視化信息在樹形結(jié)構(gòu)的基礎(chǔ)上進行網(wǎng)頁分塊。然而它僅僅是一種分塊算法,利用已有的視覺信息,并未對頁面進行凈化操作,可以在算法的基礎(chǔ)上加入規(guī)則進行頁面凈化操作。文獻[14]通過修改VIPS算法迭代過程,在塊劃分后進行一系列的分隔條提取和語義塊重構(gòu),采用制定規(guī)則對頁面進行去噪操作。VIPS算法充分考慮了用戶的視覺習(xí)慣,但由于分隔條提取和語義塊重構(gòu)需要過多的人工參與,復(fù)雜度較高,且缺乏對網(wǎng)頁中和信息的利用。
文中在VIPS算法分塊的基礎(chǔ)上,提出樣式樹,再根據(jù)鏈接比及樹路徑距離生成相應(yīng)的權(quán)重樹,自動調(diào)整權(quán)重,根據(jù)權(quán)重進行剪枝操作,生成去噪頁面。
2 樣式樹定義
樣式樹由DOM樹演化而來[15],主要包含兩類虛擬節(jié)點:樣式節(jié)點(Style nodes)和元素節(jié)點(Element nodes)。樣式節(jié)點描述了節(jié)點布局或者展現(xiàn)風(fēng)格,樣式節(jié)點A的表現(xiàn)樣式SA是一個序列。其中l(wèi)i是一個二元組(Tag,Styles)元素,通常Styles表示為{width:300,height:200,bg-Color:red},n表示樣式長度。節(jié)點E描述節(jié)點的屬性信息,表示為E(Tag,Attrs,Content),其中Tag表示節(jié)點標識,Attrs表示屬性信息,Content表示節(jié)點的文本信息?;緲邮綐淙鐖D1所示。
圖1 基本樣式樹
3 基于節(jié)點權(quán)重的網(wǎng)頁去噪算法
3.1算法基本思想
基于節(jié)點權(quán)重的去噪算法在VIPS基礎(chǔ)上,將VIPS生成的基本視覺塊樹進行樣式樹的轉(zhuǎn)化,利用樣式樹節(jié)點中的樣式特性,將葉子節(jié)點劃分成細粒度的樣式樹,再對樣式樹進行權(quán)重標注,根據(jù)權(quán)重標注進行剪枝,生成去噪頁面。基本流程如圖2所示。
圖2 從樣本頁面到凈化頁面的總體流程
通常生成的樣式樹,無權(quán)重表示,在屬性節(jié)點的基礎(chǔ)上,引入權(quán)重節(jié)點的概念。權(quán)重節(jié)點T表示為QT,記為Q(k,d,t,m)。其中,k表示鏈接比,即當(dāng)前節(jié)點中鏈接數(shù)占總鏈接數(shù)的比值;d表示樹路徑距離,即當(dāng)前節(jié)點與容器節(jié)點在樹形結(jié)構(gòu)上的距離;t表示文本比,即當(dāng)前節(jié)點文本占總文本的比例;m表示節(jié)點私有屬性的權(quán)重系數(shù)。為了使H(Qi)的值落在[0,1]之間,使用節(jié)點的標簽個數(shù)n將H(Qi)歸一化。
(1)
其中,ki表示第i個標簽的鏈接比;ti表示第i個標簽的文本系數(shù);di表示第i個標簽的樹路徑距離;D表示權(quán)重樹中的節(jié)點路徑和。
3.2視覺塊樹細粒度化
通常,VIPS生成的視覺樹,只是初步提取了頁面的基本布局信息,粗粒度的視覺塊樹將噪聲和正文融合到了相同的塊中,必須進行細粒度化。此時對生成的樣式樹進行樣式節(jié)點和屬性節(jié)點的標注。對已經(jīng)標注完的塊節(jié)點,進行子元素的相似度分析。子元素的樣式節(jié)點用二元組表示,屬性節(jié)點標識為E(Tag,Attrs,Content),由于li的Styles是以鍵值對的形式存在,在此將鍵值對轉(zhuǎn)化為樣式系數(shù)Ci,將塊標簽Tag表示為HTML中對應(yīng)的NODE值,此時li表示為(Ti,Ci)。節(jié)點相似度判斷如下:
(2)
當(dāng)相關(guān)系數(shù)較小時,將子節(jié)點進行分裂。采用自頂向下的層次遍歷方式,完成對視覺樹的初步分裂。
3.3細節(jié)樹剪枝
此時得到的是一棵基于樣式的視覺樹,在樣式和基本屬性上已經(jīng)不可細分,在此基礎(chǔ)上進行噪聲的判斷。根據(jù)大量線上頁面的統(tǒng)計,噪聲區(qū)域往往有比正文區(qū)域更多的鏈接比,更少的文本比,以及更淺的樹距離。故此處引入權(quán)重節(jié)點的概念,對細粒度化的視覺塊樹進行自頂向下的標注,對權(quán)重低的節(jié)點進行剪枝操作。在初次遍歷的過程中,可進行一次簡單的預(yù)處理,對含有樣式樹節(jié)點中含有鍵值對display:none和position:fixed的節(jié)點進行刪除操作,前者是網(wǎng)頁中不做顯示的元素,后者是懸浮窗,據(jù)大量網(wǎng)頁的觀察,兩者都是判斷噪聲節(jié)點的重要依據(jù)。
剪枝算法描述如下:
(1)獲取樣式樹,設(shè)樣式樹為Ti;
(2)For(樣式樹的每個節(jié)點Qi)
(3)if(該節(jié)點的css屬性中含有position:fixed,display:none等鍵值對時) then
(4)刪除該節(jié)點;
(5)Else if
(6)計算出文本比,節(jié)點的距離深度,計算權(quán)重值H(Qi);
(7)For(樣式樹的每個節(jié)點QT);
(8)刪除平級節(jié)點中權(quán)重小的節(jié)點。
4 實 驗
4.1數(shù)據(jù)集
為了驗證文中算法的去噪效果,使用該算法對含有噪音的網(wǎng)頁進行處理??紤]到頁面抽取時信息獲取的客觀性,選取網(wǎng)易、新浪等頁面各200個,考研論壇等論壇型網(wǎng)頁200個,從網(wǎng)頁處理的整體效果出發(fā),進行網(wǎng)頁去噪的實驗。
4.2評價指標
在實驗中,常見的評測指標有準確率和召回率。由于準確率和召回率介于[0,1]之間,而且不相互獨立。所以文中引入同時兼顧準確率和召回率的F1,即F-measure,作為綜合評價指標。
準確率為:
P=t0/t1
(3)
召回率為:
R=t0/t2
(4)
其中,t0表示當(dāng)前頁面被抽取出的正文塊;t1表示當(dāng)前頁面中全部的正文塊;t2表示被當(dāng)做正文中抽取出來的信息塊。
由于在F-measure公式中β通常用來調(diào)節(jié)準確率和召回率的權(quán)重,而此處重點考慮的是網(wǎng)頁抽取的準確率和召回率,所以取β為1,最終用來判斷實驗效果的公式如下:
(5)
4.3實驗結(jié)果與分析
為了驗證文中算法,分別進行了兩組實驗,結(jié)果如表1和表2所示[16]。
表1 文中算法
表2 基于行塊分布函數(shù)算法
從上述實驗可以看出,文中算法在準確率和召回率方面要優(yōu)于基于行塊分布函數(shù)算法的頁面處理效果?;谛袎K分布函數(shù)的方法雖然實現(xiàn)簡單,但是對去除標簽后的文本分塊的數(shù)量選取將直接影響網(wǎng)頁正文提取的準確率,而且去除標簽同時也去除了頁面中大量可用的視覺信息,當(dāng)噪音文本與正文文本混雜時,將會被提取。文中充分考慮了頁面的視覺特征,在當(dāng)前視覺元素豐富的網(wǎng)頁中,從網(wǎng)頁制作者的方向出發(fā),利用大量的視覺特性,提取視覺系數(shù),再利用正文內(nèi)容特征,合理去除頁面中的噪音塊,使正文塊更易被識別。
5 結(jié)束語
文中在VIPS分塊的基礎(chǔ)上,引入了樣式樹的概念,取消了原有的基于視覺繁雜的啟發(fā)式的規(guī)則,只使用了VIPS粗粒度的視覺分塊,對粗粒度的視覺塊樹進行細粒度的劃分,進一步考慮了視覺塊之間的相關(guān)性,再對標注完權(quán)重的樣式樹進行去噪操作。實驗結(jié)果表明,該算法可以更好地去除頁面中導(dǎo)航欄等局部噪聲以及隱藏中正文塊的全局噪聲。該算法主要針對主題型頁面、論壇型頁面,但當(dāng)正文內(nèi)容和噪音內(nèi)容相似度較高時,去噪效果不夠理想,這是該算法的局限性。在以后的研究中,將進一步分析這些網(wǎng)頁的特征,尋求改進方法,增強算法的健壯性。
[1] 歐石燕,唐振貴,蘇翡斐.面向信息檢索的術(shù)語服務(wù)構(gòu)建與應(yīng)用研究[J].中國圖書館學(xué)報,2016,42(2):32-51.
[2] Witten I H,Frank E.Data mining:practical machine learning tools and techniques[M].[s.l.]:Morgan Kaufmann Publishers Inc.,2011:206-207.
[3] 高 琪,張永平.超鏈接導(dǎo)向搜索算法中主題漂移的研究[J].計算機應(yīng)用,2009,29(11):3100-3102.
[4] 劉華星,楊 庚.HTML5-下一代Web開發(fā)標準研究[J].計算機技術(shù)與發(fā)展,2011,21(8):54-58.
[5] 李效東,顧毓清.基于DOM的Web信息提取[J].計算機學(xué)報,2002,25(5):526-533.
[6] 胡金棟.網(wǎng)頁正文提取及去重技術(shù)研究[D].杭州:浙江大學(xué),2011.
[7] 汪建偉,楊冬青,高 軍,等.一種基于分類算法的網(wǎng)頁信息提取方法[J].計算機科學(xué),2008,35(3):91-93.
[8] 王 琦,唐世渭,楊冬青,等.基于DOM的網(wǎng)頁主題信息自動提取[J].計算機研究與發(fā)展,2004,41(10):1786-1792.
[9] 李文立,王樂超,宋春雷.基于HTML樹和模板的文獻信息提取方法研究[J].計算機應(yīng)用研究,2010,27(12):4615-4617.
[10] Fu Y,Yang D,Tang S,et al.Using XPath to discover informative content blocks of web pages[C]//Proceedings of third international conference on semantics,knowledge and grid.[s.l.]:[s.n.],2007.
[11] 趙 文,唐建雄,高慶鋒.基于統(tǒng)計的中文網(wǎng)頁正文抽取的研究[J].電腦知識與技術(shù),2008(1):120-123.
[12] 孫承杰,關(guān) 毅.基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J].中文信息學(xué)報,2004,18(5):17-22.
[13] 劉晨曦,吳揚揚.一種基于塊分析的網(wǎng)頁去噪音方法[J].廣西師范大學(xué):自然科學(xué)版,2007,25(2):149-152.
[14] 穆 瓊.基于視覺特征的網(wǎng)頁清洗研究與實現(xiàn)[D].北京:北京郵電大學(xué),2013.
[15] Yi L,Liu B,Li X.Eliminating noisy information in Webpages for data mining[C]//Proceedings of the 9th ACMSIGKDD international conference on knowledge discovery and data mining.New York:ACM,2003:296-305.
[16] 高慶寧,吳 鵬,張晶晶.基于文檔對象模型與行塊分布算法的網(wǎng)頁信息抽取[J].情報理論與實踐,2016,39(4):133-137.
ResearchonWebPageDenoisingMethodBasedonNodeWeight
WANG Jian,ZHANG Jin
(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
As the network information is increasing continuously,website information is not only an important information resource of users,but also important data source for data mining,information retrieval and other studies.To provide the text information with high quality,website denoising has become a nonnegligible step for webpage processing.With the continuous improvement of webpage making technology,visual elements in webpage are raised increasingly,and the information of webpage node becomes richer and richer.Visual information has been a nonnegligible and important part in webpage denoising.From a user’s point of view,the visual information can immediately reflect the importance of module in the page when browsing the web page.Traditional webpage denoising technology is neglected in the visual characteristics of webpage too much.Facing to the current complex webpage,the denoising effects are decreased greatly.Based on the comprehensive visual information and node information,a noise weight-based denoising method is proposed which fully considers the visual and content characteristics of nodes.The experimental results indicate that its accuracy rate and recall rate is improved to certain content.
vision characteristics;node weight;accuracy rate;recall rate
TP301
A
1673-629X(2017)10-0083-04
2016-11-15
2017-03-07 < class="emphasis_bold">網(wǎng)絡(luò)出版時間
時間:2017-07-19
教育部專項研究項目(2013116)
王 健(1991-),男,碩士,研究方向為大數(shù)據(jù)。
http://kns.cnki.net/kcms/detail/61.1450.tp.20170719.1110.056.html
10.3969/j.issn.1673-629X.2017.10.018
广宁县|
奉节县|
额敏县|
沙坪坝区|
阳江市|
资溪县|
汽车|
梅州市|
三都|
寿阳县|
宜丰县|
建水县|
宣武区|
伊金霍洛旗|
清远市|
栾川县|
宁津县|
济源市|
石门县|
乐安县|
鄂伦春自治旗|
溧阳市|
高雄县|
东方市|
定南县|
山西省|
仪陇县|
客服|
奉新县|
吉木乃县|
错那县|
敦化市|
凌海市|
湖口县|
澄江县|
陈巴尔虎旗|
鲁甸县|
延长县|
德阳市|
阿坝县|
陇西县|