呂容政,劉嘉勇
(1.四川大學(xué)電子信息學(xué)院,成都610065;2.四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都610065)
Web 頁面是目前人們獲取信息的主要方式之一,也是輿情監(jiān)測、數(shù)據(jù)分析和處理的一個(gè)重要來源。常見的Web 網(wǎng)頁中除了主要的內(nèi)容外,還包含大量與主題內(nèi)容無關(guān)的噪聲信息,如廣告鏈接、推薦鏈接、導(dǎo)航信息等。因此,過濾網(wǎng)頁中的噪聲信息,抽取網(wǎng)頁的正文內(nèi)容,具有重要的研究價(jià)值和應(yīng)用前景?,F(xiàn)有的常見Web 信息抽取技術(shù)有基于特定網(wǎng)站模板,基于視覺特征,基于DOM 結(jié)構(gòu)和基于數(shù)理統(tǒng)計(jì)。目前基于DOM 樹結(jié)構(gòu)和基于模板的抽取技術(shù)得到了廣泛的運(yùn)用。
基于模板的Web 信息抽取技術(shù)是假設(shè)網(wǎng)頁使用相同或者相似的模板構(gòu)建的,這類方法通過具有相同或者相似模板的網(wǎng)頁訓(xùn)練生成一個(gè)通用的模板結(jié)構(gòu)進(jìn)行網(wǎng)頁的信息抽取。Bar-Yossef 等人[1]采用基于模板的方式進(jìn)行正文抽取,但是這種方法難以應(yīng)對網(wǎng)頁結(jié)構(gòu)的更新和修改。Song 等人[2]將文本密度定義為標(biāo)簽內(nèi)所有文字與所有標(biāo)簽數(shù)量之比,這種定義對于標(biāo)簽量大的正文密度評估會(huì)有較大偏差,而且計(jì)算量較大?;诮y(tǒng)計(jì)原理的技術(shù)在理論上易于實(shí)現(xiàn),但其難點(diǎn)在于確定一個(gè)合理的閾值,因此對于內(nèi)容豐富度網(wǎng)頁差異很大的網(wǎng)頁效果不理想[3]。李偉男等人[4]基于VIPS 算法,提出了改進(jìn)的隱馬爾可夫模型,實(shí)現(xiàn)Web信息抽取。基于VIPS 算法的Web 信息抽取的優(yōu)點(diǎn)是面對許多表現(xiàn)形式單一、代碼層次上區(qū)別很大的網(wǎng)頁時(shí),有很好的抽取性能,但是這種方法需要對網(wǎng)頁進(jìn)行渲染,相對于其他方法,需要占用更多的計(jì)算資源。
在實(shí)際應(yīng)用中,基于密度及文本特征的新聞?wù)某槿∷惴ㄍm應(yīng)性不高[5]。本文利用節(jié)點(diǎn)多個(gè)特征,提出一種基于決策樹的自適應(yīng)網(wǎng)頁的正文抽取方法。本文以網(wǎng)頁中一個(gè)葉子結(jié)點(diǎn)為單位,分析計(jì)算特征向量,然后使用決策樹分類方法判斷節(jié)點(diǎn)是屬于正文還是噪聲。之后通過信噪比衡量正文信息和噪聲信息的相對比重,最終抽取出網(wǎng)頁的正文。相對基于文本塊密度和標(biāo)簽路徑覆蓋率的網(wǎng)頁正文抽取[6],本文引入信噪比有效減少了由于分類錯(cuò)誤而導(dǎo)致的誤差。另外,通過選取信噪比值最高的結(jié)點(diǎn),可有效避免閾值需要人工確定的問題,實(shí)現(xiàn)網(wǎng)頁正文抽取算法的自適應(yīng)。
對于Web 上的網(wǎng)頁,依據(jù)其網(wǎng)頁類型可以將它們分為三類[7]:主題型網(wǎng)頁、Hub 型網(wǎng)頁和圖片型網(wǎng)頁。本文的研究對象是主題型網(wǎng)頁,即從主題型網(wǎng)頁中抽取網(wǎng)頁主題相關(guān)的正文信息。由于主題型網(wǎng)頁不僅承載有主體內(nèi)容,有時(shí)還會(huì)添加一些導(dǎo)航、推薦或者廣告鏈接。本文將網(wǎng)頁正文定義為以網(wǎng)頁主體內(nèi)容區(qū)域,網(wǎng)頁中其他除主體內(nèi)容以外的部分定義為噪聲[8]。
考慮到HTML 文檔中