国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹的自適應(yīng)網(wǎng)頁正文抽取方法

2019-04-12 07:01:42呂容政劉嘉勇
現(xiàn)代計(jì)算機(jī) 2019年7期
關(guān)鍵詞:特征向量正文網(wǎng)頁

呂容政,劉嘉勇

(1.四川大學(xué)電子信息學(xué)院,成都610065;2.四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都610065)

0 引言

Web 頁面是目前人們獲取信息的主要方式之一,也是輿情監(jiān)測、數(shù)據(jù)分析和處理的一個(gè)重要來源。常見的Web 網(wǎng)頁中除了主要的內(nèi)容外,還包含大量與主題內(nèi)容無關(guān)的噪聲信息,如廣告鏈接、推薦鏈接、導(dǎo)航信息等。因此,過濾網(wǎng)頁中的噪聲信息,抽取網(wǎng)頁的正文內(nèi)容,具有重要的研究價(jià)值和應(yīng)用前景?,F(xiàn)有的常見Web 信息抽取技術(shù)有基于特定網(wǎng)站模板,基于視覺特征,基于DOM 結(jié)構(gòu)和基于數(shù)理統(tǒng)計(jì)。目前基于DOM 樹結(jié)構(gòu)和基于模板的抽取技術(shù)得到了廣泛的運(yùn)用。

基于模板的Web 信息抽取技術(shù)是假設(shè)網(wǎng)頁使用相同或者相似的模板構(gòu)建的,這類方法通過具有相同或者相似模板的網(wǎng)頁訓(xùn)練生成一個(gè)通用的模板結(jié)構(gòu)進(jìn)行網(wǎng)頁的信息抽取。Bar-Yossef 等人[1]采用基于模板的方式進(jìn)行正文抽取,但是這種方法難以應(yīng)對網(wǎng)頁結(jié)構(gòu)的更新和修改。Song 等人[2]將文本密度定義為標(biāo)簽內(nèi)所有文字與所有標(biāo)簽數(shù)量之比,這種定義對于標(biāo)簽量大的正文密度評估會(huì)有較大偏差,而且計(jì)算量較大?;诮y(tǒng)計(jì)原理的技術(shù)在理論上易于實(shí)現(xiàn),但其難點(diǎn)在于確定一個(gè)合理的閾值,因此對于內(nèi)容豐富度網(wǎng)頁差異很大的網(wǎng)頁效果不理想[3]。李偉男等人[4]基于VIPS 算法,提出了改進(jìn)的隱馬爾可夫模型,實(shí)現(xiàn)Web信息抽取。基于VIPS 算法的Web 信息抽取的優(yōu)點(diǎn)是面對許多表現(xiàn)形式單一、代碼層次上區(qū)別很大的網(wǎng)頁時(shí),有很好的抽取性能,但是這種方法需要對網(wǎng)頁進(jìn)行渲染,相對于其他方法,需要占用更多的計(jì)算資源。

在實(shí)際應(yīng)用中,基于密度及文本特征的新聞?wù)某槿∷惴ㄍm應(yīng)性不高[5]。本文利用節(jié)點(diǎn)多個(gè)特征,提出一種基于決策樹的自適應(yīng)網(wǎng)頁的正文抽取方法。本文以網(wǎng)頁中一個(gè)葉子結(jié)點(diǎn)為單位,分析計(jì)算特征向量,然后使用決策樹分類方法判斷節(jié)點(diǎn)是屬于正文還是噪聲。之后通過信噪比衡量正文信息和噪聲信息的相對比重,最終抽取出網(wǎng)頁的正文。相對基于文本塊密度和標(biāo)簽路徑覆蓋率的網(wǎng)頁正文抽取[6],本文引入信噪比有效減少了由于分類錯(cuò)誤而導(dǎo)致的誤差。另外,通過選取信噪比值最高的結(jié)點(diǎn),可有效避免閾值需要人工確定的問題,實(shí)現(xiàn)網(wǎng)頁正文抽取算法的自適應(yīng)。

1 特征向量提取

對于Web 上的網(wǎng)頁,依據(jù)其網(wǎng)頁類型可以將它們分為三類[7]:主題型網(wǎng)頁、Hub 型網(wǎng)頁和圖片型網(wǎng)頁。本文的研究對象是主題型網(wǎng)頁,即從主題型網(wǎng)頁中抽取網(wǎng)頁主題相關(guān)的正文信息。由于主題型網(wǎng)頁不僅承載有主體內(nèi)容,有時(shí)還會(huì)添加一些導(dǎo)航、推薦或者廣告鏈接。本文將網(wǎng)頁正文定義為以網(wǎng)頁主體內(nèi)容區(qū)域,網(wǎng)頁中其他除主體內(nèi)容以外的部分定義為噪聲[8]。

考慮到HTML 文檔中

1.1 標(biāo)簽語義

目前HTML 文檔結(jié)構(gòu)都遵從于w3c 制定的規(guī)范,因此部分標(biāo)簽可能一定的語義[10]。例如

互信息用于表示信息之間的關(guān)系,是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測度,衡量的是某個(gè)特征向量和特征類別之間的統(tǒng)計(jì)相關(guān)性[11],因此本文采用互信息方法提取標(biāo)簽語義維度的特征向量,計(jì)算公式如公式(1):

其中,MI 是標(biāo)簽的互信息量,m 為標(biāo)簽類別數(shù),P(ci)表示類別ci 的概率,P(t,ci)表示包含特征t 且屬于類別ci的概率;P(t)表示特征t 的概率。

互信息量較高的向量通常在某個(gè)類別ci中出現(xiàn)的概率高,而在其他文本類別中出現(xiàn)概率低,也就可能被選作類別ci的特征。為了探明某個(gè)標(biāo)簽的語義,本文通過對鳳凰網(wǎng)988 篇已知正文和噪聲的網(wǎng)頁樣本進(jìn)行了統(tǒng)計(jì),然后計(jì)算向量互信息,其中網(wǎng)頁樣本中正文標(biāo)簽節(jié)點(diǎn)的數(shù)目為30304,噪聲樣本共含有331043 個(gè)節(jié)點(diǎn),經(jīng)過統(tǒng)計(jì)得出結(jié)論如表1。

表1 正文與噪聲樣本中標(biāo)簽數(shù)量與互信息量

如表1,經(jīng)過互信息計(jì)算,可以得出

1.2 標(biāo)簽文本密度

在標(biāo)簽文本密度向量上,胡俊等人[12]對于網(wǎng)頁的文本密度定義為長文本標(biāo)簽比LTR,設(shè)T 是DOM 樹或其子樹,長文本標(biāo)簽比LTR 為T 中非鏈接長文本節(jié)點(diǎn)的文本長度總和與T 中非鏈接標(biāo)簽數(shù)量的比值。這種方法要提前設(shè)置長文本的閾值,對于不同的網(wǎng)頁文本的閾值不一樣,在這種情況下,以上定義方法不能很好地表征不同的網(wǎng)頁。通常情況下正文的文本密度比較集中,噪聲文本為分散文本,文本字符長度會(huì)比較小,因此本文將一個(gè)標(biāo)簽內(nèi)去除停用字符剩下的有效字符數(shù)定義為標(biāo)簽所含的文本密度,計(jì)算如公式(2)。

其中Tn表示第n 個(gè)葉子結(jié)點(diǎn)的文本密度,ci表示一個(gè)有效字符,m 表示當(dāng)前葉子結(jié)點(diǎn)以內(nèi)的有效字符個(gè)數(shù)。

這種計(jì)算方法在網(wǎng)頁壓縮的情況下仍然能夠表征文本密度向量。根據(jù)w3c 規(guī)范,標(biāo)簽節(jié)點(diǎn)上可以有指定的屬性,但屬性只是負(fù)責(zé)控制顯示樣式,因此與標(biāo)簽內(nèi)的文本沒有關(guān)系。這種文本密度的計(jì)算方法有效地防止了標(biāo)簽上添加過多的屬性導(dǎo)致文本密度減小問題。

本文采用統(tǒng)計(jì)的方法得出文本標(biāo)簽文本密度向量的概率密度分布。本文對988 篇有效網(wǎng)頁的DOM 文檔的正文與噪聲葉子節(jié)點(diǎn)密度進(jìn)行了統(tǒng)計(jì)并得出相關(guān)直方圖與概率分布圖。正文節(jié)點(diǎn)文本密度概率分布圖如圖1,噪聲節(jié)點(diǎn)文本密度概率分布圖如圖2 所示。

圖1 正文樣本中節(jié)點(diǎn)文本密度概率分布圖

圖2 噪聲樣本中節(jié)點(diǎn)文本密度概率分布圖

從直方圖與概率分布圖中可以看出,正文部分的文本密度分布比較廣泛,因?yàn)橐话阏牟糠忠砸粋€(gè)標(biāo)簽包含一個(gè)自然段的內(nèi)容。而噪聲區(qū)域的文本密度量大多都小于20,因?yàn)樵肼晠^(qū)域的大多是一些簡短的導(dǎo)航或者鏈接。

1.3 標(biāo)簽兄弟節(jié)點(diǎn)相似度

在網(wǎng)頁當(dāng)中,往往正文都是經(jīng)過特定編輯器編輯產(chǎn)生,而編輯器大多采用某些固定的模板來排版。因此功能區(qū)域相同的區(qū)塊往往標(biāo)簽都具有相似性。本文將擁有相同父節(jié)點(diǎn)的DOM 結(jié)點(diǎn)定義為兄弟節(jié)點(diǎn),本文定義兄弟節(jié)點(diǎn)的相似度為兄弟節(jié)點(diǎn)之間標(biāo)簽類別相同數(shù)量。

如圖3,圖中1、2 號標(biāo)簽在同一父節(jié)點(diǎn)下有兩個(gè)相同的標(biāo)簽,因此,兄弟節(jié)點(diǎn)相似度為2。同理4、5、6 號節(jié)點(diǎn)的兄弟節(jié)點(diǎn)相似度為3。而7、8 號標(biāo)簽在同一個(gè)父節(jié)點(diǎn)下除了節(jié)點(diǎn)本身沒有其他與之相同的標(biāo)簽,因此相似度為1。

圖3 標(biāo)簽兄弟節(jié)點(diǎn)相似度示意圖

對于兄弟節(jié)點(diǎn)相似度,本文同樣采用統(tǒng)計(jì)的方法獲得兄弟節(jié)點(diǎn)相似度直方圖與概率分布圖。本文最終獲取到988 篇有效樣本。正文節(jié)點(diǎn)標(biāo)簽相似性直方圖與概率分布圖如圖4,噪聲節(jié)點(diǎn)標(biāo)簽相似度直方圖與概率分布圖如圖5。

圖4 正文樣本標(biāo)簽兄弟節(jié)點(diǎn)相似度概率分布圖

圖5 噪聲樣本標(biāo)簽兄弟節(jié)點(diǎn)相似度概率分布圖

從圖4 與圖5 可以得出,正文當(dāng)中的標(biāo)簽會(huì)出現(xiàn)兄弟節(jié)點(diǎn)相似度很大的節(jié)點(diǎn),而噪聲當(dāng)中很少出現(xiàn)類似的節(jié)點(diǎn)。這是因?yàn)檎漠?dāng)中有大量的語句,往往一條語句由同一種標(biāo)簽包含,因此相似度高。而噪聲區(qū)域鏈接、推薦、廣告等內(nèi)容相對分散,故節(jié)點(diǎn)相似度相對較低。

1.4 標(biāo)簽外鏈

外鏈?zhǔn)腔ヂ?lián)網(wǎng)的血液,是鏈接的一種;沒有鏈接的話,信息就是孤立的,結(jié)果就是我們什么都看不到。一個(gè)網(wǎng)站是很難做到面面俱到的,因此需要鏈接到別的網(wǎng)站,將其他網(wǎng)站所能補(bǔ)充的信息吸收過來。但是這對于網(wǎng)頁正文信息來說是屬于噪聲信息。通過遍歷DOM 樹節(jié)點(diǎn)信息獲取

2 正文抽取算法

在對一篇網(wǎng)頁訓(xùn)練或者處理之前,首先需要進(jìn)行預(yù)處理??紤]到

本文用以文本為主體內(nèi)容的網(wǎng)頁進(jìn)行分析,從“標(biāo)簽語義”、“文本密度”、“兄弟節(jié)點(diǎn)相似度”以及“標(biāo)簽外鏈”四個(gè)特征來分析網(wǎng)頁的正文內(nèi)容與噪聲。將HT?ML 標(biāo)簽葉子節(jié)點(diǎn)分為兩類,正文類與噪聲類,正文記為Y,噪聲記為N,記類別集合C,那么有C={Y,N}。一個(gè)HTML 標(biāo)簽節(jié)點(diǎn)可以由以下特征來描述:

(1)標(biāo)簽語義,如

(2)標(biāo)簽文本密度,一般來說,文本量越大,越有可能是正文,標(biāo)記為T。

(3)標(biāo)簽相似兄弟節(jié)點(diǎn)相似性,標(biāo)記為S。

(4)標(biāo)簽的外鏈,一般來說正文部分是不包含外鏈接的,標(biāo)記為L。

所以HTML 葉子節(jié)點(diǎn)的特征向量可以表示為:{M,T,S,L},根據(jù)決策樹分類算法,在構(gòu)建決策樹時(shí)需要計(jì)算估計(jì)每個(gè)特征向量的信息增益[13],本文通過對988 篇來自鳳凰新聞網(wǎng)頁的有效樣本做統(tǒng)計(jì),以每篇網(wǎng)頁的DOM 樹葉子結(jié)點(diǎn)作為一個(gè)樣本,根據(jù)統(tǒng)計(jì)結(jié)果得到網(wǎng)頁正文與噪聲在HTML 文檔中的分布特征。根據(jù)四個(gè)特征向量的特征計(jì)算每個(gè)特征向量的信息增益,建立決策樹模型,根據(jù)建立好的決策樹將DOM 樹葉子結(jié)點(diǎn)分類為正文與噪聲;然后根據(jù)分類結(jié)果計(jì)算每個(gè)DOM樹中非葉子節(jié)點(diǎn)的信噪比,選取信噪比最高的DOM 節(jié)點(diǎn)即為網(wǎng)頁正文區(qū)域。

2.1 DOM樹葉子節(jié)點(diǎn)分類

對于一個(gè)未知類別的節(jié)點(diǎn),根據(jù)決策樹分類的方法,按如下步驟對一個(gè)節(jié)點(diǎn)進(jìn)行分類:

(1)設(shè)node={M,T,S,L}分類的一個(gè)節(jié)點(diǎn)。

(2)當(dāng)前對一個(gè)葉子節(jié)點(diǎn)進(jìn)行分類,僅有兩種可能C={Y,N},其中Y 表示當(dāng)前節(jié)點(diǎn)是正文,N 表示當(dāng)前節(jié)點(diǎn)是噪聲。

(3)首先選定標(biāo)簽語義特征向量M 來劃分所有的樣本,根據(jù)公式(3)計(jì)算標(biāo)簽語義特征向量M 的信息熵,然后通過公式(3):

其中Gain 表示節(jié)點(diǎn)的復(fù)雜度,Gain 越高,說明復(fù)雜度越高。信息增益說白了就是分裂前的數(shù)據(jù)復(fù)雜度減去孩子節(jié)點(diǎn)的數(shù)據(jù)復(fù)雜度的和,信息增益越大,分裂后的復(fù)雜度減小得越多,分類的效果越明顯。節(jié)點(diǎn)復(fù)雜度可以由公式(4):

其中Pi表示類i 的數(shù)量占比。以二分類問題為例,如果兩類的數(shù)量相同,此時(shí)分類節(jié)點(diǎn)的純度最低,熵等于1;如果節(jié)點(diǎn)的數(shù)據(jù)屬于同一類時(shí),此時(shí)節(jié)點(diǎn)的純度最高,熵等于0。同理對于其他三個(gè)特征向量,通過公式(3)和公式(4)得出信息增益。

(4)由四個(gè)特征向量的信息增益構(gòu)建出二叉樹,最終得到分類結(jié)果。

2.2 自適應(yīng)正文提取

經(jīng)過上一階段的分類,將一片HTML 文檔中每一個(gè)DOM 樹葉子節(jié)點(diǎn)分為了正文或者噪聲兩類。在自適應(yīng)正文提取階段,本文通過計(jì)算DOM 樹中每一個(gè)非葉子節(jié)點(diǎn)的信噪比,選取信噪比最高的DOM 節(jié)點(diǎn)即為正文區(qū)域。本文使用公式(5)定義一個(gè)DOM 樹非葉子節(jié)點(diǎn)的信噪比。

其中x 表示某一結(jié)點(diǎn),mi表示x 的子節(jié)點(diǎn),I(mi)表示一個(gè)正文子節(jié)點(diǎn)的信息量,n 表示當(dāng)前結(jié)點(diǎn)的直接子結(jié)點(diǎn)數(shù)目。I(mi)的計(jì)算方式如公式(6)。

其中α表示正文兄弟節(jié)點(diǎn)相似度。ci表示正文結(jié)點(diǎn)內(nèi)的一個(gè)有效字符。N(mi)表示一個(gè)噪聲子節(jié)點(diǎn)的噪聲量,DOM 樹葉子節(jié)點(diǎn)標(biāo)簽所含的噪聲量計(jì)算方式如公式(7)。

其中β表示噪聲兄弟節(jié)點(diǎn)的相似度,li表示噪聲結(jié)點(diǎn)內(nèi)的一個(gè)有效字符。為了防止父節(jié)點(diǎn)和子節(jié)點(diǎn)中所含信息與噪聲相等,信噪比相同,最終導(dǎo)致提取正文不夠精確,引入一個(gè)衰減系數(shù)λ(λ>1)。信噪比越高,表示節(jié)點(diǎn)信息所含有的信息量越大,信噪比越小,表示網(wǎng)頁當(dāng)中的無用信息越多,或者是文章主體內(nèi)容不明顯??紤]到標(biāo)簽的信息含量不僅與所含文本相關(guān),而且相同的標(biāo)簽在同一功能區(qū)具有協(xié)同作用,因此本文α和β取值均為該結(jié)點(diǎn)兄弟節(jié)點(diǎn)相似度的值。

通過計(jì)算每個(gè)DOM 樹非葉子結(jié)點(diǎn)的信噪比,選取信噪比最大的節(jié)點(diǎn)就是網(wǎng)頁正文區(qū)域,相對于向菁菁等人[14]只針對單一的新聞網(wǎng)頁的正文抽取,本文通過信噪比得出網(wǎng)頁正文區(qū)域的這種方式無需根據(jù)網(wǎng)頁的類別調(diào)整閾值,因此具有對不同網(wǎng)頁的適應(yīng)能力。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 葉子結(jié)點(diǎn)分類結(jié)果分析

本文通過Python 編寫數(shù)據(jù)采集程序從網(wǎng)易新聞、騰訊新聞、CCTV.com、人民網(wǎng)、新浪網(wǎng)和搜狐網(wǎng)六個(gè)網(wǎng)站采集樣本,并精確定位1000 個(gè)樣本的正文與噪聲,存儲(chǔ)在本地磁盤。在計(jì)算過程當(dāng)中,忽略掉因?yàn)楦袷交蛘呔幋a等原因出錯(cuò)的12 篇網(wǎng)頁,去除

表2 DOM 樹葉子結(jié)點(diǎn)分類結(jié)果混合矩陣

由表2 可知,通過決策樹分類算法所提取的四個(gè)特征向量對于噪聲節(jié)點(diǎn)的分類效果比較好,但是對于正文節(jié)點(diǎn)的分類效果相對較差,這是因?yàn)橐恍┚W(wǎng)頁中正文部分會(huì)夾雜一些文本長度短、外鏈接等元素,這些類型的節(jié)點(diǎn)更加符合噪聲的特征,因此被誤判。所以本文中節(jié)點(diǎn)分類僅僅是本文噪聲提取的其中一步,在計(jì)算非葉子結(jié)點(diǎn)信噪比時(shí),正文中所混雜的少量噪聲和噪聲中被誤判為正文節(jié)點(diǎn)會(huì)被“平滑”。因此在本文的分類結(jié)果可以適用。

3.2 正文提取實(shí)驗(yàn)及結(jié)果

正文抽取的評判標(biāo)準(zhǔn)為通過算法抽取正確性與實(shí)際精確定位的網(wǎng)頁正文相比較,相似度超過95%即判斷為抽取正確。本文使用向量空間模型[15],將兩篇待對比的文章使用詞頻向量表示,通過計(jì)算兩個(gè)向量之間的夾角判斷文本的相似度。本文使用開源DOM 樹解析庫XPath 結(jié)合正則表達(dá)式精確定位正文與噪聲,經(jīng)過XPath 與正則表達(dá)式提取到的正文可以認(rèn)為是標(biāo)準(zhǔn)正文。

正文提取的實(shí)驗(yàn)數(shù)據(jù)和DOM 樹分類實(shí)驗(yàn)的數(shù)據(jù)一樣,通過特征向量提取章節(jié)提取特征向量{M,T,S,L},然后計(jì)算出四個(gè)特征向量的信息熵,構(gòu)建出決策樹分類模型,將樣本分為正文類與噪聲類;然后根據(jù)分類結(jié)果計(jì)算每一個(gè)DOM 樹非葉子節(jié)點(diǎn)的信噪比,根據(jù)信噪比的大小最終得到DOM 樹節(jié)點(diǎn)的正文區(qū)域。

本文選取陳西安[16]的智能Web 新聞文本采集方法研究和楊柳青等人[17]基于布局相似性的網(wǎng)頁正文內(nèi)容提取研究作為對比實(shí)驗(yàn),以正文抽取的準(zhǔn)確性作為評價(jià)指標(biāo)。文獻(xiàn)[16]研究方法是一種基于文本標(biāo)簽特征挖掘的網(wǎng)頁正文提取方法。文獻(xiàn)[17]楊柳青等基于布局相似性的網(wǎng)頁正文內(nèi)容提取研究,該算法基于同一網(wǎng)站下的網(wǎng)頁具有在內(nèi)容布局和樣式結(jié)構(gòu)上非常相似的特點(diǎn),本質(zhì)上是一種基于模板的正文抽取算法。算法當(dāng)中的相關(guān)參數(shù)根據(jù)訓(xùn)練樣本調(diào)整為作者論文當(dāng)中給出的最優(yōu)參數(shù)。本文的網(wǎng)頁正文抽取算法并不需要其他額外的閾值設(shè)定。

實(shí)際測試樣本從網(wǎng)易新聞、騰訊新聞、CCTV.com、人民網(wǎng)、新浪網(wǎng)和搜狐網(wǎng)和六個(gè)新聞網(wǎng)站主頁上抓取以主題型的有效網(wǎng)頁,每個(gè)網(wǎng)站中的網(wǎng)頁來自五個(gè)不同的專題或頻道,總共1200 篇。分別用三種算法做正文提取,實(shí)際抽取結(jié)果正確率對比表如表3。

表3 正文抽取結(jié)果對比表

由表4 結(jié)果可以看到,相對于文獻(xiàn)[16]陳西安的網(wǎng)頁抽取算法,在新聞網(wǎng)頁的抽取準(zhǔn)確性上相對較高,但是在某些類型網(wǎng)頁上抽取準(zhǔn)確率相對更低,適本文算法對于不同的網(wǎng)站適應(yīng)性更強(qiáng),這是因?yàn)樵谒木W(wǎng)頁抽取算法當(dāng)中,算法需要確定一個(gè)閾值,該閾值根據(jù)經(jīng)驗(yàn)選取,但是對于不同種類的網(wǎng)頁,最優(yōu)閾值很可能發(fā)生變化,因此算法對不同類型網(wǎng)頁表現(xiàn)出不穩(wěn)定。相對于文獻(xiàn)[17]楊柳青等的網(wǎng)頁正文的算法,因?yàn)榛诓季窒嗨菩缘脑?,所以對于網(wǎng)頁布局變化小的站點(diǎn)比較適用,并且抽取速度較快,從表4 可以看到該方法在新聞?lì)惥W(wǎng)站上的抽取效果顯著,對于搜狐網(wǎng)站的抽取正確性相對較低。由于網(wǎng)頁的輕微修改就可能對正文的抽取產(chǎn)生很大干擾,以至于不能正確抽取網(wǎng)頁正文,所以該方法對某些站點(diǎn)的正文提取正確率不高。本文以DOM 樹結(jié)點(diǎn)為單位,使用四個(gè)維度的特征向量提高對網(wǎng)頁內(nèi)容的表征性,根據(jù)信噪比來自適應(yīng)確定正確區(qū)域,抽取結(jié)果表明,本算法適應(yīng)性好,性能穩(wěn)定,相對于另外兩種正文抽取算法本算法的準(zhǔn)確性更高和適應(yīng)性更強(qiáng)。

4 結(jié)語

本文提出的基于決策樹的自適應(yīng)網(wǎng)頁正文抽取算法能夠有效提取出HTML 網(wǎng)頁當(dāng)中的正文部分。算法選取了四個(gè)相互獨(dú)立,同時(shí)又能較好地表征文本屬性的向量,利用決策樹分類算法將DOM 樹葉子節(jié)點(diǎn)做分類,然后借鑒通信工程領(lǐng)域的信噪比定義,有效地“平滑”了由分類錯(cuò)誤帶來的誤差,最終實(shí)現(xiàn)了網(wǎng)頁正文抽取。本算法根據(jù)樣本訓(xùn)練出的模型能夠很好地適應(yīng)不同類型題材的未知樣本,模型訓(xùn)練完成,對于不同類型的網(wǎng)頁不再需要額外調(diào)節(jié)參數(shù),因此適應(yīng)性比較強(qiáng)。在實(shí)際程序?qū)崿F(xiàn)當(dāng)中,由于需要遍歷DOM 樹的所有非葉子節(jié)點(diǎn),并計(jì)算信噪比,對于DOM 結(jié)構(gòu)復(fù)雜的網(wǎng)頁所需時(shí)間相對較長。是否必須對所有非葉子節(jié)點(diǎn)都遍歷并計(jì)算信噪比,日后將做進(jìn)一步研究,以減小算法運(yùn)行的時(shí)間代價(jià)。

猜你喜歡
特征向量正文網(wǎng)頁
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
更正聲明
傳媒論壇(2022年9期)2022-02-17 19:47:54
更正啟事
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
一類特殊矩陣特征向量的求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
望城县| 台南县| 泊头市| 保定市| 大连市| 泸州市| 余江县| 荣昌县| 普陀区| 天台县| 平度市| 北海市| 永仁县| 合水县| 呼图壁县| 赣榆县| 亳州市| 黄浦区| 邵东县| 双牌县| 樟树市| 唐河县| 肇源县| 焉耆| 榆林市| 合水县| 大邑县| 邳州市| 和顺县| 喜德县| 义乌市| 宜川县| 绥芬河市| 平谷区| 安远县| 咸丰县| 阿图什市| 南安市| 九江县| 樟树市| 南汇区|