国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)的多文本網(wǎng)站文本內(nèi)容抽取算法

2021-09-22 02:17
關(guān)鍵詞:爬蟲(chóng)網(wǎng)頁(yè)頁(yè)面

王 晴

(徐州開(kāi)放大學(xué),江蘇 徐州 221116)

一、引言

互聯(lián)網(wǎng)信息檢索是當(dāng)今人們最常用的信息檢索方式。如何從海量、復(fù)雜、模糊的信息中提煉出對(duì)用戶有用的信息是該領(lǐng)域亟待解決的問(wèn)題。所謂自動(dòng)文本摘要,其實(shí)就是一種將Internet的海量數(shù)據(jù)進(jìn)行概括,從而幫助用戶尋找有價(jià)值信息的一種技術(shù)。其目的很簡(jiǎn)單,就是用計(jì)算機(jī)從目標(biāo)文檔中自動(dòng)提取可全面、準(zhǔn)確表達(dá)原文本意思的簡(jiǎn)潔的、連貫的短文,使讀者在面對(duì)搜索引擎提供的大量結(jié)果時(shí),能夠快速分析篩選出對(duì)自己有助的信息,從而提高搜索效率。

文本信息的搜索在各類搜索排行中占據(jù)重要比重,因此本文以多文本類型的網(wǎng)站為研究基礎(chǔ),提出一種適合像科研機(jī)構(gòu)這類多文本網(wǎng)站的網(wǎng)站文本摘要算法。包括如何從給定的網(wǎng)站內(nèi)獲得大量網(wǎng)頁(yè)信息;如何根據(jù)網(wǎng)站的層次結(jié)構(gòu),提取用來(lái)生成摘要的原始文本;如何生成最終能覆蓋網(wǎng)站主體內(nèi)容的網(wǎng)站自動(dòng)摘要。

二、國(guó)內(nèi)外研究現(xiàn)狀分析

傳統(tǒng)的自動(dòng)摘要一般分為抽取式和生成式[1]兩種。生成式摘要需要對(duì)原文中的信息進(jìn)行剪裁、提煉、融合,由新句子組成摘要,貌似更簡(jiǎn)潔、通順,更接近人工生成的摘要,但其中卻涉及多種語(yǔ)言處理技術(shù),適用性和可移植性都較弱。而抽取式摘要的結(jié)果完全由原文中抽取所得,在自動(dòng)生成方面則更加實(shí)用。目前的抽取方法主要有:基于統(tǒng)計(jì)特征的抽取、基于關(guān)聯(lián)圖的抽取和基于相似度的抽取[2-5]。

本文的研究便啟發(fā)于基于統(tǒng)計(jì)特征[6]的抽取。該方法首先根據(jù)句中某一設(shè)定好的特征來(lái)計(jì)算句子的權(quán)重,然后根據(jù)權(quán)重進(jìn)行排序,將排好序的句子重組成通順的語(yǔ)句,最終形成文摘。句子的特征包括詞頻、線索詞、標(biāo)題詞,以及句子在文章中的位置等。原句的特征結(jié)構(gòu)是該句能否被選為摘要的重要依據(jù)。

對(duì)網(wǎng)站文本的抽取不僅要結(jié)合傳統(tǒng)的文摘方法,還要根據(jù)網(wǎng)頁(yè)的特性,涉及更多的技術(shù)領(lǐng)域。國(guó)內(nèi)外的研究人員對(duì)網(wǎng)站文本的抽取也提出了很多不同的方法,常用的有:基于正則表達(dá)式的方法、基于結(jié)構(gòu)特征的方法以及基于機(jī)器學(xué)習(xí)的方法[7-8]。

前兩種抽取技術(shù)的適用性較差,針對(duì)不同結(jié)構(gòu)的頁(yè)面,要制定不同的抽取規(guī)則,而機(jī)器學(xué)習(xí)在這方面要出色一些。目前,機(jī)器學(xué)習(xí)抽取算法主要有三種:基于啟發(fā)式規(guī)則和無(wú)監(jiān)督學(xué)習(xí)的網(wǎng)頁(yè)抽取算法、基于分類器的網(wǎng)頁(yè)抽取算法和基于網(wǎng)頁(yè)模板的網(wǎng)頁(yè)抽取算法[9]。這幾種算法各有利弊,需要進(jìn)行再深入的研究才能更有效的解決問(wèn)題。

綜上所述,網(wǎng)站摘要的生成,需要經(jīng)歷網(wǎng)頁(yè)正文的抽取,網(wǎng)頁(yè)文本的處理,最終摘要算法的生成等多個(gè)階段,每個(gè)階段都需要精心的設(shè)計(jì)和大量的計(jì)算,各階段精準(zhǔn)配合才能完成最終的目標(biāo)。

三、算法詳述

本文研究的是像科研機(jī)構(gòu)這樣的多文本網(wǎng)站的網(wǎng)站文本摘要。這類網(wǎng)站通常不會(huì)是一個(gè)單一的網(wǎng)頁(yè),且其內(nèi)部包含網(wǎng)頁(yè)的內(nèi)容、結(jié)構(gòu)和組織形式也都不相同。對(duì)于上面介紹的方法,均不能直接采用。

基于正則表達(dá)式的方法,需要根據(jù)用戶的需求生成規(guī)則,而本文研究的網(wǎng)站對(duì)象并不能事先確定正文的規(guī)則?;诜诸惼鞯姆椒?,需要對(duì)公共的通用的訓(xùn)練集進(jìn)行大量的人工標(biāo)注,而在本文研究的網(wǎng)站方面還沒(méi)有這樣一個(gè)訓(xùn)練集?;诰W(wǎng)頁(yè)模板的方法看似較實(shí)用,卻有很大的局限性,因?yàn)榫W(wǎng)站間的模板大多不同,一個(gè)網(wǎng)站的模板只能用于該網(wǎng)站的網(wǎng)頁(yè)抽取,若要抽取其他網(wǎng)站的正文內(nèi)容,則需要重新生成網(wǎng)站模板。本文期望研究一種算法,可以盡可能全面的抽取網(wǎng)站的信息,并且有較強(qiáng)的可移植性和易維護(hù)性,能夠在大多數(shù)的多文本網(wǎng)站上通用。目前互聯(lián)網(wǎng)上大部分網(wǎng)頁(yè)的生成語(yǔ)言是HTML,該語(yǔ)言通過(guò)一系列標(biāo)記符號(hào),將網(wǎng)絡(luò)上的文檔格式統(tǒng)一,使分散的網(wǎng)絡(luò)資源連接為一個(gè)邏輯整體。經(jīng)過(guò)對(duì)多文本網(wǎng)站層次結(jié)構(gòu)的詳細(xì)分析,本文以科研機(jī)構(gòu)網(wǎng)站為例,結(jié)合上述傳統(tǒng)的自動(dòng)摘要技術(shù)和目前較成熟的網(wǎng)站文本抽取技術(shù),啟發(fā)于基于統(tǒng)計(jì)特征抽取方法中提到的利用文章中段落特征計(jì)算語(yǔ)句權(quán)重的方法,在計(jì)算句子權(quán)重時(shí)重點(diǎn)結(jié)合網(wǎng)站的層次結(jié)構(gòu),通過(guò)對(duì)目標(biāo)類型網(wǎng)站的分析和研究,從特征統(tǒng)計(jì)和語(yǔ)義理解兩個(gè)方面,提出綜合性的解決算法,從而提出了一個(gè)基于統(tǒng)計(jì)的,適合所有多文本網(wǎng)站的,可全面獲取網(wǎng)站信息的抽取算法。該算法不需要提前制定規(guī)則,也無(wú)需大量的人工標(biāo)注,只是通過(guò)對(duì)網(wǎng)頁(yè)HTML標(biāo)簽和標(biāo)簽內(nèi)文本特征的綜合分析,便可準(zhǔn)確提取網(wǎng)頁(yè)中的文本信息,可移植性和實(shí)用性更佳,能夠更好的適用不同類型的網(wǎng)頁(yè)。

下面對(duì)該算法進(jìn)行詳細(xì)的描述:

基于統(tǒng)計(jì)的網(wǎng)站文本抽取算法步驟可簡(jiǎn)述為:首先對(duì)網(wǎng)站進(jìn)行爬蟲(chóng),采用寬度優(yōu)先算法來(lái)獲取網(wǎng)站內(nèi)的網(wǎng)頁(yè),然后解析網(wǎng)頁(yè)源碼成DOM樹(shù),接著對(duì)DOM樹(shù)中的節(jié)點(diǎn)進(jìn)行分析,統(tǒng)計(jì)這些特定節(jié)點(diǎn)所包含的字符和標(biāo)點(diǎn),從而選擇包含網(wǎng)頁(yè)文本主要內(nèi)容的節(jié)點(diǎn),最后由這些篩選后的節(jié)點(diǎn),生成能夠概括整個(gè)網(wǎng)站的綜合文本。

具體步驟如下:

1.通過(guò)對(duì)網(wǎng)站進(jìn)行爬蟲(chóng)處理來(lái)獲得網(wǎng)站內(nèi)的頁(yè)面。通用網(wǎng)絡(luò)爬蟲(chóng)流程如圖1所示:

圖1 通用網(wǎng)絡(luò)爬蟲(chóng)流程圖

通用網(wǎng)絡(luò)爬蟲(chóng)也叫做全網(wǎng)爬蟲(chóng),其功能是獲取網(wǎng)頁(yè)數(shù)據(jù),為搜索引擎等類型的網(wǎng)站提供數(shù)據(jù)來(lái)源。通用網(wǎng)絡(luò)爬蟲(chóng)的爬行策略通常有四種:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、大站優(yōu)先爬行策略和反鏈優(yōu)先爬行策略[10]。

本文討論的是多文本網(wǎng)站,目的是盡可能收集到較全面的網(wǎng)站內(nèi)容。大部分的網(wǎng)站都是層次結(jié)構(gòu)的,網(wǎng)站的首頁(yè)一般包含了對(duì)整個(gè)網(wǎng)站內(nèi)容信息的概要描述,但并不全面,因此對(duì)網(wǎng)站底層頁(yè)面也要進(jìn)行抽取,才能獲得網(wǎng)站更全面的信息。此時(shí)選擇寬度優(yōu)先搜索策略較為合適。

經(jīng)過(guò)爬蟲(chóng),獲得了網(wǎng)頁(yè)的HTML源代碼,為下一步的分析和抽取做好了準(zhǔn)備。

2.解析網(wǎng)頁(yè)源碼成DOM樹(shù)

DOM的全稱是Document Object Model,即文檔對(duì)象模型。是以樹(shù)的結(jié)構(gòu),來(lái)表示HTML頁(yè)面的層次結(jié)構(gòu),其中樹(shù)的節(jié)點(diǎn)便是一個(gè)個(gè)信息片斷。這個(gè)結(jié)構(gòu)能夠?qū)⒄麄€(gè)文檔的組織結(jié)構(gòu)清晰的表示出來(lái)。

以某個(gè)科研網(wǎng)站為例,因篇幅有限,將其HTML代碼做了簡(jiǎn)化,表示為:

通過(guò)上述HTML源碼,繪制該HTML文檔的DOM樹(shù),如圖2所示:

圖2 HTML示例文檔的DOM樹(shù)

圖2將HTML源碼的結(jié)構(gòu)清晰的表示了出來(lái),該DOM樹(shù)包含多個(gè)層級(jí),樹(shù)中的標(biāo)簽元素相互嵌套,關(guān)系如同家譜一樣。最初的DOM樹(shù)是復(fù)雜的,節(jié)點(diǎn)繁多的,接下來(lái)的任務(wù)就是將DOM樹(shù)提煉、簡(jiǎn)化,為最終網(wǎng)站文本信息的生成做準(zhǔn)備。

3.預(yù)處理,規(guī)范DOM樹(shù)結(jié)構(gòu)

DOM樹(shù)是以句子的形式,將文本內(nèi)容包含在元素節(jié)點(diǎn)中的。所以首先要對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,規(guī)范網(wǎng)頁(yè),并篩選對(duì)結(jié)果有影響的某些標(biāo)簽。對(duì)網(wǎng)頁(yè)(HTML源碼)預(yù)處理的步驟描述如下:

⑴篩選標(biāo)簽框架:符號(hào)“〈”和“〉”在網(wǎng)頁(yè)中成對(duì)出現(xiàn),用來(lái)表示網(wǎng)頁(yè)的標(biāo)簽,因此,通過(guò)這個(gè)符號(hào)就可以判斷頁(yè)面中哪些是作為標(biāo)簽的框架,若有不作為標(biāo)簽的框架使用了該符號(hào),則此時(shí)用<(小于號(hào))和>(大于號(hào))這兩個(gè)符號(hào)來(lái)替換,經(jīng)過(guò)此步,頁(yè)面中的標(biāo)簽框架就清晰了,在后續(xù)的抽取過(guò)程中,可以減少不必要的錯(cuò)誤信息。

⑵檢查標(biāo)簽使用的規(guī)范性:標(biāo)簽應(yīng)成對(duì)出現(xiàn),檢查每個(gè)開(kāi)始標(biāo)簽是否有相應(yīng)的結(jié)束標(biāo)簽,為后續(xù)精準(zhǔn)的抽取做保證。

⑶檢查標(biāo)簽的嵌套是否規(guī)范:標(biāo)簽的嵌套應(yīng)由內(nèi)而外,逐層嵌套。例如

是正確的嵌套規(guī)則,而

則是不對(duì)的,這一步就是將源碼中的標(biāo)簽規(guī)范化,方便機(jī)器的學(xué)習(xí)。

⑷過(guò)濾掉不包含文本元素的標(biāo)簽:有些標(biāo)簽內(nèi)的內(nèi)容并不包含所需的文本信息,而是語(yǔ)法說(shuō)明、格式說(shuō)明、頁(yè)面信息等,如、、和等;有的標(biāo)簽內(nèi)的內(nèi)容是一些無(wú)需抽取的注冊(cè)、登錄信息等,如、等;還有的標(biāo)簽雖然包含文本元素,但文字不成語(yǔ)句,后續(xù)也無(wú)需抽取,如、等。這一步就是將這些類型的標(biāo)簽過(guò)濾掉,提高后續(xù)抽取的精度。

⑸過(guò)濾掉其他對(duì)抽取文本無(wú)益的標(biāo)簽:比如有些鏈接標(biāo)簽中的鏈接字符,通常鏈接標(biāo)簽中的鏈接字符都是詞語(yǔ)或短語(yǔ),而我們需要的是整句,所以,將鏈接標(biāo)簽中是詞語(yǔ)或短語(yǔ)的鏈接字符也過(guò)濾掉。

經(jīng)過(guò)該步驟,形成了基本符合抽取要求的網(wǎng)頁(yè)DOM樹(shù)結(jié)構(gòu)。

4.篩選DOM樹(shù),獲得站內(nèi)頁(yè)面的整句信息

因?yàn)楸疚挠懻摰氖腔诰渥拥木W(wǎng)站摘要,有了上步對(duì)網(wǎng)頁(yè)的處理結(jié)果,接下來(lái)的任務(wù)便是獲取站內(nèi)頁(yè)面中包含的整句信息,于是就要對(duì)DOM樹(shù)進(jìn)行篩選。篩選掉網(wǎng)頁(yè)中的各種短句、標(biāo)題等不成句的短語(yǔ)以及沒(méi)有標(biāo)點(diǎn)符號(hào)的短句,最后得到包含文本信息的節(jié)點(diǎn)。

經(jīng)過(guò)研究,多文本網(wǎng)站頁(yè)面中的句子一般在和等標(biāo)簽元素中,通常中也包含一些句子文本。因此對(duì)DOM樹(shù)中這三類標(biāo)簽進(jìn)行如下三步處理:⑴獲取純文本字符串:去掉DOM樹(shù)中、 和 等 節(jié) 點(diǎn) 的HTML標(biāo)簽,獲得不含任何標(biāo)簽的純文本的字符串。

⑵統(tǒng)計(jì)字符串個(gè)數(shù)并排序:對(duì)上步的結(jié)果字符串進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)每個(gè)字符串的長(zhǎng)度和所有字符串的個(gè)數(shù),并按照字符串長(zhǎng)度的降序排列字符串,排在前面的字符串較長(zhǎng),表示它們包含的文本信息較多,且包含的整句內(nèi)容也較多。這些字符串是候選字符串中的中堅(jiān)力量,對(duì)抽取結(jié)果的影響較大。

⑶篩選“假句子”:由于節(jié)點(diǎn)是可以嵌套的,所以經(jīng)過(guò)上述兩步后,排名靠前的字符串有可能是由多個(gè)嵌套詞語(yǔ)組成的短語(yǔ),而不是句子。因此要對(duì)這些“假句子”進(jìn)行篩選,此時(shí)便可利用標(biāo)點(diǎn)符號(hào)來(lái)篩選。原則是:對(duì)每個(gè)節(jié)點(diǎn)中的標(biāo)點(diǎn)符號(hào)進(jìn)行統(tǒng)計(jì),若一個(gè)節(jié)點(diǎn)中包含兩個(gè)以上(含兩個(gè))標(biāo)點(diǎn)符號(hào),即為目標(biāo)節(jié)點(diǎn),因?yàn)槌删浠虺啥蔚男畔?,通常?huì)包含多個(gè)標(biāo)點(diǎn)符號(hào);若無(wú)標(biāo)點(diǎn)或只有一個(gè)標(biāo)點(diǎn)符號(hào),則需進(jìn)一步判斷該標(biāo)點(diǎn)是否為表示句子結(jié)束的標(biāo)點(diǎn)(如:“?!?、“!”、“?”等),若是,則也列為目標(biāo)節(jié)點(diǎn),否則也要過(guò)濾掉。

5.去除重復(fù)的句子

通過(guò)網(wǎng)站爬蟲(chóng)獲取網(wǎng)頁(yè)源碼,根據(jù)源碼繪制DOM樹(shù),再加上基于統(tǒng)計(jì)的網(wǎng)頁(yè)文本抽取,獲得了網(wǎng)站內(nèi)頁(yè)面的句子文本,雖經(jīng)過(guò)對(duì)DOM樹(shù)的預(yù)處理和篩選,得到了網(wǎng)頁(yè)的句子信息,但此時(shí)同一網(wǎng)站中的不同頁(yè)面中可能會(huì)存在重復(fù)的句子信息,這時(shí)的結(jié)果是存在冗余的。所以算法的最后一步,就是在生成最后的網(wǎng)站綜合文檔前還要對(duì)句子進(jìn)行去重處理[11]。

至此,對(duì)多文本網(wǎng)站內(nèi)容的抽取就完成了。完整的算法框架如圖3所示:

圖3 完整的基于統(tǒng)計(jì)的自動(dòng)文本摘要算法框架

四、算法驗(yàn)證評(píng)價(jià)

上述算法可以分成兩大步驟,一是網(wǎng)頁(yè)爬蟲(chóng),一是文本抽取。下面針對(duì)上述算法,使用Recall-Oriented Understudy for Gisting Evalution(ROUGE)進(jìn)行評(píng)測(cè),對(duì)算法的執(zhí)行結(jié)果進(jìn)行分析和驗(yàn)證。

為使實(shí)驗(yàn)數(shù)據(jù)更為嚴(yán)謹(jǐn)、公正,選擇DMOZ開(kāi)放式分類目錄中的10個(gè)網(wǎng)站作為實(shí)驗(yàn)對(duì)象,它們分別來(lái)自“Computers/Software/Software Engineering”和“Science/Science in Society”類目。這些都是多文本內(nèi)容的網(wǎng)站,網(wǎng)站的結(jié)構(gòu)層次分明。下面使用本文提出的基于統(tǒng)計(jì)的自動(dòng)文本摘要算法,對(duì)這些多文本網(wǎng)站進(jìn)行內(nèi)容抽取。

實(shí)驗(yàn)過(guò)程如下:

以https://www.21ks.net/lunwen網(wǎng)站為例。首先在爬蟲(chóng)程序中輸入備選網(wǎng)站的URL,選取該網(wǎng)站的前10個(gè)頁(yè)面作為實(shí)驗(yàn)對(duì)象,利用寬度優(yōu)先搜索策略抓取網(wǎng)站內(nèi)的頁(yè)面,分析網(wǎng)頁(yè)的源碼,形成網(wǎng)頁(yè)的DOM樹(shù);然后規(guī)范DOM樹(shù)節(jié)點(diǎn),檢查網(wǎng)頁(yè)中的標(biāo)簽是否規(guī)范,過(guò)濾掉不包含文本元素的標(biāo)簽,去掉只包含短語(yǔ)和鏈接字符的鏈接標(biāo)簽,使DOM樹(shù)中的剩余節(jié)點(diǎn)均為包含句子的節(jié)點(diǎn);此時(shí),再將這些節(jié)點(diǎn)的標(biāo)簽去掉,剩下純文本字符串,這些字符串不包含任何的HTML標(biāo)簽;接著,對(duì)這些文本再進(jìn)行精簡(jiǎn),根據(jù)對(duì)句中標(biāo)點(diǎn)符號(hào)的類型和個(gè)數(shù)的統(tǒng)計(jì),按字符串長(zhǎng)度對(duì)其排序,得到整長(zhǎng)句;最后,將目標(biāo)節(jié)點(diǎn)篩選出來(lái),形成候選的句子集合。為最后自動(dòng)生成網(wǎng)站摘要做好準(zhǔn)備。此時(shí),已經(jīng)形成了一個(gè)綜合網(wǎng)站內(nèi)網(wǎng)頁(yè)內(nèi)容的綜合文檔,但是這個(gè)綜合文檔內(nèi)還有一些重復(fù)的句子,在輸出最后的網(wǎng)站文本摘要前,對(duì)綜合文檔進(jìn)行一下去重處理就可以了。

實(shí)驗(yàn)結(jié)果和分析如下:

ROUGE是使用機(jī)器學(xué)習(xí)方法進(jìn)行自動(dòng)文摘的最常用的評(píng)價(jià)指標(biāo),雖然該方法提出已經(jīng)十多年了,但是至今沒(méi)有一個(gè)更好的評(píng)價(jià)方法來(lái)取代它。該方法的基本思想是采用召回率來(lái)作為指標(biāo),將系統(tǒng)生成的自動(dòng)摘要與人工生成的參考摘要進(jìn)行對(duì)比,統(tǒng)計(jì)兩者重疊基本單元(語(yǔ)法、詞序等)的數(shù)目,從而評(píng)價(jià)系統(tǒng)的穩(wěn)定性和魯棒性。

抽取效果可以用P(精確率)、R(召回率)和F1值來(lái)進(jìn)行評(píng)價(jià)。其中,P(精確率)指正確提取的句子在總提取句子數(shù)中所占的比率;R(召回率)指正確提取的句子在原本正確的句子數(shù)中所占的比率。為更清楚評(píng)價(jià)抽取效果,用如下公式來(lái)表示P、R和F1,其中:T(真)、F(假)、P(陽(yáng)性)、N(陰性),對(duì)以上四種狀態(tài)進(jìn)行組合,則有:

TP:真陽(yáng)性——自動(dòng)摘要中有,人工參考摘要中也有;

TN:真陰性——自動(dòng)摘要中沒(méi)有,人工參考摘要中也沒(méi)有;

EP:假陽(yáng)性——自動(dòng)摘要中沒(méi)有,人工參考摘要中有;

FN:假陰性——自動(dòng)摘要中有,人工參考摘要中沒(méi)有。

得到公式1和公式2:

F1值是算法的評(píng)價(jià)標(biāo)準(zhǔn),表示精確率和召回率越高越好,因此,得出公式3。從公式3中可以看出,R不變時(shí),P越大,1/P越小,從而F1越大;同理:P不變時(shí),R越大,1/R越小,從而F1越大。

通過(guò)上述公式計(jì)算,對(duì)示例網(wǎng)站的評(píng)價(jià)結(jié)果如表1所示:

表1 示例網(wǎng)站實(shí)驗(yàn)結(jié)果評(píng)價(jià)

五、總結(jié)

本文首先研究了目前網(wǎng)站文本自動(dòng)摘要和網(wǎng)頁(yè)正文抽取的主流技術(shù),探討并分析了各技術(shù)間的優(yōu)缺點(diǎn)。從現(xiàn)有技術(shù)中得到啟發(fā),針對(duì)多文本類型的網(wǎng)站,提出基于統(tǒng)計(jì)的網(wǎng)站信息抽取算法。該算法結(jié)合網(wǎng)站爬蟲(chóng)技術(shù)提取網(wǎng)頁(yè)源碼,通過(guò)基于統(tǒng)計(jì)的網(wǎng)頁(yè)文本抽取方法,篩選并過(guò)濾網(wǎng)頁(yè)文本,從而得到網(wǎng)站綜合文本信息。文中最后對(duì)DMOZ目錄中的隨機(jī)網(wǎng)站進(jìn)行實(shí)驗(yàn),對(duì)10個(gè)網(wǎng)站中的共100個(gè)頁(yè)面進(jìn)行了句子集合抽取,通過(guò)ROUGE評(píng)價(jià)標(biāo)準(zhǔn),以精確率(P)、召回率(R)和F1值作為評(píng)價(jià)方法,評(píng)價(jià)結(jié)果均在90%以上。驗(yàn)證了該算法實(shí)用性強(qiáng),適用性好,易于移植和維護(hù),在對(duì)多文本網(wǎng)站的信息抽取方面可行。

猜你喜歡
爬蟲(chóng)網(wǎng)頁(yè)頁(yè)面
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
刷新生活的頁(yè)面
基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
基于HTML5與CSS3的網(wǎng)頁(yè)設(shè)計(jì)技術(shù)研究
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)
大數(shù)據(jù)背景下校園輿情的爬蟲(chóng)應(yīng)用研究
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
移動(dòng)頁(yè)面設(shè)計(jì):為老人做設(shè)計(jì)
高要市| 郑州市| 绥德县| 山阳县| 吴川市| 桓台县| 榆社县| 阿坝县| 达拉特旗| 富平县| 昌图县| 东安县| 双流县| 冀州市| 漳平市| 邵东县| 罗江县| 贺兰县| 长宁区| 吉水县| 太和县| 宿迁市| 沛县| 囊谦县| 宜章县| 建平县| 阿合奇县| 龙山县| 舒兰市| 桃园市| 荔浦县| 桦川县| 万盛区| 长兴县| 丹巴县| 丽水市| 云阳县| 玛纳斯县| 鱼台县| 江门市| 宁津县|