基于統(tǒng)計(jì)的多文本網(wǎng)站文本內(nèi)容抽取算法

2021-09-22 02:17王晴

安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2021年4期

王晴

（徐州開(kāi)放大學(xué)，江蘇徐州 221116）

一、引言

互聯(lián)網(wǎng)信息檢索是當(dāng)今人們最常用的信息檢索方式。如何從海量、復(fù)雜、模糊的信息中提煉出對(duì)用戶有用的信息是該領(lǐng)域亟待解決的問(wèn)題。所謂自動(dòng)文本摘要，其實(shí)就是一種將Internet的海量數(shù)據(jù)進(jìn)行概括，從而幫助用戶尋找有價(jià)值信息的一種技術(shù)。其目的很簡(jiǎn)單，就是用計(jì)算機(jī)從目標(biāo)文檔中自動(dòng)提取可全面、準(zhǔn)確表達(dá)原文本意思的簡(jiǎn)潔的、連貫的短文，使讀者在面對(duì)搜索引擎提供的大量結(jié)果時(shí)，能夠快速分析篩選出對(duì)自己有助的信息，從而提高搜索效率。

文本信息的搜索在各類搜索排行中占據(jù)重要比重，因此本文以多文本類型的網(wǎng)站為研究基礎(chǔ)，提出一種適合像科研機(jī)構(gòu)這類多文本網(wǎng)站的網(wǎng)站文本摘要算法。包括如何從給定的網(wǎng)站內(nèi)獲得大量網(wǎng)頁(yè)信息；如何根據(jù)網(wǎng)站的層次結(jié)構(gòu)，提取用來(lái)生成摘要的原始文本；如何生成最終能覆蓋網(wǎng)站主體內(nèi)容的網(wǎng)站自動(dòng)摘要。

二、國(guó)內(nèi)外研究現(xiàn)狀分析

傳統(tǒng)的自動(dòng)摘要一般分為抽取式和生成式[1]兩種。生成式摘要需要對(duì)原文中的信息進(jìn)行剪裁、提煉、融合，由新句子組成摘要，貌似更簡(jiǎn)潔、通順，更接近人工生成的摘要，但其中卻涉及多種語(yǔ)言處理技術(shù)，適用性和可移植性都較弱。而抽取式摘要的結(jié)果完全由原文中抽取所得，在自動(dòng)生成方面則更加實(shí)用。目前的抽取方法主要有：基于統(tǒng)計(jì)特征的抽取、基于關(guān)聯(lián)圖的抽取和基于相似度的抽取[2-5]。

本文的研究便啟發(fā)于基于統(tǒng)計(jì)特征[6]的抽取。該方法首先根據(jù)句中某一設(shè)定好的特征來(lái)計(jì)算句子的權(quán)重，然后根據(jù)權(quán)重進(jìn)行排序，將排好序的句子重組成通順的語(yǔ)句，最終形成文摘。句子的特征包括詞頻、線索詞、標(biāo)題詞，以及句子在文章中的位置等。原句的特征結(jié)構(gòu)是該句能否被選為摘要的重要依據(jù)。

對(duì)網(wǎng)站文本的抽取不僅要結(jié)合傳統(tǒng)的文摘方法，還要根據(jù)網(wǎng)頁(yè)的特性，涉及更多的技術(shù)領(lǐng)域。國(guó)內(nèi)外的研究人員對(duì)網(wǎng)站文本的抽取也提出了很多不同的方法，常用的有：基于正則表達(dá)式的方法、基于結(jié)構(gòu)特征的方法以及基于機(jī)器學(xué)習(xí)的方法[7-8]。

前兩種抽取技術(shù)的適用性較差，針對(duì)不同結(jié)構(gòu)的頁(yè)面，要制定不同的抽取規(guī)則，而機(jī)器學(xué)習(xí)在這方面要出色一些。目前，機(jī)器學(xué)習(xí)抽取算法主要有三種：基于啟發(fā)式規(guī)則和無(wú)監(jiān)督學(xué)習(xí)的網(wǎng)頁(yè)抽取算法、基于分類器的網(wǎng)頁(yè)抽取算法和基于網(wǎng)頁(yè)模板的網(wǎng)頁(yè)抽取算法[9]。這幾種算法各有利弊，需要進(jìn)行再深入的研究才能更有效的解決問(wèn)題。

綜上所述，網(wǎng)站摘要的生成，需要經(jīng)歷網(wǎng)頁(yè)正文的抽取，網(wǎng)頁(yè)文本的處理，最終摘要算法的生成等多個(gè)階段，每個(gè)階段都需要精心的設(shè)計(jì)和大量的計(jì)算，各階段精準(zhǔn)配合才能完成最終的目標(biāo)。

三、算法詳述

本文研究的是像科研機(jī)構(gòu)這樣的多文本網(wǎng)站的網(wǎng)站文本摘要。這類網(wǎng)站通常不會(huì)是一個(gè)單一的網(wǎng)頁(yè)，且其內(nèi)部包含網(wǎng)頁(yè)的內(nèi)容、結(jié)構(gòu)和組織形式也都不相同。對(duì)于上面介紹的方法，均不能直接采用。

基于正則表達(dá)式的方法，需要根據(jù)用戶的需求生成規(guī)則，而本文研究的網(wǎng)站對(duì)象并不能事先確定正文的規(guī)則?；诜诸惼鞯姆椒?，需要對(duì)公共的通用的訓(xùn)練集進(jìn)行大量的人工標(biāo)注，而在本文研究的網(wǎng)站方面還沒(méi)有這樣一個(gè)訓(xùn)練集?；诰W(wǎng)頁(yè)模板的方法看似較實(shí)用，卻有很大的局限性，因?yàn)榫W(wǎng)站間的模板大多不同，一個(gè)網(wǎng)站的模板只能用于該網(wǎng)站的網(wǎng)頁(yè)抽取，若要抽取其他網(wǎng)站的正文內(nèi)容，則需要重新生成網(wǎng)站模板。本文期望研究一種算法，可以盡可能全面的抽取網(wǎng)站的信息，并且有較強(qiáng)的可移植性和易維護(hù)性，能夠在大多數(shù)的多文本網(wǎng)站上通用。目前互聯(lián)網(wǎng)上大部分網(wǎng)頁(yè)的生成語(yǔ)言是HTML，該語(yǔ)言通過(guò)一系列標(biāo)記符號(hào)，將網(wǎng)絡(luò)上的文檔格式統(tǒng)一，使分散的網(wǎng)絡(luò)資源連接為一個(gè)邏輯整體。經(jīng)過(guò)對(duì)多文本網(wǎng)站層次結(jié)構(gòu)的詳細(xì)分析，本文以科研機(jī)構(gòu)網(wǎng)站為例，結(jié)合上述傳統(tǒng)的自動(dòng)摘要技術(shù)和目前較成熟的網(wǎng)站文本抽取技術(shù)，啟發(fā)于基于統(tǒng)計(jì)特征抽取方法中提到的利用文章中段落特征計(jì)算語(yǔ)句權(quán)重的方法，在計(jì)算句子權(quán)重時(shí)重點(diǎn)結(jié)合網(wǎng)站的層次結(jié)構(gòu)，通過(guò)對(duì)目標(biāo)類型網(wǎng)站的分析和研究，從特征統(tǒng)計(jì)和語(yǔ)義理解兩個(gè)方面，提出綜合性的解決算法，從而提出了一個(gè)基于統(tǒng)計(jì)的，適合所有多文本網(wǎng)站的，可全面獲取網(wǎng)站信息的抽取算法。該算法不需要提前制定規(guī)則，也無(wú)需大量的人工標(biāo)注，只是通過(guò)對(duì)網(wǎng)頁(yè)HTML標(biāo)簽和標(biāo)簽內(nèi)文本特征的綜合分析，便可準(zhǔn)確提取網(wǎng)頁(yè)中的文本信息，可移植性和實(shí)用性更佳，能夠更好的適用不同類型的網(wǎng)頁(yè)。

下面對(duì)該算法進(jìn)行詳細(xì)的描述：

基于統(tǒng)計(jì)的網(wǎng)站文本抽取算法步驟可簡(jiǎn)述為：首先對(duì)網(wǎng)站進(jìn)行爬蟲(chóng)，采用寬度優(yōu)先算法來(lái)獲取網(wǎng)站內(nèi)的網(wǎng)頁(yè)，然后解析網(wǎng)頁(yè)源碼成DOM樹(shù)，接著對(duì)DOM樹(shù)中的節(jié)點(diǎn)進(jìn)行分析，統(tǒng)計(jì)這些特定節(jié)點(diǎn)所包含的字符和標(biāo)點(diǎn)，從而選擇包含網(wǎng)頁(yè)文本主要內(nèi)容的節(jié)點(diǎn)，最后由這些篩選后的節(jié)點(diǎn)，生成能夠概括整個(gè)網(wǎng)站的綜合文本。

具體步驟如下：

1.通過(guò)對(duì)網(wǎng)站進(jìn)行爬蟲(chóng)處理來(lái)獲得網(wǎng)站內(nèi)的頁(yè)面。通用網(wǎng)絡(luò)爬蟲(chóng)流程如圖1所示：

圖1 通用網(wǎng)絡(luò)爬蟲(chóng)流程圖

通用網(wǎng)絡(luò)爬蟲(chóng)也叫做全網(wǎng)爬蟲(chóng)，其功能是獲取網(wǎng)頁(yè)數(shù)據(jù)，為搜索引擎等類型的網(wǎng)站提供數(shù)據(jù)來(lái)源。通用網(wǎng)絡(luò)爬蟲(chóng)的爬行策略通常有四種：深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、大站優(yōu)先爬行策略和反鏈優(yōu)先爬行策略[10]。

本文討論的是多文本網(wǎng)站，目的是盡可能收集到較全面的網(wǎng)站內(nèi)容。大部分的網(wǎng)站都是層次結(jié)構(gòu)的，網(wǎng)站的首頁(yè)一般包含了對(duì)整個(gè)網(wǎng)站內(nèi)容信息的概要描述，但并不全面，因此對(duì)網(wǎng)站底層頁(yè)面也要進(jìn)行抽取，才能獲得網(wǎng)站更全面的信息。此時(shí)選擇寬度優(yōu)先搜索策略較為合適。

經(jīng)過(guò)爬蟲(chóng)，獲得了網(wǎng)頁(yè)的HTML源代碼，為下一步的分析和抽取做好了準(zhǔn)備。

2.解析網(wǎng)頁(yè)源碼成DOM樹(shù)

DOM的全稱是Document Object Model，即文檔對(duì)象模型。是以樹(shù)的結(jié)構(gòu)，來(lái)表示HTML頁(yè)面的層次結(jié)構(gòu)，其中樹(shù)的節(jié)點(diǎn)便是一個(gè)個(gè)信息片斷。這個(gè)結(jié)構(gòu)能夠?qū)⒄麄€(gè)文檔的組織結(jié)構(gòu)清晰的表示出來(lái)。

以某個(gè)科研網(wǎng)站為例，因篇幅有限，將其HTML代碼做了簡(jiǎn)化，表示為：

通過(guò)上述HTML源碼，繪制該HTML文檔的DOM樹(shù)，如圖2所示：

圖2 HTML示例文檔的DOM樹(shù)

圖2將HTML源碼的結(jié)構(gòu)清晰的表示了出來(lái)，該DOM樹(shù)包含多個(gè)層級(jí)，樹(shù)中的標(biāo)簽元素相互嵌套，關(guān)系如同家譜一樣。最初的DOM樹(shù)是復(fù)雜的，節(jié)點(diǎn)繁多的，接下來(lái)的任務(wù)就是將DOM樹(shù)提煉、簡(jiǎn)化，為最終網(wǎng)站文本信息的生成做準(zhǔn)備。

3.預(yù)處理，規(guī)范DOM樹(shù)結(jié)構(gòu)

DOM樹(shù)是以句子的形式，將文本內(nèi)容包含在元素節(jié)點(diǎn)中的。所以首先要對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理，規(guī)范網(wǎng)頁(yè)，并篩選對(duì)結(jié)果有影響的某些標(biāo)簽。對(duì)網(wǎng)頁(yè)（HTML源碼）預(yù)處理的步驟描述如下：

⑴篩選標(biāo)簽框架：符號(hào)“〈”和“〉”在網(wǎng)頁(yè)中成對(duì)出現(xiàn)，用來(lái)表示網(wǎng)頁(yè)的標(biāo)簽，因此，通過(guò)這個(gè)符號(hào)就可以判斷頁(yè)面中哪些是作為標(biāo)簽的框架，若有不作為標(biāo)簽的框架使用了該符號(hào)，則此時(shí)用<(小于號(hào))和>(大于號(hào))這兩個(gè)符號(hào)來(lái)替換，經(jīng)過(guò)此步，頁(yè)面中的標(biāo)簽框架就清晰了，在后續(xù)的抽取過(guò)程中，可以減少不必要的錯(cuò)誤信息。

⑵檢查標(biāo)簽使用的規(guī)范性：標(biāo)簽應(yīng)成對(duì)出現(xiàn)，檢查每個(gè)開(kāi)始標(biāo)簽是否有相應(yīng)的結(jié)束標(biāo)簽，為后續(xù)精準(zhǔn)的抽取做保證。

⑶檢查標(biāo)簽的嵌套是否規(guī)范：標(biāo)簽的嵌套應(yīng)由內(nèi)而外，逐層嵌套。例如

…

是正確的嵌套規(guī)則，而

…

則是不對(duì)的，這一步就是將源碼中的標(biāo)簽規(guī)范化，方便機(jī)器的學(xué)習(xí)。

⑷過(guò)濾掉不包含文本元素的標(biāo)簽：有些標(biāo)簽內(nèi)的內(nèi)容并不包含所需的文本信息，而是語(yǔ)法說(shuō)明、格式說(shuō)明、頁(yè)面信息等，如、、和等；有的標(biāo)簽內(nèi)的內(nèi)容是一些無(wú)需抽取的注冊(cè)、登錄信息等，如、等；還有的標(biāo)簽雖然包含文本元素，但文字不成語(yǔ)句，后續(xù)也無(wú)需抽取，如、等。這一步就是將這些類型的標(biāo)簽過(guò)濾掉，提高后續(xù)抽取的精度。

⑸過(guò)濾掉其他對(duì)抽取文本無(wú)益的標(biāo)簽：比如有些鏈接標(biāo)簽中的鏈接字符，通常鏈接標(biāo)簽中的鏈接字符都是詞語(yǔ)或短語(yǔ)，而我們需要的是整句，所以，將鏈接標(biāo)簽中是詞語(yǔ)或短語(yǔ)的鏈接字符也過(guò)濾掉。

經(jīng)過(guò)該步驟，形成了基本符合抽取要求的網(wǎng)頁(yè)DOM樹(shù)結(jié)構(gòu)。

4.篩選DOM樹(shù)，獲得站內(nèi)頁(yè)面的整句信息

因?yàn)楸疚挠懻摰氖腔诰渥拥木W(wǎng)站摘要，有了上步對(duì)網(wǎng)頁(yè)的處理結(jié)果，接下來(lái)的任務(wù)便是獲取站內(nèi)頁(yè)面中包含的整句信息，于是就要對(duì)DOM樹(shù)進(jìn)行篩選。篩選掉網(wǎng)頁(yè)中的各種短句、標(biāo)題等不成句的短語(yǔ)以及沒(méi)有標(biāo)點(diǎn)符號(hào)的短句，最后得到包含文本信息的節(jié)點(diǎn)。

經(jīng)過(guò)研究，多文本網(wǎng)站頁(yè)面中的句子一般在和等標(biāo)簽元素中，通常中也包含一些句子文本。因此對(duì)DOM樹(shù)中這三類標(biāo)簽進(jìn)行如下三步處理：⑴獲取純文本字符串：去掉DOM樹(shù)中、和等節(jié) 點(diǎn) 的HTML標(biāo)簽，獲得不含任何標(biāo)簽的純文本的字符串。

⑵統(tǒng)計(jì)字符串個(gè)數(shù)并排序：對(duì)上步的結(jié)果字符串進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)每個(gè)字符串的長(zhǎng)度和所有字符串的個(gè)數(shù)，并按照字符串長(zhǎng)度的降序排列字符串，排在前面的字符串較長(zhǎng)，表示它們包含的文本信息較多，且包含的整句內(nèi)容也較多。這些字符串是候選字符串中的中堅(jiān)力量，對(duì)抽取結(jié)果的影響較大。

⑶篩選“假句子”：由于節(jié)點(diǎn)是可以嵌套的，所以經(jīng)過(guò)上述兩步后，排名靠前的字符串有可能是由多個(gè)嵌套詞語(yǔ)組成的短語(yǔ)，而不是句子。因此要對(duì)這些“假句子”進(jìn)行篩選，此時(shí)便可利用標(biāo)點(diǎn)符號(hào)來(lái)篩選。原則是：對(duì)每個(gè)節(jié)點(diǎn)中的標(biāo)點(diǎn)符號(hào)進(jìn)行統(tǒng)計(jì)，若一個(gè)節(jié)點(diǎn)中包含兩個(gè)以上（含兩個(gè)）標(biāo)點(diǎn)符號(hào)，即為目標(biāo)節(jié)點(diǎn)，因?yàn)槌删浠虺啥蔚男畔?，通常?huì)包含多個(gè)標(biāo)點(diǎn)符號(hào)；若無(wú)標(biāo)點(diǎn)或只有一個(gè)標(biāo)點(diǎn)符號(hào)，則需進(jìn)一步判斷該標(biāo)點(diǎn)是否為表示句子結(jié)束的標(biāo)點(diǎn)（如：“?！?、“！”、“？”等），若是，則也列為目標(biāo)節(jié)點(diǎn)，否則也要過(guò)濾掉。

5.去除重復(fù)的句子

通過(guò)網(wǎng)站爬蟲(chóng)獲取網(wǎng)頁(yè)源碼，根據(jù)源碼繪制DOM樹(shù)，再加上基于統(tǒng)計(jì)的網(wǎng)頁(yè)文本抽取，獲得了網(wǎng)站內(nèi)頁(yè)面的句子文本，雖經(jīng)過(guò)對(duì)DOM樹(shù)的預(yù)處理和篩選，得到了網(wǎng)頁(yè)的句子信息，但此時(shí)同一網(wǎng)站中的不同頁(yè)面中可能會(huì)存在重復(fù)的句子信息，這時(shí)的結(jié)果是存在冗余的。所以算法的最后一步，就是在生成最后的網(wǎng)站綜合文檔前還要對(duì)句子進(jìn)行去重處理[11]。

至此，對(duì)多文本網(wǎng)站內(nèi)容的抽取就完成了。完整的算法框架如圖3所示：

圖3 完整的基于統(tǒng)計(jì)的自動(dòng)文本摘要算法框架

四、算法驗(yàn)證評(píng)價(jià)

上述算法可以分成兩大步驟，一是網(wǎng)頁(yè)爬蟲(chóng)，一是文本抽取。下面針對(duì)上述算法，使用Recall-Oriented Understudy for Gisting Evalution（ROUGE）進(jìn)行評(píng)測(cè)，對(duì)算法的執(zhí)行結(jié)果進(jìn)行分析和驗(yàn)證。

為使實(shí)驗(yàn)數(shù)據(jù)更為嚴(yán)謹(jǐn)、公正，選擇DMOZ開(kāi)放式分類目錄中的10個(gè)網(wǎng)站作為實(shí)驗(yàn)對(duì)象，它們分別來(lái)自“Computers/Software/Software Engineering”和“Science/Science in Society”類目。這些都是多文本內(nèi)容的網(wǎng)站，網(wǎng)站的結(jié)構(gòu)層次分明。下面使用本文提出的基于統(tǒng)計(jì)的自動(dòng)文本摘要算法，對(duì)這些多文本網(wǎng)站進(jìn)行內(nèi)容抽取。

實(shí)驗(yàn)過(guò)程如下：

以https://www.21ks.net/lunwen網(wǎng)站為例。首先在爬蟲(chóng)程序中輸入備選網(wǎng)站的URL，選取該網(wǎng)站的前10個(gè)頁(yè)面作為實(shí)驗(yàn)對(duì)象，利用寬度優(yōu)先搜索策略抓取網(wǎng)站內(nèi)的頁(yè)面，分析網(wǎng)頁(yè)的源碼，形成網(wǎng)頁(yè)的DOM樹(shù)；然后規(guī)范DOM樹(shù)節(jié)點(diǎn)，檢查網(wǎng)頁(yè)中的標(biāo)簽是否規(guī)范，過(guò)濾掉不包含文本元素的標(biāo)簽，去掉只包含短語(yǔ)和鏈接字符的鏈接標(biāo)簽，使DOM樹(shù)中的剩余節(jié)點(diǎn)均為包含句子的節(jié)點(diǎn)；此時(shí)，再將這些節(jié)點(diǎn)的標(biāo)簽去掉，剩下純文本字符串，這些字符串不包含任何的HTML標(biāo)簽；接著，對(duì)這些文本再進(jìn)行精簡(jiǎn)，根據(jù)對(duì)句中標(biāo)點(diǎn)符號(hào)的類型和個(gè)數(shù)的統(tǒng)計(jì)，按字符串長(zhǎng)度對(duì)其排序，得到整長(zhǎng)句；最后，將目標(biāo)節(jié)點(diǎn)篩選出來(lái)，形成候選的句子集合。為最后自動(dòng)生成網(wǎng)站摘要做好準(zhǔn)備。此時(shí)，已經(jīng)形成了一個(gè)綜合網(wǎng)站內(nèi)網(wǎng)頁(yè)內(nèi)容的綜合文檔，但是這個(gè)綜合文檔內(nèi)還有一些重復(fù)的句子，在輸出最后的網(wǎng)站文本摘要前，對(duì)綜合文檔進(jìn)行一下去重處理就可以了。

實(shí)驗(yàn)結(jié)果和分析如下：

ROUGE是使用機(jī)器學(xué)習(xí)方法進(jìn)行自動(dòng)文摘的最常用的評(píng)價(jià)指標(biāo)，雖然該方法提出已經(jīng)十多年了，但是至今沒(méi)有一個(gè)更好的評(píng)價(jià)方法來(lái)取代它。該方法的基本思想是采用召回率來(lái)作為指標(biāo)，將系統(tǒng)生成的自動(dòng)摘要與人工生成的參考摘要進(jìn)行對(duì)比，統(tǒng)計(jì)兩者重疊基本單元（語(yǔ)法、詞序等）的數(shù)目，從而評(píng)價(jià)系統(tǒng)的穩(wěn)定性和魯棒性。

抽取效果可以用P（精確率）、R（召回率）和F1值來(lái)進(jìn)行評(píng)價(jià)。其中，P(精確率)指正確提取的句子在總提取句子數(shù)中所占的比率；R(召回率)指正確提取的句子在原本正確的句子數(shù)中所占的比率。為更清楚評(píng)價(jià)抽取效果，用如下公式來(lái)表示P、R和F1，其中：T（真）、F（假）、P（陽(yáng)性）、N（陰性），對(duì)以上四種狀態(tài)進(jìn)行組合，則有：

TP：真陽(yáng)性——自動(dòng)摘要中有，人工參考摘要中也有；

TN：真陰性——自動(dòng)摘要中沒(méi)有，人工參考摘要中也沒(méi)有；

EP：假陽(yáng)性——自動(dòng)摘要中沒(méi)有，人工參考摘要中有；

FN：假陰性——自動(dòng)摘要中有，人工參考摘要中沒(méi)有。

得到公式1和公式2：

F1值是算法的評(píng)價(jià)標(biāo)準(zhǔn)，表示精確率和召回率越高越好，因此，得出公式3。從公式3中可以看出，R不變時(shí)，P越大，1/P越小，從而F1越大；同理：P不變時(shí)，R越大，1/R越小，從而F1越大。

通過(guò)上述公式計(jì)算，對(duì)示例網(wǎng)站的評(píng)價(jià)結(jié)果如表1所示：

表1 示例網(wǎng)站實(shí)驗(yàn)結(jié)果評(píng)價(jià)

五、總結(jié)

本文首先研究了目前網(wǎng)站文本自動(dòng)摘要和網(wǎng)頁(yè)正文抽取的主流技術(shù)，探討并分析了各技術(shù)間的優(yōu)缺點(diǎn)。從現(xiàn)有技術(shù)中得到啟發(fā)，針對(duì)多文本類型的網(wǎng)站，提出基于統(tǒng)計(jì)的網(wǎng)站信息抽取算法。該算法結(jié)合網(wǎng)站爬蟲(chóng)技術(shù)提取網(wǎng)頁(yè)源碼，通過(guò)基于統(tǒng)計(jì)的網(wǎng)頁(yè)文本抽取方法，篩選并過(guò)濾網(wǎng)頁(yè)文本，從而得到網(wǎng)站綜合文本信息。文中最后對(duì)DMOZ目錄中的隨機(jī)網(wǎng)站進(jìn)行實(shí)驗(yàn)，對(duì)10個(gè)網(wǎng)站中的共100個(gè)頁(yè)面進(jìn)行了句子集合抽取，通過(guò)ROUGE評(píng)價(jià)標(biāo)準(zhǔn)，以精確率（P）、召回率（R）和F1值作為評(píng)價(jià)方法，評(píng)價(jià)結(jié)果均在90%以上。驗(yàn)證了該算法實(shí)用性強(qiáng)，適用性好，易于移植和維護(hù)，在對(duì)多文本網(wǎng)站的信息抽取方面可行。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于統(tǒng)計(jì)的多文本網(wǎng)站文本內(nèi)容抽取算法

一、引言

二、國(guó)內(nèi)外研究現(xiàn)狀分析

三、算法詳述

四、算法驗(yàn)證評(píng)價(jià)

五、總結(jié)

一、引言

二、國(guó)內(nèi)外研究現(xiàn)狀分析

三、算法詳述