国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本摘要技術(shù)在網(wǎng)絡(luò)爬蟲(chóng)中的應(yīng)用

2022-05-27 07:55李大舟王淮中
關(guān)鍵詞:爬蟲(chóng)網(wǎng)頁(yè)向量

高 巍,馬 輝,李大舟,王淮中

(沈陽(yáng)化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 遼寧 沈陽(yáng) 110142)

隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)成為大量信息的載體.傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)是將爬取的網(wǎng)頁(yè)內(nèi)容全都存儲(chǔ)下來(lái),導(dǎo)致用戶對(duì)信息的接受效率很低.網(wǎng)絡(luò)爬蟲(chóng)每天大概可以爬取10 GB數(shù)據(jù),而個(gè)人計(jì)算機(jī)空間大約為1 T,隨著時(shí)間的推移,數(shù)據(jù)不斷存儲(chǔ),計(jì)算機(jī)存儲(chǔ)空間將很快達(dá)到飽和.

近年來(lái),用戶需求逐漸從海量數(shù)據(jù)轉(zhuǎn)變?yōu)閮r(jià)值信息,從而導(dǎo)致用戶獲取和使用信息的技術(shù)手段也發(fā)生了相應(yīng)的改變.現(xiàn)在的新聞主題越來(lái)越多樣化,每個(gè)主題對(duì)應(yīng)的新聞數(shù)量也越來(lái)越多,報(bào)道新聞的網(wǎng)站也持續(xù)增加.如果有一個(gè)方法可以讓用戶快速了解一個(gè)新聞主題近年來(lái)所發(fā)生的所有內(nèi)容,那么將會(huì)讓爬蟲(chóng)爬取到的信息在這個(gè)大數(shù)據(jù)時(shí)代得以利用.

針對(duì)傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)的問(wèn)題,本研究提出將抽取式[1]文本摘要技術(shù)[2]應(yīng)用于網(wǎng)絡(luò)爬蟲(chóng)中,對(duì)文本進(jìn)行壓縮表示,產(chǎn)生簡(jiǎn)潔、精煉的內(nèi)容,方便用戶快速瀏覽并掌握文本內(nèi)容的同時(shí)還可以大大節(jié)約計(jì)算機(jī)的存儲(chǔ)空間.在網(wǎng)絡(luò)信息和數(shù)據(jù)爆炸增長(zhǎng)的今天,文本摘要技術(shù)無(wú)疑能夠有效降低用戶的信息負(fù)荷,提高用戶的知識(shí)提取效率.因此,文本摘要技術(shù)的研究對(duì)網(wǎng)絡(luò)爬蟲(chóng)的發(fā)展有十分重要的意義.

1 相關(guān)研究

網(wǎng)絡(luò)爬蟲(chóng)始于20世紀(jì)90年代的Google等搜索引擎.1994年,De Bra等[3]設(shè)計(jì)了 Fish-Search 算法來(lái)指導(dǎo)爬蟲(chóng)的抓取方向,它可以在特定的范圍爬取網(wǎng)頁(yè).1998年,Hersovici等[4]在Fish-Search算法基礎(chǔ)上提出了 Shark-Search 算法.1999年,Chakrabarti等[5]提出主題網(wǎng)絡(luò)爬蟲(chóng)概念,是早期主題網(wǎng)絡(luò)爬蟲(chóng)較典型的研究之一.2001年,百度搜索引擎在中關(guān)村成立.至今,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)已經(jīng)可以很成熟地代替人工下載數(shù)據(jù),但是目前還沒(méi)有相關(guān)研究來(lái)解決網(wǎng)絡(luò)爬蟲(chóng)不能很好處理數(shù)據(jù)的問(wèn)題.

自然語(yǔ)言處理的歷史非常悠久,文本摘要技術(shù)[6]是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究方向.文本摘要技術(shù)的研究最早是由Luhn[7]于1958年開(kāi)始的,揭開(kāi)了文本摘要技術(shù)研究的序幕.文本摘要根據(jù)抽取方式不同可分為抽取式和生成式,其中抽取式文本摘要因其抽取得到的摘要語(yǔ)意連貫,仍是現(xiàn)在的研究熱點(diǎn).2004年,Mihalcea等[8]提出了基于圖的排序算法,即TextRank算法.在抽取式摘要中,TextRank算法是最經(jīng)典的算法,但是傳統(tǒng)的TextRank算法將所有節(jié)點(diǎn)的權(quán)重均設(shè)為1,忽略了節(jié)點(diǎn)自身的權(quán)重.2014年,羅慶平[9]在傳統(tǒng)的TextRank算法中加入位置權(quán)重來(lái)提升最終的摘要準(zhǔn)確度.

近些年,基于事件的文本摘要技術(shù)成為了研究熱點(diǎn).2003年,密歇根大學(xué)Daniel等[10]首次提出將新聞話題劃分為一系列事件并將其應(yīng)用在文本摘要中.2007年,官禮和等[11]提出一種基于新聞文本特征的摘要方法.2012 年,韓永峰等[12]提出基于事件抽取的新聞多文檔自動(dòng)摘要方法.因此,將文本摘要技術(shù)應(yīng)用在網(wǎng)絡(luò)爬蟲(chóng)中是有理論依據(jù)和實(shí)際意義的.

2 網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng)又稱為網(wǎng)頁(yè)蜘蛛[13]、網(wǎng)絡(luò)機(jī)器人,是一種按照一定規(guī)則從互聯(lián)網(wǎng)獲取并提取數(shù)據(jù)的程序或腳本.爬蟲(chóng)按照使用場(chǎng)景,可分為通用爬蟲(chóng)和聚焦爬蟲(chóng)[14].通用爬蟲(chóng)會(huì)將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份;聚焦爬蟲(chóng)會(huì)選擇性地爬行與預(yù)先定義好的主題相關(guān)的網(wǎng)絡(luò)頁(yè)面.

2.1 聚焦爬蟲(chóng)的工作原理

本研究選擇聚焦爬蟲(chóng)來(lái)完成爬取.聚焦爬蟲(chóng)需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接,并將其放入等待爬取的URL(uniform resource locator,URL)隊(duì)列.然后,它根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要爬取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)設(shè)定的某一條件時(shí)停止,如圖1所示.

圖1 聚焦爬蟲(chóng)的工作原理

2.2 聚焦爬蟲(chóng)的系統(tǒng)結(jié)構(gòu)

爬蟲(chóng)系統(tǒng)分為網(wǎng)頁(yè)獲取、網(wǎng)頁(yè)過(guò)濾和網(wǎng)頁(yè)存儲(chǔ)三大模塊.為了定向抓取有效信息,聚焦爬蟲(chóng)對(duì)三大模塊進(jìn)行適當(dāng)修改并增加了網(wǎng)頁(yè)分析模塊用于計(jì)算網(wǎng)頁(yè)相似度,如圖2所示.網(wǎng)絡(luò)爬蟲(chóng)的關(guān)鍵在于確定爬取的主題和詳細(xì)的主題描述,使爬蟲(chóng)系統(tǒng)盡可能多地篩選出和主題相關(guān)的頁(yè)面,減少無(wú)關(guān)的頁(yè)面,從而使爬蟲(chóng)返回的結(jié)果具有較高的準(zhǔn)確率.

圖2 聚焦爬蟲(chóng)的系統(tǒng)結(jié)構(gòu)

聚焦爬蟲(chóng)系統(tǒng)主要模塊有:

(1) URL隊(duì)列.爬取網(wǎng)頁(yè)就是通過(guò)URL來(lái)獲取網(wǎng)頁(yè)信息,把各種超鏈接存放在URL隊(duì)列.將已完成爬取的隊(duì)列存放在已爬取隊(duì)列,將系統(tǒng)未爬取的網(wǎng)頁(yè)鏈接存放在待爬取隊(duì)列,將未完成爬取的鏈接存放在錯(cuò)誤隊(duì)列.把鏈接這樣存放起來(lái)不僅可以避免爬取相同的頁(yè)面,也可以了解未能爬取的頁(yè)面有哪些.

(2) 網(wǎng)頁(yè)獲取模塊.該模塊實(shí)現(xiàn)獲取網(wǎng)頁(yè)內(nèi)容的功能.網(wǎng)絡(luò)爬蟲(chóng)爬取數(shù)據(jù)的過(guò)程可以看作是模擬瀏覽器操作的過(guò)程.模擬客戶端發(fā)送HTTP請(qǐng)求,得到服務(wù)器端響應(yīng)后解析HTML頁(yè)面內(nèi)容并下載.為HTTP請(qǐng)求設(shè)置超時(shí)時(shí)間,一旦超過(guò)這個(gè)時(shí)間,服務(wù)器還沒(méi)有返回響應(yīng)內(nèi)容,就會(huì)舍棄超時(shí)網(wǎng)頁(yè).

(3) 網(wǎng)頁(yè)解析模塊.該模塊對(duì)爬取的數(shù)據(jù)進(jìn)行過(guò)濾篩選,去掉沒(méi)用的數(shù)據(jù),留下有價(jià)值的數(shù)據(jù).通過(guò)不同的方案來(lái)處理不同類(lèi)型的數(shù)據(jù),數(shù)據(jù)一般分為結(jié)構(gòu)化和非結(jié)構(gòu)化.通過(guò)采集HTML頁(yè)面中的重要鏈接和文本等內(nèi)容信息來(lái)處理爬取下來(lái)的網(wǎng)頁(yè)內(nèi)容.

(4) 網(wǎng)頁(yè)過(guò)濾模塊.該模塊用來(lái)篩選出所要爬取主題網(wǎng)頁(yè)的URL,這樣可以確保所爬取系統(tǒng)的準(zhǔn)確率,避免爬取到與主題無(wú)關(guān)的網(wǎng)頁(yè).

(5) 網(wǎng)頁(yè)分析模塊.該模塊分兩部分:第一部分是對(duì)網(wǎng)頁(yè)的主題相關(guān)度進(jìn)行判斷;第二部分是預(yù)測(cè)網(wǎng)頁(yè)URL與主題相關(guān)的程度,優(yōu)先訪問(wèn)與主題相關(guān)的URL.

(6) 網(wǎng)頁(yè)存儲(chǔ)模塊.該模塊將爬蟲(chóng)數(shù)據(jù)以不同的方式存儲(chǔ)下來(lái).存儲(chǔ)的方法有兩種:一種是存儲(chǔ)到本地;另一種是存儲(chǔ)到數(shù)據(jù)庫(kù).本文將以文件的形式存儲(chǔ)在本地.

從宏觀的角度考慮,根據(jù)動(dòng)態(tài)爬取和互聯(lián)網(wǎng)中所有網(wǎng)頁(yè)的關(guān)系,可以將互聯(lián)網(wǎng)網(wǎng)頁(yè)分為5類(lèi),如圖3所示.

圖3 網(wǎng)頁(yè)分類(lèi)

已下載網(wǎng)頁(yè)是指爬蟲(chóng)已經(jīng)從互聯(lián)網(wǎng)下載到本地進(jìn)行索引的網(wǎng)頁(yè)集合.已過(guò)期網(wǎng)頁(yè)指進(jìn)行爬蟲(chóng)時(shí),所要爬取的網(wǎng)頁(yè)可能已經(jīng)過(guò)期.待下載網(wǎng)頁(yè)指的是該網(wǎng)頁(yè)在待爬取的URL隊(duì)列中,即將被下載.可知網(wǎng)頁(yè)指的是網(wǎng)頁(yè)還沒(méi)有被下載,也沒(méi)有在待爬取URL隊(duì)列中,但是總能通過(guò)已有的網(wǎng)頁(yè)或URL鏈接發(fā)現(xiàn)它們.不可知網(wǎng)頁(yè)指的是有些網(wǎng)頁(yè)對(duì)于爬蟲(chóng)來(lái)說(shuō)無(wú)法爬取到,這部分網(wǎng)頁(yè)構(gòu)成了不可知網(wǎng)頁(yè).

3 文本摘要

本研究用一種基于全局詞頻統(tǒng)計(jì)的詞表征工具Glove對(duì)文本中的句子進(jìn)行向量表達(dá),采用k-means聚類(lèi)算法對(duì)句子向量進(jìn)行聚類(lèi),得到k個(gè)簇.傳統(tǒng)的k-means算法選取離簇類(lèi)中心最近的句子作為摘要,忽略了該句子是否是該簇類(lèi)所有句子的最佳代表.因此,本研究將考慮了句子與新聞標(biāo)題相似度的TextRank算法加入每個(gè)簇類(lèi)中,進(jìn)行句子重要度的重排序.本研究文本摘要提取流程如圖4所示.

圖4 文本摘要提取流程

3.1 Glove詞向量

本研究通過(guò)Glove模型來(lái)訓(xùn)練數(shù)據(jù)集,通過(guò)爬蟲(chóng)技術(shù)共獲得新聞10 032篇,隨機(jī)選取8000篇新聞作為訓(xùn)練集,剩余新聞作為測(cè)試集.Glove詞向量是詞語(yǔ)的向量化表示.它通過(guò)對(duì)詞上下文關(guān)系建模來(lái)表述語(yǔ)義,將單詞的語(yǔ)義信息表示為由實(shí)數(shù)組成的向量.這些詞向量可以用來(lái)構(gòu)建句子的向量化表示.詞袋[15]模型或者TF-IDF[16]方法也可以為句子構(gòu)建特征向量,但是這些方法忽略了句子中單詞的順序,而且這樣的特征向量通常維數(shù)過(guò)高.

Glove模型[17]的目標(biāo)是要進(jìn)行詞的向量化表示,使得向量之間包含更多的語(yǔ)法和語(yǔ)義信息.需要構(gòu)建共現(xiàn)矩陣X,再對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練.單詞i和單詞j共同出現(xiàn)在同一個(gè)窗口的次數(shù)為Xi,j.用寬度為5的窗口來(lái)統(tǒng)計(jì)有6個(gè)字的句子,如圖5所示.

圖5 窗口展示

箭頭指的是當(dāng)前窗口的中心詞,統(tǒng)計(jì)每個(gè)中心詞左右長(zhǎng)度不超過(guò)2的詞,并依據(jù)統(tǒng)計(jì)信息來(lái)建立共現(xiàn)矩陣.設(shè)“高錳酸鉀用途”這六個(gè)字分別為“w1、w2、w3、w4、w5、w6”,當(dāng)中心詞為w5,語(yǔ)境詞為w3、w4、w6時(shí),則執(zhí)行:

X(w5w3)+=1,

X(w5w4)+=1,

X(w5w6)+=1.

Glove模型通過(guò)梯度下降的方式來(lái)訓(xùn)練詞向量,損失函數(shù)為

bj-log(Xi,j)]2.

(1)

其中:N是整個(gè)詞匯表的大小;Xi,j代表單詞i和j在一個(gè)滑動(dòng)窗口內(nèi)共同出現(xiàn)的次數(shù);bi和bj是偏差項(xiàng);f(Xi,j)是一個(gè)權(quán)重函數(shù),其作用是降低高頻詞對(duì)模型的干擾.

3.2 k-means算法

文本摘要的目的就是用盡可能少的篇幅來(lái)概括文本.一篇文章會(huì)有多個(gè)論點(diǎn),如果一個(gè)論點(diǎn)表示一個(gè)主題,那么文章的每個(gè)主題就將文章的句子大致進(jìn)行了分類(lèi),因此從每個(gè)主題聚類(lèi)中選取句子就可以避免摘要句子語(yǔ)義重復(fù)和篇幅過(guò)長(zhǎng).本文選取k-means算法對(duì)句子的向量做分類(lèi).k-means算法先隨機(jī)選取k個(gè)點(diǎn),計(jì)算其余樣本與每個(gè)k點(diǎn)的距離,并將其劃分到與其距離最近的點(diǎn),形成k個(gè)簇.算法的目的是找到中心點(diǎn)的合適坐標(biāo),使得所有樣本向量到每個(gè)簇類(lèi)中心點(diǎn)距離的平方和最小.實(shí)現(xiàn)k-means算法需要三點(diǎn),分別是:

(1)k值的選擇.k值一般是按照實(shí)際需求所設(shè)定的,本文取k等于5.

(2) 距離的度量.這個(gè)指的是各個(gè)樣本到簇中心的距離.

(3) 更新簇中心.根據(jù)新劃分的簇,重新計(jì)算簇中心,達(dá)到算法收斂后停止迭代.收斂條件為C值低于某個(gè)要求或每個(gè)簇類(lèi)的中心點(diǎn)不再變化.

給定一篇文章D,包含經(jīng)向量表示的句子序列{x1,x2,…,xn},n為樣本數(shù)量,則k-means的目標(biāo)最小化的數(shù)學(xué)公式表達(dá)為

(2)

其中:Xi是樣本句子的特征向量;Xcenter是樣本所在簇類(lèi)的中心點(diǎn)的句子向量;distant()用于計(jì)算兩個(gè)向量之間的距離.

3.3 改進(jìn)的TextRank算法

原本的k-means算法是選取離簇類(lèi)中心最近的句子,但是這樣不能保證該句子是最佳的摘要句.在每個(gè)簇類(lèi)中使用TextRank算法對(duì)權(quán)值進(jìn)行計(jì)算,對(duì)句子進(jìn)行權(quán)重排序,挑選出最能代表每個(gè)簇類(lèi)的句子作為摘要句.本研究在傳統(tǒng)的TextRank基礎(chǔ)上考慮了新聞對(duì)句子的權(quán)重影響.

傳統(tǒng)的TextRank算法受到了PageRank算法的啟發(fā),是在PageRank算法的基礎(chǔ)上進(jìn)行改進(jìn)的.PageRank算法主要是用來(lái)衡量網(wǎng)頁(yè)的重要程度和給搜索引擎結(jié)果排序的,其他網(wǎng)頁(yè)到該網(wǎng)頁(yè)的鏈接越多,該網(wǎng)頁(yè)越重要.

TextRank算法中句子取代網(wǎng)頁(yè),句子間的相似性等同于網(wǎng)頁(yè)跳轉(zhuǎn)概率.句子間的相似度得分也同網(wǎng)頁(yè)跳轉(zhuǎn)率一樣存儲(chǔ)在矩陣中.TextRank算法一般用有權(quán)圖進(jìn)行表示,構(gòu)建句子有權(quán)圖G(V,E),句子的集合也就是圖中點(diǎn)集合為V,句子之間的連接集合,即邊集合為E.T(vi)代表點(diǎn)vi的權(quán)重,頂點(diǎn)權(quán)重為

T(vi)=(1-d)+d×

(3)

其中:d是阻尼系數(shù),指從圖中一點(diǎn)到任意一點(diǎn)的概率,一般取值0.85;In(vi)表示指向頂點(diǎn)vi的所有點(diǎn)的集合;wij為vi與vj任意兩點(diǎn)之間的權(quán)重;Out(vi)表示所有從頂點(diǎn)vi出發(fā)指向其他點(diǎn)的集合;兩個(gè)句子間的權(quán)重W用余弦相似度來(lái)計(jì)算:

(4)

其中:A和B為通過(guò)Glove模型建立的句子向量;n為句子向量的維度;Ai和Bi表示各自所代表句子向量中的第一個(gè)數(shù)值.

在新聞報(bào)道中,標(biāo)題在一定程度上包含了該新聞的重要信息,所以與標(biāo)題相似的句子很有可能就是我們想要獲得的摘要句.TextRank算法需要對(duì)圖中每個(gè)點(diǎn)定義一個(gè)初始值,并對(duì)其進(jìn)行迭代訓(xùn)練才能得到最終權(quán)重,通常TextRank算法會(huì)將初始值都設(shè)置為1.本研究對(duì)與標(biāo)題相似度高的句子進(jìn)行權(quán)重調(diào)整,調(diào)整規(guī)則用

(5)

表示.其中:v表示圖中的點(diǎn),也就是句子;T(v)表示點(diǎn)的權(quán)重;W表示句子與標(biāo)題的相似度.

4 實(shí)驗(yàn)與評(píng)價(jià)

通過(guò)四次實(shí)驗(yàn),對(duì)本文的研究成果進(jìn)行展示與評(píng)價(jià).

第一次實(shí)驗(yàn)只采用聚焦爬蟲(chóng)技術(shù)對(duì)數(shù)據(jù)進(jìn)行獲取和處理,其余三次實(shí)驗(yàn)在聚焦爬蟲(chóng)技術(shù)的基礎(chǔ)上加入文本摘要技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理.第一次實(shí)驗(yàn)和其余三次實(shí)驗(yàn)旨在對(duì)比抽取式文本摘要對(duì)爬蟲(chóng)技術(shù)的影響,從而提出文本摘要技術(shù)在爬蟲(chóng)中的應(yīng)用是可行的且效果很好.

其余三次在聚焦爬蟲(chóng)技術(shù)基礎(chǔ)上加入文本摘要技術(shù)的實(shí)驗(yàn),分別采用不同的文本摘要模型去獲取摘要.這三次實(shí)驗(yàn)旨在對(duì)比不同文本摘要算法抽取出摘要的質(zhì)量,從而得出本研究改進(jìn)的TextRank模型效果優(yōu)于其余兩個(gè)傳統(tǒng)抽取式文本摘要模型.

本研究用3個(gè)評(píng)測(cè)指標(biāo)來(lái)評(píng)測(cè)實(shí)驗(yàn)結(jié)果:用自動(dòng)評(píng)價(jià)矩陣ROUGE[8]來(lái)評(píng)測(cè)自動(dòng)抽取摘要的質(zhì)量;用時(shí)間戳評(píng)價(jià)爬蟲(chóng)和在爬蟲(chóng)基礎(chǔ)上加入文本摘要的運(yùn)行時(shí)間;對(duì)比爬蟲(chóng)和在爬蟲(chóng)中加入文本摘要這兩個(gè)方法存儲(chǔ)文本的大小和所占空間.

4.1 實(shí)驗(yàn)過(guò)程與結(jié)果

第一次實(shí)驗(yàn)用聚焦爬蟲(chóng)對(duì)數(shù)據(jù)進(jìn)行爬取.本研究采用的數(shù)據(jù)是賢集網(wǎng)的化工版塊新聞(網(wǎng)址:https://www.xianjichina.com/).賢集網(wǎng)是上海敬賢信息科技有限公司策劃、開(kāi)發(fā)和運(yùn)營(yíng)的技術(shù)服務(wù)交易平臺(tái),是工業(yè)行業(yè)門(mén)戶網(wǎng)站.

通過(guò)爬蟲(chóng)技術(shù)獲取賢集網(wǎng)網(wǎng)站上從2016年至今的以化工為話題的全部新聞,總共為10 032篇.每篇文章包括新聞標(biāo)題和新聞內(nèi)容兩個(gè)部分,新聞標(biāo)題作為參考摘要,新聞內(nèi)容以txt文本形式存儲(chǔ).一個(gè)txt文件存儲(chǔ)一篇新聞,文件用每篇的新聞標(biāo)題命名.選取一篇新聞作為示例,數(shù)據(jù)的樣本示例參見(jiàn)表1.

表1 數(shù)據(jù)樣本示例

其余三次實(shí)驗(yàn)在聚焦爬蟲(chóng)基礎(chǔ)上加入文本摘要技術(shù).用爬蟲(chóng)獲取網(wǎng)站上的新聞,但是不直接將其保存,用文本摘要技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理后再進(jìn)行保存.三次實(shí)驗(yàn)采用的抽取式摘要模型分別為:改進(jìn)的TextRank(本文模型)、傳統(tǒng)的TextRank與TopicModel[19].保存下來(lái)的是經(jīng)過(guò)摘要技術(shù)提取的句子,存儲(chǔ)方式和爬蟲(chóng)的一樣.

4.2 評(píng)價(jià)指標(biāo)

首先,用第一評(píng)價(jià)指標(biāo)評(píng)價(jià)三個(gè)不同模型抽取出文本摘要的質(zhì)量,選取出抽取文本摘要效果最好的模型;其次,用第二評(píng)價(jià)指標(biāo)和第三評(píng)價(jià)指標(biāo)評(píng)價(jià)只采用聚焦爬蟲(chóng)技術(shù)和在聚焦爬蟲(chóng)基礎(chǔ)上加入抽取式文本摘要技術(shù)后的實(shí)驗(yàn)結(jié)果.

第一評(píng)價(jià)指標(biāo):用ROUGE技術(shù)對(duì)文本摘要質(zhì)量進(jìn)行評(píng)價(jià).將新聞標(biāo)題作為參考摘要,將準(zhǔn)確率(P)、召回率(R)和摘要準(zhǔn)確率與召回率的調(diào)和平均值(F)作為評(píng)價(jià)指標(biāo).用a表示通過(guò)算法抽取得到的摘要,b表示參考摘要,計(jì)算公式為

(6)

(7)

(8)

本研究分別通過(guò)改進(jìn)的TextRank(本文模型)、傳統(tǒng)的TextRank與TopicModel三種算法進(jìn)行實(shí)驗(yàn),對(duì)爬取的數(shù)據(jù)集進(jìn)行處理并獲取摘要.在此情況下,對(duì)比P值、R值和F值,如表2所示.表3是三種算法根據(jù)表1所展示的數(shù)據(jù)樣本示例所生成的摘要.

表2 不同算法的P、R、F值統(tǒng)計(jì)表

表3 生成的文本摘要示例

由上述實(shí)驗(yàn)可知:改進(jìn)的TextRank模型效果優(yōu)于傳統(tǒng)的TextRank模型和TopicModel.TopicModel模型是將主題與圖排序結(jié)合在一起來(lái)提取所有與主題相關(guān)的句子作為摘要.本文利用Glove模型來(lái)表示句子向量,用k-means算法將句子聚類(lèi),并在傳統(tǒng)的TextRank算法基礎(chǔ)上考慮句子與新聞標(biāo)題的相似度.由表2可知本文模型取得了較好的效果.因此,采用改進(jìn)的TextRank去抽取摘要,并與聚焦爬蟲(chóng)技術(shù)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比.

第二評(píng)價(jià)指標(biāo):根據(jù)時(shí)間戳評(píng)測(cè)兩個(gè)實(shí)驗(yàn)的運(yùn)行時(shí)間.聚焦爬蟲(chóng)將數(shù)據(jù)都爬取并存儲(chǔ)的時(shí)間為1534 s,加入抽取式文本摘要后運(yùn)行時(shí)間為1621 s.加入抽取式文本摘要的爬蟲(chóng)程序運(yùn)行時(shí)間比爬蟲(chóng)長(zhǎng)一點(diǎn),但是與其產(chǎn)生的價(jià)值相比,是可以接受的.采用改進(jìn)的TextRank去抽取摘要.

第三評(píng)價(jià)指標(biāo):存儲(chǔ)的文件大小和所占空間大小.一共存儲(chǔ)10 032個(gè)文件,只采用聚焦爬蟲(chóng)技術(shù)爬取的文本大小為27.6 MB,占用空間40.5 MB;在聚焦爬蟲(chóng)基礎(chǔ)上加入抽取式文本摘要后,文件大小為2.2 MB,占用空間3.33 MB.比較結(jié)果如表4所示.

表4 文件存儲(chǔ)信息表

通過(guò)對(duì)比,可以看出添加了抽取式文本摘要的聚焦爬蟲(chóng)更具實(shí)際意義.抽取文本摘要的方法有很多,本文提出了改進(jìn)的TextRank模型用于抽取文本摘要.我們將新聞進(jìn)行提取摘要處理,不僅能讓用戶快速瀏覽并吸收該新聞話題的所有內(nèi)容,還節(jié)約了計(jì)算機(jī)的空間,讓爬取的數(shù)據(jù)得以利用的同時(shí),又不需要通過(guò)頻繁刪除文件來(lái)釋放空間.

5 結(jié) 論

在信息大爆炸的今天,如何在節(jié)約計(jì)算機(jī)空間的同時(shí)并快速瀏覽信息,是當(dāng)今研究的熱門(mén)方向之一.聚焦爬蟲(chóng)可以從互聯(lián)網(wǎng)上提取信息,但是它不能很好地利用數(shù)據(jù).本研究分為兩部分:第一部分,提出將抽取式文本摘要技術(shù)應(yīng)用于聚焦爬蟲(chóng),實(shí)驗(yàn)結(jié)果表明加入了文本摘要技術(shù)的網(wǎng)絡(luò)爬蟲(chóng)解決了用戶如何在快速瀏覽和吸收特定領(lǐng)域新聞所有內(nèi)容的同時(shí)節(jié)約計(jì)算機(jī)內(nèi)存資源的問(wèn)題;第二部分,提出了改進(jìn)的TextRank模型,用該模型去抽取文本摘要.用Glove模型生成句子向量,用k-means算法對(duì)生成的句子向量進(jìn)行聚類(lèi),最后用考慮了標(biāo)題因素的TextRank 算法對(duì)簇類(lèi)進(jìn)行重要度排序,抽取最終的摘要.采用ROUGE評(píng)價(jià)指標(biāo)對(duì)抽取的摘要質(zhì)量進(jìn)行評(píng)價(jià),并與兩個(gè)經(jīng)典的抽取式文本摘要模型進(jìn)行對(duì)比分析,得出本文提出的改進(jìn)的TextRank模型效果優(yōu)于其他兩個(gè)模型.

猜你喜歡
爬蟲(chóng)網(wǎng)頁(yè)向量
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
向量的分解
基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
聚焦“向量與三角”創(chuàng)新題
基于HTML5與CSS3的網(wǎng)頁(yè)設(shè)計(jì)技術(shù)研究
基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)
基于HTML5靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)
誰(shuí)搶走了低價(jià)機(jī)票
搜索引擎怎樣對(duì)網(wǎng)頁(yè)排序
向量垂直在解析幾何中的應(yīng)用
阳高县| 阜平县| 进贤县| 紫金县| 新田县| 喀喇沁旗| 广河县| 龙岩市| 清徐县| 勃利县| 江源县| 南澳县| 惠东县| 庄浪县| 沈阳市| 收藏| 新平| 共和县| 措勤县| 巩留县| 墨脱县| 石狮市| 东辽县| 巴中市| 万年县| 大同县| 呈贡县| 如皋市| 隆尧县| 恩平市| 西安市| 磴口县| 玉林市| 哈尔滨市| 巴楚县| 浙江省| 蓬安县| 饶平县| 郯城县| 六安市| 紫云|