国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)頁(yè)去噪算法研究與應(yīng)用

2018-11-08 03:47孫竹君
信息記錄材料 2018年11期
關(guān)鍵詞:正文噪音網(wǎng)頁(yè)

孫竹君

(中北大學(xué)信息商務(wù)學(xué)院 山西 太原 030000)

1 引言

伴隨著因特網(wǎng)的快速發(fā)展、網(wǎng)絡(luò)日益廣泛的應(yīng)用與社會(huì)信息化的大步推進(jìn),給自然語(yǔ)言處理的研究帶來(lái)新的機(jī)遇和挑戰(zhàn)。Web已經(jīng)成為獲取信息的主要平臺(tái),而恰恰日前的網(wǎng)站目錄主要是以人工識(shí)別歸類或電腦自動(dòng)區(qū)分歸類來(lái)完成,這種方式下文字檔案的區(qū)分歸類、歸類體系等很多方面有很多不便于人工識(shí)別搜索信息的困難存在。同時(shí),在瀏覽Web上的網(wǎng)頁(yè)時(shí),會(huì)出現(xiàn)與文檔主要內(nèi)容沒(méi)有關(guān)聯(lián)的“導(dǎo)航信息”、廣告消息欄目等內(nèi)容,這就可以認(rèn)為做“噪音”。 網(wǎng)絡(luò)頁(yè)面上的“噪音”不單單制約著以網(wǎng)絡(luò)頁(yè)面內(nèi)容信息為基礎(chǔ)的Web應(yīng)用系統(tǒng)的應(yīng)用開(kāi)發(fā),而且也帶給基于網(wǎng)頁(yè)超鏈接指向應(yīng)用系統(tǒng)很多難題。因此,如何高效準(zhǔn)確地從WWW中獲取有用信息,如何迅捷精準(zhǔn)地查找并去除網(wǎng)絡(luò)頁(yè)面上的噪音信息就成了提高Web應(yīng)用程序整合處置結(jié)果精確性的一類重要技術(shù),也是當(dāng)前信息檢索的一項(xiàng)值得研究的工作。

2 開(kāi)展網(wǎng)頁(yè)去噪研究的重要性

在網(wǎng)頁(yè)的處理中應(yīng)用自然語(yǔ)言處理技術(shù),把網(wǎng)絡(luò)中的信息進(jìn)行深入、細(xì)致的處理,如何快捷準(zhǔn)確的從大量的信息資源中提取所用的各種各樣知識(shí),獲取人們需要的有效信息,已經(jīng)成為很多專業(yè)人員的研究對(duì)象和目標(biāo)。根據(jù)所用用途不同,可以把web中的內(nèi)容分為兩種,一種是瀏覽器所用的標(biāo)記信息,另一類是為使用者提供的閱讀信息,對(duì)于后一類需要處理自然語(yǔ)言。所以,去掉網(wǎng)頁(yè)中的標(biāo)記信息就成了運(yùn)用自然語(yǔ)言處理技術(shù)處理網(wǎng)頁(yè)中的內(nèi)容的先決條件。自然語(yǔ)言處理技術(shù)適用于網(wǎng)頁(yè)正文,所以,怎樣查找并抽取網(wǎng)絡(luò)頁(yè)面上的正文內(nèi)容,進(jìn)而把它轉(zhuǎn)化為文字文本的技術(shù)是連接自然語(yǔ)言處理技術(shù)和網(wǎng)絡(luò)頁(yè)面內(nèi)容的紐帶。

3 關(guān)于網(wǎng)頁(yè)去噪的算法研究

基于現(xiàn)有技術(shù),可行的網(wǎng)頁(yè)去噪技術(shù)大致分為以下三種。

3.1 基于分塊的網(wǎng)頁(yè)去噪算法。在互聯(lián)網(wǎng)信息檢索方面,一般采用兩方面的指標(biāo)來(lái)考評(píng)一個(gè)Web的檢索系統(tǒng),即完成檢索所用時(shí)間的長(zhǎng)短和反饋檢索的相關(guān)度,如果噪音去除的技術(shù)不夠成熟,不能有效地將噪音刪除,索引系統(tǒng)就會(huì)建立一個(gè)噪音目錄。從而使得資源樹(shù)的一些節(jié)點(diǎn)出現(xiàn)噪音索引,當(dāng)完成搜索結(jié)果后,反饋給用戶的內(nèi)容相應(yīng)也會(huì)有噪音內(nèi)容。降低了搜索效率,浪費(fèi)了寶貴的時(shí)間。

基于分塊的網(wǎng)頁(yè)去噪算法,第一步是按照table標(biāo)簽,把整個(gè)網(wǎng)頁(yè)進(jìn)行分塊處理;第二步是進(jìn)行對(duì)數(shù)據(jù)的統(tǒng)計(jì)處理,運(yùn)用一個(gè)模板對(duì)生成一個(gè)網(wǎng)頁(yè)集,然后對(duì)網(wǎng)頁(yè)集的內(nèi)容數(shù)據(jù)進(jìn)行統(tǒng)計(jì),出現(xiàn)次數(shù)較多且內(nèi)容松散的一般是廣告等等的噪音,需要濾除。大量的研究表明此方法是可行的。

3.2 基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息的網(wǎng)頁(yè)去噪算法?;诮y(tǒng)計(jì)的網(wǎng)頁(yè)正文信息的網(wǎng)頁(yè)去噪算法應(yīng)用到文摘系統(tǒng)上,可以把網(wǎng)絡(luò)頁(yè)面進(jìn)行文摘處理;應(yīng)用到文本處理系統(tǒng)中,可以對(duì)網(wǎng)頁(yè)進(jìn)行自動(dòng)化的處理和分類。照此,對(duì)網(wǎng)絡(luò)也沒(méi)的整理處置和對(duì)純文本的處置相同,擴(kuò)大了之前技術(shù)的應(yīng)用范圍。所以,研究網(wǎng)絡(luò)頁(yè)面內(nèi)容提取技術(shù)對(duì)于把自然語(yǔ)言技術(shù)的應(yīng)用范圍拓展到網(wǎng)絡(luò)頁(yè)面處理有著非常重大的意義。

3.3 基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)去噪算法。網(wǎng)絡(luò)頁(yè)面中的噪音定義其實(shí)是該網(wǎng)絡(luò)頁(yè)面里面與本頁(yè)面的重要內(nèi)容不存在直接關(guān)系的區(qū)域及具體項(xiàng)目。我們搜索查看的網(wǎng)頁(yè)大多遵循下圖的方式進(jìn)行對(duì)網(wǎng)頁(yè)排版,不僅符合用戶的瀏覽習(xí)慣,而且也是設(shè)計(jì)者的用意。同時(shí),網(wǎng)絡(luò)噪音部分(例如作者、廣告、版權(quán)信息等)大多是存在于那些非主要的地方和比較細(xì)長(zhǎng)的方式地方,這就使得我們?cè)诰庉嬎惴ㄊ强梢暂p易的去除網(wǎng)絡(luò)噪音內(nèi)容。如圖1顯示。

實(shí)現(xiàn)此算法依據(jù)的規(guī)則:

依據(jù)通常網(wǎng)頁(yè)的格式和HTML文檔,基本匯總出以下這樣啟發(fā)式的規(guī)則:

(1)標(biāo)簽

(2)標(biāo)簽

(3)對(duì)于多層嵌套的標(biāo)簽

(4)對(duì)于沒(méi)有標(biāo)簽

4 去噪算法應(yīng)用方面

以上幾種網(wǎng)頁(yè)去噪的算法,可普遍應(yīng)用于針對(duì)當(dāng)前互聯(lián)網(wǎng)信息的處理,這些算法可以較為高效精準(zhǔn)地從網(wǎng)頁(yè)中篩選凝練出主要內(nèi)容,同時(shí)將所謂的噪音除去濾掉,并且過(guò)濾這樣噪音的精準(zhǔn)率比較高。搜索引擎中應(yīng)用上述算法,可很大程度提升搜索引擎的查找搜索的速度、減少差搜數(shù)量和提高檢索的精準(zhǔn)度和成功率;在分類上運(yùn)用這樣算法,便可以將主要內(nèi)容從網(wǎng)絡(luò)頁(yè)面中的提煉出來(lái),并文本存儲(chǔ)到對(duì)應(yīng)文檔中,這樣的話就能夠很快速的使用現(xiàn)有的分類措施實(shí)現(xiàn)自動(dòng)分類處理的效果。不過(guò),以上算法局限性還是不同程度存在的,例如它只能處理有明顯的主題正文特征的網(wǎng)頁(yè),就像新聞?lì)惖木W(wǎng)頁(yè)等等,但是在處置那些綜合性內(nèi)容較多的頁(yè)面,或者頁(yè)面中的重點(diǎn)內(nèi)容不容易區(qū)分的,例如重點(diǎn)內(nèi)容就是一句話的描述,或是圖片信息作為主題內(nèi)容的等等頁(yè)面,它處理的能力不帶為或可以說(shuō)無(wú)法識(shí)別處理,因?yàn)殚撝颠@種算法里的重要依據(jù)是通過(guò)不間斷地實(shí)驗(yàn),不斷的累積,從中得出的,所以說(shuō)算法閾值的合理性仍然需要在今后的試驗(yàn)中進(jìn)一步得出結(jié)論。

猜你喜歡
正文噪音網(wǎng)頁(yè)
更正聲明
更正啟事
基于HTML5與CSS3的網(wǎng)頁(yè)設(shè)計(jì)技術(shù)研究
噪音,總是有噪音!
無(wú)法逃避的噪音
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)
噪音的小把戲
白噪音的三種用法
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究