国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種新聞網(wǎng)頁(yè)關(guān)鍵信息的提取算法

2016-09-29 17:40向菁菁耿光剛李曉東
計(jì)算機(jī)應(yīng)用 2016年8期

向菁菁 耿光剛 李曉東

摘要:針對(duì)網(wǎng)頁(yè)正文提取算法缺乏通用性,以及對(duì)新聞網(wǎng)頁(yè)的提取缺乏標(biāo)題、時(shí)間、來(lái)源信息的問(wèn)題,提出一種新聞關(guān)鍵信息的提取算法newsExtractor。該算法首先通過(guò)預(yù)處理將網(wǎng)頁(yè)轉(zhuǎn)換成行號(hào)和文本的集合,然后根據(jù)字?jǐn)?shù)最長(zhǎng)的一句話出現(xiàn)在新聞?wù)牡母怕蕵O高的特點(diǎn),從正文中間開(kāi)始向兩端尋找正文的起點(diǎn)和終點(diǎn)提取新聞?wù)?,根?jù)最長(zhǎng)公共子串算法提取標(biāo)題,構(gòu)造正則表達(dá)式并以行號(hào)輔助判斷提取時(shí)間,根據(jù)來(lái)源的格式特點(diǎn)并輔以行號(hào)提取來(lái)源;最后構(gòu)造了數(shù)據(jù)集與國(guó)外開(kāi)源軟件newsPaper進(jìn)行提取準(zhǔn)確率的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,newsExtractor在正文、標(biāo)題、時(shí)間、來(lái)源的平均提取準(zhǔn)確率上均優(yōu)于newsPaper,具有通用性和魯棒性。

關(guān)鍵詞:網(wǎng)頁(yè)信息提取;新聞信息提取;網(wǎng)頁(yè)去噪

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

0引言

信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他們稱信息抽取就是任何能夠選擇性地將顯式或隱式的文本進(jìn)行組織和結(jié)合的方法,該概念的提出是為了解決互聯(lián)網(wǎng)中信息量大且過(guò)于繁雜、無(wú)法讓用戶快速獲取需要的信息的問(wèn)題。在近20年的發(fā)展中,已有諸多學(xué)者針對(duì)不同的抽取需求提出了不同的信息抽取方法。在網(wǎng)頁(yè)信息提取方面,被提及最多的是網(wǎng)頁(yè)正文提取算法,但目前網(wǎng)頁(yè)正文提取算法尚存在缺點(diǎn):首先,算法普遍存在缺乏通用性的問(wèn)題;其次,在某些應(yīng)用場(chǎng)合(如:新聞溯源)除正文之外還需要新聞的標(biāo)題、時(shí)間和來(lái)源信息,但目前尚沒(méi)有能夠完全滿足需求的方法。因此,本文主要基于此展開(kāi)研究。

1相關(guān)研究

針對(duì)不同的信息抽取需求,不同的學(xué)者提出的算法也不盡相同。

比如,識(shí)別網(wǎng)頁(yè)中的實(shí)體(如:人名、地名、事件名、時(shí)間等),文獻(xiàn)[2]提出了一種算法用于識(shí)別生物期刊摘要中的人體蛋白質(zhì)名稱;根據(jù)抽取規(guī)則生成方式的不同,又可以分為自動(dòng)生成[3-4]和半自動(dòng)生成[5]兩類。

對(duì)于網(wǎng)頁(yè)正文的提取算法,國(guó)內(nèi)外也已有許多方法,簡(jiǎn)單歸類如下:

1)基于網(wǎng)頁(yè)標(biāo)簽[6-8]。這類方法依賴HTML語(yǔ)言中的閉合標(biāo)簽對(duì)(如:

)或起分割作用標(biāo)簽(如:

、

)進(jìn)行提取。但HTML語(yǔ)言本身對(duì)使用者來(lái)說(shuō)不具有標(biāo)準(zhǔn)的格式,再加上層疊樣式表(Cascading Style Sheets, CSS)盛行之后,為了顯示的美觀而添加的各類元素使得頁(yè)面內(nèi)容變得更為復(fù)雜,因此,該方法并不具備魯棒性。

2)基于模板[5,9-10]。這類方法通過(guò)給定的模板將需要的網(wǎng)頁(yè)信息輸出,優(yōu)點(diǎn)在于準(zhǔn)確率較其他方法高;缺點(diǎn)是如果為每個(gè)待提取的網(wǎng)頁(yè)都設(shè)計(jì)模板,計(jì)算和時(shí)間開(kāi)銷大,缺乏通用性。

3)基于文檔對(duì)象模型(Document Object Model, DOM)樹(shù)結(jié)構(gòu)[11-13]。HTML網(wǎng)頁(yè)可以解析成DOM樹(shù)的結(jié)構(gòu),然后根據(jù)DOM樹(shù)的結(jié)構(gòu)特性提取正文。文獻(xiàn)[11]中就提出了一種方法:首先確定部分正文內(nèi)容,然后依據(jù)路徑相似度尋找其他正文,最終合并為網(wǎng)頁(yè)正文。文獻(xiàn)[12]則在文獻(xiàn)[11]的基礎(chǔ)上進(jìn)行了改進(jìn)。

4)基于布局相似性[14-16]。網(wǎng)頁(yè)所屬網(wǎng)站的網(wǎng)頁(yè)具有布局相似的特點(diǎn),在同一個(gè)網(wǎng)站多個(gè)網(wǎng)頁(yè)中頻繁出現(xiàn)的內(nèi)容具有極大概率為噪聲。該方法不具備實(shí)時(shí)性,在對(duì)于某一網(wǎng)頁(yè)進(jìn)行提取時(shí),必須先獲取與其布局類似的其他網(wǎng)頁(yè)。

5)基于視覺(jué)熱區(qū)[17]。這種方法主要依據(jù)人們?cè)跒g覽網(wǎng)頁(yè)時(shí)視覺(jué)頻繁停留的區(qū)域去判斷正文的位置進(jìn)行提取。該方法的理論支撐不足,同時(shí)也缺乏大量的視覺(jué)數(shù)據(jù)支持

此外,還有學(xué)者使用了不同方法的結(jié)合[18]以及融合了機(jī)器學(xué)習(xí)的方法[19]。

綜上所述,以上提及的方法或過(guò)時(shí)(例如基于網(wǎng)頁(yè)標(biāo)簽的方法中依賴

的方法,早期沒(méi)有CSS,主要使用