国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法

2011-06-28 01:55李國(guó)華昝紅英
中文信息學(xué)報(bào) 2011年2期
關(guān)鍵詞:非標(biāo)準(zhǔn)權(quán)值網(wǎng)頁(yè)

李國(guó)華,昝紅英

(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

1 引言

網(wǎng)頁(yè)文檔作為互聯(lián)網(wǎng)信息的一種載體,人們通過(guò)網(wǎng)頁(yè)文檔可以發(fā)布和獲取各種各樣的信息。隨著網(wǎng)絡(luò)信息量的與日俱增,互聯(lián)網(wǎng)上的海量信息在豐富了人們信息來(lái)源的同時(shí),也給人們獲取感興趣的信息帶來(lái)了困難。面對(duì)海量的信息,如何有效地抽取網(wǎng)頁(yè)文檔中的數(shù)據(jù),是關(guān)系到如何有效快捷地獲取目標(biāo)信息的關(guān)鍵技術(shù)之一。

本文提出了一種基于相似度計(jì)算方法的網(wǎng)頁(yè)“真實(shí)”標(biāo)題抽取方法。我們定義:與網(wǎng)頁(yè)正文內(nèi)容相關(guān)的標(biāo)題為“真實(shí)標(biāo)題”,與網(wǎng)頁(yè)正文內(nèi)容不相關(guān)的標(biāo)題為“虛假標(biāo)題”;相應(yīng)的網(wǎng)頁(yè)定義為“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”;“單位”定義為HTML文檔抽取出的文本信息的獨(dú)立句子或段落。

網(wǎng)頁(yè)標(biāo)題是一篇網(wǎng)頁(yè)所要表達(dá)信息的最簡(jiǎn)明扼要的概述,它對(duì)于網(wǎng)頁(yè)信息的處理及應(yīng)用(比如搜索引擎、聚類和分類)有很大的意義。大多數(shù)情況下我們可以通過(guò)HTML文檔中的標(biāo)簽準(zhǔn)確的獲得“真實(shí)標(biāo)題”,但有些時(shí)候人們卻不經(jīng)意地將“真實(shí)標(biāo)題”表達(dá)在自定義的HTML標(biāo)簽中,而在標(biāo)簽中填寫的是“虛假標(biāo)題”,如:

……

……

……

這樣會(huì)使通過(guò)網(wǎng)頁(yè)上顯示的標(biāo)題進(jìn)行查找資源的人們被迫錯(cuò)失一些重要的信息。圖1中,顯示的是利用百度大學(xué)搜索工具在北京大學(xué)域下搜索“北京信息技術(shù)學(xué)院”的結(jié)果圖,搜索結(jié)果中大部分標(biāo)題都是“北京大學(xué)信息科學(xué)技術(shù)學(xué)院”,而不是各個(gè)相關(guān)網(wǎng)頁(yè)真正的“真實(shí)標(biāo)題”。

圖1 百度大學(xué)搜索“北京信息技術(shù)學(xué)院”

區(qū)別于現(xiàn)有的網(wǎng)頁(yè)標(biāo)題抽取方法,我們通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,將原始網(wǎng)頁(yè)中的文本信息表示成由多個(gè)語(yǔ)言“單位”組成的文檔,文檔中不包含 HTML 的任何屬性標(biāo)簽。然后比較兩兩之間的相似度,通過(guò)一系列計(jì)算步驟和方法,最終抽取出“真實(shí)”標(biāo)題。

實(shí)驗(yàn)表明我們提出的方法在“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的數(shù)據(jù)集上都能取得較好的效果,并且可以成功地應(yīng)用于鄭州大學(xué)站內(nèi)搜索平臺(tái)[1]。

本文以下部分的組織結(jié)構(gòu)是:第2節(jié)介紹相關(guān)研究;第3節(jié)詳細(xì)介紹基于該方法的相關(guān)內(nèi)容;第4節(jié)給出了本方法實(shí)驗(yàn)結(jié)果和說(shuō)明;第5節(jié)給出總結(jié)及下一步的工作。

2 相關(guān)研究

Web信息抽取方法目前大多是基于規(guī)則的,一是利用自然語(yǔ)言處理技術(shù)的詞法、子句結(jié)構(gòu)、短語(yǔ)和子句間的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則。典型的系統(tǒng)有SRV[2]、WHISK[3]等。該方法是將網(wǎng)頁(yè)文檔視為文本進(jìn)行處理,較適合含有大量非結(jié)構(gòu)化文本的網(wǎng)頁(yè)文檔。二是利用機(jī)器學(xué)習(xí)方法生成基于定界符的抽取規(guī)則[4-8],規(guī)則的獲取需要訓(xùn)練手工標(biāo)注的樣本實(shí)例。典型的系統(tǒng)有Stalker、SoftMealy[9]和WIEN[10]等。與基于自然語(yǔ)言處理技術(shù)的方法相比較,該方法僅僅使用語(yǔ)義項(xiàng)的上下文來(lái)定位信息,沒有使用語(yǔ)言的語(yǔ)法約束。這兩種基于規(guī)則的抽取方法都需要訓(xùn)練樣本,自動(dòng)化程度低[11]。

一般來(lái)說(shuō),同一個(gè)語(yǔ)言單位內(nèi)的網(wǎng)頁(yè)結(jié)構(gòu)基本相似,或干脆使用同一套網(wǎng)頁(yè)模板,文獻(xiàn)[5]和文獻(xiàn)[12]也考慮了同樣的策略。基于此方法,我們的鄭州大學(xué)校內(nèi)搜索引擎[1]前期版本是通過(guò)手工制定規(guī)則來(lái)獲取網(wǎng)頁(yè)的標(biāo)題,但是這種方法即使是在小范圍內(nèi)也需要耗費(fèi)很大的人力。

文獻(xiàn)[12]和文獻(xiàn)[13-15]通過(guò)將網(wǎng)頁(yè)分析為DOM樹,然后從DOM樹中提取出信息,文獻(xiàn)[13]將網(wǎng)頁(yè)分析為DOM樹,然后從中提取出含有特征屬性的單位,結(jié)合自定義的各種HTML特征的重要程度來(lái)提取標(biāo)題。文獻(xiàn)[16]也利用HTML的主要特征研究對(duì)Web信息檢索的作用。文獻(xiàn)[17]學(xué)習(xí)一種發(fā)現(xiàn)網(wǎng)頁(yè)中重要的塊的模型。文獻(xiàn)[18]通過(guò)基于網(wǎng)頁(yè)布局的相似度進(jìn)行Web論壇數(shù)據(jù)的抽取。

雖然很早便有類似的工作應(yīng)用在自動(dòng)文摘研究領(lǐng)域[19-22],但據(jù)我們所知,目前為止還沒有利用句子之間的相似度為基礎(chǔ)來(lái)進(jìn)行網(wǎng)頁(yè)標(biāo)題抽取的相關(guān)研究。

3 網(wǎng)頁(yè)標(biāo)題抽取

3.1 網(wǎng)頁(yè)文檔預(yù)處理

計(jì)算句子之間的相似度,首先需要將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,本文使用Nekohtml[23]開源工具包進(jìn)行轉(zhuǎn)換。Nekohtml是一個(gè)Java語(yǔ)言的HTML掃描器和標(biāo)簽補(bǔ)全器,借助Nekohtml我們可以解析網(wǎng)頁(yè)文檔并得到網(wǎng)頁(yè)文檔包含的所有純文本信息。

在轉(zhuǎn)換過(guò)程中,對(duì)于Element節(jié)點(diǎn),我們?cè)黾印?”為獲得該節(jié)點(diǎn)信息的結(jié)束標(biāo)志,從而在轉(zhuǎn)換完成后,可以對(duì)整個(gè)純文本信息以“ ”進(jìn)行劃分,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位”。正文中的噪聲比如廣告、導(dǎo)航信息或相關(guān)鏈接會(huì)分別以一個(gè)語(yǔ)言“單位”對(duì)待;網(wǎng)頁(yè)中的真實(shí)標(biāo)題也會(huì)獨(dú)立成為一個(gè)語(yǔ)言“單位”;正文信息則由一個(gè)或多個(gè)語(yǔ)言“單位”組成。

3.2 相似度的計(jì)算

考慮到標(biāo)題信息為網(wǎng)頁(yè)正文信息的高度概括,其長(zhǎng)度與正文信息的長(zhǎng)度相比差距較大,所以選擇利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度?!罢虻罴?xì)粒度切分算法”分詞方法:比如“鄭州大學(xué)”分詞后為:“鄭州大學(xué)”、“鄭州”、“大學(xué)”。

計(jì)算兩個(gè)單位unit_1和unit_2間的相似度方法如下:

其中set_1和set_2分別為需要計(jì)算的兩個(gè)單位unit_1和unit_2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合。如果集合中出現(xiàn)相同詞語(yǔ),只保留一個(gè)詞語(yǔ),且詞語(yǔ)的數(shù)值為集合中詞語(yǔ)出現(xiàn)的次數(shù),set內(nèi)的數(shù)據(jù)結(jié)構(gòu)表示為,word為詞語(yǔ),count為word出現(xiàn)的次數(shù)。

sameCT為set_1和set_2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,和的值等于共同詞語(yǔ)的次數(shù)相加。size(set)表示set集合的長(zhǎng)度,sameCT的計(jì)算公式如下:

sameCT=∑CT1(Wordi)+∑CT2(Wordi)

Wordi∈set_1或Wordi∈set_2

(2)

3.3 權(quán)值的計(jì)算

根據(jù)公式(1)計(jì)算出的兩兩單位之間的相似度,可以得到一個(gè)單位的權(quán)值計(jì)算公式:

(3)

其中unit_i為需要計(jì)算權(quán)值的單位;Sim(unit_i,unit_j)為unit_i與unit_j的相似度;N為文檔中的單位的總數(shù)目。

3.4 權(quán)值的調(diào)整

HITS算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估。

本文將其思想應(yīng)用到文本文檔中的各個(gè)單位之間,首先將文本文檔表示成圖G。圖G的各個(gè)頂點(diǎn)分別對(duì)應(yīng)各個(gè)單位;頂點(diǎn)之間的邊是否存在取決于頂點(diǎn)對(duì)應(yīng)的單位之間相似度的大小,如果相似度的值等于0,則頂點(diǎn)之間不存在邊;邊的權(quán)值大小為相似度的值,值大于0;頂點(diǎn)的初始權(quán)重為公式(3)計(jì)算出的權(quán)值大小。

根據(jù)圖G的定義,我們對(duì)公式(3)計(jì)算的權(quán)值進(jìn)行加權(quán)調(diào)整:

Weight′(unit_i)=Weight(unit_i)×linkCT(unit_i)

(4)

其中Weight(unit_i)為unit_i的初始權(quán)重,即公式(3)計(jì)算出的權(quán)值。linkCT為圖G中單位unit_i(unit_i)對(duì)應(yīng)頂點(diǎn)的度。

公式(4)表明,一個(gè)頂點(diǎn)的度越大,其對(duì)應(yīng)的單位的重要性也就越大。

3.5 標(biāo)題的選取步驟

本文將整篇文本文檔以“ ”劃分成多個(gè)語(yǔ)言單位,并通過(guò)計(jì)算后,表示成Collection<> sortList。以下是標(biāo)題選取的步驟:

1) 首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weight′(unit)進(jìn)行升序排序;

2) 計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于?的頂點(diǎn)總個(gè)數(shù)PCT:

TTCT=∑linkCT(unit_i)

Weight′(unit_i)≥?

(5)

其中?為可定義的參數(shù)值,實(shí)驗(yàn)測(cè)試取?值為 0.1 比較合適。

(6)

3) 計(jì)算平均度的閾值aveCT:

(7)

其中aveCT為用于控制權(quán)值過(guò)小的單位。判斷條件為:如果linkCT(unit_i)

4) 經(jīng)過(guò)步驟 1)、2)、3)計(jì)算:

第一,選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題。單位的序號(hào)idx定義為該單位在文本文檔被劃分為多個(gè)單位中相對(duì)應(yīng)的索引序號(hào)。這里選取原則為“真實(shí)標(biāo)題”往往出現(xiàn)在網(wǎng)頁(yè)的頂部區(qū)域,其索引序號(hào)較小。

第二,比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。

4 實(shí)驗(yàn)及分析

4.1 數(shù)據(jù)集的選取

為了驗(yàn)證所提的方法的有效性,我們從鄭州大學(xué)校內(nèi)搜索引擎[1]抓取的網(wǎng)頁(yè)中選取部分網(wǎng)頁(yè)文檔。通過(guò)人工制定規(guī)則獲取真實(shí)標(biāo)題,并校對(duì)驗(yàn)證真實(shí)標(biāo)題的正確性,剔除出現(xiàn)亂碼和全英文的網(wǎng)頁(yè)后,共計(jì)23 709篇“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”,作為“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取的實(shí)驗(yàn)數(shù)據(jù)。

同時(shí),為了驗(yàn)證提出的方法的泛化能力,本文從Web上的7個(gè)站點(diǎn)(北方網(wǎng)、新浪網(wǎng)、搜狐網(wǎng)、中華網(wǎng)、新民網(wǎng)、網(wǎng)易網(wǎng)、艾瑞網(wǎng))的子欄目利用爬蟲抓取了3 000篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”,并且從鄭州大學(xué)內(nèi)部網(wǎng)中抓取了250篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”,共計(jì)3 250篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”,作為“標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取的實(shí)驗(yàn)數(shù)據(jù)。“標(biāo)準(zhǔn)網(wǎng)頁(yè)”實(shí)驗(yàn)數(shù)據(jù)的來(lái)源及選取的網(wǎng)頁(yè)篇數(shù)見表1。

表1 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”實(shí)驗(yàn)據(jù)來(lái)源及篇數(shù)

4.2 標(biāo)題抽取的評(píng)測(cè)方法

本文使用準(zhǔn)確率作為標(biāo)題抽取結(jié)果的評(píng)估。準(zhǔn)確率的計(jì)算公式為:

(8)

同時(shí),利用本方法抽取出的標(biāo)題和“真實(shí)標(biāo)題”的近似程度超過(guò)閾值β時(shí),我們判定為抽取正確。此處近似值的計(jì)算方式為:

(9)

sameCT為抽取出來(lái)的標(biāo)題title_extracted和“真實(shí)標(biāo)題”的共同子詞語(yǔ)數(shù);size(title_extracted)為抽取出來(lái)的標(biāo)題的長(zhǎng)度;β等于0.6。

參數(shù)β的選取主要因?yàn)榫W(wǎng)頁(yè)的標(biāo)題中,發(fā)布人通常會(huì)在網(wǎng)頁(yè)的標(biāo)題后面加上信息來(lái)源,比如:“美國(guó)冒險(xiǎn)家徒手登上海波3 900米高峰(組圖)—冒險(xiǎn)—北方網(wǎng)—科技無(wú)限”。

4.3 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取實(shí)驗(yàn)

從表2中我們可以看出,該方法對(duì)于Web網(wǎng)上的網(wǎng)頁(yè)抽取準(zhǔn)確率很高,泛化能力可以得到保證。經(jīng)過(guò)對(duì)由方法抽取的標(biāo)題與正確標(biāo)題進(jìn)行對(duì)比并觀察網(wǎng)頁(yè)發(fā)現(xiàn),抽取錯(cuò)誤的網(wǎng)頁(yè)特征主要集中表現(xiàn)為:類型一,網(wǎng)頁(yè)是鏈接導(dǎo)航型的網(wǎng)頁(yè),即網(wǎng)站的子分類欄目或某個(gè)專題的索引頁(yè)面,網(wǎng)頁(yè)中正文信息過(guò)于分散;類型二,網(wǎng)頁(yè)新聞的標(biāo)題為使用近似語(yǔ)義概括的標(biāo)題,由于本方法沒有進(jìn)行同義詞擴(kuò)展,所以對(duì)于這類網(wǎng)頁(yè),抽取出的效果也不是很好。

4.4 “非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取實(shí)驗(yàn)

從表3中我們可以看出,該方法對(duì)于較大數(shù)據(jù)集的“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”處理性能仍然較好。經(jīng)過(guò)對(duì)由方法抽取的標(biāo)題與正確標(biāo)題進(jìn)行對(duì)比并觀察網(wǎng)頁(yè)發(fā)現(xiàn),抽取錯(cuò)誤的網(wǎng)頁(yè)特征除有“標(biāo)準(zhǔn)網(wǎng)頁(yè)”中出現(xiàn)的兩種類型的錯(cuò)誤外,還表現(xiàn)為:類型三,網(wǎng)頁(yè)正文信息表達(dá)了多個(gè)主題,對(duì)于這種網(wǎng)頁(yè),本方法抽取出的結(jié)果大都是其中的一個(gè)子主題的標(biāo)題;類型四,網(wǎng)頁(yè)為圖片或內(nèi)容為表格或文件下載,文字信息很少。四種錯(cuò)誤類型的網(wǎng)頁(yè)的統(tǒng)計(jì)的數(shù)據(jù)見表4。

表2 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取結(jié)果

表3 “非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取結(jié)果

表4 標(biāo)題抽取錯(cuò)誤的結(jié)果中——屬于四種錯(cuò)誤類型的網(wǎng)頁(yè)所占篇數(shù)

以上對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的標(biāo)題抽取實(shí)驗(yàn)數(shù)據(jù)顯示,本文提出的方法對(duì)于抽取“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的“真實(shí)標(biāo)題”性能良好,同時(shí)對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)的泛化能力較高。

5 結(jié)論與展望

本文提出了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,區(qū)別于利用HTML結(jié)構(gòu)和標(biāo)簽特征的標(biāo)題抽取方法,并取得了令人滿意的抽取效果。實(shí)驗(yàn)表明本文提出的方法不僅可以滿意地實(shí)現(xiàn)對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”有較好的泛化能力。下一步將考慮改進(jìn)相似度比較方法以及更深入的挖掘HITS模型對(duì)權(quán)值的調(diào)整等工作。

[1] 鄭州大學(xué)校內(nèi)搜索引擎. http://search.ha.edu.cn/zzu/[CP/OL].

[2] Freitag D. Machine Learning for Information Extraction in Informal Domains[J]. Machine Learning, 2000,39(2-3):169-202.

[3] Soderland S. Learning Information Extraction Rules for Semi-structured and Free Text[J]. Machine Learning, 1999,34(1-3):233-272.

[4] Yipu Wu, Xuejie Zhang, Qing Li, Jing Chen. Title Extraction from Loosely Structured Data Records[C]//Proceedings of the Seventh International Conference on Machine Learning and Cybernetics, 2008.

[5] Crescenzi, V., Mecca, G. and Merialdo, P. Roadrunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of the Twenty-seventh International Conference on Very Large Databases(VLDB2001), 2002.

[6] Chidlovskii, B.,Ragetli, J., and de Rijke, M. Wrapper Generation via Grammar Induction[C]//Proceedings of the Eleventh European Conference on Machine Learning(ECML2000), 2000.

[7] Crescenzi, V., Mecca, G. and Merialdo, P. Wrapping-Oriented Classification of Web pages[C]//Procceedings of the 2002 ACM Symposium on Applied Computing(SAC-2002), 2002:1108-1112.

[8] Craven, T.C. HTML Tags as Extraction Cues for Web Page Description Construction[J]. Informing Science Journal, 2003,6:1-12.

[9] Hsu C N, Dung M T. Generating Finite-State Transducers for Semi-Structured Data Extraction from the Web[J]. Information Systems, 1998,23(8):521-538.

[10] Kushmerick N, Weld D S. Doorenbos R. Wrapper Induction for Information Extraction[J]. 15th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya, 1997:729-737.

[11] 李猛. 基于DOM的Web信息抽取技術(shù)的研究與實(shí)現(xiàn)[D].大連理工大學(xué), 2008:5-6.

[12] Kosala, R., Bruynooghe, M., Bussche, J.V. and Blockeel, H. Information Extraction from Web Documents Based on Local Unranked Tree Automaton Inference[C]//Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence(IJCAI-2003), 2003.

[13] Yunhua Hu, Guomao Xin, Ruihua Song, Guoping Hu, Shuming Shi, Yunbo Cao, and Hang li. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005: 250-257.

[14] Breuel, T.M Information Extraction from HTML Documents by Structural Matching[C]//Proceedings of the Second International Workshop on Web Document Analysis(WDA2003), 2003.

[15] Reis, D., Golgher, P., Silva, A. and Laender, A. Automatic Web News Extraction Using Tree Edit Distance[C]//Proceedings of International WWW Conference(WWW-2004),2004.

[16] Zhang, M., Song, R. and Ma, S. DF or IDF? On the use of HTML primary feature fields for Web IR[C]//Proceedings of the Twelfth International World Web Conference(WWW2003), 2003.

[17] Song, R., Liu, H., Wen, J.-R. and Ma, W.Y. Learning Block Importance Models for Web Pages[C]//Proceedings of International WWW Conference(WWW-2004), 2004.

[18] 王允, 李弼程, 林琛. 基于網(wǎng)頁(yè)布局相似度的Web論壇數(shù)據(jù)抽取[J]. 中文信息學(xué)報(bào),2010, 24 (2): 68-75.

[19] G.Salton, A. Singhai, M. Mitra, C.Buckly. Automatic text structuring and summarization [C]//In advances in Automatic Text Summarization, Eds. I. Mani and M.T.Maybury. The MIT Press,1999:62-70.

[20] Jae-Hoon Kim, JoonHong Kim, Dosam Hwang, 2000. Korean Text Summarization Using an Aggregate Similarity [C]//The 5th International Workshop on Information Retrieval with Asian Languages. Hong Kong, September 30 to October 3, 2000.

[21] 張奇, 黃萱菁, 吳立德. 一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J]. 中文信息學(xué)報(bào),2005,19(2):93-98.

[22] Rada Mihalcea. Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization[C]//Proceedings of the Conference and Workshops of ACL-2004. Barcelona.

[23] Nekohtml. http://nekohtml.sourceforge.net/[CP/OL].

猜你喜歡
非標(biāo)準(zhǔn)權(quán)值網(wǎng)頁(yè)
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
基于HTML5與CSS3的網(wǎng)頁(yè)設(shè)計(jì)技術(shù)研究
CONTENTS
論幽默邏輯
基于MATLAB的LTE智能天線廣播波束仿真與權(quán)值優(yōu)化
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
科學(xué)與財(cái)富(2016年34期)2017-03-23