基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法

2011-06-28 01:55李國(guó)華昝紅英

中文信息學(xué)報(bào) 2011年2期

關(guān)鍵詞：非標(biāo)準(zhǔn)權(quán)值網(wǎng)頁(yè)

李國(guó)華，昝紅英

(鄭州大學(xué) 信息工程學(xué)院，河南鄭州 450001)

1 引言

網(wǎng)頁(yè)文檔作為互聯(lián)網(wǎng)信息的一種載體，人們通過(guò)網(wǎng)頁(yè)文檔可以發(fā)布和獲取各種各樣的信息。隨著網(wǎng)絡(luò)信息量的與日俱增，互聯(lián)網(wǎng)上的海量信息在豐富了人們信息來(lái)源的同時(shí)，也給人們獲取感興趣的信息帶來(lái)了困難。面對(duì)海量的信息，如何有效地抽取網(wǎng)頁(yè)文檔中的數(shù)據(jù)，是關(guān)系到如何有效快捷地獲取目標(biāo)信息的關(guān)鍵技術(shù)之一。

本文提出了一種基于相似度計(jì)算方法的網(wǎng)頁(yè)“真實(shí)”標(biāo)題抽取方法。我們定義：與網(wǎng)頁(yè)正文內(nèi)容相關(guān)的標(biāo)題為“真實(shí)標(biāo)題”，與網(wǎng)頁(yè)正文內(nèi)容不相關(guān)的標(biāo)題為“虛假標(biāo)題”；相應(yīng)的網(wǎng)頁(yè)定義為“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”；“單位”定義為HTML文檔抽取出的文本信息的獨(dú)立句子或段落。

網(wǎng)頁(yè)標(biāo)題是一篇網(wǎng)頁(yè)所要表達(dá)信息的最簡(jiǎn)明扼要的概述，它對(duì)于網(wǎng)頁(yè)信息的處理及應(yīng)用(比如搜索引擎、聚類和分類)有很大的意義。大多數(shù)情況下我們可以通過(guò)HTML文檔中的標(biāo)簽準(zhǔn)確的獲得“真實(shí)標(biāo)題”，但有些時(shí)候人們卻不經(jīng)意地將“真實(shí)標(biāo)題”表達(dá)在自定義的HTML標(biāo)簽中，而在標(biāo)簽中填寫的是“虛假標(biāo)題”，如：

……

這樣會(huì)使通過(guò)網(wǎng)頁(yè)上顯示的標(biāo)題進(jìn)行查找資源的人們被迫錯(cuò)失一些重要的信息。圖1中，顯示的是利用百度大學(xué)搜索工具在北京大學(xué)域下搜索“北京信息技術(shù)學(xué)院”的結(jié)果圖，搜索結(jié)果中大部分標(biāo)題都是“北京大學(xué)信息科學(xué)技術(shù)學(xué)院”，而不是各個(gè)相關(guān)網(wǎng)頁(yè)真正的“真實(shí)標(biāo)題”。

圖1 百度大學(xué)搜索“北京信息技術(shù)學(xué)院”

區(qū)別于現(xiàn)有的網(wǎng)頁(yè)標(biāo)題抽取方法，我們通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理，將原始網(wǎng)頁(yè)中的文本信息表示成由多個(gè)語(yǔ)言“單位”組成的文檔，文檔中不包含 HTML 的任何屬性標(biāo)簽。然后比較兩兩之間的相似度，通過(guò)一系列計(jì)算步驟和方法，最終抽取出“真實(shí)”標(biāo)題。

實(shí)驗(yàn)表明我們提出的方法在“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的數(shù)據(jù)集上都能取得較好的效果，并且可以成功地應(yīng)用于鄭州大學(xué)站內(nèi)搜索平臺(tái)[1]。

本文以下部分的組織結(jié)構(gòu)是：第2節(jié)介紹相關(guān)研究；第3節(jié)詳細(xì)介紹基于該方法的相關(guān)內(nèi)容；第4節(jié)給出了本方法實(shí)驗(yàn)結(jié)果和說(shuō)明；第5節(jié)給出總結(jié)及下一步的工作。

2 相關(guān)研究

Web信息抽取方法目前大多是基于規(guī)則的，一是利用自然語(yǔ)言處理技術(shù)的詞法、子句結(jié)構(gòu)、短語(yǔ)和子句間的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則。典型的系統(tǒng)有SRV[2]、WHISK[3]等。該方法是將網(wǎng)頁(yè)文檔視為文本進(jìn)行處理，較適合含有大量非結(jié)構(gòu)化文本的網(wǎng)頁(yè)文檔。二是利用機(jī)器學(xué)習(xí)方法生成基于定界符的抽取規(guī)則[4-8]，規(guī)則的獲取需要訓(xùn)練手工標(biāo)注的樣本實(shí)例。典型的系統(tǒng)有Stalker、SoftMealy[9]和WIEN[10]等。與基于自然語(yǔ)言處理技術(shù)的方法相比較，該方法僅僅使用語(yǔ)義項(xiàng)的上下文來(lái)定位信息，沒有使用語(yǔ)言的語(yǔ)法約束。這兩種基于規(guī)則的抽取方法都需要訓(xùn)練樣本，自動(dòng)化程度低[11]。

一般來(lái)說(shuō)，同一個(gè)語(yǔ)言單位內(nèi)的網(wǎng)頁(yè)結(jié)構(gòu)基本相似，或干脆使用同一套網(wǎng)頁(yè)模板，文獻(xiàn)[5]和文獻(xiàn)[12]也考慮了同樣的策略。基于此方法，我們的鄭州大學(xué)校內(nèi)搜索引擎[1]前期版本是通過(guò)手工制定規(guī)則來(lái)獲取網(wǎng)頁(yè)的標(biāo)題，但是這種方法即使是在小范圍內(nèi)也需要耗費(fèi)很大的人力。

文獻(xiàn)[12]和文獻(xiàn)[13-15]通過(guò)將網(wǎng)頁(yè)分析為DOM樹，然后從DOM樹中提取出信息，文獻(xiàn)[13]將網(wǎng)頁(yè)分析為DOM樹，然后從中提取出含有特征屬性的單位，結(jié)合自定義的各種HTML特征的重要程度來(lái)提取標(biāo)題。文獻(xiàn)[16]也利用HTML的主要特征研究對(duì)Web信息檢索的作用。文獻(xiàn)[17]學(xué)習(xí)一種發(fā)現(xiàn)網(wǎng)頁(yè)中重要的塊的模型。文獻(xiàn)[18]通過(guò)基于網(wǎng)頁(yè)布局的相似度進(jìn)行Web論壇數(shù)據(jù)的抽取。

雖然很早便有類似的工作應(yīng)用在自動(dòng)文摘研究領(lǐng)域[19-22]，但據(jù)我們所知，目前為止還沒有利用句子之間的相似度為基礎(chǔ)來(lái)進(jìn)行網(wǎng)頁(yè)標(biāo)題抽取的相關(guān)研究。

3 網(wǎng)頁(yè)標(biāo)題抽取

3.1 網(wǎng)頁(yè)文檔預(yù)處理

計(jì)算句子之間的相似度，首先需要將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示，本文使用Nekohtml[23]開源工具包進(jìn)行轉(zhuǎn)換。Nekohtml是一個(gè)Java語(yǔ)言的HTML掃描器和標(biāo)簽補(bǔ)全器，借助Nekohtml我們可以解析網(wǎng)頁(yè)文檔并得到網(wǎng)頁(yè)文檔包含的所有純文本信息。

在轉(zhuǎn)換過(guò)程中，對(duì)于Element節(jié)點(diǎn)，我們?cè)黾印?”為獲得該節(jié)點(diǎn)信息的結(jié)束標(biāo)志，從而在轉(zhuǎn)換完成后，可以對(duì)整個(gè)純文本信息以“ ”進(jìn)行劃分，將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位”。正文中的噪聲比如廣告、導(dǎo)航信息或相關(guān)鏈接會(huì)分別以一個(gè)語(yǔ)言“單位”對(duì)待；網(wǎng)頁(yè)中的真實(shí)標(biāo)題也會(huì)獨(dú)立成為一個(gè)語(yǔ)言“單位”；正文信息則由一個(gè)或多個(gè)語(yǔ)言“單位”組成。

3.2 相似度的計(jì)算

考慮到標(biāo)題信息為網(wǎng)頁(yè)正文信息的高度概括，其長(zhǎng)度與正文信息的長(zhǎng)度相比差距較大，所以選擇利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度?！罢虻罴?xì)粒度切分算法”分詞方法：比如“鄭州大學(xué)”分詞后為：“鄭州大學(xué)”、“鄭州”、“大學(xué)”。

計(jì)算兩個(gè)單位unit_1和unit_2間的相似度方法如下：

其中set_1和set_2分別為需要計(jì)算的兩個(gè)單位unit_1和unit_2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合。如果集合中出現(xiàn)相同詞語(yǔ)，只保留一個(gè)詞語(yǔ)，且詞語(yǔ)的數(shù)值為集合中詞語(yǔ)出現(xiàn)的次數(shù)，set內(nèi)的數(shù)據(jù)結(jié)構(gòu)表示為，word為詞語(yǔ)，count為word出現(xiàn)的次數(shù)。

sameCT為set_1和set_2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和，和的值等于共同詞語(yǔ)的次數(shù)相加。size(set)表示set集合的長(zhǎng)度，sameCT的計(jì)算公式如下：

sameCT=∑CT1(Wordi)+∑CT2(Wordi)

Wordi∈set_1或Wordi∈set_2

(2)

3.3 權(quán)值的計(jì)算

根據(jù)公式(1)計(jì)算出的兩兩單位之間的相似度，可以得到一個(gè)單位的權(quán)值計(jì)算公式：

(3)

其中unit_i為需要計(jì)算權(quán)值的單位；Sim(unit_i,unit_j)為unit_i與unit_j的相似度；N為文檔中的單位的總數(shù)目。

3.4 權(quán)值的調(diào)整

HITS算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估。

本文將其思想應(yīng)用到文本文檔中的各個(gè)單位之間，首先將文本文檔表示成圖G。圖G的各個(gè)頂點(diǎn)分別對(duì)應(yīng)各個(gè)單位；頂點(diǎn)之間的邊是否存在取決于頂點(diǎn)對(duì)應(yīng)的單位之間相似度的大小，如果相似度的值等于0，則頂點(diǎn)之間不存在邊；邊的權(quán)值大小為相似度的值，值大于0；頂點(diǎn)的初始權(quán)重為公式(3)計(jì)算出的權(quán)值大小。

根據(jù)圖G的定義，我們對(duì)公式(3)計(jì)算的權(quán)值進(jìn)行加權(quán)調(diào)整：

Weight′(unit_i)=Weight(unit_i)×linkCT(unit_i)

(4)

其中Weight(unit_i)為unit_i的初始權(quán)重，即公式(3)計(jì)算出的權(quán)值。linkCT為圖G中單位unit_i(unit_i)對(duì)應(yīng)頂點(diǎn)的度。

公式(4)表明，一個(gè)頂點(diǎn)的度越大，其對(duì)應(yīng)的單位的重要性也就越大。

3.5 標(biāo)題的選取步驟

本文將整篇文本文檔以“ ”劃分成多個(gè)語(yǔ)言單位，并通過(guò)計(jì)算后，表示成Collection<> sortList。以下是標(biāo)題選取的步驟：

1) 首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weight′(unit)進(jìn)行升序排序；

2) 計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于?的頂點(diǎn)總個(gè)數(shù)PCT：

TTCT=∑linkCT(unit_i)

Weight′(unit_i)≥?

(5)

其中?為可定義的參數(shù)值，實(shí)驗(yàn)測(cè)試取?值為 0.1 比較合適。

(6)

3) 計(jì)算平均度的閾值aveCT：

(7)

其中aveCT為用于控制權(quán)值過(guò)小的單位。判斷條件為：如果linkCT(unit_i)

4) 經(jīng)過(guò)步驟 1)、2)、3)計(jì)算：

第一，選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題。單位的序號(hào)idx定義為該單位在文本文檔被劃分為多個(gè)單位中相對(duì)應(yīng)的索引序號(hào)。這里選取原則為“真實(shí)標(biāo)題”往往出現(xiàn)在網(wǎng)頁(yè)的頂部區(qū)域，其索引序號(hào)較小。

第二，比較兩個(gè)候選單位的權(quán)值，選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。

4 實(shí)驗(yàn)及分析

4.1 數(shù)據(jù)集的選取

為了驗(yàn)證所提的方法的有效性，我們從鄭州大學(xué)校內(nèi)搜索引擎[1]抓取的網(wǎng)頁(yè)中選取部分網(wǎng)頁(yè)文檔。通過(guò)人工制定規(guī)則獲取真實(shí)標(biāo)題，并校對(duì)驗(yàn)證真實(shí)標(biāo)題的正確性，剔除出現(xiàn)亂碼和全英文的網(wǎng)頁(yè)后，共計(jì)23 709篇“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”，作為“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取的實(shí)驗(yàn)數(shù)據(jù)。

同時(shí)，為了驗(yàn)證提出的方法的泛化能力，本文從Web上的7個(gè)站點(diǎn)(北方網(wǎng)、新浪網(wǎng)、搜狐網(wǎng)、中華網(wǎng)、新民網(wǎng)、網(wǎng)易網(wǎng)、艾瑞網(wǎng))的子欄目利用爬蟲抓取了3 000篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”，并且從鄭州大學(xué)內(nèi)部網(wǎng)中抓取了250篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”，共計(jì)3 250篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”，作為“標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取的實(shí)驗(yàn)數(shù)據(jù)。“標(biāo)準(zhǔn)網(wǎng)頁(yè)”實(shí)驗(yàn)數(shù)據(jù)的來(lái)源及選取的網(wǎng)頁(yè)篇數(shù)見表1。

表1 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”實(shí)驗(yàn)據(jù)來(lái)源及篇數(shù)

4.2 標(biāo)題抽取的評(píng)測(cè)方法

本文使用準(zhǔn)確率作為標(biāo)題抽取結(jié)果的評(píng)估。準(zhǔn)確率的計(jì)算公式為：

(8)

同時(shí)，利用本方法抽取出的標(biāo)題和“真實(shí)標(biāo)題”的近似程度超過(guò)閾值β時(shí)，我們判定為抽取正確。此處近似值的計(jì)算方式為：

(9)

sameCT為抽取出來(lái)的標(biāo)題title_extracted和“真實(shí)標(biāo)題”的共同子詞語(yǔ)數(shù)；size(title_extracted)為抽取出來(lái)的標(biāo)題的長(zhǎng)度；β等于0.6。

參數(shù)β的選取主要因?yàn)榫W(wǎng)頁(yè)的標(biāo)題中，發(fā)布人通常會(huì)在網(wǎng)頁(yè)的標(biāo)題后面加上信息來(lái)源，比如：“美國(guó)冒險(xiǎn)家徒手登上海波3 900米高峰(組圖)—冒險(xiǎn)—北方網(wǎng)—科技無(wú)限”。

4.3 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取實(shí)驗(yàn)

從表2中我們可以看出，該方法對(duì)于Web網(wǎng)上的網(wǎng)頁(yè)抽取準(zhǔn)確率很高，泛化能力可以得到保證。經(jīng)過(guò)對(duì)由方法抽取的標(biāo)題與正確標(biāo)題進(jìn)行對(duì)比并觀察網(wǎng)頁(yè)發(fā)現(xiàn)，抽取錯(cuò)誤的網(wǎng)頁(yè)特征主要集中表現(xiàn)為：類型一，網(wǎng)頁(yè)是鏈接導(dǎo)航型的網(wǎng)頁(yè)，即網(wǎng)站的子分類欄目或某個(gè)專題的索引頁(yè)面，網(wǎng)頁(yè)中正文信息過(guò)于分散；類型二，網(wǎng)頁(yè)新聞的標(biāo)題為使用近似語(yǔ)義概括的標(biāo)題，由于本方法沒有進(jìn)行同義詞擴(kuò)展，所以對(duì)于這類網(wǎng)頁(yè)，抽取出的效果也不是很好。

4.4 “非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取實(shí)驗(yàn)

從表3中我們可以看出，該方法對(duì)于較大數(shù)據(jù)集的“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”處理性能仍然較好。經(jīng)過(guò)對(duì)由方法抽取的標(biāo)題與正確標(biāo)題進(jìn)行對(duì)比并觀察網(wǎng)頁(yè)發(fā)現(xiàn)，抽取錯(cuò)誤的網(wǎng)頁(yè)特征除有“標(biāo)準(zhǔn)網(wǎng)頁(yè)”中出現(xiàn)的兩種類型的錯(cuò)誤外，還表現(xiàn)為：類型三，網(wǎng)頁(yè)正文信息表達(dá)了多個(gè)主題，對(duì)于這種網(wǎng)頁(yè)，本方法抽取出的結(jié)果大都是其中的一個(gè)子主題的標(biāo)題；類型四，網(wǎng)頁(yè)為圖片或內(nèi)容為表格或文件下載，文字信息很少。四種錯(cuò)誤類型的網(wǎng)頁(yè)的統(tǒng)計(jì)的數(shù)據(jù)見表4。

表2 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取結(jié)果

表3 “非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取結(jié)果

表4 標(biāo)題抽取錯(cuò)誤的結(jié)果中——屬于四種錯(cuò)誤類型的網(wǎng)頁(yè)所占篇數(shù)

以上對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的標(biāo)題抽取實(shí)驗(yàn)數(shù)據(jù)顯示，本文提出的方法對(duì)于抽取“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的“真實(shí)標(biāo)題”性能良好，同時(shí)對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)的泛化能力較高。

5 結(jié)論與展望

本文提出了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，區(qū)別于利用HTML結(jié)構(gòu)和標(biāo)簽特征的標(biāo)題抽取方法，并取得了令人滿意的抽取效果。實(shí)驗(yàn)表明本文提出的方法不僅可以滿意地實(shí)現(xiàn)對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取，而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”有較好的泛化能力。下一步將考慮改進(jìn)相似度比較方法以及更深入的挖掘HITS模型對(duì)權(quán)值的調(diào)整等工作。

[1] 鄭州大學(xué)校內(nèi)搜索引擎. http://search.ha.edu.cn/zzu/[CP/OL].

[2] Freitag D. Machine Learning for Information Extraction in Informal Domains[J]. Machine Learning, 2000,39(2-3):169-202.

[3] Soderland S. Learning Information Extraction Rules for Semi-structured and Free Text[J]. Machine Learning, 1999,34(1-3):233-272.

[4] Yipu Wu, Xuejie Zhang, Qing Li, Jing Chen. Title Extraction from Loosely Structured Data Records[C]//Proceedings of the Seventh International Conference on Machine Learning and Cybernetics, 2008.

[5] Crescenzi, V., Mecca, G. and Merialdo, P. Roadrunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of the Twenty-seventh International Conference on Very Large Databases(VLDB2001), 2002.

[6] Chidlovskii, B.,Ragetli, J., and de Rijke, M. Wrapper Generation via Grammar Induction[C]//Proceedings of the Eleventh European Conference on Machine Learning(ECML2000), 2000.

[7] Crescenzi, V., Mecca, G. and Merialdo, P. Wrapping-Oriented Classification of Web pages[C]//Procceedings of the 2002 ACM Symposium on Applied Computing(SAC-2002), 2002:1108-1112.

[8] Craven, T.C. HTML Tags as Extraction Cues for Web Page Description Construction[J]. Informing Science Journal, 2003,6:1-12.

[9] Hsu C N, Dung M T. Generating Finite-State Transducers for Semi-Structured Data Extraction from the Web[J]. Information Systems, 1998,23(8):521-538.

[10] Kushmerick N, Weld D S. Doorenbos R. Wrapper Induction for Information Extraction[J]. 15th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya, 1997:729-737.

[11] 李猛. 基于DOM的Web信息抽取技術(shù)的研究與實(shí)現(xiàn)[D].大連理工大學(xué)， 2008：5-6.

[12] Kosala, R., Bruynooghe, M., Bussche, J.V. and Blockeel, H. Information Extraction from Web Documents Based on Local Unranked Tree Automaton Inference[C]//Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence(IJCAI-2003), 2003.

[13] Yunhua Hu, Guomao Xin, Ruihua Song, Guoping Hu, Shuming Shi, Yunbo Cao, and Hang li. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005: 250-257.

[14] Breuel, T.M Information Extraction from HTML Documents by Structural Matching[C]//Proceedings of the Second International Workshop on Web Document Analysis(WDA2003), 2003.

[15] Reis, D., Golgher, P., Silva, A. and Laender, A. Automatic Web News Extraction Using Tree Edit Distance[C]//Proceedings of International WWW Conference(WWW-2004),2004.

[16] Zhang, M., Song, R. and Ma, S. DF or IDF? On the use of HTML primary feature fields for Web IR[C]//Proceedings of the Twelfth International World Web Conference(WWW2003), 2003.

[17] Song, R., Liu, H., Wen, J.-R. and Ma, W.Y. Learning Block Importance Models for Web Pages[C]//Proceedings of International WWW Conference(WWW-2004), 2004.

[18] 王允, 李弼程, 林琛. 基于網(wǎng)頁(yè)布局相似度的Web論壇數(shù)據(jù)抽取[J]. 中文信息學(xué)報(bào)，2010, 24 (2)： 68-75.

[19] G.Salton, A. Singhai, M. Mitra, C.Buckly. Automatic text structuring and summarization [C]//In advances in Automatic Text Summarization, Eds. I. Mani and M.T.Maybury. The MIT Press,1999:62-70.

[20] Jae-Hoon Kim, JoonHong Kim, Dosam Hwang, 2000. Korean Text Summarization Using an Aggregate Similarity [C]//The 5th International Workshop on Information Retrieval with Asian Languages. Hong Kong, September 30 to October 3, 2000.

[21] 張奇, 黃萱菁, 吳立德. 一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J]. 中文信息學(xué)報(bào)，2005，19(2)：93-98.

[22] Rada Mihalcea. Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization[C]//Proceedings of the Conference and Workshops of ACL-2004. Barcelona.

[23] Nekohtml. http://nekohtml.sourceforge.net/[CP/OL].

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡