李國(guó)華,昝紅英
(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)
網(wǎng)頁(yè)文檔作為互聯(lián)網(wǎng)信息的一種載體,人們通過(guò)網(wǎng)頁(yè)文檔可以發(fā)布和獲取各種各樣的信息。隨著網(wǎng)絡(luò)信息量的與日俱增,互聯(lián)網(wǎng)上的海量信息在豐富了人們信息來(lái)源的同時(shí),也給人們獲取感興趣的信息帶來(lái)了困難。面對(duì)海量的信息,如何有效地抽取網(wǎng)頁(yè)文檔中的數(shù)據(jù),是關(guān)系到如何有效快捷地獲取目標(biāo)信息的關(guān)鍵技術(shù)之一。
本文提出了一種基于相似度計(jì)算方法的網(wǎng)頁(yè)“真實(shí)”標(biāo)題抽取方法。我們定義:與網(wǎng)頁(yè)正文內(nèi)容相關(guān)的標(biāo)題為“真實(shí)標(biāo)題”,與網(wǎng)頁(yè)正文內(nèi)容不相關(guān)的標(biāo)題為“虛假標(biāo)題”;相應(yīng)的網(wǎng)頁(yè)定義為“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”;“單位”定義為HTML文檔抽取出的文本信息的獨(dú)立句子或段落。
網(wǎng)頁(yè)標(biāo)題是一篇網(wǎng)頁(yè)所要表達(dá)信息的最簡(jiǎn)明扼要的概述,它對(duì)于網(wǎng)頁(yè)信息的處理及應(yīng)用(比如搜索引擎、聚類和分類)有很大的意義。大多數(shù)情況下我們可以通過(guò)HTML文檔中的標(biāo)簽準(zhǔn)確的獲得“真實(shí)標(biāo)題”,但有些時(shí)候人們卻不經(jīng)意地將“真實(shí)標(biāo)題”表達(dá)在自定義的HTML標(biāo)簽中,而在標(biāo)簽中填寫的是“虛假標(biāo)題”,如:
……
……
……
這樣會(huì)使通過(guò)網(wǎng)頁(yè)上顯示的標(biāo)題進(jìn)行查找資源的人們被迫錯(cuò)失一些重要的信息。圖1中,顯示的是利用百度大學(xué)搜索工具在北京大學(xué)域下搜索“北京信息技術(shù)學(xué)院”的結(jié)果圖,搜索結(jié)果中大部分標(biāo)題都是“北京大學(xué)信息科學(xué)技術(shù)學(xué)院”,而不是各個(gè)相關(guān)網(wǎng)頁(yè)真正的“真實(shí)標(biāo)題”。
圖1 百度大學(xué)搜索“北京信息技術(shù)學(xué)院”
區(qū)別于現(xiàn)有的網(wǎng)頁(yè)標(biāo)題抽取方法,我們通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,將原始網(wǎng)頁(yè)中的文本信息表示成由多個(gè)語(yǔ)言“單位”組成的文檔,文檔中不包含 HTML 的任何屬性標(biāo)簽。然后比較兩兩之間的相似度,通過(guò)一系列計(jì)算步驟和方法,最終抽取出“真實(shí)”標(biāo)題。
實(shí)驗(yàn)表明我們提出的方法在“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的數(shù)據(jù)集上都能取得較好的效果,并且可以成功地應(yīng)用于鄭州大學(xué)站內(nèi)搜索平臺(tái)[1]。
本文以下部分的組織結(jié)構(gòu)是:第2節(jié)介紹相關(guān)研究;第3節(jié)詳細(xì)介紹基于該方法的相關(guān)內(nèi)容;第4節(jié)給出了本方法實(shí)驗(yàn)結(jié)果和說(shuō)明;第5節(jié)給出總結(jié)及下一步的工作。
Web信息抽取方法目前大多是基于規(guī)則的,一是利用自然語(yǔ)言處理技術(shù)的詞法、子句結(jié)構(gòu)、短語(yǔ)和子句間的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則。典型的系統(tǒng)有SRV[2]、WHISK[3]等。該方法是將網(wǎng)頁(yè)文檔視為文本進(jìn)行處理,較適合含有大量非結(jié)構(gòu)化文本的網(wǎng)頁(yè)文檔。二是利用機(jī)器學(xué)習(xí)方法生成基于定界符的抽取規(guī)則[4-8],規(guī)則的獲取需要訓(xùn)練手工標(biāo)注的樣本實(shí)例。典型的系統(tǒng)有Stalker、SoftMealy[9]和WIEN[10]等。與基于自然語(yǔ)言處理技術(shù)的方法相比較,該方法僅僅使用語(yǔ)義項(xiàng)的上下文來(lái)定位信息,沒有使用語(yǔ)言的語(yǔ)法約束。這兩種基于規(guī)則的抽取方法都需要訓(xùn)練樣本,自動(dòng)化程度低[11]。
一般來(lái)說(shuō),同一個(gè)語(yǔ)言單位內(nèi)的網(wǎng)頁(yè)結(jié)構(gòu)基本相似,或干脆使用同一套網(wǎng)頁(yè)模板,文獻(xiàn)[5]和文獻(xiàn)[12]也考慮了同樣的策略。基于此方法,我們的鄭州大學(xué)校內(nèi)搜索引擎[1]前期版本是通過(guò)手工制定規(guī)則來(lái)獲取網(wǎng)頁(yè)的標(biāo)題,但是這種方法即使是在小范圍內(nèi)也需要耗費(fèi)很大的人力。
文獻(xiàn)[12]和文獻(xiàn)[13-15]通過(guò)將網(wǎng)頁(yè)分析為DOM樹,然后從DOM樹中提取出信息,文獻(xiàn)[13]將網(wǎng)頁(yè)分析為DOM樹,然后從中提取出含有特征屬性的單位,結(jié)合自定義的各種HTML特征的重要程度來(lái)提取標(biāo)題。文獻(xiàn)[16]也利用HTML的主要特征研究對(duì)Web信息檢索的作用。文獻(xiàn)[17]學(xué)習(xí)一種發(fā)現(xiàn)網(wǎng)頁(yè)中重要的塊的模型。文獻(xiàn)[18]通過(guò)基于網(wǎng)頁(yè)布局的相似度進(jìn)行Web論壇數(shù)據(jù)的抽取。
雖然很早便有類似的工作應(yīng)用在自動(dòng)文摘研究領(lǐng)域[19-22],但據(jù)我們所知,目前為止還沒有利用句子之間的相似度為基礎(chǔ)來(lái)進(jìn)行網(wǎng)頁(yè)標(biāo)題抽取的相關(guān)研究。
計(jì)算句子之間的相似度,首先需要將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,本文使用Nekohtml[23]開源工具包進(jìn)行轉(zhuǎn)換。Nekohtml是一個(gè)Java語(yǔ)言的HTML掃描器和標(biāo)簽補(bǔ)全器,借助Nekohtml我們可以解析網(wǎng)頁(yè)文檔并得到網(wǎng)頁(yè)文檔包含的所有純文本信息。
在轉(zhuǎn)換過(guò)程中,對(duì)于Element節(jié)點(diǎn),我們?cè)黾印?”為獲得該節(jié)點(diǎn)信息的結(jié)束標(biāo)志,從而在轉(zhuǎn)換完成后,可以對(duì)整個(gè)純文本信息以“ ”進(jìn)行劃分,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位”。正文中的噪聲比如廣告、導(dǎo)航信息或相關(guān)鏈接會(huì)分別以一個(gè)語(yǔ)言“單位”對(duì)待;網(wǎng)頁(yè)中的真實(shí)標(biāo)題也會(huì)獨(dú)立成為一個(gè)語(yǔ)言“單位”;正文信息則由一個(gè)或多個(gè)語(yǔ)言“單位”組成。
考慮到標(biāo)題信息為網(wǎng)頁(yè)正文信息的高度概括,其長(zhǎng)度與正文信息的長(zhǎng)度相比差距較大,所以選擇利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度?!罢虻罴?xì)粒度切分算法”分詞方法:比如“鄭州大學(xué)”分詞后為:“鄭州大學(xué)”、“鄭州”、“大學(xué)”。
計(jì)算兩個(gè)單位unit_1和unit_2間的相似度方法如下:
其中set_1和set_2分別為需要計(jì)算的兩個(gè)單位unit_1和unit_2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合。如果集合中出現(xiàn)相同詞語(yǔ),只保留一個(gè)詞語(yǔ),且詞語(yǔ)的數(shù)值為集合中詞語(yǔ)出現(xiàn)的次數(shù),set內(nèi)的數(shù)據(jù)結(jié)構(gòu)表示為
sameCT為set_1和set_2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,和的值等于共同詞語(yǔ)的次數(shù)相加。size(set)表示set集合的長(zhǎng)度,sameCT的計(jì)算公式如下:
sameCT=∑CT1(Wordi)+∑CT2(Wordi)
Wordi∈set_1或Wordi∈set_2
(2)
根據(jù)公式(1)計(jì)算出的兩兩單位之間的相似度,可以得到一個(gè)單位的權(quán)值計(jì)算公式:
(3)
其中unit_i為需要計(jì)算權(quán)值的單位;Sim(unit_i,unit_j)為unit_i與unit_j的相似度;N為文檔中的單位的總數(shù)目。
HITS算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估。
本文將其思想應(yīng)用到文本文檔中的各個(gè)單位之間,首先將文本文檔表示成圖G。圖G的各個(gè)頂點(diǎn)分別對(duì)應(yīng)各個(gè)單位;頂點(diǎn)之間的邊是否存在取決于頂點(diǎn)對(duì)應(yīng)的單位之間相似度的大小,如果相似度的值等于0,則頂點(diǎn)之間不存在邊;邊的權(quán)值大小為相似度的值,值大于0;頂點(diǎn)的初始權(quán)重為公式(3)計(jì)算出的權(quán)值大小。
根據(jù)圖G的定義,我們對(duì)公式(3)計(jì)算的權(quán)值進(jìn)行加權(quán)調(diào)整:
Weight′(unit_i)=Weight(unit_i)×linkCT(unit_i)
(4)
其中Weight(unit_i)為unit_i的初始權(quán)重,即公式(3)計(jì)算出的權(quán)值。linkCT為圖G中單位unit_i(unit_i)對(duì)應(yīng)頂點(diǎn)的度。
公式(4)表明,一個(gè)頂點(diǎn)的度越大,其對(duì)應(yīng)的單位的重要性也就越大。
本文將整篇文本文檔以“
”劃分成多個(gè)語(yǔ)言單位,并通過(guò)計(jì)算后,表示成Collection<
1) 首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weight′(unit)進(jìn)行升序排序;
2) 計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于?的頂點(diǎn)總個(gè)數(shù)PCT:
TTCT=∑linkCT(unit_i)
Weight′(unit_i)≥?
(5)
其中?為可定義的參數(shù)值,實(shí)驗(yàn)測(cè)試取?值為 0.1 比較合適。
(6)
3) 計(jì)算平均度的閾值aveCT:
(7)
其中aveCT為用于控制權(quán)值過(guò)小的單位。判斷條件為:如果linkCT(unit_i) 4) 經(jīng)過(guò)步驟 1)、2)、3)計(jì)算: 第一,選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題。單位的序號(hào)idx定義為該單位在文本文檔被劃分為多個(gè)單位中相對(duì)應(yīng)的索引序號(hào)。這里選取原則為“真實(shí)標(biāo)題”往往出現(xiàn)在網(wǎng)頁(yè)的頂部區(qū)域,其索引序號(hào)較小。 第二,比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。 為了驗(yàn)證所提的方法的有效性,我們從鄭州大學(xué)校內(nèi)搜索引擎[1]抓取的網(wǎng)頁(yè)中選取部分網(wǎng)頁(yè)文檔。通過(guò)人工制定規(guī)則獲取真實(shí)標(biāo)題,并校對(duì)驗(yàn)證真實(shí)標(biāo)題的正確性,剔除出現(xiàn)亂碼和全英文的網(wǎng)頁(yè)后,共計(jì)23 709篇“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”,作為“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取的實(shí)驗(yàn)數(shù)據(jù)。 同時(shí),為了驗(yàn)證提出的方法的泛化能力,本文從Web上的7個(gè)站點(diǎn)(北方網(wǎng)、新浪網(wǎng)、搜狐網(wǎng)、中華網(wǎng)、新民網(wǎng)、網(wǎng)易網(wǎng)、艾瑞網(wǎng))的子欄目利用爬蟲抓取了3 000篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”,并且從鄭州大學(xué)內(nèi)部網(wǎng)中抓取了250篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”,共計(jì)3 250篇“標(biāo)準(zhǔn)網(wǎng)頁(yè)”,作為“標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取的實(shí)驗(yàn)數(shù)據(jù)。“標(biāo)準(zhǔn)網(wǎng)頁(yè)”實(shí)驗(yàn)數(shù)據(jù)的來(lái)源及選取的網(wǎng)頁(yè)篇數(shù)見表1。 表1 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”實(shí)驗(yàn)據(jù)來(lái)源及篇數(shù) 本文使用準(zhǔn)確率作為標(biāo)題抽取結(jié)果的評(píng)估。準(zhǔn)確率的計(jì)算公式為: (8) 同時(shí),利用本方法抽取出的標(biāo)題和“真實(shí)標(biāo)題”的近似程度超過(guò)閾值β時(shí),我們判定為抽取正確。此處近似值的計(jì)算方式為: (9) sameCT為抽取出來(lái)的標(biāo)題title_extracted和“真實(shí)標(biāo)題”的共同子詞語(yǔ)數(shù);size(title_extracted)為抽取出來(lái)的標(biāo)題的長(zhǎng)度;β等于0.6。 參數(shù)β的選取主要因?yàn)榫W(wǎng)頁(yè)的標(biāo)題中,發(fā)布人通常會(huì)在網(wǎng)頁(yè)的標(biāo)題后面加上信息來(lái)源,比如:“美國(guó)冒險(xiǎn)家徒手登上海波3 900米高峰(組圖)—冒險(xiǎn)—北方網(wǎng)—科技無(wú)限”。 從表2中我們可以看出,該方法對(duì)于Web網(wǎng)上的網(wǎng)頁(yè)抽取準(zhǔn)確率很高,泛化能力可以得到保證。經(jīng)過(guò)對(duì)由方法抽取的標(biāo)題與正確標(biāo)題進(jìn)行對(duì)比并觀察網(wǎng)頁(yè)發(fā)現(xiàn),抽取錯(cuò)誤的網(wǎng)頁(yè)特征主要集中表現(xiàn)為:類型一,網(wǎng)頁(yè)是鏈接導(dǎo)航型的網(wǎng)頁(yè),即網(wǎng)站的子分類欄目或某個(gè)專題的索引頁(yè)面,網(wǎng)頁(yè)中正文信息過(guò)于分散;類型二,網(wǎng)頁(yè)新聞的標(biāo)題為使用近似語(yǔ)義概括的標(biāo)題,由于本方法沒有進(jìn)行同義詞擴(kuò)展,所以對(duì)于這類網(wǎng)頁(yè),抽取出的效果也不是很好。 從表3中我們可以看出,該方法對(duì)于較大數(shù)據(jù)集的“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”處理性能仍然較好。經(jīng)過(guò)對(duì)由方法抽取的標(biāo)題與正確標(biāo)題進(jìn)行對(duì)比并觀察網(wǎng)頁(yè)發(fā)現(xiàn),抽取錯(cuò)誤的網(wǎng)頁(yè)特征除有“標(biāo)準(zhǔn)網(wǎng)頁(yè)”中出現(xiàn)的兩種類型的錯(cuò)誤外,還表現(xiàn)為:類型三,網(wǎng)頁(yè)正文信息表達(dá)了多個(gè)主題,對(duì)于這種網(wǎng)頁(yè),本方法抽取出的結(jié)果大都是其中的一個(gè)子主題的標(biāo)題;類型四,網(wǎng)頁(yè)為圖片或內(nèi)容為表格或文件下載,文字信息很少。四種錯(cuò)誤類型的網(wǎng)頁(yè)的統(tǒng)計(jì)的數(shù)據(jù)見表4。 表2 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取結(jié)果 表3 “非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取結(jié)果 表4 標(biāo)題抽取錯(cuò)誤的結(jié)果中——屬于四種錯(cuò)誤類型的網(wǎng)頁(yè)所占篇數(shù) 以上對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”和“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的標(biāo)題抽取實(shí)驗(yàn)數(shù)據(jù)顯示,本文提出的方法對(duì)于抽取“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的“真實(shí)標(biāo)題”性能良好,同時(shí)對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)的泛化能力較高。 本文提出了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,區(qū)別于利用HTML結(jié)構(gòu)和標(biāo)簽特征的標(biāo)題抽取方法,并取得了令人滿意的抽取效果。實(shí)驗(yàn)表明本文提出的方法不僅可以滿意地實(shí)現(xiàn)對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”有較好的泛化能力。下一步將考慮改進(jìn)相似度比較方法以及更深入的挖掘HITS模型對(duì)權(quán)值的調(diào)整等工作。 [1] 鄭州大學(xué)校內(nèi)搜索引擎. http://search.ha.edu.cn/zzu/[CP/OL]. [2] Freitag D. Machine Learning for Information Extraction in Informal Domains[J]. Machine Learning, 2000,39(2-3):169-202. [3] Soderland S. Learning Information Extraction Rules for Semi-structured and Free Text[J]. Machine Learning, 1999,34(1-3):233-272. [4] Yipu Wu, Xuejie Zhang, Qing Li, Jing Chen. Title Extraction from Loosely Structured Data Records[C]//Proceedings of the Seventh International Conference on Machine Learning and Cybernetics, 2008. [5] Crescenzi, V., Mecca, G. and Merialdo, P. Roadrunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of the Twenty-seventh International Conference on Very Large Databases(VLDB2001), 2002. [6] Chidlovskii, B.,Ragetli, J., and de Rijke, M. Wrapper Generation via Grammar Induction[C]//Proceedings of the Eleventh European Conference on Machine Learning(ECML2000), 2000. [7] Crescenzi, V., Mecca, G. and Merialdo, P. Wrapping-Oriented Classification of Web pages[C]//Procceedings of the 2002 ACM Symposium on Applied Computing(SAC-2002), 2002:1108-1112. [8] Craven, T.C. HTML Tags as Extraction Cues for Web Page Description Construction[J]. Informing Science Journal, 2003,6:1-12. [9] Hsu C N, Dung M T. Generating Finite-State Transducers for Semi-Structured Data Extraction from the Web[J]. Information Systems, 1998,23(8):521-538. [10] Kushmerick N, Weld D S. Doorenbos R. Wrapper Induction for Information Extraction[J]. 15th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya, 1997:729-737. [11] 李猛. 基于DOM的Web信息抽取技術(shù)的研究與實(shí)現(xiàn)[D].大連理工大學(xué), 2008:5-6. [12] Kosala, R., Bruynooghe, M., Bussche, J.V. and Blockeel, H. Information Extraction from Web Documents Based on Local Unranked Tree Automaton Inference[C]//Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence(IJCAI-2003), 2003. [13] Yunhua Hu, Guomao Xin, Ruihua Song, Guoping Hu, Shuming Shi, Yunbo Cao, and Hang li. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005: 250-257. [14] Breuel, T.M Information Extraction from HTML Documents by Structural Matching[C]//Proceedings of the Second International Workshop on Web Document Analysis(WDA2003), 2003. [15] Reis, D., Golgher, P., Silva, A. and Laender, A. Automatic Web News Extraction Using Tree Edit Distance[C]//Proceedings of International WWW Conference(WWW-2004),2004. [16] Zhang, M., Song, R. and Ma, S. DF or IDF? On the use of HTML primary feature fields for Web IR[C]//Proceedings of the Twelfth International World Web Conference(WWW2003), 2003. [17] Song, R., Liu, H., Wen, J.-R. and Ma, W.Y. Learning Block Importance Models for Web Pages[C]//Proceedings of International WWW Conference(WWW-2004), 2004. [18] 王允, 李弼程, 林琛. 基于網(wǎng)頁(yè)布局相似度的Web論壇數(shù)據(jù)抽取[J]. 中文信息學(xué)報(bào),2010, 24 (2): 68-75. [19] G.Salton, A. Singhai, M. Mitra, C.Buckly. Automatic text structuring and summarization [C]//In advances in Automatic Text Summarization, Eds. I. Mani and M.T.Maybury. The MIT Press,1999:62-70. [20] Jae-Hoon Kim, JoonHong Kim, Dosam Hwang, 2000. Korean Text Summarization Using an Aggregate Similarity [C]//The 5th International Workshop on Information Retrieval with Asian Languages. Hong Kong, September 30 to October 3, 2000. [21] 張奇, 黃萱菁, 吳立德. 一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J]. 中文信息學(xué)報(bào),2005,19(2):93-98. [22] Rada Mihalcea. Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization[C]//Proceedings of the Conference and Workshops of ACL-2004. Barcelona. [23] Nekohtml. http://nekohtml.sourceforge.net/[CP/OL].4 實(shí)驗(yàn)及分析
4.1 數(shù)據(jù)集的選取
4.2 標(biāo)題抽取的評(píng)測(cè)方法
4.3 “標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取實(shí)驗(yàn)
4.4 “非標(biāo)準(zhǔn)網(wǎng)頁(yè)”標(biāo)題抽取實(shí)驗(yàn)
5 結(jié)論與展望