郭少華,郭 巖,李海燕,劉 悅,張 瑾,程學(xué)旗
(1. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)
?
可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究
郭少華1,2,郭 巖1,李海燕1,劉 悅1,張 瑾1,程學(xué)旗1
(1. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)
該文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,從本質(zhì)上提高抽取精度和抽取效率。該框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換,因此該框架具有很好的可擴(kuò)展性。同時(shí),該文還提出了模板的正交過濾算法。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果驗(yàn)證了上述結(jié)論。
關(guān)鍵信息;信息抽??;可擴(kuò)展框架;正交過濾
網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時(shí)間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報(bào)分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)[1-2]從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價(jià)值。
隨著網(wǎng)頁規(guī)模呈指數(shù)級(jí)增長,在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢(shì)成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對(duì)特定需求,利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁[3-5]。因?yàn)槌槿∵^程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實(shí)際網(wǎng)絡(luò)環(huán)境中?;谀0宓男畔⒊槿∷惴ǔ浞掷昧藙?dòng)態(tài)網(wǎng)頁的規(guī)律[6-7]: 網(wǎng)頁是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對(duì)動(dòng)態(tài)網(wǎng)頁進(jìn)行抽取時(shí)能夠取得較高的精度。
但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動(dòng)抽取算法通?;谶^強(qiáng)的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時(shí),常常因?yàn)槟承┚W(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進(jìn)行抽取時(shí),需先針對(duì)某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對(duì)日益增多的數(shù)據(jù)源,會(huì)導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運(yùn)維代價(jià)過大;同時(shí)日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。
針對(duì)上述模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法的缺陷,本文進(jìn)行了深入研究。本文的貢獻(xiàn)主要有以下兩點(diǎn)。
首先,提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點(diǎn),并在缺點(diǎn)方面互相彌補(bǔ)。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴(kuò)展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換。
其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個(gè)模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。
本文的組織結(jié)構(gòu)如下: 第1節(jié)介紹了本文提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的背景及意義,并簡單介紹該框架及核心算法。第2節(jié)介紹主要的相關(guān)工作。第3節(jié)詳細(xì)介紹可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架,重點(diǎn)介紹框架中的關(guān)鍵技術(shù)點(diǎn)。第4節(jié)介紹實(shí)驗(yàn)與結(jié)果分析。第5節(jié)對(duì)本文工作進(jìn)行總結(jié),并介紹未來工作。
網(wǎng)頁信息抽取是一種針對(duì)網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進(jìn)行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法[1-2]也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類: 包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動(dòng)信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實(shí)際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動(dòng)信息抽取算法以其較強(qiáng)的實(shí)用性占據(jù)了主流的位置。
基于模板的信息抽取通?;谶@樣的假設(shè): 待抽取的網(wǎng)頁是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取?;ヂ?lián)網(wǎng)上大量存在的動(dòng)態(tài)網(wǎng)頁是由機(jī)器生成的(例如論壇)網(wǎng)頁?;谀0宓男畔⒊槿〉墓ぷ髁鞒淌牵?1) 利用多個(gè)同類型網(wǎng)頁中具有共性的不變的部分生成一個(gè)模板;2)根據(jù)模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。因?yàn)榇祟愃惴ㄟ^濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時(shí)自動(dòng)還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價(jià)的同時(shí),能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法[6-7]一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷: 首先需要針對(duì)同類型的網(wǎng)頁生成一個(gè)模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。
模板無關(guān)的全自動(dòng)信息抽取算法進(jìn)一步提高了信息抽取的自動(dòng)化程度。此類算法通常利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動(dòng)信息抽取算法MDR[8]。該算法的缺陷在于通?;谶^強(qiáng)的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對(duì)正文抽取的模板無關(guān)的全自動(dòng)抽取算法[3-5]。CoreEx[5]是通過計(jì)算DOM樹中的鏈接文本比來確定正文所在的范圍。CETR[4]是通過標(biāo)簽的密度來確定正文所在的范圍。CETD[3]結(jié)合了二者優(yōu)點(diǎn)。這些算法自動(dòng)化程度高,通用性強(qiáng),但是效率較低,且假設(shè)過強(qiáng),精確度不如基于模板的算法。VIPS[9]是一種通用性較強(qiáng)的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。
在以往的文獻(xiàn)中,較少看到將模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機(jī)地結(jié)合起來,使得二者能夠取長補(bǔ)短,從本質(zhì)上提高信息抽取的質(zhì)量。
3.1 框架概述
如圖1所示,框架的輸入是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。需要說明的是,這些抽取結(jié)果帶有HTML標(biāo)簽結(jié)構(gòu),如圖2和圖3所示。然后將這些訓(xùn)練網(wǎng)頁或抽取結(jié)果隨機(jī)平均分成k份,每一份均通過模板生成算法,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。接著通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。最后根據(jù)最終模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。
圖1 可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的架構(gòu)圖
圖2 HTML網(wǎng)頁源碼
圖3 帶HTML標(biāo)簽的抽取結(jié)果
該框架具有很好的擴(kuò)展性,主要體現(xiàn)在以下幾個(gè)方面。
(1) 關(guān)鍵信息模板集合生成算法的輸入部分,是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。這里的抽取算法一般是模板無關(guān)的全自動(dòng)抽取算法。這些算法已經(jīng)根據(jù)需求對(duì)原始網(wǎng)頁進(jìn)行了一次噪音過濾。因此,對(duì)于框架中的模板生成環(huán)節(jié),把這些抽取結(jié)果作為訓(xùn)練數(shù)據(jù)輸入,和把原始網(wǎng)頁作為輸入相比較,能夠獲得更精確的模板。另一方面,用模板無關(guān)的全自動(dòng)抽取算法處理不符合算法假設(shè)的網(wǎng)頁時(shí),噪音過濾的效果不夠好。對(duì)于這種情況,通過把抽取結(jié)果輸入到框架中,經(jīng)過后期一系列的模板生成、基于模板的抽取,能夠進(jìn)一步過濾掉噪音,從而增強(qiáng)了模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性。這兩方面結(jié)論在第5節(jié)的實(shí)驗(yàn)結(jié)果將有展示。
(2) 特征過濾算法部分,可以根據(jù)要抽取的信息特征,替換相應(yīng)的算法。
(3) 在模板生成過程中,框架將關(guān)鍵信息模板集、候選的關(guān)鍵信息模板等中間結(jié)果存入磁盤,當(dāng)再次遇到同類型網(wǎng)頁時(shí),可以直接從磁盤上讀取模板的中間結(jié)果。
(4) 基于模板的信息抽取算法的輸入可以是框架中生成的模板,也可以是人工配置的模板。
框架中的關(guān)鍵技術(shù)點(diǎn)有模板的表示、關(guān)鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法,以及基于模板的抽取算法。
3.2 關(guān)鍵技術(shù)點(diǎn)
3.2.1 模板的表示
模板T定義:
T是輸入的網(wǎng)頁所有關(guān)鍵信息的模板,它是由n個(gè)關(guān)鍵信息槽Sloti組成的。
i表示第i個(gè)關(guān)鍵信息,每個(gè)關(guān)鍵信息槽Sloti由信息槽名稱Namei和m個(gè)節(jié)點(diǎn)組成。
每個(gè)節(jié)點(diǎn)Nodej是由可定位的相對(duì)路徑XPath、標(biāo)簽Tag和關(guān)鍵信息的前后Label組成。例如,“
3.2.2 關(guān)鍵信息的模板集合生成算法
單記錄頁面生成關(guān)鍵信息模板集合的算法如下:
首先建立DOM樹。刪除CSS、Script等節(jié)點(diǎn)。去掉br和p節(jié)點(diǎn),將相鄰的段落合并,即合并相鄰的葉子節(jié)點(diǎn)。標(biāo)簽名和屬性名、屬性值一樣的相鄰節(jié)點(diǎn),則將它們合并成一個(gè)節(jié)點(diǎn)。這樣可以盡可能保證各關(guān)鍵信息不被分割。接著將M棵DOM樹對(duì)齊并合并。
將對(duì)齊后每一個(gè)位置對(duì)應(yīng)的n個(gè)節(jié)點(diǎn),有選擇地插入到站點(diǎn)版塊風(fēng)格樹SBSTree(site board style tree)中(圖4中的數(shù)字代表該節(jié)點(diǎn)重復(fù)度dump,即該節(jié)點(diǎn)出現(xiàn)的次數(shù)): 如果全是標(biāo)簽節(jié)點(diǎn),則將第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置;如果全是文本葉子節(jié)點(diǎn),則統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的文本葉子節(jié)點(diǎn)全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下) ;如果部分是文本葉子節(jié)點(diǎn)部分是標(biāo)簽節(jié)點(diǎn),則選擇第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置,統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的葉子節(jié)點(diǎn)也全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下)。
圖4 DOM樹合并
合并后的DOM樹具有如下特征: 對(duì)于網(wǎng)頁中公共的信息,例如,導(dǎo)航、網(wǎng)站聲明,其對(duì)應(yīng)的合并后的樹中的葉子節(jié)點(diǎn)的重復(fù)度dump為M,并且該節(jié)點(diǎn)的父節(jié)點(diǎn)只有一個(gè)葉子節(jié)點(diǎn)。而各個(gè)網(wǎng)頁的關(guān)鍵信息,由于不相同,因此它們的父節(jié)點(diǎn)的葉子節(jié)點(diǎn)個(gè)數(shù)小于M,并且大部分葉子節(jié)點(diǎn)的重復(fù)度為1。計(jì)算每個(gè)重復(fù)度大于1的葉子節(jié)點(diǎn)的平均重復(fù)度dump。最后將所有子節(jié)點(diǎn)含有重復(fù)度大于dump的葉子的節(jié)點(diǎn)轉(zhuǎn)換成模板。
多記錄頁面生成所有關(guān)鍵信息模板算法如下:
首先,建立DOM樹。刪除CSS、Script等節(jié)點(diǎn)。其次將M棵DOM樹中含有style和class屬性,且所有屬性名和屬性值一樣的節(jié)點(diǎn)各自聚類。橫向比較每一類節(jié)點(diǎn)在M棵DOM樹中的數(shù)量及其葉子內(nèi)容的變化,并記錄個(gè)數(shù)相關(guān)的節(jié)點(diǎn)類,它的節(jié)點(diǎn)個(gè)數(shù)隨著記錄個(gè)數(shù)的變化而變化。例如,跟帖的正文節(jié)點(diǎn)、跟帖的作者ID節(jié)點(diǎn)的數(shù)量和正文的節(jié)點(diǎn)數(shù)量是一致的。而那些非關(guān)鍵信息,有一部分節(jié)點(diǎn)個(gè)數(shù)和記錄個(gè)數(shù)保持一致,但是內(nèi)容基本不變,另一部分出現(xiàn)的次數(shù)和正文節(jié)點(diǎn)無關(guān)。最后對(duì)于每棵DOM樹中,節(jié)點(diǎn)數(shù)量和內(nèi)容都有變化的節(jié)點(diǎn),認(rèn)為是所有關(guān)鍵信息節(jié)點(diǎn)。將其轉(zhuǎn)換成模板。
3.2.3 模板的正交過濾算法
一般的全自動(dòng)模板生成算法,都是通過訓(xùn)練輸入的所有網(wǎng)頁,生成一個(gè)包含所有關(guān)鍵信息的模板集合。這種做法生成的模板精度較低,模板的結(jié)果受輸入的訓(xùn)練網(wǎng)頁的影響較大。在此我們提出了正交過濾算法,該算法對(duì)生成的關(guān)鍵信息模板集合進(jìn)行正交過濾,以保證獲得更加準(zhǔn)確的候選模板。
圖5 模板正交過濾算法
3.2.4 模板的特征過濾算法
對(duì)于候選的關(guān)鍵信息模板集合T,可能我們只需要部分關(guān)鍵信息的模板,因此在模板集合中找出我們所需要的模板至關(guān)重要。由于我們的框架具有很強(qiáng)的靈活性,因此能夠很好地和已有的根據(jù)網(wǎng)頁特征抽取關(guān)鍵信息的算法相結(jié)合。比如可以在用候選模板集合T抽取關(guān)鍵信息的過程中,利用關(guān)鍵信息的視覺特征,獲得最可能的模板。最常見的關(guān)鍵信息一般是正文。因此這里以新聞和論壇的正文為例,我們根據(jù)它們的特征,計(jì)算出正文的最終模板。
a) 新聞?wù)牡奶卣鬟^濾算法:
先用模板集合(T1,T2,T3,…,Tm)去抽取輸入的k個(gè)網(wǎng)頁,抽取出結(jié)果。每個(gè)模板Ti都對(duì)應(yīng)k個(gè)抽取結(jié)果。計(jì)算每個(gè)結(jié)果的重要度。
重要度定義:Importance(Ti)=D(Doci)×logm(E(Doci)+m)
Doci是模板Ti抽取出來的文本節(jié)點(diǎn)信息。D(Doci)是模板Ti抽取出的k個(gè)文本節(jié)點(diǎn)的方差,m是這棵樹是該模板集合的模板個(gè)數(shù),E(Doci)是Ti模板抽取出的k個(gè)文本節(jié)點(diǎn)的平均長度。取Importance(Ti)值最大的模板為新聞?wù)牡哪0濉?/p>
b) 論壇正文的特征過濾算法:
論壇主帖和新聞?lì)愃?,都屬于單記錄結(jié)構(gòu),因此它的模板與新聞?wù)牡哪0暹x擇算法一樣。論壇的跟帖屬于多記錄結(jié)構(gòu),其正文特征有別于單記錄結(jié)構(gòu)的正文特征。
先用模板集合T={T1,T2,T3,…,Tm}去抽取輸入的k個(gè)網(wǎng)頁,抽取出結(jié)果。每個(gè)模板Ti都對(duì)應(yīng)k個(gè)抽取結(jié)果。由于是多記錄結(jié)構(gòu),每個(gè)模板每個(gè)頁面會(huì)抽取到Nfloor(Nfloor≥1)個(gè)結(jié)果。抽取的過程中,會(huì)得到該模板對(duì)應(yīng)的節(jié)點(diǎn)之下的所有標(biāo)簽數(shù)量。計(jì)算每個(gè)結(jié)果的重要度。
分別計(jì)算每個(gè)關(guān)鍵信息節(jié)點(diǎn)及其style和class屬性的子孫節(jié)點(diǎn)的重要度。
Doci是模板Ti抽取出來的文本節(jié)點(diǎn)信息。D(Doci)和E(Doci)分別是模板Ti抽取出的k個(gè)文本節(jié)點(diǎn)的方差和均值,m是這棵樹是該模板集合的模板個(gè)數(shù),Nfloori是模板Ti抽取出來的記錄個(gè)數(shù),NPi是模板Ti抽取出來的段落個(gè)數(shù),Ntagi是模板Ti抽取時(shí)候遍歷的HTML標(biāo)簽個(gè)數(shù)。取Importance(Ti)值最大的模板為論壇跟帖的模板。
3.2.5 基于模板的抽取算法
對(duì)于輸入的網(wǎng)頁,建DOM樹后遍歷DOM樹,若是某一個(gè)節(jié)點(diǎn)與模板中的某個(gè)關(guān)鍵信息槽的相對(duì)路徑、標(biāo)簽名和標(biāo)簽屬性一致,將該節(jié)點(diǎn)下面的文本去掉Label,即為該關(guān)鍵信息槽對(duì)應(yīng)的關(guān)鍵信息。
為了驗(yàn)證本文提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的有效性,我們以抽取新聞的正文為例在該框架上進(jìn)行了實(shí)驗(yàn)。
CETD[3]是目前較新的全自動(dòng)的網(wǎng)頁正文抽取算法,文獻(xiàn)[3]表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強(qiáng)模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性,我們使用算法CETD[3]作為對(duì)比算法,并將其作為框架中的模板無關(guān)的全自動(dòng)抽取算法。
4.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境
新聞的實(shí)驗(yàn)數(shù)據(jù)是來自10個(gè)新聞網(wǎng)站的國際頻道的網(wǎng)頁共2 000個(gè)。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站,且網(wǎng)頁在HTML結(jié)構(gòu)方面也幾乎覆蓋了各種情況,因此,保證了實(shí)驗(yàn)數(shù)據(jù)的多樣性。實(shí)驗(yàn)機(jī)器配置為Intel Q9300雙核CPU,4GB內(nèi)存,運(yùn)行環(huán)境為ubuntu平臺(tái),程序由C++開發(fā)實(shí)現(xiàn),編譯器為gcc。
4.2 評(píng)價(jià)方法
通過人工標(biāo)注,我們獲得2 000個(gè)網(wǎng)頁的正文作為參考結(jié)果。
假設(shè)a是參考結(jié)果,b是抽取結(jié)果,那么準(zhǔn)確率P、召回率R和F值分別如式(1)、式(2)、式(3)所示。
LcsLength(a,b)為字符串a(chǎn)和字符串b的最大公共子串的長度,Length(a)為字符串a(chǎn)的長度,Length(b)為字符串b的長度。
4.3 實(shí)驗(yàn)結(jié)果與分析
為了檢驗(yàn)本文提出的信息抽取框架的有效性,我們?cè)O(shè)計(jì)了4組實(shí)驗(yàn),如表1所示。
1) 使用本框架生成的模板進(jìn)行信息抽取的實(shí)驗(yàn)
2) 使用模板無關(guān)的全自動(dòng)抽取算法(CETD)抽取
3) 使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的實(shí)驗(yàn)
4) 使用本框架,但是沒有對(duì)模板進(jìn)行正交過濾
其中第1組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)利用模板無關(guān)的全自動(dòng)抽取結(jié)果作為訓(xùn)練樣例生成模板的有效性。第1組和第4組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)正交過濾算法的有效性。第2組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)整個(gè)框架的有效性。
表1 四種方案的結(jié)果
從結(jié)果中,我們可以得出以下結(jié)論。
(1) 從第3組和第1組實(shí)驗(yàn)結(jié)果可以看出,使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果要好于直接用訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果。
(2) 從第4組和第1組實(shí)驗(yàn)的結(jié)果可以看出,引入正交過濾算法后,生成的模板的抽取結(jié)果要好于沒有對(duì)模板進(jìn)行正交過濾的抽取結(jié)果。
(3) 從第1組和第2組實(shí)驗(yàn)的結(jié)果可以看出,該框架的整體抽取結(jié)果要好于模板無關(guān)的全自動(dòng)抽取結(jié)果。
(4) 通過對(duì)抽取結(jié)果錯(cuò)誤的網(wǎng)頁進(jìn)行分析發(fā)現(xiàn),抽取錯(cuò)誤的主要因素有如下3點(diǎn): 1)有些 HTML 頁面標(biāo)簽缺失,從而造成部分標(biāo)簽被當(dāng)作正文抽取出來。2)有些網(wǎng)頁的正文開頭或結(jié)尾的作者、來源等噪音和正文是連在一起的。3)有些網(wǎng)頁的副標(biāo)題或者摘要僅通過換行標(biāo)簽和正文區(qū)分開來,和正文沒有區(qū)別。
(5) 全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁以及正交過濾算法對(duì)一小部分板塊的網(wǎng)頁抽取效果不明顯,但是從十個(gè)板塊的平均值上可以看出,這兩種算法對(duì)結(jié)果的正確率和召回率都有一定的提高。
在運(yùn)行效率方面,我們也做了實(shí)驗(yàn)。該框架生成的模板平均每個(gè)頁面的處理時(shí)間為8.59ms, 而模板無關(guān)的全自動(dòng)抽取算法平均每個(gè)頁面的處理時(shí)間為24.72ms??梢缘贸鲞@樣的結(jié)論,在在線抽取過程中,用該框架生成的模板對(duì)網(wǎng)頁進(jìn)行抽取,比用模板無關(guān)的全自動(dòng)抽取算法抽取的速度快近2倍。
本文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架,該框架很好地融合模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度和效率方面有本質(zhì)上的提高。該框架中一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換,因此該框架具有很好的可擴(kuò)展性。同時(shí),本文還提出了模板的正交過濾算法,將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。
在未來工作中,我們將針對(duì)輸入的訓(xùn)練網(wǎng)頁進(jìn)行聚類以及引入視覺特征,以改進(jìn)關(guān)鍵信息模板集合的生成算法和模板的正交過濾算法,從而進(jìn)一步提高生成的模板的精度。
[1] Laender A H F, et al. A brief survey of web data extraction tools[C]//Proceedings of the ACM Sigmod Record, 2002. 31(2): 84-93, ACM New York, NY, USA.
[2] Chang C H, et al. A survey of web information extraction systems[J]. Knowledge and Data Engineering, IEEE Transactions, 2006, 18(10): 1411-1428.
[3] Fei S, Dandan S, Lejian L. DOM Based Content Extraction via Text Density[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, ACM New York, NY, USA 2011: 245-254.
[4] Tim W, William H, Jiawei H. CETR-Content Extraction via Tag Ratios[C]//Proceedings of the 19th international conference on World wide web, New York, NY, USA 2010: 971-980.
[5] Jyotika P, Andreas P. CoreEx: Content Extraction from Online News Articles[C]//Proceedings of the 17th ACM conference on Information and knowledge management, ACM New York, NY, USA 2008: 1391-1392.
[6] Valter C, Giansalvatore M, Paolo M. RoadRunner: Towards Automatic Data Extraction from Large Web Sites[C]//Proceedings of the 27th International Conference on Very Large Data Bases, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA 2001: 109-118.
[7] Yang S, Lin H, Han Y. Automatic data extraction from template-generated Web pages[J]. Journal of Software, 2008,19(2):209-223.
[8] Bing L, Robert G, Yanhong Z. Mining data records in Web pages[C]//Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM New York, NY, USA 2003:601-606.
[9] Deng C, Shipeng Y, Jirong W, et al. Extracting content structure for web pages based on visual representation[C]//Proceedings of the 5th Asia-Pacific web conference on Web technologies and applications, Springer-Verlag Berlin, Heidelberg 2003: 406-417.
Research on Extensible Web Key Information Extraction
GUO Shaohua1,2, GUO Yan1, LI Haiyan1, LIU Yue1, ZHANG Jin1, CHENG Xueqi1
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)
An extensible framework of web key information extraction is presented in this paper. This framework combine automatic information extraction algorithms and template detection algorithms, essentially improving the precision and efficiency of extraction. Some key parts of this framework can be replaced as required, therefore it has excellent extensibility. Furthermore, this paper also describes an orthogonal filter algorithm, which improves the precision of template generation. And the experiments provide positive results for this method.
key information;information extraction;extensible framework;orthogonal filter
郭少華(1984—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿?、網(wǎng)絡(luò)數(shù)據(jù)挖掘。E?mail:guoshaohua@software.ict.a(chǎn)c.cn郭巖(1974—),博士,助理研究員,主要研究領(lǐng)域?yàn)樾畔⒊槿?、網(wǎng)絡(luò)數(shù)據(jù)挖掘。E?mail:guoy@ict.a(chǎn)c.cn李海燕(1985—),碩士,助理工程師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘和信息抽取。E?mail:lhytiancai@163.com
1003-0077(2015)01-0097-07
2013-03-20 定稿日期: 2013-06-18
國家自然科學(xué)基金(61100083);國家863計(jì)劃基金(2012AA011003)
TP391
A