李雪駒,王智廣,魯 強(qiáng)
(中國(guó)石油大學(xué)(北京) 地球物理與信息工程學(xué)院,北京 102249)
一種規(guī)則與SVM結(jié)合的論文抽取方法
李雪駒,王智廣,魯 強(qiáng)
(中國(guó)石油大學(xué)(北京) 地球物理與信息工程學(xué)院,北京 102249)
傳統(tǒng)PDF論文抽取方法主要是單獨(dú)基于規(guī)則的方法或單獨(dú)基于機(jī)器學(xué)習(xí)的方法,其中基于規(guī)則的抽取方法在處理格式固定的數(shù)據(jù)方面具有明顯的優(yōu)勢(shì),通過制定簡(jiǎn)單的抽取規(guī)則即可準(zhǔn)確定位并抽取數(shù)據(jù);而在處理格式靈活的數(shù)據(jù)時(shí),則需要制定相當(dāng)復(fù)雜的規(guī)則,且不具備對(duì)論文格式的適應(yīng)性,因而明顯缺乏機(jī)器學(xué)習(xí)抽取方法的靈活性和準(zhǔn)確性。為此,提出了一種基于規(guī)則與SVM相結(jié)合的PDF論文抽取方法。該方法充分利用規(guī)則方法與機(jī)器學(xué)習(xí)在信息抽取時(shí)的優(yōu)點(diǎn),在用簡(jiǎn)單的規(guī)則抽取格式固定的信息的基礎(chǔ)上,選取樣本特征構(gòu)建訓(xùn)練集,并選擇最優(yōu)的核函數(shù)生成SVM模型,從而完成基于SVM方法的信息抽取。以SVM的抽取結(jié)果為主體,通過合理利用基于規(guī)則抽取的結(jié)果并制定適當(dāng)?shù)囊?guī)則的方式對(duì)該方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法在論文元數(shù)據(jù)和章節(jié)標(biāo)題等信息抽取方面具有較好的效果。
PDF論文;規(guī)則;支持向量機(jī);樣本特征;混合方法;信息抽取
隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,大數(shù)據(jù)已成為各個(gè)領(lǐng)域最熱門的名詞。面對(duì)海量的信息和數(shù)據(jù)資源,迅速獲取其中潛在的、有用的知識(shí)是當(dāng)今數(shù)據(jù)挖掘的重要方向。學(xué)術(shù)論文具有強(qiáng)烈的專業(yè)性和準(zhǔn)確性,論文內(nèi)的信息和數(shù)據(jù)在很多專業(yè)領(lǐng)域都能發(fā)揮極大的作用,能為許多應(yīng)用技術(shù)提供底層的數(shù)據(jù)支持。因此抽取學(xué)術(shù)論文中的信息和數(shù)據(jù)是非常有意義的。
目前國(guó)內(nèi)外的學(xué)術(shù)論文多以PDF格式進(jìn)行存儲(chǔ),PDF文檔內(nèi)容抽取主要有兩種方式。一種是通過分析PDF文檔的格式,直接將其中內(nèi)容抽取出來,進(jìn)而獲取有用的信息和數(shù)據(jù),以下簡(jiǎn)稱直接方法[1];另一種是將原PDF文檔轉(zhuǎn)換成其他文檔格式,從而利用抽取中間文檔內(nèi)容的方法抽取PDF文檔中的內(nèi)容,再進(jìn)一步獲取有用的信息和數(shù)據(jù),以下簡(jiǎn)稱間接方法[2]。近年來,由于PDFBox等開源工具的日益成熟,直接方法得到了廣泛應(yīng)用。
直接方法主要分為基于規(guī)則和基于機(jī)器學(xué)習(xí)兩大類[3],傳統(tǒng)研究多是單獨(dú)基于規(guī)則或機(jī)器學(xué)習(xí)進(jìn)行PDF文檔的抽取,以下簡(jiǎn)稱單獨(dú)方法。盡管在元數(shù)據(jù)分類抽取等方面取得了較大的成績(jī),但由于學(xué)術(shù)論文的格式過于復(fù)雜、繁多,上述單獨(dú)方法在某些情況下的效果并不理想。并且傳統(tǒng)研究大多只關(guān)注元數(shù)據(jù)的抽取,沒有很好地給出論文的內(nèi)容結(jié)構(gòu)以及內(nèi)容中的信息和數(shù)據(jù)。
由前人的研究可以發(fā)現(xiàn),單獨(dú)方法在抽取元數(shù)據(jù)過程中時(shí)而效果特別突出,時(shí)而效果卻很差。為此,提出了一種基于規(guī)則與SVM相結(jié)合的方法。該方法充分發(fā)揮了兩種方法各自的優(yōu)點(diǎn),取得了比單一方法更優(yōu)的抽取效果,還獲得了論文內(nèi)容、結(jié)構(gòu)等方面的信息數(shù)據(jù)。
PDF文檔的內(nèi)容并不是簡(jiǎn)單的字符串的拼接,它是多個(gè)數(shù)據(jù)對(duì)象的組合,因此不能像WORD一樣抽取文檔的內(nèi)容。目前PDF文檔內(nèi)容的抽取主要有直接抽取和間接抽取兩類方法。
1.1直接抽取方法
該方法主要是通過分析PDF文檔的物理結(jié)構(gòu)和邏輯結(jié)構(gòu),運(yùn)用PDFBox等開源工具解析PDF文檔,直接將其中的文本信息和圖片抽取出來[4],解析后的PDF文檔可以通過規(guī)則、機(jī)器學(xué)習(xí)以及規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合等方法進(jìn)一步抽取有用的信息和數(shù)據(jù)。
1.1.1 基于規(guī)則的抽取方法
基于規(guī)則的方法主要采用基于模式識(shí)別和模式匹配的模板挖掘技術(shù)來實(shí)現(xiàn)自由文本的分類抽取。如利用正則表達(dá)式從PDF文檔中抽取首頁元數(shù)據(jù)[5];采用基于層級(jí)知識(shí)描述框架的InfoMap方法抽取引文元數(shù)據(jù)等[6]。
基于規(guī)則的抽取方法易于理解和操作,只要規(guī)則制定合理,效果十分明顯。但是該方法需要專業(yè)人員預(yù)先制定一系列規(guī)則,而且如果抽取的目標(biāo)發(fā)生變化,則會(huì)產(chǎn)生規(guī)則不適應(yīng)的問題。
1.1.2 基于機(jī)器學(xué)習(xí)的抽取方法
機(jī)器學(xué)習(xí)的方法則采用另外一種思路,它通過訓(xùn)練樣本并建立樣本的輸入與輸出之間的關(guān)系來預(yù)測(cè)新數(shù)據(jù),最終達(dá)到合理的分類抽取。如采用條件隨機(jī)場(chǎng)模型抽取多種通用元數(shù)據(jù)[7];用概率評(píng)估模型抽取引文元數(shù)據(jù)[8];用SVM模型抽取論文的元數(shù)據(jù)[9]等。
機(jī)器學(xué)習(xí)的方法具有較強(qiáng)的適應(yīng)性,可以處理多種類型的文檔,不需要專家提前制定規(guī)則,但是這種方法建立起來的模型,其有效性依賴于訓(xùn)練樣本的數(shù)量和質(zhì)量以及樣本特征的選取。
1.1.3 基于規(guī)則和機(jī)器學(xué)習(xí)相結(jié)合的抽取方法
規(guī)則和機(jī)器學(xué)習(xí)相結(jié)合的方法就是在抽取過程中既用到了規(guī)則又用到了機(jī)器學(xué)習(xí)。以抽取PDF學(xué)術(shù)論文中的元數(shù)據(jù)為例,研究發(fā)現(xiàn),基于規(guī)則的抽取方法在處理某些元數(shù)據(jù)時(shí)的效果要優(yōu)于機(jī)器學(xué)習(xí)方法,比如參考文獻(xiàn)、摘要及關(guān)鍵詞的抽??;然而在抽取文章標(biāo)題、作者信息等元數(shù)據(jù)時(shí)的效果卻不如基于機(jī)器學(xué)習(xí)的方法。這主要是因?yàn)閰⒖嘉墨I(xiàn)等元數(shù)據(jù)通常會(huì)滿足一定的格式,并且基本不會(huì)改變,而文章標(biāo)題等元數(shù)據(jù)則不具備這樣的規(guī)則性。與此同時(shí),有些關(guān)鍵信息需要極其復(fù)雜的規(guī)則才能獲取,而用機(jī)器學(xué)習(xí)的方法則可以較輕松地得到。
基于前面的分析,分別用規(guī)則和機(jī)器學(xué)習(xí)抽取各自適合的信息和數(shù)據(jù),再將它們統(tǒng)一起來,能夠顯著地提高抽取結(jié)果;并且對(duì)于機(jī)器學(xué)習(xí)不準(zhǔn)確的地方,也可以通過適當(dāng)?shù)囊?guī)則進(jìn)行修正以提高抽取的準(zhǔn)確率。這種方法具有較強(qiáng)的適應(yīng)性,同時(shí)能夠減少規(guī)則設(shè)計(jì)的復(fù)雜性,只需要制定一些簡(jiǎn)單規(guī)則,基本可以解決PDF文檔抽取過程中的各類問題。
1.2間接抽取方法
這種方法主要是將原PDF文檔轉(zhuǎn)換成其他文檔格式,從而利用抽取中間文檔內(nèi)容的方法抽取PDF文檔中的信息。已有方法包括基于XML的PDF文檔信息抽取、基于XSLT的PDF論文元數(shù)據(jù)的抽取[10-11]。隨著OCR技術(shù)的提高,將PDF文檔的內(nèi)容轉(zhuǎn)換成OCR掃描的圖片進(jìn)行信息抽取也得到了越來越多的重視。
PDF學(xué)術(shù)論文的元數(shù)據(jù)主要包括文章標(biāo)題、作者信息、摘要、關(guān)鍵詞以及參考文獻(xiàn)等。不難發(fā)現(xiàn),摘要、關(guān)鍵詞以及參考文獻(xiàn)的出現(xiàn)都會(huì)有一個(gè)明顯的標(biāo)志,例如“摘要”、“Abstract”、“關(guān)鍵詞”等。因此采用基于規(guī)則的方法可以簡(jiǎn)單、迅速地定位并抽取這些內(nèi)容。對(duì)于文章標(biāo)題及作者信息等元數(shù)據(jù),由于它們的出現(xiàn)相對(duì)靈活,沒有明顯的標(biāo)志,所以機(jī)器學(xué)習(xí)的方法能夠更準(zhǔn)確地抽取這部分元數(shù)據(jù)。再來研究文章的內(nèi)容信息,眾所周知除了上述論文的元數(shù)據(jù),文章內(nèi)容同樣包含了許多重要的信息和數(shù)據(jù)。例如論文各章節(jié)的標(biāo)題及子標(biāo)題,論文表格內(nèi)的信息和數(shù)據(jù)等。提出的方法不但準(zhǔn)確地抽取了PDF論文基本的元數(shù)據(jù),而且還抽取了論文的章節(jié)標(biāo)題等重要的內(nèi)容信息。
對(duì)提出的混合方法的核心思想、方法流程進(jìn)行介紹,如圖1所示。其中曲邊四邊形表示文檔、文件,矩形表示必須處理的過程,平行四邊形表示數(shù)據(jù),橢圓形表示注釋。
圖1 混合方法的具體流程
具體過程如下:先利用生成的SVM訓(xùn)練模型對(duì)PDF論文進(jìn)行分類,初步得到一個(gè)分類結(jié)果,包括文章標(biāo)題、作者信息、正文內(nèi)容、章節(jié)標(biāo)題、頁腳頁眉以及摘要、關(guān)鍵詞和參考文獻(xiàn);接著利用基于規(guī)則抽取到的摘要、關(guān)鍵詞以及參考文獻(xiàn)去修正SVM得到的結(jié)果;然后再按照論文格式等限定條件去適當(dāng)修正其他不合理的分類信息,最終得到相對(duì)準(zhǔn)確的各類信息和數(shù)據(jù)。
2.1基于規(guī)則抽取方法的實(shí)現(xiàn)
基于規(guī)則的抽取方法主要用來抽取PDF論文內(nèi)格式固定的信息和數(shù)據(jù),一般指摘要、關(guān)鍵詞和參考文獻(xiàn)。PDFBox是一個(gè)很好的開源PDF文檔解析類庫,首先用PDFBox解析PDF論文,然后利用其接口將PDF的內(nèi)容流按照論文顯示的行去存儲(chǔ)。每一行都包含了這一行的位置信息、字體信息等重要內(nèi)容。接下來制定規(guī)則分別去抽取論文的摘要、關(guān)鍵詞以及參考文獻(xiàn)。
這三類元數(shù)據(jù)的抽取方法大致相同,都是基于字符串匹配的方式。具體方法如下,按行遍歷所有的論文內(nèi)容,分別尋找行首帶有“摘要”(或ABSTRACT、Abstract等)、“關(guān)鍵詞”(或關(guān)鍵字、主題詞、Keywords等)、“參考文獻(xiàn)”(或REFERENCE、Reference等)的行,確定這些行的位置。值得一提的是,摘要和關(guān)鍵詞多出現(xiàn)在論文的首頁,參考文獻(xiàn)多出現(xiàn)在文章的結(jié)尾。如果能夠找到上述三行的位置,即說明此論文包含摘要、關(guān)鍵詞和參考文獻(xiàn)的內(nèi)容。
此時(shí)摘要所在行與關(guān)鍵詞所在行之間的內(nèi)容是論文的摘要部分,且摘要各行之間的字體大小應(yīng)該是相同的(在誤差允許范圍內(nèi));關(guān)鍵詞所在行的內(nèi)容是論文的關(guān)鍵詞部分,由于關(guān)鍵詞可能不止一行,所以還應(yīng)該再向下判斷一至兩行(關(guān)鍵詞一般只有1~3行),判斷方法與摘要相同,用關(guān)鍵詞各行之間的字體大小來判斷該行是否為關(guān)鍵詞,最后得到正確的關(guān)鍵詞內(nèi)容。參考文獻(xiàn)部分的抽取,從出現(xiàn)該字符串的下一行開始,逐行比較各行的字體大小,連續(xù)的字體大小相同的行就組成了論文的參考文獻(xiàn)部分。
如果無法全部找到前文所說的“摘要”、“關(guān)鍵詞”以及“參考文獻(xiàn)”的行,那么說明該文章缺少其中某些部分的內(nèi)容,即是說缺少哪一行就不存在哪一種元數(shù)據(jù)。此時(shí)要充分利用同一種元數(shù)據(jù)相鄰行的字體大小相同、行間距無明顯變化等方法進(jìn)行劃分,抽取對(duì)應(yīng)種類的元數(shù)據(jù)。
2.2基于SVM抽取方法的實(shí)現(xiàn)
用規(guī)則抽取PDF論文的元數(shù)據(jù)主要是通過數(shù)據(jù)的位置和字體大小來判斷分類,然而很多時(shí)候無法輕易地對(duì)數(shù)據(jù)進(jìn)行分類。例如有時(shí)解析后的PDF文檔,內(nèi)容流中的字體大小都是0,這時(shí)就無法從這一特征量判斷字體的大小。因此還需要考慮字符的寬度、高度、橫縱坐標(biāo)的比例等特征量,綜合起來判斷實(shí)際顯示在文檔中的字體大小。這里需要考慮的特征量越多,制定的規(guī)則就越復(fù)雜,并且可能存在的誤差也越大。這時(shí)應(yīng)該采用機(jī)器學(xué)習(xí)的方法抽取數(shù)據(jù)。
PDF論文的信息抽取實(shí)際上也是一種分類問題,由于SVM在解決分類和回歸問題方面性能顯著,具有良好的理論證明,并且可以很好地支持小樣本,因此選用SVM作為機(jī)器學(xué)習(xí)的核心方法。
2.2.1 SVM的特征選取
用SVM抽取PDF學(xué)術(shù)論文本質(zhì)上就是將PDF論文分類,這是一個(gè)多分類問題。大體上可以將PDF學(xué)術(shù)論文分為以下幾類,分別是文章標(biāo)題、作者信息、摘要、關(guān)鍵詞、正文內(nèi)容、各章節(jié)標(biāo)題、參考文獻(xiàn)以及頁腳頁眉等。針對(duì)上面這些信息和數(shù)據(jù)在PDF文檔中的特性,合理地選取訓(xùn)練樣本的特征。 分析論文結(jié)構(gòu)不難發(fā)現(xiàn),區(qū)分上面分類的主要因素就是位置和字體,因此要在內(nèi)容流中尋找與位置和字體相關(guān)的樣本特征。
利用SVM模型,將論文中的每一行進(jìn)行分類。由于PDF論文的每一行都包含了反映其位置和字體的特征,行可以很好地表現(xiàn)PDF論文的內(nèi)容和結(jié)構(gòu),并且與區(qū)域(塊)相比,行更能細(xì)化這些特征,增強(qiáng)分類的準(zhǔn)確性,區(qū)域(塊)也是由多個(gè)行組成的;與此同時(shí),還能更好地與基于規(guī)則的方法相結(jié)合。因此,采用以行為基本單位,運(yùn)用SVM模型進(jìn)行分類的方法。
訓(xùn)練SVM模型,最重要的是把論文行轉(zhuǎn)換成SVM的特征向量。經(jīng)過解析后的PDF內(nèi)容流按行存儲(chǔ),每行都包含了位置和字體等信息,針對(duì)這些信息,合理選擇特征向量。
選擇行的位置特征。一般來說,同一行的每個(gè)字符的縱坐標(biāo)是相同的,選擇每一行的第一個(gè)字符的橫坐標(biāo)XDirAdj、縱坐標(biāo)YDirAdj及最后一個(gè)字符的橫坐標(biāo)XDirAdj作為特征向量。首尾兩個(gè)橫坐標(biāo)表示這一行的長(zhǎng)度,加上縱坐標(biāo)基本上就能夠確定該行在PDF文檔中的位置。
選擇行的字體特征。多數(shù)情況下,同一行的字體特征是相同的,因此選擇第一個(gè)字符的字體大小FontSize來代表這一行的字體大小。然而實(shí)驗(yàn)發(fā)現(xiàn),有時(shí)FontSize在整篇文章中的值都是0,單靠FontSize一個(gè)特征向量并不能反映字體的大小,還要考慮字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標(biāo)比例XScale、字體縱坐標(biāo)比例YScale以及字體Pt尺寸FontSizeInPt。將上述參數(shù)作為表示這一行字體大小的特征向量可以很好地反映這一行的分類特征。
因?yàn)橛行┣闆r下還需要考慮行的字符個(gè)數(shù)以及該行所處的PDF文檔的頁碼,比如文章標(biāo)題、作者、章節(jié)標(biāo)題、正文內(nèi)容等在每一行的字?jǐn)?shù)都會(huì)有一定差別,并且文章標(biāo)題、作者、摘要、關(guān)鍵詞等多出現(xiàn)在PDF論文的首頁,所以每一行的字符個(gè)數(shù)和所處的頁碼也可以作為樣本特征。
此外,論文行還包含了前后行間的距離、字體格式、字體方向、字體間距等特征。將上述特征分成幾組訓(xùn)練SVM模型,測(cè)試結(jié)果見表1。
表1 不同特征向量的SVM模型的簡(jiǎn)單對(duì)比
表1中類別A選擇了每一行第一個(gè)字符的橫坐標(biāo)XDirAdj、縱坐標(biāo)YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標(biāo)比例XScale、字體縱坐標(biāo)比例YScale、字體Pt尺寸FontSizeInPt、最后一個(gè)字符的橫坐標(biāo)XDirAdj、該行的字符個(gè)數(shù)以及所處的PDF文檔的頁碼共11個(gè)特征向量;類別B選擇了每一行第一個(gè)字符的橫坐標(biāo)XDirAdj、縱坐標(biāo)YDirAdj、字體大小FontSize、最后一個(gè)字符的橫坐標(biāo)XDirAdj、該行的字符個(gè)數(shù)以及所處的PDF文檔的頁碼共6個(gè)特征向量;類別C選擇了每一行第一個(gè)字符的橫坐標(biāo)XDirAdj、縱坐標(biāo)YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標(biāo)比例XScale、字體縱坐標(biāo)比例YScale、字體Pt尺寸FontSizeInPt、最后一個(gè)字符的橫坐標(biāo)XDirAdj共9個(gè)特征向量;類別D選擇了每一行第一個(gè)字符的橫坐標(biāo)XDirAdj、縱坐標(biāo)YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標(biāo)比例XScale、字體縱坐標(biāo)比例YScale、字體Pt尺寸FontSizeInPt、最后一個(gè)字符的橫坐標(biāo)XDirAdj、該行的字符個(gè)數(shù)以及所處的PDF文檔的頁碼、前后行間的距離、字體方向、字體間距共14個(gè)特征向量。
實(shí)驗(yàn)隨機(jī)選用了相同的標(biāo)注好的1 000個(gè)樣本行訓(xùn)練模型,并隨機(jī)選用另外的350個(gè)樣本行進(jìn)行測(cè)試,未經(jīng)過參數(shù)調(diào)優(yōu),選用相同參數(shù)的RBF核后粗略地得到表1所示的結(jié)果。
由表1可知,類別A的準(zhǔn)確率相對(duì)高些,因此最終選取了每一行第一個(gè)字符的橫坐標(biāo)XDirAdj、縱坐標(biāo)YDirAdj、字體大小FontSize、字體高度HeightDir、字體寬度WidthDirAdj、字體橫坐標(biāo)比例XScale、字體縱坐標(biāo)比例YScale、字體Pt尺寸FontSizeInPt、最后一個(gè)字符的橫坐標(biāo)XDirAdj、該行的字符個(gè)數(shù)以及所處的PDF文檔的頁碼這11個(gè)特征向量作為SVM模型的樣本特征。
根據(jù)PDFBox解析后的內(nèi)容流,對(duì)照PDF學(xué)術(shù)論文人工標(biāo)注訓(xùn)練集和測(cè)試集,訓(xùn)練樣本的分類包括文章標(biāo)題、作者信息、正文內(nèi)容、章節(jié)標(biāo)題、頁腳頁眉,以及摘要、關(guān)鍵詞和參考文獻(xiàn)。
2.2.2 SVM核函數(shù)的選取
完成訓(xùn)練樣本后要選擇合適的核函數(shù)來訓(xùn)練模型,選用LIBSVM生成訓(xùn)練模型。LIBSVM是臺(tái)灣大學(xué)林智仁教授開發(fā)的一套開源的SVM軟件包,它提供了豐富的工具以及多種語言的源碼。
由于訓(xùn)練集的樣本特征遠(yuǎn)遠(yuǎn)少于樣本數(shù)量,應(yīng)該選擇非線性核函數(shù)[12]。常用的非線性核函數(shù)主要有多項(xiàng)式核、RBF核、SIGMOD核以及混合核[13]。利用LIBSVM軟件包內(nèi)提供的工具和源代碼,用網(wǎng)格搜索、交叉驗(yàn)證等方法分別找到滿足上述核函數(shù)的最優(yōu)參數(shù)C、g、d和coef0以及混合核的權(quán)值。需要說明的是,有些核函數(shù)并不需要上面全部的參數(shù),根據(jù)不同的核函數(shù)找到不同的最優(yōu)參數(shù)。然后利用訓(xùn)練集和測(cè)試集訓(xùn)練SVM模型,對(duì)比分析不同核函數(shù)的性能,最終選取最優(yōu)的核函數(shù)及其訓(xùn)練模型。
2.3混合方法的具體實(shí)現(xiàn)
利用前面訓(xùn)練好的SVM模型對(duì)每一篇PDF論文的內(nèi)容進(jìn)行分類抽取,得到初步抽取結(jié)果,如圖2、圖3所示。
這相當(dāng)于將整篇文章轉(zhuǎn)換成對(duì)應(yīng)的SVM模型的抽取特征,然后進(jìn)行分類。此時(shí)的抽取結(jié)果包含了該篇論文的全部分類信息,例如文章標(biāo)題、作者信息、摘要信息、關(guān)鍵詞信息、文章內(nèi)容信息、參考文獻(xiàn)以及頁腳頁眉等。圖2每行都有12列,第1列表示這一行的分類結(jié)果。在這一列“0”表示文章標(biāo)題,“1”表示作者信息,“2”表示文章摘要,“3”表示關(guān)鍵詞及分類號(hào),“4”表示正文內(nèi)容,“5”表示頁眉頁腳,“6”表示正文的章節(jié)標(biāo)題,“9”表示文章的參考文獻(xiàn)等;第2~12列則表示SVM模型的11個(gè)樣本特征,這里對(duì)每一列的樣本特征,都按照規(guī)范進(jìn)行了歸一化處理。圖3顯示了論文內(nèi)容的按行抽取,每行都能對(duì)應(yīng)圖2所示的特征向量。每行最后的三個(gè)數(shù)字分別代表這一行內(nèi)容的類別(即分類結(jié)果),所處的PDF文檔的頁碼以及在該頁的行數(shù)。例如“曲江秀,高長(zhǎng)海,查明 ===1 0 4”這一行,“1”表示這一行的內(nèi)容是作者信息,“0”表示這一行位于PDF文檔的第一頁,“4”表示這行是這一頁的第五行,其余內(nèi)容依此類推。
圖2 用SVM模型得到的抽取特征及分類結(jié)果
圖3 用SVM模型得到的論文內(nèi)容的分類結(jié)果
圖2和圖3反映了PDF論文經(jīng)過SVM模型分類后的初步抽取結(jié)果。通過觀察可以發(fā)現(xiàn),這個(gè)抽取結(jié)果還存在一定的分類錯(cuò)誤。例如圖3,行尾數(shù)字為12,行首為“關(guān)鍵詞”那一行,這一行SVM分類得到了錯(cuò)誤的分類結(jié)果,將“關(guān)鍵詞”誤識(shí)別成了正文,因此這一行正確的分類結(jié)果應(yīng)該為“3”而不是“4”。
由前文論述可知,基于規(guī)則的抽取方法在抽取論文的摘要、關(guān)鍵詞和參考文獻(xiàn)等數(shù)據(jù)時(shí)具有明顯的優(yōu)勢(shì),所以利用基于規(guī)則抽取的格式固定的數(shù)據(jù)去替換SVM模型的抽取結(jié)果。
用設(shè)計(jì)好的規(guī)則按行抽取論文的摘要、關(guān)鍵詞和參考文獻(xiàn),分別記錄好它們所處的位置,主要是每一行所處的頁碼和在該頁的行數(shù)等。為了方便,后文用(頁碼,行數(shù))表示論文每一行的內(nèi)容;然后利用這些頁碼和行數(shù),去修正SVM分類的結(jié)果,即在SVM的分類結(jié)果中,找到相應(yīng)的頁碼和行數(shù),然后將這一行的類別強(qiáng)制替換成基于規(guī)則抽取到的結(jié)果。例如在圖3中,SVM模型的分類結(jié)果將(0,12)行的內(nèi)容識(shí)別成了“正文內(nèi)容”,而基于規(guī)則的方法則將(0,12)行的內(nèi)容識(shí)別為“關(guān)鍵詞”,將SVM分類結(jié)果中的(0,12)行的類別“正文內(nèi)容4”修改為“關(guān)鍵詞3”。對(duì)于摘要,關(guān)鍵詞和參考文獻(xiàn)都按照上述方法進(jìn)行處理,得到修正后的分類結(jié)果。如果利用規(guī)則無法得到“摘要”或“關(guān)鍵詞”或“參考文獻(xiàn)”的數(shù)據(jù),則無需修改SVM模型的分類結(jié)果。
對(duì)于修正后的分類結(jié)果還要制定一些限定條件進(jìn)行二次修正,以確保最終輸出的分類結(jié)果的準(zhǔn)確性。具體的限定條件如下:(由于多數(shù)中文論文都包含中文和英文的標(biāo)題、作者信息、摘要和關(guān)鍵詞,這里只抽取其中文的標(biāo)題、作者信息、摘要和關(guān)鍵詞;若是英文論文則無此說明。)
(1)文章標(biāo)題“0”只能位于PDF文檔的首頁,并且在首頁的上半部分,最多只能有兩組字符串(中文標(biāo)題和英文標(biāo)題),其他頁面均不能再出現(xiàn)“0”的分類結(jié)果;
(2)作者信息“1”位于PDF文檔的首頁,多在文章標(biāo)題后面出現(xiàn),其他頁面均不能再出現(xiàn)“1”的分類結(jié)果;作者信息內(nèi)包含了各個(gè)作者的姓名,所屬單位以及部分簡(jiǎn)介,需要制定簡(jiǎn)單的規(guī)則分別獲取上述信息。一般來說,每個(gè)作者的中文姓名不會(huì)超過4個(gè)字,并且所屬單位都會(huì)用“()”擴(kuò)起來,分別得到作者姓名和所屬單位后,一般剩下的內(nèi)容為作者簡(jiǎn)介;
(3)參考文獻(xiàn)“9”位于PDF文檔的最后部分,一般在文檔的最后一頁或最后兩頁,其他頁面均不能出現(xiàn)“9”的分類結(jié)果;
(4)章節(jié)標(biāo)題“6”也要加入一些限定條件,章節(jié)標(biāo)題要在關(guān)鍵詞后面出現(xiàn),屬于正文部分,字?jǐn)?shù)一般不超過15,并且在抽取到的字符串中不存在逗號(hào)、引號(hào)、句號(hào)等符號(hào),有時(shí)在字符串首部可以出現(xiàn)“數(shù)字”或“數(shù)字+點(diǎn)號(hào)”或“數(shù)字+頓號(hào)”的組合,例如“1”、“一”、“1.”、“一、”等;
(5)將不滿足上述限定條件的分類結(jié)果的類別強(qiáng)制修改為正文內(nèi)容“4”。
上述限定條件基本上是通用的,能夠滿足絕大部分的論文格式和內(nèi)容,但不是絕對(duì)的??梢愿鶕?jù)不同的情況、不同的需求適當(dāng)修改。
完成上述多個(gè)步驟后,最終會(huì)得到相對(duì)準(zhǔn)確的PDF論文分類抽取結(jié)果,至此便完成了混合方法的實(shí)現(xiàn)。
表2給出了選定C和g后不同的核函數(shù)的分類結(jié)果。
表2 SVM不同核函數(shù)的分類結(jié)果
由表2可以看出,使用線性核測(cè)試集的準(zhǔn)確率只有79.32%,遠(yuǎn)小于RBF核與多項(xiàng)式核的結(jié)果,進(jìn)一步證明了文獻(xiàn)[10]總結(jié)的結(jié)論,理應(yīng)選用非線性核函數(shù)。又因?yàn)镾IGMOD核的測(cè)試效果很不理想,所以主要考慮RBF核與多項(xiàng)式核。
深入對(duì)比分析RBF核與多項(xiàng)式核,這兩種核函數(shù)都能取得良好的測(cè)試結(jié)果,但是隨著參數(shù)的優(yōu)化,多項(xiàng)式核的訓(xùn)練時(shí)間大大超過了RBF核的訓(xùn)練時(shí)間,而測(cè)試集的結(jié)果相差不大,因此選擇參數(shù)調(diào)優(yōu)后的RBF核作為該混合方法中SVM的核函數(shù)。
隨機(jī)測(cè)試了348篇PDF學(xué)術(shù)論文,得到的對(duì)比結(jié)果如表3所示。
表3 三種方法抽取信息的準(zhǔn)確率
注:規(guī)則方法表示單獨(dú)基于規(guī)則的抽取方法,該方法按照文獻(xiàn)[14]介紹的算法思想設(shè)計(jì)實(shí)現(xiàn);SVM方法表示單獨(dú)基于SVM的抽取方法;混合方法則表示基于規(guī)則和SVM相結(jié)合的抽取方法。
表中分別列出了文章標(biāo)題、作者信息等六種重要數(shù)據(jù)信息的抽取結(jié)果,從結(jié)果上看基于規(guī)則的方法在抽取摘要、關(guān)鍵詞及參考文獻(xiàn)方面表現(xiàn)突出,而基于SVM的方法在抽取文章標(biāo)題、作者信息和章節(jié)標(biāo)題方面表現(xiàn)突出?;旌戏椒ㄍ瑫r(shí)涵蓋了兩種方法的優(yōu)勢(shì),基本上在各類數(shù)據(jù)的抽取結(jié)果都是最優(yōu)的,然而抽取參考文獻(xiàn)的結(jié)果卻略遜于規(guī)則方法,這主要是由于部分論文格式混亂,在一篇文章中會(huì)穿插兩篇文章的信息,使得用規(guī)則去修正SVM分類極為困難,與此同時(shí)SVM分類也會(huì)產(chǎn)生一部分規(guī)則難以修正的結(jié)果,因此這部分的抽取結(jié)果稍差。
除了上述六種信息,混合方法還準(zhǔn)確地抽取了論文的頁腳頁眉、正文內(nèi)容等關(guān)鍵信息,準(zhǔn)確率都在85%以上。從整體上看,混合方法取得了較好的抽取效果。
傳統(tǒng)方法在抽取論文信息時(shí)還存在一定不足,為了更好地抽取PDF論文內(nèi)的關(guān)鍵信息,提出了一種基于規(guī)則和SVM相結(jié)合的PDF論文抽取方法。該方法以SVM為主體,合理利用規(guī)則去修正,最終得到了更準(zhǔn)確的抽取結(jié)果。與傳統(tǒng)單獨(dú)基于規(guī)則或機(jī)器學(xué)習(xí)的方法相比,明顯提高了抽取效果,而且還準(zhǔn)確地得到了章節(jié)標(biāo)題、頁眉頁腳等關(guān)鍵信息。
由于SVM的訓(xùn)練樣本無法包含全部格式的PDF論文,所以生成的模型會(huì)存在一定的局限性,針對(duì)某些特殊格式的PDF論文效果會(huì)很差;同時(shí)測(cè)試論文的數(shù)量偏少,也會(huì)影響實(shí)驗(yàn)結(jié)果。在進(jìn)一步優(yōu)化訓(xùn)練模型、增加測(cè)試論文數(shù)量后,要繼續(xù)深入研究正文內(nèi)關(guān)鍵信息和數(shù)據(jù)的抽取,因此準(zhǔn)確抽取圖片與表格內(nèi)的數(shù)據(jù)將是接下來研究的重點(diǎn)。
[1] 李 珍,田學(xué)東.PDF文件信息的抽取與分析[J].計(jì)算機(jī)應(yīng)用,2003,23(12):145-147.
[2] 宋艷娟,張文德.基于XML的PDF文檔信息抽取系統(tǒng)的研究[J].現(xiàn)代圖書情報(bào)技術(shù),2005(9):10-13.
[3] 張秀秀,馬建霞.PDF科技論文語義元數(shù)據(jù)的自動(dòng)抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2009(2):102-106.
[4] 王曉娟,譚艷龍,劉燕兵,等.基于自動(dòng)機(jī)理論的PDF文本內(nèi)容抽取[J].計(jì)算機(jī)應(yīng)用,2012,32(9):2491-2495.
[5] 李朝光,張 銘,鄧志鴻,等.論文元數(shù)據(jù)信息的自動(dòng)抽取[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(21):189-191.
[6] Day M Y,Tsai R T H,Sung C L,et al.Reference metadata extraction using a hierarchical knowledge representation framework[J].Decision Support Systems,2007,43(1):152-167.
[7] Yu J,Fan X.Metadata extraction from Chinese research papers based on conditional random fields[C]//Fourth international conference on fuzzy systems and knowledge discovery.[s.l.]:IEEE,2007:497-501.
[8] Giles C L,Bollacker K D,Lawrence S.CiteSeer:an automatic citation indexing system[C]//Proceedings of the third ACM conference on digital libraries.[s.l.]:ACM,1998:89-98.
[9] 歐陽輝,祿樂濱.基于SVM的論文元數(shù)據(jù)抽取方法研究[J].電子設(shè)計(jì)工程,2010,18(5):4-7.
[10] 宋艷娟,李金銘,陳振標(biāo).基于XSLT的PDF信息抽取技術(shù)的研究[J].計(jì)算機(jī)與數(shù)字工程,2008,36(5):156-159.
[11] 陳俊林,張文德.基于XSLT的PDF論文元數(shù)據(jù)的優(yōu)化抽取[J].現(xiàn)代圖書情報(bào)技術(shù),2007(2):18-23.
[12] Chang C C,Lin C J.LIVSBM:a library for support vector machines[EB/OL].2013.http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf.
[13] 趙麗琴.混合核支持向量機(jī)在地鐵客流預(yù)測(cè)中的應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2015.
[14] 牛永潔,薛蘇琴.基于PDFBox抽取學(xué)術(shù)論文信息的實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(12):61-63.
AnExtractionMethodforPapersviaIntegrationofRuleswithSVM
LI Xue-ju,WANG Zhi-guang,LU Qiang
(College of Earth Physics and Information Engineering,China University of Petroleum - Beijing,Beijing 102249,China)
Traditional extraction methods for PDF format papers are mainly based on either rules or machine learning.The extraction method based on rules has obvious advantages in processing fixed format data,which can accurately locate and extract data by making some simple rules of extraction.However it needs fairly complex rules to deal with flexible data and is lack of the adaptability of paper format,which cannot do better than the extraction method of machine learning in terms of flexibility and accuracy.For this,an extraction method for PDF papers via integration of rules with SVM is proposed which makes full use of the advantages of rules and machine learning when extracting information.On the basis of extracting fixed format information via simple rules,the sample characteristics is chosen to build the training set and the optimal kernel function is selected to generate the SVM model for implementation of information extraction based on SVM.By taken extraction results of the SVM as the main body,the verification experiments is conducted based on rules rationally and some appropriate rules made.The experiment results show that it can achieve better results for extracting metadata and chapter headings of PDF papers.
PDF papers;rules;support vector machine;sample characteristics;hybrid method;information extraction
TP301
A
1673-629X(2017)10-0024-06
2016-11-27
2017-03-14 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-07-19
國(guó)家自然科學(xué)基金資助項(xiàng)目(60803159);國(guó)家科技重大專項(xiàng)(2011ZX05005-005-006)
李雪駒(1990-),男,碩士,CCF會(huì)員(200056264G),研究方向?yàn)閿?shù)據(jù)挖掘、知識(shí)圖譜;王智廣,教授,博士,CCF高級(jí)會(huì)員,通訊作者,研究方向?yàn)橛?jì)算智能、分布與并行計(jì)算;魯 強(qiáng),副教授,博士,CCF會(huì)員,研究方向?yàn)榉植际较到y(tǒng)、知識(shí)工程。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1113.090.html
10.3969/j.issn.1673-629X.2017.10.006