便攜式文檔格式(PDF)由于其跨平臺的通用性和文檔原稿完全再現(xiàn)的獨特優(yōu)勢,廣泛應(yīng)用于各行各業(yè)的電子文件交互中,成為了不可替代的電子文檔標準格式之一,特別是各領(lǐng)域的科學出版物(如期刊雜志、學位論文和會議論文集等)的電子文獻普遍采用PDF傳輸和存儲。其中,表格作為最常見的可視化、高信息密度表示和構(gòu)造數(shù)據(jù)的方法之一[1-2],經(jīng)常作為PDF文獻中數(shù)據(jù)呈現(xiàn)的主要方式和載體,如材料科學文獻中材料成分數(shù)據(jù)、實驗結(jié)果的表達、財經(jīng)文獻中金融數(shù)據(jù)的表達等。為提高對這些數(shù)據(jù)的處理效率,實現(xiàn)對數(shù)據(jù)的系統(tǒng)管理、共享和重復(fù)有效綜合利用(如實現(xiàn)數(shù)據(jù)挖掘、構(gòu)建數(shù)據(jù)驅(qū)動服務(wù))及知識提取,經(jīng)常需要設(shè)法取得這些表格中數(shù)據(jù),即進行表格抽取。尤其是隨著大數(shù)據(jù)技術(shù)的成熟和在各行業(yè)的滲透,這些PDF中的表格數(shù)據(jù)作為相關(guān)領(lǐng)域大數(shù)據(jù)的主要來源,越來越受到對應(yīng)領(lǐng)域的大數(shù)據(jù)應(yīng)用的重視,對PDF電子文件(特別是科技文獻)進行表格抽取的需求也愈發(fā)強烈,推動了對PDF文件表格抽取技術(shù)的研究。
為此,本文通過綜合中國知網(wǎng)、萬方數(shù)據(jù)、Web of Science、ACM Digital Library和IEEE/IEE Electronic Library中有關(guān)PDF表格抽取技術(shù)的相關(guān)文獻,收集了近二十年來關(guān)于PDF表格抽取研究的成果,介紹了最新的表格抽取系統(tǒng)研究進展,總結(jié)了PDF文獻的表格抽取的主要方法,分析了不同方法間的優(yōu)勢和不足,指出了存在的問題和發(fā)展方向。
表格抽取雖是信息抽取(Information Extraction,IE)中必不可少的一環(huán),但相關(guān)技術(shù)的發(fā)展遠不及IE全面和成熟,特別是針對PDF文件的表格抽取技術(shù)仍存在較多的缺陷。由于表格可存在于不同數(shù)據(jù)源中,而在不同格式類型的數(shù)據(jù)源中表格對象的存儲特點完全不同,因此針對不同格式進行表格抽取的方法也基本不同。目前絕大部分表格抽取研究集中在圖像和Web數(shù)據(jù)源格式,而涉及PDF表格抽取的研究占比相對較少。國內(nèi)有少量文獻和專利研究了PDF表格抽取[3-17],但更多是關(guān)于PDF實體信息抽取。
表格既是一種可視化的知識表達模型,也能夠簡單明了地傳達復(fù)雜數(shù)據(jù)之間的邏輯關(guān)系,同時具有物理結(jié)構(gòu)和邏輯結(jié)構(gòu)。物理結(jié)構(gòu)描述了表格區(qū)域在文本中的具體位置,邏輯結(jié)構(gòu)定義了表格的類型和單元格之間的關(guān)系。因此,表格抽取的過程主要包括:
② 表格結(jié)構(gòu)還原,即重構(gòu)表格的行和列,確定單元格數(shù)據(jù)之間的邏輯關(guān)系。對這兩個過程用不同的處理方式便形成了表格抽取的不同思路。當前針對PDF的表格抽取研究出現(xiàn)了圖1所示的三種主要的思路。
(1) 轉(zhuǎn)化為標記語言格式來提取表格數(shù)據(jù)。PDF是無標記的文檔結(jié)構(gòu),對表格沒有明顯的標識符,僅僅是文字和線條的無序集合。但標準通用標記語言(Standard Generalized Markup Language,SGML)對表格有明確的標簽,因此,可借助工具將PDF轉(zhuǎn)換為HTML或XML等標記語言的Web格式,然后依賴標記構(gòu)建隱馬爾可夫等模型(Hidden Markov Model,HMM)識別表格[18-20]并抽取信息。Pdf2table[1]是以這種思路研發(fā)的、較早的、完整的表格抽取系統(tǒng),通過pdftohtml工具獲得PDF表格并以結(jié)構(gòu)化數(shù)據(jù)格式(XML)存儲表格數(shù)據(jù),但該系統(tǒng)嚴重受限于pdftohtml返回的結(jié)果。根據(jù)標記數(shù)據(jù)進行表格信息抽取的方法又大致可以分為基于啟發(fā)式規(guī)則、基于本體知識、基于語義或數(shù)據(jù)特征三大類。這種研究思路依賴于學者自己對表格特征的理解和定義,需要在恰當?shù)奈恢脼楸砀駜?nèi)容加
標簽,轉(zhuǎn)換的過程中很容易丟失必要的信息,從而導致單元格數(shù)據(jù)之間的邏輯關(guān)系錯誤。(2) 將PDF轉(zhuǎn)換為圖片格式,依賴圖像處理和字符識別技術(shù)進行抽取。由于圖像處理相關(guān)技術(shù)日益成熟,從圖像中分離表格信息的研究最多,主要根據(jù)表格框線特征和像素特征實現(xiàn)表格區(qū)域檢測定位[21],利用光學字符識別(Optical Character Recognition,OCR)技術(shù)提取表格數(shù)據(jù)[22-27],當前越來越多的研究引入機器學習模型對表格抽取過程中的關(guān)鍵技術(shù)(如表格定位和表格重構(gòu)算法)進行改進和完善。但該方法對文件轉(zhuǎn)換后的清晰度有較高要求,且必須有表格實線才能正確地分離單元格信息[3],對三線表和表格行列不規(guī)則合并的情況卻不能實現(xiàn)理想的表格結(jié)構(gòu)和數(shù)據(jù)邏輯關(guān)系還原,而這樣的表在科技文獻PDF中比較常見。
(3) 直接針對PDF文件的元數(shù)據(jù)設(shè)計表格抽取算法。PDF1.7在2008年1月正式成為ISO標準(ISO 32000),其格式本身包含了大量計算機可讀的元數(shù)據(jù)信息。比如PDF內(nèi)容流(Content Stream)中包含了一系列描述頁面外觀和其他圖形實體是如何呈現(xiàn)給用戶的指令。直接利用這些信息設(shè)計算法,可定位表格區(qū)域并實現(xiàn)表格抽取。一般需要借助PDF文件處理工具解碼PDF流對象,依賴于PDF元數(shù)據(jù)中的文本特征和圖形特征進行表格識別并提取。
前兩種研究思路需要對PDF格式進行轉(zhuǎn)換。其中HTML需要對表格增加特別的標記,過程相對繁瑣。而圖像處理的相關(guān)技術(shù)比較成熟,因此也是當前表格抽取的主要技術(shù),金山WPS等眾多軟件或百度供應(yīng)商都提供了對應(yīng)的支持工具,但也正因為其依賴于圖像技術(shù),一般需要通過手動[4]或人機交互方式[5]識別表格,自動化程度也受到影響。同時文件格式轉(zhuǎn)換的過程中難免丟失信息或引入噪聲,使抽取效果大打折扣。相比之下第三種思路更容易保證表格數(shù)據(jù)結(jié)構(gòu)信息的完整性,容易實現(xiàn)自動化。尤其是自2005年Adobe推出PDF1.6以來,出現(xiàn)了很多直接利用PDF文件信息即第三種思路的表格抽取研究,又主要集中在表格抽取的算法設(shè)計和性能評估兩個方面,以下重點總結(jié)第三種思路下這兩方面的研究進展。
2 基于PDF元數(shù)據(jù)的表格抽取研究進展
2.1 表格抽取的算法設(shè)計
有效檢測文檔中的表格區(qū)域,實現(xiàn)表格準確定位是進行表格數(shù)據(jù)提取的關(guān)鍵一步。根據(jù)表格定位算法設(shè)計的出發(fā)點不同,可將現(xiàn)有的基于PDF元數(shù)據(jù)的表格抽取研究分為基于表格布局特征和基于啟發(fā)式與機器學習結(jié)合的方法兩大類。
2.1.1基于表格布局特征的抽取方法
表格具有強烈的視覺效果和完全不同于正文的內(nèi)容布局,人們一眼就能從數(shù)千萬個頁面中迅速判斷并定位表格,但是計算機不具備這樣的識別能力。目前PDF中的表格按照框線類型可分為三大類:同時具有橫線和豎線的全框線表格,只包含橫線的表格(比如常見的三線表)和橫豎線任意缺失的表格。同一領(lǐng)域內(nèi)的表格在結(jié)構(gòu)和布局上具有一定程度的相似性,如行或列中的數(shù)據(jù)類型和精度保持一致、行和列的完全填充、單元格之間大量的留白等,學者們試圖根據(jù)這樣的內(nèi)容布局特征實現(xiàn)表格抽取。通過將文本按一定規(guī)則切分為文本塊,聚類成候選表格區(qū)域,然后結(jié)合預(yù)定義的表格布局規(guī)則實現(xiàn)對候選區(qū)域篩選。如2018年6月更新的Tabula表格抽取系統(tǒng)[28]是這種方式的代表,但其自動定位表格區(qū)域的準確性不高,更依賴于手動框選表格區(qū)域。
根據(jù)每個人抽象出的不同緯度的內(nèi)容布局特征,定義不同的文本分割、聚類和篩選規(guī)則,可大致分為圖2所示的三類表格抽取方法。
圖2 基于表格布局特征的表格抽取原理示意圖
(1) 基于表格的整體布局。從整體上看,表格就是由若干數(shù)據(jù)格子分門別類進行排序組合,以便于統(tǒng)計和查閱。相比正文段落的字符密度,表格行的數(shù)據(jù)密度相對較小,呈現(xiàn)松散且有序。根據(jù)松散性和行間距,可將頁面上文本的字符按照一定規(guī)則分割為不同的文本區(qū)域,預(yù)設(shè)表格布局定義[6-7]對其進行篩選,獲得可能的表格區(qū)域。如文獻[27]定義了三種常見的表格布局,提出了一種基于矩形包容原則的搜索方法。根據(jù)表格布局規(guī)則(比如表格的行在高度上應(yīng)該是一致的)來過濾已找到的候選表。但是該算法受限于預(yù)先定義的表格布局,而且輸出結(jié)果存在大量的假性表格。
(2) 基于表格框線。表格的框線形式存在多樣性,但實際應(yīng)用(尤其是科技文獻)中一般不存在沒有任何一條橫豎線的無框線表,應(yīng)用最多的是三線表。線條可能作為單元格數(shù)據(jù)間的分割線,也可能是劃分表格區(qū)域和其他內(nèi)容的邊界,因此可利用表格框線界定表格區(qū)域[9]。PDF標準規(guī)范中的線條被單獨封裝在圖形對象中,可通過篩選直線或矩形繪制命令[7-8]找到相應(yīng)的線條特征。該方法相比于只利用布局特征的方法有更大的優(yōu)勢,但是對圖形對象繪制路徑信息提取的完整度有較高要求,否則會出現(xiàn)表格誤判。
文獻[8]結(jié)合了視覺分隔符(包括橫豎線和表格中無規(guī)則的空白)和內(nèi)容布局結(jié)構(gòu)分析實現(xiàn)表格定位??傮w來看,基于表格框線特征的抽取方法[8-11]都依賴于線條繪制命令,要求準確地獲取PDF圖像繪制命令中的表格框線部分,對于無關(guān)線條(如頁眉、頁腳)的篩選和過濾直接影響表格定位的結(jié)果。尤其是文獻[12]特別依賴橫豎線的交點來劃分單元格,無法處理只有橫線的表格。為彌補單一的表格框線篩選存在的不足,文獻[13]增加了表格標題行的語義檢索,采用區(qū)域并行生長的思想同時對文本行和表格線進行篩選,一定程度上減少了表格區(qū)域的漏判和誤判。
(3) 基于PDF文本流。PDF文件以頁為單位,頁與頁之間彼此獨立,每頁中與文字相關(guān)的信息(如文本位置、字體字號等)以流對象的形式存儲,即文本流(Text Stream),是PDF內(nèi)容流的重要組成部分之一。由于PDF是面向顯示的,頁面上的每一個對象都有確定的位置坐標,保證其在不同平臺上顯示的唯一性。文本確定的外觀特征和先后順序在PDF文本流中都有對應(yīng)的操作符和操作數(shù),解碼文本流即可得到每一個字符詳細的文本狀態(tài)參數(shù)信息,包括字體、字號、字符間距、位置坐標等。因此基于PDF文本流可將表格內(nèi)的文字流節(jié)點從水平和垂直兩個方向分別進行柵格化[14-15],把無結(jié)構(gòu)化的文字信息歸位形成文本塊,從而篩選得到表格內(nèi)容[16-17]。文獻[29]研究了針對無標記PDF的表格結(jié)構(gòu)識別的系統(tǒng)配置,開發(fā)了一個PDF表格抽取實驗Web應(yīng)用程序。
基于PDF文本流的表格抽取方法不依賴表格框線的識別,但是需要用戶在屏幕上手動框選待重現(xiàn)的表格區(qū)域[14],是在已確定表格物理位置的情況下完成表格重構(gòu)的工作,而且對于單元格合并的情況其理解程度也不高。
2.1.2基于啟發(fā)式與機器學習結(jié)合的抽取方法
不同于基于內(nèi)容布局特征的方法完全預(yù)定義了表格可能的呈現(xiàn)形式,啟發(fā)式是根據(jù)表格的某些特征提供一些可能的假設(shè),引入機器學習模型訓練數(shù)據(jù)集來幫助系統(tǒng)做決策,其靈活性和適應(yīng)性大大增加。相比之下,基于啟發(fā)式與機器學習結(jié)合的抽取方法[30]對于常規(guī)的清晰表格可以獲得更好的結(jié)果,因此被更多學者應(yīng)用到表格抽取的研究當中。如最新的基于Tabula庫設(shè)計的Table-Pedia[31]系統(tǒng),結(jié)合了啟發(fā)式和機器學習方法,實現(xiàn)從PDF收集、表格抽取到實驗數(shù)據(jù)庫構(gòu)建和操作的全過程。
文獻[32]基于表格的“稀疏線”特征,引入條件隨機場和支持向量機來優(yōu)化表格定位的算法;而文獻[33]首先設(shè)計啟發(fā)式規(guī)則來標記數(shù)據(jù)集,利用遠程監(jiān)控技術(shù)自動生成帶注釋的數(shù)據(jù)。通過標記的訓練集來訓練監(jiān)督樸素貝葉斯、邏輯回歸和支持向量機模型對表格區(qū)域的邊界預(yù)測;文獻[34]則結(jié)合松散規(guī)則選擇一些類似于表格的區(qū)域,通過構(gòu)建和改進的卷積神經(jīng)網(wǎng)絡(luò)來確定所選區(qū)域是否為表格。文獻[35]提出的基于啟發(fā)式和無監(jiān)督學習的表格識別方法不需要手動標記任何的訓練集,可以靈活地適應(yīng)新的輸入統(tǒng)計數(shù)據(jù),而不需要重新培訓模型。但其只能定位到存在表標題的表格區(qū)域,并且在表格結(jié)構(gòu)抽取階段,行和列以相同的對稱方式進行分割的方法對提取多樣性的表格布局來說不夠靈活。
總體來看,支持向量機能夠?qū)Ψ蔷€性可分或不可分數(shù)據(jù)集進行分類,而且所需的訓練樣本數(shù)量較小,正好滿足了PDF表格抽取無法提供大規(guī)模訓練樣本的現(xiàn)狀,因此被最多地采用。
綜上所述,基于表格布局特征的抽取方法受限于規(guī)則的預(yù)定義,其靈活性不高。一般基于項目本身的需求來設(shè)計算法,不會將表格布局所有可能的情形都考慮周全,導致算法在一定情形下的實現(xiàn)效果可能較好,但適應(yīng)性不強?;趩l(fā)式與機器學習結(jié)合的抽取方法通常需要較復(fù)雜的后處理環(huán)節(jié),啟發(fā)式特征的選擇和訓練數(shù)據(jù)集的質(zhì)量決定了最后輸出結(jié)果的好壞。
2.2 表格抽取性能評估的研究現(xiàn)狀
表格抽取作為IE的子任務(wù)之一,表格抽取算法或系統(tǒng)的性能評估是一個不可忽略的問題。絕大部分的文獻在算法研究之后以常規(guī)的召回率、精確度或F-Measures為評價指標驗證其性能。由于表格結(jié)構(gòu)的特殊性,這些常用的指標并不能準確反映表格抽取算法的性能。專門研究表格抽取算法性能評估的文獻較少,以下總結(jié)相關(guān)的研究成果并分析存在的問題。
國際文檔分析和識別大會(International Confe-rence on Document Analysis and Recognition,IDCAR)組織的同名競賽是關(guān)于文本識別和分析問題的最重要的國際賽事。IDCAR于2013年設(shè)立了一項在原生數(shù)字PDF文檔中進行表檢測和結(jié)構(gòu)識別的競賽[36],該賽事提供了統(tǒng)一的數(shù)據(jù)集,第一次嘗試客觀地評估表格抽取技術(shù)的性能。但IDCAR提供的PDF文件數(shù)量較少,而且每一個文檔對應(yīng)一個XML文件以確定表格的位置,無法衡量其評估的系統(tǒng)對無注釋無標記的文檔是否也具有相同的性能。
現(xiàn)有的表格抽取技術(shù)性能評估框架主要集中在表格定位和表格結(jié)構(gòu)識別的過程[3],試圖分階段建立表格處理的輸出模型[37]和評價指標,而忽略了單元格數(shù)據(jù)的類屬關(guān)系是否被正確解釋。針對表格抽取的結(jié)果,文獻[38]提出了一種新的度量方法,稱為表格一致性,自動生成計算關(guān)于單元格的數(shù)量、內(nèi)容、拓撲結(jié)構(gòu)和索引結(jié)構(gòu)的查詢,用于識別器輸出和基本事實的邏輯表格結(jié)構(gòu)編碼,通過搜索其他表格編碼來驗證或反駁查詢,定義已驗證查詢的百分比。
Silva[39]基于召回率和精確度引入了一致性和純度的概念,作為定義所有分割任務(wù)的評價指標。Shahab等[40]提出了分別在多個級別使用精確度和召回率測量的方法,包括單元格、行、列和區(qū)域。Hu等[41]提出基于編輯距離的方法,以“插入”“刪除”“替換”分別描述表格區(qū)域的誤識別、未識別、合并拆分錯誤,用被操作的行數(shù)表示代價函數(shù)。但該方法的局限性在于最后的輸出只有唯一的代價值,不便體現(xiàn)各種錯誤類型發(fā)生的情況。Li等[42]和Wang等[43]提出了相似的評估方法,通過比較檢測到的表格區(qū)域面積與文檔基準中的表格區(qū)域面積,計算其重疊率或面積比率作為評價指標。但是不同的表格抽取算法對表格區(qū)域的定義存在差異,比如是否包含表格標題等,造成抽取的表格面積具有多樣性,會直接影響計算結(jié)果。房婧等[6]構(gòu)建了一個公開的等比例中英文數(shù)據(jù)集,并對數(shù)據(jù)集標注基準結(jié)果,建立了一套面向應(yīng)用的細粒度評估準則。定量描述了6種表格定位錯誤類型,計算新意義下的準確度和召回率。但是該評估方法沒有考慮具體的表格物理和邏輯結(jié)構(gòu)。
總的來看,表格抽取還沒有標準的評價程序和方法,相關(guān)研究不夠系統(tǒng)和深入,也可以說是還沒有得到重視。更多的研究是停留在解決表格抽取的問題上,至于抽取性能的好壞帶有研究者較多的主觀意識。
3 現(xiàn)有表格抽取技術(shù)的發(fā)展需求分析
3.1 表格抽取的發(fā)展需求
(1) 急需全自動化的表格抽取方法和系統(tǒng)。實現(xiàn)全自動化PDF文獻表格提取是主要需求趨勢之一?!氨砀瘛睕]有客觀的、確定的、唯一的定義,只是一種組織整理數(shù)據(jù)的手段,一種可視化的數(shù)據(jù)表達模型,無法用數(shù)字或公式來量化,這無疑增加了計算機“讀懂表格”的難度。而隨著大數(shù)據(jù)的構(gòu)建需求,需要高效地從大量的PDF文獻中提取表格,不可能對每一個PDF文獻的表格進行手工定位、交互式選取和再提取,因此需要訴諸自動化提取方法和系統(tǒng)。如Rastan等[44-46]推出了完全自動化的表格處理系統(tǒng)TEXUS,該系統(tǒng)融合了一個端到端的表格處理框架,擴展了傳統(tǒng)表格處理概念的范圍,增加了PDF包裝器模塊和表格理解模塊,以幫助語義上正確的數(shù)據(jù)抽取。
(2) 不同的表格抽取研究思路仍將并存發(fā)展。從目前的研究進展來看,圖1提及的三種表格抽取研究思路各有優(yōu)劣,皆不能完美地解決所有的PDF表格抽取問題。尤其是在表格重構(gòu)的過程中,還沒有一個高效、成熟的算法或系統(tǒng)能夠?qū)崿F(xiàn)對所有單元格類型和結(jié)構(gòu)的正確還原。因此,從不同的研究角度出發(fā)(如標記數(shù)據(jù)、轉(zhuǎn)為圖片或直接解碼PDF文件),應(yīng)用不同的工具和技術(shù)手段來解決表格抽取問題,多個研究思路仍將并存發(fā)展。受需求(1)的驅(qū)動,基于PDF文件元數(shù)據(jù)的抽取方式可能更適合自動化,具有更大的發(fā)展前景。而第二種思路由于可與提取PDF文獻的主要文字內(nèi)容結(jié)合,也將被廣泛應(yīng)用。而無論哪種思路,如何提高提取的準確性(數(shù)據(jù)正確、邏輯正確)仍然是主要需要解決的問題。
(3) 結(jié)合機器學習等人工智能算法是未來的發(fā)展趨勢。表格布局的多樣性:① 每一張表格的數(shù)據(jù)格式和結(jié)構(gòu)布局,并沒有統(tǒng)一確定的標準;② 不同的數(shù)據(jù)類型,不同作者的表達習慣和不同受眾的需要,單元格存在不同級別的若干行或列合并,表格橫豎線可能任意缺失;③ 表頭的具體位置也不確定,可能是第一行或第一列,可能是復(fù)合表頭,也可能和表格內(nèi)容交替出現(xiàn)。對表格重構(gòu)和單元格間邏輯關(guān)系的理解增加了難度。用一般性來概述表格布局的任意性,其結(jié)果肯定差強人意,適應(yīng)性不強。為此,隨著與機器學習有關(guān)的科學研究空前活躍,相關(guān)算法日益成熟,結(jié)合機器學習等人工智能算法來提高表格抽取靈活性已成為趨勢和手段。比如:第一種研究思路通過無監(jiān)督學習或半監(jiān)督學習對PDF元數(shù)據(jù)進行標記和注釋[32,47],實現(xiàn)從標記數(shù)據(jù)中抽取表格;第二種研究思路利用深度神經(jīng)網(wǎng)絡(luò)等算法模型直接作用于圖像,檢測表格;第三種研究思路以支持向量機為主要方法應(yīng)用于表格抽取過程中。接下來,通過合理改進和優(yōu)化人工智能算法,結(jié)合表格獨有的顯示特征,以構(gòu)建更完善的表格抽取技術(shù)仍是未來的發(fā)展趨勢之一。
(4) 實現(xiàn)學科領(lǐng)域性的表格抽取是重要的技術(shù)需求。對同一張表格,不同人的理解并不相同,不同學科應(yīng)用背景下表格標題、框線和內(nèi)容三部分不一定都完整存在。不同的算法中會限定不同需求的表格形式,如文獻[2]定義的表格區(qū)域包括表格標題,文獻[29]不關(guān)心表格框線,而文獻[32]既不關(guān)心表格框線也不考慮表格標題,只對滿足“稀疏線”特征的低密度文字行進行標記。故最后的表格抽取結(jié)果受限于學科背景和學者自身對表格的主觀理解和定義。
更為突出的是,隨著數(shù)據(jù)的積累和大數(shù)據(jù)技術(shù)的發(fā)展,行業(yè)(或者特定領(lǐng)域)大數(shù)據(jù)的復(fù)用和應(yīng)用將居首位,但各行業(yè)間的知識、數(shù)據(jù)特征等各不相同。而現(xiàn)有的表格抽取方法考慮的都是常規(guī)的表格特征和布局,顯然通用的表格抽取技術(shù)在特定的學科領(lǐng)域?qū)崿F(xiàn)表格抽取的效果并不好。因此,面向特定的學科領(lǐng)域和特定需求構(gòu)建有針對性的PDF表格抽取算法將是未來的研究方向。以制造行業(yè)為例,基于數(shù)據(jù)驅(qū)動材料研發(fā),發(fā)展材料信息學(Materials Informatics)[48],助力先進制造已成為重要的議題。材料信息學強調(diào)對材料科學中的知識和數(shù)據(jù),特別是對已有的計算數(shù)據(jù)和實驗數(shù)據(jù)進行系統(tǒng)管理,需要高效地從已有PDF材料研發(fā)文獻中獲取實驗數(shù)據(jù)。在生物學、物理學、軍事、金融、通信互聯(lián)網(wǎng)等各行業(yè)同樣重視數(shù)據(jù)信息的管理,故表格數(shù)據(jù)的抽取是不可忽視的技術(shù)需求之一。
未來的研究可具體到某一個特定的學術(shù)領(lǐng)域或者基于學術(shù)領(lǐng)域知識的表格提取方法,結(jié)合其特定的理論知識和公理,設(shè)計領(lǐng)域內(nèi)的知識情景模型(如制造領(lǐng)域的工藝參數(shù)范圍可用于判斷提取數(shù)據(jù)的重構(gòu))、本體(可應(yīng)用于偵測表格的內(nèi)容)和表格抽取算法,增加語義,不但能提高效率,也能有效避免表格多樣性帶來的表格預(yù)定義不完全的問題、表格提取數(shù)據(jù)的邏輯正確性問題等。這相比通用的表格抽取技術(shù)也許會有更顯著的優(yōu)勢。
3.2 性能評估的發(fā)展需求
表格抽取的標準評價方法還沒有得到很好的發(fā)展[45],多年來應(yīng)用最為廣泛的是信息抽取中的召回率、精確度和F-measure來衡量系統(tǒng)的性能。但是單從以上指標來比較兩個算法的優(yōu)劣并不恰當,因為表格抽取不僅要求準確獲得表格數(shù)據(jù),還涉及到單元格數(shù)據(jù)的對應(yīng)關(guān)系是否準確,跨頁表格的提取是否完全等更多結(jié)構(gòu)上的細節(jié)內(nèi)容。特別是在單元格識別中,單元格的結(jié)構(gòu)和組織方式直接決定了表格的邏輯關(guān)系和數(shù)據(jù)之間的聯(lián)系,會出現(xiàn)各種需要單獨考慮的錯誤。比如:單元格可能向任意一個方向拆分,也可能向另一個方向合并,錯誤的識別和重構(gòu)會導致歧義[49]。 因此,構(gòu)建一套完整的、客觀的、適用于表格抽取的評價指標體系是未來性能評估發(fā)展的迫切需求和研究熱點之一。
此外,不管是算法測試還是性能評估,各研究都是基于各不相同的PDF數(shù)據(jù)集,有的是掃描PDF圖像文件,有的是PDF早期的版本標準。沒有統(tǒng)一的數(shù)據(jù)集使得不同研究的實驗結(jié)論無法直接用于比較不同算法之間的差別和優(yōu)劣。目前公開公用的數(shù)據(jù)集UW-3中包含一部分表格區(qū)域的基準[6],但是該數(shù)據(jù)集是針對圖像頁面而設(shè)計,適用于頁面布局分割領(lǐng)域,不適用于版式文檔的表格定位。北航和微軟亞洲研究院聯(lián)合創(chuàng)建了一個多達41.7萬數(shù)據(jù)量的開源表格檢測和表格結(jié)構(gòu)識別數(shù)據(jù)集TableBank[50],但是該數(shù)據(jù)集是對Word文檔和LaTex文檔進行弱監(jiān)督而建立的,主要針對從圖像中檢測和識別表。因此,構(gòu)建一個公開的標準數(shù)據(jù)集成為未來性能評估工作的基礎(chǔ)。
4 結(jié) 語
大數(shù)據(jù)時代是信息科學技術(shù)發(fā)展的必然。數(shù)據(jù)不僅僅是存儲在計算機中的一個符號,它已經(jīng)完全滲透到了當今社會的每一個行業(yè)和個人,與人們的生產(chǎn)生活息息相關(guān)。表格作為傳達數(shù)據(jù)的重要形式之一,存在于海量的PDF文件中,是大數(shù)據(jù)的重要數(shù)據(jù)來源。研究獲取PDF中的表格數(shù)據(jù)能有效地幫助學科構(gòu)建數(shù)據(jù)庫和實現(xiàn)數(shù)據(jù)系統(tǒng)管理,特別是對于科學研究方面更是如此。
現(xiàn)有的表格抽取技術(shù)主要形成了轉(zhuǎn)化為標記語言格式,轉(zhuǎn)化為圖片和基于PDF元數(shù)據(jù)三種研究思路,但各有優(yōu)勢,未來仍將并存發(fā)展,而基于PDF元數(shù)據(jù)更易實現(xiàn)自動化。基于PDF元數(shù)據(jù)的方法主要是根據(jù)表格內(nèi)容布局設(shè)計篩選規(guī)則,或選擇表格特征設(shè)計啟發(fā)式算法,利用機器學習訓練數(shù)據(jù)集?,F(xiàn)有方法在提取準確性,尤其是科技文獻的表格數(shù)據(jù)邏輯性方面都還達不到要求,無法適應(yīng)多學科領(lǐng)域的專業(yè)的表格提取,而對于表格抽取算法的性能評估尚處于探索階段。
隨著復(fù)用PDF文件中的數(shù)據(jù)和基于PDF文獻來構(gòu)建大數(shù)據(jù)等需求的推動,未來更需要全自動化的高效提取方法和系統(tǒng)。同時,需要結(jié)合各學科領(lǐng)域的公理、知識,構(gòu)建情景模型、學科背景的表格特定規(guī)則等方式來提高表格提取算法對學科語義的理解能力,滿足對學科領(lǐng)域的表格的提取需求,并將其模塊化,便可以靈活地更改應(yīng)用到其他的領(lǐng)域。輔之機器學習等人工智能方法加強不同領(lǐng)域情景知識的學習,以提高其智能適應(yīng)性。在此基礎(chǔ)上,結(jié)合學科知識搭建語言兼容、性能穩(wěn)定、精確度高的人工智能PDF表格抽取系統(tǒng)。這對實現(xiàn)國內(nèi)外大量科技文獻中表格數(shù)據(jù)的重用和共享具有重要的現(xiàn)實意義和價值。