国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

表格檢測(cè)與結(jié)構(gòu)識(shí)別綜述

2022-11-20 13:56:22張宇童李啟元劉樹衎
關(guān)鍵詞:單元格表格卷積

張宇童,李啟元,劉樹衎,2

1.中國(guó)人民解放軍海軍工程大學(xué) 電子工程學(xué)院,武漢 430033

2.東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 211102

表格作為數(shù)字文檔頁(yè)面的主要組成部分,具有半結(jié)構(gòu)化的特性和復(fù)雜多樣的版式。然而,在數(shù)字文檔圖像中,表格所蘊(yùn)含的信息難以被直接使用。為了實(shí)現(xiàn)表格的智能處理,獲取和利用表格內(nèi)的數(shù)據(jù)信息,需要進(jìn)行表格檢測(cè)與結(jié)構(gòu)識(shí)別。

表格檢測(cè)與結(jié)構(gòu)識(shí)別是表格分析領(lǐng)域的關(guān)鍵問題。表格檢測(cè)是指在各式各樣的版面中準(zhǔn)確找到表格所處的區(qū)域;結(jié)構(gòu)識(shí)別是指在已確定的表格區(qū)域上,定位表格的行、列及單元格的空間坐標(biāo)和邏輯坐標(biāo)。

由于早期表格使用頻率不高,結(jié)構(gòu)較為單一,簡(jiǎn)單的規(guī)則可以滿足表格區(qū)域的檢測(cè)和結(jié)構(gòu)信息的提取。文獻(xiàn)[1-3]依托手工制定的規(guī)則來分析表格。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,電子文檔的使用已非常廣泛[4],表格的使用頻率不斷提高,樣式也越來越豐富。僅僅依靠規(guī)則的方法已經(jīng)無法滿足現(xiàn)有表格的處理需求,于是基于機(jī)器學(xué)習(xí)[5]的方法被提出。文獻(xiàn)[6]提出使用支持向量機(jī)(support vector machine,SVM)[7-8]結(jié)合規(guī)則來判別表格區(qū)域,實(shí)現(xiàn)表格區(qū)域的檢測(cè)。文獻(xiàn)[9]使用多個(gè)分類器進(jìn)行融合以達(dá)到對(duì)表格區(qū)域的檢測(cè)。

圖形處理器(graphics processing unit,GPU)[10]的改進(jìn)帶來了計(jì)算能力的提升,依靠大規(guī)模數(shù)據(jù)集的深度學(xué)習(xí)技術(shù)也迎來了發(fā)展,這也使得表格研究領(lǐng)域的關(guān)注度越來越高。

通過大量的文獻(xiàn)調(diào)研,對(duì)表格分析領(lǐng)域的發(fā)展?fàn)顩r進(jìn)行總結(jié),具體研究工作可分為以下幾個(gè)方面:

(1)介紹了表格檢測(cè)任務(wù)的發(fā)展現(xiàn)狀,并對(duì)所述方法進(jìn)行分類介紹,總結(jié)其優(yōu)點(diǎn)和局限性,注明相應(yīng)方法所使用的實(shí)驗(yàn)數(shù)據(jù)集。

(2)介紹了表格結(jié)構(gòu)識(shí)別任務(wù)的發(fā)展現(xiàn)狀,并對(duì)所述方法進(jìn)行分類介紹,總結(jié)其優(yōu)點(diǎn)和局限性,注明相應(yīng)方法所使用的實(shí)驗(yàn)數(shù)據(jù)集。

(3)對(duì)目前表格分析領(lǐng)域的部分公開數(shù)據(jù)集進(jìn)行整理和解釋,總結(jié)各類數(shù)據(jù)集的來源、規(guī)模和數(shù)據(jù)類型,便于后續(xù)研究人員的了解和使用。

(4)介紹了幾種表格分析領(lǐng)域的評(píng)價(jià)指標(biāo),并針對(duì)特定的下游任務(wù)給予相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn),同時(shí)展示了文中提及的各種表格檢測(cè)及結(jié)構(gòu)識(shí)別方法的實(shí)驗(yàn)結(jié)果。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行整理和分類,展示了各類模型的效果。

(5)展望了表格分析領(lǐng)域的未來研究方向,針對(duì)表格結(jié)構(gòu)識(shí)別任務(wù)和表單元格間關(guān)系探究提出了幾點(diǎn)建議。

1 表格檢測(cè)

對(duì)表格進(jìn)行信息抽取的第一步是識(shí)別文檔圖像中的表格邊界,各種深度學(xué)習(xí)方法已被應(yīng)用于表格檢測(cè)任務(wù),本章對(duì)文檔圖像中的表格檢測(cè)方法進(jìn)行了整理。通過相關(guān)文獻(xiàn)調(diào)研,Hao等人[11]提出了采用深度學(xué)習(xí)方法解決表格檢測(cè)任務(wù),除了使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征外,還借助PDF元數(shù)據(jù),應(yīng)用了一些啟發(fā)式方法。該方法使用了PDF文檔的部分結(jié)構(gòu)信息,并非僅僅依賴文檔圖像,因此未對(duì)此方法進(jìn)行效果分析。

1.1 基于目標(biāo)檢測(cè)的方法

1.1.1 Faster R-CNN

Gilani等人[12]采用深度學(xué)習(xí)方法在圖像上檢測(cè)表格。將圖像變換作為預(yù)處理步驟,然后進(jìn)行表格檢測(cè)。在圖像變換部分,將二值圖像作為輸入,在其上分別對(duì)圖像的三通道應(yīng)用歐氏距離變換(Euclidean distance transform)[13-14]、線性距離變換(linear distance transform)和最大距離變換(max distance transform)。后來,Gilani等人使用了一種基于區(qū)域的物體檢測(cè)模型,稱為Faster R-CNN[15-16]。其區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)[17]提供了候選邊框提取的功能,該網(wǎng)絡(luò)的主干基于ZFNet[18]。他們的檢測(cè)模型在UNLV[19]數(shù)據(jù)集上取得最優(yōu)結(jié)果。Schreiber等人[20]利用深度學(xué)習(xí)技術(shù)對(duì)文檔圖像進(jìn)行處理,提出了基于Faster R-CNN結(jié)構(gòu)的端到端系統(tǒng)DeepDeSRT。該系統(tǒng)不僅可以檢測(cè)表格區(qū)域,還可以識(shí)別表格的結(jié)構(gòu)。將模型在Pascal VOC[21]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并分別使用ZFNet和VGG-16[22]兩種不同的骨干網(wǎng)絡(luò),對(duì)模型效果進(jìn)行測(cè)試。文獻(xiàn)[23]設(shè)計(jì)了一系列圖像處理步驟,包括染色與距離變換,通過染色使得文本區(qū)域與非文本區(qū)域劃分更加明顯,通過距離變換使得背景特征與目標(biāo)前景特征區(qū)分開。結(jié)合Faster R-CNN框架,同時(shí)考慮圖像的前景和背景兩類特征,以提升表格區(qū)域檢測(cè)的效果。

隨著GPU內(nèi)存的增加,大規(guī)模數(shù)據(jù)集的應(yīng)用成為可能。Li等人[24]在此基礎(chǔ)上提出了大規(guī)模表格數(shù)據(jù)集TableBank,其中包含41.7萬標(biāo)記的表格及其各自的文檔圖像,并通過使用傳統(tǒng)的Faster R-CNN模型來完成表格檢測(cè)任務(wù),以證明該數(shù)據(jù)集的有效性。同時(shí),他們還將該數(shù)據(jù)集中原始的XML信息轉(zhuǎn)化為HTML序列文件,以提供該數(shù)據(jù)集的結(jié)構(gòu)識(shí)別功能。

Sun等人[25]提出結(jié)合Faster R-CNN,進(jìn)一步提升角點(diǎn)定位法的檢測(cè)效果。他們將角點(diǎn)定義為圍繞表格頂點(diǎn)繪制的大小為80×80的正方形。通過使用Faster RCNN模型檢測(cè)角點(diǎn),結(jié)合大量啟發(fā)式規(guī)則進(jìn)一步篩選角點(diǎn),過濾不準(zhǔn)確的角點(diǎn)后保留剩余角點(diǎn)。作者認(rèn)為,大多數(shù)情況下,表格邊界不準(zhǔn)確主要是由于表格左右邊界檢測(cè)不準(zhǔn)確。因此他們僅限于對(duì)檢測(cè)到表的左右邊界進(jìn)行篩選,通過獲取表格邊界和相應(yīng)角點(diǎn)之間的平均值來移動(dòng)表格的水平點(diǎn)。相較于傳統(tǒng)的Faster R-CNN框架,將改進(jìn)的角點(diǎn)定位法與之結(jié)合,進(jìn)一步提升了邊界框檢測(cè)的性能,并在ICDAR 2017 POD[26]數(shù)據(jù)集上進(jìn)行評(píng)估,最終結(jié)果表明該方法顯著提升了表格檢測(cè)任務(wù)的精度。

1.1.2 Mask R-CNN

隨著各種檢測(cè)框架的提出和改進(jìn),表格檢測(cè)任務(wù)的效果顯著提升。He等人[27]提出了Mask R-CNN模型,擴(kuò)展自原有的Faster R-CNN,是一個(gè)概念上簡(jiǎn)單、靈活和通用的對(duì)象實(shí)例分割框架。該方法能夠高效地檢測(cè)圖像中的對(duì)象,同時(shí)為每個(gè)對(duì)象生成高質(zhì)量的分割掩碼。這種方法通過添加一個(gè)用于預(yù)測(cè)目標(biāo)掩碼的分支來擴(kuò)展檢測(cè)框架,并使之更快,可與現(xiàn)有的邊界檢測(cè)分支并行。

Prasad等人[28]發(fā)表了CascadeTabNet,這是一種端到端的表格檢測(cè)和結(jié)構(gòu)識(shí)別方法。作者利用Cascade Mask R-CNN[29]與HRNet[30]的混合作為基礎(chǔ)網(wǎng)絡(luò),結(jié)合文獻(xiàn)[12]中使用的RPN結(jié)構(gòu),進(jìn)行候選框的提取。同時(shí)提出了兩步數(shù)據(jù)增強(qiáng)策略,首先對(duì)原始圖像進(jìn)行文本區(qū)域的膨脹變換,其次對(duì)膨脹區(qū)域進(jìn)行“涂黑”變換,即將圖像的文本區(qū)域進(jìn)行灰度的強(qiáng)化,使其與空白區(qū)域的區(qū)別更加明顯。他們提出的端到端模型CascadeTabNet能夠在ICDAR2013[31]、ICDAR2019[32]和TableBank[24]數(shù)據(jù)集上取得最佳結(jié)果。Zheng等人[33]發(fā)表了一個(gè)文檔圖像中表格檢測(cè)和結(jié)構(gòu)識(shí)別的框架GTE(global table extractor)。GTE是一種基于視覺的通用方法,可以使用多種目標(biāo)檢測(cè)算法,通過將原始文檔圖像提供給多個(gè)目標(biāo)檢測(cè)器,并行檢測(cè)表格和單元格,借助額外的懲罰損失和已檢測(cè)到的單元格邊界來進(jìn)一步細(xì)化目標(biāo)檢測(cè)器的檢測(cè)結(jié)果。

1.1.3 YOLO

YOLO(you only look once)[34-36]作為一種典型的單階段目標(biāo)檢測(cè)框架,將提取候選區(qū)域與檢測(cè)合二為一,高效地檢測(cè)圖像中的各種目標(biāo)。Huang等人[37]首先將YOLOv3模型應(yīng)用于表格檢測(cè)任務(wù)中。在訓(xùn)練過程中使用了錨框優(yōu)化策略,將原始標(biāo)注邊框進(jìn)行聚類,以獲取最適合該任務(wù)的錨框尺寸。同時(shí)提出了兩種后處理步驟:一是對(duì)檢測(cè)區(qū)域中的空白區(qū)域進(jìn)行刪除,以提升區(qū)域檢測(cè)的精度;二是制定部分規(guī)則對(duì)圖像頁(yè)面中的頁(yè)眉、頁(yè)腳、分割線等影響因素進(jìn)行消除,以減少假陽(yáng)樣本,避免對(duì)檢測(cè)效果產(chǎn)生不利影響。

1.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法

圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[38-40]作為新型結(jié)構(gòu),在表格分析領(lǐng)域已受到越來越多的關(guān)注。Riba等人[41]在發(fā)票文檔上使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行表格檢測(cè)。作者認(rèn)為,由于發(fā)票圖像上可用信息有限,圖神經(jīng)網(wǎng)絡(luò)依靠其特有的特征提取方式,可以更好地對(duì)圖像中的特征進(jìn)行聚合,更適合解決有限信息下的表格區(qū)域檢測(cè)任務(wù)。同時(shí),發(fā)布了公開數(shù)據(jù)集RVL-CDIP的標(biāo)注子集。

文獻(xiàn)[42]拓展了圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用,將表行檢測(cè)與信息提取相結(jié)合,解決了表檢測(cè)問題。通過行檢測(cè)方法,表中任何單詞都可以清晰地劃分到其所屬行。在對(duì)所有單詞進(jìn)行分類后,表格區(qū)域可以被有效地檢測(cè)到,相較于發(fā)票中的文本區(qū)域,表格行劃分更加清晰。作者聲稱他們的方法具有良好的魯棒性,不僅可以在發(fā)票文檔上實(shí)現(xiàn)表格檢測(cè),同時(shí)也可應(yīng)用于PDF等其他類型的文檔中。

1.3 基于生成對(duì)抗網(wǎng)絡(luò)的方法

生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[43]是一種包含兩個(gè)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將內(nèi)部?jī)蓚€(gè)網(wǎng)絡(luò)相互對(duì)立,因而稱為“對(duì)抗”。由生成器網(wǎng)絡(luò)生成新的實(shí)例,通過判別器網(wǎng)絡(luò)去評(píng)估實(shí)例的真實(shí)性,目前該網(wǎng)絡(luò)已被應(yīng)用于表格分析領(lǐng)域。文獻(xiàn)[44]提出一種基于GAN的特征生成器,確保生成網(wǎng)絡(luò)無法察覺出全框線表和部分框線表間的差異,并嘗試在這兩種情況下以相同策略提取特征。將基于GAN的特征生成器與Mask R-CNN或U-net[45]等語(yǔ)義分割模塊相結(jié)合,進(jìn)行文檔圖像中表格區(qū)域的檢測(cè),并在ICDAR 2017 POD[26]數(shù)據(jù)集上進(jìn)行了評(píng)估。文獻(xiàn)[46]采用基于條件GAN和CNN的架構(gòu)來檢測(cè)表格。Wang等人[47]提出了pix2pixHD結(jié)構(gòu),利用條件GAN的生成器以及多尺度判別器,加入改進(jìn)的對(duì)抗損失,在原始圖像基礎(chǔ)上獲得高分辨率圖像。通過CNN進(jìn)行特征抽取,實(shí)現(xiàn)圖像內(nèi)表格區(qū)域的精準(zhǔn)檢測(cè)。

1.4 基于可變卷積的方法

在文獻(xiàn)[20]提出的DeepDeSRT框架基礎(chǔ)上,Siddiquie等人[48]在2018年提出將原始框架包含的Faster R-CNN模型中的傳統(tǒng)卷積替換為可變卷積網(wǎng)絡(luò)(deformable convolutional network,DCN)[49-50]來進(jìn)行表格檢測(cè)。由于文檔中表格有多樣的版式和尺寸,可變形卷積的性能超過了傳統(tǒng)卷積。他們提出的Decnt模型在ICDAR 2013[31]、ICDAR 2017 POD[26]、UNLV[19]和Marmot[51]數(shù)據(jù)集上進(jìn)行評(píng)估并取得了最佳效果。Agarwal等人[52]提出CDeCNet模型來檢測(cè)文檔圖像中的表格邊界。該模型表明不需要添加額外的前/后處理技術(shù)也可以獲得優(yōu)異的表格檢測(cè)效果。這項(xiàng)工作基于一種Mask R-CNN的復(fù)合主干網(wǎng)結(jié)構(gòu)(兩個(gè)ResNeXt101[53])。在復(fù)合主干中,作者用可變卷積代替?zhèn)鹘y(tǒng)卷積,以解決檢測(cè)具有任意版式的表問題。通過將可變形復(fù)合主干和CascadeMask R-CNN相結(jié)合,在表格檢測(cè)任務(wù)中取得了性能的提升。

表1總結(jié)了部分基于深度學(xué)習(xí)的表格檢測(cè)方法的優(yōu)點(diǎn)和局限性。

表1 表格檢測(cè)方法的優(yōu)點(diǎn)和局限性Table 1 Advantages and limitations of table detection methods

2 表格結(jié)構(gòu)識(shí)別

在檢測(cè)到表格區(qū)域的基礎(chǔ)上,可以進(jìn)行表格的行列及單元格識(shí)別。本章總結(jié)了近期應(yīng)用于表格結(jié)構(gòu)識(shí)別任務(wù)的各種方法,并根據(jù)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)這些方法進(jìn)行了分類。

2.1 基于目標(biāo)檢測(cè)的方法

鑒于目標(biāo)檢測(cè)算法[54]的不斷改進(jìn)和所取得的良好效果,研究人員開始嘗試將目標(biāo)檢測(cè)算法應(yīng)用于表格結(jié)構(gòu)識(shí)別任務(wù)。Hashmi等人[55]通過檢測(cè)表中的行和列來實(shí)現(xiàn)表結(jié)構(gòu)識(shí)別。通過將Mask R-CNN與錨框優(yōu)化(anchor optimization)[56]策略結(jié)合,提升行和列的檢測(cè)精度,并在TabStructDB[57]和ICDAR2013[31]數(shù)據(jù)集上進(jìn)行了評(píng)估,結(jié)果表明錨框優(yōu)化策略顯著提升了表格結(jié)構(gòu)識(shí)別任務(wù)的效果。

除了檢測(cè)表格行列來進(jìn)行表格結(jié)構(gòu)識(shí)別外,Raja等人[58]引入了一種回歸單元格邊界的表格結(jié)構(gòu)識(shí)別方法。作者使用Mask R-CNN框架和在MSCOCO數(shù)據(jù)集[59]上預(yù)先訓(xùn)練的ResNet-101主干網(wǎng),并將擴(kuò)張卷積(dilated convolutions)[60]應(yīng)用于RPN結(jié)構(gòu)中,隨后使用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[61]進(jìn)行行列關(guān)系預(yù)測(cè),但由于表格中的空白單元格缺乏相應(yīng)的特征信息,導(dǎo)致該檢測(cè)框架難以進(jìn)行處理和分析。而文獻(xiàn)[62]提出了一種基于Mask R-CNN的邊界檢測(cè)框架

LGPMA(local and global pyramid mask alignment),分別檢測(cè)表格的局部邊界和全局邊界,并對(duì)結(jié)果進(jìn)行對(duì)齊和融合。隨后加入單元格匹配、空白格搜索、空白格合并三個(gè)后處理步驟,很好地解決了空白單元格難以檢測(cè)的問題。

模型CascadeTabNet中介紹了一種直接定位表格中單元格邊界的方法,將表格圖像直接輸入Cascade Mask R-CNN結(jié)構(gòu)中,獲取單元格掩碼的預(yù)測(cè)結(jié)果,并將表格分類為有邊界或無邊界。隨后對(duì)有線表和無線表分別進(jìn)行后處理,以檢索最終的單元格邊界,實(shí)現(xiàn)表格結(jié)構(gòu)識(shí)別的目標(biāo)。

文獻(xiàn)[33]提出的系統(tǒng)GTE是一個(gè)端到端框架,它不僅可以檢測(cè)表格區(qū)域,還可以識(shí)別文檔圖像中表格的結(jié)構(gòu)。與文獻(xiàn)[28]中CascadeTabNet模型的設(shè)計(jì)方法類似,GTE中也提出將表格分為有線表和無線表兩類,分別使用兩種不同的單元格檢測(cè)網(wǎng)絡(luò)。首先將帶有表格掩碼的完整文檔圖像輸入到分類網(wǎng)絡(luò),其次根據(jù)預(yù)測(cè)的類別,圖像被輸入到相應(yīng)的單元格檢測(cè)網(wǎng)絡(luò),最后返回單元格邊界檢索的預(yù)測(cè)結(jié)果。

Long等人[63]并未使用傳統(tǒng)的目標(biāo)檢測(cè)框架,而是選擇了CenterNet[64]檢測(cè)網(wǎng)絡(luò),以各目標(biāo)框的中心點(diǎn)為基礎(chǔ),回歸得到相鄰單元框的公共頂點(diǎn)位置,從而得到邊界框尺寸和位置信息,通過連接得到表格的結(jié)構(gòu)信息。但這種基于CenterNet的檢測(cè)方法在無框線表格的結(jié)構(gòu)預(yù)測(cè)上存在不足,因?yàn)槠湟蕾囉谑褂眠吔缈蛑行狞c(diǎn)去推測(cè)相鄰邊界框的公共頂點(diǎn),然而無框線表格的公共頂點(diǎn)難以準(zhǔn)確定義,無法衡量預(yù)測(cè)結(jié)果的有效性。

2.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法

在上述基于目標(biāo)檢測(cè)的方法中,文檔圖像中的表格結(jié)構(gòu)識(shí)別問題都是用分割技術(shù)處理的。2019年,Qasim等人[65]首次利用GNN進(jìn)行表格識(shí)別。該模型由深度卷積神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)組成,前者用于提取圖像特征,后者用于提升各頂點(diǎn)之間的關(guān)聯(lián)性。這種基于GNN方法的提出,拓展了表格結(jié)構(gòu)識(shí)別任務(wù)的解決方式,為后續(xù)的結(jié)構(gòu)識(shí)別方法提供了新思路。Chi等人[66]提出了一種基于GNN的表格結(jié)構(gòu)識(shí)別結(jié)構(gòu)GraphTSR。該結(jié)構(gòu)從PDF文件中獲取表單元格的邊界框和內(nèi)容,以單元格為頂點(diǎn),單元格間關(guān)系為邊進(jìn)行無向圖的構(gòu)建,借助GNN進(jìn)行邊分類預(yù)測(cè),判斷任意兩個(gè)單元格屬于垂直或水平關(guān)系,以此獲得表格的結(jié)構(gòu)信息,實(shí)現(xiàn)結(jié)構(gòu)識(shí)別目標(biāo)。同時(shí)發(fā)布了一個(gè)大規(guī)模表格結(jié)構(gòu)識(shí)別數(shù)據(jù)集SciTSR。

文獻(xiàn)[67]借助GCN結(jié)構(gòu)對(duì)單元格相對(duì)位置關(guān)系(包括水平和垂直關(guān)系)進(jìn)行預(yù)測(cè)。借鑒多模態(tài)融合的思路,將圖像、位置和文本三類特征進(jìn)行融合,極大提升了單元格間相對(duì)位置關(guān)系的預(yù)測(cè)效果,同時(shí)提出了一個(gè)中文的金融表格數(shù)據(jù)集FinTab。

文獻(xiàn)[68]提出了TGRNet模型,利用CNN提取表格的行、列及原始圖像的特征圖并進(jìn)行融合,實(shí)現(xiàn)表內(nèi)單元格的空間坐標(biāo)預(yù)測(cè);結(jié)合空間坐標(biāo)的預(yù)測(cè)結(jié)果,對(duì)齊并提取相應(yīng)的圖像特征進(jìn)行融合,使用圖卷積網(wǎng)絡(luò)對(duì)表中單元格特征聚合,從而預(yù)測(cè)單元格的邏輯坐標(biāo)。

2.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法

到目前為止,已經(jīng)介紹了CNN和GNN在表格結(jié)構(gòu)識(shí)別任務(wù)中的實(shí)現(xiàn)方法。Khan等人[69]嘗試使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[70-72]的變種門控循環(huán)單元(gated recurrent units,GRU)[73]來提取表格的結(jié)構(gòu)。CNN的感受野不足以在一步中捕獲完整的行和列信息,因此采用RNN可以有效地彌補(bǔ)這一缺陷。在對(duì)比了兩種改進(jìn)的RNN模型,即長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)[74]和GRU后,GRU顯示出了更大的優(yōu)勢(shì)。因此作者選擇使用一對(duì)雙向GRU,一個(gè)GRU用于行檢測(cè),而另一個(gè)用于列檢測(cè),并在ICDAR 2013[31]數(shù)據(jù)集上進(jìn)行了評(píng)估,其實(shí)驗(yàn)結(jié)果超過了文獻(xiàn)[20]提出的基于Faster R-CNN的DeepDeSRT模型。同時(shí)還表明了基于GRU的序列模型不僅可以改善結(jié)構(gòu)識(shí)別問題,還可以用于表中的信息提取。

2.4 基于可變卷積與擴(kuò)張卷積的方法

與傳統(tǒng)卷積相比,可變卷積與擴(kuò)張卷積擁有更加廣闊、靈活的感受野,可以更好地適用于版式復(fù)雜多樣的表格,因此可以將上述兩類卷積應(yīng)用于文檔圖像中的表格結(jié)構(gòu)識(shí)別任務(wù)。

2.4.1 可變卷積

文獻(xiàn)[57]提出了DeepTabStR模型,該模型是對(duì)文獻(xiàn)[48]中提出的Decnt模型的改進(jìn)。由于表格布局存在多樣性,而作為滑動(dòng)窗口運(yùn)行的傳統(tǒng)卷積并不是最佳選擇。DCN允許網(wǎng)絡(luò)通過考慮對(duì)象的當(dāng)前位置來調(diào)整感受野。因此,可變卷積更適合于完成表格結(jié)構(gòu)識(shí)別任務(wù)。相較于原始的Decnt模型,該文提出的DeepTabStR模型將主干網(wǎng)和ROI(region of interest)中的傳統(tǒng)卷積均替換為可變卷積。同時(shí)還發(fā)布了一個(gè)公共的基于圖像的表格識(shí)別數(shù)據(jù)集TabStructDB。該數(shù)據(jù)集基于ICDAR 2017 POD[26]數(shù)據(jù)集,在原有基礎(chǔ)上添加了結(jié)構(gòu)信息注釋,使得該數(shù)據(jù)集可以適用于表格結(jié)構(gòu)識(shí)別任務(wù)。

2.4.2 擴(kuò)張卷積

Tensmeyer等人[75]提出了一種名為SPLERGE的表格結(jié)構(gòu)識(shí)別方法。該方法由兩個(gè)獨(dú)立的深度學(xué)習(xí)模型組成:第一個(gè)模型用于預(yù)測(cè)輸入圖像的實(shí)際網(wǎng)格結(jié)構(gòu),將圖像特征提取部分的卷積層替換為擴(kuò)張卷積,充分提取目標(biāo)特征,對(duì)表格圖像進(jìn)行劃分;第二個(gè)模型將原始輸入圖像與第一個(gè)模型輸出的預(yù)測(cè)結(jié)構(gòu)相結(jié)合,用于判別已劃分的網(wǎng)格結(jié)構(gòu)是否可以進(jìn)一步合并為新的網(wǎng)格,解決表格中存在跨多行和多列單元格的問題。通過在ICDAR 2013[31]數(shù)據(jù)集上進(jìn)行評(píng)估,SPLERGE方法實(shí)現(xiàn)了最佳結(jié)果,顯著提升了表格結(jié)構(gòu)識(shí)別任務(wù)的準(zhǔn)確率。

表2展示了各類方法的優(yōu)點(diǎn)及其局限性。

表2 表格結(jié)構(gòu)識(shí)別方法的優(yōu)點(diǎn)及局限性Table 2 Advantages and limitations of table structure recognition methods

3 表格數(shù)據(jù)集

本文對(duì)當(dāng)前表格分析領(lǐng)域的常見數(shù)據(jù)集進(jìn)行總結(jié)。

3.1 ICDAR 2013

ICDAR 2013數(shù)據(jù)集由2013年國(guó)際文檔分析與識(shí)別會(huì)議(ICDAR)組織的比賽發(fā)布。該數(shù)據(jù)集具有用于表格檢測(cè)和表結(jié)構(gòu)識(shí)別的注釋。數(shù)據(jù)集由PDF文件組成,共有238張圖像,其中128張包含表格。

3.2 ICDAR 2017 POD

ICDAR 2017 POD數(shù)據(jù)集用于2017年ICDAR中的頁(yè)面目標(biāo)檢測(cè)競(jìng)賽,主要用于評(píng)估表格檢測(cè)任務(wù)。該數(shù)據(jù)集比“ICDAR 2013”規(guī)模更大。它由2 417幅圖像組成,包括表格、公式等,其中訓(xùn)練集1 600幅圖像(731幅含表格區(qū)域),測(cè)試集817幅圖像(350幅含表格區(qū)域)。

3.3 ICDAR 2019

ICDAR 2019數(shù)據(jù)集在“ICDAR 2019”表格檢測(cè)和識(shí)別競(jìng)賽中提出。數(shù)據(jù)集包含兩部分:現(xiàn)代數(shù)據(jù)集和歷史數(shù)據(jù)集?,F(xiàn)代數(shù)據(jù)集包含來自科學(xué)論文、表格和財(cái)務(wù)文件的樣本。歷史數(shù)據(jù)集包括手寫的會(huì)計(jì)分類賬、火車時(shí)刻表等。在現(xiàn)代數(shù)據(jù)集中,訓(xùn)練集600張,測(cè)試集240張。在歷史數(shù)據(jù)集,訓(xùn)練集600張,測(cè)試集199張。數(shù)據(jù)集包含了表格邊界和單元格區(qū)域注釋的信息。

3.4 WTW

“WTW”數(shù)據(jù)集由Long等人在文獻(xiàn)[63]中提出,包含10 970張訓(xùn)練數(shù)據(jù)和3 611張測(cè)試數(shù)據(jù),涵蓋了自然場(chǎng)景下的各種類型表格,如表單、發(fā)票等。數(shù)據(jù)集中包含表單元格邊界和邏輯位置注釋。

3.5 Marmot

“Marmot”數(shù)據(jù)集由北京大學(xué)提出,該數(shù)據(jù)集由1970年至2011年的中英文會(huì)議論文組成,共有2 000幅圖像。由于數(shù)據(jù)集具有多樣性和非常復(fù)雜的頁(yè)面布局,對(duì)于訓(xùn)練網(wǎng)絡(luò)非常有用。在數(shù)據(jù)集中,正負(fù)樣本比例大約為1∶1。該數(shù)據(jù)集包含表格邊界的注釋,主要用于訓(xùn)練表格檢測(cè)任務(wù)。

3.6 TableBank

2019年初,Li等人發(fā)布了“TableBank”,這是一個(gè)由41.7萬張帶有表格信息的標(biāo)記圖像組成的數(shù)據(jù)集。該數(shù)據(jù)集數(shù)據(jù)來源是在線爬取可用的.docx格式文檔和從arXiv數(shù)據(jù)庫(kù)收集的LaTeX文檔。數(shù)據(jù)集中包含表格區(qū)域標(biāo)注及表格結(jié)構(gòu)的HTML標(biāo)注序列,可用于表格檢測(cè)和結(jié)構(gòu)識(shí)別任務(wù)。

3.7 SciTSR

“SciTSR”數(shù)據(jù)集由Chi等人[66]發(fā)布。該數(shù)據(jù)集由15 000個(gè)PDF格式的表格及其注釋組成。數(shù)據(jù)集是通過從arXiv中抓取LaTeX源文件構(gòu)建的,大約25%的數(shù)據(jù)集由跨多行或多列的復(fù)雜表組成。該數(shù)據(jù)集具有表單元格空間位置信息、邏輯位置信息及單元格內(nèi)容注釋。

3.8 PubTabNet

“PubTabNet”是Zhong等人[76]發(fā)布的數(shù)據(jù)集,是目前最大的公開數(shù)據(jù)集,包含超過56.8萬個(gè)圖像,每個(gè)單元格中都有相應(yīng)的表和內(nèi)容結(jié)構(gòu)信息。該數(shù)據(jù)集是通過從PubMed Central開放存取子集(PMCOA)收集科學(xué)文章創(chuàng)建的,可在表格結(jié)構(gòu)提取或表格識(shí)別任務(wù)中獨(dú)立訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的完整參數(shù)。

3.9 FinTabNet

Nassar等人[77]將“FinTabNet”數(shù)據(jù)集應(yīng)用于結(jié)構(gòu)識(shí)別,該數(shù)據(jù)集由S&P500家公司的公開利潤(rùn)報(bào)表和IBM公司的注釋組成,其中包含89 646個(gè)頁(yè)面,112 887個(gè)表格,91 596個(gè)用于訓(xùn)練,10 656個(gè)用于測(cè)試,10 635個(gè)用于驗(yàn)證。該數(shù)據(jù)集包含表格邊界框和單元格邊界框注釋,可以用于表格檢測(cè)及結(jié)構(gòu)識(shí)別任務(wù)。

3.1 0 TNCR

TNCR數(shù)據(jù)集由Abdallah等人[78]發(fā)布,是一個(gè)從開放訪問網(wǎng)站收集的具有不同圖像質(zhì)量的表格數(shù)據(jù)集。“TNCR”包含9 428個(gè)帶標(biāo)簽的表格,約6 621幅圖像。該數(shù)據(jù)集可用于電子文檔圖像中的表格檢測(cè)任務(wù),并可將其分為5類,包括全框線表、跨行列單元格表、無框線表、半框線表、半框線且跨行列單元格表。

表格數(shù)據(jù)集的詳細(xì)信息如表3所示。表3中提及的數(shù)據(jù)集均已開源,相應(yīng)的下載地址已上傳至GitHub,具體鏈接為https://github.com/xb012/Table-Datasets。

表3 公開表格數(shù)據(jù)集信息Table 3 Information of public table datasets

4 評(píng)價(jià)指標(biāo)及實(shí)驗(yàn)結(jié)果比較

本章首先介紹一些常用的評(píng)價(jià)指標(biāo),并分別列舉在表格檢測(cè)和結(jié)構(gòu)識(shí)別任務(wù)中的評(píng)估方法。其次,對(duì)上文提到的各類表格檢測(cè)與結(jié)構(gòu)識(shí)別方法進(jìn)行結(jié)果對(duì)比。

4.1 評(píng)價(jià)指標(biāo)

(1)準(zhǔn)確率(precision,P)

準(zhǔn)確率定義為屬于真實(shí)區(qū)域的預(yù)測(cè)區(qū)域的百分比,公式如下:

其中,TP表示預(yù)測(cè)區(qū)域與真實(shí)區(qū)域交集的面積,F(xiàn)P表示未與真實(shí)區(qū)域有交集的預(yù)測(cè)區(qū)域面積。

(2)召回率(recall,R)

召回率為預(yù)測(cè)區(qū)域中存在的真實(shí)區(qū)域的百分比,公式如下:

其中,TP表示預(yù)測(cè)區(qū)域與真實(shí)區(qū)域交集的面積,F(xiàn)N表示未被預(yù)測(cè)的真實(shí)區(qū)域的面積。

(3)F1分?jǐn)?shù)(F1 score)

F1分?jǐn)?shù)是通過準(zhǔn)確率和召回率的調(diào)和平均值來計(jì)算的,具體公式如下:

其中,P表示準(zhǔn)確率,R表示召回率。

(4)交并比(intersection of union,IoU)

IoU是目標(biāo)檢測(cè)中最常用的指標(biāo),通過將目標(biāo)的形狀屬性(如寬度、高度、位置)編碼成歸一化度量來衡量預(yù)測(cè)框與目標(biāo)框之間的相似度,因此具有尺度不變性[79]。其定義如下:

其中,AOR表示預(yù)測(cè)區(qū)域與真實(shí)區(qū)域交集的面積,AUR表示預(yù)測(cè)區(qū)域與真實(shí)區(qū)域并集的面積。

4.2 表格檢測(cè)評(píng)估方法

表格檢測(cè)問題的本質(zhì)是定位文檔圖像中的表格區(qū)域,回歸表格區(qū)域的邊界框坐標(biāo)。圖1展示了表格區(qū)域檢測(cè)準(zhǔn)確性的判定標(biāo)準(zhǔn),其中綠色實(shí)線框表示真實(shí)區(qū)域,紅色虛線框表示預(yù)測(cè)區(qū)域。

圖1 表格檢測(cè)標(biāo)準(zhǔn)示意圖Fig.1 Sketch map of table detection results

表4展示了表格檢測(cè)任務(wù)中各類方法的具體表現(xiàn),以實(shí)驗(yàn)所用數(shù)據(jù)集和IoU閾值兩方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分類展示,以準(zhǔn)確率、召回率及F1分?jǐn)?shù)作為任務(wù)的評(píng)價(jià)指標(biāo)。可以看出,隨著思路方法的不斷拓展,表格檢測(cè)任務(wù)的實(shí)驗(yàn)結(jié)果也越來越好。在UNLV數(shù)據(jù)集上,其準(zhǔn)確率由78.6%提升至91.4%(IoU=0.5);在ICDAR 2013數(shù)據(jù)集上,準(zhǔn)確率由2018年的94.5%提升至了100%(IoU=0.5),分析原因,可能是由于數(shù)據(jù)規(guī)模較小,樣本分布較為簡(jiǎn)單;在ICDAR 2017 POD數(shù)據(jù)集上,準(zhǔn)確率由96.5%提升至97.8%(IoU=0.6),由94.6%提升至97.5%(IoU=0.8)。

4.3 表格結(jié)構(gòu)識(shí)別評(píng)估方法

表格結(jié)構(gòu)識(shí)別任務(wù)是為了理清表格內(nèi)行列及單元格的位置信息,采用準(zhǔn)確率、召回率和F1分?jǐn)?shù)對(duì)識(shí)別結(jié)果進(jìn)行評(píng)估。圖2分別展示了表格結(jié)構(gòu)中行、列和單元格的檢測(cè)標(biāo)準(zhǔn),其中綠色實(shí)線框表示真實(shí)區(qū)域,紅色虛線框表示預(yù)測(cè)區(qū)域。

圖2 表格結(jié)構(gòu)識(shí)別示意圖Fig.2 Sketch map of table structure recognition

表5展示了表格結(jié)構(gòu)識(shí)別任務(wù)中各類方法的實(shí)驗(yàn)結(jié)果。依據(jù)實(shí)驗(yàn)數(shù)據(jù)集和相應(yīng)的IoU閾值對(duì)結(jié)果進(jìn)行分類,以準(zhǔn)確率、召回率及F1分?jǐn)?shù)作為任務(wù)的評(píng)價(jià)指標(biāo)。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,表格結(jié)構(gòu)識(shí)別任務(wù)的實(shí)驗(yàn)結(jié)果也在逐步提高。在ICDAR 2013數(shù)據(jù)集上,結(jié)構(gòu)識(shí)別的準(zhǔn)確率已經(jīng)高達(dá)97.5%。在ICDAR 2019數(shù)據(jù)集上,相應(yīng)的F1分?jǐn)?shù)也有了十分顯著的提升,在2021年已達(dá)到了80.8%(IoU=0.6)和51.1%(IoU=0.7)。相較于其他數(shù)據(jù)集,各模型在該數(shù)據(jù)集上表現(xiàn)略差是由于該數(shù)據(jù)集包含現(xiàn)代與歷史兩種表格數(shù)據(jù),且歷史表格數(shù)據(jù)結(jié)構(gòu)極為復(fù)雜,存在大量的行列信息,因此現(xiàn)有模型的效果并不理想,未來還有較大的提升空間。在SciTSR數(shù)據(jù)集上,其準(zhǔn)確率已由2020年的92.7%提升至98.2%,提高了5.5個(gè)百分點(diǎn)。

表5 表格結(jié)構(gòu)識(shí)別方法的實(shí)驗(yàn)結(jié)果Table 5 Results of table structure recognition methods

5 未來研究方向展望

通過介紹當(dāng)前表格分析領(lǐng)域的發(fā)展現(xiàn)狀,結(jié)合表格檢測(cè)與結(jié)構(gòu)識(shí)別任務(wù)中模型的路徑方法及實(shí)驗(yàn)效果,給出幾點(diǎn)具有研究意義的發(fā)展方向。

(1)表格結(jié)構(gòu)識(shí)別任務(wù)的改進(jìn)建議

由于表格檢測(cè)任務(wù)已實(shí)現(xiàn)極高的準(zhǔn)確率,這里僅針對(duì)表格結(jié)構(gòu)識(shí)別任務(wù)提出幾點(diǎn)改進(jìn)建議。借助于深度學(xué)習(xí)技術(shù)衍生出了很多方法,包括基于目標(biāo)檢測(cè)的方法、基于GNN的方法、基于RNN的方法等,并在上述方法中已取得了較為顯著的成效。當(dāng)前表格結(jié)構(gòu)識(shí)別模型應(yīng)該注重幾點(diǎn)改進(jìn):①為有線表與無線表制定統(tǒng)一的特征提取方式。當(dāng)前很多方法針對(duì)表格框線類型的不同,設(shè)計(jì)多處理分支提取表格特征,這無疑會(huì)導(dǎo)致模型參數(shù)量的增加。設(shè)計(jì)統(tǒng)一的特征提取方式,最大可能減輕框線差異帶來的影響,將有助于模型的輕量化,降低模型的復(fù)雜性。②減少或去除圖像的預(yù)處理步驟,降低額外的工作量。當(dāng)前結(jié)構(gòu)識(shí)別方法大多要求對(duì)圖像進(jìn)行預(yù)處理步驟,如圖像增強(qiáng)、圖像二值化等,這將導(dǎo)致實(shí)驗(yàn)過程的繁雜,無法實(shí)現(xiàn)端到端系統(tǒng)的設(shè)計(jì)思想。在網(wǎng)絡(luò)設(shè)計(jì)時(shí)應(yīng)考慮能夠直接適應(yīng)原始圖像的需求,減少或去除預(yù)處理步驟。③提升模型的泛化能力。表格類數(shù)據(jù)包括科學(xué)論文表格、發(fā)票、收據(jù)、表單等多種類型,當(dāng)前模型僅能夠針對(duì)某一類表格進(jìn)行處理,模型的泛化性不足。后續(xù)進(jìn)行模型設(shè)計(jì)時(shí)應(yīng)綜合考慮各類數(shù)據(jù)特性,設(shè)計(jì)泛化能力強(qiáng)、魯棒性高的通用模型。

(2)探究表單元格間關(guān)系的建議

當(dāng)前表格分析領(lǐng)域重點(diǎn)針對(duì)表格結(jié)構(gòu)識(shí)別任務(wù),研究表格行列及單元格分布情況,對(duì)于表內(nèi)單元格的內(nèi)在關(guān)聯(lián)鮮有研究。表格由單元格組成,單元格之間并非只有空間關(guān)系,還隱含著內(nèi)容上聯(lián)系。每個(gè)表格內(nèi)的單元格都可以劃分為標(biāo)題格與內(nèi)容格兩類,而這兩類單元格間存在著隸屬關(guān)系,即內(nèi)容格的內(nèi)容受到相應(yīng)標(biāo)題格的影響,標(biāo)題格對(duì)其所控制的單元格內(nèi)容起到?jīng)Q定性作用。因此探究表單元格內(nèi)部聯(lián)系將有以下幾點(diǎn)優(yōu)勢(shì):①提升表格理解任務(wù)的效果。當(dāng)前表格理解任務(wù)主要依據(jù)表單元格內(nèi)的文本進(jìn)行,通過文本編碼,借助自然語(yǔ)言處理工具實(shí)現(xiàn)表格內(nèi)容理解。在理清表格內(nèi)單元格間關(guān)系后,可以將這類關(guān)系顯式地加入表格理解任務(wù),為表格問答等應(yīng)用提供有力支持。②解決表格圖像數(shù)據(jù)的存儲(chǔ)與利用問題。通過表格檢測(cè)和結(jié)構(gòu)識(shí)別任務(wù),可以將表格的整體結(jié)構(gòu)理清,但僅僅有行列關(guān)系只能將表格按原始格式進(jìn)行存儲(chǔ)。借助于單元格內(nèi)在關(guān)聯(lián)的抽取任務(wù),可以將表格內(nèi)單元格按照鍵值對(duì)的結(jié)構(gòu)進(jìn)行存儲(chǔ),這將對(duì)后續(xù)數(shù)據(jù)的取用、表格的智能填寫等打下堅(jiān)實(shí)基礎(chǔ)。

6 結(jié)束語(yǔ)

本文從表格研究領(lǐng)域的表格檢測(cè)和結(jié)構(gòu)識(shí)別任務(wù)出發(fā),按照基于目標(biāo)檢測(cè)的方法、基于GNN的方法、基于DCN的方法等對(duì)上述任務(wù)的實(shí)現(xiàn)原理進(jìn)行介紹,同時(shí)對(duì)上述方法進(jìn)行路徑方法和局限性分析。其次給出目前表格領(lǐng)域常用的表格數(shù)據(jù)集,并對(duì)數(shù)據(jù)集來源、規(guī)模、適用范圍和數(shù)據(jù)類型進(jìn)行了詳細(xì)分析。同時(shí)列舉了幾類表格任務(wù)的評(píng)價(jià)指標(biāo),并對(duì)上文提及的表格檢測(cè)和結(jié)構(gòu)識(shí)別方法按實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分類對(duì)比和展示。最后針對(duì)當(dāng)前領(lǐng)域的發(fā)展現(xiàn)狀對(duì)未來發(fā)展方向進(jìn)行了展望。

猜你喜歡
單元格表格卷積
《現(xiàn)代臨床醫(yī)學(xué)》來稿表格要求
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
玩轉(zhuǎn)方格
玩轉(zhuǎn)方格
統(tǒng)計(jì)表格的要求
統(tǒng)計(jì)表格的要求
統(tǒng)計(jì)表格的要求
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
淺談Excel中常見統(tǒng)計(jì)個(gè)數(shù)函數(shù)的用法
西部皮革(2018年6期)2018-05-07 06:41:07
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
舟山市| 台前县| 仪陇县| 连江县| 波密县| 调兵山市| 藁城市| 汝城县| 赣榆县| 浠水县| 赤水市| 安图县| 汨罗市| 施甸县| 称多县| 平顺县| 观塘区| 体育| 天峻县| 莫力| 上林县| 津市市| 垣曲县| 二连浩特市| 九江县| 白水县| 武夷山市| 澳门| 连平县| 且末县| 涡阳县| 通渭县| 康平县| 安义县| 布拖县| 任丘市| 呼和浩特市| 上饶县| 绥化市| 武城县| 香河县|