国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文檔智能: 數(shù)據(jù)集、模型和應(yīng)用

2022-08-02 03:56:06徐毅恒呂騰超韋福如
中文信息學(xué)報(bào) 2022年6期
關(guān)鍵詞:表格文檔模態(tài)

崔 磊,徐毅恒,呂騰超,韋福如

(微軟亞洲研究院 自然語(yǔ)言計(jì)算組,北京 100080)

0 文檔智能

文檔智能(Document AI, or Document Intelligence)是近年來(lái)一項(xiàng)蓬勃發(fā)展的研究課題,同時(shí)也是實(shí)際的工業(yè)界需求,主要是指對(duì)于網(wǎng)頁(yè)、數(shù)字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過(guò)人工智能技術(shù)進(jìn)行理解、分類、提取以及信息歸納的過(guò)程。由于布局和格式的多樣性、低質(zhì)量的掃描文檔圖像以及模板結(jié)構(gòu)的復(fù)雜性,文檔智能成為一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)并獲得相關(guān)領(lǐng)域的廣泛關(guān)注。隨著數(shù)字化進(jìn)程的加快,文檔、圖像等載體的結(jié)構(gòu)化分析和內(nèi)容提取成為關(guān)乎企業(yè)數(shù)字化轉(zhuǎn)型成敗的關(guān)鍵一環(huán),自動(dòng)、精準(zhǔn)、快速的信息處理對(duì)于生產(chǎn)力的提升至關(guān)重要。以商業(yè)文檔為例,不僅包含了公司內(nèi)外部事務(wù)的處理細(xì)節(jié)和知識(shí)沉淀,還有大量行業(yè)相關(guān)的實(shí)體和數(shù)字信息。人工提取這些信息不僅耗時(shí)、費(fèi)力、精度低,而且可復(fù)用性也不高,因此,文檔智能技術(shù)應(yīng)運(yùn)而生。文檔智能技術(shù)深層次地結(jié)合了人工智能和人類智能,在金融、醫(yī)療、保險(xiǎn)、能源、物流等多個(gè)行業(yè)均有不同類型的應(yīng)用。例如,在金融領(lǐng)域,其可以實(shí)現(xiàn)財(cái)報(bào)分析和智能決策分析,為企業(yè)戰(zhàn)略的制定和投資決策提供科學(xué)、系統(tǒng)的數(shù)據(jù)支撐;在醫(yī)療領(lǐng)域,其可以實(shí)現(xiàn)病例的數(shù)字化,提高診斷的精準(zhǔn)度,并通過(guò)分析醫(yī)學(xué)文獻(xiàn)和病例的關(guān)聯(lián)性,定位潛在的治療方案。在財(cái)務(wù)領(lǐng)域,其可以實(shí)現(xiàn)發(fā)票和采購(gòu)單的自動(dòng)化信息提取,將大量非結(jié)構(gòu)化文檔進(jìn)行自動(dòng)結(jié)構(gòu)化轉(zhuǎn)換,并支撐大量下游業(yè)務(wù)場(chǎng)景,節(jié)省大量人工處理時(shí)間開銷。

在過(guò)去的30年中,文檔智能的發(fā)展大致經(jīng)歷了三個(gè)階段,從簡(jiǎn)單的規(guī)則啟發(fā)式方法逐漸進(jìn)化至神經(jīng)網(wǎng)絡(luò)的方法。20世紀(jì)90年代初期,研究人員大多使用基于啟發(fā)式規(guī)則的方法進(jìn)行文檔的理解與分析,通過(guò)人工觀察文檔的布局信息,總結(jié)歸納一些處理規(guī)則,對(duì)固定布局信息的文檔進(jìn)行處理。然而,傳統(tǒng)基于規(guī)則的方法往往需要較大的人力成本,而且這些人工總結(jié)的規(guī)則可擴(kuò)展性不強(qiáng),因此研究人員開始采用基于統(tǒng)計(jì)學(xué)習(xí)的方法。2000年以來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和進(jìn)步,基于大規(guī)模標(biāo)注數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型成了文檔智能的主流方法,它通過(guò)人工設(shè)計(jì)的特征模板,利用有監(jiān)督學(xué)習(xí)的方式在標(biāo)注數(shù)據(jù)中學(xué)習(xí)不同特征的權(quán)重,以此來(lái)理解、分析文檔的內(nèi)容和布局。然而,雖然傳統(tǒng)的文檔理解和分析技術(shù)基于人工定制的規(guī)則或少量標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí),這些方法雖然能夠帶來(lái)一定程度的性能提升,但由于定制規(guī)則和可學(xué)習(xí)的樣本數(shù)量不足,其通用性往往不盡如人意,而且針對(duì)不同類別文檔的分析遷移成本較高,這距離文檔智能技術(shù)的實(shí)用化和產(chǎn)業(yè)化還有相當(dāng)一段距離。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以及大量無(wú)標(biāo)注電子文檔的積累,文檔分析與識(shí)別技術(shù)進(jìn)入了一個(gè)全新的時(shí)代。圖1是在當(dāng)前深度學(xué)習(xí)框架下文檔智能技術(shù)的基本框架,其中不同類型的文檔通過(guò)內(nèi)容提取工具(HTML/XML抽取、PDF解析器、光學(xué)字符識(shí)別OCR等)將文本內(nèi)容、位置布局信息和視覺(jué)圖像信息組織起來(lái),利用大規(guī)模預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分析,最終完成各項(xiàng)下游應(yīng)用任務(wù),包括文檔版面分析、文檔信息抽取、文檔視覺(jué)問(wèn)答以及文檔圖像分類等。深度學(xué)習(xí)技術(shù)的出現(xiàn),特別是以卷積神經(jīng)網(wǎng)絡(luò)(CNN)、圖神經(jīng)網(wǎng)絡(luò)(GNN)以及Transformer架構(gòu)[1]為代表預(yù)訓(xùn)練技術(shù)的出現(xiàn),徹底改變了傳統(tǒng)機(jī)器學(xué)習(xí)需要大量人工標(biāo)注數(shù)據(jù)的前提,更多地依賴大量無(wú)標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),進(jìn)而通過(guò)“預(yù)訓(xùn)練-微調(diào)”模式來(lái)解決文檔智能相關(guān)的應(yīng)用任務(wù),取得了顯著性突破。

圖1 基于深度學(xué)習(xí)的文檔智能技術(shù)框架

盡管深度學(xué)習(xí)極大地提高了文檔智能技術(shù)的準(zhǔn)確性,但是在實(shí)際應(yīng)用中仍然有很多問(wèn)題亟待解決。首先,受限于當(dāng)前大規(guī)模預(yù)訓(xùn)練模型輸入長(zhǎng)度的限制,文檔智能預(yù)訓(xùn)練模型通常需要將文檔截?cái)酁閹讉€(gè)部分,分別輸入模型進(jìn)行處理,這對(duì)于復(fù)雜長(zhǎng)文檔的多頁(yè)跨頁(yè)處理帶來(lái)了極大的挑戰(zhàn)。其次,由于實(shí)際場(chǎng)景中的掃描文檔圖像質(zhì)量參差不齊,特別是人工標(biāo)注的訓(xùn)練數(shù)據(jù)往往質(zhì)量較高,而業(yè)務(wù)場(chǎng)景的文檔圖像由于掃描設(shè)備的清晰度、紙張褶皺和擺放位置的隨意性,導(dǎo)致了性能不佳,因而需要利用更多數(shù)據(jù)增強(qiáng)技術(shù)來(lái)幫助現(xiàn)有模型提升性能。此外,當(dāng)前文檔智能各項(xiàng)任務(wù)通常是獨(dú)立訓(xùn)練的,不同任務(wù)之間的關(guān)聯(lián)性還未被有效地利用。例如,文檔信息抽取和文檔視覺(jué)問(wèn)答有某些共性的語(yǔ)義表示,可以利用多任務(wù)學(xué)習(xí)框架更好地解決這類問(wèn)題。最后,基于預(yù)訓(xùn)練的文檔智能模型在實(shí)際應(yīng)用中也遇到了計(jì)算資源和訓(xùn)練樣本不足的問(wèn)題,探索基于小模型的深度學(xué)習(xí)架構(gòu)和模型壓縮技術(shù),以及少樣本學(xué)習(xí)(Few-shot Learning)和零樣本學(xué)習(xí)(Zero-shot Learning)技術(shù)也是當(dāng)前重要的研究方向,并具有很大的實(shí)用價(jià)值。

接下來(lái),我們首先將介紹當(dāng)前主流的文檔智能模型框架、任務(wù)和數(shù)據(jù)集,隨后將分別重點(diǎn)介紹早期基于啟發(fā)式規(guī)則的文檔分析技術(shù)、基于傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的算法模型,以及近年來(lái)基于深度學(xué)習(xí),特別是基于多模態(tài)預(yù)訓(xùn)練技術(shù)的文檔智能模型和算法,最后我們將展望文檔智能技術(shù)的未來(lái)發(fā)展方向。

1 主流文檔智能模型框架、任務(wù)及數(shù)據(jù)集

1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的文檔版面分析模型

近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的成功,特別是基于大規(guī)模標(biāo)注數(shù)據(jù)集ImageNet和COCO的有監(jiān)督預(yù)訓(xùn)練模型ResNet[2]在圖像分類、物體檢測(cè)以及場(chǎng)景分割任務(wù)上都帶來(lái)了極大的性能提升。具體來(lái)講,隨著多階段檢測(cè)模型Faster R-CNN[3]和Mask R-CNN[4]等以及單階段檢測(cè)模型SSD[5]和YOLO[6]的普及,目標(biāo)檢測(cè)在計(jì)算機(jī)視覺(jué)中幾乎成了已解決問(wèn)題。文檔版面分析本質(zhì)上可以看作一種文檔圖像的物體檢測(cè)任務(wù),文檔中的標(biāo)題、段落、表格、插圖等基本單元就是需要檢測(cè)和識(shí)別的物體。Yang等人[7]將文檔版面分析看作一個(gè)像素級(jí)分割任務(wù),并嘗試?yán)镁矸e神經(jīng)網(wǎng)絡(luò)進(jìn)行像素分類取得很好的效果。Schreiber等人[8]首次將Faster R-CNN模型應(yīng)用于文檔版面分析中的表格識(shí)別任務(wù),如圖2所示,在ICDAR 2013[9]表格識(shí)別數(shù)據(jù)集上取得了SOTA的結(jié)果。然而,文檔版面分析雖然是一個(gè)經(jīng)典的文檔智能任務(wù),但是多年來(lái)一直受限于較小的數(shù)據(jù)集規(guī)模,僅僅套用經(jīng)典計(jì)算機(jī)視覺(jué)預(yù)訓(xùn)練模型依然是不夠的。隨著大規(guī)模弱監(jiān)督文檔版面分析數(shù)據(jù)集PubLayNet[10]、PubTabNet[11]、TableBank[12]以及DocBank[13]的出現(xiàn),研究人員可以對(duì)不同的計(jì)算機(jī)視覺(jué)模型和算法進(jìn)行更為深入的比較和分析,進(jìn)一步推動(dòng)了文檔版面分析技術(shù)的發(fā)展。

圖2 基于卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN的文檔版面分析模型

1.2 基于圖神經(jīng)網(wǎng)絡(luò)的文檔信息抽取模型

信息抽取是從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息的過(guò)程,其作為一個(gè)經(jīng)典和基礎(chǔ)的自然語(yǔ)言處理問(wèn)題已經(jīng)得到廣泛研究。傳統(tǒng)的信息抽取聚焦于如何從純文本中提取實(shí)體與關(guān)系信息,卻較少對(duì)視覺(jué)富文本進(jìn)行研究。視覺(jué)富文本數(shù)據(jù)是指語(yǔ)義結(jié)構(gòu)不僅由本文內(nèi)容決定,也有與排版、表格結(jié)構(gòu)、字體等視覺(jué)元素有關(guān)的文本數(shù)據(jù)。視覺(jué)富文本數(shù)據(jù)在生活中隨處可見(jiàn),例如,收據(jù)、證件、保險(xiǎn)單等。Liu等人[14]提出利用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)視覺(jué)富文本數(shù)據(jù)進(jìn)行建模,如圖3所示。每張圖片經(jīng)過(guò)OCR系統(tǒng)后會(huì)得到一組文本塊,每個(gè)文本塊包含其在圖片中的坐標(biāo)信息與文本內(nèi)容。這項(xiàng)工作將這一組文本塊構(gòu)成全連接有向圖,即每個(gè)文本塊構(gòu)成一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都與其他所有節(jié)點(diǎn)有連接。節(jié)點(diǎn)的初始特征由文本塊的文本內(nèi)容通過(guò)Bi-LSTM編碼得到。邊的初始特征為鄰居文本塊與當(dāng)前文本塊的相對(duì)坐標(biāo)與長(zhǎng)寬信息,該特征使用當(dāng)前文本塊的高度進(jìn)行歸一化處理,具有仿射不變性。與其他圖卷積模型僅在節(jié)點(diǎn)上進(jìn)行卷積不同,這項(xiàng)工作更加關(guān)注在信息抽取中“個(gè)體-關(guān)系-個(gè)體”的三元信息,所以在“節(jié)點(diǎn)-邊-節(jié)點(diǎn)”的三元特征組上進(jìn)行卷積。除此之外,還引入了自注意力機(jī)制,讓網(wǎng)絡(luò)在全連接有向圖構(gòu)成的所有有向三元組中挑選更加值得注意的信息,并加權(quán)聚合特征。初始的節(jié)點(diǎn)特征與邊特征經(jīng)過(guò)多層卷積后得到節(jié)點(diǎn)與邊的高層表征。

圖3 基于圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的文檔信息抽取模型

這項(xiàng)工作在兩份真實(shí)商業(yè)數(shù)據(jù)上測(cè)試了所提出方法的效果,分別為增值稅發(fā)票(VATI,固定版式,3 000張)和國(guó)際采購(gòu)收據(jù)(IPR,非固定版式,1 500張)。使用了兩個(gè)基準(zhǔn)系統(tǒng),基準(zhǔn)系統(tǒng)Ⅰ為對(duì)每個(gè)文本塊的文本內(nèi)容獨(dú)立做BiLSTM+CRF解碼,基準(zhǔn)系統(tǒng)Ⅱ?yàn)閷⑺形谋緣K的文本內(nèi)容進(jìn)行“從左到右、從上到下”的順序拼接后,對(duì)拼接文本整體做BiLSTM+CRF解碼。實(shí)驗(yàn)表明,基于圖卷積的模型在基準(zhǔn)系統(tǒng)的基礎(chǔ)上都有明顯的性能提升,其中在僅依靠文本信息就可以抽取的字段(如日期)上與基準(zhǔn)系統(tǒng)持平,而在需要依靠視覺(jué)信息做判斷的字段(如價(jià)格、稅額)上有較大的性能提升。此外,實(shí)驗(yàn)顯示,視覺(jué)信息起主要作用,增加了語(yǔ)義相近文本的區(qū)分度。文本信息也對(duì)視覺(jué)信息起到一定的輔助作用。自注意力機(jī)制在固定版式數(shù)據(jù)上基本沒(méi)有幫助,但是在非固定版式數(shù)據(jù)上有一定的性能提升。

1.3 基于Transformer結(jié)構(gòu)的通用文檔理解預(yù)訓(xùn)練模型

很多情況下,文檔中文字的位置關(guān)系蘊(yùn)含著豐富的語(yǔ)義信息。例如,表單通常是以鍵值對(duì)(Key-value Pair)的形式展示的。通常情況下,鍵值對(duì)的排布通常是左右或者上下形式,并且有特殊的類型關(guān)系。類似地,在表格文檔中,表格中的文字通常是網(wǎng)格狀排列,并且表頭一般出現(xiàn)在第一列或第一行。通過(guò)預(yù)訓(xùn)練,這些與文本天然對(duì)齊的位置信息可以為下游的信息抽取任務(wù)提供更豐富的語(yǔ)義信息。對(duì)于富文本文檔,除了文字本身的位置關(guān)系之外,文字格式所呈現(xiàn)的視覺(jué)信息同樣可以幫助下游任務(wù)。對(duì)文本級(jí)(Token-level)任務(wù)來(lái)說(shuō),文字大小、是否傾斜、是否加粗,以及字體等富文本格式能夠體現(xiàn)相應(yīng)的語(yǔ)義。通常來(lái)說(shuō),表單鍵值對(duì)的鍵位(Key)通常會(huì)以加粗的形式給出。對(duì)于一般文檔來(lái)說(shuō),文章的標(biāo)題通常會(huì)放大加粗呈現(xiàn)、特殊概念名詞會(huì)以斜體呈現(xiàn)等。對(duì)文檔級(jí)(Document-level)任務(wù)來(lái)說(shuō),整體的文檔圖像能提供全局的結(jié)構(gòu)信息,例如,個(gè)人簡(jiǎn)歷的整體文檔結(jié)構(gòu)與科學(xué)文獻(xiàn)的文檔結(jié)構(gòu)是有明顯的視覺(jué)差異的。這些模態(tài)對(duì)齊的富文本格式所展現(xiàn)的視覺(jué)特征可以通過(guò)視覺(jué)模型抽取,結(jié)合到預(yù)訓(xùn)練階段,從而有效地幫助下游任務(wù)。

為了利用上述信息,Xu等提出了通用文檔預(yù)訓(xùn)練模型LayoutLM[15],如圖4所示。在現(xiàn)有的預(yù)訓(xùn)練模型基礎(chǔ)上添加2-D Position Embedding和Image Embedding兩種新的Embedding 層,這樣可以有效地結(jié)合文檔結(jié)構(gòu)和視覺(jué)信息。具體來(lái)講,根據(jù)OCR獲得的文本Bounding Box,能夠獲取文本在文檔中的具體位置。將對(duì)應(yīng)坐標(biāo)轉(zhuǎn)化為虛擬坐標(biāo)之后,計(jì)算該坐標(biāo)對(duì)應(yīng)在x、y、w、h四個(gè)Embedding子層的表示,最終的2-D Position Embedding為四個(gè)子層的Embedding之和。在Image Embedding部分, 將每個(gè)文本相應(yīng)的Bounding Box當(dāng)作Faster R-CNN中的候選框(Proposal),從而提取對(duì)應(yīng)的局部特征。特殊地,由于“[CLS]”符號(hào)用于表示整個(gè)輸入文本的語(yǔ)義,同樣使用整張文檔圖像作為該位置的Image Embedding,從而保持模態(tài)對(duì)齊。

圖4 基于Transformer架構(gòu)的通用文檔理解預(yù)訓(xùn)練模型LayoutLM

在預(yù)訓(xùn)練階段,針對(duì) LayoutLM的特點(diǎn)提出兩個(gè)自監(jiān)督預(yù)訓(xùn)練任務(wù):

?掩碼式視覺(jué)語(yǔ)言模型(Masked Visual-Language Model,MVLM): 大量實(shí)驗(yàn)已經(jīng)證明MLM能夠在預(yù)訓(xùn)練階段有效地進(jìn)行自監(jiān)督學(xué)習(xí)。在此模型MVLM基礎(chǔ)上進(jìn)行了修改: 在遮蓋(Mask)當(dāng)前詞之后,保留對(duì)應(yīng)的2-D Position Embedding暗示,讓模型預(yù)測(cè)對(duì)應(yīng)的詞。在這種方法下,模型根據(jù)已有的上下文和對(duì)應(yīng)的視覺(jué)暗示預(yù)測(cè)被遮罩的詞,從而讓模型更好地學(xué)習(xí)文本位置和文本語(yǔ)義的模態(tài)對(duì)齊關(guān)系。

?多標(biāo)簽文檔分類(Multi-label Document Classification,MDC): MLM能夠有效地表示詞級(jí)別的信息,但是對(duì)于文檔級(jí)的表示,需要文檔級(jí)的預(yù)訓(xùn)練任務(wù)來(lái)引入更高層的語(yǔ)義信息。在預(yù)訓(xùn)練階段使用IIT-CDIP數(shù)據(jù)集為每個(gè)文檔提供了多標(biāo)簽的文檔類型標(biāo)注,同時(shí)引入MDC多標(biāo)簽文檔分類任務(wù)。該任務(wù)使得模型可以利用這些監(jiān)督信號(hào)去聚合相應(yīng)的文檔類別,并捕捉文檔類型信息,從而獲得更有效的高層語(yǔ)義表示。

實(shí)驗(yàn)結(jié)果表明,在預(yù)訓(xùn)練中引入的結(jié)構(gòu)和視覺(jué)信息,能夠有效地遷移到下游任務(wù)中。最終在多個(gè)下游任務(wù)中都取得了顯著的準(zhǔn)確率提升。與傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)模型不同,通用文檔智能預(yù)訓(xùn)練模型的優(yōu)勢(shì)在于可以支持不同類型的下游應(yīng)用。

1.4 文檔智能主流任務(wù)和數(shù)據(jù)集

文檔智能涉及自動(dòng)閱讀、理解和分析文檔的相關(guān)技術(shù),在實(shí)際場(chǎng)景的應(yīng)用中主要包括四大類任務(wù),分別是:

? 文檔版面分析: 指對(duì)文檔版面內(nèi)的圖像、文本、表格信息和位置關(guān)系所進(jìn)行的自動(dòng)分析、識(shí)別和理解的過(guò)程。

? 文檔信息抽?。?指從文檔中大量非結(jié)構(gòu)化內(nèi)容中抽取實(shí)體及其關(guān)系的技術(shù)。與傳統(tǒng)的純文本信息抽取不同,文檔的構(gòu)建使得文字由一維的順序排列變?yōu)槎S的空間排列,因此文本信息、視覺(jué)信息和位置信息在文檔信息抽取中都是極為重要的影響因素。

? 文檔視覺(jué)問(wèn)答: 指給定文檔圖像數(shù)據(jù),利用OCR技術(shù)或其他文字提取技術(shù)自動(dòng)識(shí)別影像資料后,通過(guò)判斷所識(shí)別文字的內(nèi)在邏輯,回答關(guān)于圖片的自然語(yǔ)言問(wèn)題。

? 文檔圖像分類: 指針對(duì)文檔圖像進(jìn)行分析識(shí)別從而歸類的過(guò)程。

對(duì)于這四種主要的文檔智能任務(wù),學(xué)術(shù)界和工業(yè)界也開源了大量相關(guān)的基準(zhǔn)數(shù)據(jù)集,如表1所示。這也極大地推動(dòng)了相關(guān)領(lǐng)域的研究人員構(gòu)建新的算法模型,特別是當(dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的模型在這些任務(wù)上都有不俗的表現(xiàn)。接下來(lái),本文將分別詳細(xì)介紹在過(guò)去不同時(shí)期的經(jīng)典模型和算法,包括基于啟發(fā)式規(guī)則的文檔分析技術(shù)、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文檔分析技術(shù)和基于深度學(xué)習(xí)的通用文檔智能模型,為大家提供參考。

表1 文檔智能領(lǐng)域主流任務(wù)(文檔版面分析、文檔信息抽取、文檔視覺(jué)問(wèn)答、文檔圖像分類)開源數(shù)據(jù)集

2 基于啟發(fā)式規(guī)則的文檔分析技術(shù)

基于啟發(fā)式規(guī)則的文檔分析技術(shù)大致可分為自頂向下、自底向上和混合模式三種方式。自頂向下方式將文檔圖片作為整體逐步將其劃分為不同區(qū)域,以遞歸方式進(jìn)行切割,直至區(qū)域分割至預(yù)定義的標(biāo)準(zhǔn),通常為塊或列。自底向上以像素或組件為基本元素單位,對(duì)基本元素進(jìn)行分組、合并以形成更大的同質(zhì)區(qū)域。自頂向下方式在特定格式下的文檔中能夠更快、更高效地分析文檔。而自底向上方式雖需要耗費(fèi)更多的計(jì)算時(shí)間,但通用性更強(qiáng),可覆蓋更多不同布局類型的文檔?;旌戏绞絼t將其兩者相結(jié)合以嘗試產(chǎn)生更好的效果。

本節(jié)從自頂向下和自底向上兩種角度出發(fā),介紹基于Projection Profile、Image Smearing、Connected Components等方式的文檔分析技術(shù)。

2.1 Projection Profile

Projection Profile作為一種自頂向下的分析方式被廣泛應(yīng)用于文檔分析。Nagy 等人[40]使用Projection Profile中的X-Y切割算法對(duì)文檔進(jìn)行切割,這一方式適用于具有固定文本區(qū)域和行距的結(jié)構(gòu)化文本,但該方式對(duì)邊界噪聲敏感且無(wú)法在傾斜的文本上提供良好性能,對(duì)文檔質(zhì)量要求較高。Itay等人[41]使用自適應(yīng)局部投影方式計(jì)算文檔的傾斜度,以嘗試消除文本傾斜導(dǎo)致的性能下降,實(shí)驗(yàn)證明模型在傾斜和彎曲文本上得到了較為準(zhǔn)確的結(jié)果。此外,還有很多X-Y切割算法的變體被提出以解決現(xiàn)存的缺陷,O′Gorman[42]將X-Y切割算法擴(kuò)展至使用組件邊界框的投影,Sylwester 等人[43]使用了編輯成本評(píng)估指標(biāo)以指導(dǎo)模型進(jìn)行分割,所有這些方法均在一定程度上提高了模型的性能。

Projection Profile分析算法適用于結(jié)構(gòu)化文本,尤其是曼哈頓(Manhattan)布局文檔。在布局復(fù)雜、文本傾斜或包含邊界噪聲的文檔上可能無(wú)法展現(xiàn)出良好的性能。

2.2 Image Smearing

Image Smearing分析法指從一個(gè)位置向四周滲透,逐漸擴(kuò)展至所有同質(zhì)區(qū)域,以此確定頁(yè)面當(dāng)中的一個(gè)區(qū)域。Wong等人[44]采用自頂向下策略,使用游長(zhǎng)平滑算法(Run-length Smoothing Algorithm,RLSA)判斷同質(zhì)區(qū)域。將圖像二值化后,像素值0表示背景,1表示前景,當(dāng)0周圍的0數(shù)目小于指定閾值C時(shí),該位置的0修改為1,游長(zhǎng)平滑算法通過(guò)這一操作將距離相近的前景內(nèi)容合并為整體。這種方式可以逐步將字符合并為單詞,單詞合并為文本行,繼而將范圍不斷延伸至整個(gè)同質(zhì)區(qū)域。Fisher等人[45]在此基礎(chǔ)上對(duì)其做進(jìn)一步改進(jìn),增加了除噪、傾斜矯正等預(yù)處理。此外,游長(zhǎng)平滑算法的閾值C修改為依據(jù)動(dòng)態(tài)算法進(jìn)行調(diào)整,進(jìn)一步提升模型的適應(yīng)能力。Esposito等人[46]采用了類似的方法,但操作對(duì)象由像素改為了字符框。Shi等人[47]則是對(duì)圖片中的每一個(gè)位置像素進(jìn)行擴(kuò)展,得到一個(gè)新的灰度圖,隨后進(jìn)行抽取,在手寫字體、文本傾斜等情況下仍能表現(xiàn)出良好的性能。

2.3 Connected Components

Connected Components分析法作為一種自底向上的技術(shù),推測(cè)最小粒度元素之間的關(guān)系,用于尋找同質(zhì)區(qū)域,最終將區(qū)域分類為不同屬性。Fisher等人[45]采用Connected Components技術(shù),找到每個(gè)組件的K近鄰(KNearest Neighbors,KNN)組件,通過(guò)互相之間的位置、角度等關(guān)系來(lái)推斷當(dāng)前區(qū)域?qū)傩浴aitoh等人[48]判斷并根據(jù)文檔的傾角將文字合并成線,繼而將線合并為區(qū)域,隨后將其分類為不同的屬性。Kise等人[49]同樣嘗試解決文本的傾斜問(wèn)題,作者采用了近似面積Voronoi圖(Approximated Area Voronoi Diagram)來(lái)獲得區(qū)域的候選邊界,這一操作對(duì)于任意傾角的區(qū)域有效。但由于計(jì)算過(guò)程中需要估計(jì)字符間距和行內(nèi)間距,因此當(dāng)文檔中包含大字體及寬字間距等情況時(shí),模型并不能發(fā)揮出良好性能。此外,Bukhari等人[50]也嘗試在使用Connected Components的基礎(chǔ)上使用AutoMLP以便尋找分類器最佳參數(shù),進(jìn)一步提升性能。

2.4 其他方法

除上文所述外,還有一些其他的啟發(fā)式規(guī)則方法,例如,Baird等人[51]采用自頂向下的方式按空白將文檔進(jìn)行切割劃分區(qū)域。Xiao等人[52]使用了Delaunay Triangulation算法進(jìn)行文檔分析,Bukhari等人[53]在此基礎(chǔ)上將其應(yīng)用于書寫隨意的手寫文檔。此外還有一些混合算法,Okamoto等人[54]通過(guò)分隔符和空白來(lái)切割塊,在每個(gè)塊中進(jìn)一步將內(nèi)部組件合并為文本行。Smith[55]將文檔分析分成兩部分,首先使用自底向上的方式來(lái)定位制表符,借助制表符推斷列布局。隨后在列布局上采用自頂向下的方式來(lái)推斷結(jié)構(gòu)和文本順序。

3 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文檔分析技術(shù)

傳統(tǒng)的文檔分析過(guò)程通常分為兩階段: ①將文檔圖片切割,得到多個(gè)不同候選區(qū)域;②對(duì)區(qū)域進(jìn)行屬性分類,將其判別為文本、圖像等規(guī)定類?;跈C(jī)器學(xué)習(xí)的方法也通常從這兩個(gè)角度入手,部分研究工作嘗試使用機(jī)器學(xué)習(xí)算法參與文檔的切割,其余則嘗試在已生成的區(qū)域上構(gòu)造特征,使用機(jī)器學(xué)習(xí)算法對(duì)區(qū)域進(jìn)行分類。此外,由于統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)帶來(lái)的性能上的提升,較多基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法在表格檢測(cè)任務(wù)中被嘗試使用,因表格檢測(cè)是文檔分析的一個(gè)重要子任務(wù),本節(jié)也會(huì)對(duì)其進(jìn)行一些介紹。因此與前文基于技術(shù)角度的闡述方式不同的是,從下文開始將會(huì)從文檔分析中的任務(wù)角度來(lái)對(duì)其發(fā)展情況做出介紹。

3.1 文檔分割

在文檔切割過(guò)程中,Baechler等人[56]結(jié)合X-Y裁剪算法,使用邏輯斯蒂回歸對(duì)文檔進(jìn)行切割,丟棄空白部分。在得到相應(yīng)區(qū)域后,實(shí)驗(yàn)比較了K近鄰、邏輯斯蒂回歸(Logistic Regression,LR)和最大熵馬爾可夫模型(Maximum Entropy Markov Models,MEMM)等算法作為分類器的性能優(yōu)劣,實(shí)驗(yàn)表明,最大熵馬爾可夫模型和邏輯斯蒂回歸在屬性分類任務(wù)上可以展現(xiàn)出較好的性能。Esposito等人[57]在文檔分割過(guò)程中進(jìn)一步加強(qiáng)機(jī)器學(xué)習(xí)算法在其中的參與程度。在自底向上的過(guò)程中,從字母到單詞到文本行逐漸合并的過(guò)程中使用了一種基于內(nèi)核的算法[58],并將結(jié)果轉(zhuǎn)換成XML結(jié)構(gòu)存儲(chǔ)。之后使用文檔組織算法(Document Organization Composer,DOC)對(duì)文檔進(jìn)行分析。Wu等人[59]則致力于文字同時(shí)存在兩種閱讀順序的問(wèn)題,此前的算法均假定文字只有一種書寫方向,但遇到諸如漢語(yǔ)或日語(yǔ)等可以水平或者豎直方向書寫的文字時(shí)無(wú)法正常地工作。該算法將文檔分割分為四個(gè)步驟,用于判斷并處理文本,并使用了支持向量機(jī)以決定是否執(zhí)行步驟。

3.2 區(qū)域分類

在區(qū)域?qū)傩苑诸悊?wèn)題上,大量工作主要致力于嘗試不同機(jī)器學(xué)習(xí)算法作為分類器輸出結(jié)果。其中,Wei等人[60]實(shí)驗(yàn)比較了支持向量機(jī)、多層感知機(jī)(Multi-Layer Perceptron,MLP)和高斯混合模型(Gaussian Mixture Models,GMM)幾種機(jī)器學(xué)習(xí)算法作為分類器時(shí)的性能優(yōu)劣,實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)和多層感知機(jī)在區(qū)域?qū)傩陨系姆诸愋阅苊黠@優(yōu)于高斯混合模型。Bukhari等人[61]手動(dòng)構(gòu)造了多個(gè)特征,對(duì)區(qū)域抽取相應(yīng)特征后使用AutoMLP算法進(jìn)行分類,在阿拉伯語(yǔ)數(shù)據(jù)集中得到了95%的分割準(zhǔn)確率。Baechler等人[56]在文檔分割上做了進(jìn)一步改進(jìn),使用了金字塔形算法,在中世紀(jì)手稿上進(jìn)行了三個(gè)不同級(jí)別的分析,最后使用動(dòng)態(tài)多層感知機(jī)(Dynamic Multi-Layer Perceptron,DMLP)作為分類器。

3.3 表格檢測(cè)

除上述方式之外,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)在表格識(shí)別領(lǐng)域存在大量研究。Wang等人[62-64]使用了二叉樹對(duì)文檔進(jìn)行自上而下的分析來(lái)查找表格候選區(qū),繼而根據(jù)區(qū)域特征確定最終表格區(qū)域。Pinto等人[65]則使用了條件隨機(jī)場(chǎng)在HTML頁(yè)面中抽取表格區(qū)域,并確定表格中的標(biāo)題、子標(biāo)題等內(nèi)容。Silva等人[66]使用隱馬爾可夫(Hidden Markov Models,HMMs)抽取表格區(qū)域。Chen等人[67]在手寫文檔中檢索表格區(qū)域,并使用支持向量機(jī)識(shí)別其中的文字區(qū)域,隨后依據(jù)文本行確定表格所在位置。Kasar等人[68]同樣使用了支持向量機(jī)技術(shù),首先識(shí)別圖中水平和豎直的垂直線,隨后使用支持向量機(jī)對(duì)每條線的屬性進(jìn)行分類,判斷該線條是否屬于表格。Barlas等人[69]使用多層感知機(jī)對(duì)文檔中的Connected Components進(jìn)行分類,判斷其是否為文本。Bansal等人[70]使用leptonica庫(kù)[71]對(duì)文檔進(jìn)行分割,隨后對(duì)每一個(gè)區(qū)域構(gòu)造包含周圍環(huán)境信息的特征。使用Fixed-point Model[72]對(duì)每一個(gè)區(qū)域進(jìn)行分類,用以識(shí)別文檔中的表格區(qū)域。它使得模型在分類過(guò)程中不再孤立地對(duì)區(qū)域進(jìn)行分類,而是學(xué)習(xí)區(qū)域相互之間的關(guān)系。Rashid等人[73]采用了與前一份工作相同的思路,但將操作粒度縮小為單詞級(jí)別,對(duì)每一個(gè)詞進(jìn)行分類,之后使用AutoMLP來(lái)判斷該詞是否屬于表格。

4 基于深度學(xué)習(xí)的文檔智能技術(shù)

近年來(lái),深度學(xué)習(xí)方法已經(jīng)成為許多機(jī)器學(xué)習(xí)問(wèn)題的解決范式。在眾多研究領(lǐng)域,深度學(xué)習(xí)方法被證明是十分有效的。最近,預(yù)訓(xùn)練模型的流行也進(jìn)一步發(fā)掘了深度神經(jīng)網(wǎng)絡(luò)的性能。而文檔智能領(lǐng)域的發(fā)展也體現(xiàn)出同樣的趨勢(shì)。本節(jié)中我們將現(xiàn)存的模型分為針對(duì)特定任務(wù)的深度學(xué)習(xí)模型和支持多種下游任務(wù)的通用預(yù)訓(xùn)練模型進(jìn)行介紹。

4.1 針對(duì)特定任務(wù)的深度學(xué)習(xí)模型

4.1.1 文檔版面分析

文檔版面分析包含兩個(gè)主要的子任務(wù): 文檔視覺(jué)結(jié)構(gòu)分析和文檔語(yǔ)義結(jié)構(gòu)分析[74]。文檔視覺(jué)分析的主要目的是檢測(cè)文檔結(jié)構(gòu)并確定其同類區(qū)域的邊界。而文檔語(yǔ)義結(jié)構(gòu)分析是需要為這些檢測(cè)到的區(qū)域標(biāo)記具體的文檔類別,如標(biāo)題、段落、表格等。PubLayNet[10]是一個(gè)大規(guī)模的文檔版面分析數(shù)據(jù)集,通過(guò)自動(dòng)解析PubMed的XML文件構(gòu)建了超過(guò)360 000個(gè)文檔圖片。DocBank[13]通過(guò)arXiv網(wǎng)站的PDF文件和LaTeX文件的對(duì)應(yīng)關(guān)系自動(dòng)構(gòu)建了一個(gè)可擴(kuò)展的文檔版面分析數(shù)據(jù)集,同時(shí)支持對(duì)基于文本的方法和基于圖像的方法進(jìn)行評(píng)測(cè)。IIIT-AR-13K[23]提供了13 000的人工標(biāo)注的文檔圖片用于版面分析。

1.1節(jié)中介紹了將較為經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在文檔版面分析領(lǐng)域的工作[2-8],但隨著對(duì)文檔版面分析的性能要求逐漸提高,越來(lái)越多的科研工作針對(duì)文檔這一領(lǐng)域?qū)δ繕?biāo)檢測(cè)算法進(jìn)行了針對(duì)性的改進(jìn)。Yang等人[7]將文檔語(yǔ)義結(jié)構(gòu)分析任務(wù)視為一個(gè)逐像素的分類問(wèn)題。他們提出了一個(gè)同時(shí)考慮視覺(jué)和文本信息的多模態(tài)神經(jīng)網(wǎng)絡(luò)。Viana等人[75]提出了一個(gè)用于移動(dòng)和云服務(wù)的文檔布局分析的輕量級(jí)模型。該模型使用圖像的一維信息進(jìn)行推理,并與使用二維信息的模型進(jìn)行比較,在實(shí)驗(yàn)中取得了較高的準(zhǔn)確性。Chen等人[76]介紹了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的手寫歷史文件圖像的頁(yè)面分割方法。Oliveira等人[77]提出了一個(gè)基于CNN的多任務(wù)逐像素預(yù)測(cè)模型。Wick等人[78]提出了一個(gè)用于歷史文件分割的高性能全卷積神經(jīng)網(wǎng)絡(luò)(FCN)。Grüning等人[79]提出了一種針對(duì)歷史文獻(xiàn)的兩階段文本行檢測(cè)方法。Soto等人[80]將上下文信息納入Faster R-CNN模型。該模型利用文章元素內(nèi)容的局部不變性質(zhì),提高了區(qū)域檢測(cè)性能。

4.1.2 表格檢測(cè)與表格結(jié)構(gòu)識(shí)別

在文檔版面分析中,表格理解是一項(xiàng)富有挑戰(zhàn)性的任務(wù)。與標(biāo)題、段落等文檔元素相比,表格的格式通常較為多變,結(jié)構(gòu)也較為復(fù)雜。因此,有大量的相關(guān)工作圍繞表格展開,其中最為主要的兩個(gè)子任務(wù)分別是表格檢測(cè)和表格結(jié)構(gòu)識(shí)別。表格檢測(cè)是指確定文檔中的表格的邊界;表格結(jié)構(gòu)識(shí)別是指將表格的語(yǔ)義結(jié)構(gòu),包括行、列、單元格的信息按照預(yù)定義的格式抽取出來(lái)。

近年來(lái),有許多針對(duì)表格理解這一任務(wù)提出的數(shù)據(jù)集。UNLV[18]和Marmot[19]是較早的表格識(shí)別數(shù)據(jù)集。ICDAR會(huì)議在表格檢測(cè)與識(shí)別上舉辦的多次競(jìng)賽提供了優(yōu)質(zhì)的表格數(shù)據(jù)集[9,16]。但這些傳統(tǒng)表格數(shù)據(jù)集通常較小,難以發(fā)揮現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),因此研究工作TableBank[12]利用LaTex和Office Word來(lái)自動(dòng)構(gòu)建了一個(gè)大規(guī)模的表格理解數(shù)據(jù)集。此后,PubTabNet[11]提出了一個(gè)大規(guī)模表格數(shù)據(jù)集并提供了表格結(jié)構(gòu)及單元格內(nèi)容輔助表格識(shí)別。TNCR[20]在提供表格標(biāo)注的同時(shí)提供了表格類別的標(biāo)注。

針對(duì)表格理解這一任務(wù)的特性,許多目標(biāo)檢測(cè)方法在表格理解領(lǐng)域都能取得較好的效果。Faster R-CNN[3]在表格檢測(cè)任務(wù)上直接應(yīng)用就能取得非常好的性能。在此基礎(chǔ)上,Siddiqui等人[81]通過(guò)將可變形卷積應(yīng)用在Faster R-CNN上獲得了更好的性能。CascadeTabNet[82]使用了Cascade R-CNN[83]模型同時(shí)完成表格檢測(cè)和表格結(jié)構(gòu)識(shí)別。Table-Sense[84]通過(guò)增加單元格特征、添加采樣算法來(lái)顯著提高表格檢測(cè)能力。

除了上述兩個(gè)主要的子任務(wù),針對(duì)已解析后表格的理解也逐漸成為新的挑戰(zhàn)。TaPas[85]是較早的將預(yù)訓(xùn)練技術(shù)引入表格理解任務(wù)的模型。通過(guò)引入額外的位置編碼層,TaPas可以使Transformer[1]編碼器接受結(jié)構(gòu)化的表格輸入。經(jīng)過(guò)在大量的表格數(shù)據(jù)上進(jìn)行掩碼式預(yù)訓(xùn)練后,TaPas在多種下游語(yǔ)義分析任務(wù)中顯著超過(guò)了傳統(tǒng)方法。繼TAPAS后,TUTA模型[86]引入了二維坐標(biāo)樹來(lái)表示結(jié)構(gòu)化表格的層級(jí)信息,并針對(duì)這一結(jié)構(gòu)提出了基于樹結(jié)構(gòu)的位置表示方式和注意力機(jī)制來(lái)顯示建模層次化表格。結(jié)合不同層級(jí)的預(yù)訓(xùn)練任務(wù),TUTA在多個(gè)下游數(shù)據(jù)集上取得了進(jìn)一步的性能提升。

4.1.3 文檔信息抽取

文檔信息抽取是指從大量非結(jié)構(gòu)化富文本文檔內(nèi)容中抽取語(yǔ)義實(shí)體及其之間關(guān)系的技術(shù)。文檔信息抽取任務(wù),文檔類別不同,抽取的目標(biāo)實(shí)體也不盡相同。FUNSD[26]是一個(gè)文檔理解數(shù)據(jù)集,其包含199張表單,每張表單中包含表單實(shí)體的鍵值對(duì)。CORD[28]是一個(gè)票據(jù)理解數(shù)據(jù)集,并包含8個(gè)大類共54小類種實(shí)體標(biāo)簽。Kleister[32]是一個(gè)針對(duì)長(zhǎng)文檔實(shí)體抽取任務(wù)的文檔理解數(shù)據(jù)集,包含有協(xié)議和財(cái)務(wù)報(bào)表等長(zhǎng)文本文檔。DeepForm數(shù)據(jù)集[31]是一個(gè)針對(duì)電視和有線電視政治廣告披露表格的英文數(shù)據(jù)集。EATEN數(shù)據(jù)集[29]是針對(duì)中文證件的信息抽取數(shù)據(jù)集, Yu等人[87]在其400張子集上進(jìn)一步添加了文本框標(biāo)注。EPHOIE[30]數(shù)據(jù)集是一個(gè)針對(duì)中文文檔數(shù)據(jù)的信息抽取數(shù)據(jù)集。XFUND[33]是隨著LayoutXLM模型提出的針對(duì)FUNSD數(shù)據(jù)集的多語(yǔ)言擴(kuò)展版本,包含有除英文以外的七種主流語(yǔ)言的富文本文檔。

由于富文本文檔具有豐富的視覺(jué)信息,所以很多研究工作將文檔信息抽取任務(wù)建模為計(jì)算機(jī)視覺(jué)任務(wù),通過(guò)語(yǔ)義分割或文本框回歸等任務(wù)進(jìn)行信息抽取??紤]到文檔信息抽取中文本信息同樣具有重要作用,通常的框架是將文檔圖片視為像素網(wǎng)格,并在該特征圖上添加文本特征來(lái)獲得更好的特征表示。根據(jù)添加文本特征級(jí)別的不同,這一方法的基本發(fā)展順序呈現(xiàn)出了從字符級(jí)別到單詞級(jí)別再到上下文級(jí)別的趨勢(shì)。Chargrid模型[88]利用一個(gè)基于卷積的編碼器-解碼器網(wǎng)絡(luò),通過(guò)將字符進(jìn)行Onehot編碼來(lái)將文本信息融合到圖像中。VisualWordGrid模型[89]實(shí)現(xiàn)了Wordgrid,通過(guò)將字符級(jí)文本信息換成單詞級(jí)的Word2Vec特征,并融合了一定的視覺(jué)信息,提高了抽取任務(wù)的性能。BERTgrid模型[90]通過(guò)使用BERT獲得了上下文文本表示,進(jìn)一步提升了性能。ViBERTgrid模型[91]在BERTgrid的基礎(chǔ)上將BERT的文本特征較早地在卷積階段與圖像特征進(jìn)行融合,從而獲得了較好的效果。

由于富文本文檔中的信息仍以文本作為主體,很多研究工作將文檔信息抽取任務(wù)作為特殊的自然語(yǔ)言理解任務(wù)。Majumder等人[92]根據(jù)抽取目標(biāo)的類別來(lái)生成目標(biāo)備選,在表單任務(wù)上取得了較好的效果。TRIE模型[93]聯(lián)合文本檢測(cè)識(shí)別與信息抽取,讓兩個(gè)階段的任務(wù)互相促進(jìn),從而獲得更好的信息抽取效果。Wang等人[94]通過(guò)三種不同模態(tài)信息的融合來(lái)預(yù)測(cè)文本片段之間的關(guān)系,實(shí)現(xiàn)了對(duì)表單的層次化抽取。

非結(jié)構(gòu)化的富文本文檔由多個(gè)鄰接的文本片段組成,所以通常使用圖網(wǎng)絡(luò)對(duì)非結(jié)構(gòu)化富文本文檔進(jìn)行表示。文檔中的文本片段建模為圖中的節(jié)點(diǎn),而文本片段之間的關(guān)系則可建模為邊,這樣整個(gè)文檔就可以被表示為一個(gè)圖網(wǎng)絡(luò)。在1.2節(jié)中,我們介紹了圖神經(jīng)網(wǎng)絡(luò)在富文本文檔中進(jìn)行信息抽取的代表性工作[14]。在此基礎(chǔ)上,逐漸有更多的研究工作基于圖神經(jīng)網(wǎng)絡(luò)展開。Wang等人[95]將文檔建模為有向圖,通過(guò)依存分析的方法對(duì)文檔進(jìn)行信息抽取。Riba等人[96]使用基于圖神經(jīng)網(wǎng)絡(luò)的模型來(lái)進(jìn)行發(fā)票中表格的信息抽取。Wei等人[97]通過(guò)在預(yù)訓(xùn)練模型的輸出表示上使用圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)建模文本布局,提高了信息抽取的性能。Cheng等人[98]通過(guò)將文檔表示為圖結(jié)構(gòu)并使用基于圖的注意力機(jī)制,結(jié)合CRF在小樣本學(xué)習(xí)上取得了較好的性能。PICK模型[87]通過(guò)引入一個(gè)可基于節(jié)點(diǎn)進(jìn)行學(xué)習(xí)的圖來(lái)表示文檔,在發(fā)票抽取任務(wù)中取得了較好的性能。

4.1.4 文檔圖像分類

文檔圖像分類是指對(duì)文檔圖像進(jìn)行歸類標(biāo)記的任務(wù)。RVL-CDIP[39]是該任務(wù)中的代表性數(shù)據(jù)集。該數(shù)據(jù)集包含16個(gè)文檔圖像類別共400 000張灰度圖片。Tabacco-3482[38]選取了RVL-CDIP的一個(gè)子集進(jìn)行評(píng)測(cè),共包含3 482張文檔灰度圖片。

由于文檔圖像分類仍然屬于圖像分類的范疇,所以針對(duì)自然圖片的分類算法同樣能較好地解決文檔圖像分類的問(wèn)題。Afzal等人[99]介紹了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的文檔圖像分類方法來(lái)進(jìn)行文檔圖像分類。為了克服小數(shù)據(jù)集樣本不足的問(wèn)題,他們使用了經(jīng)過(guò)ImageNet訓(xùn)練的Alexnet網(wǎng)絡(luò)進(jìn)行初始化,從而遷移到文檔圖像領(lǐng)域。Afzal等人[100]嘗試將GoogLeNet、VGG、ResNet等在自然圖片領(lǐng)域獲得成功的模型通過(guò)遷移學(xué)習(xí)的方式在文檔圖片上進(jìn)行訓(xùn)練。Tensmeyer等人[101]通過(guò)對(duì)模型參數(shù)和數(shù)據(jù)處理的調(diào)整,使CNN模型不借助從自然圖片的遷移學(xué)習(xí)就能獲得優(yōu)于此前模型的性能。Das等人[102]提出了一個(gè)基于不同區(qū)域分類的深度卷積神經(jīng)網(wǎng)絡(luò)框架用于文檔圖像分類。該方法通過(guò)對(duì)文檔的不同區(qū)域分別進(jìn)行分類,最終融合多個(gè)不同區(qū)域的分類器在文檔圖像分類上獲得了明顯的性能提升。Sarkhel等人[103]通過(guò)引入金字塔形的多尺度結(jié)構(gòu)來(lái)抽取不同層級(jí)的特征。Dauphinee等人[104]通過(guò)對(duì)文檔圖片進(jìn)行字符識(shí)別(OCR)獲得文檔的文本,并對(duì)圖像特征和文本特征進(jìn)行組合,進(jìn)一步提升了分類性能。

4.1.5 文檔視覺(jué)問(wèn)答

文檔視覺(jué)問(wèn)答是一個(gè)針對(duì)文檔圖片的高層理解任務(wù)。具體來(lái)說(shuō),給定一張文檔圖片和一個(gè)有針對(duì)性的問(wèn)題,模型需要根據(jù)圖片給出該問(wèn)題的正確答案。具體的例子如圖5所示。針對(duì)文檔的視覺(jué)問(wèn)答工作最早出現(xiàn)在數(shù)據(jù)集DocVQA[34]中,該數(shù)據(jù)集包含了超過(guò)12 000個(gè)文檔和對(duì)應(yīng)的5 000個(gè)問(wèn)題。后來(lái),出現(xiàn)了針對(duì)文檔中圖表的視覺(jué)問(wèn)答工作InfographicVQA[35]。針對(duì)DocVQA數(shù)據(jù)集的答案較短、文檔主題較單一的缺陷,有研究人員提出了VisualMRC[36]數(shù)據(jù)集。除了文檔圖片,針對(duì)網(wǎng)頁(yè)視覺(jué)問(wèn)答的WebSRC[37]數(shù)據(jù)集也受到了廣泛關(guān)注。

圖5 文檔視覺(jué)問(wèn)答任務(wù)示例來(lái)自于DocVQA和VisualMRC數(shù)據(jù)集

不同于傳統(tǒng)VQA任務(wù),文檔視覺(jué)問(wèn)答中的文檔文本對(duì)任務(wù)具有關(guān)鍵作用, 所以現(xiàn)存的代表性方法都將文檔圖片進(jìn)行字符識(shí)別(OCR)處理得到的文檔文本作為重要的信息。在得到文檔文本后,針對(duì)不同數(shù)據(jù)的特點(diǎn), 視覺(jué)問(wèn)答任務(wù)被建模為不同的問(wèn)題。對(duì)于DocVQA數(shù)據(jù)來(lái)說(shuō),絕大部分的問(wèn)題答案都是作為文本片段存在于文檔文本中的,所以主流的方法都將其建模為了機(jī)器閱讀理解問(wèn)題(Machine Reading Comprehension, MRC)。通過(guò)為模型提供視覺(jué)特征和文檔文本,模型根據(jù)問(wèn)題在給定的文檔文本上進(jìn)行文本片段的抽取來(lái)作為問(wèn)題答案。而對(duì)于VisualMRC數(shù)據(jù)集,問(wèn)題的答案通常不蘊(yùn)含在文檔文本片段中,需要給出較長(zhǎng)的抽象回答,因此在這種情況下,可行的方法是使用文本生成式的方法生成問(wèn)題的答案。

4.2 支持多種下游任務(wù)的通用預(yù)訓(xùn)練模型

以上針對(duì)特定任務(wù)的深度學(xué)習(xí)方法,在針對(duì)特定文檔理解任務(wù)上能夠取得較好的性能,然而這些方法主要面臨兩個(gè)限制: ①這些模型通常依賴于有限的標(biāo)記數(shù)據(jù),而忽視了挖掘大量無(wú)標(biāo)注數(shù)據(jù)中的知識(shí)。對(duì)于文檔理解任務(wù),尤其是其中的信息抽取任務(wù)來(lái)說(shuō),詳細(xì)標(biāo)注的數(shù)據(jù)是昂貴且消耗時(shí)間的。另一方面,富文本文檔在現(xiàn)實(shí)生活中大量使用,因而存在著大量的未標(biāo)注文檔,而這些大量的未標(biāo)注數(shù)據(jù)可以使用自監(jiān)督預(yù)訓(xùn)練加以利用。②富文本文檔不僅有大量的文本信息,同時(shí)也包含豐富的版面和視覺(jué)信息。已有的針對(duì)特定任務(wù)的模型由于數(shù)據(jù)量的限制,通常只能通過(guò)預(yù)訓(xùn)練的CV模型或NLP模型來(lái)獲取對(duì)應(yīng)模態(tài)的特征,而且大部分工作只利用單一模態(tài)的信息或者兩種特征的簡(jiǎn)單組合,而不是深度交互。Transformer[1]在遷移學(xué)習(xí)領(lǐng)域的成功證明了深度上下文化(Contextualizing)對(duì)于序列建模的重要性,因此將文本和其他模態(tài)進(jìn)行深度交互融合是一個(gè)較為明顯的趨勢(shì)。

富文本文檔主要包含三種模態(tài)信息: 文本、布局以及視覺(jué)信息,并且這三種模態(tài)在富文本文檔中有天然的對(duì)齊特性。因此,如何對(duì)文檔進(jìn)行建模并且通過(guò)訓(xùn)練達(dá)到跨模態(tài)對(duì)齊是一個(gè)重要的問(wèn)題。LayoutLM[15]以及后續(xù)提出的LayoutLMv2[105]模型的提出正是針對(duì)這一方向進(jìn)行的研究工作。在1.3節(jié)中,我們?cè)敿?xì)介紹了LayoutLM這一通用文檔理解預(yù)訓(xùn)練模型,通過(guò)將文本和布局進(jìn)行聯(lián)合預(yù)訓(xùn)練,LayoutLM在多種文檔理解任務(wù)上取得了顯著的性能提升。在此基礎(chǔ)上,又有許多后續(xù)的研究工作對(duì)這一框架進(jìn)行了針對(duì)性的改進(jìn)。LayoutLM在預(yù)訓(xùn)練過(guò)程中沒(méi)有引入文檔視覺(jué)信息,從而在DocVQA這類需要較強(qiáng)視覺(jué)感知能力的任務(wù)上效果欠佳。對(duì)此,LayoutLMv2[105]通過(guò)將視覺(jué)特征信息融入預(yù)訓(xùn)練過(guò)程中,明顯提高了模型的圖像理解能力。具體來(lái)說(shuō),在結(jié)構(gòu)方面,LayoutLMv2引入了空間感知自注意力機(jī)制,并將視覺(jué)特征作為輸入序列的一部分。在預(yù)訓(xùn)練目標(biāo)方面,LayoutLMv2在掩碼視覺(jué)語(yǔ)言模型(Masked Visual-Language Model)之外又提出了文本-圖像對(duì)齊(Text-Image Alignment)和文本-圖像匹配(Text-Image Match)任務(wù)。通過(guò)在這兩方面的改進(jìn),模型對(duì)于視覺(jué)信息的感知能力大大提高,并在包括DocVQA在內(nèi)的六種下游任務(wù)中獲得了顯著性能提升。

LayoutLM提出之后,許多研究工作針對(duì)這一框架進(jìn)行了針對(duì)性的改進(jìn),其中針對(duì)位置表達(dá)方式的改進(jìn)是一個(gè)主要方向。許多工作將Embedding表示的位置編碼改為了正余弦方式,其中有代表性的是BROS[106]和StructuralLM[107]。BROS[106]在絕對(duì)位置編碼中使用了正弦函數(shù),同時(shí)又在自注意力機(jī)制中通過(guò)正弦函數(shù)引入了文本相對(duì)位置信息,提高了模型對(duì)空間位置的感知能力。StructuralLM[107]在絕對(duì)位置表示方式上通過(guò)在文本塊內(nèi)共享相同的位置信息,幫助模型理解同一文本實(shí)體內(nèi)的文本信息,從而對(duì)信息抽取任務(wù)有進(jìn)一步的幫助。

除了對(duì)位置布局信息這一模態(tài)的改進(jìn)之外,很多研究工作針對(duì)圖像信息做了進(jìn)一步的改進(jìn)。LayoutLMv2的圖像輸入分辨率較低,這在某種程度上限制了模型對(duì)視覺(jué)信息的進(jìn)一步挖掘。為此,許多研究工作針對(duì)視覺(jué)這一模態(tài)進(jìn)行了優(yōu)化和加強(qiáng)。LAMPRET[108]通過(guò)為模型提供更多的視覺(jué)模態(tài)信息如字體、字號(hào)、插圖等,對(duì)網(wǎng)頁(yè)文檔進(jìn)行建模,幫助模型對(duì)豐富的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行建模和理解。SelfDoc[109]采用了雙流(Two-Stream)結(jié)構(gòu),針對(duì)給定的富文本文檔數(shù)據(jù),首先使用預(yù)先訓(xùn)練好的文檔實(shí)體檢測(cè)模型,通過(guò)目標(biāo)檢測(cè)將文檔中所有的語(yǔ)義單元識(shí)別出來(lái),然后使用OCR對(duì)識(shí)別的區(qū)域進(jìn)行光學(xué)字符識(shí)別。針對(duì)識(shí)別出的圖像區(qū)域和文本序列,模型分別使用了Sentence-BERT[110]和Faster-RCNN[3]進(jìn)行了特征抽取,編碼為特征向量,并使用一個(gè)跨模態(tài)的編碼器進(jìn)行編碼,最終獲得了多模態(tài)的表示來(lái)服務(wù)于下游任務(wù)。DocFormer[111]采用分離式多模態(tài)結(jié)構(gòu)(Discrete Multi-Modal),在每層使用位置信息分別結(jié)合文本和圖像模態(tài)使用自注意力機(jī)制。DocFormer首先使用ResNet對(duì)圖像信息進(jìn)行編碼獲得較高分辨率的圖像特征,同時(shí)將文本信息以嵌入(Embedding)的形式編碼為文本特征向量。位置信息向量分別與圖像和文本信息相加,并單獨(dú)傳入Transformer層,每層分別編碼之后重新相加。在這種機(jī)制下,不僅獲取了高清圖像信息,減小了輸入序列,而且不同模態(tài)通過(guò)位置信息進(jìn)行了對(duì)齊,使模型更好地建模了富文本文檔的模態(tài)對(duì)齊關(guān)系。

許多模型在模態(tài)信息表示之外,又針對(duì)不同的模態(tài)設(shè)計(jì)了更豐富的預(yù)訓(xùn)練任務(wù)。例如,BROS[106]除了掩碼式視覺(jué)語(yǔ)言模型(MVLM)之外,提出了基于區(qū)域的掩碼式語(yǔ)言模型(Area-masked Language Modeling)。基于區(qū)域的掩碼會(huì)對(duì)一個(gè)隨機(jī)選擇的區(qū)域內(nèi)的所有文本塊進(jìn)行掩碼操作。其可以被解釋為將SpanBERT[112]中的針對(duì)一維文本的區(qū)間掩碼操作擴(kuò)展為二維空間中文本塊的區(qū)間掩碼。具體來(lái)說(shuō),該操作由以下四個(gè)步驟組成: ①隨機(jī)選擇一個(gè)文本塊,②通過(guò)擴(kuò)大文本塊的區(qū)域來(lái)確定一個(gè)最終區(qū)域,③確定屬于該區(qū)域的文本塊,④對(duì)文本塊的所有文本進(jìn)行掩碼并預(yù)測(cè)它們。LAMPRET[108]額外引入的網(wǎng)頁(yè)實(shí)體順序排序任務(wù),讓模型通過(guò)對(duì)實(shí)體排布順序的預(yù)測(cè)來(lái)學(xué)習(xí)空間位置進(jìn)行預(yù)測(cè)。與此同時(shí),模型還利用了圖像匹配預(yù)訓(xùn)練任務(wù),通過(guò)去除網(wǎng)頁(yè)中的圖像,并通過(guò)檢索的方式進(jìn)行匹配,提高了模型對(duì)多模態(tài)數(shù)據(jù)的語(yǔ)義理解能力。StructuralLM[107]提出的單元位置分類任務(wù)是對(duì)文檔中文本塊的相對(duì)空間位置進(jìn)行建模。給定一組掃描的文件,該任務(wù)旨在預(yù)測(cè)文件中文本塊的位置。首先,富文本文檔被分成N個(gè)相同大小的區(qū)域。然后,模型通過(guò)文本塊的中心二維位置,計(jì)算出該文本塊所屬的區(qū)域。這一研究工作較早地提出了針對(duì)位置信息進(jìn)行掩碼預(yù)測(cè)式學(xué)習(xí)。SelfDoc[109]和DocFormer[111]針對(duì)圖像這一模態(tài)優(yōu)化加強(qiáng)了輸入的同時(shí),也引入了對(duì)應(yīng)的預(yù)訓(xùn)練任務(wù),SelfDoc針對(duì)圖像特征進(jìn)行了掩碼并預(yù)測(cè),從而幫助模型學(xué)習(xí)建模視覺(jué)信息。DocFormer引入了一個(gè)解碼器來(lái)對(duì)圖像信息進(jìn)行重建。在這種情況下,這項(xiàng)任務(wù)類似于自動(dòng)編碼器的圖像重建,但又包含了文本和位置等多模態(tài)特征。在有圖像和文本特征的情況下,圖像重建需要兩種模式的協(xié)作,加強(qiáng)了不同模態(tài)之間的交互。

在模型初始化方面,許多模型利用已有的更加強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型進(jìn)一步提高性能,同時(shí)也可以拓展模型的能力。例如,LAMBERT[113]通過(guò)使用RoBERTa[114]作為預(yù)訓(xùn)練初始化獲得了更好的性能。除了語(yǔ)言理解之外,很多模型著眼于擴(kuò)展模型的語(yǔ)言生成能力。它們的一個(gè)共同特點(diǎn)是都使用了編碼-解碼(Encoder-Decoder)范式。TILT[115]通過(guò)將Layout編碼層引入T5[116]模型并結(jié)合文檔數(shù)據(jù)預(yù)訓(xùn)練,使模型能夠處理文檔領(lǐng)域的生成任務(wù)。LayoutT5和LayoutBART[36]在文檔視覺(jué)問(wèn)答任務(wù)微調(diào)階段在T5和BART[117]模型的基礎(chǔ)上引入文本位置編碼,來(lái)幫助模型理解并生成問(wèn)題答案。

這些模型雖然在英文數(shù)據(jù)上取得了成功,但對(duì)于非英語(yǔ)世界來(lái)說(shuō)文檔理解任務(wù)同樣重要。LayoutXLM[33]最早在多語(yǔ)言富文本文檔上進(jìn)行多語(yǔ)言預(yù)訓(xùn)練的研究工作。LayoutXLM基于LayoutLMv2的模型結(jié)構(gòu),通過(guò)使用53種語(yǔ)言進(jìn)行預(yù)訓(xùn)練,擴(kuò)展了LayoutLM的語(yǔ)言支持。與此同時(shí),相比于純文本的跨語(yǔ)言模型,LayoutXLM在遷移能力上具有明顯優(yōu)勢(shì),這證明了不僅多語(yǔ)言文本之間可以進(jìn)行跨語(yǔ)言學(xué)習(xí),而且多語(yǔ)言富文本文檔之間也可以進(jìn)行文檔布局的遷移學(xué)習(xí)。

富文本文檔通??煞譃閮深悾?第一類是固定布局的文件,如掃描的文檔圖像和數(shù)字原生的PDF文件,其布局和風(fēng)格信息是預(yù)先渲染的,與軟件、硬件或操作系統(tǒng)無(wú)關(guān)。這一特性使得現(xiàn)有的基于布局的預(yù)訓(xùn)練方法(LayoutLM)很容易適用于文檔理解任務(wù)。第二類是基于標(biāo)記語(yǔ)言的文檔,如HTML/XML等,其布局和風(fēng)格信息需要根據(jù)軟件、硬件或操作系統(tǒng)進(jìn)行交互和動(dòng)態(tài)渲染以實(shí)現(xiàn)可視化。對(duì)基于標(biāo)記語(yǔ)言的文檔,二維布局信息并不以明確的格式存在,而是通常需要針對(duì)不同的設(shè)備動(dòng)態(tài)呈現(xiàn),例如移動(dòng)/桌面/臺(tái)式機(jī),這使得目前基于布局的預(yù)訓(xùn)練模型難以應(yīng)用。為此,MarkupLM[118]在一個(gè)單一的框架中聯(lián)合預(yù)訓(xùn)練文本和標(biāo)記語(yǔ)言,用于基于標(biāo)記語(yǔ)言的文檔理解任務(wù)。 與固定布局的文檔不同,MarkupLM為通過(guò)標(biāo)記結(jié)構(gòu)進(jìn)行的文檔表示學(xué)習(xí)提供了另一種視角,因?yàn)樵陬A(yù)訓(xùn)練中不能直接使用二維位置信息和文檔圖像信息,而MarkupLM利用基于樹形的標(biāo)記結(jié)構(gòu)來(lái)模擬文檔中不同單元之間的關(guān)系,提高了標(biāo)記語(yǔ)言文檔理解問(wèn)題的準(zhǔn)確性。

除了通用多模態(tài)預(yù)訓(xùn)練模型之外,基于ViT視覺(jué)Transformer[119-126]的圖像預(yù)訓(xùn)練技術(shù)近來(lái)取得了很大進(jìn)展,研究人員通過(guò)有監(jiān)督預(yù)訓(xùn)練方法或者自監(jiān)督預(yù)訓(xùn)練等技術(shù)將視覺(jué)Transformer模型應(yīng)用到圖像分類、物體識(shí)別、場(chǎng)景分割等領(lǐng)域,取得了顯著的進(jìn)展。受自監(jiān)督預(yù)訓(xùn)練視覺(jué)Transformer模型BEiT[123]的啟發(fā),Li等提出一種自監(jiān)督文檔圖像Transformer模型DiT[127],通過(guò)利用海量無(wú)標(biāo)注文檔圖像數(shù)據(jù)進(jìn)行大規(guī)模自監(jiān)督預(yù)訓(xùn)練,在文檔圖像分類、文檔版面分析、表格檢測(cè)等任務(wù)均取得了最佳的結(jié)果。與自然圖像理解領(lǐng)域不同,由于文檔圖像理解的研究并不存在類似于ImageNet這樣的大規(guī)模人工標(biāo)注數(shù)據(jù)集,因此無(wú)須人工標(biāo)注數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練技術(shù)在文檔智能領(lǐng)域?qū)l(fā)揮越來(lái)越重要的作用。

5 未來(lái)發(fā)展方向

商業(yè)文檔的自動(dòng)閱讀和分析具有明顯的應(yīng)用價(jià)值,是自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)交叉領(lǐng)域的一個(gè)重要研究方向。因此我們分別從自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)以及多模態(tài)融合的角度來(lái)梳理一下文檔智能的未來(lái)發(fā)展方向。

從自然語(yǔ)言處理的角度出發(fā),近年來(lái)以BERT[128]為代表的大規(guī)模自監(jiān)督預(yù)訓(xùn)練成為自然語(yǔ)言處理的主流研究方向。與此同時(shí),在大規(guī)模預(yù)訓(xùn)練模型基礎(chǔ)上,以GPT-3[129]為代表的提示學(xué)習(xí)(Prompt Learning)研究方法;為文本預(yù)訓(xùn)練模型的應(yīng)用給出一種新型的范式,能夠達(dá)到低計(jì)算量與性能調(diào)優(yōu)的平衡,受到了廣泛關(guān)注。GPT-3通過(guò)上下文學(xué)習(xí)(In-context Learning)的方法在零樣本(Zero-shot)和少樣本(Few-shot)學(xué)習(xí)中展現(xiàn)出與BERT完全不同的結(jié)論和性能,因此應(yīng)該探究在文檔智能領(lǐng)域大模型的性質(zhì),以及如何利用大模型進(jìn)行文檔智能下游任務(wù)的微調(diào),例如Parameter-efficient相關(guān)的方法也是非常重要的。

文檔智能中有大量以文檔圖片為載體的信息抽取和問(wèn)答任務(wù),如表單/發(fā)票理解等。由于這些任務(wù)所需的數(shù)據(jù),人工標(biāo)注代價(jià)很高,對(duì)自監(jiān)督預(yù)訓(xùn)練模型有很強(qiáng)的需求。除此之外,如何降低模型參數(shù)微調(diào)(Fine-tuning)計(jì)算量也是這些任務(wù)亟待解決的問(wèn)題,因此文檔圖像的提示學(xué)習(xí)技術(shù)也是未來(lái)十分重要的一個(gè)研究方向。

從計(jì)算機(jī)視覺(jué)的角度出發(fā),以ViT視覺(jué)Transformer[119]為代表的大規(guī)模預(yù)訓(xùn)練技術(shù)近年來(lái)也成為計(jì)算機(jī)視覺(jué)的主流研究方向。由于文檔圖像理解領(lǐng)域不存在類似ImageNet這種大規(guī)模人工標(biāo)注數(shù)據(jù)集,但無(wú)標(biāo)注的文檔圖像卻大量存在,因此自監(jiān)督文檔圖像預(yù)訓(xùn)練模型對(duì)于文檔智能領(lǐng)域的發(fā)展至關(guān)重要。文檔智能領(lǐng)域中圖像理解任務(wù)大多與版面分析相關(guān),如光學(xué)字符識(shí)別(OCR)、文檔對(duì)象識(shí)別,特別是表格識(shí)別等。傳統(tǒng)的研究方法通常依賴任務(wù)相關(guān)的標(biāo)注數(shù)據(jù)來(lái)解決,相信隨著視覺(jué)自監(jiān)督預(yù)訓(xùn)練模型的發(fā)展和成熟,對(duì)于標(biāo)注數(shù)據(jù)的依賴會(huì)越來(lái)越小。

作為自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)的交叉領(lǐng)域,文檔智能更多地應(yīng)用了多模態(tài)融合技術(shù)。以LayoutLM[15]為代表的多模態(tài)文檔智能預(yù)訓(xùn)練模型成為文檔智能的主流研究方向。當(dāng)前多模態(tài)融合主要采用將不同模態(tài)的信息通過(guò)跨模態(tài)對(duì)齊任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)和預(yù)訓(xùn)練,取得了不錯(cuò)的效果。文檔智能領(lǐng)域中的多數(shù)任務(wù)都會(huì)同時(shí)利用文本信息和圖像信息,因此如何挖掘文本與圖像之間的關(guān)聯(lián)成為文檔智能理解的重要任務(wù)。與此同時(shí),不同模態(tài)之間的互補(bǔ)性也將決定文檔智能任務(wù)的精確度和可擴(kuò)展性。

展望未來(lái),除了解決文檔多頁(yè)跨頁(yè)、訓(xùn)練數(shù)據(jù)質(zhì)量參差不齊、多任務(wù)關(guān)聯(lián)性較弱以及少樣本零樣本學(xué)習(xí)等問(wèn)題,還應(yīng)該特別關(guān)注文字檢測(cè)識(shí)別OCR技術(shù)與文檔智能技術(shù)的結(jié)合,因?yàn)槲臋n智能下游任務(wù)的輸入通常來(lái)自于自動(dòng)文字檢測(cè)和識(shí)別算法,文字識(shí)別的準(zhǔn)確性往往對(duì)于下游任務(wù)有很大的影響。此外,如何將文檔智能技術(shù)與現(xiàn)有人類知識(shí)以及人工處理文檔的技巧相結(jié)合,也是未來(lái)值得探索的一個(gè)研究課題。

6 結(jié)語(yǔ)

信息處理是數(shù)字化轉(zhuǎn)型的基礎(chǔ)和前提,如今對(duì)處理能力、處理速度和處理精度也都有越來(lái)越高的要求。以商業(yè)領(lǐng)域?yàn)槔娮由虡I(yè)文檔就涵蓋了采購(gòu)單據(jù)、行業(yè)報(bào)告、商務(wù)郵件、銷售合同、雇傭協(xié)議、商業(yè)發(fā)票、個(gè)人簡(jiǎn)歷等大量繁雜的信息。機(jī)器人流程自動(dòng)化(Robotic Process Automation,RPA)行業(yè)正是在這一背景下應(yīng)運(yùn)而生,其利用人工智能技術(shù)幫助大量人工從繁雜的電子文檔處理任務(wù)中解脫出來(lái),并通過(guò)一系列配套的自動(dòng)化工具提升生產(chǎn)力,RPA的關(guān)鍵核心之一就是文檔智能分析技術(shù)。過(guò)去的20年間,文檔智能分析技術(shù)主要經(jīng)歷了三個(gè)階段,從最初的基于啟發(fā)式規(guī)則,過(guò)渡到基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,到近來(lái)基于深度學(xué)習(xí)的方法,極大地提升了分析性能和準(zhǔn)確率。與此同時(shí)我們也觀察到,以LayoutLM為代表的大規(guī)模自監(jiān)督通用文檔智能預(yù)訓(xùn)練模型也越來(lái)越多地受到人們的關(guān)注和使用,逐步成為構(gòu)建更為復(fù)雜算法的基本單元,后續(xù)研究工作也層出不窮,促使文檔智能領(lǐng)域加速發(fā)展。

猜你喜歡
表格文檔模態(tài)
《現(xiàn)代臨床醫(yī)學(xué)》來(lái)稿表格要求
有人一聲不吭向你扔了個(gè)文檔
統(tǒng)計(jì)表格的要求
統(tǒng)計(jì)表格的要求
統(tǒng)計(jì)表格的要求
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
威信县| 潜山县| 富源县| 陆良县| 揭阳市| 射洪县| 仲巴县| 南靖县| 灵台县| 徐汇区| 玉门市| 新巴尔虎左旗| 昭苏县| 汶上县| 保山市| 张家川| 邹城市| 陈巴尔虎旗| 阳曲县| 东辽县| 南汇区| 淅川县| 嘉定区| 邯郸市| 海晏县| 新化县| 邵武市| 教育| 太和县| 大城县| 凤山县| 化德县| 吉安县| 康马县| 平顺县| 大田县| 平南县| 轮台县| 且末县| 双流县| 枣阳市|