国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種面向結(jié)構(gòu)化文本圖像識(shí)別的深度學(xué)習(xí)模型

2020-04-08 12:48:56唐三立程戰(zhàn)戰(zhàn)
關(guān)鍵詞:矩形框結(jié)構(gòu)化卷積

唐三立,程戰(zhàn)戰(zhàn),鈕 毅,雷 鳴

(杭州??低晹?shù)字技術(shù)股份有限公司,浙江 杭州 310051)

0 引 言

結(jié)構(gòu)化文本識(shí)別[1]是在通用文本識(shí)別技術(shù)[2]的基礎(chǔ)上,增加了文本結(jié)構(gòu)化的功能需求。其中,通用文本識(shí)別技術(shù)通常應(yīng)用于非結(jié)構(gòu)化文本場(chǎng)景,例如交通場(chǎng)景圖像中的車牌號(hào)識(shí)別、物流運(yùn)輸場(chǎng)景圖像中的集裝箱號(hào)識(shí)別等。在這類場(chǎng)景中,僅需通過檢測(cè)算法對(duì)圖像中的車牌號(hào)、集裝箱號(hào)文本區(qū)域進(jìn)行定位,再使用文本識(shí)別模型對(duì)僅包含文本的圖像區(qū)域進(jìn)行識(shí)別,從而得到所需的文本字符串。而在結(jié)構(gòu)化文本場(chǎng)景中,要求模型不僅僅能檢測(cè)、識(shí)別出圖像中的文本,還要對(duì)不同字段的文本屬性進(jìn)行分類。例如,對(duì)于一張出租車票,要求模型將識(shí)別得到的“2017年01月01日”歸為“日期”類別,將識(shí)別得到的“上海市”歸為“歸屬地”類別。因此,結(jié)構(gòu)化文本圖像識(shí)別解決方案需要具有對(duì)圖像中若干文本區(qū)域檢測(cè)、區(qū)域內(nèi)文本識(shí)別和區(qū)域內(nèi)文本屬性分類等3種能力?,F(xiàn)有結(jié)構(gòu)化文本識(shí)別系統(tǒng)通常由3個(gè)分立的模型構(gòu)成:文本檢測(cè)模型、文本識(shí)別模型及信息結(jié)構(gòu)化模型。對(duì)于一張結(jié)構(gòu)化文本圖像,先使用檢測(cè)模型[3-5]對(duì)圖像中的文本字段進(jìn)行定位,然后將裁剪后的文本子圖輸入識(shí)別模型[6-8]獲得相應(yīng)的文本內(nèi)容,最后根據(jù)識(shí)別結(jié)果以及文本所在圖像中的位置,設(shè)計(jì)一套基于版式、規(guī)則或者可學(xué)習(xí)模型的算法[9],進(jìn)而得到每個(gè)文本的屬性類別。但是,這3個(gè)子模型在訓(xùn)練時(shí)單獨(dú)優(yōu)化,各自達(dá)到最優(yōu)解時(shí)往往不是全局的最優(yōu)解;每個(gè)檢測(cè)到的文本區(qū)域均需要送入識(shí)別模型進(jìn)行文本識(shí)別,大量不感興趣區(qū)域的文本識(shí)別造成計(jì)算資源的浪費(fèi);同時(shí),模型數(shù)量多、參數(shù)量大、開發(fā)調(diào)試?yán)щy。針對(duì)以上不足,本文提出一種可端到端訓(xùn)練優(yōu)化的結(jié)構(gòu)化文本識(shí)別模型,包含3個(gè)分支,即文本檢測(cè)、結(jié)構(gòu)化與識(shí)別。3個(gè)分支共享1個(gè)圖像特征提取子模塊,可進(jìn)行全局訓(xùn)練優(yōu)化;并將結(jié)構(gòu)化分支嵌入檢測(cè)與識(shí)別分支之間,利用結(jié)構(gòu)化分支對(duì)檢測(cè)得到的所有文本區(qū)域進(jìn)行篩選,僅將“感興趣”屬性對(duì)應(yīng)的文本區(qū)域送入識(shí)別分支進(jìn)行識(shí)別;同時(shí),通過端到端訓(xùn)練使圖像特征提取子模塊接收來自檢測(cè)、識(shí)別分支的監(jiān)督信號(hào),提取特征的同時(shí)能抽取到文本信息結(jié)構(gòu)化所需的文本幾何特征和語義特征,從而使得文本結(jié)構(gòu)化分支有較高的分類準(zhǔn)確率。

1 結(jié)構(gòu)化文本識(shí)別模型設(shè)計(jì)

基于單模型的可端到端訓(xùn)練的結(jié)構(gòu)化文本識(shí)別模型網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包含卷積特征提取模塊、文本區(qū)域粗定位模塊、文本區(qū)域精定位與屬性分類模塊和文本識(shí)別模塊。一張輸入圖像經(jīng)過卷積特征提取模塊得到相應(yīng)的卷積特征,常用的卷積特征提取網(wǎng)絡(luò)有殘差網(wǎng)絡(luò)(Residual Networks,ResNet)[10]、VGGNet[11]等。圖像卷積特征通過文本區(qū)域粗定位模塊得到文本區(qū)域矩形框坐標(biāo),可通過區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN)[12]等網(wǎng)絡(luò)來實(shí)現(xiàn)。根據(jù)粗定位的矩形坐標(biāo)在全局卷積特征中截取相應(yīng)區(qū)域的特征,并通過可求導(dǎo)的特征對(duì)齊方式縮放至固定尺寸。再由文本區(qū)域精定位與屬性分類模塊獲得精確的文本區(qū)域坐標(biāo)與文本屬性,根據(jù)文本屬性篩選出感興趣的字段區(qū)域。隨后,通過1次特征對(duì)齊得到用于識(shí)別的卷積特征,最后通過序列解碼得到每個(gè)感興趣字段區(qū)域內(nèi)的識(shí)別結(jié)果字符串。至此,依次獲得輸入圖像中圖像文本區(qū)域坐標(biāo)、對(duì)應(yīng)文本區(qū)域的屬性以及文本區(qū)域內(nèi)的字符串識(shí)別結(jié)果。

圖1 可端到端訓(xùn)練的文本結(jié)構(gòu)化識(shí)別模型網(wǎng)絡(luò)結(jié)構(gòu)圖

1.1 卷積特征提取模塊

本文采用ResNet50[10]結(jié)合特征金字塔(Feature Pyramid Network, FPN)[13]模塊得到卷積特征,并且在ResNet50的最后一個(gè)卷積層增加一個(gè)步長(zhǎng)為2的最大池化層,得到相對(duì)于原圖下采樣4,8,16,32,64倍的5組特征圖。通過引入FPN模塊,5組卷積特征圖各自融合來自更高層級(jí)的、語義信息更豐富的上下文特征,在保留高分辨率的紋理特征的同時(shí)增大了網(wǎng)絡(luò)的感受野。因此,卷積特征提取模塊能獲取輸入圖像不同分辨率層級(jí)的卷積特征,為后續(xù)檢測(cè)、識(shí)別不同尺寸大小的文本奠定基礎(chǔ)。

1.2 文本區(qū)域粗定位模塊

文本區(qū)域粗定位模塊與Faster RCNN[12]網(wǎng)絡(luò)中RPN模塊類似,由全卷積網(wǎng)絡(luò)構(gòu)成。通過計(jì)算預(yù)先生成的一系列不同大小、長(zhǎng)寬比的錨點(diǎn)矩形框(anchor)與圖中真實(shí)文本區(qū)域的交并比(Intersection of Unit,IoU)來確定其是否包含文本區(qū)域以及其與真實(shí)文本框的幾何差值,即對(duì)應(yīng)于文本區(qū)域粗定位模塊的分類損失與回歸損失。

對(duì)于分類損失,當(dāng)IoU大于0.7時(shí),為正樣本,標(biāo)注為p*=1;當(dāng)IoU小于0.3時(shí),為負(fù)樣本,p*=0;當(dāng)IoU介于0.3與0.7之間時(shí),在訓(xùn)練時(shí)將其忽略。對(duì)于RPN預(yù)測(cè)的某一錨點(diǎn)矩形框?yàn)檎龢颖镜母怕蕄,使用交叉熵來定義其分類損失:

(1)

對(duì)于回歸損失,本文只將屬于正樣本的錨點(diǎn)矩形框與其對(duì)應(yīng)的真實(shí)文本框的差值作為網(wǎng)絡(luò)的回歸目標(biāo)。設(shè)錨點(diǎn)矩形框的幾何中心、寬高分別為xa,ya,wa,ha,與其對(duì)應(yīng)的真實(shí)文本矩形框的幾何中心、寬高分別為xg,yg,wg,hg。對(duì)于錨點(diǎn)矩形框,網(wǎng)絡(luò)的回歸目標(biāo)為:

(2)

回歸損失用連續(xù)可導(dǎo)的SmoothL1函數(shù)計(jì)算:

(3)

式中,σ為預(yù)先設(shè)定的可調(diào)參數(shù)。

由此,對(duì)于某一錨點(diǎn)矩形框,RPN對(duì)其與對(duì)應(yīng)的真實(shí)文本矩形框預(yù)測(cè)的偏差為ax,ay,aw,ah,則RPN模塊的回歸損失函數(shù)為:

(4)

式(4)中對(duì)應(yīng)式(3)中SmoothL1函數(shù)的超參σ設(shè)為1/9。

本文將錨點(diǎn)矩形框的寬長(zhǎng)比設(shè)置為0.1,0.2,0.4,0.8,1.6,3.2,盡可能覆蓋極長(zhǎng)、短、豎排文本;錨點(diǎn)矩形框面積設(shè)為322,642,1282,2562像素,盡可能覆蓋不同大小的文本。不同長(zhǎng)寬比和尺寸相互組合,使RPN輸出的預(yù)測(cè)圖的每個(gè)坐標(biāo)位置對(duì)應(yīng)6×4=24個(gè)錨點(diǎn)矩形框區(qū)域。

1.3 文本區(qū)域精定位與屬性分類模塊

將經(jīng)過RPN網(wǎng)絡(luò)預(yù)測(cè)誤差矯正過的正樣本錨點(diǎn)矩形框和一定數(shù)量的負(fù)樣本錨點(diǎn)矩形框作為提議矩形框(proposal),由RoIAlign[12]特征截取對(duì)齊后,得到固定尺寸的特征圖,再送入文本區(qū)域精定位與屬性分類模塊。

文本區(qū)域精定位與屬性分類模塊主要承擔(dān)結(jié)構(gòu)化文本識(shí)別任務(wù)中文本高精度檢測(cè)與信息結(jié)構(gòu)化的功能,由若干卷積與全連接運(yùn)算構(gòu)成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 文本區(qū)域精定位與屬性分類模塊網(wǎng)絡(luò)結(jié)構(gòu)圖

對(duì)于文本高精度位置的檢測(cè),模型通過預(yù)測(cè)提議矩形框到其對(duì)應(yīng)的真實(shí)矩形框的中心點(diǎn)坐標(biāo)偏差px,py和寬高偏差pw,ph,實(shí)現(xiàn)文本區(qū)域定位的二次矯正。同時(shí),文本高精度檢測(cè)僅對(duì)感興趣區(qū)域的提議矩形框進(jìn)行預(yù)測(cè),不對(duì)負(fù)樣本及屬性為不感興趣的文本區(qū)域進(jìn)行預(yù)測(cè)。其損失誤差與RPN網(wǎng)絡(luò)中定義基本一致,

(5)

式(5)中對(duì)應(yīng)式(3)中SmoothL1函數(shù)的超參σ設(shè)為1.0。

對(duì)于文本屬性的分類,通過一個(gè)簡(jiǎn)單的全連接網(wǎng)絡(luò)來實(shí)現(xiàn)。對(duì)于需要分為感興趣的C類屬性的不同文本區(qū)域,通過全連接網(wǎng)絡(luò)輸出C+2個(gè)預(yù)測(cè)單元,分別代表對(duì)輸入提議矩形框預(yù)測(cè)的屬于感興趣的C類文本區(qū)域?qū)傩?、不感興趣的1類文本區(qū)域?qū)傩砸约?類背景區(qū)域的概率,該分類損失使用多分類的交叉熵Lcls2進(jìn)行衡量。

至此,通過文本區(qū)域精定位與屬性分類模塊,本文提出的結(jié)構(gòu)化文本識(shí)別模型已經(jīng)能夠?qū)Y(jié)構(gòu)化文本圖像中文本區(qū)域進(jìn)行精確定位,同時(shí)對(duì)文本屬性進(jìn)行分類,實(shí)現(xiàn)了結(jié)構(gòu)化文本識(shí)別模型中文本檢測(cè)、信息結(jié)構(gòu)化的功能。

1.4 文本識(shí)別模塊

本文采用與文本區(qū)域精定位及屬性分類模塊相同的特征裁剪及對(duì)齊方式對(duì)感興趣的C類文本區(qū)域進(jìn)行處理,獲得感興趣區(qū)域文本紋理特征,并將這些特征送文本識(shí)別模塊。文本識(shí)別模塊由任意的基于CTC[14]或者Attention[6-7]的文本識(shí)別網(wǎng)絡(luò)構(gòu)成,文本所采用的識(shí)別模塊由一系列卷積特征提取操作、基于雙向長(zhǎng)短期記憶模型(Long Short-Term Memory, LSTM)的序列編碼操作以及基于注意力(Attention)的序列解碼操作組成,最后對(duì)解碼后的特征通過全連接網(wǎng)絡(luò)對(duì)不同的字符進(jìn)行分類。其中,識(shí)別分支的卷積特征提取由修改后的ResNet32[10]構(gòu)成,將步長(zhǎng)為2的卷積下采樣替換為步長(zhǎng)為2的最大值池化(MaxPooling)。為了適應(yīng)大多數(shù)水平排布文本特征提取,保證特征在水平方向上有較高分辨率,將最后2個(gè)池化最大值池化水平方向上步長(zhǎng)設(shè)為1。雙向LSTM模塊隱層及輸出層特征維度均為256。Attention序列解碼模塊的隱層特征維度為256,序列長(zhǎng)度為25。

設(shè)zi為識(shí)別模塊在第i時(shí)刻預(yù)測(cè)的字符,oi為L(zhǎng)STM在第i時(shí)刻的輸出,h為文本區(qū)域的卷積特征,其特征圖高為1。識(shí)別模塊輸出端全連接網(wǎng)絡(luò)權(quán)重為Wout,bout,則識(shí)別模塊的預(yù)測(cè)輸出表示為:

p(zi|z1,…,zi-1,h)=Softmax(Woutoi+bout)

(6)

LSTM的外部輸入為經(jīng)過Attention加權(quán)得到的文本區(qū)域的卷積特征ci,LSTM網(wǎng)絡(luò)第i-1時(shí)刻的隱層特征為si-1,則LSTM網(wǎng)絡(luò)表示為:

(oi,si)=LSTM(zi-1,si-1,ci)

(7)

對(duì)于長(zhǎng)度為N的字符串,設(shè)數(shù)據(jù)集中中英文字符類別數(shù)目為K,字符串中第n個(gè)字符標(biāo)簽為yn,則基于Attention解碼的文本識(shí)別網(wǎng)絡(luò)損失函數(shù)如下:

(8)

綜上,本文提出的結(jié)構(gòu)化文本識(shí)別模型兼具了文本檢測(cè)、文本屬性分類、文本圖像識(shí)別功能。上述4個(gè)子模塊中所有運(yùn)算均可導(dǎo),且各子模塊銜接時(shí)使用可導(dǎo)的RoIAlign進(jìn)行局部區(qū)域特征對(duì)齊,故本文模型可以進(jìn)行端到端訓(xùn)練,其目標(biāo)函數(shù)由文本粗定位模塊、文本區(qū)域精定位與屬性分類模塊、文本識(shí)別模塊的損失函數(shù)加權(quán)構(gòu)成:

L=(Lcls+Lreg)+α(Lcls2+Lreg2)+βLrecog

(9)

式中,超參α與β分別控制文本區(qū)域精定位與屬性分類模塊、文本識(shí)別模塊的損失占總損失的相對(duì)權(quán)重。為了緩解文本檢測(cè)、識(shí)別分支訓(xùn)練速度差異大的問題,本文設(shè)為α=1,β=5。

2 實(shí)驗(yàn)分析

在自建的票據(jù)及電子簡(jiǎn)歷等結(jié)構(gòu)化文本場(chǎng)景數(shù)據(jù)集中驗(yàn)證本文提出的結(jié)構(gòu)化文本識(shí)別模型的有效性。數(shù)據(jù)集如表1所示。數(shù)據(jù)集中各類票據(jù)圖像均為掃描版圖像,且票據(jù)主體占據(jù)圖像區(qū)域的80%以上,電子簡(jiǎn)歷數(shù)據(jù)直接從pdf格式簡(jiǎn)歷轉(zhuǎn)換至圖像格式。

表1 結(jié)構(gòu)化文本數(shù)據(jù)集

作為對(duì)照組,本文采用一個(gè)三階段的結(jié)構(gòu)化文本識(shí)別方案進(jìn)行對(duì)比(后稱為“三階段模型”),分別為文本檢測(cè)、文本識(shí)別與文本結(jié)構(gòu)化(屬性分類)獨(dú)立模型或算法,這也是當(dāng)前絕大多數(shù)結(jié)構(gòu)化文本識(shí)別所采用的方案[2]。文本檢測(cè)模型類似于1.2節(jié)所述的文本區(qū)域粗定位模塊,文本識(shí)別模型類似于1.4節(jié)所述的文本識(shí)別模塊,文本結(jié)構(gòu)化模型為利用各類結(jié)構(gòu)化文本圖像特點(diǎn)定制的文本屬性分類算法,其輸入為圖像中所有文本框坐標(biāo)以及相應(yīng)的文本內(nèi)容,結(jié)合版式、規(guī)則等特點(diǎn),輸出每個(gè)文本矩形框所屬的類別。上述3個(gè)獨(dú)立的文本檢測(cè)、識(shí)別、信息結(jié)構(gòu)化模型均在表1相應(yīng)數(shù)據(jù)集中進(jìn)行訓(xùn)練及驗(yàn)證,各自達(dá)到最優(yōu)后串接形成作為對(duì)照組的結(jié)構(gòu)化文本識(shí)別解決方案。

本文提出的結(jié)構(gòu)化文本識(shí)別模型以及作為對(duì)照的“三階段模型”中的檢測(cè)模型、識(shí)別模型、結(jié)構(gòu)化模型均在8塊V100 32GB的GPU上進(jìn)行訓(xùn)練,其測(cè)試基于單塊V100 32GB的GPU。對(duì)于模型效率的分析,采用幀率(Frame Per Second, FPS)進(jìn)行衡量。在后續(xù)實(shí)驗(yàn)分析中,將本文提出的可端到端訓(xùn)練的結(jié)構(gòu)化文本識(shí)別模型稱為“單階段模型”。

針對(duì)不同數(shù)據(jù)集特點(diǎn),訓(xùn)練時(shí)進(jìn)行以下數(shù)據(jù)擴(kuò)增:(1)旋轉(zhuǎn):除電子簡(jiǎn)歷數(shù)據(jù)集外,圖像隨機(jī)旋轉(zhuǎn)(-10°,10°);(2)縮放:出租車發(fā)票、定額發(fā)票、火車票數(shù)據(jù)集長(zhǎng)邊隨機(jī)縮放至(600,900)像素,電子簡(jiǎn)歷數(shù)據(jù)集長(zhǎng)邊隨機(jī)縮放至(1 200, 1 800)像素,短邊進(jìn)行等比例縮放;(3)圖像亮度及對(duì)比度:亮度隨機(jī)增加(-32,32)像素值,對(duì)比度隨機(jī)縮放(0.5,1.5)倍。測(cè)試時(shí),除電子簡(jiǎn)歷數(shù)據(jù)長(zhǎng)邊縮放至1 500像素外,其余數(shù)據(jù)集圖像長(zhǎng)邊均縮放至750像素,短邊進(jìn)行等比例縮放,在單一尺度下進(jìn)行測(cè)試,無其它數(shù)據(jù)增強(qiáng)方式。

在出租車發(fā)票中,需要識(shí)別“發(fā)票代碼”、“發(fā)票號(hào)碼”、“日期”、“上車時(shí)間”、“下車時(shí)間”、“行駛里程”、“單價(jià)”、“等候時(shí)間”、“金額”等9個(gè)感興趣的字段,兩種模型在出租車發(fā)票測(cè)試集中的測(cè)試結(jié)果如表2所示,其預(yù)測(cè)結(jié)果可視化如圖3所示。圖3中,冒號(hào)前表示結(jié)構(gòu)化分支預(yù)測(cè)的文本框?qū)傩裕疤?hào)后表示識(shí)別分支預(yù)測(cè)的字符串結(jié)果,屬性“nc”表示不感興趣的文本區(qū)域。為了更好地區(qū)分不同屬性的文本區(qū)域,圖3中用不同顏色的矩形框表示不同屬性類別的文本。

表2 出租車發(fā)票測(cè)試集各字段準(zhǔn)確率與幀率

圖3 出租車測(cè)試集的結(jié)構(gòu)化文本識(shí)別結(jié)果可視化圖

兩種模型在火車票、定額發(fā)票、簡(jiǎn)歷測(cè)試集中的測(cè)試結(jié)果如表3所示。

表3 火車票、定額發(fā)票、簡(jiǎn)歷測(cè)試集各字段準(zhǔn)確率與幀率

由表2和表3可以看出:本文提出的結(jié)構(gòu)化文本識(shí)別模型不僅在識(shí)別精度上優(yōu)于三階段模型,同時(shí)幀率上有3~5倍的提高,效率上有明顯的優(yōu)勢(shì)。

分別使用本文提出的單階段結(jié)構(gòu)化文本識(shí)別模型、現(xiàn)有的三階段模型在火車票數(shù)據(jù)集上進(jìn)行可視化分析,其中部分敏感信息已被人工擦除,結(jié)果如圖4所示。圖4中,在“起始城市”字段識(shí)別時(shí),三階段模型將“站”表示地點(diǎn)的關(guān)鍵信息錯(cuò)誤地預(yù)測(cè)成“不感興趣”,而單階段模型通過聯(lián)合訓(xùn)練使得結(jié)構(gòu)化分支同時(shí)接受來自檢測(cè)的文本幾何特征與來自識(shí)別的語義特征,從而做出正確的屬性類型預(yù)測(cè)。又如“日期時(shí)間”字段,由于時(shí)間冒號(hào)“:”不清晰導(dǎo)致了三階段模型輸出缺少“:”,給后續(xù)結(jié)構(gòu)化分析增加了難度。而單階段模型的識(shí)別分支通過接受來自結(jié)構(gòu)化分支的“日期時(shí)間”字段屬性特征,使得識(shí)別分支面對(duì)模糊字段仍然做出正確預(yù)測(cè)。因此,單階段模型通過聯(lián)合訓(xùn)練優(yōu)化能有效消除各模塊單獨(dú)訓(xùn)練時(shí)不兼容的依賴關(guān)系,各子模塊之間相輔相成,達(dá)到聯(lián)合最優(yōu)效果。

圖4 兩種模型在火車票圖像上的識(shí)別結(jié)果

3 結(jié)束語

本文提出一種集檢測(cè)、屬性分類、識(shí)別功能為一體的結(jié)構(gòu)化文本識(shí)別模型,在識(shí)別精度上達(dá)到或超過由3個(gè)獨(dú)立子模型構(gòu)成的結(jié)構(gòu)化文本識(shí)別算法,效率上也有3~5倍的提升。本文設(shè)計(jì)的文本屬性分類模塊通過學(xué)習(xí)模型對(duì)文本屬性進(jìn)行預(yù)測(cè),避免了人工設(shè)計(jì)繁瑣的規(guī)則,在實(shí)際應(yīng)用中能有效減少開發(fā)、維護(hù)成本,具有較大的工業(yè)應(yīng)用價(jià)值。但是,本文所提出的結(jié)構(gòu)化文本識(shí)別模型僅局限于小角度傾斜的掃描版結(jié)構(gòu)化文本圖像識(shí)別,對(duì)于較大角度的傾斜、彎曲等文本圖像場(chǎng)景,模型的文本識(shí)別與字段屬性分類精度受到一定程度上的影響。此外,隨著檢測(cè)、識(shí)別、結(jié)構(gòu)化等子領(lǐng)域技術(shù)的發(fā)展,本文所述結(jié)構(gòu)化文本識(shí)別模型中各檢測(cè)、識(shí)別、文本結(jié)構(gòu)化等子模塊可以進(jìn)行同步更新?lián)Q代,從而進(jìn)一步提高模型的性能。

猜你喜歡
矩形框結(jié)構(gòu)化卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的物體抓取檢測(cè)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
一種汽車式起重機(jī)防傾翻方法的研究
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
PowerPoint 2013圖片裁剪技巧兩則
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
西宁市| 鹤壁市| 富蕴县| 黎城县| 博兴县| 宝兴县| 泽州县| 抚宁县| 正安县| 儋州市| 烟台市| 大丰市| 武强县| 余庆县| 武川县| 申扎县| 乌拉特前旗| 桐城市| 庄浪县| 新干县| 祁东县| 连州市| 古蔺县| 汉中市| 曲麻莱县| 综艺| 汉沽区| 伊金霍洛旗| 罗源县| 盐山县| 晋宁县| 彭山县| 东乡县| 时尚| 夏邑县| 康平县| 东明县| 四川省| 广平县| 无棣县| 巧家县|