鄭曉旭,舒珊珊,文成玉
(成都信息工程大學(xué)通信工程學(xué)院,四川成都 610225)
智能閱卷、銀行支票識(shí)別、自動(dòng)入檔等解放人類(lèi)勞動(dòng)力的應(yīng)用需求,催促著自動(dòng)文字識(shí)別技術(shù)的發(fā)展。漢字字符種類(lèi)繁多,不同字符間相似度高,書(shū)寫(xiě)者書(shū)寫(xiě)風(fēng)格復(fù)雜多變,字跡下傾上漂等對(duì)識(shí)別算法造成極大干擾,使其成為模式識(shí)別領(lǐng)域中的熱點(diǎn)研究問(wèn)題。
基于分割的手寫(xiě)文本識(shí)別,將輸入的文本圖片進(jìn)行分割,獲得整個(gè)或部分字符的一系列片段,組合這些片段生成候選項(xiàng),利用字符分類(lèi)器和上下文信息完成識(shí)別[1-2]。由于粘連字符難以切分,錯(cuò)誤切分對(duì)連續(xù)識(shí)別造成影響,額外的后處理過(guò)程導(dǎo)致模型設(shè)計(jì)過(guò)于復(fù)雜,識(shí)別算法開(kāi)始向無(wú)分割的方法衍生。無(wú)分割的方法主要利用滑動(dòng)窗口滑動(dòng)步長(zhǎng),通過(guò)分類(lèi)器對(duì)窗口內(nèi)字符進(jìn)行識(shí)別。識(shí)別過(guò)程無(wú)需任何字符或單詞切分,避免字符切分錯(cuò)誤對(duì)識(shí)別精度的影響。如Su等[3]提出高斯混合隱馬爾可夫模型(hidden markov model,HMM)對(duì)滑動(dòng)窗口內(nèi)的字符進(jìn)行識(shí)別。
深度卷積神經(jīng)網(wǎng)絡(luò)贏得圖像分類(lèi)挑戰(zhàn)后,基于深度神經(jīng)網(wǎng)絡(luò)的無(wú)分割手寫(xiě)識(shí)別方法不斷被提出。從模型的結(jié)構(gòu)和切入角度分析,可分為面向文本行和文本頁(yè)識(shí)別的模型。文本行識(shí)別模型采用編-解碼或特征對(duì)齊等技術(shù),將輸入的文本行圖像看作多字符序列映射問(wèn)題。Shi 等[4]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),提出卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型(convolutional recurrent neural network,CRNN)直接運(yùn)行于單詞標(biāo)簽上,CNN 進(jìn)行特征提取,RNN 建模序列信息。Messian等[5]利用多維長(zhǎng)短時(shí)記憶(long-short term memory,LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端文本識(shí)別。上述模型表現(xiàn)出良好性能,但存在以下限制:循環(huán)網(wǎng)絡(luò)對(duì)于長(zhǎng)序列文本聯(lián)系的利用并不充分,其序列信息生成依賴(lài)于循環(huán)迭代過(guò)程,造成強(qiáng)烈耦合;固定感受野的CNN 模型,對(duì)于脫機(jī)漢字大小不一致的特點(diǎn),提取的特征表達(dá)力不夠,導(dǎo)致泛化性弱。
文本頁(yè)圖片無(wú)分割的識(shí)別方法[6-7],通過(guò)拉伸、擠壓方式將整個(gè)文本頁(yè)圖片逐漸壓縮成幾行或一整行特征圖進(jìn)行識(shí)別。該策略丟失文本的定位信息,無(wú)法處理傾斜文本,復(fù)雜的層次結(jié)構(gòu)會(huì)加重識(shí)別難度,識(shí)別性能有待提高。
為解決上述問(wèn)題,本文提出一種基于注意力多分支卷積和Transformer的手寫(xiě)文本識(shí)別算法。通過(guò)文本糾正模塊進(jìn)行傾斜計(jì)算糾正文本,由注意力多分支卷積實(shí)現(xiàn)變感受野和注意力機(jī)制結(jié)合,從而聚焦文本圖像重要特征,通過(guò)自注意力機(jī)制捕獲序列長(zhǎng)距離語(yǔ)義關(guān)系。
本文所提出的算法框架主要由檢測(cè)網(wǎng)絡(luò)和識(shí)別網(wǎng)絡(luò)兩部分構(gòu)成,如圖1所示。檢測(cè)網(wǎng)絡(luò)主要完成文本定位和傾斜信息獲取,識(shí)別網(wǎng)絡(luò)主要完成文本糾正、特征提取和文本預(yù)測(cè)識(shí)別。
其中,識(shí)別網(wǎng)絡(luò)包含文本糾正模塊、注意力多分支提取網(wǎng)絡(luò)、語(yǔ)義提取層和輸出層,具體設(shè)置如下:
(1)檢測(cè)網(wǎng)絡(luò)用于將輸入文本圖片轉(zhuǎn)換為單文本行表示形式,使用包含位置信息的坐標(biāo)點(diǎn)表示不同行文本所在區(qū)域,同時(shí)坐標(biāo)點(diǎn)暗含了文本的傾斜信息。該層的輸入為整張文本,輸出是文本信息坐標(biāo)點(diǎn)。
(2)識(shí)別網(wǎng)絡(luò)中文本糾正模塊用于糾正傾斜文本,采用透視變換對(duì)文本圖片進(jìn)行空間映射變換。該層輸入的是文本行圖片和位置信息坐標(biāo)點(diǎn),輸出的是糾正后圖片。
(3)在注意力多分支卷積層中,分別對(duì)每層的特征圖進(jìn)行基于空間和通道注意力的細(xì)化特征提取,以及變化感受野堆疊的分支特征融合,最后得到字符特征表達(dá)形式。該層輸入的是文本圖片,輸出提取的文本字符特征。
(4)語(yǔ)義提取層將上一步的字符特征轉(zhuǎn)變?yōu)榘舷挛牡男蛄行畔⑻卣?使用TCN 做序列特征提取,Transformer 使用自注意力機(jī)制融合文本上下文語(yǔ)義信息,輸出的是基于自注意力權(quán)重的序列特征。
(5)輸出層通過(guò)鏈接時(shí)序分類(lèi)CTC 做序列特征對(duì)齊,實(shí)現(xiàn)表征序列到文本序列的轉(zhuǎn)化,完成文本預(yù)測(cè)識(shí)別。該層輸入是語(yǔ)義提取層獲取的時(shí)間步特征,輸出是整張文本的識(shí)別文本。
在檢測(cè)網(wǎng)絡(luò)產(chǎn)生文本行定位信息,選用PAN++[8]檢測(cè)網(wǎng)絡(luò)作為文本定位模型。模型采用語(yǔ)義分割的方法,能檢測(cè)任意形狀的文本。每行文本視為周?chē)袼匕奈谋局行暮?不同文本核之間存在間隔以此區(qū)分不同文本行。選擇ResNet[9]作為骨架網(wǎng)絡(luò),塊堆疊數(shù)目設(shè)置為3、3、9、3,滑動(dòng)步長(zhǎng)設(shè)置為2,在每個(gè)殘差堆疊塊中引入深度可分離卷積來(lái)減少網(wǎng)絡(luò)參數(shù)量,沿用其特征增強(qiáng)模塊(FPEMv2),以融合不同尺度的特征信息。檢測(cè)效果如圖2所示。
圖2 文本檢測(cè)結(jié)果圖
1.3.1 文本圖片糾正
文本檢測(cè)網(wǎng)絡(luò)只涉及文本的定位,在無(wú)約束的條件下,手寫(xiě)文本上漂下傾,對(duì)識(shí)別造成影響,識(shí)別前利用糾正算法對(duì)文本進(jìn)行水平糾正。檢測(cè)網(wǎng)絡(luò)的定位信息包含4 個(gè)頂點(diǎn)坐標(biāo),采用透視變換糾正傾斜的文本行。透視變換把圖片投影到一個(gè)新的視平面,從二維平面轉(zhuǎn)換到三維空間,再映射到另一個(gè)二維平面。變換矩陣由給定的4 個(gè)頂點(diǎn)坐標(biāo)和目標(biāo)坐標(biāo)計(jì)算可得,變換公式:
式中,(x,y)為原始圖片的坐標(biāo)點(diǎn),變換的目標(biāo)坐標(biāo)為(x′,y′),展開(kāi)可得:
由文本行頂點(diǎn)信息可獲得變換后目標(biāo)坐標(biāo)點(diǎn)。首先進(jìn)行傾斜計(jì)算:
計(jì)算傾斜角θ表示傾斜程度,正負(fù)表示文本上傾或下斜,(x1,y1)、(x4,y4)表示左上、右上頂點(diǎn)。
然后,根據(jù)得到的角度θ變換至水平位置的目標(biāo)坐標(biāo)點(diǎn)(x′,y′)。變換前后的8 個(gè)坐標(biāo)點(diǎn)利用式(2)得到變換矩陣,通過(guò)矩陣透視變換文本行至水平方向,獲得糾正后的文本圖片,如圖3所示。
圖3 文本行糾正結(jié)果圖
1.3.2 識(shí)別框架
文本圖像轉(zhuǎn)換為字符序列對(duì)齊,需要獲得細(xì)粒度的字符特征,要求特征提取網(wǎng)絡(luò)能突出文本圖像的重要區(qū)域,有效提取各個(gè)字符。從圖像的全局特征角度設(shè)計(jì)含有注意力機(jī)制的多分支卷積層,關(guān)注特征圖中重要區(qū)域,以及增強(qiáng)重要特征通道。語(yǔ)義特征層則實(shí)現(xiàn)字符特征到序列特征映射,建模特征序列上下文信息以構(gòu)建序列特征間的語(yǔ)義聯(lián)系。圖4 為識(shí)別網(wǎng)絡(luò)總體結(jié)構(gòu),其中虛線(xiàn)框表示特征提取操作,主要由注意力多分支卷積和下采樣來(lái)實(shí)現(xiàn),實(shí)線(xiàn)框表示語(yǔ)義提取操作,主要由TCN 和Transformer 來(lái)實(shí)現(xiàn),后通過(guò)鏈接時(shí)序分類(lèi)完成文本識(shí)別。
圖4 識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)圖
通過(guò)堆疊注意力多分支卷積和下采樣層進(jìn)行輸入圖片的高維特征提取,注意力分支卷積層中包含不同數(shù)量的多分支卷積和多層感知機(jī),構(gòu)成SeBlock_1~SeBlock_5 五個(gè)特征提取層,每層后添加下采樣層,以此縮減輸入圖片尺寸和通道增加,由h×w減小至1×w/8,通道數(shù)由1 增加至1024。
語(yǔ)義提取層,通過(guò)時(shí)間卷積網(wǎng)絡(luò)引導(dǎo)字符特征到序列特征映射,主要由4 層因果卷積層和空洞卷積所構(gòu)成,每層空洞數(shù)翻倍;通過(guò)Transformer 建模特征序列上下文信息,主要由6 層堆疊的自注意力編碼器構(gòu)成,該層維持特征圖大小和通道數(shù)不變。另外,在最后一層Transformer 后連接線(xiàn)性層,通道數(shù)由1024 變?yōu)榉诸?lèi)類(lèi)別數(shù)。
1.3.3 注意力多分支卷積層
由于不規(guī)范的書(shū)寫(xiě)會(huì)嚴(yán)重影響網(wǎng)絡(luò)的判別力,如連筆拖拽、部首分離,使得卷積網(wǎng)絡(luò)特征提取過(guò)程關(guān)注干擾區(qū)域,造成誤判。注意力機(jī)制[10]模擬了人眼的視覺(jué)感知,通過(guò)對(duì)不同區(qū)域進(jìn)行注意力映射,以減小干擾信息的權(quán)重輸入,聚焦有用信息的提取。在卷積網(wǎng)絡(luò)中引入空間和通道注意力,利用空間定位和通道壓縮,實(shí)現(xiàn)跨通道和空間信息整合,提升網(wǎng)絡(luò)的關(guān)鍵信息提取能力和過(guò)濾背景噪聲。經(jīng)過(guò)多層卷積后,原始高維特征圖亦含有重要語(yǔ)義信息,在空間和通道注意力殘差連接輸入特征,利用原始輸入特征提升深度神經(jīng)網(wǎng)絡(luò)收斂性,空間和通道注意力結(jié)構(gòu)如圖5 和圖6所示。
圖5 空間注意力結(jié)構(gòu)圖
圖6 通道注意力結(jié)構(gòu)圖
空間注意力使用最大池化和平均池化進(jìn)行輸入特征In∈RN×C×H×W通道維度壓縮,得到輸入紋理特征信息Fm∈RN×1×H×W和背景特征Fv∈RN×1×H×W,級(jí)聯(lián)拼接特征信息,經(jīng)卷積核尺寸為7 的卷積層將特征通道壓縮為1,再經(jīng)Sigmoid 函數(shù)激活后得到文本區(qū)域的空間注意力權(quán)重映射Sn(In)。通道注意力在空間維度上壓縮輸入特征圖In,經(jīng)全局平均池化和最大池化得到不同維度的空間背景特征:Fg∈RN×C×1×1和Fm∈RN×C×1×1,通過(guò)共享的多層感知機(jī)(multilayer perceptron,MLP)網(wǎng)絡(luò)進(jìn)行非線(xiàn)性變換,輸出兩個(gè)不同的特征圖逐點(diǎn)求和并利用Sigmoid 函數(shù)激活,得到文本通道注意力映射Cn(In)。Sn(In)和Cn(In):
式中,K7×7表示7×7 卷積,⊕表示維度拼接操作,MLP表示經(jīng)過(guò)采用ReLU 函數(shù)激活的多層感知機(jī)。
注意力機(jī)制優(yōu)化了網(wǎng)絡(luò)關(guān)注區(qū)域,而特征提取過(guò)程依賴(lài)于卷積層感受野。因脫機(jī)文本書(shū)寫(xiě)風(fēng)格多變,使得受限于單一感受野的單卷積核,并不能較好適應(yīng)文本變化。小尺寸卷積核注重于文本淺層特征,輸入圖片較大的情況下,需經(jīng)過(guò)多層疊加以擴(kuò)充感受野來(lái)整合高階信息。較大尺寸卷積核全局信息提取能力更強(qiáng),但忽視了細(xì)微特征,在深層特征語(yǔ)義信息下,影響網(wǎng)絡(luò)表達(dá)能力?;谏鲜鎏匦?引入提供變化感受野的分支卷積。通過(guò)并行疊加不同尺寸的卷積核,利用不同的感受野來(lái)實(shí)現(xiàn)不同尺寸特征融合。同時(shí)結(jié)合多層感知機(jī),達(dá)到高維空間非線(xiàn)性變換。多次疊加分支卷積構(gòu)成注意力多分支卷積層SeBlock,結(jié)構(gòu)如圖7所示。給定輸入特征In∈Rh×w×c,經(jīng)注意力卷積層得到輸出特征On∈Rh′×w′×c′,h′、w′和c′由卷積層決定,具體設(shè)置如表1所示。Fn表示輸入特征到輸出特征的映射函數(shù),即On=Fn(In),添加注意力的卷積塊映射函數(shù)表示:
表1 卷積層結(jié)構(gòu)設(shè)置
記C′n=Cn[Sn(In)×In+In],S′n=Sn(In),將式(7)代入式(6),進(jìn)一步展開(kāi)得到:
式(9)由兩個(gè)部分組成,第一部分表示注意力模塊對(duì)上一層卷積主干提取的特征從不同方面進(jìn)行映射,抽取細(xì)粒度特征。與卷積主干特征相乘,Sigmoid函數(shù)會(huì)將特征值限制在0~1,以此增強(qiáng)相關(guān)特征信息和抑制不相關(guān)特征信息。第二部分表示分支卷積作用過(guò)程,對(duì)注意力映射和殘差連接的原始輸入特征進(jìn)行高層特征提取,以實(shí)現(xiàn)注意力引導(dǎo)卷積層。
1.3.4 語(yǔ)義提取層
語(yǔ)義特征層首先使用時(shí)間卷積網(wǎng)絡(luò)(temporal convolution network,TCN)做序列特征的提取,序列特征描述了文本的先后順序,序列位置輸出與序列之前位置有關(guān),通過(guò)TCN 提取感受野范圍內(nèi)的局部上下文信息,以學(xué)習(xí)序列依賴(lài)信息,引入空洞卷積擴(kuò)大感受野,整合長(zhǎng)距離的信息。
為了讓序列信息有效融合,選擇多頭注意力機(jī)制[11]對(duì)序列特征進(jìn)行自注意力計(jì)算,得到含有權(quán)重的特征表示,以此交互上下文信息。Transformer 編碼器使用自注意力機(jī)制,輸入序列中任意兩個(gè)位置之間的距離縮小為一個(gè)常量,以鍵值對(duì)的形式建模輸入序列間的語(yǔ)義關(guān)系,多頭機(jī)制映射至不同的子空間去學(xué)習(xí)特征,優(yōu)化不同特征部分。編碼器結(jié)構(gòu)如圖8所示。
圖8 Transformer 編碼器結(jié)構(gòu)圖
序列特征多頭自注意力計(jì)算如下:
特征序列fin∈R(N,L,C)經(jīng)過(guò)權(quán)重矩陣映射得到Q,K,V∈R(N,L,C),被M個(gè)注意力頭均分為Qi,Ki,Vi∈R(N,M,L,C/M),映射過(guò)程如下:
每個(gè)注意力頭內(nèi)通過(guò)Qi與Ki的轉(zhuǎn)置做點(diǎn)積運(yùn)算,經(jīng)過(guò)Softmax 歸一化,求得各個(gè)位置在序列中的不同關(guān)聯(lián)程度Atti∈R(N,M,L,L):
得到的權(quán)重向量再與V做點(diǎn)積,加權(quán)各位置語(yǔ)義輸出,以此融合不同位置的語(yǔ)義特征,再拼接上不同頭輸出,形成多頭注意力,計(jì)算如下:
實(shí)驗(yàn)所用的數(shù)據(jù)集為公開(kāi)數(shù)據(jù)集 CASIAHWDB2.x,由1019 名書(shū)寫(xiě)者書(shū)寫(xiě)完成,包含5091 張文本圖片,2703 類(lèi)字符類(lèi)別,字符數(shù)為1349414。數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中4076 張圖片用作訓(xùn)練集,1015 張用于測(cè)試集,
實(shí)驗(yàn)平臺(tái)為Win10 操作系統(tǒng)、NVIDIA GeForce RTX 3070 顯卡,使用PyTorch 框架搭建網(wǎng)絡(luò),優(yōu)化器選用Adam,初始學(xué)習(xí)率設(shè)為0.001,批大小數(shù)量設(shè)置為8,訓(xùn)練輪數(shù)epoch 為50。文本圖像大小調(diào)整為736×736 輸入網(wǎng)絡(luò)中,不額外使用語(yǔ)言模型來(lái)優(yōu)化識(shí)別結(jié)果。
為評(píng)估識(shí)別網(wǎng)絡(luò)的性能,采用Levenstein 字符編輯距離[12]用作度量方式,計(jì)算插入、刪除和替換的字符數(shù),得到準(zhǔn)確率(AR)和正確率(CR)兩個(gè)評(píng)價(jià)指標(biāo),計(jì)算如下:
其中,Nc表示輸入文本圖像的字符序列長(zhǎng)度,Dc表示需要?jiǎng)h除字符的數(shù)量,Ic表示需要插入字符的數(shù)量,Sc表示替換錯(cuò)誤字符的數(shù)量。
近年來(lái)不同方法在CASIA-HWDB2.x 數(shù)據(jù)集上識(shí)別性能的對(duì)比如表2所示,分別提供了不同條件下識(shí)別精度結(jié)果。文獻(xiàn)[5]使用多維長(zhǎng)短時(shí)記憶循環(huán)網(wǎng)絡(luò)MDLSTM-RNN 結(jié)合CTC 鏈接時(shí)序分類(lèi)用于端到端識(shí)別,文獻(xiàn)[14]和文獻(xiàn)[15]使用CNN 提取特征,并在LSTM 和CNN 分別引入注意力機(jī)制賦予特征不同的權(quán)重,識(shí)別性能較文獻(xiàn)[5]取得很大提升,意味著注意力機(jī)制能增強(qiáng)網(wǎng)絡(luò)對(duì)重要信息的捕捉能力。文獻(xiàn)[13]使用CNN-ResLSTM 結(jié)合數(shù)據(jù)預(yù)處理以及文本圖片糾正,文獻(xiàn)[16]使用像素級(jí)別糾正的深度網(wǎng)絡(luò)進(jìn)行CNN和RNN 中像素糾正,識(shí)別率分別提升1.78%和4.4%,說(shuō)明文本糾正有助于識(shí)別提升。此外,文獻(xiàn)[5]、[13]和文獻(xiàn)[15]額外使用語(yǔ)言模型以提高識(shí)別準(zhǔn)確率。
表2 不同方法識(shí)別結(jié)果 單位:%
本文所提方法在特征提取階段使用注意力多分支卷積,提供變化感受野,融合不同尺度特征,語(yǔ)義提取階段使用自注意機(jī)制構(gòu)建序列特征語(yǔ)義上下文,因而具有更好的特征提取能力。除文獻(xiàn)[16]和使用語(yǔ)言模型的文獻(xiàn)[15]外,表2 中其余方法CR 準(zhǔn)確率均低于本文方法。由于參與對(duì)比的方法皆為單文本行輸入圖片識(shí)別結(jié)果,針對(duì)本文方法有效性討論,額外測(cè)試單文本行輸入圖片下的識(shí)別性能,結(jié)果如表2 最后一項(xiàng),所提方法取得CR 和AR 較最高CR 和AR 準(zhǔn)確率皆有提升,驗(yàn)證了本文模型的可行性。
另外,本文還在CASIA-HWDB2.x 數(shù)據(jù)集上進(jìn)行一系列消融實(shí)驗(yàn),以驗(yàn)證所提模型的有效性。首先對(duì)注意力卷積層特征提取能力分析,再在最終識(shí)別模型的基礎(chǔ)上刪除注意力卷積層的不同組件,性能對(duì)比如表3所示。注意力和多分支特征融合在單獨(dú)使用下,CR 分別提升0.5%和0.2%,這意味著注意力分支卷積層提取特征能力更強(qiáng),賦予網(wǎng)絡(luò)更強(qiáng)的泛化性。
表3 注意力卷積層組件結(jié)果對(duì)比 單位:%
模型選用TCN 和transformer 編碼器作為序列和語(yǔ)義特征提取層,該模塊由兩部分所構(gòu)成。為了驗(yàn)證不同部分對(duì)性能的影響,對(duì)不同配置獲得的精度和速度進(jìn)行了比較,所有的實(shí)驗(yàn)都在同一個(gè)數(shù)據(jù)集和特征提取網(wǎng)絡(luò)下進(jìn)行,實(shí)驗(yàn)結(jié)果如表4所示。
表4 TCN 和Transformer 堆疊層數(shù)對(duì)比結(jié)果
可以看出,使用TCN 和Transformer 提升了網(wǎng)絡(luò)精度,CR 和AR 在TCN 和6 層Transformer 的配置達(dá)到最高,而隨著Transformer 層數(shù)的不斷加深,準(zhǔn)確率有所下降,可能深度過(guò)深引起網(wǎng)絡(luò)退化;單張圖片推理時(shí)間由204 ms增長(zhǎng)至211 ms,較不使用語(yǔ)義提取層,推理時(shí)間增加7.5%,TCN 的使用對(duì)推理時(shí)間幾乎無(wú)影響,表明語(yǔ)義提取層對(duì)推理速度無(wú)明顯降低。
圖9 為模型的訓(xùn)練曲線(xiàn),圖9(a)和(b)為訓(xùn)練損失以及驗(yàn)證損失值曲線(xiàn)。隨著訓(xùn)練輪數(shù)epoch 增加,損失值快速下降,20 輪后曲線(xiàn)趨近于平穩(wěn)。圖9(c)和(d)為CR 和AR 準(zhǔn)確率曲線(xiàn),兩者總體趨勢(shì)趨近于一致,快速上升后緩慢增長(zhǎng)。
圖9 網(wǎng)絡(luò)訓(xùn)練曲線(xiàn)圖
針對(duì)手寫(xiě)中文文本識(shí)別,提出一種注意力分支卷積和Transformer 的文本定位和識(shí)別方法。文本識(shí)別網(wǎng)絡(luò)利用透視變換將文本圖像定位信息進(jìn)行傾斜文本糾正;特征提取階段使用注意力分支卷積獲取文本區(qū)域的注意力分布和變感受野特征融合,從而有效適應(yīng)長(zhǎng)文本的變化;語(yǔ)義提取層使用TCN 和Transformer 用于整合序列特征和上下文語(yǔ)義特征提取。在公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明所提方法的可行性。接下來(lái)的研究工作將應(yīng)用于其他手寫(xiě)體語(yǔ)言。