王德青,吾守爾·斯拉木,許苗苗
1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
2.新疆大學(xué) 新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830046
文字作為人類文明的標(biāo)志,是記錄思想、文化和歷史的載體,是信息交流的途徑,也是人類感知世界的重要手段。文字是不同于普通視覺(jué)元素的信息來(lái)源,可以和其他視覺(jué)元素信息形成互補(bǔ)。文字中包含的高層語(yǔ)義,使得場(chǎng)景信息可以被高效地利用,這對(duì)理解圖像具有非凡的學(xué)術(shù)意義。自然場(chǎng)景中的圖像通常包含豐富的文字信息,對(duì)分析和理解場(chǎng)景圖像的內(nèi)容有著重要作用。當(dāng)前,隨著互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多的領(lǐng)域需要利用圖像中的文字信息[1]。
光學(xué)字符識(shí)別(Optical Character Recognition,OCR)[2]技術(shù)是指運(yùn)用電子設(shè)備對(duì)圖像中的文字進(jìn)行檢測(cè),然后識(shí)別出圖像中的文字內(nèi)容。場(chǎng)景文字識(shí)別(Scene Text Recognition,STR)[3]是在自然場(chǎng)景中圖像分辨率低、背景復(fù)雜、字體多樣等情況下,將圖像信息轉(zhuǎn)化為文字序列的過(guò)程。當(dāng)前,很多人定義OCR 技術(shù)不僅包括傳統(tǒng)意義上對(duì)簡(jiǎn)單二值圖像中的的文字識(shí)別,還包括復(fù)雜的自然場(chǎng)景圖像中的文字檢測(cè)和識(shí)別。近年來(lái),OCR 技術(shù)的應(yīng)用使得人們工作與生活的效率大幅提升,OCR技術(shù)也是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)研究方向。近年來(lái),圖像里的文本檢測(cè)與識(shí)別技術(shù)發(fā)展迅速,但是由于受到識(shí)別文本的語(yǔ)種、數(shù)據(jù)集的大小及公開時(shí)間等限制,場(chǎng)景圖像文字檢測(cè)識(shí)別技術(shù)目前尚不能滿足實(shí)際應(yīng)用中的需求,為此該技術(shù)的應(yīng)用前景非常廣闊。
目前,隨著人工智能的飛速發(fā)展以及英文和中文的廣泛使用,研究圖像里的中英文文字識(shí)別在機(jī)器翻譯、圖像視頻文本識(shí)別、文檔識(shí)別等領(lǐng)域具有極其重要的意義。同樣,維吾爾文在一帶一路的沿線省份新疆,使用非常廣泛,研究圖像中的維吾爾語(yǔ)檢測(cè)及識(shí)別對(duì)于智慧城市建設(shè)、文化遺產(chǎn)保護(hù)、網(wǎng)絡(luò)輿情監(jiān)控等意義重大。目前,OCR 技術(shù)主要應(yīng)用于卡證識(shí)別、票據(jù)表單識(shí)別、圖像文字識(shí)別、遙感圖像識(shí)別、無(wú)人駕駛、圖像檢索等。
傳統(tǒng)的光學(xué)字符識(shí)別與場(chǎng)景文字識(shí)別不同,傳統(tǒng)光學(xué)字符識(shí)別主要用于文檔中的圖像識(shí)別,文檔的背景顏色比較單一[4]、分辨率高。然而在自然場(chǎng)景中,圖像里的文字會(huì)受到光照、復(fù)雜背景、對(duì)比度低、遮擋等因素的影響,因此會(huì)存在圖像中的文字大小、角度、位置變化、分辨率不同等問(wèn)題。為了提高文字的識(shí)別效果需要對(duì)圖像進(jìn)行預(yù)處理,預(yù)處理過(guò)程包括:彩色圖像灰度化、二值化處理、噪聲去除、圖像變化角度檢測(cè)、文字幾何矯正[5]等。
場(chǎng)景文字識(shí)別預(yù)處理技術(shù)包括圖像分割、圖像二值化、圖像去噪、檢測(cè)技術(shù)、矯正技術(shù)等。
(1)檢測(cè)技術(shù)
由于自然場(chǎng)景中的圖像背景復(fù)雜使得圖像存在幾何變形,圖像的畸變對(duì)文字識(shí)別的效果影響較大,因此對(duì)圖像的檢測(cè)是十分重要的。直線檢測(cè)常用的方法[6]可分為兩類[7]:全局Hough 變換法和局部感知組合法。文本圖像的傾斜檢測(cè)方法有[8]:投影圖傾斜檢測(cè)方法、基于Hough 變換的傾斜檢測(cè)方法、交叉相關(guān)性傾斜檢測(cè)方法、基于Fourier變換的傾斜檢測(cè)方法和K-最近鄰簇傾斜檢測(cè)方法等。
(2)矯正技術(shù)
在圖像中的字體可能會(huì)變形,以維吾爾文為例,維吾爾文共有32 個(gè)字母,其中元音有8 個(gè),輔音有24 個(gè),每個(gè)字母有2至8種寫法,共有126種形式[9]。維吾爾語(yǔ)的結(jié)構(gòu)屬粘連語(yǔ)類型[10],為了更好地矯正要先確定其基線,矯正是為了得到標(biāo)準(zhǔn)化的數(shù)據(jù),常用的數(shù)據(jù)矯正方法包括[11]:(1)基線提取和彎曲矯正。由于一些字符存在彎曲且另一些字符在識(shí)別時(shí)是通過(guò)其相對(duì)于基線的位置來(lái)確定的,所以要確定基線的位置?;€提取的主要方法有:行間互相關(guān)[12]、最近鄰域聚類等。(2)傾斜矯正比較常用的算法有[13-14]:豎直筆畫、投影圖方法。(3)字號(hào)矯正。將字體大小處理為一致的大小,而且能夠?qū)⒆痔?hào)進(jìn)行估計(jì)[15]。(4)圖像輪廓平滑處理。圖像的平滑(濾波)是為了抑制圖像的噪聲,減少文字表示的采樣點(diǎn)數(shù)量,提高有效性。
(3)傳統(tǒng)光學(xué)字符識(shí)別流程
傳統(tǒng)的光學(xué)字符識(shí)別過(guò)程為[16]:圖像預(yù)處理(彩色圖像灰度化、二值化處理、圖像變化角度檢測(cè)、矯正處理等)、版面劃分(直線檢測(cè)、傾斜檢測(cè))、字符定位切分、字符識(shí)別、版面恢復(fù)、后處理、校對(duì)等。流程圖如圖1所示。
圖1 傳統(tǒng)字符識(shí)別流程圖
(4)深度學(xué)習(xí)場(chǎng)景文字檢測(cè)與識(shí)別流程
深度學(xué)習(xí)場(chǎng)景圖像文字檢測(cè)與識(shí)別流程包括:輸入圖像、深度學(xué)習(xí)文字區(qū)域檢測(cè)、預(yù)處理、特征提取、深度學(xué)習(xí)識(shí)別器、深度學(xué)習(xí)后處理等。流程圖如圖2所示。
圖2 基于深度學(xué)習(xí)的OCR流程圖
場(chǎng)景文字檢測(cè)與識(shí)別算法的特征提取模塊的網(wǎng)絡(luò)通常來(lái)源于通用檢測(cè)網(wǎng)絡(luò),部分目標(biāo)檢測(cè)算法可直接用于場(chǎng)景文字檢測(cè)。本節(jié)介紹幾種常用的通用檢測(cè)網(wǎng)絡(luò)。
(1)RCNN網(wǎng)絡(luò)
RCNN[17]網(wǎng)絡(luò)是首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域的算法。該網(wǎng)絡(luò)利用CNN[18]進(jìn)行特征提取,通過(guò)候選區(qū)域方法實(shí)現(xiàn)目標(biāo)檢測(cè)問(wèn)題的轉(zhuǎn)化。但是RCNN網(wǎng)絡(luò)提取候選框是通過(guò)速度較慢的selective search[17]算法且重復(fù)卷積網(wǎng)絡(luò)計(jì)算,所以該算法存在內(nèi)存占用量大、運(yùn)行速度慢、訓(xùn)練需要多階段、不能實(shí)時(shí)更新等缺點(diǎn)。其結(jié)構(gòu)如圖3所示。
圖3 RCNN網(wǎng)絡(luò)圖
(2)Faster R-CNN網(wǎng)絡(luò)
Faster R-CNN[19]網(wǎng)絡(luò)將獲取特征圖、候選區(qū)域選取、回歸和分類等操作全部融合在一個(gè)深層網(wǎng)絡(luò)當(dāng)中,實(shí)現(xiàn)了端到端檢測(cè)。該網(wǎng)絡(luò)引入RPN[19]網(wǎng)絡(luò),利用CNN卷積操作后的特征圖生成候選區(qū)域,訓(xùn)練時(shí)RPN 與檢測(cè)網(wǎng)絡(luò)Fast R-CNN[20]共享卷積層,大幅提高網(wǎng)絡(luò)的檢測(cè)速度和精度。但是該算法因?yàn)橹鞲删W(wǎng)絡(luò)較為復(fù)雜所以產(chǎn)生目標(biāo)候選框時(shí)需要較多時(shí)間,運(yùn)行速度慢不能滿足實(shí)時(shí)性要求。其結(jié)構(gòu)如圖4所示。
(3)YOLO網(wǎng)絡(luò)
YOLO[21]網(wǎng)絡(luò)是一個(gè)端到端網(wǎng)絡(luò),可以從原始圖像的輸入直接得到物體位置和類別。該網(wǎng)絡(luò)將物體檢測(cè)看為回歸問(wèn)題,輸入圖像經(jīng)過(guò)一次推理,就能得到圖像中所有物體的位置和其所屬類別及相應(yīng)的置信概率。但是該網(wǎng)絡(luò)的局限性在于:(1)位置的準(zhǔn)確性差,對(duì)小目標(biāo)和密集物體的檢測(cè)效果不好。(2)輸入尺寸固定,輸出層為全連接層,在檢測(cè)時(shí),只支持與訓(xùn)練圖像相同的分辨率輸入。(3)沒(méi)有region proposal 階段,召回率較低。其結(jié)構(gòu)如圖5所示。
圖4 Faster R-CNN網(wǎng)絡(luò)圖
圖5 YOLO網(wǎng)絡(luò)圖
(4)RetinaNet網(wǎng)絡(luò)
RetinaNet[22]網(wǎng)絡(luò)使用新的損失函數(shù)focal loss,有效解決了one stage目標(biāo)檢測(cè)過(guò)程中正負(fù)樣本比例不平衡問(wèn)題。該網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)檢測(cè)的過(guò)程為:首先用殘差網(wǎng)絡(luò)ResNet[23]進(jìn)行特征提取,其次用特征金字塔網(wǎng)絡(luò)FPN[24]生成多尺度特征圖,然后用全卷積分類子網(wǎng)絡(luò)進(jìn)行目標(biāo)分類,最后用回歸網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行定位。由于該網(wǎng)絡(luò)是基于anchor-based的檢測(cè)方法所以存在兩個(gè)問(wèn)題:(1)啟發(fā)式引導(dǎo)特征選擇。(2)基于重疊的anchor 采樣。其結(jié)構(gòu)如圖6所示。
(5)FSAF網(wǎng)絡(luò)
FSAF[25]網(wǎng)絡(luò)使用無(wú)anchor 特征選擇模塊,有效解決了啟發(fā)式引導(dǎo)特征選擇和基于重疊的anchor 采樣問(wèn)題,提升了檢測(cè)的準(zhǔn)確率和速度。實(shí)驗(yàn)結(jié)果表明FSAF網(wǎng)絡(luò)可以更好地發(fā)現(xiàn)具有挑戰(zhàn)性的目標(biāo);具有較好的魯棒性和高效性。但是該網(wǎng)絡(luò)是基于anchor-point 的方法,所以存在注意力偏差(attention bias)和特征選擇(feature selection)等問(wèn)題。其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖7所示。
圖6 RetinaNet網(wǎng)絡(luò)圖
圖7 FSAF網(wǎng)絡(luò)圖
由表1可以看出:RCNN網(wǎng)絡(luò)將CNN方法應(yīng)用到目標(biāo)檢測(cè)問(wèn)題上,檢測(cè)精度較傳統(tǒng)方法大幅提升;Faster R-CNN 網(wǎng)絡(luò)用RPN 網(wǎng)絡(luò)提取候選區(qū)域,有效解決了利用SelectiveSearch算法選取候選框時(shí)運(yùn)行速度慢的問(wèn)題但是該網(wǎng)絡(luò)的速度不能滿足實(shí)時(shí)性要求;YOLOV1網(wǎng)絡(luò)采用單獨(dú)的CNN 模型實(shí)現(xiàn)端到端的目標(biāo)檢測(cè),相比于基于候選區(qū)域的Two-stage 類算法速度有較大提升,但沒(méi)有解決Two-stage 類算法的準(zhǔn)確率不高的問(wèn)題;RetinaNet 網(wǎng)絡(luò)提出了新的損失函數(shù)Focal Loss 解決了正負(fù)樣本的比例不平衡問(wèn)題,但是網(wǎng)絡(luò)存在啟發(fā)式引導(dǎo)特征選擇和基于重疊的anchor 采樣問(wèn)題;FSAF 網(wǎng)絡(luò)使用無(wú)anchor 特征選擇模塊,雖然解決了上述問(wèn)題,但是引入了注意力偏差和特征選擇問(wèn)題。
文本檢測(cè)與目標(biāo)檢測(cè)不同,文本是序列,目標(biāo)檢測(cè)是一個(gè)目標(biāo)。在目標(biāo)檢測(cè)中,每個(gè)目標(biāo)都有定義好的邊界框,檢測(cè)到的邊界框與目標(biāo)的實(shí)際邊界框的重疊率大于某個(gè)值則說(shuō)明檢測(cè)結(jié)果正確。文本行是由一些獨(dú)立的字符組成,檢測(cè)時(shí)需要更準(zhǔn)確的定位。所以目標(biāo)檢測(cè)算法不適用于場(chǎng)景文本檢測(cè)。
自然場(chǎng)景圖像背景復(fù)雜,文字的位置、顏色、大小等沒(méi)有規(guī)律地變化,有時(shí)是多語(yǔ)言的,這些因素使得自然場(chǎng)景圖片中的文字檢測(cè)非常麻煩,而機(jī)器學(xué)習(xí)算法在解決自然場(chǎng)景圖片的文字檢測(cè)常常有不錯(cuò)的結(jié)果。本節(jié)主要介紹基于維吾爾文和中英文的圖像文字檢測(cè)技術(shù)。
傳統(tǒng)的方法如李凱等[27]提出的基于邊緣和基線的檢測(cè)方法、依再提古麗等[28]提出基于角點(diǎn)密集度的定位方法、姜志威等[29]提出共享維吾爾語(yǔ)之間的字符結(jié)構(gòu)信息等方法對(duì)于維吾爾文的檢測(cè)效果并不理想,隨著人工智能的快速發(fā)展,基于深度學(xué)習(xí)的方法在自然場(chǎng)景下維吾爾文的檢測(cè)中應(yīng)用較多,實(shí)驗(yàn)證明其檢測(cè)效率高、檢測(cè)的準(zhǔn)確率較好。常用的基于深度學(xué)習(xí)的維吾爾文場(chǎng)景文字檢測(cè)技術(shù)有:基于深度學(xué)習(xí)的自然場(chǎng)景中維吾爾文檢測(cè)[30]、基于改進(jìn)YOLOV3的維吾爾文檢測(cè)[31]等。
(1)基于深度學(xué)習(xí)的自然場(chǎng)景中維吾爾文檢測(cè)
彭勇[30]提出基于深度學(xué)習(xí)的維吾爾文檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用改進(jìn)的單深層神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,然后將提取的特征輸入文本檢測(cè)組件,最后進(jìn)行定位。該算法仍然存在一些問(wèn)題有待解決:(1)由于文字多方向,使用矩形邊框檢測(cè)時(shí)準(zhǔn)確率較差。(2)本網(wǎng)絡(luò)只對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行了改進(jìn),未將傳統(tǒng)維語(yǔ)特征加入。(3)可將圖像分割技術(shù)應(yīng)用于自然場(chǎng)景維文檢測(cè)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
(2)自然場(chǎng)景中維吾爾文檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
李路晶一[31]提出改進(jìn)YOLOV3[32]網(wǎng)絡(luò)的維吾爾文檢測(cè)方法。該網(wǎng)絡(luò)對(duì)YOLO V3進(jìn)行改進(jìn),將Darknet-53中的Res block替換為密集型的Dense block[33]。并且在該網(wǎng)絡(luò)中引進(jìn)dilated卷積,利用Trident Net[34]結(jié)構(gòu)替換FPN。同時(shí)將深度可分離卷積(Depthwise Separable Convolution[35])和 MobileNet V2[36]進(jìn)行結(jié)合,構(gòu)造了一個(gè)輕量級(jí)的網(wǎng)絡(luò)。BN 層與Depthwise Separable Convolution 進(jìn)行融合,提高了運(yùn)行速度。但是該網(wǎng)絡(luò)仍存在以下問(wèn)題:(1)針對(duì)維吾爾語(yǔ)的默認(rèn)框的生成較為粗糙。(2)缺乏語(yǔ)義分割使得檢測(cè)精度不高。其流程圖如圖9所示。
表1 通用檢測(cè)網(wǎng)絡(luò)對(duì)比
圖9 維吾爾文檢測(cè)流程圖
常用的基于深度學(xué)習(xí)的中英文的場(chǎng)景文字檢測(cè)方法有:CTPN[37]網(wǎng)絡(luò)、EAST[38]網(wǎng)絡(luò)、WordSup[39]網(wǎng)絡(luò)、基于自適應(yīng)文本區(qū)域表示的任意形狀場(chǎng)景文本檢測(cè)[40]網(wǎng)絡(luò)、可微二值化實(shí)時(shí)場(chǎng)景文本檢測(cè)[41]等。
(3)CTPN網(wǎng)絡(luò)
CTPN[37]網(wǎng)絡(luò)本質(zhì)是全卷積網(wǎng)絡(luò)FCN[42],可以輸入任意大小的圖像。該網(wǎng)絡(luò)提出了垂直錨點(diǎn)機(jī)制,聯(lián)合預(yù)測(cè)每個(gè)固定寬度proposal 的位置和文本、非文本的分?jǐn)?shù),引入RNN連接文本proposal;將CNN[18]與LSTM[43]結(jié)合,能夠應(yīng)用于復(fù)雜場(chǎng)景中的文字檢測(cè)。但是該算法只能檢測(cè)水平方向的文本,對(duì)多方向的文本行處理有待改善;由于涉及到anchor 合并,合并與斷開的時(shí)間有待確定。其結(jié)構(gòu)如圖10所示。
(4)EAST網(wǎng)絡(luò)
EAST[38]網(wǎng)絡(luò)是一個(gè)端到端的文本檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用全卷積網(wǎng)絡(luò)(FCN[42])和非極大值抑制(NMS[44])消除中間過(guò)程冗余,有效減少了檢測(cè)時(shí)間,可以檢測(cè)單詞級(jí)別或文本行級(jí)別的文本,檢測(cè)的形狀可以為任意形狀的四邊形。但是該網(wǎng)絡(luò)也有很大的局限性:(1)由于該網(wǎng)絡(luò)處理的文本實(shí)例的大小與網(wǎng)絡(luò)的感受野成正比所以導(dǎo)致該網(wǎng)絡(luò)預(yù)測(cè)長(zhǎng)文本區(qū)域受到限制。(2)由于該算法的訓(xùn)練集中只有少量的垂直文本的圖片,所以在對(duì)于垂直文本實(shí)例的預(yù)測(cè)會(huì)遺漏。(3)樣本的權(quán)重設(shè)置不合理。其結(jié)構(gòu)如圖11所示。
圖10 CTPN網(wǎng)絡(luò)圖
(5)WordSup網(wǎng)絡(luò)
WordSup[39]網(wǎng)絡(luò)主要應(yīng)用于不規(guī)則形變文本行識(shí)別、數(shù)學(xué)公式圖文識(shí)別等。該網(wǎng)絡(luò)通過(guò)弱監(jiān)督的訓(xùn)練框架,在文本行和單詞級(jí)標(biāo)注的數(shù)據(jù)集上訓(xùn)練出字符級(jí)的檢測(cè)模型。網(wǎng)絡(luò)可分為兩大部分,字符檢測(cè)(character detector)部分,得到的是字符對(duì)應(yīng)的坐標(biāo);文本結(jié)構(gòu)分析(Text structure analysis)部分,得到的是詞的坐標(biāo)(如果為詞)。該算法的缺點(diǎn)在于它的字符級(jí)標(biāo)注是矩形的anchor,當(dāng)圖像存在透視畸變時(shí),矩形框不能較好地描述該字符。同時(shí)用了合成數(shù)據(jù)集(有準(zhǔn)確的字符級(jí)標(biāo)注)以及從單詞級(jí)標(biāo)注的數(shù)據(jù)集評(píng)估得到的字符級(jí)標(biāo)注數(shù)據(jù)集(字符級(jí)標(biāo)注不一定準(zhǔn)確)。其結(jié)構(gòu)如圖12所示。
(6)基于自適應(yīng)文本區(qū)域表示的任意形狀場(chǎng)景文本檢測(cè)
為了解決檢測(cè)彎曲文本的問(wèn)題,王小兵等人[40]提出了基于自適應(yīng)文本區(qū)域表示的循環(huán)神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)使用不同的點(diǎn)的數(shù)量的自適應(yīng)文本區(qū)域來(lái)表示不同形狀的文本;同時(shí)用RNN[45]來(lái)學(xué)習(xí)每個(gè)文本區(qū)域的自適應(yīng)表示,有效地避免了逐像素分割,大幅提升了運(yùn)行速度。該網(wǎng)絡(luò)可以檢測(cè)水平場(chǎng)景文本、定向場(chǎng)景文本、任意形狀的場(chǎng)景文本。但是該算法仍然可以改善:(1)該算法的訓(xùn)練樣本為單詞級(jí)別或句子級(jí)別標(biāo)注,可以通過(guò)使用角點(diǎn)檢測(cè)來(lái)改善任意形狀場(chǎng)景文本檢測(cè)。(2)該網(wǎng)絡(luò)為非端到端網(wǎng)絡(luò),可以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)任意形狀場(chǎng)景文本的端到端識(shí)別。結(jié)構(gòu)如圖13所示。
(7)可微二值化實(shí)時(shí)場(chǎng)景文本檢測(cè)
圖11 EAST網(wǎng)絡(luò)圖
圖12 WordSup網(wǎng)絡(luò)圖
圖13 自適應(yīng)文本區(qū)域表示的任意形狀場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)圖
廖明輝等人[41]提出可微分模塊DB。該網(wǎng)絡(luò)將分割算法與DB模塊結(jié)合形成了一個(gè)快速且魯棒的文本檢測(cè)器。該網(wǎng)絡(luò)中的DB模塊產(chǎn)生適應(yīng)的閾值使得網(wǎng)絡(luò)運(yùn)算速度加快,該模塊能夠生成更加魯棒的分割二值圖;在推理階段可將該模塊去除,有效減少了運(yùn)行時(shí)間與資源消耗,該模塊在輕量級(jí)的主干網(wǎng)絡(luò)(ResNet-18[23])也具有很好的性能。但是該網(wǎng)絡(luò)不是端到端檢測(cè)框架。其結(jié)構(gòu)如圖14所示。
介紹了部分常用的場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)。由表2 可以看出:彭勇使用改進(jìn)的單深層神經(jīng)網(wǎng)絡(luò)算法進(jìn)行維文檢測(cè)雖然檢測(cè)準(zhǔn)確率有一定提升但是使用矩形邊框檢測(cè)時(shí)準(zhǔn)確率較差;李路晶一提出改進(jìn)YOLOV3 網(wǎng)絡(luò)的維吾爾文檢測(cè)方法檢測(cè)速度較快但缺乏語(yǔ)義分割使得檢測(cè)精度不高;可以看出維吾爾文檢測(cè)的算法問(wèn)題較多,由于缺乏公開數(shù)據(jù)集所以目前尚沒(méi)有通用的維文檢測(cè)網(wǎng)絡(luò)。
CTPN網(wǎng)絡(luò)結(jié)合CNN與LSTM深度網(wǎng)絡(luò),解決了復(fù)雜場(chǎng)景中橫向分布的文字檢測(cè)問(wèn)題,但是該網(wǎng)絡(luò)只能檢測(cè)水平方向文本;EAST 網(wǎng)絡(luò)利用全卷積網(wǎng)絡(luò)(FCN)和非極大值抑制(NMS)實(shí)現(xiàn)端到端文本檢測(cè),但是網(wǎng)絡(luò)的樣本的權(quán)重設(shè)置不合理、感受野較??;WordSup 網(wǎng)絡(luò)通過(guò)弱監(jiān)督來(lái)訓(xùn)練出字符級(jí)的檢測(cè)模型,解決了不規(guī)則文本識(shí)別、數(shù)學(xué)公式識(shí)別需要的字符級(jí)標(biāo)注問(wèn)題,但是對(duì)畸變圖像的檢測(cè)效果差;王小兵等提出了使用不同的點(diǎn)的數(shù)量的自適應(yīng)文本區(qū)域來(lái)表示不同形狀的文本,解決了用固定點(diǎn)數(shù)量的多邊形來(lái)表示不同形狀的文本區(qū)域不合適的問(wèn)題;廖明輝等提出可微分模塊DB解決了訓(xùn)練帶來(lái)的梯度不可微問(wèn)題。
文字識(shí)別是將圖片中的文字序列識(shí)別的過(guò)程。文字識(shí)別時(shí)輸入的是含有文字的候選框,輸出是該檢測(cè)框中的文字序列[46]。由于目前尚無(wú)性能較好的維吾爾文識(shí)別網(wǎng)絡(luò),本節(jié)主要介紹常用的基于中英文的場(chǎng)景文字序列識(shí)別算法:CRNN[47]網(wǎng)絡(luò)、RARE[48]網(wǎng)絡(luò)、FAN[49]網(wǎng)絡(luò)、二維視角的場(chǎng)景文本識(shí)別[50]網(wǎng)絡(luò)、FACLSTM[51]網(wǎng)絡(luò)等。
(1)CRNN網(wǎng)絡(luò)
CRNN[47]網(wǎng)絡(luò)(Convolutional Recurrent Neural Net-work)是一個(gè)端到端的識(shí)別網(wǎng)絡(luò),包括特征提取、序列分析、序列解碼三個(gè)部分。該網(wǎng)絡(luò)使用雙向LSTM[43]和CNN 對(duì)圖像進(jìn)行特征提取且將語(yǔ)音識(shí)別領(lǐng)域的CTC[52]引入圖像處理不定長(zhǎng)序列對(duì)齊問(wèn)題。但是該網(wǎng)絡(luò)仍然存在不足:(1)BLSTM和CTC使得網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且計(jì)算難度大。(2)因?yàn)槭褂玫氖切蛄刑卣鞴蕦?duì)于角度很大的值不能識(shí)別。該網(wǎng)絡(luò)結(jié)構(gòu)如圖15所示。
圖14 可微二值化實(shí)時(shí)場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)圖
表2 文本檢測(cè)網(wǎng)絡(luò)對(duì)比
圖15 CRNN網(wǎng)絡(luò)圖
(2)RARE網(wǎng)絡(luò)
RARE[48]網(wǎng)絡(luò)將 TPS[53]和 STN[54]結(jié)合使 STN 具有較強(qiáng)的矯正形變能力,可準(zhǔn)確地識(shí)別透視變換過(guò)的文本以及彎曲的文本。該網(wǎng)絡(luò)由空間轉(zhuǎn)換網(wǎng)絡(luò)(Spatial Transformer Network,STN)和序列識(shí)別網(wǎng)絡(luò)(Sequence Recognition Network,SRN)兩個(gè)部分組成。STN 將輸入圖片中的文本矯正成水平形,然后SRN 進(jìn)行文本識(shí)別使得該網(wǎng)絡(luò)在變形的圖像文本識(shí)別中效果較好,可端到端訓(xùn)練。但是由于該網(wǎng)絡(luò)在最后一個(gè)全連接層中使用了非線性激活函數(shù)tanh,梯度在反向傳播過(guò)程中被保留,導(dǎo)致收斂速度較慢。結(jié)構(gòu)如圖16所示。
(3)FAN網(wǎng)絡(luò)
圖16 RARE網(wǎng)絡(luò)圖
FAN[49]網(wǎng)絡(luò)解決了在復(fù)雜圖像中不能得到特征區(qū)域和目標(biāo)字符偏離的問(wèn)題。該網(wǎng)絡(luò)的AN(Attention Network)模塊主要計(jì)算對(duì)齊因子使注意力區(qū)域與對(duì)應(yīng)的真值標(biāo)簽對(duì)齊;FN(Focusing Network)模塊首先檢測(cè)注意力網(wǎng)絡(luò)的注意力區(qū)域與目標(biāo)字符位置是否對(duì)齊,然后自動(dòng)調(diào)整注意力網(wǎng)絡(luò)的注意力中心,所以該網(wǎng)絡(luò)可以更精確地識(shí)別自然場(chǎng)景圖像中的文本。但是該網(wǎng)絡(luò)中注意力機(jī)制的對(duì)齊操作依賴于上一步的解碼信息,如果上一步解碼出錯(cuò),則會(huì)導(dǎo)致注意力機(jī)制的對(duì)齊產(chǎn)生錯(cuò)誤,且此錯(cuò)誤會(huì)累積傳播,在較長(zhǎng)的手寫文本上這個(gè)問(wèn)題較為明顯。其結(jié)構(gòu)如圖17所示。
(4)二維視角的場(chǎng)景文本識(shí)別
二維視角的場(chǎng)景文本識(shí)別(Scene Text Recognitionfrom Two-Dimensional Perspective[50])是一種基于FCN 的文本識(shí)別算法。該網(wǎng)絡(luò)將不規(guī)則文本識(shí)別看作圖像分割問(wèn)題,將文本圖片編碼為二維特征實(shí)現(xiàn)不規(guī)則文本的識(shí)別。首先用Character Attention FCN(CA-FCN)模塊做像素級(jí)的分類,再通過(guò)字符形成模塊(word formation module)預(yù)測(cè)整合后輸出字符序列。但是該網(wǎng)絡(luò)對(duì)于字符的Attention[55]機(jī)制需要帶有字符位置的訓(xùn)練樣本,對(duì)于沒(méi)有字符級(jí)注釋的訓(xùn)練集該算法會(huì)受到限制。其主要結(jié)構(gòu)如圖18所示。
(5)FACLSTM網(wǎng)絡(luò)
FACLSTM[51]網(wǎng)絡(luò)解決了二維特征圖轉(zhuǎn)換為一維特征向量時(shí)二維圖像的結(jié)構(gòu)信息和像素空間相關(guān)性信息被破壞的問(wèn)題。FACLSTM 網(wǎng)絡(luò)是一個(gè)典型的編碼-解碼結(jié)構(gòu),用嵌入Deformable Convolutional Networks[56]的VGG作為主干網(wǎng)絡(luò),其中有兩個(gè)解碼分支,一個(gè)特征檢測(cè)分支,一個(gè)檢測(cè)字符中心掩碼分支。在序列解碼時(shí),經(jīng)過(guò)ConvLSTM[57]網(wǎng)絡(luò)提取特征圖,然后用全連接層將提取的特征圖映射為字符輸出。該算法大幅提高了文本識(shí)別的精度。該網(wǎng)絡(luò)的缺點(diǎn)是不能進(jìn)行端到端識(shí)別。其結(jié)構(gòu)如圖19所示。
由表3 可以看出:CRNN 網(wǎng)絡(luò)將用 BLSTM 和 CTC學(xué)習(xí)文本圖像中的上下文關(guān)系解決了基于圖像的序列識(shí)別問(wèn)題但是由于使用序列特征,對(duì)于角度較大的值很難識(shí)別;RARE網(wǎng)絡(luò)將STN和TPS結(jié)合實(shí)現(xiàn)了對(duì)不規(guī)則文本的端到端的識(shí)別但是該網(wǎng)絡(luò)的收斂速度較慢;FAN網(wǎng)絡(luò)提出FN 網(wǎng)絡(luò)解決了attention drift 問(wèn)題;二維視角的場(chǎng)景文本識(shí)別網(wǎng)絡(luò)提出將文本圖片編碼為二維特征,實(shí)現(xiàn)了任意形狀場(chǎng)景文本識(shí)別但是該算法的訓(xùn)練數(shù)據(jù)需要像素級(jí)標(biāo)注成本較高;FACLSTM網(wǎng)絡(luò)將基于CNN的特征提取(encoder)和基于ConvLSTM 的序列識(shí)別(decoder)相結(jié)合,解決了傳統(tǒng)全連接式LSTM無(wú)法充分利用二維文本圖像空間信息的問(wèn)題。
圖17 FAN網(wǎng)絡(luò)圖
圖18 CA-FCN網(wǎng)絡(luò)圖
圖19 FACLSTM網(wǎng)絡(luò)圖
表3 文本識(shí)別網(wǎng)絡(luò)對(duì)比
(1)STN-OCR網(wǎng)絡(luò)
STN-OCR[58]網(wǎng)絡(luò)將檢測(cè)和識(shí)別集成,可以進(jìn)行端到端的文本識(shí)別。該網(wǎng)絡(luò)使用半監(jiān)督的方式進(jìn)行訓(xùn)練,無(wú)需標(biāo)注文本位置信息,整個(gè)系統(tǒng)可進(jìn)行端到端訓(xùn)練,在檢測(cè)階段利用空間變換器對(duì)輸入圖像進(jìn)行特征映射,并對(duì)該特征映射應(yīng)用空間變換(傾斜、旋轉(zhuǎn)等),產(chǎn)生輸出特征映射及采樣網(wǎng)格;在識(shí)別階段,將提取的文本圖像送入識(shí)別網(wǎng)絡(luò)中獲得識(shí)別結(jié)果。但是該網(wǎng)絡(luò)不能完全檢測(cè)出圖像中任意位置的文本且算法難以訓(xùn)練。其結(jié)構(gòu)如圖20所示。
(2)FOTS網(wǎng)絡(luò)
FOTS[59]網(wǎng)絡(luò)是端到端的快速文本定位網(wǎng)絡(luò)。FOTS網(wǎng)絡(luò)通過(guò)CNN 學(xué)習(xí)通用特征,并將特征在文本檢測(cè)和識(shí)別網(wǎng)絡(luò)之間共享;引入了RoIRotate 將文本檢測(cè)和識(shí)別統(tǒng)一為端到端網(wǎng)絡(luò)。該網(wǎng)絡(luò)的結(jié)構(gòu)可分為四部分:卷積共享、文本檢測(cè)分支、RoIRotate 操作、文本識(shí)別分支。但是該網(wǎng)絡(luò)文本識(shí)別分支中使用RNN 關(guān)注模塊,導(dǎo)致在順序計(jì)算中效率較低,尤其是在預(yù)測(cè)長(zhǎng)文本時(shí),而且只能對(duì)常規(guī)文本實(shí)現(xiàn)檢測(cè)。結(jié)構(gòu)如圖21所示。
(3)MORAN網(wǎng)絡(luò)
MORAN[60]網(wǎng)絡(luò)是為了解決任意形狀的文本識(shí)別而提出的。MORAN 分為兩部分:矯正網(wǎng)絡(luò)MORN、識(shí)別網(wǎng)絡(luò)ASRN。該網(wǎng)絡(luò)使用了像素級(jí)弱監(jiān)督學(xué)習(xí)機(jī)制,降低了不規(guī)則文本的識(shí)別難度;訓(xùn)練過(guò)程中無(wú)需字符位置或像素級(jí)分割的信息,顯著簡(jiǎn)化了網(wǎng)絡(luò)訓(xùn)練。但是該網(wǎng)絡(luò)仍存在局限性:(1)對(duì)于字體變形角度過(guò)大的圖片識(shí)別效果不好。(2)校正網(wǎng)絡(luò)僅能對(duì)垂直方向的畸變進(jìn)行變換,無(wú)法處理水平方向畸變。(3)訓(xùn)練難度大。其結(jié)構(gòu)如圖22所示。
(4)TextDragon網(wǎng)絡(luò)
TextDragon[61]網(wǎng)絡(luò)可以高效地識(shí)別任意形狀的文本,訓(xùn)練時(shí)不需要字符級(jí)標(biāo)注,通過(guò)可微分運(yùn)算符RoISlide 將檢測(cè)與識(shí)別網(wǎng)絡(luò)融合為端到端網(wǎng)絡(luò)。但是該網(wǎng)絡(luò)使用單詞(行級(jí)別)標(biāo)注進(jìn)行訓(xùn)練是基于分段的方法,需要維護(hù)復(fù)雜的工作流程,不適用于實(shí)時(shí)應(yīng)用程序。其結(jié)構(gòu)如圖23所示。
(5)ABCNet網(wǎng)絡(luò)
圖20 STN-OCR網(wǎng)絡(luò)圖
圖21 FOTS網(wǎng)絡(luò)圖
圖22 MORAN網(wǎng)絡(luò)圖
圖23 TextDragon網(wǎng)絡(luò)圖
ABCNet[62]網(wǎng)絡(luò)是一個(gè)端到端的場(chǎng)景文本檢測(cè)識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)首次通過(guò)參數(shù)化的貝塞爾曲線自適應(yīng)擬合任意形狀文本,其計(jì)算成本可忽略;其中的BezierAlign層可以準(zhǔn)確地提取卷積特征使得識(shí)別精度顯著提高。該網(wǎng)絡(luò)由貝塞爾曲線檢測(cè)分支、貝塞爾曲線Align 和識(shí)別分支兩個(gè)部分組成。但是該網(wǎng)絡(luò)用合成數(shù)據(jù)進(jìn)行訓(xùn)練在實(shí)際較復(fù)雜場(chǎng)中的識(shí)別效果不好。其結(jié)構(gòu)如圖24所示。
端到端場(chǎng)景文字檢測(cè)與識(shí)別網(wǎng)絡(luò)的目標(biāo)是為了從圖片中定位和識(shí)別出所有文本內(nèi)容。端到端網(wǎng)絡(luò)不僅減少了計(jì)算時(shí)間和模型大小[63],而且將檢測(cè)網(wǎng)絡(luò)和識(shí)別網(wǎng)絡(luò)融合共同訓(xùn)練使得模型的收斂效果更好,有效地提升了準(zhǔn)確率。
由表4可以看出:STN-OCR網(wǎng)絡(luò)通過(guò)集成空間變換器網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)端到端場(chǎng)景文本識(shí)別,解決了文本識(shí)別中先檢測(cè)后識(shí)別的復(fù)雜步驟并且以半監(jiān)督的方式訓(xùn)練;FOTS 網(wǎng)絡(luò)引入了RoIRotate 將文本檢測(cè)和識(shí)別結(jié)合為端到端網(wǎng)絡(luò),有效提高了網(wǎng)絡(luò)的識(shí)別速度;MORAN 網(wǎng)絡(luò)運(yùn)用矯正子網(wǎng)絡(luò)MORN對(duì)不規(guī)則文本的形狀進(jìn)行糾正,降低了不規(guī)則文本的識(shí)別難度但是并未徹底解決不規(guī)則文本的識(shí)別問(wèn)題;TextDragon 網(wǎng)絡(luò)運(yùn)用可微運(yùn)算RoISlide將文本檢測(cè)和識(shí)別結(jié)合成為端到端模型,但是其在ICDAR2015[64]數(shù)據(jù)集上的效果不是最好,所以并未徹底解文本檢測(cè)與識(shí)別分開的問(wèn)題;ABCNet 網(wǎng)絡(luò)通過(guò)參數(shù)化的貝塞爾曲線自適應(yīng)地處理任意形狀的文本,解決了基于字符的方法和基于分割的方法代價(jià)高昂、維護(hù)復(fù)雜的問(wèn)題。
隨著文本檢測(cè)識(shí)別技術(shù)的不斷發(fā)展,數(shù)據(jù)集的需求也越來(lái)越大。下面介紹幾種公開數(shù)據(jù)集。目前的數(shù)據(jù)集分為:規(guī)則數(shù)據(jù)集、不規(guī)則數(shù)據(jù)集、多語(yǔ)言數(shù)據(jù)集、合成數(shù)據(jù)集等。其中不規(guī)則數(shù)據(jù)集包括ICDAR2015、SVT-P[65]、CUTE80[66]、Total-Text[67]等;規(guī)則數(shù)據(jù)集包括IIIT5K[68]、SVT[69]、ICDAR2003(IC03)[70]、ICDAR2013(IC13)[71]、COCO-Text[72]、SVHN[73]等;多語(yǔ)言數(shù)據(jù)集包括RCTW-17[74]、MTWI[75]、CTW[76]、SCUT-CTW1500[77]、LSVT[78]、ArT[79]、ReCTS-25k[80]、MLT[81]等;合成數(shù)據(jù)集包括Synth90k[82]、SynthText[83]等。
由于自然場(chǎng)景中的圖片存在圖像模糊、遮擋、復(fù)雜背景干擾,圖片中的文字有變形文字、不規(guī)則文本、曲線文本、多種形狀等問(wèn)題使得場(chǎng)景文字識(shí)別技術(shù)面臨較多挑戰(zhàn)。近年來(lái)場(chǎng)景文字識(shí)別技術(shù)發(fā)展迅速,在ICDAR2015不規(guī)則數(shù)據(jù)集上識(shí)別準(zhǔn)確率從59.2%提升到83.7%,在具有識(shí)別難度的規(guī)則數(shù)據(jù)集SVT 上識(shí)別率從80.7%提升到92.7%,但是仍然需要深入研究。
圖24 ABCNet網(wǎng)絡(luò)圖
表4 端到端文本識(shí)別網(wǎng)絡(luò)對(duì)比
(1)多語(yǔ)言結(jié)合的場(chǎng)景文本識(shí)別。我國(guó)是一個(gè)統(tǒng)一的多民族國(guó)家,文字種類豐富,目前的識(shí)別網(wǎng)絡(luò)主要是基于中文或英文,對(duì)于多語(yǔ)言混合的文本的通用識(shí)別網(wǎng)絡(luò)較少,雖然E2E-MLT[84]網(wǎng)絡(luò)實(shí)現(xiàn)了多語(yǔ)言的識(shí)別但是其F 指數(shù)只有48%,難以滿足實(shí)際需求,所以多語(yǔ)言混合的文本識(shí)別是一個(gè)較大的挑戰(zhàn),也是未來(lái)的研究重點(diǎn)。
(2)多行文本、曲形文本端到端識(shí)別。由于多行文本和曲形文本的彎曲分布使得很難用普通的文本框去檢測(cè),但目前出現(xiàn)的ABCNet網(wǎng)絡(luò)雖然可以對(duì)曲線文本進(jìn)行檢測(cè)但是其F指數(shù)只有61.9%,所以多行文本、曲形文本的端到端識(shí)別仍是很有挑戰(zhàn)性的問(wèn)題。
(3)實(shí)時(shí)文字識(shí)別。隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)安全問(wèn)題日益突出,文字識(shí)別技術(shù)是信息過(guò)濾的基礎(chǔ),但是目前識(shí)別精度高的算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、運(yùn)行時(shí)間長(zhǎng)、不能滿足實(shí)時(shí)過(guò)濾的要求,所以如何構(gòu)建輕量級(jí)模型,實(shí)現(xiàn)實(shí)時(shí)文字識(shí)別仍有待解決。
(4)無(wú)約束場(chǎng)景文字識(shí)別網(wǎng)絡(luò)魯棒性研究。盡管目前的場(chǎng)景文字識(shí)別網(wǎng)絡(luò)已經(jīng)有較好的識(shí)別效果,如Luo等[85]在SVT-Perspective數(shù)據(jù)集上的準(zhǔn)確率達(dá)到95.5%,Qi等[86]在IIIT5K 數(shù)據(jù)集的準(zhǔn)確率為99.6%。但是對(duì)于復(fù)雜的情況其魯棒性較差,如小尺寸區(qū)域文字識(shí)別、噪音嚴(yán)重和光照不均勻的圖片文字識(shí)別等。
(5)自然場(chǎng)景漢字識(shí)別。漢語(yǔ)作為中國(guó)通用語(yǔ)言、國(guó)際通用語(yǔ)言之一,研究漢字識(shí)別意義重大。目前的印刷體漢字識(shí)別率已達(dá)到98%,可以滿足實(shí)際應(yīng)用需求,但是自然場(chǎng)景中的漢字識(shí)別由于存在相似字、背景復(fù)雜等問(wèn)題使得識(shí)別效果不理想,故漢字識(shí)別將是未來(lái)研究的重點(diǎn)。
(6)數(shù)據(jù)集及字符級(jí)標(biāo)注。目前的識(shí)別網(wǎng)絡(luò)主要是基于中英文的,主要原因在于其他語(yǔ)言文本公開數(shù)據(jù)集較少或沒(méi)有,如目前尚無(wú)公開的維吾爾語(yǔ)數(shù)據(jù)集,但是可以利用GAN[87]進(jìn)行數(shù)據(jù)生成,但該網(wǎng)絡(luò)無(wú)法直接處理形變文字,所以仍可作為未來(lái)的研究重點(diǎn)。
另外目前的公開數(shù)據(jù)集缺乏字符級(jí)標(biāo)注,但是可以運(yùn)用弱監(jiān)督或半監(jiān)督的方式在單詞級(jí)或句子級(jí)的數(shù)據(jù)集上訓(xùn)練出字符級(jí)模型,如WordSup[39]網(wǎng)絡(luò)、TextDragon[61]網(wǎng)絡(luò)、STN-OCR[58]網(wǎng)絡(luò)、MORAN[60]網(wǎng)絡(luò)、CharNet[88]網(wǎng)絡(luò)、CRAFT[89]網(wǎng)絡(luò)等。
WordSup網(wǎng)絡(luò)在文本行、單詞級(jí)標(biāo)注數(shù)據(jù)集上訓(xùn)練出字符級(jí)檢測(cè)模型;STN-OCR 網(wǎng)絡(luò)訓(xùn)練時(shí)只需要提供文本標(biāo)簽,而不要求文本位置信息;MORAN 網(wǎng)絡(luò)訓(xùn)練過(guò)程中不需要字符位置或像素級(jí)分割的監(jiān)督信息;CharNet網(wǎng)絡(luò)開發(fā)了迭代字符檢測(cè)方法使用合成數(shù)據(jù)生成真實(shí)數(shù)據(jù)上的字符級(jí)標(biāo)注;TextDragon網(wǎng)絡(luò)訓(xùn)練時(shí)使用單詞級(jí)別或行級(jí)別的標(biāo)簽;CRAFT 網(wǎng)絡(luò)主要通過(guò)合成的數(shù)據(jù)集具有字符級(jí)別的標(biāo)注,檢測(cè)合成產(chǎn)生標(biāo)簽再進(jìn)行訓(xùn)練并借助文本行長(zhǎng)度確定置信度實(shí)現(xiàn)單個(gè)字符的標(biāo)注。
由以上各種網(wǎng)絡(luò)的弱監(jiān)督訓(xùn)練方式對(duì)比可知,未來(lái)解決數(shù)據(jù)集缺乏字符級(jí)標(biāo)注問(wèn)題的研究重點(diǎn)為:(1)在單詞級(jí)標(biāo)注數(shù)據(jù)集上訓(xùn)練出字符級(jí)檢測(cè)識(shí)別模型。(2)使用合成數(shù)據(jù)生成真實(shí)數(shù)據(jù)上的字符級(jí)標(biāo)注。(3)利用數(shù)據(jù)集提供的文本內(nèi)容標(biāo)簽,無(wú)需文本位置信息,實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練。
首先說(shuō)明了場(chǎng)景文字檢測(cè)與識(shí)別算法的研究背景和識(shí)別難點(diǎn),其次說(shuō)明了場(chǎng)景文字識(shí)別的處理過(guò)程,然后介紹了常用的目標(biāo)檢測(cè)方法和文本檢測(cè)方法;接著介紹了常見(jiàn)的場(chǎng)景文字識(shí)別算法和端到端檢測(cè)與識(shí)別算法,并對(duì)各類算法總結(jié)了其優(yōu)缺點(diǎn)、適用場(chǎng)景、實(shí)現(xiàn)成本等;最后介紹了常用的公開數(shù)據(jù)集,并探討了未來(lái)發(fā)展趨勢(shì)和可能的研究重點(diǎn)。隨著人工智能的快速發(fā)展,自然場(chǎng)景圖像中的文字檢測(cè)和識(shí)別技術(shù)在自動(dòng)駕駛、網(wǎng)絡(luò)安全、地理定位、智能交通等領(lǐng)域?qū)?huì)受到越來(lái)越多人的青睞,雖然文字識(shí)別技術(shù)目前仍存在較多問(wèn)題,但是隨著對(duì)文字識(shí)別技術(shù)的深入研究,以及深度學(xué)習(xí)技術(shù)的進(jìn)步,未來(lái)一定能解決這些問(wèn)題。