国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的自然場(chǎng)景多方向文本檢測(cè)與識(shí)別

2021-03-07 07:57王明宇
電子技術(shù)與軟件工程 2021年24期
關(guān)鍵詞:置信度注意力卷積

王明宇

(格拉斯哥大學(xué) 英國(guó)蘇格蘭格拉斯哥 G128QQ)

1 背景介紹

自然場(chǎng)景圖像的文本檢測(cè)與識(shí)別技術(shù)有助于獲取、分析和理解場(chǎng)景內(nèi)容信息,對(duì)提高圖像檢索能力、工業(yè)自動(dòng)化水平和場(chǎng)景理解能力具有重要意義。它可以應(yīng)用于自動(dòng)駕駛、車(chē)牌識(shí)別和智能機(jī)器人等場(chǎng)景,具有很大的實(shí)用價(jià)值和廣闊的研究前景。

與以往用于印刷文本的OCR 技術(shù)不同,自然場(chǎng)景中的文本檢測(cè)和識(shí)別任務(wù)更加困難。復(fù)雜的背景使得許多文本很難從背景物體中區(qū)分出來(lái)。目前的研究通常將自然場(chǎng)景中的文本識(shí)別分為兩個(gè)步驟:文本檢測(cè)和文本識(shí)別。即用視覺(jué)處理技術(shù)提取中文文本,用自然語(yǔ)言處理技術(shù)獲取文本內(nèi)容。這兩個(gè)步驟密切相關(guān),文本檢測(cè)結(jié)果的準(zhǔn)確性直接影響到最終的文本識(shí)別結(jié)果。因此,本文開(kāi)發(fā)了一個(gè)將檢測(cè)和識(shí)別這兩個(gè)步驟整合在一起的應(yīng)用,以提高識(shí)別的效率。

本文的研究?jī)?nèi)容主要包括以下三個(gè)方面。

(1)結(jié)合目標(biāo)檢測(cè)的知識(shí),對(duì)SegLink 模型進(jìn)行了分析和改進(jìn)。利用連接組件的CNN 網(wǎng)絡(luò)對(duì)檢測(cè)結(jié)果進(jìn)行過(guò)濾,提高檢測(cè)結(jié)果的準(zhǔn)確性。

(2)針對(duì)自然場(chǎng)景文本識(shí)別的不足,設(shè)計(jì)了結(jié)合二維CTC 和注意力機(jī)制的適應(yīng)性強(qiáng)的文本識(shí)別模型。本文詳細(xì)介紹了二維CTC的原理以及連接二維CTC 和注意力機(jī)制模型的文字識(shí)別全過(guò)程,并介紹了Encoder-Decoder 模型的詳細(xì)改進(jìn)和操作,進(jìn)一步提高對(duì)不規(guī)則和傾斜文本序列的識(shí)別精度。

(3)通過(guò)整合檢測(cè)和識(shí)別框架,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)端到端的自然場(chǎng)景文本檢測(cè)和識(shí)別系統(tǒng),并對(duì)識(shí)別效果進(jìn)行了驗(yàn)證。結(jié)果表明,所提出的模型取得了良好的效果。

2 基于SegLink的文本檢測(cè)

SegLink 是一個(gè)深度神經(jīng)網(wǎng)絡(luò)文本檢測(cè)模型,它將一個(gè)文本行視為多個(gè)文本片段的集合,這些片段可以是一個(gè)字符或文本行的任何部分。這些文本片段被連接在一起,形成一個(gè)文本行。在SegLink 的基礎(chǔ)上,本文提出通過(guò)使用CNN 網(wǎng)絡(luò)對(duì)連接部件進(jìn)行進(jìn)一步過(guò)濾,以提高檢測(cè)結(jié)果的準(zhǔn)確性。如圖1所示。

圖1:SegLink 的網(wǎng)絡(luò)結(jié)構(gòu)

SegLink 文本檢測(cè)網(wǎng)絡(luò)使用一個(gè)前饋CNN 來(lái)檢測(cè)文本。給定尺寸為W1×H1 的圖像I,該模型輸出固定數(shù)量的文本片段和連接,根據(jù)置信度對(duì)其進(jìn)行過(guò)濾,把過(guò)濾后的連接作為邊,構(gòu)造為單詞邊界框。

該網(wǎng)絡(luò)使用vGG16 作為特征提取網(wǎng)絡(luò),從圖像中提取特征,其中vGG16 中的全連接層(FC6,F(xiàn)C7)被卷積層(conv6,conv7)取代。受SSD 網(wǎng)絡(luò)的啟發(fā),SegLink 使用3*3 的卷積層為每層的特征圖生成預(yù)測(cè)內(nèi)容,圍繞方框的文本片段為傾斜方框,用S=(xs,ys,ws,hs,θs)表示。每層卷積預(yù)測(cè)器產(chǎn)生7 個(gè)通道的預(yù)測(cè)內(nèi)容,其中兩個(gè)通道分別代表默認(rèn)方框?yàn)槲淖?大寫(xiě)的概率,并進(jìn)行softw=Max 歸一化,得到文字置信度。剩下的5 個(gè)通道代表默認(rèn)框的幾何偏移內(nèi)容。特征圖中某一位置的坐標(biāo)為(x,y),預(yù)測(cè)內(nèi)容中的五個(gè)通道的內(nèi)容(ΔxS,Δys,ΔwS,Δhs,Δθs)用來(lái)表示該位置的文本片段。文本片段幾何信息的位置是用以下公式確定的。

常數(shù)al控制輸出文本片段的大小,它根據(jù)第L 層接受域的大小決定。

2.1 層內(nèi)鏈路

將一對(duì)相鄰的文本片段連接起來(lái),表示它們屬于同一個(gè)詞,如圖2所示。文本片段之間的連接也是由卷積預(yù)測(cè)器預(yù)測(cè)的。每個(gè)鏈接有兩個(gè)分?jǐn)?shù),一個(gè)是正分?jǐn)?shù),另一個(gè)是負(fù)分?jǐn)?shù)。正分用來(lái)表示這兩個(gè)片段是否屬于同一個(gè)詞,應(yīng)該被連接起來(lái);負(fù)分表示它們是否是獨(dú)立的詞,應(yīng)該被斷開(kāi)。每個(gè)片段的鏈接是一個(gè)8×2=16 維的向量。這兩個(gè)通道的值將進(jìn)一步被softmax 規(guī)范化,以獲得連接的置信度。

如圖2 部所示,黃色方框的鄰居是兩個(gè)藍(lán)色方框,它們之間有一條連接線(綠線),表明它們屬于同一個(gè)詞。

圖2:層內(nèi)鏈路和跨層鏈路

鄰居的歸一化定義為公式(6)。

2.2 跨層鏈路

在這個(gè)網(wǎng)絡(luò)中,同一個(gè)詞可能在不同的層被檢測(cè)到,每個(gè)卷積層在一定的尺度范圍內(nèi)智能處理詞。為了解決重復(fù)檢測(cè)的冗余問(wèn)題,引入跨層連接。跨層連接可以將在兩個(gè)特征層檢測(cè)到的具有關(guān)聯(lián)性的文本片段連接起來(lái)。該公式定義如下。

每個(gè)文本片段都有4 個(gè)跨層連接,這是由兩層特征圖像之間的長(zhǎng)度、寬度和倍數(shù)關(guān)系保證的。同樣,跨層連接也是由卷積預(yù)測(cè)器預(yù)測(cè)的,它輸出8 個(gè)通道的值,用于預(yù)測(cè)當(dāng)前文本片段和4 個(gè)跨層連接段之間的連接關(guān)系。對(duì)每2 個(gè)通道進(jìn)行Softmax 歸一化,以產(chǎn)生置信度分?jǐn)?shù)。

跨層連接允許連接并合并不同大小的文本片段。與傳統(tǒng)的非最大抑制算法相比,跨層連接提供了一種可訓(xùn)練的冗余連接方式。

圖3 展示了卷積預(yù)測(cè)器的輸出通道,它由一個(gè)卷積層和一個(gè)Softmax 層實(shí)現(xiàn)。

圖3:卷積預(yù)測(cè)器的輸出通道

2.3 結(jié)合Segments和Links

如圖4所示,測(cè)試網(wǎng)絡(luò)最終會(huì)產(chǎn)生一系列的文本片段和鏈接,按照置信度進(jìn)行排序和過(guò)濾,α 和β 分別代表片段和鏈接的閾值(通過(guò)網(wǎng)格搜索發(fā)現(xiàn)這兩個(gè)值是最優(yōu)的)。將每個(gè)片段視為節(jié)點(diǎn),鏈接視為邊,建立圖模型,然后用DFS(深度優(yōu)先搜索)來(lái)尋找連接成分,每個(gè)連接成分就是一個(gè)詞。然后再把輸出的詞一起融合在box 中。

圖4

算法1 實(shí)際上是一個(gè)平均化的過(guò)程。首先,計(jì)算出所有片段的平均θ,作為詞的θ。然后,以得到的θ 為給定條件,找到最有可能通過(guò)每段的線(線段)。以線段的中點(diǎn)作為Word 的中心點(diǎn)(x,y)。用所有線段的平均高度作為字的高度。

2.4 Char-CNN

SegLink 在窗口層面對(duì)圖像進(jìn)行操作,但是在文本鏈接組件層面沒(méi)有特征約束。因此提取的候選文本對(duì)象不一定完全是文本,有時(shí)可能是一些具有類(lèi)似整體文本特征的非文本區(qū)域。在此基礎(chǔ)上,我們通過(guò)對(duì)提取的文本候選區(qū)域使用基于CNN 的字符級(jí)過(guò)濾算法來(lái)改進(jìn)SegLink 網(wǎng)絡(luò),進(jìn)一步排除非文本候選區(qū)域,從而提高圖像中文本檢測(cè)的準(zhǔn)確性。

具體來(lái)說(shuō),首先對(duì)SegLink 提取的字級(jí)文本進(jìn)行MSER 區(qū)域檢測(cè),并將檢測(cè)到的MSER 區(qū)域的最大邊界框作為字符的邊界框,從而將字分割為字符級(jí)的候選文本。然后,將分割好的候選字統(tǒng)一調(diào)整大小,作為CNN 分類(lèi)器的輸入,并進(jìn)行評(píng)分,得到每個(gè)候選字的字符文本置信度。在此之后,對(duì)同一單詞分割得到的所有候選字符使用非最大抑制算法,得到一個(gè)單詞中所有字符的平均得分,作為該單詞的文本置信度,并將置信度低于一個(gè)閾值的詞過(guò)濾掉。如圖5所示。

圖5:Char-CNN 結(jié)構(gòu)

3 基于連接二維CTC和注意力機(jī)制的文本識(shí)別

與A4 紙上的印刷文字不同,自然場(chǎng)景中的文字多為空間排列不規(guī)則、噪聲較大的文字。雖然CRNN+CTC 的收斂速度較快,但CRNN 存在解碼信息缺失的問(wèn)題,并且CTC 模型要求的特征序列高度為限制了識(shí)別能力?;贏ttention 機(jī)制的sequence to sequence模型收斂速度慢,但準(zhǔn)確率比CRNN+CTC 模型高,但它也有缺陷?;谧⒁饬C(jī)制的序列到序列模型在一定程度上對(duì)自然場(chǎng)景中的英語(yǔ)有較高的識(shí)別率。但對(duì)自然場(chǎng)景中的中文的識(shí)別效果并不理想。為了解決上述問(wèn)題,本文提出了一種基于連接二維CTC 的序列和注意力機(jī)制的文字識(shí)別模型。

3.1 2D CTC

二維CTC 消除了背景噪音的影響,可以自適應(yīng)地關(guān)注空間信息。它還可以處理各種形式的文本實(shí)例(水平、定向和彎曲),同時(shí)給出更多的中間預(yù)測(cè)。對(duì)于二維CTC,在路徑搜索中增加了一個(gè)額外的維度:除了時(shí)間步長(zhǎng)(預(yù)測(cè)長(zhǎng)度)之外,還保留了高概率分布。它確保所有可能的高路徑都得到考慮,不同的路徑選擇仍可能導(dǎo)致相同的目標(biāo)順序。

二維CTC 也需要在高度維度上進(jìn)行歸一化。一個(gè)單獨(dú)的SoftMax 層產(chǎn)生了一個(gè)額外的形狀為H×W 的預(yù)測(cè)路徑轉(zhuǎn)換圖。概率分布和路徑轉(zhuǎn)換被用于損失計(jì)算和序列解碼。二維CTC 繼承了CTC 的對(duì)齊概念。與一維CTC 相比,二維CTC 實(shí)質(zhì)上是將高度轉(zhuǎn)化為大小,從而緩解了信息丟失或連接的問(wèn)題,為CTC 解碼提供了更多的路徑。

3.2 連接二維CTC和注意力序列機(jī)制的模型

基于二維CTC和注意力機(jī)制的文本序列識(shí)別框架分為兩部分。編碼部分由一個(gè)卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)多層雙向LSTM 組成,負(fù)責(zé)將圖像轉(zhuǎn)換為特征序列。解碼部分由一個(gè)結(jié)合了二維CTC 和注意力機(jī)制的序列-順序模型組成。在基于注意力機(jī)制的序列-順序解碼中,所有的特征都以語(yǔ)義C 為中心,并為每個(gè)特征計(jì)算出注意力權(quán)重。解碼過(guò)程的計(jì)算方法如下。

其中h I 和j 代表第i 個(gè)關(guān)系中JTH h 的編碼特征向量,代表由平滑歸一化函數(shù)處理的權(quán)重參數(shù),e代表注意力的權(quán)重,g代表h I,j和的線性變換。最后,生成下一個(gè)狀態(tài)s 和下一個(gè)標(biāo)簽y。

在這一點(diǎn)上,注意力損失函數(shù)的計(jì)算公式為:

其中y*t-1 是第一個(gè)t-1 標(biāo)簽序列。

該模型的思路是在多任務(wù)學(xué)習(xí)框架下,用二維CTC 目標(biāo)函數(shù)作為輔助任務(wù)來(lái)訓(xùn)練注意力模型編碼器。與注意力模型不同的是,CTC 的前向-后向算法可以實(shí)現(xiàn)語(yǔ)音和標(biāo)簽序列的單調(diào)對(duì)齊,而且CTC 要求的特征序列高度為1,不能考慮空間信息,而二維CTC可以考慮文本的空間信息。模型的損失函數(shù)的計(jì)算方法是:

4 自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)

該系統(tǒng)使用Python 語(yǔ)言開(kāi)發(fā),實(shí)現(xiàn)了基于SegLink 改進(jìn)和二維CTC 連接關(guān)注機(jī)制的端到端文本檢測(cè)和識(shí)別。

自然場(chǎng)景圖像文本識(shí)別模型的處理流程包括文本檢測(cè)、文本處理和文本識(shí)別。系統(tǒng)檢測(cè)到圖像輸入后,首先檢測(cè)文字區(qū)域并畫(huà)出文字框,然后切出文字區(qū)域進(jìn)行水平統(tǒng)一處理,并將其轉(zhuǎn)換成灰度圖像。然后,將校正后的文本圖像輸入到文本識(shí)別網(wǎng)絡(luò)模型中進(jìn)行識(shí)別,最后輸出識(shí)別結(jié)果。

該系統(tǒng)的主界面如圖6所示。系統(tǒng)的各個(gè)功能模塊都可以在主頁(yè)上直觀地找到。通過(guò)網(wǎng)絡(luò)交互,系統(tǒng)簡(jiǎn)單明了。通過(guò)系統(tǒng)的界面,直接選擇要上傳的圖片。系統(tǒng)的文字識(shí)別功能模塊如圖7所示,對(duì)文字區(qū)域進(jìn)行檢測(cè)和識(shí)別,并在右側(cè)輸出結(jié)果。圖6 是沒(méi)有上傳圖像時(shí)的系統(tǒng)主界面。圖7 展示了識(shí)別結(jié)果的例子。

圖6:系統(tǒng)主界面

圖7:識(shí)別結(jié)果界面

5 結(jié)論

在文字檢測(cè)方面,通過(guò)增加CNN 網(wǎng)絡(luò)的連接部件的濾波器,改進(jìn)了SegLink 模型,提高了檢測(cè)結(jié)果的準(zhǔn)確性。在文字識(shí)別方面,針對(duì)自然場(chǎng)景文字識(shí)別的不足,設(shè)計(jì)了一個(gè)結(jié)合二維注意力機(jī)制和CTC 的文字識(shí)別模型,具有較強(qiáng)的適應(yīng)性,進(jìn)一步提高了不規(guī)則和傾斜文字的識(shí)別精度。結(jié)合上述兩項(xiàng)相關(guān)工作,將該框架整合并擴(kuò)展為一個(gè)端到端的識(shí)別系統(tǒng)。該系統(tǒng)的實(shí)現(xiàn)簡(jiǎn)單高效,在水平和多方向的文本數(shù)據(jù)集上有很好的表現(xiàn)。目前的文本檢測(cè)和識(shí)別只能達(dá)到識(shí)別和感知。對(duì)于場(chǎng)景文本識(shí)別,基于深度學(xué)習(xí)的文本檢測(cè)和識(shí)別的最終目標(biāo)是排版、存儲(chǔ)和分析圖像文本內(nèi)容。由于本人在自然場(chǎng)景文本檢測(cè)和識(shí)別的技術(shù)領(lǐng)域的研究和學(xué)習(xí)還不夠深入,有很多需要改進(jìn)的地方,因此提出了兩點(diǎn)建議供大家進(jìn)一步參考。

(1)本文提出了一個(gè)統(tǒng)一的檢測(cè)和識(shí)別系統(tǒng),對(duì)傾斜和彎曲的文本取得了良好的效果。但是,自然場(chǎng)景中仍然存在較大的噪聲和相對(duì)變形的形狀。今后將對(duì)文字彎曲變形的檢測(cè)進(jìn)行改進(jìn)。

(2)雖然本文提出的端到端識(shí)別模型具有良好的效果,但由于計(jì)算機(jī)配置有限,識(shí)別時(shí)間較長(zhǎng),今后將進(jìn)一步開(kāi)展工作,縮短檢測(cè)和識(shí)別時(shí)間。

猜你喜歡
置信度注意力卷積
讓注意力“飛”回來(lái)
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
置信度條件下軸承壽命的可靠度分析
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
金华市| 江西省| 延边| 巴彦淖尔市| 启东市| 海淀区| 米脂县| 抚远县| 达州市| 林甸县| 安岳县| 阿鲁科尔沁旗| 周至县| 河北区| 东兴市| 锦屏县| 印江| 侯马市| 济南市| 灵璧县| 武义县| 大安市| 巴彦县| 常山县| 松原市| 南涧| 福泉市| 屏南县| 新疆| 靖安县| 江安县| 来安县| 乌鲁木齐市| 罗田县| 阜康市| 濉溪县| 伊川县| 施甸县| 华阴市| 博乐市| 惠州市|