基于特征融合網(wǎng)絡(luò)的自然場景文本檢測①

2018-10-24 11:05:38王晴晴

計算機系統(tǒng)應(yīng)用 2018年10期

余崢, 王晴晴, 呂岳

(華東師范大學(xué) 計算機科學(xué)與軟件工程學(xué)院, 上海 200062)

1 概述

隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展, 越來越多的信息載體以圖像的形式存在. 自然場景圖像中的文字作為一種極其重要的信息來源, 捕獲和識別這些文字有助于理解和分析圖像, 因此, 自然場景圖像中的文本檢測成為當(dāng)下熱門的研究話題之一. 目前文本檢測技術(shù)在現(xiàn)實生活中有著廣泛的應(yīng)用, 例如, 手機設(shè)備上的拍照翻譯軟件, 可以拍攝異國街道或路牌上的文字, 將一種語言實時翻譯為另一種語言, 提供導(dǎo)游幫助;公安機關(guān)的高速監(jiān)控設(shè)備, 可以抓拍識別高速公路上行駛汽車的車牌號碼, 智能化收集違章車輛信息[1]. 除此之外,文本檢測技術(shù)在圖像檢索[2]、視頻字幕提取[3]等領(lǐng)域也存在廣泛的應(yīng)用. 因此, 對自然場景圖像中的文本檢測進行研究具有重要的理論意義和實用價值.

由于自然場景圖像中背景錯綜復(fù)雜, 以及文字所處的位置可能存在逆光、遮擋和模糊等現(xiàn)象, 準(zhǔn)確檢測出場景中的文字成為一項具有挑戰(zhàn)性的工作. 同時,自然場景中的文字具有字體多樣、顏色多變、分布不一的特點, 文本檢測技術(shù)需要具有較強的魯棒性.

傳統(tǒng)的自然場景文本檢測方法主要依賴于手動創(chuàng)建圖像的特征, 利用機器學(xué)習(xí)的方法判別出文字的位置, 此類方法存在計算量大、檢測過程復(fù)雜等缺點. 近年來, 隨著深度學(xué)習(xí)的發(fā)展, 基于深度學(xué)習(xí)的方法在文本檢測中取得顯著的效果, 這些方法簡單高效, 利用單個神經(jīng)網(wǎng)絡(luò)便能檢測到不同尺度的文本. 但是, 大多數(shù)的神經(jīng)網(wǎng)絡(luò)在檢測小尺度的文本上不能取得很好的效果. 因此, 本文基于傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò), 在保證網(wǎng)絡(luò)層次結(jié)構(gòu)不變的前提下, 提出將網(wǎng)絡(luò)中的高層特征與低層特征進行融合, 構(gòu)建一種高級語義的神經(jīng)網(wǎng)絡(luò)用于自然場景文本檢測.

為了驗證高層特征與低層特征不同融合方式對網(wǎng)絡(luò)性能的影響, 本文提出三種特征融合網(wǎng)絡(luò), 分別為相鄰兩層特征融合網(wǎng)絡(luò)、相鄰三層特征融合網(wǎng)絡(luò)和最高層特征融合網(wǎng)絡(luò). 特征融合網(wǎng)絡(luò)在層次結(jié)構(gòu)上是金字塔結(jié)構(gòu), 通過自底向上和自頂向下的連接方式將不同層的特征進行融合. 特征融合后的網(wǎng)絡(luò)具有多個輸出層, 每個輸出層都具有較強的語義信息并能檢測不同尺度的文字. 本文在ICDAR2011和ICDAR2013兩個標(biāo)準(zhǔn)數(shù)據(jù)集上進行了實驗, 實驗表明本文提出的特征融合網(wǎng)絡(luò)可以有效地檢測出小尺度的文本, 并具有較高的定位準(zhǔn)確性和魯棒性.

2 相關(guān)研究

自然場景文本檢測是從具有復(fù)雜背景的圖像中檢測出文字的位置. 目前自然場景文本檢測方法主要分為三類:基于滑動窗口的文本檢測方法、基于連通域的文本檢測方法和基于深度學(xué)習(xí)的文本檢測方法.

2.1 基于滑動窗口的文本檢測方法

基于滑動窗口的文本檢測方法使用多尺度的滑動窗口去掃描圖像, 搜索圖像中文字出現(xiàn)的位置. 基于文字的特征, 運用一個預(yù)訓(xùn)練的文字分類器, 判別窗口內(nèi)是否存在文字. 其中文獻[4]使用滑動窗口結(jié)合方向直方圖(Histogram Of Gradient, HOG)特征建立文本置信圖, 然后使用隨機蕨(random ferns)過濾掉圖中的非文本區(qū)域. 文獻[5]結(jié)合多尺度滑動窗口利用AdaBoost算法, 將多個弱文本分類器組合成強文本分類器, 過濾掉圖中的非文字區(qū)域. 這類方法的主要缺陷是需要對整張圖像進行窮盡式的掃描, 計算量大、消耗時間.

2.2 基于連通域的文本檢測方法

基于連通域的文本檢測方法是利用文字區(qū)域具有相同的顏色和結(jié)構(gòu)等特征來生成文本連通域, 然后根據(jù)連通域的大小, 寬高比等先驗知識來獲得文字區(qū)域.文獻[6]提出使用筆畫寬度變換(Stroke Width Transform, SWT)算子提取出字符筆畫的邊緣圖, 再結(jié)合幾何推理恢復(fù)出字符的形態(tài), 該算子可以有效地提取復(fù)雜背景圖像中不同尺度的文本. 文獻[7]率先提出最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions, MSER)算法檢測文字, 該算法能有效地提取候選文本連通域, 然后通過形態(tài)學(xué)操作和連通域的形狀來確定文本區(qū)域. 為解決MSER算法檢測結(jié)果存在較多嵌套區(qū)域的問題, 文獻[8]采用MSCR (Maximally Stable Color Regions)算法與MSER算法相結(jié)合提取候選字符區(qū)域, 依據(jù)字符區(qū)域的顏色一致性和幾何鄰接關(guān)系對字符進行合并, 最終得到文本區(qū)域. 基于連通域的方法降低了掃描圖像的計算復(fù)雜度, 但這類方法應(yīng)用了大量的自定義規(guī)則和參數(shù), 并且很容易生成大量的非文字候選字符和重復(fù)的文字候選字符. 為了消除無效的候選字符, 該類方法還需要設(shè)計一個字符級別的分類器過濾掉無效的候選文字, 使得檢測復(fù)雜度增大.

2.3 基于深度學(xué)習(xí)的文本檢測方法

近年來, 隨著深度學(xué)習(xí)的發(fā)展, 越來越多的研究傾向于使用深度神經(jīng)網(wǎng)絡(luò)來解決文本檢測問題. 文獻[9]率先提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)訓(xùn)練一個文本分類器. 卷積神經(jīng)網(wǎng)絡(luò)通過提取圖像的深層特征來區(qū)分文本和非文本, 訓(xùn)練過程簡單高效. 基于卷積神經(jīng)網(wǎng)絡(luò)的強分類性能, 文獻[10]首先使用MSER算子提取圖像中的候選文字連通域,然后使用CNN分類器過濾掉MSER產(chǎn)生的無效連通域, 該方法大幅度地提高了傳統(tǒng)檢測文本的性能.

隨著深度神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的發(fā)展, 先后涌現(xiàn)出一系列的目標(biāo)檢測方法, 例如, R-CNN (Regions with CNN)[11], Fast R-CNN[12], Faster R-CNN[13], SSD(Single Shot multibox Detector)[14]. 其中, SSD通過單個卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測目標(biāo)的邊界框并且得到相應(yīng)類別的概率.

受SSD直接預(yù)測目標(biāo)的邊界框的啟發(fā), 文獻[15]將SSD應(yīng)用于文本檢測, 并提出一個用于文本檢測的神經(jīng)網(wǎng)絡(luò)TextBoxes, TextBoxes利用網(wǎng)絡(luò)層中的特征圖(feature map)直接輸出文本的邊界框和置信度. 其網(wǎng)絡(luò)結(jié)構(gòu), 如圖1所示. 該網(wǎng)絡(luò)是一個全卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)里有多個輸出層(conv4_3, conv6_2, conv7_2,conv8_2, conv9_2, conv10_2, conv11_2). 這些輸出層是網(wǎng)絡(luò)中的卷積層, 也是網(wǎng)絡(luò)結(jié)構(gòu)中的關(guān)鍵組成部分, 可以在其特征圖上預(yù)測文本出現(xiàn)的概率和文本邊界框.網(wǎng)絡(luò)最后使用非極大值抑制算法聚集所有的Textbox層輸出的文本框, 得到最終的文本位置.

圖1 TextBoxes的網(wǎng)絡(luò)結(jié)構(gòu)圖

TextBoxes的網(wǎng)絡(luò)模型可以端到端進行訓(xùn)練, 不僅訓(xùn)練過程簡單, 而且檢測速度快. TextBoxes可以在不同分辨率的特征圖上預(yù)測文字的位置, 與以往的文本檢測方法相比, 它的處理過程簡單, 不需要設(shè)計啟發(fā)式的規(guī)則, 使得文本檢測更加高效. 但是它不能較好地預(yù)測小尺度文本. 因此, 本文將提出新的方法來提高網(wǎng)絡(luò)對小尺度文字的定位準(zhǔn)確率, 進一步提高網(wǎng)絡(luò)的性能.

3 基于特征融合網(wǎng)絡(luò)的自然場景文本檢測

TextBoxes的網(wǎng)絡(luò)模型具有金字塔特征層次結(jié)構(gòu),網(wǎng)絡(luò)高層的語義信息比較強, 低層語義信息比較弱. 由于網(wǎng)絡(luò)低層特征圖表達能力不足, 所以不能較好地預(yù)測小尺度的文本. 為了解決該問題, 提高低層特征圖的表達能力, 使網(wǎng)絡(luò)能在不同分辨率的特征圖上都能檢測到對應(yīng)尺度的文本, 本文提出將網(wǎng)絡(luò)高層的特征與低層的特征進行融合得到新的特征圖, 在新的特征圖上預(yù)測文字的位置.

3.1 特征融合

特征融合是指提取和綜合目標(biāo)的兩種或多種特征,提高同一類別的目標(biāo)識別率. 一般是將不同的特征向量組合起來, 組成一個新的特征向量, 然后采用分類器進行判別分類. 在神經(jīng)網(wǎng)絡(luò)中, 將網(wǎng)絡(luò)高層特征和低層特征進行融合, 可以使用融合特征圖的方式. 將特征圖進行融合一般有兩種方式, 分別是元素求和方式和元素點積方式.

神經(jīng)網(wǎng)絡(luò)中的特征圖相當(dāng)于二維矩陣, 使用元素求和方式和元素點積方式必須要求兩個矩陣的大小一致. 由于高層和低層輸出層對應(yīng)的特征圖大小不一致,不能直接進行融合. 為了融合高層特征和低層特征, 本文對網(wǎng)絡(luò)高層輸出的特征圖使用一個反卷積操作, 將網(wǎng)絡(luò)高層特征圖的尺度大小處理成與低層特征圖一致.反卷積操作類似于雙線性差值, 可以有選擇地對特征圖進行放大. 在神經(jīng)網(wǎng)絡(luò)中, 使用反卷積層實現(xiàn)反卷積操作, 反卷積層輸出的特征圖大小的計算公式為:

其中,i表示反卷積層輸入特征圖的大小,k表示卷積核的尺寸,s表示步長大小,p表示填充邊距. 網(wǎng)絡(luò)高層的特征圖通過反卷積層設(shè)置相應(yīng)的參數(shù), 便可得到與低層一樣大小的特征圖.

假設(shè)網(wǎng)絡(luò)高層特征圖為A (n×n矩陣), 低層特征圖為B (m×m矩陣), 高層特征圖A (n×n矩陣)通過反卷積操作得到新的特征圖A’(m×m矩陣). 將兩個相同尺度的特征圖A’和B進行融合, 使用元素求和方式, 即兩個矩陣對應(yīng)元素求和, 融合后的特征圖為T1:

使用元素點積方式融合兩個特征圖, 即兩個矩陣對應(yīng)元素相乘, 融合后的特征圖為T2:

研究表明[16], 點積計算能得到更好的精度, 獲得更好的融合效果, 因此, 本文采用元素點積方式實現(xiàn)特征圖的融合.

3.2 特征融合網(wǎng)絡(luò)的結(jié)構(gòu)

原始網(wǎng)絡(luò)的輸出層是網(wǎng)絡(luò)中獨立的卷積層, 網(wǎng)絡(luò)中特征圖經(jīng)過卷積核計算越來越小, 特征圖語義信息越來越強, 如圖2(a)所示. 雖然, 網(wǎng)絡(luò)的每個輸出層都可以通過特征圖預(yù)測文字的位置, 但是, 網(wǎng)絡(luò)中低層輸出層語義信息表達能力弱, 無法準(zhǔn)確檢測到小尺度的文本. 為了增強網(wǎng)絡(luò)低層輸出層的語義信息, 本文運用特征融合方式, 將網(wǎng)絡(luò)高層的特征圖與低層的特征圖進行融合, 并提出三種特征融合網(wǎng)絡(luò), 分別為相鄰兩層特征融合網(wǎng)絡(luò)、相鄰三層特征融合網(wǎng)絡(luò)以及最高層特征融合網(wǎng)絡(luò).

特征融合網(wǎng)絡(luò)在結(jié)構(gòu)上有兩種連接方式, 一種是自底向上的連接方式, 一種是自頂向下的連接方式. 自底向上是網(wǎng)絡(luò)的前向傳播過程, 特征圖的大小經(jīng)過卷積層后會逐漸變小, 整個網(wǎng)絡(luò)在層次結(jié)構(gòu)上是金字塔結(jié)構(gòu). 自頂向下的連接采用反卷積, 將反卷積的結(jié)果與自底向上生成的相同大小的特征圖進行融合. 特征融合后的網(wǎng)絡(luò)利用高層特征的強語義信息, 提高網(wǎng)絡(luò)低層的語義信息. 網(wǎng)絡(luò)通過融合不同層的特征達到預(yù)測效果, 并在每個融合后的特征層上預(yù)測文字.

以TextBoxes中Conv4_3和Conv6_2兩層特征進行融合為例, 在Caffe深度學(xué)習(xí)框架下, 網(wǎng)絡(luò)的連接方式, 如圖3所示. 低層的Conv4_3層, 先連接一個1×1的卷積層, 目的是減少特征圖的通道數(shù), 進而降低計算復(fù)雜度, 該操作并不會對特征圖的大小產(chǎn)生影響.高層的Conv6_2層經(jīng)過反卷積操作后, 特征圖大小與Conv4_3層一致. 接著對兩層特征使用BatchNorm層對數(shù)據(jù)進行標(biāo)準(zhǔn)化, 消除數(shù)據(jù)間的量綱關(guān)系, 避免梯度更新導(dǎo)致數(shù)值問題, 同時可以加快收斂速度尋找最優(yōu)解. 最后使用Eltwise層的product操作, 對特征圖采用元素點積方式進行融合, 融合后的結(jié)果作為新的輸出層, 預(yù)測文字的位置和置信度.

圖2 原始網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)與特征融合網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)對比圖

本文提出三種特征融合網(wǎng)絡(luò), 選擇不同的組合方式將高層特征與低層特征進行融合. 相鄰兩層特征融合網(wǎng)絡(luò)是指原始網(wǎng)絡(luò)低層的特征圖與最近鄰的高層特征圖進行融合的網(wǎng)絡(luò), 如圖2(b)所示, 原始網(wǎng)絡(luò)高層的特征圖經(jīng)過反卷積操作, 得到與低層尺度一樣的特征圖, 然后兩個相同尺度的特征圖進行融合得到新的特征圖, 網(wǎng)絡(luò)在新的特征圖上輸出文字的位置.

圖3 Caffe框架下網(wǎng)絡(luò)層的連接方式

相鄰三層特征融合網(wǎng)絡(luò)是指原始網(wǎng)絡(luò)低層的特征圖與近鄰的兩層特征圖進行融合的網(wǎng)絡(luò), 如圖2(c)所示. 其中, 近鄰的兩層特征圖都來自于網(wǎng)絡(luò)的高層特征圖, 融合后的特征圖來自于原始網(wǎng)絡(luò)的三層特征圖. 如果較高層的輸出層沒有兩個近鄰的特征層可以融合,則輸出層保持不變.

最高層特征融合網(wǎng)絡(luò)表示原始網(wǎng)絡(luò)中語義信息最強的特征圖分別與其他輸出層的特征圖進行融合的網(wǎng)絡(luò), 如圖2(d)所示, 新的輸出層來自于低層特征與最高層特征的融合.

3.3 特征融合網(wǎng)絡(luò)的采樣策略

特征融合網(wǎng)絡(luò)在訓(xùn)練時僅僅需要輸入圖像和圖像中文本的真實標(biāo)簽框(ground truth). 由于網(wǎng)絡(luò)的輸出是預(yù)測文本框與默認框(default box)的偏移坐標(biāo)以及文本的置信度, 因此, 網(wǎng)絡(luò)在訓(xùn)練過程中, 需要建立真實標(biāo)簽框和默認框之間的關(guān)系, 并對默認框進行標(biāo)注.

特征融合網(wǎng)絡(luò)在每個輸出層上采用滑動窗口的模式生成默認框,N×N的特征圖有N×N個特征點, 每個特征點可以對應(yīng)多個不同橫縱比的默認框. 本文使用jaccard重疊率作為匹配指標(biāo)對默認框進行標(biāo)注, jaccard重疊率越高表明樣本相似度越高, 兩個樣本越匹配. 給定默認框A和真實標(biāo)簽框B, 默認框與真實標(biāo)簽框的jaccard重疊率表示A與B的交集面積與并集面積的比值:

本文將jaccard重疊率大于或等于0.5的默認框作為匹配的默認框, jaccard重疊率小于0.5的默認框作為不匹配的默認框. 其中, 匹配的默認框作為正樣本,不匹配的默認框作為負樣本. 如圖4(a)所示, 文本“Marlboro”的真實標(biāo)簽框為圖中的上方的實線框, 文本“LIGHTS”的真實標(biāo)簽框為圖中的下方的實線框. 在圖4(b)和4(c)中可以看到一些虛線框, 虛線框表示特征圖上的默認框. 其中, 有兩個加粗的虛線框匹配文本“LIGHTS”, 有一個加粗的虛線框與文本“Marlboro”相匹配, 因此, 標(biāo)注匹配的默認框作為正樣本, 不匹配的默認框作為負樣本.

圖4 特征融合網(wǎng)絡(luò)的特征圖

通過樣本標(biāo)注階段后, 默認框中會產(chǎn)生大量的負樣本, 這會導(dǎo)致正負樣本的數(shù)量不均衡, 進而導(dǎo)致模型不穩(wěn)定, 預(yù)測效果差. 為了解決該問題, 本文將默認框中的負樣本通過置信度損失進行排序, 選擇置信度損失值較高的默認框作為網(wǎng)絡(luò)訓(xùn)練的負樣本, 使訓(xùn)練的正負樣本的比例保持在1:3, 這樣可以穩(wěn)定網(wǎng)絡(luò)的訓(xùn)練.

3.4 特征融合網(wǎng)絡(luò)目標(biāo)函數(shù)

特征融合網(wǎng)絡(luò)的目標(biāo)函數(shù)源自于TextBoxes的目標(biāo)函數(shù), 特征融合網(wǎng)絡(luò)能處理默認框與文本的真實標(biāo)簽框是否匹配. 假設(shè)一張圖像中存在第i個默認框和第j個真實標(biāo)簽框,xij=1表示第i個默認框與第j個真實標(biāo)簽框相匹配, 如果不匹配, 則xij=0.

特征融合網(wǎng)絡(luò)的目標(biāo)損失函數(shù)是定位損失與置信度損失的加權(quán)和:

其中,x表示匹配結(jié)果矩陣,c表示置信度,l表示預(yù)測位置,g表示文本的真實位置,N表示默認框匹配真實標(biāo)簽框的個數(shù);其中, 權(quán)重系數(shù)α設(shè)置為1;定位損失Lloc是預(yù)測位置和真實位置的L2損失:

置信度損失Lconf是二分類的softmax損失:

3.5 多尺度文本檢測

特征融合網(wǎng)絡(luò)在層次結(jié)構(gòu)上仍然是金字塔結(jié)構(gòu),網(wǎng)絡(luò)在新的輸出層上預(yù)測文本框的位置和置信度. 在每個輸出層的特征圖上定義一系列固定大小的默認框,輸出層輸出文本的置信度和相對于默認框的偏移坐標(biāo).假設(shè)圖像和特征圖的大小分別是(wim,him)和(wmap,hmap), 在特征圖中(i,j)位置對應(yīng)一個默認框b0=(x0,y0,w0,h0), 輸出層的輸出為 (Δx, Δy, Δw, Δh,c), 其中 (Δx,Δy, Δw, Δh)表示預(yù)測文字邊界框相對于默認框的偏移坐標(biāo),c表示文字的置信度. 預(yù)測的文字邊界框為b=(x,y,w,h), 其中:

x,y表示預(yù)測的文本框的左上角的橫縱坐標(biāo),w,h為文本框的寬和高. 為了預(yù)測不同橫縱比的文本邊界框, 特征圖上每一個特征點可以關(guān)聯(lián)多個橫縱比的默認框. 本文使用6種橫縱比的默認框去預(yù)測文本邊界框:

此外, 由于網(wǎng)絡(luò)中不同的輸出層對應(yīng)的特征圖尺度不一樣, 輸出層可以預(yù)測不同尺度的文字. 假設(shè)網(wǎng)絡(luò)中有m個輸出層, 每個輸出層對應(yīng)一個特征圖, 每個特征圖中默認框的尺度為:

每個默認框的寬度和高度分別為:

其中,Smin,Smax分別表示最低層和最高層的默認框的尺度. 從公式(10)可以看出, 低層輸出層預(yù)測小尺度的文字, 高層輸出層預(yù)測大尺度的文字.

輸出層的默認框在不同的特征圖上有著不同的尺度, 在同一個特征圖又有著不同的橫縱比, 相應(yīng)的, 整個網(wǎng)絡(luò)可以通過多個輸出層預(yù)測不同尺度和不同形狀的文本. 最后, 網(wǎng)絡(luò)使用非極大值抑制算法聚集輸出層輸出的所有文本框, 選擇置信度較高的文本框作為文本檢測結(jié)果.

3.6 非極大值抑制算法

非極大值抑制算法(Non-Maximum Suppression,NMS)的本質(zhì)是搜索局部極值點, 抑制非極大值元素,該算法被廣泛應(yīng)用在目標(biāo)檢測的后處理中, 主要目的是排除多余的檢測結(jié)果, 得到目標(biāo)的最佳位置.

文本檢測中普遍使用非極大值抑制算法去除冗余文本框, 因為它簡單高效, 主要步驟如下:

(1) 將文本檢測結(jié)果(預(yù)測文本框)按照置信度的值從高到低排序;

(2) 將第一個文本框作為當(dāng)前抑制的文本框;

(3) 非極大值抑制. 將其他文本框作為被抑制文本框, 計算當(dāng)前抑制文本框與被抑制文本框的面積交疊率(IOU). 如果交疊率高于閾值α, 剔除該文本框.

(4) 如果只剩最后一個文本框, 則算法結(jié)束;否則,按照之前排列好的順序, 取下一個未被抑制的文本框作為抑制文本框, 執(zhí)行步驟(3).

(5) 算法結(jié)束后, 選擇置信度高于閾值β的文本框作為最終文本檢測結(jié)果.

其中, 兩個文本框的面積交疊率的計算方法如公式(13)所示,area(A)和area(B)分別為文本框A和文本框B的面積:

使用非極大值抑制算法后, 文本檢測的結(jié)果, 如圖5所示. 圖5(a)表示輸入圖像, 圖5(b)表示通過網(wǎng)絡(luò)檢測后預(yù)測的文本框的位置及置信度, 圖5(c)表示使用非極大值抑制算法后文本檢測的最終結(jié)果.

圖5 使用非極大值抑制算法后文本檢測結(jié)果

4 實驗結(jié)果和分析

4.1 數(shù)據(jù)集

為驗證網(wǎng)絡(luò)的有效性, 本文在兩個公開的場景文本檢測數(shù)據(jù)集上評估網(wǎng)絡(luò)的性能:ICDAR2011和ICDAR2013. 其中ICDAR2011數(shù)據(jù)集包含229張訓(xùn)練圖像和255張測試圖像, ICDAR2013數(shù)據(jù)集包含229張訓(xùn)練圖像和233張測試圖像.

4.2 網(wǎng)絡(luò)參數(shù)設(shè)置

本文的網(wǎng)絡(luò)使用隨機梯度下降(Stochastic Gradient, SGD)的方法訓(xùn)練, 其中動量(momentum)和權(quán)值衰減系數(shù)(weight decay)分別設(shè)置為0.9和5×10–4.最大迭代次數(shù)為12萬次, 學(xué)習(xí)率(learning rate)初始設(shè)置為 10–3, 迭代 6 萬次后, 學(xué)習(xí)率調(diào)整為 10–4. 整個實驗在深度學(xué)習(xí)框架Caffe平臺上進行, 訓(xùn)練和測試圖像的尺寸都為700×700, 每個訓(xùn)練模型使用一個Titan X GPU大約訓(xùn)練50小時.

4.3 性能指標(biāo)

在自然場景文本檢測算法里, 涉及三個評價指標(biāo),分別為準(zhǔn)確率(P)、召回率(R)和F值(F).

準(zhǔn)確率表示檢測正確的文本框數(shù)量與算法檢測出的文本框數(shù)量的比值, 召回率表示檢測正確的文本框數(shù)量與數(shù)據(jù)集中真實文本框數(shù)量的比值. 準(zhǔn)確率和召回率是一對矛盾的度量. 一般來說, 準(zhǔn)確率高時, 召回率往往偏低;而召回率高時, 準(zhǔn)確率往往偏低. 所以, 準(zhǔn)確率和召回率都不能唯一的評價算法的性能. 為了綜合評價算法的性能, 一般使用準(zhǔn)確率和召回率的調(diào)和平均數(shù)(F值)來衡量算法的優(yōu)劣. 準(zhǔn)確率、召回率和F值, 三個評價指標(biāo)的計算公式分別如公式(14)、公式(15)、公式(16)所示:

其中,Match(G,D)表示檢測正確的文本框數(shù)量,D表示算法檢測出的文本框數(shù)量,G表示數(shù)據(jù)集中真實文本框數(shù)量.

4.4 實驗分析

為了確定文本檢測中后處理算法(非極大值抑制算法)中交疊率和置信度選取的最佳閾值, 本文首先在ICDAR2013數(shù)據(jù)集上, 對原始網(wǎng)絡(luò)的文本檢測結(jié)果進行實驗分析.

如圖6所示, 為非極大值抑制算法中交疊率α和置信度β采用不同值進行組合下的文本檢測性能. 從圖中可以看出, 當(dāng)交疊率α和置信度β分別取值為0.5和0.6時, 文本檢測性能達到最高并趨于穩(wěn)定. 因此, 本文的實驗中, 非極大值抑制算法中的交疊率α和置信度β分別取值0.5和0.6. 在后續(xù)的網(wǎng)絡(luò)性能對比中, 本文均使用該閾值進行實驗對比.

圖6 不同交疊率α和置信度β下的文本檢測性能

本文提出了三個特征融合網(wǎng)絡(luò), 分別為相鄰兩層特征融合網(wǎng)絡(luò)、相鄰三層特征融合網(wǎng)絡(luò)以及最高層特征融合網(wǎng)絡(luò). 本文在ICDAR2013數(shù)據(jù)集上驗證提出的特征融合網(wǎng)絡(luò)的性能, 在輸入圖像為單尺度的條件下,與原始網(wǎng)絡(luò)(Fast TextBoxes)[15]進行實驗對比.

如表1所示, 本文提出的三個特征融合網(wǎng)絡(luò)中, 相鄰兩層特征融合網(wǎng)絡(luò)和最高層特征融合網(wǎng)絡(luò)在F值上分別得到2%和3%的提升, 而相鄰三層特征融合網(wǎng)絡(luò)的F值與Fast TextBoxes相比下降1%.

表1 原始網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)實驗對比結(jié)果

此外, 本文的方法與Fast TextBoxes相比, 在召回率上提升較高, 三個特征融合網(wǎng)絡(luò)在召回率上分別提升了6%、2%和7%. 這是因為特征融合后, 網(wǎng)絡(luò)低層輸出層的特征圖的語義信息得到增強, 能準(zhǔn)確預(yù)測出小尺度的文字, 總體的召回率得到提升. 如圖7所示,原始網(wǎng)絡(luò)(Fast TextBoxes)對于檢測小尺度文字并不理想, 不能準(zhǔn)確檢測出小尺度文字, 而本文采用不同層特征圖進行融合的方式, 能有效地檢測出小尺度文字.

從時間性能上比較, 本文提出的特征融合網(wǎng)絡(luò)在時間性能上與原始網(wǎng)絡(luò)相比存在微小的差異, 微小的差異來源于特征融合中反卷積的計算, 但并不影響現(xiàn)實應(yīng)用.

圖7 原始網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)實驗結(jié)果對比

相鄰三層特征融合網(wǎng)絡(luò)與相鄰兩層特征融合網(wǎng)絡(luò)相比較, 在準(zhǔn)確率和召回率上均有所下降. 此外, 在訓(xùn)練過程中, 多層特征進行融合存在計算量大、消耗內(nèi)存的情況, 因此本文沒有采用三層以三層以上的特征融合網(wǎng)絡(luò).

本文所提出的三種特征融合網(wǎng)絡(luò)中, 最高層特征融合網(wǎng)絡(luò)的性能最好. 由于最高層的語義信息比較強,高層的語義特征融合至其他層后, 使網(wǎng)絡(luò)在各個層級上都具有豐富的語義, 性能上取得顯著的提升, 并且不犧牲速度和內(nèi)存. 因此, 之后的實驗中, 本文使用最高層特征融合網(wǎng)絡(luò)作為最佳的特征融合網(wǎng)絡(luò), 與常用的自然場景文本檢測方法進行比較.

表2和表3分別展示了最高層特征融合網(wǎng)絡(luò)與其他方法在ICDAR2011和ICDAR2013數(shù)據(jù)集上的實驗結(jié)果. 從表中可以看出, 本文的方法在ICDAR2011和ICDAR2013數(shù)據(jù)集上,F值都達到0.83, 比原始網(wǎng)絡(luò)(Fast TextBoxes)的F值的提高了3%, 比之前最好的方法提高了2%. 本文方法最大的優(yōu)勢在于召回率得到顯著的提升, 在ICDAR2011數(shù)據(jù)集上, 本文方法比之前最好的方法Text Flow在召回率上提升了4%;在ICDAR2013數(shù)據(jù)集上, 本文方法比之前最好的方法FCN在召回率上提高了5%, 這主要因為小尺度文本檢測的召回率得到提升. 綜上所述, 本文的方法相比于之前的方法, 能有效地檢測出小尺度文本, 文本檢測的整體性能有顯著的改善.

由上述實驗結(jié)果可知, 本文方法在自然場景文本檢測上能夠有效地檢測出文字的位置. 圖8展示了使用本文的最高層特征融合網(wǎng)絡(luò)檢測文本成功和失敗的圖例. 檢測成功的圖例(圖8(a))顯示出本文方法具有較高的定位準(zhǔn)確性和魯棒性, 能有效地從復(fù)雜背景中檢測出不同大小和不同形狀的文字. 對于檢測失敗的圖例(圖8(b)), 圖像中的文字極其模糊或者文字與背景具有較低的對比度, 即使人眼也很難識別出圖像中的文字區(qū)域.

表2 在ICDAR2011數(shù)據(jù)集上的實驗結(jié)果

表3 在ICDAR2013數(shù)據(jù)集上的實驗結(jié)果

圖8 本文方法檢測文本示例圖

5 結(jié)論與展望

本文提出了一種基于特征融合的深度神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將高層特征與低層特征相融合, 利用網(wǎng)絡(luò)高層的強語義特征增強低層輸出層的語義信息, 使整個網(wǎng)絡(luò)的輸出層都具有較強的表達能力. 特征融合后的網(wǎng)絡(luò)能在不同的輸出層上預(yù)測不同尺度以及不同形狀的文字. 本文在兩個公開的數(shù)據(jù)集上驗證了特征融合網(wǎng)絡(luò)的性能, 實驗結(jié)果表明本文提出的特征融合網(wǎng)絡(luò)對小尺度的文字, 定位效果顯著. 其中, 本文提出的最高層特征融合網(wǎng)絡(luò)能取得最佳的檢測效果, 具有較高的定位準(zhǔn)確性和魯棒性, 并優(yōu)于常用的自然場景文本檢測方法,F值在ICDAR2011和ICDAR2013兩個數(shù)據(jù)集上均達到了0.83. 本文的特征融合網(wǎng)絡(luò)只支持單尺度的圖像輸入, 在一定程度上限制算法性能的提升. 因此, 下一步的工作, 我們將嘗試把改進后的網(wǎng)絡(luò)改為多尺度輸入的網(wǎng)絡(luò). 網(wǎng)絡(luò)將會從以下兩方面進行修改, 一方面是改變網(wǎng)絡(luò)中卷積層的卷積核大小, 建立輸出層中不同大小的特征圖之間的整體關(guān)聯(lián)性, 使網(wǎng)絡(luò)能支持多尺度圖像輸入. 另一方面, 使用其他方式放大高層的特征圖, 例如, 反池化操作, 即記錄池化過程中最大激活值所在的坐標(biāo)位置, 然后上采樣得到放大的特征圖, 使網(wǎng)絡(luò)中融合的特征圖能自適應(yīng)進行變化而不依賴于固定計算. 接下來的工作, 我們將嘗試用這兩種方法, 進一步提高網(wǎng)絡(luò)的性能.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡