劉 昶,徐超遠(yuǎn),張 鑫,薛 磊
液晶字符識(shí)別的CNN和SVM組合分類器
劉 昶,徐超遠(yuǎn),張 鑫,薛 磊
(沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,遼寧 沈陽 110159)
針對(duì)儀表液晶顯示字符識(shí)別問題,提出一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和支持向量機(jī)(SVM)的字符識(shí)別方法。分別采用具有并聯(lián)結(jié)構(gòu)的CNN模型和基于梯度方向直方圖(HOG)特征的SVM方法構(gòu)建基本分類器,當(dāng)2個(gè)分類器的結(jié)果存在沖突時(shí),利用CNN的softmax輸出最大值判決最終結(jié)果,當(dāng)其大于設(shè)定閾值時(shí)采用CNN分類器的結(jié)果,反之采用SVM分類器的結(jié)果。建立字符圖像的誤差模型并利用仿真方法構(gòu)建了數(shù)據(jù)集用于分類器的訓(xùn)練和測(cè)試,給出一種基于投票原理的最優(yōu)閾值的估計(jì)算法。在MNIST和仿真數(shù)據(jù)集上的測(cè)試實(shí)驗(yàn)結(jié)果表明,最優(yōu)閾值估計(jì)算法的結(jié)果可靠,組合分類器的準(zhǔn)確率較2種單一分類器均有提高,在實(shí)際測(cè)試系統(tǒng)上其準(zhǔn)確率達(dá)到99.81%,驗(yàn)證了該組合分類器方法對(duì)液晶字符識(shí)別問題的有效性;在CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法也可用于其他分類問題。
計(jì)算機(jī)視覺;機(jī)器學(xué)習(xí);液晶字符識(shí)別;支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò)
儀表字符識(shí)別是儀表示值判讀、自動(dòng)巡檢等應(yīng)用中的關(guān)鍵問題,由于儀表字符顯示大多具有固定位置和字體,其較手寫字符識(shí)別容易,但由于儀表字符多表達(dá)關(guān)鍵數(shù)據(jù),對(duì)字符識(shí)別正確率的要求更高。目前數(shù)顯儀表的顯示方式主要有數(shù)碼管和液晶2種顯示形式,由于液晶顯示器較數(shù)碼管顯示器前景、背景亮度差小,在采集液晶面板圖像時(shí),顯示字符更容易受到環(huán)境照明、面板污染、面板平整度和刮痕等因素的影響,使字符成像質(zhì)量變差,對(duì)字符識(shí)別造成困難。
目前常用的儀表字符識(shí)別方法可分為基于圖像處理和基于機(jī)器學(xué)習(xí)2類。早期的基于圖像處理的方法包括:模板匹配[1]、字符結(jié)構(gòu)特征方法[2]等,其原理簡(jiǎn)單清晰,但對(duì)圖像噪聲敏感,魯棒性較差。而基于機(jī)器學(xué)習(xí)的方法包括:-近鄰的方法[3]、神經(jīng)網(wǎng)絡(luò)[4]、支持向量機(jī)(support vector machine,SVM)、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)等,其中SVM和CNN方法效果較好,逐漸成為主流。SVM是一種有監(jiān)督學(xué)習(xí)模型,一般需要人工選擇特征,文獻(xiàn)[5]通過對(duì)字符圖像水平和垂直2個(gè)方向的投影曲線分別進(jìn)行小波分解,得到投影曲線的近似表示并從中提取特征參數(shù)并對(duì)其進(jìn)行訓(xùn)練;文獻(xiàn)[6]提取了圖像的梯度方向直方圖(histogram of oriented gradients,HOG)特征向量作為輸入進(jìn)行模型訓(xùn)練;文獻(xiàn)[7]利用K-means聚類算法做無監(jiān)督特征學(xué)習(xí),在無標(biāo)簽的情況下自動(dòng)學(xué)習(xí)抽取特征,再進(jìn)行模型訓(xùn)練;文獻(xiàn)[8]提出了一種具有辨別能力的特征池化方法,提取每個(gè)特征圖信息量最大的子區(qū)域作為最終的特征用來訓(xùn)練模型。CNN也是一種有監(jiān)督的學(xué)習(xí)模型,其優(yōu)點(diǎn)是避免了人工選擇特征的過程;文獻(xiàn)[9]將CNN網(wǎng)絡(luò)模型LeNet用于手寫字符識(shí)別,在公開的MNIST數(shù)據(jù)集上取得滿意的結(jié)果,對(duì)促進(jìn)CNN在圖像識(shí)別問題中的廣泛應(yīng)用做出重要貢獻(xiàn),并在此基礎(chǔ)上發(fā)展出許多應(yīng)用于字符識(shí)別問題的其他結(jié)構(gòu)的CNN網(wǎng)絡(luò)或深度網(wǎng)絡(luò)[10-12]模型。為提高識(shí)別率,有學(xué)者提出采用集成學(xué)習(xí)的方法,典型的如決策樹和隨機(jī)森林方法[2]、樸素貝葉斯方法[13],Bagging[14]和Boosting[15]方法等,由多個(gè)子分類器構(gòu)造性能更好的組合分類器,取得了比單一分類器更好的結(jié)果。
本文針對(duì)儀表液晶顯示字符識(shí)別問題,通過建立字符圖像的誤差模型由字符模板生成仿真數(shù)據(jù)集,分別采用一種具有并聯(lián)結(jié)構(gòu)的CNN模型和基于HOG特征的SVM模型訓(xùn)練基本分類器進(jìn)行字符識(shí)別,對(duì)于2種基本分類器輸出結(jié)果存在沖突的情況,提出一種根據(jù)CNN輸出的softmax值進(jìn)行判決的方法,從而構(gòu)造出一種組合分類器,對(duì)其工作原理進(jìn)行了討論,給出最優(yōu)閾值的選擇算法,并進(jìn)行實(shí)驗(yàn)研究。
儀表字符多數(shù)為數(shù)字字符,一般情況下液晶字符在液晶屏上的顯示位置和字體都是固定的,在獲取液晶顯示器的圖像并提取液晶屏邊緣后,每個(gè)字符圖像可通過與液晶屏邊緣的相對(duì)位置定位獲得,該過程可通過圖像處理的方法實(shí)現(xiàn),每個(gè)字符圖像表達(dá)的內(nèi)容可能是0到9或空格,共11種類別。
在利用機(jī)器學(xué)習(xí)方法進(jìn)行字符分類器訓(xùn)練和測(cè)試時(shí),都需要一個(gè)合適的數(shù)據(jù)集。數(shù)據(jù)集中的每幅圖像均通過對(duì)真實(shí)儀表采集再標(biāo)注得到,數(shù)據(jù)集構(gòu)造的工作量非常大。為此,本文采用在字符標(biāo)準(zhǔn)模板上依次疊加以下幾種類型誤差的方式,自動(dòng)生成字符圖像仿真數(shù)據(jù)集:
(3) 圖像獲取誤差。通過高斯噪聲模擬圖像獲取過程中的熱噪聲,其生成式為
(5) 光斑。利用二維高斯函數(shù)生成近似受光源、劃痕、液晶屏表面不平整等因素影響而產(chǎn)生的光斑,即
以上誤差模型中的C,C,C,C,,C,C均為事先設(shè)定的常數(shù)。圖1為一組真實(shí)的液晶字符圖像,以及在標(biāo)準(zhǔn)字符模板的基礎(chǔ)上疊加上述誤差后的字符圖像樣例,可見生成圖像的辨認(rèn)難度大于真實(shí)圖像,利用該方法構(gòu)造數(shù)據(jù)集可節(jié)省大量構(gòu)造成本。
圖1 真實(shí)樣本與生成樣本對(duì)比 ((a)真實(shí)圖像;(b)生成圖像)
SVM是一種針對(duì)二分類問題的學(xué)習(xí)模型,對(duì)于多分類問題,大多通過組合多個(gè)二分類器處理,常用方法有一對(duì)一(one-versus-one,OVO)和一對(duì)多(one-versus-rest,OVR)、二叉樹和決策導(dǎo)向無環(huán)圖等。其中OVO方法對(duì)任意2類樣本都訓(xùn)練一個(gè)分類器,若樣本類別為,則需要(-1)/2個(gè)SVM子分類器,通過其可確定分類結(jié)果;OVR方法將其中一類作為正類,其余作為負(fù)類,僅需個(gè)子分類器,但結(jié)果可能產(chǎn)生沖突;二叉樹和決策導(dǎo)向無環(huán)圖都是通過構(gòu)造決策樹判別最終結(jié)果。從現(xiàn)有報(bào)道看,OVO方法優(yōu)于其他方法[16],只是需要更多的子分類器。本文利用字符圖像的HOG特征訓(xùn)練SVM分類器,由于該問題是一個(gè)共11類的多分類問題,采用OVO方法,需訓(xùn)練55個(gè)SVM子分類器。
目前有許多CNN模型在圖像分類問題中獲得成功應(yīng)用,其中LeNet類型網(wǎng)絡(luò)在字符識(shí)別問題中有出色表現(xiàn)[9],有研究表明并行結(jié)構(gòu)的網(wǎng)絡(luò)有利于提高網(wǎng)絡(luò)性能[11,17],因此本文選擇了具有如圖2所示的由2個(gè)LeNet網(wǎng)絡(luò)并聯(lián)的CNN結(jié)構(gòu)用于字符識(shí)別。字符圖像被分別送入LeNet-A和LeNet-B 2個(gè)網(wǎng)絡(luò)進(jìn)行特征提取,匯聚到全連接層后再由softmax層輸出。
圖2 用于字符識(shí)別的并聯(lián)結(jié)構(gòu)CNN模型
圖2中左右2列的LeNet-A和LeNet-B的基本結(jié)構(gòu)相同,只是在卷積核的數(shù)量和池化過程上有差別。網(wǎng)絡(luò)的激活函數(shù)使用ReLU;訓(xùn)練中的損失函數(shù)采用交叉熵;優(yōu)化方法采用Adam。
對(duì)于以softmax作為輸出層的CNN分類器,softmax輸出的最大值的含義是表示被測(cè)樣本為對(duì)應(yīng)類別的概率,該值也可以作為衡量結(jié)果置信度的一個(gè)指標(biāo)。
記CNN分類器針對(duì)全部測(cè)試樣本的平均正確率為PA,圖3顯示了PL(T)和PG(T)隨T變化的情況,圖中只顯示了閾值高于0.9的情況,因?yàn)閷?shí)際情況下樣本的softmax最大值大多接近1,因此將坐標(biāo)軸刻度進(jìn)行了對(duì)數(shù)化處理。
由圖3可見,隨著的增大,P()和P()均呈出遞增的趨勢(shì),而由于P(1)=P(0)=P,因此在多數(shù)情況下有
這說明可通過設(shè)置一個(gè)合適的閾值,將被測(cè)樣本分成2部分,對(duì)于softmax最大值大于的樣本,其CNN分類結(jié)果較另一部分具有更高的置信度。
本文CNN與SVM組合分類器的思想正是基于此提出的,將已訓(xùn)練好的CNN與SVM分類器作為2個(gè)基本分類器,通過合理設(shè)定閾值,首先應(yīng)用CNN分類器對(duì)被測(cè)樣本x進(jìn)行判別,若s>則以該結(jié)果作為最終結(jié)果;反之利用SVM分類器對(duì)x進(jìn)行判別,將其結(jié)果作為最終結(jié)果??紤]本文的CNN和SVM 2種分類器在工作原理上存在較大差別,具有相對(duì)的獨(dú)立性。若存在,當(dāng)s>時(shí),使用CNN分類器樣本的識(shí)別正確率高于SVM;在s≤時(shí),SVM分類器樣本的識(shí)別正確率高于CNN,則組合分類器的識(shí)別正確率均高于單一分類器。
對(duì)于組合分類器,分割閾值是影響分類器最終性能的重要因素,但最優(yōu)閾值的選擇不易通過理論分析獲得,本文采用通過驗(yàn)證集評(píng)估的方法對(duì)最優(yōu)閾值進(jìn)行估計(jì)。首先在數(shù)據(jù)集中選出有別于訓(xùn)練樣本的部分樣本作為驗(yàn)證集,在驗(yàn)證集上確定組合算法正確率P與閾值的函數(shù)關(guān)系P(),再選取
作為組合分類器的分割閾值。
由于驗(yàn)證集中樣本數(shù)量有限,2個(gè)基本分類器結(jié)果存在差異的樣本數(shù)量也有限,因此()關(guān)于的函數(shù)曲線表現(xiàn)為由有限的若干橫線構(gòu)成,分割橫線的值是前述樣本的softmax最大值。此外()還具有以下性質(zhì):當(dāng)≤0時(shí),()是由CNN基本分類器得到的結(jié)果;當(dāng)≥1時(shí),()是由SVM基本分類器得到的結(jié)果。下面討論()的計(jì)算方法。
then構(gòu)建新節(jié)點(diǎn)q
end if;
記隊(duì)列長(zhǎng)度為+1,根據(jù)節(jié)點(diǎn)的值將由小到大排序,仍記第個(gè)節(jié)點(diǎn)為q,(=0,1,···,);
Forqin,=1,2,···,,
then for=0,1,···,-1,q·++;
else for=,+1,···,,q·++;
endif。
完成以上過程后,()在[0,1]區(qū)間上的值為
對(duì)于有監(jiān)督學(xué)習(xí)的分類算法,訓(xùn)練樣本對(duì)分類器的性能至關(guān)重要,一般情況下訓(xùn)練樣本越多,分類器性能越好。上述組合分類算法中,數(shù)據(jù)集中的部分樣本作為訓(xùn)練集用于訓(xùn)練基本分類器,另一部分作為驗(yàn)證集僅用于求取分割閾值。為進(jìn)一步提升組合分類器性能,將驗(yàn)證集并入訓(xùn)練集重新對(duì)2個(gè)基本分類器進(jìn)行訓(xùn)練,由此構(gòu)造新的組合分類器,并假設(shè)按本文方法得到的閾值對(duì)新的組合分類器仍然有效。
在公開的手寫體字符數(shù)據(jù)集MNIST上測(cè)試本文算法的有效性,該數(shù)據(jù)集包含0~9共10類字符,需對(duì)CNN結(jié)構(gòu)略做改動(dòng),將softmax層節(jié)點(diǎn)數(shù)改為10。將數(shù)據(jù)集中的30 000個(gè)樣本作為訓(xùn)練集,另外30 000個(gè)樣本作為驗(yàn)證集,10 000個(gè)樣本作為測(cè)試集。在測(cè)試集上,訓(xùn)練完成的CNN和SVM (這里采用高斯核) 2個(gè)分類器共有76個(gè)樣本的分類結(jié)果不同,按本文方法分別在驗(yàn)證集和測(cè)試集上計(jì)算(),所得曲線如圖4所示。
圖4 MNIST數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在驗(yàn)證集上得到的最優(yōu)閾值為0.999 890,采用該閾值的組合分類器在測(cè)試集上能對(duì)56個(gè)樣本正確分類,若取其他閾值,最好的情況能對(duì)57個(gè)樣本正確分類,僅有1個(gè)樣本數(shù)量的提升,說明本文提取分割閾值的方法是有效的。圖4曲線最左側(cè)和最右側(cè)的值分別為CNN分類器和SVM分類器正確判別數(shù)量,而在曲線中很寬的范圍內(nèi),同時(shí)高于左右兩側(cè)值的部分為組合分類器正確判別的數(shù)量,說明當(dāng)閾值在一個(gè)很寬的范圍內(nèi)取值時(shí),組合分類器都能取得較單一基本分類器更好的結(jié)果,只是不同的取值,性能提高的程度有所差別。
表1列出了基本分類器和組合分類器在測(cè)試集上取得的正確率值,可見在相同訓(xùn)練樣本的情況下,本文的組合分類器性能較單一分類器均有提升;利用2.3節(jié)的方法,將訓(xùn)練集和驗(yàn)證集合并,共60 000個(gè)樣本對(duì)基本分類器重新進(jìn)行訓(xùn)練,沿用0.999 890作為分割閾值,組合分類器正確率得到進(jìn)一步提高,說明采用更多的訓(xùn)練樣本提高基本分類器的正確率對(duì)提高組合分類器的正確率有貢獻(xiàn),也說明組合分類器對(duì)于手寫字符識(shí)別問題是有效的。
表1 MNIST數(shù)據(jù)集上各分類器正確率(%)
利用1.1節(jié)的方法構(gòu)造仿真圖像作為液晶字符數(shù)據(jù)集,通過重復(fù)實(shí)驗(yàn)對(duì)本文算法進(jìn)行性能測(cè)試。該數(shù)據(jù)集包括0~9和空格共11類字符,每種字符選擇300個(gè)樣本,共3 300個(gè)樣本作為訓(xùn)練集;另外每種字符選擇500個(gè)樣本,共5 500個(gè)樣本作為驗(yàn)證集,每種字符選擇1 500個(gè)樣本,共16 500個(gè)樣本作為測(cè)試集。
實(shí)驗(yàn)所得的()曲線如圖5所示。在驗(yàn)證集上得到的最優(yōu)閾值為0.906 870;在測(cè)試集上,訓(xùn)練完成的CNN和SVM (這里采用線性核) 2個(gè)分類器共有298個(gè)樣本的分類結(jié)果不同,采用該閾值的組合分類器能對(duì)277個(gè)樣本正確分類;若取其他閾值,可對(duì)278個(gè)樣本正確分類,僅有1個(gè)樣本的提升;圖5也給出了將訓(xùn)練集和驗(yàn)證集混合,利用共8 800個(gè)樣本訓(xùn)練基本分類器的情況,此時(shí)2個(gè)基本分類器在測(cè)試集上共有196個(gè)樣本的結(jié)果不一致,若仍采用0.906 870作為分割閾值,新的組合分類器能對(duì)185個(gè)樣本進(jìn)行正確分類,而采用其他閾值,最好的情況是能對(duì)187個(gè)樣本正確分類,僅有2個(gè)樣本數(shù)量的提升,再次驗(yàn)證了最優(yōu)閾值提取方法的有效性。
圖5 液晶字符數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
表2為幾種分類器在測(cè)試集上的正確率,可見并聯(lián)結(jié)構(gòu)的CNN分類器優(yōu)于2個(gè)獨(dú)立的LeNet分類器;組合分類器與2個(gè)基本分類器的性能對(duì)比結(jié)果與3.1節(jié)在MNIST數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果一致,驗(yàn)證了組合分類器對(duì)液晶字符識(shí)別的有效性。
表2 LCD字符數(shù)據(jù)集上各分類器正確率(%)
當(dāng)基本分類器訓(xùn)練完成并確定后,最優(yōu)分割閾值也隨之確定,本實(shí)驗(yàn)研究驗(yàn)證集樣本數(shù)量對(duì)求取最優(yōu)分割閾值的影響。利用3 300個(gè)樣本訓(xùn)練完成了基本分類器,分別采用每種字符從100到1 300,每次遞增100個(gè)樣本構(gòu)造驗(yàn)證集,重復(fù)求取最優(yōu)分割閾值的估計(jì)值,得到的結(jié)果如圖6所示,若以每種字符1 300個(gè)樣本的驗(yàn)證集得到的結(jié)果為近似準(zhǔn)確結(jié)果,隨著樣本數(shù)量的增加,估計(jì)值表現(xiàn)出逐漸穩(wěn)定的趨勢(shì)。因此在最優(yōu)閾值估計(jì)中,可采用遞增驗(yàn)證樣本數(shù)量的方法,以滿足穩(wěn)定條件時(shí)的估計(jì)值作為組合分類器的分割閾值。
圖6 最優(yōu)閾值估計(jì)隨驗(yàn)證集樣本數(shù)量的變化
利用本文訓(xùn)練得到的組合分類器在真實(shí)的液晶字符測(cè)試裝置上進(jìn)行字符識(shí)別準(zhǔn)確性測(cè)試實(shí)驗(yàn)。利用Arduino單片機(jī)和液晶顯示模塊設(shè)計(jì)了一個(gè)如圖7(a)所示的液晶字符識(shí)別測(cè)試儀,可受控地顯示4位以內(nèi)的液晶數(shù)字,將測(cè)試儀放置在一個(gè)支架內(nèi),相機(jī)采用Basler acA640-90gm,保持相機(jī)與支架間的相對(duì)位置不變,模擬實(shí)際應(yīng)用中的字符采集視覺系統(tǒng)。計(jì)算機(jī)首先控制測(cè)試儀顯示一個(gè)偽隨機(jī)的4位以內(nèi)十進(jìn)制數(shù),再控制相機(jī)采集測(cè)試儀液晶面板圖像,通過圖像處理方法提取4個(gè)液晶字符圖像,字符提取結(jié)果樣例如圖7(b)所示,每個(gè)字符圖像的像素為37×67,經(jīng)濾波和標(biāo)準(zhǔn)化處理后送訓(xùn)練好的組合分類器進(jìn)行識(shí)別,并與已知的真實(shí)值進(jìn)行對(duì)比來判定字符識(shí)別的效果。
圖7 液晶字符識(shí)別測(cè)試儀和提取的液晶字符圖像((a)測(cè)試儀;(b)液晶字符圖像樣例)
利用仿真方法構(gòu)造實(shí)驗(yàn)所需液晶字符訓(xùn)練集和驗(yàn)證集,數(shù)據(jù)集中包括0~9和空格共11類字符,每種字符選擇4 251個(gè)樣本,共46 761個(gè)樣本作為訓(xùn)練集;每種字符選擇2 000個(gè)樣本,共22 000個(gè)樣本作為驗(yàn)證集;在測(cè)試過程中人為地加入適當(dāng)干擾,如添加表面劃痕、改變環(huán)境照明條件、加入人影晃動(dòng)、桌面振動(dòng)等模擬應(yīng)用現(xiàn)場(chǎng)條件,共拍攝10 000幅真實(shí)液晶字符圖像,共40 000個(gè)字符樣本構(gòu)成測(cè)試集。
實(shí)驗(yàn)中計(jì)算機(jī)配置為i5-10代CPU、NVIDIA MX250顯卡、16 G內(nèi)存,模型采用TensorFlow訓(xùn)練,采用Python語言和OpenCV編程,表3顯示了基本分類器和組合分類器在測(cè)試集上的正確率及3種方法的平均計(jì)算時(shí)間,可見組合分類器的正確率高于基本分類器,說明了本文方法在真實(shí)場(chǎng)景下也是有效的。由于只有前級(jí)分類器輸出的softmax最大值小于閾值時(shí)才需要后級(jí)分類器的進(jìn)一步判斷,而此類樣本數(shù)量并不特別多,所以組合分類器的平均計(jì)算時(shí)間僅較前級(jí)分類器的略長(zhǎng)。本實(shí)驗(yàn)3種分類器均能在2.00 ms內(nèi)完成計(jì)算,考慮到圖像采集的時(shí)間受相機(jī)幀率、曝光時(shí)間等因素影響一般約為幾十毫秒,因此分類器的運(yùn)行時(shí)間幾乎不會(huì)對(duì)系統(tǒng)實(shí)時(shí)性產(chǎn)生不良影響。
表3 真實(shí)實(shí)驗(yàn)中各分類器正確率
本文提出的構(gòu)造組合分類器的方法只利用了前級(jí)分類器的softmax輸出形式,因此也可用于其他以softmax輸出的基本分類器的組合以解決其他分類問題。本實(shí)驗(yàn)在CIFAR-10數(shù)據(jù)集上進(jìn)行應(yīng)用效果測(cè)試,該數(shù)據(jù)集共有飛機(jī)、汽車、鳥等10類圖像,每類包括6 000幅圖像。實(shí)驗(yàn)中選擇的2個(gè)基本分類器分別是ResNet56[18]和NiN (Network in Network)[19],以ResNet56作為組合分類器的前級(jí);選擇數(shù)據(jù)集中的每類3 000個(gè)樣本(共30 000個(gè))作為訓(xùn)練集,另外2 000個(gè)樣本(共20 000個(gè))作為驗(yàn)證集,其余1 000個(gè)樣本(共10 000個(gè))作為測(cè)試集。
訓(xùn)練完成的2個(gè)分類器組合后在驗(yàn)證集和測(cè)試集上的效果如圖8所示,在驗(yàn)證集上得到的最優(yōu)閾值為0.920 673,2個(gè)基本分類器在測(cè)試集上共有1 267個(gè)樣本的分類結(jié)果不同,采用該閾值的組合分類器能對(duì)其中的880個(gè)樣本分類正確,若取其他閾值,最好的情況(閾值取0.879 553)能對(duì)890個(gè)樣本正確分類,僅有10個(gè)樣本數(shù)量的提升,說明本文提取分割閾值的方法也是有效的。
圖8 CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
表4列出了基本分類器和組合分類器在測(cè)試集上的正確率結(jié)果,可見組合分類器性能較單一分類器均有提升;利用2.3節(jié)的方法,將訓(xùn)練集和驗(yàn)證集合并,共50 000個(gè)樣本對(duì)基本分類器重新進(jìn)行訓(xùn)練,沿用0.920 673作為分割閾值,組合分類器正確率得到進(jìn)一步提高,再次驗(yàn)證了其方法的有效性,也說明了本文方法具有一定的普適性。
表4 CIFAR-10數(shù)據(jù)集上各分類器正確率(%)
本文針對(duì)儀表液晶顯示字符的識(shí)別問題,提出一種結(jié)合了CNN和SVM 2種典型分類器的組合分類器的構(gòu)造方法。該方法將CNN分類器的softmax最大值作為判定分類結(jié)果置信度的依據(jù),若足夠大則直接采用CNN分類器的結(jié)果,反之采用SVM分類器的結(jié)果,在MNIST數(shù)據(jù)集和液晶字符仿真數(shù)據(jù)集上,該組合分類器都表現(xiàn)出優(yōu)于單一基本分類器的特性。實(shí)驗(yàn)結(jié)果還驗(yàn)證了本文基于驗(yàn)證集的最優(yōu)分割閾值估計(jì)方法的有效性。
這種組合分類器方法本質(zhì)上是針對(duì)2種分類器的提升方法,要求前級(jí)分類器以softmax形式輸出,后級(jí)分類器與前級(jí)分類器工作原理上具有一定的獨(dú)立性,并具有相近的正確率。本文的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法在LCD字符識(shí)別問題上能產(chǎn)生性能提升的效果,并且具有一定的普適性,也可用于解決其他分類問題。
[1] 瞿國(guó)慶,李汪佩. 渣土車車牌字符智能識(shí)別研究[J]. 電子測(cè)量與儀器學(xué)報(bào), 2016, 30(12): 1853-1860.QU G Q, LI W P. Research on intelligent recognition for muck car license plate character[J]. Journal of Electronic Measurement and Instrumentation, 2016, 30(12): 1853-1860(in Chinese).
[2] 陳軍勝. 組合結(jié)構(gòu)特征的自由手寫體數(shù)字識(shí)別算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013, 49(5): 179-184, 194.CHEN J S. Research on combining structural features based free handwritten digital identification algorithm[J]. Computer Engineering and Applications, 2013, 49(5): 179-184, 194(in Chinese).
[3] 胡君萍, 傅科學(xué). 基于改進(jìn)KNN算法的手寫數(shù)字識(shí)別研究[J]. 武漢理工大學(xué)學(xué)報(bào): 信息與管理工程版, 2019, 41(1): 22-26.HU J P, FU K X. An improved KNN algorithm for recognition of handwritten numerals[J]. Journal of WUT: Information & Management Engineering, 2019, 41(1): 22-26(in Chinese).
[4] 叢爽, 陸婷婷. 用于英文字母識(shí)別的三種人工神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)[J]. 儀器儀表學(xué)報(bào), 2006, 27(z3): 2242-2244.CONG S, LU T T. Design of three artificial neural networks used on English charaeter recognition[J]. Chinees Jounral of Seientific Instrument, 2006, 27(z3): 2242-2244(in Chinese).
[5] 任俊, 黃丹丹, 李志能. 基于支撐向量機(jī)和小波的字符識(shí)別[J]. 浙江大學(xué)學(xué)報(bào):工學(xué)版, 2005, 39(12): 2016-2020.REN J, HUANG D D, LI Z N. Character recognition based on support vector machines and wavelet[J]. Journal of Zhejiang University: Engineering Science, 2005, 39(12): 2016-2020(in Chinese).
[6] 陳藹祥. 用于字符和數(shù)字識(shí)別的若干分類方法的比較研究:實(shí)驗(yàn)結(jié)果[J]. 計(jì)算機(jī)科學(xué), 2015, 42(S1): 102-106, 121.CHEN A X. Comparison of several classification approaches to digit and letter recognition: experimental results[J]. Computer Science, 2015, 42(S1): 102-106, 121(in Chinese).
[7] COATES A, CARPENTER B, CASE C, et al. Text detection and character recognition in scene images with unsupervised feature learning[C]//2011 International Conference on Document Analysis and Recognition. New York: IEEE Press, 2011: 440-445.
[8] LEE C Y, BHARDWAJ A, DI W, et al. Region-based discriminative feature pooling for scene text recognition[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 4050-4057.
[9] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[10] YE Q X, DOERMANN D. Text detection and recognition in imagery: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(7): 1480-1500.
[11] CIREGAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 3642-3649.
[12] 丁進(jìn)超, 張偉偉, 吳訓(xùn)成. 基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的車牌識(shí)別算法[J]. 電子測(cè)量與儀器學(xué)報(bào), 2018, 32(6): 173-179.DING J C, ZHANG W W, WU X C. License plate recognition algorithm based on long and short memory network[J]. Journal of Electronic Measurement and Instrumentation, 2018, 32(6): 173-179(in Chinese).
[13] 朱敏覺, 朱寧波, 袁異. 一種多分類器集成的手寫體漢字識(shí)別方法[J]. 計(jì)算機(jī)工程與科學(xué), 2009, 31(4): 36-39.ZHU M J, ZHU N B, YUAN Y. A handwritten Chinese character recognition method based on multi-classifier ensemble[J]. Computer Engineering & Science, 2009, 31(4): 36-39(in Chinese).
[14] 劉余霞, 呂虹, 胡濤, 等. 基于Bagging集成學(xué)習(xí)的字符識(shí)別方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(33): 194-196, 211.LIU Y X, LV H, HU T, et al. Research on character recognition based on Bagging ensemble learning[J]. Computer Engineering and Applications, 2012, 48(33): 194-196, 211(in Chinese).
[15] SAABNI R. Ada-boosting extreme learning machines for handwritten digit and digit strings recognition[C]//The5th International Conference on Digital Information Processing and Communications (ICDIPC). New York: IEEE Press, 2015: 231-236.
[16] HSU C W, LIN C J. A comparison of methods for multiclass support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2):415-425.
[17] XIE S N, GIRSHICK R, DOLLAR P, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1492-1500.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[19] LIN M, CHEN Q, YAN S. Network in network[EB/OL]. (2014-03-04) [2020-07-29]. https://arxiv.org/abs/1312.4400.
A combined classifier based on CNN and SVM for LCD character recognition
LIU Chang, XU Chao-yuan, ZHANG Xin, XUE Lei
(School of Information Science and Engineering, Shenyang Ligong University, Shenyang Liaoning 110159, China)
A combined classifier based on convolution neural network (CNN) and support vector machine (SVM) was proposed for the recognition of liquid crystal displayer (LCD) characters. Two basic classifiers were utilized to build a combined classifier for recognition. One was CNN with a parallel structure, and the other was SVM using histogram of oriented gradients (HOG) features of the character image. If a sample’s responses from two basic classifiers conflicted with each other, the maximum component of the softmax vector outputted from CNN classifier was employed to determine the final result. If it was greater than a threshold, the CNN result was adopted, otherwise the SVM result. An error model for LCD character image was presented and adopted to construct a simulation dataset for the algorithm training and test. An optimal threshold estimation algorithm based on voting principle was proposed. The combined classifier was tested on both MNIST dataset and an LCD character simulation dataset. The experimental results show that the threshold estimation result was reliable, and that the combined classifier outperformed both CNN and SVM basic classifiers. Using the method on a real test system, the accuracy rate was 99.81%. The results prove the method’s effectiveness for LCD character recognition. The experimental results on CIFAR-10 dataset show that the method can also be applied to other kinds of classifications.
computer vision; machine learning; liquid crystal displayer character recognition; support vector machine;convolution neural network
TP 391
10.11996/JG.j.2095-302X.2021010015
A
2095-302X(2021)01-0015-08
2020-06-05;
5 June,2020;
2020-08-03
3 August,2020
遼寧省自然科學(xué)基金項(xiàng)目(20170540792)
:Natural Science Foundation of Liaoning Province (20170540792)
劉 昶(1971-),男,遼寧盤錦人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)闄C(jī)器視覺和智能系統(tǒng)。E-mail:syliuch@126.com
LIU Chang (1971-), male, associate professor, Ph.D. His main research interests cover machine vision and intelligent system. E-mail:syliuch@126.com