苗 軍,許少武,卿來云,喬元華,鄒柏賢
(1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;3.北京工業(yè)大學(xué) 數(shù)理學(xué)院,北京 100124;4.北京聯(lián)合大學(xué) 應(yīng)用文理學(xué)院,北京 100191)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是LeCun[1]提出的一種特殊的神經(jīng)網(wǎng)絡(luò)。自Krizhevsky等[2]提出的AlexNet首次在ILSVRC比賽取勝以來,許多研究者開始投入到對(duì)CNN的研究中。如今CNN除了在圖像方面[3-6],還在音頻[7-9]、視頻[10]和語義識(shí)別方面[11-14]表現(xiàn)出優(yōu)秀的應(yīng)用效果。
但是,CNN仍未能夠完美地模擬人類視覺。Szegedy等[15]向一組曾被CNN正確識(shí)別的圖片中混入了噪聲數(shù)據(jù)得到一組新的圖片,新的圖片在人眼看來與原始圖片極為相似,但是使用由原圖片進(jìn)行訓(xùn)練得到的CNN模型對(duì)新的圖片進(jìn)行分類卻有不同的結(jié)果,即在人眼看來高度相似的兩張圖片會(huì)被CNN識(shí)別為不同的對(duì)象。Nguyen等[16]使用進(jìn)化算法將一組圖片進(jìn)行了變換,變換得到的新的圖片在人眼看來與原圖片毫無相似之處,然而CNN卻會(huì)將新的圖片識(shí)別為與原圖相同的對(duì)象。Nguyen等[16]認(rèn)為,CNN之所以會(huì)存在這樣的缺陷,究其原因在于CNN在訓(xùn)練時(shí)只學(xué)到了中低層的特征,而沒有獲得描述全局圖像結(jié)構(gòu)的高級(jí)語義特征。
為了解決卷積結(jié)構(gòu)無法直接提取圖像的高級(jí)語義特征的問題,本文提出了形狀編碼方法。形狀是能夠描述全局圖像結(jié)構(gòu)的高層特征之一,形狀編碼的作用是提取原圖像中的形狀特征,并以特征圖的形式進(jìn)行表示。通過形狀編碼獲得表征原圖像形狀特征的特征圖后,將特征圖作為學(xué)習(xí)對(duì)象交予CNN進(jìn)行學(xué)習(xí),可以使CNN直接學(xué)習(xí)到圖像的形狀特征而非單純的邊緣、紋理等低層特征。
形狀編碼的核心思想是對(duì)圖像中的顯著點(diǎn)對(duì)的空間位置關(guān)系進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)的結(jié)果以圖像的形式表示。因此形狀編碼需要由兩個(gè)步驟組成:第一步是將原圖像轉(zhuǎn)換為由顯著點(diǎn)和非顯著點(diǎn)組成的二值特征圖,第二步則是對(duì)二值特征圖進(jìn)行編碼。
1.1.1 原圖像轉(zhuǎn)換為二值特征圖像
將原圖像轉(zhuǎn)換為二值特征圖像的過程包含兩個(gè)階段。第一個(gè)階段即提取原圖像的顯著特征,該操作通過卷積來實(shí)現(xiàn)。使用中央周邊差算子作為卷積核對(duì)原圖像進(jìn)行卷積,根據(jù)卷積的算法,這一運(yùn)算所得結(jié)果為包含原圖像顯著特征的特征圖像。圖1為第一階段運(yùn)算的示意圖;圖1(a)代表一個(gè)5×5的原始圖像,每一小方格代表圖像的一個(gè)像素點(diǎn),小方格中的數(shù)值即對(duì)應(yīng)位置像素點(diǎn)的值;圖1(b)是3×3的中央周邊差算子;圖1(c)為使用中央周邊差算子為卷積核對(duì)原始圖像做卷積得到的特征圖像。
第二階段即令前一階段所得的特征圖像二值化。如圖2所示,圖2(a)為前一階段運(yùn)算所得的特征圖像,對(duì)圖像的每一個(gè)像素點(diǎn)的值進(jìn)行判斷,若小于0則將該像素點(diǎn)的值置為0,即得到如圖2(b)所示的二值特征圖像。
圖3是將一張28×28的手寫數(shù)字圖像通過上述步驟轉(zhuǎn)換為二值特征圖像的示例,圖3(a)為原始圖像,圖3(b)則是通過上述方法進(jìn)行變換后得到的二值圖像。
從圖3(b)可以看出,經(jīng)過上述方法轉(zhuǎn)換得到的圖片保留了原本的手寫數(shù)字的邊緣輪廓特征,并且由于像素點(diǎn)二值化的操作,該邊緣輪廓特征相對(duì)明顯。但是這樣的特征圖像仍然只具有原圖像的低層特征,為了能夠獲得圖像的高層特征即形狀特征,還需要進(jìn)行下一步的變換。
1.1.2 對(duì)二值特征圖像進(jìn)行編碼
編碼過程需要統(tǒng)計(jì)二值特征圖像中任意一對(duì)顯著點(diǎn)的出現(xiàn)頻度。如圖4(a)所示,設(shè)有一個(gè)包含9個(gè)像素點(diǎn)的3×3的圖像,其中有2個(gè)像素點(diǎn)是顯著點(diǎn)(黑點(diǎn)),其余7個(gè)點(diǎn)為非顯著點(diǎn)。以位于圖像第一行第一列的像素點(diǎn)為坐標(biāo)原點(diǎn)建立直角坐標(biāo)系,則在此直角坐標(biāo)系中,兩個(gè)顯著點(diǎn)在x軸和y軸方向上的距離分別為-1和2,即Δx=-1,Δy=2。然后在一個(gè)新的圖像中統(tǒng)計(jì)這樣的顯著點(diǎn)對(duì),新圖像的寬度與原圖像相等,長(zhǎng)度則為2倍的原圖像長(zhǎng)度減1。以新圖像第一行中間列的像素點(diǎn)為原點(diǎn)建立直角坐標(biāo)系,令坐標(biāo)系橫軸為Δx,縱軸為Δy,在該坐標(biāo)系中對(duì)應(yīng)橫軸坐標(biāo)為-1、縱軸坐標(biāo)為2處統(tǒng)計(jì)在原圖像中相互之間距離為Δx=-1、Δy=2的顯著點(diǎn)對(duì)的數(shù)量,如圖4(b)所示。
在形狀編碼的過程中,只取二值特征圖像中在y軸方向上距離為正數(shù)(即Δy>0)的顯著點(diǎn)對(duì)。這是因?yàn)樵诮y(tǒng)計(jì)顯著點(diǎn)對(duì)的過程中,需要對(duì)二值特征圖像中的每一個(gè)顯著點(diǎn)進(jìn)行遍歷,統(tǒng)計(jì)其與其他所有顯著點(diǎn)所構(gòu)成的點(diǎn)對(duì),而點(diǎn)對(duì)本身則是一個(gè)無向圖。如圖4(a)中的兩個(gè)顯著點(diǎn),它們既是距離為Δx=-1、Δy=2的點(diǎn)對(duì),也是Δx=1、Δy=-2的點(diǎn)對(duì),因此為了在形狀編碼時(shí)減少冗余特征、避免數(shù)據(jù)維度無意義地?cái)U(kuò)大,在統(tǒng)計(jì)時(shí)只將在y軸方向上距離為正數(shù)(即Δy>0)的顯著點(diǎn)對(duì)納入計(jì)算。根據(jù)該方法進(jìn)行形狀編碼所得的圖像即為形狀編碼圖(shape coding map,SCM)。圖5是依照上述流程對(duì)圖2中的二值特征圖像進(jìn)行形狀編碼的示意圖。
圖6(b)是對(duì)圖3中的二值圖像進(jìn)行形狀編碼得到的新圖像,該圖像中顏色越明亮(如圖像中部)表示對(duì)應(yīng)的顯著點(diǎn)對(duì)的頻度越高,相對(duì)地,顏色越暗淡(如圖像右下角處)則表示對(duì)應(yīng)的顯著點(diǎn)對(duì)的頻度越低。
在1.1所述的形狀編碼方法中,首先使用了中央周邊差算子對(duì)圖像進(jìn)行卷積,卷積的結(jié)果是與原圖大小相同的特征圖。在原圖像中明顯屬于非顯著性特征的像素點(diǎn)在特征圖中對(duì)應(yīng)位置的像素點(diǎn)的值為0或負(fù)值;相對(duì)地,在特征圖中數(shù)值為正值的像素點(diǎn),由計(jì)算過程可知,其在原圖像中對(duì)應(yīng)位置的像素點(diǎn)的值要大于該點(diǎn)周邊的8個(gè)像素點(diǎn)的值之和,我們將具有這種特性的像素點(diǎn)視為可能屬于顯著性特征的像素點(diǎn)。而二值化時(shí)將所有小于0的像素點(diǎn)的值都置為0的計(jì)算過程,其實(shí)質(zhì)是將0作為閾值對(duì)上一步中得到的可能屬于顯著性特征的像素點(diǎn)做進(jìn)一步篩選,將所有數(shù)值在閾值以上的像素點(diǎn)視為顯著點(diǎn),將所有數(shù)值在閾值以下的像素點(diǎn)視為非顯著點(diǎn),同時(shí)令所有非顯著點(diǎn)的值為0,將其與顯著點(diǎn)做明顯區(qū)分。像這樣將一個(gè)恒定的值用以區(qū)分整個(gè)特征圖中的點(diǎn)是否顯著的做法,又可稱為使用絕對(duì)閾值的形狀編碼。
考慮到對(duì)于某些圖像而言,屬于同一圖像、但卻位于圖像上不同區(qū)域(如手寫數(shù)字圖像中筆劃較重的部分與較輕的部分之間)的顯著點(diǎn)的數(shù)值可能會(huì)存在較大差距,這時(shí)使用絕對(duì)閾值將特征圖中的所有特征點(diǎn)進(jìn)行區(qū)分可能會(huì)導(dǎo)致誤分,即將一些理應(yīng)作為顯著點(diǎn)的像素點(diǎn)視為非顯著點(diǎn)。對(duì)此,我們提出使用動(dòng)態(tài)閾值的形狀編碼(shape coding using dynamic threshold),不使用絕對(duì)閾值甄別顯著點(diǎn)與非顯著點(diǎn),而是將待定像素點(diǎn)周邊的像素點(diǎn)的值也納入計(jì)算,即基于像素點(diǎn)所在局部區(qū)域的特征,動(dòng)態(tài)地獲得閾值用以對(duì)待定像素點(diǎn)進(jìn)行劃分,然后再依照基于動(dòng)態(tài)閾值而獲得的二值特征圖進(jìn)行形狀編碼,所得結(jié)果即為基于動(dòng)態(tài)閾值的形狀編碼圖(shape coding map based on dynamic threshold,SCMDT)。
基于動(dòng)態(tài)閾值的顯著點(diǎn)提取方法計(jì)算方式如下:
設(shè)IM×N表示大小為M×N的原圖像,OM×N表示使用中央周邊差算子對(duì)原圖像進(jìn)行卷積后得到的大小相同的特征圖,用IM×N(i,j)和OM×N(i,j)分別表示位于兩圖中第i行第j列的像素點(diǎn)的值,使用rS(i,j)表示位于第i行第j列的像素點(diǎn)所在3×3小區(qū)域的所有像素點(diǎn)的值之和,即:
(1)
其中,因?yàn)閕和j分別代表像素點(diǎn)的行列坐標(biāo),所以有1≤i≤M,1≤j≤N。
對(duì)位于(i,j)處的像素點(diǎn),與其相對(duì)應(yīng)的動(dòng)態(tài)閾值可通過如下公式計(jì)算得到:
(2)
其中α為給定的動(dòng)態(tài)閾值系數(shù)。若令OM×N中的所有像素點(diǎn)分別與其對(duì)應(yīng)的動(dòng)態(tài)閾值相減,所得結(jié)果為基于動(dòng)態(tài)閾值的特征圖像O′M×N:
O′M×N(i,j)=OM×N(i,j)-TH(i,j)
(3)
將O′M×N送入ReLU函數(shù)進(jìn)行二值化之后,依據(jù)本文1.1.2所述的對(duì)二值圖像進(jìn)行編碼的方式對(duì)該基于動(dòng)態(tài)閾值獲得的二值特征圖進(jìn)行編碼,就完成了基于動(dòng)態(tài)閾值進(jìn)行形狀編碼的計(jì)算。
本文提出的形狀編碼方法是一種基于圖像中顯著點(diǎn)對(duì)的統(tǒng)計(jì)的編碼方法,最后所有類型的顯著點(diǎn)對(duì)的統(tǒng)計(jì)結(jié)果都被匯總到同一矩陣中,將該矩陣以圖像的形式表示出來即為類似于如圖6(b)所示的形狀編碼圖。一個(gè)形狀編碼圖中同時(shí)包含了圖像中一些大部件如數(shù)字整體輪廓的編碼,即那些兩點(diǎn)間距較長(zhǎng)的點(diǎn)對(duì),以及圖像中的一些相對(duì)小的部件如數(shù)字字體結(jié)構(gòu)中的拐角,即那些間距較短的點(diǎn)對(duì)。這種情況下,同一圖像中不同部件之間的空間結(jié)構(gòu)關(guān)系會(huì)被忽略。
人類視覺系統(tǒng)對(duì)圖像的識(shí)別存在空間選擇性注意,對(duì)于視野范圍內(nèi)的信息識(shí)別存在左右視野間或是上下視野間的轉(zhuǎn)移過程,在視野轉(zhuǎn)移的過程中人的大腦會(huì)認(rèn)知到視野內(nèi)目標(biāo)的空間位置關(guān)系,為大腦對(duì)目標(biāo)的識(shí)別工作提供線索[17-19]。參考這一點(diǎn),本文提出分塊形狀編碼方法,以期彌補(bǔ)在形狀編碼圖中同一圖像中不同部件間的空間位置關(guān)系丟失的問題。
圖7所示為對(duì)手寫數(shù)字圖像進(jìn)行形狀編碼的示意圖。圖7(a)為原始圖像,首先使用中央周邊差算子對(duì)原始圖像進(jìn)行卷積,然后將卷積的結(jié)果二值化,得到如圖7(b)所示的由數(shù)值為正的顯著點(diǎn)和數(shù)值為0的非顯著點(diǎn)組成的二值特征圖。將二值特征圖分成4個(gè)部分,即依照如圖7(b)用虛線標(biāo)示的方位對(duì)該圖像進(jìn)行切割,然后將4個(gè)部分分別進(jìn)行形狀編碼后,再依據(jù)原先所在的位置將4個(gè)形狀編碼圖進(jìn)行拼接,最后得到如圖7(c)所示的圖像,即為分塊形狀編碼圖(partitioning SCM,PSCM)。分塊的形狀編碼不僅適用于使用絕對(duì)閾值的情況,同樣可以用于基于動(dòng)態(tài)閾值的形狀編碼,獲得的特征圖即為分塊的基于動(dòng)態(tài)閾值的形狀編碼圖(partitioning SCMDT,PSCMDT)。
為了驗(yàn)證新的圖像表示方法的效果,設(shè)置了一個(gè)對(duì)照實(shí)驗(yàn):分別將原始數(shù)據(jù)和經(jīng)過形狀編碼后的數(shù)據(jù)作為樣本數(shù)據(jù)導(dǎo)入同一個(gè)CNN中進(jìn)行訓(xùn)練和測(cè)試,然后對(duì)比所得的訓(xùn)練準(zhǔn)確率和測(cè)試準(zhǔn)確率。
MNIST手寫字符數(shù)據(jù)集共有70 000張手寫數(shù)字圖像,包含由60 000張圖像組成的訓(xùn)練數(shù)據(jù)集和10 000張圖像組成的測(cè)試數(shù)據(jù)集,是圖像識(shí)別領(lǐng)域常用的數(shù)據(jù)集。這70 000張手寫數(shù)字圖像可分為10個(gè)類別,分別對(duì)應(yīng)0到9共10個(gè)數(shù)字。該數(shù)據(jù)集的圖像取材于真實(shí)場(chǎng)景,由250個(gè)不同的人分別寫下然后被轉(zhuǎn)換為電子圖片,因此在該數(shù)據(jù)集中存在一些數(shù)字圖像其外形與標(biāo)準(zhǔn)數(shù)字結(jié)構(gòu)不同。MNIST數(shù)據(jù)集中每張圖像的大小為28×28,該數(shù)據(jù)集經(jīng)過形狀編碼后,得到的每張形狀編碼圖大小為28×55。
如圖8所示為以偽彩色顯示的MNIST數(shù)據(jù)集示例圖,其中第1列和第3列為原始圖像,第2列和第4列為其左側(cè)圖像所對(duì)應(yīng)的全局形狀編碼圖。
形狀編碼圖強(qiáng)調(diào)原圖像的形狀特征而隱性地忽略了原圖像中的其余特征類型,如果只讓網(wǎng)絡(luò)對(duì)形狀編碼圖進(jìn)行學(xué)習(xí),可能會(huì)導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到的特征不夠全面而影響其識(shí)別性能。因此,本文使用如圖9所示的網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),網(wǎng)絡(luò)結(jié)構(gòu)可以看做由4個(gè)部分構(gòu)成:3路卷積網(wǎng)絡(luò)以及1個(gè)將3路卷積的結(jié)果合并處理的全連接網(wǎng)絡(luò)。
3路卷積網(wǎng)絡(luò)具有相同的結(jié)構(gòu):2個(gè)有著64個(gè)3×3大小卷積核的卷積層,以及2個(gè)按2×2的塊進(jìn)行最大池化的池化層,2個(gè)池化層分別連接在2個(gè)卷積層之后。網(wǎng)絡(luò)的輸出層之前是2個(gè)全連接層,分別有128和64個(gè)神經(jīng)元。其中,與3路卷積直接相連的是具有128個(gè)神經(jīng)元的全連接層,在訓(xùn)練時(shí)以0.5的比率隱藏該全連接層的神經(jīng)元。
在這種網(wǎng)絡(luò)結(jié)構(gòu)下,3路卷積網(wǎng)絡(luò)可以分別送入不同類型的圖像數(shù)據(jù)。如圖9所示即為將原圖像、形狀編碼圖以及分塊形狀編碼圖分別送入了3路卷積,最后的全連接層所接收到的是3路卷積網(wǎng)絡(luò)各自計(jì)算所得的特征圖像,全連接層將這3類特征圖像進(jìn)行融合,輸出層的輸出結(jié)果是依據(jù)融合的特征所得到的分類結(jié)果。
本文在進(jìn)行實(shí)驗(yàn)時(shí)所用的優(yōu)化算法為Adam算法,初始學(xué)習(xí)率為0.000 1。使用數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)分批送入數(shù)據(jù)集,批大小為600??傆?xùn)練次數(shù)為2 000,并在訓(xùn)練次數(shù)分別到達(dá)1 000次和1 500次時(shí)令學(xué)習(xí)率縮減到原來的10%。
本文使用3路卷積網(wǎng)絡(luò)對(duì)由原圖像與不同類型的形狀編碼圖所組成的多種的特征組合進(jìn)行識(shí)別,并同僅使用原圖像,即分別送入3路卷積的數(shù)據(jù)都為原圖而沒有與任何形狀編碼圖組合的情況進(jìn)行對(duì)比。在實(shí)驗(yàn)中用于與原圖進(jìn)行特征融合的形狀編碼圖有4種類型,分別為:基于絕對(duì)閾值的形狀編碼圖,基于動(dòng)態(tài)閾值的形狀編碼圖,分塊的基于絕對(duì)閾值的形狀編碼圖以及分塊的基于動(dòng)態(tài)閾值的形狀編碼圖。其中,在對(duì)原圖像進(jìn)行基于動(dòng)態(tài)閾值的形狀編碼時(shí),使用的動(dòng)態(tài)閾值系數(shù)α的值為1.5。
對(duì)于每種特征組合在使用同樣的超參數(shù)的情況下分別進(jìn)行5次識(shí)別實(shí)驗(yàn),將每種特征組合在5次實(shí)驗(yàn)中所得的識(shí)別準(zhǔn)確率的均值進(jìn)行匯總,如表1所示。表1的前3列對(duì)應(yīng)3路卷積網(wǎng)絡(luò)各自的輸入圖像數(shù)據(jù)類型,表1的第4列給出了使用不同的輸入圖像組合各自能取得的識(shí)別準(zhǔn)確率均值,表1第5列是整個(gè)3路卷積網(wǎng)絡(luò)所包含的可訓(xùn)練參數(shù)數(shù)目,表1末列則是使用不同的輸入圖像組合分別所需的計(jì)算量。
從表1中可以看出,相比于只使用原圖進(jìn)行識(shí)別的情況,將原圖與合適的形狀編碼圖組合進(jìn)行識(shí)別時(shí)可以達(dá)到更高的識(shí)別準(zhǔn)確率。特別地,3路卷積網(wǎng)絡(luò)在學(xué)習(xí)由原圖像與形狀編碼圖與基于動(dòng)態(tài)閾值的形狀編碼圖這3類圖像的融合特征時(shí),對(duì)手寫數(shù)字圖像的識(shí)別準(zhǔn)確率是最高的。同時(shí),當(dāng)3路卷積網(wǎng)絡(luò)所學(xué)習(xí)的融合特征是原圖像與分塊的形狀編碼圖與分塊的基于動(dòng)態(tài)閾值的形狀編碼圖的組合時(shí),取得的準(zhǔn)確率在所有統(tǒng)計(jì)結(jié)果中是次高的。這表明,基于絕對(duì)閾值的形狀編碼圖和基于動(dòng)態(tài)閾值的形狀編碼圖所對(duì)應(yīng)的是原圖像的兩種不同側(cè)面的特征,3路卷積網(wǎng)絡(luò)在同時(shí)學(xué)習(xí)包括原圖在內(nèi)的這3種圖像時(shí),相比于只學(xué)習(xí)原圖像的情況,可以獲得更多的信息量。
表1 3路卷積網(wǎng)絡(luò)基于不同特征組合對(duì)手寫數(shù)字圖像的識(shí)別能力對(duì)比
此外,從整體來看,3路卷積網(wǎng)絡(luò)對(duì)于原圖和分塊與不分塊的形狀編碼圖的融合特征的學(xué)習(xí)情況相對(duì)較差。推測(cè)的原因是,分塊的形狀編碼圖的特點(diǎn)在于將圖像整體進(jìn)行分割從而實(shí)現(xiàn)特征的局部化,但并非所有數(shù)字都存在突出的局部特征。譬如數(shù)字0和數(shù)字1就是全局特征與局部特征高度重合的數(shù)字,對(duì)于這類數(shù)字進(jìn)行分塊化可能會(huì)導(dǎo)致不必要的冗余信息的產(chǎn)生,而在3路卷積網(wǎng)絡(luò)將該分塊圖與原圖和不分塊的形狀編碼圖進(jìn)行特征融合時(shí),這些冗余信息可能會(huì)對(duì)網(wǎng)絡(luò)的學(xué)習(xí)產(chǎn)生負(fù)面影響。同時(shí),從表1中也能看出,由于相比于原圖像,形狀編碼圖的大小有所增加,因此導(dǎo)致使用形狀編碼圖進(jìn)行學(xué)習(xí)時(shí)訓(xùn)練網(wǎng)絡(luò)所需的計(jì)算量也隨之提高。
本文針對(duì)一般卷積結(jié)構(gòu)無法直接提取圖像的高級(jí)語義特征的問題,提出了形狀編碼方法,可以通過編碼的方式獲取形狀這一圖像全局結(jié)構(gòu)特征,并以特征圖的形式進(jìn)行表示。形狀編碼的編碼對(duì)象是圖像中的顯著點(diǎn)對(duì),編碼的依據(jù)是顯著點(diǎn)對(duì)間的位置關(guān)系,在實(shí)現(xiàn)時(shí)需要先將原圖像轉(zhuǎn)換為僅包含顯著點(diǎn)和非顯著點(diǎn)的二值特征圖,然后再對(duì)二值特征圖進(jìn)行編碼。原始形狀編碼方法在轉(zhuǎn)換為二值特征圖時(shí)使用的是與局部像素點(diǎn)無關(guān)的恒定閾值,因此也可稱為使用絕對(duì)閾值的形狀編碼。本文基于動(dòng)態(tài)閾值的形狀編碼方法,以及分塊形狀編碼方法,這兩種改進(jìn)形狀編碼更強(qiáng)調(diào)局部形狀信息。
本文通過實(shí)驗(yàn)驗(yàn)證了可以通過讓CNN學(xué)習(xí)手寫數(shù)字原圖像與形狀編碼圖的融合特征而非僅學(xué)習(xí)原始圖像特征的方式,提高CNN對(duì)手寫數(shù)字圖像的識(shí)別準(zhǔn)確率。但是,實(shí)驗(yàn)中使用的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,在未來的工作中,我們還需要研究如何在更加深層和復(fù)雜的網(wǎng)絡(luò)中,更高效地將原圖像特征與形狀編碼特征結(jié)合,從而提高網(wǎng)絡(luò)對(duì)圖像的識(shí)別性能。