余鷹 王樂為 張應(yīng)龍
摘 要:深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征自學(xué)習(xí)能力,可以通過多層逐步提取的方式獲取不同層次的粒度特征, 但當(dāng)圖片目標(biāo)本體與背景色具有強(qiáng)相關(guān)性時(shí),特征提取會(huì)存在“惰性”,所提取特征的抽象層次較低,判別性不足。針對(duì)此問題,通過實(shí)驗(yàn)對(duì)深度神經(jīng)網(wǎng)絡(luò)特征提取的內(nèi)在規(guī)律進(jìn)行研究,發(fā)現(xiàn)特征提取偏好與圖片背景色之間具有相關(guān)性,消除該相關(guān)性可以幫助深度神經(jīng)網(wǎng)絡(luò)忽略背景的干擾,直接學(xué)習(xí)目標(biāo)本體的特征,由此提出了數(shù)據(jù)增強(qiáng)算法,并在自主構(gòu)建的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提算法可以降低背景色對(duì)目標(biāo)本體特征提取的干擾,減少過擬合,提高分類效果。
關(guān)鍵詞:特征提取;數(shù)據(jù)增強(qiáng);深度學(xué)習(xí);背景色
中圖分類號(hào):TP391.1
文獻(xiàn)標(biāo)志碼:A
Data enhancement algorithm based on
feature extraction preference and background color correlation
YU Ying*, WANG Lewei, ZHANG Yinglong
College of Software Engineering, East China Jiaotong University, Nanchang Jiangxi 33001, China
Abstract:
Deep neural network has powerful feature selflearning ability, which can obtain the granularity features of different levels by multilayer stepwise feature extraction. However, when the target subject of an image has strong correlation with the background color, the feature extraction will be “l(fā)azy”, the extracted features are difficult to be discriminated with low abstraction level. To solve this problem, the intrinsic law of feature extraction of deep neural network was studied by experiments. It was found that there was correlation between feature extraction preference and background color of the image. Eliminating this correlation was able to help deep neural network ignore background interference and extract the features of the target subject directly. Therefore, a data enhancement algorithm was proposed and experiments were carried out on the selfbuilt dataset. The experimental results show that the proposed algorithm can reduce the interference of background color on the extraction of target features, reduce overfitting and improve classification effect.
Key words:
feature extraction; data enhancement; deep learning; background color
0?引言
近年來,深度學(xué)習(xí)在目標(biāo)分類[1]、分割[2]和檢測(cè)[3]等計(jì)算機(jī)視覺領(lǐng)域取得了突破性進(jìn)展,成為最有效的圖像特征提取方法之一。在深度學(xué)習(xí)之前,常用的特征提取方法多為人工設(shè)計(jì),如方向梯度直方圖(Histogram of Oriented Gradient, HOG)、尺度不變特征變換(ScaleInvariant Feature Transform, SIFT)等,這些特征在特定類型對(duì)象中能夠達(dá)到較好的識(shí)別效果,但所提取特征往往層次較低、抽象程度不高、判別力不足。文獻(xiàn)[4]將傳統(tǒng)的人工設(shè)計(jì)的特征提取方法與深度學(xué)習(xí)的方法進(jìn)行了比較,發(fā)現(xiàn)后者提取的特征可以獲得更好的圖像分類效果。深度學(xué)習(xí)通過監(jiān)督或非監(jiān)督的方式,從大量的數(shù)據(jù)中逐層自動(dòng)地學(xué)習(xí)目標(biāo)的特征表示,將原始數(shù)據(jù)經(jīng)過一系列非線性變換,從中提取由低層到高層、由具體到抽象、由一般到特定語(yǔ)義的特征,生成高層次的抽象表示,避免了手工設(shè)計(jì)特征的繁瑣低效。
雖然深度學(xué)習(xí)在圖像特征自動(dòng)提取方面效果很好,但與傳統(tǒng)的特征提取算法相比,過于依賴大規(guī)模的訓(xùn)練數(shù)據(jù),主要是因?yàn)楫?dāng)前主流深度網(wǎng)絡(luò)模型含有的參數(shù)一般都是數(shù)以百萬計(jì),為了保證模型可以正確工作需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,以便不斷修正模型的參數(shù),但現(xiàn)實(shí)世界中,所獲取的數(shù)據(jù)可能是在有限條件下拍攝的。當(dāng)訓(xùn)練數(shù)據(jù)有限,無法表現(xiàn)所有情況時(shí),所提取的特征可能不具備普適性。同時(shí),由于深度學(xué)習(xí)模型缺乏良好的可解釋性,很難理解模型內(nèi)部的行為,所提取的特征到底來自圖片的哪塊區(qū)域是無法確定的,導(dǎo)致特征提取可能存在偏差。例如,文獻(xiàn)[5]曾指出,如圖1所示,在樣本的刻意選取下,因?yàn)閳D片背景是雪地,哈士奇被識(shí)別成了狼,分類模型利用了圖片的白色背景,完全忽略了動(dòng)物本體的特征。此時(shí),需要通過數(shù)據(jù)增強(qiáng)的方法對(duì)輸入進(jìn)行干涉,用變換過的數(shù)據(jù)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),幫助模型學(xué)習(xí)到本體的特征,以提高泛化能力。
因此,本文對(duì)深度神經(jīng)網(wǎng)絡(luò)的特征提取偏好進(jìn)行研究,尋找特征提取偏好與數(shù)據(jù)集背景色的相關(guān)性,并在此基礎(chǔ)上提出了相應(yīng)的數(shù)據(jù)增強(qiáng)算法,減少過擬合。通過對(duì)訓(xùn)練圖片進(jìn)行背景色變換得到泛化能力更強(qiáng)的網(wǎng)絡(luò),使得模型在面對(duì)目標(biāo)本體與背景色具有強(qiáng)相關(guān)性的數(shù)據(jù)集時(shí),特征學(xué)習(xí)能夠不受背景色的干擾,能真正地學(xué)習(xí)到目標(biāo)本體的特征,提高分類的性能。
1?相關(guān)工作
1.1?卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種深度神經(jīng)網(wǎng)絡(luò)模型,主要由卷積層、池化層和全連接層構(gòu)成。近年來,CNN得到不斷的發(fā)展,被廣泛應(yīng)用于圖像處理領(lǐng)域中。AlexNet采用ReLU(Rectified Linear Unit)、Dropout等技術(shù),降低了模型的計(jì)算復(fù)雜度,訓(xùn)練速度也提升了幾倍,使模型更具有魯棒性,并減少了全連接層的過擬合。VGG(Visual Geometry Group)[6]模型采用具有小卷積核的多個(gè)卷積層替換一個(gè)具有較大卷積核的卷積層,這種替換方式減少了參數(shù)的數(shù)量,而且也能夠使決策函數(shù)更具有判別性。隨后GoogLeNet[7]模型提出了Inception結(jié)構(gòu),加入了并行傳播,使用了3種類型的卷積操作,提升了計(jì)算資源的利用率,但是模型的參數(shù)僅是AlexNet的1/12。為了利用網(wǎng)絡(luò)深度對(duì)特征提取的影響,He等[8]提出了ResNet網(wǎng)絡(luò)模型,引入了殘差結(jié)構(gòu),使得深度網(wǎng)絡(luò)可達(dá)到1-000多層,從而提取出更加精確的特征。由于ResNet直接通過“Summation”操作將特征相加,一定程度上阻礙了網(wǎng)絡(luò)中的信息流,繼而又出現(xiàn)了DenseNet[9]。該結(jié)構(gòu)通過連接操作來結(jié)合feature map,每一層都與其他層相關(guān),使得信息流可以最大化,提升了網(wǎng)絡(luò)的魯棒性并且加快了學(xué)習(xí)速度。
1.2?特征提取機(jī)制
目前已有一些學(xué)者對(duì)深度神經(jīng)網(wǎng)絡(luò)的特征提取機(jī)制進(jìn)行研究,主要是通過可視化的方式,大多是針對(duì)第一層,主要是因?yàn)榈谝粚颖容^容易提取到像素級(jí)特征,而較高的網(wǎng)絡(luò)層則難以處理,但仍有一些方法從不同角度進(jìn)行了嘗試,比如:文獻(xiàn)[10]通過在圖像空間做梯度下降得到每個(gè)節(jié)點(diǎn)的最大響應(yīng),由此推斷出節(jié)點(diǎn)的活躍性,但沒有給出關(guān)于節(jié)點(diǎn)某種恒定屬性的描述。文獻(xiàn)[11]受此啟發(fā),對(duì)文獻(xiàn)[12]提出的方法進(jìn)行改進(jìn),通過計(jì)算一個(gè)節(jié)點(diǎn)的Hessian矩陣來觀測(cè)節(jié)點(diǎn)的一些穩(wěn)定的屬性,但對(duì)于高層的網(wǎng)絡(luò)節(jié)點(diǎn),這些屬性變量過于復(fù)雜。文獻(xiàn)[13]通過可視化確定模型中高層節(jié)點(diǎn)究竟是被哪一塊區(qū)域激活,但沒有對(duì)節(jié)點(diǎn)屬性進(jìn)行描述,而是看圖像的哪一部分激活了特征。與此類似的是,文獻(xiàn)[14]通過在反卷積網(wǎng)絡(luò)中引入數(shù)值解可視化CNN,探究CNN運(yùn)行良好的機(jī)制。
2?基于背景色的數(shù)據(jù)增強(qiáng)算法
2.1?Mnist數(shù)據(jù)集轉(zhuǎn)換與處理
由于Mnist數(shù)據(jù)集的目標(biāo)本體與背景信息易于區(qū)分,如圖2所示,有利于分析深度神經(jīng)網(wǎng)絡(luò)的特征提取機(jī)制,故本文選擇對(duì)Mnist數(shù)據(jù)集進(jìn)行處理與轉(zhuǎn)化,其中主要進(jìn)行了三種情況的處理。
第一種情況是將原Mnist訓(xùn)練集的圖片轉(zhuǎn)換成一種數(shù)字對(duì)應(yīng)一種背景色的訓(xùn)練集A,例如將數(shù)字1的背景色轉(zhuǎn)換成藍(lán)色、將數(shù)字2的背景色轉(zhuǎn)換成紅色。對(duì)原Mnist測(cè)試集進(jìn)行相同的轉(zhuǎn)換,得到測(cè)試集X1;再將原Mnist測(cè)試集的每種數(shù)字背景色轉(zhuǎn)換成除訓(xùn)練集A對(duì)應(yīng)顏色外的9種顏色,如數(shù)字1的背景色除了藍(lán)色可為任意其他9種顏色,數(shù)字2除了紅色可為任意其他9種顏色,將滿足該條件的測(cè)試集稱作測(cè)試集X2;另外將測(cè)試集X2的每張圖片的標(biāo)簽更換成其背景色在訓(xùn)練集A上所對(duì)應(yīng)的數(shù)字類別,得到測(cè)試集X3,例如背景色為藍(lán)色的數(shù)字標(biāo)簽均為1。使用訓(xùn)練集A訓(xùn)練,分別在測(cè)試集X1、X2、X3上進(jìn)行測(cè)試,可以分析模型是否只學(xué)習(xí)到背景顏色特征。
第二種情況將原Mnist訓(xùn)練集的圖片轉(zhuǎn)換成每種數(shù)字可對(duì)應(yīng)10種背景色的訓(xùn)練集B,按照同樣的轉(zhuǎn)換方法對(duì)原測(cè)試集進(jìn)行轉(zhuǎn)換得到測(cè)試集Y1。重新搜集10種顏色,這10種顏色與訓(xùn)練集B的10種顏色無交集,根據(jù)這10種顏色,按照同樣的轉(zhuǎn)換方法得到測(cè)試集Y2。通過在訓(xùn)練集B上進(jìn)行訓(xùn)練,在測(cè)試集Y1和Y2上進(jìn)行測(cè)試,可以分析當(dāng)每種數(shù)字背景色復(fù)雜時(shí),模型是否會(huì)學(xué)習(xí)到數(shù)字的自身特征。
為了便于不同顏色的區(qū)分,第三種情況只選擇兩種數(shù)字類別,將原Mnist訓(xùn)練集上的數(shù)字0和數(shù)字1進(jìn)行背景色轉(zhuǎn)換得到訓(xùn)練集C,每種數(shù)字獨(dú)享k種背景色,如當(dāng)k=1時(shí),數(shù)字0的背景色為天藍(lán)色,數(shù)字1的背景色為粉色,當(dāng)k=2時(shí),數(shù)字0的背景色為天藍(lán)色或者黃色,數(shù)字1的背景色為粉色或紫色,按照同樣的轉(zhuǎn)換方法對(duì)原測(cè)試集進(jìn)行轉(zhuǎn)換得到測(cè)試集Z1。交換兩類數(shù)字的背景色得到測(cè)試集Z2,如當(dāng)k=2時(shí),訓(xùn)練集中數(shù)字1的背景色為粉色或紫色,而在測(cè)試集Z2中數(shù)字0的背景色為粉色或紫色。通過在訓(xùn)練集C上進(jìn)行訓(xùn)練,在測(cè)試集Z1和測(cè)試集Z2上進(jìn)行測(cè)試,可以分析模型是否會(huì)因?yàn)槟骋活悢?shù)字對(duì)應(yīng)一定集合范圍內(nèi)的顏色,從而通過“蠻力”的統(tǒng)計(jì)方式去記住每種數(shù)字對(duì)應(yīng)的顏色信息,而不去學(xué)習(xí)到數(shù)字的形狀特征。以上處理方式如圖3所示。
2.2?數(shù)據(jù)增強(qiáng)算法
設(shè)有數(shù)據(jù)集D,其中圖片Xi∈D,ri1,ri2,…,ri100是從圖片Xi中隨機(jī)挑選的100個(gè)像素點(diǎn)的RGB值,使用DBSCAN(DensityBased Spatial Clustering of Applications with Noise)[15]算法對(duì)這100個(gè)像素點(diǎn)進(jìn)行基于密度的聚類,Centeri1,Centeri2,…,Centerim分別為圖片Xi經(jīng)密度聚類后對(duì)應(yīng)的m個(gè)簇中心點(diǎn)的RGB值,Distacncei1,Distacnei2,…,Distacneim分別為每個(gè)簇中心點(diǎn)到其他m-1個(gè)簇中心點(diǎn)的距離和,如式(1)所示:
Distanceij=∑m-1t=1Euclidean(Centerij,Centerit)(1)
為了避免隨機(jī)挑選的點(diǎn)過多地出現(xiàn)在目標(biāo)本體上,且由于目標(biāo)本體與背景色的RGB值差異較大,故將最大值去掉,剩下的m-1個(gè)簇中心點(diǎn)的RGB值作為圖片Xi的背景色RGB代表值,分別為:BGi1,BGi2,…,BGi(m-1)。
Pie為圖片Xi的像素點(diǎn)RGB值,計(jì)算像素點(diǎn)Pie與圖片Xi中每個(gè)背景色代表值BGiq的RGB差異度Differenceieq,如式(2)所示:
Differenceieq=(RPie-RBGiq)2+(GPie-GBGie)2+
(BPie-BBGiq)2; 1≤q≤m-1(2)
其中:RPie、GPie、BPie分別表示圖片Xi的像素點(diǎn)Pie的三個(gè)通道值,RBGiq、GBGiq、BBGiq分別表示圖片Xi背景色代表值BGiq的三個(gè)通道值。采用平方項(xiàng)的方式是由于改變某一通道數(shù)值產(chǎn)生的顏色變化效果明顯于將改變的數(shù)值分布在三個(gè)通道產(chǎn)生變化的效果,如圖4所示,故使用平方項(xiàng)可將在一個(gè)通道改變過多所導(dǎo)致的差異值放大。
C是一組RGB差異性較大的顏色集合,在對(duì)每張圖片Xi進(jìn)行轉(zhuǎn)換前,先從集合C中隨機(jī)選擇一種顏色cg,對(duì)圖片Xi中每個(gè)像素點(diǎn)Pie與m-1個(gè)RGB差異值進(jìn)行比較,若存在一個(gè)差異值Differenceieq小于閾值1-000,則將該像素點(diǎn)RGB值用cg進(jìn)行替代,若像素點(diǎn)Pie中m-1個(gè)差異值都大于1-000將不做變換,如式(3)所示:
pie=
cg,?q∈{1,2,…,m-1},differenceieq≤1-000
pie,?q∈{1,2,…,m-1},differenceieq>1-000 (3)
整體算法框架如圖5所示。
3?實(shí)驗(yàn)與分析
3.1?模型及參數(shù)
本文所采用的CNN包含三層卷積池化層和三層全連接層,每層的卷積核大小均為3×3,卷積核的個(gè)數(shù)分別為64、128、256,池化層均采用最大池化且池化核的大小為2×2,每次池化后都進(jìn)行比例為0.5的Dropout,三層全連接層的大小分別為128、64、32,最后一層為Softmax層。此外,批大?。╞atch size)為64,學(xué)習(xí)率(learning rate)設(shè)置為10-4,優(yōu)化算法選擇了隨機(jī)梯度下降算法。
3.2?基于Mnist數(shù)據(jù)集的實(shí)驗(yàn)分析
3.2.1?第一種情況分析
圖6為第一種情況的訓(xùn)練集A和測(cè)試集X1背景色信息,圖中數(shù)字為相應(yīng)顏色的RGB值。使用訓(xùn)練集A進(jìn)行訓(xùn)練,并在測(cè)試集A進(jìn)行測(cè)試。
圖7為測(cè)試集X2的背景色信息,每個(gè)數(shù)字的背景色不使用訓(xùn)練集A中相應(yīng)數(shù)字對(duì)應(yīng)的背景色,如數(shù)字0的背景色除RGB值為(230, 189, 128)外,可為其他任意背景色。使用訓(xùn)練集A進(jìn)行訓(xùn)練,測(cè)試集B進(jìn)行測(cè)試,測(cè)試準(zhǔn)確率如圖8所示。
為了進(jìn)一步驗(yàn)證訓(xùn)練集A是否使模型只學(xué)習(xí)到背景色特征,而忽略數(shù)字的形狀等自身特征,構(gòu)建測(cè)試集X3,測(cè)試集X3與測(cè)試集X2圖片相同,但將標(biāo)簽進(jìn)行更改,每張圖片更改后的標(biāo)簽為其背景色在訓(xùn)練集A上所對(duì)應(yīng)的數(shù)字,如將背景色RGB值為(21, 182, 18)的數(shù)字1的標(biāo)簽視為3,如圖9所示。同樣使用訓(xùn)練集A進(jìn)行訓(xùn)練,測(cè)試集X3進(jìn)行測(cè)試,測(cè)試準(zhǔn)確率如圖8所示。
從圖8中可以看出,測(cè)試集X2的準(zhǔn)確率始終較低,而測(cè)試集X1和測(cè)試集X3都在較短的時(shí)間內(nèi)完成收斂并達(dá)到較高的準(zhǔn)確率??梢娛褂糜?xùn)練集A并不能讓模型學(xué)習(xí)到數(shù)字自身的特征,而是將圖片背景色作為分類的依據(jù)。
3.2.2?第二種情況分析
圖10為第二種情況下的訓(xùn)練集B和測(cè)試集Y1背景色信息,其中每個(gè)數(shù)字的背景色可為10種顏色。使用訓(xùn)練集B進(jìn)行訓(xùn)練,測(cè)試集Y1進(jìn)行測(cè)試。
圖11為測(cè)試集Y2的背景色信息,每個(gè)數(shù)字背景色可為10種顏色,但與訓(xùn)練集B中的10種背景色無重復(fù)。使用訓(xùn)練集B進(jìn)行訓(xùn)練,測(cè)試集Y2進(jìn)行測(cè)試,準(zhǔn)確率如圖12所示。
從圖12中可以看出,模型經(jīng)訓(xùn)練集B訓(xùn)練到一定程度時(shí),其在測(cè)試集Y1和Y2上準(zhǔn)確率較接近,達(dá)到了較好的識(shí)別效果。可見,當(dāng)訓(xùn)練集每個(gè)數(shù)字的背景色變得復(fù)雜時(shí),模型能夠?qū)W習(xí)到數(shù)字的自身特征。
以上實(shí)驗(yàn)表明,使用訓(xùn)練集A可使模型學(xué)到背景的顏色特征,使用訓(xùn)練集B可學(xué)習(xí)到數(shù)字的自身特征,其可能原因在于當(dāng)一種背景色對(duì)應(yīng)一種數(shù)字時(shí),背景色可作為數(shù)字的主要特征,而當(dāng)使用訓(xùn)練集B或原Mnist訓(xùn)練集時(shí),每種顏色可對(duì)應(yīng)任意數(shù)字,顏色不能作為分類的主要依據(jù),需進(jìn)一步學(xué)習(xí)其他特征。但如果每類數(shù)字對(duì)應(yīng)一定集合范圍內(nèi)的背景色,且集合無交集時(shí),使用滿足這種條件的訓(xùn)練集是否能讓模型學(xué)習(xí)到數(shù)字的特征,還是僅能學(xué)到每類數(shù)字對(duì)應(yīng)的各種顏色信息,具體如圖13所示。
3.2.3?第三種情況分析
為了進(jìn)一步分析模型所學(xué)特征與數(shù)據(jù)集背景色的關(guān)系,進(jìn)行了第三種情況的實(shí)驗(yàn),讓每種數(shù)字對(duì)應(yīng)一個(gè)背景色集合,且集合間無交集。目的是驗(yàn)證此種情況下是否能讓模型學(xué)習(xí)到數(shù)字的特征,而不是每種數(shù)字對(duì)應(yīng)的背景色信息,如圖14所示,分別給出了k=1和k=10時(shí),訓(xùn)練集C和測(cè)試集Z1以及測(cè)試集Z2所對(duì)應(yīng)的背景色信息。
當(dāng)k取值從1逐漸增大到10時(shí),使用訓(xùn)練集C進(jìn)行訓(xùn)練,并在測(cè)試集Z1和Z2上測(cè)試,k取值和對(duì)應(yīng)的準(zhǔn)確率情況如圖15(a)至(j)所示。
由圖15可見,Z1由于訓(xùn)練集和測(cè)試集顏色一致,所以準(zhǔn)確率始終保持良好。當(dāng)k的值較小時(shí),Z2的準(zhǔn)確率很低,這主要是因?yàn)檫@此時(shí)將背景色作為判斷依據(jù),但是由于訓(xùn)練集和測(cè)試集背景色不一致,導(dǎo)致分類性能很差。隨著k的增大,Z2的準(zhǔn)確率在逐漸提高,說明隨著背景色越來越多,區(qū)分能力越來越弱,分類模型已經(jīng)開始學(xué)習(xí)數(shù)字本體的特征進(jìn)行判別。
3.3?數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)分析
通過以上的實(shí)驗(yàn),本文發(fā)現(xiàn)了深度學(xué)習(xí)模型的特征提取能力與數(shù)據(jù)集的背景色具有一定的關(guān)系,故本文搜集了貓頭鷹與海鷗這一類背景色有特點(diǎn)的圖片構(gòu)建數(shù)據(jù)集,由于貓頭鷹大多在晚上出現(xiàn),海鷗多數(shù)出現(xiàn)在海上或藍(lán)天上飛行,所以貓頭鷹的圖片的背景大多以黑色系為主,海鷗主要以藍(lán)色系為主。
如圖16所示,訓(xùn)練集共有600張,背景色信息主要為貓頭鷹對(duì)應(yīng)黑色、海鷗對(duì)應(yīng)藍(lán)色。
如圖17所示,測(cè)試集分為T1和T2兩種情況,分別為200張與100張,T1與訓(xùn)練集背景色信息相同,T2則與其相反,即海鷗對(duì)應(yīng)黑色背景和貓頭鷹對(duì)應(yīng)藍(lán)色背景。由于滿足T2條件的圖片較少,故T1與T2圖片數(shù)量分別為200和100張。使用訓(xùn)練集進(jìn)行訓(xùn)練,分別對(duì)測(cè)試集T1和T2進(jìn)行測(cè)試,準(zhǔn)確率如圖18所示。
由圖18可以看出,模型在測(cè)試集T1上很快完成收斂,并達(dá)到較高準(zhǔn)確率,而在測(cè)試集T2上則表現(xiàn)較差,且在T2上準(zhǔn)確率隨著在T1上準(zhǔn)確率的升高而下降,可以看出模型并沒有學(xué)習(xí)到貓頭鷹和海鷗的自身特征信息,而只是簡(jiǎn)單地將背景色作為分類依據(jù)。
使用上文基于背景色的數(shù)據(jù)增強(qiáng)算法,對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行增強(qiáng),增強(qiáng)后的訓(xùn)練集部分樣本如圖19所示。用數(shù)據(jù)增強(qiáng)后的訓(xùn)練集進(jìn)行訓(xùn)練,并在測(cè)試集T1、T2上進(jìn)行測(cè)試,準(zhǔn)確率如圖20所示。
從圖20中可以看出,經(jīng)過對(duì)訓(xùn)練集使用基于背景色的數(shù)據(jù)增強(qiáng),可在測(cè)試集T1和T2上得到較好的效果,模型不再受背景色信息的干擾,從而學(xué)習(xí)更高層次的特征信息,最終能對(duì)物體進(jìn)行較好識(shí)別。通過該實(shí)驗(yàn),可以發(fā)現(xiàn)通過基于背景色的數(shù)據(jù)增強(qiáng),可以有效避免數(shù)據(jù)集中因某一背景色大量出現(xiàn)從而導(dǎo)致模型只學(xué)習(xí)背景顏色特征的“惰性”現(xiàn)象。
4?結(jié)語(yǔ)
本文通過將Mnist灰度圖數(shù)據(jù)集轉(zhuǎn)換成具有背景色的數(shù)據(jù)集,發(fā)現(xiàn)了深度學(xué)習(xí)模型特征提取偏好與背景色之間的關(guān)系,并在此基礎(chǔ)上提出了基于背景色的數(shù)據(jù)增強(qiáng)算法,在貓頭鷹與海鷗這類背景色有特點(diǎn)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),表明了本文的方法在一些目標(biāo)本體與背景色具有強(qiáng)相關(guān)性的圖像處理任務(wù)上具有一定的適用性。在未來工作中,將繼續(xù)研究深度學(xué)習(xí)模型特征提取機(jī)制的內(nèi)在規(guī)律,例如輪廓、紋理之間的關(guān)系,以及數(shù)據(jù)集大小對(duì)模型性能的影響,進(jìn)一步分析其特征提取機(jī)制對(duì)分類性能的影響。
參考文獻(xiàn) (References)
[1]唐賢倫,杜一銘,劉雨微,等.基于條件深度卷積生成對(duì)抗網(wǎng)絡(luò)的圖像識(shí)別方法[J].自動(dòng)化學(xué)報(bào),2018,44(5):855-864.(TANG X L, DU Y M, LIU Y W, et al. Recognition with conditional deep convolutional generative adversarial networks[J]. Acta Automatica Sinica,2018,44(5):855-864.)
[2]PINHEIRO P O, COLLOBERT R, DOLLAR P. Learning to segment object candidates[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. New York: ACM, 2015: 1990-1998.
[3]REN S, HE K, GIRSHICK R, et al. Faster RCNN: towards realtime object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.
[4]GONG Y, JIA Y, LEUNG T, et al. Deep convolutional ranking for multilabel image annotation[EB/OL].[2018-04-14]. https://pdfs.semanticscholar.org/3b04/9d8cfea6c3bed377090e0e7fa677d2 82a361.pdf.
[5]RIBEIRO M T, SINGH S, GUESTRIN C. “Why should I trust you?”: Explaining the predictions of any classifier[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016:1135-1144.
[6]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for largescale image recognition[EB/OL]. [2018-04-10]. http://www.cs.virginia.edu/~vicente/recognition/slides/lecture07/iclr2015.pdf.
[7]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[9]HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2261-2269.
[10]ERHAN D, BENGIO Y, COURVILLE A, et al. Visualizing higherlayer features of a deep network[C]// Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 1341-1349.
[11]NGIAM J, CHEN Z, CHIA D, et al. Tiled convolutional neural networks[C]// Proceedings of the 2010 Conference on Natural Information Processing System. Columbia: MIT Press, 2010: 1279-1287.
[12]BERKES P, WISKOTT L. On the analysis and interpretation of inhomogeneous quadratic forms as receptive fields[J]. Neural Computation, 2006, 18(8): 1868-1895.
[13]DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition[C]// Proceedings of the 31st International Conference on International Conference on Machine Learning. [S. l.]: JMLR.org, 2014: I647-I655.
[14]俞海寶,沈琦,馮國(guó)燦.在反卷積網(wǎng)絡(luò)中引入數(shù)值解可視化卷積神經(jīng)網(wǎng)絡(luò)[J].計(jì)算機(jī)科學(xué),2017,44(S1):146-150.(YU H B, SHEN Q, FENG G C. Introduce numerical solution to visualize convolutional neuron networks based on numerical solution[J]. Computer Science, 2017, 44(S1):146-150.)
[15]WANG X, HAMILTON H J. DBRS: a densitybased spatial clustering method with random sampling[C]// Proceedings of the 7th PacificAsia Conference on Advances in Knowledge Discovery and Data Mining. Berlin: SpringerVerlag, 2003: 563-575.
This work is partially supported by the National Natural Science Foundation of China (61563016, 61762036), the Natural Science Foundation of Jiangxi Province (20181BAB202023, 20171BAB202012).
YU Ying, born in 1979, Ph. D., associate professor. Her research interests include machine learning, computer vision.
WANG Lewei, born in 1993, M. S. candidate. His research interests include deep learning, computer vision.
ZHANG Yinglong, born in 1979, Ph. D., associate professor. His research interests include data mining, network analysis.