楊冰 陳浩月 王小華
摘 要:繪畫圖像分類為繪畫管理與使用提供了便利。傳統(tǒng)圖像分類大多依靠人工提取形狀、顏色等特征,由于繪畫圖像分類需要更專業(yè)的知識背景,從而使人工提取特征的過程繁瑣且復雜。基于此,提出一種基于卷積神經網絡的中國繪畫分類方法,并在此基礎上結合SoftSign與ReLU兩種激活函數(shù)的優(yōu)點,構造一種新的激活函數(shù)。實驗結果表明,基于改進后激活函數(shù)構造的卷積神經網絡,可以有效提高分類準確率。
關鍵詞:深度學習;卷積神經網絡;中國繪畫;激活函數(shù);圖像分類
DOI:10. 11907/rjdk. 181736
中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)001-0005-04
Abstract:The classification of painting images facilitates the management and use of paintings. Different from traditional image classification, features such as artificial extraction of shapes and colors are required. Classification of painting images requires a more professional knowledge background, which also makes the process of manually extracting features increasingly complicated. Based on this, a Chinese painting classification method based on convolutional neural network is proposed. Based on this, it combines the advantages of two activation functions including SoftSign and ReLU to construct a new activation function. Experimental results show that the convolutional neural network constructed based on the improved activation function can effectively improve the classification accuracy.
Key Words: deep learning; convolution neural network; Chinese painting; activation function; image classification
0 引言
隨著數(shù)字化圖像的發(fā)展,圖像分類成為圖像領域的研究熱點之一。作為中國傳統(tǒng)文化的重要組成部分,對中國繪畫分類[1-2]的研究有助于更好地繼承與發(fā)揚傳統(tǒng)文化。中國繪畫歷史源遠流長,流派與藝術風格眾多,且中國畫以寫意為主,與自然狀態(tài)下的圖像相差較大,所涵蓋的內容也更加抽象,所以在特征提取方面需要更多專業(yè)知識。傳統(tǒng)圖像分類方法大多是基于淺層結構的學習算法,雖然可以提取一定圖像特征,但在某些特征提取過程中容易導致特征丟失,且特征提取方法的泛化性較差。因此,中國繪畫的圖像分類存在諸多障礙。
受Hubel & Wiesel對于貓視覺皮層電生理研究的啟發(fā),卷積神經網絡由此誕生。Yann Lecun首次將卷積神經網絡用于手寫數(shù)字識別[3-4];Krizhevsky等[5]提出經典的卷積神經網絡結構AlexNet,并在圖像識別任務上獲得重大突破。近年來CNN在多個領域發(fā)展迅速,其在解決圖像分類[6]與目標檢測[7-8]等多方面問題上都表現(xiàn)出色。卷積神經網絡結構是對真實生物神經網絡進行仿真,權值共享降低了網絡復雜性,而圖像能夠直接輸入神經網絡的特點可避免特征提取與分類過程中數(shù)據重建的復雜性。與傳統(tǒng)復雜的特征提取方法諸如提取邊緣、紋理等特征[9]提取方法相比,卷積神經網絡顯得尤為高效。在繪畫圖像領域,文獻[10]提出一種基于混合稀疏卷積神經網絡的方法,對不同風格作者的筆觸特征進行分析;文獻[11]基于水墨的色彩與色調,提出一種基于風格的水墨自動識別方法;文獻[12]應用邊緣檢測定位局部區(qū)域并檢測繪畫筆劃,以實現(xiàn)基于直方圖的特征提取及重要線索捕獲,以反映不同藝術家風格。
深度學習為計算機視覺領域的發(fā)展作出了卓越貢獻,其中一個重要因素是激活函數(shù)的不斷創(chuàng)新。神經網絡中激活函數(shù)提供了網絡的非線性建模能力,使神經網絡具有分層的非線性映射學習能力。因此,激活函數(shù)是神經網絡的重要組成部分。2006年Hinton通過采用新型激活函數(shù)ReLU,使深度網絡的直接監(jiān)督式訓練成為可能,但ReLU激活函數(shù)也同時存在神經元死亡等問題。
卷積神經網絡在多個領域應用廣泛,表現(xiàn)出極強的泛化性,因此本文在卷積神經網絡基礎上研究圖像分類,并進一步研究激活函數(shù)對圖像分類準確率的影響,提出一種線性與非線性結合的函數(shù)作為激活函數(shù),并在中國繪畫數(shù)據集與通用數(shù)據集上進行實驗。實驗結果證明,改進后的激活函數(shù)提高了分類性能。
1 卷積神經網絡設計
1.1 卷積神經網絡
卷積神經網絡是一種前饋神經網絡,與普通神經網絡結構不同,卷積神經網絡主要由卷積層與下采樣層組成特征提取器。卷積層通常包含若干特征平面,每個特征平面由若干個神經元排列成矩形,同一特征平面上的神經元共享權值,共享權值稱為卷積核。權值共享的優(yōu)點是能夠減少神經元之間的連接數(shù)量,同時降低過擬合風險;下采樣可被認為是一種特殊的卷積過程,能夠減少計算維度,提高模型泛化能力。卷積與下采樣大大簡化了模型復雜性,并減少了模型參數(shù)。卷積神經網絡訓練過程主要包括前向傳播和后向傳播,訓練過程中卷積層與下采樣層交替出現(xiàn)。
前向傳播的目的是進行特征提取,主要由卷積操作與下采樣操作實現(xiàn)。圖像由輸入層進入卷積層,再通過激活函數(shù)得到輸出值。
1.2 卷積神經網絡結構
本文的卷積神經網絡結構如圖1所示,輸入層是227[×]227的圖像,由17層組成,卷積、下采樣交替4次,后接兩層全連接層。其中第一個與第二個池化層之后接局部響應歸一化層(Local Response Normalization,LRN)[14],其模仿生物神經系統(tǒng)的側抑制機制,對局部神經元的活動創(chuàng)建競爭機制,使響應較大的值相對更大。第一個全連接層后接dropout[15],利用dropout消除或減弱神經元節(jié)點間的聯(lián)合適應性,讓一個神經元的出現(xiàn)不依賴于另一個神經元。每次dropout后,網絡模型都可看成整個網絡的子網絡,相當于實現(xiàn)了模型的平均。LRN與dropout技術同時提高了模型泛化能力。
2 激活函數(shù)
2.1 激活函數(shù)發(fā)展
近年來神經網絡尤其是卷積神經網絡技術取得了巨大進展,主要是由于幾個關鍵因素如卷積神經網絡寬度[16]與深度[17]增加、數(shù)據集的擴增、顯卡等高性能硬件的支持、Batch Normalization[18]層設計等,都在一定程度上提高了模型精度。其中,激活函數(shù)是卷積神經網絡發(fā)展的關鍵技術。
傳統(tǒng)神經元模型使用的激活函數(shù)是Sigmoid,其數(shù)學形式為:[f(x)=1/(1+exp(-x))]。Sigmoid是使用范圍較廣的一類激活函數(shù),具有指數(shù)函數(shù)形狀,其在物理意義上最接近生物神經元。此外,(0,1)的輸出還可被表示為概率,或用于輸入的歸一化,代表性的有Sigmoid交叉熵損失函數(shù)。然而,它有一個嚴重問題即容易產生飽和效應,也稱為梯度彌散效應。一般而言,Sigmoid 網絡在5層之內即會產生梯度消失現(xiàn)象。
TanH函數(shù)是Sigmoid函數(shù)的變形,其數(shù)學形式為:[f(x)=(1-exp(-2x))/(1+exp(-2x))]。TanH函數(shù)克服了Sigmoid函數(shù)非零均值輸出的缺點,容錯性好,同時延遲了飽和期,但仍未解決梯度消失問題。
SoftSign[19]函數(shù)類似于雙曲正切函數(shù),其數(shù)學形式為:[f(x)=x/(1+abs(x))]。SoftSign激活函數(shù)相較于雙曲正切函數(shù)具有更為平滑的漸近線,并且相比于雙曲正切函數(shù),SoftSign激活函數(shù)的激活值在網絡層數(shù)1~4層之內并未過飽和。實驗證明,SoftSign激活函數(shù)與雙曲正切函數(shù)相比,在圖片分類準確率上具有更好的效果。
ReLU函數(shù)[20]的出現(xiàn)極大地推動了神經網絡發(fā)展。ReLU是一個分段線性函數(shù),其正半軸輸入與輸出保持一致,負半軸輸入恒為零,該形式可以緩解梯度消失現(xiàn)象。但隨著訓練的逐漸推進,落入硬飽和區(qū)輸入值的對應權重將無法更新,由此出現(xiàn)神經元死亡現(xiàn)象。ReLU的另一個突出問題是輸出會出現(xiàn)偏移,即輸出均值恒大于零。因此,本文考慮綜合幾個激活函數(shù)的優(yōu)點對其進行改進。
2.2 改進的激活函數(shù)
神經網絡選擇激活函數(shù)時,需要注意兩點:①避免激活函數(shù)過飽和;②避免激活函數(shù)過度線性化。相比于ReLU,SoftSign函數(shù)使神經網絡具有非線性特點,能夠更好地進行學習;相比于SoftSign,ReLU函數(shù)在網絡訓練過程中發(fā)揮了更大優(yōu)勢,可緩解梯度消失現(xiàn)象,且收斂速度更快。結合SoftSign與ReLU函數(shù)的優(yōu)點,構建一個新的激活函數(shù),命名為SReLU。該激活函數(shù)定義如下:
式中,[yi]是第i個激活函數(shù)f的輸入,當激活函數(shù)層的輸入大于0時取ReLU函數(shù)值,反之,小于0時取雙曲正切函數(shù)值。與PReLU[21]類似,下標c表示圖片顏色的不同通道,[ac]則表示不同顏色通道的取值,控制負半軸輸入。如果[ac=0],SReLU則退化為ReLU。與ReLU相比,SReLU具有負值,使激活的平均值更接近于0。非零均值輸出能夠加快學習速度,因為其梯度更接近自然梯度[22]。SReLU激活函數(shù)如圖2所示。
SReLU激活函數(shù)的參數(shù)[ac]可以進行反向傳播,從而得到優(yōu)化,參數(shù)更新遵循鏈式求導法則,[ac]梯度優(yōu)化公式如下:
其中[ε]代表目標函數(shù),[?f(yi)?ac]代表當前層梯度。SReLU當前層的梯度計算方式如下:
3 實驗結果與分析
由于中國繪畫缺乏通用數(shù)據集,所以本文實驗的繪畫數(shù)據集來自“紅動中國”等網站,按繪畫類別將其分為花鳥、山水、人物3個類別,每類樣本各800幅,訓練數(shù)據700幅,測試數(shù)據100幅。
3.1 激活函數(shù)實驗對比
將本文激活函數(shù)SReLU分別與TanH、SoftSign、ReLU、Leak ReLu 4種激活函數(shù)進行對比。其中,本文實驗中將激活函數(shù)負半軸參數(shù)[ac]的值初始化為1時可取得最佳效果,Leak ReLu的負半軸系數(shù)也根據經驗初始化為1。實驗結果如表1所示。
由表1可以看出,TanH激活函數(shù)的準確率最低,SoftSign激活函數(shù)的實驗結果優(yōu)于TanH,ReLU激活函數(shù)具有較高準確率,Leak ReLu激活函數(shù)略高于ReLu,而本文激活函數(shù)SReLU取得了最高的準確率95.67%,相比于ReLU函數(shù)提高了2%,從而證明了本文激活函數(shù)應用于中國繪畫數(shù)據集的有效性。
值得注意的是,在相同模型參數(shù)下,Sigmoid激活函數(shù)對中國繪畫數(shù)據集的分類效果很差,所以本實驗未將Sigmoid函數(shù)的實驗結果考慮在內。
3.2 通用數(shù)據集實驗比較
為驗證本文激活函數(shù)不僅在中國繪畫數(shù)據集分類上具有一定優(yōu)勢,在其它數(shù)據集上依然具有可行性,所以將本文提出的激活函數(shù)應用于其它通用數(shù)據集進行實驗。實驗的通用數(shù)據集來源于牛津大學的Visual Geometry Group,本文選擇其中5類圖像進行實驗,分別為寵物、花、飛機、房子與吉他,每類訓練數(shù)據800幅,測試數(shù)據200幅。實驗結果如表2所示。
由表2可以看出,本文激活函數(shù)在通用數(shù)據集上的效果明顯優(yōu)于TanH和SoftSign激活函數(shù),同時相比于ReLU激活函數(shù),準確率也提高了1.4%,而在本次實驗中,Leak ReLu并未顯示出相較于ReLU的優(yōu)勢。由此可進一步證明本文提出激活函數(shù)的有效性,且該激活函數(shù)具有一定泛化性。
4 結語
深度學習是機器學習領域一個全新的發(fā)展方向,并廣泛應用于多個領域。本文利用卷積神經網絡的優(yōu)勢提取中國繪畫特征并對其進行分類,取得了較高準確率。激活函數(shù)為卷積神經網絡模型帶來了非線性因素,增強了模型表達能力。本文提出一種改進的激活函數(shù),綜合考慮了激活函數(shù)非線性與梯度彌散改善問題,以及激活函數(shù)參數(shù)在圖像不同顏色通道上的初始化及參數(shù)更新問題,分別在中國繪畫數(shù)據集和通用數(shù)據集上與改進前的激活函數(shù)進行實驗對比,結果表明卷積神經網絡的圖像分類準確率得到了相應提高。
參考文獻:
[1] 高峰, 聶婕, 黃磊,等. 基于表現(xiàn)手法的國畫分類方法研究[J]. 計算機學報, 2017, 40(12): 2871-2882.
[2] 鮑泓. 基于視覺感知的中國畫圖像語義自動分類研究[D]. 北京:北京交通大學,2012.
[3] LECUN L,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.
[4] 趙志宏,楊紹普,馬增強. 基于卷積神經網絡LeNet-5的車牌字符識別研究[J]. 系統(tǒng)仿真學報,2010,22(3):638-641.
[5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105.
[6] XIAO T, XU Y, YANG K, et al. The application of two-level attention models in deep convolutional neural network for finegrained image classification[C]. IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE CVPR, 2014:842-850.
[7] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,37(9):1904-1916.
[8] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[9] LIU C, JIANG H. Classification of traditional Chinese paintings based on supervised learning methods[C]. IEEE International Conference on Signal Processing,Communications and Computing,2014:641- 644.
[10] SUN M J,ZHANG D,REN J C,et al. Brushstroke based sparse hybrid convolutional neural networks for author classification of Chinese ink-wash paintings[C]. IEEE International Conference on Image Processing,2015:626-630.
[11] SHENG J C. An effective approach to identify digitized IWPs (ink and wash paintings)[C]. International Congress on Image and Signal Processing, 2013:407-410.
[12] SHENG J, JIANG J. Style-based classification of Chinese ink and wash paintings[J]. Optical Engineering, 2013, 52(9): 093101.
[13] 高學,王有旺. 基于CNN和隨機彈性形變的相似手寫漢字識別[J]. 華南理工大學學報:自然科學版, 2014 (1) :72-76.
[14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems,2012:1097-1105.
[15] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2):1097-1105.
[16] SZEGEDY C,LIU W,JIA Y Q, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015:1-9.
[17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. http://papers.nips.cc/paper/8424-imagenet-classification-with-deep-convolutional-neural-netwonet.pdf,2014.
[18] IOFFE S,SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]. Proceedings of the 32 nd International Conference on Machine Learning,2015:448-456.
[19] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks[C]. International conference on artificial intelligence and statistics,2010:249-256.
[20] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]. Proceedings of the 27th International Conference on Machine Learning (ICML-10),2010:807-814.
[21] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing humanlevel performance on ImageNet classification[C]. The IEEE International Conference on Computer Vision (ICCV). 2015:1026-1034.
[22] CLEVERT D A,UNTERTHINER T,HOCHREITER S. Fast and accurate deep network learning by exponential linear units (ELUs)[DB/OL]. arXiv:1511.07289, 2015.
(責任編輯:黃 健)