張素智,吳玉紅,常 俊
(1.鄭州輕工業(yè)大學 軟件學院,河南 鄭州 450000;2.鄭州輕工業(yè)大學 計算機與通信工程學院,河南 鄭州 450000)
近些年,國內經濟的高速提升帶動了汽車行業(yè)的飛速發(fā)展,使得汽車的銷售量大幅上漲,汽車輪胎的使用與理賠問題逐漸成為現(xiàn)代社會的關注焦點。而將深度學習應用于輪胎破損圖像的分類識別中,利用學習模型對大量的輪胎破損圖像進行訓練,學習有用的特征,實現(xiàn)利用計算機自動對圖像分類和識別,無疑是給輪胎工業(yè)帶來了新的機遇和挑戰(zhàn)。
圖像識別是指利用計算機模仿人類對圖像的認知過程,以圖像的特征信息為記憶點,自動地根據(jù)圖像不同的特征信息完成分類識別。近些年,國內計算機行業(yè)有很大的發(fā)展,促使圖像識別技術與現(xiàn)代人們的生活息息相關,由于它很大限度地滿足了人們在不同情況下的各種需求,被廣泛應用在各個方面,包括醫(yī)療健康、農業(yè)生產、監(jiān)控追蹤等,所采用的圖像識別技術也從最早的模板匹配、原型匹配到現(xiàn)在的深度學習方法[1]。深度學習在圖像識別的很多領域都被成功應用,而且使得圖像的識別準確率越來越高,也吸引了很多人對其進行改進研究。
深度學習是機器學習的一個新的研究領域,它是通過建立、模擬人類大腦進行分析學習的神經網絡,通過模仿人腦的機制來解釋數(shù)據(jù)[2]。近年來,以卷積神經網絡為基礎的深度學習技術在圖像識別的很多應用上都取得了很大的進步,比如人臉識別[3]、文字識別[4]、花卉識別[5]等。與常規(guī)的識別方法相比,卷積神經網絡(convolutional neural network,CNN)方法直接由數(shù)據(jù)本身驅動特征及表達關系的自我學習,對圖像具有極強的數(shù)據(jù)表征能力[6]。LeCun采用有監(jiān)督反向傳播網絡實現(xiàn)了數(shù)字識別[7]。Hinton在ImageNet比賽中設計了AlexNet網絡模型提高了圖像識別的準確率[8]??蛮i飛結合CNN平面網絡和殘差網絡的特點,使用平均池化層代替全連接層,使得網絡結構變得簡單且增強了可移植性[9]。傅勇提出并訓練一個多任務級聯(lián)卷積神經網絡實現(xiàn)了360度范圍內檢測平面旋轉人臉[10]。白琮在AlexNet網絡模型的全連接層引入了一層新的隱層,通過隱層讓網絡可以同時有學習圖像特征和二值哈希的功能,使AlexNet網絡擁有了處理大規(guī)模圖像數(shù)據(jù)的能力[11]。劉亮對Softmax層進行了改進設計,在Softmax的損失代價函數(shù)中加入一個正則項,引入權重衰減系數(shù)使得卷積神經網絡在人臉識別領域的測試集識別率有一定的提高[12]。王昱皓等將核主成分分析法與Softmax分類函數(shù)結合在一起,提出了一種新的故障診斷分類模型,通過對高壓斷路器機械故障的分類也驗證了模型的優(yōu)越性[13]。周非等人通過增加訓練樣本標簽的維度和增加不同樣本類別的最小漢明距離,并將Sigmoid激活函數(shù)與交叉熵損失函數(shù)相結合,提高了卷積網絡模型的分類能力[14]。楊鶴標針對Softmax層在大量數(shù)據(jù)訓練效率低的問題,提出了一種新型的動態(tài)層序Softmax算法,采用節(jié)點置換方法動態(tài)構建編碼樹,通過動態(tài)使用一階矩估計和二階矩估計方法調整更新方向和學習率,提高了Softmax分類在對海量數(shù)據(jù)時進行訓練分類的準確率[15]。
該文針對輪胎破損圖像識別中容易出現(xiàn)過擬合現(xiàn)象,導致圖像分類識別準確率不高的問題,提出一種基于嶺回歸分析的AlexNet卷積神經網絡輪胎破損圖像識別模型。在AlexNet網絡的圖像特征信息提取模塊中引入嶺回歸模型,通過在原來的損失函數(shù)中加入一個新的正則項,盡可能地減小目標函數(shù),以此降低模型訓練過程中出現(xiàn)的過擬合現(xiàn)象,提高圖像的訓練準確率。最終實驗結果也驗證了提出的改進算法提高了輪胎破損圖像分類識別的準確率。
卷積神經網絡是第一個成功訓練多層網絡結構的學習算法,通過提取圖像特征信息,最終得到一幅圖像的高級語義特征[16]。卷積神經網絡的基本結構一般由卷積層、池化層和全連接層組成。而AlexNet網絡是一種深度卷積神經網絡,由五個卷積層、三個池化層和三個全連接層構成。其中卷積層和池化層主要是進行圖像特征信息的提取操作,全連接層將特征圖轉換為特征向量,其中最后一個全連接層將輸出結果遞交給Softmax層[17]。AlexNet模型的網絡結構如圖1所示。
圖1 AlexNet模型的網絡結構
其中卷積層的計算表達式為:
(1)
(2)
全連接層的計算表達式為:
(3)
其中,ω表示權重變量;bi表示第i個神經元的偏置項數(shù)值;yi表示第i個神經元的輸出數(shù)值;N表示所有樣本特征圖的個數(shù);M表示樣本數(shù)據(jù)的特征圖的熵神經元個數(shù);m表示分類類別的數(shù)目;Q表示輸出層激活函數(shù)的作用值。
使用AlexNet網絡對圖像訓練得到訓練模型的過程共分成兩個階段,包括前向傳播階段和反向傳播階段。每個階段的運算過程如下:
(1)前向傳播階段AlexNet網絡模型對每層輸入的運算為:
(4)
其中,y(l)表示第l個卷積層的輸出,x(i)表示輸入向量,?表示卷積計算,bl表示偏置,Wi表示此層所對應的卷積核的權值,m表示輸入圖像的特征圖的全部集合,f(x)表示非線性激活函數(shù)。
(2)反向傳播階段AlexNet網絡模型對每層輸入的運算為:
一個含有m個樣本的數(shù)據(jù)集,經過前向傳播的過程之后AlexNet網絡會輸出每一種不同類別預測的最終結果,則根據(jù)此結果與期望值的輸出,可定義網絡的整體目標函數(shù)為:
(5)
式中,L(zi)是網絡對應的損失函數(shù),它是通過迭代訓練最小化損失函數(shù),目的是降低網絡模型的分類錯誤率,zi是反向傳播階段開始時的輸入,也就是前向傳播階段最后一層網絡的輸出結果。W表示網絡在本次迭代中所占的權值,λ表示相應的歸一項所占的比重。損失函數(shù)L(zi)隨著不同的分類數(shù)量而改變。而Softmax層的歸一化概率函數(shù)可以定義為:
zi=zi-max(z1,z2,…,zm)
(6)
(7)
在上述定義中,zi是每一個類別線性預測的結果,σi(z)表示概率,是網絡預測輸入值zi屬于每一種類別的可能性。則可定義損失函數(shù)為:
L(zi)=-logσi(z)
(8)
采用梯度下降算法對公式(1)中每一層的W與bl分別求其導數(shù),最終通過計算可以得到網絡參數(shù)的更新權值和模型的最小化損失函數(shù)。
當數(shù)據(jù)存在多重共性數(shù)據(jù)時,盡管使用最小二乘法得出的估計值不存在偏差,但是它們的方差差別很大,使得預測結果與真實結果相差甚遠。嶺回歸(ridge regression)分析是最小二乘估計法的一種改進方程,主要被用來處理共線性的數(shù)據(jù),是一種有偏估計的回歸方法[18]。它不考慮最小二乘法的無偏性,而是損失一些信息以此獲得一個新的回歸系數(shù)[19]。嶺回歸分析雖然降低了數(shù)據(jù)精度,但更貼近實際應用,是一種更值得信任的回歸方法,對于破損輪胎圖像的數(shù)據(jù)的擬合比最小二乘法更好。
對于傳統(tǒng)的最小二乘法線性回歸,它的代價函數(shù)如下式所示:
(9)
公式(9)是通過改變擬合系數(shù)β的大小使RSS值最小。而嶺回歸分析是在傳統(tǒng)的最小二乘線性回歸方程中加上一個正則項,用此正則項對參數(shù)進行改進,即加上正則項(L2范數(shù))。正則化是一種常見的防止過擬合的方法,一般原理是在代價函數(shù)后面加上一個對參數(shù)的約束項,而這個約束項被稱作正則化項。
(10)
(11)
引入正則化項L2范數(shù)后,此時代價函數(shù)可被定義為:
(12)
其中,λ是一個非負的調節(jié)參數(shù)。從上式可以得到:當λ=0時,結果與傳統(tǒng)的最小二乘法一致,沒有起到任何作用,而當λ=+∞,RSS占整個代價函數(shù)的比重非常小,正則項變得非常大,若要代價函數(shù)的值取最小,只能選擇改變擬合系數(shù)β的值,使其無限接近零。
嶺回歸的代價函數(shù)是一個凸函數(shù),L2范數(shù)懲罰項的加入使得滿秩,保證了可逆,但是也由于懲罰項的加入,使得回歸系數(shù)β的估計不再是無偏估計。所以嶺回歸是以放棄無偏性、降低精度為代價解決病態(tài)矩陣問題的回歸方法。
為提高輪胎破損圖像的識別準確率,該文提出了一種改進的AlexNet卷積神經網絡模型,該模型是在原來模型的圖像特征信息提取模塊中加入嶺回歸分析。傳統(tǒng)的模型由于輪胎圖像的特征信息具有較多的共性,在訓練時會出現(xiàn)過擬合現(xiàn)象,使得算法的訓練準確率降低了。而嶺回歸分析對含有大量多重共性信息的數(shù)據(jù)有較好的分析能力,引入嶺回歸分析可以在一定程度上弱化過擬合問題。改進的AlexNet卷積神經網絡模型的結構如圖2所示。
圖2 改進AlexNet模型的網絡結構
該文在卷積層和池化層之間引入嶺回歸分析方程,在進行特征信息的提取時,首先找出多重共線性的信息,并剔除一部分信息,目的是通過嶺回歸系數(shù)的穩(wěn)定與否找出代表性不夠大的變量。利用嶺回歸分析對共性數(shù)據(jù)強大的分析能力,放棄一些輪胎數(shù)據(jù)信息,選擇提取信息豐富具有特征代表性的信息,并獲得一個新的回歸系數(shù)。利用新的回歸系數(shù)調整網絡的代價函數(shù),以此達到改變函數(shù)比重的目的。這也降低了網絡模型在訓練過程中出現(xiàn)的過擬合現(xiàn)象,更進一步增強了模型的訓練能力,提高了輪胎破損圖像的識別準確率。
本次實驗數(shù)據(jù)集是由人工拍攝以及網上獲取的輪胎破損圖像組成,共分為四類,包括2 488張圖片。為保證數(shù)據(jù)樣本數(shù)量充足,在進行模型訓練之前首先對輪胎破損圖像進行預處理操作,對數(shù)據(jù)的樣本數(shù)量進行擴充處理。預處理技術包括水平翻轉、垂直翻轉、隨機旋轉或縮放技術等。經過預處理后,最終共有樣本3 735張。該文選擇每類樣本中的70%作為訓練集,剩余的30%則構成測試集,數(shù)據(jù)集中所有輪胎破損圖像的尺寸均為64*64像素。數(shù)據(jù)集的具體分類如表1所示。
表1 輪胎破損圖像數(shù)據(jù)集分類
為了驗證將嶺回歸分析方法引入AlexNet卷積神經網絡模型的可行性,將其用于輪胎破損圖像的分類和識別中。本次實驗均是在基于Python語言的深度學習框架TensorFlow下實現(xiàn)的。環(huán)境為Windows10 64位操作系統(tǒng),硬件環(huán)境為Intel i5。
為了驗證提出的改進網絡模型可以應用在輪胎破損圖像識別中,在相同的實驗環(huán)境下,將處理完成的訓練集用傳統(tǒng)的AlexNet卷積神經網絡模型與提出的改進模型分別訓練并進行對比。實驗結果如圖3所示,其中左圖為傳統(tǒng)的網絡模型訓練結果,右圖為提出的改進網絡模型訓練結果。
圖3 對比實驗結果
從實驗結果圖可以看出,在訓練過程中,隨著迭代次數(shù)的不斷增加,兩種網絡模型的訓練準確率均逐漸上升且最終趨于一個穩(wěn)定的狀態(tài),但改進的AlexNet卷積神經網絡模型的訓練準確率與損失率都更加穩(wěn)定??傮w看來,改進的AlexNet卷積神經網絡模型的性能優(yōu)于傳統(tǒng)的網絡模型。傳統(tǒng)模型的訓練準確率為88.732%,而提出的改進AlexNet卷積神經網絡模型的訓練準確率為90.158%,訓練準確率有所提高。使用測試集對改進的網絡模型以及傳統(tǒng)網絡模型分別進行測試實驗,實驗結果也顯示改進的網絡模型識別準確率也優(yōu)于傳統(tǒng)的網絡模型。
針對卷積神經網絡算法在應用于輪胎破損圖像的分類識別時,由于輪胎圖像特征信息含有大量的共性數(shù)據(jù)以至于分類準確率與識別準確率不高的問題,提出一種基于嶺回歸分析的AlexNet卷積神經網絡模型并將其應用于輪胎破損圖像識別中。針對訓練過程中由于圖像特征信息的共性而出現(xiàn)的過擬合現(xiàn)象導致模型的訓練準確率降低的問題,在傳統(tǒng)的網絡模型的基礎上,引入了嶺回歸分析,在一定程度上解決了此問題。根據(jù)實驗結果可以看出,改進的AlexNet卷積神經網絡模型相比于傳統(tǒng)的網絡模型有更高的訓練準確率和識別準確率,但是在輪胎破損圖像識別的應用中,此網絡模型還存在一定的不足,后續(xù)工作將致力于進一步改進網絡模型,以達到對輪胎破損圖像有更高的識別準確率的目的。