張典范, 楊鎮(zhèn)豪, 程淑紅
(1. 燕山大學河北省特種運載裝備重點實驗室, 河北秦皇島066004;2. 燕山大學電氣工程學院, 河北秦皇島066004)
輪轂生產(chǎn)的自動化對輪轂企業(yè)發(fā)展至關重要,實現(xiàn)對輪轂的高精確的自動識別不僅可以大幅降低分揀錯誤率,而且可以對輪轂生產(chǎn)流程實時監(jiān)管,記錄每個輪轂的生產(chǎn)信息。
目前已有的輪轂識別方法可分為兩類:第1類方法采用圖像處理提取輪轂特征,再進行特征匹配的方法。一般是人為定義的輪轂的一些幾何、紋理特征,如趙玉梁等[1]通過圖像處理技術識別待測輪轂圖像的直徑、孔洞數(shù)量、區(qū)域面積等信息實現(xiàn)輪轂識別;文獻[2]結合了模板匹配算法[3]和基于有向網(wǎng)絡擴散的紋理分類方法[4],用輪輻模板與待測輪轂輪輻進行旋轉匹配,同時利用像素點隨機游走算法來待測輪轂的紋理信息,達到輪轂識別的目的。但是這類方法很容易受到采集的圖像質量和拍攝角度的影響,存在特征抗干擾性差,魯棒性差的問題。第2類方法是用深度學習提取輪轂特征并識別。通過深度學習訓練大量輪轂數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡對圖像數(shù)據(jù)良好的特征提取能力來識別輪轂[5~7]。但是數(shù)據(jù)的采集和標注會耗費大量的人力財力,并且隨著輪轂產(chǎn)品的變化,識別任務改變,需要重新訓練模型。
遷移學習[8]是一種利用先前獲得的知識(具有大量標記數(shù)據(jù)的源域)來促進解決當前任務的方法。在圖像分類或識別問題上常使用在大數(shù)據(jù)集上的預訓練模型,如Liu W等[9]和張菁等[10]實現(xiàn)的醫(yī)學圖像分類任務,二者都是將ImageNet部分權重參數(shù)遷移到目標網(wǎng)絡中;Kim T H等[11]則是用VGG-face dataset大型面部數(shù)據(jù)集上訓練的VGG面部識別模型作為CNN模型參數(shù)的初始值,來學習面部表情特征。遷移學習還可以利用數(shù)據(jù)之間的相似性來完成新的預測或識別任務,例如為了實現(xiàn)對交通流量的準確預測,Zhang C等[12]收集了3種跨域數(shù)據(jù)集,研究了數(shù)據(jù)集之間的相關性,提出了一種連續(xù)的簇間遷移學習策略來提高預測性能;或者是在更新任務時,利用舊數(shù)據(jù)與新數(shù)據(jù)之間的相似性來完成新的任務,如Sun C等[13]提出的了一種深度遷移網(wǎng)絡,通過3種遷移策略,實現(xiàn)了機械故障的歷史數(shù)據(jù)在沒有監(jiān)督信息的情況下對訓練目標的預測。
目前有關采用遷移學習識別輪轂的研究報道較少,而遷移學習利用已有知識訓練目標數(shù)據(jù)的特點能減少訓練任務量,節(jié)省大量時間成本。因此,本文采用一種基于遷移學習和殘差網(wǎng)絡的卷積神經(jīng)網(wǎng)絡模型來識別輪轂,通過從ImageNet遷移權重參數(shù)和修改網(wǎng)絡結構構建ResNet50微調模型,利用ImageNet模型在圖像識別任務中的知識,采用參數(shù)凍結法探究不同參數(shù)遷移量對輪轂識別任務的模型訓練效率、準確率的影響。
遷移學習是機器學習的一個重要分支,是利用數(shù)據(jù)、任務、模型之間的相似性,將在舊領域學習過的知識,應用在新領域的學習過程。
本文使用在ImageNet訓練的預訓練模型,確立目標任務為輪轂識別,使源領域的知識通過輪轂數(shù)據(jù)集和ResNet50網(wǎng)絡得到重用,完成對輪轂的識別。
將ImageNet的預訓練模型的源域[14](source somain)是由特征空間Xs和在該空間中樣本的邊緣概率分布Ps構成的,xi是ImageNet的實際訓練樣本,并服從Ps,xsi∈{Xs||1,2,…,m}其中i是一個訓練樣本,m是特征空間Xs維數(shù)。預訓練模型的任務(Task)是由標簽空間γs和預測函數(shù)ft(*)構成,ysi是每個樣本的標簽,于是我們可以將一個在ImageNet上的預訓練模型的源域定義
(1)
基于輪轂數(shù)據(jù)集的目標域(target domain)為
(2)
輪轂識別的遷移學習任務就是利用已在ImageNet訓練學習的知識來優(yōu)化目標域Dt的輪轂預測函數(shù)ft(*),使其能正確的預測輪轂標簽yti。
圖1 遷移學習實現(xiàn)輪轂識別Fig.1 Transfer learning implements hub recognition
神經(jīng)網(wǎng)絡微調是一種深度遷移學習[15,16],是將具有通用的特征提取能力的預訓練模型遷入到目標網(wǎng)絡,根據(jù)不同的訓練任務對預訓練模型網(wǎng)絡結構進行調整,在目標數(shù)據(jù)集上訓練微調模型參數(shù),將其轉化為目標領域神經(jīng)網(wǎng)絡的一部分。
文獻[17]中殘差網(wǎng)絡有效地解決了深度卷積神經(jīng)網(wǎng)絡出現(xiàn)的退化問題。圖2為一個bottleneck殘差單元輸入與輸出關系。
圖2 殘差網(wǎng)絡單元Fig.2 Residual network unit
圖2中:x表示該殘差單元的輸入;F(x)表示輸入在經(jīng)過卷積層后的殘差值;H(x)表示當前殘差單元的輸出,其的表達式如下:
H(x)=F(x)+x
(3)
設卷積神經(jīng)網(wǎng)絡的期望輸出為H′(x),在網(wǎng)絡訓練達到較飽和準確率的情況下,接下來的學習相當于一個恒等映射學習,也就是H(x)=x,之后的訓練目標就變成使殘差F(x)趨近于0,隨著網(wǎng)絡加深,準確率不再下降。
Bottleneck是構成ResNet50的基本單元,每個Bottleneck殘差塊由3個卷積層構成,圖2中采用1×1卷積降低輸入通道,最后再用1×1卷積恢復,從而減少計算量。輸入數(shù)據(jù)在經(jīng)過3次卷積后得出的輸出數(shù)據(jù)再與輸入相加得到該殘差塊最終輸出。
圖3為ResNet50預訓練模型參數(shù)遷移,從ImageNet中遷移預訓練模型,根據(jù)輪轂分類數(shù)修改全鏈接(fc)層結構、凍結不同卷積層參數(shù),通過訓練,進一步調整模型參數(shù)以適應輪轂數(shù)據(jù)集。
因為卷積神經(jīng)網(wǎng)絡在訓練時參與訓練的參數(shù)量對訓練效率,最終準確率有很大影響。在不遷移參數(shù)的情況下,模型的性能是隨著凍結參數(shù)的增多而下降的,但是訓練效率會提升。因此本文將ResNet50網(wǎng)絡的部分卷積層參數(shù)替換為預訓練模型參數(shù)并鎖定,其余卷積層參與對輪轂數(shù)據(jù)集的訓練。因此在實驗部分重點探究ResNet50網(wǎng)絡不同參數(shù)遷移量對識別準確率,訓練耗時的影響。
圖3 ResNet50預訓練模型參數(shù)遷移Fig.3 ResNet50 pre-trained model parameter migration
本次實驗驗證基于ResNet50和遷移學習對輪轂識別的影響,為驗證ResNet50的優(yōu)越性,引入AlexNet、VGG11、VGG16卷積神經(jīng)網(wǎng)絡做對比,分別比較幾種卷積神經(jīng)網(wǎng)絡在使用微調和不使用微調對模型訓練的影響;比較凍結不同數(shù)量卷積層參數(shù)對VGG16和ResNet50識別準確率、訓練效率、測試準確率的影響。
實驗訓練所有卷積神經(jīng)網(wǎng)絡采用的初始學習率為0.003,損失函數(shù)為交叉熵損失函數(shù)。
實驗采用電腦設備處理器為Intel(R) Core(TM) i5-9400F CPU,顯卡GeForce GTX 1660,操作系統(tǒng)Ubuntu18.04、并行計算架構CUDA10.0,PyTorch深度學習框架。
圖4 8種型號輪轂Fig.4 8 models of wheels
本次實驗采集8種型號輪轂(G1~G8)圖片,如圖4所示。將輪轂圖片進行數(shù)據(jù)增強,來增強訓練模型的泛化能力和魯棒性。采用隨機旋轉、高斯噪聲和灰度變換來對輪轂圖片進行圖像處理,將每種輪轂圖像擴增到1 200張,訓練集、驗證集和測試集按照4:1:1劃分,同時隨機排序,如圖5所示型號為G1輪轂的3種數(shù)據(jù)增強方式。
圖6為4種卷積神經(jīng)網(wǎng)絡(CNN)的普通模型與微調模型在50個訓練周期內準確率的變化。
微調模型是指全部使用ImageNet參數(shù)且不凍結。由圖6可知ImageNet遷移來的模型參數(shù)對輪轂有良好的特征提取能力,能在較少的訓練周期內達到較高的訓練精度,隨著訓練輪數(shù)增加再根據(jù)輪轂數(shù)據(jù)集進一步提高模型對輪轂識別的準確率。而普通模型則需要足夠的訓練周期才能達到對輪轂的高識別準確率。
圖5 數(shù)據(jù)增強Fig.5 Data to enhance
圖6 4種CNN的普通模型與微調模型對比Fig.6 Comparison of four CNN general models and fine-tuning models
本次實驗對準確率Acc的定義如下:
式中:Tp表示輪轂被正確預測的次數(shù),Tn表示被預測錯誤的次數(shù)。
從實驗數(shù)據(jù)中可知4種網(wǎng)絡的普通模型在訓練周期等于32、21、21、16時才達到90%以上,VGG11、VGG16和ResNet50在訓練周期等于42、37和26時穩(wěn)定在95%以上,AlexNet在訓練過程中沒有達到95%的準確率。4種微調模型準確率在分別在訓練周期等于5、3、4、2時穩(wěn)定在95%以上,在訓練周期等于21、17、20、9時穩(wěn)定在99%以上。
以上實驗可以得出ResNet50在訓練輪轂數(shù)據(jù)集時對特征的提取效果最好,無論是普通模型還是微調模型,相比于其他3種網(wǎng)絡訓練所需的訓練輪次最少。
如圖7所示ResNet50的普通模型和微調模型預測8種輪轂得出的混淆矩陣。在訓練周期等于25時,普通模型出現(xiàn)對輪轂的錯誤預測,而微調模型能正確預測輪轂,準確率在基本在90%以上;在50個訓練周期內普通模型和微調模型都能實現(xiàn)輪轂的正確預測,但普通模型對輪轂G1和G5的準確率只有80%左右,而微調模型對8種輪轂預測準確率能穩(wěn)定在95%以上。分析以上結論說明ResNet50微調模型在訓練時收斂速度更快。
凍結卷積層參數(shù)對訓練效率的影響,選用VGG16和ResNet50兩種卷積神經(jīng)網(wǎng)絡的ImageNet微調模型。根據(jù)其網(wǎng)絡結構凍結不同卷積層、bottleneck殘差單元,在輪轂數(shù)據(jù)集上訓練并比較不同凍結策略下的準確率變化、訓練耗時、測試準確率和推理速度。VGG16網(wǎng)絡含有13個卷積層和3個全連接層,分別凍結前2層、前4層、前10層和全部卷積層參數(shù)。ResNet50網(wǎng)絡的主要結構由1個卷積層和4個殘差塊組成,每個殘差塊包含若干個bottleneck的殘差單元,分別凍結不同數(shù)量的殘差單元參數(shù)。
圖7 ResNet50普通模型與微調模型預測輪轂混淆矩陣Fig.7 ResNet50 normal model and fine-tuning model for hub model prediction confusion matrix
探究不同凍結策略下訓練卷積神經(jīng)網(wǎng)絡準確率、訓練周期和訓練耗時之間的關系,設置3個時間指標:t、t1和t2,分別指訓練神經(jīng)網(wǎng)絡平均訓練周期耗時和準確率穩(wěn)定在95%和99%所消耗時間。兩個訓練指標E1和E2分別指訓練神經(jīng)網(wǎng)絡準確率穩(wěn)定在95%和99%所需訓練周期數(shù)。表1和表2分別為VGG16和ResNet50網(wǎng)絡在實驗環(huán)境下的時間指標和訓練指標。同時比較不同凍結策略下各模型在測試集上的準確率。
表1VGG16不同凍結策略下各指標值Tab.1 VGG16 each index value under different freezing
表2ResNet50不同凍結策略下各指標值Tab.2 ResNet50 each index value under different freezing strategy
分析表1和表2中數(shù)據(jù),總結出VGG16和ResNet50不同凍結策略在輪轂數(shù)據(jù)集上訓練效果的一般規(guī)律:凍結卷積層數(shù)越多,訓練耗時越短,但凍結全部參數(shù)無法繼續(xù)在輪轂數(shù)據(jù)集優(yōu)化模型,進而限制模型對輪轂的識別準確率。凍結部分卷積層時,余下的卷積層可以參與訓練更新參數(shù),因而可以繼續(xù)優(yōu)化模型。根據(jù)表1和表2中VGG16和ResNet50經(jīng)網(wǎng)絡的不同凍結策略對5個指標的影響來看,凍結層數(shù)較少時,平均訓練耗時變長,達到99%準確率所需周期較少;凍結層數(shù)較多時,平均訓練耗時減少,達到99%準確率所需訓練周期較多。綜合準確率變化與訓練耗時兩個因素,VGG16和ResNet50分別凍結4個卷積層和7個殘差塊時訓練能在最短時間內達到99%準確率。
進一步比較VGG16和ResNet50在不同凍結策略下各指標值,分析數(shù)據(jù)可知,ResNet50微調模型在不同凍結策略下達到t1和t2指標所需時間均小于VGG16微調模型,且只有在凍結全部參數(shù)時未達到指標t2,而VGG16微調模型在凍結全部參數(shù)是均未達到t1和t2指標;兩種網(wǎng)絡不同凍結策略下訓練模型在測試集上均達到98%以上的準確率,隨著凍結層數(shù)增加準確率下降。測試集每種輪轂包含200張圖片,對比兩類網(wǎng)絡的測試準確率可知:ResNet50測試準確率更高;VGG16和ResNet50對同一張輪轂圖像的平均推理耗時分別為0.012 6 s和0.010 4 s。綜上所述,ResNet50微調模型訓練輪轂數(shù)據(jù)集無論是識別準確率、訓練效率和推理速度均更優(yōu)。
從表2可知ResNet50微調模型在凍結7個bottleneck殘差單元時訓練效率最高,在該凍結策略下訓練16個訓練周期,生成用于輪轂識別的遷移學習模型,將該模型命名為TL-ResNet50,采用該模型對8種型號輪轂實時識別結果和對應的置信度如圖8所示。
在測試集上分別用TL-ResNet50對8種輪轂進行測試,測試平均準確率如表3所示。
表3TF-ResNet50預測8種型號輪轂平均準確率Tab.3 TF-ResNet50 forecast average accuracy of 8 hubs (%)
分析圖8和表3中數(shù)據(jù),采用TL-RseNet50能實現(xiàn)對輪轂的準確預測,且平均準確率在99%以上,進一步說明TL-RseNet50在輪轂識別問題上的優(yōu)越性能。
針對輪轂識別問題,本文將ImageNet預訓練模型參數(shù)遷移到ResNet50,構建基于殘差網(wǎng)絡的輪轂識別微調模型,并比較VGG16和ResNet50兩種網(wǎng)絡的微調模型在不同凍結策略下訓練輪轂數(shù)據(jù)集時的訓練效率、準確率變化和測試準確率,得出ResNet50微調模型在凍結7個bottleneck殘差單元時達到99%識別率,所需訓練時間最短,推理速度快,生成的TL-ResNet50遷移學習模型對8種輪轂的識別率均達到99%,這表明該模型對識別輪轂具有良好的訓練效率、準確率和推理速度。