基于ResNet50與遷移學習的輪轂識別

2022-12-20 07:57張典范楊鎮(zhèn)豪程淑紅

計量學報 2022年11期

張典范，楊鎮(zhèn)豪，程淑紅

(1. 燕山大學河北省特種運載裝備重點實驗室，河北秦皇島066004；2. 燕山大學電氣工程學院，河北秦皇島066004)

1 引言

輪轂生產(chǎn)的自動化對輪轂企業(yè)發(fā)展至關重要，實現(xiàn)對輪轂的高精確的自動識別不僅可以大幅降低分揀錯誤率，而且可以對輪轂生產(chǎn)流程實時監(jiān)管，記錄每個輪轂的生產(chǎn)信息。

目前已有的輪轂識別方法可分為兩類：第1類方法采用圖像處理提取輪轂特征，再進行特征匹配的方法。一般是人為定義的輪轂的一些幾何、紋理特征，如趙玉梁等[1]通過圖像處理技術識別待測輪轂圖像的直徑、孔洞數(shù)量、區(qū)域面積等信息實現(xiàn)輪轂識別；文獻[2]結合了模板匹配算法[3]和基于有向網(wǎng)絡擴散的紋理分類方法[4]，用輪輻模板與待測輪轂輪輻進行旋轉匹配，同時利用像素點隨機游走算法來待測輪轂的紋理信息，達到輪轂識別的目的。但是這類方法很容易受到采集的圖像質量和拍攝角度的影響，存在特征抗干擾性差，魯棒性差的問題。第2類方法是用深度學習提取輪轂特征并識別。通過深度學習訓練大量輪轂數(shù)據(jù)集，利用卷積神經(jīng)網(wǎng)絡對圖像數(shù)據(jù)良好的特征提取能力來識別輪轂[5～7]。但是數(shù)據(jù)的采集和標注會耗費大量的人力財力，并且隨著輪轂產(chǎn)品的變化，識別任務改變，需要重新訓練模型。

遷移學習[8]是一種利用先前獲得的知識(具有大量標記數(shù)據(jù)的源域)來促進解決當前任務的方法。在圖像分類或識別問題上常使用在大數(shù)據(jù)集上的預訓練模型，如Liu W等[9]和張菁等[10]實現(xiàn)的醫(yī)學圖像分類任務，二者都是將ImageNet部分權重參數(shù)遷移到目標網(wǎng)絡中；Kim T H等[11]則是用VGG-face dataset大型面部數(shù)據(jù)集上訓練的VGG面部識別模型作為CNN模型參數(shù)的初始值，來學習面部表情特征。遷移學習還可以利用數(shù)據(jù)之間的相似性來完成新的預測或識別任務，例如為了實現(xiàn)對交通流量的準確預測，Zhang C等[12]收集了3種跨域數(shù)據(jù)集，研究了數(shù)據(jù)集之間的相關性，提出了一種連續(xù)的簇間遷移學習策略來提高預測性能；或者是在更新任務時，利用舊數(shù)據(jù)與新數(shù)據(jù)之間的相似性來完成新的任務，如Sun C等[13]提出的了一種深度遷移網(wǎng)絡，通過3種遷移策略，實現(xiàn)了機械故障的歷史數(shù)據(jù)在沒有監(jiān)督信息的情況下對訓練目標的預測。

目前有關采用遷移學習識別輪轂的研究報道較少，而遷移學習利用已有知識訓練目標數(shù)據(jù)的特點能減少訓練任務量，節(jié)省大量時間成本。因此，本文采用一種基于遷移學習和殘差網(wǎng)絡的卷積神經(jīng)網(wǎng)絡模型來識別輪轂，通過從ImageNet遷移權重參數(shù)和修改網(wǎng)絡結構構建ResNet50微調模型，利用ImageNet模型在圖像識別任務中的知識，采用參數(shù)凍結法探究不同參數(shù)遷移量對輪轂識別任務的模型訓練效率、準確率的影響。

2 輪轂識別遷移學習模型搭建

2.1 輪轂識別遷移學習任務

遷移學習是機器學習的一個重要分支，是利用數(shù)據(jù)、任務、模型之間的相似性，將在舊領域學習過的知識，應用在新領域的學習過程。

本文使用在ImageNet訓練的預訓練模型，確立目標任務為輪轂識別，使源領域的知識通過輪轂數(shù)據(jù)集和ResNet50網(wǎng)絡得到重用，完成對輪轂的識別。

將ImageNet的預訓練模型的源域[14](source somain)是由特征空間Xs和在該空間中樣本的邊緣概率分布Ps構成的，xi是ImageNet的實際訓練樣本，并服從Ps，xsi∈{Xs||1,2,…,m}其中i是一個訓練樣本，m是特征空間Xs維數(shù)。預訓練模型的任務(Task)是由標簽空間γs和預測函數(shù)ft(*)構成，ysi是每個樣本的標簽，于是我們可以將一個在ImageNet上的預訓練模型的源域定義

(1)

基于輪轂數(shù)據(jù)集的目標域(target domain)為

(2)

輪轂識別的遷移學習任務就是利用已在ImageNet訓練學習的知識來優(yōu)化目標域Dt的輪轂預測函數(shù)ft(*)，使其能正確的預測輪轂標簽yti。

圖1 遷移學習實現(xiàn)輪轂識別Fig.1 Transfer learning implements hub recognition

2.2 基于殘差網(wǎng)絡的輪轂識別微調模型

神經(jīng)網(wǎng)絡微調是一種深度遷移學習[15,16]，是將具有通用的特征提取能力的預訓練模型遷入到目標網(wǎng)絡，根據(jù)不同的訓練任務對預訓練模型網(wǎng)絡結構進行調整，在目標數(shù)據(jù)集上訓練微調模型參數(shù)，將其轉化為目標領域神經(jīng)網(wǎng)絡的一部分。

文獻[17]中殘差網(wǎng)絡有效地解決了深度卷積神經(jīng)網(wǎng)絡出現(xiàn)的退化問題。圖2為一個bottleneck殘差單元輸入與輸出關系。

圖2 殘差網(wǎng)絡單元Fig.2 Residual network unit

圖2中：x表示該殘差單元的輸入；F(x)表示輸入在經(jīng)過卷積層后的殘差值；H(x)表示當前殘差單元的輸出，其的表達式如下：

H(x)=F(x)+x

(3)

設卷積神經(jīng)網(wǎng)絡的期望輸出為H′(x)，在網(wǎng)絡訓練達到較飽和準確率的情況下，接下來的學習相當于一個恒等映射學習，也就是H(x)=x，之后的訓練目標就變成使殘差F(x)趨近于0，隨著網(wǎng)絡加深，準確率不再下降。

Bottleneck是構成ResNet50的基本單元，每個Bottleneck殘差塊由3個卷積層構成，圖2中采用1×1卷積降低輸入通道，最后再用1×1卷積恢復，從而減少計算量。輸入數(shù)據(jù)在經(jīng)過3次卷積后得出的輸出數(shù)據(jù)再與輸入相加得到該殘差塊最終輸出。

圖3為ResNet50預訓練模型參數(shù)遷移，從ImageNet中遷移預訓練模型，根據(jù)輪轂分類數(shù)修改全鏈接(fc)層結構、凍結不同卷積層參數(shù)，通過訓練，進一步調整模型參數(shù)以適應輪轂數(shù)據(jù)集。

因為卷積神經(jīng)網(wǎng)絡在訓練時參與訓練的參數(shù)量對訓練效率，最終準確率有很大影響。在不遷移參數(shù)的情況下，模型的性能是隨著凍結參數(shù)的增多而下降的，但是訓練效率會提升。因此本文將ResNet50網(wǎng)絡的部分卷積層參數(shù)替換為預訓練模型參數(shù)并鎖定，其余卷積層參與對輪轂數(shù)據(jù)集的訓練。因此在實驗部分重點探究ResNet50網(wǎng)絡不同參數(shù)遷移量對識別準確率，訓練耗時的影響。

圖3 ResNet50預訓練模型參數(shù)遷移Fig.3 ResNet50 pre-trained model parameter migration

3 實驗結果與分析

3.1 實驗條件

本次實驗驗證基于ResNet50和遷移學習對輪轂識別的影響，為驗證ResNet50的優(yōu)越性，引入AlexNet、VGG11、VGG16卷積神經(jīng)網(wǎng)絡做對比，分別比較幾種卷積神經(jīng)網(wǎng)絡在使用微調和不使用微調對模型訓練的影響；比較凍結不同數(shù)量卷積層參數(shù)對VGG16和ResNet50識別準確率、訓練效率、測試準確率的影響。

實驗訓練所有卷積神經(jīng)網(wǎng)絡采用的初始學習率為0.003，損失函數(shù)為交叉熵損失函數(shù)。

實驗采用電腦設備處理器為Intel(R) Core(TM) i5-9400F CPU，顯卡GeForce GTX 1660，操作系統(tǒng)Ubuntu18.04、并行計算架構CUDA10.0，PyTorch深度學習框架。

3.2 輪轂識別數(shù)據(jù)集建立

圖4 8種型號輪轂Fig.4 8 models of wheels

本次實驗采集8種型號輪轂(G1～G8)圖片，如圖4所示。將輪轂圖片進行數(shù)據(jù)增強，來增強訓練模型的泛化能力和魯棒性。采用隨機旋轉、高斯噪聲和灰度變換來對輪轂圖片進行圖像處理，將每種輪轂圖像擴增到1 200張，訓練集、驗證集和測試集按照4:1:1劃分，同時隨機排序，如圖5所示型號為G1輪轂的3種數(shù)據(jù)增強方式。

3.3 普通模型與微調模型比較結果

圖6為4種卷積神經(jīng)網(wǎng)絡(CNN)的普通模型與微調模型在50個訓練周期內準確率的變化。

微調模型是指全部使用ImageNet參數(shù)且不凍結。由圖6可知ImageNet遷移來的模型參數(shù)對輪轂有良好的特征提取能力，能在較少的訓練周期內達到較高的訓練精度，隨著訓練輪數(shù)增加再根據(jù)輪轂數(shù)據(jù)集進一步提高模型對輪轂識別的準確率。而普通模型則需要足夠的訓練周期才能達到對輪轂的高識別準確率。

圖5 數(shù)據(jù)增強Fig.5 Data to enhance

圖6 4種CNN的普通模型與微調模型對比Fig.6 Comparison of four CNN general models and fine-tuning models

本次實驗對準確率Acc的定義如下：

式中：Tp表示輪轂被正確預測的次數(shù)，Tn表示被預測錯誤的次數(shù)。

從實驗數(shù)據(jù)中可知4種網(wǎng)絡的普通模型在訓練周期等于32、21、21、16時才達到90%以上，VGG11、VGG16和ResNet50在訓練周期等于42、37和26時穩(wěn)定在95%以上，AlexNet在訓練過程中沒有達到95%的準確率。4種微調模型準確率在分別在訓練周期等于5、3、4、2時穩(wěn)定在95%以上，在訓練周期等于21、17、20、9時穩(wěn)定在99%以上。

以上實驗可以得出ResNet50在訓練輪轂數(shù)據(jù)集時對特征的提取效果最好，無論是普通模型還是微調模型，相比于其他3種網(wǎng)絡訓練所需的訓練輪次最少。

如圖7所示ResNet50的普通模型和微調模型預測8種輪轂得出的混淆矩陣。在訓練周期等于25時，普通模型出現(xiàn)對輪轂的錯誤預測，而微調模型能正確預測輪轂，準確率在基本在90%以上；在50個訓練周期內普通模型和微調模型都能實現(xiàn)輪轂的正確預測，但普通模型對輪轂G1和G5的準確率只有80%左右，而微調模型對8種輪轂預測準確率能穩(wěn)定在95%以上。分析以上結論說明ResNet50微調模型在訓練時收斂速度更快。

3.4 凍結不同卷積層參數(shù)對訓練效果的影響

凍結卷積層參數(shù)對訓練效率的影響，選用VGG16和ResNet50兩種卷積神經(jīng)網(wǎng)絡的ImageNet微調模型。根據(jù)其網(wǎng)絡結構凍結不同卷積層、bottleneck殘差單元，在輪轂數(shù)據(jù)集上訓練并比較不同凍結策略下的準確率變化、訓練耗時、測試準確率和推理速度。VGG16網(wǎng)絡含有13個卷積層和3個全連接層，分別凍結前2層、前4層、前10層和全部卷積層參數(shù)。ResNet50網(wǎng)絡的主要結構由1個卷積層和4個殘差塊組成，每個殘差塊包含若干個bottleneck的殘差單元，分別凍結不同數(shù)量的殘差單元參數(shù)。

圖7 ResNet50普通模型與微調模型預測輪轂混淆矩陣Fig.7 ResNet50 normal model and fine-tuning model for hub model prediction confusion matrix

探究不同凍結策略下訓練卷積神經(jīng)網(wǎng)絡準確率、訓練周期和訓練耗時之間的關系，設置3個時間指標：t、t1和t2，分別指訓練神經(jīng)網(wǎng)絡平均訓練周期耗時和準確率穩(wěn)定在95%和99%所消耗時間。兩個訓練指標E1和E2分別指訓練神經(jīng)網(wǎng)絡準確率穩(wěn)定在95%和99%所需訓練周期數(shù)。表1和表2分別為VGG16和ResNet50網(wǎng)絡在實驗環(huán)境下的時間指標和訓練指標。同時比較不同凍結策略下各模型在測試集上的準確率。

表1VGG16不同凍結策略下各指標值Tab.1 VGG16 each index value under different freezing

表2ResNet50不同凍結策略下各指標值Tab.2 ResNet50 each index value under different freezing strategy

分析表1和表2中數(shù)據(jù)，總結出VGG16和ResNet50不同凍結策略在輪轂數(shù)據(jù)集上訓練效果的一般規(guī)律：凍結卷積層數(shù)越多，訓練耗時越短，但凍結全部參數(shù)無法繼續(xù)在輪轂數(shù)據(jù)集優(yōu)化模型，進而限制模型對輪轂的識別準確率。凍結部分卷積層時，余下的卷積層可以參與訓練更新參數(shù)，因而可以繼續(xù)優(yōu)化模型。根據(jù)表1和表2中VGG16和ResNet50經(jīng)網(wǎng)絡的不同凍結策略對5個指標的影響來看，凍結層數(shù)較少時，平均訓練耗時變長，達到99%準確率所需周期較少；凍結層數(shù)較多時，平均訓練耗時減少，達到99%準確率所需訓練周期較多。綜合準確率變化與訓練耗時兩個因素，VGG16和ResNet50分別凍結4個卷積層和7個殘差塊時訓練能在最短時間內達到99%準確率。

進一步比較VGG16和ResNet50在不同凍結策略下各指標值，分析數(shù)據(jù)可知，ResNet50微調模型在不同凍結策略下達到t1和t2指標所需時間均小于VGG16微調模型，且只有在凍結全部參數(shù)時未達到指標t2，而VGG16微調模型在凍結全部參數(shù)是均未達到t1和t2指標；兩種網(wǎng)絡不同凍結策略下訓練模型在測試集上均達到98%以上的準確率，隨著凍結層數(shù)增加準確率下降。測試集每種輪轂包含200張圖片，對比兩類網(wǎng)絡的測試準確率可知:ResNet50測試準確率更高；VGG16和ResNet50對同一張輪轂圖像的平均推理耗時分別為0.012 6 s和0.010 4 s。綜上所述，ResNet50微調模型訓練輪轂數(shù)據(jù)集無論是識別準確率、訓練效率和推理速度均更優(yōu)。

從表2可知ResNet50微調模型在凍結7個bottleneck殘差單元時訓練效率最高，在該凍結策略下訓練16個訓練周期，生成用于輪轂識別的遷移學習模型，將該模型命名為TL-ResNet50，采用該模型對8種型號輪轂實時識別結果和對應的置信度如圖8所示。

在測試集上分別用TL-ResNet50對8種輪轂進行測試，測試平均準確率如表3所示。

表3TF-ResNet50預測8種型號輪轂平均準確率Tab.3 TF-ResNet50 forecast average accuracy of 8 hubs (%)

分析圖8和表3中數(shù)據(jù)，采用TL-RseNet50能實現(xiàn)對輪轂的準確預測，且平均準確率在99%以上，進一步說明TL-RseNet50在輪轂識別問題上的優(yōu)越性能。

4 結論

針對輪轂識別問題，本文將ImageNet預訓練模型參數(shù)遷移到ResNet50，構建基于殘差網(wǎng)絡的輪轂識別微調模型，并比較VGG16和ResNet50兩種網(wǎng)絡的微調模型在不同凍結策略下訓練輪轂數(shù)據(jù)集時的訓練效率、準確率變化和測試準確率，得出ResNet50微調模型在凍結7個bottleneck殘差單元時達到99%識別率，所需訓練時間最短，推理速度快，生成的TL-ResNet50遷移學習模型對8種輪轂的識別率均達到99%，這表明該模型對識別輪轂具有良好的訓練效率、準確率和推理速度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡