李春華 付睿智 劉玉坤 王愉霖
摘 要:
針對深度卷積生成對抗網(wǎng)絡(luò)的數(shù)據(jù)擴充方法存在生成圖像質(zhì)量差、模型框架不穩(wěn)定、模型收斂速度慢等問題,提出一種改進DCGAN輪胎缺陷圖像生成模型。將殘差網(wǎng)絡(luò)和注意力機制嵌入到DCGAN模型中,提升模型特征的提取能力;同時摒棄DCGAN損失函數(shù)JS散度,使用帶有梯度懲罰項的Wasserstein距離,提高模型訓(xùn)練的穩(wěn)定性。實驗結(jié)果表明,使用給定模型生成的輪胎缺陷圖像質(zhì)量優(yōu)于使用DCGAN,WGAN,CGAN與SAGAN所生成圖像,其平均FID值可以達到116.28,最小FID值可以達到84.94。所提出的模型可以穩(wěn)定生成質(zhì)量更好的輪胎缺陷圖像,為輪胎缺陷樣本數(shù)據(jù)集的擴充提供了一種有效途徑,有助于有效解決深度學(xué)習在缺陷檢測領(lǐng)域發(fā)展所面臨的小樣本問題。
關(guān)鍵詞:計算機神經(jīng)網(wǎng)絡(luò);生成對抗網(wǎng)絡(luò);殘差網(wǎng)絡(luò);注意力機制;數(shù)據(jù)擴充
中圖分類號:TN958.98?? 文獻標識碼:A??DOI:10.7535/hbkd.2023yx04003
A method for generating tire defect images based on improved DCGAN
LI Chunhua1,F(xiàn)U Ruizhi2,LIU Yukun2,WANG Yulin3
(1.School of Grammar and Law, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China;
2.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China;3.The Electrical Engineering College, Guizhou University,Guiyang, Guizhou 550025, China)
Abstract: An improved DCGAN tire defect image generation model was proposed to solve the problems of poor image quality, unstable model frame and slow model convergence in the data expansion method of deep convolutional generative adversarial network. The residual network and attention mechanism were embedded in DCGAN model to improve the feature extraction ability of the model. At the same time, the DCGAN loss function JS divergence was abandoned and Wasserstein distance with gradient penalty term was used to improve the stability of model training. The experimental results show that the quality of tire defect images generated by this model is better than that generated by DCGAN, WGAN, CGAN and SAGAN,with an average FID value of 116.28 and a minimum FID value of 84.94. The proposed model can stably generate tire defect images with better quality, which provides an effective way for expanding tire defect sample dataset and alleviates the problem of small sample in the development of deep learning in the field of defect detection.
Keywords: computer neural network; generative adversarial network; residual network; attention mechanism; data expansion
近年來,隨著國家經(jīng)濟的快速發(fā)展,汽車保有量越來越大,輪胎作為汽車最重要的零部件之一,其質(zhì)量的好壞直接影響人們的生命健康。據(jù)統(tǒng)計,中國每年在高速公路上由于輪胎發(fā)生故障導(dǎo)致的交通事故約占總交通事故的46%[1],其中由于爆胎引起的交通事故約占70%[2],因此,輪胎的質(zhì)量直接影響公共交通安全。目前很多輪胎制造商對輪胎缺陷的檢測方法還停留在人工觀察階段,由于人工目測具有主觀性,導(dǎo)致造成的誤差難以控制,很容易出現(xiàn)誤檢、漏檢等問題,大大降低了輪胎檢測的效率。因此,如何提高出廠前輪胎缺陷檢測的效率和自動化程度,是一項十分必要的研究內(nèi)容。
深度學(xué)習借助大型數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),目前已經(jīng)在缺陷檢測領(lǐng)域得到廣泛應(yīng)用[3]。數(shù)據(jù)是深度學(xué)習的核心[4],數(shù)據(jù)集質(zhì)量好壞和范圍大小直接影響檢測的效果。數(shù)據(jù)集過小,則模型很容易出現(xiàn)不收斂、過擬合現(xiàn)象[5],導(dǎo)致缺陷檢測精度低、效果差。然而,在實際工業(yè)生產(chǎn)中,受限于復(fù)雜的缺陷圖像收集過程,輪胎缺陷圖像嚴重不足,相關(guān)數(shù)據(jù)集十分有限。數(shù)據(jù)擴充是解決上述問題的一種有效方式。傳統(tǒng)的數(shù)據(jù)擴充方法通過將現(xiàn)有樣本進行旋轉(zhuǎn)、平移、縮放、添加噪聲等產(chǎn)生新的樣本[6],由于擴充的樣本與原始樣本之間具有很高的相似性,因而無法保證新生成的樣本有利于模型訓(xùn)練,甚至有時會加劇模型的過擬合程度[7 8]。另一種方法是通過生成式模型進行數(shù)據(jù)擴充,GOODFELLOW等[9]在2014年提出生成對抗網(wǎng)絡(luò)(GAN)模型,GAN模型通過學(xué)習特征分布生成新的樣本,但生成的圖像質(zhì)量差,訓(xùn)練不穩(wěn)定,容易出現(xiàn)梯度爆炸。近年來,越來越多的研究者基于GAN進行改進優(yōu)化,出現(xiàn)了很多新模型。MIRZA等[10]通過向網(wǎng)絡(luò)中加入條件,監(jiān)督樣本生成,提出條件生成對抗網(wǎng)絡(luò)(CGAN)模型,可以使網(wǎng)絡(luò)朝著既定的方向生成樣本,但并沒有解決訓(xùn)練不穩(wěn)定的問題。RADFORD等[11]提出了深度卷積生成對抗網(wǎng)絡(luò)(DCGAN),使用帶步長的卷積層代替GAN模型的池化層和全連接層,并且為了增加訓(xùn)練的穩(wěn)定性,加入批歸一化層(BN層)。DCGAN模型的提出基本確定了生成對抗網(wǎng)絡(luò)的基本結(jié)構(gòu),但該結(jié)構(gòu)仍然存在著特征提取能力有限、模型框架不穩(wěn)定、生成圖像樣本質(zhì)量差且過于自由等問題。
為了解決上述問題,在DCGAN模型的基礎(chǔ)上,提出一種改進的DCGAN輪胎缺陷圖像生成模型。該模型將注意力機制與殘差網(wǎng)絡(luò)融合成一個“基本塊”嵌入到DCGAN網(wǎng)絡(luò)結(jié)構(gòu)中,并用帶有梯度懲罰項Wasserstein距離替代原始DCGAN損失函數(shù)所使用的JS散度。殘差網(wǎng)絡(luò)的加入,增加了網(wǎng)絡(luò)深度,使模型能夠提取更深層次的圖像特征。注意力機制具有自動分配權(quán)重的特點,使網(wǎng)絡(luò)學(xué)習到更多的有用紋理信息,抑制無用噪聲信息。
1 基于改進DCGAN圖像生成模型
模型由帶“基本塊”的生成器和判別器構(gòu)成,輪胎缺陷圖像生成整體流程如圖1所示。首先,將一組服從均勻分布的隨機噪聲Z作為輸入送入生成器中,輸出生成樣本G(z);然后,將真實樣本和生成樣本G(z)一起作為輸入送入判別器中,實現(xiàn)對生成樣本G(z)真假的判斷。生成樣本通過生成器和判別器不斷對抗迭代優(yōu)化處理,變得越來越接近真實樣本,達到生成輪胎缺陷圖像的目的。
1.1 DCGAN模型框架
DCGAN模型是以GAN模型為基礎(chǔ)提出的,模型思想來源于博弈論中零和博弈[12]。在GAN模型基礎(chǔ)上,DCGAN模型采用全卷積網(wǎng)絡(luò)結(jié)構(gòu),使用帶步長的卷積層替代GAN模型生成器和判別器的池化層,使用1×1的卷積替代全連接層;將BN層應(yīng)用在除生成器的輸出層和判別器輸入層之外的每一層;生成器中使用ReLu作為激活函數(shù),最后一層使用Tanh作為激活函數(shù),而判別器中使用Leaky ReLu作為激活函數(shù),最后一層使用Sigmoid作為激活函數(shù)。
DCGAN由生成器和判別器構(gòu)成。生成器具有轉(zhuǎn)置卷積結(jié)構(gòu),目的是盡可能地生成近似于真實的樣本;判別器具有卷積結(jié)構(gòu),目的是對生成樣本和真實樣本進行判別,兩者通過不斷迭代對抗優(yōu)化各自的性能,最終達到納什平衡。生成器與判別器相互博弈的目標函數(shù)如式(1)所示:
式中:x為真實樣本數(shù)據(jù);Pr(x)為x的概率分布;E為數(shù)學(xué)期望;z為隨機變量;Pg(z)為z的概率分布;V(D,G)為判別器和生成器的值函數(shù)。
盡管DCGAN模型在數(shù)據(jù)擴充領(lǐng)域應(yīng)用十分廣泛,但仍存在一些問題,比如模型崩潰、收斂速度慢、生成樣本過于自由且不可控等。
1.2 網(wǎng)絡(luò)結(jié)構(gòu)改進
針對DCGAN模型在圖像生成過程中所存在的網(wǎng)絡(luò)訓(xùn)練崩潰、生成圖像質(zhì)量差等問題,所提模型在DCGAN模型結(jié)構(gòu)的基礎(chǔ)上進行改進,根據(jù)注意力機制“即插即用”的特點和不破壞網(wǎng)絡(luò)原始結(jié)構(gòu)的原則,將注意力機制和殘差網(wǎng)絡(luò)融合為一個“基本塊”嵌入到DCGAN模型的生成器和判別器中。
1.2.1 注意力機制模塊
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在作為生成器生成圖像的過程中,由于卷積核的尺寸固定,且大小受限,關(guān)注的區(qū)域有限,無法將2個距離較遠的像素點聯(lián)系起來,在訓(xùn)練過程中通常只能學(xué)習到圖像的局部信息,因而容易導(dǎo)致生成的樣本出現(xiàn)錯誤。注意力機制CBAM模塊的加入可以補充傳統(tǒng)卷積操作無法學(xué)習到的信息,使2個距離較遠的區(qū)域信息產(chǎn)生聯(lián)系,捕獲到更多的信息,更好地學(xué)習到全局特征之間的關(guān)系。
注意力機制CBAM模塊[13]是由通道注意力和空間注意力2部分組成,通道注意力可以使神經(jīng)網(wǎng)絡(luò)更加關(guān)注對圖像生成起關(guān)鍵作用的像素區(qū)域而忽略無關(guān)緊要的區(qū)域,即明確特征中哪些特征是有意義的;空間注意力用于處理特征通道之間的分配關(guān)系,即明確有意義的特征在哪里。CBAM模塊結(jié)構(gòu)圖如圖2所示。
通道注意力結(jié)構(gòu)如圖3所示。通道注意力的特點是可以保持輸入特征圖的通道維度不變,
壓縮空間維度。首先,將特征圖F作為輸入,基于空間進行全局最大池化和全局均值池化操作,得到2個1×1通道權(quán)重矩陣,再輸入到多層次感知網(wǎng)絡(luò)中;然后,對輸出的特征進行加和以及Sigmoid激活操作得到通道注意力特征權(quán)重Mc,該過程如式(2)所示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=σ(W1(W0(FcAvg))+W1(W0(FcMax))),(2)
將通道注意力特征權(quán)重與原始輸入特征相乘,得到空間注意力的輸入F′,該過程如式(3)所示:
空間注意力結(jié)構(gòu)如圖4所示。空間注意力的特點是使特征圖的空間維度不變,壓縮通道維度。首先將輸入的特征圖F′進行基于通道的最大池化和平均池化操作得到2個二維向量拼接;然后經(jīng)過卷積計算和Sigmoid激活操作,生成空間注意力特征權(quán)重Ms,該過程如式(4)所示:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=σ(f7×7([FsAvg;FsMax])) ,(4)
式中:f7×7代表卷積核為7×7大小的卷積層。
將空間注意力特征權(quán)重與輸入特征相乘,得到顯著特征圖F″,該過程如式(5)所示:
1.2.2 殘差網(wǎng)絡(luò)與基本塊
對于神經(jīng)網(wǎng)絡(luò)來說,理想情況下,網(wǎng)絡(luò)的層數(shù)越深,性能越好。但是實際訓(xùn)練過程中,隨著網(wǎng)絡(luò)的逐漸加深,常常伴隨著梯度不穩(wěn)定、訓(xùn)練困難、網(wǎng)絡(luò)退化等問題[14]。為解決上述問題,HE等[15]在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上提出了殘差網(wǎng)絡(luò)(Resnet),Resnet的核心在于引入了殘差塊,利用跳躍連接或快捷方式跳過某些卷積層,殘差塊結(jié)構(gòu)如圖5所示,多個殘差塊通過線性連接構(gòu)成殘差網(wǎng)絡(luò)。
傳統(tǒng)生成對抗網(wǎng)絡(luò)存在卷積層數(shù)少、對特征提取不完全的問題,但只是單一地加深網(wǎng)絡(luò)的層數(shù)則會出現(xiàn)模型計算速度減慢、梯度爆炸、網(wǎng)絡(luò)退化等問題[16],因此引入具有跳躍連接結(jié)構(gòu)的殘差網(wǎng)絡(luò)來抑制梯度爆炸和網(wǎng)絡(luò)退化等問題。但殘差網(wǎng)絡(luò)在提取特征方面并沒有直接的優(yōu)勢,而是通過不斷逐層深入表征更多的特征,達到最理想的效果。
針對此問題,提出將注意力機制CBAM模塊嵌入到殘差塊中,利用注意力機制自動分配權(quán)重的特點,彌補殘差網(wǎng)絡(luò)在特征表征中的不足,通過盡可能少的殘差塊提取到更多的特征,使網(wǎng)絡(luò)更加輕量化。根據(jù)注意力機制“即插即用”的特點和不破壞網(wǎng)絡(luò)原始結(jié)構(gòu)的原則,選擇在每個殘差塊的殘差分支之后、聚合之前嵌入注意力機制CBAM模塊。在該模型中將嵌入CBAM模塊的殘差塊稱為“基本塊”,基本塊結(jié)構(gòu)如圖6所示。
1.2.3 改進的生成器和判別器
生成器作為整個網(wǎng)絡(luò)的核心,目的是生成輪胎缺陷圖像,所提模型生成器結(jié)構(gòu)如圖7所示。將一個100維的線性向量輸入到網(wǎng)絡(luò)中,經(jīng)過線性層重構(gòu)為256×8×8的特征圖,在特征圖送入DeConv層之前引入“基本塊”,“基本塊”的加入只是對網(wǎng)絡(luò)特征提取能力的提升,不會改變輸出特征圖的大小和通道數(shù)。將輸出的特征圖依次送入DeConv層、BN層、ReLu激活函數(shù)層得到128×16×16的特征圖,之后重復(fù)2次上述操作,除網(wǎng)絡(luò)末尾使用Tanh作為激活函數(shù),其他均使用ReLu作為激活函數(shù),得到3×64×64的特征圖作為生成器的輸出。
模型判別器結(jié)構(gòu)如圖8所示。判別器的輸入為生成器的輸出圖像,判別器包含3個卷積層,輸入3×64×64的特征圖經(jīng)過連續(xù)卷積變?yōu)?56×8×8的特征圖。3層卷積激活函數(shù)均使用Leaky ReLu,在第2、第3層卷積之前加入“基本塊”并添加BN層。在第1、第3卷積層后加入Dropout層,目的是防止判別器過于優(yōu)化導(dǎo)致訓(xùn)練出現(xiàn)過擬合[17]。最后將256×8×8的特征圖經(jīng)過一個Sigmoid激活函數(shù)得到生成器生成樣本真或假的概率。
1.3 損失函數(shù)優(yōu)化
對于傳統(tǒng)生成對抗網(wǎng)絡(luò),如果只是單純地改進網(wǎng)絡(luò)模型的結(jié)構(gòu),并不能從根本上解決生成網(wǎng)絡(luò)訓(xùn)練難、梯度不穩(wěn)定等問題。傳統(tǒng)生成對抗網(wǎng)絡(luò)所使用的損失函數(shù)JS散度存在問題,當真實分布與生成分布沒有交集時,JS散度就會變成常數(shù),導(dǎo)致梯度消失模型訓(xùn)練不穩(wěn)定。為此,ARGOVSKY等[18]提出利用帶有梯度懲罰項Wasserstein距離改進損失函數(shù),Wasserstein距離具有平滑性的優(yōu)點,反映真實分布概率與生成分布概率之間的距離,Wasserstein距離越小,說明真實分布與生成分布越相似,生成樣本與真實樣本之間的差距越小。Wasserstein距離如式(6)所示:
式中:n為真實分布與生成分布之間的隨機差值;Pn為真實分布與生成分布之間的差值;λ為正則項系數(shù);SymbolQC@nD(n)為梯度約束。
2 實驗設(shè)計
2.1 參數(shù)設(shè)置及評價指標
改進的DCGAN輪胎缺陷圖像生成模型,訓(xùn)練參數(shù)的設(shè)置如表1所示,運行環(huán)境是基于Python3.6的Pytorch1.10.2框架,使用的GPU為NVIDIA 3060。采用Adam為該實驗優(yōu)化器,將生成器的
學(xué)習率設(shè)置為0.001,判別器的學(xué)習率設(shè)置為0.000 1,batch_size為8,懲罰項參數(shù)λ為10,迭代2 500個epochs后停止訓(xùn)練。實驗數(shù)據(jù)來源于自建數(shù)據(jù)集,為了保證圖像的精度,使用工業(yè)相機得到高分辨率輪胎圖像,將得到的高分辨率輪胎圖像經(jīng)過裁剪得到圖像大小為64×64的輪胎缺陷樣本,隨后通過人工篩選得到輪胎缺陷訓(xùn)練集,訓(xùn)練集共計500張圖像。
文獻[20]指出,評價GAN生成圖像效果并沒有固定的指標,為了更加客觀地體現(xiàn)生成圖像的質(zhì)量,采用FID(frechet inception distance)值作為本次實驗評估生成圖像質(zhì)量的主要指標[21]。FID是計算真實圖像與生成圖像特征向量之間的距離,F(xiàn)ID值越小,說明生成圖像越接近于真實圖像[22]。FID通過預(yù)訓(xùn)練的Inception v3網(wǎng)絡(luò)提取真實圖像和生成圖像兩者的特征,計算公式如式(9)所示:
式中:μr為真實圖像特征的均值;μg為生成圖像特征的均值;∑r為真實圖像特征的方差;∑g為生成圖像特征的方差。
2.2 消融實驗設(shè)計
采用3種改進措施對原始DCGAN模型進行改進,分別是將殘差結(jié)構(gòu)和注意力機制嵌入到DCGAN模型中;使用帶有梯度懲罰項Wasserstein距離代替原始DCGAN模型的損失函數(shù)。為了驗證改進措施對模型的增益作用,設(shè)計試驗來驗證3種改進措施對模型的提升效果。首先,將DCGAN模型選取為基準模型;然后,在基準模型的基礎(chǔ)上,分別加入殘差網(wǎng)絡(luò)(DCGAN Resnet)、注意力機制(DCGAN CBAM)和帶有梯度懲罰項的Wasserstein距離(DCGAN Wasserstein);最后,將所提模型與DCGAN,DCGAN Resnet,DCGAN CBAM,DCGAN Wasserstein從主觀效果和客觀指標2個方面進行對比,驗證3種改進措施對模型的提升效果。消融實驗分別選取所生成圖像FID的平均值和最小值作為評價指標。
2.3 對比實驗設(shè)計
為了進一步驗證改進模型相比現(xiàn)有主流模型的優(yōu)越性,將改進模型與現(xiàn)有主流的DCGAN,WGAN,CGAN,SAGAN模型進行對比。WGAN將傳統(tǒng)生成對抗網(wǎng)絡(luò)損失函數(shù)替換為Wasserstein距離但并沒有加入懲罰項系數(shù);CGAN在生成器和判別器的輸入中加入條件約束;SAGAN將自注意力機制加入到模型結(jié)構(gòu)當中。對上述5種模型從主觀效果和客觀指標2個方面進行對比分析,驗證改進模型相比于其他模型的優(yōu)越性。對比實驗分別選取所生成圖像FID的平均值和最小值作為評價指標。
3 結(jié)果與分析
3.1 改進模型圖像生成結(jié)果
圖9為改進模型生成的輪胎缺陷圖像展示。為了更加詳細地展示不同迭代次數(shù)所生成圖像的效果,在訓(xùn)練過程中每經(jīng)過200次迭代抽取一張生成圖像作為展示,訓(xùn)練過程如圖10所示。由圖10可知,改進模型在迭代到600次時能夠生成缺陷,但此時生成的圖像嚴重失真;當?shù)M行到1 400次時,生成的圖像得到很大改善,但背景網(wǎng)格化程度十分嚴重;當?shù)? 800次時,除圖像邊緣部分還有些許網(wǎng)格外,生成圖像已經(jīng)接近真實圖像;當?shù)? 000~2 500次時,生成圖像已十分接近真實圖像。
3.2 消融實驗結(jié)果與分析
圖11從主觀效果方面展示了消融實驗5種模型所生成的圖像。由圖11可知,基于DCGAN,DCGAN Wasserstein,DCGAN Resnet,DCGAN CBAM的模型,生成的圖像已經(jīng)有了缺陷的大致輪廓,但是缺陷邊緣模糊,容易與背景融合,虛假紋理較多,圖像質(zhì)量不高。DCGAN模型所生成的圖像雖然有了缺陷但是無法將缺陷完整地生成出來。DCGAN Wasserstein生成的圖像與原始DCGAN模型相比,背景網(wǎng)格化問題依然存在,但缺陷形狀較清晰,模型框架穩(wěn)定,在訓(xùn)練過程中未出現(xiàn)梯度爆炸等問題,驗證了損失函數(shù)改進的有效性。DCGAN CBAM可以將缺陷形狀大致生成,驗證了注意力機制嵌入的有效性,但是背景虛化嚴重。DCGAN Resnet可以將缺陷和背景進行區(qū)分,且圖像背景更加清晰,驗證了殘差網(wǎng)絡(luò)結(jié)構(gòu)的有效性,但是所生成的缺陷形狀不明顯且嚴重失真。采用改進模型生成的圖像缺陷邊緣更清楚,圖像噪聲點顯著減少并且整體缺陷和背景有了明顯區(qū)分,生成的圖像更加真實。
為了更加客觀地評估所提模型生成圖像的效果,消融實驗分別對5種模型進行2 500次迭代,實驗過程中發(fā)現(xiàn)模型迭代1 800次前所生成圖像樣本過于自由,圖像質(zhì)量非常差,會對消融實驗結(jié)果造成較大誤差,因此,從1 800次迭代開始,每隔100次迭代計算當前迭代的FID值,迭代到2 500次停止。消融實驗5種模型生成圖像的FID值如表2所示。由表2可知,3種改進措施模型所生成圖像的FID平均值和最小值均低于原始DCGAN模型,進一步驗證了3種措施的有效性。本文模型所生成的圖像FID平均值和最小值分別為116.28和84.94,遠低于DCGAN模型所生成圖像的168.56和125.77。綜合主觀效果和客觀指標,所提模型的3種改進措施均有利于生成圖像質(zhì)量的提高。
3.3 對比實驗結(jié)果與分析
圖12從主觀效果方面展示了對比實驗5種模型所生成的圖像。由圖12可知,DCGAN生成的圖像雖然生成了缺陷但是無法將缺陷完整地生成出來。WGAN只是對損失函數(shù)進行改進,在訓(xùn)練過程中沒有出現(xiàn)梯度爆炸等問題,但生成的圖像較DCGAN相比沒有明顯提升。CGAN所生成圖像缺陷邊緣模糊,背景網(wǎng)格化嚴重。加入自注意力機制的SAGAN可以生成較清晰的缺陷,但缺陷邊緣模糊,背景存在較多噪聲點。所提模型生成圖像對比其他4種模型,缺陷形狀更加清晰,缺陷與背景融合更加自然,背景網(wǎng)格化問題得到很大改善,且在訓(xùn)練過程中沒有出現(xiàn)梯度爆炸等問題。
為了更加客觀地評估改進模型生成圖像的效果,對比實驗分別對5種模型進行2 500次迭代,從1 800~2 500次迭代,每隔100次迭代計算當前迭代所生成圖像的FID值。對比5種模型生成圖像的FID值如表3所示。由表3可知,所提模型生成圖像樣本的FID平均值和最小值分別為116.28和84.94,均低于其他4種方法,說明改進模型生成的圖像樣本更符合原始圖像的分布,質(zhì)量更高,證明所提模型在圖像生成方面優(yōu)于現(xiàn)有主流的4種模型。
4 結(jié) 語
在DCGAN模型的基礎(chǔ)上,提出從網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)2個方面對其進行改進,有效改善了傳統(tǒng)對抗網(wǎng)絡(luò)生成圖像質(zhì)量不高、收斂速度慢、訓(xùn)練不穩(wěn)定等問題。在網(wǎng)絡(luò)結(jié)構(gòu)方面,將殘差網(wǎng)絡(luò)和注意力機制CBAM模塊融合成一個“基本塊”嵌入到DCGAN模型中,提升模型特征提取的能力。在損失函數(shù)方面,使用帶有梯度懲罰項的Wasserstein距離代替原始DCGAN模型所使用的JS散度,提高模型的收斂速度和穩(wěn)定性。使用FID值作為生成圖像的評價指標,實驗結(jié)果表明,該模型生成圖像FID平均值為116.28,最小值為84.94,生成圖像質(zhì)量優(yōu)于DCGAN,WGAN,CGAN與SAGAN。所提模型不僅能夠生成高質(zhì)量的輪胎缺陷圖像,還可以為不同應(yīng)用場景下擴充樣本數(shù)據(jù)集提供理論參考與方法借鑒,例如路面縫隙缺陷樣本、精密金屬零件缺陷樣本、印刷品、紡織物缺陷樣本等。但是該模型在提高缺陷圖像多樣性方面不夠理想,未來將以生成多種類型缺陷圖像為目的繼續(xù)展開研究。
參考文獻/References:
羅偉柱.駕駛員應(yīng)了解輪胎的“四個理”[J].汽車運用,2017,15(4):35.
LUO Weizhu.Drivers should understand the "four principles" of tires[J].Automotive Application,2017,15(4):35.
[2] 陳思羽.輪胎質(zhì)量頑疾難改[J].汽車觀察,2009(4):82 83.
[3] 羅東亮,蔡雨萱,楊子豪,等.工業(yè)缺陷檢測深度學(xué)習方法綜述[J].中國科學(xué):信息科學(xué),2022,52(6):1002 1039.
LUO Dongliang, CAI Yuxuan, YANG Zihao, et al. Review of deep learning methods for industrial defect detection [J]. Chinese Science: Information Science, 2022, 52(6): 1002 1039.
[4] WANG Ning,WANG Yuanyuan,ER M J.Review on deep learning techniques for marine object recognition:Architectures and algorithms[J].Control Engineering Practice,2022,118.DOI:10.1016/j.conengprac.2020.104458.
[5] YING Xue.An overview of overfitting and its solutions[J].Journal of Physics:Conference Series,2019,1168(2).DOI 10.1088/1742 6596/1168/2/022022.
[6] JIA Shijie,WANG Ping,JIA Peiyi,et al.Research on data augmentation for image classification based on convolution neural networks[C]//2017 Chinese Automation Congress (CAC),Jinan:IEEE,2017:4165 4170.
[7] SHORTEN C,KHOSHGOFTAAR T M.A survey on image data augmentation for deep learning[J].Journal of Big Data,2019,6(1). DOI:10.1186/s40537 019 0197 0.
[8] CHEN Tingkai,WANG Ning,WANG Rongfeng,et al.One stage CNN detector based benthonic organisms detection with limited training dataset[J].Neural Networks,2021,144:247 259.
[9] GOODFELLOW I J,POUGET ABADIE J,MIRZA M,et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal:MITPress,2014,2:2672 2680.
[10]MIRZA M,OSINDERO S.Conditional Generative Adversarial Nets[DB/OL].https://arxiv.org/abs/1411.1784,2014 11 06.
[11]RADFORD A,METZ L,CHINTALA S.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[DB/OL].https://arxiv.org/abs/1511.06434,2016 01 07.
[12]王萬良,李卓蓉.生成式對抗網(wǎng)絡(luò)研究進展[J].通信學(xué)報,2018,39(2):135 148.
WANG Wanliang,LI Zhuorong.Advances in generative adversarial network[J].Journal on Communications,2018,39(2):135 148.
[13]WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional block attention module[C]//Computer Vision ECCV 2018,Cham:Springer,2018:3 19.
[14]王珂,張根耀.基于ResNet模型的甲狀腺SPECT影像診斷[J].河北科技大學(xué)學(xué)報,2020,41(3):242 248.
WANG Ke,ZHANG Genyao.Diagnosis of thyroid SPECT image based on ResNet model[J].Journal of Hebei University of Science and Technology,2020,41(3):242 248.
[15]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770 778.
[16]GLOROT X,BENGIO Y.Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS) 2010.Sardinia:JMLR,2010:249 256.
[17]SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:Asimple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929 1958.
[18]ARJOVSKY M,CHINTALA S,BOTTOU L.Wasserstein GAN[DB/OL].https://arxiv.org/abs/1701.07875,2017 12 06.
[19]李慶旭,王巧華,馬美湖.基于生成對抗網(wǎng)絡(luò)的禽蛋圖像數(shù)據(jù)生成研究[J].農(nóng)業(yè)機械學(xué)報,2021,52(2):236 245.
LI Qingxu,WANG Qiaohua,MA Meihu.Poultry egg image data generating based on generative adversarial network[J].Transactions of the Chinese Society for? Agricultural Machinery,2021,52(2):236 245.
[20]SHMELKOV K,SCHMID C,ALAHARI K.How good ismy GAN?[C]//Computer Vision ECCV 2018.Cham:Springer,2018,6:218 234.
[21]HEUSEL M,RAMSAUER H,UNTERTHINER T,et al.GANs trained by a two time scale update rule converge to a local nash equilibrium[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.LongBeach:CurranAssociates Inc.,2017:6629 6640.
[22]陳雪云,黃小巧,謝麗.基于多尺度條件生成對抗網(wǎng)絡(luò)血細胞圖像分類檢測方法[J].浙江大學(xué)學(xué)報(工學(xué)版),2021,55(9):1772 1781.
CHEN Xueyun,HUANG Xiaoqiao,XIE Li.Classification and detection method of blood cells images based on multi scale conditional generative adversarial network[J].Journal of Zhejiang University(Engineering Science),2021,55(9):1772 1781.