王穎,高勝
(東北石油大學(xué),大慶,163318)
焊縫熔透狀態(tài)是表征焊接質(zhì)量、影響焊接產(chǎn)品使用性能最重要的指標(biāo)之一,然而由于焊接過程的瞬時(shí)性和復(fù)雜性,使得利用正面熔池信息實(shí)時(shí)準(zhǔn)確獲得焊縫熔透狀態(tài)成為焊接過程監(jiān)測和質(zhì)量控制的關(guān)鍵瓶頸[1-2].已有的關(guān)于焊縫熔透狀態(tài)識(shí)別的研究主要采用機(jī)器學(xué)習(xí)的方法,通過人為設(shè)計(jì)特征,建立其與熔透狀態(tài)之間的非線性映射關(guān)系;然而人為設(shè)計(jì)的特征具有較強(qiáng)的主觀性,嚴(yán)重影響識(shí)別精度和速度.隨著深度學(xué)習(xí)的不斷發(fā)展,其通過自動(dòng)提取所需的特征進(jìn)行預(yù)測,提高了識(shí)別的自動(dòng)化程度和準(zhǔn)確率,有效解決了傳統(tǒng)方法所面臨的問題[3-4].因此,近些年有許多學(xué)者將深度學(xué)習(xí)應(yīng)用到熔池變化的在線監(jiān)測中,其中基于視覺信號(hào)的研究和應(yīng)用最為廣泛[5-8].文獻(xiàn)[9]利用短時(shí)傅里葉變換獲得電弧聲的時(shí)頻頻譜圖像,建立卷積神經(jīng)網(wǎng)絡(luò)識(shí)別焊縫的熔透狀態(tài);文獻(xiàn)[10]以感興趣區(qū)域的溫度場圖像為輸入,基于深度殘差網(wǎng)絡(luò)建立了焊縫熔透預(yù)測模型;文獻(xiàn)[11]以采集的二維熔池圖像作為輸入,建立了CNN 熔透狀態(tài)預(yù)測模型;文獻(xiàn)[12]以匙孔圖像作為輸入,建立LeNet-5 網(wǎng)絡(luò)模型對(duì)熔透狀態(tài)進(jìn)行識(shí)別;文獻(xiàn)[13]以正面熔池圖像作為輸入,搭建CNN 模型預(yù)測燒穿,并建立回歸模型對(duì)穿透深度進(jìn)行估計(jì);文獻(xiàn)[14]利用HDR焊接攝像機(jī)獲得熔池/匙孔圖像,使用圖像增強(qiáng)方法提高訓(xùn)練數(shù)據(jù)集的多樣性,并建立Resnet 網(wǎng)絡(luò)對(duì)焊接狀態(tài)進(jìn)行識(shí)別;文獻(xiàn)[15]以熔池/匙孔圖像序列作為底層輸入,利用CNN 提取圖像序列中每一幀圖像的空域特征,同時(shí)建立BiLSTM 網(wǎng)絡(luò)挖掘時(shí)域內(nèi)的上下文信息,最后利用獲得的時(shí)空特征映射到具體的熔透狀態(tài)上.基于深度學(xué)習(xí)的方法大大提升了識(shí)別的準(zhǔn)確率,為了進(jìn)一步提升預(yù)測的實(shí)時(shí)性,文獻(xiàn)[16]以SSD 作為主干網(wǎng)絡(luò),利用視覺傳感信號(hào)作為輸入,將特征提取網(wǎng)絡(luò)VGG 替換為輕量網(wǎng)絡(luò)Mobilenet,熔池的定位與識(shí)別速度得到了提升;文獻(xiàn)[17]基于MobileNetV2 構(gòu)建了遷移學(xué)習(xí)模型,將ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練獲得的參數(shù)遷移到自建的GTAW 熔池圖像數(shù)據(jù)預(yù)測中,訓(xùn)練速度得到了大幅提升;文獻(xiàn)[18]利用從振蕩焊接熔池表面反射的點(diǎn)結(jié)構(gòu)激光圖像進(jìn)行焊縫熔深預(yù)測,在不對(duì)圖像做任何預(yù)處理的情況下,利用提出的小批量梯度下降法進(jìn)行訓(xùn)練,獲得了較快的訓(xùn)練速度和較高的準(zhǔn)確率.
Google 提出的Vision Transformer[19-20](ViT)在圖像識(shí)別領(lǐng)域也取得了突破性進(jìn)展,其將圖像分割成固定大小的像素塊輸入到編碼器,編碼器由多頭自我注意力機(jī)制(multi-head self-attention mechanism,MSA)和多層感知模塊(multi-layer perceptron,MLP)組成,利用最后一個(gè)編碼器層的分類標(biāo)記作為全局特征表示,獲得最終的分類結(jié)果.ViT 在圖像識(shí)別領(lǐng)域取得了與卷積網(wǎng)絡(luò)相當(dāng)?shù)男阅?,但需要更大量的?xùn)練數(shù)據(jù)或額外的監(jiān)督.為了克服這個(gè)限制,提出了CeiT 網(wǎng)絡(luò)[21],它集合了CNN 在提取低級(jí)特征、增強(qiáng)局部性方面,以及ViT 在建立遠(yuǎn)程依賴關(guān)系方面的優(yōu)勢,在數(shù)據(jù)量、準(zhǔn)確率及收斂速度方面進(jìn)行了均衡.但為了進(jìn)一步滿足焊接過程的實(shí)時(shí)性和準(zhǔn)確性要求,對(duì)CeiT 網(wǎng)絡(luò)進(jìn)行了改進(jìn).首先通過聚焦(Focus)模塊、通道分組、通道混洗、多尺度特征融合構(gòu)建了一種FMCbneck 模塊,使得模型能夠獲得更多的熔池空間位置信息;其次將FMCbneck 模塊嵌入MobileNetV3(Large)網(wǎng)絡(luò)中,并調(diào)整其結(jié)構(gòu)代替Image-to-Tokens 模塊進(jìn)行熔池圖像淺層特征提取,在保證較高檢測精度的條件下,極大的降低了模型參數(shù)量,提高了模型的檢測速度;設(shè)計(jì)了DGCA 模塊并將其應(yīng)用到LeFF中,有效增強(qiáng)了特征間的遠(yuǎn)程依賴關(guān)系、豐富了類標(biāo)記中所包含的分類信息,并通過將LeFF 模塊中的底層特征和高層語義特征進(jìn)行融合,提高了模型對(duì)熔池特征的表示能力、進(jìn)一步提升了檢測效果;最后與不同的網(wǎng)絡(luò)模型進(jìn)行對(duì)比,證明了所提模型在保持較低參數(shù)量的同時(shí)擁有著更高的精確度.
CeiT 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,其在ViT的基礎(chǔ)上設(shè)計(jì)了Image-to-Tokens(I2T)模塊、LeFF 模塊和LCA 模塊.
圖1 CeiT 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 CeiT network structure
I2T 模塊由一個(gè)卷積層和一個(gè)最大池化層組成,用于提取熔池圖像的底層特征,即
式中:X為I2T 模塊的輸入特征.
將提取的熔池底層特征X′分割(Split)成特征小塊,并通過flatten 操作將特征小塊轉(zhuǎn)換成一維向量,同時(shí)添加一個(gè)可學(xué)習(xí)的類別塊,這個(gè)類別塊用于與所有的特征小塊進(jìn)行交互,最終從類別塊中學(xué)習(xí)到用于分類的特征.特征序列加入位置編碼送入Encoder block中,重復(fù)堆疊L次.在Encoder block中除了包含MSA 模塊、Layer Normalization 模塊(Layer Norm)、Add(殘差塊)外,還設(shè)計(jì)了局部增強(qiáng)前饋模塊(LeFF),目的是通過使用深度卷積增加相鄰特征小塊在空間維度上的相關(guān)性.抽取Encoder block 所得交互特征中的L個(gè)類別塊送入LCA 模塊(layer-wise class token attention),目的是為了關(guān)注不同層的類標(biāo)記信息,將注意力放在不同層的特征快上,最后獲得輸出信息.
為充分利用熔池圖像中的淺層特征、減少冗余操作、提高焊接檢測的實(shí)時(shí)性與部署便捷性,使用MobileNetV3(Large)作為Image-to-Tokens 模塊的特征提取網(wǎng)絡(luò).MobileNetV3[22]網(wǎng)絡(luò)的逆殘差結(jié)構(gòu)、深度可分離卷積、SE(squeeze and excitation)通道注意力機(jī)制和h-swish 激活函數(shù),使得模型能夠很好地獲得熔池圖像中的重要特征信息,并且避免訓(xùn)練時(shí)出現(xiàn)梯度消失及計(jì)算量過大的問題.然而輕量化的網(wǎng)絡(luò)結(jié)構(gòu)也會(huì)帶來檢測精度上的損失,為此對(duì)MobileNetV3的bneck 結(jié)構(gòu)進(jìn)行改進(jìn),改進(jìn)的bneck 模塊結(jié)構(gòu)(FMCbneck)如圖2 所示.
圖2 改進(jìn)前后的bneck 結(jié)構(gòu)Fig.2 Improved bneck structure before and after.(a)bneck original structure; (b) FMCbneck structure
(1)由于熔池圖像像素低、攜帶的信息少,并且在下采樣過程中特征信息會(huì)部分丟失,使得在處理過程中容易導(dǎo)致圖像失真.為解決這一問題,在bneck 輸入端引入了聚焦模塊(Focus 模塊),F(xiàn)ocus模塊通過間隔采樣對(duì)圖片進(jìn)行切片操作,目的在于將高分辨率特征圖拆分成多個(gè)低分辨率的特征圖,且沒有信息丟失,F(xiàn)ocus 切片采樣原理如圖3 所示.
圖3 Focus 切片采樣原理Fig.3 Focus slice sampling principle
(2)為了融合不同尺度的缺陷特征,提升模型的泛化能力、抑制過擬合、擴(kuò)大特征感受野,并且不會(huì)大幅度增加模型的復(fù)雜度,在原bneck 基礎(chǔ)上增加2 個(gè)分支,分別為Maxpooling 和1 × 1的普通卷積.
(3)為了進(jìn)一步降低計(jì)算量,增加特征信息間的交流和特征的表達(dá)能力,對(duì)Focus 切片后的特征通道進(jìn)行了分組操作(channel split),并在多尺度特征融合后進(jìn)行了通道混洗操作(channel shuffle).
除了對(duì)MobileNetV3的bneck 結(jié)構(gòu)進(jìn)行了改進(jìn),還對(duì)其中的SE 模塊以及5 × 5 卷積核的位置進(jìn)行了調(diào)整.通過消融試驗(yàn)發(fā)現(xiàn)SE 模塊在越靠后的位置對(duì)模型精度的提升越大,5 × 5 卷積核在網(wǎng)絡(luò)的中后部對(duì)模型性能的提升作用更明顯,并且在步長為1 時(shí)采用FMCbneck 結(jié)構(gòu),步長為2 時(shí)采用原bneck 結(jié)構(gòu),模型效果更好.所采用的MobileNetV3網(wǎng)絡(luò)參數(shù)如表1 所示.表1 中exp 表示FMCbneck和bneck 中第一層1 × 1 卷積升高的維度;#out 表示FMCbneck 和bneck 輸出的通道數(shù);SE 表示是否使用SE 模塊.
表1 MobileNetV3 網(wǎng)絡(luò)參數(shù)Table 1 MobileNetV3 network parameters
CeiT 網(wǎng)絡(luò)的LeFF 模塊結(jié)構(gòu)如圖4 所示,輸出的類標(biāo)記將作為LCA 模塊的輸入?yún)⑴c分類.為了豐富類標(biāo)記中所包含的分類信息、提高模型對(duì)熔池特征的表示能力、增強(qiáng)特征間的遠(yuǎn)程依賴關(guān)系,改進(jìn)后的LeFF 結(jié)構(gòu)如圖5 所示.
圖4 原始LeFF 結(jié)構(gòu)圖Fig.4 Original LeFF structure diagram
圖5 改進(jìn)的LeFF 結(jié)構(gòu)圖Fig.5 Improved LeFF structure diagram
將Depth-wise Convolotion(DWConv)操作替換成DGCA 模塊,對(duì)特征圖進(jìn)行增強(qiáng)且保持較少的計(jì)算量.DGCA 模塊結(jié)構(gòu)如圖6 所示,其在DWConv操作前后引入Ghost Module、建立殘差機(jī)制、添加Coordinate Attention(CA)注意力模塊.
圖6 DGCA 模塊Fig.6 DGCA Module
CA 注意力模塊分別沿兩個(gè)方向聚合特征,一個(gè)方向捕捉長期依賴,另一個(gè)方向保留精確的位置信息,起到了聚焦顯著目標(biāo)區(qū)域,抑制飛濺、弧光等背景噪聲的作用,其結(jié)構(gòu)如圖7 所示.
圖7 CA 注意力模塊結(jié)構(gòu)圖Fig.7 CA attention module structure diagram
對(duì)輸入尺寸為W×H×C的特征圖(W,H,C分別表示特征圖的寬、高和通道數(shù))使用(1,W)和(H,1)進(jìn)行平均池化編碼,分別得到了水平方向感知特征圖C×H×1和垂直方向感知特征圖C×1×W,計(jì)算原理為
將垂直方向和水平方向感知特征圖在空間維度進(jìn)行拼接,得到特征圖C×1×(W+H).利用1 ×1 卷積變換對(duì)其進(jìn)行降維至C/r,r用于控制縮減率,再進(jìn)行歸一化和非線性變換操作.然后沿著空間維數(shù)將其分解為兩個(gè)單獨(dú)的張量C/r×H×1和C/r×1×W,再利用1 × 1 卷積變換分別對(duì)其升維至C,并經(jīng)過sigmoid 激活函數(shù)將其作用于原特征圖上,最終輸出yc(i,j)為
采用的焊接方法為GTAW 脈沖焊,保護(hù)氣體為氬氣,焊接材料為厚度3.175 mm的304 不銹鋼,攝像頭采集頻率為1 000 Hz,曝光時(shí)間為20 μs,硬件設(shè)備如圖8 所示.將工業(yè)相機(jī)和數(shù)據(jù)采集卡采集到的熔池正面圖片和相應(yīng)的電流、電壓信號(hào)傳輸?shù)接?jì)算機(jī),計(jì)算機(jī)對(duì)接收到的數(shù)據(jù)處理之后可通過調(diào)節(jié)電流電壓控制器和伺服電機(jī)控制器控制焊接過程中的電流電壓以及焊接速度,從而得到不同狀態(tài)下的熔池?cái)?shù)據(jù).
圖8 圖像采集平臺(tái)Fig.8 Image acquisition platform
焊接電流控制在140~ 200 A,變化步長為20 A;焊接速度控制在20~ 40 cm/min,變化步長為10 cm/min;通過調(diào)節(jié)焊接電流與焊接速度,獲得未熔透(圖9(a))、熔透(圖9(b))、燒穿(圖9(c))三種狀態(tài)下的熔池圖片,去掉起弧和收弧時(shí)不穩(wěn)定狀態(tài)下采集的圖像,最終采集得到1 475 張未熔透照片、7 567 張正常熔透照片和725 張燒穿照片,其中未熔透樣本標(biāo)記為0,正常熔透樣本標(biāo)記為1,燒穿樣本標(biāo)記為2.
圖9 三種焊接熔池Fig.9 Three types of welding pools.(a) not melted through; (b) melt through; (c) burn through
熔池圖像的預(yù)處理是通過提取ROI、3 次樣條插值和歸一化進(jìn)行的.視覺系統(tǒng)采集到的原始圖像尺寸為1 280 × 700,直接對(duì)原始圖像進(jìn)行訓(xùn)練不僅干擾信息多而且計(jì)算量大,會(huì)嚴(yán)重影響訓(xùn)練速度,因此選擇從原始圖像中裁剪感興趣的區(qū)域,去掉無關(guān)信息.由于在采集的圖像中熔池的位置幾乎保持在固定的區(qū)域,因此選擇ROI 自動(dòng)提取算法.未熔透和熔透兩類圖像設(shè)定的左上角坐標(biāo)為(200,50),燒穿圖像設(shè)定的左上角坐標(biāo)為(390,150),窗口大小為700 × 350,提取ROI的結(jié)果如圖10 所示.
圖10 ROI 提取結(jié)果Fig.10 ROI extraction results.(a) original image; (b)image after ROI extraction
采用3 次樣條插值方法將ROI 圖像調(diào)整為224 × 224,再將圖像中的每個(gè)像素值除以255 歸一化為[0-1].復(fù)制灰度圖像矩陣,使其變?yōu)?24 ×224 × 3.
在深度學(xué)習(xí)中,樣本數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量會(huì)直接影響模型的泛化能力和魯棒性.在實(shí)際焊接過程中,雖然數(shù)據(jù)量在不斷增大,但大多數(shù)數(shù)據(jù)為正常數(shù)據(jù),未熔透和燒穿的樣本很少.因此,在保證圖像自然特征表達(dá)情況下,將對(duì)未熔透和燒穿的樣本進(jìn)行數(shù)據(jù)增強(qiáng),以彌補(bǔ)樣本數(shù)量不均衡問題.增強(qiáng)方法為改變圖像的對(duì)比度和亮度、水平翻轉(zhuǎn)、椒鹽噪聲、高斯噪聲等,其中燒穿的樣本還采用了多種方式疊加的方法進(jìn)行數(shù)據(jù)增強(qiáng),處理效果如圖11所示.最終未熔透樣本擴(kuò)充至7 375 張、燒穿樣本擴(kuò)充至6 579張,按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集,各數(shù)據(jù)集所含圖片數(shù)量如表2 所示.
表2 擴(kuò)充后各數(shù)據(jù)集數(shù)量(張)Table 2 Number of each data set after expansion
圖11 樣本數(shù)據(jù)增強(qiáng)效果Fig.11 Sample data enhancement effect.(a) fusion state; (b) burn-through condition
CPU 型號(hào)為Intel Core i9 13900K,GPU 為16G顯存的NVIDIA RTX 4080,操作系統(tǒng)為Ubuntu 16.04 LST 64位,深度學(xué)習(xí)框架為Pytorch 1.8,TorchVision 0.8,CUDA 版本為 10.1.批次大小設(shè)置為128,訓(xùn)練輪次為100,優(yōu)化器使用Adam(Adaptive momentum),學(xué)習(xí)率衰減策略為
式中:lt為學(xué)習(xí)率;b為預(yù)熱初始值;R2為全局預(yù)熱周期;R為訓(xùn)練總輪數(shù);r為當(dāng)前輪數(shù).
損失函數(shù)由兩部分組成:分類損失函數(shù)和中心損失函數(shù).
(1)分類損失函數(shù)L1.采用交叉熵?fù)p失函數(shù)來計(jì)算預(yù)測值和真實(shí)值的誤差,計(jì)算式為
式中:N為樣本數(shù);M為類別數(shù)目(M=3);yic的取值為0 或1(如果樣本i的類別為c取1,否則取0);pic為樣本i屬于類別c的預(yù)測概率.
(2)中心損失函數(shù)L2.為了增大不同熔透類別間距離、減小同一類別內(nèi)距離,采用中心損失函數(shù)增強(qiáng)同類樣本相似性,計(jì)算式為
式中:wyi為第yi類訓(xùn)練樣本特征的中心位置;xi為樣本i進(jìn)入全連接層之前的特征.
(3)總體損失函數(shù)L總體損失函數(shù)為
式中:λ和(1-λ)分別表示各自的權(quán)重,λ的初始值為0.5,在訓(xùn)練過程中不斷對(duì)兩個(gè)超參數(shù)進(jìn)行更新.
精確率(Precision)、召回率(Recall)和F1 分?jǐn)?shù)(F1-Score)、準(zhǔn)確率(Accuracy)作為模型的評(píng)價(jià)指標(biāo),模型訓(xùn)練時(shí)間和模型內(nèi)存占用量作為模型計(jì)算復(fù)雜度的評(píng)價(jià)指標(biāo),識(shí)別單個(gè)樣本平均時(shí)間作為模型檢測速度的評(píng)價(jià)指標(biāo).
Pprecision表示預(yù)測為正的樣本實(shí)際為正樣本的比例,精確率越高則模型對(duì)負(fù)樣本區(qū)分能力越強(qiáng),計(jì)算式為
Rrecall表示所有正樣本中被預(yù)測為正樣本的比例,召回率越高則模型對(duì)正樣本的區(qū)分能力越強(qiáng),計(jì)算式為
FF1-score是Pprecision和Rrecall的調(diào)和平均值,計(jì)算式為
Aaccuracy表示預(yù)測正確的樣本占總樣本的比例,計(jì)算式為
式中:TP表示實(shí)際正類預(yù)測為正類的數(shù)量;TN表示實(shí)際負(fù)類預(yù)測為負(fù)類的數(shù)量;FP表示實(shí)際負(fù)類預(yù)測為正類的數(shù)量;FN表示實(shí)際正類預(yù)測為負(fù)類的數(shù)量.
利用改進(jìn)后的CeiT 模型對(duì)數(shù)據(jù)增強(qiáng)效果進(jìn)行對(duì)比試驗(yàn),表3 為未使用數(shù)據(jù)增強(qiáng)的試驗(yàn)結(jié)果,表4 為使用數(shù)據(jù)增強(qiáng)的試驗(yàn)結(jié)果.數(shù)據(jù)增強(qiáng)前未熔透照片1 475 張、正常熔透照片7 567 張、燒穿照片725 張.數(shù)據(jù)增強(qiáng)后未熔透樣本7 375 張、正常熔透樣本7 567 張、燒穿樣本6 579 張.
表3 未數(shù)據(jù)增強(qiáng)試驗(yàn)結(jié)果Table 3 No data enhancement test results
表4 數(shù)據(jù)增強(qiáng)試驗(yàn)結(jié)果Table 4 Data enhancement test results
通過試驗(yàn)結(jié)果可以看出使用數(shù)據(jù)增強(qiáng)三種類別的識(shí)別效果均得到了提升,尤其是未熔透和燒穿.數(shù)據(jù)樣本不均衡時(shí),未熔透樣本會(huì)有大部分誤判為正常熔透,燒穿樣本誤判為未熔透.由此可見數(shù)據(jù)增強(qiáng)緩解了由于數(shù)據(jù)量不足造成的模型過擬合和泛化能力不足等問題.
學(xué)習(xí)率是深度學(xué)習(xí)中非常重要的超參數(shù)之一,為了選擇合適的學(xué)習(xí)率,在控制其他條件相同的情況下,分別設(shè)置學(xué)習(xí)率為0.01,0.001 和0.000 1 進(jìn)行分析,圖12 為試驗(yàn)驗(yàn)證集結(jié)果.比較圖12(a)中曲線,學(xué)習(xí)率為0.001的損失值較低.對(duì)比圖12(b)中曲線,訓(xùn)練初期學(xué)習(xí)率為0.01 與0.001 準(zhǔn)確率波動(dòng)較大,訓(xùn)練40 輪時(shí),學(xué)習(xí)率0.000 1的準(zhǔn)確率隨著訓(xùn)練輪數(shù)的增加變化穩(wěn)定,而其他兩種的準(zhǔn)確率還有一定波動(dòng).綜合對(duì)比驗(yàn)證集上損失值和準(zhǔn)確率的變化情況,可以看出當(dāng)學(xué)習(xí)率為0.000 1時(shí),泛化能力最佳,可以獲得較好的結(jié)果.
圖12 學(xué)習(xí)率對(duì)比結(jié)果Fig.12 Learning rate comparison results.(a) validation set loss value curve; (b) validation set accuracy curve
為了證明對(duì)CeiT 模型一系列改進(jìn)在提升模型整體性能方面的有效性,在訓(xùn)練集上進(jìn)行了消融試驗(yàn).方案如表5 所示,其中“I2T 模塊改進(jìn)”對(duì)應(yīng)1.2 節(jié)Image-to-Tokens 模塊輕量化改進(jìn),“LeFF 模塊改進(jìn)”對(duì)應(yīng)1.3 節(jié);“M3”表示利用MobileNetV3進(jìn)行底層熔池特征提??;“BNSA”表示MobileNetV3的bneck 模塊改進(jìn)和結(jié)構(gòu)調(diào)整;“DG”表示使用DGCA 模塊替換DWConv 操作;“FI”表示將LeFF模塊中空間復(fù)原前與復(fù)原后的特征圖進(jìn)行融合;“C0”表示未熔透樣本對(duì)應(yīng)的識(shí)別結(jié)果;“C1”表示正常熔透樣本對(duì)應(yīng)的識(shí)別結(jié)果;“C2”表示燒穿樣本對(duì)應(yīng)的識(shí)別結(jié)果;“—”表示在改進(jìn)CeiT 時(shí)不使用該策略;“Π”表示在改進(jìn)CeiT 時(shí)使用該策略.
表5 消融試驗(yàn)結(jié)果Table 5 Ablation test results
由表5 試驗(yàn)結(jié)果可知,方案2 利用輕量化網(wǎng)絡(luò)MobileNetV3 進(jìn)行熔池底層特征提取訓(xùn)練時(shí)間降低了20.79%,準(zhǔn)確率降低了3.44%,說明輕量型網(wǎng)絡(luò)能夠有效降低模型的計(jì)算量,但會(huì)損失一定的檢測精度;方案3 在方案2的基礎(chǔ)上對(duì)MobileNetV3的bneck 模塊進(jìn)行了改進(jìn),并對(duì)其結(jié)構(gòu)進(jìn)行了調(diào)整,與方案2 相比訓(xùn)練時(shí)間略有增加,但準(zhǔn)確率提高了10.24%,與方案1 相比訓(xùn)練時(shí)間提升12.04%,準(zhǔn)確率提升了6.62%,說明對(duì)Image-to-Tokens 模塊的輕量化改進(jìn)有效的提高了模型的綜合能力;與方案1 相比方案4 中Ghost Module、殘差機(jī)制、CA注意力模塊的引入有效的提升了模型的識(shí)別精度,但訓(xùn)練時(shí)間增加了21.38%;方案5 在方案4的基礎(chǔ)上融合了底層特征與高層語義特征,識(shí)別準(zhǔn)確率得到了進(jìn)一步提升.對(duì)比方案1、方案3 和方案5,對(duì)Image-to-Tokens 模塊和LeFF 模塊的改進(jìn)均提升了模型的準(zhǔn)確率,但方案3 有效降低了訓(xùn)練時(shí)間,方案5 增加了訓(xùn)練時(shí)間.方案6 為提出的改進(jìn)后模型,即同時(shí)使用方案3 和方案5 進(jìn)行改進(jìn),與方案1 相比模型的識(shí)別準(zhǔn)確率提升了9.74%,訓(xùn)練時(shí)間也縮小了0.31 h.
組合改進(jìn)策略的模型迭代曲線,如圖13 所示.可以看出,所提模型的損失值更小、收斂速度更快、在驗(yàn)證集上的識(shí)別準(zhǔn)確率更高、泛化能力更強(qiáng),進(jìn)一步驗(yàn)證了對(duì)CeiT 模型一系列改進(jìn)的有效性.
圖13 組合改進(jìn)策略的模型迭代曲線Fig.13 Model iteration curves for combined improvement strategies.(a) Iteration curves of loss values on the training set for different improvement schemes; (b) Iteration curves of the accuracy of different improvement schemes on the validation set
為了綜合評(píng)估所提網(wǎng)絡(luò)的有效性,將其與改進(jìn)前的CeiT 網(wǎng)絡(luò)、DeiT 網(wǎng)絡(luò)、MobileNetV3、ResNet 50 和ShuffleNetV2 模型進(jìn)行對(duì)比試驗(yàn).利用測試集上獲得的精確率、召回率、F1 分?jǐn)?shù)和準(zhǔn)確率評(píng)估識(shí)別效果,使用訓(xùn)練時(shí)間和模型內(nèi)存占用量評(píng)估模型的復(fù)雜度,使用識(shí)別單個(gè)樣本平均時(shí)間評(píng)估模型的檢測速度.迭代過程中各模型在驗(yàn)證集上的準(zhǔn)確率變化如圖14 所示.從圖14 中可以看出,所提模型與其他模型相比在驗(yàn)證集上有最高的識(shí)別準(zhǔn)確率,而DeiT的表現(xiàn)最差.訓(xùn)練好的各個(gè)模型在測試集上的識(shí)別效果如表6 所示.由表6 數(shù)據(jù)可知,改進(jìn)的CeiT 模型和ResNet50均獲得了較高的檢測精度,但非輕量化的ResNet50 在訓(xùn)練時(shí)間、模型內(nèi)存占用量和識(shí)別單個(gè)樣本平均使用時(shí)間要高出很多,無法滿足焊接實(shí)時(shí)性要求.輕量化網(wǎng)絡(luò)ShuffleNetV2和MobileNetV3 訓(xùn)練時(shí)間相當(dāng),但MobileNetV3的檢測精度比ShuffleNetV2低,說明在熔池?cái)?shù)據(jù)集上ShuffleNetV2 表現(xiàn)更好.DeiT 網(wǎng)絡(luò)的檢測精度最差,原因是其需要海量數(shù)據(jù)作為支撐,試驗(yàn)數(shù)據(jù)量遠(yuǎn)達(dá)不到要求,但其訓(xùn)練時(shí)間、模型內(nèi)存占用量和識(shí)別單個(gè)樣本平均時(shí)間比CeiT 要少.改進(jìn)的CeiT 網(wǎng)絡(luò)與原CeiT 模型相比準(zhǔn)確率提高了8.66%,計(jì)算復(fù)雜度和檢測速度都有了大幅提升.試驗(yàn)結(jié)果表明,所提模型對(duì)焊接熔透狀態(tài)的識(shí)別取得了最好的效果.
表6 不同模型試驗(yàn)結(jié)果Table 6 Test results of different models
圖14 各對(duì)比模型在驗(yàn)證集上準(zhǔn)確率的迭代曲線Fig.14 Iteration curves of the accuracy of each comparison model on the validation set
(1)使用MobileNetV3 作為Image-to-Tokens 模塊的特征提取網(wǎng)絡(luò),能夠縮減網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算量,有效提升實(shí)時(shí)檢測性能.
(2)通過Ghost Module、殘差機(jī)制、注意力模塊對(duì)LeFF 模塊的改進(jìn)增強(qiáng)了特征間的遠(yuǎn)程依賴關(guān)系、提升了多尺度特征表達(dá)能力、豐富了局部和細(xì)節(jié)特征信息.
(3)所提出的模型在試驗(yàn)數(shù)據(jù)集上與改進(jìn)前的CeiT 網(wǎng)絡(luò)、DeiT 網(wǎng)絡(luò)、MobileNetV3、ResNet 50 和ShuffleNetV2 模型進(jìn)行對(duì)比,結(jié)果表明所提模型獲得了最高的準(zhǔn)確率,且檢測速度可以滿足焊接實(shí)時(shí)性的要求,展現(xiàn)了較好的有效性和魯棒性,為焊接熔透狀態(tài)實(shí)時(shí)預(yù)測提供了新的方法.