何自芬, 曹輝柱, 張印輝, 莊 宏
(昆明理工大學 機電工程學院,云南 昆明 650000)
甲烷是天然氣與煤氣的主要成分,廣泛存在于煤炭化工、石油開采、石油化工等化工行業(yè),同時也是日常生活中主要清潔能源[1]。另外,甲烷作為溫室氣體之一,其對全球變暖的影響遠遠超過二氧化碳[2]。盡管甲烷在大氣中壽命只有12年,但具有相較于二氧化碳28~34 倍的蓄熱能力,使得它成為全球變暖的主要來源[3]。甲烷具有無色無味且易燃易爆的的化學性質(zhì),若無檢測設備其泄漏就很難被察覺。一旦接觸到熱源或者明火,就可能導致嚴重的安全事故,如火災、爆炸和環(huán)境污染,對社會和人民的生命和財產(chǎn)構(gòu)成巨大威脅。因此,減少甲烷氣體泄漏事故已成為化工生產(chǎn)中日益關注的問題,發(fā)展針對甲烷氣體泄漏的高效安全檢測和分割技術用于實時監(jiān)測甲烷泄漏、快速定位甲烷泄漏源,以減少人民生命財產(chǎn)損失、保護環(huán)境,做到降本增效經(jīng)濟意義重大。
<1),且各件產(chǎn)品是否為不合格品相互獨立.
傳統(tǒng)氣體泄漏檢測主要依靠接觸式氣體傳感器對管道中泄漏氣體進行檢測,包括人工檢測、氣體采樣、土壤檢測等[4-6]。此類方法不僅耗費大量的人力財力和時間,而且對管道、儲氣庫及周邊環(huán)境造成一定的破壞[7],同時檢測結(jié)果易受安裝位置和外界環(huán)境風向等因素影響,無法達到快速定位泄漏源的目的,且檢測范圍小、檢測效率低。近年來,非接觸式紅外熱成像探測技術,以其探測距離遠、降低了檢測難度和風險因素,同時還有靈敏度高、動態(tài)直觀等優(yōu)點,在石化裝置及工藝管線的氣體泄漏檢測領域得到廣泛應用[8]。與可見光氣體成像不同,紅外成像利用有害氣體與背景之間的溫度差,將無法直接觀察到的紅外輻射轉(zhuǎn)換為灰度圖像,有效將有害氣體與周圍環(huán)境分開,從而實現(xiàn)對有害氣體進行泄漏監(jiān)測。紅外熱成像技術可以更加直觀地檢測出某種氣體物質(zhì)的存在,并且能夠準確地確定其位置,可以幫助我們更好理解和識別特定氣體。
由于紅外熱成像技術具有快速響應、非接觸測量和快速定位氣敏傳感器難以感知到的微小泄漏源等優(yōu)勢,因此在氣體檢漏領域得到了廣泛應用[9]。盡管紅外熱像儀可以手持或安裝在固定位置,但目前仍然依賴于人工進行視檢使得人力成本增加[10]。近年來,由于人工智能技術飛速發(fā)展,以卷積神經(jīng)網(wǎng)絡為基礎的深度學習算法已成為計算機視覺領域的重要技術手段,并且正被廣泛應用于視覺檢測中以替代傳統(tǒng)的人工巡檢[11]。
研究人員近年在紅外氣體泄漏檢測方面投入了大量的工作,如基于目標氣體紅外圖像進行分類[12-14]和目標檢測[15]取得了很好的效果,但此類檢測算法無法將泄漏氣體從背景中分割出來也無法給出泄漏氣體的輪廓邊界,不利于后續(xù)對各個點源的泄漏等級進行量化以便制定維修方案。
實例分割是目標檢測與語義分割在模型層面的統(tǒng)一,要求正確地檢測并分割圖像中每個對象實例,實現(xiàn)了像素維度的圖像目標輪廓識別。目前廣泛使用的基于深度學習的實例分割方法可分為兩類。一類是雙階段實例分割算法,如Mask R-CNN[16]算法,采用深度卷積神經(jīng)網(wǎng)絡提取特征,在圖像實例分割領域取得了較好的結(jié)果,在此基礎上Mask Scoring R-CNN[17],HTC[18]等方法相繼被提出。另一類是單階段實例分割方法,如Yolact 在RetinaNet[19]基礎上,對預測頭模塊放棄引入特征定位的步驟且增加一個掩碼分支達到實例分割的效果,是第一個實現(xiàn)實時實例分割的方法。與之類似的還有SOLOv1-v2[20-21]和CondInst[22]等方法。此類單階段實例分割算法不需要生成候選目標,直接通過網(wǎng)絡預測目標的位置和類別,在保證精度的同時具有更快的檢測速度。
綜上所述,為保證模型對紅外甲烷氣體準確分割,利用紅外甲烷氣體圖像完成特征學習,并克服由于紅外甲烷氣體目標實例尺度變化及拓撲形變導致分割邊緣模糊和特征彌散丟失等問題,實現(xiàn)紅外甲烷泄漏有效分割。本文以Yolact[23]為基礎模型,提出一種空間信息自適應調(diào)控和特征對齊的實例分割網(wǎng)絡模型(Adaptive spatial information regulation and Feature alignment Network,AFNet),在速度和準確性之間實現(xiàn)了良好的平衡,改進方法與目的如下:
(1)針對甲烷氣體泄漏擴散區(qū)域形變復雜,模型采用ResNet[24]殘差網(wǎng)絡作為主干網(wǎng)絡提取紅外甲烷氣體特征,通過自適應空間信息調(diào)控模塊豐富主干網(wǎng)絡中空間位置信息以及調(diào)控目標特征區(qū)域語義特征。
(2)針對特征金字塔自頂而下單一特征傳播路徑和模型過深導致的目標氣體特征空間細節(jié)信息彌散丟失問題構(gòu)建加權(quán)雙向金字塔[25]模塊豐富深層特征圖下目標實例的邊緣紋理信息,完善細粒度像素級回歸任務以增強模型的目標區(qū)域聚焦能力。
(3)針對原型掩碼分支利用全卷積網(wǎng)絡[26]網(wǎng)絡進行特征提取時僅簡單利用卷積層增大其感受野,忽略不同維度特征圖像之間的特征差異與不同特征對于目標分割精度的重要性,提出特征對齊模塊捕獲長距離范圍內(nèi)像素點之間的語義關系,對齊不同特征空間特征信息以生成高質(zhì)量掩碼提高分割精度。
由于環(huán)境溫度變化和氣流擾動等外界因素導致甲烷氣體分子微觀上不停做無規(guī)則熱運動,宏觀上甲烷氣體在擴散過程中擴散區(qū)域呈現(xiàn)出不規(guī)則形狀變化,氣體邊緣輪廓始終呈現(xiàn)為模糊不清的混沌狀態(tài),而且甲烷氣體在紅外成像下存在著缺少色彩信息,空間和紋理細節(jié)信息匱乏等問題,本文以Yolact 模型為基礎,構(gòu)建出一種精度高、掩碼質(zhì)量好的空間信息自適應調(diào)控和原型特征對齊的紅外甲烷泄漏實例分割模型AFNet。AFNet 模型主要由兩個階段組成,分別為特征提取階段和特征后處理階段。特征提取階段由ResNet 主干網(wǎng)絡、加權(quán)雙向金字塔網(wǎng)絡和原型特征對齊模塊組成;特征后處理階段由預測頭分支組成。在特征提取階段,首先將紅外甲烷氣體圖像輸入ResNet 主干網(wǎng)絡中,通過自適應空間信息調(diào)控模塊增強骨干網(wǎng)絡對目標特征的自適應聚合能力,豐富模型提取特征的信息量和增強上下文相關性,并對分割結(jié)果貢獻大的特征權(quán)重進行自適應校準,調(diào)整模型關注區(qū)域,減小背景干擾。其次,引入加權(quán)雙向金字塔彌補特征金字塔自頂而下的特征傳播方式導致的低層特征空間位置和實例邊緣信息彌散丟失問題,以適應甲烷氣體復雜輪廓變化下前景氣體目標定位檢測和輪廓分割需求。最后設計原型特征對齊模塊捕獲長距離范圍內(nèi)甲烷氣體像素點之間的語義關系,對齊不同特征空間特征信息從而豐富原型語義信息量以生成高質(zhì)量掩碼提高分割精度。在特征后處理階段,將加權(quán)雙向金字塔的多尺度特征圖作為預測頭網(wǎng)絡輸入,經(jīng)過分類分支頭、邊界框分支頭和掩碼分支頭三個并行分支頭得到輸出結(jié)果。AFNet 模型整體結(jié)構(gòu)如圖1 所示。
圖1 AFNet 網(wǎng)絡架構(gòu)Fig.1 AFNet network architecture
由于紅外甲烷氣體圖像存在缺少色彩、紋理信息,輪廓復雜多變且邊緣模糊等問題,僅由主干網(wǎng)絡淺層或深層學習到的特征往往難以表征氣體全局特征。在特征提取網(wǎng)絡階段,ResNet 主干網(wǎng)絡分別由Block_1,Block_2,Block_3 和Block_4 個特征提取模塊組成,4 個模塊特征圖表征的語義信息依次由淺到深。淺層特征由于涉及的特征映射變換少,所以保留更多原始輸入紋理特征。因此,淺層特征更有助于定位目標實例的邊緣紋理,從而更好地進行分割。而深層特征經(jīng)過逐層抽象變換可以更好地捕捉目標實例的語義要素,以指導模型的最終分割。針對上述問題,本文提出自適應空間信息調(diào)控模塊(Adaptive Spatial Information Regulation Module,ASIR),在ResNet 主干網(wǎng)絡中嵌入自適應空間信息調(diào)控模塊豐富模型提取的特征空間有效表征甲烷氣體特征,自適應空間信息調(diào)控模塊結(jié)構(gòu)如圖2 所示。
圖2 自適應空間信息調(diào)控模塊Fig.2 Adaptive spatial information regulation module
自適應空間信息調(diào)控模塊首先對主干網(wǎng)絡Block_1,Block_2 和Block_3 分別采用卷積層進行通道信息壓縮操作將三個特征圖通道壓縮至1維,分別與自適應權(quán)重因子ω1,ω2和ω3相乘。在模型訓練過程中,通過PyTorch 深度學習運行庫生成一組尺寸等于調(diào)控模塊數(shù)量且初始值為一的全一張量,然后通過公式(1)所示的歸一化方式,分別將每個張量值轉(zhuǎn)化為所對應的指數(shù)形式的權(quán)重相對于所有權(quán)重的比例值,從而得到初始權(quán)重因子ωi,其中i=1,2,3。
根據(jù)Block_1,Block_2 和Block_3 特征層所包含空間信息量貢獻程度大小差異,ω1,ω2和ω3在訓練過程中依賴神經(jīng)網(wǎng)絡的反向傳播進行梯度更新,達到自適應調(diào)整目的。然后再將Block_1,Block_2 和Block_3 通道壓縮后的特征圖進行通道拼接得到具有自適應能力的特征Fconcate(H×W×3);進一步將特征Fconcate(H×W×3) 經(jīng)由卷積層使通道維度信息恢復到2 048,達到對特征空間信息壓縮和激勵目的。由于對特征空間信息進行了壓縮與激勵,拼接后的特征張量每個像素點均包含了不同尺度下該位置所有通道信息,將其送入堆疊的卷積層進行自適應特征學習,有效實現(xiàn)不同尺度下特征張量之間空間信息的流動,豐富模型提取特征細節(jié)信息量。最后將重編碼后的特征Fre-feature(H×W×2 048)與最具抽象語義信息的Block_4 模塊輸出特征圖進行像素點乘最終得到自適應多尺度空間信息特征圖Fadaptive(H×W×2 048),實現(xiàn)低維空間信息在高級語義信息中自適應調(diào)控,達到對空間信息權(quán)重的自適應校準。自適應空間信息調(diào)控模塊如公式(1)所示:
其中:ωi表示自適應權(quán)重,αi為初始化指數(shù)權(quán)重,αj為特征權(quán)重。Fconcate表示具有自適應能力的融合特征,Conv3×3表示3×3 卷積操作,F(xiàn)adaptive表示最終輸出特征圖,Concate表示通道拼接操作,?表示像素點乘。
訓練時主干網(wǎng)絡中四個殘差塊Block_1,Block_2,Block_3 和Block_4 特征圖進行可視化如圖3 所示(彩圖見期刊電子版),第一行為原始ResNet 主干網(wǎng)絡特征圖,第二行為空間信息調(diào)控模塊輸出特征圖。從圖3 中紅色標注部分可以看出經(jīng)過空間信息調(diào)控殘差塊特征圖中氣體目標輪廓特征更為明顯,邊緣區(qū)分較好,紋理細節(jié)信息豐富,極大程度降低復雜背景對前景分割質(zhì)量的影響,對特征的擬合效果明顯優(yōu)于Yolact 原始模型,在Block_2,Block_3,Block_4 深度遞增特征圖上特征學習更為突出且在Block_4 特征圖背景抑制效果明顯。
圖3 空間信息調(diào)控模塊特征圖對比Fig.3 Comparison of feature maps of spatial information regulation module
Yolact 模型采用特征金字塔結(jié)構(gòu)[27]實現(xiàn)不同尺度特征圖的信息融合對氣體目標進行預測。特征金字塔通過自頂向下和特征橫向映射融合多尺度特征,但該特征映射傳播方式存在一定問題。由于紅外甲烷氣體圖像具有尺度差異大、紋理細節(jié)信息稀缺,不同深度特征經(jīng)過單一自頂向下的特征橫向映射和大量卷積操作會使得氣體目標特征細節(jié)信息丟失,不利于精確識別氣體目標。針對上述問題PANet[28]在特征金字塔的基礎上增加自底向上路徑,將淺層信息直接與高層信息融合,減少各網(wǎng)絡層聚合的特征信息經(jīng)過骨干網(wǎng)絡造成的信息丟失問題,從而達到豐富網(wǎng)絡提取的特征空間和使定位信息更為準確的目的。PANet 增加的自底向上結(jié)構(gòu)在一定程度上使模型提取的特征信息更為豐富,但其所加分支也帶來了附加參數(shù)量,使網(wǎng)絡模型的時空復雜度增大,計算量有較大程度增加。BiFPN 即加權(quán)雙向金字塔在保留PANet 高精度的同時,對多尺度特征信息融合方式進行調(diào)整,針對PANet 結(jié)構(gòu)中部分節(jié)點只有一個輸入,且沒有進行特征融合操作的問題,在連接時將貢獻度較低的輸入節(jié)點刪除以減少網(wǎng)絡參數(shù)量使特征融合網(wǎng)絡更加高效。同時為緩解網(wǎng)絡鏈路較多造成特征損失問題,在輸入節(jié)點和輸出節(jié)點之間增加跳躍連接以實現(xiàn)特征的有效融合。因此本文引入加權(quán)雙向金字塔減少不同深度特征橫向映射過程中細節(jié)信息彌散丟失,豐富深層特征圖中氣體目標實例邊緣紋理信息,完善細粒度像素級回歸任務以適應甲烷氣體復雜輪廓變化下輪廓分割需求,其結(jié)構(gòu)如圖4 所示。
圖4 加權(quán)雙向金字塔Fig.4 Weighted bidirectional pyramid
加權(quán)雙向金字塔特征傳播過程如式(2)、式(3)所示:
其中:Piin(i=3,4,5,6,7)表示輸入到特征融合網(wǎng)絡中的特征圖,Pt i(i=4,5,6)表示加權(quán)雙向金字塔先經(jīng)過自頂向下上采樣操作得到的中間特征,Piout(i=3,4,5,6,7)表示經(jīng)過特征融合網(wǎng)絡處理后的輸出,Conv(·)表示對特征圖進行卷積處理,R(·)表示對特征圖進行匹配而進行的上采樣和下采樣操作。
為清晰解釋加權(quán)雙向金字塔內(nèi)在工作機理對最終分割結(jié)果的有效性,在加權(quán)雙向金字塔五個輸出層特征圖Piout(i=3,4,5,6,7)的通道維度進行最大池化,并與原圖疊加得到類激活熱力圖后進行可視化對比分析。如圖5 所示(彩圖見期刊電子版),圖中氣體區(qū)域顏色越接近紅色說明模型對其激活程度越大且關注度越高。圖5 中第一行為原始特征金字塔的輸出特征熱力圖,第二行為加權(quán)雙向金字塔的輸出特征熱力圖,從P3out和P4out熱力圖可以看出,加權(quán)雙向金字塔輸出層特征圖熱力分布覆蓋了氣體輪廓主要范圍,比原始特征金字塔更能突出氣體目標輪廓區(qū)域,從P6out和P7out熱力圖中可以看出加權(quán)雙向金字塔熱力分布相對于原始特征金字塔更集中在氣體目標中,尤其在P7out表現(xiàn)更為顯著。
圖5 加權(quán)雙向金字塔熱力圖對比Fig.5 Comparison of weighted two-way pyramidal heat map
Yolact 采用預測頭掩碼分支生成一組掩碼系數(shù),同時將金字塔P3out輸出層作為與預測頭并行的原型掩碼分支輸入,經(jīng)由五層卷積組成的全卷積網(wǎng)絡作為原型掩碼分支生成通道維度為32的原型掩碼模板,該通道維度與掩碼系數(shù)個數(shù)相對應,將原型掩碼模板和掩碼系數(shù)以線性組合方式得到實例掩碼。但Yolact 原型掩碼分支僅簡單堆疊卷積層增大其感受野,忽略了不同維度特征圖像之間的語義特征差異與不同尺度特征對于甲烷氣體分割精度的重要性,而且甲烷氣體擴散范圍各異,擴散范圍在圖像中的尺度大小隨之發(fā)生變化,這將造成甲烷氣體邊緣分割結(jié)果精度低、氣體邊界定位不準確等問題。同時考慮到單一特征表達能力的局限性,尤其是難以適應甲烷氣體與背景環(huán)境低對比度和擴散區(qū)域形變復雜的情況。本文需要在低對比度背景中對泄漏甲烷氣體進行識別分割,同時甲烷氣體形狀、顏色、紋理特征與背景極為相似,故需要模型能捕獲長距離范圍內(nèi)甲烷氣體像素點之間的語義關系,同時也需要準確表征擴散甲烷氣體的空間細節(jié)特征。為解決此問題,受文獻[29]啟發(fā)本文構(gòu)建了原型特征對齊模塊(Prototype Feature Alignment Module,PFAM)捕獲長距離甲烷氣體特征之間的語義關系豐富原型語義信息量以提高生成的目標掩碼質(zhì)量。原型特征對齊模塊如圖6 所示。
圖6 原型特征對齊模塊Fig.6 Prototype feature alignment module
為了充分利用不同維度特征圖之間的語義特征差異,使網(wǎng)絡訓練時能獲得更多上下文信息,豐富各維度特征之間語義信息的關聯(lián)表達,本文將加權(quán)雙向金字塔Piout(i=3,4,5,6,7)中任意兩個輸出特征Piout和Pi+1out作為原型特征對齊模塊的輸入特征,以捕獲長距離甲烷氣體特征之間的語義關系、豐富各尺度特征之間語義信息的關聯(lián)表達,其中Piout代表維度低尺度大的特征,Pi+1out代表維度高尺度小的特征。原型特征對齊模塊由兩個分支組成,首先將Piout(H×W×C)經(jīng)過第一分支全局平均池化操作將特征維度從(H×W×C)壓縮至(1×1×C),從而得到特征聚合后的特征向量,然后將特征向量通過卷積層實現(xiàn)非線性跨通道交互,并且降低其卷積計算參數(shù)量,以控制模型復雜度。最后經(jīng)過Sigmoid 函數(shù)歸一化并與Piout(H×W×C)點乘映射到原輸入特征中,再與Piout(H×W×C)進行元素相加操作實現(xiàn)特征二次映射,最后通過卷積層進一步融合得到特征FS,實現(xiàn)特征選擇過程,第一分支如公式(4)所示:
其中:Conv3×3表示3×3 卷積操作,Sigmoid表示激活操作,Avgpool表示全局平均池化操作,?和⊕分別表示元素點乘和元素相加操作。
第二分支將特征FS與Pi+1out(H1×W1×C1)進行通道拼接操作聚合通道信息,經(jīng)過卷積操作后與Pi+1out(H1×W1×C1)再次通道拼接實現(xiàn)兩個特征圖不同通道序列間的信息交互,然后經(jīng)由可變形卷積來學習特征FS和Pi+1out(H1×W1×C1) 派生的特征偏移得到特征Fa,最后將具有可變形學習能力的對齊的特征Fa與特征FS進行元素相加得到融合特征Ffsm,實現(xiàn)捕獲長距離特征之間的語義關系達到兩個不同維度特征之間特征對齊目的。第二分支如公式(5)所示,融合特征Ffsm如式(6)所示:
其中:Concate表示通道拼接操作,DCNconv表示可變形卷積。
由于目前未有公開帶注釋文件的紅外甲烷圖像數(shù)據(jù)集,本文所采用的數(shù)據(jù)集源自GasVid[12],GasVid 是一個由31 個視頻組成用于深度學習訓練的大型甲烷視頻集。數(shù)據(jù)集視頻由FLIR GF-320 紅外熱像儀拍攝。考慮到實驗平臺硬件性能瓶頸,對視頻進行時域下采樣稀疏處理得到2 188 張圖片作為本次的實驗數(shù)據(jù)集用于訓練和測試使用。本文使用圖像標注工具Labelme 根據(jù)甲烷氣體泄漏區(qū)域與背景區(qū)域的像素差異性對訓練集和測試集圖像中甲烷氣體泄漏區(qū)域進行像素級精細標注得到對應圖像的真實值(Ground Truth, GT),保存為符合COCO 數(shù)據(jù)集標準格式的JSON 文件用于模型訓練和測試。數(shù)據(jù)集圖像及真實值標簽如圖7 所示。實驗按照4∶1 的比例將數(shù)據(jù)集隨機分成訓練集和測試集,分別用于訓練模型和驗證最終模型的泛化能力。
圖7 為數(shù)據(jù)集原圖與真實值掩碼,其中甲烷氣體掩碼邊緣輪廓形變復雜,為模型掩碼建模帶來巨大挑戰(zhàn);圖8 為前景目標氣體像素與背景像素占比情況,其中前景目標氣體像素在圖像中占比遠小于背景像素占比,導致在模型特征提取過程中帶來大量冗余干擾特征,加大了訓練難度。
圖8 前景與背景像素占比Fig.8 Foreground to background pixel ratio
實驗環(huán)境為Ubuntu18.04 操作系統(tǒng),Python版本為3.6,深度學習框架為Pytorch 1.6.0。CPU 為AMD R5-3600,16 GB 內(nèi)存,GPU 為RTX2080Ti 11 GB 顯卡,使用CUDA Toolkit 10.0 和CUDNN V7.6.5 加速模型訓練,實驗各項超參數(shù)如表1 所示。
表1 超參數(shù)配置Tab.1 Hyperparameter configuration
為驗證本文算法優(yōu)越性及有效性,本文選取平均精度(mean Average Precision,mAP)、每秒檢測紅外圖像的張數(shù)(Frame Per Second,F(xiàn)PS)共兩種評價指標來綜合評價算法模型??紤]到實際工程應用中對甲烷氣體泄漏檢測有一定誤報和漏報的要求,若使用AP@95 可能會導致甲烷泄漏的漏檢。綜合來看,本文使用AP50@95,AP50 來綜合衡量模型性能,該評價指標能反映在不同置信度下的分割結(jié)果,是目前實例分割任務最普遍采用的評價指標。
其中mAP 可以通過準確率(Precision)、召回率(Recall)計算得出。在[0.50,0.95]區(qū)間內(nèi)以0.05 為增量取10 個交并比(Intersection over Union,IoU)作為閾值,對這10 個閾值下對應的平均精度AP 取平均值則得到mAP,大小為[0,1]之間,mAP 越接近1 說明模型分割效果越好。
其中:m表示紅外甲烷氣體數(shù)據(jù)集中的甲烷氣體類別數(shù)量,Pij為真實類別為i而被預測為j的像素數(shù),Pii表示真實類別為i,被預測為i的像素數(shù),Pji表示真實類別為j,被預測為i的像素數(shù)。
其中:TP(True Positive)為真正例,即真實值是目標,預測也判別為目標,F(xiàn)P(False Positive)為假正例,真實值是目標,預測判別為不是目標。
其中:FN(False Negative)為假負例,即真實值不是目標,預測判別為不是目標。mAP 計算公式可表示為公式(10):
其中:m表示類別數(shù)量,n表示類別序號,J(P,R)為準確率P與召回率R所構(gòu)成PR曲線與橫縱坐標軸所圍成積分面積。
3.4.1 自適應空間信息調(diào)控實驗
自適應空間信息調(diào)控模塊對主干網(wǎng)絡中Block_1,Block_2 和Block_3 輸出特征根據(jù)其包含空間信息量貢獻程度大小差異賦予不同權(quán)重,實現(xiàn)低維空間信息在高級語義信息中的調(diào)控,達到對空間信息權(quán)重的自適應校準效果。為驗證自適應空間信息調(diào)控模塊的有效性,本組實驗以Yolact 為框架,采用ResNet-50 和自適應空間信息調(diào)控模塊作為特征提取網(wǎng)絡進行實驗分析。其中Yolact-ASIR_1 表示自適應空間信息調(diào)控模塊中采用單個自適應因子同時賦予Block_1,Block_2 和Block_3 三個殘差塊;Yolact-ASIR_3表示自適應空間信息調(diào)控模塊中采用3 個自適應因子分別賦予Block_1,Block_2 和Block_3 三個殘差塊,實驗結(jié)果如表2 所示,各層權(quán)重對比變化如圖9 所示,后續(xù)實驗在本節(jié)實驗的基礎上開展。
表2 自適應空間信息調(diào)控模塊實驗結(jié)果Tab.2 Experimental results of adaptive spatial information regulation module
圖9 各層權(quán)重對比變化Fig.9 Comparison of weight changes of each layer
從表2 實驗結(jié)果中可得出兩種結(jié)構(gòu)的自適應空間信息調(diào)控模塊均能對分割精度產(chǎn)生積極影響。采用三個自適應因子對Block_1,Block_2 和Block_3 特征進行空間信息調(diào)控效果相對與采用一個因子的效果好,Yolact-ASIR_3 模型AP50 分割精度達到88.87%,較Yolact 提高了3%,分割速度FPS 達到36.94。本組實驗驗證了自適應空間信息調(diào)控模塊能有效豐富模型提取的特征信息,自適應校準空間信息權(quán)重,并豐富當前尺度下目標實例的特征空間和細粒度信息,對實例目標的邊緣輪廓信息量進行加強,提高定位和分割精度。
由圖9 可知,Block_1,Block_2 自適應因子在訓練階段變化趨勢均為由大到小變化直至收斂,在訓練階段中后期自適應因子趨于收斂狀態(tài),而Block_3 自適應因子在訓練階段則為小到大變化,到訓練中后期亦趨于收斂狀態(tài),實現(xiàn)對Block_1,Block_2 和Block_3 特征信息自適應調(diào)控。
3.4.2 加權(quán)雙向金字塔實驗
加權(quán)雙向金字塔模塊通過自頂而下和自底向上兩條特征傳播路徑實現(xiàn)不同維度特征融合,減少特征橫向映射過程中特征細節(jié)信息彌散丟失問題,豐富深層特征圖下氣體目標實例的邊緣紋理信息,完善細粒度像素級回歸任務以適應甲烷氣體復雜輪廓變化下輪廓分割需求。為驗證加權(quán)雙向金字塔能夠有效彌補特征橫向映射過程中特征細節(jié)信息彌散丟失問題,本組實驗選擇Yolact-ASIR_3 模型作為基準模型,實驗結(jié)果如表3 所示,后續(xù)實驗在本節(jié)實驗的基礎上開展。
表3 加權(quán)雙向金字塔實驗結(jié)果Tab.3 Results of weighted two-way pyramid experiment
由表3 可知,在引入加權(quán)雙向金字塔模塊后有效將深層網(wǎng)絡的語義信息與淺層網(wǎng)絡的空間信息進行特征融合,豐富模型提取的特征空間,帶來一定計算量的提升,犧牲有限計算資源成本下使得Yolact-ASIR_3-BiFPN 模型AP50 分割精度達到90.67%,在Yolact-ASIR_3 模型基礎上提升2.02%,分割速度達到36.03 FPS 僅下降0.91 FPS,本組實驗驗證了加權(quán)雙向金字塔模塊對于緩解自頂而下的特征傳播方式導致的低層特征空間位置和實例邊緣信息彌散丟失問題的有效性。
3.4.3 原型特征對齊模塊實驗
原型特征對齊模塊通過對不同維度特征進行特征選擇和對齊學習來捕獲長距離氣體特征之間的語義關系,豐富原型語義信息量以提高生成目標掩碼質(zhì)量,實現(xiàn)甲烷氣體分割精度提升。為驗證原型特征對齊模塊能夠捕獲長距離甲烷氣體特征之間的語義關系豐富原型語義信息量,本組實驗選擇Yolact-ASIR_3-BiFPN 作為基準模型,實驗結(jié)果如表4 所示,后續(xù)實驗在本節(jié)實驗的基礎上開展。
由表4 可知原型特征對齊模塊的輸入特征對分割精度存在影響,其中將加權(quán)雙向金字塔P3out 和P4out 輸出層作為輸入特征效果最好,Yolact-ASIR_3-BiFPN-FAM-P3outP4out 模 型AP50 分割精度達到42.42%,較Yolact-ASIR_3-BiFPN 模型升3.36%,分割速度達到36.80 FPS。將P3out 和P4out 輸出層作為輸入特征對分割精度影響最顯著,究其原因,P3out 和P4out 作為相鄰輸出層特征間語義信息關聯(lián)大,訓練過程中模型容易學習到兩者間特征偏移關系,反之P3out和P7out 特征間語義信息關聯(lián)小,訓練過程中難以學習到兩者間特征偏移關系導致對分割精度的影響不明顯。本組實驗驗證了特征對齊模塊有效對不同維度特征進行特征選擇和對齊學習來捕獲長距離氣體特征之間的語義關系,豐富各尺度特征之間語義信息,提高原型掩碼質(zhì)量實現(xiàn)分割精度提升。
3.4.4 消融實驗
為了進一步驗證模型中自適應空間信息調(diào)控模塊、加權(quán)雙向金字塔、原型特征對齊模塊對于提升模型分割性能的差異,本文在自建數(shù)據(jù)集上通過消融實驗驗證3 個模塊組合嵌入對模型分割精度的影響,六組消融實驗是單一模塊或兩兩模塊的組合算法,最后一組是本文的完整算法,實驗結(jié)果如表5 所示。實驗結(jié)果表明,自適應空間信息調(diào)控模塊、加權(quán)雙向金字塔、原型特征對齊模塊單一或組合模塊的嵌入在分割準確度上均可以產(chǎn)生正向優(yōu)化效果,對甲烷氣體分割精度都有不同程度的提升,加權(quán)雙向金字塔模塊的分割精度提升相對較少。自適應空間信息調(diào)控模塊和原型特征對齊模塊相較于Yolact 精度提升明顯,AP50@95分割精度分別達到37.58%和36.19%,在Yolact基礎上分別提升4.01%和2.62%。說明兩者都可以作為模型的主要模塊對特征進行處理。最后將三個模塊同時嵌入模型,AP50@95 達到了42.42%,表明三個模塊同時使用對模型的提升作用更大,可以有效實現(xiàn)甲烷氣體準確分割。
表5 消融實驗結(jié)果Tab.5 Results of ablation experiments
3.4.5 對比實驗
為驗證本文所提算法在自建數(shù)據(jù)集上的優(yōu)越性及有效性,選擇目前先進的實例分割算法SparseInst[30],E2EC[31],YolactEdge[32],SOLOv1,SOLOv2,CondInst 和QueryInst[33]與本文模型AFNet 進行對比實驗。為保證驗證結(jié)果的有效性,實驗均在3.2 節(jié)介紹的實驗平臺上開展,使用的訓練集和測試集均為本文自建數(shù)據(jù)集,算法性能對比如表6 所示。從表6 中可以看出,與其他8種模型相比本文設計的AFNet 模型的AP50@95分割精度最高達到42.42%,比SparseInst、E2EC、YolactEdge 分別高出16.97%,8.21%和9.63%,但分割速度低于SparseInst 和E2EC。對于SOLOv1,SOLOv2,CondInst 和QueryInst 等模型在精度和速度上均能體現(xiàn)出優(yōu)勢。綜上所述,考慮到紅外甲烷泄漏分割需要同時權(quán)衡模型的平均精度和推理速度,本文所設計AFNet 模型分割性能更好,因此更適用于紅外甲烷泄漏分割任務。
表6 對比實驗結(jié)果Tab.6 Comparison of experimental results
3.4.6 定性分析
為直觀對比本文AFNet 模型與Yolact,SparseInst、E2EC,YolactEdge,SOLOv1,SOLOv2,CondInst 和QueryInst 等模型分割紅外甲烷圖像性能的魯棒性,將以上9 種算法在同一測試集上對分割結(jié)果進行可視化如圖10 所示。第1 行為原圖,第2~9 行分別為模型可視化結(jié)果圖,由可視化結(jié)果得知,在(a)列圖像中,YOLACT 模型將一個氣體實例誤檢為兩個氣體實例,而AFNet 模型分割準確;在(c)列圖像中,YOLACT 模型將背景干擾因素誤檢為甲烷氣體。在(b)和(d)列中,對于輪廓邊緣相對模糊的紅外甲烷氣體,AFNet 經(jīng)過自適應調(diào)控主干網(wǎng)絡空間信息,更有效的表征甲烷氣體特征,因此能有效分割出甲烷氣體泄漏區(qū)域,對于形變復雜的氣體輪廓能做到準確擬合,排除背景和管道干擾,由此得出本文AFNet 模型分割細節(jié)更為完善,克服背景干擾能力更強,并且誤檢率明顯低于YOLACT 基準模型,能夠適應低對比度下甲烷氣體擴散范圍的尺度形狀變化,整體分割結(jié)果有明顯提升。
本文針對紅外甲烷氣體泄漏實時分割需求提出空間信息自適應調(diào)控和特征對齊模型AFNet,達到在低對比度背景中對尺度形變復雜的甲烷氣體進行高性能分割的目的,實現(xiàn)在紅外成像環(huán)境中對甲烷氣體目標實例泄漏擴散區(qū)域準確分割。針對主干網(wǎng)絡中高層語義特征圖的空間位置信息匱乏嚴重的問題,AFNet 模型以ResNet 為主干網(wǎng)絡,提出自適應空間信息調(diào)控模塊自適應調(diào)控主干網(wǎng)絡不同尺度殘差塊權(quán)重,增強骨干網(wǎng)絡對目標特征的自適應聚合能力豐富模型提取的空間特征信息;引入加權(quán)雙向金字塔彌補特征金字塔自頂而下的特征傳播方式導致的目標信息逐層抽象后造成的信息彌散丟失問題,優(yōu)化模型預測層輸出結(jié)果;最后構(gòu)建原型特征對齊模塊捕獲長距離范圍內(nèi)甲烷氣體像素點之間的語義關系,對齊不同尺度語義特征信息,豐富原型語義信息量,生成高質(zhì)量掩碼提高分割精度。
經(jīng)過實驗驗證,與Yolact 基礎模型相比,AFNet 對甲烷氣體分割精度有明顯提升,掩碼分割精度AP50@95 和AP50 分別提升9.79% 和6.18%,并且AFNet 最高推理速度可達36.80 FPS,滿足化工企業(yè)在生產(chǎn)過程中發(fā)生甲烷泄漏事故時要求及時準確分割氣體的需求,為紅外甲烷氣體泄漏分割提供了一定的參考價值。在未來的工作中將進一步提升精度,并且加快模型推理速度,實現(xiàn)在紅外場景下快速和精準分割泄漏甲烷氣體目標。