趙 杰 趙 浩 徐 晗
(黑龍江科技大學(xué),黑龍江 哈爾濱 150022)
目前,中國的遠景煤炭資源量已達6.02萬億t,其中1.71萬億噸屬于保有查明儲量,約占中國已探明化石燃料資源的97%。相比之下,煤炭資源的數(shù)量大大超過了其他化石資源的數(shù)量總和[1],采煤機如何快速、準(zhǔn)確地識別煤層和巖石層的分布情況成為煤炭開采領(lǐng)域內(nèi)的技術(shù)難題,在采煤機工作面中含有大量的煤巖特征信息,因此,大量研究者利用圖像處理方法來對煤巖識別進行研究。另外,深度學(xué)習(xí)技術(shù)已經(jīng)運用于智能采礦領(lǐng)域中[2],司壘等[3]通過優(yōu)化U-NET網(wǎng)絡(luò)模型并加入Res2Net來增強模型讀取特征值的功能,提高了識別煤巖交界區(qū)的精準(zhǔn)度[4]。史健婷等[5]改進U-NET++算法,采用“剪枝”操作對數(shù)據(jù)集進行預(yù)測,提高了運算速度和分割精度。該文采用循環(huán)卷積模塊(RCL)代替原來U-NET中的常規(guī)卷積模塊,并在下采樣過程中添加卷積注意力機制(CBAM),在提高模型運行效率的同時提高特征提取能力,與傳統(tǒng)U-NET模型相比,其具有更高的分割性能。
在U-NET網(wǎng)絡(luò)模型中,左側(cè)為編碼部分,右側(cè)為解碼部分,編碼部分采用典型的卷積網(wǎng)絡(luò)結(jié)構(gòu),分為2個3×3卷積核,每個卷積運算操作后面有 1 個RELU單元和2×2的最大池化層,可以實現(xiàn)向下采樣,在每個向下采樣步驟中,特征通道的容量都會增加1倍。解碼部分中每一項都包括特征映像的向上采樣,然后用2×2卷積核通過卷積運算使特征映像的個數(shù)減半,然后將編碼部分中裁剪的特征映像串聯(lián)并加上2個3×3卷積核,最后一層使用1×1卷積核進行卷積運算,將每個64維的特征向量映射到輸出層,網(wǎng)絡(luò)總共有23個卷積層。
由試驗可知,U-NET網(wǎng)絡(luò)提取的特征信息不夠豐富,存在局部信息丟失的問題,其原因是下采樣階段和上采樣階段的特征圖在語義上并不具有相似性,當(dāng)網(wǎng)絡(luò)進行訓(xùn)練時,直接向解碼階段傳遞高分辨率的特征圖將導(dǎo)致分割結(jié)果在語義上具有不一致性,使分割結(jié)果變差,因此對U-NET進行改進,改進后的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。在編碼部分使用循環(huán)卷積網(wǎng)絡(luò),利用循環(huán)卷積層進行特征積累,有助于提取特征;同時,引入卷積注意力機制(CBAM)為特征賦予權(quán)重值,使網(wǎng)絡(luò)可以提取更豐富、更有意義的特征并篩選更重要的特征。由圖1可知,輸入圖像在第一層編碼階段先通過循環(huán)卷積操作提取特征,然后經(jīng)過注意力模塊重新校準(zhǔn)特征圖,最后對特征圖進行池化操作,使圖像尺寸變??;第二、第三和第四層編碼與第一層操作相同,只是通道數(shù)擴大,最后進行1次循環(huán)卷積操作并經(jīng)注意力模塊將特征圖傳輸至解碼階段。在每層解碼階段依次進行上采樣和反卷積操作,最后經(jīng)過1×1卷積輸出預(yù)測值。試驗結(jié)果顯示,改進后的模型比U-NET網(wǎng)絡(luò)具有更高的分割性能,解決了分割結(jié)果中圖像信息丟失的問題。
圖1 改進后模型
在循環(huán)卷積模塊中,前饋連接和循環(huán)連接都具有本地連接和不同位置之間的共享權(quán)重。循環(huán)卷積模塊的狀態(tài)在離散步長上演化。某層網(wǎng)絡(luò)輸入計算方式如公式(1)所示。
式中:i、j為2個像素定位;k為第k個特征圖;zijk(t)為某個單元內(nèi)時間t的輸出;u(i,j)為普通反饋網(wǎng)絡(luò)的輸入;x(i,j)(t-1)為某個單元內(nèi)循環(huán)輸入;wfk和wrk分別為第k個特征圖的標(biāo)準(zhǔn)前饋卷積層的權(quán)重和循環(huán)卷積層的權(quán)重;f為標(biāo)準(zhǔn)前饋卷積層;r為循環(huán)卷積層;bk為偏差。
公式(1)第一項用于標(biāo)準(zhǔn)卷積層,第二項用于誘導(dǎo)循環(huán)連接,可以解決網(wǎng)絡(luò)模型中網(wǎng)絡(luò)退化的問題。
卷積注意力機制(CBAM)將通道注意力機制與空間注意力機制串行連接,其結(jié)構(gòu)如圖2所示。首先,通道注意力機制對特征圖進行最大池化和平均池化操作。其次,對池化的結(jié)果進行全連接層計算,再經(jīng)過Sigmoid激活函數(shù)得到輸入特征圖每個通道的權(quán)值。最后,將權(quán)值與原輸入特征圖相乘,得到最終的通道注意力特征圖。空間注意力機制用于壓縮空間,首先,通過2個池化操作聚合1個特征圖的通道信息。其次,將信息連接起來并進行1×1卷積操作,得到通道為1的特征圖。最后,使用Sigmoid激活函數(shù)進行標(biāo)準(zhǔn)化操作,以得到最終的空間注意力特征圖。
圖2 注意力機制
試驗所用樣本全部拍攝于黑龍江科技大學(xué),共拍攝120張,精簡后剩余100張。
拍攝的100張數(shù)據(jù)樣本通過MATLAB進行亮度變換、添加噪聲以及圖像模糊操作,以擴充數(shù)據(jù)集,共獲得600張圖片,500張用于訓(xùn)練,另外100張用于測試。
常見的語義分割標(biāo)注工具(例如Labelme)通常都是采用勾畫多邊形的方法進行標(biāo)注的,如果圖像不規(guī)則,就會延長標(biāo)注時間,并且需要進行二值化轉(zhuǎn)換,相比之下,Photoshop中的套索工具可以高效、迅速地劃分物體邊界區(qū)域,簡單、易掌握且時間成本低,因此考慮使用該工具來完成數(shù)據(jù)標(biāo)注任務(wù)。
將所準(zhǔn)備的數(shù)據(jù)集分別導(dǎo)入傳統(tǒng)U-NET網(wǎng)絡(luò)和改進模型進行訓(xùn)練,訓(xùn)練的準(zhǔn)確率如圖3所示(改進后的模型訓(xùn)練準(zhǔn)確度變高)。
圖3 訓(xùn)練準(zhǔn)確率
采用訓(xùn)練好的模型對測試集進行測試,為了便于觀察,對識別結(jié)果進行二值化處理,從左至右依次為輸入圖像、U-NET識別結(jié)果和RU-NET識別結(jié)果,該文選取4張測試結(jié)果如圖4所示。結(jié)果顯示,2種模型一般都能夠大致地區(qū)分煤和巖石的范圍,但是RU-NET模型對煤和巖石的交界處分割得更精準(zhǔn)。
圖4 測試結(jié)果
通常采用像素準(zhǔn)確度(Pixel Accuracy)和交并比(Intersectionover Union)對語義分割結(jié)果進行分析。
識別正確的圖像像素數(shù)量與原圖像像素總數(shù)之間的比率PA如公式(2)所示。
式中:k為圖像像素類別的數(shù)量;Pij為i類同時預(yù)測i類的像素總數(shù);Pii為i類被預(yù)測j類的像素總數(shù)。
分割結(jié)果與原始圖像真值的交并比為IOU,在目標(biāo)檢測中表示系統(tǒng)預(yù)測的檢測結(jié)果與原圖片中標(biāo)記檢測結(jié)果的重合度,其最理想的值為1,IOU如公式(3)所示。
式中:A為預(yù)測區(qū)域;B為實際標(biāo)注區(qū)域。
該文語義分割結(jié)果的4張測試圖的PA評估得分如下:U-NET得分分別為88.85、89.24、86.35和87.20,平均分為87.91;RU-NET得分分別為89.90、90.88、89.40和90.26,平均分為90.11。改進后的模型比原有模型4張測試圖的PA得分分別提高了1.05、1.64、3.05和3.06,平均得分提高了2.2;該文語義分割結(jié)果的4張測試圖的IOU評估得分如下:U-NET得分分別為81.92、82.03、79.10和80.66,平均分為80.93;RU-NET得分分別為82.90、83.88、81.40和82.26,平均分為82.61。改進后的模型比原有模型4張測試圖的IOU得分分別提高了0.98、1.85、2.3和1.6,平均得分提高了1.68。結(jié)果表明,改進后模型對圖像的識別精度變高。
該文將循環(huán)卷積模塊引入傳統(tǒng)U-NET網(wǎng)絡(luò)模型中,以替換原來的卷積單元,并且添加了卷積注意力機制,循環(huán)卷積模塊在提高了圖像上下文語義信息利用率的同時,還擴大了圖像特征提取范圍,卷積注意力機制模塊對提取到的多維度特征進行權(quán)重校準(zhǔn),使重要特征得到更多關(guān)注,使網(wǎng)絡(luò)模型可以提取更多有意義的特征,從而更精準(zhǔn)地分割圖像。在試驗測試中,改進后的RU-NET網(wǎng)絡(luò)模型在視覺上取得了更好的效果。