呂秉略 李忠峰 奚崢皓 姚英茂 季菁菁
(1.上海工程技術(shù)大學(xué)電子電氣工程學(xué)院 上海 201620)(2.營(yíng)口理工學(xué)院電氣工程學(xué)院 營(yíng)口 115014)
隨著節(jié)能減排在國(guó)家發(fā)展戰(zhàn)略中的地位日益突出,碳達(dá)峰與碳中和的發(fā)展目標(biāo)對(duì)國(guó)家能源結(jié)構(gòu)提出了更高的要求。煤炭資源作為我國(guó)能源結(jié)構(gòu)中至關(guān)重要一環(huán),對(duì)其高效利用成為了必然要求[1~2]。提高煤炭資源的利用效率需要對(duì)煤巖的組分進(jìn)行有效的識(shí)別與區(qū)分。煤巖的組分主要分為鏡質(zhì)組、惰質(zhì)組與半鏡半絲組。由于煤巖顯微圖像各組分形態(tài)特征多樣,目前的煤巖組分分析主要采用人工分析方式[3~4]。但需要分析人員具有一定專業(yè)性,能對(duì)顯微組分進(jìn)行準(zhǔn)確區(qū)分,且長(zhǎng)時(shí)間工作時(shí),分析精度將會(huì)下降。
近來(lái),已有學(xué)者通過(guò)計(jì)算機(jī)視覺(jué)和圖像處理方式進(jìn)行煤巖組分識(shí)別與分析任務(wù)。文獻(xiàn)[5]利用機(jī)器學(xué)習(xí)方法結(jié)合圖像處理技術(shù)對(duì)煤巖顯微圖像進(jìn)行識(shí)別。通過(guò)隨機(jī)森林算法實(shí)現(xiàn)了90.44%的識(shí)別準(zhǔn)確率,同時(shí)利用K-means算法進(jìn)行區(qū)域分割。文獻(xiàn)[6]基于高斯改進(jìn)K-means聚類方法對(duì)煤巖顯微組分進(jìn)行分割。文獻(xiàn)[7]根據(jù)對(duì)煤巖顯微圖像的亮度值測(cè)定特征,提出了基于空間域數(shù)字圖像處理方法的煤巖分析。文獻(xiàn)[8]提出利用自適應(yīng)Gamma校正來(lái)改善煤巖顯微圖像的光照變化導(dǎo)致的識(shí)別效果降低問(wèn)題。然而,這些方法主要以圖像灰度值或顏色信息作為煤巖顯微組分的判斷依據(jù),無(wú)法根據(jù)組分的形態(tài)特征進(jìn)行有效識(shí)別與分割。此外,因不同煤巖顯微圖像的灰度值分布不同,通常仍需人工選取灰度值作為分類的判斷標(biāo)準(zhǔn)。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,諸多研究者針對(duì)圖像分割問(wèn)題提出了相應(yīng)的模型。相較于傳統(tǒng)圖像處理方法[9~10],使用深度網(wǎng)絡(luò)模型的圖像分割算法更關(guān)注于圖像的紋理特征信息。文獻(xiàn)[11]提出的Mask-RCNN模型基于區(qū)域選擇方法進(jìn)行圖像分割。FCN 網(wǎng)絡(luò)模型[12]通過(guò)卷積下采樣與反卷積上采樣的方式對(duì)圖像進(jìn)行像素級(jí)的分類從而實(shí)現(xiàn)語(yǔ)義分割。但該方法需要大量樣本進(jìn)行模型訓(xùn)練。UNet網(wǎng)絡(luò)模型[13]則是在FCN 網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)反卷積方式進(jìn)行上采樣,同時(shí)通過(guò)同一層級(jí)的跳躍連接方式進(jìn)行特征融合。該方法在醫(yī)學(xué)圖像分割領(lǐng)域展現(xiàn)出了優(yōu)秀效果,且對(duì)訓(xùn)練樣本數(shù)量的需求較小。Zhou Z 等[14]在UNet模型上對(duì)跳連的方式進(jìn)行了改進(jìn),提出UNet++網(wǎng)絡(luò)模型,針對(duì)每一級(jí)都增加了上采樣結(jié)構(gòu),從而為模型提供不同層級(jí)的特征信息。
本文以文獻(xiàn)[14]為基礎(chǔ),針對(duì)圖像分割方法進(jìn)行煤巖顯微圖像組分分析任務(wù)的精度較低問(wèn)題,使用UNet++網(wǎng)絡(luò)模型與Lovasz-Softmax 損失相結(jié)合的方法進(jìn)行改進(jìn)。提出的方法在多種煤巖組分的識(shí)別中更加準(zhǔn)確,各組分間的邊界清晰,受煤巖顯微圖像中組分占比不均問(wèn)題影響較小。
將如圖1 所示的UNet++網(wǎng)絡(luò)模型用于煤巖顯微圖像。節(jié)點(diǎn)Xi,j表示對(duì)xn進(jìn)行一次卷積下采樣或反卷積上采樣。其中,i 為下采樣結(jié)果對(duì)應(yīng)的采樣層級(jí),共5次,即0 ≤i≤4。j為同一層級(jí)需要進(jìn)行跳躍連接的節(jié)點(diǎn)序號(hào),1 ≤j≤i-1。采樣的輸出結(jié)果為。通過(guò)UNet++網(wǎng)絡(luò)中的下采樣卷積與上采樣反卷積計(jì)算,可對(duì)xn進(jìn)行像素類別映射得到最終的分割結(jié)果,從而實(shí)現(xiàn)對(duì)煤巖顯微圖像的組分分割。
圖1 UNet++網(wǎng)絡(luò)模型結(jié)構(gòu)
從模型首層X(jué)0,0處輸入xn,依式(1)進(jìn)行計(jì)算。
xn經(jīng)過(guò)節(jié)點(diǎn){X0,0,X1,0,X2,0,X3,0,X4,0},通過(guò)帶有激活函數(shù)的卷積下采樣計(jì)算?(·)進(jìn)行下采樣,再經(jīng)過(guò){X3,1,X2,2,X1,3,X0,4}進(jìn)行反卷積上采樣計(jì)算。其中,Τ(·)表示反卷積上采樣,[·]表示特征級(jí)聯(lián),即跳躍連接過(guò)程,s為同一層級(jí)中先于當(dāng)前節(jié)點(diǎn)計(jì)算的節(jié)點(diǎn)序號(hào)。
跳躍連接可以將煤巖顯微圖像中的高分辨率信息引入到上采樣所得的結(jié)果中,從而保證分割精度。以模型的首層為例,其跳躍連接結(jié)果如圖2 所示。
圖2 UNet++模型首層跳躍連接示意圖
針對(duì)煤巖顯微圖像中多類別組分分割問(wèn)題,本文使用Lovász-Softmax 損失函數(shù)[16]進(jìn)行模型的訓(xùn)練。令y?表示章節(jié)2 所提UNet++模型中首層反卷積上采樣節(jié)點(diǎn)的輸出分割結(jié)果x0,jn,相應(yīng)的標(biāo)注結(jié)果y*=y*n。Lovász-Softmax 利用y?與y*的交并比(Intersection over Union,IoU)進(jìn)行損失計(jì)算,使得模型可通過(guò)訓(xùn)練對(duì)IoU 進(jìn)行優(yōu)化,從而提升煤巖中各組分的分割精度。
依據(jù)式(3)計(jì)算煤巖圖像中第c 類煤巖組分所對(duì)應(yīng)的交并比Jc。
此時(shí),各像素點(diǎn)根據(jù)是否被誤分類得到對(duì)應(yīng)的{0,1}離散值,對(duì)應(yīng)損失函數(shù)為離散函數(shù),需要將其擴(kuò)展為連續(xù)函數(shù)以進(jìn)行梯度下降優(yōu)化。
其中,gp表示第p 個(gè)像素對(duì)應(yīng)的交并比系數(shù)。該系數(shù)向量g(m)的計(jì)算過(guò)程如表1。
表1 交并比系數(shù)向量g計(jì)算偽代碼
對(duì)所有煤巖組分類別的IoU 損失loss 進(jìn)行求和,可得Lovász-Softmax 損失函數(shù)L,如式(12),并作為式(2)中的Lj從而實(shí)現(xiàn)對(duì)所有煤巖組分類別的損失計(jì)算。
相比于交叉熵模型訓(xùn)練方法,Lovász-Softmax損失函數(shù)直接對(duì)煤巖圖像分割結(jié)果的交并比進(jìn)行優(yōu)化,使模型能對(duì)各組分的紋理差異進(jìn)行區(qū)分,獲得組分間的清晰邊界,實(shí)現(xiàn)煤巖顯微圖像多類別組分的分割。
本文基于PyTorch 框架進(jìn)行UNet++模型的搭建與訓(xùn)練,實(shí)驗(yàn)平臺(tái)的硬件與軟件設(shè)置如表2。
表2 平臺(tái)硬件與軟件配置
本文實(shí)驗(yàn)采用7 張人工標(biāo)記的760×760 分辨率灰度煤巖顯微圖像對(duì)模型訓(xùn)練。因顯微圖像較少,實(shí)驗(yàn)中將每張圖像依分辨率38×38 進(jìn)行切分,即將單張煤巖顯微圖像樣本切分成400 張小塊樣本,總計(jì)2800 張小塊樣本。此外,模型采用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率設(shè)為1×10-4,權(quán)重衰減設(shè)為1×10-8,Batch size 設(shè)為512。模型共訓(xùn)練1000個(gè)epoch。
本文通過(guò)式(13)計(jì)算對(duì)分割結(jié)果與人工標(biāo)記圖像的平均交并比(mIoU)來(lái)評(píng)價(jià)模型對(duì)煤巖顯微圖像組分的分割精度:
其中,pc1,c2為將類別c1預(yù)測(cè)為c2的像素?cái)?shù),c1為真實(shí)值,c2為預(yù)測(cè)值。當(dāng)模型對(duì)圖像進(jìn)行分割的結(jié)果越接近標(biāo)記區(qū)域,mIoU 值越接近1,分割效果越好。
此外,本文將所提方法的分割結(jié)果及各組分占比與人工標(biāo)記結(jié)果進(jìn)行比較,以評(píng)價(jià)本文方法的準(zhǔn)確性。其中,煤巖顯微組分占比計(jì)算如式(14),V、I、S、B 分別為鏡質(zhì)組、惰質(zhì)組、半鏡半絲組、背景組占比:
本文另選4 張煤巖顯微圖像用作測(cè)試。其分別表示:僅含有鏡質(zhì)組、僅含有惰質(zhì)組、僅含有半鏡半絲組,以及3 種組分均包含的情況。煤巖顯微圖像、對(duì)應(yīng)人工標(biāo)記圖像、UNet++分割效果、交叉熵+UNet++算法分割效果、K-means算法分割效果如圖3所示。
圖3 煤巖顯微圖像原圖示例與各分割算法結(jié)果圖
從圖3可以看出,UNet++所得到的煤巖組分分割結(jié)果與人工標(biāo)記的組分區(qū)域最為接近。UNet++結(jié)合交叉熵算法則因背景組占比較大,導(dǎo)致無(wú)法區(qū)分煤巖組與背景組,對(duì)紋理較為相似的半鏡半絲組與惰質(zhì)組的分割效果同樣較差。而K-means 算法只能根據(jù)灰度圖像的像素值將煤巖顯微圖像分割成四類,無(wú)法根據(jù)各類組分的紋理特征進(jìn)行區(qū)分。同時(shí),K-means 算法只關(guān)注圖像顏色,導(dǎo)致在不同圖像上分割的分類中心取值不同,無(wú)法自動(dòng)判斷煤巖組分。
通過(guò)4.2 節(jié)中的式(14)的評(píng)價(jià)方法,將分割結(jié)果中各煤巖組分的占比與人工標(biāo)記的各組分占比進(jìn)行比較,結(jié)果如表3所示。
表3 本文方法與人工標(biāo)記的組分占比計(jì)算分析
從表3 可看出本文所提算法得到的煤巖各組分占比與人工標(biāo)記組分占比的平均差值均小于3%。對(duì)于僅含有惰質(zhì)組的煤巖顯微圖像,本文所提算法與標(biāo)記的惰質(zhì)組占比相差3.98%,半鏡半絲組和鏡質(zhì)組均相差低于2%,這表明本文所提算法能夠?qū)⒍栀|(zhì)組與其他組分準(zhǔn)確區(qū)分。對(duì)于僅含有鏡質(zhì)組或僅含有半鏡半絲組的煤巖顯微圖像,本文所提方法所得占比與人工標(biāo)注結(jié)果相差均相差小于5%,表明本文所提方法對(duì)于紋理相似的煤巖組分也能有效地區(qū)分。對(duì)于三種組分均含有的煤巖顯微圖像樣本,本文方法與人工標(biāo)記的組分占比相接近,差值均低于3%。
依據(jù)4.2 節(jié)中的mIoU 計(jì)算方法計(jì)算本文方法與人工標(biāo)記結(jié)果的mIoU 值,對(duì)四張測(cè)試圖像進(jìn)行分割精確度評(píng)估,結(jié)果如表4。
表4 本文方法所得分割結(jié)果mIoU值
從表4 中可以看到,對(duì)于選取的四張煤巖顯微樣本圖像,本文方法得到的分割結(jié)果mIoU 值均在90%以上,表明分割結(jié)果與人工標(biāo)注區(qū)域接近,分割效果較好。
本文基于UNet++模型結(jié)合Lovász-Softmax 損失函數(shù)進(jìn)行模型訓(xùn)練,使模型能對(duì)煤巖顯微圖像進(jìn)行有效準(zhǔn)確的組分識(shí)別與分割。本文所提算法與UNet++結(jié)合交叉熵方法就模型訓(xùn)練比較,本文所提算法獲得的各煤巖組分分類更加準(zhǔn)確;與K-means 算法相比,本文所提算法無(wú)需人工參與,分割準(zhǔn)確且受圖像灰度值變化影響較小。實(shí)驗(yàn)結(jié)果表明,由本文所提算法得到的煤巖顯微組分識(shí)別結(jié)果與人工標(biāo)注組分占比差異在3%以內(nèi),且mIoU均在90%以上,具有良好的煤巖顯微組分分割與分析效果。但由于算法前期采用切分原圖方式獲得煤巖樣本,使分割結(jié)果有著明顯的網(wǎng)格效應(yīng),后續(xù)工作中將針對(duì)該問(wèn)題進(jìn)行研究。