翟鈺杰,尚佳童,張 棟,趙偉強(qiáng),雷 濤?
(1.陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021;2.陜西省人工智能聯(lián)合實(shí)驗(yàn)室,陜西 西安 710021;3.中電科西北集團(tuán)有限公司西安分公司,陜西 西安 710065)
石油作為國(guó)際重要的化石資源,自20世紀(jì)50年代起,在能源消耗總量中,油氣始終占據(jù)首位,引起了生產(chǎn)方式的革命,創(chuàng)造了空前文明成果,使世界進(jìn)入了“石油時(shí)代”。石油供應(yīng)關(guān)系國(guó)家經(jīng)濟(jì)和軍事保障,影響發(fā)展戰(zhàn)略;與其他礦產(chǎn)資源相比,石油帶有更多的戰(zhàn)略物資的色彩。但由于油氣是流體礦物,在整個(gè)體系中油、氣、水關(guān)系復(fù)雜,不合理的開(kāi)采、驅(qū)油會(huì)大大降低其采收率,因此選用合適的驅(qū)油材料并對(duì)驅(qū)油率進(jìn)行分析則顯得尤為重要。驅(qū)油圖像分割是驅(qū)油率分析的關(guān)鍵步驟,它將不同時(shí)序得到的油水圖像進(jìn)行分割,目的是為下一步驅(qū)油率的計(jì)算以及材料的使用提供參考數(shù)據(jù)。因此,研究并找到更好的驅(qū)油圖像分割方法,提升模型分割水平,對(duì)整個(gè)石油資源領(lǐng)域都具有重要的意義,對(duì)社會(huì)的發(fā)展和進(jìn)步也具有不可代替的作用。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,圖像被廣泛應(yīng)用于目標(biāo)檢測(cè)、圖像分類(lèi)、分割和識(shí)別,其中圖像分割技術(shù)根據(jù)相似性原理將圖像分成幾個(gè)不同的部分。自從全卷積神經(jīng)網(wǎng)絡(luò)提出后將端到端的網(wǎng)絡(luò)結(jié)構(gòu)引入圖像語(yǔ)義分割技術(shù)中,隨后便被廣泛研究和利用,并且基于深度學(xué)習(xí)的圖像分割算法在各種圖像分割任務(wù)中取得顯著的成就。如Bai等人利用大規(guī)模CMR圖像數(shù)據(jù)集對(duì)FCN進(jìn)行訓(xùn)練及評(píng)估,最終得到與專(zhuān)家相同的分割精度和臨床測(cè)量精度。FCN可以接受任意大小的圖像,但圖像經(jīng)過(guò)池化操作后部分像素的空間位置信息丟失,分割過(guò)程中未能考慮圖像上下文信息,導(dǎo)致分割結(jié)果粗糙、分割邊界不連續(xù)。U-net則繼承FCN的思想,繼續(xù)進(jìn)行改進(jìn)。如Sreekumar等人使用兩個(gè)包含復(fù)雜背景的數(shù)據(jù)集Egohands和GTEA進(jìn)行訓(xùn)練多種網(wǎng)絡(luò)并測(cè)試比較,實(shí)驗(yàn)證明U-net相比于FCN具有更好的性能,其中實(shí)驗(yàn)通過(guò)將U-net網(wǎng)絡(luò)第一次應(yīng)用于手部分割,證明了其泛化性,也正是我們選取其進(jìn)行化工圖像分割的原因所在。U-Net將經(jīng)過(guò)多次下采樣得到的低分辨率信息和從編碼器直接傳遞到同高度解碼器上的高分辨率信息結(jié)合起來(lái),可以更好地適用于邊界模糊、梯度復(fù)雜的圖像任務(wù)。然而其大小固定的卷積導(dǎo)致圖像細(xì)節(jié)特征缺失;重復(fù)的下采樣、池化以及參數(shù)共享造成模型抗噪性差,魯棒性低,導(dǎo)致圖像分割精度差,邊界模糊。
為解決上述問(wèn)題,在U-net網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上提出一種新的網(wǎng)絡(luò)模型CoU-net,來(lái)有效地提取多尺度上下文信息并將其通過(guò)空間注意力融合,提高分割精度。通過(guò)吉淑瀅等人的研究證明,信息融合模塊在網(wǎng)絡(luò)復(fù)雜程度不變的基礎(chǔ)上可以有效提升分割結(jié)果的精度。多尺度信息融合方法有很多,本文提出的多尺度信息提取融合模塊由四個(gè)并行膨脹卷積濾波器和兩個(gè)級(jí)聯(lián)的注意力信息融合模塊組成,四個(gè)并行膨脹卷積濾波共享權(quán)重,用于捕獲不同的尺度上下文信息并且運(yùn)用空間注意機(jī)制進(jìn)行融合。模塊嵌入解碼器的頂部,可以通過(guò)自學(xué)習(xí)為不同尺度的目標(biāo)動(dòng)態(tài)選擇合適的感受野,更好地融合多尺度背景信息,提高分割精度。
2015年Olaf Ronneberger等人在FCN的基礎(chǔ)上改進(jìn),提出了U-net網(wǎng)絡(luò),由于其網(wǎng)絡(luò)呈“U”形而得名,網(wǎng)絡(luò)通過(guò)U形網(wǎng)絡(luò)和跳躍連接實(shí)現(xiàn)底層高分辨率圖像信息和深層語(yǔ)義信息相融合,可稱(chēng)之為醫(yī)學(xué)分割影像的基石,能夠有效處理醫(yī)學(xué)圖像任務(wù)。
在U-net中作者采用了對(duì)稱(chēng)結(jié)構(gòu),整個(gè)網(wǎng)絡(luò)分為編碼器部分(下采樣)和解碼器部分(上采樣),結(jié)構(gòu)簡(jiǎn)單但很有效,在生物醫(yī)學(xué)圖像的分割任務(wù)中取得了出色的效果。編碼器部分為特征提取網(wǎng)絡(luò),通過(guò)多層的卷積操作來(lái)提取特征信息,并采用步長(zhǎng)為2的2×2最大池化操作來(lái)縮小特征圖,提取更抽象的特征,獲取場(chǎng)景信息。解碼器為特征融合網(wǎng)絡(luò),對(duì)任務(wù)目標(biāo)進(jìn)行精確定位,通過(guò)上采樣操作,將包含高級(jí)抽象特征信息但低分辨率的圖片在保留高級(jí)抽象特征的基礎(chǔ)上變?yōu)楦叻直媛?,恢?fù)到原始圖像大小;并且圖片與編碼器提取的低級(jí)特征高分辨圖片進(jìn)行通道融合還原圖片細(xì)節(jié)信息。最后通過(guò)兩次卷積操作生成特征圖,再經(jīng)過(guò)sigmoid函數(shù)輸出一個(gè)反映預(yù)測(cè)結(jié)果的概率值,值越大,預(yù)測(cè)結(jié)果的可能性越大。U-net結(jié)構(gòu)不僅適用于生物醫(yī)學(xué)圖像,后也在遙感圖像、制造工業(yè)以及農(nóng)業(yè)等自然圖像中擔(dān)當(dāng)著重要角色。
正如引言中所討論的,多尺度上下文信息可以提高語(yǔ)義分割任務(wù)的性能。然而,如何有效地提取和整合利用這些信息是一個(gè)值得探索的問(wèn)題。DeepLabV1中作者提出空洞卷積的概念,在避免大量損失圖像特征的前提下增加感受野,在特征圖分辨率不變的同時(shí)增加卷積層的感受野,有效地獲取了圖像位置和細(xì)節(jié)信息。DeepLabV2中作者提出空洞空間金字塔池化(ASPP)結(jié)構(gòu),通過(guò)不同膨脹率的空洞卷積進(jìn)行卷積后,將得到的圖像多尺度信息特征圖進(jìn)行拼接。PSPNet和PoolNet采用了具有不同內(nèi)核大小的多個(gè)并行卷積池來(lái)聚合不同區(qū)域的上下文信息,從而提高獲取全局信息的能力。DeepLabV3和CE-Net采用了具有不同感受野的多個(gè)并行的卷積分支,提取不同尺度的特征信息后將其融合,提高了模型的多尺度信息捕獲能力。DeepLabV3+在V3的基礎(chǔ)上為了減少網(wǎng)絡(luò)計(jì)算量舍棄了傳統(tǒng)卷積運(yùn)算,采用了空洞深度可分離卷積將其替換。
設(shè)計(jì)一種新的多尺度信息提取融合模塊,具體結(jié)構(gòu)如圖1所示。在此模塊中,我們采用4個(gè)并行的、膨脹率分別為1、2、3、4的膨脹卷積改變傳統(tǒng)卷積的感受野,用來(lái)捕捉不同尺度的特征信息。膨脹卷積共享權(quán)重用來(lái)減少模型參數(shù)和過(guò)擬合的風(fēng)險(xiǎn)。
圖1 多尺度信息提取融合(MIEF)模塊
然而,在上述多尺度信息提取以及信息融合的過(guò)程中,感受野不能動(dòng)態(tài)調(diào)整以適應(yīng)不同大小的目標(biāo),導(dǎo)致模型的魯棒性較差,分割精度低。由于注意力機(jī)制已被廣泛用于改進(jìn)模型性能,許多基于注意力機(jī)制的規(guī)模感知網(wǎng)絡(luò)已被提出以克服上述問(wèn)題。SA通過(guò)將注意力模塊引入多尺度輸入,學(xué)會(huì)了對(duì)每個(gè)像素的多尺度特征進(jìn)行加權(quán)。AFNet和SPAP采用尺度感知層自適應(yīng)地改變有效感受野的大小。SKNet提出了一種動(dòng)態(tài)內(nèi)核選擇機(jī)制,將通道注意機(jī)制引入多個(gè)特征分支中。
除此之外,我們使用文獻(xiàn)中的注意力信息融合模塊來(lái)融合不同尺度的特征信息,增強(qiáng)模型的魯棒性和抗噪性。如圖2所示,引入空間注意力機(jī)制來(lái)動(dòng)態(tài)地選擇合適的尺度特征,并通過(guò)自學(xué)習(xí)將其融合。通過(guò)不同膨脹率的膨脹卷積得到的不同尺度的特征和經(jīng)過(guò)通道拼接,一系列卷積操作后得到一組通道數(shù)為2的特征圖,并將其按通道分別作為對(duì)應(yīng),的特征映射,∈×(:特征圖的高度,:特征圖的寬度)。通過(guò)softmax函數(shù)對(duì)空間值進(jìn)行操作后得到兩張像素級(jí)注意力特征圖,∈×,計(jì)算公式如式(1)所示。
[1,2,3,…,×]
(1)
其中,為特征映射圖,第個(gè)位置的像素值。
最后融合的特征圖通過(guò)加權(quán)和獲得,加權(quán)公式如式(2)所示。
=⊙+⊙
(2)
我們使用兩個(gè)并行的注意力信息融合模塊并與另一個(gè)進(jìn)行級(jí)聯(lián)操作,來(lái)獲得四個(gè)分支的最終融合特征。之后利用帶有可學(xué)習(xí)參數(shù)的殘差連接來(lái)獲得整個(gè)MIEF模塊的輸出。
圖2 注意力信息融合模塊
CoU-net網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,多尺度信息提取模塊和注意力信息融合模塊集成在一起,將編碼器提取的特征送入模塊中,從而提高圖像的分割精度。
圖3 CoU-net網(wǎng)絡(luò)
本次課題使用的是驅(qū)油數(shù)據(jù)集,此數(shù)據(jù)集是通過(guò)CAD和3D打印技術(shù)重新模擬新疆某油田中的巖石板,通過(guò)高分辨率相機(jī)拍攝驅(qū)油過(guò)程中油路的變化,按照像素差異總共包括3種類(lèi)別,其中背景為灰色,油是紅色,驅(qū)油材料為藍(lán)色,背景為分割場(chǎng)景中不關(guān)心的區(qū)域。
原始的影像尺寸較大,因此我們需要對(duì)原始影像和標(biāo)簽圖像進(jìn)行預(yù)處理,首先對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)裁剪,裁剪成2000張256×256大小的訓(xùn)練集,1000張測(cè)試集,并且在訓(xùn)練集中選取500張圖片作為驗(yàn)證集,為了確保數(shù)據(jù)集能夠訓(xùn)練出有效的網(wǎng)絡(luò)模型,使其具有魯棒性,需要將裁剪好的數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)。通過(guò)隨機(jī)角度旋轉(zhuǎn)、翻轉(zhuǎn)、伽馬變換、亮度變化以及添加噪聲等增強(qiáng)圖像數(shù)據(jù)集。經(jīng)過(guò)對(duì)原始影像進(jìn)行預(yù)處理操作,最終形成了2000張?jiān)瓐D和對(duì)應(yīng)標(biāo)簽構(gòu)成的訓(xùn)練集,500張?jiān)瓐D和對(duì)應(yīng)標(biāo)簽構(gòu)成的驗(yàn)證集以及1000張測(cè)試集,如圖4所示,至此實(shí)驗(yàn)所需數(shù)據(jù)集建立完成。
圖4 數(shù)據(jù)集(部分)
實(shí)驗(yàn)環(huán)境為:處理器Intel(R) Xeon(R) CPU E5-1620 v4 @ 3.50 GHz,顯卡NVIDIA GeForce GTX 1080,內(nèi)存64 GB,Windows64位系統(tǒng)。GPU加速庫(kù)為CUDA 11.0;深度學(xué)習(xí)框架為PyTorch,版本為torch 1.7.1;開(kāi)發(fā)環(huán)境為PyCharm,版本為2019.3.3;編程語(yǔ)言為Python 3.7;可視化工具為T(mén)ensorboardX 2.4;python庫(kù)NumPy 1.19.5。
為了定量分析模型在驅(qū)油圖像中進(jìn)行分割的效果,引入三個(gè)分割評(píng)價(jià)指標(biāo),分別為準(zhǔn)確率(Accuracy),交并比(IoU)和平均交并比(MIoU),其計(jì)算公式分別如式(3)~(5)所示。
(3)
(4)
(5)
其中,代表樣本為正,預(yù)測(cè)結(jié)果為正;代表樣本為負(fù),預(yù)測(cè)結(jié)果為正;代表樣本為正,預(yù)測(cè)結(jié)果為負(fù);代表樣本為負(fù),預(yù)測(cè)為負(fù);為圖像總類(lèi)別數(shù)。
為了驗(yàn)證所提出方法的有效性,提出的網(wǎng)絡(luò)為CoU-net,與原始U-net、MU-net、U-net++、ResNet深度學(xué)習(xí)模型進(jìn)行對(duì)比。實(shí)驗(yàn)采用交叉熵(Cross Entropy)損失函數(shù)和Adam優(yōu)化器來(lái)對(duì)網(wǎng)絡(luò)模型優(yōu)化,學(xué)習(xí)率(Learning Rate)為0.0001,批數(shù)量(Batch)為8,迭代次數(shù)(Epoch)為300,最終模型收斂,分割模型性能指標(biāo)如表1所示。
表1 分割模型性能指標(biāo)
表1展示了不同分割模型的性能,從結(jié)果中可以看出CoU-net在測(cè)試集上的MIoU達(dá)到了72.18%,準(zhǔn)確率達(dá)到了83.34%,相比于原始的U-net網(wǎng)絡(luò)分別提高了1.24%和2.55%,并且優(yōu)于其他網(wǎng)絡(luò)。由此可以驗(yàn)證本文方法的可行性,具有更加優(yōu)異的分割精度。
為了更直觀地表示,圖5列舉了部分圖像分割樣例。從圖中可以看出,使用CoU-net進(jìn)行分割的圖片已經(jīng)非常接近標(biāo)注圖像,并且相比于其他網(wǎng)絡(luò)的分割結(jié)果邊界更為明確,線(xiàn)條更加流暢,明顯優(yōu)于原始網(wǎng)絡(luò)。
圖5 不同分割網(wǎng)絡(luò)的結(jié)果圖對(duì)比
基于U-net提出了一種新的U形網(wǎng)絡(luò)模型:CoU-net用于化工驅(qū)油圖像分割,解決了U-net中多尺度上下文信息提取不足以及融合過(guò)程中造成的信息冗余,模型魯棒性差等問(wèn)題。設(shè)計(jì)并嵌入了集成多尺度信息提取以及空間注意力機(jī)制的MIEF模塊,實(shí)現(xiàn)了多尺度上下文信息的提取融合,有效地改善了U-net對(duì)圖像邊緣細(xì)節(jié)的分割能力,并且通過(guò)注意力機(jī)制提高了原有模型的魯棒性,提高了模型對(duì)圖像重要任務(wù)的計(jì)算能力,分割精度較原始模型有較大的提升。但整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)還存在一定的問(wèn)題,在跳躍連接部分沒(méi)有進(jìn)行充分的考慮,在一些細(xì)致的目標(biāo)上還存在問(wèn)題,未來(lái)將重點(diǎn)對(duì)網(wǎng)絡(luò)構(gòu)架進(jìn)行優(yōu)化,針對(duì)跳躍連接進(jìn)行改進(jìn),進(jìn)一步提高分割精度。