周淑娟,張 崳,張 恒,王 琦,劉光潔,朱金龍
(長(zhǎng)春師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長(zhǎng)春 130032)
英國(guó)曼徹斯特大學(xué)于2010年憑借其突破性的石墨烯試驗(yàn)榮獲諾貝爾物理獎(jiǎng)[1]。此后對(duì)于納米技術(shù)的研究達(dá)到了高潮。納米材料的粒度在1~100 nm之間,由于其微粒的大小與物質(zhì)玻爾半徑相近,因此,納米材料具有很強(qiáng)的化學(xué)活性[2]和很高的吸附能力[3]。正是由于納米材料在涂料、催化、新能源等領(lǐng)域特殊的物理、化學(xué)性質(zhì),使納米材料在工業(yè)生產(chǎn)中有著廣泛的應(yīng)用前景[4]。
在納米粒子的檢測(cè)中,傳統(tǒng)的測(cè)量技術(shù)是以數(shù)字圖像為基礎(chǔ)。在邊緣的處理上,劉冕[5]在2014年提出了一種基于形態(tài)學(xué)的邊緣檢測(cè)方法,并使用了一種新的形態(tài)尺度算子對(duì)圖像進(jìn)行提取。2017年,MIRZAEI等[6]利用改進(jìn)的霍夫圓變換(Circular Hough Transform,CHT)技術(shù)改善TEM圖像中納米顆粒的敏感性和特異性,從而實(shí)現(xiàn)了對(duì)納米顆粒圖像的精確探測(cè)。在區(qū)域檢測(cè)方面,魏本征等[7]在2018年提出了一種新的基于局部特征限制的圖像分割方法。
近年來(lái),隨著深度學(xué)習(xí)的深入和遷移學(xué)習(xí)的深入,在圖像識(shí)別和物體檢測(cè)等領(lǐng)域中,深度學(xué)習(xí)的應(yīng)用也日益廣泛[8-10],該方法具有較強(qiáng)的特征抽取和非線性擬合功能,因此能夠有效地應(yīng)用于各種場(chǎng)合。為此,有學(xué)者將深度學(xué)習(xí)技術(shù)引入納米顆粒檢測(cè)中。2019年,張芳等[11]提出了一種利用U-net卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)粒子的精確測(cè)量,實(shí)驗(yàn)結(jié)果表明,該算法能夠精確地分割出圖像中的納米粒子,并對(duì)邊緣模糊、亮度不均勻的納米粒子進(jìn)行有效的分割。2021年,劉淑慧等[12]利用深度學(xué)習(xí)方法對(duì)TEM納米顆粒的大小和形狀進(jìn)行識(shí)別與粒徑統(tǒng)計(jì)。
目前對(duì)納米顆粒的大量研究是對(duì)粒子本身的分割和檢測(cè),而在功能催化下納米級(jí)材料中納米粒子在催化劑表面成有序排列,形成各種結(jié)構(gòu)圖案[13]。本文使用Faster R-CNN模型對(duì)納米顆粒形成的結(jié)構(gòu)圖案進(jìn)行目標(biāo)檢測(cè),并在此基礎(chǔ)上對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),同時(shí)使用一階段的YoloV3模型進(jìn)行對(duì)比驗(yàn)證。
本實(shí)驗(yàn)的主要困難在于TEM影像均是灰度圖像,各部分的反差較大,除了背景部分受到核外殼的干擾外,其紋理信息也不豐富,而且目前尚無(wú)通用且標(biāo)記好的納米材料數(shù)據(jù)庫(kù),因此必須進(jìn)行自行標(biāo)記和預(yù)處理。另外,在以往的實(shí)驗(yàn)中,對(duì)于納米顆粒的實(shí)驗(yàn)大多數(shù)是對(duì)納米顆粒本身的研究,而對(duì)于納米顆粒結(jié)構(gòu)的研究很少,所以本實(shí)驗(yàn)具有一定的挑戰(zhàn)性。
2015年,REN等[14]提出了Faster R-CNN的網(wǎng)絡(luò)架構(gòu),F(xiàn)aster R-CNN模型包括四大模塊:數(shù)據(jù)集、特征提取、RPN(Region Proposal Network)和ROIPooling四個(gè)部分,模型架構(gòu)見(jiàn)圖1,首先將數(shù)據(jù)集圖片放到特征提取模塊中進(jìn)行特征提取,然后將提取到的特征輸入到RPN網(wǎng)絡(luò)中,篩選目標(biāo)候選框,最后將所有的候選框輸入到ROIPooling中,對(duì)目標(biāo)進(jìn)行分類和識(shí)別。在數(shù)據(jù)集格式上,主要有基于VOC和COCO的數(shù)據(jù)集格式,本文采用的是VOC格式。特征提取模塊是從CNN中抽取圖像的特征,在REN等[14]提出的Faster R-CNN模型中使用的是ZF和VGG16模型,本文進(jìn)行了改進(jìn),以ResNet50網(wǎng)絡(luò)模式為基礎(chǔ)對(duì)特征進(jìn)行提取,ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖2,在ResNet50網(wǎng)絡(luò)結(jié)構(gòu)中,首先進(jìn)行一層普通的卷積與池化,然后使用BottleNeck進(jìn)行卷積處理。BottleNeck的構(gòu)造見(jiàn)圖3,BottleNeck的網(wǎng)絡(luò)結(jié)構(gòu)是先通過(guò)1*1的卷積對(duì)特征圖像進(jìn)行降維,做一次3*3的卷積操作,再通過(guò)1*1卷積恢復(fù)維度,后面跟著B(niǎo)N和ReLU層,然后進(jìn)行連接;FasterR-CNN體系架構(gòu)的一個(gè)重要?jiǎng)?chuàng)新之處是RPN,它的作用是提供備選區(qū)域(每個(gè)圖表大約有2 000個(gè)候選框),其架構(gòu)見(jiàn)圖4,主要結(jié)構(gòu)為將特征圖經(jīng)過(guò)一個(gè)3*3的卷積之后分別進(jìn)入了不同的分支,對(duì)應(yīng)不同的1*1卷積。第一個(gè)卷積為定位層,輸出候選框的4個(gè)坐標(biāo)偏移。第二個(gè)卷積為分類層,輸出候選框的前后景概率。ROIPooling將會(huì)對(duì)ROIs進(jìn)行歸類和調(diào)整,并根據(jù)RPN發(fā)現(xiàn)的ROIs來(lái)判定該ROIs是否包括了一個(gè)對(duì)象,并修改了該塊的位置和坐標(biāo),最后通過(guò)全連接層進(jìn)行分類與回歸預(yù)測(cè)量的計(jì)算。
圖1 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)
圖3 BottleNeck模塊
圖4 RPN網(wǎng)絡(luò)結(jié)構(gòu)
本次實(shí)驗(yàn)的數(shù)據(jù)集來(lái)自BOIKO[13]使用顯微鏡得到的有序數(shù)據(jù)集dataset1,其中包含750幅代表主要有序納米結(jié)構(gòu)的TEM圖像,每個(gè)圖像的大小為1 280×1 024像素,本實(shí)驗(yàn)中主要識(shí)別含有circle結(jié)構(gòu)的圖像,因此,從數(shù)據(jù)集中篩選出77張帶有circle標(biāo)簽的圖片,并使用數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集到847張,其中,training dataset為679張,Eval dataset為84張,Test dataset為84張。
1.2.1 數(shù)據(jù)集標(biāo)注
由于目前沒(méi)有公開(kāi)的納米顆粒結(jié)構(gòu)的數(shù)據(jù)集,因此本實(shí)驗(yàn)需要自行對(duì)數(shù)據(jù)集進(jìn)行手動(dòng)標(biāo)記,在本次數(shù)據(jù)集標(biāo)注使用的軟件為labelimg,標(biāo)注完生成xml文件,作為mask文件。使用的深度學(xué)習(xí)模型為Faster R-CNN,數(shù)據(jù)集格式為VOCdevkit2007格式,其中,Annotations文件中存放標(biāo)注生成的mask文件,JPEGImages文件中存放原始的圖片文件。
1.2.2 數(shù)據(jù)增強(qiáng)
在原始數(shù)據(jù)集中,篩選77張圖片用于模型的訓(xùn)練、驗(yàn)證和測(cè)試,但是通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),其實(shí)驗(yàn)結(jié)果并不理想。在表1中,可以看到模型Faster R-CNN的實(shí)驗(yàn)結(jié)果,其map值(mean average precision)為56.872 4,因此對(duì)實(shí)驗(yàn)圖片進(jìn)行了數(shù)據(jù)增強(qiáng),本實(shí)驗(yàn)中數(shù)據(jù)增強(qiáng)方法有橫向翻轉(zhuǎn)加強(qiáng)、豎向加強(qiáng)、鏡像對(duì)稱加強(qiáng)、仿射改變、旋轉(zhuǎn)、高斯加噪聲、對(duì)比度改變、尺度轉(zhuǎn)換和平移,使每幅圖像隨機(jī)增加10幅,從原始的77幅增加到847幅,并將其分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,分割比例為8∶1∶1,最終,訓(xùn)練集為677張,驗(yàn)證集為5張,測(cè)試集為85張。
表1 各模型的實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,訓(xùn)練的參數(shù)有:學(xué)習(xí)率learning_rate;優(yōu)化器進(jìn)行預(yù)訓(xùn)練過(guò)程的步數(shù)warmup_steps;優(yōu)化器訓(xùn)練的起始學(xué)習(xí)率warmup_start_lr;優(yōu)化器的學(xué)習(xí)率衰減輪數(shù)lr_decay_epochs;nms_threshold為RCNN部分在進(jìn)行非極大值抑制時(shí),用于剔除檢測(cè)框所需的IoU閾值,所有參數(shù)具體設(shè)置如表2所示。
表2 實(shí)驗(yàn)參數(shù)
在實(shí)驗(yàn)中使用目標(biāo)檢測(cè)領(lǐng)域常用的評(píng)價(jià)指標(biāo)map來(lái)衡量算法的性能。AP是指一個(gè)類別的平均精度,它表示模型在某一個(gè)類別上的效果。map是所有類別AP的平均值,表示模型在所有類別上的整體效果,召回率為在[0,1]范圍內(nèi)的平均AP值。在二分類問(wèn)題中,分類器的結(jié)果在測(cè)試數(shù)據(jù)上通常有三種情況:T(True Positive)、F(False Positive)和M(False Negative),其中,P代表AP值,R代表召回率。
P=T/(T+F),
(1)
R=T/(T+M).
(2)
本文使用BOIKO[13]通過(guò)顯微鏡得到的數(shù)據(jù)集進(jìn)行算法訓(xùn)練與測(cè)試,圓形納米顆粒結(jié)構(gòu)的檢測(cè)結(jié)果如圖5所示,其中,圖5(a)(c)(e)是原始圖像預(yù)處理圖,圖5(b)(d)(f)是使用改進(jìn)后的Faster R-CNN模型的檢測(cè)結(jié)果圖;在圖5(b)(d)(f)的結(jié)果圖中,檢測(cè)框上的數(shù)字代表置信度,如圖5(b)中,上方寫(xiě)的circle 1.00代表目標(biāo)為circle的置信度為1,表示將目標(biāo)完全檢測(cè)了出來(lái)。在本實(shí)驗(yàn)中,RCNN部分在進(jìn)行非極大值抑制時(shí),設(shè)置剔除檢測(cè)框所需的IoU閾值為0.5,過(guò)濾掉低置信度邊界框所需的置信度閾值設(shè)置為0.05。從實(shí)驗(yàn)結(jié)果圖可以看出來(lái),使用改進(jìn)后的Faster R-CNN模型可以準(zhǔn)確識(shí)別出圖像中帶有圓形的目標(biāo)結(jié)構(gòu)。
(a)
(b)
(c)
(d)
(e)
(f)
將改進(jìn)后的算法與YoloV3模型進(jìn)行對(duì)比,如表1所示。實(shí)驗(yàn)結(jié)果如下:改進(jìn)的算法Faster R-CNN_data_agu_Res在訓(xùn)練次數(shù)為70后,損失loss值為0.094 8,目標(biāo)框的map值達(dá)到98.663 1。相比之下,未改進(jìn)的Faster R-CNN模型的loss值為0.217 6,map值為56.872 4,一階段的YoloV3算法的loss值為0.012 6,map值為87.484 7。改進(jìn)模型與一階段的YoloV3算法相比,其map值提升了大約11%,比最原始的Faster R-CNN算法的map值提升了大約41%,因此改進(jìn)算法的性能更好。
綜上所述,本文提出了一種基于深度學(xué)習(xí)的納米顆粒結(jié)構(gòu)識(shí)別的方法,使用Faster R-CNN網(wǎng)絡(luò)對(duì)納米結(jié)構(gòu)進(jìn)行識(shí)別,避免了傳統(tǒng)方法對(duì)顆粒結(jié)構(gòu)識(shí)別費(fèi)事且費(fèi)力的缺點(diǎn),可以更高效地進(jìn)行目標(biāo)檢測(cè)。此外,對(duì)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng),使實(shí)驗(yàn)結(jié)果更加準(zhǔn)確,其map值變高。在實(shí)驗(yàn)中與一階段的YoloV3方法進(jìn)行了比較,發(fā)現(xiàn)對(duì)于納米顆粒結(jié)構(gòu)的識(shí)別Faster R-CNN表現(xiàn)出了更好的實(shí)驗(yàn)效果。將目標(biāo)檢測(cè)和手動(dòng)指導(dǎo)標(biāo)注結(jié)果作為標(biāo)準(zhǔn)進(jìn)行相比,map值達(dá)到了98.663 1,實(shí)驗(yàn)結(jié)果證明了本文方法準(zhǔn)確可靠。