国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ASPP-SOLOv2 的復(fù)雜場景下透明玻璃儀器實(shí)例分割

2023-02-24 03:06葛建統(tǒng)祝模芮冉進(jìn)業(yè)
關(guān)鍵詞:掩膜實(shí)例類別

葛建統(tǒng), 楊 鑫, 祝模芮, 冉進(jìn)業(yè), 翟 持, 張 浩

(1. 重慶理工大學(xué) 化學(xué)化工學(xué)院, 重慶 400054; 2. 布達(dá)佩斯技術(shù)與經(jīng)濟(jì)大學(xué) 電氣工程與信息學(xué)院,布達(dá)佩斯 1111; 3. 西南大學(xué) 計(jì)算機(jī)信息與科學(xué)學(xué)院, 重慶 400715; 4. 昆明理工大學(xué) 化學(xué)工程學(xué)院,云南 昆明 650500; 5. 西南大學(xué) 化學(xué)化工學(xué)院, 重慶 400715)

1 前 言

全自動化學(xué)實(shí)驗(yàn)設(shè)備不僅避免重復(fù)勞動、操作失誤和實(shí)驗(yàn)事故,而且能夠嘗試高危、高毒等極端條件實(shí)驗(yàn)。當(dāng)前已存在較多自主化學(xué)實(shí)驗(yàn)設(shè)備[1]或者利用圖像分析技術(shù)對系統(tǒng)內(nèi)部進(jìn)行特性判別[2-3]與流型辨識[4]來輔助實(shí)驗(yàn)。準(zhǔn)確識別并操作玻璃儀器是化學(xué)機(jī)器人視覺系統(tǒng)必須解決的任務(wù)[5-6]。

由于實(shí)驗(yàn)室儀器繁多且排列緊密,識別對象高度重疊,遮擋導(dǎo)致的非自然物體邊界和物體真實(shí)輪廓在語義上難以區(qū)別,進(jìn)一步加大了實(shí)驗(yàn)室透明儀器實(shí)例分割的難度。作為物體檢測和語義分割的有機(jī)結(jié)合,基于掩膜區(qū)域的卷積網(wǎng)絡(luò)(Mask R-CNN)[7]、混合底層和高層信息的方法(BlendMask)[8]、搜索識別網(wǎng)絡(luò)(SINet)[5]和一種動態(tài)快速實(shí)例分割2.0 版(SOLOv2)[9]方法等模型利用卷積核自動提取目標(biāo)圖像特征,在實(shí)例分割領(lǐng)域很成功,但通用的模型直接用于玻璃儀器實(shí)例分割效果尚有較大提升空間。針對透明目標(biāo)的檢測,部分研究[10-12]利用深度相機(jī)和超聲波傳感器等多傳感器融合經(jīng)典視覺輔助系統(tǒng)獲取透明目標(biāo)光學(xué)與深度信號。Xu 等[13]利用光場線性、遮擋檢測和幾何關(guān)系信息從四維光場圖像中分割出透明物體;Chen 等[14]利用多尺度編解碼器網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)同時(shí)獲取任意背景圖像中透明物體的輪廓掩膜、顏色衰減掩模和折射流場;Xie 等[15-16]通過融合淺層特征和高級特征獲取邊界線索改進(jìn)透明目標(biāo)語義分割準(zhǔn)確率,可準(zhǔn)確識別其透明物體分割數(shù)據(jù)集(Trans10K)中94.14% 的目標(biāo);Zhang 等[17-18]針對生活場景的透明物體進(jìn)行語義分割,在Trans10K 數(shù)據(jù)集的平均交并比達(dá)到75.14%。然而,上述模型的訓(xùn)練數(shù)據(jù)集容量小、背景語義不合理且目標(biāo)相對獨(dú)立:Xu 等[13]的數(shù)據(jù)集僅包含49 張圖片和7 種物品;Chen 等[14]的數(shù)據(jù)集包含876 張真實(shí)圖像和178 000 張合成圖像,背景和目標(biāo)物體不夠自然;目前Trans10K 由11 類真實(shí)家庭場景的圖像組成,包含10 428 張圖片。針對化學(xué)實(shí)驗(yàn)室場景實(shí)例分割,Eppel 等[19]建立了包含2 187 張圖片的化學(xué)實(shí)驗(yàn)室數(shù)據(jù)集并進(jìn)行語義和實(shí)例分割任務(wù),平均交并比達(dá)到0.80。然而,該數(shù)據(jù)集未能對透明容器進(jìn)行細(xì)分且背景簡單,不能滿足實(shí)驗(yàn)室自主化設(shè)備的視覺系統(tǒng)要求。

為實(shí)現(xiàn)復(fù)雜場景下透明玻璃儀器實(shí)例分割,本研究建立了包含1 548 張復(fù)雜場景圖像的實(shí)例級標(biāo)注數(shù)據(jù)。SOLOv2 在COCO 數(shù)據(jù)集可以18 幀·s-1的速度實(shí)現(xiàn)38.8% 的掩模分割精度,在顯著目標(biāo)的實(shí)例分割任務(wù)中具備較好的實(shí)時(shí)檢測性能,但在復(fù)雜場景下無法完整地定位透明目標(biāo),故以具備出色實(shí)時(shí)檢測性能的SOLOv2[9]方法為基礎(chǔ),提出了基于空洞空間金字塔池化的分割模型(ASPP-SOLOv2),提高對密集重疊透明物體的實(shí)例分割精度。該模型利用空洞空間金字塔池化(ASPP)[20]與特征金字塔輸出的特征部分進(jìn)行自下而上融合后增強(qiáng)多尺度信息[21-22],可以改善透明儀器的幾何、邊緣等淺層信息和高層語義的表示能力,最終提升模型在復(fù)雜場景下對目標(biāo)的分割能力。

2 復(fù)雜背景化學(xué)實(shí)驗(yàn)透明玻璃儀器數(shù)據(jù)集

由于當(dāng)前公開數(shù)據(jù)集規(guī)模小、類別少且缺少實(shí)例標(biāo)注,本研究依據(jù)微軟公開的數(shù)據(jù)集(COCO)[23]的相關(guān)標(biāo)準(zhǔn)采集某大學(xué)化學(xué)類實(shí)驗(yàn)室工作場景圖片,使用Labelme 軟件進(jìn)行完全標(biāo)注,形成了1 548 張帶有實(shí)例標(biāo)注的化學(xué)類透明儀器數(shù)據(jù)集(CTG)。CTG 數(shù)據(jù)集地址:https://github.com/Pau0031/Chemical-Transparent-Apparatus-Research。該數(shù)據(jù)集包含三頸燒瓶、上嘴抽濾瓶、圓底燒瓶、容量瓶、樣品瓶、離心管、塑料吸管、比色管、量筒、錐形瓶、廣口瓶、燒杯、螺紋試劑瓶和鹽水瓶共14 類,分別統(tǒng)計(jì)分辨率、實(shí)例大小比例和類別分布,并與Eppel 的數(shù)據(jù)集(Vector-LabPics)[19]中的透明容器進(jìn)行比較,如圖1 所示,圖1(a)為類別對比;圖1(b)為圖像分辨率分布,px 為像素單位;圖1(c)為實(shí)例占全圖比例分布;圖1(d)為單幅圖像實(shí)例個數(shù)分布。

圖1 CTG 數(shù)據(jù)集與vector-LabPics 數(shù)據(jù)集特征對比圖Fig.1 Comparison of features between CTG dataset and vector-LabPics dataset

由于實(shí)驗(yàn)室性質(zhì)限制,CTG 數(shù)據(jù)集中錐形瓶和容量瓶數(shù)目遠(yuǎn)多于其他實(shí)例。數(shù)據(jù)集的分辨率、實(shí)例大小比例和實(shí)例類別數(shù)量分布統(tǒng)計(jì)如下:

1、分辨率:高分辨率圖像能夠提供更多邊界細(xì)節(jié)[24],圖1(b)中CTG 數(shù)據(jù)集圖像最大高度為4 060像素,最小為150 像素;最大寬度為2 905 像素,最小寬度為150 像素,其中包括大量的1 080 像素分辨率圖像。與Vector-LabPics 數(shù)據(jù)集相比,CTG 數(shù)據(jù)集分辨率分布更為集中,原始圖像特征方差更小。圖像分布在不同的高寬比(h/w)之間,1 020 張圖像集中在高寬比為(0.70,1.10)區(qū)間上,占總體比例較大,只有4 張圖像在高寬比為(1.90,2.30)的區(qū)間上。

2、實(shí)例大小比例:為實(shí)現(xiàn)復(fù)雜場景下透明玻璃儀器實(shí)例分割,本研究所建CTG 數(shù)據(jù)集實(shí)例大小比例與Vector-LabPics 數(shù)據(jù)集較為一致。歸一化后實(shí)例大小分布[25](基于800 像素×800 像素的分辨率)見圖1(c),整個數(shù)據(jù)集中目標(biāo)占整圖的比例在0.01%~71.00%。其中像素區(qū)域小于322的實(shí)例有242 個,占比3.97%。像素區(qū)域介于322~962的實(shí)例有1 585 個,占比26.01%。像素區(qū)域大于962的實(shí)例有4 266個,占比70.02%。單幅圖像平均實(shí)例個數(shù)為3.94,是Vector-LabPics 數(shù)據(jù)集平均實(shí)例個數(shù)的2.01 倍,單幅最高實(shí)例個數(shù)達(dá)到54,場景復(fù)雜度大幅提高,如圖1(d)。從圖中看出CTA 數(shù)據(jù)集與Vector-LabPics數(shù)據(jù)集有相似的分布范圍。

3、實(shí)例類別數(shù)量:CTG 數(shù)據(jù)集中的實(shí)例共有6 093 個,且與Vector-LabPics 數(shù)據(jù)集的透明容器部分實(shí)例類別進(jìn)行比較,如圖1(a)。實(shí)例類別有4 個與Vector-LabPics 數(shù)據(jù)集相同。由于Vector-LabPics 數(shù)據(jù)集中燒瓶、容器和罐子等存在多目標(biāo)交叉標(biāo)注、多種不同類型的目標(biāo)標(biāo)注為1 類等問題,為了滿足應(yīng)用需求,在CTG 數(shù)據(jù)集新增10 個類別,使之更加接近實(shí)際實(shí)驗(yàn)室場景。

3 算法介紹

3.1 SOLOv2

動態(tài)快速實(shí)例分割(SOLO)[9]通過完整實(shí)例標(biāo)注的有監(jiān)督學(xué)習(xí),引入實(shí)例類別概念對目標(biāo)按位置進(jìn)行分割,擺脫對邊界框的精確檢測和像素的分組處理。SOLOv2 在SOLO 模型的基礎(chǔ)上引入掩膜學(xué)習(xí)和掩膜非最大抑制,大幅度提高了模型的推理速度。基于檢測框的兩階段模型分割效果依賴于候選檢測框的生成,這會影響模型的推理速度。相比兩階段模型,單階段模型SOLOv2 在推理過程中免去了感興趣區(qū)域的生成和目標(biāo)框的回歸,并優(yōu)化后處理算法降低計(jì)算量以滿足實(shí)時(shí)檢測的需要,直接將輸入圖像映射到所需的實(shí)例類別和掩膜,該方法在COCO 數(shù)據(jù)集上以18 幀·s-1的速度實(shí)現(xiàn)38.8% 的掩模分割精度。所以本工作以SOLOv2 算法為基礎(chǔ),實(shí)現(xiàn)對化學(xué)類透明玻璃儀器的識別。

3.2 空洞空間金字塔池化

空洞空間金字塔池化在金字塔池化模塊引入空洞卷積,采取并聯(lián)式的空洞卷積彌補(bǔ)局部信息的丟失并獲取遠(yuǎn)距離像素信息,捕捉多尺度上下文信息,即特征圖上每個像素取值不僅考慮前一個卷積層上對應(yīng)位置的參數(shù),同時(shí)鄰近像素的取值也會影響當(dāng)前層該位置上的參數(shù)權(quán)重,提高復(fù)雜場景中重疊目標(biāo)分割精度。通過具有不同感受野的多個并行空洞卷積層的計(jì)算,提取密集的特征映射并實(shí)現(xiàn)多尺度信息融合,有利于學(xué)習(xí)復(fù)雜場景中重疊目標(biāo)之間的區(qū)別,網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 空洞空間金字塔池化模塊Fig.2 Schematic diagram of Atrous Spatial Pyramid Pooling Modules

3.3 ASPP-SOLOv2 模型結(jié)構(gòu)

基于上述單階段實(shí)例分割模型和空洞卷積的優(yōu)點(diǎn),本研究在SOLOv2 的骨干網(wǎng)絡(luò)結(jié)構(gòu)中引入ASPP 分支,并以自下而上的路徑聚合方式進(jìn)行合理的特征融合,提出ASPP-SOLOv2 模型來提高對密集重疊透明儀器的分割能力。該模型輸入圖像經(jīng)過骨干網(wǎng)絡(luò)和特征金字塔(FPN)提取特征信息,同時(shí)在骨干網(wǎng)絡(luò)1/16 階段,通過ASPP 在分辨率較大且圖像邊界細(xì)節(jié)信息充足階段擴(kuò)大感受野,提取多尺度信息。該信息與FPN 前4 層輸出結(jié)果進(jìn)行特征融合,經(jīng)過3×3 卷積、批歸一化和最大池化后輸出的5 個不同尺寸的特征圖,最終輸入掩膜預(yù)測分支和類別預(yù)測分支產(chǎn)生實(shí)例結(jié)果,并用非極大值抑制方法篩選結(jié)果。

其中,骨干網(wǎng)絡(luò)使用變體殘差網(wǎng)絡(luò)(Res2Net)加強(qiáng)細(xì)粒度特征的提取。通過引入ASPP 分支并將其結(jié)果上采樣4 倍后,與FPN 輸出的最底層特征圖進(jìn)行維度疊加。借鑒路徑聚合網(wǎng)絡(luò)[21]的設(shè)計(jì)理念,為了更好地結(jié)合淺層特征和高層語義特征,將疊加后的特征圖經(jīng)過1×1 卷積降維后,與更深層特征進(jìn)行維度疊加和特征融合,如圖3 所示。這樣可以使模型更準(zhǔn)確地表示透明儀器的多尺度復(fù)雜特征,有利于下一階段的預(yù)測輸出。掩膜預(yù)測分支取FPN 前4 層特征進(jìn)行卷積,分為掩膜特征分支和卷積核學(xué)習(xí)分支,通過產(chǎn)生相同數(shù)量的特征圖和卷積核,將二者相乘得到實(shí)例掩膜預(yù)測結(jié)果。同時(shí),對FPN 輸出中最高分辨率和最低分辨率特征圖分別進(jìn)行2 倍雙線性插值下采樣和上采樣后,由實(shí)例類別預(yù)測分支產(chǎn)生實(shí)例類別。根據(jù)實(shí)例中心在網(wǎng)格的位置映射實(shí)例掩膜結(jié)果和實(shí)例類別之間對應(yīng)的關(guān)系,最終輸出實(shí)例預(yù)測結(jié)果。

圖3 ASPP-SOLOv2 結(jié)構(gòu)示意圖Fig.3 Schematic diagram of the framework of ASPP-SOLOv2

3.4 損失函數(shù)

模型損失函數(shù)L由分類損失Losscate和掩膜損失Lossmask構(gòu)成,見式(1):

其中,分類損失Losscate為焦點(diǎn)損失函數(shù)[22],見式(2);掩膜損失Lossmask見式(3);超參數(shù)λ為掩膜損失權(quán)重,設(shè)置為3,與原始方法保持一致。

式中:Labels 為真實(shí)標(biāo)簽;σ(p)為預(yù)測類別經(jīng)過激活函數(shù)計(jì)算后的結(jié)果;超參數(shù)α和γ分別默認(rèn)為0.25和2.0。

式中:I為布爾型變量,i= [k/S];j=kmodS;k為正樣本的全局序號;i為該樣本所處的通道號;j為該樣本在該通道的網(wǎng)格單元位置;S為網(wǎng)格單元數(shù);Npos為正樣本數(shù);p和q分別為預(yù)測掩膜和真實(shí)掩膜;如果pi,j> 0,則I為1,否則為0;[ ]表示取整運(yùn)算,mod 為取余數(shù)運(yùn)算。

LossDice(p,q)是用于評估2 個樣本相似性的度量函數(shù),如式(4)所示:

式中:p(x,y)和q(x,y)分別為p和q中位于(x,y)處的像素值。

4 透明玻璃儀器的實(shí)例分割預(yù)測

4.1 評價(jià)指標(biāo)

本研究采用基于交并比(IoU)的平均精確率(AP)和平均召回率(AR)評估模型性能。計(jì)算公式如式(5)~(7)所示。

式中:NTP為被正確檢測出來的正樣本數(shù)量;NFP為誤檢數(shù)量;NFN為漏檢數(shù)量;N為類別數(shù);APav為多類別AP 均值。

依據(jù)COCO 數(shù)據(jù)集標(biāo)準(zhǔn),定義像素區(qū)域小于322的目標(biāo)為小目標(biāo),介于322~962的目標(biāo)為中型目標(biāo),大于962的目標(biāo)為大型目標(biāo)。精確率AP 為召回率曲線與坐標(biāo)軸所圍成的面積,面積越大模型性能越好。APav也是衡量模型性能優(yōu)劣最重要的一個性能評估指標(biāo)。本研究選取交并比IoU 閾值為0.50 和0.75 時(shí)得到的平均精度AP0.50和AP0.75,以及IoU 閾值介于0.50~0.95 時(shí)得到的平均精度APav衡量模型分割的效果,對分割精度依次表示為APS、APM、APL。平均召回率AR 表示對正樣本預(yù)測正確的數(shù)量與所有預(yù)測為正樣本數(shù)量的比值在所有類別的均值,可用于衡量模型的性能。

4.2 訓(xùn)練策略

為了驗(yàn)證方法有效性,論文訓(xùn)練集包括1 393 張圖像,測試集為155 張。本工作硬件環(huán)境為NVIDIA- GeForce RTX 3060-12GB,AMD Ryzen 9 3950X 16-Core Processor 3.50 GHz,內(nèi)存64.0 GB。軟件環(huán)境為Paddlepaddle。訓(xùn)練批量設(shè)置為2;初始學(xué)習(xí)率為10-3,在第18 階段降至10-4,第33 階段降至10-5,第44 階段為10-6;空洞空間金字塔池化模塊的各層空洞設(shè)為[1,6,12,18]。在預(yù)處理階段,使用隨機(jī)分辨率縮放策略將輸入圖像縮放至640~800 像素。本研究使用COCO 數(shù)據(jù)集上ResNet50、ResNet101、Res2Net50 網(wǎng)絡(luò)權(quán)重作為預(yù)訓(xùn)練參數(shù)。

4.3 實(shí)驗(yàn)結(jié)果

基于本工作提出的數(shù)據(jù)集,同時(shí)訓(xùn)練了不同規(guī)格的SOLOv2、BlendMask 和Mask R-CNN,最終均達(dá)到收斂,模型結(jié)果見表1。相比于Mask R-CNN 對化學(xué)實(shí)驗(yàn)透明玻璃容器的先檢測再分割,SOLOv2 在目標(biāo)物體局部區(qū)域的分割相對精細(xì)。采用Res2Net50 FPN 主干網(wǎng)絡(luò)的SOLOv2 比主干網(wǎng)絡(luò)為ResNet50 FPN 的SOLOv2 模型在APav和AP0.75更為優(yōu)秀,平均精度達(dá)到67.3%,比后者高7.1%。其主要原因?yàn)镽es2Net50 利用層次殘差連接方式替換通用的3×3 卷積核,可以在更細(xì)粒度級別上表達(dá)多尺度特征,經(jīng)過特征融合提高網(wǎng)絡(luò)復(fù)雜度和性能。隨著網(wǎng)絡(luò)深度的增加,SOLOv2(ResNet101_FPN)的平均精度達(dá)到75.2%,比SOLOv2(Res2Net50_FPN)的平均精度高了7.9%。由于BlendMask 不僅融合了FPN 的高低層信息,還利用該結(jié)果與有效的邊界框預(yù)測結(jié)果產(chǎn)生感興趣區(qū)域,將具有不同注意力權(quán)重的特征信息進(jìn)行疊加,生成實(shí)例預(yù)測區(qū)域,對小目標(biāo)的分割精度更為有利。為了在邊界細(xì)節(jié)信息豐富且分辨率較大的圖像提取特征,在Res2Net50 的1/16 大小的特征圖上使用ASPP 模塊提取多尺度信息,通過自底向上的方式獲取底層的定位信號,增強(qiáng)整個特征層次結(jié)構(gòu),ASPP-SOLOv2 實(shí)例分割A(yù)Pav上可達(dá)76.0%,比SOLOv2(ResNet101_FPN)高出 0.8%,網(wǎng)絡(luò)的整體參數(shù)降低了 6.8 MB。用 ResNet101_FPN 作為ASPP-SOLOv2 的Backbone 后APav為75.8%,參數(shù)量為82.6 MB,其參數(shù)量比以Res2Net50_FPN 作為Backbone 的ASPP-SOLOv2 增加20.8 MB。雖然骨干網(wǎng)絡(luò)的深度可以影響圖像的基礎(chǔ)特征提取的效果,但是對這些特征的合理加工和利用是下一步定位和分割的關(guān)鍵。故ASPP-SOLOv2 在引入ASPP 模塊后,通過自下而上融合手段增強(qiáng)多尺度信息,在骨干網(wǎng)絡(luò)卷積層數(shù)較少的情況下,彌補(bǔ)對透明物體的特征提取能力不足。這表明在縱向卷積層數(shù)較少的情況下,原始方法對透明物體的檢測能力不足,但是通過側(cè)邊連接方式來增強(qiáng)特征是可行的,之后可以探索更好的方案。

表1 實(shí)例分割對比結(jié)果Table 1 Comparison of mask AP in instance segmentation with different net-structures

模型預(yù)測可視化結(jié)果如圖4 所示,SOLOv2(ResNet50_FPN)和SOLOv2(Res2Net50_FPN)不能精確分割錐形瓶和燒杯重疊區(qū)域,在實(shí)例像素的分配上存在誤差,然而主干網(wǎng)絡(luò)為ResNet101_FPN 的SOLOv2模型可實(shí)現(xiàn)精確分割且產(chǎn)生正確邊界框。得益于根據(jù)實(shí)例位置和大小為實(shí)例中每個像素分配類別的設(shè)計(jì)理念,ASPP-SOLOv2 在近距離檢測和分割玻璃儀器方面,明顯比Mask R-CNN 更具優(yōu)勢,如圖5 所示。故ASPP-SOLOv2 比Mask R-CNN 的平均分割精度高5.5%,略高于BlendMask,總體上分割精度較高。

圖4 不同骨干網(wǎng)絡(luò)下SOLOv2 的分割結(jié)果Fig.4 Segmentation results of SOLOv2 under different backbone conditions

圖5 實(shí)例分割結(jié)果可視化結(jié)果對比Fig.5 Comparison of instance segmentation visual results

4.4 消融實(shí)驗(yàn)

為研究ASPP 模塊及其位置對模型實(shí)例分割效果的影響,本研究進(jìn)行了如下消融實(shí)驗(yàn):刪除ASPP 模塊,保留路徑聚合并將FPN 輸出的1/4 階段時(shí)的特征圖通道數(shù)由3×3 卷積調(diào)整為原來的2 倍;使用ASPP對骨干網(wǎng)絡(luò)中C1、C2、C3 和C4 特征進(jìn)行計(jì)算(C1、C2、C3 和C4 分別表示相較于原圖像尺寸1/4、1/8、1/16 和1/32 的輸出階段,見圖3),比較ASPP 對不同階段的特征提取對ASPP-SOLOv2 的影響,結(jié)果見表2。

表2 ASPP 模塊應(yīng)用于模型不同階段的效果對比Table 2 Effects of applying ASPP modules at different model stages

從表中可以看出,去掉ASPP 模塊后,模型平均分割精度為62.0%,相比ASPP-SOLOv2(76.0%)性能降低18.42%,是因?yàn)樵摲桨溉匀槐A袅撕罄m(xù)的自下而上的側(cè)向連接和下采樣,對FPN 的輸出結(jié)果進(jìn)一步融合,意圖向深層傳遞淺層位置信息,性能下降5.3%。結(jié)果表明,缺少ASPP 分支提取的特征,對FPN輸出的多尺度特征進(jìn)行反復(fù)融合,反而會使模型的性能下降。實(shí)驗(yàn)表明該模塊的加入可大幅度提高對透明玻璃儀器的分割精度。隨著ASPP 模塊加入位置的后移,模型AP0.5和AP0.75呈現(xiàn)余弦波動趨勢并于C3 階段達(dá)到頂點(diǎn),其主要原因是圖像尺寸在卷積過程中不斷縮小,產(chǎn)生高級語義信息的同時(shí)丟失大量的淺層信息,兩類信息對實(shí)例分割精度的影響在C3 階段形成最佳組合,如圖6 所示。

圖6 不同階段下,ASPP 輸出結(jié)果的特征可視化Fig.6 Feature visualization of ASPP output under different stages

5 結(jié) 論

為實(shí)現(xiàn)復(fù)雜場景下透明玻璃儀器的實(shí)例分割,本研究提供了包含1 548 張化學(xué)實(shí)驗(yàn)室內(nèi)日常拍攝的透明玻璃儀器實(shí)例級別標(biāo)注的數(shù)據(jù)集,利用空洞空間金字塔池化強(qiáng)化SOLOv2 模型對透明儀器多尺度特征的提取,改善密集重疊情況下的特征表示,提高目標(biāo)分割精度。 提出的ASPP-SOLOv2 模型的APav達(dá)到76.0%,AP0.5為90.5%,AP0.75為83.2%,相比于SOLOv2(Res2Net50_FPN)分別高出8.7%、4.3% 和11.0%。由于對小目標(biāo)檢測不佳,未來將考慮采用注意力機(jī)制解決遠(yuǎn)景小目標(biāo)分割不準(zhǔn)確的問題。

猜你喜歡
掩膜實(shí)例類別
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
多層陰影掩膜結(jié)構(gòu)及其制造和使用方法
服務(wù)類別
論類別股東會
完形填空Ⅱ
完形填空Ⅰ
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別