国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多粒度空間混亂的細(xì)粒度圖像分類算法

2022-02-18 08:12宋思雨苗奪謙
智能系統(tǒng)學(xué)報(bào) 2022年1期
關(guān)鍵詞:細(xì)粒度粒度局部

宋思雨,苗奪謙,2

(1.同濟(jì)大學(xué) 電子與信息工程學(xué)院, 上海 201804; 2.同濟(jì)大學(xué) 嵌入式系統(tǒng)與服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室, 上海201804)

細(xì)粒度圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),它的目標(biāo)是對(duì)圖像中的物體在同一大類下的許多子類中進(jìn)行正確分類[1],因此細(xì)粒度圖像分類也被稱作子類別圖像分類[2]。細(xì)粒度圖像分類存在類內(nèi)相似度小且類間相似度大的分類難點(diǎn)[3]。在細(xì)粒度圖像分類的數(shù)據(jù)中,具有區(qū)分度的重要信息往往包含在一些局部區(qū)域,并且多數(shù)情況下同一子類別物體也僅有局部微小區(qū)域不同,如何尋找到有判別力的局部區(qū)域,并借助于極其細(xì)微的局部差異較好地完成分類是細(xì)粒度圖像分類任務(wù)的難點(diǎn)。

近年來(lái)深度學(xué)習(xí)技術(shù)[4-6]在人工智能領(lǐng)域已成為主流的方法,對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的細(xì)粒度圖像分類按照監(jiān)督信息,可以分為基于強(qiáng)監(jiān)督信息和基于弱監(jiān)督信息兩類?;趶?qiáng)監(jiān)督信息的細(xì)粒度圖像分類方法為了獲取更好的分類準(zhǔn)確度,除了使用圖像的類別標(biāo)簽以外,還使用了物體標(biāo)注框(object bounding box)和部位標(biāo)注點(diǎn)(part annotation)等額外的強(qiáng)監(jiān)督信息,而基于弱監(jiān)督信息的細(xì)粒度分類模型只使用圖像級(jí)別的標(biāo)注信息來(lái)提取有判別性的局部特征完成分類。為了更好地尋找判別性局部區(qū)域,本文提出了一種基于弱監(jiān)督信息的細(xì)粒度圖像分類方法,在骨干網(wǎng)絡(luò)中加入多粒度空間混亂模塊。空間混亂模塊對(duì)圖像進(jìn)行碎片化后重組,打破圖像整體關(guān)聯(lián)性,迫使網(wǎng)絡(luò)去尋找對(duì)分類更有幫助的局部區(qū)域,細(xì)粒度圖像分類的重要判別點(diǎn)往往都在這些局部區(qū)域。在此基礎(chǔ)上引入多粒度思想[7-9],從多個(gè)粒度層面[10]更加全面地尋找不同粒度[11]的局部區(qū)域并提取特征,來(lái)提高分類準(zhǔn)確率。

本文的主要貢獻(xiàn)如下:

1) 提出了一種基于弱監(jiān)督信息的細(xì)粒度圖像分類方法,無(wú)需部位級(jí)別的標(biāo)簽,僅需類別標(biāo)簽即可達(dá)到不錯(cuò)的分類精度,而且模型的空間成本和時(shí)間成本低;

2) 提出空間混亂模塊,對(duì)輸入圖像進(jìn)行切分并打亂重組的操作,破壞圖像局部區(qū)域之間的關(guān)聯(lián)性,使網(wǎng)絡(luò)更好地尋找有判別力的局部區(qū)域,方法簡(jiǎn)單但非常有效;

3) 在單一尺度的空間混亂模塊基礎(chǔ)上引入多粒度思想,迫使網(wǎng)絡(luò)學(xué)習(xí)到如何捕捉不同粒度層次的判別性區(qū)域,使網(wǎng)絡(luò)分類性能更魯棒。

1 相關(guān)工作

細(xì)粒度圖像分類任務(wù)的研究方向主要分為兩種:基于強(qiáng)監(jiān)督信息和基于弱監(jiān)督信息的細(xì)粒度圖像分類。區(qū)別在于,基于強(qiáng)監(jiān)督信息的方法在模型訓(xùn)練階段,為了獲得更好的分類精度,除了圖像的類別標(biāo)簽外,還使用局部區(qū)域位置和標(biāo)注框等額外的人工標(biāo)注信息,用于定位圖像局部關(guān)鍵區(qū)域。而基于弱監(jiān)督信息的細(xì)粒度圖像分類的方法僅僅依靠圖像級(jí)別的標(biāo)簽,在不借助部位標(biāo)注的情況下對(duì)細(xì)粒度圖像進(jìn)行分類。

1.1 基于強(qiáng)監(jiān)督信息的方法

最早的具有代表性的方法是2014年被提出的基于部位的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)[12],該方法使用自底向上的區(qū)域選擇算法[13]來(lái)產(chǎn)生候選區(qū)域,用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with convolutional neural networks, R-CNN)算法給出評(píng)價(jià)分值,選出分值高的區(qū)域,進(jìn)行特征級(jí)聯(lián)作為總體特征送進(jìn)支持向量機(jī)(support vector machines, SVM)分類器進(jìn)行分類。Branson等[14]提出了姿態(tài)歸一化網(wǎng)絡(luò),該研究工作采用對(duì)不同級(jí)別的圖像塊進(jìn)行姿態(tài)對(duì)齊[15]的操作。來(lái)自悉尼科技大學(xué)Huang等[16]在2016 年提出了部位堆疊網(wǎng)絡(luò)(part-stacked CNN),在部位級(jí)別的定位過(guò)程中采用了全卷積網(wǎng)絡(luò)[17],引入全卷積網(wǎng)絡(luò)的好處在于特征圖可以直接作為部件的定位結(jié)果應(yīng)用于分類網(wǎng)絡(luò)。Lin[18]提出的深度定位對(duì)齊分類網(wǎng)絡(luò)(deep localization alignment and classification, Deep LAC)使用同一個(gè)網(wǎng)絡(luò)進(jìn)行部件定位、對(duì)齊和分類,并且提出了閥門連接函數(shù)(valve linkage function, VLF)用來(lái)優(yōu)化定位和分類子網(wǎng)絡(luò)之間的連接。南京大學(xué)的魏秀參[19]在2017 年提出了 掩碼卷積神經(jīng)網(wǎng)絡(luò)(mask CNN) ,該網(wǎng)絡(luò)利用全卷積網(wǎng)絡(luò)生成掩碼,用于局部定位和選擇深度描述符[20]構(gòu)建圖像、頭部、軀干和對(duì)象的四流網(wǎng)絡(luò),該網(wǎng)絡(luò)是第一個(gè)端到端的用于細(xì)粒度圖像分類網(wǎng)絡(luò)模型。盡管基于強(qiáng)監(jiān)督信息的分類模型獲得了不錯(cuò)的分類精度,但使用的部位級(jí)標(biāo)注信息獲取困難且代價(jià)昂貴,使得這類算法的實(shí)際應(yīng)用被局限了。

1.2 基于弱監(jiān)督信息的方法

目前細(xì)粒度圖像分類的一個(gè)明顯趨勢(shì)是在模型訓(xùn)練時(shí)僅使用圖像級(jí)別標(biāo)注信息,而不再使用額外的部位級(jí)別標(biāo)注信息。 2015年兩級(jí)注意力模型被提出,作者發(fā)現(xiàn)注意力機(jī)制對(duì)于細(xì)粒度圖像的局部特征有很好的提取效果。同年文獻(xiàn)[21]提出了多粒度卷積神經(jīng)網(wǎng)絡(luò),該模型包含多個(gè)獨(dú)立的CNN, 每個(gè)CNN內(nèi)部有不同粒度的興趣域。2016年Liu Xiao提出了一種基于強(qiáng)化學(xué)習(xí)的全卷積注意力局部網(wǎng)絡(luò)[22]提出了一種基于強(qiáng)化學(xué)習(xí)的全卷積注意力局部網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)模擬人類視覺(jué)系統(tǒng)的識(shí)別過(guò)程,將相關(guān)區(qū)域放大處理進(jìn)行進(jìn)一步判斷。 Lin等[23]設(shè)計(jì)了 雙線性卷積神經(jīng)網(wǎng)絡(luò)(bilinear CNN),該模型非常高效而且數(shù)學(xué)基礎(chǔ)扎實(shí),其中的雙線性池化(bilinear pooling)[24]提供了比線性模型更精確的特征表示,并且可以端到端的進(jìn)行優(yōu)化,但是雙線性模型的維度太高,很難泛化使用。

1.3 DCL

破壞和重建學(xué)習(xí)網(wǎng)絡(luò)[25](destruction and construction learning, DCL)是一種新穎的細(xì)粒度圖像分類模型,該模型引入一個(gè)DCL流來(lái)自動(dòng)從判別性區(qū)域中進(jìn)行學(xué)習(xí)。 首先作者借鑒了自然語(yǔ)言處理中常用的打亂方法,提出區(qū)域混淆機(jī)制來(lái)劃分輸入圖像并隨機(jī)打亂它們,同時(shí)引入對(duì)抗性損失降低噪聲的影響,使網(wǎng)絡(luò)進(jìn)行破壞學(xué)習(xí),然后提出區(qū)域?qū)R網(wǎng)絡(luò)恢復(fù)原始區(qū)域布局,通過(guò)重建對(duì)局部區(qū)域間的相關(guān)性進(jìn)行建模。文獻(xiàn)[25]的RCM部分將圖像分為N×N的局部區(qū)域,其中N被固定為7,這種情況下模型只能劃分固定尺度大小的局部區(qū)域 無(wú)法獲取到多種尺度的局部區(qū)域特征。本文將結(jié)合多粒度思想并參考DCL的RCM部分,將圖像分為不同粒度大小的局部區(qū)域,從而使模型關(guān)注到不同尺寸大小的判別性局部區(qū)域用于分類。

2 空間混亂模塊

在細(xì)粒度圖像分類任務(wù)中,局部細(xì)節(jié)往往比全局結(jié)構(gòu)信息更加重要。多數(shù)情況下不同的細(xì)粒度類別具有相同的全局結(jié)構(gòu)而只在具體的局部細(xì)節(jié)上不同。將圖像中的局部區(qū)域打亂,對(duì)細(xì)粒度識(shí)別不重要的一些不相關(guān)的區(qū)域就會(huì)被忽略,并且將迫使網(wǎng)絡(luò)學(xué)習(xí)到具有辨別性的局部細(xì)節(jié),從而更好地對(duì)圖像進(jìn)行分類。

在自然語(yǔ)言處理中,打亂句子中單詞的順序會(huì)迫使神經(jīng)網(wǎng)絡(luò)聚焦有判別性的詞語(yǔ),忽視無(wú)關(guān)詞語(yǔ)。同樣,將圖像分為多個(gè)局部區(qū)域,把局部區(qū)域看作自然語(yǔ)言處理中的單詞,然后進(jìn)行隨機(jī)的打亂重組,神經(jīng)網(wǎng)絡(luò)將更專注于從有判別性的局部區(qū)域?qū)W習(xí)分類的細(xì)節(jié)。為此,本文提出空間混亂模塊,對(duì)輸入圖像進(jìn)行碎片化打亂重組。

如圖1所示,本文定義的局部區(qū)域隨機(jī)重組模塊將會(huì)對(duì)輸入圖像的局部區(qū)域進(jìn)行打亂重組,得到新的局部區(qū)域無(wú)關(guān)聯(lián)性的圖像。這個(gè)模塊的輸入是一張圖片I,圖片的邊長(zhǎng)n(輸入圖片應(yīng)該為經(jīng)過(guò)大小歸一化處理的正方形,故只需要邊長(zhǎng)即可)和劃分粒度G,其中I是圖片的三維向量,n代表圖片的邊長(zhǎng),即圖片的尺寸是n×n像素,G代表將圖片劃分為G×G個(gè)子區(qū)域。首先,每個(gè)區(qū)域標(biāo)記為R(k) ,k是將子區(qū)域劃分后的一維排序的序號(hào), 1 ≤k≤G2,子區(qū)域也可以用R(i,j)表示,i和j分別表示行索引和列索引, 1 ≤i,j≤G??梢酝ㄟ^(guò)i,j來(lái)表示k,具體為

圖1 空間混亂模塊的流程Fig.1 Process of regions shuffle

圖片大小和粒度相除可得到子區(qū)域的邊長(zhǎng)s,即子區(qū)域的尺寸是s×s。利用邊長(zhǎng)s可以計(jì)算第i行第j列的子區(qū)域的圖片的三維向量,用d來(lái)表示向量的維度,具體為

將劃分好的有序子區(qū)域進(jìn)行隨機(jī)化,生成一個(gè)長(zhǎng)度為G2的隨機(jī)向量q,第m個(gè)元素的值為r,其中 1 ≤m≤G2。向量q的元素取值r,服從U(1,G2)的均勻分布,即r的值在(1,G2)的區(qū)間內(nèi)等概率隨機(jī)選取一個(gè)值,概率公式如式(3)所示,向量q的表示如式(4)所示。

原來(lái)的子區(qū)域列表按照隨機(jī)向量q進(jìn)行重新排列,得到新的子區(qū)域列表,然后按照對(duì)應(yīng)位置進(jìn)行拼接,得到重組后的完整圖像I:

空間混亂模塊的流程如算法1所示:

算法 1空間混亂算法

輸入I,G,n,q

輸出

1)s←n/G

2) fori= 1,2,···,Gdo

3) forj= 1,2,···,Gfor j = 1,2,···,Gdo

4)R(i,j) ← I[is: (i+1)s][js: (j+1)s]

5)k←i×G+j

6)R(k) ←R(i,j)

7) end for

8) end for

9) fori= 1,2,···,Gdo

10) forj= 1,2, ···,Gdo

11)k←i×G+j

13) end for

14) end for

該模塊需要被添加在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練初始階段,從而引導(dǎo)網(wǎng)絡(luò)去學(xué)習(xí)細(xì)粒度圖像的重要細(xì)節(jié)。經(jīng)過(guò)該模塊處理后的局部區(qū)域混亂的圖片能迫使網(wǎng)絡(luò)尋找那些對(duì)分類有幫助的局部區(qū)域,并從這些局部區(qū)域中學(xué)習(xí)到相應(yīng)的特征。

本模塊的粒度參數(shù)的設(shè)置和添加輪次的選擇將會(huì)在第4節(jié)實(shí)驗(yàn)部分給予詳細(xì)說(shuō)明。

3 融入多粒度思想

粒計(jì)算是一種?;乃季S方式及方法論,粒計(jì)算中的多粒度思想可以看作是用一種基于多層次與多視角的問(wèn)題求解方法。 給神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)集中的原始圖片就可以看成最粗粒度的信息,本文第2節(jié)所述的空間混亂模塊從粒計(jì)算角度來(lái)看,是將圖像的粒度細(xì)化,得到更細(xì)粒度的信息的過(guò)程。

細(xì)粒度圖像分類數(shù)據(jù)集中的物體外形都是相似的,可能只有很小的部位不同。比如CUB200數(shù)據(jù)集中,不同鳥(niǎo)類可能只是眼睛顏色不同或者翅膀的形狀不同,能正確決定分類結(jié)果的就是一些有判別力的局部區(qū)域,但這些局部區(qū)域有大有小,比如翅膀相對(duì)眼睛是較大的,那么翅膀的形狀在粒度較大的局部區(qū)域容易被神經(jīng)網(wǎng)絡(luò)所捕捉到,而眼睛在粒度較小的局部區(qū)域才會(huì)被網(wǎng)絡(luò)發(fā)現(xiàn)是具有判別力的特征。

前文所述的空間混亂模塊,是希望網(wǎng)絡(luò)忽視圖像的整體關(guān)聯(lián)性,專注于學(xué)習(xí)如何尋找具有判別力的局部區(qū)域,但是,具有判別力的局部區(qū)域可能并不都在一個(gè)粒度層次上。本文引入空間混亂模塊的作用其一就是希望網(wǎng)絡(luò)不會(huì)僅僅學(xué)習(xí)到原始圖像的最粗粒度的特征,也能學(xué)習(xí)到如何去尋找小的局部區(qū)域的有用特征。

由于圖像分辨率不同以及待分類物體在圖像中的占比大小不同,導(dǎo)致即使進(jìn)行空間混亂模塊后,同一類別的圖像得到的局部區(qū)域代表的特征意義依然不同。如圖2所示,同一類別下的圖像中的物體由于大小和占比不同,經(jīng)過(guò)空間混亂模塊后得到的局部區(qū)域代表的部位意義也是有所區(qū)別的,上面的圖片網(wǎng)絡(luò)明顯可以學(xué)習(xí)到頭部級(jí)別的信息,下面的圖片網(wǎng)絡(luò)更關(guān)注的會(huì)在眼睛和喙。如果能在此基礎(chǔ)上將圖片通過(guò)其他粒度的空間混亂模塊后,每個(gè)粒度做獨(dú)立的引導(dǎo),那么模型可以在不同的粒度學(xué)習(xí)到更多信息,做決策時(shí)將更加魯棒。

圖2 同一類別下的不同圖片經(jīng)過(guò)空間混亂模塊后的結(jié)果Fig.2 Results of two images from the same category after regions shuffle

綜上所述,對(duì)第2節(jié)中提出的空間混亂模塊融入多粒度思想進(jìn)行改進(jìn)。原始圖像是粒度最大的,網(wǎng)絡(luò)最容易從中學(xué)到整體輪廓這種物體級(jí)別的特征,但細(xì)粒度圖像分類的模型只學(xué)習(xí)到大體輪廓是難以獲取到較好的分類結(jié)果的。將空間混亂模塊的粒度參數(shù)設(shè)置為不同的值,隨著劃分粒度的增加,模型將能關(guān)注到越來(lái)越微小的局部區(qū)域信息。

圖3演示了當(dāng)把空間混亂模塊的粒度參數(shù)分別設(shè)為2、4、7的時(shí)候,同一輸入的圖像所能獲得的不同粒度下的結(jié)果。圖3中的兩個(gè)原始圖像屬于兩個(gè)不同的子類別,兩個(gè)子類別細(xì)致的差異在于其中一個(gè)類別的鳥(niǎo)類面部是紅色的,而另一個(gè)是黑色的且頸部有不同,除此之外的體型輪廓、大致顏色都是相近的。通過(guò)不同粒度的劃分,可以明顯觀察到,經(jīng)過(guò)粒度為2的空間混亂模塊的結(jié)果可以從頭部進(jìn)行一定程度的區(qū)分,但差異性并不大,因?yàn)轭^部形狀是相近的。但在經(jīng)過(guò)粒度為4的空間混亂模塊后,左圖的第1行、第1列和右圖的第3行、第4列有明顯不同,可以區(qū)分,網(wǎng)絡(luò)學(xué)習(xí)到如何在這個(gè)粒度下找到這兩個(gè)判別性的區(qū)域?qū)?huì)對(duì)分類有非常大的幫助。這是單一粒度的空間模塊所不能實(shí)現(xiàn)的效果。

4 實(shí)驗(yàn)與結(jié)果

本節(jié)將通過(guò)實(shí)驗(yàn)闡述本文提出的技術(shù)的可行性和效果。具體包括使用本文提出的技術(shù)構(gòu)建了一個(gè)模型,并且在3個(gè)標(biāo)準(zhǔn)細(xì)粒度圖像分類數(shù)據(jù)集上評(píng)估了模型的性能,與其他主流算法的效果進(jìn)行對(duì)比,并添加消融實(shí)驗(yàn)驗(yàn)證各模塊的效果,實(shí)驗(yàn)過(guò)程中沒(méi)有使用任何部位標(biāo)注信息。

4.1 實(shí)驗(yàn)數(shù)據(jù)集

本次實(shí)驗(yàn)在3個(gè)細(xì)粒度圖像分類數(shù)據(jù)集進(jìn)行。3個(gè)數(shù)據(jù)集分別是CUB-200-2011鳥(niǎo)類數(shù)據(jù)集[26]、FGVC Aircraft飛機(jī)數(shù)據(jù)集[27]和 Stanford Cars車類數(shù)據(jù)集[28]。表1展示了3個(gè)數(shù)據(jù)集的詳細(xì)信息。

表1 細(xì)粒度圖像分類數(shù)據(jù)集Table 1 Fine-grained visual classification datasets

4.2 實(shí)驗(yàn)細(xì)節(jié)

實(shí)驗(yàn)環(huán)境:本文實(shí)驗(yàn)所使用的深度學(xué)習(xí)框架是PyTorch,使用的顯卡是Tesla V100。

實(shí)驗(yàn)參數(shù)細(xì)節(jié):模型分別采用兩種骨干網(wǎng)絡(luò),即 ResNet-50[29]和VGG-16[30],這兩個(gè)骨干網(wǎng)絡(luò)均采用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。訓(xùn)練所使用的唯一標(biāo)注信息是圖像的類別標(biāo)注信息。輸入圖片將被調(diào)整為512×512的固定大小,然后隨機(jī)裁剪成448×448。 圖像的數(shù)據(jù)增強(qiáng)操作包括隨機(jī)水平翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn)。 模型采用的優(yōu)化器是隨機(jī)梯度下降法(stochastic gradient descent, SGD),其中動(dòng)量參數(shù)設(shè)置為0.9,學(xué)習(xí)衰減率為0.000 1。訓(xùn)練的最大迭代輪次(Epoch)設(shè)為180,小批量樣本數(shù)(mini-batch size)設(shè)為6,初始學(xué)習(xí)率設(shè)為0.001,并且每60輪衰減一次,衰減權(quán)重0.1。

多粒度空間混亂模塊參數(shù)設(shè)置:粒度層次為3,具體粒度分別為2、4、7。多粒度空間混亂模塊在第90輪開(kāi)始加入到網(wǎng)絡(luò)中,前90輪不使用多粒度空間混亂模塊。測(cè)試階段不使用該模塊。

4.3 實(shí)驗(yàn)結(jié)果

首先對(duì)于多粒度空間混亂模塊的參數(shù)設(shè)置都是經(jīng)過(guò)實(shí)驗(yàn)得出的,主要包括使用輪次選擇和多粒度空間混亂模塊的粒度選擇。多粒度空間混亂模塊不適用于所有輪次,會(huì)增加噪聲,不利于模型分類精度的提高,根據(jù)先整體后局部的思想和先局部后整體的思想分別進(jìn)行了實(shí)驗(yàn),先整體后局部的思想的具體實(shí)施是前90輪次禁用該模塊,90~180輪次采用該模塊;先局部后整體的思想是前90輪次采用該模塊 ,90~180輪次禁用該模塊,最后得出最佳的方案是前90輪次禁用該模塊,90~180輪次采用該模塊。這說(shuō)明模型先學(xué)習(xí)整體特征再學(xué)習(xí)局部區(qū)域特征是一種更有效的學(xué)習(xí)順序。進(jìn)行粒度選擇分為粒度層次的選擇和粒度組合的選擇。粒度層次過(guò)多則模型復(fù)雜度會(huì)過(guò)大,并且隨著粒度層次的增加并不會(huì)帶來(lái)明顯的準(zhǔn)確度提升,通過(guò)嘗試2層、3層和4層3種粒度層次,發(fā)現(xiàn)3層時(shí)效果最好。確定粒度層次后,還要選擇具體的粒度組合,實(shí)驗(yàn)使用2、4、7、14這4種粒度進(jìn)行組合,最大的粒度為14 ,因?yàn)楦蟮牧6葘⑹箞D片完全混亂,對(duì)網(wǎng)絡(luò)沒(méi)有幫助反而降低網(wǎng)絡(luò)的分類準(zhǔn)確率。具體實(shí)驗(yàn)結(jié)果如表2所示,采用數(shù)據(jù)集為CUB-200-2011。

表2 不同粒度的結(jié)果Table 2 Results of different granularity combination

進(jìn)行消融實(shí)驗(yàn),來(lái)體現(xiàn)多粒度空間混亂模塊對(duì)于模型分類準(zhǔn)確度的貢獻(xiàn),在加了粒度為4的空間混亂模塊后,網(wǎng)絡(luò)分類的準(zhǔn)確率提高了2.0%,引入多粒度思想后,網(wǎng)絡(luò)分類的準(zhǔn)確率提高了3.1% ,采用數(shù)據(jù)集為CUB-200-2011,如表3所展示。

表3 消融實(shí)驗(yàn)Table 3 Ablation experiment

實(shí)驗(yàn)采用的模型無(wú)需任何部位級(jí)別標(biāo)注,相對(duì)于其他需要對(duì)物體或部位進(jìn)行定位或者采用多級(jí)網(wǎng)絡(luò)的方法,空間復(fù)雜度和時(shí)間復(fù)雜度都有一定程度的降低,并且依然可以有較好的分類準(zhǔn)確度。其中使用ResNet-50作為骨干網(wǎng)絡(luò)時(shí)的準(zhǔn)確率優(yōu)于其他算法,對(duì)比其他算法的準(zhǔn)確率如表4所示。

表4 對(duì)比結(jié)果Table 4 Comparison results

5 結(jié)束語(yǔ)

本文提出了多粒度空間混亂模塊。 多粒度空間混亂模塊是一個(gè)輕量級(jí)的模塊,不會(huì)引入過(guò)多開(kāi)銷,但是可以通過(guò)引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)尋找不同粒度下的判別性區(qū)域,來(lái)提高網(wǎng)絡(luò)分類的準(zhǔn)確率,是簡(jiǎn)單且實(shí)用的。未來(lái)會(huì)考慮不只在原始圖像上進(jìn)行隨機(jī)打亂重組的操作,也在網(wǎng)絡(luò)中的某一層的特征表示上進(jìn)行一些混淆操作。.

猜你喜歡
細(xì)粒度粒度局部
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
爨體蘭亭集序(局部)
粉末粒度對(duì)純Re坯顯微組織與力學(xué)性能的影響
動(dòng)態(tài)更新屬性值變化時(shí)的最優(yōu)粒度
凡·高《夜晚露天咖啡座》局部[荷蘭]
基于SVM多分類的超分辨圖像細(xì)粒度分類方法
基于型號(hào)裝備?角色的IETM訪問(wèn)控制研究
基于web粒度可配的編輯鎖設(shè)計(jì)
組合多粒度粗糙集及其在教學(xué)評(píng)價(jià)中的應(yīng)用
丁學(xué)軍作品
西贡区| 普定县| 澄迈县| 马龙县| 且末县| 电白县| 衡水市| 岑巩县| 北川| 巴林右旗| 蒙阴县| 仪陇县| 阿勒泰市| 康保县| 新绛县| 鄄城县| 潜江市| 商水县| 襄城县| 宝应县| 依兰县| 科技| 永定县| 大关县| 紫阳县| 顺平县| 永福县| 成安县| 浦江县| 留坝县| 霞浦县| 中江县| 于田县| 鄱阳县| 桐梓县| 离岛区| 垣曲县| 蛟河市| 关岭| 青河县| 贵德县|