国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于異構(gòu)卷積的輕量級(jí)圖像分類網(wǎng)絡(luò)

2021-12-07 13:21喻明毫高建瓴胡承剛

喻明毫 高建瓴 胡承剛

摘 要: 目前大多數(shù)大型神經(jīng)網(wǎng)絡(luò)都存在參數(shù)量大、計(jì)算難度高等問(wèn)題,想要在移動(dòng)端設(shè)備使用,則會(huì)受到計(jì)算資源的限制。雖然現(xiàn)有輕量級(jí)網(wǎng)絡(luò)出現(xiàn)解決了一定的計(jì)算量的問(wèn)題,但同時(shí)其網(wǎng)絡(luò)中大量使用1×1點(diǎn)卷積,使得其成為了現(xiàn)在輕量級(jí)網(wǎng)絡(luò)的計(jì)算瓶頸。針對(duì)點(diǎn)卷積造成的計(jì)算瓶頸的問(wèn)題,首先提出使用GhostModel來(lái)代替其中一部分點(diǎn)卷積,然后結(jié)合異構(gòu)卷積對(duì)殘差結(jié)構(gòu)進(jìn)行改進(jìn)并提出ResHetModel_A、B兩個(gè)改進(jìn)的模塊,使用改進(jìn)模塊構(gòu)成輕量級(jí)網(wǎng)絡(luò)HSNet。最后對(duì)注意力特征圖進(jìn)行分析,在網(wǎng)絡(luò)加入注意力機(jī)制來(lái)提高網(wǎng)絡(luò)表達(dá)。在CAFIR10和CAFIR100數(shù)據(jù)集上的分類實(shí)驗(yàn)證明網(wǎng)絡(luò)的有效性。最后在ImageNet大型數(shù)據(jù)集上實(shí)驗(yàn)表明HSNet具有一定的泛化性。

關(guān)鍵詞: 輕量級(jí)網(wǎng)絡(luò); 點(diǎn)卷積; 異構(gòu)卷積; 殘差結(jié)構(gòu); GhostModel

文章編號(hào): 2095-2163(2021)07-0196-06中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼: A

Lightweight image classification network based on heterogeneous convolution

YU Minghao, GAO Jianling, HU Chenggang

(College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China)

【Abstract】The problems of large parameter quantity and high computational difficulty exist with most large neural networks. If large neural networks want to apply to mobile devices, they are constrained by computing resources. Although existing lightweight networks solve some computational problems, at the same time, its network uses massive 1×1 point convolutions, which has become a computational bottleneck of the current lightweight network. In order to solve the problem of computing bottleneck caused by point convolution, first propose to use GhostModel to replace part of the point convolution, then combined with heterogeneous convolution to improve the residual structure, propose two improved modules ResHetModel_A and B, and use the improved modules to form a lightweight network HSNet. Finally, the attention feature map is analyzed, and attention mechanism is added to the network to improve network expression. The classification experiments on the CAFIR10 and CAFIR100 datasets prove the effectiveness of the network. Finally, experiments on the ImageNet large dataset show that HSNet has a certain generalization.

【Key words】lightweight network; point convolution; heterogeneous convolution; residual structure; GhostModel

0 引 言

計(jì)算機(jī)視覺(jué)的發(fā)展推動(dòng)人工智能不斷進(jìn)化,而作為計(jì)算機(jī)視覺(jué)強(qiáng)大進(jìn)步源泉的深度學(xué)習(xí),則在計(jì)算機(jī)視覺(jué)領(lǐng)域子任務(wù),諸如圖像分類、目標(biāo)檢測(cè)、圖像分割等方面做出了重大貢獻(xiàn)。與神經(jīng)網(wǎng)絡(luò)相結(jié)合的圖像處理算法相較于傳統(tǒng)的圖像處理算法有巨大的精度優(yōu)勢(shì)。在大數(shù)據(jù)的時(shí)代,利用神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)中學(xué)習(xí)圖像特征,繼而進(jìn)行分類、檢測(cè)、分割等任務(wù)。目前,基于深度學(xué)習(xí)的圖像分類網(wǎng)絡(luò)層出不窮,大量?jī)?yōu)秀的網(wǎng)絡(luò)不斷問(wèn)世,人們研究的重點(diǎn)是如何將圖像分類精度提高,不斷加深、加寬模型,雖然網(wǎng)絡(luò)在精度上表現(xiàn)越發(fā)出眾,但網(wǎng)絡(luò)效率問(wèn)題也隨即產(chǎn)生。在實(shí)踐中,為了將基于深度學(xué)習(xí)的圖像分類技術(shù)應(yīng)用于移動(dòng)運(yùn)算設(shè)備中,就需要考慮計(jì)算資源限度。分析可知,時(shí)下的大型分類網(wǎng)絡(luò)出于其龐大的參數(shù)量和計(jì)算量等原因仍然難以落地移動(dòng)端設(shè)備,在此基礎(chǔ)上,研究人員就將網(wǎng)絡(luò)輕量化作為另一個(gè)研究方向,并研發(fā)提出了體積小、速度快的模型用于圖像分類。

2012年提出的AlexNet[1]取得了ImageNet圖像分類賽的冠軍,此后優(yōu)秀的模型不斷涌現(xiàn)。AlexNet不僅是其后續(xù)網(wǎng)絡(luò)的雛形,同時(shí)還提出了Multi-Path的方式,通過(guò)使用2個(gè)GPU進(jìn)行并行訓(xùn)練,網(wǎng)絡(luò)也分為2個(gè)支路。受此啟發(fā),接下來(lái)就開(kāi)始使用多路分支的方式來(lái)構(gòu)造高效的分類網(wǎng)絡(luò)。2014年,Simonyan等人[2]提出的VGG結(jié)構(gòu)是在此基礎(chǔ)上構(gòu)造,在ImageNet圖像分類數(shù)據(jù)集Top5錯(cuò)誤率中達(dá)到了6.8%,但同年的冠軍是Szegedy等人提出的GoogLeNet[3],其Top5錯(cuò)誤率達(dá)到6.67%,借鑒AlexNet的思想提出Inception模塊。He等人提出的ResNet[4]使用分支的形式構(gòu)造殘差模塊,并使用殘差網(wǎng)絡(luò)構(gòu)成ResNet。雖然大型網(wǎng)絡(luò)在精度上不斷提高,單為了在有限的計(jì)算資源下達(dá)到更好的檢測(cè)效果,設(shè)計(jì)一種輕量化的網(wǎng)絡(luò)相比大型網(wǎng)絡(luò)能夠在相同檢測(cè)效果下消耗更低的資源。2016年,Iandola等人[5]提出了SqueezeNet,其模型大小只有0.5 M,主要網(wǎng)絡(luò)由FireModel構(gòu)造,其中大量使用了1×1卷積。Mobilenet[6]中將深度卷積分成2步,提出深度可分離卷積,深度可分離卷積關(guān)注卷積方式,操作就是將普通深度卷積轉(zhuǎn)換為逐通道卷積與點(diǎn)卷積。前者卷積核數(shù)與通道數(shù)相同,后者使用點(diǎn)卷積來(lái)混合通道信息,將每一個(gè)輸入特征圖信息在輸出有所體現(xiàn)。此后有多人又提出了ShuffleNet系列[7-8]使用通道混洗操作,其思想是將卷積分組,加強(qiáng)每個(gè)通道之間的信息交互,通道混洗的操作使各個(gè)輸入通道信息在輸出通道有所體現(xiàn)。這樣可以減少通道數(shù)量的同時(shí)不損失通道信息。上述大多輕量化設(shè)計(jì)中大量地使用1×1卷積來(lái)壓縮參數(shù)量,使得網(wǎng)絡(luò)FLOPs暴增,1×1顯然成為輕量型網(wǎng)絡(luò)設(shè)計(jì)的計(jì)算瓶頸,于是在基于如何去除卷積同時(shí)不增加參數(shù)量和FLOPs的研究上,Vahid等人[9]結(jié)合快速傅里葉變換(FFT)中的蝶形運(yùn)算與卷積操作提出Butterfly Transform來(lái)無(wú)限逼近卷積并應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)中,來(lái)降低計(jì)算復(fù)雜度。Li等人[10]又提出MicroNet思想是分解矩陣,具體操作是將卷積核矩陣分解為2組自適應(yīng)卷積。Han等人[11]在研究CNN提取的特征圖中發(fā)現(xiàn)大量特征圖存在冗余的情況,于是使用Ghost幻影圖來(lái)代替冗余的特征圖。

本文結(jié)合異構(gòu)卷積與GhostModel構(gòu)造一種輕量級(jí)的分類網(wǎng)絡(luò),此分類網(wǎng)絡(luò)中不會(huì)大量使用1×1卷積,同時(shí),網(wǎng)絡(luò)風(fēng)格類似于ResNet,但網(wǎng)絡(luò)模型遠(yuǎn)小于ResNet,將此輕量級(jí)網(wǎng)絡(luò)命名為HSNet。

1 相關(guān)工作

1.1 異構(gòu)卷積

異構(gòu)卷積是由Singh等人[12]提出的一種不同于傳統(tǒng)的卷積方式,圖像分類中的濾波器含有大量3×3的卷積核,異構(gòu)卷積主要是使用1×1卷積核,3×3卷積核進(jìn)行排列,以此減少參數(shù)。此方式使用了通用邏輯門的思想,將復(fù)雜操作簡(jiǎn)單化。原始異構(gòu)卷積如圖1所示。

圖1中,P是超參數(shù),通過(guò)P來(lái)控制1×1卷積的數(shù)量,通過(guò)在3×3卷積之間插入1×1可以達(dá)到減少參數(shù)的效果,本文基于GhostModel對(duì)異構(gòu)卷積進(jìn)行改進(jìn),改進(jìn)后的異構(gòu)濾波器如圖2所示。在圖2中,將其中的1×1卷積使用如圖3所示的GhostModel替換。

1.2 GhostModel

傳統(tǒng)卷積方式產(chǎn)生的特征圖含有大量冗余,表現(xiàn)為同一濾波器產(chǎn)生的特征圖非常相似,相似特征圖之間可以通過(guò)一系列線性變換,Han等人[11]提出使用GhostModel來(lái)代替一部分卷積,GhostModel思想是先使用少量的卷積生成原始特征圖,然后使用這些特征圖生成“幻影圖”來(lái)代替原來(lái)冗余的特征,此方式可以減少大量參數(shù)以及FOLPs。圖3中表示了GhostModel。

2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

2.1節(jié)中主要根據(jù)Xception[13]網(wǎng)絡(luò)對(duì)第一層卷積StemBlock進(jìn)行改進(jìn)。在上一節(jié)中,已經(jīng)對(duì)異構(gòu)卷積進(jìn)行了改進(jìn),在2.2節(jié)中會(huì)使用改進(jìn)的異構(gòu)卷積與Ghost Model構(gòu)造一個(gè)模塊,并以此模塊搭建網(wǎng)絡(luò)。對(duì)此擬展開(kāi)分析論述如下。

2.1 StemBlock

Xception網(wǎng)絡(luò)中使用Inception結(jié)構(gòu)來(lái)構(gòu)成整個(gè)網(wǎng)絡(luò),其中網(wǎng)絡(luò)前兩層是由2個(gè)3×3卷積構(gòu)成,用其初步提取特征,受 Szegedy等人研究成果[14]的啟發(fā),本文構(gòu)造了一種輕量級(jí)的StemBlock,2種不同的StemBlock如圖4所示。圖4左側(cè)圖中,SConv表示深度可分離卷積,對(duì)比原始StemBlock,如圖4右側(cè)圖所示,本文的結(jié)構(gòu)可以獲得不同的特征表達(dá),并減少參數(shù)量。

2.2 異構(gòu)卷積模塊

特征圖注意力機(jī)制和多路徑表示對(duì)視覺(jué)識(shí)別非常重要,特征圖注意力機(jī)制一般有通道注意力機(jī)制以及空間注意力機(jī)制,都是通過(guò)池化生成一個(gè)權(quán)重系數(shù)向量,再與原特征圖相乘得到注意力圖,本文在網(wǎng)絡(luò)中使用的通道注意力ECA模塊如圖5所示。

分析可知,神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)隨著網(wǎng)絡(luò)加深,訓(xùn)練集準(zhǔn)確率下降的現(xiàn)象,何凱明等人指出網(wǎng)絡(luò)加深會(huì)出現(xiàn)梯度消失的情況,并提出了殘差網(wǎng)絡(luò)ResNet,其中包含了一個(gè)直連路線,網(wǎng)絡(luò)輸出等于輸入加上卷積后的輸出。本文在殘差網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合異構(gòu)卷積構(gòu)造一個(gè)輕量級(jí)模塊ResNetModel,模塊由異構(gòu)卷積和GhostModel組成。

原始?xì)埐罹W(wǎng)絡(luò)如圖6(a)所示,本文改進(jìn)的殘差網(wǎng)絡(luò)如圖6(b)、圖6(c)所示。原始?xì)埐罹W(wǎng)絡(luò)通過(guò)直連抵消網(wǎng)絡(luò)層數(shù)過(guò)深導(dǎo)致的梯度消失現(xiàn)象,本文結(jié)合異構(gòu)卷積和幻影圖操作改進(jìn)殘差網(wǎng)絡(luò),網(wǎng)絡(luò)主要由圖6(b)、圖6(c)的模塊構(gòu)成,在每個(gè)階段的初始階段,使用ResNetModel_B殘差模塊降采樣,接著使用ResNetModel_A重復(fù),加強(qiáng)特征表達(dá),在模塊ResNetModel_A中,還會(huì)使用注意力機(jī)制來(lái)提升視覺(jué)表達(dá)。網(wǎng)絡(luò)整體結(jié)構(gòu)見(jiàn)表1。表1中,F(xiàn)LOPs為231.87 M。

3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Ubuntu18.04,使用GPU訓(xùn)練,深度學(xué)習(xí)框架為Pytorch。首先為了測(cè)試注意力對(duì)網(wǎng)絡(luò)的影響,進(jìn)行了消融實(shí)現(xiàn),設(shè)置不同階段添加ECA模塊進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集使用CAFIR10數(shù)據(jù)集,在此數(shù)據(jù)集中總共有10類目標(biāo)。實(shí)驗(yàn)結(jié)果見(jiàn)表2。表2中,符號(hào)“√”表示使用ECA。

從表2的實(shí)驗(yàn)結(jié)果來(lái)看,使用ECA模塊確實(shí)會(huì)使模型精度提高,但是使用的方式需要經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文在1、2、3階段使用ECA,4階段不使用時(shí)效果最好。表1中模型結(jié)構(gòu)是其最優(yōu)的形式,使用表1中的網(wǎng)絡(luò)與其他分類網(wǎng)絡(luò)在CAFIR10數(shù)據(jù)集以及CAFIR100數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證模型的有效性。結(jié)果見(jiàn)表3。

圖7是網(wǎng)絡(luò)HSNet在CAFIR10數(shù)據(jù)集中訓(xùn)練集和驗(yàn)證集上的精度曲線和損失曲線。在驗(yàn)證集HSNet網(wǎng)絡(luò)精度可以達(dá)到90.2%。訓(xùn)練集和驗(yàn)證集上的混淆矩陣如圖8所示。

表3中給出了ResNet、VGG以及使用Ghost Model替換之后模型的精度對(duì)比。由結(jié)果來(lái)看,本文網(wǎng)絡(luò)在FLOPs遠(yuǎn)低于ResNet、VGG及其Ghost替換模型的情況下沒(méi)有很大的精度損失,在與同為輕量級(jí)網(wǎng)絡(luò)的GhostNet對(duì)比下,本文實(shí)驗(yàn)精度更好。

ResNet在CAFIR100和CAFIR10數(shù)據(jù)集上的實(shí)驗(yàn)中,網(wǎng)絡(luò)使用了不同的通道數(shù),其中CAFIR10數(shù)據(jù)集上ResNet56的第一個(gè)卷積層輸出通道為16,CAFIR100數(shù)據(jù)集實(shí)驗(yàn)中ResNet50第一個(gè)卷積層輸出通道為64,所以在FLOPs上有差距。初始通道數(shù)為16時(shí),ResNet50的參數(shù)量為1.53 M。由表3和表4的結(jié)果來(lái)看,減少通道數(shù)可以減少參數(shù)以及FOLPs,但是實(shí)驗(yàn)效果不理想。

本文還在CAFIR100數(shù)據(jù)集上進(jìn)行分類實(shí)驗(yàn),CAFIR100數(shù)據(jù)集一共有100類,每個(gè)類包含600個(gè)圖像,每類由500個(gè)訓(xùn)練圖以及100張測(cè)試圖組成。實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)使用Top1錯(cuò)誤率和Top5錯(cuò)誤率。使用本文HSNet對(duì)比了輕量級(jí)網(wǎng)絡(luò)以及非輕量級(jí)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果參見(jiàn)表4。

在CAFIR100數(shù)據(jù)集上的訓(xùn)練損失曲線如圖9所示,本文提出的HSNet與現(xiàn)有的輕量級(jí)網(wǎng)絡(luò)在參數(shù)量的對(duì)比上處于中間水平,但是由FLOPs標(biāo)準(zhǔn)來(lái)評(píng)價(jià)本文輕量級(jí)網(wǎng)絡(luò)優(yōu)于現(xiàn)有的輕量級(jí)網(wǎng)絡(luò),精度同樣具有優(yōu)勢(shì),具有一定的實(shí)際應(yīng)用價(jià)值。相比大型網(wǎng)絡(luò)參數(shù)量具有很明顯的優(yōu)勢(shì),在參數(shù)量以及FLOPs相差巨大的情況下,實(shí)驗(yàn)效果并沒(méi)有損失多少。

為了驗(yàn)證HSNet在大型數(shù)據(jù)集上的穩(wěn)定性以及泛化性,最后使用HSNet在ImageNet大型數(shù)據(jù)集上進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表5。實(shí)驗(yàn)選取表4中的幾個(gè)輕量化網(wǎng)絡(luò)和非輕量化網(wǎng)絡(luò),采取Top1的精度和Top5的精度。試驗(yàn)結(jié)果表明網(wǎng)絡(luò)在大型數(shù)據(jù)集上具有一定的穩(wěn)定性。

4 結(jié)束語(yǔ)

本文受Inception網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),構(gòu)造了網(wǎng)絡(luò)初始的StemBlock層,使用卷積池化的方式獲取不同的特征表達(dá),在網(wǎng)絡(luò)的主干部分,結(jié)合改進(jìn)后的異構(gòu)卷積和GhostModel對(duì)原殘差網(wǎng)絡(luò)進(jìn)行改進(jìn),提出ResHetModel_A、B兩種新型的殘差結(jié)構(gòu),使用這兩種殘差結(jié)構(gòu)疊加,構(gòu)成了本文提出的HSNet,在CAFIR10和CAFIR100數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文模型的有效性,在大型ImageNet數(shù)據(jù)集上說(shuō)明輕量型網(wǎng)絡(luò)HSNet具有一定的穩(wěn)定性與泛化性。

參考文獻(xiàn)

[1][JP4]KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with Deep Convolutional Neural Networks[J]. Neural Information Processing Systems, 2012, 141:1097-1105.

[2]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[3]SZEGEDY C , LIU Wei, JIA Yangqing, et al. Going Deeper with Convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR) . Boston, MA,USA:IEEE,2015:1-9.

[4]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Identity mappings in deep residual networks[M]//LEIBE B, MATAS J, SEBE N, et al. Computer Vision-ECCV 2016. ECCV 2016. Lecture Notes in Computer Science. Cham:Springer, 2016, 9908:630-645.

[5]IANDOLA F N,HAN S,MOSKEWICZ M W,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and<0.5 MB model size[J]. arXiv preprint arXiv:1602.07360,2016.

[6]HOWARDA G, ZHU Menglong, CHEN Bo, et al. MobileNets: Efficient Convolutional Neural Networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861,2017.

[7]ZHANG Xiangyu , ZHOU Xinyu , LIN Mengxiao , et al. ShuffleNet: An extremely efficient Convolutional Neural Network for mobile devices[C]//CVPR. Salt Lake City, UT:IEEE,2018:1-9.

[8]MA Ningning , ZHANG Xiangyu , ZHENG Haitao, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design[M]//FERRARI V, HEBERT M, SMINCHISESCU C, et al. Computer Vision-ECCV 2018. ECCV 2018. Lecture Notes in Computer Science. Cham:Springer, 2018,11218:122-138.

[9]VAHID K A, PRABHU A, FARHADI A, et al. Butterfly transform: An efficient fft based neural architecture design[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2020: 12021-12030.

[10]LI Yunsheng, CHEN Yinpeng, DAI Xiyang, et al. MicroNet: Towards Image Recognition with Extremely Low FLOPs[J].arXiv preprint arXiv:2011.12289,2020.

[11]HAN Kai, WANG Yunhe, TIAN Qi,et al.GhostNet: More Features from Cheap Operations[J].arXiv preprint arXiv:1911.11907, 2020.

[12]SINGH P,VERMA V K,RAI P,et al.HetConv:Heterogeneous Kernel-Based Convolutions for Deep CNNs [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach, CA, USA:IEEE,2019:4830-4839.

[13]CHOLLET F . Xception: Deep learning with Depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawai:IEEE,2017, 1: 1800-1807.

[14]SZEGEDY C,IOFFE S, VANHOUCKE V, et al. Inceptionv4,Inception-ResNet and the impact of residual connections on learning[C]//AAAI'17: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.?? California USA:AAAI,2017:4278-4284.

作者簡(jiǎn)介: 喻明毫(1997-),男,碩士研究生,主要研究方向:信息與通信工程,深度學(xué)習(xí);高建瓴(1969-),女,碩士,副教授,主要研究方向:數(shù)據(jù)分析、數(shù)據(jù)庫(kù)應(yīng)用; 胡承剛(1996-),男,碩士研究生,主要研究方向:自然語(yǔ)言處理。

通訊作者: 高建瓴Email:454965711@qq.com

收稿日期: 2021-04-10