李 超,柳 偉
(1.深圳信息職業(yè)技術(shù)學(xué)院 廣東省智能視覺工程技術(shù)研究中心,廣東 深圳518172;2.深圳大學(xué) 電子與信息工程學(xué)院,廣東 深圳 518060)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為深度學(xué)習(xí)方法的重要分支,由于其在圖像特征提取上的優(yōu)勢(shì),越來(lái)越多的學(xué)者將基于CNN的圖像特征提取方法引入計(jì)算機(jī)視覺的下游任務(wù)中。CNN通過局部感知和參數(shù)共享,不僅有效地利用了圖像局部關(guān)聯(lián)性降低計(jì)算量,而且便于構(gòu)建深層的網(wǎng)絡(luò)結(jié)構(gòu),通過對(duì)大量樣本的無(wú)監(jiān)督學(xué)習(xí),自動(dòng)提取更具鑒別性和魯棒性的特征。而這種強(qiáng)大的特征提取能力大部分依賴于網(wǎng)絡(luò)中卷積層的設(shè)計(jì),卷積層的形式不僅可以在很大程度上決定整個(gè)網(wǎng)絡(luò)的性能;同時(shí)它也可以直接影響訓(xùn)練過程的復(fù)雜度。因此,如何設(shè)計(jì)更有效的卷積層以提供更強(qiáng)大的特征表示是CNN網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化研究中的核心問題之一。先前的一些研究試圖通過使用人工設(shè)計(jì)的策略對(duì)卷積層的形式進(jìn)行擴(kuò)展來(lái)生成豐富的特征表示。文獻(xiàn)[1]將寬度擴(kuò)展策略應(yīng)用于瓶頸結(jié)構(gòu),與原始的網(wǎng)絡(luò)相比,它顯示出更好的訓(xùn)練穩(wěn)定性和可靠性。文獻(xiàn)[2,3]通過利用特定的稀疏結(jié)構(gòu)擴(kuò)展了濾波器的形式,進(jìn)一步增強(qiáng)了卷積層的多尺度表示能力。但是,無(wú)論寬度卷積還是通道分組,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)變得越來(lái)越復(fù)雜時(shí),這些策略往往會(huì)限制卷積層通道之間的信息流通并可能獲得一定的負(fù)增益。
受深度學(xué)習(xí)和集成學(xué)習(xí)緊密的相似性的啟發(fā),例如,分組卷積可以認(rèn)為是一種Bagging模型,而Res2Net也可以擬合成一種簡(jiǎn)單的Boosting算法,因此從深度學(xué)習(xí)和集成學(xué)習(xí)的共有角度出發(fā),設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的類分組卷積單元,該單元幫助卷積神經(jīng)網(wǎng)絡(luò)通過利用相鄰分組之間的相互依賴性來(lái)提取更完整的特征表示并對(duì)其進(jìn)行多尺度特征融合,從而避免大幅度調(diào)整當(dāng)前的網(wǎng)絡(luò)架構(gòu)。在通用圖像識(shí)別數(shù)據(jù)庫(kù)ImageNet和Cifar100的實(shí)驗(yàn)研究表明,提出的基于Boosting 的差分互補(bǔ)卷積具有更高的識(shí)別精度,并且不會(huì)引入額外的參數(shù)量。
Boosting是集中學(xué)習(xí)中一種典型的架構(gòu),近些年在模式識(shí)別領(lǐng)域受到廣泛關(guān)注,該架構(gòu)主要通過特定的策略將整體樣本集分成份不同的子樣本集,并在子樣本集中訓(xùn)練出個(gè)簡(jiǎn)單且性能一般的基學(xué)習(xí)器, 最后將這些基學(xué)習(xí)器集成擬合出一個(gè)高精度的估計(jì)[4,5,6]。在分類算法中, 每個(gè)基分類器代表著相對(duì)粗糙的分類規(guī)則,識(shí)別率相對(duì)較低,如決策樹個(gè)體,單層神經(jīng)網(wǎng)絡(luò)等,但它們?cè)诮?jīng)過加權(quán)融合之后就形成了一個(gè)強(qiáng)分類器,從而提高了該弱分類算法的識(shí)別率。而根據(jù)子集劃分的手段和集成策略不同,目前Boosting架構(gòu)下算法變體有很多,其中以AdaBoost最具代表性。
AdaBoost算法的核心思想在于給定一個(gè)訓(xùn)練集(x1, y1), …, (xm, ym),用均勻取樣的方式將訓(xùn)練集上的分布指定為1/m,并按照該分布調(diào)用對(duì)應(yīng)的基分類器進(jìn)行訓(xùn)練,每次訓(xùn)練之后,根據(jù)基分類器的輸出更新訓(xùn)練集上的分布,并按照新的樣本分布進(jìn)行下一個(gè)基分類器的訓(xùn)練,總共進(jìn)行T輪迭代之后,最終得到一個(gè)基分類器的估計(jì)集,每個(gè)估計(jì)都具有一定的權(quán)重,最終的估計(jì)則是采用有權(quán)重的投票方式獲得。
綜上所述,在Boosting算法中,通過設(shè)定有效的樣本集劃分方式,并對(duì)樣本子集進(jìn)行迭代更新,最后通過弱估計(jì)的融合提升算法的性能。同時(shí)該思想也適用于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中。
分組卷積旨在壓縮模型大小并提升網(wǎng)絡(luò)的特征表征能力。它將通道平均劃分為某些分組,并在不同分組中使用獨(dú)立的卷積運(yùn)算。隨著卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,分組卷積的模式在之前的工作中得到了廣泛的探索。研究表明,分組卷積不僅可以看作是結(jié)構(gòu)化的稀疏,而且還可以等同于特殊的正則化。在文獻(xiàn)[1]中,首次提出了分組卷積的概念,并使用分組卷積實(shí)現(xiàn)了在2個(gè)GPU上并行訓(xùn)練特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。隨后根據(jù)分組卷積的擴(kuò)展版本的側(cè)重點(diǎn)不同可分為兩大類:網(wǎng)絡(luò)輕量化和網(wǎng)絡(luò)高效性。從輕量化的角度出發(fā),文獻(xiàn)[7]引入了具有跳躍連接的深度可分離卷積層作為線性組合,從而在保證精度的同時(shí)大幅度減少了其參數(shù)量。此外,一種基于分組思想的隨機(jī)信道混洗方法[8]也使網(wǎng)絡(luò)的參數(shù)量得到進(jìn)一步壓縮且一定程度上提升網(wǎng)絡(luò)性能。但是無(wú)論是深度可分離卷積還是通道混洗操作,都是在分組卷積后進(jìn)行通道之間信息的交互,這被證實(shí)相較于在分組卷積中進(jìn)行通道交互是一種更低效方式。從模型高效性的角度進(jìn)行探索,文獻(xiàn)[2]根據(jù)通道將各個(gè)骨干塊平均劃分為一組具有相同拓?fù)淇捉Y(jié)構(gòu)濾波器,這種拆分變換合并的操作減少了參數(shù)量,并增強(qiáng)了模型特征表示的能力。為了再此基礎(chǔ)上更進(jìn)一步,文獻(xiàn)[9]在單個(gè)分組卷積中采用分層式跳躍連接使模型能夠提取多尺度樣式的特征圖像。但是Res2Net的分層跳躍連接只是通過簡(jiǎn)單的逐像素相加進(jìn)行信息的交互,而沒深入探討相鄰分組之間的相關(guān)性。文獻(xiàn)[10]在Res2Net中引入注意力機(jī)制,利用空間和通道相關(guān)性進(jìn)一步提升網(wǎng)絡(luò)性能。
綜上所述,單獨(dú)使用通道分組式卷積會(huì)因?yàn)槊總€(gè)通道獨(dú)立性劃分的限制,從而導(dǎo)致通道相關(guān)性的缺失,而在分組卷積過程中進(jìn)行通道交互是一種提高分組卷積性能的有效策略,因此如何利用分組卷積去減少網(wǎng)絡(luò)參數(shù)并利用分組通道之間的相關(guān)性建模有效的信息交互方式以實(shí)現(xiàn)網(wǎng)絡(luò)的高效性是分組卷積亟待解決的問題之一。
通過對(duì)不同通道之間特征圖的可視化分析,各組特征圖之間存在一定程度的相關(guān)性,因此采用Boosting和分組卷積的樣本集細(xì)分的思想,對(duì)每個(gè)批次的特征圖集合進(jìn)行按通道劃分,并通過差分互補(bǔ)連接利用上一組的特征差異去增強(qiáng)并更新下一組輸入的特征表示,最后通過特征拼接來(lái)實(shí)現(xiàn)特征的多尺度融合。差分互補(bǔ)卷積結(jié)構(gòu)圖如圖1所示。
圖1 差分互補(bǔ)卷積的結(jié)構(gòu)圖
為了更好地理解所提議的差分互補(bǔ)卷積,下面以殘差網(wǎng)絡(luò)中經(jīng)典的瓶頸結(jié)構(gòu)進(jìn)行說明,差分互補(bǔ)瓶頸結(jié)構(gòu)圖如圖2所示。
圖2 基于差分互補(bǔ)卷積的瓶頸結(jié)構(gòu)
根據(jù)結(jié)構(gòu)框圖,基于Boosting的差分互補(bǔ)卷積的邏輯步驟如下:
(1)在第一個(gè)1×1卷積之后,輸出特征圖X按照通道數(shù)被均勻地劃分為s個(gè)特征圖子集,每個(gè)分組上的特征子集空間形狀與X相等,且通道數(shù)僅為原來(lái)的1/s。為了控制參數(shù)量,除了第一個(gè)分組,每個(gè)特征子集都配備了單獨(dú)的3×3卷積運(yùn)算;
(2)對(duì)這些特征圖進(jìn)行分組之后,可以根據(jù)前一組的差分建立相鄰?fù)ǖ乐g的信息交互連接,差分反映了前一組輸入和輸出之間差異的程度。將當(dāng)前組的輸入更新為原始輸入和前一組差分的累加;
(3)根據(jù)不同組的卷積得到的不同尺度的特征圖,將輸出特征圖子集進(jìn)行通道拼接,獲得新的特征圖Y。算法公式如式(1)。
綜上所述,差分互補(bǔ)卷積通過建立差分互補(bǔ)連接,使得每個(gè)分組的學(xué)習(xí)區(qū)域各有側(cè)重,即新的輸入將更加關(guān)注先前的差異區(qū)域,并形成像素級(jí)別的信息補(bǔ)充,從而使每一組的卷積提取的特征信息更加完整,一定程度上緩解了傳統(tǒng)卷積中的特征冗余;同時(shí),隨著分組數(shù)的增加,濾波器的感受野也進(jìn)一步豐富,例如第二組的感受野大小為3×3,第三組的感受野為3×3和5×5,因此在最后的特征融合的時(shí)候可以利用更多尺度的特征信息生成更精準(zhǔn)的特征表示,從而提高網(wǎng)絡(luò)的性能。
我們通過殘差神經(jīng)結(jié)構(gòu)設(shè)計(jì)了網(wǎng)絡(luò),該結(jié)構(gòu)優(yōu)化了多尺度表示能力和參數(shù)策略。因?yàn)樵诳偼ǖ辣3趾愣ǖ那闆r下,增加特征分組的數(shù)量會(huì)獲得較少的參數(shù)和復(fù)雜性, 但也導(dǎo)致了相對(duì)較低的性能。因此,為了提高基準(zhǔn)性能并保證參數(shù)的公平比較,差分互補(bǔ)卷積中使用與Res2Net類似的參數(shù)策略。s是組數(shù),c是輸入通道數(shù),w是用于控制精度和參數(shù)之間權(quán)衡的超參數(shù)。這種參數(shù)策略如表1所示。
表1 參數(shù)平衡策略
實(shí)驗(yàn)中使用的基準(zhǔn)數(shù)據(jù)集為Cifar100[12]和ImageNet[13]。數(shù)據(jù)集的具體信息如表2所示。
表2 圖像分類數(shù)據(jù)集
CIFAR-100數(shù)據(jù)集由100個(gè)類別的圖像組成,其中包括5萬(wàn)個(gè)訓(xùn)練圖像和10k測(cè)試圖像的集合,而ImageNet是128萬(wàn)個(gè)訓(xùn)練圖像和50K驗(yàn)證圖像的集合,由1K個(gè)類別組成。對(duì)于CIFAR-100數(shù)據(jù)集,訓(xùn)練批次大小設(shè)置為128,并訓(xùn)練200個(gè)epoch,在優(yōu)化過程中,使用SGD作為優(yōu)化器,其動(dòng)量設(shè)置為0.9,權(quán)重衰減為5e-4。
對(duì)于ImageNet的數(shù)據(jù)預(yù)處理,我們?cè)谠紙D片上進(jìn)行標(biāo)準(zhǔn)的尺寸裁剪和水平區(qū)域翻轉(zhuǎn)。同時(shí)我們利用平均信道減法對(duì)給定的輸入圖進(jìn)行歸一化處理。此外,使用與文獻(xiàn)[2]相同的設(shè)置在ImageNet上訓(xùn)練我們的模型,包括SGD優(yōu)化器,衰減1e-4,動(dòng)量0.9,持續(xù)100個(gè)epoch的訓(xùn)練周期;初始學(xué)習(xí)率設(shè)置為0.1,每30個(gè)epoch衰減10倍。 對(duì)于損失函數(shù),采用了交叉熵?fù)p失,其定義如下:
為了初步驗(yàn)證差分互補(bǔ)卷積的有效性,我們首先對(duì)一些廣泛使用的骨干網(wǎng)使用提出的差分互補(bǔ)卷積:ResNet,ResNetXt 和Res2NetXt,類似于標(biāo)準(zhǔn)做法[2],我們只用差分互補(bǔ)卷積模塊替換了Bottleneck模塊中的3×3卷積層,同時(shí)保留了其他相同的網(wǎng)絡(luò)配置。表2顯示了在不同網(wǎng)絡(luò)中集成差分互補(bǔ)卷積模塊的CIFAR-100結(jié)果。與原始骨干網(wǎng)絡(luò)相比,我們的卷積模塊提高了所有基線模型的性能,特別是,當(dāng)差分互補(bǔ)卷積替換掉ResNet中的3×3的卷積之后,網(wǎng)絡(luò)的Top-1準(zhǔn)確率從79.60%提升為80.62%,提升幅度為1.02%,相同的提升在其他的常用網(wǎng)絡(luò)結(jié)構(gòu)也能觀察到,這說明了差分互補(bǔ)連接分層級(jí)增強(qiáng)了內(nèi)部分組的輸入特征,同時(shí)顯著改善了每個(gè)卷積層的特征表述能力,初步證明了我們提出的差分互補(bǔ)卷積的有效性和可靠性。
表3 Cifar100的Top-1準(zhǔn)確率
為了進(jìn)一步探討我們的方法的優(yōu)越性能是否可以推廣到CIFAR以外更大的數(shù)據(jù)集。因此在ImageNet數(shù)據(jù)集上進(jìn)行了一些實(shí)驗(yàn),與一些具有代表性的CNN結(jié)構(gòu)進(jìn)行了比較。表3顯示該模型是一種有效的性能改進(jìn)方法,隨著可忽略參數(shù)量的增加,Top-1準(zhǔn)確性達(dá)到77.62%,與ResNet相比增加了1.22%。另外,與一些注意力算法相比,該方法具有更強(qiáng)的特征表示能力,相對(duì)可觀的增益以及相似甚至更少的參數(shù)量。
表4 ImageNet的Top-1準(zhǔn)確率
為了進(jìn)一步探討不同分組數(shù)的差分互補(bǔ)卷積對(duì)基線模型的準(zhǔn)確率的影響。消融實(shí)驗(yàn)中采用的差分互補(bǔ)卷積具有兩種消融模式,分別是全復(fù)雜度模式和保留復(fù)雜度模式。全復(fù)雜度模式具體為在增加分組數(shù)時(shí)設(shè)置只改變維度s,從而直接增加模型的參數(shù)量進(jìn)行測(cè)試,而對(duì)于保留復(fù)雜度測(cè)試,則是通過在增加分組數(shù)的同時(shí)調(diào)整第二維度W進(jìn)行參數(shù)的控制,維持相似的參數(shù)量。所有消融實(shí)驗(yàn)均在Cifar100上進(jìn)行,同時(shí)為了保證對(duì)比公平,選擇Res2Net作為基準(zhǔn)模型。表3顯示了在不同實(shí)驗(yàn)配置下的CIFAR-100測(cè)試準(zhǔn)確性和模型尺寸。從增加復(fù)雜度下的結(jié)果可以看出,隨著分組的增加,DCNet可以穩(wěn)定而可靠地獲得收益。 特別是,s = 4的性能從Res2Net的80.62%增加到DCNet的81.27%。而保留復(fù)雜度的結(jié)果可以看出,盡管網(wǎng)絡(luò)參數(shù)量的減少導(dǎo)致了Top-1準(zhǔn)確率的下降,但是相比于Res2Net,在相同的分組數(shù)仍高出,表明了網(wǎng)絡(luò)的有效性和穩(wěn)定性,從實(shí)驗(yàn)結(jié)果中觀察到在分組數(shù)為6, 8的時(shí)候性能增益不明顯,分析認(rèn)為是CIFAR100數(shù)據(jù)集中的圖像太小,分組數(shù)過多無(wú)法補(bǔ)充更細(xì)致的信息以生成更多的多尺度特征組合。
表5 消融實(shí)融
為了探索DCNet的特征表示能力,我們利用Grad-CAM[11]進(jìn)行觀察性的類激活映射(CAM),該方法最常用于標(biāo)注顯著區(qū)域以進(jìn)行圖像分類,高亮部分為注意力區(qū)域。實(shí)驗(yàn)所采用網(wǎng)絡(luò)均在ImageNet上訓(xùn)練完畢,采用18層的網(wǎng)絡(luò)作為標(biāo)準(zhǔn)。從圖3可以直觀觀察到,與Res2Net相比,基于DCNet的CAM示例在圖像區(qū)域上具有更精準(zhǔn)的激活圖,在電車圖中,Res2Net過多的聚焦于道路區(qū)域,而DCNet則可以更精準(zhǔn)地注意車體本身,而減少對(duì)于干擾因素的激活。同樣的現(xiàn)象也能在茶壺圖片中發(fā)現(xiàn),Res2Net僅激活了其中的兩個(gè)茶壺,而其余則被標(biāo)注為較淺的區(qū)域,而DCNet則可以聚焦在4個(gè)茶壺。這表明DCNet通過差分互補(bǔ)卷積具有更好的特征表示能力??梢杂^察到無(wú)論是Res2Net還是DCNet,均無(wú)法完全囊括整個(gè)區(qū)域,這是因?yàn)?8層的網(wǎng)絡(luò)的特征提取能力相對(duì)較弱的性能。
圖3 基于差分互補(bǔ)卷積的瓶頸結(jié)構(gòu)
本文提出了基于Boosting的差分互補(bǔ)卷積模塊作為分組卷積的擴(kuò)展版本,可以利用差分信息多層級(jí)增強(qiáng)內(nèi)部分組輸入特征,并顯著提高卷積層的多尺度表示能力,同時(shí)可以輕松地將其集成到常用的骨干網(wǎng)絡(luò)中。實(shí)驗(yàn)結(jié)果表明,差分互補(bǔ)卷積巧妙地結(jié)合了集成學(xué)習(xí)和深度學(xué)習(xí)的共同理念,可以改善卷積神經(jīng)網(wǎng)絡(luò)的特征轉(zhuǎn)換能力,并提高圖像分類任務(wù)的準(zhǔn)確率。因此可以進(jìn)一步探索集成學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。