趙麗萍,袁 霄,祝 承,趙曉琦,楊仕虎,梁 平,魯小丫,譚 穎
1.西南民族大學(xué) 計算機系統(tǒng)國家民委重點實驗室,成都 610041
2.南京大學(xué) 電子科學(xué)與工程學(xué)院,南京 210093
圖像分類是計算機視覺領(lǐng)域的重要任務(wù),常用于場景識別、疾病診斷等領(lǐng)域[1]。圖像分類算法主要包括特征圖像的提取和分類器的設(shè)計兩個步驟[2]。傳統(tǒng)的圖像分類往往通過手工提取通用性強但唯一性弱的特征,然后將提取的特征送入傳統(tǒng)機器學(xué)習(xí)方法進行分類。Song等人[3]將支持向量機用于腦腫瘤圖像分類,Rajaguru等人[4]將最近鄰算法用于乳腺癌的分類。傳統(tǒng)機器學(xué)習(xí)常用于較規(guī)范的小數(shù)據(jù)集,但對于背景復(fù)雜、類間差異大、類內(nèi)差異小的圖像,分類準(zhǔn)確率不高[5]。
神經(jīng)網(wǎng)絡(luò)通過卷積和池化提取特征,通過全連接對得到的特征分類,從而判定圖像類別[6]。顏建軍等人[7]基于遞歸圖和卷積神經(jīng)網(wǎng)絡(luò)對脈象進行分析識別,獲得98.14%的準(zhǔn)確率;鄭茜元等人[8]基于循環(huán)神經(jīng)網(wǎng)絡(luò)對在線學(xué)習(xí)者學(xué)習(xí)行為進行檢測,獲得97.37%的準(zhǔn)確率。神經(jīng)網(wǎng)絡(luò)因其良好的性能成為了圖像分類領(lǐng)域的主流技 術(shù) 。 8 層 的 AlexNet、19 層 的 VGGNet 和 27 層 的GoogLeNet 分別獲得了ILSVRC 2012 比賽第一名和ILSVRC 2014 比賽第二名、第一名。深度學(xué)習(xí)的復(fù)雜度和模型的學(xué)習(xí)能力是相關(guān)的,從上述的模型中,可以發(fā)現(xiàn),網(wǎng)絡(luò)的深度對模型的準(zhǔn)確率至關(guān)重要,深層網(wǎng)絡(luò)以端到端的多層方式融合了低/中/高層特征[9],網(wǎng)絡(luò)越深,能夠提取到的特征越豐富,越具有語義信息,獲得的準(zhǔn)確率越高[10]。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的深度若不斷增加,網(wǎng)絡(luò)模型訓(xùn)練過程中會出現(xiàn)梯度消失、梯度爆炸、模型過擬合等問題[11]。通過用正則化(drop)的方法對大量數(shù)據(jù)進行訓(xùn)練可以有效地解決過擬合問題[12],通過批標(biāo)準(zhǔn)化(Batch Normalization,BN)能一定程度上緩解淺層網(wǎng)絡(luò)的梯度消失/梯度爆炸問題,更快地訓(xùn)練穩(wěn)定的網(wǎng)絡(luò)[13]。這樣數(shù)十層的網(wǎng)絡(luò)能夠開始收斂。若網(wǎng)絡(luò)層數(shù)繼續(xù)簡單增加,訓(xùn)練集準(zhǔn)確率將不再增加甚至下降,出現(xiàn)網(wǎng)絡(luò)退化,上百層的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)將難以訓(xùn)練。
He 等人[10]通過引入恒等映射,實現(xiàn)跳層連接,緩解了深度網(wǎng)絡(luò)的退化問題,深度殘差網(wǎng)絡(luò)(Deep Residual Networks,ResNet)獲得2015年ILSVRC比賽冠軍,在接下來四年里,SCI 數(shù)據(jù)庫中可檢索的相關(guān)文章不斷遞增,從2016年的17篇增加至2019年的965篇,如圖1所示,ResNet成為了圖像分類的核心技術(shù)。針對殘差網(wǎng)絡(luò)的各個改進變體的內(nèi)在結(jié)構(gòu)、優(yōu)缺點和適用場合進行了介紹,并以圖表的形式直觀地比較了各個變體的性能,討論了當(dāng)前殘差網(wǎng)絡(luò)所遇到的挑戰(zhàn)和未來發(fā)展方向,為面向圖像分類的殘差網(wǎng)絡(luò)的發(fā)展和應(yīng)用提供一些參考。變體的改進方向主要分為以下三個部分:
圖1 SCI數(shù)據(jù)庫關(guān)于ResNet發(fā)表論文數(shù)量
(1)提高分類準(zhǔn)確率;
(2)減少模型參數(shù)量;
(3)降低模型計算量。
對于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),He等人[10]認為在一個已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)上,堆疊出一層與原網(wǎng)絡(luò)相同的層,這至少不會比原網(wǎng)絡(luò)效果差,但事實上傳統(tǒng)神經(jīng)網(wǎng)絡(luò)會有退化問題,這說明了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)很難擬合出恒等映射[14],于是將一個恒等映射傳入后一層這個思想便被提出來。
假定某段神經(jīng)網(wǎng)絡(luò)的輸入是X,期望輸出是H(X),將恒等映射傳入后一層,于是把網(wǎng)絡(luò)設(shè)計為H(X)=F(X)+X,這樣就變成了學(xué)習(xí)殘差函數(shù)F(X)=H(X)-X。網(wǎng)絡(luò)性能在最差的情況下(即F(X)=0),退化為原始的恒等映射,保證了網(wǎng)絡(luò)不會比原始網(wǎng)絡(luò)差。這樣的殘差函數(shù)學(xué)習(xí)性能比原網(wǎng)絡(luò)大大提高,殘差單元強化了對原始特征的復(fù)用,從而擁有更好的性能,設(shè)計見圖2(a)。
圖2 不同殘差網(wǎng)絡(luò)單元
圖中右側(cè)的曲線為簡單的跳層連接,它沒有帶入任何參數(shù),也沒有增加任何的計算復(fù)雜性,將上一層或幾層的特征信息直接與本層處理后的特征信息進行相加,然后進行線性激活,其數(shù)學(xué)表達式為:
式中,Xl是第l個殘差單元的輸入特征。Wl是一組與第l個殘差單元相關(guān)的權(quán)重,F(xiàn)(?)代表殘差函數(shù),F(xiàn)(?)為線性整流函數(shù)(Rectified Linear Unit,ReLU)。殘差網(wǎng)絡(luò)同時采用了維度變化、預(yù)激活單元、瓶頸單元等方法來提升網(wǎng)絡(luò)性能,減少參數(shù)量,防止退化從而加深網(wǎng)絡(luò)的深度。
由于ResNet使用步長為2的卷積做下采樣,會引起特征維度的變化,不同維度的特征無法直接融合,導(dǎo)致F(Xl,Wl)與Xl不能直接相加,這時可通過以下方式解決:
(1)采用零填充法增加維度,這樣不會增加參數(shù)和計算復(fù)雜度。
(2)采用1×1 的卷積,在跳層連接部分給輸入X加上一個線性映射Ws,即:
式中,Ws為線性映射矩陣。
He 等人[10]考慮到深層網(wǎng)絡(luò)的 2 個 3×3 的卷積參數(shù)量較大,于是引入瓶頸結(jié)構(gòu),將標(biāo)準(zhǔn)殘差單元的3×3-3×3卷積替換為1×1-3×3-1×1 卷積的瓶頸結(jié)構(gòu)。首先通過1×1 卷積減小維度,以低維度進行3×3 卷積,最后通過1×1卷積恢復(fù)特征維度,極大地減少了深度網(wǎng)絡(luò)的參數(shù)量和計算量,設(shè)計見圖2(b)。
通過引入恒等映射和瓶頸結(jié)構(gòu),雖然能將網(wǎng)絡(luò)深度從22提升到152并取得較好的圖像分類效果,但當(dāng)網(wǎng)絡(luò)深度到達200層后,網(wǎng)絡(luò)開始退化。在標(biāo)準(zhǔn)的殘差單元中,雖然BN對殘差函數(shù)F(X)進行了標(biāo)準(zhǔn)化,但輸出特征H(X)沒有被標(biāo)準(zhǔn)化,當(dāng)網(wǎng)絡(luò)深度繼續(xù)加深時,依舊會出現(xiàn)網(wǎng)絡(luò)退化問題。
He等人[15]提出將BN和Relu移動到了卷積之前,提升模型的正則化,同時每個殘差單元的輸出不再通過Relu激活,直接傳遞給下層網(wǎng)絡(luò),加快模型訓(xùn)練速度,網(wǎng)絡(luò)更易于優(yōu)化,設(shè)計見圖2(c)。
ResNet 引入恒等映射,實現(xiàn)跳層連接,前向和后向信號可以從一個單元直接傳播到任何其他單元,訓(xùn)練更容易,提高了泛化能力,緩解了深度網(wǎng)絡(luò)的退化問題,是一類具有高度精確性和良好收斂性的超深網(wǎng)絡(luò)結(jié)構(gòu)[16],ResNet 成功地將神經(jīng)網(wǎng)絡(luò)深度拓展到1 001 層,并首次在CIFAR-10 取得4.62%的錯誤率。然而超深網(wǎng)絡(luò)在具有強大特征表征能力的同時,超深網(wǎng)絡(luò)會出現(xiàn)在反向傳播中梯度消失,在正向傳播中特征重用減少、訓(xùn)練時間長、網(wǎng)絡(luò)冗余性、規(guī)模龐大、小數(shù)據(jù)集上表現(xiàn)差、計算機性能要求高等問題[17],表現(xiàn)為分類準(zhǔn)確率、模型參數(shù)量、模型計算量還有可改善的空間。ResNet 廣泛應(yīng)用于圖像分類與生成,最近在自然語言處理中也有被使用到,ResNet的信息復(fù)用思想,對深度學(xué)習(xí)有深遠影響。
分類準(zhǔn)確率為分類器預(yù)測正確類別的圖像數(shù)與整體圖像數(shù)的比值,是分類器性能的一個直觀評價指標(biāo)[18]。獲得好的分類準(zhǔn)確率是所有網(wǎng)絡(luò)模型的共同目標(biāo),ResNet 通過預(yù)激活單元和恒等映射結(jié)構(gòu)獲得ILSVRC 2015分類比賽的冠軍,但仍有可提升空間。本章將介紹隨機深度網(wǎng)絡(luò)(Deep Network with Stochastic Depth,SD)、寬殘差網(wǎng)絡(luò)(Wide Residual Networks,WRN)、ResNeXt、SE-Res-Net、Res2Net 通過引入壓縮剪枝、寬度、基數(shù)、通道注意力機制和多尺度進行分類準(zhǔn)確率的提升。
3.1.1 內(nèi)在結(jié)構(gòu)
ResNet的提出讓網(wǎng)絡(luò)深度突破千層,非常深的神經(jīng)網(wǎng)絡(luò)帶來新的挑戰(zhàn):梯度消失、特征重用減少以及訓(xùn)練時間長。Huang等人[19]提出一種基于壓縮剪枝的深度殘差網(wǎng)絡(luò)的訓(xùn)練方式,希望通過消除冗余特征來提升模型的準(zhǔn)確率,設(shè)計見圖3,SD隨機地舍棄掉某些殘差單元,使得特征直接傳到下一層,能有效地降低網(wǎng)絡(luò)的冗余性。
以殘差塊作為網(wǎng)絡(luò)的構(gòu)件,引入滿足伯努利分布(0-1分布)的隨機變量b表征該層F(?)是否被激活。訓(xùn)練時,若殘差塊被激活,跳層連接和F(?)同時參與訓(xùn)練,否則只跳層連接參與訓(xùn)練。其數(shù)學(xué)表達式為:
3.1.2 優(yōu)缺點及其適用場合
SD 在訓(xùn)練時對很深的ResNet 做壓縮和剪枝,增強反向傳播梯度,使網(wǎng)絡(luò)深度達到1 202 層的同時縮減了訓(xùn)練時間[20]。壓縮操作集合不同的訓(xùn)練深度,提高了泛化能力,顯著改善了常用數(shù)據(jù)集的分類準(zhǔn)確率。實驗表明,最后一層的生存概率為0.5時,較之ResNet,SD的訓(xùn)練時間穩(wěn)定減少25%左右,在深度為1 202時,準(zhǔn)確率提高1.76%。然而SD并沒有針對ResNet的單元結(jié)構(gòu)或網(wǎng)絡(luò)結(jié)構(gòu)進行改進,也沒有將其思想融合于其他深度網(wǎng)絡(luò),僅僅通過壓縮操作優(yōu)化ResNet訓(xùn)練過程,應(yīng)用范圍較窄。其壓縮過程在減小一定規(guī)模的同時,也減小了特征重用,不利于信息流的傳遞。建議嘗試將SD 用作大規(guī)模的深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法。
圖3 隨機深度網(wǎng)絡(luò)
3.2.1 內(nèi)在結(jié)構(gòu)
SD通過隨機舍棄讓網(wǎng)絡(luò)加深從而提升網(wǎng)絡(luò)的準(zhǔn)確率。通過增加模型深度來加強模型的表達能力從LeNet、AlexNet、VGGNet 到 ResNet 都有體現(xiàn)。然而訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)有很多的難點,并且網(wǎng)絡(luò)層數(shù)成倍增加僅能減少1%的分類錯誤率,同時網(wǎng)絡(luò)訓(xùn)練變得很慢,在超過1 000層后,網(wǎng)絡(luò)也出現(xiàn)了退化[21]。
Zagoruyko等人[21]通過對殘差單元的層結(jié)構(gòu)、層數(shù)、層寬等進行了廣泛的實驗,提出了寬殘差網(wǎng)絡(luò),減小殘差網(wǎng)絡(luò)的深度,增大網(wǎng)絡(luò)的寬度,即增加特征映射的通道數(shù),在加寬后的3×3 卷積之間引入Dropout 層緩解方差偏移,設(shè)計見圖4。
圖4 寬殘差單元
3.2.2 優(yōu)缺點
WRN減少網(wǎng)絡(luò)深度,增加網(wǎng)絡(luò)寬度,特征重復(fù)利用增加,更易訓(xùn)練,計算效率提高,分類精度和準(zhǔn)確率提升。實驗表明,16層深的WRN網(wǎng)絡(luò)以更快的訓(xùn)練速度取得了比1 000 層的傳統(tǒng)殘差網(wǎng)絡(luò)更好的精度和準(zhǔn)確率[22]。神經(jīng)網(wǎng)絡(luò)的參數(shù)量由帶參數(shù)的層貢獻,包括卷積層、BN層和全連接層。其中卷積層貢獻主要的參數(shù)量,根據(jù)參數(shù)量計算公式,卷積層的參數(shù)量主要由卷積核大小、輸入通道數(shù)、輸出通道數(shù)貢獻,其公式如下:
其中,Y代表參數(shù)量,K代表卷積核大小,代表輸入通道數(shù),Co代表輸出通道數(shù),增加通道數(shù)會同時增加輸入通道數(shù)和輸出通道數(shù)的大小,導(dǎo)致訓(xùn)練參數(shù)平方級的增加,如40層厚度的WRN通道數(shù)擴大比例為1和2時,參數(shù)量分別為0.6 MB和2.2 MB,參數(shù)量近似為平方關(guān)系,參數(shù)量平方級的增加對數(shù)據(jù)集和計算機性能的要求更高。
3.3.1 內(nèi)在結(jié)構(gòu)
SD通過增加深度來提升網(wǎng)絡(luò)的準(zhǔn)確率,WRN通過提升寬度來增加準(zhǔn)確率,加寬和加深神經(jīng)網(wǎng)絡(luò)是提高準(zhǔn)確率的有效方法。然而網(wǎng)絡(luò)深度的增加帶來的準(zhǔn)確率的提升越來越少,網(wǎng)絡(luò)寬度的增加往往會伴隨著指數(shù)級的參數(shù)規(guī)模提升,Xie 等人[23]脫離加深和加寬網(wǎng)絡(luò)層次來提升網(wǎng)絡(luò)性能的固定思維模式,提出了ResNeXt,ResNeXt是ResNet和Inception的結(jié)合體,Inception系列已經(jīng)證明拆分-轉(zhuǎn)換-合并的拓撲策略能獲得分類精度的提升[24],不同于Inception,ResNext不需要人工復(fù)雜的Inception細節(jié)設(shè)計,而是增加具有相同拓撲結(jié)構(gòu)的路徑數(shù)量。以簡單、可擴展的方式利用拆分-轉(zhuǎn)換-合并策略進行分組卷積,見圖5。
圖5 聚合殘差變換單元
特征信息進入ResNeXt 單元后,拆分為c個分支(圖中為32)進行相同的轉(zhuǎn)換,將c個分支的輸出特征進行求和合并后再與轉(zhuǎn)換前的信息進行融合,其數(shù)學(xué)表達式如下:
其中,c為基數(shù),表示相同拓撲分支的數(shù)量,Ti()表示具有相同拓撲結(jié)構(gòu)的每個分支的變換(這里指1×1-3×3-1×1堆疊卷積)。
3.3.2 優(yōu)缺點及其適用場合
ResNeXt 用一種相同拓撲結(jié)構(gòu)多分支架構(gòu)代替原來ResNet的單一分支,只有幾個超參數(shù)設(shè)置,高度模塊化,減小了網(wǎng)絡(luò)設(shè)計的難度和計算開銷,便于模型移植,在整體復(fù)雜度相同時,分組卷積將每個小網(wǎng)絡(luò)的參數(shù)量降低為原來的1/C,過擬合風(fēng)險降低,模型準(zhǔn)確率提升[25],ResNeXt-101(64×4d)獲得 ILSVRC 2016 分類任務(wù)的第二名,根據(jù)式(4)可以計算得深度為50的ResNet和ResNeXt 的參數(shù)量大體一致。ResNeXt 雖能在相同復(fù)雜度情況下取得高分類準(zhǔn)確率,然而組卷積的存在,若通過繼續(xù)提高卷積組的數(shù)量以提高分類準(zhǔn)確率,將會帶來參數(shù)量的大增,ResNeXt-101(64×4d)的參數(shù)量為83.7 MB,比ResNeXt-101(32×4d)、WRN-40、ResNet-152、分別多了39.4 MB、14.8 MB、23.5 MB。因為ResNeXt的相同拓撲結(jié)構(gòu)的分支的設(shè)計符合GPU的硬件設(shè)計原則,ResNeXt運行速度會更快。
3.4.1 內(nèi)在結(jié)構(gòu)
ResNet、ResNeXt 等神經(jīng)網(wǎng)絡(luò)主要將重點集中在卷積上而忽略了通道維度,卷積算子將各層局部感受野中的空間上和通道間信息進行融合[26],但卷積操作對輸入特征圖的所有通道進行融合,這明顯是有待改進的。Hu 等人[27]提出壓縮激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet)建模特征通道之間的依賴關(guān)系,通過學(xué)習(xí)的方式自動獲取每個特征通道的重要程度,從而實現(xiàn)提升有用特征,抑制無效特征。SENet 靈活性好,常直接應(yīng)用于現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)中[28],與ResNet、ResNeXt、Inception等網(wǎng)絡(luò)融合分別得到SE-ResNet、SE-ResNeXt、SE-Inception-ResNet-V2。SE-ResNet設(shè)計見圖6。
圖6 壓縮激勵殘差網(wǎng)絡(luò)單元
該單元架構(gòu)分為壓縮和激發(fā)兩個步驟。首先在特征映射上執(zhí)行全局平均池化,將特征順著空間維度進行壓縮,每個二維特征通道得到一個實數(shù),然后通過兩個全連接層和Sigmoid激活函數(shù),融合各通道的特征映射,學(xué)習(xí)各通道間的關(guān)系,得到各通道的歸一化權(quán)重圖,該權(quán)重圖與原來的特征圖經(jīng)過點積運算后得到SENet。SENet融合殘差連接方式得到SE-ResNet。
3.4.2 優(yōu)缺點及其適用場合
壓縮操作得到某個通道當(dāng)前特征映射的全局壓縮特征向量,將感受野擴展到全局,提取的特征語義層次更高;激勵操作采用兩個連續(xù)的全連接,具有更多的非線性,更好地擬合通道間復(fù)雜的相關(guān)性。壓縮激勵操作能使SENet獲得更好的收斂精度[29],該模型常與殘差網(wǎng)絡(luò)系列結(jié)合,采用殘差連接方式,易于收斂。實驗表明,SENet加入原模型后,新舊模型的收斂趨勢和收斂速度大體一致,在相同訓(xùn)練條件下,新模型的收斂精度穩(wěn)定高于原模型[27]。SE-ResNeXt在ILSVRC 2017獲得分類冠軍。然而SENet中神經(jīng)元感受野的大小單一化、感受野不能根據(jù)不同尺寸的輸入信息進行自適應(yīng)調(diào)整、沒有空間注意力的應(yīng)用。建議將SENet用于圖像背景復(fù)雜、類內(nèi)差異小、目標(biāo)在圖像中不均勻分布且不需要空間轉(zhuǎn)換的數(shù)據(jù)集。
3.5.1 內(nèi)在結(jié)構(gòu)
深度神經(jīng)網(wǎng)絡(luò)能在多個尺度上表示特征并在圖像分類中得到了廣泛的應(yīng)用[30],深度神經(jīng)網(wǎng)絡(luò)的最新進展展示出更強的多尺度表示能力。目前現(xiàn)有的特征提取方式大多是通過分層表示多尺度特征,通常是使用多個尺度的卷積核對每一層進行特征提取[31],或是融合每一層所提取的特征[32]。Gao等人[33]提出Res2Net,從增加塊內(nèi)感受野的角度出發(fā),重建普通的ResNet的單元架構(gòu),用4尺度3×3卷積核的殘差分層架構(gòu)取代了1×1-3×3-1×1的標(biāo)準(zhǔn)卷積,中間的卷積結(jié)構(gòu)從單分支變?yōu)槎喾种ВO(shè)計見圖7。
圖7 Res2Net單元
輸入特征首先經(jīng)過1×1卷積后按通道數(shù)均分為s個特征子集,特征子集Xi與經(jīng)過Ki-1()轉(zhuǎn)換后的Xi-1相加,然后送Ki()得到輸出yi(Ki()表示3×3 卷積)。最后,所有分塊拼接后送入1×1卷積,其數(shù)學(xué)表達式如下:
這樣的結(jié)構(gòu)設(shè)計使得相同的特征經(jīng)過不同的卷積核后具有不同的特征尺寸。
3.5.2 優(yōu)缺點及其適用場合
Res2Net使用了分塊結(jié)構(gòu),塊編號越靠后,經(jīng)過的卷積核越多,感受野越大,特征提取能力越強[34]。多個塊結(jié)構(gòu)以更細粒度表示多尺度特征,對不同大小圖像的檢測和管理能力增強。Res2Net-101在ImageNet數(shù)據(jù)集取得的最低分類準(zhǔn)確率較ResNet-101、DenseNet-161相應(yīng)提升1.82%、1.54%。Res2Net 模塊也常集成到ResNeXt和SENet等優(yōu)秀模型中,并取得分類準(zhǔn)確率的提升。然而由于Res2Net單元內(nèi)的多層次卷積操作,較之相應(yīng)的ResNet,運行速度約慢20%左右,應(yīng)用范圍不如ResNet、ResNeXt等網(wǎng)絡(luò)寬泛,目前只在物體分類和分割類型的任務(wù)上獲得較好的性能。建議將Res2Net 用于數(shù)據(jù)集中有不同大小的目標(biāo)或目標(biāo)的需檢測信息大于它本身所占的區(qū)域等情況。
圖8 密卷積網(wǎng)絡(luò)
參數(shù)量即網(wǎng)絡(luò)模型所有帶參數(shù)的層的權(quán)重參數(shù)總量,指網(wǎng)絡(luò)模型的空間復(fù)雜度。網(wǎng)絡(luò)參數(shù)量越大,空間復(fù)雜度越大,對計算機的顯存大小要求越高[35]。第2 章所述網(wǎng)絡(luò)模型在提高分類準(zhǔn)確率的同時,也帶來了參數(shù)量的大增,本章將介紹密集卷積網(wǎng)絡(luò)(Densely Connected Convolutional Networks,DenseNet)、雙路徑網(wǎng)絡(luò)(Dual Path Networks,DPN)、MobileNetV2 分別通過引入密卷積、雙路徑、線性瓶頸倒置殘差結(jié)構(gòu)在保持分類準(zhǔn)確率的同時降低參數(shù)量,提升網(wǎng)絡(luò)性能。
4.1.1 內(nèi)在結(jié)構(gòu)
ResNet通過構(gòu)造恒等映射設(shè),進一步緩解網(wǎng)絡(luò)退化問題[10],SD通過隨機丟失網(wǎng)絡(luò)中一些層,證明了深度網(wǎng)絡(luò)的冗余性[19],以上研究表明,如果卷積網(wǎng)絡(luò)在輸入和輸出層之間包含跳層連接,那么該網(wǎng)絡(luò)可以更好訓(xùn)練,增加深度,提高精度和準(zhǔn)確率。Huang 等人[36]提出DenseNet,在每個密集單元中,以恒等映射的方式將每一層與其他所有層相連,前面所有層輸出特征融合為該層的輸入特征,該層的輸出特征傳遞給所有后續(xù)層,設(shè)計見圖8。
在每個密集單元中,每層的輸出特征通道數(shù)一樣,第l層的輸入由之前所有層的特征映射按通道組合在一起然后進行非線性變化,其數(shù)學(xué)表達式為:
式中,H[?]表示BN-Relu-conv(1×1),BN-Relu-conv(3×3)非線性變換過程,[?]表示對前面各層輸出的特征映射通道合并操作,得到第l層的輸入通道數(shù)。
4.1.2 優(yōu)缺點
DenseNet通過每層直接相連的旁路設(shè)置,進行特征重用,不需要重新學(xué)習(xí)冗余的特征映射,大幅減少了網(wǎng)絡(luò)的參數(shù)量[37];每一層直接從損失函數(shù)和原始輸入信號中獲取梯度后改進了整個網(wǎng)絡(luò)的信息流和梯度,加強了特征傳播,在一定程度上緩解了梯度消失問題,易于訓(xùn)練;每一層的輸入經(jīng)過通道合并,不是對前面特征的簡單復(fù)用,獲得了全新的特征,提升了特征挖掘能力,實現(xiàn)分類準(zhǔn)確率的提升[38]。DenseNet-100 以0.8 MB 的參數(shù)量在 CIFAR-10 數(shù)據(jù)集上較 SD-110、ResNet-110 分類準(zhǔn)確率分別提升5.74%、7.71%。然而DenseNet 存在后層提取的特征前層已經(jīng)獲得,造成特征上的冗余、頻繁的通道合并操作對計算機性能要求高等缺點。
4.2.1 內(nèi)在結(jié)構(gòu)
ResNet 通過旁路共享特征和保留中間特征的殘差結(jié)構(gòu),可以有效降低特征冗余度,但難以實現(xiàn)高層對低層新特征的挖掘。DenseNet通過密集連接通路,可以有效地實現(xiàn)對底層新特征的挖掘,但卻存在特征上的冗余。基于此,Chen 等人[39]結(jié)合 ResNet 與 DenseNet 的核心內(nèi)容,提出成雙路徑網(wǎng)絡(luò)DPN,設(shè)計見圖9。
圖9 雙路徑網(wǎng)絡(luò)單元
DPN單元由殘差路徑和密集連接路徑組成,特征信息經(jīng)過1×1卷積、3×3組卷積、1×1卷積的瓶頸結(jié)構(gòu)后輸出分為兩部分,一部分與原殘差路徑的特征信息通過相加融合,另一部分的信息與原密集連接路徑的特征信息進行通道合并。
4.2.2 優(yōu)缺點及其適用場合
DPN 有效融合了 ResNet 和 DenseNet 模型思想,實現(xiàn)優(yōu)勢互補,在共享特征的時候保持雙路徑架構(gòu)挖掘新特征的靈活性[40];同時采用組卷積和普通卷積操作,在保證提取豐富特征的同時大量降低模型參數(shù)量[41]。DPN具有分類精度高、參數(shù)效率高、計算成本低、內(nèi)存消耗少、便于優(yōu)化等優(yōu)點。DPN-98 較ResNeXt-101(64×4d)的參數(shù)量減少了26%,顯存占用減少9%,訓(xùn)練速度快15%。然而DPN 主要是將已有的網(wǎng)絡(luò)結(jié)構(gòu)融合,創(chuàng)新性還有可提升空間。DPN廣泛用于圖像分類,目標(biāo)檢測和語義分割,在多目標(biāo)、小目標(biāo)上也有較好的表現(xiàn)。
4.3.1 內(nèi)在結(jié)構(gòu)
依靠強大的計算能力作為支撐,深度神經(jīng)網(wǎng)絡(luò)能很好解決部分圖像分類問題,但在計算資源和存儲空間有限的移動端部署困難,Sandler 等人[42]提出輕量級神MobileNetV2,構(gòu)建具有線性瓶頸的倒置殘差結(jié)構(gòu),設(shè)計見圖10。
圖10 MobileNetV2單元
該模塊采用低維壓縮數(shù)據(jù)作為輸入,首先采用1×1卷積將其擴展為高維,然后用輕量級的3×3深度可分離卷積進行濾波,再通過1×1 卷積把特征再映射到低維,形成倒置殘差結(jié)構(gòu)。Relu會使負值置零,當(dāng)通道數(shù)壓縮到較少時進行Relu 激活,會對信息張量造成較大的損失,第二個1×1 線性卷積的輸出特征不再經(jīng)過Relu,直接與恒等映射特征進行融合,得到輸出特征。
4.3.2 優(yōu)缺點及其適用場合
深度可分離卷積,每個通道先各自進行卷積操作實現(xiàn)特征提取,通道數(shù)不變,再通過1×1 卷積實現(xiàn)跨通道卷積操作實現(xiàn)特征組合,可大幅減少模型參數(shù)量,降低內(nèi)存占用[43]。經(jīng)計算,當(dāng)卷積核尺寸為3時,參數(shù)量大約會減少到原來的1/9。通道數(shù)較多時進行Relu,信息張量的損失較少,MobileNetV2 使用線性瓶頸倒置殘差結(jié)構(gòu),擴張深度可分離卷積的通道數(shù),在大幅減少模型參數(shù)量的同時,獲得較高的分類準(zhǔn)確率[44]。3.4 MB的MobileNetV2在ImageNet獲得28%的分類準(zhǔn)確率,加速深度網(wǎng)絡(luò)在移動端的應(yīng)用。然而較低的參數(shù)量使其準(zhǔn)確率無法與常規(guī)的深層網(wǎng)絡(luò)相比,建議將MobileNetV2用于分類精度要求不高、計算力受限的移動設(shè)備。
計算量即網(wǎng)絡(luò)執(zhí)行時間的長短,指網(wǎng)絡(luò)模型的時間復(fù)雜度,網(wǎng)絡(luò)計算量越大,時間復(fù)雜度越高,GPU的運算能力要求越高,訓(xùn)練時間越長[45]。網(wǎng)絡(luò)在提升分類準(zhǔn)確率的同時往往伴隨著計算量的增加。本章將介紹殘差注意力網(wǎng)絡(luò)和ShuffleNet通過引入混合注意力機制和通道洗牌操作降低網(wǎng)絡(luò)計算量,提升網(wǎng)絡(luò)性能。
5.1.1 內(nèi)在結(jié)構(gòu)
深度學(xué)習(xí)發(fā)展到現(xiàn)在,很多工作開始轉(zhuǎn)向通過融合注意力機制進行性能提升[46]。Mnih 等人[47]率先將注意力機制引入循環(huán)神經(jīng)網(wǎng)絡(luò)模型進行圖像分類,并在公開數(shù)據(jù)集上將圖像分類錯誤率降低了4%。Wang 等人[48]首次成功將深度殘差網(wǎng)絡(luò)與混合注意力機制進行有效結(jié)合,提出殘差注意力網(wǎng)絡(luò)。通過對每個注意力模塊設(shè)置主干分支和掩膜分支,將運算聚焦于特定區(qū)域并使該部分區(qū)域特征得到增強,設(shè)計見圖11。
圖11 殘差注意力網(wǎng)絡(luò)單元
主干分支由現(xiàn)有網(wǎng)絡(luò)模型構(gòu)成,如ResNet、ResNeXt等,負責(zé)提取特征。掩膜分支形成通道域和空間域的注意力機制,主要包含前向的降采樣和上采樣過程,前者快速收集整個圖像的全局信息,后者將全局特征信息與原始特征圖相結(jié)合,學(xué)習(xí)到主干輸出特征的歸一化權(quán)重圖。采用殘差學(xué)習(xí)方式,將該權(quán)重圖與主干輸出特征圖點積后與主干輸出特征求和,其數(shù)學(xué)表達式如下:
式中,x為輸入信息,i是像素點的位置,c是對應(yīng)的通道位置Mi,c(x)為掩膜分支的輸出,取值在[0,1]區(qū)間,F(xiàn)i,c(x)為主干分支的輸出。
5.1.2 優(yōu)缺點及其適用場合
殘差注意力網(wǎng)絡(luò)將殘差連接方式與混合注意力模塊相融合,能使模型在增強重要特征的同時不破壞原始特征的特性。不同模塊的注意感知特征隨著層數(shù)的加深而自適應(yīng)變化,淺層注意力模塊主要集中于圖像背景,深層注意力模塊則聚焦于待分類的圖像,深淺層多注意力模塊相結(jié)合,特征表達能力增強[49]。Attention-92在ImageNet 數(shù)據(jù)集獲得最低分類精度為19.5%,較ResNet-200,分類準(zhǔn)確率提升0.6%的同時計算量降低31%左右。殘差注意力網(wǎng)絡(luò)通常用于圖像背景遮擋、類內(nèi)差異小、目標(biāo)在圖像中不均勻分布且需要空間轉(zhuǎn)換的數(shù)據(jù)集。
5.2.1 內(nèi)在結(jié)構(gòu)
大多數(shù)神經(jīng)網(wǎng)絡(luò)模型的發(fā)展方向是通過變得更大更深來提高準(zhǔn)確率[50],但會造成模型參數(shù)巨大,現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)通常有數(shù)百層和數(shù)千個信道,需要以數(shù)十億次的浮點運算,難以運行在移動設(shè)備上,Zhang等人[51]Zhang 等人[32]提出 ShuffleNet,基于殘差連接方式,對ResNet單元引入逐點組卷積和通道洗牌的操作,得到輕量級的神經(jīng)網(wǎng)絡(luò)模型,設(shè)計見圖12。
圖12 ShuffleNet單元
相對于ResNet的1×1-3×3-1×1標(biāo)準(zhǔn)卷積,輸入特征在進入ShuffleNet單元時,先進行1×1逐點組卷積,然后將此時的特征映射進行通道洗牌后進行3×3 的深度可分離卷積,為了與恒等映射做通道融合,最后將特征映射送入1×1逐點組卷積。
5.2.2 優(yōu)缺點及其適用場合
小型網(wǎng)絡(luò)中大量的逐點卷積會造成有限通道之間約束性過強,從而損失精度,同時若多個逐點組卷積堆疊在一起,某個通道輸出僅從一小部分輸入通道中導(dǎo)出,會降低通道組之間信息的流通[52]。ShuffleNet 將逐點組卷積和通道洗牌相結(jié)合有效解決以上兩個問題,在保證精度的同時,計算量大大降低[53]。ShuffleNet-50 在ImageNet獲得25.2%的最低分類準(zhǔn)確率的同時,計算量降至2.3 GFLOPS,是一個典型的輕量化神經(jīng)網(wǎng)絡(luò)模型。然而ShuffleNet中大量使用1×1組卷積和瓶頸結(jié)構(gòu)使得網(wǎng)絡(luò)在實現(xiàn)時需要大量的指針跳轉(zhuǎn),運行速度還可以繼續(xù)提高。建議將ShuffleNet應(yīng)用于分類精度要求不高且計算力受限的移動設(shè)備。
殘差網(wǎng)絡(luò)及其變體為上百層深度神經(jīng)網(wǎng)絡(luò),參數(shù)量和計算量都較大,在進行圖像分類時,需要大量的數(shù)據(jù)擬合網(wǎng)絡(luò)模型,需要高性能的計算機設(shè)備[54],選擇合適的數(shù)據(jù)集并優(yōu)化網(wǎng)絡(luò)模型的參數(shù)量和計算量是提升網(wǎng)絡(luò)性能的重要途經(jīng)。殘差網(wǎng)絡(luò)及其變體已在MNIST、SVHN、CIFAR、ImageNet等主流數(shù)據(jù)集上得到了充分的驗證,具有高度的準(zhǔn)確性、穩(wěn)定性和推廣性,近年來,殘差網(wǎng)絡(luò)因其良好的性能已在國內(nèi)外取得了廣泛的應(yīng)用。
MNIST:60 000個訓(xùn)練集,10 000個測試集,每張圖片由0~9單個手寫數(shù)字組成。
SVHN:73 257 個訓(xùn)練集,26 032 個測試集,531 131個附加樣本,每張圖片來自真實世界的門牌號。
CIFAR-10:10 個完全互斥的類,50 000 個訓(xùn)練集,10 000個測試集,每張圖片均為RGB彩色圖像。
CIFAR-100:20 個大類,100 個小類,每個小類 600張圖像,其中500個訓(xùn)練集,100個測試集。
ImageNet:2.2 萬類,1 500 萬張圖像,是目前世界上圖像分類最大的數(shù)據(jù)庫。
小參數(shù)量、低復(fù)雜度、高分類準(zhǔn)確率是網(wǎng)絡(luò)模型追求的共同目標(biāo),然而高準(zhǔn)確率往往伴隨著龐大的網(wǎng)絡(luò)規(guī)模,這會引起計算量和參數(shù)量的提高[55]。以網(wǎng)絡(luò)模型的理論參數(shù)量和計算量為橫坐標(biāo),以該網(wǎng)絡(luò)在224×224大小的ImageNet數(shù)據(jù)集取得的top-1分類錯誤率為縱坐標(biāo)得到圖13,以網(wǎng)絡(luò)模型為橫坐標(biāo),參數(shù)準(zhǔn)確率密度和計算量準(zhǔn)確率密度為縱坐標(biāo),得到圖14。圖13、圖14反應(yīng)了各變體的性能及未來優(yōu)化方向,attition網(wǎng)絡(luò)提升混合注意力,SENet 提升通道注意力,它們都擁有較高的分類準(zhǔn)確率,說明了注意力機制在計算機視覺領(lǐng)域的巨大潛力,但兩者的信息密度較低,每個參數(shù)和計算量貢獻的分類準(zhǔn)確率較少,其潛在的學(xué)習(xí)能力沒有得到充分的利用;MobileNet 和ShuffleNet 為輕量化網(wǎng)絡(luò)模型,分類準(zhǔn)確率略低于其他網(wǎng)絡(luò),但大大縮減了網(wǎng)絡(luò)模型的參數(shù)量和計算量,信息密度較高,降低了對計算機性能的要求,使其能夠應(yīng)用于簡單的移動設(shè)備。未來網(wǎng)絡(luò)性能的提升的重點方向可能是各變體間進行融合,實現(xiàn)優(yōu)勢互補,特別是注意力機制與輕量化網(wǎng)絡(luò)模型的融合,同時獲得較好的分類準(zhǔn)確率與信息密度。
圖13 各變體參數(shù)量、計算量-準(zhǔn)確率散點圖
圖14 各變體參數(shù)準(zhǔn)確密度、計算量準(zhǔn)確密度柱狀圖
殘差網(wǎng)絡(luò)及其變體自提出以來,就得到了國內(nèi)外學(xué)者的廣泛應(yīng)用,各變體常常不是單獨使用,而是進行多網(wǎng)絡(luò)模型融合或改進,解決了手勢識別、行為識別、遙感圖像、高光譜圖像、農(nóng)業(yè)病害、疾病診斷等場景問題。
韓文靜等人[56]結(jié)合SENet與殘差塊網(wǎng)絡(luò),分別構(gòu)成第一通道提取全局特征、第二通道提取局部特征,新雙通道模型獲得了99.80%的手勢識別率;楊國亮等人[57]結(jié)合DenseNet 與MobileNetV2,宋玲等人[58]結(jié)合Mask R-CNN[59]與ShuffleNet,在保證精度的前提下,降低參數(shù)量與計算量,新模型分別于遙感圖像場景分類與人體關(guān)鍵點檢測中表現(xiàn)出良好性能;解懷奇等人[60]以ResNeXt為基礎(chǔ)提取視頻幀時空圖,引入注意力機制增強網(wǎng)絡(luò)表征能力,實現(xiàn)視頻人體行為識別;Kang等人[40]結(jié)合組成成分分析(Principal Component Analysis,PCA)[61]和DPN,分別用于高光譜圖像的特征提取與分類;Yang等人[62]對 GoogLeNet、InceptionV4 和 WRN 等網(wǎng)絡(luò)進行訓(xùn)練、測試、評價和比較,得出了基于WRN 的農(nóng)業(yè)病害識別方法。
本文就面向圖像分類的殘差網(wǎng)絡(luò)及其變體進行了深入的分析與綜述。從2015 年至今,殘差網(wǎng)絡(luò)及其變體通過引入瓶頸結(jié)構(gòu)、深度、寬度、壓縮剪枝、特征重用、基數(shù)、注意力機制、深度可分離卷積、尺度等操作,很大程度上降低了復(fù)雜度,減少了參數(shù)量,提高了分類準(zhǔn)確率,在圖像分類領(lǐng)域取得了不小的發(fā)展與應(yīng)用,成為了圖像分類領(lǐng)域的研究熱點。但是目前依然存在許多的缺點:
(1)殘差網(wǎng)絡(luò)的性能極大地依賴于數(shù)據(jù)集的多少,然而現(xiàn)在很多領(lǐng)域的數(shù)據(jù)集還不夠完善,數(shù)據(jù)量較少。特別是醫(yī)學(xué)領(lǐng)域,影像診斷急需智能化,但CT、MRI 的數(shù)據(jù)集很少,很難獲得較好的分類準(zhǔn)確率。如何在數(shù)據(jù)量較小的情況下,引入數(shù)據(jù)擴充、遷移學(xué)習(xí)和預(yù)訓(xùn)練等操作提高分類準(zhǔn)確率將是未來的研究方向。
(2)參數(shù)量過大,導(dǎo)致收斂速度慢、訓(xùn)練時間長、訓(xùn)練需要較大的硬件資源,在移動端等設(shè)備的應(yīng)用較少。仍然需要進一步研究如何在嵌入式和智能設(shè)備中保持圖像分類準(zhǔn)確率的同時減少網(wǎng)絡(luò)參數(shù)量。
(3)信息流的不對稱和網(wǎng)絡(luò)冗余,由于殘差網(wǎng)絡(luò)的寬度與深度提高了許多,這導(dǎo)致了大量網(wǎng)絡(luò)路徑冗余。同時由于激活函數(shù)對底層信息流的篩選導(dǎo)致了信息的不對稱,提高對底層信息的利用率以及在不改變性能的情況下減少網(wǎng)絡(luò)的冗余度值得深入研究。
(4)殘差網(wǎng)絡(luò)的泛化能力仍需繼續(xù)增強,如今的殘差網(wǎng)絡(luò)依然有較大的圖像分類誤差率,如何提高泛化能力防止過擬合,將殘差網(wǎng)絡(luò)與注意力機制結(jié)合,殘差塊改進、網(wǎng)絡(luò)連接改進、壓縮剪枝改進等都是可繼續(xù)深入研究的方向。
(5)實踐經(jīng)驗豐富,理論分析不足,大多數(shù)網(wǎng)絡(luò)模型的提出是基于大量的實踐,以圖像分類效果作為評判的依據(jù),可解釋性不強,有時很難對其進行驗證。進行理論的拓展與深入將會推進殘差網(wǎng)絡(luò)在圖像分類領(lǐng)域的應(yīng)用。
(6)深度神經(jīng)網(wǎng)絡(luò)具有較多的超參數(shù),超參數(shù)的選擇很大程度上影響分類準(zhǔn)確率的高低,人工超參數(shù)的調(diào)整是一件繁瑣困難的事。網(wǎng)格搜索[63]和隨機搜索[64]分別同時獨立訓(xùn)練所有超參數(shù)組合模型、隨機超參數(shù)組合模型,通過評估各自的性能從而得出最優(yōu)參數(shù)值;遺傳算法[65]和貝葉斯優(yōu)化[66]分別通過交叉和變異、探索和挖掘,自適應(yīng)地利用先前結(jié)果指導(dǎo)搜索的方式自動優(yōu)化參數(shù)。合理地應(yīng)用現(xiàn)有的自動化調(diào)參方法并創(chuàng)新高效調(diào)參模型將是未來一大挑戰(zhàn)。