国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合多級注意力遷移的神經(jīng)網(wǎng)絡壓縮方法

2023-02-17 01:54:16李俊杰彭書華郭俊倫
計算機應用與軟件 2023年1期
關鍵詞:網(wǎng)絡結構注意力卷積

李俊杰 彭書華 郭俊倫

(北京信息科技大學自動化學院 北京 100101)

0 引 言

隨著卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)技術的不斷發(fā)展,在圖像處理方面,相較于傳統(tǒng)算法,卷積神經(jīng)網(wǎng)絡表現(xiàn)得更加能夠適應任務的需求,且其優(yōu)異性是傳統(tǒng)算法所不能及的。卷積神經(jīng)網(wǎng)絡的能力之所以能夠如此優(yōu)越,很大一部分原因是其網(wǎng)絡深度的不斷增加,能夠從圖像數(shù)據(jù)中提取出更高層更抽象的特征。但是隨著網(wǎng)絡深度的增加,其結構也越來越復雜,網(wǎng)絡模型所需要的存儲空間和浮點計算次數(shù)也成倍地增加,這些擁有百萬級網(wǎng)絡參數(shù)和上億次浮點運算的網(wǎng)絡模型非常消耗存儲空間和計算能力。

得益于圖形處理器(Graphics Processing Unit,GPU)強大的計算能力,縮短神經(jīng)網(wǎng)絡模型的訓練周期,加速了神經(jīng)網(wǎng)絡的計算,卷積神經(jīng)網(wǎng)絡不斷地被應用于計算機視覺領域,并且取得了突破性的成效,如圖像分類、語義分割和目標檢測等都使用了卷積神經(jīng)網(wǎng)絡技術。但是在實際應用中,往往使用的是一些內(nèi)存小、計算能力弱的嵌入式設備,而精度高但是結構復雜的網(wǎng)絡模型很難在這些資源受限的設備上存儲和運行,神經(jīng)網(wǎng)絡壓縮與加速技術便應運而生,目的就是在盡量保證網(wǎng)絡模型性能的情況下,降低網(wǎng)絡模型的計算量和減少存儲空間。目前主流的網(wǎng)絡壓縮與加速方法[1]主要有以下六種:網(wǎng)絡剪枝、參數(shù)共享、權值量化、低秩分解、緊湊型網(wǎng)絡設計和網(wǎng)絡精餾。

網(wǎng)絡精餾相較于其他的方法有著優(yōu)秀的壓縮效果,它是利用學生網(wǎng)絡學習教師網(wǎng)絡所學習到的知識來提升學生網(wǎng)絡的準確度,從而達到網(wǎng)絡壓縮的目的,其中學生網(wǎng)絡擁有較少的網(wǎng)絡參數(shù)。Hinton等[2]提出了知識蒸餾的方法,使用雙網(wǎng)絡結構將教師網(wǎng)絡學習到的知識,即數(shù)據(jù)標簽的軟分布傳遞給學生網(wǎng)絡。Romero等[3]突出了Fitnets模型,引導學生網(wǎng)絡學習教師網(wǎng)絡中間的輸出。Zagoruyko等[4]將注意力機制引入了網(wǎng)絡精餾的方法中,將教師網(wǎng)絡學習到的注意力作為“知識”傳遞給了學生網(wǎng)絡。Zhou等[5]提出了新的網(wǎng)絡精餾結構,使教師網(wǎng)絡與學生網(wǎng)絡共享基層網(wǎng)絡,同時提升教師和學生網(wǎng)絡的精度,但是犧牲了學生網(wǎng)絡的靈活度。Mirzadeh等[6]提出了多級網(wǎng)絡精餾,使用一個中等規(guī)模的網(wǎng)絡作為“教師助理”,將大規(guī)模教師網(wǎng)絡和小規(guī)模學生網(wǎng)絡相聯(lián)系,能夠有效提升學生網(wǎng)絡的性能。此外,網(wǎng)絡精餾在其他的任務上也有很好的應用效果。高欽泉等[7]將此方法改進之后運用在了高分辨率的圖片的處理中。Li等[8]和Chen等[9]將網(wǎng)絡精餾的方法引入到目標檢測。

網(wǎng)絡精餾的主要問題是教師網(wǎng)絡與學生網(wǎng)絡之間所要傳遞的“知識”,因此,本文提出一種新穎的方法,使用多級注意力機制融合的方法,將融合成的新的注意力圖作為“知識”由教師網(wǎng)絡傳遞給學生網(wǎng)絡,提升學生網(wǎng)絡的準確度,實現(xiàn)模型壓縮的目的。

1 相關知識

1.1 注意力機制

注意力機制最早在自然語言處理等領域中提出并使用,取得了相當不錯的效果,后被引入了計算機視覺領域。其基本思想是:網(wǎng)絡中每層輸出特征的重要性是不同的,這種差異可以體現(xiàn)在通道(Channel Domain)上,也可以體現(xiàn)在空間域(Spatial Domain)上,之后的網(wǎng)絡層更應該注重其中重要的信息,而抑制不重要的信息。在卷積神經(jīng)網(wǎng)絡的應用中,Jaderberg等[10]提出的STNet網(wǎng)絡模型是空間域上的注意力機制的體現(xiàn),它所關注的是空間上的位置信息,而Hu等[11]提出的SENet網(wǎng)絡模型改變了不同通道的權重,是通道域上注意力機制的體現(xiàn),Woo等[12]將通道注意力和空間注意相融合,利用空間域和通道域的注意力機制并聯(lián)或者串聯(lián),提出了CBAM網(wǎng)絡模型。而SKNet的提出者Li等[13]著重于卷積核的重要性,利用不同尺度的卷積核來篩選網(wǎng)絡層輸出的特征圖,進而形成帶有注意力機制特征圖。

1.2 注意力遷移

Zagoruyko等[4]將注意力機制引入到網(wǎng)絡精餾中,利用教師網(wǎng)絡學習到的注意力機制來提升學生網(wǎng)絡的性能,提出了注意力遷移(Attention Transfer)的方法。該方法利用網(wǎng)絡中間卷積層輸出的特征圖(Feature Map)生成注意力圖(Attention Map)的方式,并且以相同的生成注意力圖的策略使用在教師和學生網(wǎng)絡中,在教師-學生網(wǎng)絡聯(lián)合訓練中,保持教師網(wǎng)絡參數(shù)不變,不斷縮小二者生成的注意力圖的距離損失(Attention Transfer Loss),達到注意力遷移的目的,同時配合真實數(shù)據(jù)標簽的損失,訓練學生網(wǎng)絡的參數(shù),以提升學生網(wǎng)絡的準確度。其結構如圖1所示。

圖1 注意力機制遷移網(wǎng)絡結構

2 本文方法

2.1 融合多級注意力遷移網(wǎng)絡結構

Zagoruyko等[4]所提出的注意力機制遷移的方法中,相鄰的卷積塊所生成的注意力圖是相互獨立的,沒有充分利用相鄰卷積塊所生成的注意力圖之間的聯(lián)系,為此,本文提出一種基于教師-學生網(wǎng)絡結構的融合多級注意力的遷移方法,融合多級注意力遷移方法將教師網(wǎng)絡相鄰的卷積塊所生成的注意力圖相融合,打破了各級注意力圖之間互相獨立的關系。新的注意力圖不僅僅擁有教師網(wǎng)絡該位置卷積塊所學習到的注意力機制,同樣也會繼承其相鄰上一級卷積塊所學習到的注意力信息,有助于學生網(wǎng)絡不僅僅學習教師網(wǎng)絡中相對應位置的注意力信息,還會學習上一級的注意力圖中的注意力信息。同時,融合多級注意力遷移的方法有助于緩解學生網(wǎng)絡中由于網(wǎng)絡本身結構中如卷積層和池化層所導致的信息丟失,從而增強學生網(wǎng)絡的特征提取能力,提升網(wǎng)絡模型的性能,其網(wǎng)絡結構如圖2所示。

圖2 融合多級注意力網(wǎng)絡結構

設S、T、WS、WT分別表示學生網(wǎng)絡和教師網(wǎng)絡以及它們所對應的權重,L(W,x)表示標準交叉熵,I表示所有要遷移的注意力圖的索引。可以定義以下?lián)p失函數(shù):

(1)

2.2 生成注意力圖的方式

注意力圖是由教師網(wǎng)絡中間層輸出特征圖映射而成的。定義一個卷積層的輸出的特征圖是A∈R(C×H×W),其中:C表示輸出特成圖的通道數(shù);H和W表示輸出特征圖的空間維度。函數(shù)F表示將3D特征圖映射成為2D空間注意力圖,如圖3所示。

圖3 生成注意力

函數(shù)F可表示為:

F:RC×H×W→RH×W

(2)

Zagoruyko等[4]提出了基于通道維度信息上的三種方法,分別為通道絕對值求和、絕對值指數(shù)求和、指數(shù)最大值。其定義公式如下:

(3)

(4)

(5)

式中:Ai,H,W表示通道域上的元素級別的運算。

本文提出將空間域上的信息與通道域上的信息相融合的方式,定義一個卷積層的輸出的特征圖是A∈RC×H×W,其中:C表示輸出特成圖的通道數(shù);H和W表示輸出特征圖的空間維度。首先通過函數(shù)H將3D特征圖A∈RC×H×W映射成為1D張量B∈RC×1×1,再將A∈RC×H×W與B∈RC×1×1進行通道域上的運算,得到3D張量C∈RC×H×W,最后函數(shù)F映射成為2D注意力圖。其中函數(shù)H的定義公式如下:

(6)

其結構示意圖如圖4所示。

圖4 生成融合注意力

3 實 驗

3.1 實驗數(shù)據(jù)集及設置

本文使用公開的基準數(shù)據(jù)集CIFAR進行訓練和測試,CIFAR- 10數(shù)據(jù)集由10類32×32的彩色圖片組成,總共包含60 000幅圖片,其中訓練集為50 000幅圖片,而測試集有10 000幅圖片。而在CIFAR- 100數(shù)據(jù)集中,將類別擴展到了100類。

本文方法在CIFAR數(shù)據(jù)集上,使用標準的隨機梯度下降法(Stochastic Gradient Descent,SGD)訓練模型,設置批次大小(Batch Size)為128,基礎學習率(Learning Rate)為0.1,衰減率為0.2,權重衰減(Weight Decay)為0.000 5,每次訓練300輪,其中學習率分別在第60、120、160、200、250、270輪時進行衰減。

實驗中用到的主干網(wǎng)絡是殘差網(wǎng)絡(ResNet),由于CIFAR數(shù)據(jù)集中的圖像數(shù)據(jù)擁有較小的分辨率,且在神經(jīng)網(wǎng)絡中會對圖片進行向下采樣,從而頂層得到的特征圖的分辨率會更低,所以在每層卷積的輸出都會使用零填充(Zero Padding)進行處理。此外,對數(shù)據(jù)集使用水平翻轉(zhuǎn)(Horizontal flips)和隨機裁剪(Random crops)進行數(shù)據(jù)增強,并且所有網(wǎng)絡都具有批量歸一化功能。本文所有實驗均在PyTorch框架下進行,使用NVIDIA GPU。

3.2 融合多級注意力遷移實驗結果及分析

在本實驗中,分別測試了具有相同網(wǎng)絡深度但輸出特征圖數(shù)量不同的教師-學生網(wǎng)絡(NET- 162/NET- 161)和不同網(wǎng)絡深度但輸出特征圖數(shù)量相同的教師-學生網(wǎng)絡(NET-401/NET- 161、NET- 402/NET- 162)以及不同網(wǎng)絡深度且輸出特征圖數(shù)量不同的教師-學生網(wǎng)絡(NET- 402/NET- 161)。在教師-學生網(wǎng)絡的聯(lián)合訓練中,保持教師網(wǎng)絡參數(shù)不變,對學生網(wǎng)絡的參數(shù)進行計算。實驗結果如表1所示,實驗數(shù)據(jù)集使用CIFAR- 10數(shù)據(jù)集,實驗所采用的注意力圖映射函數(shù)為Fsum(A)。

表1 各個算法的錯誤率(%)

由表1可知,使用了融合多級注意力遷移方法的學生網(wǎng)絡(MAT),相較于不使用任何方法的學生網(wǎng)絡(Stu)準確率提升了1.0百分點到1.5百分點,相較于傳統(tǒng)的知識蒸餾[2](KD)準確率提升了0.2百分點至0.5百分點,相較于注意力遷移[4](AT)在網(wǎng)絡結構(NET- 401/NET- 161、NET- 402/NET- 161)中準確率提升了0.30百分點至0.45百分點。

其中,NET- 402、NET- 401、NET- 162和NET- 161的參數(shù)量分別為2.2 MB、0.6 MB、0.7 MB和0.2 MB。由此可見,將學生網(wǎng)絡參數(shù)量縮小為教師網(wǎng)絡三分之一,甚至更低的情況下,本文方法進一步提升了學生網(wǎng)絡的準確度。

3.3 注意力圖映射函數(shù)實驗結果與分析

表2 不同映射函數(shù)的錯誤率(%)

3.4 在CIFAR- 100數(shù)據(jù)集上的實驗結果

為了進一步驗證融合多級注意力遷移方法,選擇了類別更多的CIFAR- 100進行實驗,使用注意力圖映射函數(shù)Fsum(A)。其結果如表3所示。

表3 在CIFAR- 100數(shù)據(jù)集上的錯誤率(%)

從表3中數(shù)據(jù)可知,在類別更多的數(shù)據(jù)集中,使用了融合多級注意力遷移的學生網(wǎng)絡(MAT)相比較于原始學生網(wǎng)絡(Stu),準確率提升了1.5百分點到3.0百分點,而相比于注意力遷移(AT),準確率也有所提升,其中NET- 401/NET- 161提升比較大,有2.0百分點的提升。這進一步驗證了融合多級注意力遷移方法在網(wǎng)絡精餾的框架中能夠有效提升學生網(wǎng)絡準確率的作用。

4 結 語

本文所提出的基于教師-學生網(wǎng)絡的融合多級注意力遷移的方法,進一步驗證了注意力機制在網(wǎng)絡精餾方法中所具有的獨特作用。融合多級注意力方法打破了教師網(wǎng)絡模型中各個卷積塊生成注意力圖的獨立關系,使相鄰的注意力圖相融合,形成了更加緊密的聯(lián)系,同時也緩解了數(shù)據(jù)信息的丟失。相比于教師網(wǎng)絡,在學生網(wǎng)絡的參數(shù)量減少為教師網(wǎng)絡的參數(shù)量的三分之一甚至更多的情況下,準確率的損失僅有1.5百分點至2.5百分點,而相比于其他方法,融合多級注意力遷移的方法進一步提升了學生網(wǎng)絡的準確率。

基于教師-學生網(wǎng)絡結構的網(wǎng)絡精餾,由于其學生網(wǎng)絡要學習教師網(wǎng)絡的“知識”,所以在結構方面很大程度受限于教師網(wǎng)絡本身的結構,沒有足夠的靈活性,在之后的工作中,將進一步研究更加有效的注意力遷移策略。

猜你喜歡
網(wǎng)絡結構注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
基于互信息的貝葉斯網(wǎng)絡結構學習
知識網(wǎng)絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡結構演化的實證分析
復雜網(wǎng)絡結構比對算法研究進展
昂仁县| 万荣县| 喜德县| 安泽县| 手机| 瓮安县| 咸阳市| 柯坪县| 北海市| 长葛市| 常山县| 曲沃县| 南溪县| 文成县| 东明县| 虎林市| 永平县| 江源县| 揭东县| 敦煌市| 南宁市| 西峡县| 正阳县| 江西省| 电白县| 汕头市| 南宁市| 长葛市| 昌图县| 岳西县| 南溪县| 隆安县| 永康市| 克东县| 昭苏县| 灵宝市| 云南省| 台东县| 香港| 麻阳| 临武县|