曹遠(yuǎn)杰,高瑜翔*,杜鑫昌,涂雅培,吳美霖
(1.成都信息工程大學(xué) 通信工程學(xué)院,四川 成都 610225;2.氣象信息與信號處理四川省高校重點實驗室,四川 成都 610225)
近年來,隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,目標(biāo)檢測領(lǐng)域的要求越來越高。深度學(xué)習(xí)算法從AlexNet[1]到VGG[2],GoogLeNet[3],再到后來出現(xiàn)的ResNet[4]和DenseNet[5]。這些算法在性能提高的同時,效率也變得越來越低。由于存儲空間、算力以及帶寬資源限制,神經(jīng)網(wǎng)絡(luò)模型在移動設(shè)備和嵌入式設(shè)備上的存儲與計算仍然是一個巨大的挑戰(zhàn)。
在算法方面,為了降低算法所需資源,有模型壓縮和設(shè)計輕量級主干網(wǎng)絡(luò)2個方向。模型壓縮方式有知識蒸餾、剪枝[6]、量化等。例如Han等人[7]提出對網(wǎng)絡(luò)迭代剪枝,獲得一個精簡模型,最終在沒有精度損失的前提下AlexNet參數(shù)量減少了9倍。段杰等人[8]提出將BN層融入卷積層,可以加快前向推理速度。但僅僅依靠模型壓縮來實現(xiàn)輕量化還是不夠,還有一種方式是設(shè)計輕量級模型,例如SqueezeNet[9],MobileNets[10],Xception[11]等輕量級算法。許多輕量級算法并沒有考慮硬件實現(xiàn)等問題,計算量雖然有所降低,但硬件實現(xiàn)的效率依然很低。例如FPGA處理器遵循Roofline模型,根據(jù)算法的不同,瓶頸也不同。這種輕量級的模型計算量低,但是層數(shù)增加導(dǎo)致訪存量也增加,計算效率依然很低。為解決以上問題,提出了一種訪存量、參數(shù)量、計算量較小且采用Ghost殘差結(jié)構(gòu)所構(gòu)建的輕量級主干網(wǎng)絡(luò)(YOLO-GhostNet)[12]。
在硬件方面,由于卷積大部分時間在計算上,普通CPU無法滿足深度學(xué)習(xí)算法的實用性,用并行架構(gòu)的處理器能夠更好地適配神經(jīng)網(wǎng)絡(luò),因此硬件平臺轉(zhuǎn)向GPU和FPGA等并行處理器。GPU雖然效率很高,但是功耗太大,F(xiàn)PGA相比于GPU能夠更好地定制可重構(gòu)卷積IP[13-14]。例如Shen等人[15]提出對不同層設(shè)計多個加速器。Zhang等人[16]提出針對通信密集型通過增大突發(fā)傳輸長度來高效利用帶寬。Li等人[17]提出將輸出通道以及卷積核寬三維展開的并行架構(gòu),這些都只適用于資源較多的FPGA。
本文針對在較少資源FPGA上部署深度學(xué)習(xí)算法主要有以下幾點創(chuàng)新:① 針對部署資源問題對算法進行輕量化設(shè)計和壓縮;② 針對內(nèi)存空間問題對算法進行動態(tài)定點數(shù)量化以及分塊處理,設(shè)計高效數(shù)據(jù)傳輸模塊;③ 針對算法算子設(shè)計傳統(tǒng)卷積、通道卷積、池化等流水線架構(gòu)加速器。
YOLO[18-19]是近年來比較受歡迎的圖像識別分類深度學(xué)習(xí)算法,Tiny版YOLO算法在精度范圍內(nèi)檢測速度快、效率高,但是針對嵌入式平臺還略顯笨重。
改進網(wǎng)絡(luò)(YOLO-GhostNet)如圖1所示。
圖1 YOLO-GhostNet算法結(jié)構(gòu)
改進結(jié)構(gòu)采用圖1中Res殘差結(jié)構(gòu)代替YOLOv4-Tiny的殘差結(jié)構(gòu),將網(wǎng)絡(luò)大部分3×3標(biāo)準(zhǔn)卷積采用由一個點卷積和一個5×5的通道卷積替代。圖1中Ghost模塊為傳統(tǒng)卷積和通道卷積所構(gòu)成;Res為以Ghost卷積所構(gòu)建的殘差結(jié)構(gòu);DL,CBL分別為通道卷積和傳統(tǒng)卷積層。
Batch Normalization[20]層用以加快深度學(xué)習(xí)訓(xùn)練收斂等問題。假設(shè)該BN層輸入為x,則輸出為:
(1)
由于深度學(xué)習(xí)網(wǎng)絡(luò)針對檢測種類、卷積深度、卷積層數(shù)的不同,冗余的參數(shù)也會不同。本文首先通過對BN層縮放系數(shù)γ和平移系數(shù)β添加L1正則化約束進行稀疏訓(xùn)練。再通過式(2)對每個通道篩選:
(2)
深度學(xué)習(xí)有很強的魯棒性,數(shù)據(jù)的細(xì)微變化對整體結(jié)果不會有太大的影響。依據(jù)這個特性,可以對網(wǎng)絡(luò)進行動態(tài)定點數(shù)量化[21]以降低資源占用。實驗表明,采用16 bit動態(tài)定點數(shù)量化可以獲得更好的精度與速度平衡。
本文采取的定點數(shù)量化如下:
yint=Round(xfloat×2n),
(3)
式中,yint為量化后數(shù)據(jù);Round()為四舍五入函數(shù);xfloat為需要轉(zhuǎn)換的浮點型數(shù)據(jù);n為量化系數(shù),依據(jù)每層數(shù)據(jù)的分布變化而變化。
對網(wǎng)絡(luò)量化步驟如下:
① 根據(jù)每層權(quán)值的分布找到最優(yōu)的小數(shù)位位寬n,n≤(m-1),m大于等于該層權(quán)值最大值的整數(shù)位位寬。由于采用的數(shù)據(jù)為有符號類型,所以最高位為符號位,在16 bit量化模式下,只有15 bit分布給整數(shù)位和小數(shù)位。
② 依據(jù)式(3)對每層權(quán)重和偏置進行16 bit量化。輸入輸出特征圖依據(jù)式(3)和式(4)對其量化與反量化:
yfloat=xint×2-e,
(4)
式中,yfloat為反量化后輸出;xint為需要反量化的數(shù)據(jù);e為特征圖量化系數(shù)。
③ 中間特征圖量化,如式(5)所示,為了減少計算,依據(jù)指數(shù)計算的特性,將2層量化系數(shù)通過式(6)對特征圖直接量化:
Inmapi=yint(yfloat(Outmapi-1,ei-1),ei)
(5)
Inmapi=yint(Outmapi-1,ei-ei-1),
(6)
式中,Inmapi為該層輸入特征圖;Outmapi-1為上一層輸出特征圖;ei,ei-1為本層和上一層的特征圖量化系數(shù)。
針對神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)的量化,由于網(wǎng)絡(luò)采用LeakyRelu激活函數(shù),對于小于0的像素點需乘0.1。所以將激活函數(shù)改為:
yLeakyRelu=max(x×0xccc>>15,x),
(7)
式中,yLeakyRelu為激活層輸出;max為返回最大值函數(shù);x為輸入數(shù)據(jù);>>為移位操作。
采用不同位寬設(shè)計卷積加速器消耗資源對比如表1所示。
表1 卷積加速器在不同精度消耗資源對比
表1對比了2種位寬精度在相同結(jié)構(gòu)下的各FPGA資源消耗。可以看出,使用32 bit位寬類型的加速器很快就用滿了DSP資源,瓶頸也會被DSP資源所限制。采用16 bit位寬類型在各資源上都降低了許多,可以利用更多的DSP資源對計算并行處理。
本文加速算法YOLO-GhostNet中包含尺寸為1×1和3×3、步長為1和2的傳統(tǒng)卷積層、尺寸為5×5的通道卷積層、最大池化層;上采樣層和路由層。其中,路由層特征圖疊加部分計算量很小,在PS端實現(xiàn),其他算子均在PL端設(shè)計。為了減少計算,本文設(shè)計在算法層面將BN層融入到卷積層中。
(1)傳統(tǒng)卷積與通道卷積
傳統(tǒng)卷積是將所有輸入特征圖通過卷積核計算后生成輸出特征圖,通道卷積是分組數(shù)等于輸入通道數(shù)的特殊分組卷積。2種卷積的卷積過程如圖2所示。
(a)傳統(tǒng)卷積
由圖2可以看出,傳統(tǒng)卷積與通道卷積輸出特征圖一樣,卷積計算過程不一樣,所以針對2種卷積分別定制了不同的卷積IP核。
(2)上采樣與下采樣
深度學(xué)習(xí)運用了圖像金字塔原理,其中不同尺寸的特征圖交互時需要用到上采樣或者下采樣。本算法中上采樣將每個像素點復(fù)制成4倍,生成2倍的長寬特征圖。下采樣采用最大池化層。最大池化層通過對周圍4個像素點的篩選,獲取像素值最大的點,從而將尺寸下采樣為原來長寬的一半。
(3)路由層
本算法中路由層包含Add和Concatenate層。由于Concatenate可以使用一些高效的函數(shù)庫實現(xiàn),而Add操作在PS端實現(xiàn)對整體效率有影響,所以將其在PL端實現(xiàn)。
Add層依據(jù)式(8)將各特征圖對應(yīng)像素點相加:
(8)
式中,yadd表示相加后的特征圖;c表示有c層特征圖需要相加;h,w,chout表示特征圖對應(yīng)的長寬通道數(shù)坐標(biāo)。
加速器大致可分為輸入模塊、計算模塊和輸出模塊。幾種算子的加速器的不同在于計算模塊。由于片上資源有限,只能將一部分特征圖和一部分權(quán)重等參數(shù)加載計算輸出后再計算下一部分。分塊卷積如圖3所示。圖中,Tn,Tm,Th,Tw分別為分塊輸入通道數(shù)、輸出通道數(shù)、分塊長和高,ksize為卷積核長寬。
圖3 分塊卷積過程
(1)輸入模塊
算法數(shù)據(jù)傳輸?shù)慕涌诙荚O(shè)計為AXI4 master接口。每次卷積輸入分塊特征圖大小為Tn×Tm×Tw。數(shù)據(jù)讀入分為2個部分協(xié)同合作,第一部分為計算地址偏移,時延為Latencyinaddr和從DRAM讀取數(shù)據(jù)到行緩沖(Line_buf),時延為Latencyline;第二部分為從行緩沖讀取數(shù)據(jù)到計算輸入緩沖(IN_buf),時延為Latencyinbuf。讀取一個特征塊的時延如下:
Latencyinmap=Tn×Th(Latencyinaddr+Latencyline+Latencyinbuf),
(9)
式中,Latencyinmap為特征塊輸入時延;Tn×Th為特征塊所需要傳輸?shù)拇螖?shù),一次傳輸Tw長度的數(shù)據(jù)量。
然而第一部分和第二部分是可以同時工作的,為了將輸入數(shù)據(jù)流水線起來,輸入模塊設(shè)計了2個行緩沖,如圖4所示的Line_Buf0和Line_Buf1,由于HLS中2個函數(shù)所操作的數(shù)據(jù)沒有關(guān)系會自動綜合為并行執(zhí)行,所以可以將數(shù)據(jù)從DRAM讀取到行緩沖和將行緩沖中的數(shù)據(jù)寫入到計算緩存并行執(zhí)行,降低時延。
圖4 輸入模塊時序
一個分塊大小的數(shù)據(jù)需要讀取總次數(shù)為Tn×Th+1。特征塊傳輸時延降低為:
Latencyinmap=(Tn×Th+1)·
max(Latencyinaddr+Latencyline,Latencyinbuf)。
(10)
默認(rèn)特征圖排序為長寬和通道數(shù),通道數(shù)上內(nèi)存連續(xù)。為了提高帶寬利用,將特征圖序列改為通道數(shù)、長和寬的順序。特征圖長寬在本算法中為416,分塊Th和Tw大小設(shè)置為可以被416整除,可使資源利用率更高。根據(jù)式(10),輸入通道一定時,特征塊高度越小,特征塊傳輸時延越小。實驗表明,當(dāng)Th=14,Tw=52時能夠更好平衡帶寬利用和計算。
(2)計算模塊
依據(jù)算子的不同,計算模塊有卷積模塊、通道卷積模塊和池化模塊。池化模塊由于計算量較小,直接采用串行計算篩選最大值方式。主要對傳統(tǒng)卷積和通道卷積計算模塊進行優(yōu)化。
卷積計算是整個算法中耗時最大的部分,為了提升運算效率,本設(shè)計采用多輸入輸出通道并行計算方式,而VIVADO HSL軟件可以用PIPELINE指令設(shè)計通道并行和流水線處理乘加運算。并行處理方式有多種,可以是卷積核內(nèi)并行、特征圖塊的長寬并行以及輸入輸出通道并行。由于算法卷積核尺寸有很大一部分為1×1,所以卷積核內(nèi)并行效率很低。對于分塊長寬并行方式還涉及資源利用率和數(shù)據(jù)讀取效率等問題。最終在通道方向進行并行處理,傳統(tǒng)卷積塊計算時延如下:
(11)
式中,Latencycompu為計算模塊時延;Const[22]為初始時鐘;Freq為時鐘頻率。
(3)輸出模塊
數(shù)據(jù)輸出接口都設(shè)計為AXI4 master接口,模塊也分為兩部分,和輸入模塊相反,一部分是將輸出緩存中的數(shù)據(jù)搬運到行緩沖中,時延為Latencyoutbuf;第二部分為計算地址偏移和行緩沖中數(shù)據(jù)突發(fā)寫入DRAM中,時延為Latencyoutaddr和Latencydram。設(shè)計雙緩沖流水化后時延如下:
Latencyoutmap=(Tm×Th+1)·
max(Latencyoutbuf,Latencyoutaddr+Latencydram),
(12)
式中,Latencyoutmap為特征塊輸出時延;Tm,Th分別為輸出特征圖層數(shù)與輸出特征圖高度??梢钥吹剑魉蟮妮敵瞿K將第一部分和第二部分的時延重疊了,時序與圖4類似。
設(shè)計雙緩沖情況下,各模塊可以同時進行,重疊時延,增大效率。每計算輸出一個特征塊大小數(shù)據(jù)時延如下:
(13)
式中,Latencymap為計算輸出一個數(shù)據(jù)塊的時延;Chin為輸入特征層數(shù);Tn為特征塊輸入通道數(shù);Latencyinweights為加載權(quán)重延時??梢钥闯觯瑢⒏髂K流水化設(shè)計后可以實現(xiàn)加載特征數(shù)據(jù)延時、加載權(quán)重數(shù)據(jù)延時、計算延時、數(shù)據(jù)輸出延時的重疊,進一步提高整體效率。
加速器整體架構(gòu)將輸入和計算模塊、計算和輸出模塊兩兩進行乒乓流水化。傳統(tǒng)卷積各模塊時序如圖5所示,其他算子加速器類似。
圖5 卷積加速器各模塊時序
圖5中,Load_in_Buf為特征圖輸入模塊,Load_w_Buf為權(quán)重加載模塊,2個模塊時序如圖4所示。Compute()為計算模塊,pingpang模塊將輸入通道計算部分打包后與數(shù)據(jù)輸出模塊(Store_out_Buf)進行乒乓流水線輸出。各個模塊內(nèi)部還進行并行與流水線設(shè)計,提高整個加速器效率。
根據(jù)圖5和式(13),每計算Tm個輸出通道都需將輸入通道方向所有層數(shù)全部計算完畢。每輸出一個特征圖塊,需要讀取Chin×Th+1次數(shù)據(jù),寫入Tm×Th+1次數(shù)據(jù),當(dāng)Chin比較大時,讀取數(shù)據(jù)和輸出數(shù)據(jù)的時延重疊部分較少,會降低整體效率。實驗證明,設(shè)置Tn=4,Tm=32(Tm>>Tn)可以在時延重疊和資源占用方面獲得更高平衡。
通道卷積由于輸入通道等于輸出通道(Tm=Tn),每輸出一個特征塊時需要讀取Tn×Th+1次數(shù)據(jù),寫入Tm×Th+1次數(shù)據(jù),讀取數(shù)據(jù)與寫入數(shù)據(jù)時延差不多,所以設(shè)計Tm=Tn=16方式并行。
本次實驗分別在ARM和FPGA+ARM情況下對比算法效率。為了提高計算效率,采用im2col+GEMM(矩陣乘法)方式完成卷積設(shè)計。步驟如下:
(1)im2col
img2col是將輸入特征圖按照每次需要卷積的部分展平轉(zhuǎn)換為矩陣,轉(zhuǎn)換過程如圖6所示。圖中Input為輸入特征圖,以滑窗的方式將每次需要進行計算的部分存為內(nèi)存連續(xù)的一列。每列大小為卷積核的大小,圖中只展示了輸入通道為1的示意圖,多通道類似。Kernel為卷積核,也需要將每個卷積核展平方便計算。
圖6 特征圖和卷積核轉(zhuǎn)換到矩陣過程
(2)GEMM(矩陣乘法)
輸入和權(quán)重轉(zhuǎn)換為矩陣后,可以通過一些矩陣運算庫進行加速。從運算次數(shù)上看,雖然和滑窗方式?jīng)]有太大區(qū)別,但是轉(zhuǎn)化為矩陣后,數(shù)據(jù)在內(nèi)存上變成連續(xù)的,大大提升訪問效率,從而加快運算,速度上也可提升數(shù)倍。
3.1.1 軟件環(huán)境
分別對比了YOLOv4-Tiny和改進算法YOLO-GhostNet兩種算法。2種算法均在Windows10操作環(huán)境下,PyCharm軟件中使用Keras 2.24和Tensorflow1.14框架進行訓(xùn)練,剪枝和量化部分均在該環(huán)境中完成。為提高效率,各加速器IP均在vivado HLS軟件下編寫完成。
數(shù)據(jù)集采用10 097張飲料數(shù)據(jù)集,其中包含4個種類飲料,每種2 500張,測試集908張,訓(xùn)練集8 281張,驗證集908張。
3.1.2 硬件環(huán)境
為了驗證算法性能,分別在CPU,ARM工作頻率和FPGA+ARM三種硬件上對算法進行評估。其中CPU為6-Core 的R5 3500X,工作頻率為3.6 GHz,內(nèi)存為16 GB(3 600 MHz);ARM為ARM Cortex-A9,工作頻率為667 MHz;FPGA+ARM為ZYNQ7020,工作頻率為180 MHz。
各加速器資源消耗情況如表2所示。
表2 各加速器及系統(tǒng)資源消耗
由表2可以看出,有3種加速器:Conv,Dpconv,Pool_Add_up,其中Conv為傳統(tǒng)卷積加速器,Dpconv為通道卷積加速器,Pool_Add_up將池化層、路由層和上采樣層打包成一個加速器。所構(gòu)建的系統(tǒng)資源消耗了大量的DSP,LUT和BRAM資源。資源利用率較高。
YOLOv4-Tiny和YOLO-GhostNet算法參數(shù)及在不同處理器上性能對比如表3所示。
表3 YOLOv4-Tiny和YOLO-GhostNet算法各參數(shù)及性能對比
表3中,mAP為算法平均精度,在精度上基本無損失;速度分別在3種處理器上運行測試,改進后的算法在FPGA+ARM工作頻率180 MHz時相對YOLOv4-Tiny算法在ARM單獨工作時性能提升35.2倍,在FPGA+ARM工作時性能提升2倍;相對本算法在ARM單獨工作性能提升20倍。BFLOPs為算法計算量,即:
BFLOPs=ksize×ksize×Chin×Chout×Win×Hout×2,
(14)
式中,BFLOPs為計算量;ksize,Chin,Chout,Win,Hout分別為卷積核尺寸、輸入通道數(shù)、輸出通道數(shù)和輸出特征圖尺寸。
YOLOv4-Tiny和YOLO-GhostNet算法在3種處理器下的功耗與能效如表4所示。
表4 YOLOv4-Tiny和YOLO-GhostNet算法功耗及其能效對比
由表4可以看出,對比能效方面,YOLOv4-Tiny算法在Zynq平臺能效是在CPU和ARM平臺能效的12.26倍和7.5倍。相較于改進后的算法,在Zynq平臺下的能效是在CPU和ARM平臺下能效的20倍和9倍。但是改進后的算法能效不論在哪個處理器下都低于 YOLOv4-Tiny。根據(jù)Roofline模型中的計算強度(計算量/訪存量)分析,YOLO-GhostNet算法計算強度是要低于YOLOv4-Tiny算法的,性能瓶頸受限于帶寬,不能完全利用處理器計算資源。
本文實驗以YOLOv4_Tiny算法為基礎(chǔ),為了部署方便等問題將算法進行GhostNet模塊設(shè)計、剪枝算法壓縮、動態(tài)定點16 bit量化。再根據(jù)芯片資源和算法類型設(shè)計神經(jīng)網(wǎng)絡(luò)卷積專用IP核,更進一步地提高算法推理效率。但是由于算法類型和板子總線帶寬利用率等問題,無法更進一步優(yōu)化,導(dǎo)致能效較低等問題。未來進一步改進主要有以下2點:① 使用帶寬更大的實驗平臺;② 對計算模塊進行更近一步的高效優(yōu)化,例如Winograd卷積等。