多核數(shù)字信號處理器矩陣乘卷積算法性能評測*

2023-03-09 01:05:48王慶林裴向東廖林玉王浩旭李榮春梅松竹李東升

國防科技大學(xué)學(xué)報 2023年1期

王慶林，裴向東，廖林玉，王浩旭，李榮春，梅松竹，李東升

(1. 國防科技大學(xué) 計算機學(xué)院, 湖南長沙 410073；2. 國防科技大學(xué) 并行與分布處理國防科技重點實驗室，湖南長沙 410073)

隨著人工智能+(artificial intelligence+, AI+)的快速發(fā)展，深度學(xué)習(xí)技術(shù)逐漸在各個領(lǐng)域?qū)崿F(xiàn)了技術(shù)落地。作為一類代表性深度神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)被廣泛應(yīng)用在各種場景中，如自動駕駛[1]、視頻處理[2]、科學(xué)計算[3]等。在CNNs中，卷積層占據(jù)了大部分的計算開銷，從而使得卷積層的優(yōu)化成為CNNs網(wǎng)絡(luò)性能的關(guān)鍵，目前成為學(xué)術(shù)界和工業(yè)界研究的熱點。

實現(xiàn)卷積層計算的方法主要有直接卷積[4-5]、快速傅里葉變換(fast Fourier transform, FFT)卷積[6-9]、Winograd卷積[10-11]、矩陣乘卷積[12-14]四種算法。直接卷積算法根據(jù)卷積層的定義直接進行實現(xiàn)，為獲得較高的性能，通常需要針對卷積核大小、卷積步長等卷積參數(shù)進行優(yōu)化。FFT和Winograd卷積算法分別通過FFT和Winograd轉(zhuǎn)換來降低卷積復(fù)雜度，因此這兩種算法也常被稱為快速卷積算法。盡管如此，快速卷積算法通常只適用于部分卷積配置，如Winograd算法通常只適合于卷積核大小為3×3的情況。矩陣乘卷積算法是將卷積計算轉(zhuǎn)換為通用矩陣乘操作，是實現(xiàn)卷積計算的通用算法，是PyTorch[15]、TensorFlow[16]等深度學(xué)習(xí)框架以及cuDNN[17]、oneDNN[18]等神經(jīng)網(wǎng)絡(luò)庫首要提供的算法。矩陣乘卷積算法可分為顯式算法和隱式算法。如果矩陣轉(zhuǎn)換和矩陣乘融合為一體，則無須存儲完整的轉(zhuǎn)換矩陣，稱為隱式算法，否則稱為顯式算法。本文主要聚焦顯式矩陣乘卷積算法，構(gòu)建完整的轉(zhuǎn)換矩陣，通過調(diào)用已有的矩陣乘函數(shù)庫來實現(xiàn)卷積計算，為各種卷積參數(shù)配置提供高性能實現(xiàn)基礎(chǔ)。

FT-M7032是國防科技大學(xué)面向E級計算自主研發(fā)的一款異構(gòu)通用多核數(shù)字信號處理器[19](digital signal processors, DSP)，由32個通用DSP核和1個16核ARMv8 CPU構(gòu)成。在主頻為1.8 GHz時，全芯片的單精度浮點峰值性能高達11.06 Tflops/s，在科學(xué)計算和人工智能等領(lǐng)域具有巨大的潛力。在FT-M7032中，計算能力主要由32個通用DSP核提供。為了降低芯片面積和功耗，通用DSP核采用基于超長指令字的順序執(zhí)行架構(gòu)，并采用軟件控制的存儲作為片上緩存，然后基于直接存儲器存取(direct memory access,DMA)部件進行不同存儲層次之間數(shù)據(jù)的傳輸。然而，面向CPU、GPU等芯片的已有算法在FT-M7032上沒法直接運行或者沒法實現(xiàn)高的性能。因此，針對多核DSP的體系結(jié)構(gòu)進行算法優(yōu)化是FT-M7032發(fā)揮高性能計算的必要措施。

面向FT-M7032處理深度學(xué)習(xí)應(yīng)用的需求，本文結(jié)合其體系結(jié)構(gòu)特征，在詳細分析了FT-M7032芯片上實現(xiàn)顯式矩陣乘卷積算法的各種技術(shù)路徑的基礎(chǔ)上，提出了一種面向多核DSP架構(gòu)的高性能并行顯式矩陣乘卷積實現(xiàn)算法ftmEConv，并采用了不同的卷積配置對算法進行了詳細性能評估。測試結(jié)果顯示，ftmEConv性能均超過了FT-M7032芯片上的其他顯式矩陣乘卷積實現(xiàn)方法，獲得了高達7.79倍的加速，最高達到了42.90%的多核DSP峰值性能。同時，針對算法開銷進行了詳細分析，也為后續(xù)面向FT-M7032的算法優(yōu)化指明了方向。本文工作對于推動FT-M7032在人工智能領(lǐng)域的應(yīng)用，以及面向FT-M7032的算法與應(yīng)用優(yōu)化，均具有重要的意義。

1 相關(guān)定義

1.1 卷積定義

本文的研究范圍僅限于二維經(jīng)典卷積，故令卷積的輸入特征圖為I[N][Cd][Hi][Wi][L]，輸入卷積核為F[C][Kd][Hf][Wf][L]，卷積的輸出特征圖為O[N][Kd][Ho][Wo][L]。其中，N表示輸入特征圖的數(shù)量，Hi/f/o和Wi/f/o分別表示空間上的高度和寬度，L表示硬件向量處理單元并行處理的數(shù)據(jù)寬度，Cd和Kd分別表示輸入通道和輸出通道的分塊數(shù)，輸入通道數(shù)為C=Cd×L，輸出通道數(shù)K=Kd×L。卷積計算中的步長大小標(biāo)記為S，填充大小標(biāo)記為P，則輸出特征圖的高度和寬度分別為：Ho=(Hi+2×P-Hf)/S+1，Wo=(Wi+2×P-Wf)/S+1?；谝陨蠀?shù)表示，深度學(xué)習(xí)領(lǐng)域中的卷積定義如下：

Fcd×L+cl,kd,hf,wf,kl)

(1)

其中，0≤n

1.2 矩陣乘卷積算法

矩陣乘卷積算法是將卷積操作直接轉(zhuǎn)換為通用矩陣乘計算。根據(jù)第1.1節(jié)卷積的定義，矩陣乘卷積的算法大致分為四步，如算法1所示。第一步(Step 1)是輸入特征圖轉(zhuǎn)換，根據(jù)卷積操作的計算過程將輸入特征圖I轉(zhuǎn)換為A矩陣。該步驟將單個通道特征圖上的一個卷積點計算以及多輸入通道上的累加操作所需來自I的全部元素轉(zhuǎn)換為A矩陣的一行，稱為im2row (image-to-row)操作；如果轉(zhuǎn)換為A矩陣的一列，則稱為im2col (image-to-column) 操作。本文后續(xù)討論中主要涉及im2row操作,A矩陣常采用A[M′][K′]表示，其中M′=N×Ho×Wo，K′=Cd×Hf×Wf×L，同時也根據(jù)算法的設(shè)計討論需求采用其準確的數(shù)據(jù)布局A[N][Ho][Wo][Cd][Hf][Wf][L]表示。第二步(Step 2)將卷積核F轉(zhuǎn)換為B[K′][N′]矩陣，其中N′=K。第三步(Step 3)執(zhí)行矩陣乘操作C=A×B，其中C矩陣大小為M′×N′。第四步(Step 4)將C矩陣轉(zhuǎn)換為卷積的輸出特征圖O。

算法1 原始矩陣乘卷積算法Alg.1 Original matrix multiplication-based convolutional algorithm

2 FT-M7032體系結(jié)構(gòu)

FT-M7032是國防科技大學(xué)面向E級計算自主研發(fā)的一款異構(gòu)通用多核DSP，由一個16核ARMv8 CPU和4個GPDSP簇構(gòu)成，其整體架構(gòu)如圖1所示。ARMv8 CPU上運行Linux操作系統(tǒng)，負責(zé)進程與外設(shè)管理以及多芯片之間的通信，單精度浮點峰值性能為281.6 Gflops/s。4個GPDSP簇提供主要的計算能力支持，其中每個GPDSP簇由8個通用DSP核和大小為6 MB的全局共享內(nèi)存(global shared memory, GSM)通過交叉開關(guān)網(wǎng)絡(luò)連接而成。片上GSM帶寬約為307.2 GB/s。當(dāng)DSP內(nèi)核主頻為1.8 GHz時，單個GPDSP簇可以提供高達2.76 Tflops/s的單精度浮點計算能力。CPU與4個GPDSP簇共享全局內(nèi)存空間，但每個GPDSP簇只能訪問對應(yīng)的局部DDR內(nèi)存空間。單個GPDSP簇對應(yīng)的內(nèi)存空間理論帶寬為42.62 GB/s。

圖1 FT-M7032芯片的整體架構(gòu)Fig.1 Architecture of FT-M7032

FT-M7032中單個DSP核的微架構(gòu)如圖2所示，主要由標(biāo)量處理單元(scalar processing unit, SPU)、向量處理單元(vector processing unit, VPU)、指令調(diào)度單元(instruction fetch unit, IFU)以及DMA部件等構(gòu)成。SPU負責(zé)標(biāo)量計算與流程控制，主要包括標(biāo)量處理部件(scalar processing elements, SPE)和64 KB標(biāo)量存儲(scalar memory, SM)。SM與寄存器之間的訪問帶寬為28.8 GB/s。VPU負責(zé)向量計算，主要由16個向量處理部件(vector processing elements,VPE)與768 KB向量存儲(vector memory, AM)構(gòu)成。每個VPE包含3個浮點乘累加(floating point multiply accumulator, FMAC)部件、1個位操作(bit processing, BP)單元以及2個Store/Load部件，支持6條對應(yīng)指令并行執(zhí)行。16個VPE以單指令多數(shù)據(jù)(single instruction multiple data, SIMD)的方式協(xié)作運行，一次可以處理32個單精度浮點數(shù)據(jù)(FP32)，即對于FP32數(shù)據(jù)，L=32。AM每個周期可以向向量寄存器提供 512 B數(shù)據(jù)，即AM與向量寄存器之間的帶寬為921.6 GB/s。

圖2 FT-M7032中DSP單核微架構(gòu)Fig.2 Micro-architecture of each DSP core in FT-M7032

3 面向FT-M7032的矩陣乘卷積實現(xiàn)分析

對照矩陣乘卷積算法的詳細步驟以及FT-M7032的體系結(jié)構(gòu)可知，在FT-M7032上實現(xiàn)高性能矩陣乘卷積算法主要有三種方法。

第一種方法是將矩陣乘卷積算法的四個步驟全部運行在FT-M7032的16 核ARMv8 CPU上，其中第三步的矩陣乘通過調(diào)用ARMv8 CPU上的BLAS庫來完成。該方法的優(yōu)點是能夠在FT-M7032上快速實現(xiàn)矩陣乘卷積算法，且工作量較小。但是該方法沒有充分利用FT-M7032中GPDSP簇強大的計算能力，畢竟GPDSP簇的性能遠高于16核ARMv8 CPU的性能。為便于后續(xù)的討論與分析，統(tǒng)一將該方法標(biāo)記為Conv-CPU。

第二種方法是將Conv-CPU中的矩陣乘遷移到其中一個GPDSP簇上執(zhí)行，即第三步的矩陣乘通過調(diào)用GPDSP簇上的BLAS庫來完成。為了保證CPU對四個簇的平衡控制，該方法實現(xiàn)其他三個步驟時，均只運行在單個GPDSP簇對應(yīng)的四個CPU核上，即執(zhí)行第一、二與四步驟時，并行的線程數(shù)均為4。為便于后續(xù)的討論與分析，統(tǒng)一將該方法標(biāo)記為Conv-CPU-DSP。

第三種方法是將矩陣乘卷積算法的四個步驟全部運行在FT-M7032的GPDSP簇上。與前面兩種方法相比，該方法既能充分利用GPDSP簇的計算能力，也能基于DSP中的DMA部件提升DDR的訪存效率。難點在于如何面向多核DSP的體系結(jié)構(gòu)高效實現(xiàn)im2row、transformF以及transformO等訪存密集型操作。

本文面向FT-M7032的矩陣乘卷積算法實現(xiàn)將采用第三種方法，擬基于AM與GSM相對DDR的高帶寬屬性，通過調(diào)用DMA操作、向量Load/Store操作的方法來高效實現(xiàn)im2row、transformF以及transformO等訪存密集型操作，并通過集成已有的矩陣乘算法來高效完成矩陣乘操作。為便于后續(xù)的討論與分析，將本文基于第三種方法的實現(xiàn)統(tǒng)一標(biāo)記為ftmEConv。

4 面向多核DSP的矩陣乘卷積算法優(yōu)化

4.1 ftmEConv算法整體設(shè)計

基于第3節(jié)的分析，并結(jié)合FT-M7032的體系結(jié)構(gòu)特征，本文提出了面向多核DSP的矩陣乘卷積算法ftmEConv，由六個步驟構(gòu)成，如算法2所示。第一步(Step 1)將CPU 緩存中的內(nèi)容寫回DDR中。第二步(Step 2)調(diào)用DSP端函數(shù)__im2row( )完成輸入特征圖的轉(zhuǎn)換。第三步(Step 3)調(diào)用DSP端函數(shù)__transformF( )完成卷積核的轉(zhuǎn)換。第四步(Step 4)調(diào)用DSP端函數(shù)__gemm( )完成矩陣乘的計算。第五步(Step 5)調(diào)用DSP端函數(shù)__transformO( )完成輸出特征圖的轉(zhuǎn)換。第六步(Step 6)作廢CPU Cache中的內(nèi)容，完成卷積運算。

算法2 面向多核DSP的并行矩陣乘卷積算法ftmEConvAlg.2 Parallel matrix multiplication-based convolutional algorithm on multi-core DSP (ftmEConv)

總的來說，ftmEConv的主要操作過程(輸入特征圖轉(zhuǎn)換、卷積核轉(zhuǎn)換、矩陣乘以及輸出特征圖轉(zhuǎn)換)均運行于通用DSP核上，通過有效挖掘通用DSP核的潛力來提升矩陣乘卷積的性能。同時，ftmEConv的設(shè)計也使得數(shù)據(jù)在CPU端與DSP端之間的轉(zhuǎn)換開銷大幅降低，過程中僅需進行一次DSP讀轉(zhuǎn)換(Step 1)和CPU讀轉(zhuǎn)換(Step 6)操作即可。

4.2 輸入特征圖轉(zhuǎn)換

結(jié)合GPDSP簇的體系結(jié)構(gòu)特征，本文提出了面向多核DSP的im2row算法的并行實現(xiàn)方法，如算法3所示。該實現(xiàn)方法充分利用了片上AM和GSM相對DDR的高帶寬特性，將輸入特征圖進行分塊后傳入AM空間，然后基于DMA函數(shù)先后完成兩個維度的轉(zhuǎn)換操作。具體為:在分塊參數(shù)計算方面，鑒于深度學(xué)習(xí)中主流CNNs所處理的輸入特征圖空間維度相對較小等因素，同時根據(jù)片上AM和GSM空間大小的估計，本文決定將I傳入片上空間最小粒度設(shè)置為Wi×L，即不在Wo維度上進行分塊。根據(jù)Wi、Hi、S以及P等參數(shù)計算將I傳入AM空間擴展后的特征圖空間大小W′i=(Wi+2×P+S-1)/S×S、H′i=(Hi+2×P+S-1)/S×S(第1行)，從而使得填零后的特征圖每行首個元素與每個通道首個元素均可以成為按步長S橫向滑動后的卷積窗口中的首個元素。在算法3設(shè)計中，由于擴展后的分塊輸入特征圖I′am和轉(zhuǎn)換后的矩陣A′am/gsm分別存儲在不同片上空間中，因此計算分塊參數(shù)時，以I′am和A′am/gsm中的存儲空間需求最大值來進行約束。同時，按以下原則來進行分塊大小的調(diào)整：先設(shè)置N、Cd、Ho維度上的分塊大小Nb、Cdb、Hob分別為1；在片上空間限制下，盡可能先增大Hob；如果Hob=Ho，再盡可能增大Cdb；如果Cdb=Cd，然后盡可能增大Nb。

算法3 im2row操作的并行實現(xiàn)Alg.3 Parallel implementation of im2row algorithm

通過算法3中第3～9行的for循環(huán)，將輸入特征圖I劃分成形狀為[nb][cdb][hib][Wi][L]的眾多子塊I′ddr，然后采用多個DSP核分別調(diào)用im2row_kernel()函數(shù)來并行處理不同的子塊。

im2row_kernel()函數(shù)是本方案中實現(xiàn)im2row功能的核心函數(shù)，一共由五步構(gòu)成，如算法3中第11～16行所示。下面以nb=1、cdb=1、Hib=Hi=3、Wi=3、Hf=Wf=2、S=2以及P=1為例進行每一步的詳細介紹，如圖3所示，其中每一個元素表示一個長為L的向量。

圖3 im2row_kernel()的實現(xiàn)實例Fig.3 An implementation example for im2row_kernel()

第一步(第12行的Step 1)：根據(jù)P的情況進行AM空間的初始化。如果P不等于0，則意味著卷積計算過程中需要對特征圖空間進行補零操作，本文通過對AM空間提前進行快速置零初始化來實現(xiàn)補零操作；如果P等于0，則跳過此步的初始化。如圖3中所示，由于P等于1，則需將AM空間初始化為零。

第二步(第13行的Step 2)：調(diào)用nb×cdb次DMA函數(shù)將輸入特征圖的子塊Iddr[nb][cdb][hib][Wi][L]傳入AM空間，并完成補零與擴展操作，從而將傳入的輸入特征圖子塊擴展為AM中的I′am[nb][cdb][h′ib][W′i][L]，其中h′ib表示傳入的hib經(jīng)過補零與擴展后的大小。在圖3中，W′i=6、h′ib=6；“0”表示補零后產(chǎn)生的向量，這是卷積計算的需求；“x”表示擴展后行和列中的無效向量元素，擴展后的子塊在Step 3中即可通過一次DMA函數(shù)調(diào)用完成Wf維度的鋪平轉(zhuǎn)換。

第三步(第14行的Step 3)：調(diào)用一次DMA函數(shù)將AM空間中的I′am[nb][cdb][h′ib][W′i][L]傳輸?shù)紾SM中，轉(zhuǎn)換成Agsm[nb][cdb][h′ib][Wo][Wf][L]。在本步實現(xiàn)中，將I′am[nb][cdb][h′ib]

[W′i][L] 當(dāng)作I′am[nb×cdb×h′ib×W′i][L]來處理，通過合理設(shè)置DMA函數(shù)調(diào)用中的源塊數(shù)、源塊大小、源偏移量、目的塊數(shù)、目的塊大小以及目的偏移量來實現(xiàn)Wf維度的轉(zhuǎn)換，其中通過將目的偏移量設(shè)置為負值來把矩陣中間擴展的“x”去掉。

第四步(第15行的Step 4)：調(diào)用nb×cdb×Hf次DMA函數(shù)將GSM空間Agsm[nb][cdb][h′ib][Wo][Wf][L]傳輸?shù)紸M空間中，變成Aam[nb][hob][Wo][cdb][Hf][Wf][L]，其中既涉及Hf維度的鋪平轉(zhuǎn)換，也涉及多個維度(如hob×Wo維度與cdb維度)之間的轉(zhuǎn)置。

第五步(第16行的Step 5)：調(diào)用一次DMA函數(shù)將Aam[nb][hob][Wo][cdb][Hf][Wf][L]傳輸回DDR空間A[N][Ho][Wo][Cd][Hf][Wf][L]中對應(yīng)位置。

4.3 卷積核轉(zhuǎn)換

對于1×1卷積來說，F(xiàn)與B完全相同，因而不需要進行任何轉(zhuǎn)換；對于其他如3×3等的卷積來說，需要對F進行格式轉(zhuǎn)換，本文的實現(xiàn)如算法4所示。在分塊方面，由于Hi和Wi通常較小，在實現(xiàn)中僅需根據(jù)AM空間大小在C和Kd兩個維度進行分塊。單個GPDSP簇中8個通用DSP核并行將F分塊后的子塊傳入AM空間(第6行)，完成格式轉(zhuǎn)換(第7行)，然后傳出到DDR中B的給定位置(第8行)。

算法4 卷積核張量的并行轉(zhuǎn)換Alg.4 Parallel transformation of filter tensors

4.4 矩陣乘

由于面向FT-M7032芯片的軟件生態(tài)尚不完善，特別是如BLAS等數(shù)學(xué)庫均沒有成熟的版本，本文先根據(jù)文獻[20]構(gòu)建了基于N′維度并行的矩陣乘實現(xiàn)函數(shù)TGEMM。然后，在TGEMM與不規(guī)則形狀矩陣乘函數(shù)庫ftIMM[19]之間根據(jù)N′的大小進行選擇，如算法2中第7～11行所示。在TGEMM實現(xiàn)中，每個DSP核一次處理N′維度上的分塊大小為96，只有N′≥8×96=768時，才能保證單個GPDSP簇中8個DSP核都能分配到相應(yīng)的計算任務(wù)。為充分發(fā)揮單簇中所有DSP核的并行計算能力，只有當(dāng)N′≥768時，才調(diào)用TGEMM函數(shù)；否則，調(diào)用ftIMM中的優(yōu)化實現(xiàn)。

4.5 輸出特征圖轉(zhuǎn)換

在完成第4.4節(jié)矩陣乘函數(shù)調(diào)用后獲得矩陣C[M′][N′]，還需將其轉(zhuǎn)換成卷積的輸出特征圖格式。本文提出了如算法5所示的輸出特征圖張量并行轉(zhuǎn)換算法。在分塊方面，由于主流CNNs中的K相對較小，因而根據(jù)片上AM空間大小，僅在N和Ho×Wo兩個維度上進行分塊。單個GPDSP簇中8個通用DSP核并行將分塊后多個C子塊傳入AM空間(第6行)，完成格式轉(zhuǎn)換(第7行)，最后傳出到DDR中O的給定位置(第8行)。

算法5 輸出特征圖張量的并行轉(zhuǎn)換Alg.5 Parallel transformation of output feature maps tensors

5 性能評估

5.1 實驗設(shè)置

本節(jié)主要涉及ftmEConv與第3節(jié)所介紹的Conv-CPU、Conv-CPU-DSP之間的性能對比。其中，Conv-CPU所有部分均運行在FT-M7032的16核ARMv8 CPU上，矩陣乘部分直接調(diào)用OpenBLAS v0.3.1[21]中的cblas_sgemm函數(shù)實現(xiàn)；Conv-CPU-DSP中轉(zhuǎn)換部分運行在FT-M7032中一個GPDSP簇對應(yīng)的4個ARMv8 CPU核上，矩陣乘部分則直接采用ftmEConv中矩陣乘的實現(xiàn)(第4.4節(jié))。同時，三種算法實現(xiàn)均在相同的帶寬下運行，即所有內(nèi)存空間均分配在一個GPDSP簇匹配的局部內(nèi)存空間。

在本節(jié)中涉及三個指標(biāo)來表示卷積的性能，第一個是完成卷積計算的時間T，第二個是卷積計算所到達的計算性能Pconv，第三個是卷積計算在單個GPDSP簇上所實現(xiàn)的計算效率Econv。三個指標(biāo)之間的相互關(guān)系如式(2)與式(3)所示，其中Peakgpdsp表示單個GPDSP簇的峰值性能。

(2)

(3)

5.2 ftmEConv的開銷剖析

本小節(jié)首先對運行在FT-M7032中一個GPDSP簇上ftmEConv實現(xiàn)的時間開銷進行深度剖析，然后對ftmEConv、Conv-CPU以及Conv-CPU-DSP三種實現(xiàn)中占比相對較大的輸入特征圖轉(zhuǎn)換進行性能對比分析。

當(dāng)N=32、Hf=Wf=3、Hi=Wi=28、S=1以及P=0時，ftmEConv中各部分開銷的占比隨C=K取不同值的變化情況如圖4所示。ftmEConv的開銷主要由輸入特征圖轉(zhuǎn)換(輸入轉(zhuǎn)換)、卷積核轉(zhuǎn)換、矩陣乘以及輸出特征圖轉(zhuǎn)換(輸出轉(zhuǎn)換)四部分組成。當(dāng)C=K取不同值時，最耗時的始終是矩陣乘GEMM與輸入轉(zhuǎn)換im2row兩部分。隨著C=K增大，矩陣乘部分的占比逐漸增大，最大達到了92.41%，因而矩陣乘的性能是決定矩陣乘卷積性能的關(guān)鍵因素。盡管如此，輸入轉(zhuǎn)換im2row部分也始終占據(jù)一定比例的開銷。在圖4所示的測試中，輸入轉(zhuǎn)換im2row部分開銷占比在5.77%～33.83%之間。

圖4 ftmEConv在不同通道數(shù)設(shè)置下的開銷分析Fig.4 Overhead analysis of ftmEconv with different channel sizes

當(dāng)N=32、Hf=Wf=3、Hi=Wi=28、S=1以及P=0時，ftmEConv、Conv-CPU-DSP以及Conv-CPU三種實現(xiàn)中輸入轉(zhuǎn)換im2row部分的性能隨C=K取不同值的變化情況如圖5所示。

圖5 三種實現(xiàn)在不同通道數(shù)設(shè)置下的輸入特征圖轉(zhuǎn)換性能Fig.5 Input transform performance of three implementations with different channel sizes

本文采用有效帶寬來衡量輸入轉(zhuǎn)換部分的性能，即采用輸入轉(zhuǎn)換部分的理論數(shù)據(jù)訪問量(等于I和A兩個張量大小之和)除以其耗時。ftmEConv中的輸入轉(zhuǎn)換部分實現(xiàn)了24.9～29.97 GB/s的性能,對應(yīng)的DDR帶寬利用效率為58.42%～70.32%。同時，ftmEConv中輸入轉(zhuǎn)換部分顯著優(yōu)于Conv-CPU-DSP與Conv-CPU兩者的實現(xiàn)，分別實現(xiàn)了高達3.23倍與3.75倍的性能加速。

5.3 不同實現(xiàn)的性能對比

本小節(jié)將采用不同的卷積參數(shù)配置對ftmEConv、Conv-CPU-DSP以及Conv-CPU三種實現(xiàn)進行全面的性能評測。

當(dāng)C=K=384、Hf=Wf=3、Hi=Wi=28、S=1以及P=0時，三種實現(xiàn)性能隨N不同取值的變化情況如圖6所示。ftmEConv的性能Pconv達到了555.08～686.78 Gflops/s,對應(yīng)的計算效率Econv為20.08%～24.84%。相比Conv-CPU-DSP，ftmEConv實現(xiàn)了1.43～1.61倍的性能加速，主要來源于面向多核DSP的三個轉(zhuǎn)換過程的性能優(yōu)化。相比Conv-CPU，ftmEConv實現(xiàn)了4.73～5.13倍的性能加速，除了三個轉(zhuǎn)換過程的優(yōu)化外，也得益于占比最大的矩陣乘部分的性能提升。

圖6 三種實現(xiàn)在不同輸入特征圖數(shù)量設(shè)置下的性能Fig.6 Performance of three implementations with different numbers of input feature maps

當(dāng)N=32、Hf=Wf=3、Hi=Wi=28、S=1以及P=0時，三種實現(xiàn)性能隨C=K取不同值的變化情況如圖7所示。ftmEConv的性能Pconv隨著C=K增大而逐漸增大，最終達到了1 186.10 Gflops/s，計算效率Econv也達到了42.90%。相比Conv-CPU-DSP與Conv-CPU，ftmEConv分別實現(xiàn)了1.24～2.10 倍與4.87～7.79倍的性能加速。

圖7 三種實現(xiàn)在不同通道數(shù)設(shè)置下的性能Fig.7 Performance of three implementations with different channel sizes

當(dāng)N=32、C=K=384、Hf=Wf=3、S=1以及P=0時，三種實現(xiàn)性能隨Hi=Wi取不同值的變化情況如圖8所示。ftmEConv的性能Pconv隨著Hi=Wi減小而逐漸降低，當(dāng)Hi=Wi=7時，Pconv為263.60 Gflops/s。主要原因是隨著Hi=Wi減小，矩陣乘的維度M′快速變小，使得矩陣乘的性能逐漸降低，從而影響了ftmEConv整體的性能。盡管如此，ftmEConv仍然在所有測試卷積層上獲得了優(yōu)于Conv-CPU-DSP與Conv-CPU兩種實現(xiàn)的性能，相應(yīng)的性能加速比分別為1.19～1.58與2.41～5.07。

圖8 三種實現(xiàn)在不同輸入特征圖大小設(shè)置下的性能Fig.8 Performance of three implementations with different input feature maps sizes

當(dāng)N=32、C=K=384、Hi=Wi=28、S=1以及P=0時，三種實現(xiàn)性能隨Hf=Wf取不同值的變化情況如圖9所示。ftmEConv的性能Pconv在Hf=Wf=1時最低，在Hf=Wf=9時最高，相應(yīng)的計算效率Econv分別為16.96%與29.35%。相比Conv-CPU-DSP，ftmEConv在Hf=Wf=1時獲得了最大3.87倍的性能加速，主要是輸入轉(zhuǎn)換與輸出轉(zhuǎn)換部分的開銷占比較大造成的。與Conv-CPU相比，ftmEConv獲得了4.41～6.23倍的性能加速。

圖9 三種實現(xiàn)在不同卷積核大小設(shè)置下的性能Fig.9 Performance of three implementations with different kernel sizes

5.4 在典型網(wǎng)絡(luò)上的性能測試

在本小節(jié)，采用典型網(wǎng)絡(luò)Resnet18[22]中的卷積層來進行三種實現(xiàn)之間的性能對比測試，結(jié)果如圖10所示。在圖10中，橫坐標(biāo)表示來自Resnet18中的不同配置卷積層，其中N均設(shè)置為128。與第5.3節(jié)的性能對比分析結(jié)果相似，在所有測試的卷積層上，ftmEConv均優(yōu)于Conv-CPU-DSP與Conv-CPU兩種實現(xiàn)。具體而言，ftmEConv獲得了348.42～512.87 Gflops/s的性能，計算效率為12.60%～18.55%；相比Conv-CPU-DSP與Conv-CPU，分別實現(xiàn)了1.22～2.85倍與2.80～7.09倍的性能加速。

圖10 三種實現(xiàn)在Resnet18網(wǎng)絡(luò)層上的性能Fig.10 Performance of three implementations for convolutional layers of Resnet18

6 結(jié)論

本文針對飛騰異構(gòu)多核DSP的體系結(jié)構(gòu)特征與矩陣乘轉(zhuǎn)置操作的特點，提出了一種面向多核DSP架構(gòu)的高性能并行顯式矩陣乘卷積實現(xiàn)算法ftmEConv。ftmEConv由輸入特征圖轉(zhuǎn)換、卷積核轉(zhuǎn)換、矩陣乘以及輸出特征圖轉(zhuǎn)換四個并行化部分構(gòu)成，四個部分均運行在通用多核DSP上。ftmEConv通過有效挖掘多核DSP的潛力來提升各個部分的性能，同時大幅降低了CPU端與DSP端之間的轉(zhuǎn)換開銷。實驗結(jié)果顯示，ftmEconv能夠顯著加快FT-M7032芯片上的矩陣乘卷積操作，其計算效率最高達到了42.90%；與FT-M7032芯片上的其他實現(xiàn)相比，獲得了1.18～7.79倍的性能加速。該項研究對于推動國產(chǎn)DSP在人工智能領(lǐng)域的廣泛應(yīng)用具有重要意義。

下一步將研究面向多核DSP的其他卷積算法實現(xiàn)，以期進一步提升FT-M7032芯片上的卷積實現(xiàn)性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡