師緊想
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海200240)
深度卷積神經(jīng)網(wǎng)絡(luò)迎來(lái)了巨大的發(fā)展,傳統(tǒng)CPU、GPU越來(lái)越難以滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)對(duì)功耗和能效的需要。隨著Dennard定律縮放的失效[1],存算一體加速器以低功耗、高能效的計(jì)算特點(diǎn)受到了廣泛關(guān)注。以憶阻存儲(chǔ)器(Resistive Random Access Memory,ReRAM)為基礎(chǔ)的存算一體加速器是存算一體一個(gè)重要研究方向[11-12]。
存算一體加速器具有存儲(chǔ)單元與計(jì)算單元一體的特點(diǎn),因此給面向存算一體的編程和資源調(diào)度帶來(lái)了困難,一些存算一體加速器[2-3]仍采用手工映射的方式部署神經(jīng)網(wǎng)絡(luò)模型。本文面向憶阻器存算一體設(shè)計(jì)了指令生成工具,并設(shè)計(jì)了算子調(diào)度策略,解決面向存算一體神經(jīng)網(wǎng)絡(luò)加速器的編程、編譯問(wèn)題。
憶阻器存算一體加速器的基本單元是憶阻器交叉陣列(crossbar),當(dāng)前的存算一體加速器普遍采用多個(gè)憶阻器交叉陣列組成計(jì)算點(diǎn)陣,并將訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)(權(quán)重)一次性映射在陣列上。例如ISAAC[2]采用了12k個(gè)crossbar組成一個(gè)從chip到tile到crossbar的層次化計(jì)算架構(gòu),每個(gè)crossbar包含128行×128列個(gè)憶阻器單元,可以映射48Mb模型參數(shù),足以映射如ResNet-18網(wǎng)絡(luò)的所有參數(shù),而不需要考慮crossbar再次映射的情況(后文稱(chēng)再次映射為權(quán)重更新)。
而實(shí)際上受限于工藝條件,crossbar很難做到128行×128列的規(guī)模[4,5,6],并且從面積和利用率等實(shí)際情況考慮:①采用上萬(wàn)個(gè)crossbar占用了很大的面積,增加了功耗;②在映射部分參數(shù)規(guī)模不大的網(wǎng)絡(luò)時(shí),硬件資源利用率不高;③存在神經(jīng)網(wǎng)絡(luò)參數(shù)規(guī)??蛇_(dá)到億級(jí),對(duì)于這些極大規(guī)模的網(wǎng)絡(luò),該架構(gòu)仍然無(wú)法一次性映射全部權(quán)重??紤]這些情況,本文抽象出來(lái)存算一體架構(gòu)的一些共有特征,提出一個(gè)陣列規(guī)模小的權(quán)重可變的存算一體架構(gòu),通過(guò)多次映射權(quán)重來(lái)完成整個(gè)網(wǎng)絡(luò)的計(jì)算,并且通過(guò)本文設(shè)計(jì)的軟件棧完成具有多次權(quán)重更新的編譯需求。
本文面向的架構(gòu)如圖1所示,其中左側(cè)是該架構(gòu)的tile級(jí)結(jié)構(gòu),包含一個(gè)全局共享存儲(chǔ)器和4個(gè)core。通過(guò)高帶寬的H-tree互聯(lián)結(jié)構(gòu),core可以訪問(wèn)tile上的全局共享內(nèi)存,每個(gè)core包含9個(gè)邏輯crossbar,每個(gè)crossbar由64×64個(gè)2bits憶阻器單元構(gòu)成,即本文所基于的架構(gòu)可同時(shí)映射144Kb權(quán)重,最小矩陣向量乘執(zhí)行單元為64×64×8bits。由于架構(gòu)需要多次更新crossbar上的權(quán)重,考慮到crossbar更新權(quán)重的代價(jià)較高,本文將在后文設(shè)計(jì)相關(guān)的調(diào)度策略緩解這個(gè)問(wèn)題。
存算一體加速器具備軟件可編程性,如圖1右側(cè)所示,本文架構(gòu)的Core單元可以執(zhí)行從/向tile的全局存儲(chǔ)器上讀取/寫(xiě)入數(shù)據(jù)的過(guò)程,并可以獨(dú)立譯碼和執(zhí)行計(jì)算過(guò)程。
圖1 存算一體層次化架構(gòu)
當(dāng)前存算一體加速器上部署神經(jīng)網(wǎng)絡(luò)模型時(shí)大多采用手工映射的方法,為了減少開(kāi)發(fā)時(shí)間,一些工作[7][8]設(shè)計(jì)了編譯軟件棧,但是缺乏算子優(yōu)化且沒(méi)有考慮權(quán)重更新的情況。Halide[9]是一個(gè)解耦計(jì)算與調(diào)度的代碼生成工具,本文的指令生成工具在算子優(yōu)化方面結(jié)合Halide的思想,提供了優(yōu)化算子的能力,并且考慮了crossbar的權(quán)重更新。
本文指令生成工具的代碼生成流程如圖2所示。
圖2 編譯流程圖示
首先利用Halide描述運(yùn)算,再將運(yùn)算描述轉(zhuǎn)換成Halide算子中間表示,并將循環(huán)嵌套表示的算子進(jìn)行任務(wù)劃分、分割成與硬件原語(yǔ)綁定的執(zhí)行單元,以方便后續(xù)代碼生成。最后將算子級(jí)中間轉(zhuǎn)換成LLVM IR,將LLVM IR翻譯成可執(zhí)行文件后,運(yùn)行可執(zhí)行文件,可以生成存算一體指令,最后借助驅(qū)動(dòng)工具將指令加載到Core單元并執(zhí)行。
考慮到加速器執(zhí)行的最小運(yùn)算粒度是矩陣向量乘操作,因此需要將以循環(huán)嵌套描述的卷積等運(yùn)算拆分成硬件可執(zhí)行的矩陣向量乘操作單元。另外為了讓算子在多個(gè)Core上并行執(zhí)行,采取將以循環(huán)嵌套描述的算子的一些計(jì)算軸與計(jì)算核進(jìn)行綁定的方法??紤]減少計(jì)算依賴(lài)等因此,本文將卷積的輸出通道與Core進(jìn)行綁定。
如圖3所示,本文首先在卷積算子的7層循環(huán)中將輸出通道C表示的循環(huán)軸分割成兩個(gè)子循環(huán)軸C_o與C_i,分割的因子為64,以便匹配硬件最小執(zhí)行單元,進(jìn)一步以因子4分割C_o通道,以綁定4個(gè)計(jì)算核心。最終形成從外到內(nèi)為C_o_outer、C_o_inner、C_i的循環(huán)順序,并在算子IR上的C_o_inner軸上利用語(yǔ)法標(biāo)記為并行,以便在代碼生成時(shí)將該變量與計(jì)算核心綁定。
考慮到存算一體的輸入數(shù)據(jù)訪問(wèn)以及crossbar權(quán)重更新代價(jià),本文主要研究了兩個(gè)算子優(yōu)化的技術(shù):①連續(xù)內(nèi)存訪問(wèn)優(yōu)化:在片上輸入緩沖區(qū)資源足夠的情況下,讀取輸入數(shù)據(jù)時(shí),應(yīng)盡量選擇讀取連續(xù)內(nèi)存排列的數(shù)據(jù),以提高DMA訪問(wèn)的效率;②權(quán)重更新次數(shù)優(yōu)化:在中間結(jié)果緩沖區(qū)足夠的情況下,盡量復(fù)用當(dāng)前權(quán)重,減少權(quán)重更新次數(shù)。
圖3 卷積運(yùn)算在多核之間的任務(wù)劃分
考慮圖4所示的兩種讀取輸入的方式,當(dāng)讀取的輸入張量是張量A表示的張量窗口時(shí),由于第一行數(shù)據(jù)和后行的數(shù)據(jù)在內(nèi)存的存放存在間隔,因此需要使用至少三次內(nèi)存訪問(wèn)操作(或者啟動(dòng)三次DMA操作)才能將完整輸入讀入到數(shù)據(jù)緩沖區(qū)。
圖4 從內(nèi)存中讀取輸入張量數(shù)據(jù)的兩種訪問(wèn)形式
當(dāng)輸入緩沖區(qū)還存在余量時(shí),考慮張量B表示的讀取方式,由于第一行數(shù)據(jù)和第二行數(shù)據(jù)在內(nèi)存中是連續(xù)存放的,因此只需要一次內(nèi)存訪問(wèn)指令。顯然第二種讀取方式減少讀取次數(shù),提高了訪問(wèn)效率。本文通過(guò)在編譯時(shí)檢測(cè)讀取的目標(biāo)張量數(shù)據(jù)是否連續(xù)存放,如公式1所示。
并利用存儲(chǔ)感知輸入緩沖區(qū)的余量決定讀取張量的大小,最后決定每次讀取張量塊的大小。
前文敘述了本文架構(gòu)在映射神經(jīng)網(wǎng)絡(luò)模型時(shí)權(quán)重?zé)o法一次性映射到crossbar上,因此在計(jì)算中需要多次更新權(quán)重。因此在編譯階段本文需要解決兩個(gè)問(wèn)題,一是在算子循環(huán)嵌套的何處進(jìn)行權(quán)重更新,二是如何調(diào)度算子使得權(quán)重更新次數(shù)減少。對(duì)于第一個(gè)問(wèn)題,結(jié)合上文中的算子任務(wù)劃分策略,對(duì)于輸入layout為[N,K,H,W](batch_size、輸入通道數(shù)、長(zhǎng)、寬),卷積核layout為[C,K,m,m](輸出通道數(shù)、輸入通道數(shù)、卷積核大小)的卷積運(yùn)算,可以得到,在卷積運(yùn)算循環(huán)嵌套的輸出通道C_o與輸入通道K_o所表示的循環(huán)變量改變時(shí),權(quán)重需要進(jìn)行更新。因此本文在C_o和K_o軸設(shè)置了一個(gè)語(yǔ)法標(biāo)記,如圖5所示,這個(gè)標(biāo)記通過(guò)調(diào)用一個(gè)接口函數(shù)將Invalid標(biāo)記傳送到代碼生成模塊,代碼生成模塊根據(jù)Invalid標(biāo)記來(lái)判斷是否將接下來(lái)的LoadWeight指令插入到指令流中。對(duì)于第二個(gè)問(wèn)題,結(jié)合圖5所示描述,通過(guò)Halide提供的循環(huán)重排方法,盡量將h_o、w_o軸排到c_o_outer與k_outer之后,減少了權(quán)重更新的次數(shù)。
本文在算子優(yōu)化上借鑒了Halide解耦計(jì)算描述與計(jì)算調(diào)度的思想。首先對(duì)算子如卷積運(yùn)算設(shè)置一個(gè)默認(rèn)的調(diào)度模板,然后在此模板的基礎(chǔ)上利用reorder、split、tiling等方法對(duì)默認(rèn)的循環(huán)嵌套進(jìn)行循環(huán)重排、分塊等操作,以探索在指定硬件資源上的最佳計(jì)算方案。
為了探索最佳調(diào)度方案,本文首先基于調(diào)度模板和輸入負(fù)載的大小生成調(diào)度空間,在調(diào)度空間中通過(guò)遍歷并評(píng)估各個(gè)點(diǎn)以找到最佳調(diào)度方案,并將最佳調(diào)度生成到記錄文件,在遇到相同計(jì)算負(fù)載時(shí)可以直接從記錄文件中提取相應(yīng)的調(diào)度方案,減少不必要的調(diào)度空間探索時(shí)間。
如圖5所示,本文首先將卷積的循環(huán)軸如C軸、K軸進(jìn)行第一步拆分,如公式(2)、(3)所示,其中C_i與K_i用以匹配硬件最小執(zhí)行單元,再進(jìn)一步對(duì)C_o、K_o以及H,W,N軸采取類(lèi)似的分割策略,可以生成一個(gè)由C_o_outer,C_o_inner,H_o,H_i,W_o,W_i,N_o,N_i組成的一個(gè)與變量順序和幅度有關(guān)的調(diào)度空間。
圖5 卷積循環(huán)分塊與調(diào)度(分塊因子由調(diào)度空間中所選的調(diào)度方案決定)
由于不同的排列組合下的申請(qǐng)buffer空間、中間結(jié)果所占的空間、內(nèi)存訪問(wèn)次數(shù)以及權(quán)重更新次數(shù)都有所不同,因此可以尋優(yōu)一個(gè)最佳調(diào)度。
為了驗(yàn)證本文指令生成工具編譯流程的正確性和調(diào)度策略的有效性,本文基于PUMA[10]仿真器進(jìn)行修改以支持本文所提出的存算一體指令,并對(duì)生成的指令塊進(jìn)行仿真驗(yàn)證,結(jié)合生成的各級(jí)中間表示進(jìn)行分析以驗(yàn)證編譯流程的正確性。最后通過(guò)與默認(rèn)調(diào)度方案對(duì)比,驗(yàn)證本文優(yōu)化方案的有效性。
以batch_size=1,height=28,width=28,in_filter=128,out_filter=256,wkernel=3,padding=[1,1],stride=[1,1]的卷積運(yùn)算為例,本文指令生成工具生成的含有硬件信息的算子級(jí)中間表示如圖6所示,本文在基于PUMA[10]的仿真器上對(duì)生成的指令流進(jìn)行了仿真,驗(yàn)證了生成結(jié)果的正確性。圖7顯示在本文的減少權(quán)重更新策略調(diào)度下,部分神經(jīng)網(wǎng)絡(luò)的權(quán)重更新次數(shù)相比與默認(rèn)模板減少了90%以上。
圖6 生成的Conv2d-ReLU算子描述
圖7 算子優(yōu)化前后的映射權(quán)重的次數(shù)對(duì)比
圖6中間表示表明了本文指令生成工具生成代碼的正確性,另外之所以本文的調(diào)度方案相比與沒(méi)有調(diào)度的方案有很大提升,是因?yàn)槟J(rèn)計(jì)算方案趨向于產(chǎn)生完成計(jì)算結(jié)果,因此產(chǎn)生大量權(quán)重更新,在調(diào)度之后,趨向于在中間結(jié)果緩沖區(qū)有余量的情況下優(yōu)先產(chǎn)生中間結(jié)果,因此產(chǎn)生大量權(quán)重復(fù)用的情景,從而減少了權(quán)重更新次數(shù)。
針對(duì)憶阻器存算一體加速器的代碼生成與優(yōu)化問(wèn)題,本文設(shè)計(jì)了一套自動(dòng)指令生成的流程,在算子級(jí)中間表示上利用Halide解耦計(jì)算與調(diào)度,在生成的調(diào)度空間上探索映射卷積運(yùn)算的最佳調(diào)度方案,最后相比于默認(rèn)計(jì)算規(guī)則,本文減少了85%~96%的權(quán)重更新次數(shù),大大減少了權(quán)重更新的開(kāi)銷(xiāo)。