劉志宏張星張洪峰
(武漢第二船舶設(shè)計研究所武漢430064)
一種處理器體系結(jié)構(gòu)級功耗評估工具設(shè)計
劉志宏張星張洪峰
(武漢第二船舶設(shè)計研究所武漢430064)
體系結(jié)構(gòu)級功耗評估能讓設(shè)計者在設(shè)計前期對處理器進行架構(gòu)權(quán)衡,極大地減少設(shè)計開銷。論文從體系結(jié)構(gòu)級、電路級和工藝級三個層次,結(jié)合工藝縮放比例原理和RTL反饋建模方法,進行處理器功耗建模;在功耗模型基礎(chǔ)上,實現(xiàn)體系結(jié)構(gòu)級功耗評估工具的設(shè)計;通過速度、精度分析,表明該體系結(jié)構(gòu)級功耗評估工具在極大提升了功耗評估速度的前提下保證了功耗評估精度。
體系結(jié)構(gòu)級;功耗模型;功耗評估
Class NumberTP302
體系結(jié)構(gòu)級功耗評估對于處理器設(shè)計是非常重要的,它能讓設(shè)計者在設(shè)計前期對處理器進行架構(gòu)權(quán)衡,極大地減少設(shè)計開銷。試想若一款處理器設(shè)計到工藝級才發(fā)現(xiàn)其功耗指標(biāo)不滿足,用RTL級和工藝級手段并不能解決,而需返回到體系結(jié)構(gòu)級重新設(shè)計,其代價是非常大的。
目前有許多商業(yè)化功耗評估工具,如晶體管級的HSPICE、PSPICE、NanoSim等,門級或RTL級的Power Designer、RTL Compiler、Blast Power等,這些工具能在不同層次上提供較準(zhǔn)確的功耗評估,但它都要求電路完整的硬件描述,RTL級的verilog代碼、門級網(wǎng)表甚至更低層次的電路設(shè)計,不可能在處理器總體架構(gòu)規(guī)劃階段及時地作出功耗評估,同時這些工具進行功耗評估占據(jù)極大的內(nèi)存空間,需要相當(dāng)長的時間;指令級功耗評估[1~2]和系統(tǒng)級功耗評估[3]速度非???,但沒有體現(xiàn)出處理器的體系結(jié)構(gòu)設(shè)計,一般適用于算法開發(fā)。而體系結(jié)構(gòu)級功耗評估在微體系結(jié)構(gòu)基礎(chǔ)上展開,能有效地保證評估精度,同時評估效率也極高。
事實上,越來越多的處理器設(shè)計者在關(guān)注體系結(jié)構(gòu)級功耗分析。如Brooks等開發(fā)的Wattch[4]是一款經(jīng)典的體系結(jié)構(gòu)級功耗分析工具,但其研究對象限于Alpha這種以動態(tài)電路為主的高功耗處理器,并不適合評估所有處理器,同時靜態(tài)功耗評估不準(zhǔn)確。SimplePower[5]是一種執(zhí)行驅(qū)動、周期精確的體系結(jié)構(gòu)級功耗評估工具,對于功耗單元的功耗計算使用預(yù)定義的跳變模型,計算比較詳細準(zhǔn)確,但其對存儲模型使用經(jīng)驗功耗模型,計算太過粗略。
本文詳細介紹一種新的體系結(jié)構(gòu)級功耗評估工具,并對其評估性能做出分析。
如圖1所示,CMOS集成電路功耗來源有三個部分,有動態(tài)翻轉(zhuǎn)功耗Pdyn、短路電流功耗Pshort和靜態(tài)功耗Pstat。CMOS電路的功耗計算公式可以表達為
關(guān)于動態(tài)功耗計算,CL取決于每個IC元件的電路設(shè)計和布局,本文使對于規(guī)整結(jié)構(gòu)如存儲陣列和連線使用分析模型,對于部分隨機邏輯結(jié)構(gòu)使用經(jīng)驗?zāi)P?。翻轉(zhuǎn)因子α根據(jù)性能模擬器的統(tǒng)計數(shù)據(jù)結(jié)合電路屬性可以計算得到。VDD是供電電壓,f是時鐘頻率。這樣可以計算出動態(tài)翻轉(zhuǎn)功耗。
短路功耗是在電路動態(tài)切換瞬間產(chǎn)生的。據(jù)文獻[6~7],短路功耗大約占總動態(tài)翻轉(zhuǎn)功耗的10%,但在某些情況下可達動態(tài)翻轉(zhuǎn)功耗的25%左右。當(dāng)電路翻轉(zhuǎn)時,同時消耗翻轉(zhuǎn)功耗和短路功耗。電路的內(nèi)部屬性決定短路功耗和動態(tài)翻轉(zhuǎn)功耗的比例,是Vdd/Vth的強函數(shù)。本文使用來自文獻[6]的以下三個公式計算一個門每次翻轉(zhuǎn)的短路能量。
其中,Es(tT?τ)是快輸入時一個門每次翻轉(zhuǎn)的短路能量,Es(tT?τ)是慢輸入時一個門每次翻轉(zhuǎn)的短路能量,vT是規(guī)格化亞閾值電壓(Vth/Vdd),α是飽和速率,Cin是門的輸入電容,Vdd是供電電壓,fo是后續(xù)門的晶體管驅(qū)動率,F(xiàn)O是扇出(Cin/Cout)。
靜態(tài)功耗主要考慮兩種泄漏電流,亞閾值漏電流和柵極漏電流。亞閾值電流、柵極漏電流的計算使用MASTAR[8]。
2.1 體系結(jié)構(gòu)級功耗建模
本文將處理器劃分為處理器核、片上存儲器、總線和時鐘幾大模塊,然后深入分析各模塊的功能及電路級映射。
處理器核包括取指單元(IFU),地址產(chǎn)生單元(AGU),標(biāo)量運算單元(SCU),程序控制單元(SEQ)。它們都可以進一步劃分為硬件結(jié)構(gòu)。IFU單元進行取指操作,將地址發(fā)送到存儲器,然后將得到的指令放在指令緩存中,映射為RAM結(jié)構(gòu)的陣列。AGU單元進行地址計算、寄存器傳送、立即數(shù)賦值、標(biāo)量加載存儲等功能,映射為邏輯結(jié)構(gòu)。SCU單元可能包括ALU、旁路邏輯和寄存器文件。在本文的層次化框架中,ALU在電路級被映射為復(fù)雜邏輯,旁路邏輯被映射為線和邏輯模型的組合邏輯,寄存器文件則被映射為陣列模型。SEQ單元實現(xiàn)程序控制相關(guān)的指令,包括跳轉(zhuǎn)、調(diào)用和循環(huán)等指令,主要是產(chǎn)生使能、PC等信號,映射為邏輯。
片上存儲器包括指令存儲器和數(shù)據(jù)存儲器。指令存儲器是常規(guī)的存儲器實現(xiàn);數(shù)據(jù)存儲器實現(xiàn)了支持行列多粒度并行讀寫的片上存儲結(jié)構(gòu),本文將此段邏輯歸類于總線部分,數(shù)據(jù)存儲器也視為常規(guī)存儲器。這樣,片上存儲器映射為陣列結(jié)構(gòu)。
總線一般包含仲裁和選通邏輯,這需要通過較為復(fù)雜的組合邏輯產(chǎn)生,另外存儲器區(qū)域較大,長連線不可避免。總線在電路級映射為邏輯和連線。
時鐘的功耗占據(jù)相當(dāng)大的比例,對時鐘建立體系結(jié)構(gòu)級功耗模型是非常重要的。時鐘電路有兩個主要部分:鎖相環(huán)(PLL)[10~11]和分布式時鐘網(wǎng)絡(luò)。本文對PLL使用經(jīng)驗性的功耗模型[9],而將分布式時鐘網(wǎng)絡(luò)映射到電路級的時鐘網(wǎng)絡(luò)模型。
2.2 電路級功耗建模
導(dǎo)線性能的主要參數(shù)有電阻、電容和電感。對于簡單的短導(dǎo)線,本文使用如圖2的π-RC模型。其中Rwire和Cwire的計算見公式。
對于帶中繼的長導(dǎo)線[12],本文使用CACTI6.0[13]提供的功耗計算方式。
陣列主要有兩大類:RAM(Random Access Memory)和CAM(Content Addressable Memory)。RAM用來隨機地存儲和恢復(fù)數(shù)據(jù),例如寄存器文件堆、分支預(yù)測和指令窗口等;CAM則是相聯(lián)處理的硬件實現(xiàn),包括TLB、指令窗口恢復(fù)邏輯和加載/存儲順序檢查等。陣列的動態(tài)功耗主要考慮譯碼器、字線、位線和敏感放大器的動態(tài)功耗,因為它們構(gòu)成了陣列動態(tài)功耗的絕大部分,短路功耗簡化計算為動態(tài)功耗的1/10。
邏輯部分主要可以歸為兩類:一類是簡單的邏輯實現(xiàn),如取指單元、譯碼單元、同步單元、加載存儲單元、總線等模塊;一類是比較復(fù)雜的運算單元,包對于簡單的邏輯,使用較為精確的經(jīng)驗?zāi)P?。對于運算單元,對其進行體系結(jié)構(gòu)級功耗建模非常困難,本文使用RTL反饋建模的方法實現(xiàn)。
時鐘分布網(wǎng)絡(luò)將由鎖相環(huán)(PLL)產(chǎn)生的時鐘信號分布到各個部件的時鐘輸入端。本文參考Wattch的時鐘建模方法并根據(jù)處理器進行優(yōu)化,實現(xiàn)對處理器時鐘分布網(wǎng)絡(luò)的電路級功耗建模。單一的全局時鐘網(wǎng)絡(luò)功耗來源主要包括時鐘金屬線、時鐘緩沖區(qū)和時鐘負載。
2.3 工藝級功耗建模
工藝上,本文基于工業(yè)標(biāo)準(zhǔn)的國際半導(dǎo)體技術(shù)藍圖(ITRS),使用“CMOS工藝評估模型及其藍圖”(Model for Assessment of CMOS Technologies and Roadmaps,MASTAR)計算40nm工藝下的設(shè)備參數(shù),如單位阻抗、電容和電流密度。
ITRS是由歐洲、日本、韓國、臺灣、美國五個主要的芯片制造地區(qū)發(fā)起的。通過全球芯片制造商、設(shè)備供應(yīng)商、研究團體和consortia的協(xié)作努力,路線圖團隊識別關(guān)鍵的挑戰(zhàn),鼓勵創(chuàng)新解決方案,并歡迎來自半導(dǎo)體團體的分享。這些團隊同時還參與了其他具有戰(zhàn)略意義的路標(biāo)的研究,例如電子學(xué)和納米技術(shù),所以ITRS能夠很好地理解對于基本研究能力和產(chǎn)品潛力的需求譜圖。ITRS提供的MASTAR具有很高的權(quán)威性,可用來計算指定工藝下的設(shè)備參數(shù)。
2.4 RTL反饋建模
RTL反饋建模,根據(jù)已有的RTL實現(xiàn),對目標(biāo)模塊進行RTL功耗評估,得到其功耗,將之制作成表的形式,這樣每次進行功耗評估時,根據(jù)查表即可得到期望功耗。下面介紹本文的RTL功耗評估流程。
如圖3是本文采用的RTL功耗評估流程。需要的資源主要包括:工藝單元庫、模塊的RTL代碼、測試激勵(testbench)、RTL仿真工具VCS及后端綜合工具Design Compiler。一方面輸入測試激勵給RTL模型,以生成backward saif文件,另一方面RTL代碼結(jié)合工藝單元庫進行后端流程,在read_saif階段接收前面生成的backward saif文件,進而得到該模塊的功耗值。
本文基于體系結(jié)構(gòu)級周期精確模擬器,提出一種體系結(jié)構(gòu)級功耗分析框架,它是體系結(jié)構(gòu)及功耗評估工具的核心。體系結(jié)構(gòu)級功耗分析框架主要由體系結(jié)構(gòu)級模擬器和體系結(jié)構(gòu)級功耗評估工具組成。體系結(jié)構(gòu)級模擬器為功耗評估工具提供詳細的統(tǒng)計數(shù)據(jù),功耗評估工具結(jié)合用戶輸入的微體系結(jié)構(gòu)參數(shù)以及電路、工藝參數(shù),即可評估出指定體系結(jié)構(gòu)在特定應(yīng)用和工藝下的功耗值。
用戶需要設(shè)定靜態(tài)配置,包括三個層次的參數(shù),體系結(jié)構(gòu)級、電路級和工藝級。體系結(jié)構(gòu)級參數(shù)與性能模擬器的配置文件中的參數(shù)類似,包括核數(shù)目、硬件線程數(shù)目等。電路級參數(shù)指定實現(xiàn)細節(jié)。例如,你可以指定某陣列使用基于觸發(fā)器單元實現(xiàn)而不是使用SRAM單元搭建。工藝級參數(shù)包括設(shè)備類型(高性能,低待機功耗,低運行時功耗)及互連。
功耗評估工具還有的輸入就是動態(tài)輸入,即周期級性能模擬器產(chǎn)生的統(tǒng)計信息,模擬器關(guān)于統(tǒng)計數(shù)據(jù)以文本形式輸出,而功耗評估工具僅提供XML格式的輸入接口。需要設(shè)計一種方法將統(tǒng)計數(shù)據(jù)轉(zhuǎn)換為XML格式。本文首先建立一個XML的輸入模版,然后編寫批量處理的腳本,將模版中的相關(guān)數(shù)據(jù)用模擬器的統(tǒng)計數(shù)據(jù)替換,如此便自動化地實現(xiàn)了文本到XML格式的轉(zhuǎn)換。
性能評估模擬器調(diào)度功耗評估工具以生成運行時功耗值。在計算運行時功耗之前,性能評估模擬器需要通過XML接口文件將各個獨立器件的翻轉(zhuǎn)系數(shù)傳給功耗評估工具。一個組件的活動因子有此組件的訪問數(shù)和某時間間隔內(nèi)所以訪問的平均海明距組成。通過改變時間間隔,可以改變運行時功耗計算的間隔尺寸。如果性能模擬器每個周期都調(diào)用功耗評估工具進行運行時功耗計算,就會生成一個周期精確的功耗文件,這對研究實時功耗峰值很有用。如果性能模擬器在功耗仿真完畢后進行運行時功耗計算,生成的則是平均功耗文件。
其中,n是一個指定仿真時間的周期數(shù),Access-Count是仿真時間指定單元的訪問次數(shù),Hamming-Distance是兩次連續(xù)訪問的總翻轉(zhuǎn)位總數(shù)。如果性能評估模擬器不能追蹤海明距,功耗評估工具假定所有bit位每周期都翻轉(zhuǎn)。性能評估模擬器大多數(shù)情況下能提供每個獨立組件的翻轉(zhuǎn)系數(shù),然而只要性能評估模擬器能提供基本統(tǒng)計信息,功耗評估工具可以推算出組件的翻轉(zhuǎn)率。例如,如果性能評估模擬器只能追蹤訪存指令數(shù)目,但沒有加載存儲隊列翻轉(zhuǎn)率的詳細信息,功耗評估工具假定加載存儲隊列的每個存儲器指令包含一次讀,一次寫,這種假定基于訪存單元的普遍統(tǒng)計結(jié)果。
本文從評估精度和評估速度兩方面對處理器體系結(jié)構(gòu)級功耗評估工具的性能給出分析。
4.1 準(zhǔn)確度測試
為了分析體系結(jié)構(gòu)級功耗評估工具的準(zhǔn)確度,本文在不同測試激勵下將其評估結(jié)果與后端工具的結(jié)果進行對比。測試采用TSMC LP40nm工藝,時鐘頻率為1.2G。對于4096FFT、4M矩陣乘、二維濾波等算法,其評估數(shù)據(jù)如表1所示。
通過以上三個典型算法的測試評估,總的功耗誤差控制在15%以內(nèi),說明了結(jié)構(gòu)級功耗評估工具的準(zhǔn)確度是足夠高的。其一,層次化的功耗建模思想,層層深入由體系結(jié)構(gòu)級到工藝級實現(xiàn),實現(xiàn)了高準(zhǔn)確度的功耗模型;其二,對比較復(fù)雜難以用分析模型建模的運算功能單元邏輯,采用了RTL反饋建模的方法,大大提高了體系結(jié)構(gòu)級功耗評估的準(zhǔn)確度;其三,體系結(jié)構(gòu)級周期精確級模擬器完整準(zhǔn)確的數(shù)據(jù)統(tǒng)計功能,為功耗評估的準(zhǔn)確度提供了保證。
表1 三種算法下功耗評估表
4.2 速度評估
體系結(jié)構(gòu)級功耗評估實現(xiàn)的必要性是其相比后端評估工具的高速度性,從而為處理器體系結(jié)構(gòu)級探索提供便利。功耗評估的速度會根據(jù)應(yīng)用程序的不同會有一定的改變,但對于體系結(jié)構(gòu)設(shè)計者,評估工具速度量級的重要程度不亞于評估精度。針對上節(jié)的各算法,在RTL后端功耗評估,其速度約為70 insts/s(每秒指令數(shù));而通過該處理器體系結(jié)構(gòu)級功耗評估工具,速度可達350k insts/s??梢婓w系結(jié)構(gòu)級功耗評估工具的速度是RTL后端工具的約5000倍,其速度優(yōu)越性彰顯無遺。
本文采用層次化建模思想,從體系結(jié)構(gòu)級、電路級和工藝級三個層次,結(jié)合工藝縮放比例原理和RTL反饋建模方法,進行處理器功耗建模;在功耗模型基礎(chǔ)上,提出一種體系結(jié)構(gòu)級功耗分析框架,進而實現(xiàn)體系結(jié)構(gòu)級功耗評估工具;最后通過算法實驗對其進行速度、精度分析,表明該體系結(jié)構(gòu)級功耗評估工具有很高的評估效率。
[1]Bona,A.,ALaRI,Lugano.An Instruction-level Methodology for Power Estimation and Optimization of Embedded VLIW Cores[C]//Design,Automation and Test in Europe Conference and Exhibition,2002.
[2]S.Nikolaidis and Th.Laopoulos.Instruction-Level Power Consumption Estimation of Embedded Processors for Low-Power Applications[C]//Intelligent Data Acquisition and Advanced Computing Systems:Technology and Applications,International Workshop,2001:139-142.
[3]V.Tiwari,S.Malik,A.Wolfe,M.Tien-Chien Lee.Instruction Level Power Analysis and Optimization of Software[C]//VLSI Design,1996:326-328.
[4]D Brooks,V Tiwari,M Martonosi.Wattch:A Framework for Architectural-level Power Analysis and Optimizations[C]//Proc of the ISCA-27,2000:83-94.
[5]W.Ye,N.Vijaykrishnan,M.Kandemir,M.J.Irwin.The Design and Use of SimplePower:A Cycle-Accurate Energy Estimation Tool[C]//Design Automation Conference,2000:340-345.
[6]K.Nose and T.Sakurai.Analysis and Future Trend of Short-circuit Power[J].IEEE TCAD,19(9),2000:1023-1030.
[7]V.Zaccaria,D.Sciuto,and C.Silvano.Power Estimation and Optimization Methodologies for VLIW-Based Embedded Systems[M].Norwell,MA,Kluwer Academic Publishers,2003.
[8]Semiconductor Industries Association.Model for Assessment of CMOS Technologies and Roadmaps(MASTAR)[OL].2007,http://www.itrs.net/models.html.
[9]H.T.Ahn and D.Allsto.A Low-jitter 1.9-V CMOS PLL for UltraSPARC Microprocessor Applications[J].JSSC,2000,35(3):450-454.
[10]Razavi,B.,Monolithic.Phase-Locked Loops and Clock Recovery Circuits[M].IEEE Press,1995.
[11]Maneatis,J.Low-Jitter Process-Independent DLL and PLL Based on Self-Biased Techniques[J].IEEE Journal on Solid-State Circuits,1996,31(11):1723-1732.
[12]K.Banerjee and A.Mehrotra.A Power-optimal Repeater Insertion Methodology for Global Interconnects in Nanometer Designs[J].IEEE Transactions on Electron Devices,2002,49(11):2001-2007.
[13]N.Muralimanohar,R.Balasubramonian,and N.P.Jouppi.CACTI 6.0:A Tool to Model Large Caches[R]. School of Computing,University of Utah,Tech.Rep.,2007.
Design of An Architectural Level Power Estimation Tool for Processors
LIU ZhihongZHANG XingZHANG Hongfeng
(Wuhan Second Ship Design and Research Institute,Wuhan430064)
Power estimation at architectural level provides the designer with more flexibility to trade off power with speed and area in the early stage of design procedure,and also greatly reduces design cost.In the paper,power models are designed at architecture-level,circuit-level and technology-level,both the technology scaling theory and the RTL backwards modeling method are used.Based on the power models,the architectural level power estimation tool is designed.At last,an analysis of the estimation tool’s performance is given from the respect of accuracy and speed,the architectural level power estimation tool speeds up a lot while ensuring the estimation accuracy.
architectural level,power model,power estimation
TP302
10.3969/j.issn.1672-9730.2017.07.042
2017年1月7日,
2017年2月29日
劉志宏,男,高級工程師,研究方向:自動控制及艦船電子武備技術(shù)。張星,男,博士,高級工程師,研究方向:自動控制及計算機體系結(jié)構(gòu)。張洪峰,男,碩士,工程師,研究方向:艦船電子武備技術(shù)。