国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

考慮溫度/功耗/熱導(dǎo)之間相互作用的單循環(huán)迭代熱分析算法

2016-08-12 05:47潘月斗王嘉琪駱祖瑩
電子學(xué)報 2016年6期
關(guān)鍵詞:襯底功耗向量

潘月斗,王嘉琪,唐 亮,駱祖瑩

(1.北京科技大學(xué)自動化學(xué)院,北京 100083; 2.北京科技大學(xué)鋼鐵流程先進(jìn)控制教育部重點實驗室,北京 100083;3.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875)

?

考慮溫度/功耗/熱導(dǎo)之間相互作用的單循環(huán)迭代熱分析算法

潘月斗1,2,王嘉琪1,2,唐亮3,駱祖瑩3

(1.北京科技大學(xué)自動化學(xué)院,北京 100083; 2.北京科技大學(xué)鋼鐵流程先進(jìn)控制教育部重點實驗室,北京 100083;3.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875)

隨著納米工藝的不斷改進(jìn),溫度對漏電流功耗和熱導(dǎo)的影響日益顯著.考慮溫度/功耗/熱導(dǎo)相互作用的3D芯片熱分析需要采用迭代方法對溫度進(jìn)行精確求解,即先用功耗密度向量和熱導(dǎo)矩陣來求解溫度向量,再用求解出來的溫度向量來刷新功耗密度向量和熱導(dǎo)矩陣.為了提高3D芯片熱分析的效率,本文以一個設(shè)定溫度值下的均勻熱導(dǎo)矩陣作為預(yù)條件,先提出了一種雙循環(huán)、內(nèi)循環(huán)低迭代次數(shù)的高效求解算法TPG-FTCG.鑒于TPG-FTCG具有超快的內(nèi)循環(huán)收斂速度,本文省去了TPG-FTCG算法的內(nèi)循環(huán)部分,提出了一種單循環(huán)、低迭代次數(shù)的TPG求解算法TPG-Sli.基于GPU(Graphics Processing Unit)并行加速技術(shù),本文編寫并改進(jìn)了TPG-Sli的GPU加速算法.實驗數(shù)據(jù)表明:與采用經(jīng)典高效的ICCG算法進(jìn)行3D芯片熱分析的TPG-ICCG算法相比,在足夠小的誤差范圍內(nèi),TPG-Sli的GPU加速算法可以獲得120倍的速度提升.

算法;熱分析;快速傅里葉變換;GPU并行

1 引言

隨著集成電路(Integrated Circuit,IC)納米工藝的不斷改進(jìn),3D芯片已成為事實,提高了IC集成度與功耗,但不可避免地帶來了發(fā)熱問題,過高的工作溫度可能導(dǎo)致芯片無法正常工作、甚至損壞芯片.因此在芯片設(shè)計中要反復(fù)進(jìn)行溫度優(yōu)化,研究精確高效的3D芯片熱分析方法已成為了一個EDA(Electronic Design Automation)領(lǐng)域的研究熱點.

在納米IC熱分析中,溫度/功耗/熱導(dǎo)參數(shù)之間存在著明顯的相互影響.一方面隨著襯底溫度的升高,晶體管漏電流功耗顯著增加,推高最終的芯片溫度[1].另一方面隨著溫度的升高,硅材料的熱導(dǎo)率會出現(xiàn)明顯的下降,使得熱阻升高,也會影響最終的溫度分布[2].本文綜合考慮了溫度/功耗/熱導(dǎo)(T/P/G)三方面相互影響的關(guān)系,對考慮T/P/G相互影響的TPG熱分析方法及其快速求解算法進(jìn)行了系統(tǒng)地研究.

為了綜合考慮T/P/G之間的相互影響,TPG采用迭代求解方法逼近精確解,即先用功耗密度向量P和熱導(dǎo)矩陣G來求解溫度向量T,再用求出的T來刷新P和G.由于在迭代過程中熱導(dǎo)矩陣G是變化的,盡管現(xiàn)有的不完全喬萊斯基分解共軛梯度算法ICCG[3]能夠根據(jù)P和G來迭代求解T,如果采用ICCG進(jìn)行TPG求解,就構(gòu)成了內(nèi)外雙循環(huán)迭代求解算法TPG-ICCG,但其收斂速度較慢,每次求解T都需要很多次迭代,TPG-ICCG算法具有外循環(huán)迭代次數(shù)少和內(nèi)循環(huán)迭代次數(shù)多的特點,過多的迭代次數(shù)降低了TPG的分析效率.

為了提高TPG的分析效率,本文采用FTCG算法[4](Precondition Conjugate-Gradient algorithm with the Fast Transform-based Preconditioner)來構(gòu)建一種雙循環(huán)、內(nèi)循環(huán)低迭代次數(shù)的高效求解算法TPG-FTCG,該算法以一個設(shè)定溫度值下的均勻熱導(dǎo)矩陣GA作為預(yù)條件,每次求解T僅需要極少次數(shù)的迭代.鑒于TPG-FTCG具有超快的內(nèi)循環(huán)收斂速度,本文直接省去其內(nèi)循環(huán),提出了一種單循環(huán)、低迭代次數(shù)的高效TPG求解算法TPG-Sli (Single-loop iterative),該算法先以GA為預(yù)條件、采用雙重快速傅里葉變換(FFT)的共軛梯度方法直接根據(jù)P和G求解出含微量殘差的T,再用這個含微量殘差的T來刷新P和G,最后收斂于一個具有較高精度的求解結(jié)果.基于GPU并行計算技術(shù),本文編寫了GPU并行算法TPG-Sli-GPU,并利用系數(shù)矩陣預(yù)存儲技術(shù)編寫其優(yōu)化算法TPG-Sli-iGPU.

2 相關(guān)工作與本文貢獻(xiàn)

在芯片設(shè)計的各種階段都需要精度與速度各異的熱分析算法來針對芯片溫度進(jìn)行設(shè)計優(yōu)化,目前熱分析算法包括:結(jié)構(gòu)級熱分析[4,13]、全芯片三維熱分析[5~7]、統(tǒng)計熱分析[8]等算法.全芯片三維熱分析又分為穩(wěn)態(tài)與瞬態(tài)熱分析兩種[5~7],其中穩(wěn)態(tài)熱分析是其它熱分析的研究基礎(chǔ),一直得到廣泛的研究,以適應(yīng)不同應(yīng)用的需求[8,13~15].

全芯片三維穩(wěn)態(tài)熱分析一般會對散熱系統(tǒng)進(jìn)行離散化以獲得熱導(dǎo)矩陣G,然后根據(jù)輸入的功耗密度向量P,通過求解熱分析方程GT=P,來獲取芯片的溫度分布向量T[5,6].目前采用逐次逼近的迭代方法進(jìn)行求解的熱分析算法主要有ICCG[3]、格林函數(shù)算法[9,10]、變向隱含算法(Alternating Direction Implicit,ADI)[7]、連續(xù)過松弛算法(Successive Over Relaxation,SOR)[8,15]、多層網(wǎng)格算法(Multigrid,MG)[6,14]等.其中ICCG是具有強(qiáng)魯棒性的經(jīng)典算法,被廣泛地用做熱分析算法研究的對比算法.對于迭代算法而言,只要能夠降低其迭代的次數(shù)就能夠降低其算法復(fù)雜度、提高其算法效率.

在熱分析中,一般都假設(shè)芯片具有絕熱四壁[7],如果假設(shè)與器件層平行的X-Y平面內(nèi)的導(dǎo)熱介質(zhì)具有同質(zhì)導(dǎo)熱性能,那么芯片進(jìn)行均勻離散化后,就可以采用基于FFT變換的熱分析算法FT[4,11,12]進(jìn)行直接求解,由于不需要迭代,FT算法具有高效的求解效率[11].對于X-Y平面具有非同質(zhì)導(dǎo)熱性能的應(yīng)用,可以基于同質(zhì)結(jié)構(gòu)來構(gòu)造一個預(yù)條件導(dǎo)熱矩陣GA,采用預(yù)條件共軛梯度算法(PCG)或殘差補(bǔ)償方法進(jìn)行迭代求解,如果GA越近似于實際熱導(dǎo)矩陣G,則熱分析需要的迭代次數(shù)就越少,熱分析的求解效率就越高[4].

隨著納米工藝的不斷改進(jìn),已有熱分析研究不僅考慮溫度升高對漏電流功耗的影響[1,8],也開始考慮溫度升高對硅襯底熱導(dǎo)的影響[2].由于在熱分析中考慮T對G影響的研究才起步,目前還沒有看到關(guān)于TPG熱分析的研究成果.

與現(xiàn)有熱分析算法研究相比,本文工作的貢獻(xiàn)體現(xiàn)在如下方面:

(1)基于文獻(xiàn)[4,12]所給出的FTCG算法,本文提出了TPG-FTCG算法,先以環(huán)境溫度下的熱導(dǎo)矩陣GA作為G的預(yù)條件矩陣,便于FT算法進(jìn)行快速的預(yù)條件求解.與平均需要410次迭代才能求解出T的TPG-ICCG算法相比,TPG-FTCG算法平均只需要4~5次迭代就能夠求解出T,在可以忽略的誤差范圍內(nèi),TPG-FTCG可以獲得20倍左右的加速.

(2)為了進(jìn)一步提高分析效率,本文提出了一種全新的單循環(huán)、高效TPG求解算法TPG-Sli.由于省卻了內(nèi)循環(huán),TPG-Sli算法求解效率比TPG-FTCG提高了3倍.

(3)本文編寫了GPU加速算法TPG-Sli-GPU和改進(jìn)算法TPG-Sli-iGPU算法.在足夠小的誤差范圍內(nèi),TPG-Sli-iGPU算法求解效率比TPG-FTCG提高了6倍,比TPG-ICCG提高了120倍.

3 研究基礎(chǔ)

3.13D集成芯片的全芯片三維熱分析模型

如圖1所示,3D集成芯片主要對多個硅器件層進(jìn)行垂直堆疊,3D芯片上下分別接著主散熱通道和輔散熱通道,鑒于主散熱通道的散熱能力是輔散熱通道的20多倍,本文在3D芯片熱分析中,忽略了輔散熱通道、只考慮主散熱通道.

如圖2所示,本文首先要對3D芯片內(nèi)核進(jìn)行離散化[12],將內(nèi)核等分為nx(x軸)×ny(y軸)×nz(z軸)個長方體質(zhì)元,并將每個質(zhì)元等效為一個節(jié)點,即每個質(zhì)元所產(chǎn)生的熱量都被加到它的中心點,并將中心點溫度作為質(zhì)元溫度.本文采用不同灰度的模塊來表示不同材料質(zhì)元:(1)灰度較淺的塊為硅襯底離散后的硅質(zhì)元,本文采用16.7μm厚度將剪薄硅襯底離散為3層,依次采用16.7μm/50μm/100μm/150μm厚度將常規(guī)厚度(500μm)硅襯底層離散為8層;(2)圖2中A和B塊為金屬互連層的質(zhì)元,本文金屬互連層的銅材料占比設(shè)為50%,3D芯片功耗分布在互連層,其中附著于常規(guī)襯底的互連層功耗占總功耗的4/5,附著于剪薄襯底的互連層占總功耗的1/5;(3)圖1中的A和C部分是粘接層的微壓焊塊質(zhì)元與絕緣材料質(zhì)元,其中微壓焊塊層厚度為30μm,微壓焊塊質(zhì)元直徑為30μm,均勻排列,微壓焊塊熱導(dǎo)率為60W/(m·K),絕緣材料熱導(dǎo)率為0.83W/(m·K);(4)圖2中C塊為TSV質(zhì)元,TSV直徑為6μm,TSV的熱導(dǎo)率為406W/(m·K),均勻排列在微壓焊塊質(zhì)元下方.

3D芯片離散化后,采用下式進(jìn)行穩(wěn)態(tài)熱分析:

GT=P

(1)

式中,T與P分別是節(jié)點溫度分布向量與功耗密度分布向量,G為熱導(dǎo)矩陣.

3.2溫度與功耗的相互影響

隨著芯片工作溫度T的提高,導(dǎo)致芯片漏電流Ilk顯著地增高[1],二者的函數(shù)關(guān)系如下式所示:

Ilk(T)=Ilk(V0,T0)(AT2eαVdd+β/T+BeγVdd+δ)

(2)

式中,V、T分別是電壓與溫度向量,且V0、T0為它們的初始向量.Ilk(V0,T0)初始的漏電流向量,A、B、α、β、γ和δ是不同芯片規(guī)模下的經(jīng)驗常數(shù)[1].根據(jù)式(1)和式(2)可以看出,溫度升高導(dǎo)致功耗增加,而功耗增加又會反過來會推高溫度.

3.3溫度與熱導(dǎo)的相互影響

文獻(xiàn)[2]詳細(xì)地說明了溫度與硅材料熱導(dǎo)率在熱分析中的相互作用.當(dāng)溫度從300K升到400K時,根據(jù)下式給出的溫度與硅材料熱導(dǎo)率之間的二次擬合函數(shù),硅的熱導(dǎo)率將下降32%左右.

k(T)=0.0018*T2-0.7575*T+166.5162

(3)

即溫度T和熱導(dǎo)G在熱分析中同樣存在一個正反饋關(guān)系.根據(jù)式(1)~(3)可以看出,溫度升高導(dǎo)致硅熱導(dǎo)率下降,反過來會推高溫度與功耗.

3.4溫度、功耗、熱導(dǎo)之間的相互影響

如圖3中框所示,熱分析中熱導(dǎo)矩陣G和功耗密度向量P決定了節(jié)點溫度向量T,反映了熱導(dǎo)和功耗對于溫度的影響.如圖3左框所示,根據(jù)節(jié)點溫度向量T來計算熱導(dǎo)矩陣G,以反映溫度對熱導(dǎo)的影響.如圖3右框所示,根據(jù)節(jié)點溫度向量T來計算功耗密度向量P,以反映溫度對于功耗的影響.因此,T/P/G之間存在著直接的相互影響關(guān)系.

4 TPG熱分析方法及其高效算法

4.1考慮溫度/功耗/熱導(dǎo)之間相互影響的熱分析方法TPG及其算法流程

在初始溫度條件下,TPG首先利用初始的功耗密度向量P0和熱導(dǎo)矩陣G0計算溫度向量T0;然后根據(jù)T分別刷新P和G,從而計算出更為精確的T.就這樣TPG方法采用迭代的方法不斷產(chǎn)生新的T直到收斂于T的準(zhǔn)確解,最后通過對P進(jìn)行累加獲取精確的芯片功耗Pchip.圖4給出了TPG方法的算法流程圖,TPG算法包含以下算法步驟.

Step 1先輸入室溫Ta=45℃下的G0和T0、P0;再將G0/T0/P0賦值給G/T/P.

Step 2求解GT=P以獲得溫度向量T.

Step 3判斷任意節(jié)點i的溫度變化量|δTi|是否小于給定誤差限ε1=1e-2,如果是,則停止迭代跳到Step 5.

Step 4根據(jù)溫度向量T刷新熱導(dǎo)矩陣G和功耗密度向量P,返回Step 2進(jìn)行下一輪的迭代.

Step 5輸出精確的溫度向量T和芯片功耗Pchip.

由于在Step 4中根據(jù)T刷新G和P的復(fù)雜度很小,而Step2求解GT=P的算法復(fù)雜度則很大,所以選用高效率算法來求解T決定了TPG熱分析的效率.鑒于熱導(dǎo)矩陣G是非均勻變化的,無法使用FT算法來直接求解GT=P,必須采用迭代算法來精確求解T,以構(gòu)成具有內(nèi)外兩個循環(huán)迭代求解的TPG熱分析算法.

如果采用ICCG算法來求解Step 2 GT=P,就構(gòu)成了TPG-ICCG熱分析算法.如表1所示,對一個具有14M節(jié)點的測例,當(dāng)ICCG的迭代判出殘差限設(shè)為ε2=1e-6時,盡管外循環(huán)的迭代次數(shù)僅有13次就能夠收斂,但由于內(nèi)循環(huán)的迭代次數(shù)非常多,進(jìn)行一次TPG分析所需要迭代總數(shù)達(dá)到5336次,平均內(nèi)循環(huán)的迭代次數(shù)為410次,這表明ICCG收斂速度太慢,難以為大規(guī)模熱分析提供滿意的求解效率.

表1 TPG-ICCG、TPG-FTCG的收斂次數(shù)對比

4.2基于快速傅里葉變換進(jìn)行預(yù)條件求解的共軛梯度算法TPG-FTCG

為了提高TPG熱分析的求解效率,在圖4中本文將FTCG算法[3]引入TPG熱分析中,構(gòu)建了TPG-FTCG算法.如圖5所示,FTCG算法能夠以較高的收斂速度對GT=P進(jìn)行求解.

3D芯片存在非同質(zhì)熱導(dǎo)問題,無法直接用室溫Ta=45℃的熱導(dǎo)矩陣來構(gòu)建滿足FT算法直接求解的熱導(dǎo)矩陣GA,下面TSV質(zhì)元為例,說明如何構(gòu)建滿足要求的GA.在圖6中,將TSV質(zhì)元中心點溫度設(shè)為節(jié)點溫度,需要獲取該質(zhì)元六個方向的熱導(dǎo)才能計算出其中心點溫度.兩個相鄰質(zhì)元的熱導(dǎo)可以看作是兩質(zhì)元中心點到邊界面熱導(dǎo)值的串聯(lián),即

文獻(xiàn)[14]規(guī)定:參與FT算法的預(yù)條件矩陣值不能小于原矩陣最大值的50%,本文選取每層最大的熱導(dǎo)值(無論是水平熱導(dǎo)還是垂直熱導(dǎo))的93%作為預(yù)條件的矩陣熱導(dǎo)值.以圖6為例,該TSV所在硅襯底層的預(yù)條件矩陣水平方向熱導(dǎo)值即為

垂直方向熱導(dǎo)值即為

對于進(jìn)行熱傳導(dǎo)的硅材料而言,當(dāng)工作溫度從45℃升高到90℃時,其熱導(dǎo)率從136.0199下降到113.1025,即下降了16.85%,這表明:對于一個最高工作溫度小于90℃的芯片,相對于室溫Ta下的預(yù)條件矩陣GA,實際熱導(dǎo)矩陣G的熱導(dǎo)變化小于16.85%,遠(yuǎn)小于文獻(xiàn)[12]設(shè)定的50%限制.對于FTCG算法而言,GA越接近于G,則其收斂的速度越快,如表1所示,本文FTCG算法除了前5次迭代中需要521次迭代以外,剩余迭代僅需要1次就可以將迭代殘差降到設(shè)定值10-6之下,具有很好的收斂特性.

4.3改進(jìn)的單循環(huán)算法TPG-Sli

根據(jù)TPG-FTCG算法殘差收斂速度極快的特點,本文進(jìn)一步刪除了圖6中FTCG算法的循環(huán)體部分,僅使用FT算法進(jìn)行一次T的預(yù)條件共軛梯度求解,提出了單循環(huán)的改進(jìn)算法TPG-Sli,以進(jìn)一步降低TPG熱分析算法的時間復(fù)雜度.

如圖7所示,TPG-Sli算法是一個單循環(huán)的迭代算法,每次迭代不是直接求解T,而是先根據(jù)殘差向量r=P|Q=P|GT,再使用FT算法直接求解GAZ=r以獲得補(bǔ)償向量Z,接著計算共軛梯度方向,最后沿著共軛梯度方向?qū)進(jìn)行修正,即T=T+αZ.與TPG-FTCG算法相比,TPG-Sli算法盡管速度有所提高,但每次求出的T含有較大的誤差,導(dǎo)致最終的熱分析精度有所下降.

4.4TPG-Sli的GPU并行加速及其優(yōu)化

下面結(jié)合具體的算法步驟對FT-GPU進(jìn)行算法并行性分析:

從以上的并行計算分析可以看出:與已有FT算法[4]僅簡單地調(diào)用Cu-FFT庫函數(shù)進(jìn)行GPU加速相比,本文FT-GPU算法的并行計算全部在GPU端完成,僅需要和CPU進(jìn)行3次數(shù)據(jù)傳輸,分別在Step1和Step4將r和Gp從CPU端拷入GPU端,在Step8將Z從GPU端拷回CPU端,可以大量減少數(shù)據(jù)傳輸時間.

TPG-Sli需要多次調(diào)用FT算法進(jìn)行預(yù)條件的求解,將FT算法升級為GPU加速的FT-GPU算法后,TPG-Sli就升級為其GPU加速版本TPG-Sli-GPU.由于預(yù)條件矩陣GA是不變的,所以對它進(jìn)行LU分解所獲得的兩對角矩陣Gp也是固定的,TPG-Sli-GPU多次調(diào)用FT-GPU算法,在Step4多次將Gp從CPU端拷貝至GPU端,需要耗費大量的數(shù)據(jù)傳輸時間.鑒于Gp是一個兩對角矩陣,僅包含少于2N個非零元素N=nx×ny×nz,我們可以將Gp直接預(yù)存到GPU端,以節(jié)約數(shù)據(jù)傳輸時間,本文將這種改進(jìn)的FT-GPU算法稱為FT-iGPU,而將調(diào)用FT-iGPU算法的TPG-Sli稱為TPG-Sli-iGPU.

5 實驗結(jié)果

本次實驗采用的是Visual Studio 2010中的C/C++語言實現(xiàn)算法,所有實驗均運行于3.20GHz主頻的Intel?Core(TM)i7-3930kCPU,內(nèi)存容量為32GB,顯卡為NVIDIA GTX 680,顯存容量為4GB.

所有實驗都采用了3種不同的芯片功耗分布進(jìn)行對比驗證,為了保證測例的典型性與普適性,本文只在測例1中采用均勻的功耗分布,測例2和測例3分別采用了AMD四核phenom架構(gòu)和Intel四核nehalem架構(gòu)的功耗分布.3D芯片共有兩個器件層,即附著于剪薄硅襯底的互連層、3層含TSV的剪薄硅襯底層與微壓焊塊層、附著于常規(guī)襯底的互連層、8層常規(guī)厚度硅襯底共14層,每層共有1001×1001個節(jié)點,所以本測例的求解規(guī)模是14M個節(jié)點.三個測例的芯片總功耗均設(shè)為100W,其中附著于常規(guī)襯底的器件層產(chǎn)生了80W功耗.

5.1算法的精度對比

TPG-ICCG和TPG-FTCG算法都具有內(nèi)外兩個循環(huán),TPG-Sli作為單循環(huán)的TPG分析算法,只具有外循環(huán)、而無內(nèi)循環(huán).以上3種算法的判出條件為節(jié)點溫度的改進(jìn)量|δTi|<ε1=10-2,TPG-ICCG和TPG-FTCG的內(nèi)循環(huán)判出條件為殘差|r|<ε2=10-6.為了評估算法精度,本文將采用殘差限為ε2=10-16的TPG-ICCG求解結(jié)果作為比較基準(zhǔn)(golden),來比較以上3種算法在最大溫度Tmax、平均溫度Tave以及芯片功耗Pchip三個參數(shù)上的分析誤差.如表2示,3種方法計算出的Tmax、Tave以及Pchip幾乎相同,絕對誤差均在10-2左右,相對誤差均小于0.1%,這表明以上3種算法都是精確的TPG熱分析算法.

5.2算法的時間復(fù)雜度對比

采用三個測例對文中涉及的TPG-ICCG、TPG-FTCG、TPG-Sli-CPU、TPG-Sli-GPU、TPG-Sli-iGPU的算法運行時間進(jìn)行比較,其運行時間依次標(biāo)為T1~T5.如表2示,本文使用Ti-1/Ti來分析采用單項加速技術(shù)所帶來的改進(jìn)效果,使用T1/Ti來表示:相較于TPG-ICCG算法的運行時間T1,本文提出的4種改進(jìn)算法所帶來的總體加速效果.通過對表3中數(shù)據(jù)的分析,可以得出如下結(jié)論:

(1)對于TPG-FTCG,由于其內(nèi)循環(huán)迭代次數(shù)較TPG-ICCG算法大大的減少,其求解速度是TPG-ICCG的16倍左右.

(2)與TPG-FTCG相比,TPG-Sli-CPU不含內(nèi)循環(huán),只用一個外循環(huán)進(jìn)行TPG求解,因此可以有效降低算法的時間復(fù)雜度,其求解速度是TPG-FTCG的3倍左右,是TPG-ICCG的56倍左右.

(3)與TPG-Sli-CPU相比,TPG-Sli-GPU通過GPU并行加速來大幅度降低算法的運行時間,它的求解速度是TPG-Sli-CPU的2倍左右,是TPG-ICCG的90倍.

(4)與TPG-Sli-GPU相比,由于將兩對角矩陣Gp預(yù)存在顯存中,可以減少CPU端與GPU端的數(shù)據(jù)通信時間,使得TPG-Sli-iGPU在時間復(fù)雜度上又有了進(jìn)一步的降低.因此,其求解速度是TPG-Sli-GPU的1.2倍,是TPG-ICCG的120倍左右.

(5)如上所示,本文先后采用了4種加速技術(shù)成功地將TPG熱分析效率提高了120倍,獲得了滿意的加速效果,表明為了最大限度地提高熱分析的效率,必須從算法設(shè)計和計算平臺這兩方面對TPG算法進(jìn)行改進(jìn).

表2 不同算法的時間復(fù)雜度比

表3 算法的精確度對比

6 結(jié)論

本文對考慮T/P/G之間相互影響的TPG熱分析方法進(jìn)行了系統(tǒng)地研究.為了尋找TPG高效的求解算法,提出了一種基于快速傅里葉變換為預(yù)條件的高效雙循環(huán)算法TPG-FTCG及其改進(jìn)的單循環(huán)算法TPG-Sli,并且編寫了TPG-Sli算法GPU并行加速版本TPG-Sli-GPU算法及其改進(jìn)算法TPG-Sli-iGPU.實驗結(jié)果表明,TPG-Sli-iGPU算法不僅可以快速地進(jìn)行TPG熱分析,能夠?qū)?D芯片進(jìn)行精確而高效的熱分析.

[1]Liao W P,et al.Temperature and supply voltage aware performance and power modeling at microarchitecture level[J].IEEE Transactions on CAD,2005,24(7):1042-1053.

[2]Liu Z,Tan S X D,et al.Compact nonlinear thermal modeling of packaged integrated systems[A].Proceedings of ASP-DAC[C].Yokohama:IEEE,2013.157-162.

[3]Wu X H,et al.Area minimization of power distribution network using efficient nonlinear programming techniques[J].IEEE Transactions on CAD,2004,23(7):1086-1094.

[4]Daloukas K,et al.A parallel fast transform-based preconditioning approach for electrical-thermal co-simulation of power delivery networks[A].Automation & Test in Europe Conference & Exhibition[C].Grenoble:IEEE,2013.1689-1694.

[5]Zhan Y,Goplen B,et al.Electro-thermal analysis and optimization techniques for nano-scale integrated circuits[A].Proceedings of ASP-DAC[C].Yokohama:IEEE,2006.219-222.

[6]Li P,Pileggi L T,et al.IC thermal simulation and modeling via efficientmultigrid-based approaches[J].IEEE Transactions on CAD,2006,25(9):319-326.

[7]Wang T Y,Lee Y M,et al.3D thermal-ADI—an efficient chip-level transient thermal simulator[A].Proceedings of ISPD[C].Monteray:IEEE,2003.10-17.

[8]Luo Z Y,Tan S X D,et al.Localized statistical 3D thermal analysis considering electro-thermal coupling[A].Proceedings of ISCAS[C].Taibei:IEEE,2009.1289-1292.

[9]Zhan Y,Sapatnekar S S.High efficiency Green function-based thermal simulation algorithms[J].IEEE Transactions on CAD,2007,26(9):1661-1675.

[10]Oh D K,Chen C P,et al.3DFFT:Thermal analysis of non-homogeneous IC using 3D FFT Green function method[A].Proceedings of ISQED[C].San Jose:IEEE,2007.567-573.

[11]Qian H F,Sapatnekar S S,et al.Fast poisson solvers for thermal analysis[A].Computer-Aided Design[C].Monterey:IEEE,2010.698-702.

[12]Lee Y M,Wu T H,et al.A hybrid numerical and analytical thermal simulator for 3-D ICs[A].Proceedings of DATE[C].Grenoble:IEEE,2013.1379-1384.

[13]Yan J Q,Luo Z Y,et al.Accurate architecture-level thermal analysis methods for MPSoC with consideration for leakage power dependence on temperature[A].Proceedings of ISQED[C].Santa Clara:IEEE,2013.178-183.

[14]Feng Z,Li P.Fast thermal analysis on GPU for 3D-ICs with integrated microchannel cooling[A].Proceedings of ICCAD[C].San Jose:IEEE,2010.551-555.

[15]Huang K,Yang X,et al.Efficient electro-thermal co-analysis on CPU+GPU heterogeneous architecture[A].Proceedings of ISQED[C].Santa Clara:IEEE,2012.364-369.

[16]Chen J,Wu X J,Cai R.Parallel processing for accelerated mean shift algorithm with GPU[J].Journal of Computer-Aided Design & Computer Graphics,2010,03:461-466.

潘月斗男,1966年出生,博士,副教授.主要從事交流電動機(jī)智能控制理論,研究及高速高精交流電動機(jī)驅(qū)動系統(tǒng)的計算機(jī)數(shù)字控制系統(tǒng)設(shè)計.

E-mail:ydpan@ustb.edu.cn

王嘉琪男,1989年出生,碩士研究生.主要從事電熱綜合分析、高性能并行計算方面的研究工作.

E-mail:3706157@qq.com

TPG-Sli:Single-Loop Iterative Thermal Analysis Algorithm Considering Interactions Among Temperature,Power and Heat Conductance

PAN Yue-dou1,2,WANG Jia-qi1,2,TANG Liang3,LUO Zu-ying3

(1.SchoolofAutomation,UniversityofScienceandTechnologyBeijing,Beijing100083,China;2.KeyLaboratoryofAdvancedControlofIronandSteelProcess(MinistryofEducation),Beijing100083,China;3.CollegeofInformationScienceandTechnology,BeijingNormalUniversity,Beijing100875,China)

With the improvement of the nanometer technology,the influences among temperature,leakage power and heat conductance become increasingly significant and it should be taken into account in 3D chip comprehensive thermal analysis to solve the accurate temperature based on the iterative solution.The comprehensive thermal analysis method uses the nodal power density vector and the heat conductance matrix to solve the nodal temperature vector,and then,refreshes power density and heat conductance with the obtained nodal temperature.In order to improve the efficiency of 3D chip comprehensive thermal analysis,this work uses the heat conductance matrix as the precondition under a setting temperature.Then it proposes an efficient algorithm TPG-FTCG(CG with the Fast Transform-based Preconditioner) which has double-loop and lower inner-loop iterations.According to TPG-FTCG’s fast inner-loop convergence rate,this work removes TPG-FTCG’s inner-loop part then proposes a more efficient TPG solving algorithm TPG-Sli(Single-loop iterative),which only has single-loop iterative and fewer iterations.Based on the GPU parallel computing,this work compiles and refines TPG-Sli’s GPU-parallel-computing algorithm.Experimental results demonstrate that:On the premise of precision losing,the TPG-Sli’s GPU algorithm can achieve about 120X speedup compared with the TPG-ICCG algorithm,which uses the classical and efficient ICCG to deal with the 3D chip comprehensive thermal analysis.

algorithm;thermal analysis;Fast Fourier transform;GPU parallel computing

2014-07-22;修回日期:2015-06-25;責(zé)任編輯:梅志強(qiáng)

國家自然科學(xué)基金(No.51331002)

TP393

A

0372-2112 (2016)06-1300-07

猜你喜歡
襯底功耗向量
基于任務(wù)映射的暗硅芯片功耗預(yù)算方法
向量的分解
聚焦“向量與三角”創(chuàng)新題
翡翠襯底顏色對翡翠質(zhì)量判斷的影響
揭開GPU功耗的面紗
大尺寸低阻ZnO單晶襯底
數(shù)字電路功耗的分析及優(yōu)化
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
大尺寸低阻ZnO 單晶襯底