国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

M5-EDGE分布式取指模型設(shè)計(jì)

2017-07-05 14:26喻明艷
關(guān)鍵詞:體系結(jié)構(gòu)模擬器指令

張 超, 喻明艷

(哈爾濱工業(yè)大學(xué) 航天學(xué)院, 哈爾濱 150001)

M5-EDGE分布式取指模型設(shè)計(jì)

張 超, 喻明艷

(哈爾濱工業(yè)大學(xué) 航天學(xué)院, 哈爾濱 150001)

為解決M5-edge模擬器的理想化集總式取指令結(jié)構(gòu)對(duì)基于EDGE體系結(jié)構(gòu)設(shè)計(jì)空間探索的限制問(wèn)題,對(duì)原模擬器的取指令前段進(jìn)行分布式設(shè)計(jì),包括總體的功能、具體的取指單元及單元間的互連網(wǎng)絡(luò)設(shè)計(jì),并在取指令塊頭的方式上設(shè)計(jì)了固定方式和循環(huán)方式兩種方案. 通過(guò)對(duì)實(shí)現(xiàn)后的結(jié)構(gòu)進(jìn)行在不同分布單元數(shù)量條件下的仿真分析,得到從理想集總式取指結(jié)構(gòu)到實(shí)際分布式結(jié)構(gòu)的性能下降關(guān)系和不同取指令塊頭方式的優(yōu)劣. 通過(guò)進(jìn)一步分析,得出通信延遲和緩存缺失率對(duì)處理器性能的影響.

EDGE體系結(jié)構(gòu);分布式取指;通信延遲;緩存缺失率

為提高處理器單線程性能而進(jìn)行的體系結(jié)構(gòu)上的創(chuàng)新,將會(huì)帶來(lái)明顯的功耗增加[1],而通過(guò)多核技術(shù)帶來(lái)的處理器性能的提高在不遠(yuǎn)的未來(lái)可能無(wú)法滿足性能每?jī)赡攴环钠谕鸞2-3]. 新的指令集體系結(jié)構(gòu)作為可能的解決方案在過(guò)去的十余年間進(jìn)行了多種嘗試[4-7],國(guó)內(nèi)外多所知名院校及研究機(jī)構(gòu)推出了具有各自特色的用于學(xué)術(shù)研究的未來(lái)處理器模型. 作為其中較為成熟的代表,EDGE[8](explicit data graph execution)體系結(jié)構(gòu)在設(shè)計(jì)理念、結(jié)構(gòu)創(chuàng)新、工具鏈完善程度、流片驗(yàn)證,及體系結(jié)構(gòu)的后續(xù)發(fā)展等方面都具有一定優(yōu)勢(shì).

EDGE體系結(jié)構(gòu)采用顯示通信指令集和塊原子性的執(zhí)行方式,通過(guò)塊內(nèi)指令的直接通信實(shí)現(xiàn)類(lèi)數(shù)據(jù)流結(jié)構(gòu),充分開(kāi)發(fā)指令級(jí)并行性,加快程序的執(zhí)行速度,在滿足低功耗、高可擴(kuò)展性、多種應(yīng)用的適應(yīng)性等要求的前提下,實(shí)現(xiàn)了出色的性能功耗比. 以EDGE指令集為基礎(chǔ)已經(jīng)設(shè)計(jì)實(shí)現(xiàn)了多種先進(jìn)的處理器結(jié)構(gòu),主要包括TRIPS[9]、TFlex[10]、T3[11]、E2[12]等. 而針對(duì)該指令集體系結(jié)構(gòu),現(xiàn)有的通用處理器仿真平臺(tái)不具有對(duì)其指令集的描述和微結(jié)構(gòu)仿真的支持. M5-edge[13]作為目前唯一基于廣泛使用的開(kāi)源模擬器[14]進(jìn)行開(kāi)發(fā)的EDGE體系結(jié)構(gòu)仿真平臺(tái),相比于奧斯丁TRIPS小組所提供的仿真工具鏈具有明顯的優(yōu)勢(shì). 該模擬器完成了很好的仿真精度、速度和可擴(kuò)展性的平衡,為基于顯式通信和EDGE體系結(jié)構(gòu)為基礎(chǔ)的新型處理器提供研究支持.

M5-edge通過(guò)分析EDGE體系結(jié)構(gòu)特點(diǎn)和其微結(jié)構(gòu)實(shí)現(xiàn)的共性,對(duì)處理器工作過(guò)程進(jìn)行合理分割,提出四級(jí)時(shí)序模型,分別為取指令塊、映射、執(zhí)行、遞交. 該劃分準(zhǔn)確反映EDGE體系結(jié)構(gòu)特點(diǎn),使得研究人員可以方便快捷地進(jìn)行處理器設(shè)計(jì)空間的探索. 但是,M5-edge同時(shí)存在著一些不足,其中較突出的問(wèn)題在于缺乏一些具體的處理器分布式微結(jié)構(gòu)模型的實(shí)現(xiàn),包括分布式的取指令系統(tǒng)和分布式的數(shù)據(jù)存儲(chǔ)系統(tǒng)等. 原模擬器中以理想的集總式的結(jié)構(gòu)代替,隨著處理器設(shè)計(jì)理念的發(fā)展,這些集總單元限制了研究者的拓展空間,在進(jìn)行針對(duì)這些部件的具體研究中,該模擬器無(wú)能為力.

針對(duì)該問(wèn)題,本文對(duì)M5-edge模擬器的取指令塊部分進(jìn)行分布式研究,提出一種可以自由配置的分布式取指令單元結(jié)構(gòu),并對(duì)提出的方法和不同參數(shù)配置下的性能結(jié)果進(jìn)行分析,為EDGE結(jié)構(gòu)的分布式取指端實(shí)現(xiàn)提供一種有效的解決方案,該方法同樣可以作為模擬器其他部件分布化的參考.

1 取指模型整體實(shí)現(xiàn)

對(duì)于EDGE體系結(jié)構(gòu),由于其本身的塊原子性設(shè)計(jì),使得取指令階段區(qū)別于傳統(tǒng)處理器的以指令為單位,而是以本身定義的指令塊為單位完成取值工作. 該指令塊由多個(gè)基本塊構(gòu)成,采用謂詞化技術(shù)(predicate)消除基本塊間的控制相關(guān),以實(shí)現(xiàn)塊內(nèi)數(shù)據(jù)流執(zhí)行方式,達(dá)到加速處理器執(zhí)行能力的目的.

M5-edge取指階段大致由五部分組成,如圖1所示. 其中指令緩沖的設(shè)計(jì)大部分繼承原有M5模擬器的O3(out of order)CPU 模型,增加了為構(gòu)成指令塊數(shù)據(jù)結(jié)構(gòu)而必須的數(shù)據(jù)位和結(jié)構(gòu)等. 塊預(yù)測(cè)器通過(guò)當(dāng)前完成的遞交塊地址結(jié)合歷史信息對(duì)下一個(gè)塊的地址信息進(jìn)行預(yù)測(cè). 雖然以塊為單位的特點(diǎn),一定程度上提高了指令緩沖和塊預(yù)測(cè)器的命中率,但一旦出現(xiàn)投機(jī)的失敗,所承擔(dān)的恢復(fù)開(kāi)銷(xiāo)也更大,所以同傳統(tǒng)的處理器一樣,影響取值帶寬的主要因素仍然集中在預(yù)測(cè)器的預(yù)測(cè)失敗和一級(jí)指令緩存的未命中. 當(dāng)發(fā)生指令緩存未命中的情況時(shí),每個(gè)取指令單元應(yīng)該獨(dú)立處理屬于自己部分的未命中事件. 取指單元負(fù)責(zé)處理取指令過(guò)程中的各部分狀態(tài)變化和異常處理,當(dāng)塊中所有取指令過(guò)程完成時(shí),還負(fù)責(zé)生成指令塊數(shù)據(jù)結(jié)構(gòu). 至此,取指令部分工作完成,在譯碼過(guò)后,控制單元將完成指令到分布式的執(zhí)行單元的映射工作.

圖1 M5-edge取指令塊階段過(guò)程示意

取指令過(guò)程的模擬器實(shí)現(xiàn)的各階段狀態(tài)轉(zhuǎn)換如圖2所示. 主要包括等待指令(i)、取指令塊塊頭(fh)、取指令塊塊體(fb)、等待指令緩存(wi)和等待異常處理(wf). 在EDGE指令集中將指令塊分為塊頭和塊體,分別存儲(chǔ)不同類(lèi)型的指令. 其中,塊頭中不僅有寄存器相關(guān)指令,還有其他一些和指令運(yùn)行有關(guān)的重要信息,需要專(zhuān)門(mén)進(jìn)行處理. 值得注意的是,異常處理需要等到指令塊遞交時(shí)才能進(jìn)行,因此在遞交之前出現(xiàn)異常需要等待,直到異常處理結(jié)束.

圖2 取指令過(guò)程有限狀態(tài)機(jī)

2 分布式取指單元實(shí)現(xiàn)

本文實(shí)現(xiàn)了一個(gè)可變數(shù)量的分布式取指令單元,可完成2、4、8、16及更多的分布式取指單元實(shí)現(xiàn). 在具體設(shè)計(jì)過(guò)程中參考了TFlex取指令結(jié)構(gòu)隨著執(zhí)行核重構(gòu)而產(chǎn)生不同的取指令結(jié)構(gòu),完成1*2、2*2、2*4等取指令結(jié)構(gòu)的設(shè)計(jì). 之后開(kāi)發(fā)的基于EDGE體系結(jié)構(gòu)處理器,包括E2、T3等具有相同的取指設(shè)計(jì)方式. 由于實(shí)現(xiàn)原理相同,本文以八單元分布式取指前端為例(如圖3所示),為8取指單元cpu高層模型.

圖3 具有分布式取指令前端的模擬器時(shí)序模型

Fig.3 The four-stage model of M5-edge with distributed fetch units

考慮模擬器不同情況的仿真需求,分布式取指前端將以理想的無(wú)網(wǎng)絡(luò)延時(shí)和具有實(shí)際消息傳遞網(wǎng)絡(luò)兩種模式實(shí)現(xiàn). 圖3中,小的分布式指令緩存與分布式取指單元緊密相連,完成甚塊中各部分的取指任務(wù). 兩個(gè)取指單元之間的信息傳遞延時(shí)在理想情況下設(shè)為0,這意味著產(chǎn)生于某個(gè)取指單元的信息可以在相同周期內(nèi)被其他取指單元獲得.

由于甚塊的特殊構(gòu)造,取指過(guò)程被分為兩個(gè)階段. 首先,甚塊頭必須被優(yōu)先取出以獲得指令塊的信息,比如指令范圍和chunk數(shù)量. 在取指令塊頭結(jié)束后,改變各相關(guān)部分狀態(tài)信息,并開(kāi)始取甚塊的指令chunk部分.

在設(shè)計(jì)取指令塊頭時(shí),考慮兩個(gè)方案:首先,為了實(shí)現(xiàn)簡(jiǎn)單選著不同的取指單元來(lái)進(jìn)行頭chunk和指令chunk的取指. 選取取指單元0進(jìn)行取指令頭操作,而其他取指單元?jiǎng)t只用于取指令chunk. 這樣的好處是除了單元0以外的其他取指單元可以減少指令塊頭信息的解釋器,從而簡(jiǎn)化硬件實(shí)現(xiàn). 但是,由于指令chunk必須在所在甚塊頭chunk取完后才能取其中指令,因此,在取指令chunk時(shí),原有的進(jìn)行頭chunk取指的單元將會(huì)被閑置. 第二種方案中考慮使每個(gè)取指令單元完全一致,可以完成所有取指要求. 這種方式同時(shí)具有更好的硬件可擴(kuò)展性.

在模擬器中,取指單元的運(yùn)行由其狀態(tài)位決定. 狀態(tài)位每時(shí)鐘周期進(jìn)行更新,包括以下?tīng)顟B(tài):運(yùn)行(running)、空閑(idle)、插入(squashing)、(icache wait response)、指令緩存重取等待(icache wait retry)、阻塞(block). 當(dāng)處于running狀態(tài)時(shí),取指單元開(kāi)始運(yùn)行. 該有限狀態(tài)機(jī)如圖4所示.

圖4 取指過(guò)程有限狀態(tài)機(jī)

考慮實(shí)際分布式取指單元間通信時(shí)間問(wèn)題,在取指單元間建立路由網(wǎng)絡(luò). 在取指過(guò)程中,取指單元間信息傳遞主要出現(xiàn)在兩個(gè)階段. 當(dāng)取指令塊頭chunk完成時(shí),該取指單元將會(huì)發(fā)送數(shù)據(jù)包給其他單元. 數(shù)據(jù)包中主要包括:取塊頭完成信號(hào),目的取指單元,指令chunk地址,下一個(gè)指令塊頭取指單元等. 當(dāng)各取指單元完成該指令塊指令chunk取指任務(wù)后,將會(huì)向頭取指單元發(fā)送反饋信息,并通過(guò)檢查所有的返回信息判斷該指令塊取指是否完成.

在每個(gè)取指單元中增加路由形成網(wǎng)絡(luò),構(gòu)成最終完整的分布式取指部件. 路由內(nèi)部結(jié)構(gòu)如圖5所示,仲裁器通過(guò)對(duì)接收到的信息包進(jìn)行譯碼來(lái)獲知目地取指單元,并將信息包傳進(jìn)本地或4個(gè)方向的先進(jìn)先出隊(duì)列之一.

圖5 取指單元間路由結(jié)構(gòu)

圖6展示了完整的帶路由網(wǎng)絡(luò)的取指單元的運(yùn)行模式,以偽代碼方式呈現(xiàn). 函數(shù)promoteRouter()從fifo中得到信息,并在路由中進(jìn)行處理. 與之相反,promoteNetwork()將路由器中處理好的信息傳入輸出端fifo中并發(fā)送數(shù)據(jù)包.

圖6 增加路由的取指單元偽代碼

3 實(shí)驗(yàn)評(píng)估

3.1 仿真環(huán)境

本文以M5-edge作為基礎(chǔ),在其基礎(chǔ)上進(jìn)行了分布式的取指令系統(tǒng)和分布式一級(jí)緩存系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn). 為了對(duì)所實(shí)現(xiàn)模型進(jìn)行分析,基本參數(shù)配置如表1所示. 為了減少執(zhí)行后端對(duì)性能的影響部分參數(shù)被設(shè)置成完美. 在這種情況下,每周期執(zhí)行的指令數(shù)(IPC)將會(huì)很好地反映取指令能力的變化對(duì)處理器性能的影響.

為了研究不同數(shù)量分布式取指令單元的性能影響,對(duì)2、4、8分布取指令單元進(jìn)行了仿真. 一級(jí)緩存總大小保持不變,固定為512 K,相應(yīng)的2、4、8分布式的一級(jí)緩存大小為256 K、128 K、64 K. 為了觀察更明顯趨勢(shì),部分仿真結(jié)果擴(kuò)展到16分布取指單元. 為驗(yàn)證模擬器性能變化,仿真平臺(tái)采用經(jīng)過(guò)擴(kuò)展分布式取指令前段的M5-edge,分布式緩存系統(tǒng)仍為原有集總式實(shí)現(xiàn)方式. 測(cè)試程序?yàn)镾PEC CPU2000中TRIPS工具鏈可編譯的18個(gè)整形和浮點(diǎn)程序,具體見(jiàn)表2.

表1 M5-edge模擬器仿真參數(shù)設(shè)置

表2 測(cè)試程序集列表

3.2 分布式取指性能評(píng)估

采用固定單元取指令塊頭方式,以某一分布取指令模塊作為唯一擁有取指令塊塊頭能力的模塊而專(zhuān)用,其他模塊用作指令塊其余部分取指使用,這種方式帶來(lái)的好處是節(jié)省了其他取指單元的硬件資源,簡(jiǎn)化了設(shè)計(jì)難度. 而不采用固定單元取塊頭的方式,將每個(gè)取指單元都增加相應(yīng)硬件,以具備取指令塊塊頭的功能,并在取指令塊過(guò)程中循環(huán)設(shè)置,則可能會(huì)獲得性能的提高. 下面通過(guò)擴(kuò)展后的M5-edge平臺(tái)完成對(duì)兩種方式的性能評(píng)估.

首先,在不考慮分布單元間通信的情況下,考慮兩種實(shí)現(xiàn)方式的性能比較及相較于理想的集中式方式的變化. 如圖7所示,在相同的較為理想的執(zhí)行后端條件下,固定取指令塊塊頭的方式在性能上較集中式方式在低數(shù)量分布單元情況下,性能相差較大,而當(dāng)分布單元數(shù)量超過(guò)8時(shí),性能基本持平. 這是由于一個(gè)單元被專(zhuān)用于取指令塊塊頭,而使得在取指單元較少情況下,進(jìn)行取指令端口變少(所有分布式情況均為8端口)而引起,后面會(huì)通過(guò)同時(shí)在線指令數(shù)及cache miss率進(jìn)行具體分析.

圖7 固定取指令塊頭方式與理想集總式取指單元性能比較

圖8給出了兩種取指令塊頭方式的性能比較. 在所有情況下,循環(huán)設(shè)置方式具有更高達(dá)的性能,但性能差距隨著分布單元數(shù)量的增加而減小,當(dāng)數(shù)量增加到8時(shí)性能差距對(duì)于整型和浮點(diǎn)測(cè)試程序分別為0.66%和1.28%,循環(huán)設(shè)置方式所帶來(lái)的好處已經(jīng)并不明顯.

圖8 固定取指令塊頭方式與循環(huán)設(shè)置方式性能比較

考慮cache miss的影響對(duì)于處理器分布式取指單元的設(shè)計(jì)來(lái)說(shuō)是重要的,合適的cache大小將對(duì)處理器性能產(chǎn)生決定性的影響. 圖9和圖10分別給出了本文環(huán)境中處理器cache miss率隨著分布式的二級(jí)cache大小的減少而產(chǎn)生的變化,其中512 K代表的是集總式的取指令結(jié)構(gòu),256 K則代表著兩個(gè)分布取指單元,每個(gè)cache大小為256 K,以此類(lèi)推,32 K代表著16個(gè)分布的取指令單元.

整型程序cache miss率受cache尺寸變小影響更大. 由圖中縱坐標(biāo)可以看出,兩條曲線拐點(diǎn)出現(xiàn)的位置也并不相同,整型曲線出現(xiàn)在256 K和128 K間,也就是分布式單元超過(guò)4,cache miss率急劇上升,而浮點(diǎn)曲線則顯示超過(guò)8時(shí)才會(huì)急劇上升. 對(duì)于8分布的取指單元對(duì)比原有集總式結(jié)構(gòu),cache miss率在整型程序和浮點(diǎn)程序上分別上升了10.8倍和46.3倍,指數(shù)級(jí)增長(zhǎng)的缺失率暗示了cache單元的尺寸不能過(guò)小,否則cache miss帶來(lái)的性能損失將無(wú)法承受. 在本文實(shí)驗(yàn)環(huán)境中,128 K的分布式二級(jí)cache大小可能更適合于分布的cache粒度.

圖9 分布式cache大小與miss率關(guān)系(整型)

Fig.9 The relationship between cache size and miss rate (integer)

圖10 分布式cache大小與miss率關(guān)系(浮點(diǎn))Fig.10 The relationship between cache size and miss rate (float point)

考慮實(shí)際通信情況,增加路由網(wǎng)絡(luò),帶來(lái)通信延遲,造成處理器性能下降,具體如圖11所示. 隨著取指單元數(shù)目增加,性能損失增加. 對(duì)于整型SPEC2000測(cè)試程序來(lái)說(shuō),性能在2、4、8情況下分別下降11%、18%和38%,而對(duì)于浮點(diǎn)程序來(lái)說(shuō),性能分別下降了15%、17%和38%. 相比于理想的集總式的取指令結(jié)構(gòu),增加通信路由后帶來(lái)的性能下降是符合預(yù)期的. 但分布式的取指令單元除了解決過(guò)大的集總結(jié)構(gòu)無(wú)法實(shí)現(xiàn)的問(wèn)題外,還具有潛在的性能提高的方式. 將分布式的取指令單元與執(zhí)行單元集成到一起,雖然取指時(shí)間相較集總式結(jié)構(gòu)增加了,但是節(jié)省了指令分派時(shí)間,從而獲得性能上的改善. 但是,這種方式在以指令為粒度進(jìn)行取指的處理器中很難實(shí)現(xiàn),這是因?yàn)闉榱俗非笞顑?yōu)的性能,指令會(huì)被編譯器安排到合理的處理單元,但是,每次取指令不是逐條進(jìn)行,而是每次取出一個(gè)cache行,二次調(diào)度會(huì)浪費(fèi)更多的資源和時(shí)間. 目前,分布式取指單元與處理單元緊耦合結(jié)構(gòu)基本上以線程或指令塊為基本取指單位. 而以指令為目標(biāo)的分布式取指單元和執(zhí)行單元?jiǎng)t是分離的結(jié)構(gòu),比如TRIPS處理器.

圖11 循環(huán)取指增加路由網(wǎng)絡(luò)后性能比較

4 結(jié) 論

對(duì)基于EDGE體系結(jié)構(gòu)研究而設(shè)計(jì)的模擬平臺(tái)M5-edge,進(jìn)行了分布式取指令前段的設(shè)計(jì),并對(duì)實(shí)現(xiàn)方式和重要參數(shù)進(jìn)行分析. M5-edge可以實(shí)現(xiàn)理想的集總式取指令前段,也可以實(shí)現(xiàn)多種方式的分布式取指端設(shè)計(jì). 該模型既可以為基于EDGE的處理器后端微結(jié)構(gòu)設(shè)計(jì)提供更精確和更靈活的取指令前段,也可以為基于前端的其他結(jié)構(gòu)設(shè)計(jì)提供了基礎(chǔ).

通過(guò)對(duì)取指令端的整體功能、取指令單元和單元間互連網(wǎng)絡(luò)的實(shí)現(xiàn),完整介紹了分布式取指令前段的設(shè)計(jì)工作. 通過(guò)仿真結(jié)果分析得到取指令塊頭的不同設(shè)計(jì)方法的適應(yīng)性,并確認(rèn)了在從理想集總式結(jié)構(gòu)進(jìn)行分布式實(shí)現(xiàn)所帶來(lái)的網(wǎng)絡(luò)延時(shí)和cache缺失所帶來(lái)的損失.

本文聚焦于分布式取指前端的實(shí)現(xiàn)和由集總式進(jìn)行分布化所帶來(lái)的性能損失,缺少對(duì)分布式取指單元與指令執(zhí)行單元的緊耦合設(shè)計(jì),該方式可以部分彌補(bǔ)由于分布化而帶來(lái)的性能損失.

[1] CZECHOWSKI K, LEET V, GROCHIWHKI E, et al. Improving the energy efficiency of big cores [C]// ACM/IEEE 41st International Symposium on Computer Architecture (ISCA). Minneapolis: IEEE, 2014, 493-504.

[2] BUGER D, KECKLER K, MCKMLEY K S, et al. Scaling to the end of silicon with edge architectures[J] IEEE Computer, 2004, 37(7): 44-55.

[3] ESMAEILZADEH H, BLEM, AMANT E. Dark silicon and the end of multicore scaling[C]//Proceeding of the 38th annual international symposium on Computer architecture. San Jose: IEEE, 2011:122-134.

[4] TORRELLAS J, CEZE L, TUCK J, et al. The bulk multicore architecture for improved programmability[J]. Communications of the ACM, 2009, 52(12):58-65.

[5] SWANSON S, MICHESON K, SCHWERIN A, et al. Wavescalar[C]//Proceedings. 36th Annual IEEE/ACM International Symposium on Microarchitecture. San Jose: IEEE, 2003: 291-302.

[6] GEBHART M, MAHER B A, COONS K E, et al. An evaluation of the TRIPS computer system[J].Acm Sigplan Notices, 2009, 44(3):1-12.

[7] WAINGOLD E, TAYLOR M, SARKAR V, et al.Baring it all to software: the raw machine[J]. IEEE Computer, 1990,30(9):86-93.

[8] SMITH J, GIBSON B,MACHER N, et al. Compiling for edge architectures[C]//The 4th International Symposium on Code Generation and Optimization. New York: IEEE, 2006:185-195.

[9] SANKARALINGARM K, NAGARAJAN R, MCDONAL R, et al. Distributed micro architectural protocols in the TRIPS prototype processor[C]//39th Annual IEEE/ACM International Symposium on Micro architecture. Orlando: IEEE, 2006:480-491.

[10]KIM C, SETHUMADHAVAN S, GOVINDAN M, et al. Compo-sable light weight processors[C]//40th Annual IEEE/ACM International Symposium on Microarchitecture. Chicago: IEEE, 2007: 381-394.

[11]ROBATMILI B, LI D, ESMAEILZADEH H, et al. How to implement effective prediction and forwarding for fusable dynamic multicore architectures[C]//19th IEEE International Symposium on High Performance Computer Architecture (HPCA). Shenzhen: IEEE, 2013:23-27.

[12]DURIC M, PALOMAR O, STANIC A, et al. Dynamic-vector execution on a general purpose EDGE chip multiprocessor[C]//IEEE International Conference on Embedded Computer Systems: Architectures, Modeling and Simulation. Samos Island: IEEE, 2014:18-25.

[13]GOU P, LI Q, JIN Y, et al. M5 based edge architecture modeling[C]//IEEE International Conference on Computer Design (ICCD). Amsterdam: IEEE, 2010: 289-296.

[14]BINKERT N L, DRESLINSKI R G, HSU L R, et al. The M5 simulator: modeling networked systems[J]. IEEE Micro, 2006,26(4):52-60.

(編輯 王小唯, 苗秀芝)

The design and analysis of distributed fetch based on M5-edge

ZHANG Chao,YU Mingyan

(Department of Astronautics, Harbin Institute of Technology, Harbin 150001, China)

A distributed fetch structure of M5-edge is designed for the purpose of expanding the design space of EDGE architecture. The structure includes the overall function, distributed fetch unit and the interconnection network between the units. Two kinds of fetching block head are realized, including fixed fashion and round robin one. The analyses, which are made in different distributed fetch unit counts, provide the leave of reduction of distributed fetch comparing with the ideal lumped fetch model, as well as the difference between the two fashions of fetching block head. Furthermore, the effect of the processor performance by the communication latency and the cache miss rate are shown.

EDGE;distributed fetch; communication latency;cache miss rate

10.11918/j.issn.0367-6234.201508011

2015-08-11

張 超(1984—),男,博士研究生; 喻明艷(1962—),男,教授,博士生導(dǎo)師

喻明艷,myyu@hit.edu.cn

TP302.7

A

0367-6234(2017)05-0016-06

猜你喜歡
體系結(jié)構(gòu)模擬器指令
了不起的安檢模擬器
盲盒模擬器
劃船模擬器
基于粒計(jì)算的武器裝備體系結(jié)構(gòu)超網(wǎng)絡(luò)模型
作戰(zhàn)體系結(jié)構(gòu)穩(wěn)定性突變分析
基于DODAF的裝備體系結(jié)構(gòu)設(shè)計(jì)
基于云計(jì)算的航天器控制系統(tǒng)自組織體系結(jié)構(gòu)
中斷與跳轉(zhuǎn)操作對(duì)指令串的影響
基于匯編指令分布的惡意代碼檢測(cè)算法研究
動(dòng)態(tài)飛行模擬器及其發(fā)展概述