水滴
AMD的CPU發(fā)展之路近些年來(lái)一直不是很順利,旗下處理器產(chǎn)品仍然在計(jì)算性能上處于落后局面。不過(guò)AMD也在積極努力改善情況,在“推土機(jī)”之后,AMD又進(jìn)行研發(fā)改進(jìn),推出了全新的“打樁機(jī)”處理器,這一次,AMD的表現(xiàn)又該如何呢?
“推土機(jī)”架構(gòu)的問(wèn)題
AMD的“推土機(jī)”架構(gòu)發(fā)布后,高功耗、高頻率和達(dá)不到預(yù)期的性能令A(yù)MD高端CPU產(chǎn)品線(xiàn)上顯得頗為尷尬。雖然從架構(gòu)來(lái)說(shuō),“推土機(jī)”的確是一款革命性的產(chǎn)品,模塊化設(shè)計(jì)、單模塊雙物理核心、靈活多變的浮點(diǎn)計(jì)算單元方案等都是創(chuàng)新技術(shù)。奈何功力不夠,“推土機(jī)”架構(gòu)的實(shí)際產(chǎn)品性能表現(xiàn)還是差了一些火候。從宏觀來(lái)看,如果“推土機(jī)”架構(gòu)解決了工藝問(wèn)題以及緩存延遲、數(shù)據(jù)命中率等諸多核心問(wèn)題,再在架構(gòu)上做出一定優(yōu)化,CPU的性能得到大幅度提升也不是不可能。但AMD并沒(méi)有這么多時(shí)間,一方面英特爾按部就班的推出自己的新產(chǎn)品,“推土機(jī)”發(fā)展的一代時(shí)間中,英特爾已經(jīng)從Sandy Bridge進(jìn)步到了Ivy Bridge,工藝也從32nm進(jìn)步到了22nm的3D晶體管,而英特爾下一代的Haswell也將在2013年初登場(chǎng),AMD沒(méi)有也不可能有太多時(shí)間來(lái)大幅度改進(jìn)CPU設(shè)計(jì),因此只能在“推土機(jī)”的基礎(chǔ)上進(jìn)行小改動(dòng),先把最急需解決的問(wèn)題解決,讓新的“打樁機(jī)”相比“推土機(jī)”性能有一定提升,扭轉(zhuǎn)目前競(jìng)爭(zhēng)不利的態(tài)勢(shì)再說(shuō)。
這就是“打樁機(jī)”架構(gòu)出現(xiàn)的背景??偟膩?lái)看,“打樁機(jī)”架構(gòu)在“推土機(jī)”架構(gòu)的基礎(chǔ)上,做了一些小修小補(bǔ)的必要改進(jìn),一些重要部分“打樁機(jī)”架構(gòu)和“推土機(jī)”架構(gòu)基本上是完全相同的,包括內(nèi)部的模塊化設(shè)計(jì)、每個(gè)模塊兩個(gè)整數(shù)核心以及一個(gè)共享的256bit浮點(diǎn)核心都沒(méi)有什么改變。AMD在“打樁機(jī)”架構(gòu)上的主要任務(wù)是提升IPC(每周期指令)性能,讓CPU內(nèi)部處理效率更高,同時(shí)AMD還需要改進(jìn)32nm工藝,讓“打樁機(jī)”架構(gòu)的實(shí)際產(chǎn)品能夠運(yùn)行在更高頻率上,用更高頻率換取CPU的更好性能,贏得更多的競(jìng)爭(zhēng)空間。
頻率提升很重要
AMD在資源有限的情況下,盡可能的對(duì)“推土機(jī)”架構(gòu)做出了調(diào)整,以獲取更高的性能。在所有的技術(shù)改進(jìn)中,目前AMD能使用的最有效、最直接的就是提升頻率。AMD采用了三種方法來(lái)提升“打樁機(jī)”架構(gòu)實(shí)際產(chǎn)品的頻率表現(xiàn)。第一種方法就是改進(jìn)現(xiàn)有的32nm SOI工藝。AMD在制造工藝上落后英特爾整整一代,因此只能使用比較老舊的32nm抗衡英特爾的22nm 3D晶體管。不過(guò)這并不代表AMD的CPU頻率無(wú)法提高。AMD經(jīng)過(guò)改進(jìn)后的32nm SOI工藝漏電率更低,發(fā)熱也隨之降低,CPU運(yùn)行頻率能提升得更高。第二種方法是采用了名為“Resonant Clock Mesh”諧振時(shí)鐘網(wǎng)絡(luò)的技術(shù)來(lái)輔助頻率提升。這項(xiàng)技術(shù)能夠使CPU頻率提升10%,或者在同頻率下降低10%的功耗,特別是時(shí)鐘分派功耗降低24%。諧振時(shí)鐘網(wǎng)絡(luò)技術(shù)的目的在于新建一個(gè)高性能的片內(nèi)電感器,并利用這個(gè)新的電感器建立振蕩回路,從而更為精確的控制時(shí)鐘功耗,并節(jié)約一部分電能。第三個(gè)則是全新的Turbo Core 3.0技術(shù)。一般來(lái)說(shuō),CPU所有的部件并不是在任何時(shí)候都處于滿(mǎn)載狀態(tài),這就為頻率控制技術(shù)留下了一定的空間。頻率控制技術(shù)可以將非工作狀態(tài)的CPU內(nèi)部部件的TDP“讓渡”給那些滿(mǎn)載工作狀態(tài)的部件,令其提升頻率并盡可能快的完成工作任務(wù),從而達(dá)到提升效能的目的。為了達(dá)到這個(gè)目的,AMD在打樁機(jī)的每個(gè)模塊中都加入了自己獨(dú)立的功率檢測(cè)器,所有的功率檢測(cè)器將實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)CPU各個(gè)部分的功率,將所有的功耗數(shù)據(jù)和TDP相比較,并反饋給P-state Manager進(jìn)行管理,當(dāng)P-state Manager發(fā)現(xiàn)CPU的實(shí)際功耗小于TDP時(shí),則自動(dòng)提升頻率,讓工作任務(wù)更塊完成。在實(shí)際操作中,Turbo Core 3.0完全無(wú)需人工干預(yù),它會(huì)根據(jù)產(chǎn)品類(lèi)型和使用環(huán)境,對(duì)單模塊、雙模塊、多模塊進(jìn)行動(dòng)態(tài)調(diào)整。Turbo Core 3.0能夠提升APU性能大約5%,在某些特定環(huán)境下有可能更高。
指令效率要更高
AMD的“推土機(jī)”架構(gòu)的問(wèn)題在于指令效率比較低,因此在“打樁機(jī)”架構(gòu)中AMD也從這方面做出了改進(jìn)。AMD首先改進(jìn)的是“打樁機(jī)”架構(gòu)的分支預(yù)測(cè)系統(tǒng),“打樁機(jī)”架構(gòu)以分段的方式增加了整體分支預(yù)測(cè)的成功率。此外,“打樁機(jī)”架構(gòu)還可以將之前的分支預(yù)測(cè)數(shù)據(jù)暫存在寄存器中,借此提高分支預(yù)測(cè)的能力。總的來(lái)看“打樁機(jī)”在架構(gòu)指令預(yù)測(cè)方面命中率更高。為了進(jìn)一步提升指令性能,AMD還為打樁機(jī)架構(gòu)增加了指令窗口的大小,這可以讓CPU處理更大的指令組。最終結(jié)果是,“打樁機(jī)”架構(gòu)的指令解碼寬度為4路,在單核心和單模組模式下,可以最多同時(shí)處理4條指令,在雙模組時(shí)最多可以處理8條。另外,AMD還加入了新的指令集來(lái)提高執(zhí)行效率。新加入用于乘加計(jì)算的FMA3指令、用于16bit的浮點(diǎn)轉(zhuǎn)換的F16C指令以及之前就支持的FMA4,“打樁機(jī)”架構(gòu)堪稱(chēng)得到了目前最齊全的架構(gòu)指令支持。
內(nèi)存延遲也要降低
緩存延遲和內(nèi)存延遲是“推土機(jī)”架構(gòu)相當(dāng)明顯的軟肋,“打樁機(jī)”架構(gòu)雖然無(wú)法做到徹底更改,但還是做出了很多重要改進(jìn)。有關(guān)這一點(diǎn)AMD沒(méi)有給出具體資料,只是宣稱(chēng)自己在緩存讀取延遲和存儲(chǔ)預(yù)取功能等部分做出了有益的改進(jìn),讓“打樁機(jī)”架構(gòu)實(shí)際產(chǎn)品的性能表現(xiàn)更好。其余的改進(jìn)還包括“打樁機(jī)”架構(gòu)的讀取/存儲(chǔ)單元的延遲,比如改進(jìn)存儲(chǔ)-讀取的排隊(duì)序列,這樣可以降低預(yù)測(cè)編譯部分的工作請(qǐng)求,并降低負(fù)載和壓力。L1緩存的轉(zhuǎn)移指令緩沖區(qū)(Translation Lookaside Buffer,簡(jiǎn)稱(chēng)為T(mén)LB)通道增加到64個(gè),是上代產(chǎn)品Llano的2倍。
一些測(cè)試表明,“打樁機(jī)”架構(gòu)的延遲比“推土機(jī)”架構(gòu)明顯要小,但是小得很有限,不過(guò)這也能帶來(lái)比較明顯的性能提升。看來(lái)AMD在無(wú)法徹底更改CPU架構(gòu)的情況下,是很難做到大幅度、革命性的性能改進(jìn)了。“打樁機(jī)”架構(gòu)始終只是“推土機(jī)”架構(gòu)的小幅度性能改進(jìn)版本。
打樁機(jī)架構(gòu)的具體產(chǎn)品
說(shuō)了這么多打樁機(jī)架構(gòu)本身的信息,接下來(lái)一起看看實(shí)際產(chǎn)品的情況?!按驑稒C(jī)”架構(gòu)的實(shí)際產(chǎn)品采用32nm SOI工藝制造,總共擁有12億晶體管,核心面積315平方毫米,每模塊二級(jí)緩存為2MB,三級(jí)緩存為共享的8MB。這些規(guī)格參數(shù)和“推土機(jī)”架構(gòu)的產(chǎn)品都基本相同。目前AMD推出的采用“打樁機(jī)”架構(gòu)的具體產(chǎn)品有FX-8350、FX-8320、FX-6300和FX-4300四款,其余還有諸如FX-8300、FX-6350等暫時(shí)沒(méi)有零售產(chǎn)品出現(xiàn)。所有的采用“打樁機(jī)”架構(gòu)的處理器都支持雙通道DDR3 1866內(nèi)存,采用AM3+接口。內(nèi)置四核模塊到雙模塊不等,核心數(shù)量也從八個(gè)到四個(gè)不等。
從實(shí)際產(chǎn)品來(lái)看,AMD認(rèn)為“打樁機(jī)”架構(gòu)依舊不能和英特爾高端產(chǎn)品抗衡,因此在價(jià)格和競(jìng)爭(zhēng)產(chǎn)品上表現(xiàn)得很謹(jǐn)慎。比如FX-8350競(jìng)爭(zhēng)對(duì)手為Core i5-3570K,F(xiàn)X-4300的競(jìng)爭(zhēng)對(duì)手為Core i3 2120。AMD依舊試圖用高頻率、多核心來(lái)對(duì)抗英特爾的相關(guān)產(chǎn)品,力求在同樣價(jià)格上以更高的性能和更多可玩性(比如開(kāi)放超頻)來(lái)吸引用戶(hù)??偟膩?lái)看,AMD還需要在CPU研發(fā)上投入更多精力,并且在工藝制造方面不要被英特爾拉下太遠(yuǎn),像目前這樣無(wú)論是CPU架構(gòu)還是工藝都落后太多的情況實(shí)在是不容樂(lè)觀?!按驑稒C(jī)”只是AMD在激烈競(jìng)爭(zhēng)中的一個(gè)權(quán)宜之計(jì),只能暫時(shí)緩解緊迫的競(jìng)爭(zhēng)形勢(shì),真正能讓AMD喘口氣翻身的產(chǎn)品還沒(méi)有出現(xiàn),目前只有拭目以待下一代“壓路機(jī)”架構(gòu)的表現(xiàn)能否足夠給力了。