国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深入Tremont內部英特爾全新Atom微架構解讀

2019-01-15 04:22:59張平
微型計算機 2019年22期
關鍵詞:解碼功耗英特爾

張平

英特爾Atom是面向嵌入式、超低功耗、超輕薄以及網絡等設備的處理器產品。自從2011年發(fā)布以來,Atom就以超低功耗和獨特的功能特性得到了市場的青睞,并已經發(fā)展成為繼酷睿處理器產品后英特爾旗下又一大處理器家族。相比酷睿處理器架構不斷更新和發(fā)展的狀況,Atom系列產品由于面向的市場對性能沒有那么敏感,因此架構進步不算太塊。隨著英特爾的工藝發(fā)展至10nm時代,Atom處理器家族終于迎來了全新的架構和產品代號,那就是Lakefield產品和對應的Tremont架構。今天本文就和大家一起來了解---F這兩款全新設計的產品。

英特爾在近期的新聞發(fā)布會中更新了旗TAtom處理器的架構路線圖。在現有的G0ldmont Plus之后,分別~Tremont、Gracemont和Future Mont三代產品。其中代號為Tremont的全新超低功耗處理器架構將在2019年正式發(fā)布,采用10nm工藝制造。不僅如此,這款架構還將搭配英特爾稱作“Foveros”的3D堆疊封裝技術,和Core架構的核心一起形成大小核搭配的Lakefiled處理器。近期,英特爾又公布了更多有關Tremont架構的信息。

Atom處理器發(fā)展回顧

英特爾的Atom處理器和相關產品面向諸多市場,包括嵌入式平臺、網絡設備、智能手機、平板電腦、NAs、控制中心甚至部分定制工業(yè)產品等。從2011年開始,Atom相關產品先后使用了saItwell、silvermont、Airmont、Goldmont、GoIdmont Plus;五代架構,前兩代采用的工藝是32n m和22nm,后面三代都采用14nm,主要原因是英特爾10nm工藝的嚴重延期。

在發(fā)展過程中,Atom處理器在所有的產品領域其實存在著一定程度的重疊。一般來說,同一個系列會采用相同的內核,并且由于Atom全部采用的soc設計方案,因此在不同的市場中規(guī)格相同的產品有可能會以不同的型號出現。另外,面向手機的Atom處理器在2016年后就不再推出了,面向平板電腦的產品也不再更新。未來在Tremont架構對應的LakefiIed產品發(fā)布后,Atom將可能重新回到平板電腦、上網本等產品中。

另外值得注意的變化是,隨著英特爾將酷睿微架構的核心功耗范圍從每核心1.5W擴展到每核心20W,Atom在將再更多的市場中展示自己的能力。Atom的面積相比Core等大核心而言小很多,并且功耗也低很多,其可量化的性能函數低于core架構,因此能夠在更低性能需求的場合下帶來更好的性能和功耗表現。借助新的Tremont架構,英特爾可以結合Atom和Core的特點,實現更寬廣的性能、功耗輸出。3 O%性能提升——Tremont的設計目標

對于cPu的設計而言,早期的重點話題都是處理器的性能,對功耗的關注反而很少。發(fā)展至今天,設備的續(xù)航時間和功耗效率等有關功耗的話題已經成為了諸如電池供電設備中最常被提到的話題。性能和電源是處理器的一體兩面,在設計中需要很好地平衡二者的關系。目前一些處理器公司嚴格控制功耗和性能的比值,他們只允許功率和性能以相同的百分比增強,或者性能,功率的比最多是2:1。

在英特爾的有關資料中,有趣的是,他們明確表示Tremont是在考慮性能的基礎上構建的,其目的是比上一代處理器架構大幅度提高原始時鐘下處理器的吞吐能力。根據英特爾自己的指標也就是SPEc來看,英特爾宣稱Tremont的性能相比Goldmont PIus平均提高了30%。

值得注意的是,這樣的數據來自于較為早期的Tremont設計方案,應該代表最小的性能提升幅度。英特爾給出的性能提升示意圖顯示,三個sPEc項目得到了65%以上的性能提升,有關這三個項目,英特爾沒有給出詳細信息,也沒有告知有關編譯代碼的相關內容,據估計有可能是libquantum、lbm等相關測試。不過,英特爾宣稱這項測試中Tremont和Goldmont Plus上使用了相同的編譯文件。有關最終數據的呈現方式,英特爾沒有說明他們是否進行過數據處理,比如是否根據處理器的頻率調整了性能,或者給出的是每頻率性能等。因此這份數據的參考意義有限,僅能從表面上進行分析。

當然,即使大量的數據和內容沒有給出,但是僅僅從處理器代際更迭的角度來看,30%的性能提升都是相當夸張的。但是就這么認為Tremont是成功的還為時尚早。因為除了微架構的進步和10nm制程外,還有一些其他因素影響到整個處理器的設計比如功耗表現更為寬泛、芯片面積更大等等。為此,英特爾沒有給出詳細的功耗設計區(qū)間和其他信息,只是公布了Lakefiled處理器,它擁有1個Core大核心、4個Tremont小核心,并且將其和傳統Atom 7w處理器進行了比較。

這樣一來,將14nm的GoIdmontPIus(標準的14nm工藝,并非14nm+或者14nm++)和10nm的Tremont進行比較將變得困難。因為驅動Tremont提升性能的因素很多。當然,從架構角度來分析這個問題也是一個很重要的方面,接下來我們將從架構部分對Tremont進行分析。

更大的前端和緩存設計

對于一直關注core微體系架構的讀者而言,應該對英特爾core微體系架構不斷擴大的規(guī)模和微架構結構有所印象。更大的架構規(guī)模意味著有更多的指令正在運行,與之匹配的則是更大的緩存、更大的緩沖區(qū)、更大的TLB、更多的執(zhí)行端口和更多的指令及支持。當然,一味地做大架構也并不能帶來最好的結果,整個處理器架構還必須做到智能化設計擁有可以最大限度調用內部資源的能力。因為僅僅擴展架構對一些簡單的指令集來說是毫無意義的。

在Tremont上,整個架構設計的關鍵部分在于擴大架構規(guī)模。但是英特爾采用了兩個不同的步驟和方法來精確管控處理器內部的計算過程。

關鍵提升之一:指令預取和分支預測

Atom處理器在微架構上的一個主要飛躍就是預取器和分支預測器。不過在Tremont上,英特爾放棄了之前Atom處理器微架構的相關設計,而是將最新的大核心sunny Cove架構上的預取器和分支預測器移植到了Tremont上。當然,英特爾也表示,出于芯片面積和功耗方面的考慮,兩者在設計上還是存在一定差異的,但是其原理相似,并且分支預測歷史記錄表等元素和核心設計處于同一順序。另外,英特爾聲稱u預測沒有帶來性能懲罰,而L2預測的懲罰比之前幾代要小。

關鍵提升之二:解碼引擎大變革

從表面上看,Tremont包合了一個6寬度也就是6-wide的解碼引擎和一個4寬度的分配和調度引擎。這種設計其實很奇怪,因為一般來看,我們希望解碼引擎和調度引擎的寬度基本相等,或者調度引擎寬度比解碼引擎大,以確保重排序緩沖區(qū)由于等待過久而溢出。在sunny Cove的微架構中,英特爾設計了4至06寬度的解碼引擎,支持微操作緩存,指令會隨后進入大型的重排序緩沖區(qū),并且向后端的10寬度調度部分進行分發(fā)。在這里,Tremont和Sunny Cove的比例完全相反。

那么實施情況是怎樣的呢?實際ATremont中的6-wide解碼引擎并不是一個完整的設計,它采用了2個3-wide的解碼引擎并發(fā)而來。這意味著,每個解碼引擎在處理不同的分支預測時,都可以采用單獨的指令流,在這種情況下,與單獨的6-wide解碼引擎相比,2個3-wide的解碼引擎的平均利用率更高。當不存在分支預測時,可以對其中一個(一組)解碼引擎進行時鐘門控操作以節(jié)省功耗。對于單個指令流而言,Tremont實際上只是3-wide解碼,4-wide的調度。

英特爾隨后也說明,在技術上,他們可以通過更新微碼將解碼引擎更改為一個6-wide整體,而不再是2個3-wide的設計。這種更改將不會出現在OEM自選的功能中,但是根據英特爾的具體要求,這種設計可以根據不同的用戶的需求進行更改。

另一個需要特別指出的是,Tremont沒有微操作緩存。英特爾對此的解釋是,微操作緩存可以更好地利用寬解碼的設計方案,但是在Tremont上,每個解碼引擎的寬度都不大,通過使用這種雙引擎的設計,實際上帶來了性能的提升并節(jié)省了芯片面積。英特爾沒有明確指出哪一個方案的最終實現效果更出色,但是考慮到Atorrl產品的功耗范圍和Atom內核的典型指令流程,現有的方案應該是實現性能、功耗和面積的最優(yōu)組合。

在解碼引擎之后,英特爾在Tremont上做出的另一個改進是重新排序緩沖區(qū)。Tremont的緩沖區(qū)被設計為支持208條指令而之前的Goldmont只有78條,加強版Goldmont PIuS則提升至了95條。相比而言,Tremont帶來了一個巨大的提升。另外,英特爾沒有說明Tremont是否有能力將指令融合至ROB的微操作中(Goldmont沒有這個設計)。在實際的微操作處理中,指令采用的是1:1奇偶校驗。緩存設計:更大、更寬

Tremont的緩存設計變化比較大。英特爾增加了Tremont的u緩存容量,目前的u指令緩存設計了32KB容量、8路關聯。u數據緩存方面,Atom之前的幾個版本都采用的是24KB容量、6路關聯的方案,在Tremont上,它被提升至32KB容量和8路關聯,這使~Tremont的u數據緩存和LI指令緩存的容量、關聯設計完全一樣,延遲方面,Tremont的L1數據緩存延遲為3個周期。相比之下,大核心的core微架構體系中Skylake的數據緩存為32KB、延遲為4個周期,sunny Cove的數據緩存為48KB,延遲為5個周期。

L2緩存方面,對于之前的Atom處理器而言,這實際上是系統模塊中為所有內核劃分的最后一級緩存,其容量和設計取決于系統模塊的要求。在之前的22nm silvermont中,每核心采用了512KB的方案,在Goldmont中,每核心增加至1MB。對于Tremont,英特爾稱L2緩存容量會因產品而異,從每個模塊1.5MB到4.5MB均可。Tremont的一個模塊最多可以包含4個內核,因此有可能出現4.5MB每核心的L2緩存方案,或者1.5MB 4個核心的L2緩存方案。在一個模塊中,所有內核都可以訪問緩存,但是不可以訪問其他模塊的L2緩存。英特爾能夠通過微碼將L2重置為包合式或者非包含式緩存。

英特爾表示,Tremont的L2緩存平均具有17個周期的延遲。關聯性方面則取決于容量,1.5MB的L2緩存將擁有12路關聯,4.5MB則擁有18路關聯,相應的,可以推測出3MB L2設計可能擁有15路關聯。

Tremont還增加了對跨模塊的全局L3緩存的支持,L2和L3緩存都能支持Qos,從而允許為特定線程或者虛擬機確定數據優(yōu)先級,并增加執(zhí)行內存帶寬。值得一提的是,英特爾在Broadwell Xeon上引入的這項技術可以避免數據中心的多核心處理器的某個核心受到其他核心帶來的數據訪問和優(yōu)先級排序干擾等問題。

更寬的后端設計

Tremont在后端設計上頗為激進,擁有8個執(zhí)行端口和7個數據保留單元(reservation station)。Tremont的地址生成單元也就是2個AGu占用了組合數據保留單元,同時也為處于排隊中的微碼操作提供額外的存儲空間。這樣做的原因是由于2個AG u提供了2x16字節(jié)的存儲空間,或者2x16的負載空間,或者每次使用其中的一個。英特爾顯然希望Tremont的AGu單元更為活躍一些。相比之下,在sunny Cove這類大核心設計中,所有的整數和浮點都使用統一的數據保留單元,AGu則獨占3個。

在整數性能方面,除了兩個AGu外,Tremont還擁有3個ALU,一個跳轉端口和一個存儲數據端口。每個ALu支持不同的功能,其中一個啟用位移功能,另一個則支持乘法和除法。與Core微架構的執(zhí)行單元相比,Tremont的ALu相對更為輕巧一些,不過英特爾在此處沒有更多說明。

在浮點端,Tremon伎持三個不同的端口,其中2個ALU,1個存儲端口。2個ALu鐘的一個支持FADD也就是融合加法,另一個支持FMuL也就是融合乘法和除法。兩種ALu都支持具有4個周期延遲的128位SIMD和128位AES,以及4個周期的單個指令sHA 256。但是并不支持256位向量計算。另外,Tremont還支持GFNI指令這可以幫助一些特殊的計算。

在TLB方面,Tremont支持一個更大的1024條目的L2 TLB緩存,支持1024x4K條目、32x2M條目或者8xlG條目。相比之前的Goldmont,Tremont在這方面做出了很大的提升。

其他方面

英特爾本次公開的內容主要是關于Tremont的微體系架構,其他一些信息包括SoC以及Lakefiled等都沒有給出太多具體的內容。此外,英特爾也沒有提到有關lTremont的GPU支持。不過英特爾還是提到Tremont將是第一個完全支持Speed shift/ACPI的Atom微架構,以實現更決的高頻率操作。

在加密和安全性能方面,Tremont支持全面內存加密,能夠有效地防止物理攻擊。另外還能夠支持Rooted Secure Boot和Boot Guard等功能。對之前英特爾爆出的“幽靈”漏洞等問題,英特爾宣稱Tremont和CascadeLake具有相同的保護級別。

功耗方面,目前消息不多。不過有消息稱在具有4個Tremon骸心的模塊中,所有的核心都可以共享相同的頻率,不過每個核可以進入獨立的C狀態(tài)以減少不使用時的功耗。

寫在最后

隨著英特爾將core微架構的實際功耗降低至1.5W,Tremont架構的Atom處理器將如何在傳統的2mw到2w范圍內發(fā)揮自己的作用將變得很有趣。目前,也有一些聲音在討論Tremont將如何和ARM Cortex-A76或者高通的Kryo核心競爭。當然,Tremont所擁有的x86優(yōu)勢是無可動搖的。

另一個問題則是目前英特爾的產能問題。目前英特爾的產品需求主要集中在14nm工藝上,在10nm階段只有部分移動處理器上市,隨后的10nm+階段Tremont、Lakefield以及SnowRidge都將現身。不過目前沒有消息給出10nm和10nm+之間的差異,以及英特爾是否會再次遭工藝問題。英特爾首發(fā)支持10nm+的處理器是Ice Lake,這款產品將在今年用在高端筆記本電腦中,搭載了Tremont的Lakefield已經宣布將用于surface Neo?,F在還不清楚Surface Neo的銷量。另外,之前英特爾將Atom架構的產品規(guī)劃進入了Pentium和Celeron處理器陣列,但實際表現并不出色。綜合這些因素,我們有可能很難在下一代除了Atom之外的消費級處理器上看到Tremont架構的使用70

未來,我們還將進一步跟蹤Tremont的相關情況,包括產品型號、規(guī)格和性能等,對此有興趣的讀者不妨留意。

猜你喜歡
解碼功耗英特爾
《解碼萬噸站》
解碼eUCP2.0
中國外匯(2019年19期)2019-11-26 00:57:32
英特爾攜手一汽集團,引領汽車行業(yè)全新變革
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
英特爾擴充FPGA可編程加速卡產品組合
揭開GPU功耗的面紗
個人電腦(2016年12期)2017-02-13 15:24:40
數字電路功耗的分析及優(yōu)化
電子制作(2016年19期)2016-08-24 07:49:54
“功耗”說了算 MCU Cortex-M系列占優(yōu)
電子世界(2015年22期)2015-12-29 02:49:44
外資力薦高通并購賽靈思對抗英特爾
電子世界(2015年22期)2015-12-29 02:49:41
泰安市| 永登县| 教育| 金寨县| 辽阳市| 海淀区| 延庆县| 开江县| 鹤山市| 丹凤县| 东山县| 卢龙县| 安仁县| 玛纳斯县| 德兴市| 论坛| 龙江县| 芜湖市| 遂平县| 曲松县| 贡嘎县| 汉中市| 乃东县| 怀化市| 高青县| 马鞍山市| 周宁县| 朝阳县| 安多县| 于都县| 吴堡县| 阳新县| 东城区| 广水市| 阿尔山市| 新绛县| 延津县| 宁强县| 民丰县| 隆化县| 林西县|