超強(qiáng)圖形性能護(hù)航5G時(shí)代解析ARM Valhall GPU架構(gòu)及Mali-G77

2019-01-15 04:22:04張平

微型計(jì)算機(jī) 2019年15期

張平

ARM今年的新品不但有新的CPU架構(gòu)，還有全新的GPU架構(gòu)。在今年的年度發(fā)布會(huì)上，ARM公布了全新的GPU架構(gòu)，也帶來了全新的GPU型號(hào)Mali-G77。隨著移動(dòng)產(chǎn)品的應(yīng)用范圍和適應(yīng)場(chǎng)景不斷擴(kuò)大，ARM也在積極調(diào)整產(chǎn)品以滿足越來越大的計(jì)算量需求。VaIhall GPU架構(gòu)和Mali-G77就是為應(yīng)對(duì)這樣的情況而生的。本文將帶來ARM這一新架構(gòu)的深入解讀。

ARM上次發(fā)布新的GPu架構(gòu)還是在大約3年前。隨著近年來技術(shù)和應(yīng)用的發(fā)展，ARM是時(shí)候推出全新架構(gòu)了這就是我們今天要談的“Valhall”架構(gòu)。從ARM給出的資料來看，VaIhall架構(gòu)在性能、密度和效率方面有著重大改進(jìn)。雖然部分改進(jìn)在去年的Mali-G76 1-就已經(jīng)出現(xiàn)，但是架構(gòu)級(jí)別的全面改進(jìn)，則在采用Valhall架構(gòu)的Mali-G77上才會(huì)全部顯現(xiàn)。回顧Biforst

ARM在移動(dòng)GPU上的演進(jìn)

實(shí)話實(shí)說，ARM在移動(dòng)GPU設(shè)計(jì)上的底蘊(yùn)并不深厚，一個(gè)典型的例證就是ARM前幾代移動(dòng)GPu無論是架構(gòu)還是產(chǎn)品的表現(xiàn)都不夠出色，這樣的情況—直持續(xù)到Biforst架構(gòu)出現(xiàn)，但是Biforst架構(gòu)的前兩款產(chǎn)品依舊存在不少問題。

首款Biforst架構(gòu)的GPU是Mali-G71，

ARM Mali-G77正式發(fā)布

它發(fā)布于2016年，華為海思旗下的麒麟960和三星Exynos 8895兩款SoC使用了這款GPU。當(dāng)時(shí)人們對(duì)這款GPU報(bào)以非常高的期望，畢竟這是ARM在GPu架構(gòu)上做出的重大變化一Biforst是ARM首個(gè)標(biāo)量GPU架構(gòu)，徹底改變了之前的矢量GPu設(shè)計(jì)。在桌面GPu上，類似的改變這發(fā)生得比較早，包括英偉達(dá)在大約十年前推出的Tesla（GT200系列）架構(gòu)以及AMD在大約五年前推出的GcN架構(gòu)，都是由矢量轉(zhuǎn)換為標(biāo)量計(jì)算，基礎(chǔ)架構(gòu)的變化代表的是未來的發(fā)展方向。

Biforst也做出了這樣的變化，但是Biforst架構(gòu)的產(chǎn)物Mali-G71和MaIi-G72表現(xiàn)并不出色，甚至對(duì)三星和華為的產(chǎn)品規(guī)劃帶來了負(fù)面影響，比如麒麟960和麒麟970在GPU性能方面的表現(xiàn)令人失望，尤其是面對(duì)來自高通驍龍的同代次產(chǎn)品時(shí)。好在ARM也看到了這樣的情況，在Biforst架構(gòu)的最后—次迭代也就是第三款產(chǎn)品上，解決了部分問題，帶來了性能的飛躍。Mali-G76的表現(xiàn)大大提升了，ARM GPU在消費(fèi)者心中的地位，并且改善了Exynos9820和麒麟980的性能，使得這兩款SoC能夠更好地面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng)。

但是，Biforst架構(gòu)的迭代和Mali-G76的出現(xiàn)，并不意味著ARM在移動(dòng)GPu市場(chǎng)中的情況變得更好了。實(shí)際上，其競(jìng)爭(zhēng)對(duì)手的進(jìn)步速度更快。高通的Adreno移動(dòng)GPu架構(gòu)—直以來都在引領(lǐng)著移動(dòng)GPU的發(fā)展，盡管今年的Adreno 640并沒有取得令人印象深刻的性能改進(jìn)，但是它的能效比、密度和絕對(duì)性能依舊領(lǐng)先ARM的相應(yīng)產(chǎn)品。另外，蘋果全新A12 soc的GPu能效比表現(xiàn)更是相當(dāng)出色，遠(yuǎn)遠(yuǎn)領(lǐng)先目前市面上的幾乎所有競(jìng)爭(zhēng)對(duì)手，包括高通和ARM。移動(dòng)soc市場(chǎng)的競(jìng)爭(zhēng)激烈程度可見一斑。

Valhall的全面進(jìn)化

Valhall在架構(gòu)層面帶來了全新的變化，包括新的IsA和計(jì)算核心設(shè)計(jì)這些設(shè)計(jì)可以解決Biforst的主要缺點(diǎn)，并目看起來它和其他移動(dòng)GPu供應(yīng)商的設(shè)計(jì)思路更為相似了。Valhall的第一次迭代產(chǎn)品就是Mali-G77，接下來本文將討論VaIhall架構(gòu)的設(shè)計(jì)和改進(jìn)方向。

根據(jù)ARM提供的數(shù)據(jù)，MaIi-G77相比前代產(chǎn)品Mali-G76，其能效比提升30%，面積密度提升30%，機(jī)器學(xué)習(xí)性能提升60%。綜合性能增加40%。另外值得一提的是，由于下一代SoC在工藝上進(jìn)步不大，因此其性能提升主要來自架構(gòu)設(shè)計(jì)，也就是Valhall和Mali-G77的架構(gòu)優(yōu)勢(shì)。

深A(yù)valhall架構(gòu)——全新設(shè)計(jì)的現(xiàn)代GPU架構(gòu)

全新的Valhall架構(gòu)和前代產(chǎn)品存在顯著差異，雖然其架構(gòu)本質(zhì)依舊采用了標(biāo)量涉及，但和Biforst異常狹窄的4寬和8寬度不同的是，Valhall的執(zhí)行核心架構(gòu)更類似于AMD和英偉達(dá)的桌面GPU產(chǎn)品。

前代Biforst架構(gòu)的Mail-G71和MaIi-G72在核心執(zhí)行架構(gòu)上的設(shè)計(jì)比較緊湊，采用T4寬度的sIMD單元組成，其波前陣列（warp）寬度也為4。在Mali-G76上，ARM將波前陣列尺度提升至8，相比前代產(chǎn)品翻了一倍。所謂波前陣列寬度，是指處理器—次能夠吞吐多少數(shù)據(jù)。在計(jì)算中，數(shù)據(jù)的長(zhǎng)度往往會(huì)根據(jù)實(shí)際計(jì)算而變化，可能是2、4、8、16等，邏輯控制單元需要拆分、合并一個(gè)或者多個(gè)計(jì)算數(shù)據(jù)，并打包成波前陣列所需要的長(zhǎng)度后，才會(huì)將數(shù)據(jù)導(dǎo)入波前陣列，等待進(jìn)入計(jì)算單元。如果波前陣列設(shè)計(jì)得過寬，那么在面臨大量小數(shù)據(jù)計(jì)算并存在一定相關(guān)性時(shí)，可能無法完全填充G Pu核心，造成浪費(fèi)。較小的波前陣列可以避免這個(gè)問題，在某些情況下能夠提高單元工作效率，但是在大量長(zhǎng)度較長(zhǎng)的數(shù)據(jù)來臨時(shí)，較小的波前陣列設(shè)計(jì)反而會(huì)成為計(jì)算瓶頸，邏輯控制單元需要不斷拆分?jǐn)?shù)據(jù)以適應(yīng)較小的波前陣列設(shè)計(jì)瓶頸將轉(zhuǎn)移至邏輯控制單元。此外，較小的波前陣列需要更多的邏輯控制單元才能滿足控制需求，更為耗費(fèi)晶體管資源。

以當(dāng)時(shí)的眼光來看，移動(dòng)GPU計(jì)算中并沒有太高的性能需求，在Biforst時(shí)代采用較窄的、4寬度的波前陣列設(shè)計(jì)能夠有效降低ALU上的空閑周期量，同時(shí)ARM希望以更多的邏輯控制單元來實(shí)現(xiàn)更好的ALu利用率。但是在數(shù)年后，這種設(shè)計(jì)顯得有些落伍?，F(xiàn)在來看，移動(dòng)游戲正在迅速地向更高的計(jì)算復(fù)雜程度邁進(jìn)，大量Pc移植游戲的存在，以及移動(dòng)游戲本身對(duì)Shader的要求日益提升，加上更多的多線程需求，都使得更寬的波前陣列設(shè)計(jì)逐漸成為主流。在這種情況下，新的VaIhall架構(gòu)順勢(shì)采用了16寬度的波前陣列。雖然相比英偉達(dá)和AMD的32寬和64寬，16寬依舊顯得小了些，但是考慮到這是一款移動(dòng)GPU并且上代產(chǎn)品只采用了4寬度，這樣的改進(jìn)還是頗為顯著了，

除了波前陣列外，新架構(gòu)在執(zhí)行引擎的設(shè)計(jì)上也有所調(diào)整。之前BiforstGPU老圭至Midgard GPU在設(shè)計(jì)上采用的是多執(zhí)行引擎方案，每個(gè)執(zhí)行引擎將擁有自己的專用數(shù)據(jù)路徑和控制邏輯，自己的調(diào)度程序、指令緩存、寄存器文件和消息傳遞模塊，這自然會(huì)帶來大量的晶體管開銷。在高端GPU上，這樣的設(shè)計(jì)就顯得頗為浪費(fèi)，因?yàn)楦叨薌Pu往往會(huì)采用更多的執(zhí)行引擎，如果都采用多執(zhí)行引擎設(shè)計(jì)的話，每一個(gè)執(zhí)行引擎都有自己的一套”班子”且會(huì)進(jìn)行重復(fù)的工作，晶體管會(huì)被大量浪費(fèi)。

Mali-G77改變了這種狀況。Mali-G77將前幾代的小型執(zhí)行引擎整合在一個(gè)帶有共享控制邏輯的大型P模塊中。新引擎的IP設(shè)計(jì)依然存在一些重復(fù)的地方，比如ALU流水線被劃分為兩個(gè)“群集”，每個(gè)群集都有自己的16寬度的FMA單元以及相應(yīng)的執(zhí)行單元。相比前代方案，這樣的設(shè)計(jì)大幅度降低了晶體管使用量，能夠讓更多晶體管投入到有效的計(jì)算中去。

它在ISA方面也有所改變，ARM簡(jiǎn)化了很多指令。目前還沒有更多細(xì)節(jié)可供參考，但新的IsA更易編譯，并經(jīng)過重新設(shè)計(jì)和調(diào)整，使得其可以更好地與現(xiàn)代API，比女BVulkan保持一致。和之前在Biforst中使用的ISA相比，親斤IsA采用了一部分新編碼，更為規(guī)整和易用。

另外，新IsA在指令調(diào)度上帶來了重大改進(jìn)。Va lhall架構(gòu)所采用的新ISA擺脫了固定的issue調(diào)度、clauseS子句和tuples元組。在Biforst中，ARM將指令的調(diào)度委托給編譯器，并且將指令分組到所謂的子句中。這種做法在實(shí)際應(yīng)用中的效果尚可，但需要在編譯器上投入大量工作才能隱藏指令和數(shù)據(jù)訪問之間的延遲，因此頗為麻煩。在Valhall中，這些編譯器的復(fù)雜工作都將不復(fù)存在。因?yàn)镮SA的調(diào)度將完全由硬件完成，更類似亂序執(zhí)行的CPU的工作方式。這種設(shè)計(jì)還意味著ISA和微架構(gòu)的脫節(jié)，更具前瞻性。

新lsA帶來了一些其他方面的優(yōu)化，包括紋理增強(qiáng)能力的加強(qiáng)，幾何流的優(yōu)化和ARM幀緩沖壓縮技術(shù)的優(yōu)化等（版本升級(jí)至1.3）。進(jìn)一步深入研究執(zhí)行引擎的話，可以發(fā)現(xiàn)執(zhí)行引擎分為四個(gè)塊，分別是：波前陣列調(diào)度程序、指令緩存的前端、兩個(gè)相同的數(shù)據(jù)路徑集群（處理單元）以及和消息塊連接的加載，存儲(chǔ)單元、固定功能模塊等。

Mali-G77的前端最多支持64寬的波前陣列和1024個(gè)線程。每個(gè)處理單元具有3個(gè)ALU：FMA和BCVT的波前陣列都是16寬度，而特殊的SFU波前陣列采用了4寬度。SFU并不是常用的單元，因此并不需要太大的吞吐量。

MaIi-G77的前端可以創(chuàng)建或者退回波前陣列數(shù)據(jù)，并且為所有的波前陣列進(jìn)行狀態(tài)跟蹤。另外，MaIi-G77前端還增加了一個(gè)動(dòng)態(tài)調(diào)度功能，這個(gè)功能可以決定每個(gè)波前陣列將執(zhí)行哪些指令，還可以將等待中的相關(guān)聯(lián)波前陣列替換為準(zhǔn)備執(zhí)行的無關(guān)聯(lián)波前陣列，盡可能提高執(zhí)行效率。

指令緩存方面，Mali-G77的前端指令緩存采用的是共享設(shè)計(jì)模式，并且是16KB、4路關(guān)聯(lián)的方式，支持2048個(gè)指令，每周期可以發(fā)出4個(gè)指令。在實(shí)際的處理單元（集群）中，Mali-G77設(shè)計(jì)74個(gè)可以發(fā)送指令到算術(shù)單元的拾取單元。每個(gè)拾取單元都設(shè)計(jì)了一個(gè)精密耦合的寄存器，以及一個(gè)用于減少訪問寄存器文件延遲的轉(zhuǎn)發(fā)緩沖區(qū)。FMA ALU每周期支持16個(gè)FP32FMA，是FP16的2倍，也是INT8點(diǎn)陣的2倍。轉(zhuǎn)換單元處理基本整數(shù)操作和自然類型轉(zhuǎn)換操作，同時(shí)也會(huì)被用作分支端口。

總的來看，相比Mali-G76，Mali-G77的執(zhí)行引擎資源更為豐富，類似于一臺(tái)發(fā)動(dòng)機(jī)和三臺(tái)發(fā)動(dòng)機(jī)之間的區(qū)別。Nali-G77的引擎在主數(shù)據(jù)路徑上有更多的資源，并且控制和指令緩存所占據(jù)的空間更少，從而提高了整個(gè)計(jì)算模塊的面積效率。

在延遲方面，新架構(gòu)的ALU延遲將變?yōu)?個(gè)周期深度，之前的產(chǎn)品為8個(gè)周期。這樣的變化可以在沒有鏈路操作時(shí)提高性能。此外，新核心具有類似超標(biāo)量的功能，而不是過去的管狀設(shè)計(jì)。由于延遲降低，整個(gè)核心流水線必須進(jìn)行重新設(shè)計(jì)，這也是編譯器簡(jiǎn)化的重要原因之一，因?yàn)榫幾g器不需要再匹配同時(shí)發(fā)出的指令大大降低了復(fù)雜程度。

Mali-G77架構(gòu)解讀

在看過基本架構(gòu)的設(shè)計(jì)后，再來看看Mali-G77微架構(gòu)設(shè)計(jì)的內(nèi)容。MaIi-G77微架構(gòu)從整體來看和上一代產(chǎn)品存在很多相似之處，但是在一些重要的模塊上存在明顯的變化。

Nali-G77的Shader核心依舊包合執(zhí)行引擎，其中包含了高速緩存的加載和存儲(chǔ)單元、屬性（attribute）單元，變化（varying）單元、紋理映射單元和像素后端，以及各種其他的3D固定功能模塊。其中變化最大的是紋理單元模塊，和Mali-G76相比，新的紋理單元模塊吞吐量增加了一倍。

從高級(jí)功能來看，新紋理單元微架構(gòu)的主要改變是在吞吐量的設(shè)計(jì)上。新的設(shè)計(jì)被分為2個(gè)路徑，其中一個(gè)是命中路徑，另一個(gè)是未命中路徑，后者可以用于處理緩存內(nèi)部或者紋理緩存外部的未命中情況。命中路徑自然是皆大歡喜的最短延遲優(yōu)化路徑。此外在命中路徑方面，紋理緩存得到了大幅度改進(jìn)，變成32KB容量，并且能夠達(dá)到16個(gè)紋理每周期的吞吐量。濾波單元也得到了改進(jìn)，其吞吐量也有所提高。在Mali-G77上，雙線性紋理每循環(huán)支持一個(gè)四邊形處理，三線性紋理每循環(huán)支持半個(gè)四邊形處理，這兩者都達(dá)到了Nali-G76類似單元吞吐量的2倍。

同樣，ARM也表示Mali-G77的新紋理單元和Mali-G76基本相同，不過吞吐量倍增還是顯示出這是一個(gè)非常好的工程改進(jìn)實(shí)例。

從根本上來說，核心紋理能力的這種大幅度增加改變了GPU的ALU：Tex的比率。盡管ALu的計(jì)算能力增加了33%，但是紋理單元的吞吐能力翻倍意味著比率回歸到了一個(gè)比較低的水平，更有利于紋理吞吐量。相比之下，過去的GPu更重視計(jì)算性能。ARM認(rèn)為這是面對(duì)新的工作負(fù)載所需要進(jìn)行的改變，因?yàn)槿缃馟Pu在紋理方面的壓力變得更大。

需要注意的是，雖然紋理單元過濾、吞吐量大幅度增加，但是像素后端吞吐量卻沒有增加。在這里，Shader核心依舊只能每時(shí)鐘抽取2個(gè)像素，因此現(xiàn)在的紋理、像素比率是2：1，前代產(chǎn)品則是1：1。

shader核心模塊中的另一個(gè)重要改進(jìn)是新的讀取存儲(chǔ)緩存。這個(gè)新模塊在功能上和之前的模塊相同，但是經(jīng)過了重新設(shè)計(jì)能夠接受更多的吞吐量。在同一區(qū)域內(nèi)，由于緩存重新設(shè)計(jì)因此對(duì)應(yīng)管道階段的延遲也降低至前代產(chǎn)品的一半。另外，新緩存的帶寬也增加了，達(dá)到前代產(chǎn)品的2倍。具體規(guī)格方面，緩存的大小為16KB、4路關(guān)聯(lián)，據(jù)說對(duì)機(jī)器學(xué)習(xí)等類似負(fù)載非常有用。

最后，我們將所有的部件放在一起，并從Shader級(jí)別擴(kuò)展至GPU級(jí)別之后，可以看到ARM是如何重新組織各個(gè)單元模塊而成為一個(gè)完整GPu的。目前新的架構(gòu)支持Shader核心1核心擴(kuò)展至32核心（MaIi-G77最多只能支持16個(gè)核心）。另外，ARM為RTL版本準(zhǔn)備的最小核心設(shè)計(jì)采用了7個(gè)Shade—亥心。ARM還有可能公布諸如MaIi-G52這樣的小核心方案，以滿足不同用戶的需求。

PPC和效率提高30%

前文描述了很多VaIhall架構(gòu)以及MaIi-G77的變化。當(dāng)然，所有的這些設(shè)計(jì)最終需要轉(zhuǎn)化為性能、效率等各方面的表現(xiàn)，才能體現(xiàn)出它的意義。

ARM同樣給出了相關(guān)性能的預(yù)覽圖。不過本次發(fā)布的性能預(yù)覽和過去存在很大差異，ARM采用了每平方毫米的性能作為對(duì)比單位。一般來說，由于芯片廠商會(huì)根據(jù)自己的不同市場(chǎng)定位和需求進(jìn)行配置，因此采用某種固定GPu核心數(shù)量和頻率的方案進(jìn)行比較的話，覆蓋面不夠廣泛。因此ARM改用了每平方毫米性能作為對(duì)比參數(shù)。ARM宣稱，Mali-G77相比前代產(chǎn)品，能夠提供1.2倍到1.4倍每平方毫米性能的提升。從絕對(duì)意義上看，Mali-G77的Shader核心和Mali-G76的面積相同。

這意味著供應(yīng)商在相同的性能需求下，可以選擇更小的GPu，或者使用更多的GPu核心（當(dāng)然需要更多的面積）來提高性能。尤其是ARIVl聲稱Mali-G77在重紋理游戲中的性能表現(xiàn)更為出色，因此未來設(shè)備在不同的工作負(fù)載下性能表現(xiàn)到底如何，這樣是一個(gè)值得探尋的話題。

提高性能的另一個(gè)方法是提高時(shí)鐘頻率。不過在移動(dòng)soc中，限制來自功耗，智能手機(jī)的soc最多只能容納4W～5W的TDP功耗。在性能比較中，一些消息顯示在完成相同工作負(fù)載的情況下，Mali-G77的能源消耗降低了17%-29%。換句話來說，Mali-G77的每瓦特性能是前代產(chǎn)品的1.2倍到1.39倍。ARN表示，Mali-G77的基本頻率不會(huì)發(fā)生太大變化，ARM依舊以850MHz作為其目標(biāo)值。

在橫向?qū)Ρ确矫?，ARM宣稱其在與采用Mali-G76的三星Exynos 9820對(duì)比時(shí)，新處理器的性能將提升1.4倍，這意味著未來采用Mali-G77架構(gòu)的50C將以更高的能耗比（假設(shè)維持目前的功率水平），提供接近蘋果A12處理器的GPU性能。這將給高通帶來巨大壓力，因?yàn)檫@樣的性能表現(xiàn)將顯著超越目前的高通所使用的Adreno 640。不過高通也將發(fā)布全新的Soc產(chǎn)品，讓我們拭目以待吧。

此外，在目前大熱的機(jī)器學(xué)習(xí)方面，Mali-G77的性能相比上代產(chǎn)品提升了60%，這不僅是由于內(nèi)核數(shù)量增加了33%，還包括Lsc以及帶寬所帶來的性能提升。最后，ARM也展示了MaIiGPu家族性能提升的代際比較。ARM宣稱其每代能耗比提升幅度大約是30%，Mali-G77相比Mali-G72更是節(jié)約了50%的能源。

ARM的又一次躍進(jìn)

從官方資料來看，Valhall架構(gòu)和Mali-G77將成為ARM近期的重大技術(shù)革新。全新的架構(gòu)將改變ARt在移動(dòng)GPU競(jìng)爭(zhēng)中的態(tài)勢(shì)，使得ARM可以提供更好的GPu架構(gòu)和技術(shù)。新產(chǎn)品將會(huì)帶來更好的表現(xiàn)，畢竟Valhall架構(gòu)是一個(gè)具有潛力的架構(gòu)，ARM還將基于它推出更多產(chǎn)品。

從實(shí)際產(chǎn)品來看，今年晚些時(shí)候或者明年初，我們就可能看到三星或華為推出了基于Valhall架構(gòu)和Hali-G77的相關(guān)Soc產(chǎn)品。目前來看，Mali-G77能夠帶來出色的性能和效率提升，這使得三星和華為的處理器能夠進(jìn)一步縮小甚至超越和蘋果、高通的產(chǎn)品，尤其是高通的Aderno GPU，可能將面臨更為嚴(yán)峻的挑戰(zhàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

超強(qiáng)圖形性能護(hù)航5G時(shí)代解析ARM Valhall GPU架構(gòu)及Mali-G77