超越超級(jí)計(jì)算機(jī)？解析NVIDIA Tegra X1

2015-04-29 00:44:03

電腦迷 2015年3期

去年那則NVIDIA要退出手機(jī)市場(chǎng)的消息廣泛傳播，讓大家覺得NVIDIA可能真的要放棄移動(dòng)芯片市場(chǎng)了，而之后NVIDIA CEO黃仁勛在接受采訪時(shí)又表示，NVIDIA并不是要完全退出移動(dòng)設(shè)備市場(chǎng)，而是希望在平板、車載電腦、游戲機(jī)頂盒市場(chǎng)上有所作為，這也為后面埋下了伏筆。

NVIDIA已經(jīng)連續(xù)幾年在每年開頭的CES上發(fā)布新一代的Tegra移動(dòng)處理器了，所以今年黃仁勛再次親自登臺(tái)發(fā)布Tegra X1，大家并不覺得意外。雖然前兩代作品并不算特別成功，但是作為一款宣稱性能達(dá)到TFlops級(jí)別，媲美15年前超級(jí)電腦的移動(dòng)處理器，Tegra X1還是成功的吸引了大家地關(guān)注。

全新旗艦級(jí)移動(dòng)處理器Tegra X1配備了八核64位CPU以及256核Maxwell GPU，CPU設(shè)計(jì)部分和高通驍龍810以及三星Exynos7系列相似，256核GPU光看數(shù)量就已經(jīng)堪比入門級(jí)桌面獨(dú)顯了，而跑分自然也碾壓了上代產(chǎn)品K1和蘋果A8X。那么Tegra X1究竟為何如此強(qiáng)悍，又是否真的具備其所說的那樣達(dá)到超級(jí)計(jì)算機(jī)的技能能力呢？下面我們來一一解析。

CPU：放棄自主構(gòu)架用公版

Tegra X1采用了ARM的標(biāo)準(zhǔn)Cortex架構(gòu)，而沒有采用大家想象中的Tegra K1的Denver架構(gòu)增強(qiáng)版。無(wú)獨(dú)有偶，競(jìng)爭(zhēng)對(duì)手高通這次也放棄了之前為之驕傲的Krait架構(gòu)，同樣也選用了ARM的標(biāo)準(zhǔn)Cortex架構(gòu)。作為基于ARM標(biāo)準(zhǔn)Cortex深度定制的版本，英偉達(dá)和高通為Denver和Krait架構(gòu)付出了相當(dāng)多心血，在這個(gè)時(shí)候放棄自主架構(gòu)，很容易讓人想到是為了降低研發(fā)周期盡早上市。而且Tegra X1和驍龍810在處理器核心上的選擇也驚人的相似，均搭載了四顆Cortex-A57性能核心和四顆Cortex-A53低功耗核心。

具體來看，Tegra X1 A57核心采用了2MB共享二級(jí)緩存，每個(gè)核心還有48KB一級(jí)指令緩存和32KB一級(jí)數(shù)據(jù)緩存，A53核心共享512KB二級(jí)緩存，同時(shí)每個(gè)核心有32KB一級(jí)指令緩存和32KB一級(jí)數(shù)據(jù)緩存。NVIDIA吸取了之前在Tegra3上就開始應(yīng)用的4-PLUS-1設(shè)計(jì)經(jīng)驗(yàn)，Tegra X1能夠?qū)崿F(xiàn)比其他同樣采用A57/A53 CPU的SoC方案具有更高的能耗比，同時(shí)該系統(tǒng)采用緩存一致性解決方案，不會(huì)像類似方案那樣損失功耗和性能。

雖然從處理核心的角度來看，Tegra X1和驍龍810的差距不大，不過其實(shí)兩者還是有很多區(qū)別的，各種優(yōu)化方案和電源管理的加入，使得兩者最終的表現(xiàn)可能會(huì)大相徑庭。

另外，Tegra X1和驍龍810也都使用了20nm工藝制程，核心面積得以縮小并且功耗得到了更好的控制。NVIDIA目前尚未公布Tegra X1的主頻，從曝光的跑分測(cè)試來看，其主頻可能為1.9GHz-2.0GHz，而高通驍龍810的最高主頻可以達(dá)到2.7GHz。NVIDIA宣稱，Tegra X1在同等的CPU性能下和同級(jí)別SoC相比能夠提供幾乎2倍能耗比，在同等能耗比下則能提供后者1.4倍的CPU性能。如果這真能實(shí)現(xiàn)，還是非?？植赖?。

GPU：Maxwell架構(gòu)加持 1TFlops FP16浮點(diǎn)性能

除了處理器內(nèi)核中看不到的區(qū)別之外，NVIDIA Tegra X1和高通驍龍810最大的區(qū)別就在于兩者搭載的GPU了。作為一家從GPU起家的公司，NVIDIA無(wú)論在桌面還是移動(dòng)市場(chǎng)都對(duì)GPU有著非常高的重視程度。

NVIDIA花了兩年的時(shí)間將Kepler微架構(gòu)應(yīng)用在了移動(dòng)處理器K1上，而如今Maxwell微架構(gòu)從推出到登陸移動(dòng)處理器上只花了一年的時(shí)間，另外，Tegra X1采用的是第二代Maxwell架構(gòu)，它在桌面上推出到X1推出也才經(jīng)過了一個(gè)季度而已，進(jìn)步速度可以說相當(dāng)明顯。相比于配備192個(gè)渲染核心的Tegra K1，Tegra X1的GPU配備了多達(dá)256個(gè)Maxwell架構(gòu)渲染核心。256個(gè)CUDA核心在Maxwell架構(gòu)中正好是2組SMM單元，而Tegra K1所用的192個(gè)CUDA核心在Kepler架構(gòu)中是1組SMX單元，所以雖然CUDA核心數(shù)提升并不多，但2組SMM單元對(duì)1組SMX單元，紋理單元、ROP單元也都大大增強(qiáng)了，均有16個(gè)，尤其后者翻了兩番，性能依舊得到了大幅提升。

新架構(gòu)的許多新圖形特性包括更高效的CUDA核心、更優(yōu)秀的SMM陣列、第三代Delta色彩壓縮、保守光柵化算法、體積區(qū)塊資源（DX11.2）、多幀抗鋸齒（MFAA）等也被帶到了Tegra X1上。

值得一提的是，和開普勒一樣，麥克斯韋架構(gòu)也只有專門的單精度FP32、雙精度FP64 CUDA核心，并沒有給FP16分配獨(dú)立資源。在半精度FP16的支持上，NVIDIA稱之為“雙倍速FP16”（Double Speed FP16）。Tegra K1 FP16操作會(huì)被給予和FP32相同的待遇，每一個(gè)都交給FP32 CUDA核心處理。Tegra X1上如果條件允許，則會(huì)將兩個(gè)FP16合并成一個(gè)Vec2，交給單獨(dú)一個(gè)FP32 CUDA核心去處理，同時(shí)要保證這兩個(gè)FP16操作屬于同一類型，比如都是加法或者乘法。所以說，NVIDIA宣稱的原生支持FP16并不完全準(zhǔn)確，相對(duì)競(jìng)爭(zhēng)對(duì)手來說還是會(huì)差一些。ARM Mali、Imagination PowerVR都有獨(dú)立的FP16單元，AMD GCN 1.2版也會(huì)引入。FP16在Android顯示合成里使用非常頻繁，游戲里也大量使用，同時(shí)它還能參與圖形計(jì)算，如圖像識(shí)別，在NVIDIA Drive PX車載平臺(tái)里就需要用到它。

回過頭來看競(jìng)爭(zhēng)對(duì)手的驍龍810，其則配備了288個(gè)渲染核心的Adreno 430 GPU。雖然數(shù)量比Tegra X1還要多，但是主頻只有600MHz。Tegra X1的GPU主頻雖未公布，但是按照NVIDIA宣稱的1TFlops FP16浮點(diǎn)性能，那么應(yīng)該是1GHz以上（1GHz×2FP16×2FMA×256=1TFlops），這樣的話Tegra X1的GPU性能超過驍龍810應(yīng)該是沒有什么懸念。

從現(xiàn)有曝光的測(cè)試來看，BaseMark X測(cè)試中，Tegra X1的成績(jī)?yōu)?6.9FPS，蘋果A8X為40.2FPS，而Tegra K1則是36.3FPS。3DMark 1.2版Unlimited模式中，Tegra X1的成績(jī)?yōu)?8448，蘋果A8X為31781，而Tegra K1則是36688。GFXBench 3.0 Manhattan 1080p （Offscreen）測(cè)試中，Tegra X1的成績(jī)?yōu)?3.6FPS，蘋果A8X為32.6FPS，而Tegra K1則是31.7FPS。Tegra X1成功地碾壓了蘋果A8X和前作K1，另外在功耗上的表現(xiàn)依舊非常優(yōu)秀，Tegra X1的GPU部分功耗大約只有1.51W的樣子，而蘋果A8X的GPU部分功耗則達(dá)到了2.67W。

不過值得我們注意的是，從現(xiàn)在NVIDIA的意思來看， Tegra X1主要的應(yīng)用領(lǐng)域是在車載電腦領(lǐng)域，憑借強(qiáng)大的CPU和GPU性能，Tegra X1不僅能夠在汽車行駛過程中計(jì)算距離，而且還能同時(shí)處理來自多達(dá)六個(gè)攝像頭的視頻信號(hào)。但是如此強(qiáng)大的性能，進(jìn)入平板市場(chǎng)應(yīng)該也是遲早的事情，但是在這些領(lǐng)域，Tegra X1可能不得不為了節(jié)省電量和出于散熱考慮而降低頻率，另外還需要考慮到GPU對(duì)游戲數(shù)據(jù)包的兼容性問題，因此實(shí)際的體驗(yàn)或許并不會(huì)和測(cè)試一樣比目前市面上的高端處理器優(yōu)秀太多。

其他性能同樣優(yōu)秀

除了強(qiáng)大的處理器性能之外，作為一顆移動(dòng)處理器，多媒體性能、通信功能和其他功能也是非常重要的。NVIDIA Tegra X1支持60fps 4K視頻通過HDMI 2.0接口輸出，同時(shí)還支持H.265/H.264編解碼，JPEG圖片的壓縮和解壓縮速度也得到了大幅提高。此外，Tegra X1還支持eMMC 5.1、藍(lán)牙、Wi-Fi、NFC、GPS以及搭配2G/3G/4G通信基帶。相對(duì)來說，驍龍810在這方面的表現(xiàn)稍差，只支持eMMC 5.0，只能通過HDMI 1.4輸出或編輯4K/30fps的視頻，但是驍龍810整合了支持LTE Cat. 9網(wǎng)絡(luò)的基帶，最高數(shù)據(jù)下載速度可達(dá)450Mbps，讓其在手機(jī)領(lǐng)域能有更加出色的表現(xiàn)。

內(nèi)存帶寬作為限制移動(dòng)SoC性能的瓶頸一直是各大芯片廠商需要想辦法解決的部分。傳統(tǒng)的解決方案是增加位寬，但這個(gè)解決方案會(huì)大大提高復(fù)雜度和實(shí)現(xiàn)成本。Tegra X1已經(jīng)使用64-bit位寬，但是在內(nèi)存壓縮上大做文章，采用了第三代Delta色彩壓縮和新的端到端壓縮技術(shù)，再輔以頻率可達(dá)1600MHz 的LPDDR4內(nèi)存，峰值帶寬可達(dá)25.6GB/s，內(nèi)存帶寬問題得到了很好的解決。

超過超級(jí)計(jì)算機(jī)，還只是期望

NVIDIA宣稱Tegra X1的性能超過了15年前最快的超級(jí)計(jì)算機(jī)ASCI Red，那么這是真的嗎？較真是一件很有趣的事，下面我們一起來看看。

ASCI Red在美國(guó)能源部桑迪亞國(guó)家實(shí)驗(yàn)室服役了十年之久，是全球第一臺(tái)每秒能夠達(dá)到萬(wàn)億次浮點(diǎn)運(yùn)算的超級(jí)計(jì)算機(jī)系統(tǒng)，ASCI Red的占地面積超過了150㎡，功率高達(dá)500kW，且為其所占空間散熱還需再消耗500kW的電能，而Tegra X1只有拇指指甲大小，功耗不到15W。如此大的差異在讓人感嘆科技進(jìn)步的同時(shí)，不得不問，這是真的嗎？

這其實(shí)只是CEO老黃的一個(gè)文字游戲而已，通過Tegra X1的16位浮點(diǎn)性能和ASCI Red的64位浮點(diǎn)性能進(jìn)行比較而得出的，也就是說X1的FP16性能接近了ASCI Red的FP64性能。目前16位浮點(diǎn)運(yùn)算雖然能夠滿足某些圖像應(yīng)用程序的需要，但是對(duì)于高性能計(jì)算應(yīng)用卻還差得很遠(yuǎn)，所以FP16對(duì)比FP64并沒有太大的可比性，由于Maxwell架構(gòu)并不是為超級(jí)計(jì)算機(jī)設(shè)計(jì)，而64位浮點(diǎn)計(jì)算速率只相當(dāng)于32位浮點(diǎn)計(jì)算速率的1/32左右，因此Tegra X1中的256個(gè)渲染核心在32位浮點(diǎn)下能夠?qū)崿F(xiàn)512GFlops浮點(diǎn)運(yùn)算能力的話，那么在64位浮點(diǎn)計(jì)算下其速度僅為16GFlops浮點(diǎn)運(yùn)算能力而已，距離ASCI Red的TFlops級(jí)別還太遠(yuǎn)太遠(yuǎn)。但在16位浮點(diǎn)計(jì)算下能夠達(dá)到1TFlops的計(jì)算速度還是足以證明了Tegra X1擁有強(qiáng)大的性能，只是取代超級(jí)計(jì)算機(jī)還只是一個(gè)遙遠(yuǎn)的期望而已。

進(jìn)軍智能汽車市場(chǎng)

借助強(qiáng)大的性能，NVIDIA在CES2015上推出了兩套基于Tegra X1的車載平臺(tái)：“Drive CX”和“Drive PX”。Drive CX是一套全數(shù)字化的汽車計(jì)算套裝，硬件上依靠Tegra X1，軟件則是“Drive Studio”，可以實(shí)現(xiàn)車載娛樂、導(dǎo)航等全套功能，整個(gè)駕駛界面也是硬件渲染3D的，一個(gè)完整的解決方案。

Drive PX則是一個(gè)自動(dòng)駕駛開發(fā)平臺(tái)，使用了兩顆Tegra X1，支持最多12路攝像頭輸入，浮點(diǎn)性能2.3萬(wàn)億次。NVIDIA宣稱該系統(tǒng)會(huì)調(diào)動(dòng)CPU、GPU、VPE、ISP等幾乎所有處理模塊，并使用了GPU運(yùn)行的神經(jīng)網(wǎng)絡(luò)技術(shù)，可實(shí)時(shí)處理路況信息，包括其他車輛、信號(hào)燈、路標(biāo)、道路標(biāo)志、監(jiān)控?cái)z像頭等等，甚至部分行人。另外還擁有基于“Surround Vision”（環(huán)繞立體視覺）的自動(dòng)泊車，會(huì)根據(jù)攝像頭數(shù)據(jù)，生成停車場(chǎng)環(huán)境模擬，尋找停車路徑，自動(dòng)放好。

好技術(shù)不愁沒人賞識(shí)，奧迪已經(jīng)表示將引入“Drive CX”和“Drive PX”以幫助自己實(shí)現(xiàn)駕駛室數(shù)字化和自動(dòng)駕駛。而基于該系統(tǒng)的Renovo Coupe復(fù)古電動(dòng)超跑也將在今年內(nèi)發(fā)售。

毫無(wú)疑問，NVIDIA Tegra X1已經(jīng)成為了目前移動(dòng)平臺(tái)最強(qiáng)勁的處理器，不過英偉達(dá)表示智能手機(jī)和平板電腦現(xiàn)在還用不到Tegra X1的超強(qiáng)性能。我們需要注意的是，強(qiáng)大的性能帶來的高功耗和高發(fā)熱也是智能手機(jī)和平板電腦所不希望看到的，所以Tegra X1更適合智能汽車組件等對(duì)性能有著極高要求且無(wú)需嚴(yán)格限制功耗的領(lǐng)域。至于手機(jī)和平板，今年估計(jì)還是高通驍龍810的天下。而挑戰(zhàn)Tegra X1的高通的驍龍815/820也在計(jì)劃之中，到底鹿死誰(shuí)手，我們拭目以待。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

超越超級(jí)計(jì)算機(jī)？解析NVIDIA Tegra X1

超越超級(jí)計(jì)算機(jī)？解析NVIDIA Tegra X1