OverLord
新顯卡時代,因為英特爾的加入變得越來越有趣,經(jīng)歷了幾年的顯卡漲價風波后,近期顯卡價格已經(jīng)趨于平穩(wěn),這對未來一段時間上市的新一代顯卡起到了很好的鋪墊作用——更為合理的價格、更出眾的顯卡性能指日可待,在臨近(部分已經(jīng))上市的時機,筆者在這里和讀者朋友們一起分享新一代顯卡/GPU(圖1),各家產品的技術特色,為日后的采購打好知識儲備。
AMD Radeon RX7000系列顯卡
AMD下一代Navi 3x系列GPU將基于RDNA 3架構(圖2),預計初期會有三款產品,分別是Navi 31、Navi 32和Navi 33。其中Navi 31和Navi 32將采用MCM多芯片封裝,而GCD(圖形芯片)和MCD(緩存I/O芯片)會采用兩種不同的芯片工藝。而且,圖形芯片部分會使用TSMC 5nm工藝,而在緩存I/O芯片上則會采用TSMC 6nm工藝制造。而作為定位低階一些的Navi 33,將會采用TSMC 6nm工藝制造。
在規(guī)格上,當前有很多不同的信息(圖3),但大都存在一些不合理的地方,筆者綜合了多個渠道的信息,認為Navi 31將擁有60個WGP(15360個流處理器),Infinity Cache為256MB,顯存位寬仍維持在256bit,配備16GB的GDDR6顯存,核心頻率為2.5GHz。Navi 32則擁有40個WGP(10240個流處理器),Infinity Cache為192MB,顯存位寬為192位,配備12GB的GDDR6顯存;Navi 33目前存疑的地方在于WGP數(shù)量,范圍在16至20個WGP(4096至5120個流處理器),Infinity Cache為64MB,顯存位寬為128位,配備8GB的GDDR6顯存。
預計在2022年末,我們就可以看到R X7000系列顯卡顯卡上市,筆者非常看好Navi 32為核心的顯卡擁有較高性價比,預計會有意想不到的驚喜。
NVIDIA GeForce RTX 40系列顯卡
NVIDIA GeForce RT X 40系列顯卡基于全新的AdaLovelace架構,其中RTX 4090將采用AD102核心,RTX 4080基于AD103核心,RTX 4070基于AD104核心,而RTX 4060則基于AD106核心。以AD102的核心(圖4)為例,根據(jù)目前的信息,它將包括12組GPC、72組TPC、144組SM,每組SM有128個FP32浮點核心、64個INT32整數(shù)核心。同時,RTX 40系列顯卡的旗艦型號AD102核心可能具有96MB二級緩存,是上一代的16倍,顯存規(guī)格為24GB GDDR6X(位寬為384bit,帶寬達到21Gbps)。
需要注意的是,RTX 40系列顯卡顯卡并沒有采用超大位寬的顯存設計方案,而是大幅度提升了二級緩存的容量,應該可以部分彌補GDDR顯存(圖5)的高延遲問題,在這方面的性能可能更加出色。此外,其功耗可能會大幅度提升,好在它支持PCIe 5.0規(guī)范接口與ATX 3.0電源規(guī)范,可以得到足夠的供電??梢灶A見的是,新一代顯卡的性能必然有一個大幅度的提高,但相應的消耗也更大——為此你可能需要更新整套電腦系統(tǒng)。當然,筆者也相信在非旗艦產品上,如RTX 4060顯卡等等,都還會考慮到兼容問題而兼容更低規(guī)范(如PCIe 4.0接口、ATX 2.3電源規(guī)范)的產品,所以也不用太過擔憂。
英特爾ARC系列顯卡
英特爾其實不算獨顯市場的“新人”——24年前英特爾就曾經(jīng)推出過獨立顯卡。而今,英特爾再次進入獨立顯卡市場,而且是率先發(fā)布上市新世代產品的廠商。英特爾ARC系列顯卡延續(xù)了處理器的命名方式,分為3、5、7三個系列,ARC 3針對主流游戲,ARC 5針對性能需求更高的大型游戲,ARC 7針對性能需求極高的高品質游戲。
在臺式機獨顯市場上,率先上市的是ARC 3系列的ARC 380顯卡(圖6),透過它也可以管中窺豹,一探究竟。從規(guī)格上看,Xe-HPG架構的靈活性十分優(yōu)異,它最多可以擴展到8個Render Slice(渲染切片),每個Slice包含有4個Xe-core,加上4個專為光線追蹤加速的單元,支持DXR和Vulkan光追,以及一些針對網(wǎng)格著色、采樣器反饋等DirectX 12 Ultimate圖形技術的硬件單元。
此外,Xe-HPG架構(圖7)中還帶有負責視頻處理的Xe MediaEngine(Xe媒體引擎)(圖8),可支持VP9、AVC、HEVC和AV1格式的硬件編解碼,最高能支持到8K@60FPS 12bit HDR硬解碼,以及8K 10bit HDR硬編碼。
最后是負責畫面輸出的Xe顯示引擎部分,Xe-HPG架構帶有4個顯示通道,支持HDMI 2.0b、DisplaysPort 1.4a和2.0 10GReady,最高支持輸出2條8K60 HDR,或者4條4K120 HDR,而2K和1080P均能達到360Hz,并支持Adaptive Sync、SpeedSync和Smooth Sync三種顯示同步技術。
從實際的使用上看,英特爾獨立顯卡尚存在著驅動優(yōu)化空間,假以時日,這個獨立顯卡的“老將新兵”定能憑借著強大的技術優(yōu)勢迎頭趕上,有興趣的朋友不妨多多關注。
除了基礎規(guī)格,顯卡還有一些“看不見”或者說被忽略的重要技術規(guī)格,它們也很大程度上決定著顯卡的性能、功能,所以,不要單純看外在的硬件規(guī)格堆積,內涵是否豐富也十分重要。
1 圖形API至關重要
按理說,圖形API并不是普通電腦用戶需要了解的事情,畢竟它主要針對游戲開發(fā)者,但是,作為電腦圖形程序接口的開放標準,它某種程度上決定著游戲是否能夠完全釋放顯卡的性能。現(xiàn)在總是聽說DirectX12、Vulkan這樣的名詞,這二者就是目前競爭最為激烈的圖形API接口。
OpenGL
OpenGL(圖9)全稱為Open Graphics Library,原本是行業(yè)領域中最為廣泛接納的2D/3D圖形 API,自誕生至今已催生了各種計算機平臺及設備上的數(shù)千種優(yōu)秀應用程序。它是個與硬件無關的軟件接口,可以在不同的平臺如Windows、Unix、Linux、macOS、OS/2之間進行移植。不過現(xiàn)在它已經(jīng)停止繼續(xù)開發(fā)。
Vulkan
Vulkan(圖10)是Khronos組織制定的開放圖形A P I 接口,重點就是和DirectX12進行競爭。其實它是基于AMD的Mantle API產生的,提供了能直接控制和訪問底層顯示核心的顯示驅動抽象層,這樣能夠顯著提升操作顯示核心硬件的效率和性能。
簡言之,Vulkan秉承著“少即是多”的原則,盡可能減少接口對于硬件的干預,這樣可以充分調用硬件資源,全數(shù)用來處理軟件的圖形生成工作,無疑,它的效率極高,而且可以實現(xiàn)跨平臺使用。
DirectX
DirectX的全稱為Direct eXtension,是由微軟公司創(chuàng)建的圖形API接口,最新版本為DirectX 12(圖11)。由C++編程語言實現(xiàn),它被廣泛使用于微軟的Windows操作系統(tǒng)、Xbox游戲機上的圖形軟件開發(fā),但是它也僅限于上述兩個平臺,不支持Linux等操作系統(tǒng)。不過在Windows以及Xbox平臺上,其表現(xiàn)十分優(yōu)異,早年在和3DFX的Glide API競爭勝出后就再無對手,Vulkan雖然非常優(yōu)秀,也無法真正撼動DirectX的霸主地位。
目前,無論是英特爾還是AMD、NVIDIA,都能夠完整支持上述圖形API,當然,應用最多的還是DirectX,這和龐大的Windows生態(tài)不無關系。
2新一代顯卡完整支持AV1
2022年三大顯卡核心廠商都將全面支持完整的AV1編、解碼,這是一次重要的功能升級,也為未來十年做好了準備??刹灰】匆曨l編解碼功能,這是非常重要的一個硬件功能,可是大家往往都會忽略掉。要知道視頻的編碼都是有損壓縮,通過更好的壓縮比在同體積下提供更好的視頻質量,或者在同樣的視頻質量下將體積壓縮得更小,就是視頻編碼不斷變化更新的重要推動力。
現(xiàn)在無論是集顯還是獨顯,其實都有專門的單元負責編解碼工作(見圖7、圖8)。根據(jù)它們的技術特點、檔次高低,對編碼格式的支持也不盡相同。由于這些編碼單元都是固化在顯卡核心之中的,因此你使用的顯卡支持哪一些視頻編碼格式,從一開始就確定了,無法以軟件升級的形式獲得對新格式的硬件編解碼功能。之所以需要特定的單元做視頻編碼設計,是因為它依據(jù)特定的編碼算法進行設計,而不是軟件編程來支持。這也是為什么顯卡編碼、解碼被稱作“硬件編解碼”(圖12),如果以處理器進行編碼、解碼工作,則被稱之為“軟件編解碼”。
那么,為什么筆者這么強調AV1(圖13)編解碼功能呢?它是時下已經(jīng)普及的HEVC(即H.265)編碼的下一代產物,主要解決了超高分辨率視頻的需求——在8K分辨率下(7680×4320)HEVC已經(jīng)不足以應對,必須有一個壓縮比更高的視頻編碼格式。同時,無論是H.264還是HEVC,都受到專利授權的影響,任何平臺(如視頻在線網(wǎng)站)想使用這些編碼格式提供視頻媒體服務,都必須繳納一筆專利授權費用。因此,2015年以谷歌為首的諸多廠商組建了一個新的聯(lián)盟:開放媒體聯(lián)盟(AOMedia),目標只有一個:設計一個免費、高效的視頻編碼格式。
AV1的全稱是AOMedia Video 1,它是由谷歌開發(fā)的流媒體編碼VP9衍生而來,它在技術上最大、最主要的特征就是AV1擁有高于HEVC 20%的壓縮比(圖14),這讓其具備了承載8K視頻編解碼工作的能力。為了進一步提高壓縮比、降低(消除)專利費,AV1的誕生可謂是“重任在肩”。與HEVC編碼格式相比,它不僅能保持原視頻的分辨率、幀率、比特率,視頻體積還能再縮小20%,這就意味著在同等帶寬下可以流暢傳輸更高畫質的視頻,例如未來的8K視頻。
在硬件端,當前英特爾的內置顯卡Iris Xe、核芯顯卡UHD700系列,以及AMD的RX6000系列、NVIDIA的RTX30系列獨顯,都開始提供AV1的解碼能力,英特爾ARC系列則提供了完整的編解碼能力。在軟件端,也就是視頻來源方面,愛奇藝、嗶哩嗶哩等在線視頻網(wǎng)站,也從2021年開始小規(guī)模的嘗試使用AV1編碼處理視頻。要在電腦本地播放AV1編碼視頻,還需要額外安裝解碼器才可以——在Windows系統(tǒng)的Microsoft Store商店中搜索“AV1 Video Extension”,匹配到擴展插件后,點擊AV1 Video Extension的“獲取”按鈕(圖15),系統(tǒng)將自動安裝。安裝完畢,默認自帶的播放器就可以正常播放AV1格式的視頻了(是否能夠硬件解碼需要視顯卡而定)。
注意,如果你想要自行生成更好的AV1視頻,光有解碼能力是不夠的的,當前除了英特爾能夠在核顯上提供完整的AV1編碼能力(圖16)外,AMD和NVIDIA都尚未支持。而未來,除了新一代的英特爾ARC獨顯外,已經(jīng)確定的AMD RX7000系列、NVIDIA RTX40系列也終于提供了對AV1視頻編碼的完整編碼能力,這可以讓擁有上述顯卡的電腦平臺在視頻播放和處理方面,至少能支持1 0 年左右的有效使用時間,意義非凡。
3顯存容量、位寬不能忽略
除了顯示核心之外,還有另一個因素決定著顯卡性能、尤其是高分辨率下游戲性能,這就是顯存配置,包括容量(圖17)、速度和位寬等參數(shù)。顯示器有不同的分辨率,如我們常說的1080P、2K、4K分辨率,以1080P為例,代表著顯示器上排列著1920×1080個像素,即2073600個像素點,這個數(shù)字也是該顯示器所能描繪的像素點的最大數(shù)量。軟件(游戲)生成的計算數(shù)據(jù)會通過處理器發(fā)送到顯卡上計算出畫面,最后輸出到顯示器上,這個過程中必須使用顯存來暫存這些待顯示的“像素數(shù)據(jù)”。這些暫存的數(shù)據(jù)也并不是簡單的2D圖形圖像,以一個建筑場景(圖18)為例,在生成畫面時顯卡會完整計算這個建筑的立體結構全部細節(jié),它由無數(shù)個頂點組成的多邊形“拼湊”而成,外部貼上模擬墻體、瓦片、柱子、浮雕、布幔材質的圖片,這些頂點的位置、顏色與材質貼圖的數(shù)據(jù)量非常龐大。要注意一些不能顯示在2D界面(顯示屏幕)的3D構造“暗面”一樣要暫存在顯存之中,所以不能只看到當前視野中的景物簡單就認為顯存占用不大。
值得一提的是,如果在游戲中用戶打開抗鋸齒技術,由于抗鋸齒技術需要更多的采樣點,這樣實際游戲存儲在顯存中的數(shù)據(jù)容量還會成倍增長,所以現(xiàn)在顯存不僅僅要求速度更快,容量也越來越大。
不僅如此,顯存同內存類似,還有一個非常重要的技術指標叫做“位寬”,顯存位寬是顯存在一個時鐘周期內所能傳送數(shù)據(jù)的位數(shù),位數(shù)越大則瞬間所能傳輸?shù)臄?shù)據(jù)量越大。目前最低端的顯卡位寬為64位,之后是128位,高端顯卡一般顯存都是256位、384位乃至512位的位寬(GDDR6),HBM2顯存甚至可以達到驚人的2048位!位寬與頻率的乘積就是帶寬(圖19)。當然,這也并不是說顯存位寬必須越寬越好,例如NVIDIA GeForce RTX40系列如果真的采用大容量高速二級緩存作為“數(shù)據(jù)緩沖”,不失為另一個解決方案——當然代價就是功耗、發(fā)熱增加,成本也相對高出不少。
顯存與顯示核心相輔相成(圖20),顯存不夠最直觀的感受就是卡頓,這樣說是不是就更容易理解一些了?至于現(xiàn)在的顯卡顯存容量,大家可以看到中端顯卡的顯存一般是在6GB~8GB左右,入門級別的顯卡是4GB,中高端產品在8GB~12GB之間,旗艦型產品的顯存已經(jīng)突破20GB了。