徐昌宇
在上一期文章中,我們介紹了有關英特爾2021年架構(gòu)日發(fā)布的產(chǎn)品中兩款全新的處理器微架構(gòu)、Alder Lake以及有關線程調(diào)度器的內(nèi)容。除此之外,英特爾還帶來了新的GPU產(chǎn)品、AMX以及Sapphire Rapids等產(chǎn)品和技術(shù)。接下來,我們就針對這部分內(nèi)容繼續(xù)進行深度解讀。
搶占圖形市場至高地位英特爾Xe-HPG架構(gòu)預覽
在英特爾Xe架構(gòu)中,面向中高端GPU市場的產(chǎn)品一直猶抱琵琶半遮面。本次架構(gòu)日發(fā)布會上,英特爾終于給出面向消費者市場的Xe-HPG架構(gòu)的部分信息。
從第9代核芯顯卡到第11代核芯顯卡,再到新的Xe-LP核芯顯卡,在保持功耗不變的情況下,英特爾使得這三代產(chǎn)品的性能逐代翻倍。接下來,英特爾將進一步把Xe架構(gòu)使用在更高端的產(chǎn)品上,比如今天的主角:Xe-HPG。
英特爾在2021年8月17日就已經(jīng)宣布其GPU產(chǎn)品的英文名、中文名以及架構(gòu)代號。英特爾的GPU產(chǎn)品正式名稱是英特爾銳炫,英文名稱是Intel ARC。第一代GPU的架構(gòu)代號為Alchemist也就是“煉金術(shù)師”,后三代產(chǎn)品的架構(gòu)代號分別是“Battlemage”(戰(zhàn)斗法師)“Celestial”(天人)和“Druid”(德魯伊),全部采用魔幻故事中存在的人物或者職業(yè)名稱。
英特爾認為目前GPU的研發(fā)工作需要“軟件優(yōu)先”,要面對幾十億、上百億晶體管的協(xié)同工作并能夠適應各種場合、應用的需求,軟件成為整個開發(fā)的核心,軟件對應的就是需求,這是硬件需要滿足的內(nèi)容。在這種情況下,英特爾進行了重大的代碼重構(gòu),全面優(yōu)化了獨立顯卡產(chǎn)品的本地內(nèi)存使用率,針對圖形編譯器、內(nèi)存管理、DDI線程、命令解碼、提交以及GPU配置文件等都進行了優(yōu)化和更新。其變化包括將游戲加載時間縮短最多25%,將CPU密集型游戲的吞吐量提高多達18%等,這些改善意味著英特爾在編譯器操作上更為聰明,比如消除冗余編譯以及線程調(diào)度方面進行優(yōu)化等。在API方面,新GPU支持包括DirectX 12、Vulkan這類最先進的API(沒有提到OpenGL),另外還支持包括UE系列、Unity系列在內(nèi)的主流游戲引擎。用戶體驗方面,英特爾希望帶給用戶的體驗包括平滑流暢的游戲、實時的游戲串流、更為現(xiàn)代化的用戶界面以及可調(diào)節(jié)的|生能(超頻體驗)等。
XeSS:英特GPU產(chǎn)品的性能倍增器
在GPU產(chǎn)品發(fā)布之前,英特爾首先宣布了一個重大創(chuàng)新,那就是全新的XeSS,全稱是Xe Super Sampling,也就是Xe超級采樣。英特爾將其看作一種在較少的性能損耗下就能實現(xiàn)4K級別乃至更高分辨率高質(zhì)量畫質(zhì)輸出的重要技術(shù)。英特爾在發(fā)布會上演示了多個DEMO,并且宣布在8月底就可以提交初版的XeSS給游戲開發(fā)商進行游戲植入和優(yōu)化。
英特爾用了一張圖來描述XeSS的工作過程。一般來說,類似的技術(shù)比如英偉達的DLSS或者AMD FSR都是根據(jù)較低分辨率渲染的畫面(比如1080p)的信息,進行放大、優(yōu)化后,將其擴大為較高的分辨率然后進行輸出。這個過程中,各廠商在具體如何放大和優(yōu)化畫面的技術(shù)上存在一些差異。比如英偉達的第一代DLSS在放大畫面后可以主動尋找邊緣并進行一定程度的銳化,而第二代DLSS采用像素對比或者前后幀對比進行更精細、準確的優(yōu)化。
XeSS和第二代DLSS接近,也是利用空間數(shù)據(jù)和時間數(shù)據(jù)來進行組合并形成神經(jīng)網(wǎng)絡從而提升游戲分辨率??臻g數(shù)據(jù)就是相鄰像素之間的差異,時間數(shù)據(jù)則是指前一幀畫面和后一幀畫面之間的差異。通過這些差異,神經(jīng)網(wǎng)絡可以確定放大后的畫面哪些地方需要進一步加強,最終合成一個比較合理的放大畫面。英特爾展示了XeSS的部分運行畫面,實際效果還是不錯的。當然,這只是一些演示DEMO,在真正的游戲環(huán)境中,面對干差萬別的游戲場景,XeSS可能會出現(xiàn)一些問題,比如模糊、閃爍、重疊或者錯誤的加強等,這還需要英特爾花費更多的精力進行優(yōu)化。
由于XeSS的計算涉及到神經(jīng)網(wǎng)絡,所以會調(diào)用XMX矩陣數(shù)學單元進行處理。這個單元也是本次發(fā)布會中首次出現(xiàn)的Xe-HPG中存在的重要模塊。顯然,英特爾正在將更多矩陣數(shù)學的相關硬件單元加入CPU或者GPU中,尤其是后者能夠使得XeSS這類技術(shù)迅速完成處理,從而帶來極小的幀時間開銷。不僅如此,英特爾還在進一步努力,希望開發(fā)一種不需要矩陣數(shù)學硬件的XeSS版本,也就是XeSS DP4a。XeSS DP4a使用4元素矢量點積進行處理,其計算規(guī)模和難度都小了很多,幾乎所有的GPU都支持DP4a類型的計算,包括英偉達和AMD的產(chǎn)品,但計算精度或者計算速度相比專門的矩陣數(shù)學存在一定差距。
英特爾在XeSS上的策略類似AMD和英偉達的結(jié)合,比如AMD的開放策略可能類似XeSS DP4a的部分,也就是所有產(chǎn)品包括競爭對手的產(chǎn)品都可以使用。而更好效果(或者更少性能損失)的部分則屬于XMX專屬(類似于英偉達的DLSS),也就是英特爾Xe-HPG GPU專屬的。在理想的狀態(tài)下,英特爾在XeSS上的“DP4a+XMX”策略具備更好的兼容性,大幅節(jié)約了游戲人員的開發(fā)工作,可以更廣泛地吸引游戲人員選擇。英特爾還宣布,未來將對XeSS徹底開源,如果英特爾最終提供了一個效果和性能兼具的XeSS完成版本并將其開源的話,這對英偉達和AMD來說是一個非常不好的消息。
從現(xiàn)場展示的DEMO來看,XeSS具備了將畫面從1080p分辨率升級至4K的能力,4K畫面和真4K畫面非常接近,1080p分辨率下模糊的一些紋理細節(jié)都得以呈現(xiàn)。一種可能是,英特爾XeSS并非只是簡單放大畫面,而是采用了類似LOD技術(shù)之類的手段來處理一些敏感的紋理部位以獲取更好的圖像質(zhì)量,這顯示XeSS已經(jīng)相當成熟了。然而,英特爾在這里沒有給出任何幀數(shù)方面的對比以及更多復雜場景的對比,比如樹林、斜面紋理、運動場景、復雜陰影等。
實際上英特爾這么著急開發(fā)XeSS這樣的技術(shù)有2個重要的原因:一方面是類似DLSS、FSR、XeSS這樣的技術(shù)的確是性能倍增器,可以在畫質(zhì)損失很?。ɑ蛘邲]有損失)的前提下提供大幅度的性能提升,尤其是在4K顯示器顯著增長的今天,這項技術(shù)能夠帶給用戶最實際也是真正可用的4K游戲體驗,這將極大提高對應GPU產(chǎn)品的市場號召力。另一方面則是目前GPU的性能嚴重不足,尤其是在光線追蹤時代來臨后,幾乎無限的計算需求面臨有限的計算資源,使得人們不得不采用這種手段來繞開性能瓶頸。所以,之前一段時間有部分玩家甚至媒體人員宣稱的所謂GPU性能過剩論是完全錯誤的,包括所謂CPU性能過剩論,其實在現(xiàn)代計算尤其是人們需要的更高精度、更智能的計算面前都非?;闹?。所謂過剩,只是當前設備無法達到下一個階段的計算需求從而表現(xiàn)出來的無力感。