測試/朱輝杰 聞波
撰文/朱輝杰
NVIDIA Quadro M6000 24GB應(yīng)用性能測試
——萬元專業(yè)顯卡的價值在哪里?
測試/朱輝杰 聞波
撰文/朱輝杰
對于利用三維軟件進(jìn)行機電產(chǎn)品和建筑設(shè)計的工程師或設(shè)計師而言,專業(yè)顯卡并不陌生。這種專門開發(fā)的圖形加速卡,被安裝在圖形工作站中,針對CAID、CAD/CAM和CAE等應(yīng)用進(jìn)行了廣泛的功能認(rèn)證和性能優(yōu)化,不僅保證了專業(yè)圖形創(chuàng)建工作的高性能和高效率,還最大程度地提供了軟硬件功能兼容性和穩(wěn)定性。
雖然都是“顯卡”,普通顯卡提供日常影像顯示和三維游戲圖形加速,屬于娛樂工具,而專業(yè)顯卡則主要應(yīng)用于專業(yè)圖形創(chuàng)建、大規(guī)模數(shù)據(jù)可視化和GPU計算加速,是工程師和設(shè)計師的“生產(chǎn)工具”。為此,專業(yè)顯卡的價格往往遠(yuǎn)高于普通顯卡。
目前市場上的普通顯卡,即使是最頂級、最燒包的游戲顯卡Geforece GTX TITAN X,單片價格也不超過萬元。而在本文中,我們將測試的NVIDIA專業(yè)顯卡Quadro M6000 24GB,市場價格超過人民幣40,000元!這是目前能買到的頂級性能的專業(yè)顯卡之一。Quadro M6000 24GB采用的GPU GM200和Geforece GTX TITAN X是類似的,但前者的價格是后者的五倍!
驚人的價格能否帶來驚人的性能?作為“生產(chǎn)工具”,Quadro M6000 24GB在實際專業(yè)圖形軟件環(huán)境中,能否爆發(fā)與價格相配的能量?哪些行業(yè)、哪些工作需要Quadro M6000 24GB這樣的怪獸級專業(yè)顯卡?我們將通過一系列的應(yīng)用實測去尋找答案。
在正式測試開始之前,我們先了解一下NVIDIA Quadro M6000 24GB。
2015年,NVIDIA就已經(jīng)發(fā)布了Quadro M6000這款定位超高端的專業(yè)顯卡,當(dāng)時的Quadro M6000配備了12GB的GDDR5顯存,顯存的位寬是384bit,采用28nm制程的Maxwell GM200 GPU,最高GPU工作頻率達(dá)到1140MHz,提供3072個CUDA核心,192個紋理單元,其單精度浮點性能達(dá)到了7TFlops。2016年3月,NVIDIA直接將Quadro M6000的顯存翻了一倍,發(fā)布了24GB版本的Quadro M6000。
新版本的Quadro M6000提高了顯存容量,以應(yīng)付更大規(guī)模的三維圖像處理任務(wù)。對于三維建模和大規(guī)模圖形可視化用戶而言,圖形、圖像的整體規(guī)模,分辨率和精度正迅速提高,幾GB容量的模型和場景并不稀奇,在影像工業(yè)、企業(yè)級VR和地球物理等領(lǐng)域,數(shù)十GB的場景已經(jīng)進(jìn)入實用階段,這直接推動高端專業(yè)顯卡的顯存容量進(jìn)入賽跑階段。
Quadro M6000 24GB版本的另一個亮點在于“顯卡的工作頻率和溫度控制更聰明”。出于散熱、穩(wěn)定性和系統(tǒng)能耗控制的原因,即使是高端的專業(yè)顯卡,核心頻率也不是越高越好。NVIDIA更早采用GK110核心的高端專業(yè)顯卡產(chǎn)品Quadro K6000和采用GM204核心的Quadro M4000,核心頻率均未超過1000MHz大關(guān)。而2015年發(fā)布的Quadro M5000和Quadro M6000首次將頻率突破1000MHz,熱設(shè)計功耗直奔250W,負(fù)載峰值的發(fā)熱將十分驚人。這使得配備Quadro M6000的工作站,必須具有足夠強大的供電系統(tǒng),散熱也必須非常優(yōu)秀。2016年更新的Quadro M6000 24GB,讓核心頻率隨著應(yīng)用負(fù)載的變化更為“聰明”地匹配,從而改善功耗和散熱表現(xiàn),對于長時間、高負(fù)載應(yīng)用場合,進(jìn)一步提高了穩(wěn)定性。
表1 2015~2016典型高端專業(yè)卡,顯存越來越大,能耗越來越高
為了測試Quadro M6000 24GB,我們組建了比較貼近企業(yè)現(xiàn)實“工況”的圖形工作站,其配置如下:
表2 測試平臺的配置情況
在接下來的測試中,我們將使用工作站基準(zhǔn)測試程序SPEC Viewperf 12,三維設(shè)計軟件西門子NX、Autodesk AIP,產(chǎn)品方案逼真渲染軟件Showcase,以及多物理場仿真軟件COMSOL進(jìn)行實際模型和算例測試,以驗證NVIDIA Quadro M6000 24GB的性能和穩(wěn)定性表現(xiàn)。
SPECviewperf 12基準(zhǔn)測試
圖2 SPECviewperf 12由SPEC組織提供,該組織成員包括大部分工作站和顯卡廠商
SPECviewperf 12是最新版本的工作站基準(zhǔn)測試程序,用于測試工作站的在綜合圖形性能,它包含了CATIA(catia-04)、Creo (creo-01)、Energy (energy-01)、Maya (maya-04)、Medical (medical-01)、Showcase(showcase-01)、Siemens NX (snx-02)和Solidworks(sw-03)共八個獨立測試環(huán)境,以實景化模擬方式運行,幾乎囊括了線框計算、動態(tài)渲染、實體操作和規(guī)模數(shù)據(jù)可視化等所有常見的專業(yè)圖形模式,能比較全面、公正地衡量系統(tǒng)的圖形性能。
SPECviewperf 12是SPECviewperf變動較大的一個版本,相比10和11版本,測試項目和模型、場景有了大幅度的更新,提高了測試應(yīng)用軟件的版本,對OpenGL和DirectX API進(jìn)行了版本更新,提高了測試系統(tǒng)的硬件門檻(包括主頻、內(nèi)存容量、分辨率、API版本等)。因此,SPECviewperf 12對顯卡性能的要求更苛刻,在12版本得出的測試成績,失去了和早期版本SPECviewperf橫向?qū)Ρ鹊囊饬x。
圖3 catia-04,CATIA模擬測試,基于V6 2012版本,模型規(guī)模大于上一版本
圖4 maya-04,Maya測試場景,基于2013版本,樣例場景更新
圖5 showcase-01,基于數(shù)字樣機應(yīng)用普及,新增Showcase場景,采用2013版本
從測試成績看,Quadro M6000 24GB確實體現(xiàn)出了高端顯卡的性能水平,例如在Siemens NX 8.0版本的大規(guī)模實體和線框模型測試中,166.92的分?jǐn)?shù)遠(yuǎn)高于大部分中端專業(yè)顯卡100上下的水準(zhǔn),而普通顯卡在此類測試中不僅分?jǐn)?shù)會慘不忍睹,還會出現(xiàn)破面和貼圖問題(主要會出現(xiàn)在Creo和NX、SW測試中)。
此外,我們在SPECviewperf測試環(huán)節(jié)進(jìn)行了循環(huán)測試,循環(huán)次數(shù)設(shè)定為8,連續(xù)運行超過33小時后,顯卡始終保持穩(wěn)定,而且沒有因為頻率負(fù)載優(yōu)化降低性能。
圖6 snx-02測試,Siemens NX應(yīng)用測試,基于8.0版本,模型規(guī)模大幅度提高
表3 SPECviewperf 12的測試得分情況
在此環(huán)節(jié),為了盡可能的貼近大多數(shù)讀者的應(yīng)用環(huán)境,我們選擇了用戶基礎(chǔ)更廣泛的Siemens NX 9.0版本,而不是更新的10.0版本。NX是集成產(chǎn)品設(shè)計、工程與制造于一體的解決方案,是國內(nèi)用戶群最大的高端交互式CAD/ CAM(計算機輔助設(shè)計與計算機輔助制造)系統(tǒng)。
由于用戶集中在汽車、船舶、新能源和大型裝備等行業(yè),Siemens NX經(jīng)常被用于創(chuàng)建和處理高精度的大體量產(chǎn)品模型,其對顯卡的性能需求非常高。NX軟件的用戶最好使用經(jīng)過西門子官方認(rèn)證的專業(yè)顯卡,以保證實現(xiàn)完整的功能,確保穩(wěn)定性。使用普通的顯卡,在NX軟件中模型很容易出現(xiàn)顯示不全、黑面、暗邊和目標(biāo)點選不中等問題,而Quadro M6000是經(jīng)過了西門子官方認(rèn)證的專業(yè)顯卡。
我們測試了兩個范例模型,一個是拉拔機生產(chǎn)線模型,包括拉拔機生產(chǎn)線本體和數(shù)字模型人,用以驗證生產(chǎn)線的工況和流程;另一個是某商用飛機總體數(shù)字化模型。前者選自實際大規(guī)模生產(chǎn)線設(shè)計項目,包含全部動力系統(tǒng)、操作執(zhí)行機構(gòu)和緊固連接件,模型規(guī)模超過1GB。后者是獲獎的建模設(shè)計項目,模型細(xì)節(jié)豐富,包含超過5400多個零部件(含重復(fù)件)。
圖7 拉拔機生產(chǎn)線,使用NX 8.0版本設(shè)計,在NX 9中進(jìn)行模擬測試
我們在軟件中對這兩個模型進(jìn)行實體旋轉(zhuǎn)、平移和剖切,調(diào)整各種視角,并進(jìn)行軟件內(nèi)的渲染。系統(tǒng)出乎意料的快,各種操作幾乎沒有延遲,只是可能由于系統(tǒng)I/O瓶頸,在線框模式下稍顯停滯,硬盤燈狂閃。
圖8 拉拔機生產(chǎn)線,全數(shù)字化的生產(chǎn)線驗證
圖9 某商用飛機整體數(shù)字化模型,加載數(shù)據(jù)過程有些緩慢,但模型操作流暢
圖10 某商用飛機數(shù)字化模型的動力系統(tǒng)
Quadro M6000確實沒有辜負(fù)其40000元以上的價格。
相比定位高端的Siemens NX,AutodeskInventor則是定位中端的三維設(shè)計軟件,其用戶人群同樣十分廣泛,特別是通用機械設(shè)計、通用零部件和非標(biāo)準(zhǔn)設(shè)備等領(lǐng)域,擁有越來越廣泛的用戶基礎(chǔ)。AutodeskInventor版本更新很快,我們在本次測試中使用群眾基礎(chǔ)最好的AutodeskInventor 2015版本。
測試項目包括兩個。
第一,直徑1600mm主樁、副樁液壓倒樁臺車裝置。這是實際環(huán)境的大型非標(biāo)準(zhǔn)設(shè)計項目,包含主樁、副樁兩部分,其中不僅含有全套的油缸滑輪總成,還包括全套的桿、板、柱、筋和架結(jié)構(gòu),模型總體規(guī)模龐大。按照此類設(shè)備的實際設(shè)計環(huán)境(因為主體是鋼結(jié)構(gòu)),我們沒有設(shè)定任何不必要的材質(zhì)和光。操作中,十分流暢,只有切換二、三維視圖時,稍有停滯,但幾乎不影響實際工作。
第二,3000KW水下泥泵齒輪箱的動畫渲染和輸出。水下泥泵齒輪箱的結(jié)構(gòu)簡單,但體量巨大,而且進(jìn)行實時、動態(tài)的渲染和播放,以檢驗各部件的運動情況,這是AutodeskInventor用戶常用的工作內(nèi)容。這個工作比較挑戰(zhàn)顯卡的渲染和計算能力。實際效果和我們預(yù)期類似,整體過程流暢,速度飛快。而且當(dāng)我們將輸出分辨率提高到2K水準(zhǔn)后,仍然保持流暢。
我們連續(xù)渲染多次,不斷提高分辨率,最終結(jié)果幾乎都在一分鐘內(nèi)完成,這對設(shè)計工作的遲滯可以忽略不計。當(dāng)然,此類機械部件項目雖然體量巨大,但往往材質(zhì)和光源要求不高,作為高端顯卡Quadro M6000,也是應(yīng)有的表現(xiàn)。
圖11 直徑1600mm主樁液壓倒樁臺車裝置
圖12 3000KW水下泥泵齒輪箱的渲染模擬動畫,用于驗證部件的運動情況和實際工況
Showcase是強大的數(shù)字樣機創(chuàng)建工具,此前是獨立的軟件解決方案,后被Autodesk收歸旗下。
因為創(chuàng)建物理樣機的過程和成本都很高,在產(chǎn)品驗證階段使用Showcase創(chuàng)建逼真的數(shù)字樣機,可以實現(xiàn)保持高效的同時,大幅度降低成本,因此受到了汽車、電器、消費品等領(lǐng)域用戶的歡迎。
巧妙地應(yīng)用Showcase軟件,結(jié)合Quadro M6000此類專業(yè)顯卡的高性能,創(chuàng)建、渲染的逼真數(shù)字模型,幾乎在材質(zhì)、光感上可以亂真。
我們在這個環(huán)節(jié)的測試中使用了某航天企業(yè)工程師設(shè)計的“手電鉆”方案,合理設(shè)定材質(zhì)和光源后,進(jìn)行高分辨率渲染,結(jié)果如下圖。
圖13 手電鉆照片級渲染,每個零部件的材質(zhì)都是單獨選擇的
圖14 更換攝像機(視角)、光源、材質(zhì)和分辨率后,多次渲染的效果始終保持高速、流暢
我們選擇的背景不太好,降低了整體質(zhì)感。但是,手電鉆模型本身的真實感一流。Showcase針對NVIDIA的專業(yè)顯卡有優(yōu)化,可以最大程度地發(fā)揮GPU硬件渲染的效能,加上Quadro M6000的硬件性能給力,整個渲染過程可用高速來形容。工程師日常渲染(中等分辨率)大約需要5分鐘(某品牌工作站),而在我們的Quadro M6000測試平臺上,僅僅用了59秒,過程中,GPU幾乎全速工作。
這種效率正是實際工作中工程師需要的,省下的時間可以多做些任務(wù),當(dāng)然,也可以去抽根煙。
COMSOL是多物理場建模和仿真分析軟件,COMSOL起初只是Matlab的一個工具箱——Toolbox 1.0。后來改名為Femlab,開始為行業(yè)用戶所熟悉和應(yīng)用。從3.2版本開始,正式命名為COMSOL Multiphysics。這個軟件的優(yōu)勢就在于多物理場耦合方面,這套軟件曾經(jīng)被NASA技術(shù)雜志選為“年度最佳產(chǎn)品”。
COMSOL Multiphysics對Quadro M6000壓力不在于建模、渲染,而在于GPU輔助計算能力。COMSOL Multiphysics是支持多核心、多線程CPU和GPU加速的仿真分析軟件之一,而且解算效率非常高。
我們在本測試中進(jìn)行了一個相對簡單的流固體耦合算例,僅用于驗證和測試Quadro M6000的GPU加速能力。
實際測試中,我們首選關(guān)閉解算器的GPU輔助加速,整個項目計算時間需要662秒。然后,我們打開GPU加速,結(jié)算時間縮短為192秒,縮短了70%的時間!
圖15 COMSOL Multiphysics流固耦合計算項目的網(wǎng)格劃分情況
本測試選擇的模型結(jié)構(gòu)簡單,網(wǎng)格劃分也比價粗疏,仍然節(jié)省了70%的時間。我們可以設(shè)想,那些往往需要數(shù)個、十?dāng)?shù)個小時解算的項目,如果采用了Quadro M6000的GPU加速,將帶來多大的價值。例如,下圖的民用船舶設(shè)計中,進(jìn)行相應(yīng)的初步流體分析,就可以利用GPU加速能力。
圖16 NX中設(shè)計的高速摩托艇,同樣可以在流體分析軟件中利用GPU加速
另外,我們在測試中發(fā)現(xiàn),GPU加速開啟后,解算器對GPU的占用還是比較高的,同期進(jìn)行其他圖形計算工作會受到一定影響。因此,這種應(yīng)用模式對于規(guī)模大的項目,比較適合利用空余時間集中解算。對于設(shè)計中的簡單實時驗證分析,則可以高效完成。
經(jīng)過基準(zhǔn)測試和一系列三維設(shè)計、渲染(靜態(tài)、動態(tài))和仿真分析實景測試,從高端三維軟件到流行三維軟件,從飛機、汽車體量的模型到生產(chǎn)線、非標(biāo)準(zhǔn)工具模型,從輔助建模到GPU加速解算,Quadro M6000 24GB證明了其定位和價值。幾乎所有的項目都保持了全流程的順暢,而且依靠ISV認(rèn)證NVIDIA驅(qū)動,各種模型顯示不存在任何現(xiàn)實錯誤和缺陷,個別需要效率的項目(如渲染和解算)確實有助于大幅度提高工作效率、縮短工作周期。
需要說明的是,在本次測試中,我們沒有設(shè)置任何二維項目,以Quadro M6000 24GB的性能和定位,應(yīng)付二維圖形實在是太容易了。我們也沒有進(jìn)行普通商業(yè)圖形和消費娛樂圖形傾向的基準(zhǔn)測試,這些都不是Quadro M6000的目標(biāo)應(yīng)用環(huán)境,畢竟沒什么人花幾萬元購買Quadro M6000 24GB僅僅是為了畫拓?fù)鋱D或玩游戲的吧。
那么,在制造業(yè)和建筑業(yè)領(lǐng)域,誰是Quadro M6000 24GB的核心用戶呢?航空航天、汽車、船舶、大型裝備和建筑設(shè)計等領(lǐng)域的用戶顯然對上號了。這些行業(yè)領(lǐng)域的產(chǎn)品價值和利潤較高,以Quadro M6000 24GB生產(chǎn)工具的定位,其價格并不是不能接受。這些行業(yè)的一套加工設(shè)備、檢測設(shè)備動輒百萬、千萬,單套產(chǎn)品的價值從十幾萬、幾十萬到上億元,在產(chǎn)品總體設(shè)計和產(chǎn)品驗證環(huán)節(jié)采用幾萬元的專業(yè)顯卡,從而顯著提高效率、減少設(shè)計驗證的迭代次數(shù)、縮短設(shè)計周期,是非常合理的。另外,這些行業(yè)的產(chǎn)品體量大,模型和場景數(shù)據(jù)量大,需要Quadro M6000 24GB的高性能加持。
實際上,高端行業(yè)用戶的需求是沒有上限的,越強越好,越強越不嫌強。單片的Quadro M6000 24GB顯然離需求上限還遠(yuǎn),規(guī)模更大、更復(fù)雜的模型和場景,系統(tǒng)集成度越來越高的產(chǎn)品,制造業(yè)和建筑業(yè)不斷整合的業(yè)務(wù)流暢,會不斷推高圖形、圖像處理的性能需求。
注:
(1)感謝NVIDIA公司提供本次測試用Quadro M6000 24GB顯卡。
(2)感謝來自上海鉅立、泰安航天特種車、江蘇圣潔達(dá)、上海交通大學(xué)等企業(yè)和機構(gòu)的工程技術(shù)人員在本次測試過程中提供的幫助。