劉丹
2019年8月7日,賽靈思公司宣布推出Alveo數(shù)據(jù)中心加速器卡產(chǎn)品組合的最新成員Alveo U50。與Alveo U200,U250,U280版本產(chǎn)品不同,Alveo U50是業(yè)界首款面向任意服務器和各種云而打造的自適應計算、網(wǎng)絡和存儲加速器,在更大吞吐量、更低延遲和更高功耗效率方面實現(xiàn)了10~20倍的大幅提升。
“Alveo U50,是一個非常標準化的即插即用型加速卡,性能更佳,可以用于更廣泛的部署環(huán)境、更廣泛的服務器,包括網(wǎng)絡和存儲加速等能力,都大大超越了之前版本?!?/p>
據(jù)賽靈思數(shù)據(jù)中心業(yè)務部產(chǎn)品規(guī)劃和市場營銷總監(jiān)Jamon Bowen介紹,Alveo U50的特點是尺寸較小,支持第四代PCIe,不像GPU加速器那樣的是一個大型號的卡。Alveo U50采用了UltraScale+架構(gòu),集成了超高帶寬的HBM2存儲器技術(shù),所以大幅縮小了產(chǎn)品尺寸。且因為內(nèi)存加在了FPGA芯片上,所以不僅能夠釋放巨大的空間,還能使性能獲得顯著提升。比如:HBM性能是DDR的10倍,功耗不到75 W。
Alveo U50的推出,實現(xiàn)了賽靈思自2018年推出Alveo產(chǎn)品系列的最初愿景———不僅加速計算,同時還加速網(wǎng)絡和存儲,實現(xiàn)在Alveo平臺上的整體加速。這一刻,夢想終于變成了現(xiàn)實。
繼承賽靈思Alveo以往產(chǎn)品的優(yōu)勢,Alveo U50在靈活應變和性能方面,表現(xiàn)卓越。很多部署數(shù)據(jù)中心的客戶,經(jīng)常會抱怨器件編程非常困難,賽靈思的Alveo有一個非常開放的平臺和環(huán)境,可簡化硬件編程程序,通過公共平臺進行加速。另外,開發(fā)者也能更便捷地使用加速平臺,實現(xiàn)原來只有在軟件領(lǐng)域才有可能實現(xiàn)的硬件IP的靈活應變能力。最主要的是,Alveo U50涵蓋解決方案的領(lǐng)域更廣泛,包括數(shù)據(jù)分析、視頻與圖象處理、機器學習、生命科學和金融計算。
對于用戶來說,部署下一代數(shù)據(jù)中心,上云一定是必經(jīng)之路,所以Alveo U50是一個全堆棧的解決方案,不僅支持本地服務器,還能支持云端服務。Alveo U5可以和開源框架進行連接,比如:在Kubernetes環(huán)境中,用戶可以發(fā)現(xiàn)并直接使用硬件加速插件,開發(fā)者可以把Alveo U50和Docker配合起來使用。如果沒有這樣一個標準產(chǎn)品的配置,用戶可能需要花費大量人力物力的投資才能夠?qū)崿F(xiàn)這一功能。所以,Alveo U50對于大規(guī)模的數(shù)據(jù)中心場景來說非常適用,這也是Alveo U50令賽靈思公司引以為傲的。
具體而言,Alveo U50有以下特點:
1.深度學習推斷加速。針對語音翻譯的計算負載,Alveo U50比CPU、GPU擁有更高的吞吐量和低時延的推斷性能。和英偉達T4相比,Alveo U50性能提升高達10倍,能夠用于很多不同的網(wǎng)絡。U50的尺寸非常小,符合需要邊緣計算的用例場景。同時,對于需要在同城提供數(shù)據(jù)中心運行服務的企業(yè)來說,這款產(chǎn)品也是首選。
2.數(shù)據(jù)庫分析加速。運行TPC-H Query5基準測試時,Alveo U50相比存儲器的CPU,大大提高了吞吐量和查詢速度。針對一些商業(yè)信息分析領(lǐng)域,企業(yè)擁有龐大的數(shù)據(jù)庫,其中有很多供應商、很多的產(chǎn)品,也有很多的銷售數(shù)據(jù),企業(yè)需要按照季度做決策,了解哪個產(chǎn)品的銷售額是多少、降價策略或者推銷方式是否真正有效等。在這些場景加速過程中,會用到很多的標簽節(jié)點,會列出很多有關(guān)的表格,然后進行具體的查詢。每一個節(jié)點,對帶寬的要求也非常高,而帶寬又是Alveo U50進行加速的關(guān)鍵節(jié)點。對比英特爾最先進的多核處理器XEON系列的產(chǎn)品,Alveo U50的處理速度提升高達4倍,如果加2張就是8倍,如果加3張就是12倍。
3.金融模擬場景下的網(wǎng)絡計算加速。在金融領(lǐng)域,很多時候都需要建模,這樣才能給金融工具來定價。通常都有大量的數(shù)據(jù)輸入,然后做幾百萬字的模擬,最后得出來一個平均值,通過得到一個范圍的結(jié)果,來確定在最糟糕的情況下風險如何,很多金融企業(yè)都需要這樣做才能夠定合約和證券的價格。針對金融模式場景,Alveo U50的功率效率比CPU高20倍,能夠更快速地獲得結(jié)果。賽靈思一直在開發(fā)計算庫,讓開發(fā)者能夠在Alveo U50當中使用這數(shù)據(jù)函數(shù)進行最優(yōu)化的編碼,同時能夠在平臺上完成其他的應用設(shè)計、建立模型。這個對于計算加速來說,是非常重要的擴展,尤其能把所有的數(shù)學函數(shù)都吸收進來。
4.針對電子交易的網(wǎng)絡加速。金融領(lǐng)域還有一個重要場景,就是用加速技術(shù)支持交易。通過市場數(shù)據(jù)的關(guān)鍵信息做出計算,縮短計算和決定之間的時間差,這對于金融界來說非常關(guān)鍵。使用Alveo U50可以在不到500 ns的時間內(nèi)完成。首先收到市場數(shù)據(jù),然后用綜合的C語言來寫一個交易邏輯,然后跟這樣的交易邏輯進行執(zhí)行和回應。如果是CPU的話,第一步要從網(wǎng)絡上把這個數(shù)據(jù)放入到界面的接口,然后進行緩存,如果是單向的話,要耗時400 ns,而且這僅僅是第一步,讓數(shù)據(jù)包進入到內(nèi)存的層級,而且數(shù)據(jù)進去之后,數(shù)據(jù)的運行環(huán)境首先要發(fā)出信號,說明這個運行環(huán)境發(fā)生了變化。然后這個網(wǎng)絡再把信息進行一個解碼,從用戶轉(zhuǎn)變?yōu)楹诵?,然后再把它傳輸給需要執(zhí)行交易的部分。整個過程需要不斷持續(xù),才能使得交易的邏輯轉(zhuǎn)為核心,然后再轉(zhuǎn)給其他有關(guān)的各端。整個過程大概需要10 ms。Alveo U50的性能在時間上是CPU的20倍,所需時間幾乎對于CPU來說僅僅只能夠完成將數(shù)據(jù)進入到CPU內(nèi)存層級第一步的時間。
5.存儲工作負載加速。過去,很多字節(jié)都需要一系列傳輸程序才能進行處理,流程非常復雜。比如:要去壓縮、解壓、加密和解密,還要進行數(shù)據(jù)保護。Alveo U50可以將壓縮、解壓吞吐量提高20倍。以Hadoop為例,如果來看Hadoop的大小,首先看數(shù)據(jù),還有查詢數(shù)據(jù)的工作量,對于帶寬來說提出了很高的要求。如果要做高性能的計算,這個數(shù)據(jù)就沒有辦法壓縮,這樣基礎(chǔ)設(shè)施就需要擴大一倍,且需要更多的存儲、更多的帶寬。而Alveo U50可以非常順利的進行壓縮,并且能在高帶寬的環(huán)境下完成。壓縮之后,存儲空間和帶寬只占原來的一半。所以,有了這樣的加速之后,用戶部署的成本只有原來的1/2,不僅可以進行壓縮,同時還可以確保性能不會受到影響。
總之,Alveo系列產(chǎn)品的用途非常廣泛,雖然它并不像機器學習、推斷加速等概念這樣火熱,但是確實是用戶非常需要的后端服務,能夠幫助數(shù)據(jù)中心客戶節(jié)約大量成本。