李實
提到AI計算芯片和加速卡,人們第一時間想到的往往是英偉達(dá)推出的A系列、T系列產(chǎn)品。實際上隨著國內(nèi)芯片設(shè)計的發(fā)展,目前國內(nèi)也有多家廠商推出了和AI計算相關(guān)的加速芯片和加速卡,比如百度、阿里等。日前,燧原科技推出了他們旗下最新的AI計算芯片和加速卡,從規(guī)模來看,燧原科技這次推出的產(chǎn)品可謂中國目前最大,在性能方面也和國外同檔次產(chǎn)品有一戰(zhàn)之力。下面,我們就和你一起走近燧原科技,了解一下其推出的邃思芯片和云燧加速卡。
燧原科技是位于上海的一家半導(dǎo)體初創(chuàng)企業(yè),其英文名為“Enflame”。燧原科技的兩位創(chuàng)始人分別是CEO趙立冬和COO張亞林。其中,趙立冬擁有清華大學(xué)電子工程學(xué)士和美國猶他州立大學(xué)電子計算機碩士學(xué)位,曾在S3、AMD、紫光、銳迪科等企業(yè)工作過,最高職位是紫光集團(tuán)副總裁。張亞林則是復(fù)旦大學(xué)電子工程學(xué)士學(xué)位獲得者,同樣有AMD工作背景,并領(lǐng)導(dǎo)定制開發(fā)了Xbox One主芯片,管理和發(fā)展了AMD上海、北京研發(fā)部門等。從燧原科技兩位創(chuàng)始人的背景可以看出,他們均有專業(yè)電子、集成電路的學(xué)習(xí)、工作背景,都曾經(jīng)在全球領(lǐng)先的一線企業(yè)擁有多年工作經(jīng)驗和豐富的行業(yè)資源。
燧原科技將自己定義為一家“專注人工智能領(lǐng)域云端算力平臺,致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案,提供自主知識產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品”的企業(yè)。目前,其推出的人工智能訓(xùn)練和推理產(chǎn)品品牌為云燧,芯片產(chǎn)品品牌為邃思,軟件品牌為馭算。
在了解了燧原科技的基本情況后,讓我們一起來看看本次燧原科技發(fā)布的全新產(chǎn)品的相關(guān)信息。
國內(nèi)最大的AI云端訓(xùn)練芯片:速思2.0
本次發(fā)布會最大的驚喜就是邃思2.0芯片。從基板尺寸來看它是目前國內(nèi)最大的AI芯片。邃思2.0芯片的封裝尺寸長寬均為57.5mm,整體封裝面積達(dá)到了3306.25mm2,不過這個數(shù)據(jù)是否包含了基板長度暫時不得而知。相比之下,英偉達(dá)的A100計算芯片同樣采用了HBM方案,其不包括HBM存儲的A100計算芯片面積僅為862mm2,和邃思2.0的數(shù)據(jù)相比差異相當(dāng)大,其主要原因可能是廠商統(tǒng)計數(shù)據(jù)的方法存在差異。
和這種計算芯片通常采用7nm甚至更高端的5nm工藝有所不同的是,邃思2.0采用的是格芯(格羅方德)的12nm工藝。有關(guān)工藝制程的信息,在發(fā)布會上并沒有做太多介紹,但是可能使用的就是格羅方德在2018年發(fā)布的12nm FD-SOI工藝。這個工藝的優(yōu)勢在于能夠?qū)崿F(xiàn)極高的集成度,并且FD-SOI技術(shù)的引入也使得整個芯片的功耗下降、性能提升。格芯的數(shù)據(jù)顯示,F(xiàn)D-SOI技術(shù)引入之后,他們的12nm工藝能夠以低于16nm FinFET的功耗實現(xiàn)基本等同于10nm FinFET的性能,或者說相比16nm FinFET工藝性能提升15%,功耗降低50%。
雖然格芯12nm FD-SOI工藝的整體表現(xiàn)在同代工藝中算是佼佼者,但是考慮到半導(dǎo)體制造的代差碾壓現(xiàn)象的存在,如果燧原科技能夠采用臺積電的7nm工藝或者更新的5nm工藝來制造產(chǎn)品的話,那么整個芯片的規(guī)模、性能、功耗等應(yīng)該會再上一個臺階。那么,為什么燧原科技選擇了比較老舊的工藝來制造這款產(chǎn)品呢?其主要原因可能還是綜合考慮了成本、市場以及產(chǎn)品等因素。
對燧原科技這樣的初創(chuàng)公司來說,臺積電的7nm、5nm工藝自然是好的,但是高昂的流片費用和相關(guān)制造成本在沒有較大的市場來分?jǐn)偟那闆r下,最終體現(xiàn)到產(chǎn)品上就是昂貴的單片售價。市場是敏感的,初創(chuàng)公司的新品在技術(shù)、性能上沒有絕對優(yōu)勢的前提下,如果成本和價格再沒有優(yōu)勢的話,那么相比成熟公司或者跨國企業(yè)的產(chǎn)品,初創(chuàng)公司的產(chǎn)品就很難得到市場和買家的關(guān)注。因此很多初創(chuàng)企業(yè)在早期都會提供相對于市場上成熟產(chǎn)品大致相當(dāng)?shù)男阅?,卻低得多的價格,或者背靠某個大企業(yè)進(jìn)行定向采購,畢竟對芯片這種產(chǎn)品來說,有人用才能實現(xiàn)有效迭代。寧可早期少賺、不賺甚至略虧,都一定要在自己的能力范圍內(nèi)維持整個市場的存在感和自己的產(chǎn)業(yè)生態(tài)圈,才能在—次次迭代中不斷升級,形成自己在技術(shù)、產(chǎn)業(yè)和生態(tài)上的競爭優(yōu)勢。
從這點來考慮,燧原科技在邃思2.0上采用12nmT藝是合理的,也是目前市場競爭條件下的最優(yōu)解。
邃思2.0采用2.5D圭寸裝設(shè)計,整合79顆芯片。從芯片的外表面可以看出,邃思2.0擁有一個計算核心和4個HBM2E存儲芯片,加起來一共有5個芯片。考慮到它封裝79顆芯片,那么可能在下部還集成74顆HBM2E芯片,最終達(dá)成了64GB的規(guī)格。
繼續(xù)來看產(chǎn)品的相關(guān)參數(shù)。算力方面,邃思2.0的單精度FP32算力為40TFLOPs,單精度張量TF32算力為160TFLOPS,整數(shù)INT8算力為320TOPs。此外,燧原科技宣稱邃思2.0支持目前所有的AI精度,包括FP32、TF32、FP16、BF16和INT8,不過由于發(fā)布會給出的消息不多,燧原科技沒有給出部分?jǐn)?shù)據(jù)精度格式下的算力情況,比如BF16(不過后文的性能測試有從側(cè)面透露出一些信息)。另外對于一些特殊情況下的算力優(yōu)化情況,發(fā)布會上也沒有進(jìn)行介紹。
相比目前最快的英偉達(dá)A100,A100的FP32算力為19.5TFLOPS,TF32算力為156TFLOPS,BF16算力為321TFLOPS,INT8算力為624TOPS。雖然從絕對理論數(shù)值上來看,A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的問題在于,A100在目前AI計算比較常用的BF16和INT8格式上算力大幅領(lǐng)先邃思2.0。不僅如此,在計算目標(biāo)是稀疏矩陣的情況下,A100 GPU的TF32、BF16和INT8算力會直接翻倍,這就不僅僅是硬件規(guī)??梢詻Q定的內(nèi)容了,
邃思2.0芯片采用了HBM2E的存儲方案,最高可以支持64GB容量的本地存儲,帶寬最高為1.8TB/s。外部接口則采用的是PCIe 4.0 x16,這也是目前主流的AI計算設(shè)備上常用的接口之一。
值得注意的是,邃思2.0在擴展性上擁有獨特設(shè)計。其芯片內(nèi)部設(shè)計了專用的通道,被稱為GCU-LARE燧原智能互聯(lián)總線,單路可以實現(xiàn)雙向50GB/s的帶寬。邃思2.0內(nèi)部擁有6路設(shè)計,總計可以實現(xiàn)300GB/s的雙向互聯(lián)帶寬。由于獨特的互聯(lián)端口,邃思2.0可以提供互聯(lián)擴展算力的功能。這個功能非常重要,這意味著邃思2.0擺脫了傳統(tǒng)芯片僅僅依靠PCIe總線溝通系統(tǒng)和互聯(lián)的設(shè)計,而是可以依靠自己定義的總線自組織成網(wǎng),這就為邃思2.0芯片的大規(guī)模、集群化應(yīng)用打好了基礎(chǔ)。
除了上述內(nèi)容外,燧原科技沒有詳細(xì)地對整個芯片的架構(gòu)、設(shè)計等內(nèi)容進(jìn)行介紹。希望未來能公布更詳細(xì)的資料,使得大家也可以一窺芯片的架構(gòu)和設(shè)計。
燧原科技的加速計算卡:云燧T20和云燧T21
除了芯片產(chǎn)品邃思2.0外,燧原科技還在此次發(fā)布會上推出了加速計算卡新品,其產(chǎn)品型號為云燧T20和云燧T21。
先來看看云燧T20,這款產(chǎn)品采用的是傳統(tǒng)PCIe設(shè)備外觀,需要占用雙插槽。從外觀來看和一般的顯卡沒有太大差別。不過云燧T20外殼沒有設(shè)計散熱器,應(yīng)該是放置在機架中進(jìn)行統(tǒng)一散熱。云燧T20和云燧T21的TDP功耗分別為300W和400W。
除了云燧T20外,燧原科技還推出了云燧T21,采用的是OAM模組設(shè)計。所謂OAM,是指OCP Accelerator Module,也就是OCP加速模塊,這是百度、微軟等企業(yè)聯(lián)合推出的標(biāo)準(zhǔn),用于標(biāo)準(zhǔn)化AI硬件加速模塊的系統(tǒng)設(shè)計。OAM標(biāo)準(zhǔn)定義了一整套方案,包括AI加速硬件在主板、機箱、供電、散熱等方面的規(guī)范,通過OAM規(guī)范,類似云燧T21這樣的產(chǎn)品就可以在不同的AI加速設(shè)備中兼容使用。從外觀上來看,云燧T21和我們傳統(tǒng)印象中的PCIe設(shè)備差別很大,更像是自帶了散熱器和底座的CPU模塊。
目前云燧T20和T21全系列產(chǎn)品都支持單機多卡互聯(lián)、多機多卡互聯(lián)和超大規(guī)模集群互聯(lián)。其中單機多卡互聯(lián)適用于主流AI服務(wù)器,單機支持8張加速卡互聯(lián),適合中小型深度學(xué)習(xí)訓(xùn)練場景。多機多卡的規(guī)模進(jìn)一步擴大至數(shù)百張卡,可以支持中大型企業(yè)、院校運行深度學(xué)習(xí)訓(xùn)練的場景。最大的則是超大規(guī)模集群互聯(lián),支持以干為單位的節(jié)點互聯(lián),適用于云計算、超算中心等場景。
值得一提的是,由于邃思2.0加入了相關(guān)互聯(lián)總線設(shè)計,因此組建多卡互聯(lián)系統(tǒng)很方便。在發(fā)布會上還展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。這個集群中包含了8192張云燧訓(xùn)練卡和DTU芯片,能夠以80%的線性度輸出性能,最高可以實現(xiàn)1.3E級別的單精度計算能力。目前,全.球尚未有其他設(shè)備能夠以1.3E(大約130000TFLOPS)的算力輸出性能,云燧智算集群是首個能夠達(dá)到這樣高度的產(chǎn)品。
在發(fā)布會上燧原科技還介紹了旗下馭算Topsrider 2.0架構(gòu)的相關(guān)內(nèi)容。目前馭算Topsrider 2.0主要支持更高算力,支持更便捷高效的開發(fā)和更靈活通用的場景。燧原科技展示了馭算Topsrider 2.0的架構(gòu)圖,最底層是云燧T10系列和云燧T20系列硬件,通過驅(qū)動層,進(jìn)入上層SDK層之后,馭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架,最后再進(jìn)入應(yīng)用層。目前馭算Topsrider 2.0也提供了非常完善的編譯器、工具鏈、圖形化整合開發(fā)環(huán)境、自編譯支持以及高性能運行支持,非常方便。
比肩業(yè)內(nèi)頂級的部分性能
和國內(nèi)目前很多AI芯片廠商的產(chǎn)品“只聞樓梯響,不見人下來”,性能總是模模糊糊相比,燧原科技在發(fā)布會上大大方方地展示了云燧T20系列的性能。雖然競爭對手只寫了“友商旗艦”,但考慮到就算不是英偉達(dá)A100,而是上代旗艦產(chǎn)品,也說明了云燧T20產(chǎn)品已經(jīng)頗具市場競爭力,要知道這還是一款12nm工藝制造的產(chǎn)品。
從燧原科技展示的信息可以看到,云燧T20在TF32性能的圖像識別和分類、NLP、目標(biāo)檢測、圖像分割等方面,基本上和友商旗艦水平相當(dāng)。其中比較弱勢的是NLP和目標(biāo)檢測,最差情況下只有對比產(chǎn)品的60%和80%性能。較好的是圖像分割、圖像識別和分類,基本擁有超過友商旗艦的性能。在和友商次旗艦的對比中,云燧T20的性能領(lǐng)先幅度分別在1.5倍到4.5倍之間,整體性能不錯。
在和兩款GPU對比的情況下,云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍,其余的BF16算力、內(nèi)存帶寬、內(nèi)存容量和互聯(lián)帶寬基本上可以達(dá)到GPU1的1~2倍,但是不如GPU2。考慮到云燧T20只是燧原科技的第二款產(chǎn)品,這樣的性能已經(jīng)值得肯定了。
燧原科技還使用云燧T20和上代云燧T10進(jìn)行了對比。從數(shù)據(jù)來看,云燧T20的性能基本上是云燧T10的1.5~6.7倍,顯示出不小的進(jìn)步,尤其是TF32算力暴增6.7倍,這顯示云燧T20在架構(gòu)上針對TF32進(jìn)行了充分優(yōu)化。不過在BF16方面,云燧T20的整體性能提升幅度還不夠。此外,在稀疏矩陣的性能優(yōu)化上,云燧T20也沒體現(xiàn)出明顯優(yōu)勢,這是未來燧原科技需要努力加強的部分。
燧原產(chǎn)品定律發(fā)布,性能穩(wěn)步提升
在發(fā)布會上,燧原科技還發(fā)布了未來的產(chǎn)品路線圖。其計劃在2023年發(fā)布新的云端訓(xùn)練產(chǎn)品T30和T31,每瓦特性能大約是2020年發(fā)布的初代T10和T11的14倍,大概也是最新發(fā)布的T20和T21的3.5倍左右。如此巨大的性能提升,新的產(chǎn)品在架構(gòu)更新的同時,可能會采用全新工藝,使用更多的晶體管來實現(xiàn)更高的性能。
目前,燧原科技擁有推理計算產(chǎn)品云燧i10,即將發(fā)布的云燧i20的每瓦特性能是云燧i10的4倍,2023年發(fā)布的云燧i30的每瓦特性能應(yīng)該是云燧i10的16倍左右,值得期待。
除了產(chǎn)品路線圖,燧原科技還發(fā)布了“燧原產(chǎn)品定理”,那就是燧原科技的每一代產(chǎn)品相比前一代產(chǎn)品,在“平均業(yè)務(wù)”中,每瓦特性能要達(dá)到前代產(chǎn)品的至少3倍,每單位價格性能要達(dá)到前代產(chǎn)品的至少2倍,并且保持軟件兼容性和可靠性等。
總的來看,燧原科技通過此次發(fā)布會展示了自己強大的技術(shù)研發(fā)能力和產(chǎn)品規(guī)劃、應(yīng)用能力。作為一個初創(chuàng)公司,燧原科技的AI加速芯片產(chǎn)品已經(jīng)具備一定水準(zhǔn)。同時燧原科技對未來產(chǎn)品的規(guī)劃以及“燧原產(chǎn)品定理”的出現(xiàn),也給人們展示了這家公司堅定自主研發(fā)、提升產(chǎn)品性能的信心。希望在未來的道路上,燧原科技能夠堅持現(xiàn)在的研發(fā)主線,將自主AI芯片做得越來越好,越來越強。星星之火,可以燎原。