中國最大AI計算芯片問世　走近燧原科技邃思芯片、云燧加速卡

2021-09-12 02:30李實

微型計算機 2021年16期

李實

提到AI計算芯片和加速卡，人們第一時間想到的往往是英偉達(dá)推出的A系列、T系列產(chǎn)品。實際上隨著國內(nèi)芯片設(shè)計的發(fā)展，目前國內(nèi)也有多家廠商推出了和AI計算相關(guān)的加速芯片和加速卡，比如百度、阿里等。日前，燧原科技推出了他們旗下最新的AI計算芯片和加速卡，從規(guī)模來看，燧原科技這次推出的產(chǎn)品可謂中國目前最大，在性能方面也和國外同檔次產(chǎn)品有一戰(zhàn)之力。下面，我們就和你一起走近燧原科技，了解一下其推出的邃思芯片和云燧加速卡。

燧原科技是位于上海的一家半導(dǎo)體初創(chuàng)企業(yè)，其英文名為“Enflame”。燧原科技的兩位創(chuàng)始人分別是CEO趙立冬和COO張亞林。其中，趙立冬擁有清華大學(xué)電子工程學(xué)士和美國猶他州立大學(xué)電子計算機碩士學(xué)位，曾在S3、AMD、紫光、銳迪科等企業(yè)工作過，最高職位是紫光集團(tuán)副總裁。張亞林則是復(fù)旦大學(xué)電子工程學(xué)士學(xué)位獲得者，同樣有AMD工作背景，并領(lǐng)導(dǎo)定制開發(fā)了Xbox One主芯片，管理和發(fā)展了AMD上海、北京研發(fā)部門等。從燧原科技兩位創(chuàng)始人的背景可以看出，他們均有專業(yè)電子、集成電路的學(xué)習(xí)、工作背景，都曾經(jīng)在全球領(lǐng)先的一線企業(yè)擁有多年工作經(jīng)驗和豐富的行業(yè)資源。

燧原科技將自己定義為一家“專注人工智能領(lǐng)域云端算力平臺，致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案，提供自主知識產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品”的企業(yè)。目前，其推出的人工智能訓(xùn)練和推理產(chǎn)品品牌為云燧，芯片產(chǎn)品品牌為邃思，軟件品牌為馭算。

在了解了燧原科技的基本情況后，讓我們一起來看看本次燧原科技發(fā)布的全新產(chǎn)品的相關(guān)信息。

國內(nèi)最大的AI云端訓(xùn)練芯片：速思2.0

本次發(fā)布會最大的驚喜就是邃思2.0芯片。從基板尺寸來看它是目前國內(nèi)最大的AI芯片。邃思2.0芯片的封裝尺寸長寬均為57.5mm，整體封裝面積達(dá)到了3306.25mm²，不過這個數(shù)據(jù)是否包含了基板長度暫時不得而知。相比之下，英偉達(dá)的A100計算芯片同樣采用了HBM方案，其不包括HBM存儲的A100計算芯片面積僅為862mm²，和邃思2.0的數(shù)據(jù)相比差異相當(dāng)大，其主要原因可能是廠商統(tǒng)計數(shù)據(jù)的方法存在差異。

和這種計算芯片通常采用7nm甚至更高端的5nm工藝有所不同的是，邃思2.0采用的是格芯（格羅方德）的12nm工藝。有關(guān)工藝制程的信息，在發(fā)布會上并沒有做太多介紹，但是可能使用的就是格羅方德在2018年發(fā)布的12nm FD-SOI工藝。這個工藝的優(yōu)勢在于能夠?qū)崿F(xiàn)極高的集成度，并且FD-SOI技術(shù)的引入也使得整個芯片的功耗下降、性能提升。格芯的數(shù)據(jù)顯示，F(xiàn)D-SOI技術(shù)引入之后，他們的12nm工藝能夠以低于16nm FinFET的功耗實現(xiàn)基本等同于10nm FinFET的性能，或者說相比16nm FinFET工藝性能提升15%，功耗降低50%。

雖然格芯12nm FD-SOI工藝的整體表現(xiàn)在同代工藝中算是佼佼者，但是考慮到半導(dǎo)體制造的代差碾壓現(xiàn)象的存在，如果燧原科技能夠采用臺積電的7nm工藝或者更新的5nm工藝來制造產(chǎn)品的話，那么整個芯片的規(guī)模、性能、功耗等應(yīng)該會再上一個臺階。那么，為什么燧原科技選擇了比較老舊的工藝來制造這款產(chǎn)品呢？其主要原因可能還是綜合考慮了成本、市場以及產(chǎn)品等因素。

對燧原科技這樣的初創(chuàng)公司來說，臺積電的7nm、5nm工藝自然是好的，但是高昂的流片費用和相關(guān)制造成本在沒有較大的市場來分?jǐn)偟那闆r下，最終體現(xiàn)到產(chǎn)品上就是昂貴的單片售價。市場是敏感的，初創(chuàng)公司的新品在技術(shù)、性能上沒有絕對優(yōu)勢的前提下，如果成本和價格再沒有優(yōu)勢的話，那么相比成熟公司或者跨國企業(yè)的產(chǎn)品，初創(chuàng)公司的產(chǎn)品就很難得到市場和買家的關(guān)注。因此很多初創(chuàng)企業(yè)在早期都會提供相對于市場上成熟產(chǎn)品大致相當(dāng)?shù)男阅?，卻低得多的價格，或者背靠某個大企業(yè)進(jìn)行定向采購，畢竟對芯片這種產(chǎn)品來說，有人用才能實現(xiàn)有效迭代。寧可早期少賺、不賺甚至略虧，都一定要在自己的能力范圍內(nèi)維持整個市場的存在感和自己的產(chǎn)業(yè)生態(tài)圈，才能在—次次迭代中不斷升級，形成自己在技術(shù)、產(chǎn)業(yè)和生態(tài)上的競爭優(yōu)勢。

從這點來考慮，燧原科技在邃思2.0上采用12nmT藝是合理的，也是目前市場競爭條件下的最優(yōu)解。

邃思2.0采用2.5D圭寸裝設(shè)計，整合79顆芯片。從芯片的外表面可以看出，邃思2.0擁有一個計算核心和4個HBM2E存儲芯片，加起來一共有5個芯片。考慮到它封裝79顆芯片，那么可能在下部還集成74顆HBM2E芯片，最終達(dá)成了64GB的規(guī)格。

繼續(xù)來看產(chǎn)品的相關(guān)參數(shù)。算力方面，邃思2.0的單精度FP32算力為40TFLOPs，單精度張量TF32算力為160TFLOPS，整數(shù)INT8算力為320TOPs。此外，燧原科技宣稱邃思2.0支持目前所有的AI精度，包括FP32、TF32、FP16、BF16和INT8，不過由于發(fā)布會給出的消息不多，燧原科技沒有給出部分?jǐn)?shù)據(jù)精度格式下的算力情況，比如BF16（不過后文的性能測試有從側(cè)面透露出一些信息）。另外對于一些特殊情況下的算力優(yōu)化情況，發(fā)布會上也沒有進(jìn)行介紹。

相比目前最快的英偉達(dá)A100，A100的FP32算力為19.5TFLOPS，TF32算力為156TFLOPS，BF16算力為321TFLOPS，INT8算力為624TOPS。雖然從絕對理論數(shù)值上來看，A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的問題在于，A100在目前AI計算比較常用的BF16和INT8格式上算力大幅領(lǐng)先邃思2.0。不僅如此，在計算目標(biāo)是稀疏矩陣的情況下，A100 GPU的TF32、BF16和INT8算力會直接翻倍，這就不僅僅是硬件規(guī)?？梢詻Q定的內(nèi)容了，

邃思2.0芯片采用了HBM2E的存儲方案，最高可以支持64GB容量的本地存儲，帶寬最高為1.8TB/s。外部接口則采用的是PCIe 4.0 x16，這也是目前主流的AI計算設(shè)備上常用的接口之一。

值得注意的是，邃思2.0在擴展性上擁有獨特設(shè)計。其芯片內(nèi)部設(shè)計了專用的通道，被稱為GCU-LARE燧原智能互聯(lián)總線，單路可以實現(xiàn)雙向50GB/s的帶寬。邃思2.0內(nèi)部擁有6路設(shè)計，總計可以實現(xiàn)300GB/s的雙向互聯(lián)帶寬。由于獨特的互聯(lián)端口，邃思2.0可以提供互聯(lián)擴展算力的功能。這個功能非常重要，這意味著邃思2.0擺脫了傳統(tǒng)芯片僅僅依靠PCIe總線溝通系統(tǒng)和互聯(lián)的設(shè)計，而是可以依靠自己定義的總線自組織成網(wǎng)，這就為邃思2.0芯片的大規(guī)模、集群化應(yīng)用打好了基礎(chǔ)。

除了上述內(nèi)容外，燧原科技沒有詳細(xì)地對整個芯片的架構(gòu)、設(shè)計等內(nèi)容進(jìn)行介紹。希望未來能公布更詳細(xì)的資料，使得大家也可以一窺芯片的架構(gòu)和設(shè)計。

燧原科技的加速計算卡：云燧T20和云燧T21

除了芯片產(chǎn)品邃思2.0外，燧原科技還在此次發(fā)布會上推出了加速計算卡新品，其產(chǎn)品型號為云燧T20和云燧T21。

先來看看云燧T20，這款產(chǎn)品采用的是傳統(tǒng)PCIe設(shè)備外觀，需要占用雙插槽。從外觀來看和一般的顯卡沒有太大差別。不過云燧T20外殼沒有設(shè)計散熱器，應(yīng)該是放置在機架中進(jìn)行統(tǒng)一散熱。云燧T20和云燧T21的TDP功耗分別為300W和400W。

除了云燧T20外，燧原科技還推出了云燧T21，采用的是OAM模組設(shè)計。所謂OAM，是指OCP Accelerator Module，也就是OCP加速模塊，這是百度、微軟等企業(yè)聯(lián)合推出的標(biāo)準(zhǔn)，用于標(biāo)準(zhǔn)化AI硬件加速模塊的系統(tǒng)設(shè)計。OAM標(biāo)準(zhǔn)定義了一整套方案，包括AI加速硬件在主板、機箱、供電、散熱等方面的規(guī)范，通過OAM規(guī)范，類似云燧T21這樣的產(chǎn)品就可以在不同的AI加速設(shè)備中兼容使用。從外觀上來看，云燧T21和我們傳統(tǒng)印象中的PCIe設(shè)備差別很大，更像是自帶了散熱器和底座的CPU模塊。

目前云燧T20和T21全系列產(chǎn)品都支持單機多卡互聯(lián)、多機多卡互聯(lián)和超大規(guī)模集群互聯(lián)。其中單機多卡互聯(lián)適用于主流AI服務(wù)器，單機支持8張加速卡互聯(lián)，適合中小型深度學(xué)習(xí)訓(xùn)練場景。多機多卡的規(guī)模進(jìn)一步擴大至數(shù)百張卡，可以支持中大型企業(yè)、院校運行深度學(xué)習(xí)訓(xùn)練的場景。最大的則是超大規(guī)模集群互聯(lián)，支持以干為單位的節(jié)點互聯(lián)，適用于云計算、超算中心等場景。

值得一提的是，由于邃思2.0加入了相關(guān)互聯(lián)總線設(shè)計，因此組建多卡互聯(lián)系統(tǒng)很方便。在發(fā)布會上還展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。這個集群中包含了8192張云燧訓(xùn)練卡和DTU芯片，能夠以80%的線性度輸出性能，最高可以實現(xiàn)1.3E級別的單精度計算能力。目前，全.球尚未有其他設(shè)備能夠以1.3E（大約130000TFLOPS）的算力輸出性能，云燧智算集群是首個能夠達(dá)到這樣高度的產(chǎn)品。

在發(fā)布會上燧原科技還介紹了旗下馭算Topsrider 2.0架構(gòu)的相關(guān)內(nèi)容。目前馭算Topsrider 2.0主要支持更高算力，支持更便捷高效的開發(fā)和更靈活通用的場景。燧原科技展示了馭算Topsrider 2.0的架構(gòu)圖，最底層是云燧T10系列和云燧T20系列硬件，通過驅(qū)動層，進(jìn)入上層SDK層之后，馭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架，最后再進(jìn)入應(yīng)用層。目前馭算Topsrider 2.0也提供了非常完善的編譯器、工具鏈、圖形化整合開發(fā)環(huán)境、自編譯支持以及高性能運行支持，非常方便。

比肩業(yè)內(nèi)頂級的部分性能

和國內(nèi)目前很多AI芯片廠商的產(chǎn)品“只聞樓梯響，不見人下來”，性能總是模模糊糊相比，燧原科技在發(fā)布會上大大方方地展示了云燧T20系列的性能。雖然競爭對手只寫了“友商旗艦”，但考慮到就算不是英偉達(dá)A100，而是上代旗艦產(chǎn)品，也說明了云燧T20產(chǎn)品已經(jīng)頗具市場競爭力，要知道這還是一款12nm工藝制造的產(chǎn)品。

從燧原科技展示的信息可以看到，云燧T20在TF32性能的圖像識別和分類、NLP、目標(biāo)檢測、圖像分割等方面，基本上和友商旗艦水平相當(dāng)。其中比較弱勢的是NLP和目標(biāo)檢測，最差情況下只有對比產(chǎn)品的60%和80%性能。較好的是圖像分割、圖像識別和分類，基本擁有超過友商旗艦的性能。在和友商次旗艦的對比中，云燧T20的性能領(lǐng)先幅度分別在1.5倍到4.5倍之間，整體性能不錯。

在和兩款GPU對比的情況下，云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍，其余的BF16算力、內(nèi)存帶寬、內(nèi)存容量和互聯(lián)帶寬基本上可以達(dá)到GPU1的1～2倍，但是不如GPU2。考慮到云燧T20只是燧原科技的第二款產(chǎn)品，這樣的性能已經(jīng)值得肯定了。

燧原科技還使用云燧T20和上代云燧T10進(jìn)行了對比。從數(shù)據(jù)來看，云燧T20的性能基本上是云燧T10的1.5～6.7倍，顯示出不小的進(jìn)步，尤其是TF32算力暴增6.7倍，這顯示云燧T20在架構(gòu)上針對TF32進(jìn)行了充分優(yōu)化。不過在BF16方面，云燧T20的整體性能提升幅度還不夠。此外，在稀疏矩陣的性能優(yōu)化上，云燧T20也沒體現(xiàn)出明顯優(yōu)勢，這是未來燧原科技需要努力加強的部分。

燧原產(chǎn)品定律發(fā)布，性能穩(wěn)步提升

在發(fā)布會上，燧原科技還發(fā)布了未來的產(chǎn)品路線圖。其計劃在2023年發(fā)布新的云端訓(xùn)練產(chǎn)品T30和T31，每瓦特性能大約是2020年發(fā)布的初代T10和T11的14倍，大概也是最新發(fā)布的T20和T21的3.5倍左右。如此巨大的性能提升，新的產(chǎn)品在架構(gòu)更新的同時，可能會采用全新工藝，使用更多的晶體管來實現(xiàn)更高的性能。

目前，燧原科技擁有推理計算產(chǎn)品云燧i10，即將發(fā)布的云燧i20的每瓦特性能是云燧i10的4倍，2023年發(fā)布的云燧i30的每瓦特性能應(yīng)該是云燧i10的16倍左右，值得期待。

除了產(chǎn)品路線圖，燧原科技還發(fā)布了“燧原產(chǎn)品定理”，那就是燧原科技的每一代產(chǎn)品相比前一代產(chǎn)品，在“平均業(yè)務(wù)”中，每瓦特性能要達(dá)到前代產(chǎn)品的至少3倍，每單位價格性能要達(dá)到前代產(chǎn)品的至少2倍，并且保持軟件兼容性和可靠性等。

總的來看，燧原科技通過此次發(fā)布會展示了自己強大的技術(shù)研發(fā)能力和產(chǎn)品規(guī)劃、應(yīng)用能力。作為一個初創(chuàng)公司，燧原科技的AI加速芯片產(chǎn)品已經(jīng)具備一定水準(zhǔn)。同時燧原科技對未來產(chǎn)品的規(guī)劃以及“燧原產(chǎn)品定理”的出現(xiàn)，也給人們展示了這家公司堅定自主研發(fā)、提升產(chǎn)品性能的信心。希望在未來的道路上，燧原科技能夠堅持現(xiàn)在的研發(fā)主線，將自主AI芯片做得越來越好，越來越強。星星之火，可以燎原。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中國最大AI計算芯片問世 走近燧原科技邃思芯片、云燧加速卡

中國最大AI計算芯片問世　走近燧原科技邃思芯片、云燧加速卡