国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國最大AI計算芯片問世 走近燧原科技邃思芯片、云燧加速卡

2021-09-12 02:30李實
微型計算機 2021年16期
關(guān)鍵詞:算力芯片工藝

李實

提到AI計算芯片和加速卡,人們第一時間想到的往往是英偉達(dá)推出的A系列、T系列產(chǎn)品。實際上隨著國內(nèi)芯片設(shè)計的發(fā)展,目前國內(nèi)也有多家廠商推出了和AI計算相關(guān)的加速芯片和加速卡,比如百度、阿里等。日前,燧原科技推出了他們旗下最新的AI計算芯片和加速卡,從規(guī)模來看,燧原科技這次推出的產(chǎn)品可謂中國目前最大,在性能方面也和國外同檔次產(chǎn)品有一戰(zhàn)之力。下面,我們就和你一起走近燧原科技,了解一下其推出的邃思芯片和云燧加速卡。

燧原科技是位于上海的一家半導(dǎo)體初創(chuàng)企業(yè),其英文名為“Enflame”。燧原科技的兩位創(chuàng)始人分別是CEO趙立冬和COO張亞林。其中,趙立冬擁有清華大學(xué)電子工程學(xué)士和美國猶他州立大學(xué)電子計算機碩士學(xué)位,曾在S3、AMD、紫光、銳迪科等企業(yè)工作過,最高職位是紫光集團(tuán)副總裁。張亞林則是復(fù)旦大學(xué)電子工程學(xué)士學(xué)位獲得者,同樣有AMD工作背景,并領(lǐng)導(dǎo)定制開發(fā)了Xbox One主芯片,管理和發(fā)展了AMD上海、北京研發(fā)部門等。從燧原科技兩位創(chuàng)始人的背景可以看出,他們均有專業(yè)電子、集成電路的學(xué)習(xí)、工作背景,都曾經(jīng)在全球領(lǐng)先的一線企業(yè)擁有多年工作經(jīng)驗和豐富的行業(yè)資源。

燧原科技將自己定義為一家“專注人工智能領(lǐng)域云端算力平臺,致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案,提供自主知識產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品”的企業(yè)。目前,其推出的人工智能訓(xùn)練和推理產(chǎn)品品牌為云燧,芯片產(chǎn)品品牌為邃思,軟件品牌為馭算。

在了解了燧原科技的基本情況后,讓我們一起來看看本次燧原科技發(fā)布的全新產(chǎn)品的相關(guān)信息。

國內(nèi)最大的AI云端訓(xùn)練芯片:速思2.0

本次發(fā)布會最大的驚喜就是邃思2.0芯片。從基板尺寸來看它是目前國內(nèi)最大的AI芯片。邃思2.0芯片的封裝尺寸長寬均為57.5mm,整體封裝面積達(dá)到了3306.25mm2,不過這個數(shù)據(jù)是否包含了基板長度暫時不得而知。相比之下,英偉達(dá)的A100計算芯片同樣采用了HBM方案,其不包括HBM存儲的A100計算芯片面積僅為862mm2,和邃思2.0的數(shù)據(jù)相比差異相當(dāng)大,其主要原因可能是廠商統(tǒng)計數(shù)據(jù)的方法存在差異。

和這種計算芯片通常采用7nm甚至更高端的5nm工藝有所不同的是,邃思2.0采用的是格芯(格羅方德)的12nm工藝。有關(guān)工藝制程的信息,在發(fā)布會上并沒有做太多介紹,但是可能使用的就是格羅方德在2018年發(fā)布的12nm FD-SOI工藝。這個工藝的優(yōu)勢在于能夠?qū)崿F(xiàn)極高的集成度,并且FD-SOI技術(shù)的引入也使得整個芯片的功耗下降、性能提升。格芯的數(shù)據(jù)顯示,F(xiàn)D-SOI技術(shù)引入之后,他們的12nm工藝能夠以低于16nm FinFET的功耗實現(xiàn)基本等同于10nm FinFET的性能,或者說相比16nm FinFET工藝性能提升15%,功耗降低50%。

雖然格芯12nm FD-SOI工藝的整體表現(xiàn)在同代工藝中算是佼佼者,但是考慮到半導(dǎo)體制造的代差碾壓現(xiàn)象的存在,如果燧原科技能夠采用臺積電的7nm工藝或者更新的5nm工藝來制造產(chǎn)品的話,那么整個芯片的規(guī)模、性能、功耗等應(yīng)該會再上一個臺階。那么,為什么燧原科技選擇了比較老舊的工藝來制造這款產(chǎn)品呢?其主要原因可能還是綜合考慮了成本、市場以及產(chǎn)品等因素。

對燧原科技這樣的初創(chuàng)公司來說,臺積電的7nm、5nm工藝自然是好的,但是高昂的流片費用和相關(guān)制造成本在沒有較大的市場來分?jǐn)偟那闆r下,最終體現(xiàn)到產(chǎn)品上就是昂貴的單片售價。市場是敏感的,初創(chuàng)公司的新品在技術(shù)、性能上沒有絕對優(yōu)勢的前提下,如果成本和價格再沒有優(yōu)勢的話,那么相比成熟公司或者跨國企業(yè)的產(chǎn)品,初創(chuàng)公司的產(chǎn)品就很難得到市場和買家的關(guān)注。因此很多初創(chuàng)企業(yè)在早期都會提供相對于市場上成熟產(chǎn)品大致相當(dāng)?shù)男阅?,卻低得多的價格,或者背靠某個大企業(yè)進(jìn)行定向采購,畢竟對芯片這種產(chǎn)品來說,有人用才能實現(xiàn)有效迭代。寧可早期少賺、不賺甚至略虧,都一定要在自己的能力范圍內(nèi)維持整個市場的存在感和自己的產(chǎn)業(yè)生態(tài)圈,才能在—次次迭代中不斷升級,形成自己在技術(shù)、產(chǎn)業(yè)和生態(tài)上的競爭優(yōu)勢。

從這點來考慮,燧原科技在邃思2.0上采用12nmT藝是合理的,也是目前市場競爭條件下的最優(yōu)解。

邃思2.0采用2.5D圭寸裝設(shè)計,整合79顆芯片。從芯片的外表面可以看出,邃思2.0擁有一個計算核心和4個HBM2E存儲芯片,加起來一共有5個芯片。考慮到它封裝79顆芯片,那么可能在下部還集成74顆HBM2E芯片,最終達(dá)成了64GB的規(guī)格。

繼續(xù)來看產(chǎn)品的相關(guān)參數(shù)。算力方面,邃思2.0的單精度FP32算力為40TFLOPs,單精度張量TF32算力為160TFLOPS,整數(shù)INT8算力為320TOPs。此外,燧原科技宣稱邃思2.0支持目前所有的AI精度,包括FP32、TF32、FP16、BF16和INT8,不過由于發(fā)布會給出的消息不多,燧原科技沒有給出部分?jǐn)?shù)據(jù)精度格式下的算力情況,比如BF16(不過后文的性能測試有從側(cè)面透露出一些信息)。另外對于一些特殊情況下的算力優(yōu)化情況,發(fā)布會上也沒有進(jìn)行介紹。

相比目前最快的英偉達(dá)A100,A100的FP32算力為19.5TFLOPS,TF32算力為156TFLOPS,BF16算力為321TFLOPS,INT8算力為624TOPS。雖然從絕對理論數(shù)值上來看,A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的問題在于,A100在目前AI計算比較常用的BF16和INT8格式上算力大幅領(lǐng)先邃思2.0。不僅如此,在計算目標(biāo)是稀疏矩陣的情況下,A100 GPU的TF32、BF16和INT8算力會直接翻倍,這就不僅僅是硬件規(guī)??梢詻Q定的內(nèi)容了,

邃思2.0芯片采用了HBM2E的存儲方案,最高可以支持64GB容量的本地存儲,帶寬最高為1.8TB/s。外部接口則采用的是PCIe 4.0 x16,這也是目前主流的AI計算設(shè)備上常用的接口之一。

值得注意的是,邃思2.0在擴展性上擁有獨特設(shè)計。其芯片內(nèi)部設(shè)計了專用的通道,被稱為GCU-LARE燧原智能互聯(lián)總線,單路可以實現(xiàn)雙向50GB/s的帶寬。邃思2.0內(nèi)部擁有6路設(shè)計,總計可以實現(xiàn)300GB/s的雙向互聯(lián)帶寬。由于獨特的互聯(lián)端口,邃思2.0可以提供互聯(lián)擴展算力的功能。這個功能非常重要,這意味著邃思2.0擺脫了傳統(tǒng)芯片僅僅依靠PCIe總線溝通系統(tǒng)和互聯(lián)的設(shè)計,而是可以依靠自己定義的總線自組織成網(wǎng),這就為邃思2.0芯片的大規(guī)模、集群化應(yīng)用打好了基礎(chǔ)。

除了上述內(nèi)容外,燧原科技沒有詳細(xì)地對整個芯片的架構(gòu)、設(shè)計等內(nèi)容進(jìn)行介紹。希望未來能公布更詳細(xì)的資料,使得大家也可以一窺芯片的架構(gòu)和設(shè)計。

燧原科技的加速計算卡:云燧T20和云燧T21

除了芯片產(chǎn)品邃思2.0外,燧原科技還在此次發(fā)布會上推出了加速計算卡新品,其產(chǎn)品型號為云燧T20和云燧T21。

先來看看云燧T20,這款產(chǎn)品采用的是傳統(tǒng)PCIe設(shè)備外觀,需要占用雙插槽。從外觀來看和一般的顯卡沒有太大差別。不過云燧T20外殼沒有設(shè)計散熱器,應(yīng)該是放置在機架中進(jìn)行統(tǒng)一散熱。云燧T20和云燧T21的TDP功耗分別為300W和400W。

除了云燧T20外,燧原科技還推出了云燧T21,采用的是OAM模組設(shè)計。所謂OAM,是指OCP Accelerator Module,也就是OCP加速模塊,這是百度、微軟等企業(yè)聯(lián)合推出的標(biāo)準(zhǔn),用于標(biāo)準(zhǔn)化AI硬件加速模塊的系統(tǒng)設(shè)計。OAM標(biāo)準(zhǔn)定義了一整套方案,包括AI加速硬件在主板、機箱、供電、散熱等方面的規(guī)范,通過OAM規(guī)范,類似云燧T21這樣的產(chǎn)品就可以在不同的AI加速設(shè)備中兼容使用。從外觀上來看,云燧T21和我們傳統(tǒng)印象中的PCIe設(shè)備差別很大,更像是自帶了散熱器和底座的CPU模塊。

目前云燧T20和T21全系列產(chǎn)品都支持單機多卡互聯(lián)、多機多卡互聯(lián)和超大規(guī)模集群互聯(lián)。其中單機多卡互聯(lián)適用于主流AI服務(wù)器,單機支持8張加速卡互聯(lián),適合中小型深度學(xué)習(xí)訓(xùn)練場景。多機多卡的規(guī)模進(jìn)一步擴大至數(shù)百張卡,可以支持中大型企業(yè)、院校運行深度學(xué)習(xí)訓(xùn)練的場景。最大的則是超大規(guī)模集群互聯(lián),支持以干為單位的節(jié)點互聯(lián),適用于云計算、超算中心等場景。

值得一提的是,由于邃思2.0加入了相關(guān)互聯(lián)總線設(shè)計,因此組建多卡互聯(lián)系統(tǒng)很方便。在發(fā)布會上還展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。這個集群中包含了8192張云燧訓(xùn)練卡和DTU芯片,能夠以80%的線性度輸出性能,最高可以實現(xiàn)1.3E級別的單精度計算能力。目前,全.球尚未有其他設(shè)備能夠以1.3E(大約130000TFLOPS)的算力輸出性能,云燧智算集群是首個能夠達(dá)到這樣高度的產(chǎn)品。

在發(fā)布會上燧原科技還介紹了旗下馭算Topsrider 2.0架構(gòu)的相關(guān)內(nèi)容。目前馭算Topsrider 2.0主要支持更高算力,支持更便捷高效的開發(fā)和更靈活通用的場景。燧原科技展示了馭算Topsrider 2.0的架構(gòu)圖,最底層是云燧T10系列和云燧T20系列硬件,通過驅(qū)動層,進(jìn)入上層SDK層之后,馭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架,最后再進(jìn)入應(yīng)用層。目前馭算Topsrider 2.0也提供了非常完善的編譯器、工具鏈、圖形化整合開發(fā)環(huán)境、自編譯支持以及高性能運行支持,非常方便。

比肩業(yè)內(nèi)頂級的部分性能

和國內(nèi)目前很多AI芯片廠商的產(chǎn)品“只聞樓梯響,不見人下來”,性能總是模模糊糊相比,燧原科技在發(fā)布會上大大方方地展示了云燧T20系列的性能。雖然競爭對手只寫了“友商旗艦”,但考慮到就算不是英偉達(dá)A100,而是上代旗艦產(chǎn)品,也說明了云燧T20產(chǎn)品已經(jīng)頗具市場競爭力,要知道這還是一款12nm工藝制造的產(chǎn)品。

從燧原科技展示的信息可以看到,云燧T20在TF32性能的圖像識別和分類、NLP、目標(biāo)檢測、圖像分割等方面,基本上和友商旗艦水平相當(dāng)。其中比較弱勢的是NLP和目標(biāo)檢測,最差情況下只有對比產(chǎn)品的60%和80%性能。較好的是圖像分割、圖像識別和分類,基本擁有超過友商旗艦的性能。在和友商次旗艦的對比中,云燧T20的性能領(lǐng)先幅度分別在1.5倍到4.5倍之間,整體性能不錯。

在和兩款GPU對比的情況下,云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍,其余的BF16算力、內(nèi)存帶寬、內(nèi)存容量和互聯(lián)帶寬基本上可以達(dá)到GPU1的1~2倍,但是不如GPU2。考慮到云燧T20只是燧原科技的第二款產(chǎn)品,這樣的性能已經(jīng)值得肯定了。

燧原科技還使用云燧T20和上代云燧T10進(jìn)行了對比。從數(shù)據(jù)來看,云燧T20的性能基本上是云燧T10的1.5~6.7倍,顯示出不小的進(jìn)步,尤其是TF32算力暴增6.7倍,這顯示云燧T20在架構(gòu)上針對TF32進(jìn)行了充分優(yōu)化。不過在BF16方面,云燧T20的整體性能提升幅度還不夠。此外,在稀疏矩陣的性能優(yōu)化上,云燧T20也沒體現(xiàn)出明顯優(yōu)勢,這是未來燧原科技需要努力加強的部分。

燧原產(chǎn)品定律發(fā)布,性能穩(wěn)步提升

在發(fā)布會上,燧原科技還發(fā)布了未來的產(chǎn)品路線圖。其計劃在2023年發(fā)布新的云端訓(xùn)練產(chǎn)品T30和T31,每瓦特性能大約是2020年發(fā)布的初代T10和T11的14倍,大概也是最新發(fā)布的T20和T21的3.5倍左右。如此巨大的性能提升,新的產(chǎn)品在架構(gòu)更新的同時,可能會采用全新工藝,使用更多的晶體管來實現(xiàn)更高的性能。

目前,燧原科技擁有推理計算產(chǎn)品云燧i10,即將發(fā)布的云燧i20的每瓦特性能是云燧i10的4倍,2023年發(fā)布的云燧i30的每瓦特性能應(yīng)該是云燧i10的16倍左右,值得期待。

除了產(chǎn)品路線圖,燧原科技還發(fā)布了“燧原產(chǎn)品定理”,那就是燧原科技的每一代產(chǎn)品相比前一代產(chǎn)品,在“平均業(yè)務(wù)”中,每瓦特性能要達(dá)到前代產(chǎn)品的至少3倍,每單位價格性能要達(dá)到前代產(chǎn)品的至少2倍,并且保持軟件兼容性和可靠性等。

總的來看,燧原科技通過此次發(fā)布會展示了自己強大的技術(shù)研發(fā)能力和產(chǎn)品規(guī)劃、應(yīng)用能力。作為一個初創(chuàng)公司,燧原科技的AI加速芯片產(chǎn)品已經(jīng)具備一定水準(zhǔn)。同時燧原科技對未來產(chǎn)品的規(guī)劃以及“燧原產(chǎn)品定理”的出現(xiàn),也給人們展示了這家公司堅定自主研發(fā)、提升產(chǎn)品性能的信心。希望在未來的道路上,燧原科技能夠堅持現(xiàn)在的研發(fā)主線,將自主AI芯片做得越來越好,越來越強。星星之火,可以燎原。

猜你喜歡
算力芯片工藝
基于網(wǎng)絡(luò)5.0的重疊網(wǎng)形態(tài)算力網(wǎng)絡(luò)
衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
中國電信董事長柯瑞文:算力成為數(shù)字經(jīng)濟的主要生產(chǎn)力
基于SiteAI算力終端的交通態(tài)勢感知系統(tǒng)
轉(zhuǎn)爐高效復(fù)合吹煉工藝的開發(fā)與應(yīng)用
5-氯-1-茚酮合成工藝改進(jìn)
芯片測試
多通道采樣芯片ADS8556在光伏并網(wǎng)中的應(yīng)用
一段鋅氧壓浸出與焙燒浸出工藝的比較
絡(luò)合鐵脫硫工藝在CK1井的應(yīng)用
嵩明县| 贵阳市| 北京市| 浮梁县| 溧水县| 雷山县| 绍兴县| 庆阳市| 阿拉善盟| 承德县| 峡江县| 德保县| 基隆市| 北宁市| 西平县| 邻水| 石屏县| 伽师县| 古交市| 临猗县| 通渭县| 山丹县| 蒙山县| 永安市| 临汾市| 阿克苏市| 渝北区| 凤凰县| 大庆市| 沾益县| 闸北区| 蒲江县| 双鸭山市| 会东县| 阿尔山市| 九龙坡区| 金昌市| 务川| 乌什县| 葵青区| 塔城市|