国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Graphcore:IPU開(kāi)啟AI研發(fā)與應(yīng)用的新篇章

2020-02-08 08:41齊健
智能制造 2020年9期
關(guān)鍵詞:算力開(kāi)發(fā)者處理器

齊健

Graphcore是一家總部位于英國(guó)的創(chuàng)新公司,其主要業(yè)務(wù)是研發(fā)專門應(yīng)用于AI技術(shù)的創(chuàng)新芯片——IPU(Intelligence Processing Unit)。自2016年成立以來(lái),就受到了業(yè)界、市場(chǎng)和資本的高度關(guān)注。截至目前,Graphcore的總?cè)谫Y額超過(guò)4.5億美金,其全球辦公室遍布?xì)W洲、亞洲和北美。

隨著Graphcore IPU(智能處理器)硬件及其開(kāi)發(fā)軟件Poplar在人工智能行業(yè)的日益升溫,日前,Graphcore又發(fā)布了Graphcore IPU的第二代產(chǎn)品Colossus Mk2 GC200,以及可以用于大規(guī)模系統(tǒng)級(jí)產(chǎn)品的IPU- Machine: M2000(IPU-M2000)。第二代IPU具有更強(qiáng)的處理能力、更多的內(nèi)存和內(nèi)置的可擴(kuò)展性,可處理龐大的機(jī)器智能工作負(fù)載。

“從單一芯片來(lái)看,Colossus Mk2 GC200處理器是目前世界上最復(fù)雜的單一處理器,基于臺(tái)積電的7納米技術(shù),我們?cè)谝活w823平方毫米的IPU處理器中集成了將近600億個(gè)晶體管。Colossus Mk2 GC200擁有250 TFlops AI-Float的算力和900MB的處理器內(nèi)存儲(chǔ)。處理器內(nèi)核從第一代IPU的1 217個(gè)獨(dú)立的處理器內(nèi)核提升到了1 472個(gè),這樣一個(gè)IPU處理器有將近9 000個(gè)單獨(dú)的并行線程。相對(duì)于第一代產(chǎn)品,其系統(tǒng)級(jí)的性能提升了8倍以上?!盙raphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤介紹說(shuō)。

IPU處理器的顛覆性突破

相比于Graphcore的第一代IPU產(chǎn)品,Colossus Mk2 GC200在技術(shù)上實(shí)現(xiàn)了三大顛覆性的突破:計(jì)算、數(shù)據(jù)和通信。

在計(jì)算方面,Colossus Mk2 GC200處理器繼承了上一代IPU的簡(jiǎn)潔架構(gòu),在單顆芯片中集成了1 472個(gè)獨(dú)立的IPU-Tiles的單元,并設(shè)置了8 832個(gè)可并行執(zhí)行線程,In-Processor-Memory從上一代的300 MB提升到900 MB,每個(gè)IPU的內(nèi)存帶寬為47.5TB/s,與上一代IPU相比Colossus Mk2 GC200的峰值算力提高了兩倍。同時(shí)Colossus Mk2 GC200還包含了IPU-Exchange以及PCI Gen4跟主機(jī)的交互接口,在芯片之間具備帶寬為320 GB/s的IPU-Links互聯(lián)。

在數(shù)據(jù)處理方面,Colossus Mk2 GC200具備900 MB超高速SRAM,在每個(gè)處理器內(nèi)核旁邊都設(shè)有大量RAM,以實(shí)現(xiàn)最低能量訪問(wèn)。從數(shù)值上看,Colossus Mk2 GC200的處理器存儲(chǔ)容量比前代的300 MB提高了三倍,但在芯片內(nèi)部,可供算法模型使用的激活、權(quán)重存儲(chǔ)容量比上一代提高了六倍以上,對(duì)于提升有效的運(yùn)算效能大有幫助。

此外,Graphcore的Poplar軟件提出了全新的交換式存儲(chǔ)概念——IPUExchangeMemory。通過(guò)IPUExchangeMemory訪問(wèn)Streaming Memory,可以支持具有數(shù)千億個(gè)參數(shù)的最大模型,每個(gè)IPU-M2000都可以支持密度高達(dá)450 GB的IPU ExchangeMemory,以及180 TB/s的帶寬。與采用HBM技術(shù)的芯片相比,Graphcore在每個(gè)IPU-M2000設(shè)備中通過(guò)IPU ExchangeMemory技術(shù),可以提供近100倍的帶寬以及大約10倍的內(nèi)存容量,這對(duì)于很多復(fù)雜的AI模型算法是非常有幫助的。

在通信方面,Graphcore專門為AI橫向擴(kuò)展推出了全新的IPU-Fabric結(jié)構(gòu)。IPU-Fabric結(jié)構(gòu)主要由三種網(wǎng)絡(luò)IPU-Link、IPU Gateway Link和IPUoverFabric三種網(wǎng)絡(luò)組成,其可以實(shí)現(xiàn)2.8 Tbps的超低延時(shí),并且支持AI運(yùn)算中的集合通信以及全縮減(All-Reduce)操作。此外,通過(guò)IPU-Fabric技術(shù),用戶可以通過(guò)直聯(lián),或者以太網(wǎng)交換機(jī)實(shí)現(xiàn)IPU的橫向擴(kuò)展,把設(shè)備集群從一個(gè)、幾個(gè)、幾十個(gè)、幾百個(gè)甚至幾千個(gè)無(wú)縫擴(kuò)展至最高64 000個(gè)IPU。

在Colossus Mk2與Mk1的系統(tǒng)級(jí)對(duì)比中,Graphcore分別選擇了利用IPU-Link連接8個(gè)C2 PCIe卡的IPU服務(wù)器和利用IPU-Fabric擴(kuò)展的8個(gè)IPU-M2000進(jìn)行對(duì)比。在BERT-Large訓(xùn)練、BERT-3Layer推理和EfficientNet-B3訓(xùn)練三個(gè)典型的應(yīng)用場(chǎng)景中,BERT-Large訓(xùn)練實(shí)現(xiàn)了9.3倍的性能提升,BERT-3Layer推理實(shí)現(xiàn)了8.5倍的性能提升,EfficientNet-B3訓(xùn)練實(shí)現(xiàn)了7.4 倍的性能提升。盧濤表示,“相較于前代產(chǎn)品,不管是典型的NLP應(yīng)用,還是CV類的應(yīng)用,在8個(gè)C2的IPU服務(wù)器和基于8個(gè)M2000的服務(wù)器的系統(tǒng)級(jí)性能對(duì)比中,Colossus Mk2 GC200都可以實(shí)現(xiàn)平均八倍左右的性能提升?!?img src="https://cimg.fx361.com/images/2021/02/08/qkimagescadccadc202009cadc20200914-5-l.jpg"/>

大規(guī)??蓴U(kuò)展的IPU-M2000刀片卡

IPU-Machine:M2000(IPU-M2000)是一款即插即用的機(jī)器智能刀片式計(jì)算單元,采用Colossus Mk2 GC200內(nèi)核,并由Poplar軟件棧提供全面支持。其設(shè)計(jì)便于部署,并支持可擴(kuò)展至大規(guī)模的系統(tǒng)。這款纖薄的1U刀片機(jī)可提供1個(gè)PetaFlop的機(jī)器智能計(jì)算,且擁有450 GB的ExchangeMemory,以及可以為用戶提供超低延時(shí)通信的2.8 Tbps IPU-Fabric。IPU-M2000目前的建議零售價(jià)是32 450美金。

IPU-M2000有多種配置形態(tài),用戶可以根據(jù)自己的需求利用IPU-Fabric對(duì)IPU模塊進(jìn)行橫向擴(kuò)展。同時(shí),Graphcore還推出了基于IPU-M2000的全新模塊化機(jī)架規(guī)模解決方案IPU-POD64,可用于極大型機(jī)器智能橫向擴(kuò)展,為用戶提供更大的AI計(jì)算可能性,以及完全的靈活性和易于部署的特性。

IPU-M2000是IPU-POD的一個(gè)基本組件,一個(gè)IPUPOD64的參考架構(gòu)里支持16個(gè)IPU-M2000,可以根據(jù)不同的工作負(fù)載進(jìn)行不同的配置,并且具有64顆IPU、16PFlops的算力、58GB的In-Processor-Memory,以及7TB的流存儲(chǔ)。此外,IPU-POD64支持2D-Torus的拓?fù)?,最大化IPU-Link的帶寬,全縮減(All-Reduce)的效率比網(wǎng)狀拓?fù)淇靸杀丁?/p>

利用Graphcore最新的IPU-Fabric技術(shù),用戶可以在整個(gè)數(shù)據(jù)中心內(nèi)連接IPU,把IPU-M2000從一個(gè)機(jī)架式本地系統(tǒng)擴(kuò)展到高度互連的超高性能AI計(jì)算設(shè)施中的1 000多個(gè)IPU-POD64系統(tǒng)。IPU-M2000的設(shè)計(jì)使客戶可以在IPU-POD配置中構(gòu)建最多64 000個(gè)IPU的數(shù)據(jù)中心規(guī)模系統(tǒng),這樣一個(gè)64 000個(gè)IPU的集群可以為用戶提供16ExaFlops的機(jī)器智能計(jì)算能力。

Graphocore在多核協(xié)同應(yīng)用方面,應(yīng)用了針對(duì)IPU協(xié)同的BSP(Bulk Synchronization Parallel)機(jī)制,通過(guò)軟件+硬件+編譯的協(xié)同機(jī)制,實(shí)現(xiàn)超大規(guī)模線程的同步。Graphcore中國(guó)區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭介紹說(shuō),BSP機(jī)制其實(shí)并不是一個(gè)新的概念,很早之前在超算領(lǐng)域就被人提出過(guò),而Graphcore在BSP機(jī)制的基礎(chǔ)上把IPU芯片以及整個(gè)編譯器結(jié)合起來(lái),利用IPU-Fabric,實(shí)現(xiàn)了IPU的多核協(xié)同工作,并保證大規(guī)模并行處理過(guò)程中的性能提升線性。

圍繞IPU構(gòu)建的開(kāi)發(fā)環(huán)境

Graphcore的IPU應(yīng)用軟件Poplar包括了PopART(run time)和PopLibs(SDK)兩個(gè)部分。Poplar支持的算法框架包括PyTorch、TensorFlow1、TensorFlow2和ONNX,對(duì)百度PaddlePaddle的支持也會(huì)盡快發(fā)布。開(kāi)發(fā)者通過(guò)PopART和PopLibs連接Poplar的compute graph,再通過(guò)graph compiler在整個(gè)處理器軟件跟硬件結(jié)合最緊密的地方生產(chǎn)計(jì)算圖,并把這個(gè)計(jì)算圖加載到對(duì)應(yīng)的硬件,也就是IPU-M2000整個(gè)這一系列的產(chǎn)品中。

Graphcore最新發(fā)布的PoplarSDK1.2可以完全支持主流數(shù)據(jù)中心的操作系統(tǒng),包括ubuntu、RedHat和CentOS等。Poplar SDK 1.2還優(yōu)化了卷積庫(kù)和稀疏庫(kù),開(kāi)放了可擴(kuò)展的Poplar庫(kù),集成了很多先進(jìn)的機(jī)器學(xué)習(xí)框架,進(jìn)一步開(kāi)放了低級(jí)別的API,為上層的算法提供低層次的API接口,并開(kāi)放了Graphcore的獨(dú)特技術(shù)IPU Exchange Memory的相關(guān)API和管理功能,幫助用戶對(duì)模型性能做出最大程度的調(diào)優(yōu)。

Graphcore還為用戶提供了基于圖形的分析工具Graphcore PopVisionGraph,可以做到基于算子層面檢測(cè)整個(gè)系統(tǒng)。以圖形界面的形式呈現(xiàn)內(nèi)存使用、算力使用等信息,并針對(duì)IPU的特性進(jìn)行性能調(diào)優(yōu)。

GraphcoreIPU開(kāi)發(fā)者云

目前Graphcore在中國(guó)的首款I(lǐng)PU 開(kāi)發(fā)者云已經(jīng)在金山云平臺(tái)完成了部署,其中使用的IPU產(chǎn)品包括三種: IPU-POD64、浪潮IPU服務(wù)器NF5568M5,以及戴爾IPU服務(wù)器DSS8440。Graphcore的IPU開(kāi)發(fā)者云支持當(dāng)下最先進(jìn)、最復(fù)雜的AI算法模型的訓(xùn)練和推理的工作,例如ResNeXt和EfficientNet等以分組卷積為代表的機(jī)器視覺(jué)應(yīng)用,LSTM、RNN和GRU等基于時(shí)序分析的應(yīng)用,還有自然語(yǔ)言、廣告推薦和金融算法等方面的模型。

Graphcore的IPU 開(kāi)發(fā)者云為商業(yè)用戶提供三周左右的試用期,對(duì)于高校、研究機(jī)構(gòu)和個(gè)人開(kāi)發(fā)者則提供六個(gè)月左右的免費(fèi)試用,Graphcore還為應(yīng)用機(jī)器智能輔助人類突破人類潛力的研究者,例如針對(duì)新型冠狀病毒COVID-19的相關(guān)研究提供優(yōu)先訪問(wèn)使用權(quán)。

在用戶社群建設(shè)方面,Graphcore一直在努力籌備中國(guó)的創(chuàng)新社區(qū),并在微信、知乎、微博,以及GitHub等平臺(tái)與開(kāi)發(fā)者、創(chuàng)新者及研究者積極互動(dòng),Graphcore的中國(guó)官網(wǎng)“擬未科技”也將于近期上線。

后記

“Graphcore當(dāng)下的主要工作分為三個(gè)部分:第一部分是專門為AI應(yīng)用從零開(kāi)始設(shè)計(jì)的IPU處理器。第二部分是基于IPU處理器以及面向AI應(yīng)用的Poplar軟件棧,以及相關(guān)開(kāi)發(fā)工具。第三部分是圍繞硬件和軟件共同打造IPU平臺(tái)。”盧濤介紹說(shuō),“Graphcore的愿景是在CPU和GPU之外‘畫(huà)出第三個(gè)圓,因?yàn)槲覀冋J(rèn)為不管是CPU還是GPU都沒(méi)有從根本意義上解決AI的問(wèn)題。AI是一個(gè)面向計(jì)算圖的計(jì)算任務(wù),跟CPU的標(biāo)量計(jì)算和GPU的矢量計(jì)算都是不一樣的。Graphcore希望IPU能夠幫助創(chuàng)新者在機(jī)器智能中實(shí)現(xiàn)下一步算法的突破。Graphcore芯片架構(gòu)的特點(diǎn)能夠?yàn)槟P烷_(kāi)發(fā)、算法迭代帶來(lái)速度的提升,從而實(shí)現(xiàn)進(jìn)一步的突破。”

猜你喜歡
算力開(kāi)發(fā)者處理器
基于網(wǎng)絡(luò)5.0的重疊網(wǎng)形態(tài)算力網(wǎng)絡(luò)
衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
中國(guó)電信董事長(zhǎng)柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
基于SiteAI算力終端的交通態(tài)勢(shì)感知系統(tǒng)
iOS開(kāi)發(fā)者調(diào)查
iOS開(kāi)發(fā)者調(diào)查
栝樓產(chǎn)業(yè)開(kāi)發(fā)者謝獻(xiàn)忠
Imagination的ClearCallTM VoIP應(yīng)用現(xiàn)可支持Cavium的OCTEON? Ⅲ多核處理器
ADI推出新一代SigmaDSP處理器
電子設(shè)計(jì)應(yīng)用(2004年7期)2004-09-02