Graphcore：IPU開(kāi)啟AI研發(fā)與應(yīng)用的新篇章

2020-02-08 08:41齊健

智能制造 2020年9期

齊健

Graphcore是一家總部位于英國(guó)的創(chuàng)新公司，其主要業(yè)務(wù)是研發(fā)專門應(yīng)用于AI技術(shù)的創(chuàng)新芯片——IPU（Intelligence Processing Unit）。自2016年成立以來(lái)，就受到了業(yè)界、市場(chǎng)和資本的高度關(guān)注。截至目前，Graphcore的總?cè)谫Y額超過(guò)4.5億美金，其全球辦公室遍布?xì)W洲、亞洲和北美。

隨著Graphcore IPU（智能處理器）硬件及其開(kāi)發(fā)軟件Poplar在人工智能行業(yè)的日益升溫，日前，Graphcore又發(fā)布了Graphcore IPU的第二代產(chǎn)品Colossus Mk2 GC200，以及可以用于大規(guī)模系統(tǒng)級(jí)產(chǎn)品的IPU- Machine： M2000（IPU-M2000）。第二代IPU具有更強(qiáng)的處理能力、更多的內(nèi)存和內(nèi)置的可擴(kuò)展性，可處理龐大的機(jī)器智能工作負(fù)載。

“從單一芯片來(lái)看，Colossus Mk2 GC200處理器是目前世界上最復(fù)雜的單一處理器，基于臺(tái)積電的7納米技術(shù)，我們?cè)谝活w823平方毫米的IPU處理器中集成了將近600億個(gè)晶體管。Colossus Mk2 GC200擁有250 TFlops AI-Float的算力和900MB的處理器內(nèi)存儲(chǔ)。處理器內(nèi)核從第一代IPU的1 217個(gè)獨(dú)立的處理器內(nèi)核提升到了1 472個(gè)，這樣一個(gè)IPU處理器有將近9 000個(gè)單獨(dú)的并行線程。相對(duì)于第一代產(chǎn)品，其系統(tǒng)級(jí)的性能提升了8倍以上?！盙raphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤介紹說(shuō)。

IPU處理器的顛覆性突破

相比于Graphcore的第一代IPU產(chǎn)品，Colossus Mk2 GC200在技術(shù)上實(shí)現(xiàn)了三大顛覆性的突破：計(jì)算、數(shù)據(jù)和通信。

在計(jì)算方面，Colossus Mk2 GC200處理器繼承了上一代IPU的簡(jiǎn)潔架構(gòu)，在單顆芯片中集成了1 472個(gè)獨(dú)立的IPU-Tiles的單元，并設(shè)置了8 832個(gè)可并行執(zhí)行線程，In-Processor-Memory從上一代的300 MB提升到900 MB，每個(gè)IPU的內(nèi)存帶寬為47.5TB/s，與上一代IPU相比Colossus Mk2 GC200的峰值算力提高了兩倍。同時(shí)Colossus Mk2 GC200還包含了IPU-Exchange以及PCI Gen4跟主機(jī)的交互接口，在芯片之間具備帶寬為320 GB/s的IPU-Links互聯(lián)。

在數(shù)據(jù)處理方面，Colossus Mk2 GC200具備900 MB超高速SRAM，在每個(gè)處理器內(nèi)核旁邊都設(shè)有大量RAM，以實(shí)現(xiàn)最低能量訪問(wèn)。從數(shù)值上看，Colossus Mk2 GC200的處理器存儲(chǔ)容量比前代的300 MB提高了三倍，但在芯片內(nèi)部，可供算法模型使用的激活、權(quán)重存儲(chǔ)容量比上一代提高了六倍以上，對(duì)于提升有效的運(yùn)算效能大有幫助。

此外，Graphcore的Poplar軟件提出了全新的交換式存儲(chǔ)概念——IPUExchangeMemory。通過(guò)IPUExchangeMemory訪問(wèn)Streaming Memory，可以支持具有數(shù)千億個(gè)參數(shù)的最大模型，每個(gè)IPU-M2000都可以支持密度高達(dá)450 GB的IPU ExchangeMemory，以及180 TB/s的帶寬。與采用HBM技術(shù)的芯片相比，Graphcore在每個(gè)IPU-M2000設(shè)備中通過(guò)IPU ExchangeMemory技術(shù)，可以提供近100倍的帶寬以及大約10倍的內(nèi)存容量，這對(duì)于很多復(fù)雜的AI模型算法是非常有幫助的。

在通信方面，Graphcore專門為AI橫向擴(kuò)展推出了全新的IPU-Fabric結(jié)構(gòu)。IPU-Fabric結(jié)構(gòu)主要由三種網(wǎng)絡(luò)IPU-Link、IPU Gateway Link和IPUoverFabric三種網(wǎng)絡(luò)組成，其可以實(shí)現(xiàn)2.8 Tbps的超低延時(shí)，并且支持AI運(yùn)算中的集合通信以及全縮減（All-Reduce）操作。此外，通過(guò)IPU-Fabric技術(shù)，用戶可以通過(guò)直聯(lián)，或者以太網(wǎng)交換機(jī)實(shí)現(xiàn)IPU的橫向擴(kuò)展，把設(shè)備集群從一個(gè)、幾個(gè)、幾十個(gè)、幾百個(gè)甚至幾千個(gè)無(wú)縫擴(kuò)展至最高64 000個(gè)IPU。

在Colossus Mk2與Mk1的系統(tǒng)級(jí)對(duì)比中，Graphcore分別選擇了利用IPU-Link連接8個(gè)C2 PCIe卡的IPU服務(wù)器和利用IPU-Fabric擴(kuò)展的8個(gè)IPU-M2000進(jìn)行對(duì)比。在BERT-Large訓(xùn)練、BERT-3Layer推理和EfficientNet-B3訓(xùn)練三個(gè)典型的應(yīng)用場(chǎng)景中，BERT-Large訓(xùn)練實(shí)現(xiàn)了9.3倍的性能提升，BERT-3Layer推理實(shí)現(xiàn)了8.5倍的性能提升，EfficientNet-B3訓(xùn)練實(shí)現(xiàn)了7.4 倍的性能提升。盧濤表示，“相較于前代產(chǎn)品，不管是典型的NLP應(yīng)用，還是CV類的應(yīng)用，在8個(gè)C2的IPU服務(wù)器和基于8個(gè)M2000的服務(wù)器的系統(tǒng)級(jí)性能對(duì)比中，Colossus Mk2 GC200都可以實(shí)現(xiàn)平均八倍左右的性能提升?！?img src="https://cimg.fx361.com/images/2021/02/08/qkimagescadccadc202009cadc20200914-5-l.jpg"/>

大規(guī)?？蓴U(kuò)展的IPU-M2000刀片卡

IPU-Machine：M2000（IPU-M2000）是一款即插即用的機(jī)器智能刀片式計(jì)算單元，采用Colossus Mk2 GC200內(nèi)核，并由Poplar軟件棧提供全面支持。其設(shè)計(jì)便于部署，并支持可擴(kuò)展至大規(guī)模的系統(tǒng)。這款纖薄的1U刀片機(jī)可提供1個(gè)PetaFlop的機(jī)器智能計(jì)算，且擁有450 GB的ExchangeMemory，以及可以為用戶提供超低延時(shí)通信的2.8 Tbps IPU-Fabric。IPU-M2000目前的建議零售價(jià)是32 450美金。

IPU-M2000有多種配置形態(tài)，用戶可以根據(jù)自己的需求利用IPU-Fabric對(duì)IPU模塊進(jìn)行橫向擴(kuò)展。同時(shí)，Graphcore還推出了基于IPU-M2000的全新模塊化機(jī)架規(guī)模解決方案IPU-POD64，可用于極大型機(jī)器智能橫向擴(kuò)展，為用戶提供更大的AI計(jì)算可能性，以及完全的靈活性和易于部署的特性。

IPU-M2000是IPU-POD的一個(gè)基本組件，一個(gè)IPUPOD64的參考架構(gòu)里支持16個(gè)IPU-M2000，可以根據(jù)不同的工作負(fù)載進(jìn)行不同的配置，并且具有64顆IPU、16PFlops的算力、58GB的In-Processor-Memory，以及7TB的流存儲(chǔ)。此外，IPU-POD64支持2D-Torus的拓?fù)?，最大化IPU-Link的帶寬，全縮減（All-Reduce）的效率比網(wǎng)狀拓?fù)淇靸杀丁?/p>

利用Graphcore最新的IPU-Fabric技術(shù)，用戶可以在整個(gè)數(shù)據(jù)中心內(nèi)連接IPU，把IPU-M2000從一個(gè)機(jī)架式本地系統(tǒng)擴(kuò)展到高度互連的超高性能AI計(jì)算設(shè)施中的1 000多個(gè)IPU-POD64系統(tǒng)。IPU-M2000的設(shè)計(jì)使客戶可以在IPU-POD配置中構(gòu)建最多64 000個(gè)IPU的數(shù)據(jù)中心規(guī)模系統(tǒng)，這樣一個(gè)64 000個(gè)IPU的集群可以為用戶提供16ExaFlops的機(jī)器智能計(jì)算能力。

Graphocore在多核協(xié)同應(yīng)用方面，應(yīng)用了針對(duì)IPU協(xié)同的BSP（Bulk Synchronization Parallel）機(jī)制，通過(guò)軟件+硬件+編譯的協(xié)同機(jī)制，實(shí)現(xiàn)超大規(guī)模線程的同步。Graphcore中國(guó)區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭介紹說(shuō)，BSP機(jī)制其實(shí)并不是一個(gè)新的概念，很早之前在超算領(lǐng)域就被人提出過(guò)，而Graphcore在BSP機(jī)制的基礎(chǔ)上把IPU芯片以及整個(gè)編譯器結(jié)合起來(lái)，利用IPU-Fabric，實(shí)現(xiàn)了IPU的多核協(xié)同工作，并保證大規(guī)模并行處理過(guò)程中的性能提升線性。

圍繞IPU構(gòu)建的開(kāi)發(fā)環(huán)境

Graphcore的IPU應(yīng)用軟件Poplar包括了PopART（run time）和PopLibs（SDK）兩個(gè)部分。Poplar支持的算法框架包括PyTorch、TensorFlow1、TensorFlow2和ONNX，對(duì)百度PaddlePaddle的支持也會(huì)盡快發(fā)布。開(kāi)發(fā)者通過(guò)PopART和PopLibs連接Poplar的compute graph，再通過(guò)graph compiler在整個(gè)處理器軟件跟硬件結(jié)合最緊密的地方生產(chǎn)計(jì)算圖，并把這個(gè)計(jì)算圖加載到對(duì)應(yīng)的硬件，也就是IPU-M2000整個(gè)這一系列的產(chǎn)品中。

Graphcore最新發(fā)布的PoplarSDK1.2可以完全支持主流數(shù)據(jù)中心的操作系統(tǒng)，包括ubuntu、RedHat和CentOS等。Poplar SDK 1.2還優(yōu)化了卷積庫(kù)和稀疏庫(kù)，開(kāi)放了可擴(kuò)展的Poplar庫(kù)，集成了很多先進(jìn)的機(jī)器學(xué)習(xí)框架，進(jìn)一步開(kāi)放了低級(jí)別的API，為上層的算法提供低層次的API接口，并開(kāi)放了Graphcore的獨(dú)特技術(shù)IPU Exchange Memory的相關(guān)API和管理功能，幫助用戶對(duì)模型性能做出最大程度的調(diào)優(yōu)。

Graphcore還為用戶提供了基于圖形的分析工具Graphcore PopVisionGraph，可以做到基于算子層面檢測(cè)整個(gè)系統(tǒng)。以圖形界面的形式呈現(xiàn)內(nèi)存使用、算力使用等信息，并針對(duì)IPU的特性進(jìn)行性能調(diào)優(yōu)。

GraphcoreIPU開(kāi)發(fā)者云

目前Graphcore在中國(guó)的首款I(lǐng)PU 開(kāi)發(fā)者云已經(jīng)在金山云平臺(tái)完成了部署，其中使用的IPU產(chǎn)品包括三種： IPU-POD64、浪潮IPU服務(wù)器NF5568M5，以及戴爾IPU服務(wù)器DSS8440。Graphcore的IPU開(kāi)發(fā)者云支持當(dāng)下最先進(jìn)、最復(fù)雜的AI算法模型的訓(xùn)練和推理的工作，例如ResNeXt和EfficientNet等以分組卷積為代表的機(jī)器視覺(jué)應(yīng)用，LSTM、RNN和GRU等基于時(shí)序分析的應(yīng)用，還有自然語(yǔ)言、廣告推薦和金融算法等方面的模型。

Graphcore的IPU 開(kāi)發(fā)者云為商業(yè)用戶提供三周左右的試用期，對(duì)于高校、研究機(jī)構(gòu)和個(gè)人開(kāi)發(fā)者則提供六個(gè)月左右的免費(fèi)試用，Graphcore還為應(yīng)用機(jī)器智能輔助人類突破人類潛力的研究者，例如針對(duì)新型冠狀病毒COVID-19的相關(guān)研究提供優(yōu)先訪問(wèn)使用權(quán)。

在用戶社群建設(shè)方面，Graphcore一直在努力籌備中國(guó)的創(chuàng)新社區(qū)，并在微信、知乎、微博，以及GitHub等平臺(tái)與開(kāi)發(fā)者、創(chuàng)新者及研究者積極互動(dòng)，Graphcore的中國(guó)官網(wǎng)“擬未科技”也將于近期上線。

后記

“Graphcore當(dāng)下的主要工作分為三個(gè)部分：第一部分是專門為AI應(yīng)用從零開(kāi)始設(shè)計(jì)的IPU處理器。第二部分是基于IPU處理器以及面向AI應(yīng)用的Poplar軟件棧，以及相關(guān)開(kāi)發(fā)工具。第三部分是圍繞硬件和軟件共同打造IPU平臺(tái)。”盧濤介紹說(shuō)，“Graphcore的愿景是在CPU和GPU之外‘畫(huà)出第三個(gè)圓，因?yàn)槲覀冋J(rèn)為不管是CPU還是GPU都沒(méi)有從根本意義上解決AI的問(wèn)題。AI是一個(gè)面向計(jì)算圖的計(jì)算任務(wù)，跟CPU的標(biāo)量計(jì)算和GPU的矢量計(jì)算都是不一樣的。Graphcore希望IPU能夠幫助創(chuàng)新者在機(jī)器智能中實(shí)現(xiàn)下一步算法的突破。Graphcore芯片架構(gòu)的特點(diǎn)能夠?yàn)槟Ｐ烷_(kāi)發(fā)、算法迭代帶來(lái)速度的提升，從而實(shí)現(xiàn)進(jìn)一步的突破。”

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Graphcore：IPU開(kāi)啟AI研發(fā)與應(yīng)用的新篇章