張心怡
“到2019年10月,經(jīng)過三年多的轉(zhuǎn)型,英特爾‘以數(shù)據(jù)為中心的業(yè)務(wù)營收在上個(gè)季度(2019年Q3)已經(jīng)與PC業(yè)務(wù)持平,這是非常大的變化?!痹诮张e辦的英特爾技術(shù)創(chuàng)新媒體溝通會上,英特爾中國研究院院長宋繼強(qiáng)曬出了其數(shù)據(jù)中心業(yè)務(wù)的成績單。
異構(gòu)計(jì)算漸成趨勢
與通用計(jì)算相對,異構(gòu)計(jì)算面向?qū)I(yè)化、客制化的計(jì)算需求,在計(jì)算任務(wù)中應(yīng)用CPU、GPU、ASIC、FPGA等多種計(jì)算架構(gòu),被視為更適合后摩爾時(shí)代的計(jì)算方式。
產(chǎn)業(yè)界不斷加碼異構(gòu)計(jì)算,是因?yàn)閺?0世紀(jì)90年代至今,數(shù)據(jù)的量和質(zhì)都發(fā)生了巨大的變化。2000年之前的Web1.0,計(jì)算設(shè)備以PC為主,數(shù)據(jù)類型以結(jié)構(gòu)化數(shù)據(jù)和圖形數(shù)據(jù)為主。到了 Web2.0時(shí)代,用戶從被動(dòng)獲取數(shù)據(jù)走向主動(dòng)產(chǎn)生數(shù)據(jù),服務(wù)器和PC同等重要,催生了云生態(tài)。到Web3.0,IoT讓更多設(shè)備入網(wǎng),產(chǎn)生的數(shù)據(jù)被AI深度挖掘,轉(zhuǎn)化為業(yè)務(wù)價(jià)值。AI在訓(xùn)練、推理過程中產(chǎn)生大量元數(shù)據(jù)。隨著IoT傳感器越來越多,還會產(chǎn)生大量自然描述的數(shù)據(jù)。
來自端、邊、云,對延時(shí)、成本、算法有著不同需求的數(shù)據(jù),正在驅(qū)動(dòng)計(jì)算架構(gòu)的演進(jìn)和擴(kuò)展,異構(gòu)計(jì)算漸成趨勢。CPU適合標(biāo)量運(yùn)算,GPU可用于矩陣運(yùn)算或者加速器,ASIC等定制的可編程硬件可作為AI專用的加速器??臻g運(yùn)算,即在矩陣中用最少的路徑計(jì)算,可以用FPGA實(shí)現(xiàn)流程定制,這些架構(gòu)構(gòu)成了異構(gòu)計(jì)算的常用組件。宋繼強(qiáng)表示,在CPU和嵌入式GPU的基礎(chǔ)上,通過對FP-GA廠商 Altera、ASIC 廠商 Nervana、結(jié)構(gòu)化ASIC廠商eASIC等廠商的收購,英特爾已經(jīng)掌握了CPU、GPU、ASIC、FPGA四種不同架構(gòu)。
超異構(gòu)計(jì)算面向下一個(gè)十年
在異構(gòu)計(jì)算的基礎(chǔ)上,英特爾提出了“超異構(gòu)計(jì)算”,即采用多功能、多架構(gòu)的芯片處理和加速不同的運(yùn)算負(fù)載,采用封裝集成技術(shù)將計(jì)算單元封裝在一個(gè)SoC,并具備統(tǒng)一異構(gòu)計(jì)算軟件的計(jì)算架構(gòu)。在異構(gòu)計(jì)算的基礎(chǔ)上,避開異構(gòu)計(jì)算的短板,實(shí)現(xiàn)計(jì)算最優(yōu)化,是超異構(gòu)計(jì)算的意義所在。
除具備多種計(jì)算架構(gòu),超計(jì)算架構(gòu)還需要封裝和統(tǒng)一的計(jì)算軟件。為此,英特爾推出了封裝級別的異構(gòu)整合方案和跨計(jì)算架構(gòu)的軟件平臺。
英特爾的異構(gòu)整合方案主要有2.5D封裝EMIB和3D封裝Fovero%EMIB泛用性更好,性價(jià)比較高,而Foveros相對昂貴,多用在小尺寸、低功耗、高性能的異構(gòu)芯片中。
統(tǒng)一的異構(gòu)計(jì)算軟件平臺,是為了提升編程效率,解決不同架構(gòu)有著不同的匯編語言和調(diào)優(yōu)方式的問題。英特爾的one API平臺隱藏了硬件復(fù)雜性,根據(jù)系統(tǒng)和硬件自動(dòng)適配功耗最低、性能最佳的加速方式,簡化并優(yōu)化編程過程。
在此基礎(chǔ)上,英特爾推出了 Aumm超級計(jì)算機(jī)架構(gòu)。Aurora包含one API,采用Foveros3D封裝,配置了 2個(gè)英特爾至強(qiáng)可擴(kuò)展處理器、6個(gè)基于CXL標(biāo)準(zhǔn)的GPU,采用7nm制程。宋繼強(qiáng)表示,Aurora是“一個(gè)典型的超異構(gòu)計(jì)算”,面向百億億次級的計(jì)算需求。
神經(jīng)擬態(tài)量子計(jì)算驅(qū)動(dòng)未來計(jì)算
在媒體溝通會上,宋繼強(qiáng)拋出了一個(gè)問題:如何實(shí)現(xiàn)超過1000倍的計(jì)算效能提升?從標(biāo)準(zhǔn)計(jì)算到深度神經(jīng)網(wǎng)絡(luò),再到神經(jīng)擬態(tài),千倍計(jì)算效能的提升需要“另辟蹊徑”。英特爾的探索方向是神經(jīng)擬態(tài)計(jì)算和量子計(jì)算。
神經(jīng)擬態(tài)計(jì)算是真正模擬人腦的計(jì)算方式。宋繼強(qiáng)表示,人腦計(jì)算有兩個(gè)特點(diǎn),一是事件驅(qū)動(dòng),二是輸入多種互相關(guān)聯(lián)的信號?!吧窠?jīng)擬態(tài)想達(dá)到的目的是利用人腦事件驅(qū)動(dòng)的機(jī)制達(dá)到省電,并利用能運(yùn)用多種方式去學(xué)習(xí)和訓(xùn)練的機(jī)制,達(dá)到跨領(lǐng)域的融合和相關(guān)。”宋繼強(qiáng)說。
2017年,英特爾推出了 Loihi神經(jīng)擬態(tài)芯片,單個(gè)芯片有128核,可以模擬13萬邏輯神經(jīng)元,構(gòu)成支持脈沖消息分發(fā)的片上網(wǎng)絡(luò)。宋繼強(qiáng)透露,英特爾已經(jīng)嘗試將200多個(gè)Loihi放在一起,構(gòu)成1億個(gè)神經(jīng)元的計(jì)算和學(xué)習(xí)平臺?!癓oihi是14納米制程,14納米到10納米,再到7納米、5納米,還有三個(gè)層級,假設(shè)每級密度提升兩倍,光靠摩爾定律還可以實(shí)現(xiàn)8倍的密度,加上3D系統(tǒng)整合、芯片級3D整合技術(shù),從1億神經(jīng)元到800多億神經(jīng)元,就不是一個(gè)夢了,只是一個(gè)時(shí)間和工程的問題。”宋繼強(qiáng)說。
具備芯片、技術(shù)和工具鏈之后,英特爾建立了全球范圍的神經(jīng)擬態(tài)研究社區(qū)INRC,以進(jìn)行更廣泛的學(xué)術(shù)界、產(chǎn)業(yè)界合作,目前INRC已經(jīng)有75家組織。
量子計(jì)算能夠處理經(jīng)典計(jì)算機(jī)不擅長的大規(guī)模計(jì)算問題。量子計(jì)算基于量子比特構(gòu)成計(jì)算路徑,在算法上,邏輯量子位可以當(dāng)做穩(wěn)定的量子位來使用。但是,量子計(jì)算距離商用還有相當(dāng)?shù)木嚯x,不僅要解決量子位的數(shù)量問題,還要解決糾錯(cuò)、量子位之間的連接和測試問題。英特爾正在嘗試基于硅電子自旋,用硅產(chǎn)業(yè)鏈去做量子計(jì)算,為量子計(jì)算打下商業(yè)化基礎(chǔ)?!傲孔佑?jì)算不會取代經(jīng)典計(jì)算,適合在數(shù)據(jù)中心里配合經(jīng)典計(jì)算的數(shù)據(jù)中心,處理組合爆炸問題,我們預(yù)計(jì)量子計(jì)算還需要8到10年來實(shí)現(xiàn)商業(yè)化應(yīng)用?!彼卫^強(qiáng)說。