Marcus Woo
Senior Technology Writer
對于計算機芯片來說,尺寸至關(guān)重要。芯片尺寸越小越好。根據(jù)Moore定律,集成在硅片上的晶體管數(shù)量每兩年翻一番,從而使器件更輕薄以及功能更強大。
目前,加利福尼亞州的一家公司正在顛覆這一觀念。2019年8月,總部位于美國硅谷洛斯阿圖斯的Cerebras公司推出了有史以來世界上尺寸最大的芯片。這個芯片被命名為Wafer Scale Engine(WSE),它是由整個硅片制成。它的面積達到了46 255 mm2,相當(dāng)于一個Apple iPad的大小。尺寸第二大的芯片是由NVIDIA公司研制的GV100 Volta圖形處理器(GPU),其面積為815 mm2(圖1)。WSE的面積比GPU的面積大56倍以上。NVIDIA的GPU包含了211億個晶體管,而WSE包含了1.2萬億個晶體管[1,2]。
圖1. 隨著2019年8月WSE的推出,總部位于美國加利福尼亞州洛斯阿圖斯的Cerebras公司宣布生產(chǎn)出世界上最大的計算機芯片,且該計算機芯片由單晶硅制成。WSE旨在適應(yīng)人工智能計算速度不斷增長的需求。圖片來源:Cerebras(公有領(lǐng)域)。
伊利諾伊大學(xué)厄巴納-香檳分校電子和計算機工程學(xué)院的副教授Rakesh Kumar表示,該芯片顯然是一個集成奇跡。能把如此大的一塊芯片組裝在一起是一件了不起的事情。
根據(jù)Cerebras公司的說法,研制這種芯片是為了適應(yīng)人工智能(AI)日益增長的需求。AI算法首先通過處理大量數(shù)據(jù)來學(xué)習(xí)執(zhí)行一項任務(wù)。尤其像深度學(xué)習(xí)算法,該算法利用神經(jīng)網(wǎng)絡(luò)來模擬大腦的工作方式,它需要巨大的計算能力,因此訓(xùn)練可能要花費數(shù)小時甚至數(shù)天。根據(jù)總部位于美國舊金山、專注于AI研發(fā)的Open-AI公司(該公司已得到了微軟公司的支持)最近的一項分析,2012—2018年,AI訓(xùn)練所需的計算能力增長了30萬倍,倍增時間延長至3個半月。這比Moore定律的最高值快了25 000倍[3]。
處理所有的這些計算需要比單個標(biāo)準(zhǔn)芯片更多的內(nèi)核。因此,多個芯片必須協(xié)同工作。但是,這也意味著數(shù)據(jù)必須能在多個芯片之間進行傳輸。然而,數(shù)據(jù)在這個傳輸過程中所花費的時間要比在單個芯片中傳輸所花費的時間長1萬倍以上[1]。
一個硅片可以被制成數(shù)十個甚至數(shù)百個小芯片。但是,Cerebras公司通過將一個完整的晶片制成一個集成芯片,設(shè)計了一個內(nèi)核處理器,該處理器不依賴于芯片外通信,因為芯片外通信通常會干擾常規(guī)系統(tǒng)。WSE使存儲內(nèi)核更靠近計算內(nèi)核,因此前者可以不斷向后者提供數(shù)據(jù),從而減少了計算內(nèi)核的空轉(zhuǎn)時間。據(jù)Cerebras公司介紹,該芯片擁有專為機器學(xué)習(xí)設(shè)計的架構(gòu),它優(yōu)化了芯片的AI訓(xùn)練。該芯片具有40萬個可編程內(nèi)核、18 GB靜態(tài)隨機存取存儲器(SRAM)和每秒9 PB的存儲帶寬。與GPU相比,該芯片內(nèi)核數(shù)量增加了78 倍、片上內(nèi)存增加了3000倍以及內(nèi)存帶寬增加了1 萬倍[1,4]。
位于美國加利福尼亞州山景城的Linley Group是一家專注于微處理器產(chǎn)業(yè)的高級分析公司。Linley Group的一位資深分析師Mike Demler表示,WSE是一項卓越的成就。過去已有類似的嘗試,但從未成功過。例如,在1980年,芯片工程師Gene Amdahl用2.3億美元(當(dāng)時是最高的投資)創(chuàng)立了Trilogy公司,用于制造晶圓級芯片[5]。然而,該公司沒有成功,5年后就倒閉了[6]。
Demler表示,這些早期嘗試失敗的原因之一是芯片在制造過程中會產(chǎn)生很多的缺陷。當(dāng)你把一個晶片制成多個芯片時,你只需丟棄有缺陷的芯片。但是這對由整個晶片制成的單個芯片并不起作用。
盡管現(xiàn)在的制造技術(shù)有了很大的改進,但缺陷仍然不可避免。Cerebras公司利用備用內(nèi)核和完美的架構(gòu)解決了這個問題。在制造過程中,任何有缺陷的芯片都會被識別出來,并且互連線會將有缺陷的內(nèi)核路由到備用內(nèi)核[7]。
除了需要解決這些缺陷,制造如此大的芯片還需要克服一些技術(shù)障礙,如散熱和功率傳輸。熱量導(dǎo)致硅的膨脹和與芯片連接的印刷電路板中材料的膨脹是不同的。因此,Cerebras公司必須設(shè)計出一種新的材料,這種材料在吸收熱應(yīng)力的同時還可以將電路板和芯片連接起來。Kumar說,單晶片級芯片需要15 kW的功率,而最大的GPU才需要250 W。因此,我們需要創(chuàng)新設(shè)計,使得功率能被直接傳遞到晶片中間。然而,將電源線直接穿過晶片外圍的做法是低效且笨拙的。為了均勻地冷卻晶片,水流會經(jīng)過附著在芯片上的冷卻板[7]。Demler表示,制造這個單芯片需要做出很大的努力。
該公司尚未公布新系統(tǒng)的價格,但該系統(tǒng)已經(jīng)有了它的第一位客戶。2019年9月,Cerebras公司與美國能源部(US Department of Energy)宣布了一項長期合作計劃,以促進美國伊利諾伊州芝加哥附近的萊蒙特市阿貢國家實驗室(Argonne National Laboratory)和加利福尼亞州的勞倫斯·利弗莫爾國家實驗室(Lawrence Livermore National Laboratory)之間的深度學(xué)習(xí)研究[8]。阿貢實驗室的計算、環(huán)境與生命科學(xué)實驗室副主任Rick Stevens表示,WSE是促進美國能源部眾多深度學(xué)習(xí)實驗的理想工具。
據(jù)Kumar表示,如此大的芯片可能仍然存在局限性。一般來說,芯片尺寸越大,產(chǎn)出率就越低。因為電源和冷卻系統(tǒng)都是專用的,所以該芯片可能僅適用于少量客戶。并且,WSE是一個集成系統(tǒng),它不能再與其他類型的技術(shù)合并。這限制了該芯片的存儲容量,進而限制了其應(yīng)用程序的適用性。
對WSE來說,真正考驗它的是其在實際應(yīng)用中性能以及與其他系統(tǒng)比較時它的表現(xiàn)。Demler表示,WSE是一項杰出的工程成就,但是我們現(xiàn)在必須要證明WSE的有效性和它在最終應(yīng)用程序中所顯現(xiàn)出的真正優(yōu)勢。