林亦
在2022年的春季發(fā)布會(huì)上,蘋果公司發(fā)布了M1系列芯片的新成員——M1 Ultra。一直講究命名獨(dú)創(chuàng)性的蘋果,這回跟三星的Ultra手機(jī)&平板系列撞了個(gè)結(jié)結(jié)實(shí)實(shí)。當(dāng)然三星也沒錯(cuò)過這個(gè)機(jī)會(huì),不到一個(gè)小時(shí)就發(fā)了條推特說自己贏了,現(xiàn)在全世界都知道三星的運(yùn)營(yíng)部門上班時(shí)間看蘋果發(fā)布會(huì)了。
說完這個(gè)小插曲咱們回到正題,M1 Ultra是一張意義深遠(yuǎn)的芯片,對(duì)蘋果乃至整個(gè)半導(dǎo)體產(chǎn)業(yè),都是如此。雖然大部分人用不上這張芯片,但這不影響我們對(duì)它臺(tái)前幕后的故事感興趣。
對(duì)蘋果來說,這標(biāo)志著第一代M系列芯片全部發(fā)布完畢。這一點(diǎn)在發(fā)布會(huì)上,得到了蘋果負(fù)責(zé)硬件工程的高級(jí)副總裁John Ternus的確認(rèn)。作為最后也是最強(qiáng)大的一張M1,M1 Ultra走在了半導(dǎo)體產(chǎn)業(yè)先進(jìn)封裝這個(gè)新方向的前列。對(duì)整個(gè)半導(dǎo)體產(chǎn)業(yè)來說,這也是一張有里程碑意義的芯片,率先為我們勾勒出了摩爾定律2.0時(shí)代的輪廓。
關(guān)于半導(dǎo)體新時(shí)代,我們先從M1 Ultra芯片談起。這張芯片的特點(diǎn)是由兩塊M1 Max縫合出來的,M1 Ultra最大能達(dá)到20個(gè)CPU核心、64個(gè)GPU核心,128GB統(tǒng)一內(nèi)存。對(duì)比M1 Max的參數(shù)剛好翻倍。
芯片縫合參數(shù)翻倍這種事,以前也有,比如05、06年英特爾的奔騰D處理器,然而實(shí)際效果欠佳——雖然兩晶片被縫合在一起,但兩者卻不能通信。大家小時(shí)候應(yīng)該都經(jīng)歷過這種情況,就是跟好朋友鬧翻了,誰(shuí)也不跟誰(shuí)講話,所有事呢,都得靠一個(gè)共同的朋友來傳話。當(dāng)年奔騰D的兩個(gè)晶片就是同樣的情況,所以雖然參數(shù)翻倍了,但性能提升主要還是靠用戶對(duì)自己進(jìn)行心理暗示,我稱之為“精神超頻”。因此這種方案不僅沒有發(fā)展成主流,反而衍生出了“膠水雙核”這么個(gè)梗,專指這類騙自己的多晶片方案。所以今天常見的多核處理器、都是把CPU核心刻在同一塊晶片上,保證核心與核心之間的高速通信。
不過這次兩塊M1 Max縫合出來的M1 Ultra又有了新變化,關(guān)鍵就是UltraFusion。UItraFusion的通信速度達(dá)到了2.5TB/s,而且這個(gè)TB的B是大寫的、不是小寫的。筆者十多年間收集的影視資源也就區(qū)區(qū)4個(gè)T,UltraFusion不到兩秒就能給傳完,這個(gè)速度是PCIe4.0 x16插槽的78倍、入門級(jí)M1統(tǒng)一內(nèi)存的36倍。M1 Max的內(nèi)存通信速度達(dá)到了400 GB/s,不到UltraFusion的1/6。實(shí)際上M1 Ultra自己的內(nèi)存通信速度是800 GB/s,也不到UltraFusion的1/3。
這是一個(gè)值得討論的話題。首先M1 Ultra內(nèi)存800 GB/s這個(gè)數(shù),是很說明問題的。MI Ultra里面有兩個(gè)M1 Max,每個(gè)M1 Max的內(nèi)存帶寬是400 GB/s,假如上半部分一個(gè)CPU核心同時(shí)訪問所有內(nèi)存,它享受的帶寬就應(yīng)該是上面這塊M1 Max的帶寬、加上下半部分的內(nèi)存被UltraFusion卡了一下之后剩下來的帶寬?,F(xiàn)在這個(gè)800 GB/s剛好是上下兩部分加起來,400加400,所以這就側(cè)面反映出UltraFusion的帶寬確實(shí)是給夠了,至少?zèng)]耽誤內(nèi)存。
有國(guó)外博主提出另一種看法,他認(rèn)為根據(jù)這個(gè)數(shù)字來說,應(yīng)該還會(huì)有一款兩塊M1 Ultra兩層疊起來的設(shè)計(jì),總共四塊M1 Max縫合到一起,原因就是UltraFusion這個(gè)2.5 TB/s的帶寬是M1 Ultra內(nèi)存800GB/s的三倍多,給兩個(gè)M1 Ultra用也是足夠的。
對(duì)此,筆者持懷疑態(tài)度。按蘋果在發(fā)布會(huì)上的描述,M1 Ultra在軟件實(shí)際調(diào)用的時(shí)候會(huì)被識(shí)別為一塊單一芯片,不需要程序員額外注明任務(wù)怎么分配,兩塊M1 Max自己就能協(xié)調(diào)好,對(duì)外表現(xiàn)是一整塊20核的處理器,而不是兩塊10核處理器。實(shí)際跑分結(jié)果也印證了蘋果的這個(gè)說法。M1 Max的Geekbench多核跑分是1.2萬(wàn),M1 Ultra是2.4萬(wàn),實(shí)際性能上確實(shí)是翻倍效果。想要把融合效果做到這種程度,兩張M1 Max之間的信號(hào)傳輸就不能只限于內(nèi)存了。CPU、GPU、緩存,還有神經(jīng)引擎、媒體引擎這些元件之間應(yīng)該都要有信號(hào)傳輸,到極限情況M1 Ultra一起工作,2.5 TB/s可能也只是剛好夠用而已,所以我對(duì)這套通過帶寬反推新芯片結(jié)構(gòu)的邏輯表示懷疑,但大家可以對(duì)四塊M1 Max縫合這個(gè)事留個(gè)印象。
言歸正傳,回到M1 UItra本身。上文我們提到M1 UItra里兩塊M1 Max,可謂珠聯(lián)壁合,宛若一體。再回看更早英特爾奔騰D的“膠水雙核”,理念還是一個(gè)理念,但實(shí)際效果是天壤之別。從目前的Geekbench跑分來看,M1 Ultra超過了Mac Pro中英特爾的28核至強(qiáng)處理器,甚至接近了AMD 64核的線程撕裂者3990X,同時(shí)功耗卻比這兩者低得多。那為什么同樣的理念,今天的效果卻突飛猛進(jìn)?答案就是半導(dǎo)體產(chǎn)業(yè)這些年的一個(gè)新動(dòng)向:先進(jìn)封裝。
什么是封裝呢?半導(dǎo)體工藝流程分前段制程和后段制程。顧名思義,前段就是前面在晶圓上刻晶片、做電路的這些步驟,后段就是后面的步驟,封裝就屬于后段制程。這一步簡(jiǎn)單點(diǎn)講,就是把前段制程里切下來的小晶片裝到電路板上,扣上蓋子,做成咱們?nèi)粘D苜I到的比如英特爾i5、i7這些CPU。
這幾年封裝技術(shù)進(jìn)步特別快,舉個(gè)側(cè)面的例子,就是“CPU”這個(gè)名詞都開始有歧義了,像以前我們說CPU指的就是這一整塊芯片,但是現(xiàn)在隨著封裝技術(shù)的進(jìn)步,芯片這個(gè)蓋子里集成的功能越來越多,CPU反而只是其中的一塊了。尤其是像M1 Ultra,你說CPU具體指M1 Max里的CPU區(qū)域,是M1 Max,還是整個(gè)M1 Ultra呢?
這就是人類語(yǔ)言追不上技術(shù)的一個(gè)典型例子,也側(cè)面反映了先進(jìn)封裝技術(shù)對(duì)半導(dǎo)體產(chǎn)業(yè)的顛覆性。先進(jìn)封裝,就是把今天復(fù)雜、大型的晶片封成一塊芯片的技術(shù),也是半導(dǎo)體產(chǎn)業(yè)的一條新賽道。長(zhǎng)期以來,半導(dǎo)體產(chǎn)業(yè)的主要精力都在前段制程上,通過縮小晶片上的晶體管尺寸來提高晶片性能,但晶體管越小,再往下縮面臨的物理限制就越多,難度可以說是指數(shù)級(jí)上升。當(dāng)年英特爾就是因?yàn)榈凸懒藛栴}的難度,高估了自己的能力,在加號(hào)地獄里無限輪回,最終導(dǎo)致了蘋果的跑路,如今換了一個(gè)技術(shù)出身的CEO才終于又有了起色。不過從整個(gè)半導(dǎo)體產(chǎn)業(yè)來看,晶體管尺寸的物理限制是所有人都要面對(duì)的難題。無論英特爾、臺(tái)積電還是三星,近年的制程升級(jí)節(jié)奏都在變慢。所以前段卡住,發(fā)力后段做先進(jìn)封裝,就成了行業(yè)的共識(shí)。除了今天的這張M1 Ultra,英特爾也在做EMIB和Foveros 3D封裝,而AMD的3D封裝芯片、R7 5800X3D將在4月20日面世。
M1 Ultra芯片由兩塊M1 Max強(qiáng)強(qiáng)合體,給你磅礴動(dòng)力,處理各種龐大艱巨的工作。運(yùn)行復(fù)雜的粒子模擬,或是執(zhí)行過去難以實(shí)現(xiàn)的大型三維場(chǎng)景渲染,現(xiàn)在都得心應(yīng)手。M1 Ultra的媒體處理引擎資源也同樣翻倍,可支持同時(shí)播放多達(dá)18條8K ProRes 422視頻流,這在個(gè)人電腦上是極具顛覆性的。
其實(shí)摩爾定律本來就是說每18個(gè)月芯片上的晶體管數(shù)目翻一番,就沒提過晶體管尺寸。今天的晶片已經(jīng)很小很小了,借助先進(jìn)封裝技術(shù)擴(kuò)大芯片面積,從而增加晶體管數(shù)目,同樣可以維持摩爾定律,支撐半導(dǎo)體產(chǎn)業(yè)的發(fā)展,因?yàn)椴煌陂L(zhǎng)期以來縮小晶體管尺寸的思路,所以封裝產(chǎn)業(yè)將這個(gè)新方向稱作是摩爾定律的2.0階段,今天的M1UItra,包括即將開賣的AMD 5800X3D,都在證明這個(gè)方向的可行性,而這兩款產(chǎn)品的制造企業(yè)其實(shí)是同一家,就是臺(tái)積電,包括摩爾定律2.0這個(gè)概念,也是臺(tái)積電的工程人員提出來的。
講先進(jìn)封裝,一定繞不開臺(tái)積電。臺(tái)積電在先進(jìn)封裝技術(shù)上是起步最早的企業(yè)之一,這背后也有段故事。
2011年,重新執(zhí)掌臺(tái)積電剛剛兩年的張忠謀,宣布要做先進(jìn)封裝。2011年的時(shí)候英特爾還在32納米制程上,那時(shí)提到先進(jìn)封裝大家想到的也是拉胯的膠水雙核,所以老先生的這句話很多人想不通。封測(cè)大廠日月光的財(cái)務(wù)長(zhǎng)董宏思就評(píng)價(jià)說“這種技術(shù)只會(huì)被用在極少數(shù)的特定高端產(chǎn)品中,影響有限”。當(dāng)時(shí)在臺(tái)積電負(fù)責(zé)先進(jìn)封裝研發(fā)的人,是今天的臺(tái)積電副總經(jīng)理余振華,他就回?fù)粽f“先進(jìn)封裝這個(gè)技術(shù),以后所有高階產(chǎn)品都會(huì)用,市場(chǎng)很大”,說自此專注于先進(jìn)封裝的研發(fā)。
到了2013年,F(xiàn)PGA廠商賽靈思成為了臺(tái)積電先進(jìn)封裝技術(shù)的第一個(gè)客戶。一年之后,英特爾正式進(jìn)入14納米制程,開啟了一場(chǎng)以加號(hào)為主題的奇妙旅程,制程困局的倒計(jì)時(shí),正式開始。今天回頭來看,張忠謀可謂慧眼如炬。再看看蘋果的M1 Ultra、AMD的5800X3D,余振華當(dāng)年的話也在逐漸成為現(xiàn)實(shí)。
話說回來,臺(tái)積電的先進(jìn)封裝在M1 Ultra的制造上,到底干了啥?根據(jù)當(dāng)年電子時(shí)報(bào)的報(bào)道,UltraFusion使用的大概率是臺(tái)積電的CoWoS-S技術(shù),也有可能是成本更低的InFO-LSI、類似英特爾的EMIB。這里我們以CoWoS為例解釋一下,這幾個(gè)技術(shù)主要區(qū)別是材料的用量不一樣,相應(yīng)地成本也不一樣,但原理相通。CoWoS的全名是chip 0n Wafer on Substrate,名字很直白,描述的就是這么個(gè)三層結(jié)構(gòu),Chip是晶片,在最上面,Wafer指的是硅介質(zhì)層,夾在中間,英文叫Silicon Interposer。蘋果發(fā)布會(huì)上Johny Srouji講UltraFusion的時(shí)候,左一個(gè)interposer、右一個(gè)inte rposer,說的就是夾在中間的這個(gè)硅介質(zhì)層。最下面一層就是Substrate——載板,通俗點(diǎn)叫電路板。這三層里面最創(chuàng)新的是中間這層。它的作用是縮體積、降功耗。硅介質(zhì)層和晶片的材料一樣都是硅,內(nèi)部電路結(jié)構(gòu)可以比下面的電路板更細(xì)、更密,電路寬度可以做到1/10甚至更細(xì)。M1 Ultra有大量的功能電路和通信電路,晶片放不下的就可以由中間這個(gè)介質(zhì)層來分擔(dān),但如果沒有介質(zhì)層,讓電路板來分擔(dān),那體積和功耗都要成倍增加,因?yàn)殡娐钒宓木€太粗了。形象點(diǎn)說,如果沒有這種先進(jìn)封裝技術(shù),那MI Ultra根本放不進(jìn)Mac Studi0這個(gè)小盒里,如果硬要把這些信號(hào)通道刻在電路板上,M1 Ultra的尺寸可能比蘋果的27寸顯示器還大,耗電量可能超過家用空調(diào)和冰箱的用電之和。所以這就是臺(tái)積電先進(jìn)封裝的意義,因此M1 Ultra才成為了可能。
那么問題來了,即使是有臺(tái)積電的先進(jìn)封裝,但M1 Ultra上面有1140億個(gè)晶體管,為了讓兩塊M1Max珠聯(lián)璧合,宛若一體,這些晶體管之間又要有無比復(fù)雜的通信電路。若干晶體管和電路的故障是大概率事件,就算有冗余設(shè)計(jì),像M1 UItra這么復(fù)雜的晶片,良品率也有限。生產(chǎn)成本這么高、再加上新芯片巨大的設(shè)計(jì)成本,售價(jià)必然高不可攀。不過不用擔(dān)心,咱們看看蘋果的CEO是誰(shuí)?Tim Cook,工業(yè)工程出身,資源優(yōu)化大師。1998年3月臨危受命來到蘋果,七個(gè)月后把產(chǎn)品庫(kù)存量從30天減少到6天,到1999年又進(jìn)一步減少到驚人的兩天?!皫?kù)存克星”這個(gè)稱號(hào)對(duì)庫(kù)克是一種羞辱,因?yàn)橛袔?kù)存才需要克星,而庫(kù)克的目標(biāo)是“沒有庫(kù)存”。當(dāng)年庫(kù)克在lBM學(xué)的就是JIT制造模式,“Just in Time”,需要多少做多少,不留庫(kù)存。有這樣一個(gè)領(lǐng)導(dǎo)者,你可以相信蘋果能解決M1 Ultra的成本問題。
接下來,咱們就來講一講蘋果的20210217702A1號(hào)專利,全名是“晶片連接的系統(tǒng)與方法”,這里面有UltraFusion的結(jié)構(gòu)描述,也有上文提到的成本問題的解決思路,更有下一代大型芯片的預(yù)先規(guī)劃,我稱之為“蘋果自研芯片全面劇透”專利。
這篇專利公開于2021年7月15日,相比M1 Ultra的發(fā)布提前了半年多。芯片投產(chǎn)前就做專利保護(hù)是很正常的,但為什么提前這么多?聽我慢慢道來。
首先關(guān)于ultraFusion的具體結(jié)構(gòu)方面,專利書第31段、第37段,第42到48段,以及結(jié)尾部分的20條專利主張都進(jìn)行了描述。首先兩塊M1 Max晶片在分界線兩邊各有一條信號(hào)緩沖帶,M1 Max上需要通信的元件,比如CPU、GPU、內(nèi)存都與信號(hào)緩沖帶連接,信號(hào)從這些元件走到緩沖帶,再經(jīng)由緩沖帶上的通道穿過分界線,到達(dá)對(duì)面的緩沖帶,最后到達(dá)目標(biāo)元件。
搞清楚結(jié)構(gòu),我們就可以講前面的成本問題了。根據(jù)專利書上的描述,芯片生產(chǎn)過程中,工廠會(huì)先在晶圓上排滿M1Max晶片,然后逐一檢查,把相鄰且內(nèi)部電路完好的晶片找出來,在這些晶片之間搭建信號(hào)通道、填充電介質(zhì),連上之后,一對(duì)對(duì)兒切下來,M1 Ultra就成了。剩下的晶片,如果只是負(fù)責(zé)跨晶片通信的電路有問題,就單獨(dú)切下來,當(dāng)M1 Max來賣,這就是為什么去年的M1 Max芯片下面,全都額外有一條信號(hào)緩沖帶,這個(gè)并沒有什么用的結(jié)構(gòu),我稱之為“庫(kù)克的微笑”。這也是為什么蘋果去年七月就要公開專利,因?yàn)?0月M1 Max就要發(fā)布了,生產(chǎn)M1 Max其實(shí)就是在生產(chǎn)M1 Ultra,所以要提前保護(hù)。不過降成本這條路走到這兒還沒完,M1 Max的結(jié)構(gòu)也挺復(fù)雜,萬(wàn)一也做壞了呢?沒關(guān)系,庫(kù)克也做了預(yù)案。如果生產(chǎn)缺陷是在下半部分,橫著來一刀,它就變M1 Pro了,照樣賣。這些都是很優(yōu)秀的成本控制設(shè)計(jì)。這樣一來呢,良品率變高,生產(chǎn)成本和設(shè)計(jì)成本卻被攤薄了。再進(jìn)一步,設(shè)計(jì)成本其實(shí)還能往下攤。雖然M1 Pro沒法直接砍成M1,但是像CPU、GPU核心、雷電控制器等,很多元件都可以在M1上原樣復(fù)用,每賣出去一張M1,同樣也是在分?jǐn)傉麄€(gè)M系列芯片的設(shè)計(jì)成本。如此來看,我們可以理解為M1 Ultra才是整個(gè)系列的主角,其余產(chǎn)品都是為了它的誕生而服務(wù)。順著這個(gè)思路,iPad Pro和iPad Alr為什么上M1芯片,也就終于有答案了。我之前覺得蘋果上M1是想用iPad取代電腦,現(xiàn)在我覺著我判斷錯(cuò)了,至少是因果關(guān)系反了。對(duì)蘋果來說,只要iPad散熱壓得住,上M1之后都是好事。性能強(qiáng)、有噱頭、有關(guān)注度,還能分?jǐn)侻系列芯片的設(shè)計(jì)成本,而且還省了設(shè)計(jì)iPad芯片的成本,所以對(duì)蘋果來說沒什么理由不給iPad上M1。讓iPad取代電腦,最多就是有了上M1這個(gè)打算之后的想法,或者干脆就沒有這個(gè)想法。照這個(gè)思路,未來基礎(chǔ)版iPad、甚至iPad mini,只要散熱壓得住,很可能都會(huì)上M系列芯片。再往外推一步呢,蘋果的長(zhǎng)期目標(biāo),很可能就是把手機(jī)、平板和電腦的芯片都統(tǒng)一到同一個(gè)芯片產(chǎn)品線上,理論上來說這樣可以最大程度地減少浪費(fèi),還能增加生產(chǎn)線運(yùn)營(yíng)的靈活性。比如說某段時(shí)間iPad Air的銷量遠(yuǎn)高于MacBook Air,那就把給MacBook準(zhǔn)備的M1芯片,調(diào)給iPad Air,這種極致的優(yōu)化,剛好是今天的蘋果CEO庫(kù)克最擅長(zhǎng)也最喜歡的事。假如真有那么一天,蘋果就會(huì)變成一個(gè)運(yùn)營(yíng)效率極高的科技工業(yè)體,能不能做出改變世界的產(chǎn)品要靠運(yùn)氣,但每年的財(cái)報(bào)絕對(duì)會(huì)非常好看。那時(shí),蘋果就真的是庫(kù)克的蘋果了。
這件事到底有沒有可能呢?我們?cè)倩氐教O果的專利書。專利書的本質(zhì)就是通過公開來?yè)Q取保護(hù),把你想做的和有可能會(huì)做的事都寫上去,寫得越全,獲得的專利保護(hù)才能越全面。蘋果這篇專利書的第39段(找原文標(biāo)記)介紹了這套晶片縫合方案的潛力。這套方案并不局限于兩塊晶片,任何數(shù)量都可以,比如三塊、四塊。晶片的縫合邊也不必局限于一條,最多可以給四條邊都加上信號(hào)緩沖帶,這樣四條邊都可以與其他晶片縫合。這就是明確說了四塊晶片合體是可行的,而且合體方式不是疊放、也不是通過插槽中轉(zhuǎn),而是多邊縫合。有了這個(gè)信息,首先可以確認(rèn)M1 Max不可能四塊合體了,因?yàn)镸1 Max上只有一條信號(hào)緩沖帶,如果想四塊晶片合體,按照蘋果專利書里的方案,每塊晶片至少要有兩條緩沖帶,明顯M1 Max就不行了。然后就是剛才說的手機(jī)、平板、電腦全線芯片統(tǒng)一,這事的可能性是存在的。今天手機(jī)跟電腦芯片的性能差距已經(jīng)沒那么懸殊了,未來手機(jī)用單晶片,平板和輕薄本用雙晶片,專業(yè)本和臺(tái)式機(jī)用四晶片,好像也不是不可以,那就真成摩爾定律2.0了,但是在這種縫合方案的成本降下來之前,這都只是猜想。
今天我們從M1 Ultra的參數(shù)談起,先追溯了老一代封裝方案“膠水雙核”的黑歷史,然后就M1 Ultra的實(shí)際性能結(jié)合半導(dǎo)體產(chǎn)業(yè)的現(xiàn)狀,講了封裝技術(shù)的“老樹開新花”,那講到了先進(jìn)封裝,就不能不提臺(tái)積電和摩爾定律2.0,以及臺(tái)積電先進(jìn)封裝如何讓M1 Ultra成為了現(xiàn)實(shí)。翻閱蘋果的UltraFusion專利書,從M1 Ultra的成本控制出發(fā),梳理了M系列全產(chǎn)品線的關(guān)系,展望蘋果未來,我們一起等待時(shí)間驗(yàn)證。