顏媛媛
“訓(xùn)練數(shù)據(jù)+模型算法+算力”是ChatGPT成長(zhǎng)的基礎(chǔ),以ChatGPT為例,訓(xùn)練ChatGPT3.5使用英偉達(dá)A100芯片,而一顆英偉達(dá)A100芯片的成本約8萬(wàn)元,完成整個(gè)訓(xùn)練過(guò)程需要三萬(wàn)顆英偉達(dá)A100芯片。此前戰(zhàn)勝李世石的AlphaGO,訓(xùn)練只用了176顆GPU。
ChatGPT的興起推動(dòng)著人工智能在應(yīng)用端的蓬勃發(fā)展,這也對(duì)計(jì)算設(shè)備的運(yùn)算能力提出了前所未有的需求。雖然AI芯片、GPU、CPU+FPGA等芯片已經(jīng)對(duì)現(xiàn)有模型構(gòu)成底層算力支撐,但面對(duì)未來(lái)潛在的算力指數(shù)增長(zhǎng),全球當(dāng)前的算力顯然有些緊張。
全球算力每5~10個(gè)月就要翻倍,截至2021年,全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFlops、增速44%。浙商證券預(yù)測(cè),2030年,算力有望增至56ZFlops,CAGR達(dá)到65%。而這還是ChatGPT還未降臨之時(shí),正常的算力需求預(yù)測(cè)值。
2022年底,ChatGPT來(lái)臨之后,無(wú)疑又將拔高算力的增長(zhǎng)曲線。根據(jù)通信世界數(shù)據(jù),ChatGPT的總算力消耗約為3640PF-days(即假如每秒計(jì)算一千萬(wàn)億次,需要計(jì)算3640天),需要7~8個(gè)投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行。而這才是參數(shù)規(guī)模1750億的GPT-3,除此之外還有參數(shù)5620億的PaLM-E,彼時(shí),算力以及其背后的功耗還能顧得過(guò)來(lái)嗎?
未來(lái),AI算法算力行業(yè)的天花板,由半導(dǎo)體行業(yè)的發(fā)展決定。
AI算力進(jìn)入大模型時(shí)代,大模型的實(shí)現(xiàn)需要強(qiáng)大的算力來(lái)支撐訓(xùn)練和推理過(guò)程。以GPT模型為例,GPT-3175B參數(shù)量達(dá)到1750億,需要大量GPU協(xié)同工作才能完成。
以O(shè)penAI為例,微軟專門為其打造了一臺(tái)超級(jí)計(jì)算機(jī),專門用來(lái)在Azure公有云上訓(xùn)練超大規(guī)模的人工智能模型。這臺(tái)超級(jí)計(jì)算機(jī)擁有28.5萬(wàn)個(gè)CPU核心,超過(guò)1萬(wàn)顆GPU(NVIDIAV100GPU),按此規(guī)格,如果自建IDC,以英偉達(dá)A100GPU芯片替代V100GPU芯片,依照性能換算,大約需要3000顆A100GPU芯片。每臺(tái)NVIDIADGXA100服務(wù)器搭載8塊A100,則需要375臺(tái),每臺(tái)單價(jià)19.9萬(wàn)美元,則自建IDC的訓(xùn)練服務(wù)器算力成本為7462萬(wàn)美元。
AI的云端訓(xùn)練和推斷計(jì)算主要基于AI服務(wù)器,對(duì)算力、存力、運(yùn)力、散熱性能要求更高,帶動(dòng)算力芯片、配套硬件、機(jī)箱等設(shè)施不斷升級(jí)。算力芯片可謂算力的載體,通過(guò)其提供的計(jì)算能力,支撐互聯(lián)網(wǎng)、科技、制造業(yè)等各個(gè)行業(yè)的發(fā)展和數(shù)字化轉(zhuǎn)型?;诖?,專家提出了算力與算力芯片之間的關(guān)系公式:算力=(單芯片)性能×規(guī)模(即數(shù)量)×利用率。
而CPU+GPU是目前最流行的異構(gòu)計(jì)算系統(tǒng),CPU負(fù)責(zé)神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和數(shù)據(jù)流的傳遞,GPU只是單純的并行矩陣乘法和加法運(yùn)算。而隨著專項(xiàng)計(jì)算需求的崛起,運(yùn)行效率更具優(yōu)勢(shì)的NPU芯片成為AI算力芯片的主要發(fā)展方向。
NPU為特定要求而定制,在功耗、體積方面具有優(yōu)勢(shì),在推理端應(yīng)用潛力巨大。NPU作為專用定制芯片ASIC的一種,是為實(shí)現(xiàn)特定要求而定制的芯片,芯片設(shè)計(jì)邏輯更為簡(jiǎn)單。除了不能擴(kuò)展以外,在功耗、可靠性、體積方面都有優(yōu)勢(shì),尤其在高性能、低功耗的移動(dòng)端。
在關(guān)乎未來(lái)科技領(lǐng)域話語(yǔ)權(quán)的競(jìng)爭(zhēng)中,各種紛爭(zhēng)與沖突就從未停息過(guò),半導(dǎo)體“卡脖子”問(wèn)題同樣出現(xiàn)在了AI算力芯片領(lǐng)域,美國(guó)對(duì)華半導(dǎo)體管制已經(jīng)從最初針對(duì)某些公司擴(kuò)大到對(duì)半導(dǎo)體整個(gè)行業(yè)的全面限制。
2022年8月,英偉達(dá)被美國(guó)政府要求停止向中國(guó)出口兩款用于人工智能的頂級(jí)計(jì)算芯片,其峰值性能和芯片到芯片的I/O性能大致相當(dāng)于A100的閾值,即A100和H100兩款芯片都將受到影響。AMD也同樣被要求禁止將其MI100、MI200系列人工智能芯片出口到中國(guó)。而2023年3月1日的延緩期已過(guò),后續(xù)將無(wú)法向大陸市場(chǎng)出貨。
而在美國(guó)對(duì)中國(guó)半導(dǎo)體產(chǎn)業(yè)發(fā)展持續(xù)打壓背景下,英偉達(dá)、AMD斷供進(jìn)一步激發(fā)算力芯片國(guó)產(chǎn)化需求。當(dāng)前已經(jīng)涌現(xiàn)出一大批國(guó)產(chǎn)算力芯片廠商,寒武紀(jì)、龍芯中科相繼推出自研GPU,海光信息的DCU(GPGPU)也逐漸打出知名度,其他配套環(huán)節(jié)的國(guó)產(chǎn)化進(jìn)程也正在加速推進(jìn)。
具體產(chǎn)品方面,目前景嘉微已成功研發(fā)JM7200和JM9系列GPU芯片,應(yīng)用于臺(tái)式機(jī)、筆記本、一體機(jī)、服務(wù)器、工控機(jī)、自助終端等設(shè)備。而專注AI領(lǐng)域核心處理器的寒武紀(jì)目前已推出了思元系列智能加速卡,第三代產(chǎn)品思元370基于7nm制程工藝,本身是寒武紀(jì)首款采用chiplet技術(shù)的AI芯片,最高算力達(dá)到256TOPS(INT8)。
總而言之,AIGC推動(dòng)AI產(chǎn)業(yè)化由軟件向硬件切換,半導(dǎo)體+AI生態(tài)逐漸清晰,而在后摩爾時(shí)代,算力產(chǎn)業(yè)迎來(lái)巨大變局,我國(guó)算力產(chǎn)業(yè)迎來(lái)前所未有的歷史機(jī)遇。