汪玉 汝鵬 謝其軍
2023年7月,上海世博展覽館,2023世界人工智能大會(huì)上AIGC大模型應(yīng)用受到關(guān)注,一些觀眾在商湯展區(qū)與AI繪畫(huà)生成藝術(shù)互動(dòng)。圖/視覺(jué)中國(guó)
今年以來(lái),以ChatGPT為代表的AI大模型的出現(xiàn)標(biāo)志著一個(gè)嶄新時(shí)代的開(kāi)啟。大模型技術(shù)的快速迭代催生出一批如Midjourney、Character.AI等類(lèi)型的AIGC(Artificial Intelligence Generated Content)應(yīng)用,為辦公、電商、教育、醫(yī)療和法律等領(lǐng)域帶來(lái)了革命性的改變。
復(fù)雜的AI算法需要大量的計(jì)算資源來(lái)實(shí)現(xiàn),算力是支撐AI算法運(yùn)行的基礎(chǔ)。AI芯片是專(zhuān)門(mén)用于處理AI計(jì)算相關(guān)任務(wù)的協(xié)處理器,為AI算法提供了高效的算力,可以顯著提升深度學(xué)習(xí)等AI算法模型的訓(xùn)練和推理效率。
AIGC產(chǎn)業(yè)的發(fā)展,對(duì)算力的需求不斷提升,但中國(guó)在算力領(lǐng)域面臨諸多挑戰(zhàn)。
2023年10月17日,美國(guó)商務(wù)部工業(yè)安全局(BIS)公布最新半導(dǎo)體管制規(guī)則(下稱(chēng)“1017新規(guī)”),升級(jí)了BIS于2022年10月7日發(fā)布的《對(duì)向中國(guó)出口的先進(jìn)計(jì)算和半導(dǎo)體制造物項(xiàng)實(shí)施新的出口管制》(下稱(chēng)“107規(guī)則”)。1017新規(guī)分為三個(gè)部分:一是調(diào)整先進(jìn)計(jì)算芯片出口管制規(guī)則,二是調(diào)整半導(dǎo)體制造設(shè)備出口管制規(guī)則;三是公布了新增的實(shí)體清單企業(yè)名單。包括A100、H100、A800、H800等在內(nèi)的GPU芯片對(duì)華出口都將受到影響。A100、H100是英偉達(dá)的高性能GPU,廣泛應(yīng)用于AI、數(shù)據(jù)分析等工作場(chǎng)景。A800和H800是A100、H100的替代產(chǎn)品,也即在去年美國(guó)107規(guī)則下,英偉達(dá)特供給中國(guó)大陸市場(chǎng)的,降低傳輸速率以符合規(guī)定的替代產(chǎn)品,但在今年1017新規(guī)后被禁售。上述產(chǎn)品均是目前最適合AI算法研發(fā)和部署的高算力芯片。
中國(guó)在AI領(lǐng)域?qū)λ懔τ兄鴱?qiáng)大的需求,依賴(lài)高性能AI芯片來(lái)支持其應(yīng)用和研究。1017新規(guī)取消了“互聯(lián)帶寬”參數(shù)限制,同時(shí)新增“性能密度”的參數(shù)限制。該新規(guī)旨在進(jìn)一步收窄高端計(jì)算芯片的出口范圍;在大模型AI時(shí)代,限制中國(guó)計(jì)算能力,將會(huì)限制AIGC在中國(guó)的發(fā)展和創(chuàng)新。
本文將逐一解讀中國(guó)算力面臨的主要挑戰(zhàn),包括芯片架構(gòu)的性能提升到達(dá)瓶頸、現(xiàn)有芯片的算力利用率不足、美國(guó)出口管制帶來(lái)的供應(yīng)鏈風(fēng)險(xiǎn)。進(jìn)而分析破局之策,在軟件方面優(yōu)化模型和算法,降低算力需求;在硬件方面開(kāi)發(fā)新架構(gòu),提高AI芯片能效比;在系統(tǒng)方面協(xié)同整合軟硬件,提升系統(tǒng)效率,減少能源消耗;在產(chǎn)業(yè)方面加強(qiáng)生態(tài)鏈建設(shè)與多方協(xié)作,推動(dòng)共同投入。
當(dāng)前中國(guó)大模型技術(shù)仍處于研發(fā)和迭代的早期階段,但產(chǎn)業(yè)潛力巨大。中國(guó)的高校、互聯(lián)網(wǎng)科技企業(yè)、初創(chuàng)科技公司等都紛紛加入AI大模型的浪潮,已誕生超過(guò)100個(gè)各種類(lèi)型的大模型。
根據(jù)艾瑞咨詢(xún)的預(yù)測(cè),2023年中國(guó)的AIGC產(chǎn)業(yè)規(guī)模將達(dá)到143億元,未來(lái)幾年增長(zhǎng)迅速。預(yù)計(jì)到2028年,中國(guó)AIGC產(chǎn)業(yè)規(guī)模將達(dá)到7202億元,在重點(diǎn)領(lǐng)域和關(guān)鍵場(chǎng)景完成技術(shù)落地。
AIGC技術(shù)在NLP(自然語(yǔ)言處理)和CV(計(jì)算機(jī)視覺(jué))領(lǐng)域經(jīng)歷了顯著的演進(jìn)。AIGC技術(shù)和能力的提升,會(huì)為各行業(yè)帶來(lái)更多的創(chuàng)新和應(yīng)用機(jī)會(huì),主要表現(xiàn)在:
從單一任務(wù)到多任務(wù)。初始AIGC技術(shù)主要關(guān)注單一任務(wù),如自然語(yǔ)言生成、圖像生成和翻譯。但未來(lái)趨勢(shì)是訓(xùn)練模型同時(shí)處理多種任務(wù),并提高模型的泛化能力。
從單模態(tài)到多模態(tài)。單模態(tài)生成式模型通常專(zhuān)注于一種數(shù)據(jù)類(lèi)型,如文本或圖像。多模態(tài)生成式模型能夠同時(shí)處理多種數(shù)據(jù)類(lèi)型,如文本和圖像的聯(lián)合生成,為增強(qiáng)現(xiàn)實(shí)、智能對(duì)話(huà)系統(tǒng)和自動(dòng)文檔生成等多領(lǐng)域的應(yīng)用帶來(lái)新機(jī)會(huì)。
從通用模型到垂域模型。通用生成式模型在各領(lǐng)域表現(xiàn)出色,但未來(lái)趨勢(shì)是朝著更專(zhuān)業(yè)化和垂域化的方向前進(jìn)。
隨著AIGC的發(fā)展,模型越來(lái)越復(fù)雜,參數(shù)量越來(lái)越大,導(dǎo)致算力需求的增長(zhǎng)速度已遠(yuǎn)超芯片的性能增長(zhǎng)速度。在AIGC算法模型部署早期,算力消耗主要集中于大模型訓(xùn)練,但隨著大模型用戶(hù)量增長(zhǎng),推理成本將成為主要算力開(kāi)支。
AIGC對(duì)算力的具體需求,以三個(gè)典型應(yīng)用場(chǎng)景加以說(shuō)明:
若Google采用GPT等大模型用于推薦搜索:Google每天接受搜索請(qǐng)求35億次,按照GPT-4 API 0.14元/次的價(jià)格,Google每年需要支付1788億元人民幣的API費(fèi)用。若采用自建算力集群的方案,需要提供每秒約10萬(wàn)次的峰值訪問(wèn)能力,一輪GPT-4對(duì)話(huà)涉及200多萬(wàn)億次浮點(diǎn)運(yùn)算,在計(jì)算資源利用率約60%的情況下,需要約10萬(wàn)塊A100集群。
若每個(gè)MicrosoftOffice用戶(hù)都采用大模型用于辦公:微軟使用基于大模型的Copilot賦能辦公軟件、操作系統(tǒng)與代碼編輯場(chǎng)景,有潛力重構(gòu)未來(lái)辦公場(chǎng)景。未來(lái)的軟件開(kāi)發(fā)、文案寫(xiě)作、藝術(shù)創(chuàng)作將在與AI的頻繁互動(dòng)對(duì)話(huà)中完成。根據(jù)信息技術(shù)研究公司的報(bào)告《中國(guó)數(shù)據(jù)分析與AI技術(shù)成熟度曲線(xiàn)》,中國(guó)的學(xué)生與白領(lǐng)人群達(dá)到2.8億人,按每人每天10次的訪問(wèn)需求計(jì)算,每年具有1.02萬(wàn)億次訪問(wèn)需求,需要8萬(wàn)塊A100的算力支持。
若人人都有一個(gè)定制化的AI個(gè)人助理(大模型原生應(yīng)用),AI個(gè)人助理向中國(guó)12億網(wǎng)民提供定制化的教育、醫(yī)療、政務(wù)、財(cái)務(wù)管理等服務(wù)。在每人10次的日訪問(wèn)條件下,需要34萬(wàn)塊A100算力支持。
根據(jù)AMD全球CEO(首席執(zhí)行官)蘇姿豐在2023年的主題演講,從單一算力中心的角度看,過(guò)去十年,超級(jí)計(jì)算機(jī)發(fā)展迅速,芯片架構(gòu)創(chuàng)新與制造工藝的進(jìn)步使得計(jì)算機(jī)性能每1.2年翻一番。而計(jì)算機(jī)的能量效率(即單位能量下的計(jì)算次數(shù))增長(zhǎng)速度僅為每2.2年翻一番。在保持這個(gè)趨勢(shì)的情況下,到2035年,一個(gè)高性能的超級(jí)計(jì)算機(jī)功率將達(dá)到500MW,約為半個(gè)核電站的發(fā)電功率。
AIGC嚴(yán)重依賴(lài)于高算力,但目前中國(guó)在算力方面卻遇到了極大挑戰(zhàn)。
半導(dǎo)體器件的尺寸已逼近物理極限,而制程進(jìn)步帶來(lái)的性能提升幅度在收窄。芯片能效比增速明顯放緩,更高的晶體管密度也帶來(lái)更大的散熱挑戰(zhàn)與更低的生產(chǎn)良率。目前AIGC對(duì)算力的需求遠(yuǎn)遠(yuǎn)超過(guò)AI芯片的發(fā)展速度,現(xiàn)有的芯片硬件性能的提升速度難以滿(mǎn)足算法模型急劇增長(zhǎng)的算力需求,需要新的硬件架構(gòu)突破。
大模型在處理大量數(shù)據(jù)時(shí),由于算力調(diào)度、系統(tǒng)架構(gòu)、算法優(yōu)化等諸多問(wèn)題,很多大模型企業(yè)的GPU算力利用率不足50%,造成了巨大的浪費(fèi)。
目前主流的AI算法都是基于英偉達(dá)CUDA進(jìn)行適配,英偉達(dá)的CUDA軟件自2006年問(wèn)世以來(lái),經(jīng)過(guò)十多年的積累,形成了包括驅(qū)動(dòng)、編譯、框架、庫(kù)、編程模型等在內(nèi)的成熟生態(tài)。目前主流AIGC算法訓(xùn)練,大多基于CUDA生態(tài)進(jìn)行開(kāi)發(fā),壁壘極強(qiáng)。AIGC公司若要更換英偉達(dá)GPU,面臨極高的遷移成本和穩(wěn)定性的風(fēng)險(xiǎn)。因此國(guó)產(chǎn)GPGPU產(chǎn)品想要大規(guī)模部署,軟件生態(tài)是一個(gè)極大挑戰(zhàn)。
資料來(lái)源:本文作者整理
資料來(lái)源:艾瑞咨詢(xún)研究院
資料來(lái)源:根據(jù)模型參數(shù)與算力由清華實(shí)驗(yàn)室測(cè)算
大算力芯片是大模型研發(fā)的基礎(chǔ)設(shè)施,英偉達(dá)高性能GPU芯片具有兩個(gè)核心優(yōu)勢(shì):一是更大的顯存配置與通信帶寬。高帶寬的芯片之間互聯(lián)對(duì)提升大模型訓(xùn)練效率至關(guān)重要。二是更高的大模型訓(xùn)練耐用性。消費(fèi)顯卡面向個(gè)人應(yīng)用,故障率和穩(wěn)定性遠(yuǎn)差于服務(wù)器版本。千億參數(shù)大模型訓(xùn)練需要數(shù)千GPU長(zhǎng)周期同步運(yùn)算,任何單一顯卡的故障均需要中斷訓(xùn)練、檢修硬件。相比于消費(fèi)級(jí)顯卡或其他芯片,高性能GPU可以減短60%-90%大模型訓(xùn)練周期。
然而,英偉達(dá)GPU產(chǎn)能不足,且美國(guó)逐漸加碼對(duì)中國(guó)高性能芯片禁售力度。去年10月,美國(guó)對(duì)出口中國(guó)的AI芯片實(shí)施帶寬速率限制,其中,涉及英偉達(dá)A100和H100芯片。此后,英偉達(dá)向中國(guó)企業(yè)提供替代版本A800和H800。根據(jù)1017新規(guī),英偉達(dá)包括A800和H800在內(nèi)的芯片對(duì)華出口都將受到影響,國(guó)內(nèi)的高性能AI芯片供給出現(xiàn)嚴(yán)重短缺。
目前大模型訓(xùn)練主要依賴(lài)于英偉達(dá)高性能GPU,禁售對(duì)于國(guó)內(nèi)大模型研發(fā)進(jìn)度,帶來(lái)極大影響。例如,使用符合1017新規(guī)的V100 GPU替代A100,算力和帶寬的下降將使得大模型訓(xùn)練時(shí)間增加3到6倍,顯存的下降也將使能訓(xùn)練模型的最大參數(shù)量下降2.5倍。
美國(guó)將先進(jìn)芯片的出口許可證要求增加到22個(gè)國(guó)家。繼先前限制EUV光刻機(jī)出口到中國(guó)之后,也開(kāi)始限制更低一代的DUV光刻機(jī)。此外,美商務(wù)部將中國(guó)本土領(lǐng)先的GPU芯片企業(yè)加入到實(shí)體清單中,這將會(huì)導(dǎo)致國(guó)內(nèi)自研芯片難以使用最新的工藝制程進(jìn)行流片量產(chǎn)。
算力中心的計(jì)算、制冷與通信設(shè)施均為高能耗硬件。中國(guó)電子節(jié)能技術(shù)協(xié)會(huì)數(shù)據(jù)顯示,目前中國(guó)數(shù)據(jù)中心的耗電量平均增長(zhǎng)率超過(guò)12%,2022年全國(guó)數(shù)據(jù)中心耗電量達(dá)2700億千瓦時(shí),占全社會(huì)用電量的3%。在大模型時(shí)代,中國(guó)數(shù)據(jù)中心耗電量會(huì)加大增長(zhǎng)幅度,并在2025年預(yù)計(jì)達(dá)到4200億千瓦時(shí)耗電量,約占社會(huì)總用電量的5%。數(shù)據(jù)中心的電力供應(yīng)以及系統(tǒng)散熱,都將給現(xiàn)有的電力系統(tǒng)帶來(lái)很大的壓力。
面對(duì)不利局面,中國(guó)的算力瓶頸需要以系統(tǒng)觀念統(tǒng)籌謀劃,逐步突破,主要包含技術(shù)和產(chǎn)業(yè)兩個(gè)層面,方式主要是“開(kāi)源”和“節(jié)流”。
技術(shù)層面,我們的建議如下:
通過(guò)精簡(jiǎn)模型參數(shù)的方式降低對(duì)算力的需求。壓縮即智能,大模型旨在對(duì)數(shù)據(jù)進(jìn)行無(wú)損壓縮。今年2月28日OpenAI核心研發(fā)人員Jack Rae表示,通用AI(AGI)的目標(biāo)是實(shí)現(xiàn)對(duì)有效信息最大限度的無(wú)損壓縮。隨著大模型發(fā)展,在AI復(fù)雜性提升的同時(shí),相同參數(shù)規(guī)模下,算法模型能力也會(huì)持續(xù)提升。未來(lái)或出現(xiàn)具有更高信息壓縮效率的大模型,以百億級(jí)參數(shù)規(guī)模獲取媲美萬(wàn)億級(jí)參數(shù)規(guī)模GPT-4的算法能力。
此外,大模型可以面向特定業(yè)務(wù)場(chǎng)景做領(lǐng)域適配和能力取舍,減少算力開(kāi)支。例如在政務(wù)問(wèn)答場(chǎng)景中,模型可以謝絕回答非業(yè)務(wù)請(qǐng)求。原本依靠千億參數(shù)通用模型才可以解決的任務(wù),有望使用百億參數(shù)量模型即可完成。
如果將GPT-3前后的AI發(fā)展劃分成1.0與2.0時(shí)代,那么AI 1.0時(shí)代的軟件優(yōu)化核心任務(wù)是使深度學(xué)習(xí)模型可以在邊緣、端側(cè)的低功耗設(shè)備上運(yùn)行,實(shí)現(xiàn)自動(dòng)化與智能化,以在AIoT、智能安防與智能汽車(chē)等領(lǐng)域大面積應(yīng)用。而AI 2.0時(shí)代的模型壓縮則是規(guī)?;?、集中化算力需求的整體優(yōu)化,應(yīng)用場(chǎng)景需要從“中心”側(cè)開(kāi)始,然后向邊、端側(cè)輻射。
模型壓縮是最直接降低算法算力需求的方法,這一AI1.0時(shí)代的技術(shù)在AI2.0時(shí)代也將得到繼承與發(fā)展。
剪枝利用了深度學(xué)習(xí)模型參數(shù)冗余的特點(diǎn),將對(duì)準(zhǔn)確率影響小的權(quán)重裁剪,保留網(wǎng)絡(luò)主干并降低整體計(jì)算開(kāi)支。在AI2.0時(shí)代中,Transformer算法模型在長(zhǎng)序列輸入的情況下,計(jì)算延時(shí)的瓶頸在注意力機(jī)制算子,通過(guò)對(duì)注意力機(jī)制算子的激活值進(jìn)行裁剪,目前可達(dá)到2倍的端到端的加速比,未來(lái)有望進(jìn)一步加速。
參數(shù)量化利用了GPU處理定點(diǎn)數(shù)的等效算力顯著高于浮點(diǎn)數(shù)計(jì)算算力的優(yōu)勢(shì),利用16比特、8比特、4比特定點(diǎn)數(shù)替代32比特浮點(diǎn)數(shù),有望同步降低推理算力需求。
算子融合(Operator Fusion)將多個(gè)算子融合成一個(gè)算子,提高中間張量數(shù)據(jù)的訪問(wèn)局部性,以減少內(nèi)存訪問(wèn),解決內(nèi)存訪問(wèn)瓶頸問(wèn)題。算子循環(huán)空間的設(shè)計(jì)與尋優(yōu)則通過(guò)將計(jì)算圖中的算子節(jié)點(diǎn)進(jìn)行并行編排,提升整體計(jì)算并行度。
總之,通過(guò)對(duì)現(xiàn)有大模型進(jìn)行壓縮和量化,可以顯著減少模型參數(shù)量、降低模型計(jì)算復(fù)雜度,節(jié)約存儲(chǔ)空間,目前可提升2倍-3倍的計(jì)算效率。在降低大模型響應(yīng)用戶(hù)的延遲的同時(shí),模型優(yōu)化技術(shù)更可以將大模型高效部署在汽車(chē)、個(gè)人電腦、手機(jī)、AIoT等邊、端側(cè)設(shè)備中,支持具有高實(shí)時(shí)、隱私保護(hù)、安全性等特點(diǎn)的本地大模型應(yīng)用。
傳統(tǒng)計(jì)算芯片的能效到達(dá)瓶頸,需要通過(guò)對(duì)芯片架構(gòu)、互聯(lián)、封裝的改進(jìn),從而實(shí)現(xiàn)更高的能效。目前主要的方式是數(shù)據(jù)流架構(gòu)、存算一體、Chiplet技術(shù)等。
數(shù)據(jù)流架構(gòu):通過(guò)數(shù)據(jù)流流動(dòng)次序來(lái)控制計(jì)算順序,消除指令操作導(dǎo)致的額外時(shí)間開(kāi)銷(xiāo)。數(shù)據(jù)流架構(gòu)能夠?qū)崿F(xiàn)高效流水線(xiàn)運(yùn)算,同時(shí)可并行執(zhí)行數(shù)據(jù)訪問(wèn)和數(shù)據(jù)計(jì)算,進(jìn)一步減少計(jì)算單元的空閑時(shí)間,充分利用芯片的計(jì)算資源。與指令集架構(gòu)不同的數(shù)據(jù)流架構(gòu),使用專(zhuān)用數(shù)據(jù)通道連接不同類(lèi)型的高度優(yōu)化的計(jì)算模塊。利用分布式的本地存儲(chǔ),數(shù)據(jù)讀寫(xiě)與計(jì)算同時(shí)進(jìn)行,節(jié)省了數(shù)據(jù)傳輸時(shí)間和計(jì)算時(shí)間。
存算一體:存算一體芯片的核心是將存儲(chǔ)與計(jì)算完全融合,利用新興存儲(chǔ)器件與存儲(chǔ)器陣列電路結(jié)構(gòu)設(shè)計(jì),將存儲(chǔ)和計(jì)算功能集成在同一個(gè)存儲(chǔ)芯片上,消除了矩陣數(shù)據(jù)在存儲(chǔ)和計(jì)算單元中的數(shù)據(jù)搬運(yùn),從而高效支持智能算法中的矩陣計(jì)算,在同等工藝上大幅提升計(jì)算芯片的“性能密度”。
資料來(lái)源:清華大學(xué)電子工程系NICS-efc實(shí)驗(yàn)室實(shí)驗(yàn)結(jié)果
Chiplet技術(shù):傳統(tǒng)集成電路將大量晶體管集成制造在一個(gè)硅襯底的二維平面上,從而形成芯片。集成芯片是指先將晶體管等元器件集成制造為特定功能的芯粒(Chiplet),再按照應(yīng)用需求將芯粒通過(guò)半導(dǎo)體技術(shù)集成制造為芯片。Chiplet技術(shù)可以實(shí)現(xiàn)更大的芯片面積,提升總算力;通過(guò)chiplet/IP等的復(fù)用和組合,提升芯片的設(shè)計(jì)效率;把大芯片拆成多個(gè)小尺寸chiplet,提升良率,降低成本;不同芯粒可以通過(guò)不同工藝完成制備,通過(guò)異構(gòu)實(shí)現(xiàn)更高性能。
全新的計(jì)算架構(gòu),可以打破現(xiàn)有芯片的存儲(chǔ)墻和互聯(lián)墻,將更多算力單元高密度、高效率、低功耗地連接在一起,極大提高異構(gòu)核之間的傳輸速率,降低數(shù)據(jù)訪問(wèn)功耗和成本,從而為大模型提供高算力保障。
在大模型系統(tǒng)中,軟硬件協(xié)同對(duì)于實(shí)現(xiàn)高性能和高能效至關(guān)重要。通過(guò)稀疏+混合精度+多樣算子的高效架構(gòu)設(shè)計(jì)、算法優(yōu)化、系統(tǒng)資源管理、軟件框架與硬件平臺(tái)的協(xié)同以及系統(tǒng)監(jiān)控與調(diào)優(yōu)等技術(shù),可以更好發(fā)揮整個(gè)算力系統(tǒng)的優(yōu)勢(shì)。
在大模型訓(xùn)練方面,由于訓(xùn)練所需的算力與存儲(chǔ)開(kāi)銷(xiāo)巨大,多卡互聯(lián)的高性能集群計(jì)算系統(tǒng)是大模型訓(xùn)練的必然途徑。英偉達(dá)高性能GPU的供應(yīng)鏈在中國(guó)受到制約,國(guó)產(chǎn)化芯片單卡性能受工藝限制,如何使用萬(wàn)卡規(guī)模的國(guó)產(chǎn)化芯片進(jìn)行可靠、穩(wěn)定的大模型訓(xùn)練將是一個(gè)必須解決的關(guān)鍵問(wèn)題。除了提高計(jì)算系統(tǒng)規(guī)模外,還需開(kāi)展軟硬件協(xié)同的高效微調(diào)方案研究,降低大模型訓(xùn)練與微調(diào)的硬件資源開(kāi)銷(xiāo)。
在大模型系統(tǒng)中,有效的系統(tǒng)資源管理對(duì)于確保高性能和高效率至關(guān)重要。這包括合理分配計(jì)算資源(如CPU、GPU等),優(yōu)化內(nèi)存管理和數(shù)據(jù)傳輸策略,以降低延遲和提高吞吐量。
為了實(shí)現(xiàn)軟硬件協(xié)同,深度學(xué)習(xí)軟件框架需要與硬件平臺(tái)緊密配合。這包括針對(duì)特定硬件平臺(tái)進(jìn)行優(yōu)化,以充分利用其計(jì)算能力和存儲(chǔ)資源,以及提供易用的API和工具,以簡(jiǎn)化模型訓(xùn)練和部署過(guò)程。
由于AI算法模型參數(shù)量與計(jì)算復(fù)雜度急劇提升,大模型訓(xùn)練需要大規(guī)??绻?jié)點(diǎn)的多卡集群,其硬件挑戰(zhàn)來(lái)自計(jì)算、存儲(chǔ)、通信。構(gòu)建一個(gè)千卡規(guī)模的大模型數(shù)據(jù)中心,成本高達(dá)上億元,很多初創(chuàng)公司難以承受。為解決上述難題,降低數(shù)據(jù)中心建設(shè)成本,亟待構(gòu)建集中算力中心,整合不同架構(gòu)的異構(gòu)芯片,實(shí)現(xiàn)滿(mǎn)足各類(lèi)應(yīng)用場(chǎng)景需求的大算力平臺(tái)。統(tǒng)一的大模型中間層,向上可以適配不同垂直領(lǐng)域大模型,向下可以兼容不同國(guó)產(chǎn)AI芯片,從而提升異構(gòu)算力平臺(tái)的使用效率,降低用戶(hù)在不同模型、不同芯片之間的遷移成本,是解決大模型時(shí)代算力挑戰(zhàn)的關(guān)鍵方向之一。
“性能密度”這一核心指標(biāo),是由制造工藝、芯片設(shè)計(jì)水平、先進(jìn)封裝等多個(gè)層面協(xié)同之后的作用。在當(dāng)前國(guó)內(nèi)對(duì)3nm/5nm等先進(jìn)制造工藝獲取受限的背景下,需要持續(xù)攻關(guān)先進(jìn)制造工藝環(huán)節(jié)中的重要設(shè)備和材料,如DUV/EUV光刻機(jī)、光刻膠等。
在碳中和背景下,應(yīng)對(duì)算力中心極高的能耗需求,“數(shù)據(jù)中心+清潔電力+儲(chǔ)能”將是必要發(fā)展的路徑。數(shù)據(jù)中心將成為負(fù)荷可變、可調(diào)的復(fù)合體,以便于響應(yīng)發(fā)電、電網(wǎng)側(cè)需求,并通過(guò)參與電力交易實(shí)現(xiàn)智能化“削峰填谷”套利,降低運(yùn)營(yíng)成本。
根據(jù)《數(shù)據(jù)中心能源十大趨勢(shì)白皮書(shū)》,高能耗算力中心無(wú)法依靠風(fēng)冷實(shí)現(xiàn)有效散熱,液冷將成為標(biāo)配,供水效率也成為算力中心的關(guān)鍵。傳統(tǒng)數(shù)據(jù)中心散熱的水資源消耗極大,對(duì)缺水地區(qū)的生態(tài)環(huán)境造成影響。水資源利用效率(WUE)成為國(guó)際關(guān)注的重要參考指標(biāo),無(wú)水或少水的制冷技術(shù)是未來(lái)的發(fā)展趨勢(shì)。
資料來(lái)源:2023集成芯片與芯粒技術(shù)白皮書(shū)
資料來(lái)源:清華大學(xué)電子工程系NICS-efc實(shí)驗(yàn)室實(shí)驗(yàn)結(jié)果
產(chǎn)業(yè)層面,我們則有以下建議:
1)加強(qiáng)頂層設(shè)計(jì),謀劃算力產(chǎn)業(yè)的戰(zhàn)略部署;日前,工信部等六部門(mén)聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,加強(qiáng)對(duì)算力產(chǎn)業(yè)的頂層設(shè)計(jì),但仍需要進(jìn)一步加強(qiáng)整體性謀劃。建議在現(xiàn)有相關(guān)領(lǐng)導(dǎo)小組中設(shè)置算力發(fā)展委員會(huì)(或聯(lián)席會(huì)),秉持適時(shí)適度干預(yù)立場(chǎng),加強(qiáng)算力發(fā)展的頂層設(shè)計(jì),健全信息交換機(jī)制,形成統(tǒng)一協(xié)調(diào)的決策機(jī)制。
2)優(yōu)化空間布局,整體性推進(jìn)算力基礎(chǔ)設(shè)施建設(shè);在貫徹落實(shí)“十四五”相關(guān)規(guī)劃的基層上,加強(qiáng)一體化算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn)建設(shè),針對(duì)京津冀、長(zhǎng)三角、粵港澳大灣區(qū)等關(guān)鍵算力節(jié)點(diǎn),有序按需推進(jìn)算力基礎(chǔ)設(shè)施建設(shè),著力推動(dòng)已建及新建算力設(shè)施利用率。
3)布局引領(lǐng)項(xiàng)目,提升行業(yè)共性關(guān)鍵技術(shù)儲(chǔ)備。發(fā)揮國(guó)家科技計(jì)劃的標(biāo)志性引領(lǐng)性作用,可考慮在國(guó)家自然科學(xué)基金啟動(dòng)一批項(xiàng)目,開(kāi)展計(jì)算架構(gòu)、計(jì)算方式和算法創(chuàng)新等基礎(chǔ)研究;同時(shí),在國(guó)家重點(diǎn)研發(fā)計(jì)劃中設(shè)立一批項(xiàng)目,開(kāi)展算力關(guān)鍵技術(shù)的應(yīng)用示范研究,加強(qiáng)算力與相關(guān)產(chǎn)業(yè)融合應(yīng)用。
4)探索多元投入,助推算力產(chǎn)業(yè)高質(zhì)量發(fā)展。充分發(fā)揮產(chǎn)業(yè)引導(dǎo)基金的撬動(dòng)作用,鼓勵(lì)地方政府通過(guò)引導(dǎo)基金加大對(duì)算力產(chǎn)業(yè)的投入,培育更多好企業(yè)、好項(xiàng)目。探索新型科技金融模式,加大對(duì)算力重點(diǎn)項(xiàng)目的金融支持。創(chuàng)新算力基礎(chǔ)設(shè)施項(xiàng)目的社會(huì)融資模式,支持社會(huì)資本向算力產(chǎn)業(yè)流動(dòng)。
5)營(yíng)造開(kāi)放生態(tài),共同構(gòu)筑新業(yè)態(tài)新模式。算力的高投入、高風(fēng)險(xiǎn)、高壟斷性決定了算力的競(jìng)爭(zhēng)是少數(shù)大國(guó)的少數(shù)企業(yè)才能參與的游戲。政府要大力推動(dòng)產(chǎn)學(xué)研深度融合,引導(dǎo)龍頭企業(yè)在算力相關(guān)的關(guān)鍵技術(shù)上下功夫,提升研發(fā)能力,搭建開(kāi)放平臺(tái),吸引上下游企業(yè)有效銜接,共享算力創(chuàng)新成果。鼓勵(lì)國(guó)內(nèi)企業(yè)、高校等組織與境外有關(guān)組織拓展合作。
總結(jié)而言,破局算力瓶頸,需要硬件、軟件、系統(tǒng)的耦合,基金、生態(tài)、產(chǎn)業(yè)的協(xié)作,具備多層次、多學(xué)科大體系的特點(diǎn)。需要把產(chǎn)業(yè)應(yīng)用、科學(xué)研究、人才培養(yǎng)、基礎(chǔ)平臺(tái)等結(jié)合起來(lái),推動(dòng)相應(yīng)的研究及最終商業(yè)化落地。
(編輯:郭麗琴)