中國(guó)如何突破算力“卡脖子”

2023-11-20 09:57:39汪玉汝鵬謝其軍

財(cái)經(jīng) 2023年23期

汪玉　汝鵬　謝其軍

2023年7月，上海世博展覽館，2023世界人工智能大會(huì)上AIGC大模型應(yīng)用受到關(guān)注，一些觀眾在商湯展區(qū)與AI繪畫(huà)生成藝術(shù)互動(dòng)。圖/視覺(jué)中國(guó)

今年以來(lái)，以ChatGPT為代表的AI大模型的出現(xiàn)標(biāo)志著一個(gè)嶄新時(shí)代的開(kāi)啟。大模型技術(shù)的快速迭代催生出一批如Midjourney、Character.AI等類(lèi)型的AIGC（Artificial Intelligence Generated Content）應(yīng)用，為辦公、電商、教育、醫(yī)療和法律等領(lǐng)域帶來(lái)了革命性的改變。

復(fù)雜的AI算法需要大量的計(jì)算資源來(lái)實(shí)現(xiàn)，算力是支撐AI算法運(yùn)行的基礎(chǔ)。AI芯片是專(zhuān)門(mén)用于處理AI計(jì)算相關(guān)任務(wù)的協(xié)處理器，為AI算法提供了高效的算力，可以顯著提升深度學(xué)習(xí)等AI算法模型的訓(xùn)練和推理效率。

AIGC產(chǎn)業(yè)的發(fā)展，對(duì)算力的需求不斷提升，但中國(guó)在算力領(lǐng)域面臨諸多挑戰(zhàn)。

2023年10月17日，美國(guó)商務(wù)部工業(yè)安全局（BIS）公布最新半導(dǎo)體管制規(guī)則（下稱(chēng)“1017新規(guī)”），升級(jí)了BIS于2022年10月7日發(fā)布的《對(duì)向中國(guó)出口的先進(jìn)計(jì)算和半導(dǎo)體制造物項(xiàng)實(shí)施新的出口管制》（下稱(chēng)“107規(guī)則”）。1017新規(guī)分為三個(gè)部分：一是調(diào)整先進(jìn)計(jì)算芯片出口管制規(guī)則，二是調(diào)整半導(dǎo)體制造設(shè)備出口管制規(guī)則；三是公布了新增的實(shí)體清單企業(yè)名單。包括A100、H100、A800、H800等在內(nèi)的GPU芯片對(duì)華出口都將受到影響。A100、H100是英偉達(dá)的高性能GPU，廣泛應(yīng)用于AI、數(shù)據(jù)分析等工作場(chǎng)景。A800和H800是A100、H100的替代產(chǎn)品，也即在去年美國(guó)107規(guī)則下，英偉達(dá)特供給中國(guó)大陸市場(chǎng)的，降低傳輸速率以符合規(guī)定的替代產(chǎn)品，但在今年1017新規(guī)后被禁售。上述產(chǎn)品均是目前最適合AI算法研發(fā)和部署的高算力芯片。

中國(guó)在AI領(lǐng)域?qū)λ懔τ兄鴱?qiáng)大的需求，依賴(lài)高性能AI芯片來(lái)支持其應(yīng)用和研究。1017新規(guī)取消了“互聯(lián)帶寬”參數(shù)限制，同時(shí)新增“性能密度”的參數(shù)限制。該新規(guī)旨在進(jìn)一步收窄高端計(jì)算芯片的出口范圍；在大模型AI時(shí)代，限制中國(guó)計(jì)算能力，將會(huì)限制AIGC在中國(guó)的發(fā)展和創(chuàng)新。

本文將逐一解讀中國(guó)算力面臨的主要挑戰(zhàn)，包括芯片架構(gòu)的性能提升到達(dá)瓶頸、現(xiàn)有芯片的算力利用率不足、美國(guó)出口管制帶來(lái)的供應(yīng)鏈風(fēng)險(xiǎn)。進(jìn)而分析破局之策，在軟件方面優(yōu)化模型和算法，降低算力需求；在硬件方面開(kāi)發(fā)新架構(gòu)，提高AI芯片能效比；在系統(tǒng)方面協(xié)同整合軟硬件，提升系統(tǒng)效率，減少能源消耗；在產(chǎn)業(yè)方面加強(qiáng)生態(tài)鏈建設(shè)與多方協(xié)作，推動(dòng)共同投入。

AIGC迭代加快

當(dāng)前中國(guó)大模型技術(shù)仍處于研發(fā)和迭代的早期階段，但產(chǎn)業(yè)潛力巨大。中國(guó)的高校、互聯(lián)網(wǎng)科技企業(yè)、初創(chuàng)科技公司等都紛紛加入AI大模型的浪潮，已誕生超過(guò)100個(gè)各種類(lèi)型的大模型。

根據(jù)艾瑞咨詢(xún)的預(yù)測(cè)，2023年中國(guó)的AIGC產(chǎn)業(yè)規(guī)模將達(dá)到143億元，未來(lái)幾年增長(zhǎng)迅速。預(yù)計(jì)到2028年，中國(guó)AIGC產(chǎn)業(yè)規(guī)模將達(dá)到7202億元，在重點(diǎn)領(lǐng)域和關(guān)鍵場(chǎng)景完成技術(shù)落地。

AIGC技術(shù)在NLP（自然語(yǔ)言處理）和CV（計(jì)算機(jī)視覺(jué)）領(lǐng)域經(jīng)歷了顯著的演進(jìn)。AIGC技術(shù)和能力的提升，會(huì)為各行業(yè)帶來(lái)更多的創(chuàng)新和應(yīng)用機(jī)會(huì)，主要表現(xiàn)在：

從單一任務(wù)到多任務(wù)。初始AIGC技術(shù)主要關(guān)注單一任務(wù)，如自然語(yǔ)言生成、圖像生成和翻譯。但未來(lái)趨勢(shì)是訓(xùn)練模型同時(shí)處理多種任務(wù)，并提高模型的泛化能力。

從單模態(tài)到多模態(tài)。單模態(tài)生成式模型通常專(zhuān)注于一種數(shù)據(jù)類(lèi)型，如文本或圖像。多模態(tài)生成式模型能夠同時(shí)處理多種數(shù)據(jù)類(lèi)型，如文本和圖像的聯(lián)合生成，為增強(qiáng)現(xiàn)實(shí)、智能對(duì)話(huà)系統(tǒng)和自動(dòng)文檔生成等多領(lǐng)域的應(yīng)用帶來(lái)新機(jī)會(huì)。

從通用模型到垂域模型。通用生成式模型在各領(lǐng)域表現(xiàn)出色，但未來(lái)趨勢(shì)是朝著更專(zhuān)業(yè)化和垂域化的方向前進(jìn)。

算力供應(yīng)不足

隨著AIGC的發(fā)展，模型越來(lái)越復(fù)雜，參數(shù)量越來(lái)越大，導(dǎo)致算力需求的增長(zhǎng)速度已遠(yuǎn)超芯片的性能增長(zhǎng)速度。在AIGC算法模型部署早期，算力消耗主要集中于大模型訓(xùn)練，但隨著大模型用戶(hù)量增長(zhǎng)，推理成本將成為主要算力開(kāi)支。

AIGC對(duì)算力的具體需求，以三個(gè)典型應(yīng)用場(chǎng)景加以說(shuō)明：

若Google采用GPT等大模型用于推薦搜索：Google每天接受搜索請(qǐng)求35億次，按照GPT-4 API 0.14元/次的價(jià)格，Google每年需要支付1788億元人民幣的API費(fèi)用。若采用自建算力集群的方案，需要提供每秒約10萬(wàn)次的峰值訪問(wèn)能力，一輪GPT-4對(duì)話(huà)涉及200多萬(wàn)億次浮點(diǎn)運(yùn)算，在計(jì)算資源利用率約60%的情況下，需要約10萬(wàn)塊A100集群。

若每個(gè)MicrosoftOffice用戶(hù)都采用大模型用于辦公：微軟使用基于大模型的Copilot賦能辦公軟件、操作系統(tǒng)與代碼編輯場(chǎng)景，有潛力重構(gòu)未來(lái)辦公場(chǎng)景。未來(lái)的軟件開(kāi)發(fā)、文案寫(xiě)作、藝術(shù)創(chuàng)作將在與AI的頻繁互動(dòng)對(duì)話(huà)中完成。根據(jù)信息技術(shù)研究公司的報(bào)告《中國(guó)數(shù)據(jù)分析與AI技術(shù)成熟度曲線(xiàn)》，中國(guó)的學(xué)生與白領(lǐng)人群達(dá)到2.8億人，按每人每天10次的訪問(wèn)需求計(jì)算，每年具有1.02萬(wàn)億次訪問(wèn)需求，需要8萬(wàn)塊A100的算力支持。

若人人都有一個(gè)定制化的AI個(gè)人助理（大模型原生應(yīng)用），AI個(gè)人助理向中國(guó)12億網(wǎng)民提供定制化的教育、醫(yī)療、政務(wù)、財(cái)務(wù)管理等服務(wù)。在每人10次的日訪問(wèn)條件下，需要34萬(wàn)塊A100算力支持。

根據(jù)AMD全球CEO（首席執(zhí)行官）蘇姿豐在2023年的主題演講，從單一算力中心的角度看，過(guò)去十年，超級(jí)計(jì)算機(jī)發(fā)展迅速，芯片架構(gòu)創(chuàng)新與制造工藝的進(jìn)步使得計(jì)算機(jī)性能每1.2年翻一番。而計(jì)算機(jī)的能量效率（即單位能量下的計(jì)算次數(shù)）增長(zhǎng)速度僅為每2.2年翻一番。在保持這個(gè)趨勢(shì)的情況下，到2035年，一個(gè)高性能的超級(jí)計(jì)算機(jī)功率將達(dá)到500MW，約為半個(gè)核電站的發(fā)電功率。

AIGC嚴(yán)重依賴(lài)于高算力，但目前中國(guó)在算力方面卻遇到了極大挑戰(zhàn)。

1）推動(dòng)芯片性能提升的摩爾定律難以繼續(xù)維系。

半導(dǎo)體器件的尺寸已逼近物理極限，而制程進(jìn)步帶來(lái)的性能提升幅度在收窄。芯片能效比增速明顯放緩，更高的晶體管密度也帶來(lái)更大的散熱挑戰(zhàn)與更低的生產(chǎn)良率。目前AIGC對(duì)算力的需求遠(yuǎn)遠(yuǎn)超過(guò)AI芯片的發(fā)展速度，現(xiàn)有的芯片硬件性能的提升速度難以滿(mǎn)足算法模型急劇增長(zhǎng)的算力需求，需要新的硬件架構(gòu)突破。

2）GPU利用率低。

大模型在處理大量數(shù)據(jù)時(shí)，由于算力調(diào)度、系統(tǒng)架構(gòu)、算法優(yōu)化等諸多問(wèn)題，很多大模型企業(yè)的GPU算力利用率不足50%，造成了巨大的浪費(fèi)。

3）軟件生態(tài)不成熟。

目前主流的AI算法都是基于英偉達(dá)CUDA進(jìn)行適配，英偉達(dá)的CUDA軟件自2006年問(wèn)世以來(lái)，經(jīng)過(guò)十多年的積累，形成了包括驅(qū)動(dòng)、編譯、框架、庫(kù)、編程模型等在內(nèi)的成熟生態(tài)。目前主流AIGC算法訓(xùn)練，大多基于CUDA生態(tài)進(jìn)行開(kāi)發(fā)，壁壘極強(qiáng)。AIGC公司若要更換英偉達(dá)GPU，面臨極高的遷移成本和穩(wěn)定性的風(fēng)險(xiǎn)。因此國(guó)產(chǎn)GPGPU產(chǎn)品想要大規(guī)模部署，軟件生態(tài)是一個(gè)極大挑戰(zhàn)。

圖1：2023年部分中國(guó)廠商自研大模型盤(pán)點(diǎn)

資料來(lái)源：本文作者整理

圖2：2022年-2030年中國(guó)AIGC產(chǎn)業(yè)規(guī)模

資料來(lái)源：艾瑞咨詢(xún)研究院

圖3：GPU Day*：?jiǎn)螐圧TX 3090，F(xiàn)P32峰值算力，計(jì)算一天

資料來(lái)源：根據(jù)模型參數(shù)與算力由清華實(shí)驗(yàn)室測(cè)算

4）高性能AI芯片供應(yīng)量不足。

大算力芯片是大模型研發(fā)的基礎(chǔ)設(shè)施，英偉達(dá)高性能GPU芯片具有兩個(gè)核心優(yōu)勢(shì)：一是更大的顯存配置與通信帶寬。高帶寬的芯片之間互聯(lián)對(duì)提升大模型訓(xùn)練效率至關(guān)重要。二是更高的大模型訓(xùn)練耐用性。消費(fèi)顯卡面向個(gè)人應(yīng)用，故障率和穩(wěn)定性遠(yuǎn)差于服務(wù)器版本。千億參數(shù)大模型訓(xùn)練需要數(shù)千GPU長(zhǎng)周期同步運(yùn)算，任何單一顯卡的故障均需要中斷訓(xùn)練、檢修硬件。相比于消費(fèi)級(jí)顯卡或其他芯片，高性能GPU可以減短60%-90%大模型訓(xùn)練周期。

然而，英偉達(dá)GPU產(chǎn)能不足，且美國(guó)逐漸加碼對(duì)中國(guó)高性能芯片禁售力度。去年10月，美國(guó)對(duì)出口中國(guó)的AI芯片實(shí)施帶寬速率限制，其中，涉及英偉達(dá)A100和H100芯片。此后，英偉達(dá)向中國(guó)企業(yè)提供替代版本A800和H800。根據(jù)1017新規(guī)，英偉達(dá)包括A800和H800在內(nèi)的芯片對(duì)華出口都將受到影響，國(guó)內(nèi)的高性能AI芯片供給出現(xiàn)嚴(yán)重短缺。

目前大模型訓(xùn)練主要依賴(lài)于英偉達(dá)高性能GPU，禁售對(duì)于國(guó)內(nèi)大模型研發(fā)進(jìn)度，帶來(lái)極大影響。例如，使用符合1017新規(guī)的V100 GPU替代A100，算力和帶寬的下降將使得大模型訓(xùn)練時(shí)間增加3到6倍，顯存的下降也將使能訓(xùn)練模型的最大參數(shù)量下降2.5倍。

5）自研AI芯片難以量產(chǎn)。

美國(guó)將先進(jìn)芯片的出口許可證要求增加到22個(gè)國(guó)家。繼先前限制EUV光刻機(jī)出口到中國(guó)之后，也開(kāi)始限制更低一代的DUV光刻機(jī)。此外，美商務(wù)部將中國(guó)本土領(lǐng)先的GPU芯片企業(yè)加入到實(shí)體清單中，這將會(huì)導(dǎo)致國(guó)內(nèi)自研芯片難以使用最新的工藝制程進(jìn)行流片量產(chǎn)。

6）高能源消耗帶來(lái)的電力系統(tǒng)壓力。

算力中心的計(jì)算、制冷與通信設(shè)施均為高能耗硬件。中國(guó)電子節(jié)能技術(shù)協(xié)會(huì)數(shù)據(jù)顯示，目前中國(guó)數(shù)據(jù)中心的耗電量平均增長(zhǎng)率超過(guò)12%，2022年全國(guó)數(shù)據(jù)中心耗電量達(dá)2700億千瓦時(shí)，占全社會(huì)用電量的3%。在大模型時(shí)代，中國(guó)數(shù)據(jù)中心耗電量會(huì)加大增長(zhǎng)幅度，并在2025年預(yù)計(jì)達(dá)到4200億千瓦時(shí)耗電量，約占社會(huì)總用電量的5%。數(shù)據(jù)中心的電力供應(yīng)以及系統(tǒng)散熱，都將給現(xiàn)有的電力系統(tǒng)帶來(lái)很大的壓力。

技術(shù)如何破局？

面對(duì)不利局面，中國(guó)的算力瓶頸需要以系統(tǒng)觀念統(tǒng)籌謀劃，逐步突破，主要包含技術(shù)和產(chǎn)業(yè)兩個(gè)層面，方式主要是“開(kāi)源”和“節(jié)流”。

技術(shù)層面，我們的建議如下：

1）發(fā)展高效大模型。

通過(guò)精簡(jiǎn)模型參數(shù)的方式降低對(duì)算力的需求。壓縮即智能，大模型旨在對(duì)數(shù)據(jù)進(jìn)行無(wú)損壓縮。今年2月28日OpenAI核心研發(fā)人員Jack Rae表示，通用AI（AGI）的目標(biāo)是實(shí)現(xiàn)對(duì)有效信息最大限度的無(wú)損壓縮。隨著大模型發(fā)展，在AI復(fù)雜性提升的同時(shí)，相同參數(shù)規(guī)模下，算法模型能力也會(huì)持續(xù)提升。未來(lái)或出現(xiàn)具有更高信息壓縮效率的大模型，以百億級(jí)參數(shù)規(guī)模獲取媲美萬(wàn)億級(jí)參數(shù)規(guī)模GPT-4的算法能力。

此外，大模型可以面向特定業(yè)務(wù)場(chǎng)景做領(lǐng)域適配和能力取舍，減少算力開(kāi)支。例如在政務(wù)問(wèn)答場(chǎng)景中，模型可以謝絕回答非業(yè)務(wù)請(qǐng)求。原本依靠千億參數(shù)通用模型才可以解決的任務(wù)，有望使用百億參數(shù)量模型即可完成。

2）基于現(xiàn)有模型的軟件優(yōu)化。

如果將GPT-3前后的AI發(fā)展劃分成1.0與2.0時(shí)代，那么AI 1.0時(shí)代的軟件優(yōu)化核心任務(wù)是使深度學(xué)習(xí)模型可以在邊緣、端側(cè)的低功耗設(shè)備上運(yùn)行，實(shí)現(xiàn)自動(dòng)化與智能化，以在AIoT、智能安防與智能汽車(chē)等領(lǐng)域大面積應(yīng)用。而AI 2.0時(shí)代的模型壓縮則是規(guī)?；?、集中化算力需求的整體優(yōu)化，應(yīng)用場(chǎng)景需要從“中心”側(cè)開(kāi)始，然后向邊、端側(cè)輻射。

模型壓縮是最直接降低算法算力需求的方法，這一AI1.0時(shí)代的技術(shù)在AI2.0時(shí)代也將得到繼承與發(fā)展。

剪枝利用了深度學(xué)習(xí)模型參數(shù)冗余的特點(diǎn)，將對(duì)準(zhǔn)確率影響小的權(quán)重裁剪，保留網(wǎng)絡(luò)主干并降低整體計(jì)算開(kāi)支。在AI2.0時(shí)代中，Transformer算法模型在長(zhǎng)序列輸入的情況下，計(jì)算延時(shí)的瓶頸在注意力機(jī)制算子，通過(guò)對(duì)注意力機(jī)制算子的激活值進(jìn)行裁剪，目前可達(dá)到2倍的端到端的加速比，未來(lái)有望進(jìn)一步加速。

參數(shù)量化利用了GPU處理定點(diǎn)數(shù)的等效算力顯著高于浮點(diǎn)數(shù)計(jì)算算力的優(yōu)勢(shì)，利用16比特、8比特、4比特定點(diǎn)數(shù)替代32比特浮點(diǎn)數(shù)，有望同步降低推理算力需求。

算子融合（Operator Fusion）將多個(gè)算子融合成一個(gè)算子，提高中間張量數(shù)據(jù)的訪問(wèn)局部性，以減少內(nèi)存訪問(wèn)，解決內(nèi)存訪問(wèn)瓶頸問(wèn)題。算子循環(huán)空間的設(shè)計(jì)與尋優(yōu)則通過(guò)將計(jì)算圖中的算子節(jié)點(diǎn)進(jìn)行并行編排，提升整體計(jì)算并行度。

總之，通過(guò)對(duì)現(xiàn)有大模型進(jìn)行壓縮和量化，可以顯著減少模型參數(shù)量、降低模型計(jì)算復(fù)雜度，節(jié)約存儲(chǔ)空間，目前可提升2倍-3倍的計(jì)算效率。在降低大模型響應(yīng)用戶(hù)的延遲的同時(shí)，模型優(yōu)化技術(shù)更可以將大模型高效部署在汽車(chē)、個(gè)人電腦、手機(jī)、AIoT等邊、端側(cè)設(shè)備中，支持具有高實(shí)時(shí)、隱私保護(hù)、安全性等特點(diǎn)的本地大模型應(yīng)用。

3）高能效、高算力密度的新架構(gòu)芯片。

傳統(tǒng)計(jì)算芯片的能效到達(dá)瓶頸，需要通過(guò)對(duì)芯片架構(gòu)、互聯(lián)、封裝的改進(jìn)，從而實(shí)現(xiàn)更高的能效。目前主要的方式是數(shù)據(jù)流架構(gòu)、存算一體、Chiplet技術(shù)等。

數(shù)據(jù)流架構(gòu)：通過(guò)數(shù)據(jù)流流動(dòng)次序來(lái)控制計(jì)算順序，消除指令操作導(dǎo)致的額外時(shí)間開(kāi)銷(xiāo)。數(shù)據(jù)流架構(gòu)能夠?qū)崿F(xiàn)高效流水線(xiàn)運(yùn)算，同時(shí)可并行執(zhí)行數(shù)據(jù)訪問(wèn)和數(shù)據(jù)計(jì)算，進(jìn)一步減少計(jì)算單元的空閑時(shí)間，充分利用芯片的計(jì)算資源。與指令集架構(gòu)不同的數(shù)據(jù)流架構(gòu)，使用專(zhuān)用數(shù)據(jù)通道連接不同類(lèi)型的高度優(yōu)化的計(jì)算模塊。利用分布式的本地存儲(chǔ)，數(shù)據(jù)讀寫(xiě)與計(jì)算同時(shí)進(jìn)行，節(jié)省了數(shù)據(jù)傳輸時(shí)間和計(jì)算時(shí)間。

存算一體：存算一體芯片的核心是將存儲(chǔ)與計(jì)算完全融合，利用新興存儲(chǔ)器件與存儲(chǔ)器陣列電路結(jié)構(gòu)設(shè)計(jì)，將存儲(chǔ)和計(jì)算功能集成在同一個(gè)存儲(chǔ)芯片上，消除了矩陣數(shù)據(jù)在存儲(chǔ)和計(jì)算單元中的數(shù)據(jù)搬運(yùn)，從而高效支持智能算法中的矩陣計(jì)算，在同等工藝上大幅提升計(jì)算芯片的“性能密度”。

圖4：高效算法壓縮和算子優(yōu)化

資料來(lái)源：清華大學(xué)電子工程系NICS-efc實(shí)驗(yàn)室實(shí)驗(yàn)結(jié)果

Chiplet技術(shù)：傳統(tǒng)集成電路將大量晶體管集成制造在一個(gè)硅襯底的二維平面上，從而形成芯片。集成芯片是指先將晶體管等元器件集成制造為特定功能的芯粒（Chiplet），再按照應(yīng)用需求將芯粒通過(guò)半導(dǎo)體技術(shù)集成制造為芯片。Chiplet技術(shù)可以實(shí)現(xiàn)更大的芯片面積，提升總算力；通過(guò)chiplet/IP等的復(fù)用和組合，提升芯片的設(shè)計(jì)效率；把大芯片拆成多個(gè)小尺寸chiplet，提升良率，降低成本；不同芯粒可以通過(guò)不同工藝完成制備，通過(guò)異構(gòu)實(shí)現(xiàn)更高性能。

全新的計(jì)算架構(gòu)，可以打破現(xiàn)有芯片的存儲(chǔ)墻和互聯(lián)墻，將更多算力單元高密度、高效率、低功耗地連接在一起，極大提高異構(gòu)核之間的傳輸速率，降低數(shù)據(jù)訪問(wèn)功耗和成本，從而為大模型提供高算力保障。

4）軟硬件協(xié)同優(yōu)化，提高計(jì)算系統(tǒng)的利用率。

在大模型系統(tǒng)中，軟硬件協(xié)同對(duì)于實(shí)現(xiàn)高性能和高能效至關(guān)重要。通過(guò)稀疏+混合精度+多樣算子的高效架構(gòu)設(shè)計(jì)、算法優(yōu)化、系統(tǒng)資源管理、軟件框架與硬件平臺(tái)的協(xié)同以及系統(tǒng)監(jiān)控與調(diào)優(yōu)等技術(shù)，可以更好發(fā)揮整個(gè)算力系統(tǒng)的優(yōu)勢(shì)。

在大模型訓(xùn)練方面，由于訓(xùn)練所需的算力與存儲(chǔ)開(kāi)銷(xiāo)巨大，多卡互聯(lián)的高性能集群計(jì)算系統(tǒng)是大模型訓(xùn)練的必然途徑。英偉達(dá)高性能GPU的供應(yīng)鏈在中國(guó)受到制約，國(guó)產(chǎn)化芯片單卡性能受工藝限制，如何使用萬(wàn)卡規(guī)模的國(guó)產(chǎn)化芯片進(jìn)行可靠、穩(wěn)定的大模型訓(xùn)練將是一個(gè)必須解決的關(guān)鍵問(wèn)題。除了提高計(jì)算系統(tǒng)規(guī)模外，還需開(kāi)展軟硬件協(xié)同的高效微調(diào)方案研究，降低大模型訓(xùn)練與微調(diào)的硬件資源開(kāi)銷(xiāo)。

在大模型系統(tǒng)中，有效的系統(tǒng)資源管理對(duì)于確保高性能和高效率至關(guān)重要。這包括合理分配計(jì)算資源（如CPU、GPU等），優(yōu)化內(nèi)存管理和數(shù)據(jù)傳輸策略，以降低延遲和提高吞吐量。

為了實(shí)現(xiàn)軟硬件協(xié)同，深度學(xué)習(xí)軟件框架需要與硬件平臺(tái)緊密配合。這包括針對(duì)特定硬件平臺(tái)進(jìn)行優(yōu)化，以充分利用其計(jì)算能力和存儲(chǔ)資源，以及提供易用的API和工具，以簡(jiǎn)化模型訓(xùn)練和部署過(guò)程。

5）構(gòu)建異構(gòu)算力平臺(tái)。

由于AI算法模型參數(shù)量與計(jì)算復(fù)雜度急劇提升，大模型訓(xùn)練需要大規(guī)?？绻?jié)點(diǎn)的多卡集群，其硬件挑戰(zhàn)來(lái)自計(jì)算、存儲(chǔ)、通信。構(gòu)建一個(gè)千卡規(guī)模的大模型數(shù)據(jù)中心，成本高達(dá)上億元，很多初創(chuàng)公司難以承受。為解決上述難題，降低數(shù)據(jù)中心建設(shè)成本，亟待構(gòu)建集中算力中心，整合不同架構(gòu)的異構(gòu)芯片，實(shí)現(xiàn)滿(mǎn)足各類(lèi)應(yīng)用場(chǎng)景需求的大算力平臺(tái)。統(tǒng)一的大模型中間層，向上可以適配不同垂直領(lǐng)域大模型，向下可以兼容不同國(guó)產(chǎn)AI芯片，從而提升異構(gòu)算力平臺(tái)的使用效率，降低用戶(hù)在不同模型、不同芯片之間的遷移成本，是解決大模型時(shí)代算力挑戰(zhàn)的關(guān)鍵方向之一。

6）布局先進(jìn)工藝。

“性能密度”這一核心指標(biāo)，是由制造工藝、芯片設(shè)計(jì)水平、先進(jìn)封裝等多個(gè)層面協(xié)同之后的作用。在當(dāng)前國(guó)內(nèi)對(duì)3nm/5nm等先進(jìn)制造工藝獲取受限的背景下，需要持續(xù)攻關(guān)先進(jìn)制造工藝環(huán)節(jié)中的重要設(shè)備和材料，如DUV/EUV光刻機(jī)、光刻膠等。

7）能源的優(yōu)化利用

在碳中和背景下，應(yīng)對(duì)算力中心極高的能耗需求，“數(shù)據(jù)中心+清潔電力+儲(chǔ)能”將是必要發(fā)展的路徑。數(shù)據(jù)中心將成為負(fù)荷可變、可調(diào)的復(fù)合體，以便于響應(yīng)發(fā)電、電網(wǎng)側(cè)需求，并通過(guò)參與電力交易實(shí)現(xiàn)智能化“削峰填谷”套利，降低運(yùn)營(yíng)成本。

根據(jù)《數(shù)據(jù)中心能源十大趨勢(shì)白皮書(shū)》，高能耗算力中心無(wú)法依靠風(fēng)冷實(shí)現(xiàn)有效散熱，液冷將成為標(biāo)配，供水效率也成為算力中心的關(guān)鍵。傳統(tǒng)數(shù)據(jù)中心散熱的水資源消耗極大，對(duì)缺水地區(qū)的生態(tài)環(huán)境造成影響。水資源利用效率（WUE）成為國(guó)際關(guān)注的重要參考指標(biāo)，無(wú)水或少水的制冷技術(shù)是未來(lái)的發(fā)展趨勢(shì)。

圖5：集成芯片與芯粒

資料來(lái)源：2023集成芯片與芯粒技術(shù)白皮書(shū)

圖6：面向大模型的統(tǒng)一中間層

資料來(lái)源：清華大學(xué)電子工程系NICS-efc實(shí)驗(yàn)室實(shí)驗(yàn)結(jié)果

產(chǎn)業(yè)如何應(yīng)對(duì)？

產(chǎn)業(yè)層面，我們則有以下建議：

1）加強(qiáng)頂層設(shè)計(jì)，謀劃算力產(chǎn)業(yè)的戰(zhàn)略部署；日前，工信部等六部門(mén)聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》，加強(qiáng)對(duì)算力產(chǎn)業(yè)的頂層設(shè)計(jì)，但仍需要進(jìn)一步加強(qiáng)整體性謀劃。建議在現(xiàn)有相關(guān)領(lǐng)導(dǎo)小組中設(shè)置算力發(fā)展委員會(huì)（或聯(lián)席會(huì)），秉持適時(shí)適度干預(yù)立場(chǎng)，加強(qiáng)算力發(fā)展的頂層設(shè)計(jì)，健全信息交換機(jī)制，形成統(tǒng)一協(xié)調(diào)的決策機(jī)制。

2）優(yōu)化空間布局，整體性推進(jìn)算力基礎(chǔ)設(shè)施建設(shè)；在貫徹落實(shí)“十四五”相關(guān)規(guī)劃的基層上，加強(qiáng)一體化算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn)建設(shè)，針對(duì)京津冀、長(zhǎng)三角、粵港澳大灣區(qū)等關(guān)鍵算力節(jié)點(diǎn)，有序按需推進(jìn)算力基礎(chǔ)設(shè)施建設(shè)，著力推動(dòng)已建及新建算力設(shè)施利用率。

3）布局引領(lǐng)項(xiàng)目，提升行業(yè)共性關(guān)鍵技術(shù)儲(chǔ)備。發(fā)揮國(guó)家科技計(jì)劃的標(biāo)志性引領(lǐng)性作用，可考慮在國(guó)家自然科學(xué)基金啟動(dòng)一批項(xiàng)目，開(kāi)展計(jì)算架構(gòu)、計(jì)算方式和算法創(chuàng)新等基礎(chǔ)研究；同時(shí)，在國(guó)家重點(diǎn)研發(fā)計(jì)劃中設(shè)立一批項(xiàng)目，開(kāi)展算力關(guān)鍵技術(shù)的應(yīng)用示范研究，加強(qiáng)算力與相關(guān)產(chǎn)業(yè)融合應(yīng)用。

4）探索多元投入，助推算力產(chǎn)業(yè)高質(zhì)量發(fā)展。充分發(fā)揮產(chǎn)業(yè)引導(dǎo)基金的撬動(dòng)作用，鼓勵(lì)地方政府通過(guò)引導(dǎo)基金加大對(duì)算力產(chǎn)業(yè)的投入，培育更多好企業(yè)、好項(xiàng)目。探索新型科技金融模式，加大對(duì)算力重點(diǎn)項(xiàng)目的金融支持。創(chuàng)新算力基礎(chǔ)設(shè)施項(xiàng)目的社會(huì)融資模式，支持社會(huì)資本向算力產(chǎn)業(yè)流動(dòng)。

5）營(yíng)造開(kāi)放生態(tài)，共同構(gòu)筑新業(yè)態(tài)新模式。算力的高投入、高風(fēng)險(xiǎn)、高壟斷性決定了算力的競(jìng)爭(zhēng)是少數(shù)大國(guó)的少數(shù)企業(yè)才能參與的游戲。政府要大力推動(dòng)產(chǎn)學(xué)研深度融合，引導(dǎo)龍頭企業(yè)在算力相關(guān)的關(guān)鍵技術(shù)上下功夫，提升研發(fā)能力，搭建開(kāi)放平臺(tái)，吸引上下游企業(yè)有效銜接，共享算力創(chuàng)新成果。鼓勵(lì)國(guó)內(nèi)企業(yè)、高校等組織與境外有關(guān)組織拓展合作。

總結(jié)而言，破局算力瓶頸，需要硬件、軟件、系統(tǒng)的耦合，基金、生態(tài)、產(chǎn)業(yè)的協(xié)作，具備多層次、多學(xué)科大體系的特點(diǎn)。需要把產(chǎn)業(yè)應(yīng)用、科學(xué)研究、人才培養(yǎng)、基礎(chǔ)平臺(tái)等結(jié)合起來(lái)，推動(dòng)相應(yīng)的研究及最終商業(yè)化落地。

（編輯：郭麗琴）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中國(guó)如何突破算力“卡脖子”

AIGC迭代加快

算力供應(yīng)不足

1）推動(dòng)芯片性能提升的摩爾定律難以繼續(xù)維系。

2）GPU利用率低。

3）軟件生態(tài)不成熟。

圖1：2023年部分中國(guó)廠商自研大模型盤(pán)點(diǎn)

圖2：2022年-2030年中國(guó)AIGC產(chǎn)業(yè)規(guī)模

圖3：GPU Day*：?jiǎn)螐圧TX 3090，F(xiàn)P32峰值算力，計(jì)算一天

4）高性能AI芯片供應(yīng)量不足。

5）自研AI芯片難以量產(chǎn)。

6）高能源消耗帶來(lái)的電力系統(tǒng)壓力。

技術(shù)如何破局？

1）發(fā)展高效大模型。

2）基于現(xiàn)有模型的軟件優(yōu)化。

3）高能效、高算力密度的新架構(gòu)芯片。