OpenAI的首席執(zhí)行官薩姆·奧爾特曼表示,人工智能行業(yè)正面臨能源危機(jī),新一代生成式AI的能源需求顯然超出預(yù)期,現(xiàn)有的能源供應(yīng)將疲于應(yīng)對(duì)。
大模型引領(lǐng)的人工智能熱潮在2024年持續(xù)發(fā)酵,整個(gè)AI領(lǐng)域的技術(shù)革新在算力、算法、token數(shù)、參數(shù)量這幾個(gè)詞的牽引下不停迭代、推陳出新,業(yè)界在不到半年里仿佛進(jìn)入了“子彈時(shí)間”,既短暫,又漫長(zhǎng)。人工智能正經(jīng)歷膨脹時(shí)期,但與此同時(shí),有一件事卻令整個(gè)業(yè)界為之焦慮,那就是能源短缺。
一篇發(fā)表在《Joule》雜志上的論文預(yù)測(cè),到2027年,全球人工智能產(chǎn)業(yè)的年電力消耗將達(dá)到85.4至134太瓦時(shí)(TWH),這個(gè)數(shù)字大約等于荷蘭、瑞典或阿根廷等國(guó)家一年的總用電量,也約占全球總電力消耗的0.5%。研究還發(fā)現(xiàn),當(dāng)下流行的生成式人工智能ChatGPT每天需處理約2億次請(qǐng)求,這一過程的電力消耗超過50萬千瓦時(shí),相當(dāng)于1.7萬戶美國(guó)家庭的日用電量。在2024年博世互聯(lián)世界大會(huì)上,埃隆·馬斯克警告說,人工智能和電動(dòng)汽車的快速增長(zhǎng)可能會(huì)導(dǎo)致全球電力和變壓器供應(yīng)短缺。同時(shí),OpenAI的首席執(zhí)行官薩姆·奧爾特曼在達(dá)沃斯世界經(jīng)濟(jì)論壇上表示,人工智能行業(yè)正面臨能源危機(jī),新一代生成式AI的能源需求顯然超出預(yù)期,現(xiàn)有的能源供應(yīng)將疲于應(yīng)對(duì)。一時(shí)間,漫天飛來的AI能源危機(jī)論遍布全球。
AI膨脹引發(fā)的能源危機(jī)
從何而來?
當(dāng)前,大型AI模型的發(fā)展勢(shì)頭迅猛,它們能夠處理和學(xué)習(xí)龐大的數(shù)據(jù)集。這一能力背后需要巨大的計(jì)算資源支持,而這些資源通常由高性能處理器提供,包括GPU、TPU和ASIC芯片等。這些處理器需要大量的電力來驅(qū)動(dòng)數(shù)據(jù)中心的服務(wù)器、存儲(chǔ)設(shè)備和冷卻系統(tǒng)。而以GPT為代表的生成式預(yù)訓(xùn)練大型語言模型,其計(jì)算需求正向依賴參數(shù)量和token數(shù)兩個(gè)變量,極大影響著模型的潛在規(guī)模和復(fù)雜程度。參數(shù)量從十億級(jí)到萬億級(jí)的指數(shù)變化,僅僅用了3年時(shí)間。
自2012年以來,AI訓(xùn)練應(yīng)用的電力需求每3到4個(gè)月就會(huì)翻一倍。訓(xùn)練大模型需要大量的能源,AI服務(wù)器相較于傳統(tǒng)服務(wù)器通常需要更高功率密度的硬件,例如AI服務(wù)器可能需要4顆1800W的高功率電源,而通用型服務(wù)器可能只需要2顆800W的電源。
另外硬件方面,如同谷歌人工智能專有部署TPU張量處理器,英偉達(dá)的H100和A100是當(dāng)下業(yè)內(nèi)主流人工智能算力卡,因其強(qiáng)大的FP16/32計(jì)算能力而廣泛用于AI模型的訓(xùn)練和推理,但這些芯片的峰值功耗很高,例如H100的峰值功耗可達(dá)700瓦,遠(yuǎn)超過普通家庭的平均功耗。而GPT-4級(jí)別根據(jù)估算需要在1萬—2.5萬張H100上訓(xùn)練,保守估計(jì)也要8000張H100有效算力,接近萬卡集群。隨著大量H100被部署,其總功耗相當(dāng)于一座大城市的能耗,甚至超過一些歐洲小國(guó)。
由于算力擴(kuò)張帶來的AI基礎(chǔ)設(shè)施增長(zhǎng)仍在持續(xù)放大,有消息稱,根據(jù)去年市場(chǎng)H100卡總需求43萬張,預(yù)計(jì)英偉達(dá)2024年將H100出貨量至少增加兩倍。而全球GPU產(chǎn)能大概約400萬片,至2025年將提高到600多萬片,每年復(fù)合增速不低于30%,再往后算,預(yù)計(jì)能源短缺很快將至,從而引發(fā)產(chǎn)能瓶頸,整個(gè)AI領(lǐng)域和相關(guān)市場(chǎng)亦將回歸“冷靜”。
算力能耗的解藥又在何處?
解決問題的首要方案是優(yōu)化大模型,這不僅是行業(yè)各方的可行選擇,也是力所能及的實(shí)施策略。一種是通過模型的縮減來避免浪費(fèi),譬如并非所有公司都需要GPT-4大模型,而從頭訓(xùn)練一個(gè)GPT-3.5應(yīng)該用不到太多H100算力卡;再比如,用達(dá)成Sora不到十分之一的算力資源來訓(xùn)練一個(gè)能夠契合60%相關(guān)場(chǎng)景的更有效模型。這要求簡(jiǎn)化模型復(fù)雜度,減少不必要的層和結(jié)構(gòu),或者通過參數(shù)共享減少模型的總參數(shù)量。同時(shí),可以選擇使用更高效的神經(jīng)網(wǎng)絡(luò)架構(gòu),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)代替全連接神經(jīng)網(wǎng)絡(luò)(FCN),以降低訓(xùn)練時(shí)的計(jì)算量。
另一方面,由于算力瓶頸的存在,在傳統(tǒng)摩爾定律難以為繼的背景下找到全新范式。學(xué)習(xí)率是優(yōu)化算法中的關(guān)鍵超參數(shù),調(diào)整學(xué)習(xí)率可以加速模型的收斂過程。同時(shí)使用正則化方法可以防止模型過擬合,提高泛化能力,也有助于減少計(jì)算量。在大模型中,由于參數(shù)量級(jí)龐大,梯度下降法的計(jì)算可能變得復(fù)雜。因此,需要適當(dāng)選擇諸如隨機(jī)梯度下降和批量梯度下降等,根據(jù)具體情況進(jìn)行調(diào)整。此外,模型壓縮、數(shù)據(jù)預(yù)處理和增強(qiáng)、高效數(shù)據(jù)加載和預(yù)處理等都是通過算法優(yōu)化來降低功耗的有效手段。
硬件方面的努力反映了另一種觀點(diǎn),那就是相信摩爾定律還在以新的方式繼續(xù)。比如英偉達(dá)的黃仁勛在提數(shù)據(jù)中心的摩爾定律,把整個(gè)數(shù)據(jù)中心變成一個(gè)超級(jí)芯片,這使得現(xiàn)代人工智能超級(jí)計(jì)算機(jī)成為可能。最后效率是不是更高,芯片的能耗是不是更優(yōu),都還有待驗(yàn)證。針對(duì)特定的人工智能場(chǎng)景任務(wù),也可使用硬件加速器,如FPGA或ASIC來替代傳統(tǒng)GPU執(zhí)行計(jì)算。這些加速器專為特定任務(wù)設(shè)計(jì),通常具有更高的能效比。
此外,優(yōu)化電源管理方案、改進(jìn)電路設(shè)計(jì)都是很好的節(jié)能思路。新型電源管理技術(shù),如功耗管理單元(PMU)和智能電源管理芯片,能夠根據(jù)實(shí)際需求動(dòng)態(tài)調(diào)整電源供電策略。這種動(dòng)態(tài)調(diào)整可以確保設(shè)備在不同負(fù)載情況下都能實(shí)現(xiàn)最佳的能耗效率。電路設(shè)計(jì)上,減少功耗消耗點(diǎn)、降低開關(guān)頻率、優(yōu)化排布等方式也能顯著減少設(shè)備在運(yùn)行時(shí)的電路能耗。
人工智能帶來的能源問題不僅限于電力消耗,還涉及大量的水資源消耗和碳排放。國(guó)際能源署的數(shù)據(jù)顯示,全球數(shù)據(jù)中心的電力消耗大約占全球總用電量的1%至1.5%,除此之外還伴隨著巨大的碳排放和數(shù)百萬加侖淡水的消耗。
盡管我們不愿接受,但人工智能正逐漸成為能源密集型行業(yè),這一事實(shí)引起了人們的廣泛關(guān)注。為了避免能源危機(jī)和環(huán)境問題成為AI發(fā)展的必然結(jié)果,業(yè)界必須采取積極的措施,未雨綢繆才能贏得未來的雙贏局面。