隨著我國近幾年人工智能新基建與大規(guī)模計算系統(tǒng)的逐步落地,為了使大規(guī)模人工智能計算系統(tǒng)健康持續(xù)發(fā)展,需要一個能夠有效地評價計算系統(tǒng)的人工智能算力的評價指標,而現(xiàn)有的測試方法無法滿足這一需求。
目前,已有一些大規(guī)模計算系統(tǒng)的評測程序,例如Linpack是一個目前被廣泛使用的高性能計算機雙精度浮點運算性能基準評測程序,國際超算Top500榜單依據(jù)Linpack值來進行排名。然而典型的人工智能應(yīng)用并不需要雙精度浮點數(shù)運算,大部分人工智能訓練任務(wù)以單精度浮點數(shù)或16位浮點數(shù)為主,推理以Int8為主。各大企業(yè)、高校和相關(guān)組織也相繼開發(fā)了各類人工智能算力基準評測程序,如MLPerf、Mobile AI Bench、DeepBench、AIIA DNN Benchmark,以及在雙精度的Linpack基礎(chǔ)上改成混合精度的HPL-AI等基準評測程序,但是這些程序并不適用于大規(guī)模和可變規(guī)模人工智能計算系統(tǒng)的評測。
為了填補大規(guī)模計算系統(tǒng)人工智能算力評測這一領(lǐng)域的空白,清華大學與鵬城實驗室聯(lián)合研制并開發(fā)了人工智能算力基準測試程序——AIPerf Benchmark(以下簡稱AIPerf)。AIPerf基于微軟NNI(neural network intelligence)開源框架實現(xiàn),以自動化機器學習(AutoML)為負載,使用網(wǎng)絡(luò)態(tài)射(network morphism)網(wǎng)絡(luò)結(jié)構(gòu)搜索和樹狀結(jié)構(gòu)Parzen估計(tree-structured Parzen estimator,TPE)方法超參搜索來尋找精度更高的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和(或)超參數(shù)。用戶可以通過配置文件指定AutoML的相關(guān)參數(shù),如訓練使用的批大?。╞atch size)、最大epoch數(shù)、學習率、最大搜索模型總個數(shù)、最長搜索總時間、最大同時搜索模型個數(shù)(并發(fā)數(shù))等多個參數(shù)。
AIPerf的設(shè)計達到了以下4個關(guān)鍵的設(shè)計目標。
(1)一個統(tǒng)一的分數(shù)
AIPerf能夠報告一個分數(shù),該分數(shù)可以作為被評測計算集群系統(tǒng)的評價指標。AIPerf目前的評價指標是Tops,即平均每秒處理的混合精度AI浮點操作數(shù)。使用一個而不是多個分數(shù)能方便進行不同機器的橫向比較,且方便公眾宣傳。
(2)可變的問題規(guī)模
人工智能計算集群往往有不同的系統(tǒng)規(guī)模,差異性體現(xiàn)在節(jié)點數(shù)量、加速器數(shù)量、加速器類型、內(nèi)存大小等指標上。因此,為了適應(yīng)各種規(guī)模的高性能計算集群,AIPerf能夠使用AutoML調(diào)整問題規(guī)模來適應(yīng)集群規(guī)模的變化,從而充分利用人工智能計算集群的計算資源來體現(xiàn)其算力。
(3)具有實際的人工智能意義
具有人工智能意義的計算(如神經(jīng)網(wǎng)絡(luò)運算)是人工智能基準測試程序相較于傳統(tǒng)高性能計算機基準測試程序的重要區(qū)別,也是其能夠檢測集群人工智能算力的核心所在。目前,AIPerf通過在ImageNet數(shù)據(jù)集上訓練神經(jīng)網(wǎng)絡(luò)來運行計算機視覺應(yīng)用程序;將來,計劃將自然語言處理等其他人工智能任務(wù)加入AIPerf的評測范圍。
(4)包含必要的多機通信
網(wǎng)絡(luò)通信是人工智能計算集群設(shè)計的主要指標之一,也是其龐大計算能力的重要組成部分。作為面向高性能計算集群的人工智能基準測試程序,AIPerf包括必要的多機通信(如任務(wù)的分發(fā)、結(jié)果的收集與多機訓練),從而將網(wǎng)絡(luò)通信性能作為最終性能的影響因素之一。
在第二屆中國超級算力大會(ChinaSC2020)上,基于AIPerf大規(guī)模人工智能算力基準評測程序的國際人工智能性能算力排行榜首次發(fā)布。鵬城實驗室研制的基于ARM架構(gòu)和華為加速處理器的鵬城云腦二主機以194 527 Tops的AIPerf算力榮登榜首,其性能是排名第二的聯(lián)泰集群NVIDIA系統(tǒng)性能的12倍以上。
AIPerf基準評測程序還處于積極的開發(fā)和完善階段,目前AIPerf正在應(yīng)用負載、硬件適應(yīng)性以及國際推廣等方面大力推進。AIPerf目前只支持面向計算機視覺的人工智能應(yīng)用程序。為了更好地評估大規(guī)模智能系統(tǒng)在各個典型應(yīng)用領(lǐng)域的性能,研究團隊計劃之后支持更多種網(wǎng)絡(luò)搜索與訓練算法以及評測數(shù)據(jù)集,同時支持更多類型的人工智能計算集群系統(tǒng);此外,將積極推動AIPerf在國際上的影響力,將其打造成有國際影響力和公信力的大規(guī)模人工智能系統(tǒng)基準評測程序。 □