国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能性能評測基準(zhǔn)現(xiàn)狀與發(fā)展趨勢分析★

2022-11-17 08:14:58黃林軼陳明敏彭琦黃璇童國煒
關(guān)鍵詞:評測基準(zhǔn)性能

黃林軼,陳明敏,彭琦,黃璇,童國煒

(1.工業(yè)和信息化部電子第五研究所,廣東 廣州 511370;2.智能產(chǎn)品質(zhì)量評價(jià)與可靠性保障技術(shù)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 511370)

0 引言

近年來,人工智能(AI:Artificial Intelligence)技術(shù)在工業(yè)界、學(xué)術(shù)界均得到了飛速發(fā)展,與諸多領(lǐng)域的融合創(chuàng)新應(yīng)用場景層出不窮,如智能無人機(jī)、智能汽車。AI現(xiàn)已被證明是一種可成功地用于多種任務(wù)的機(jī)器學(xué)習(xí)方法,各種算法、軟件和硬件廠商均推出了各自支持AI訓(xùn)練推理的產(chǎn)品[1-3]。但是,由于各個(gè)廠商為了推廣產(chǎn)品,制定了很多僅符合特定產(chǎn)品的評測基準(zhǔn);同時(shí),AI測試基準(zhǔn)互認(rèn)難、落地少,使得產(chǎn)業(yè)鏈中AI產(chǎn)品的發(fā)展受到了一定的阻礙[4]。本文為了分析現(xiàn)階段AI評測基準(zhǔn)的發(fā)展脈絡(luò),推進(jìn)行業(yè)健康發(fā)展,匯總了國內(nèi)外若干個(gè)AI評測基準(zhǔn),從評價(jià)指標(biāo)的多樣性、模型的多樣性和應(yīng)用場景的多樣性等角度進(jìn)行分析評價(jià)。

20世紀(jì)80年代,為了讓Unix服務(wù)器更好地發(fā)展,創(chuàng)建了標(biāo)準(zhǔn)性能評估組織(SPEC:Standard Performance Evaluation Corporation);為了改善關(guān)系型數(shù)據(jù)庫的性能,創(chuàng)建了事務(wù)處理性能委員會(TPPC:Transaction Processing Performance Council),這些組織在建立后制定并維護(hù)了各自社區(qū)的基準(zhǔn),引導(dǎo)了技術(shù)發(fā)展的趨勢。受其啟發(fā),眾多科研機(jī)構(gòu)、高校及企業(yè)也紛紛地推出了具有各自特色的AI評測基準(zhǔn);同時(shí),由于市場上AI專用訓(xùn)練推理軟硬件產(chǎn)品的種類繁多,為了推進(jìn)該類產(chǎn)品發(fā)展,也有必要制定綜合性的評測基準(zhǔn)。

1 AI評測基準(zhǔn)

1.1 MLPerf

MLPerf是由來自學(xué)術(shù)界、研究實(shí)驗(yàn)室和相關(guān)行業(yè)的AI領(lǐng)導(dǎo)者組成的聯(lián)盟,旨在“構(gòu)建公平和有用的基準(zhǔn)測試”,在規(guī)定的條件下,針對硬件、軟件和服務(wù)的訓(xùn)練和推理性能提供公平的評估。目前,MLPerf項(xiàng)目[5]是接受度較高的AI評測基準(zhǔn),它依托哈佛大學(xué)的Fathom項(xiàng)目和斯坦福的DAWNBench項(xiàng)目,借鑒了前者在評測中采用多種AI任務(wù),以保證評測基準(zhǔn)具有足夠的代表性;同時(shí)借鑒了后者使用的對比評價(jià)指標(biāo),保證其公平性。

作為一套AI學(xué)習(xí)軟硬件性能通用性評測基準(zhǔn)及改善策略提供平臺,MLPerf關(guān)注的是不同的AI模型算法在面對具體任務(wù)時(shí)訓(xùn)練和推理過程中所需的時(shí)間。該基準(zhǔn)的測試集涵蓋了4個(gè)領(lǐng)域9種問題的評測基準(zhǔn),主要有圖像分類、物體識別、翻譯、語音識別、自然語言處理和推薦,以及強(qiáng)化學(xué)習(xí),具體如表1所示。

表1 MLPerf評測基準(zhǔn)任務(wù)類型表

MLPerf將評測分為訓(xùn)練評測和推理評測,同時(shí)每種評測又分為開放式和封閉式;開放式允許評測過程中的某些設(shè)計(jì)的改動,封閉式必須采用MLPerf規(guī)定的設(shè)置。目前該平臺還未收集到任何開放式評測結(jié)果的提交。在封閉式推理評測基準(zhǔn)中,MLPerf兼顧了AI算法模型在大型數(shù)據(jù)中心、邊緣系統(tǒng)、移動終端中的運(yùn)行需求,同時(shí)又定義了在線、離線、并行和串行4種運(yùn)行方式。

MLPerf在AI任務(wù)類型選擇時(shí),重點(diǎn)關(guān)注了目前應(yīng)用落地較為成熟的圖像分類、目標(biāo)檢測、語義分割、自然語言處理、推薦和強(qiáng)化學(xué)習(xí)等場景,同時(shí)在各種場景中挑選了基準(zhǔn)AI模型算法和數(shù)據(jù)集,但是僅關(guān)注了訓(xùn)練/推理時(shí)間指標(biāo)。由于MLPerf項(xiàng)目任務(wù)分類詳細(xì),而指標(biāo)簡單,眾多廠商均提交了本公司產(chǎn)品在其基準(zhǔn)上的測試結(jié)果。

1.2 NPUbench

2018年,中國科學(xué)院計(jì)算技術(shù)研究所智能計(jì)算機(jī)研究中心提出了一款用于評估神經(jīng)網(wǎng)絡(luò)處理器(NPU:Neural-network Processing Unit)性能的基準(zhǔn)套件:NPUbench[6]。該基準(zhǔn)包含8種神經(jīng)網(wǎng)絡(luò)模型、5種數(shù)據(jù)集和2種評估指標(biāo),以保證NPUbench所選擇的每個(gè)神經(jīng)網(wǎng)絡(luò)模型在網(wǎng)絡(luò)結(jié)構(gòu)方面都具有代表性、多樣性,如表2所示。

表2 NPUbench包含的模型和數(shù)據(jù)集

a)性能指標(biāo)

即每秒執(zhí)行乘加操作的數(shù)量,這一指標(biāo)主要用于度量NPU在計(jì)算性能方面的表現(xiàn)。

b)功耗指標(biāo)

即每秒每瓦執(zhí)行乘加操作的數(shù)量,這一指標(biāo)主要用于度量NPU在能耗方面的表現(xiàn)。

當(dāng)對NPU進(jìn)行測試時(shí),首先,把指定的神經(jīng)網(wǎng)絡(luò)模型部署到待測NPU上。然后,選擇模式,第一種模式是將Batch參數(shù)設(shè)置為1,從而會記錄NPU處理一個(gè)Batch數(shù)據(jù)時(shí)的性能;第二種模式是把Batch參數(shù)設(shè)置到最大,盡可能地達(dá)到待測神經(jīng)網(wǎng)絡(luò)處理器的性能極限,這一模式是用來記錄NPU的最大吞吐性能。最后,記錄NPU的性能表現(xiàn)。

根據(jù)該評測基準(zhǔn)在蘋果A10X Fusion、A11 Bionic,華為麒麟970芯片,英偉達(dá)GeForce GTX 1080等硬件上的測試結(jié)果可知,NPUbench可實(shí)現(xiàn)對特定主流NPU的訓(xùn)練和推理性能評測,采用運(yùn)算性能和功耗作為性能評價(jià)指標(biāo),但所涵蓋的任務(wù)類型較少,并且主要集中于圖像處理領(lǐng)域。

1.3 AI-Rank

2020年,中關(guān)村智用人工智能研究院發(fā)布了面向產(chǎn)業(yè)應(yīng)用的AI開源評測基準(zhǔn)AI-Rank[7],該基準(zhǔn)通過多維度擬合評測指標(biāo)評估被測系統(tǒng)的綜合性能。其具備三大特色:1)面向產(chǎn)業(yè)應(yīng)用,設(shè)定了更廣泛、更系統(tǒng)、更實(shí)用的量化評價(jià)體系;2)設(shè)定了3個(gè)評測賽道,不僅評比硬件速度,也測評面向產(chǎn)業(yè)真實(shí)應(yīng)用的軟件能力;3)支持國產(chǎn)化產(chǎn)品的評測,實(shí)現(xiàn)硬件、算法和平臺的一體化協(xié)同發(fā)展。

不同于已有的評測基準(zhǔn),它們大多集中在對訓(xùn)練時(shí)間、推理時(shí)間等幾個(gè)指標(biāo)的計(jì)量上,AI-Rank設(shè)立了多個(gè)細(xì)分賽道,開展了對純硬件性能和大規(guī)模集群計(jì)算能力的測試,對算法、硬件和生態(tài)等方面進(jìn)行全面的測評,如表3所示。

表3 評測賽道

以上每個(gè)賽道中又對AI的主要使用場景,如云端訓(xùn)練、云端推理和終端推理,進(jìn)行了覆蓋。觀察可知,軟件賽道主要評估深度學(xué)習(xí)框架和模型在同等硬件、數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)前提下的性能表現(xiàn);硬件賽道主要用于綜合評估深度學(xué)習(xí)訓(xùn)練、推理所用的硬件計(jì)算設(shè)備性能。定位方面,AI-Rank在工業(yè)需求中的框架和模型選擇角度,提供可供參考的測試性能數(shù)據(jù)。

1.4 AI-Benchemark

AI Benchmark[8]是蘇黎世聯(lián)邦理工學(xué)院基于AndroidNN技術(shù)推出的AI性能評測工具,涵蓋了SOC和手機(jī)AI性能數(shù)據(jù)。該基準(zhǔn)測試包括46項(xiàng)AI和計(jì)算機(jī)視覺測試,這些測試由智能手機(jī)上運(yùn)行的神經(jīng)網(wǎng)絡(luò)執(zhí)行。它衡量了AI性能的100多個(gè)不同方面,包括速度、精度和初始化時(shí)間等。包含了一系列全面的架構(gòu)評測,允許評估各種用于解決不同AI任務(wù)的方法的性能和限制。

測試結(jié)果分為手機(jī)、手機(jī)芯片和GPUCPU 3個(gè)版本的測試展示,分別從目標(biāo)識別(輕量級)、目標(biāo)識別(重量級)、人臉識別、光學(xué)字符識別、圖像去模糊、圖像超分辨、郊外成像仿真、語義分割、照片增強(qiáng)和文本填空,以及設(shè)備極限等角度對設(shè)備進(jìn)行評測,所選的任務(wù)類型種類多,更加貼近AI應(yīng)用場景;同時(shí)兼顧了AI模型訓(xùn)練和推理過程的定量描述。

1.5 AImark

AImark[9]是魯大師于2017年發(fā)布的手機(jī)AI性能評測工具,是手機(jī)行業(yè)內(nèi)第一個(gè)針對AI的評測工具。在評測任務(wù)設(shè)計(jì)中,考慮到主流手機(jī)介紹中把AI優(yōu)化作為產(chǎn)品宣傳的亮點(diǎn),如AI美顏、AI攝影等功能,因此制定了以圖像識別、圖像標(biāo)注為基準(zhǔn)測試任務(wù)的評測標(biāo)準(zhǔn)。采用4種神經(jīng)網(wǎng)絡(luò):ResNet34、InceptionV3、Mobilenet-SSD、DeepLabV3+,分別在兩項(xiàng)任務(wù)中進(jìn)行測試并輸出結(jié)果列表,最終通過識別速度來判斷手機(jī)AI性能,進(jìn)而給出行測試評分。

1.6 RealSafe

2020年,清華AI研究院推出了針對AI模型算法安全的檢測平臺RealSafe[10],該評測基準(zhǔn)可作為AI系統(tǒng)的“殺毒軟件”提供從評測到防御的解決方案,緩解對抗樣本攻擊的威脅程度。同時(shí),該平臺支持零編碼在線評測,部署方僅提供相應(yīng)的數(shù)據(jù)即可完成在線評估,技術(shù)難度、學(xué)習(xí)成本均得到了降低。

該平臺為了提高用戶對AI模型安全性的認(rèn)知,采用量化的形式來展現(xiàn)模型在對抗樣本攻擊下的表現(xiàn)評分;同時(shí)提供模型安全性提升服務(wù),包含針對5種去除對抗噪聲攻擊的通用性防御方案。實(shí)驗(yàn)表明,部分第三方人臉識別系統(tǒng)添加RealSafe后,安全性可提升40%以上。

1.7 AIIA DNN benchmark V0.5

2019年,AI產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布了AI端側(cè)芯片基準(zhǔn)測試評估方案V0.5[11](AIIA DNN benchmark V0.5)。方案聚焦能夠客觀地反映AI處理器或加速器的性能指標(biāo),在4個(gè)典型的應(yīng)用場景(分類、目標(biāo)識別、語義分割和超分辨)中設(shè)置了兩類評測指標(biāo)、運(yùn)行速度和算法性能(top1,top5,mAP,mIoU,PSNR);同時(shí)區(qū)分了整型和浮點(diǎn)型模型的性能對比結(jié)果。為了涵蓋更多的AI芯片,該方案采用分類、目標(biāo)檢測、圖像超分辨、圖像語義分割和人臉識別等任務(wù)分別在終端和云端進(jìn)行訓(xùn)練、推理過程的評估。相比于其他評測方案,該方案的任務(wù)類型有限,但是評測指標(biāo)較為豐富,而且考慮了整型和浮點(diǎn)型模型的對比。

1.8 DeepBench

繼PaddlePaddle之后,百度開源了一項(xiàng)深度學(xué)習(xí)評測基準(zhǔn)工具DeepBench[12]。該工具可以測量深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的基礎(chǔ)操作在不同的硬件條件下的表現(xiàn)。例如:稠密矩陣相乘運(yùn)算是AI模型中常用的運(yùn)算模塊,但是,由于不同硬件的實(shí)現(xiàn)方式存在差異,存在深度學(xué)習(xí)硬件和軟件的優(yōu)化空間。

DeepBench包括7個(gè)硬件平臺的訓(xùn)練結(jié)果,包括NVIDIA的TitanX、M40、TitanX Pascal、TitanXp、1080 Ti、P100和 英 特 爾 的Knights Landing。推 理 結(jié) 果 包 括:NVIDIA的TitanX Pascal、TitanXp和1080 Ti 3種服務(wù)平臺,以及iPhone 6和7、樹莓派3這3個(gè)移動設(shè)備。評測過程中針對稠密矩陣乘法、卷積、循環(huán)層和全局歸約等操作分別在半精度和單精度模型中進(jìn)行測試,通過計(jì)量運(yùn)行時(shí)間和GFLOPS等指標(biāo)對上述操作的性能進(jìn)行評價(jià)。

1.9 AI Matrix

2018年阿里巴巴發(fā)布了一款A(yù)I基準(zhǔn)測試平臺AI Matrix[13],可為用戶提供一個(gè)測量不同AI軟件和硬件的方法并比較它們之間的優(yōu)劣,了解各種影響AI硬件性能的因素并幫助用戶改進(jìn)硬件設(shè)計(jì)。同時(shí),緩解了開發(fā)者關(guān)注的4個(gè)問題:1)如何反映AI應(yīng)用和模型使用的真實(shí)情況;2)制定AI加速器評估和選型標(biāo)準(zhǔn);3)如何推動AI用例過程中模型算法和硬件的融合過程,提高硬件的利用率;4)指導(dǎo)AI芯片設(shè)計(jì)及優(yōu)化過程。

為了評估不同的AI軟硬件組合時(shí)的訓(xùn)練推理性能,AI Matrix設(shè)計(jì)了4類測試:底層測試、分層測試、完整測試和合成測試。其中,底層測試著重于AI硬件計(jì)算中重要的基礎(chǔ)運(yùn)算性能計(jì)算;分層測試著重于評價(jià)神經(jīng)網(wǎng)絡(luò)里面的每一層;完整測試著重于評價(jià)不同應(yīng)用領(lǐng)域的完整模型;合成測試是針對設(shè)計(jì)人員提出的一種創(chuàng)新想法,通過合成模型從統(tǒng)計(jì)的角度來模擬模型,同時(shí)提供一些靈活性以測試硬件。

2 發(fā)展特點(diǎn)分析

近些年,AI技術(shù)在計(jì)算機(jī)視覺、自然語言處理、自動駕駛和機(jī)器人等領(lǐng)域開展了諸多應(yīng)用落地案例,為了更加科學(xué)、客觀地評估AI模型在某些軟硬件組合下的性能,國內(nèi)外專家學(xué)者提出了各自具有領(lǐng)域特色的AI評測基準(zhǔn)。展望未來,本文認(rèn)為該領(lǐng)域具有以下特點(diǎn)。

a)從單純的AI算法評測向AI軟硬件聯(lián)合評測發(fā)展?,F(xiàn)階段,單純的AI算法評測不能滿足現(xiàn)階段應(yīng)用落地過程中對AI算法性能提升的需求。AI模型落地應(yīng)用過程離不開深度學(xué)習(xí)框架和高計(jì)算性能硬件的協(xié)同,在軟硬件協(xié)同測試環(huán)境下尋找最優(yōu)的組合方式是現(xiàn)階段AI評測的發(fā)展趨勢之一。

b)現(xiàn)有的應(yīng)用場景測試不完善,新增的應(yīng)用場景測試需求難以滿足。AI算法模型需要結(jié)合具體應(yīng)用場景的特點(diǎn)進(jìn)行部署,現(xiàn)存的評測基準(zhǔn)中定義的場景過于理想,未考慮實(shí)際應(yīng)用過程中出現(xiàn)的異常情況,如對抗攻擊。同時(shí),隨著深度學(xué)習(xí)落地應(yīng)用業(yè)務(wù)的開展,更多新的應(yīng)用場景急需客觀科學(xué)的方法進(jìn)行評測,在幫助開發(fā)者選擇最佳的軟硬件組合的同時(shí),指導(dǎo)生廠商對其產(chǎn)品進(jìn)行優(yōu)化升級。

c)通用性、專用性評測基準(zhǔn)共同發(fā)展,完善了AI模型算法和軟硬件的設(shè)計(jì)框架。通用型與專用型訓(xùn)練推理架構(gòu)是AI裝備領(lǐng)域的發(fā)展趨勢,領(lǐng)域內(nèi)的高校、科研院所和公司均試圖在AI通用評測基準(zhǔn)和專用評測基準(zhǔn)角度尋找自己的立足點(diǎn)。目前,專用型基準(zhǔn)更受青睞,不同領(lǐng)域的公司相繼地提出了各自的評測基準(zhǔn),在產(chǎn)品設(shè)計(jì)、制造和測試階段均發(fā)揮了指導(dǎo)作用。

d)AI測試基準(zhǔn)種類多,在實(shí)際指導(dǎo)生產(chǎn)中的作用存在提升空間。一方面,AI評測基準(zhǔn)的提出可以指導(dǎo)終端用戶選擇恰當(dāng)?shù)漠a(chǎn)品;另一方面,可以指導(dǎo)AI產(chǎn)品制造方對其產(chǎn)品進(jìn)行迭代優(yōu)化升級。但是,目前兩個(gè)方面均未起到應(yīng)有的作用。未來在AI評測基準(zhǔn)指導(dǎo)生產(chǎn)方面應(yīng)增加研究力度,提升所提基準(zhǔn)的實(shí)際價(jià)值。

3 結(jié)束語

AI評測基準(zhǔn)可有效地改善應(yīng)用過程中落地效果差的問題,同時(shí)也可以指導(dǎo)AI模型、AI產(chǎn)品在設(shè)計(jì)、制造、部署和測試過程中的工作,保障AI產(chǎn)業(yè)健康發(fā)展。本文結(jié)合國內(nèi)外AI評測基準(zhǔn)的發(fā)展現(xiàn)狀,從設(shè)計(jì)目的、特點(diǎn)、場景、指標(biāo)和涵蓋范圍等方面總結(jié)介紹了9款基準(zhǔn),并進(jìn)行了適當(dāng)?shù)姆治鲈u價(jià),最后針對該領(lǐng)域4個(gè)方面的發(fā)展趨勢進(jìn)行了詳細(xì)的分析闡述。

猜你喜歡
評測基準(zhǔn)性能
次時(shí)代主機(jī)微軟XSX全方位評測(下)
次時(shí)代主機(jī)微軟XSX全方位評測(上)
提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
攻坡新利器,TOKEN VENTOUS評測
Canyon Ultimate CF SLX 8.0 DI2評測
中國自行車(2017年1期)2017-04-16 02:54:06
明基準(zhǔn)講方法保看齊
Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
強(qiáng)韌化PBT/PC共混物的制備與性能
中國塑料(2015年4期)2015-10-14 01:09:28
滑落還是攀爬
RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
托克托县| 余江县| 双柏县| 横山县| 宝丰县| 江阴市| 永胜县| 北安市| 雅安市| 平谷区| 夏邑县| 曲靖市| 丰原市| 长治市| 昌黎县| 巴林左旗| 鄂尔多斯市| 黄浦区| 西藏| 昭通市| 宜州市| 新密市| 交口县| 开平市| 永泰县| 疏勒县| 资阳市| 敦化市| 琼海市| 正定县| 南宁市| 盐池县| 界首市| 图木舒克市| 英山县| 安西县| 丰镇市| 宝应县| 新绛县| 多伦县| 长阳|