關(guān)鍵詞:智能駕駛,人工智能芯片,測(cè)試評(píng)價(jià),計(jì)算性能,芯片選型
DOI編碼:10.3969/j.issn.1674-5698.2024.10.011
0 引言
近年來(lái),隨著我國(guó)智能汽車(chē)產(chǎn)業(yè)發(fā)展加速,智能駕駛、智能座艙系統(tǒng)的裝車(chē)率逐漸提升,計(jì)算芯片已成為支撐汽車(chē)智能化的關(guān)鍵部件。針對(duì)不同應(yīng)用場(chǎng)景、不同智能化等級(jí),如何選取與之匹配的計(jì)算芯片成為行業(yè)關(guān)注的熱點(diǎn)問(wèn)題,但現(xiàn)階段計(jì)算芯片的性能測(cè)評(píng)并未實(shí)現(xiàn)行業(yè)普遍共識(shí)。當(dāng)前尚未有研究可為行業(yè)提供標(biāo)準(zhǔn)化、公開(kāi)、客觀的汽車(chē)人工智能(Artificial Intelligence,AI)計(jì)算芯片性能測(cè)試方法。
為有效探究并解決汽車(chē)AI芯片的計(jì)算能力測(cè)試問(wèn)題,本文以應(yīng)用于智能駕駛系統(tǒng)的汽車(chē)AI芯片為主要研究對(duì)象,對(duì)AI芯片測(cè)評(píng)的研究現(xiàn)狀開(kāi)展分析,并面向智能駕駛實(shí)際應(yīng)用,提出了一套普適性較高的汽車(chē)AI芯片的計(jì)算能力測(cè)試方法。本文使用該方法對(duì)芯片產(chǎn)品進(jìn)行測(cè)試驗(yàn)證,并對(duì)不同芯片的測(cè)試結(jié)果進(jìn)行對(duì)比分析。該方法的應(yīng)用可為企業(yè)選擇智能駕駛汽車(chē)AI芯片提供性能方面的參考,解決當(dāng)前汽車(chē)AI芯片缺失計(jì)算能力測(cè)試評(píng)價(jià)方法的問(wèn)題,具有重要的研究意義和實(shí)際應(yīng)用意義。
1 智能駕駛AI芯片
1.1 AI芯片發(fā)展現(xiàn)狀
智能駕駛是AI芯片應(yīng)用的典型代表。算法、計(jì)算能力和大數(shù)據(jù)是推動(dòng)智能駕駛汽車(chē)崛起的三大要素。這三者必須平衡完美發(fā)展,智能駕駛汽車(chē)才可能取得良好的發(fā)展前景。計(jì)算能力是AI的基礎(chǔ),也是智能駕駛復(fù)雜數(shù)據(jù)處理的關(guān)鍵。近年來(lái),由于智能汽車(chē)產(chǎn)業(yè)的發(fā)展,汽車(chē)需要處理的數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長(zhǎng),傳統(tǒng)的計(jì)算架構(gòu)越來(lái)越難以支撐深度學(xué)習(xí)的海量并行計(jì)算需求。因此,AI芯片的技術(shù)研發(fā)成為研究熱門(mén)。應(yīng)用研究方面,國(guó)外巨頭如:NVIDIA、Google、IBM等國(guó)際巨頭推出新品,國(guó)內(nèi)地平線、華為、黑芝麻等企業(yè)也紛紛布局汽車(chē)AI芯片產(chǎn)業(yè),中國(guó)AI芯片技術(shù)取得了重大的發(fā)展[1]。
按照設(shè)計(jì)架構(gòu),AI芯片主要分為GPU、FPGA、ASIC,當(dāng)前市場(chǎng)上主流應(yīng)用的AI芯片是GPU。就適用范圍而言,GPU為通用型芯片,ASIC為專(zhuān)用型芯片,而FPGA是屬于兩者之間的半定制化類(lèi)芯片。綜合來(lái)看,3種AI芯片各有優(yōu)劣,GPU運(yùn)算速率快,通用性較強(qiáng),開(kāi)發(fā)難度相對(duì)較低,預(yù)計(jì)在目前及未來(lái)一段時(shí)間都將占據(jù)主流地位;ASIC的用量有限,可能難以形成規(guī)?;瘧?yīng)用;FPGA的量產(chǎn)成本高,與GPU相比開(kāi)發(fā)門(mén)檻高。因此目前ASIC與FPGA在AI芯片市場(chǎng)的占比皆不高[2]。
1.2 AI芯片算力
算力是特定場(chǎng)景下對(duì)芯片計(jì)算能力評(píng)價(jià)的重要維度。算力大小代表芯片數(shù)字化信息處理能力的強(qiáng)弱。自動(dòng)駕駛場(chǎng)景需要標(biāo)量、矢量、矩陣3者結(jié)合的異構(gòu)算力,通常可以將算力的綜合評(píng)價(jià)分為兩方面,即A I算力和C PU算力。A I算力是A I處理器在特定場(chǎng)景下提供的矢量和矩陣計(jì)算能力,也是智能駕駛領(lǐng)域熱點(diǎn)的研究方向。A I 算力常用的單位是TOPS(Tera Operations Per Second)或T FLOP S(Tera Floating-point operations persecond),1TOPS代表 AI處理器每秒可進(jìn)行一萬(wàn)億次(1012)定點(diǎn)操作,1TFLOPS 分別代表 AI 處理器每秒可進(jìn)行一萬(wàn)億次(1012)浮點(diǎn)操作。CPU算力是CPU主要提供的標(biāo)量算力。CPU算力常用的單位是 DMIPS(Dhrystone Million Instructions executedPer Second),其含義為每秒鐘執(zhí)行基準(zhǔn)測(cè)試程序Dhrystone 的次數(shù)除以1757[2]。
智能駕駛技術(shù)的發(fā)展極大地提升了其對(duì)于芯片算力增長(zhǎng)的需求。據(jù)統(tǒng)計(jì),當(dāng)前L2、L3級(jí)別自動(dòng)駕駛計(jì)算量已分別達(dá)到10TOPS和60TOPS,預(yù)計(jì)L4級(jí)別算力可能會(huì)超過(guò)100TOPS[3]。大算力的AI芯片可支撐自動(dòng)駕駛汽車(chē)海量的代碼運(yùn)算,為自動(dòng)駕駛的發(fā)展提供保障。然而,在智能駕駛汽車(chē)實(shí)際應(yīng)用場(chǎng)景下,AI芯片的最大計(jì)算能力并不能達(dá)到理論算力值,無(wú)法單純通過(guò)產(chǎn)品宣稱(chēng)的理論算力判斷不同產(chǎn)品的真實(shí)計(jì)算性能。因此,建立能夠有效地反映汽車(chē)AI芯片計(jì)算能力的測(cè)試指標(biāo),并通過(guò)實(shí)際測(cè)試體現(xiàn)計(jì)算能力,是具有重大意義的研究工作。
2 AI芯片計(jì)算能力測(cè)試研究現(xiàn)狀
2.1 測(cè)試基準(zhǔn)
A I芯片的計(jì)算性能測(cè)評(píng)通過(guò)基準(zhǔn)測(cè)試程序?qū)崿F(xiàn),當(dāng)前國(guó)內(nèi)外對(duì)于通用的AI芯片性能測(cè)試方法已有一定的研究成果和實(shí)際應(yīng)用。AI芯片的性能測(cè)試主要依靠使用基準(zhǔn)測(cè)試集,運(yùn)行所需神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行。當(dāng)前常用的AI芯片基準(zhǔn)測(cè)試集包括AI benchmark、MLPerf、AIIA DNN benchmark等。此外,眾多研究機(jī)構(gòu)開(kāi)發(fā)了面向不同維度的基準(zhǔn)測(cè)試集,如:Fathom(哈佛大學(xué))、DeepSpeech(百度)、N PU b ench(中國(guó)科學(xué)院)以及A I Per f(清華大學(xué))等,可實(shí)現(xiàn)特質(zhì)化的測(cè)試功能。A Ibenchmark[4]是瑞士蘇黎世聯(lián)邦理工學(xué)院開(kāi)發(fā)的專(zhuān)門(mén)用于評(píng)估AI芯片性能的基準(zhǔn)測(cè)試集,涵蓋了多方面的AI性能,包括計(jì)算速度測(cè)試;MLPerf[5]是用于測(cè)量和提升機(jī)器學(xué)習(xí)軟硬件性能的通用基準(zhǔn),包括各個(gè)領(lǐng)域的子項(xiàng),如:圖像分類(lèi)、識(shí)別、翻譯、語(yǔ)音識(shí)別等,測(cè)量不同神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理所需的時(shí)間和速度;AIIA DNN benchmark[6]是由中國(guó)AI產(chǎn)業(yè)發(fā)展聯(lián)盟開(kāi)發(fā)的基準(zhǔn)測(cè)試集,綜合5大維度評(píng)估AI芯片性能,并根據(jù)算力單價(jià)比和芯片利用率,反映加速卡性?xún)r(jià)比與軟硬件及存儲(chǔ)系統(tǒng)的整體能力。
2.2 測(cè)評(píng)標(biāo)準(zhǔn)
當(dāng)前,國(guó)內(nèi)已有多個(gè)AI芯片測(cè)評(píng)標(biāo)準(zhǔn)完成指定并發(fā)布。中國(guó)信息通信研究院起草的行業(yè)標(biāo)準(zhǔn)《人工智能芯片基準(zhǔn)測(cè)試評(píng)估方法》[7]于2021年8月發(fā)布,標(biāo)準(zhǔn)里規(guī)定了AI芯片計(jì)算性能基準(zhǔn)測(cè)試框架、評(píng)測(cè)指標(biāo)及評(píng)估方法,主要包括基本信息披露和技術(shù)測(cè)試;中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院起草的團(tuán)體標(biāo)準(zhǔn)《人工智能芯片 面向云側(cè)的深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》[8]《人工智能芯片 面向邊緣側(cè)的深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》[9]《人工智能芯片 面向端側(cè)的深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》[10]均于2020年10月發(fā)布,3項(xiàng)標(biāo)準(zhǔn)分別規(guī)定了對(duì)云側(cè)、邊緣側(cè)、端側(cè)深度學(xué)習(xí)芯片進(jìn)行計(jì)算性能測(cè)試的測(cè)試指標(biāo)、測(cè)試方法和要求。
2.3 存在的問(wèn)題
雖然國(guó)內(nèi)外已經(jīng)形成多項(xiàng)AI芯片計(jì)算性能測(cè)試基準(zhǔn)或測(cè)試標(biāo)準(zhǔn),但在汽車(chē)智能駕駛領(lǐng)域,這些基準(zhǔn)或標(biāo)準(zhǔn)并不能完全適用。汽車(chē)企業(yè)無(wú)法通過(guò)適用的測(cè)試方案驗(yàn)證不同產(chǎn)品的計(jì)算性能表現(xiàn)。因此,建立更加適用于智能駕駛領(lǐng)域的測(cè)試方案,形成直觀、清晰、可對(duì)比的測(cè)試結(jié)果對(duì)于AI芯片選型參考具有重要的意義。
3 測(cè)試方法論
基于上述研究基礎(chǔ)及存在的問(wèn)題,本文提出了一套測(cè)試方法論,包含測(cè)試模型選取和測(cè)試方案實(shí)施要求兩部分內(nèi)容。算法模型和AI芯片都是智能駕駛不同應(yīng)用場(chǎng)景的運(yùn)算基礎(chǔ),本文將綜合研究AI芯片搭載算法模型的計(jì)算性能表現(xiàn)。
3.1 測(cè)試模型選取
3.1.1 選取原則為保證測(cè)試的一致性并形成具有可比性的測(cè)試結(jié)果,測(cè)試模型需基于以下3方面進(jìn)行選取。
(1)測(cè)試模型
為公版、開(kāi)源模型,其來(lái)源方為行業(yè)廣泛共識(shí)且權(quán)威性較高的科學(xué)機(jī)構(gòu),獲取渠道為原始發(fā)布渠道或者具備行業(yè)普遍共識(shí)的官方渠道,以保證測(cè)試過(guò)程中使用的測(cè)試模型具備一致性,避免不同獲取渠道導(dǎo)致的模型信息差異;
(2)同一測(cè)試公版模型的版本一致,若測(cè)試模型經(jīng)過(guò)了后處理,則需要明確處理方式和目的,保證同一測(cè)試公版模型的一致性和穩(wěn)定性;
(3)模型需基于汽車(chē)計(jì)算芯片常用應(yīng)用場(chǎng)景選取,以提升測(cè)試結(jié)果的實(shí)際應(yīng)用意義。
3.1.2 選擇過(guò)程
本文選擇的模型經(jīng)面向行業(yè)廣泛調(diào)研后得出,調(diào)研對(duì)象包括整車(chē)企業(yè)、零部件企業(yè)、算法企業(yè)、芯片企業(yè)及測(cè)試機(jī)構(gòu)等29家單位。調(diào)研內(nèi)容包含汽車(chē)計(jì)算芯片常用應(yīng)用場(chǎng)景、關(guān)注的性能指標(biāo)、當(dāng)前常用的模型列表及數(shù)據(jù)集列表,主要調(diào)研結(jié)果如表1所示。根據(jù)調(diào)研結(jié)果,選取企業(yè)選擇率超過(guò)50%的模型作為測(cè)試模型候選列表。
3.2 測(cè)試方案
3.2.1性能指標(biāo)
根據(jù)智能駕駛應(yīng)用需求,分析計(jì)算芯片應(yīng)用場(chǎng)景,確定對(duì)應(yīng)的性能指標(biāo)和測(cè)試方法。經(jīng)分析,算法模型作為支撐計(jì)算芯片完成計(jì)算任務(wù)的關(guān)鍵,基于不同應(yīng)用場(chǎng)景,需適配不同的算法模型。芯片支持算法模型的數(shù)量決定計(jì)算芯片是否可適配多種任務(wù)類(lèi)型,各算法模型對(duì)應(yīng)的計(jì)算速度決定是否可以滿足大量數(shù)據(jù)的任務(wù)處理需求,這里以幀率(每秒處理的圖像數(shù)量)作為AI芯片計(jì)算能力體現(xiàn)的關(guān)鍵指標(biāo)。
3.2.2 測(cè)試方案
A I芯片的使用既需要芯片硬件性能作為基礎(chǔ),也需要軟件為芯片基于應(yīng)用場(chǎng)景的開(kāi)發(fā)提供支撐,因此本文制定了工具鏈、芯片及算法模型這種軟硬結(jié)合的測(cè)試方案。計(jì)算芯片適配算法模型需要綜合考慮工具鏈的模型轉(zhuǎn)換能力和計(jì)算芯片硬件的計(jì)算能力,因此,本測(cè)試方案將計(jì)算芯片與其配套工具鏈作為整體進(jìn)行評(píng)估,充分反應(yīng)計(jì)算芯片的軟硬件結(jié)合綜合性能。本測(cè)試方案依托算法模型,打造更貼近于實(shí)際應(yīng)用的性能指標(biāo)和測(cè)試方法,如圖1所示。
3.2.3 測(cè)試項(xiàng)目說(shuō)明
本文測(cè)試項(xiàng)目包括模型兼容性測(cè)試和幀率及時(shí)延測(cè)試。模型兼容性測(cè)試:通過(guò)芯片和工具鏈?zhǔn)欠裰С謆atch 1的公版模型轉(zhuǎn)換,判斷工具鏈的公版模型覆蓋度,即芯片產(chǎn)品對(duì)于算法模型的兼容性,記錄轉(zhuǎn)換通過(guò)和不通過(guò)的模型數(shù)量,根據(jù)通過(guò)模型數(shù)量和測(cè)試模型總數(shù)量的比值大小判斷產(chǎn)品的兼容性高低程度。
幀率及時(shí)延測(cè)試:在進(jìn)行幀率測(cè)試時(shí)根據(jù)測(cè)試要求對(duì)應(yīng)設(shè)置不同batch參數(shù),根據(jù)不同模型大小設(shè)置size參數(shù)值,生成板上可運(yùn)行的異構(gòu)模型,按照測(cè)試要求設(shè)置測(cè)試參數(shù)如:線程數(shù),優(yōu)化模式等,調(diào)用測(cè)試程序執(zhí)行測(cè)試。Batch值是一次訓(xùn)練所選取的樣本數(shù),同時(shí)可以反映芯片和工具鏈的能力,batch數(shù)值的不同會(huì)影響幀率,一般會(huì)將batch數(shù)值設(shè)置為batch1、batch2、batch4、batch8等多種參數(shù),記錄不同batch測(cè)試結(jié)果,利用batch1的幀率值取倒數(shù)計(jì)算時(shí)延,并將最佳測(cè)試結(jié)果對(duì)應(yīng)的測(cè)試設(shè)置記錄,作為該產(chǎn)品最優(yōu)性能的詳細(xì)體現(xiàn)。
4 測(cè)試結(jié)果
依據(jù)測(cè)試方案,通過(guò)摸底實(shí)驗(yàn)已經(jīng)取得國(guó)內(nèi)外多款芯片測(cè)試結(jié)果,包含國(guó)內(nèi)外的4款智能駕駛汽車(chē)AI芯片產(chǎn)品,以A、B、C、D代表,如圖2所示。
通過(guò)測(cè)試,本文也得出一些結(jié)論,首先是根據(jù)部分模型幀率測(cè)試結(jié)果可以看出,不同產(chǎn)品宣稱(chēng)算力與實(shí)際計(jì)算測(cè)試結(jié)果并無(wú)正相關(guān),如圖2中C產(chǎn)品算力與A相比差很多,但圖3中C產(chǎn)品的模型EfficientNet-lite0和MobileNetV2測(cè)試結(jié)果卻比A更好,因此可以得出,基于模型的幀率測(cè)試可以更真實(shí)地反映產(chǎn)品的計(jì)算能力;其次,根據(jù)測(cè)試結(jié)果也可以看出,不同產(chǎn)品的模型覆蓋數(shù)量即產(chǎn)品的兼容性存在差異,單一產(chǎn)品不同輸入樣本數(shù)量(batch)測(cè)試結(jié)果也存在較大差異,分別如圖4和5所示。
在測(cè)試過(guò)程中,除了對(duì)模型轉(zhuǎn)換batch參數(shù)、模型si ze等參數(shù)進(jìn)行規(guī)定設(shè)置,還通過(guò)設(shè)置不同線程、不同計(jì)算核、不同優(yōu)化模式等參數(shù)實(shí)現(xiàn)對(duì)不同產(chǎn)品的優(yōu)化測(cè)試,獲得最優(yōu)性能,如圖6所示。將最優(yōu)性能與規(guī)范測(cè)試性能對(duì)比,既可展示企業(yè)產(chǎn)品的綜合性能,又可展現(xiàn)產(chǎn)品計(jì)算能力的優(yōu)化空間水平。通過(guò)測(cè)試也得出,不同公版模型的渠道、版本等對(duì)測(cè)試結(jié)果影響較大。因此,測(cè)試的開(kāi)展應(yīng)保證輸入模型屬性的一致性,保證測(cè)試結(jié)果的對(duì)比性。
根據(jù)測(cè)試結(jié)果,我們形成了同一模型、統(tǒng)一測(cè)試條件下不同產(chǎn)品的幀率結(jié)果“天梯圖”,如圖7所示。該圖直觀呈現(xiàn)不同模型下各產(chǎn)品性能的排名情況,為汽車(chē)行業(yè)相關(guān)企業(yè)提供清晰的選型參考。
5 結(jié)論
本文基于對(duì)現(xiàn)有通用AI芯片性能測(cè)試的研究成果分析,提出了適用于智能網(wǎng)聯(lián)汽車(chē)領(lǐng)域,針對(duì)智能駕駛應(yīng)用的AI計(jì)算芯片性能測(cè)試方法。本文基于行業(yè)調(diào)研結(jié)果選取多個(gè)性能測(cè)試模型,對(duì)多款汽車(chē)AI芯片進(jìn)行測(cè)試,驗(yàn)證測(cè)試方法對(duì)不同芯片產(chǎn)品的適用性。對(duì)測(cè)試結(jié)果進(jìn)行深入分析,測(cè)試結(jié)果可提供兩方面的選型參考,(1)功能性驗(yàn)證,評(píng)估工具鏈支持公版模型的數(shù)量和轉(zhuǎn)換能力,評(píng)估產(chǎn)品的通用性能力;(2)性能驗(yàn)證,對(duì)不同產(chǎn)品的幀率測(cè)試結(jié)果進(jìn)行對(duì)比驗(yàn)證,評(píng)估產(chǎn)品的性能高低。本文提出的測(cè)試方法可用于汽車(chē)AI芯片計(jì)算性能的測(cè)試評(píng)價(jià),并可以根據(jù)應(yīng)用需求選取不同測(cè)試模型進(jìn)行測(cè)試,測(cè)試結(jié)果具有可比性和一致性,可為企業(yè)進(jìn)行芯片選型提供重要參考。在后續(xù)研究中可探索面向智能座艙應(yīng)用場(chǎng)景的常用測(cè)試模型和測(cè)試方法。