■ 文/上海海思技術(shù)有限公司 裴朝科 周海林 Guo Dong 楊紅明
關(guān)鍵字:人工智能芯片 ASIC 安防監(jiān)控 人工智能 端側(cè)SoC AI加速 高性能 低功耗 低比特卷積神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí)
我國(guó)的安防產(chǎn)業(yè)興起于20世紀(jì)80年代,產(chǎn)品技術(shù)上以實(shí)體防護(hù)為主,主要覆蓋文博等特殊單位,在此基礎(chǔ)上形成了初步的產(chǎn)品形態(tài)。經(jīng)過(guò)了上世紀(jì)90年代至本世紀(jì)初的發(fā)展,其應(yīng)用范圍越來(lái)越廣、產(chǎn)品品類逐漸豐富,深入到金融、公安、交通、樓宇等周邊產(chǎn)業(yè)。本土安防企業(yè)也迅速發(fā)展,初步形成了“珠三角”“長(zhǎng)三角”“京津地區(qū)”三大產(chǎn)業(yè)集群。
隨后,市場(chǎng)規(guī)模逐步擴(kuò)大,公安部提出“平安城市工程”的概念,各地城市開(kāi)始建設(shè)監(jiān)控預(yù)警系統(tǒng)。安防監(jiān)控產(chǎn)業(yè)在技術(shù)層面逐步出現(xiàn)了數(shù)字化、高清化、網(wǎng)絡(luò)化等變革,在應(yīng)用層面開(kāi)始向社會(huì)化安防產(chǎn)品、民用市場(chǎng)深耕。2010年以來(lái),國(guó)內(nèi)安防企業(yè)逐步向解決方案、行業(yè)化、平臺(tái)化發(fā)展,平安城市得到大力發(fā)展?!把┝凉こ獭钡陌l(fā)布,把安防從城市推向農(nóng)村,通過(guò)天網(wǎng)監(jiān)控與民用攝像頭、監(jiān)控器、報(bào)警器等相結(jié)合,安防監(jiān)控的產(chǎn)品普及到了更廣闊的“群眾性治安防護(hù)工程”,視頻監(jiān)控行業(yè)進(jìn)入了快速發(fā)展期。在此期間,國(guó)產(chǎn)的核心芯片逐步取代了進(jìn)口芯片,國(guó)內(nèi)視頻監(jiān)控產(chǎn)品生產(chǎn)企業(yè)不斷發(fā)展壯大。
近年來(lái),以機(jī)器視覺(jué)為代表的人工智能技術(shù)席卷全球,而安防產(chǎn)業(yè)由于其天然的屬性與人工智能高度匹配,在政策和技術(shù)的雙輪驅(qū)動(dòng)下成為AI落地的重要場(chǎng)景。一方面,安防亟需智能化技術(shù)。安防監(jiān)控領(lǐng)域的數(shù)據(jù)量持續(xù)增長(zhǎng),每天就可達(dá)到上千PB級(jí)別,人工分析變得越來(lái)越困難,其效率和準(zhǔn)確度都無(wú)法滿足要求。需要引入智能技術(shù)作為“專家力量”,事前風(fēng)險(xiǎn)預(yù)警、異常情況探測(cè)、事后檢索分析。另一方面,國(guó)內(nèi)諸多業(yè)內(nèi)明星創(chuàng)業(yè)公司紛紛聚焦到安防和泛安防領(lǐng)域,安防產(chǎn)業(yè)各場(chǎng)景下累計(jì)的龐大數(shù)據(jù)量,恰恰為當(dāng)前以深度學(xué)習(xí)為主要代表的AI技術(shù)提供了用武之地。深度學(xué)習(xí)在訓(xùn)練階段包含了足夠多場(chǎng)景的海量數(shù)據(jù),其算法在實(shí)際應(yīng)用環(huán)境下更具備普適性。
整個(gè)安防監(jiān)控系統(tǒng)中,各類芯片也都扮演著核心角色。芯片在很大程度上左右著安防系統(tǒng)的整體功能、技術(shù)指標(biāo)、穩(wěn)定性、能耗、成本等,并在安防行業(yè)未來(lái)發(fā)展脈絡(luò)上起到關(guān)鍵作用。人工智能技術(shù)在安防上得以快速發(fā)展,無(wú)論是算法的實(shí)現(xiàn)、海量數(shù)據(jù)的獲取和分析、計(jì)算能力的體現(xiàn),都離不開(kāi)物理基礎(chǔ)——芯片。
廣義上講,只要可以運(yùn)行人工智能算法的芯片都可以叫做人工智能芯片,但現(xiàn)在一般來(lái)說(shuō),AI芯片特指針對(duì)人工智能算法、特別是以CNN為基礎(chǔ)的深度學(xué)習(xí)做了特殊加速設(shè)計(jì)的芯片。這類芯片通常也會(huì)對(duì)其他類型的機(jī)器學(xué)習(xí)算法進(jìn)行了硬件加速。
按芯片的技術(shù)架構(gòu)分類,AI芯片一般包括GPU、FPGA以及專屬的ASIC芯片。傳統(tǒng)的CPU架構(gòu)上,每條指令都需要執(zhí)行存儲(chǔ)讀取、指令分析、分支跳轉(zhuǎn)等命令,其主要職責(zé)并不只是數(shù)據(jù)運(yùn)算。深度學(xué)習(xí)有海量數(shù)據(jù)處理、密集型線性運(yùn)算的需求,對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如圖像、視頻、語(yǔ)音等)進(jìn)行大規(guī)模并行處理、高內(nèi)存帶寬和低延遲操作。深度學(xué)習(xí)算法的訓(xùn)練和推理,訓(xùn)練過(guò)程為高精度(長(zhǎng)字浮點(diǎn)和定點(diǎn))、高計(jì)算量的正反向多次迭代計(jì)算;推理過(guò)程為正向計(jì)算過(guò)程,考慮到應(yīng)用場(chǎng)景的多樣性,核心指標(biāo)是能效、速度、安全和硬件成本,而計(jì)算精度可依場(chǎng)景需求而定。從上述特性上講,傳統(tǒng)CPU并不匹配,在功耗受限的情況下,僅通過(guò)提高CPU和內(nèi)存的工作頻率,無(wú)法滿足深度學(xué)習(xí)的海量數(shù)據(jù)運(yùn)算要求。
GPU(Graphics Processing Unit,圖形處理單元)做為通用性AI芯片,是面向數(shù)據(jù)吞吐的單指令多數(shù)據(jù)處理,具有數(shù)量眾多的計(jì)算單元和超長(zhǎng)流水線。其控制相對(duì)簡(jiǎn)單,通過(guò)流處理器分配任務(wù)隊(duì)列到線程網(wǎng)格中,實(shí)現(xiàn)對(duì)運(yùn)算資源和內(nèi)存帶寬的高效利用,大規(guī)模并行計(jì)算十分適于圖像處理計(jì)算。同時(shí),GPU也擁有更為強(qiáng)大的浮點(diǎn)運(yùn)算能力。因此,GPU在深度學(xué)習(xí)算法訓(xùn)練方面十分高效,是構(gòu)建通用型人工智能計(jì)算平臺(tái)的首選。GPU雖有較高的計(jì)算峰值和內(nèi)存接口帶寬,但運(yùn)算功耗遠(yuǎn)大于FPGA和ASIC,不適于端側(cè),其SIMT硬件計(jì)算架構(gòu)也無(wú)法根據(jù)應(yīng)用進(jìn)行硬件資源調(diào)整。
半定制化的FPGA(Field Programmable Gate Array,現(xiàn)場(chǎng)可編程陣列),集成了大量的基本門電路和存儲(chǔ)器,用戶可以通過(guò)燒錄配置文件靈活重組電路,利用專用電路進(jìn)行數(shù)據(jù)和任務(wù)的并行計(jì)算,可實(shí)現(xiàn)特定運(yùn)算效率的大幅提升。FPGA同時(shí)擁有硬件流水線和數(shù)據(jù)并行處理能力,適用于深度學(xué)習(xí)中的推理階段。然而,F(xiàn)PGA極細(xì)粒度計(jì)算單元的計(jì)算能力有限,計(jì)算資源占比較低,運(yùn)算速度和功耗與ASIC存在較大差距。FPGA的可重構(gòu)性為需要不斷迭代改進(jìn)深度學(xué)習(xí)算法提供了便利的硬件方案,較適于芯片需求未形成規(guī)模的應(yīng)用場(chǎng)景。
全定制化的ASIC(Application-Specific Integrated Circuit,專用集成電路),是為特定要求而定制的芯片。其開(kāi)發(fā)周期相對(duì)較長(zhǎng),一次性開(kāi)發(fā)成本高,應(yīng)用場(chǎng)景也比較專用。但在功耗、可靠性、集成度、性能、成本等方面都有突出優(yōu)勢(shì)。從智能發(fā)展的長(zhǎng)遠(yuǎn)目標(biāo)來(lái)看,深度學(xué)習(xí)的算法結(jié)構(gòu)日趨復(fù)雜,ASIC可通過(guò)專用的芯片架構(gòu)對(duì)其進(jìn)行優(yōu)化硬件加速,使性能、功耗、面積等指標(biāo)作到最優(yōu),發(fā)展前景十分廣闊。
按芯片的應(yīng)用場(chǎng)景劃分,AI芯片可以分為云端、端側(cè)協(xié)處理器和端側(cè)SoC三種。云端主要是服務(wù)器側(cè),主要用于訓(xùn)練或者大規(guī)模的推理。訓(xùn)練或大規(guī)模的推理涉及海量數(shù)據(jù)、復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型、密集的并行計(jì)算,對(duì)處理器的計(jì)算能力、精度、數(shù)據(jù)訪存、可擴(kuò)展性的要求都非常高。端側(cè)協(xié)處理器,目前還主要是專用的深度學(xué)習(xí)處理引擎,專門用于推理。運(yùn)算速度、功耗、安全性和硬件成本等是最重要的考慮因素,且部分場(chǎng)景比如ADAS等對(duì)實(shí)時(shí)性的要求很高,需要支持低延時(shí)。但一般協(xié)處理器芯片,仍要搭配前端具備ISP處理能力的芯片。端側(cè)的SoC則在整合了上述推理的功能之外,作為系統(tǒng)的主控整合了相關(guān)所有的技術(shù)。在具體領(lǐng)域如安防場(chǎng)景,需要融合ISP和編解碼的高集成度方案,這種高度集成的方案無(wú)論從低延時(shí)、低功耗、低成本方面,還是從硬件設(shè)計(jì)、軟件設(shè)計(jì)等方面,都有系統(tǒng)級(jí)的優(yōu)勢(shì)。這也是安防場(chǎng)景下典型產(chǎn)品的落地形態(tài)。
目前,新的增強(qiáng)學(xué)習(xí)(Reinforcement Learning)和在線學(xué)習(xí)(On-line Learning)技術(shù),在端側(cè)場(chǎng)景的推理任務(wù)中,也在持續(xù)學(xué)習(xí)和改進(jìn)模型。在未來(lái)的AI芯片中,無(wú)論是云端還是端側(cè),都會(huì)具備不同程度的訓(xùn)練和推理能力,將分析和學(xué)習(xí)交織在一起,不斷進(jìn)化。
從最初的神經(jīng)元模擬感知機(jī),到現(xiàn)在多達(dá)上百層的神經(jīng)網(wǎng)絡(luò),人們對(duì)人工智能的探索從未真正停歇。80年代AI的商業(yè)化熱潮已經(jīng)出現(xiàn),但由于其運(yùn)算芯片算力的限制,多數(shù)場(chǎng)景仍無(wú)法滿足需求。1989年,貝爾實(shí)驗(yàn)室的Yann LeCun團(tuán)隊(duì)創(chuàng)建了一個(gè)訓(xùn)練識(shí)別手寫郵政編碼的神經(jīng)網(wǎng)絡(luò),并在DSP上訓(xùn)練神經(jīng)網(wǎng)絡(luò),開(kāi)創(chuàng)了神經(jīng)網(wǎng)絡(luò)的時(shí)代,并隨著AI芯片的不斷發(fā)展而全面繁榮 。20世紀(jì)后,隨著GPU技術(shù)的發(fā)展,深度學(xué)習(xí)算法的訓(xùn)練運(yùn)行效率得到了大幅度的提升。人工智能技術(shù)快速成長(zhǎng),不但在國(guó)際象棋、圍棋等方面打敗人類,在對(duì)圖像的辨識(shí)能力上也超過(guò)人類的平均水平,人工智能的商業(yè)化有了廣闊的落地空間。
長(zhǎng)期以來(lái),中國(guó)在CPU、GPU、DSP、FPGA等方面一直處于追趕者的地位,而人工智能的興起,無(wú)疑在AI芯片處理器方面提供了彎道超車的機(jī)會(huì)。中國(guó)在人工智能的應(yīng)用方面有廣闊的市場(chǎng)空間,在AI芯片的發(fā)展上呈現(xiàn)出百花齊放、百家爭(zhēng)鳴的態(tài)勢(shì),也出現(xiàn)了大量的AI芯片創(chuàng)業(yè)公司。基于技術(shù)和市場(chǎng),中國(guó)在建立以AI芯片為基礎(chǔ)的人工智能生態(tài)圈將大有可為。
特別在安防監(jiān)控領(lǐng)域,在國(guó)家平安城市、智慧交通等政策的推動(dòng)下,智能正快速向安防產(chǎn)業(yè)的各個(gè)環(huán)節(jié)滲透。在前端,具備智能運(yùn)算能力的相機(jī)大大提高了分析處理的及時(shí)性、節(jié)約帶寬和成本。相機(jī)作為安防系統(tǒng)的眼睛,已經(jīng)實(shí)現(xiàn)了從“看得見(jiàn)”到“看得清”的轉(zhuǎn)變,正在經(jīng)歷到“看得懂”的提升,這也是芯片目前聚焦的技術(shù)方向。比如人臉識(shí)別應(yīng)用中,相機(jī)智能化,可以將人臉抓拍置于前端相機(jī),只需要把抓拍的結(jié)果圖片上傳到后端識(shí)別,大大節(jié)省了帶寬和中心的算力。相比于前端相機(jī),后端xVR設(shè)備更適合于大規(guī)模的AI應(yīng)用,比如多路的警界分析、人臉、結(jié)構(gòu)化信息提取。
安防智能化,AI芯片是動(dòng)力和基石,GPU、FPGA、ASIC各路芯片廠商也在積極探索更優(yōu)化的方案,PPA(performance、power、area)的優(yōu)化是共同的方向。總的來(lái)說(shuō),云側(cè)AI 芯片主要強(qiáng)調(diào)運(yùn)算能力、內(nèi)存容量、精度和帶寬,同時(shí)追求低延時(shí)和低功耗;邊緣設(shè)備中的AI 芯片則主要關(guān)注運(yùn)算能力、功耗、成本和隱私安全等問(wèn)題。
3.1.1 AI計(jì)算的特點(diǎn)
神經(jīng)網(wǎng)絡(luò)(Neural Network),尤其卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network)推動(dòng)AI技術(shù)在安防領(lǐng)域廣泛應(yīng)用,AI計(jì)算很大程度是圍繞卷積計(jì)算的效率展開(kāi)的。卷積計(jì)算的過(guò)程可圖示如下:
圖1 卷積計(jì)算過(guò)程
按照上述圖示,假如輸入數(shù)據(jù)包含Cin個(gè)map,輸出包含Cout個(gè)map,每個(gè)輸出map的分辨率為Hout*Wout,卷積核大小為Hk*Wk,則該卷積層需要的乘加次數(shù)為:
numMACs=Hout*Wout*Cin*Hk*Wk*Cout
假定Wout=Hout=100, Hk=Wk=3, Cout=Cin=256,則該層所需的MAC數(shù)為:
numMacs=100*100*256*3*3*256=5898240000
假如用CPU來(lái)算這樣的卷積層。假定CPU運(yùn)行于2GHz,且具備單周期完成一次乘加能力,最理想情況下(不考慮總線延遲)運(yùn)行這一層耗時(shí)也將近3秒。
因此,CNN卷積運(yùn)算依然驚人。不難發(fā)現(xiàn),卷積運(yùn)算就是大量的乘累加,而且很容易并行化,圍繞卷積運(yùn)算的各種加速器應(yīng)運(yùn)而生。
3.1.2 CPU/DSP/GPU/FPGA/ASIC應(yīng)用于AI加速的優(yōu)劣對(duì)比
CPU的特點(diǎn)是依次處理各種運(yùn)算,形如圖2。
圖2 CPU運(yùn)算
CPU支持的是一系列極小粒度的運(yùn)算,通過(guò)這些運(yùn)算的組合可以完成任意的操作,因此靈活性是最好的。但對(duì)于包含大量重復(fù)性計(jì)算的卷積運(yùn)算來(lái)說(shuō)CPU的性能太低了,能耗比也低。
DSP的出現(xiàn)在一定程度上彌補(bǔ)了CPU性能的不足。DSP廣泛采用SIMD(Single Instruction Multiple Data)架構(gòu),一條指令可以并行處理多個(gè)數(shù)據(jù),因此大幅度提升了性能。DSP的運(yùn)算規(guī)則如圖3所示。
圖3 DSP運(yùn)算
如圖3所示,1+2=2, 2+2=4, 3+3=6, 4+4=8,這四個(gè)加法是在同一個(gè)時(shí)鐘周期中并行執(zhí)行的,因此運(yùn)算性能遠(yuǎn)高于CPU。不幸的是,不是所有運(yùn)算都容易并行化,程序員必須小心地組織數(shù)據(jù)使其最大程度地向量化,這對(duì)程序員來(lái)說(shuō)是一個(gè)挑戰(zhàn)。因此DSP雖然運(yùn)算效率較高但編程難度也隨之提高。
GPU也可以支持大規(guī)模并行運(yùn)算,但其具有不同于DSP的實(shí)現(xiàn)機(jī)理。在GPU中廣泛運(yùn)用的SIMT(Single Instruction Multiple Thread)技術(shù)使GPU兼顧了性能和可編程性,因此獲得了廣泛的應(yīng)用。AI從實(shí)驗(yàn)室走向商用,GPU功不可沒(méi)。GPU可粗略理解為多CPU(標(biāo)量運(yùn)算核)的集群,多個(gè)標(biāo)量核運(yùn)行相同的指令,但處理的數(shù)據(jù)不同。若數(shù)據(jù)可并行處理GPU的運(yùn)算性能與DSP接近,若數(shù)據(jù)不可并行處理則只有部分標(biāo)量核投入運(yùn)算,其靈活性可與CPU相近。
對(duì)AI加速來(lái)說(shuō),無(wú)論DSP還是GPU,即使程序優(yōu)化到極致,其性能、能耗比也是有限的。原因在于DSP和GPU都是通用的向量運(yùn)算加速,并未充分利用CNN卷積運(yùn)算的特點(diǎn)。卷積可以通過(guò)Img2Col轉(zhuǎn)化為矩陣乘法,如下圖所示:
圖4 矩陣乘法
其中X是輸入feature通過(guò)Img2Col轉(zhuǎn)換成的數(shù)據(jù)矩陣,W是權(quán)重矩陣。矩陣乘法具有非常好的可并行性,因?yàn)閄各行可以同時(shí)與W各列進(jìn)行內(nèi)積,反之亦然。充分利用矩陣乘法的特點(diǎn)可以構(gòu)建效率極高的MAC陣列,從而爆發(fā)出驚人的運(yùn)算能力,運(yùn)算量和能耗比均遠(yuǎn)高于GPU或DSP。
從運(yùn)算量看,通常整網(wǎng)運(yùn)算量的九成以上都是卷積,利用效率極高的矩陣乘法加速電路可以使AI運(yùn)算能力和能效比實(shí)現(xiàn)跨越式提升。因此AI加速中最重要的卷積運(yùn)算還是需要專業(yè)選手,DSP或GPU只是過(guò)渡方案。
但神經(jīng)網(wǎng)絡(luò)除了卷積之外其它很多種類型的運(yùn)算,矩陣乘法加速單元解決了最重要的性能問(wèn)題,但很難加速其它類型的運(yùn)算。因此,AI加速器除了矩陣乘法加速單元還需要其他類型的處理部件,通過(guò)異構(gòu)架構(gòu)讓標(biāo)量運(yùn)算、矢量運(yùn)算、矩陣運(yùn)算各得其所,同時(shí)具備高性能和高兼容性。
AI加速器作為面向AI運(yùn)算的特種處理器最好是ASIC專用芯片,因?yàn)锳SIC在性能、功耗、成本維度均具有無(wú)可比擬的優(yōu)勢(shì)。然而設(shè)計(jì)和生產(chǎn)專用芯片的投入很高,開(kāi)發(fā)周期也長(zhǎng),在某些特殊應(yīng)用中用FPGA承載專用電路也是一種選項(xiàng)。FPGA的好處是可以通過(guò)編程動(dòng)態(tài)實(shí)現(xiàn)各種電路,無(wú)需專用芯片的生產(chǎn)過(guò)程,對(duì)設(shè)計(jì)錯(cuò)誤的容忍度也高,因此可以極大降低開(kāi)發(fā)周期和開(kāi)發(fā)成本。FPGA的問(wèn)題是電路的規(guī)模通常嚴(yán)重受限,運(yùn)行頻率低、功耗高,而且成本也很高。因此極少有人用FPGA實(shí)現(xiàn)通用的AI加速處理器,而是針對(duì)特定場(chǎng)景、特定網(wǎng)絡(luò)設(shè)計(jì)特定的加速電路,是與應(yīng)用高度貼近的定制化方案。
總之,針對(duì)AI加速而言,各種處理電路具有不同的特點(diǎn),在靈活性、性能、成本、功耗各維度表現(xiàn)均不相同。
圖5 AI加速處理電路特點(diǎn)圖
3.2.1 高性能、低功耗
高性能與低功耗是AI應(yīng)用的核心訴求,為了實(shí)現(xiàn)高性能低功耗的目標(biāo),ASIC智能芯片通常需要借助于多種關(guān)鍵技術(shù)。下表列出了芯片層面常見(jiàn)的關(guān)鍵技術(shù)。
表1 芯片層面的關(guān)鍵技術(shù)
低比特量化是在ASIC智能芯片中廣泛采用的技術(shù),目前絕大多數(shù)隱藏層的運(yùn)算精度可以降到int8及以下,相比f(wàn)p32在性能和能耗比維度均有數(shù)倍的提升,收益巨大。然而低比特量化不免帶來(lái)精度損失,解決精度問(wèn)題最有效的方法是量化重訓(xùn)練,在訓(xùn)練環(huán)節(jié)加上量化,可使網(wǎng)絡(luò)模型對(duì)低比特量化具有良好的適應(yīng)性,在絕大多數(shù)場(chǎng)合可將精度損失控制在極小的范圍內(nèi)。
稀疏運(yùn)算是另一種廣受關(guān)注的技術(shù)。通常在神經(jīng)網(wǎng)絡(luò)中并非每個(gè)神經(jīng)元都對(duì)與其連接的所有神經(jīng)元敏感,因此可能出現(xiàn)相當(dāng)數(shù)量的神經(jīng)元連接是無(wú)效的,在神經(jīng)網(wǎng)絡(luò)中體現(xiàn)為對(duì)應(yīng)的權(quán)值為0,省掉權(quán)值為0的連接運(yùn)算即為稀疏運(yùn)算的初衷。然而,權(quán)值為0的比例與網(wǎng)絡(luò)規(guī)模和訓(xùn)練集都有關(guān)系,通常神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)者會(huì)針對(duì)特定應(yīng)用設(shè)計(jì)規(guī)模恰當(dāng)?shù)木W(wǎng)絡(luò),已經(jīng)小型化的網(wǎng)絡(luò)稀疏率通常不會(huì)很高。另一方面,稀疏率不等效于性能收益率,這是因?yàn)橄∈柽\(yùn)算時(shí)左陣(數(shù)據(jù)矩陣,即輸入feature經(jīng)Img2Col形成的矩陣)的一行不能廣播到右陣各列,必須根據(jù)右陣每一列的稀疏特征(即權(quán)重為0的位置)重新組合數(shù)據(jù),這樣一來(lái)卷積不再是矩陣乘矩陣,而是多個(gè)矩陣乘向量的組合。卷積加速之所以具有超高性能和能效比,正是利用了矩陣乘矩陣的數(shù)學(xué)特征,一旦這個(gè)特征不復(fù)存在卷積加速的效能也就大打折扣。因此,稀疏運(yùn)算在AI加速中的實(shí)際效果往往不如預(yù)期。
快速卷積算法的原理是先將參與卷積的feature和weight均進(jìn)行空間變換,從而將卷積轉(zhuǎn)換為乘積,達(dá)到減少乘法次數(shù)的目的。以3x3卷積為例,輸出2x2個(gè)點(diǎn)需要執(zhí)行的乘法次數(shù)為3x3*2*2=36,但在轉(zhuǎn)換域所需的乘法次數(shù)僅為4x4=16次,因此單就乘法次數(shù)來(lái)說(shuō)運(yùn)算性能提升了36/16=2.25倍。但是快速算法也有問(wèn)題,首先,變換與反變換矩陣是高度定制化的,普適性受限,因此通常智能芯片只設(shè)計(jì)最常見(jiàn)的3x3且stride=1的快速卷積;其次,雖然快速卷積算法減少了乘法次數(shù)但引入了額外的變換與反變換運(yùn)算,這需要額外的成本與功耗開(kāi)銷;再次,變換和反變換通常也會(huì)引起一定的精度偏差。
3.2.2 易用
AI應(yīng)用百花齊放,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)也千差萬(wàn)別,而且AI從來(lái)不是一顆芯片、一個(gè)設(shè)備獨(dú)自戰(zhàn)斗,通常是端、邊、云成體系部署。智能芯片平臺(tái)不僅應(yīng)有強(qiáng)大的運(yùn)算能力,還應(yīng)有成熟、系統(tǒng)的配套軟件方案。
軟件包括工具鏈和軟件棧。工具鏈要能支持用戶從模型移植到調(diào)優(yōu)的整套工作流,使用戶能以高效的方式完成算法移植與調(diào)優(yōu);軟件棧執(zhí)行模型的加載、運(yùn)行,使用戶可以輕松將其模型部署于AI智能芯片。成熟易用的軟件系統(tǒng)是AI智能芯片從實(shí)驗(yàn)室走向量產(chǎn)商用的關(guān)鍵要素。
在安防產(chǎn)業(yè)中,智能視覺(jué)分析技術(shù)可提高監(jiān)控區(qū)域的實(shí)時(shí)安全防范能力,有效地協(xié)助安全人員處理安防危機(jī)。通過(guò)在監(jiān)控場(chǎng)景中預(yù)設(shè)目標(biāo)和安全規(guī)則,可實(shí)時(shí)進(jìn)行目標(biāo)檢測(cè)和識(shí)別。在目標(biāo)觸犯安全規(guī)則時(shí),實(shí)時(shí)發(fā)出報(bào)警并提供相關(guān)信息。智能視覺(jué)分析技術(shù)已廣泛地應(yīng)用在公安、司法、交通、教育、金融等主流行業(yè)的安全防范,包括交通場(chǎng)景(十字路口、高速公路、停車場(chǎng)、飛機(jī)場(chǎng))、公共場(chǎng)所(廣場(chǎng)、車站、小區(qū)等)和重要場(chǎng)所(國(guó)家重要部門、基地、銀行等)。此外,民用安防市場(chǎng)也正在崛起,智能視覺(jué)分析技術(shù)需求強(qiáng)勁。在生物認(rèn)證方面,通過(guò)人臉?biāo)阉鳌⒑诿麊尾挤?、陌生人識(shí)別等多項(xiàng)智能分析功能,可大幅提高視頻監(jiān)控的防范功效。
端側(cè)智能具備較強(qiáng)的實(shí)時(shí)性,可以把安防產(chǎn)業(yè)傳統(tǒng)的事后分析轉(zhuǎn)變成事中預(yù)警,真正起到防護(hù)的作用。云側(cè)具備較強(qiáng)的智能計(jì)算能力,可以完成大計(jì)算量,如千萬(wàn)級(jí)底庫(kù)的人臉識(shí)別任務(wù)。邊緣側(cè)位于端側(cè)和云側(cè)之間,具備兩者的優(yōu)勢(shì)從而有較好的靈活性。“端云結(jié)合”“端邊云”方案憑借實(shí)時(shí)性強(qiáng)、低延時(shí)和傳輸成本、高安全和隱私性,正在取代“云端分析”,成為安防產(chǎn)業(yè)中智能視覺(jué)分析的主流技術(shù)方案,如圖6所示。安防產(chǎn)品中,預(yù)計(jì)將有超過(guò)50%的視頻數(shù)據(jù)需要在端側(cè)進(jìn)行分析、處理和存儲(chǔ)。
圖6 端側(cè)分析處理圖
芯片行業(yè)是一個(gè)成熟行業(yè),傳統(tǒng)芯片設(shè)計(jì)和晶圓的制造封測(cè)都有較高的技術(shù)壁壘。但AI芯片行業(yè)仍在培育階段,各種形態(tài)、各路玩家百花齊放,整體趨勢(shì)有以下特點(diǎn):
(1)AI專用芯片,特別是ASIC能滿足各種場(chǎng)景商業(yè)化的需求,在智能上呈現(xiàn)出取代傳統(tǒng)CPU和GPU的趨勢(shì);
(2)安防產(chǎn)業(yè)AI芯片的需求正處于多樣化和快速增長(zhǎng)的階段,出現(xiàn)了智能相機(jī)、前端協(xié)處理器、后端服務(wù)器等各種形態(tài),安防全面的智能化大勢(shì)所趨;
(3)AI芯片是新的技術(shù)領(lǐng)域,導(dǎo)致眾多市場(chǎng)派和學(xué)院派企業(yè)紛紛下場(chǎng)競(jìng)爭(zhēng),但大多數(shù)仍處于商業(yè)化運(yùn)營(yíng)和布局,傳統(tǒng)安防企業(yè)在整合了AI技術(shù)之后,行業(yè)地位更加難以撼動(dòng)。專門的AI芯片企業(yè)會(huì)轉(zhuǎn)向集成商的角色,而AI算法企業(yè)在向下向垂直行業(yè)的深耕同時(shí)也向上游整合。因此,在安防領(lǐng)域,AI芯片企業(yè)和AI產(chǎn)業(yè)企業(yè)將驅(qū)動(dòng)產(chǎn)業(yè)鏈雙向整合,推動(dòng)智能向行業(yè)內(nèi)部深入滲透。
安防的智能化趨勢(shì)已經(jīng)勢(shì)不可擋,讓我們一起來(lái)迎接即將到來(lái)的“無(wú)AI,不安防”的智能時(shí)代。