■ 文/深圳云天勵(lì)飛技術(shù)有限公司 王和國
關(guān)鍵字:AI ASIC ASIP CPU GPU
2017年至今,人工智能(Artificial Intelligence),英文縮寫為AI,連續(xù)三年寫進(jìn)政府工作報(bào)告,語境描述從“加快”“加強(qiáng)”變?yōu)椤吧罨保斯ぶ悄芤呀?jīng)上升為國家戰(zhàn)略,而作為支撐人工智能應(yīng)用落地的基石AI芯片,其發(fā)展就顯得尤為重要。當(dāng)前,關(guān)于 AI 芯片的定義并沒有一個(gè)嚴(yán)格和公認(rèn)的標(biāo)準(zhǔn)。比較寬泛的看法是,面向人工智能應(yīng)用的芯片都可以稱為AI芯片。
隨著人工智能的發(fā)展,世界正逐步進(jìn)入萬物互聯(lián)、萬物智能的AIoT時(shí)代,互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)預(yù)測,到2020年,物聯(lián)網(wǎng)會(huì)有500億感知設(shè)備,而50%的計(jì)算會(huì)在邊緣設(shè)備上進(jìn)行。據(jù)Gartner預(yù)估,人工智能神經(jīng)網(wǎng)絡(luò)芯片在2020年的全球市場將達(dá)到146億美元,并且每年都保持高速增長。
圖1 全球人工智能芯片市場規(guī)模(億美元)
據(jù)統(tǒng)計(jì),基于國家天網(wǎng)工程、雪亮工程的建設(shè),我國已部署了近8000萬個(gè)覆蓋全國的網(wǎng)絡(luò)高清攝像頭,基本實(shí)現(xiàn)了關(guān)鍵道路、路口、大型商場、超市、公共場所的24小時(shí)視頻監(jiān)控覆蓋,使得我國的民生安全保障邁上了一個(gè)新臺(tái)階。然而一個(gè)高清攝像頭一天產(chǎn)生20GB的視頻數(shù)據(jù),8000萬個(gè)攝像頭每天產(chǎn)生160TB的海量視頻數(shù)據(jù),通過人工方式檢索、傳統(tǒng)視覺技術(shù)排查效率低下,并且?guī)缀醪豢赡軐?shí)現(xiàn)實(shí)時(shí)有效監(jiān)控,安防監(jiān)控智能化亟待提高。同時(shí),機(jī)器人作為智能安防建設(shè)的一環(huán),起到無人值守的作用,對(duì)視覺智能有著更高的要求。近幾年,隨著人工智能深度學(xué)習(xí)檢測和識(shí)別算法的成熟,靜態(tài)、動(dòng)態(tài)人臉識(shí)別技術(shù)已經(jīng)在安防領(lǐng)域?qū)崿F(xiàn)了規(guī)模落地應(yīng)用,使得警務(wù)工作效率有了大幅提高。實(shí)際上,人工智能產(chǎn)業(yè)得以快速發(fā)展,無論是算法的實(shí)現(xiàn)、海量數(shù)據(jù)的獲取和存儲(chǔ)還是計(jì)算能力的體現(xiàn)都離不開目前唯一的物理基礎(chǔ)——芯片??梢哉f,“無芯片不 AI”。
最早開始研究AI芯片的是加州理工學(xué)院 Carver Mead,他在 20世紀(jì) 80年代開始研究神經(jīng)擬態(tài)系統(tǒng)(neuromorphic electronic systems),利用模擬電路模仿生物神經(jīng)系統(tǒng)結(jié)構(gòu)。經(jīng)過 30多年的發(fā)展,目前已經(jīng)誕生了不同特色的各類 AI 芯片,主要包括中央處理器(Central Processing Uni,CPU)、圖形處理器(Graphics Processing Unit,GPU)、現(xiàn)場可編程門陣列(Field-Programmable Gatearray,F(xiàn)PGA)、專用集成電路( Application Specific Integrated Circuit,ASIC)等。
2.1.1 CPU時(shí)代
2007年以前,人工智能研究和應(yīng)用經(jīng)歷了數(shù)次起伏,一直沒有發(fā)展成為成熟的產(chǎn)業(yè);同時(shí)受限于當(dāng)時(shí)算法、數(shù)據(jù)等因素,這一階段人工智能對(duì)于芯片并沒有特別強(qiáng)烈的需求,通用的CPU芯片即可提供足夠的計(jì)算能力。
然而隨著人工智能算法往深度學(xué)習(xí)方向的演進(jìn),傳統(tǒng)的CPU并不適用于深度學(xué)習(xí)。從內(nèi)部結(jié)構(gòu)上來看,CPU中70%晶體管都是用來構(gòu)建Cache(高速緩沖存儲(chǔ)器)和部分控制單元,負(fù)責(zé)邏輯運(yùn)算的部分(ALU模塊)并不多。控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。
這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,但對(duì)于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)的計(jì)算需求,這種結(jié)構(gòu)就顯得有心無力了。
2.1.2 GPU時(shí)代
由于高清視頻、游戲等行業(yè)的發(fā)展,GPU產(chǎn)品取得快速的突破。同時(shí)人們發(fā)現(xiàn)GPU的并行計(jì)算特性恰好適應(yīng)人工智能算法大數(shù)據(jù)并行計(jì)算的要求,如GPU比之前傳統(tǒng)的CPU在深度學(xué)習(xí)算法的運(yùn)算上可以提高9倍到72倍的效率,因此開始嘗試使用GPU進(jìn)行人工智能的計(jì)算。
GPU 作為圖像處理器,設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中需要大規(guī)模并行計(jì)算。因此,其在應(yīng)用于深度學(xué)習(xí)算法時(shí),有三個(gè)方面的局限性:
第一, 應(yīng)用過程中無法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個(gè)計(jì)算環(huán)節(jié),GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效,但在應(yīng)用時(shí)一次性只能對(duì)于一張輸入圖像進(jìn)行處理,并行度的優(yōu)勢(shì)不能完全發(fā)揮;
第二, 硬件結(jié)構(gòu)可編程性不夠。深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU無法像FPGA一樣可以靈活的配制硬件結(jié)構(gòu);
第三, 運(yùn)行深度學(xué)習(xí)算法的效率不高,雖然比CPU有很大的提升,但是功耗依舊很大。
2.1.3 FPGA時(shí)代
FPGA可以同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算,在處理特定應(yīng)用時(shí)有更加明顯的效率。對(duì)于某個(gè)特定運(yùn)算,通用CPU可能需要多個(gè)時(shí)鐘周期;而FPGA可以通過編程重組電路,直接生成專用電路,僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。
此外,由于FPGA的靈活性,很多使用通用處理器或ASIC難以實(shí)現(xiàn)的下層硬件控制操作技術(shù)利用FPGA可以很方便的實(shí)現(xiàn),從而為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。
盡管可以通過編程重構(gòu)為不同電路結(jié)構(gòu),但是重構(gòu)的時(shí)間開銷過大,編程復(fù)雜性過高,需要用戶具備專業(yè)的代碼編寫技能。同時(shí),過多的冗余邏輯導(dǎo)致其成本和功耗太高,無法適應(yīng)人工智能在嵌入式前端大規(guī)模部署的要求。
2.1.4 ASIC時(shí)代
ASIC 是一種為專用目的設(shè)計(jì)的,面向特定用戶需求的定制芯片,在大規(guī)模量產(chǎn)的情況下具備性能更強(qiáng)、體積更小、功耗更低、成本更低、可靠性更高等優(yōu)點(diǎn)。ASIC分為全定制和半定制。全定制設(shè)計(jì)需要設(shè)計(jì)者完成所有電路的設(shè)計(jì),因此需要大量人力物力,靈活性好,但開發(fā)效率低下,時(shí)間成本高昂。如果設(shè)計(jì)較為理想,全定制能夠比半定制的 ASIC 芯片運(yùn)行速度更快。半定制使用庫中標(biāo)準(zhǔn)邏輯單元,設(shè)計(jì)時(shí)可以從標(biāo)準(zhǔn)邏輯單元庫中選擇門電路、加法器、比較器、數(shù)據(jù)通路、存儲(chǔ)器甚至系統(tǒng)級(jí)模塊和 IP核,這些邏輯單元已經(jīng)布局完畢,而且設(shè)計(jì)得較為可靠,設(shè)計(jì)者可以較方便地完成系統(tǒng)設(shè)計(jì)。
近年來越來越多的公司開始采用ASIC芯片進(jìn)行深度學(xué)習(xí)算法加速,其中表現(xiàn)最為突出的是 Google 的TPU。TPU 的主要模塊包括 24 MB 的局部內(nèi)存、6 MB的累加器內(nèi)存、256×256個(gè)矩陣乘法單元、非線性神經(jīng)元計(jì)算單元,以及用于歸一化和池化的計(jì)算單元。TPU比同時(shí)期的GPU或CPU平均提速15-30倍,能效比提升 30-80倍。北京寒武紀(jì)科技有限公司、北京比特大陸科技有限公司、北京地平線信息技術(shù)有限公司、深圳云天勵(lì)飛等公司也都推出了用于深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。由于當(dāng)前基于DNN的算法還沒有統(tǒng)一的標(biāo)準(zhǔn),算法還在不斷快速演進(jìn)當(dāng)中,所以 ASIC的設(shè)計(jì)也需要保持一定的可編程性,采取軟硬件協(xié)同設(shè)計(jì)。
2.2.1 數(shù)據(jù)訪存問題
在 AI 芯片實(shí)現(xiàn)中,基于馮·諾伊曼體系結(jié)構(gòu),提供運(yùn)算能力相對(duì)是比較簡單易行的,但由于運(yùn)算部件和存儲(chǔ)部件存在速度差異,當(dāng)運(yùn)算能力達(dá)到一定程度,由于訪問存儲(chǔ)器的速度無法跟上運(yùn)算部件消耗數(shù)據(jù)的速度,再增加運(yùn)算部件也無法得到充分利用,即形成所謂的馮·諾伊曼“瓶頸”,或“內(nèi)存墻”問題,是長期困擾計(jì)算機(jī)體系結(jié)構(gòu)的難題。人工智能工作負(fù)載多是數(shù)據(jù)密集型,需要大量的存儲(chǔ)和各層次存儲(chǔ)器間的數(shù)據(jù)搬移,導(dǎo)致“內(nèi)存墻”問題更加突出。
AI芯片架構(gòu)層面解決這一問題的基本思路體現(xiàn)在兩大方面 :1)減少訪問存儲(chǔ)器的數(shù)量,比如減少神經(jīng)網(wǎng)絡(luò)的存儲(chǔ)需求(參數(shù)數(shù)量,數(shù)據(jù)精度,中間結(jié)果)、數(shù)據(jù)壓縮和以運(yùn)算換存儲(chǔ)等 ;2)降低訪問存儲(chǔ)器的代價(jià),盡量拉近存儲(chǔ)設(shè)備和運(yùn)算單元的“距離”,甚至直接在存儲(chǔ)設(shè)備中進(jìn)行運(yùn)算。主要有以下幾方面的探索研究:一是采用富內(nèi)存的處理單元,增加片上存儲(chǔ)器的容量并使其更靠近計(jì)算單元,使得數(shù)據(jù)計(jì)算單元和內(nèi)存之間的數(shù)據(jù)移動(dòng)成本(時(shí)間和功耗)大大減少;二是采用具備計(jì)算能力的新型存儲(chǔ)器。直接在存儲(chǔ)器內(nèi)部(或更近)實(shí)現(xiàn)計(jì)算。這種方法也被稱為近存儲(chǔ)計(jì)算或存內(nèi)計(jì)算,當(dāng)前已有大批創(chuàng)新公司,比如Rival Mythic、Syntiant等公司正在研究近存儲(chǔ)計(jì)算和存內(nèi)計(jì)算,解決計(jì)算帶寬問題。
2.2.2 架構(gòu)通用性問題
人工智能應(yīng)用于各行各業(yè),包括人臉識(shí)別、語音識(shí)別、自動(dòng)駕駛、神經(jīng)網(wǎng)絡(luò)翻譯等等,所使用的神經(jīng)網(wǎng)絡(luò)算法模型層出不窮,不同神經(jīng)網(wǎng)絡(luò)互連結(jié)構(gòu)、基礎(chǔ)計(jì)算部件不同,與之匹配的硬件架構(gòu)需求也不同。比如針對(duì)CNN的加速架構(gòu),在執(zhí)行LSTM模型時(shí)并行利用率可能還不到20%。由于硬件的固化性,架構(gòu)實(shí)時(shí)可重構(gòu)的空間有限,在架構(gòu)設(shè)計(jì)時(shí)就應(yīng)充分考慮通用性問題。
為解決架構(gòu)通用性問題,同時(shí)保持較高的能耗比,一種比較可行的辦法是使用ASIP(Application Specific Instruction Set Processor)的設(shè)計(jì)思路設(shè)計(jì)針對(duì)人工智能的神經(jīng)網(wǎng)絡(luò)處理器,通過指令編程的方式實(shí)現(xiàn)人臉識(shí)別等深度學(xué)習(xí)算法。ASIP是一種定制處理器的技術(shù)路線,通過開發(fā)面向深度學(xué)習(xí)的指令集,定制可編程的處理器IP,保留了很高的靈活性。在處理器上開發(fā)深度學(xué)習(xí)算法,當(dāng)算法發(fā)生變化的時(shí)候,可以通過編程重構(gòu)、重新修正函數(shù)等方式,使神經(jīng)網(wǎng)絡(luò)處理器芯片能學(xué)習(xí)、重新訓(xùn)練適應(yīng)新的算法。ASIP設(shè)計(jì)思路既能提供ASIC級(jí)別的高性能和低功耗,也能提供處理器級(jí)別的指令集靈活性。它是高效性和靈活性之間最佳的平衡點(diǎn)。
就目前安防行業(yè)人工智能技術(shù)來看,可分為生物識(shí)別、物體識(shí)別、視頻結(jié)構(gòu)化、3D結(jié)構(gòu)光、3D視覺、自然語言處理等。其中以生物識(shí)別,包括人臉識(shí)別、指紋識(shí)別、指靜脈識(shí)別、虹膜識(shí)別、聲音識(shí)別等技術(shù),經(jīng)過一系列發(fā)展與行業(yè)關(guān)注,被大家認(rèn)識(shí)較多,應(yīng)用也更多。此外還有物體識(shí)別如車牌識(shí)別、車型識(shí)別等也比較常用,以及視頻結(jié)構(gòu)化數(shù)據(jù),也是當(dāng)前安防企業(yè)研究人工智能的重點(diǎn)內(nèi)容之一。
而從應(yīng)用層面看,安防人工智能技術(shù)的應(yīng)用已經(jīng)涉及多個(gè)領(lǐng)域,從公安領(lǐng)域到交通,再到校園、樓宇、民用安防,人工智能已經(jīng)將觸手伸到越來越多的角落。
從整體上來看,公安行業(yè)是安防人工智能技術(shù)最先的落腳點(diǎn),也是當(dāng)前應(yīng)用項(xiàng)目比較多的領(lǐng)域,從圖偵、實(shí)戰(zhàn)到預(yù)判,可以滿足公安從事前、事中到事后的需求。當(dāng)然,除了為刑偵破案,預(yù)防犯罪等提供了強(qiáng)大的技術(shù)支持,對(duì)于日常的警民服務(wù)工作也提供了更多幫助,為緩解公安工作壓力,提高辦事效率帶來新的改變。
在當(dāng)前整個(gè)安防行業(yè)的生態(tài)鏈中,AI芯片覆蓋著端、邊、云三方面的應(yīng)用,利用不同的形態(tài)和組合,實(shí)現(xiàn)對(duì)于安防行業(yè)AI落地,特別是視覺AI在端、邊、云上的應(yīng)用。在前端設(shè)備中,AI芯片以模組的形式實(shí)現(xiàn)人臉的處理和視頻結(jié)構(gòu)化的處理;在邊緣端,AI芯片通過組成邊緣智能的計(jì)算子板的方式,可以實(shí)現(xiàn)多路視頻結(jié)構(gòu)化的能力,邊緣側(cè)實(shí)際就是一個(gè)區(qū)域的中心和大腦;最后,所有邊緣側(cè)的信息匯聚到云側(cè)(數(shù)據(jù)中心),在云側(cè)完成針對(duì)安防行業(yè)所開發(fā)的所有AI任務(wù)。由于前端設(shè)備對(duì)AI芯片的功耗、成本的限制,當(dāng)前端側(cè)AI芯片的性能還無法完全滿足AI計(jì)算的需求,很大一部分AI任務(wù)還需要放置于云端來完成,這樣就對(duì)數(shù)據(jù)傳輸帶寬帶來了很大的挑戰(zhàn),同時(shí)對(duì)云端存儲(chǔ)也帶來很大的需求。
為了解決當(dāng)前安防行業(yè)人工智能在云端處理所帶來數(shù)據(jù)傳輸、存儲(chǔ)等方面的問題,新型智能安防建設(shè)要求很大部分視頻智能化處理工作前置到前端攝像頭,這樣可以極大的降低百萬、千萬攝像頭對(duì)云端傳輸帶寬的需求,可以大幅降低智能安防的建設(shè)成本,同時(shí)前端攝像頭的智能化,可以保證目標(biāo)識(shí)別的低延時(shí),從而實(shí)現(xiàn)實(shí)時(shí)的犯罪預(yù)防、緊急事態(tài)預(yù)警。另外,隨著4K人臉識(shí)別攝像頭的發(fā)展,監(jiān)控?cái)z像頭已經(jīng)從1080P向4K分辨率發(fā)展,未來5年內(nèi),4K人臉識(shí)別攝像頭的市場需求量超過1000萬。這對(duì)數(shù)據(jù)傳輸、存儲(chǔ)將帶來更加嚴(yán)峻的挑戰(zhàn)。
基于這些安防行業(yè)發(fā)展趨勢(shì)以及所要解決的痛點(diǎn),我們認(rèn)為在未來安防行業(yè)端、邊、云的協(xié)同工作中,端側(cè)需要承載的人工智能任務(wù)更加復(fù)雜、多樣、繁重,以解決端/云傳輸帶寬、存儲(chǔ)所帶來的挑戰(zhàn)。我們預(yù)測,未來嵌入的安防AI芯片需要能夠支持的特性包括:人車物分類、識(shí)別、關(guān)鍵屬性檢測、文字識(shí)別、語意提取、跨鏡追蹤Re-ID、視頻上下文的動(dòng)態(tài)行為分析等神經(jīng)網(wǎng)絡(luò)算法,可以實(shí)現(xiàn)視頻流的動(dòng)態(tài)全結(jié)構(gòu)化提取。同時(shí),單機(jī)任務(wù)的動(dòng)態(tài)配置、多機(jī)任務(wù)的協(xié)同和調(diào)度會(huì)極大的促進(jìn)智能安防產(chǎn)業(yè)的升級(jí)換代。為了讓AI芯片能夠很好的支撐以上特性,我們認(rèn)為,新型安防AI芯片需滿足如下幾個(gè)特性。
3.2.1 高能效
隨著城市場景的日益復(fù)雜,對(duì)于人、車、物的分析深度和廣度要求也越來越高,提升單算法的精度,以及多細(xì)分場景下的智能算法并行已經(jīng)成為剛性需求,提升端設(shè)備人工智能芯片的算力迫在眉睫。在提升算力的同時(shí),還需要保持芯片算力和功耗的平衡,因此在設(shè)計(jì)上要引入低數(shù)據(jù)精度和近存儲(chǔ)計(jì)算方法。
3.2.2 可重構(gòu)
AI芯片需要具備按需重定義的功能,一方面可以根據(jù)不同的應(yīng)用場景按需加載不同的算法,甚至可以加載不同的算法組合來快速適配場景的應(yīng)用演進(jìn);另一方面,對(duì)于同一種算法,也需要支持算法自身的演進(jìn)以及精度的不斷迭代等要求;芯片在架構(gòu)設(shè)計(jì)上支持在線加載,減少重定義過程帶來的無法連續(xù)工作的影響。
3.2.3 生態(tài)開放
AI芯片需要能提供完整的軟件開發(fā)環(huán)境、工具鏈以及SDK,兼容業(yè)界主流的深度學(xué)習(xí)框架,打破目前“封閉智能”的現(xiàn)狀,加速芯片多場景應(yīng)用落地的開發(fā)進(jìn)度。當(dāng)然,在芯片平臺(tái)開放的同時(shí),芯片本身需要具備安全架構(gòu)設(shè)計(jì),保證算法模型、參數(shù)甚至視頻碼流的安全性。
基于以上人工智能的需求分析,展望未來,所有的終端都將具備人工智能的功能,而所有的這些人工智能的功能都將是由一系列AI芯片來承載,芯片將是人工智能大規(guī)模產(chǎn)業(yè)化過程中必將突破的一個(gè)瓶頸,比如AlphaGo1.0的系統(tǒng)曾經(jīng)用了1920顆CPU和280顆GPU,訓(xùn)練一盤比賽的電費(fèi)都要1000美元,這說明傳統(tǒng)的芯片不匹配人工智能的復(fù)雜計(jì)算,我們需要面向神經(jīng)網(wǎng)絡(luò)的高性能、低功耗的芯片,去承載這樣的復(fù)雜算法,能夠?qū)⑵渲踩氲礁黝惖慕K端中。這些芯片源于算法的定義,而這些算法是源于高質(zhì)量的、可標(biāo)注的一系列訓(xùn)練的數(shù)據(jù),而數(shù)據(jù)又是源于場景,所以最終必將是場景定義芯片,人工智能的芯片必然是一系列的專用的、面向各類應(yīng)用場景的芯片,將會(huì)嵌入到各類的終端設(shè)備中。不同場景所需的芯片對(duì)成本、功耗、安全以及性能的需求不盡相同。
未來的安防將是,通過芯片將前端的傳感器、本地結(jié)構(gòu)化信息,通過云端大數(shù)據(jù)的分析,讓感知、數(shù)據(jù)分析、人機(jī)互動(dòng)可以無處不在。最終通過前端的一系列人工智能芯片承載的這些深度學(xué)習(xí),和未來的人工智能的算法模型,通過后臺(tái)海量大數(shù)據(jù)的分析,實(shí)現(xiàn)端到云的架構(gòu)。這使得人工智能像電能一樣無處不在,而人工智能的這些芯片將如同墻上的插座。