■ 文/北京的盧深視科技有限公司 朱海濤
關(guān)鍵字:AI 芯片 神經(jīng)網(wǎng)絡(luò) 應(yīng)用
自1956年達(dá)特茅斯會(huì)議以來,關(guān)于人工智能(artificial intelligence, AI)的研究由于受到智能算法、計(jì)算速度、存儲(chǔ)水平等多方面因素的影響,經(jīng)歷了兩起兩落的發(fā)展,近年來在語音識別、計(jì)算機(jī)視覺等領(lǐng)域取得了重大突破。究其原因,業(yè)界普遍認(rèn)為有三大要素合力促成了這次突破:豐富的數(shù)據(jù)資源、深度學(xué)習(xí)算法和充足的計(jì)算力支持。豐富的數(shù)據(jù)資源取決于互聯(lián)網(wǎng)的普及和隨之產(chǎn)生的海量信息;以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)算法的精確性和魯棒性越來越好,適用于不同場景的各類算法不斷優(yōu)化完善,具備了大規(guī)模商業(yè)化應(yīng)用的潛力;而充足的算力則得益于摩爾定律的不斷演進(jìn)發(fā)展,高性能芯片大幅降低了深度學(xué)習(xí)算法所需的計(jì)算時(shí)間和成本。
雖然當(dāng)前摩爾定律逐漸放緩,但作為推動(dòng)人工智能技術(shù)不斷進(jìn)步的硬件基礎(chǔ),未來10年仍將是人工智能芯片(AI芯片)發(fā)展的重要時(shí)期,如圖1所示,到2021年,我國的人工智能芯片產(chǎn)值預(yù)計(jì)將達(dá)到52億美元。面對不斷增長的市場需求,各類專門針對人工智能應(yīng)用的新穎設(shè)計(jì)理念和架構(gòu)創(chuàng)新將不斷涌現(xiàn)。
當(dāng)前對人工智能芯片的定義并沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn)。比較通用的看法是面向 AI應(yīng)用的芯片都可以稱為AI芯片,按設(shè)計(jì)思路主要分為三大類:專用于機(jī)器學(xué)習(xí)尤其是深度神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練和推理用加速芯片;受生物腦啟發(fā)設(shè)計(jì)的類腦仿生芯片;可高效計(jì)算各類人工智能算法的通用AI芯片。
圖1 我國人工智能芯片市場規(guī)模預(yù)計(jì)(單位:億美元)
隨著智能化逐漸滲透進(jìn)入能源、交通、農(nóng)業(yè)、公共事業(yè)等更多行業(yè)的商業(yè)應(yīng)用場景中,考慮到智能化任務(wù)運(yùn)算力需求,以及傳輸帶寬、數(shù)據(jù)安全、功耗、延時(shí)等客觀條件限制,AI芯片在越來越多的場景中表現(xiàn)出廣闊的應(yīng)用前景。
下面我們將基于三個(gè)典型應(yīng)用場景對AI芯片的目前發(fā)展現(xiàn)狀進(jìn)行介紹。
在過去的數(shù)十年中,隨著基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)以及計(jì)算機(jī)處理能力的飛速發(fā)展,二維圖像中的圖像識別、檢測、分類等任務(wù)取得了前所未有的進(jìn)步。然而,我們處在一個(gè)三維的世界里,在將三維環(huán)境擠壓成二維圖像的過程中,很多有用的信息會(huì)被丟棄,從而造成信息量的丟失。而使用三維圖像則可以有效地解決這一問題。
三維圖像是一種特殊的信息表達(dá)形式,其特征表達(dá)空間中擁有三個(gè)維度的數(shù)據(jù)。和二維圖像相比,三維圖像借助第三個(gè)維度的信息,可以實(shí)現(xiàn)天然的物體——背景解耦。除此之外,對于視覺測量來說,物體的二維信息往往隨著投影方式的變化而變化,但其三維特征對不同測量方式具有更好的統(tǒng)一性。與二維圖像不同,三維圖像是對一類信息的統(tǒng)稱,信息還需要有具體的表現(xiàn)形式。其表現(xiàn)形式主要包括:深度圖(以灰度表達(dá)物體與相機(jī)的距離),幾何模型(由CAD軟件建立)和點(diǎn)云模型(所有逆向工程設(shè)備都將物體采樣成點(diǎn)云)。在這三種形式中,點(diǎn)云模型是最為常見也是最基礎(chǔ)的三維模型。圖2中展示了包、飛機(jī)、汽車、被子等常見物體的點(diǎn)云示意圖。點(diǎn)云模型往往由測量直接得到,每個(gè)點(diǎn)對應(yīng)一個(gè)測量點(diǎn),無需經(jīng)過其他處理手段,故其包含了最大的信息量。然而,這些隱藏在點(diǎn)云中的信息需要以其他手段將其提取出來,提取點(diǎn)云中信息的過程即為三維點(diǎn)云分析。
圖2 常見物體(人臉、包、飛機(jī)、汽車、杯子)點(diǎn)云示意圖
三維點(diǎn)云分析在諸多領(lǐng)域有著廣泛的應(yīng)用,例如三維人臉識別、三維人體姿態(tài)分析等。對于這些任務(wù)而言,都要涉及到點(diǎn)云數(shù)據(jù)的處理、分析和理解。隨著以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)方法的興起,大量的研究工作致力于將CNN在圖像分析上的巨大成功復(fù)制到點(diǎn)云學(xué)習(xí)領(lǐng)域。
一般來說,在點(diǎn)云上進(jìn)行卷積學(xué)習(xí)主要面臨三大挑戰(zhàn):
(1)點(diǎn)云由無序的點(diǎn)集構(gòu)成,因此卷積需要對點(diǎn)的輸入順序具有置換不變性。
(2)點(diǎn)云分布于三維幾何空間中,因此卷積應(yīng)當(dāng)對點(diǎn)云的剛體變換具有魯棒性,比如平移、旋轉(zhuǎn)等。
(3)點(diǎn)云形成一個(gè)隱含的形狀,因此卷積得到的表征應(yīng)當(dāng)具備有區(qū)分力的“形狀意識”。
為了應(yīng)對上述挑戰(zhàn),目前常用的做法是點(diǎn)云分割,即利用一個(gè)小型網(wǎng)絡(luò),對輸入點(diǎn)云進(jìn)行仿射變換,從而將其轉(zhuǎn)換為一個(gè)固定的、規(guī)范的空間,確保即使對于最細(xì)微的變化,整個(gè)網(wǎng)絡(luò)也是穩(wěn)定的。最近的一些工作則在點(diǎn)云分割的基礎(chǔ)上,從其他領(lǐng)域汲取靈感來進(jìn)一步提高性能。例如Wang 等人的論文 Dynamic Graph CNNs ,就使用基于圖形的深度學(xué)習(xí)方法來改善點(diǎn)云中的特征提取。這些方法對AI芯片提出了很多要求,例如:如何設(shè)計(jì)合理的卷積方式,使得其對于非結(jié)構(gòu)化輸入數(shù)據(jù)具有位置不變性;如何設(shè)計(jì)有判別能力的三維點(diǎn)云特征表示,對點(diǎn)云的“形狀”進(jìn)行建模等。而當(dāng)前的主流AI芯片集中于二維圖像的網(wǎng)絡(luò)處理,對三維點(diǎn)云的支持還較少。部分公司在點(diǎn)云的采集、傳輸?shù)确矫孢M(jìn)行了一些嘗試,例如以色列Vayyar公司研發(fā)的汽車?yán)走_(dá)芯片,可以實(shí)時(shí)采集車內(nèi)外人員物體的三維圖像,韓國高等科學(xué)技術(shù)研究院的Park Hyo-hoon教授團(tuán)隊(duì)則研發(fā)出一種三維圖像傳感器芯片,可采集特定方向的三維圖像數(shù)據(jù),進(jìn)行無線傳輸,從而實(shí)現(xiàn)高分辨率、高容量的圖像信息無限制通信。但是,如何針對三維點(diǎn)云數(shù)據(jù)的特點(diǎn),開發(fā)出集采集、傳輸、處理等功能為一體的AI芯片仍是當(dāng)前亟待解決的問題。
三維深度學(xué)習(xí)方法已經(jīng)從使用三維數(shù)據(jù)的派生表示轉(zhuǎn)變?yōu)槭褂迷紨?shù)據(jù)(點(diǎn)云)。在這個(gè)過程中,我們采用的方法已經(jīng)從簡單地將二維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到三維數(shù)據(jù)上轉(zhuǎn)變?yōu)閷iT為三維場景設(shè)計(jì)的方法,這大大提高了物體分類和語義分割等任務(wù)的性能。這些結(jié)果非常有前景,因?yàn)樗鼈冏C明了通過三維技術(shù)觀察和表示這個(gè)世界是有價(jià)值的。然而,這個(gè)領(lǐng)域才剛剛步入發(fā)展的快車道。當(dāng)前的工作不僅要著眼于提高這些算法的準(zhǔn)確率和性能,還要確保魯棒性和可擴(kuò)展性。盡管目前大多數(shù)研究是由無人駕駛應(yīng)用驅(qū)動(dòng)的,但直接在點(diǎn)云上運(yùn)行的新方法在諸如三維醫(yī)學(xué)影像、虛擬現(xiàn)實(shí)和室內(nèi)地圖等領(lǐng)域也將發(fā)揮重要的作用。
AIoT(人工智能物聯(lián)網(wǎng)),是AI(人工智能)與IoT(物聯(lián)網(wǎng))的合并稱謂。AIoT融合AI技術(shù)和IoT技術(shù),通過物聯(lián)網(wǎng)產(chǎn)生、收集海量的數(shù)據(jù)存儲(chǔ)于云端、邊緣端,再通過大數(shù)據(jù)分析,以及更高形式的人工智能,實(shí)現(xiàn)萬物數(shù)據(jù)化、萬物智聯(lián)化。從廣泛的定義來看,AIoT就是人工智能技術(shù)與物聯(lián)網(wǎng)在實(shí)際應(yīng)用中的落地融合。它并不是新技術(shù),而是一種新的IoT應(yīng)用形態(tài),從而與傳統(tǒng)IoT應(yīng)用區(qū)分開來。如果物聯(lián)網(wǎng)是將所有可以行使獨(dú)立功能的普通物體實(shí)現(xiàn)互聯(lián)互通,用網(wǎng)絡(luò)連接萬物,那AIoT則是在此基礎(chǔ)上賦予其更智能化的特性,做到真正意義上的萬物互聯(lián)互通。
AIoT追求的是一個(gè)智能化生態(tài)體系,除了技術(shù)上需要不斷革新,技術(shù)的落地與應(yīng)用更是現(xiàn)階段物聯(lián)網(wǎng)與人工智能領(lǐng)域亟待突破的核心問題。在消費(fèi)互聯(lián)網(wǎng)領(lǐng)域,包括自動(dòng)駕駛、城市大腦、人工智能養(yǎng)老、醫(yī)療影像、智能語音等(如圖3),AloT已從學(xué)術(shù)界走向產(chǎn)業(yè)界,并為城市建設(shè)提供越來越多的應(yīng)用場景。在產(chǎn)業(yè)級市場,AIoT作為各大傳統(tǒng)行業(yè)智能化升級的最佳通道,應(yīng)用場景遍地開花。
2.2.1 智能手機(jī)
智能手機(jī)無疑是未來很多“萬物互聯(lián)”的入口,AI、物聯(lián)網(wǎng)、移動(dòng)設(shè)備三大技術(shù)將強(qiáng)強(qiáng)聯(lián)合,成為行業(yè)新的“標(biāo)配”技術(shù)。 AIoT為智能手機(jī)賦能,將智能裝置、設(shè)備都聯(lián)接起來,打造新生態(tài)。蘋果、三星、華為等國內(nèi)外各大廠商都在推出具有不同AI功能的手機(jī)。
2.2.2 智能家居
智能家居目前仍處在初級發(fā)展階段,AIoT將把智能應(yīng)用、智能家居產(chǎn)品、硬件家族和平臺全部串聯(lián)起來,讓我們和這些物體實(shí)現(xiàn)更智慧的互動(dòng),智能家居是未來離消費(fèi)者最近的AIoT場景。
2.2.3 工業(yè)機(jī)器人
工業(yè)機(jī)器人在自動(dòng)化普及的工業(yè)時(shí)代,生產(chǎn)過程幾乎完全自動(dòng)化,機(jī)器人具備高度的適應(yīng)能力。工業(yè)互聯(lián)網(wǎng)不只是實(shí)現(xiàn)機(jī)器互聯(lián),還引入了大量的人工智能。AIoT在幫助機(jī)器人實(shí)現(xiàn)智能互聯(lián)的同時(shí),還能讓管理者任意自如的操控,尤其是在很多危險(xiǎn)性較大的工業(yè)領(lǐng)域。
2.2.4 自動(dòng)駕駛
自動(dòng)駕駛需要很多技術(shù)支持,除了數(shù)據(jù),就是人工智能,幫助車做正確的決策。車的智能解決之后,就得實(shí)現(xiàn)車輛的互聯(lián)和管控,在自動(dòng)駕駛狀態(tài)中,如何保證乘客安全,是AIoT技術(shù)正在研究的重點(diǎn)。
需要注意的是,在上述多種應(yīng)用中,場景承載硬件很多為低功耗設(shè)備,這就對AIoT的功耗提出了嚴(yán)格的要求。實(shí)際上,低功耗和高性能計(jì)算是AIoT智能硬件設(shè)計(jì)的重要要素。此外,AIoT對設(shè)備端芯片的并行計(jì)算能力和存儲(chǔ)器帶寬提出了更高的要求,盡管基于GPU的傳統(tǒng)芯片能夠在終端實(shí)現(xiàn)推理算法,但其功耗大、性價(jià)比低的弊端卻不容忽視。在AIoT的大背景下,IoT設(shè)備被賦予了AI能力,一方面在保證低功耗、低成本的同時(shí)需要完成AI運(yùn)算(邊緣計(jì)算);另一方面,IoT設(shè)備與手機(jī)不同,形態(tài)千變?nèi)f化,需求碎片化嚴(yán)重,對AI算力的需求也不盡相同,很難給出跨設(shè)備形態(tài)的通用芯片架構(gòu)。因此,只有從IoT的場景出發(fā),設(shè)計(jì)定制化的芯片架構(gòu),才能在大幅提升性能的同時(shí),降低功耗和成本,同時(shí)滿足AI算力以及跨設(shè)備形態(tài)的需求。
由于許多應(yīng)用場景都是基于三維數(shù)據(jù),因此在設(shè)計(jì)AIoT芯片的時(shí)候,往往需要考慮到三維數(shù)據(jù)的計(jì)算。而三維數(shù)據(jù)相比與二維數(shù)據(jù)而言,數(shù)據(jù)量更大,數(shù)據(jù)結(jié)構(gòu)更復(fù)雜,這對芯片架構(gòu)提出了更高的要求。目前業(yè)界已經(jīng)有多家公司推出了相應(yīng)的三維AIoT產(chǎn)品,例如日本瑞薩公司推出的e-AI解決方案,提供手勢數(shù)據(jù)的學(xué)習(xí)工具、錄制工具、AI的學(xué)習(xí)工具,可以達(dá)到很高分辨率的3D手勢識別和控制;國內(nèi)埃瓦電子公司推出了Ai3100超低功耗AIoT芯片和開放平臺,做到了即開即用。目前在人臉識別智能門鎖、車載3D刷臉開門場景,是當(dāng)前唯一達(dá)到冷啟動(dòng)時(shí)間100毫秒的人臉識別AIoT專門芯片。
盡管目前包括百度、阿里、華為、小米等公司在內(nèi)的各大廠商都對AIoT智能硬件芯片投入了大量的人力物力,由于AIoT所面臨場景,尤其是三維場景的復(fù)雜性,目前這些芯片還遠(yuǎn)遠(yuǎn)沒有達(dá)到令人滿意的地步。隨著人工智能以及芯片制造技術(shù)的進(jìn)一步發(fā)展,AIoT智能硬件芯片有望實(shí)現(xiàn)集成化、定制化、高效化的發(fā)展,從而使物聯(lián)網(wǎng)和人工智能的優(yōu)勢發(fā)揮到最大。
在深度學(xué)習(xí)領(lǐng)域,通常需要大量的訓(xùn)練數(shù)據(jù)來指導(dǎo)學(xué)習(xí)過程,而在真實(shí)場景下,往往大部分類別并沒有數(shù)據(jù)積累。所以我們希望在學(xué)習(xí)了一定類別的大量數(shù)據(jù)后,對于新的類別,我們只需要少量的樣本就能快速學(xué)習(xí)。這被稱之為小樣本學(xué)習(xí)(Few-shot Learning)。
圖3 AIoT應(yīng)用場景實(shí)例
從定義上來說,小樣本學(xué)習(xí)的訓(xùn)練集中包含了很多的類別,每個(gè)類別中有多個(gè)樣本。在訓(xùn)練階段,會(huì)在訓(xùn)練集中隨機(jī)抽取C個(gè)類別,每個(gè)類別K個(gè)樣本(總共CK個(gè)數(shù)據(jù)),構(gòu)建一個(gè)meta-task,作為模型的支撐集(support set)輸入;再從這C個(gè)類中剩余的數(shù)據(jù)中抽取一批樣本作為模型的預(yù)測對象(test set)。即要求模型從C*K個(gè)數(shù)據(jù)中學(xué)會(huì)如何區(qū)分這C個(gè)類別。訓(xùn)練過程中,每次訓(xùn)練都會(huì)采樣得到不同meta-task,所以總體來看,訓(xùn)練包含了不同的類別組合,這種機(jī)制使得模型學(xué)會(huì)不同metatask中的共性部分,比如如何提取重要特征及比較樣本相似度等,忽略與任務(wù)相關(guān)的部分。通過這種學(xué)習(xí)機(jī)制學(xué)到的模型,在面對新的未見過的 meta-task 時(shí),也能較好地進(jìn)行分類。
圖4 小樣本學(xué)習(xí)示例
圖4表示一個(gè)10分類問題,傳統(tǒng)的方法是基于左邊這些訓(xùn)練集,獲得模型,然后對右邊測試集進(jìn)行自動(dòng)標(biāo)注。而對于小樣本學(xué)習(xí)而言,我們大量擁有上方的5種數(shù)據(jù),而新問題(下方5種)只有很少的標(biāo)注數(shù)據(jù),從而給訓(xùn)練與測試帶來了很大的挑戰(zhàn)。
目前小樣本學(xué)習(xí)的解決方法主要包括:基于微調(diào)(fine-tune)的方法;基于度量(metric)的方法和基于元學(xué)習(xí)(meta learning)的方法等;而對于小樣本學(xué)習(xí)而言,其應(yīng)用的主要場景包括醫(yī)學(xué)圖像處理、安全場景監(jiān)控等。
2.3.1 醫(yī)學(xué)圖像處理
與自然場景下自然圖像獲取不同,醫(yī)學(xué)影像的獲取十分艱難。一方面,患者對于個(gè)人的就醫(yī)隱私要更為重視,醫(yī)學(xué)圖像幾乎不會(huì)上網(wǎng)和共享,此外圖像采集的“高門檻性”也制約著訓(xùn)練樣本的獲取。醫(yī)學(xué)影像采集需要專門的設(shè)備,有一些設(shè)備非常昂貴,比如CT和核磁。另一方面,大部分?jǐn)?shù)據(jù)缺乏標(biāo)注。對于自然圖像來講,其標(biāo)定相對容易,即便是普通人也能夠直接標(biāo)注。但醫(yī)學(xué)影像不同,其標(biāo)注需要行業(yè)頂尖的專業(yè)醫(yī)生參與,而現(xiàn)實(shí)中,臨床、科研任務(wù)重,做數(shù)據(jù)標(biāo)注對于醫(yī)生來說“有心無力”。
2.3.2 安全場景監(jiān)控
對于公共安全場景下的智能監(jiān)控而言,往往也存在著“小樣本”的問題。雖然大部分的場景下可以獲得大量的原始數(shù)據(jù),但是一方面由于這些數(shù)據(jù)往往很復(fù)雜,標(biāo)注起來需要耗費(fèi)大量的人力物力。另一方面這些數(shù)據(jù)很多時(shí)候存在著安全性要求,因此很難利用社會(huì)力量進(jìn)行大規(guī)模的人工標(biāo)注。此外,由于場景具有多樣性,在某個(gè)場景下訓(xùn)練好的模型在另外的場景中往往性能表現(xiàn)不佳,因此利用少量數(shù)據(jù),尋找數(shù)據(jù)間的共性部分,是很重要的研究方向。
對于目前的AI芯片而言,小樣本學(xué)習(xí)的訓(xùn)練樣本很少,因此對芯片提出了多種要求,如在較少的訓(xùn)練數(shù)據(jù)下達(dá)到較高的性能;隨時(shí)對新增樣本進(jìn)行增量訓(xùn)練,以滿足用戶更多個(gè)性化的需求;覆蓋多種應(yīng)用場景,對各個(gè)場景中的個(gè)性化數(shù)據(jù)也能準(zhǔn)確處理等。而目前主流的AI芯片廠商仍舊將其作為傳統(tǒng)的深度學(xué)習(xí)任務(wù)進(jìn)行處理,缺乏對“小樣本”的深層優(yōu)化。國內(nèi)廠商曾于2018年推出一款芯片,該芯片的最大特色是能做到小樣本訓(xùn)練達(dá)到較高識別率,并通過大量的并行計(jì)算使得訓(xùn)練的速度和識別的速度基本一致,從而實(shí)現(xiàn)圖像的快速“片上訓(xùn)練”與“片上識別”,達(dá)到片上學(xué)習(xí)和在線學(xué)習(xí)兩者并存。
隨著應(yīng)用場景的不斷豐富,小樣本學(xué)習(xí)以及相應(yīng)的芯片設(shè)計(jì)還有很多可以研究的東西。由于“片上學(xué)習(xí)”不需要聯(lián)網(wǎng),便能在芯片端實(shí)現(xiàn)本地化學(xué)習(xí),進(jìn)而讓基礎(chǔ)算法的研發(fā)迭代,產(chǎn)品的升級有著更短的周期和更高的效率。因而在未來網(wǎng)絡(luò)環(huán)境,可用數(shù)據(jù)相對嚴(yán)苛或有限的情況下,基于小樣本“片上學(xué)習(xí)”的芯片將有著廣闊的應(yīng)用前景。
底層芯片是人工智能硬件產(chǎn)業(yè)鏈最基礎(chǔ)部分,AI芯片將在人工智能各個(gè)行業(yè)領(lǐng)域得到廣泛應(yīng)用。從芯片發(fā)展的大趨勢來看,現(xiàn)在還是 AI芯片的初級階段。無論是科研還是產(chǎn)業(yè)應(yīng)用都有巨大的創(chuàng)新空間。從確定算法、應(yīng)用場景的 AI加速芯片向具備更高靈活性、適應(yīng)性的通用智能芯片發(fā)展是技術(shù)發(fā)展的必然方向。當(dāng)前已經(jīng)有一批企業(yè)在產(chǎn)品研發(fā)和市場推廣上做出了一定的成績,其中包括海外和國內(nèi)的科技巨頭和創(chuàng)業(yè)公司,如:英偉達(dá)、華為海思、寒武紀(jì)、比特大陸等,其產(chǎn)品在云端、自動(dòng)駕駛、智慧安防、移動(dòng)互聯(lián)網(wǎng)等場景中獲得了較好的應(yīng)用。應(yīng)該看到,由于發(fā)展較晚,積累不足,我國在傳統(tǒng)IT架構(gòu),系統(tǒng)軟件等領(lǐng)域國產(chǎn)化率非常低,而AI芯片作為新興的產(chǎn)業(yè)領(lǐng)域,其是否能夠?qū)崿F(xiàn)國產(chǎn)化和自主可控是我國人工智能產(chǎn)業(yè)能否實(shí)現(xiàn)彎道超車的關(guān)鍵,值得大力探索。