陳怡然 陳逸中
過去數(shù)年之間,信息技術(shù)產(chǎn)業(yè)曾經(jīng)接連興起過幾大熱門領(lǐng)域,包括大數(shù)據(jù)(Bigdata)、物聯(lián)網(wǎng)(IoT)、工業(yè)4.0以及增強和虛擬現(xiàn)實(AR/VR)等。但直到以深度學習神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)的人工智能技術(shù)出現(xiàn)后,這幾大熱門領(lǐng)域才第一次被整合進人工智能這一更大的發(fā)展框架內(nèi)。
當前,人工智能技術(shù)仍舊需要海量數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,從而使得計算機能夠代替人類從事各種數(shù)據(jù)處理與判斷。飛速發(fā)展的物聯(lián)網(wǎng)技術(shù)首先提供了大量的數(shù)據(jù)來源,經(jīng)過設(shè)計和訓(xùn)練好的人工智能系統(tǒng)則提供了工業(yè)4.0最需要的智能控制系統(tǒng),也為增強和虛擬現(xiàn)實場景的落地提供了數(shù)據(jù)處理的技術(shù)手段。
芯片是人工智能系統(tǒng)最關(guān)鍵的技術(shù),中國發(fā)展人工智能芯片產(chǎn)業(yè)的突破口到底在哪?這是人們普遍關(guān)心的問題。
芯片產(chǎn)業(yè)是一門具有高集成性和高成本特性的科技產(chǎn)業(yè),進入門檻非常之高。隨著芯片制造技術(shù)進入“x納米”(個位數(shù)納米制程)時代,每個晶圓代工廠的造價動輒百億美元起,運營與折舊成本驚人。
單個芯片的設(shè)計所需要的工程師數(shù)目從幾十到數(shù)百不等,開發(fā)成本少則數(shù)千萬美元,多則上億美元,周期長達1年-2年。
過近40年的高速發(fā)展.中國以經(jīng)初步具備7一定規(guī)模的微電子人才儲備和巨大的市場.正符合發(fā)展人I智能芯片的兩項基本條件.
但是,一個成功的芯片項目所帶來的不僅僅是銷售芯片本身的利潤,還有伴隨芯片設(shè)計、制造以及銷售整套流程中產(chǎn)生的支撐產(chǎn)業(yè)與生態(tài)系統(tǒng),從而帶動軟硬件發(fā)展、行業(yè)標準制定、知識產(chǎn)權(quán)銷售、甚至相關(guān)的機械制造和化工等產(chǎn)業(yè)發(fā)展。
現(xiàn)代芯片設(shè)計,尤其是以“片上系統(tǒng)”(System-on-Chip,SoC)為主體的高端芯片,已經(jīng)可以影響乃至引領(lǐng)某一產(chǎn)業(yè)走向及其戰(zhàn)略發(fā)展,甚至遏制該產(chǎn)業(yè)的正常運行。
由于人工智能應(yīng)用的場景千變?nèi)f化,而所應(yīng)用的算法更是有相當?shù)牟町悾梢灶A(yù)期未來各項應(yīng)用將有不同的定制化芯片,出現(xiàn)人工智能芯片百家爭鳴的盛況。
人工智能芯片的另一大特點在于它所面對的是一個全新的、還未被大公司充分定義的新的業(yè)務(wù)場景。
即使是NVIDIA,也只是在云計算這一領(lǐng)域有一定的壟斷地位。因此,人工智能芯片發(fā)展有著巨大的不確定性和機會。
人工智能芯片發(fā)展很像中國另一新興芯片產(chǎn)業(yè)——比特幣礦機上的發(fā)展歷程:比特幣礦機2010年初主要用的還是以CPU為主的芯片,但是從2012年起就逐漸過渡到以圖形處理器(GPU)為主,利用其強大的向量計算能力來采礦。兩年以后的 2014年,大家開始通過算法優(yōu)化并導(dǎo)入現(xiàn)場可編程邏輯陣列(FPGA)提升效能功耗比來達到更高挖礦效益。
時至今日,絕大多數(shù)的高采礦效益的礦機均是以定制化芯片為主,如比特大陸的螞蟻礦機。
依照這一類似的發(fā)展趨勢,我們可以期待2018年將是應(yīng)用導(dǎo)向人工智能芯片開始躍進的一年。
GPU和CPU芯片設(shè)計注重通用性,但其高功耗、相對較低的單位效能以及高昂的價格并不適合于類似物聯(lián)網(wǎng)或工業(yè)4.0這樣的普及化應(yīng)用。
應(yīng)用導(dǎo)向的人工智能芯片是將抽象的神經(jīng)網(wǎng)絡(luò)算法以硬件方式加以固化來達到加速運算的效果。這樣的設(shè)計有助于提升單位芯片面積上算力的密度,降低功耗和成本,從而有助于將人工智能系統(tǒng)更普遍地運用到各個場景。
但芯片的開發(fā)一般需要高質(zhì)量的人才基礎(chǔ)并有強大市場的需求來攤薄芯片開發(fā)的高昂成本:通常一款芯片的生命周期大約為三年,而真正產(chǎn)生利潤的時間僅為12個-18個月。芯片企業(yè)要在這短短的時間內(nèi)完成利潤積累,進行下一代產(chǎn)品的成功開發(fā)與研制,進入新一輪的迭代周期。
經(jīng)過近40年的高速發(fā)展,中國已經(jīng)初步具備了一定規(guī)模的微電子人才儲備和巨大的市場,正符合發(fā)展人工智能芯片的兩項基本條件。
除此之外,中國還有一樣更為突出的優(yōu)勢:大量使用數(shù)字化設(shè)備及人口數(shù)帶來的龐大數(shù)據(jù)。在以應(yīng)用為主體的開發(fā)概念下,每一個應(yīng)用都需有各自對應(yīng)的數(shù)據(jù)集來訓(xùn)練神經(jīng)網(wǎng)絡(luò),有效數(shù)據(jù)的采集速度會是影響開發(fā)周期長短的最關(guān)鍵的因素之一。海量高質(zhì)量的訓(xùn)練數(shù)據(jù)集可以幫助工程人員快速有效地訓(xùn)練神經(jīng)網(wǎng)絡(luò),加速模型的定型,縮短人工智能芯片的設(shè)計周期。
在各國數(shù)據(jù)采集管理法規(guī)日趨收緊,尤其是歐盟最近出臺通用數(shù)據(jù)保護規(guī)范(GDPR)的大環(huán)境下,寬松的數(shù)據(jù)管理制度會讓中國在人工智能芯片產(chǎn)業(yè)上占據(jù)非常有利的位置,從而達成“彎道超車”的目標。
人工智能系統(tǒng)可以粗分為云端和終端兩大應(yīng)用。其硬件系統(tǒng)按照功能則可相應(yīng)分為訓(xùn)練機和推理機兩種。在過去較長一段時間,人工智能應(yīng)用主要在云端,包括訓(xùn)練與推理兩部分。云端系統(tǒng)的人工智能芯片能依算法與數(shù)據(jù)形態(tài)的不同來處理各式應(yīng)用。
考慮到海量數(shù)據(jù)的處理需求,數(shù)據(jù)中心高昂的建設(shè)和運營成本,以及應(yīng)用的多樣性,云端人工智能芯片通常要求具有高集成性、高效能,以及高密度算力等特點,而且需要有一定的通用性。芯片對應(yīng)各種應(yīng)用場景所需的軟件支持也是一項設(shè)計重點。
云端通用型人工智能芯片主要的開發(fā)難點在于如何針對業(yè)務(wù)所需的神經(jīng)網(wǎng)絡(luò)模型做相應(yīng)的計算體系結(jié)構(gòu)改良并同時考量通用性與應(yīng)用導(dǎo)向設(shè)計之間的取舍。
這屬于芯片開發(fā)中門檻較高的項目,而且所設(shè)計的人工智能芯片的規(guī)模通常較大,技術(shù)難度也較高。除了對應(yīng)用場景有深刻理解之外,設(shè)計者也需要有長期芯片設(shè)計與流片經(jīng)驗的累積才能夠保證拿出成熟的產(chǎn)品。
國內(nèi)公司在經(jīng)驗上與國外其他領(lǐng)跑企業(yè)如英特爾、高通、NVIDIA等應(yīng)該說還有一段差距。但國內(nèi)頭部企業(yè)的迭代速度非???,加上與代工廠(比如TSMC)和后端設(shè)計服務(wù)公司的緊密合作,對于先進工藝流片經(jīng)驗掌握的速度非常之快。國內(nèi)寒武紀和比特大陸兩家公司在未來的表現(xiàn)非常值得期待。預(yù)計再經(jīng)過一兩代的開發(fā)即能迎頭趕上世界最前沿產(chǎn)品,并可望大量使用于數(shù)據(jù)中心。
以目前發(fā)展趨勢來看,終端應(yīng)用將會在未來2年-3年伴隨著5G網(wǎng)絡(luò)的大量普及有爆炸性成長。終端產(chǎn)品的應(yīng)用范圍非常廣,許多從云端延伸至終端的應(yīng)用將會是首先被導(dǎo)入的產(chǎn)品。
終端人工智能芯片并不如云端芯片般對通用性有較高需求,而是綜合考慮功耗、計算能力、面積(PPA)在終端場景下的平衡。也因為如此,終端人工智能芯片并非一定需要采用最先進的制造工藝,成熟且低成本的工藝可能更適合普及化的應(yīng)用。
終端應(yīng)用中人工智能推理機芯片的應(yīng)用可以粗略分成影像、聲音和判斷三大方向。由于應(yīng)用與算法的碎片化與多樣性,人工智能芯片在未來一段時間將會是一個以細分市場為主的產(chǎn)業(yè)結(jié)構(gòu)。這一特點將會在商業(yè)模式上給傳統(tǒng)芯片設(shè)計公司帶來新的挑戰(zhàn)和機會。
大量的應(yīng)用需要更多種類,滿足不同具體需求的知識產(chǎn)權(quán),或是將知識產(chǎn)權(quán)定制化以應(yīng)付各類不同需求。其中一種可能是走類似ARM的道路,通過提供基本知識產(chǎn)權(quán)給客戶做針對具體應(yīng)用場景的二次定制化開發(fā)。
人工智能的廣泛應(yīng)用也帶來了龐大產(chǎn)業(yè)升級芯片需求,有可能扶植許多新創(chuàng)公司來提供各類應(yīng)用專屬的知識產(chǎn)權(quán)。
終端應(yīng)用中訓(xùn)練機的需求也日漸增長,其主因是許多應(yīng)用由于現(xiàn)場特殊性,需要本地訓(xùn)練或是云端訓(xùn)練不能反映時間的要求。無人駕駛系統(tǒng)、先進輔助駕駛系統(tǒng)和智能工廠等都有大量此類需求。
在終端系統(tǒng)中,訓(xùn)練機既有可能和推理機使用同一組人工智能芯片,有能以單獨的芯片形式來達到更高效的訓(xùn)練效率。
由于終端的訓(xùn)練機將會對功耗和成本有更高的要求,因此終端訓(xùn)練機在通用性和應(yīng)用導(dǎo)向設(shè)計之間的取舍將會更為困難。除了傳統(tǒng)的芯片架構(gòu)分析和設(shè)計技巧外,通過神經(jīng)網(wǎng)絡(luò)算法的改良與簡化來降低設(shè)計復(fù)雜度也是近些年來研究的重點。
如前所述,芯片的生態(tài)系統(tǒng)是面對開發(fā)者最重要的一環(huán),并直接影響工程人員對于芯片的接受度和所應(yīng)用技術(shù)的普及度。
在軟件設(shè)計上,編程語言和主流編程框架的支持能提高開發(fā)者意愿并能與其他平臺接軌。同時,人工智能芯片的開發(fā)也是要與軟件或算法的進步而同步更新,提供諸如更高效更靈活的知識產(chǎn)權(quán)。
在硬件設(shè)計上,未來人工智能芯片將逐步整合其他系統(tǒng),注重如感測器、通訊和協(xié)同處理器等其他相關(guān)硬件的系統(tǒng)整合。
對于終端應(yīng)用而言,整合后的平臺將有可能達到系統(tǒng)各部分的高度協(xié)同,提高計算效率,增加產(chǎn)品的通用性。
此外,建立和維護使用者社群,提供類似于開源社區(qū)那樣的開放式開發(fā)平臺會使得整體開發(fā)速度提升,加快系統(tǒng)設(shè)計的迭代速度。最近有許多新創(chuàng)公司聚焦于降低硬件設(shè)計的門檻,以編程語言來取代硬件語言實現(xiàn)芯片設(shè)計,或是以軟硬件協(xié)同設(shè)計來降低芯片設(shè)計的門檻,也有助于這一目的。
最后則是知識產(chǎn)權(quán) (IP)的重復(fù)使用,尤其是功能和需求驗證通過后的知識產(chǎn)權(quán),將會是人工智能芯片在各種應(yīng)用中快速布局的助力之一。
人工智能應(yīng)用對于算力的高要求使得我們在具體實踐中必須將算法、數(shù)據(jù)與計算平臺緊密結(jié)合,從而設(shè)計出針對具體需求的高度優(yōu)化的計算平臺。
因此,許多擁有數(shù)據(jù)和算法的傳統(tǒng)軟件及互聯(lián)網(wǎng)公司如微軟、谷歌、亞馬遜等最近都紛紛跨界到芯片設(shè)計。
芯片行業(yè)的沙場老將們?nèi)缬⑻貭?、高通等也都看準了商機,以自身已有的生態(tài)系統(tǒng)和知識產(chǎn)權(quán)為基礎(chǔ)快速布局于各種人工智能芯片應(yīng)用中。
雨后春筍般出現(xiàn)的人工智能芯片獨角獸更是遍布于各個開發(fā)層級,利用創(chuàng)新的科研成果與傳統(tǒng)行業(yè)相競爭,形成了百家爭鳴的局面。
我們粗略統(tǒng)計整理了國內(nèi)外著名的人工智能芯片公司的主要技術(shù)方案和其所針對的應(yīng)用場景,絕大多數(shù)公司尤其是初創(chuàng)公司紛紛看好在終端應(yīng)用(尤其是終端推理)上的發(fā)展機會,以期待人工智能技術(shù)引入傳統(tǒng)行業(yè)之后所帶來的巨大商機。
在未來數(shù)年,人工智能技術(shù)的應(yīng)用場景將會更加明確。賽道上的主流公司及其所代表的各種技術(shù)也會隨之通過公司收購、兼并等手段逐漸融合至少數(shù)高度集成的技術(shù)平臺。初創(chuàng)公司的重點也將轉(zhuǎn)移至類似終端訓(xùn)練這樣的新型應(yīng)用場景。
在技術(shù)發(fā)展上,未來人工智能芯片則可能采用更為先進的制造工藝,甚至是諸如憶阻器或者神經(jīng)形態(tài)計算這樣全新的納米器件和計算架構(gòu)。這將成為AI芯片下一階段競爭的風向標。
(作者陳怡然為美國杜克大學電子計算機工程系教授、陳逸中為美國紐約州立大學教授,編輯:謝麗容)