□文/王利彬
人工智能(AI)并不是新事物,從1956年達特茅斯會議第一次提出人工智能的概念。已超過60年。簡單回顧人工智能的發(fā)展史,可大致劃分為三個階段,第一個階段起止時間為1956-1980年,是AI基礎探索期,主要研究成果集中在學院領域,出現(xiàn)感知機、機器學習等各種初級模型,但人工智能解決的實際問題有限,第一次熱潮歸于沉寂;1980-2010年為第二階段,模擬人類大腦的神經(jīng)網(wǎng)絡理論取得突破,但準確度提升緩慢,計算資源消耗非常高,人工智能再次停滯不前;2010年之后進入第三階段,深度學習理論異軍突起,Google、Facebook、微軟等AI領先企業(yè)先后開源自己的深度學習算法模型。以英偉達為代表的智能芯片廠商,采用多核技術(shù)突破芯片的計算瓶頸,計算性能的升級迭代速度超越摩爾定律。作為一個標志性事件,2016年AlphaGo戰(zhàn)勝了世界圍棋冠軍李世石。圍棋是棋類游戲“皇冠上的明珠”,原本是專業(yè)小圈子的賽事,因為人工智能參賽,大比分戰(zhàn)勝人類得到廣泛報道,一夜之間人工智能家喻戶曉。
人工智能的美好前景刺激風險投資大量涌入,迎來了人工智能的創(chuàng)業(yè)高潮,人工智能尤其是圖像識別技術(shù)發(fā)展迅速。這一時期,國內(nèi)誕生視覺智能方面的“四小龍”,作為圖像處理的核心技術(shù),視頻監(jiān)控領域的領軍企業(yè)??怠⒋笕A、宇視無一例外把人工智能把作為重點發(fā)展方向,不愿意放棄任何一個風口的BAT也重兵投入,國內(nèi)企業(yè)在KITTI、MOT、FRVT、LFW、MegaFace各項國際人工智能賽事中頻繁打破世界紀錄。
技術(shù)發(fā)展的背后,是人工智能在公共安全、交通治理、商業(yè)消費、園區(qū)管理領域的實踐落地,典型的應用包括人臉識別、車輛和車牌識別、人體識別、異常行為識別、異常物體識別。其中有些技術(shù)比如車牌識別,早已應用廣泛,但深度學習仍然帶來了顯著的準確率提升。而人臉識別一直是一個難題,深度學習把識別率提升到人眼的水平,在近幾年得到的關(guān)注度最高。人臉識別在刷臉考勤、刷臉支付、刷臉安檢、刷臉登記等領域開始應用,迎來了人工智能的“刷臉時代”。
那么圖像智能分析的本質(zhì)是什么呢?通俗來講,可以認為智能分析的過程就是把視頻、圖片這類非結(jié)構(gòu)化信息通過深度學習等算法轉(zhuǎn)換為結(jié)構(gòu)化信息。非結(jié)構(gòu)化信息雖然含有有價值的信息,但價值密度非常低,占用的存儲空間也非常大,無法進行批量數(shù)據(jù)的搜索和比對,長期存儲的成本非常高,就像尚未提煉過的金礦石。而轉(zhuǎn)換為結(jié)構(gòu)化信息之后,金礦石就變成了金子,信息高度濃縮,可以進行數(shù)據(jù)之間精確的1:1、1:N、N:N比對。
拿支付寶的人臉支付舉例。在實現(xiàn)人臉支付之前,用戶需要進行人臉注冊,注冊的過程就是把用戶的人臉圖片通過人工智能算法轉(zhuǎn)換成結(jié)構(gòu)化信息。全國有7億人在使用支付寶,假設每個用戶都進行人臉注冊,這樣就形成有7億條人臉信息與賬號信息關(guān)聯(lián)的數(shù)據(jù)庫。在一個人進行消費人臉支付時,支付寶會再次對人臉進行抓拍并通過人工智能識別生成一條新的結(jié)構(gòu)化信息,把這條新的結(jié)構(gòu)化信息與后臺數(shù)據(jù)庫中的人臉結(jié)構(gòu)化信息進行逐個比較,當與人臉庫中的某條信息吻合時,就可以獲得對應的賬號信息完成支付。為了解決有些情況下,不同個體高度相似的問題,在注冊和支付時,一般會進行多個角度的比較。另外為了防止拿著照片或者視頻作弊,一般還要進行活體識別,這也是為什么支付寶有時候會要求我們眨眨眼睛、扭扭頭的原因。
算法、算力、數(shù)據(jù)(樣本)是人工智能的三要素,如上所述的視覺智能“四小龍”和安防企業(yè)主要優(yōu)勢在在算法領域,目前已取得長足的發(fā)展,在標準環(huán)境下人工智能的識別能力甚至超過了人眼。算力方面,國內(nèi)外雖然也有眾多的互聯(lián)網(wǎng)巨頭和創(chuàng)業(yè)企業(yè)參與其中,但英偉達在數(shù)據(jù)中心芯片方面、海思在前端芯片方面分別有絕對的領先優(yōu)勢,其他企業(yè)都屬于新進入者,競爭遠不像算法那樣激烈。那么相較于算法的迭代速度,算力的提升就顯得比較緩慢。拿安防行業(yè)舉例,一臺200萬像素的攝像機已經(jīng)非常便宜,但如果同時要疊加人臉、車輛、行為分析功能,則智能芯片的成本可能已經(jīng)超過了攝像機本身,如果考慮算法的開發(fā)成本,則端到端的建設成本每路超過萬元。這極大限制了人工智能的在安防領域的普及。
人工智能面臨的另外一個困難就是樣本數(shù)據(jù)。樣本數(shù)據(jù)對算法的作用就像兒童學習知識,在沒有充分的學習和訓練之前,雖然人腦有很大的潛能,但是無法發(fā)揮作用,連一些簡單的數(shù)學題也不會做。人工智能超過人類的地方在于學習的速度非常迅速,只要樣本數(shù)據(jù)足夠多,短時間就可以掌握人類一生都無法企及的知識。而不如和類的地方在于,當前的人工智能還是分門別類,人工智能系統(tǒng)只能做相對單一的事情,視覺智能模型只能做圖像識別,聲音智能模型只能進行聲音的識別,雖然也有遷移學習等理論存在,但本質(zhì)上還是限于特定領域。訓練的過程和人類接受教育的過程一樣,主要以監(jiān)督學習為主,需要人工介入進行各種標定,完全獨立自主的自學習還做不到。按照安防行業(yè)人臉標定的經(jīng)驗,一個熟練的標定工程師每天人臉樣本標定量(用于識別的樣本)大概在40張人臉圖片,這就意味著AI企業(yè)在訓練過程中需要投入大量的成本。目前互聯(lián)網(wǎng)龍頭、四小龍在金融等領域,安防龍頭在視頻監(jiān)控領域都已有多年的數(shù)據(jù)積累。
近兩年,樣本數(shù)據(jù)訓練也涌現(xiàn)出一些新的解決方法。一種方法可稱之為人工智能開發(fā)平臺,做法是把訓練中心搭建在公網(wǎng)上,讓合作伙伴和終端用戶介入到樣本訓練之中。這種方法的問題是模型訓練需要較大的訓練量,客戶很難有機制保障持續(xù)的投入。另外,數(shù)據(jù)的訓練標注也需要專業(yè)指導,用戶的標注質(zhì)量得不到保證。那么,訓練出來的模型并不如廠商直接提供的好多少。另一種方法是讓模型自己具備一定的自學習能力,并不顯性的要求用戶進行模型訓練,而是在使用過程中增加一些確認環(huán)節(jié),通過用戶確認結(jié)果的好壞巧妙的實現(xiàn)自動標注。這種方法的問題在于模型完全離線,處在客戶的環(huán)境,只對特定的用戶本身有價值,而無法提升廠商的原始算法。用戶環(huán)境下的算法模型和廠商環(huán)境的模型各自獨立提升,逐步成為兩個不同的分支。當用戶希望使用廠商的新模型時,客戶的模型會被覆蓋,前期的訓練努力很可能就付之東流??梢灶A見,算法的進入門檻已經(jīng)顯著提升,在人工智能沒有新的顛覆性技術(shù)出現(xiàn)之前,很難有新企業(yè)進入。
算力和樣本數(shù)據(jù)是目前人工智能的最大束縛,如何在有限的資源下做最有用的事情,是當前人工智能進一步普及的關(guān)鍵。一個現(xiàn)實的途徑就是像蓋樓一樣,使用工程化的思維對場景進行分類,形成一套相對標準的方法。宇視在實踐探索中,歸納了一套工程方法中,并與中科院自動化所聯(lián)合進行了優(yōu)化,公開發(fā)布以供業(yè)界參考和完善。在宇視的AI工程化頂層設計模型中,把人工智能應用的整個鏈條分成三類能力,分別是基礎技術(shù)能力、產(chǎn)品架構(gòu)能力、實戰(zhàn)業(yè)務保障能力。
上面所說的AI三要素劃分為基礎技術(shù)能力。為什么要引入其他兩個能力呢? AI算力的成本是人工智能普及的一個約束,如果能把算力在整個系統(tǒng)中進行合理分解,在算力不增加的情況提高識別的攝像機總數(shù)量,就實質(zhì)性的降低了成本。一種常用的手段是把識別目標的檢測和抓拍分布到監(jiān)控終端(攝像機)上去。檢測和抓圖對監(jiān)控終端的算力占用有限,通常使用監(jiān)控終端現(xiàn)有算力即可。智能芯片對視頻和圖片的處理能力比例至少在1:3甚至更多,也就是說,相同的智能分析設備,通過把檢測和抓圖前置,就可以把智能分析的路數(shù)提升3倍!等于每路智能分析的實施成本降低到之前的約1/3。
在很多客戶場景中,天然有層次化的組織架構(gòu),比如說公共安全領域的一個地市,有地市公安局、區(qū)縣公安分局、基層派出所三個層次,如果把地市公安局的數(shù)據(jù)中心定義為中心計算-云,把區(qū)縣公安的數(shù)據(jù)中心定義為邊緣計算-邊,把派出所的攝像機或者NVR定義為前端計算-端,那么可以進一步把算力在云邊端分解,降低人工智能的部署成本、傳輸成本和存儲成本。
云計算是目前安防領域的一個熱點,但云計算的核心是規(guī)模效應,在建設量未達到一定規(guī)模的情況下引入云計算應用成本反而更高。因此在上面所講的云邊端三個層次中,中心計算達到一定規(guī)模時宜采用云計算,而邊緣計算、端計算顯然不適合采用云計算。特別是在進行智能分析系統(tǒng)建設的時候初期建設量比較小,使用效果顯著用戶才會進行批量建設,而且也是逐步擴容進行,而不是一次到位。所以在安防行業(yè)應用中AI系統(tǒng)應該具備輕量化起步的特點。這時候就有必要采用具備管理、智能分析、存儲的超融合一體化設備。同時這種一體化設備應支持高擴展性和高性能的能力,以便支持后期智能分析業(yè)務的快速擴容。
解決算力有效利用的另外一種方法是支持智能計算資源的彈性調(diào)用,也就是說算法不能計算資源綁定,而是允許不同的算法在芯片級自由切換調(diào)度,從而實現(xiàn)計算資源的最優(yōu)利用。比如說在白天場景,人流密度大,計算資源集中在人臉識別高級別應用中。晚上人流密度下降后,空閑出的計算資源可以用來對白天的錄像進行結(jié)構(gòu)化分析。通過采用分布式計算框架,實現(xiàn)芯片間、板卡間、設備間的故障切換,保證智能業(yè)務的連續(xù)性。AI產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)相比原始視頻和圖片有更高的價值,有必要進行長時間的存儲。因此在備份和歸檔方面可以采用備份到磁帶庫或者公有云等低成本但高可靠的存儲介質(zhì)中。
實戰(zhàn)業(yè)務保障能力是把人工智能系統(tǒng)用好的關(guān)鍵。實戰(zhàn)能力中的三個要素分別是科學布點、實戰(zhàn)業(yè)務、組織保障。首先說一下科學布點。無論是人類還是人工智能,準確識別物體都有一定的限制條件,對于AI系統(tǒng)尤其明顯。我們?nèi)祟惖难劬κ?億像素,而現(xiàn)在普遍采用的攝像機大多是200萬像素,800萬像素的攝像機占比非常少。那么要識別的物體超過一定距離后,有效像素就會非常少,無法進行有意義的識別。拿人臉為例,主流的算法普遍要求64*64個像素,同時對左右和上下傾斜的角度也有一定要求。因此,相比只用來查看圖像的監(jiān)控攝像機,要進行AI識別的攝像機在場景中的安裝角度和高度有更嚴格的要求。
上面提到,人工智能的實施成本相比普通監(jiān)控要高不少,因此不可能每個攝像機都進行智能識別,這也要求在城市、園區(qū)、建筑中的攝像機布局要有一個科學選點的步驟,否則就可能造成算力的無謂浪費。比如在公共安全領域,要及時發(fā)現(xiàn)逃犯并完成抓捕,部署思路就應從實現(xiàn)人員的軌跡追蹤和方便抓捕著手,采取關(guān)城門和織網(wǎng)格的部署方法,人臉抓拍相機主要選取火車站、汽車站安檢口、地鐵口等城市出入口和封閉空間。
在安防建設中采用AI技術(shù)的目的是實現(xiàn)實戰(zhàn)的效率提升,因此在解決了基礎技術(shù)能力和架構(gòu)能力之后,實戰(zhàn)能力是接下來的重點。用戶直接使用的客戶端是實戰(zhàn)的第一入口,需要貼合用戶的實際需求,在最小切換界面、最少點擊鼠標的前提下,實現(xiàn)一個業(yè)務流程的閉環(huán)。智能分析產(chǎn)生的人臉、人體、車輛等結(jié)構(gòu)化數(shù)據(jù)只是所有業(yè)務數(shù)據(jù)的一部分,將身份信息、房屋信息、地圖信息、事件信息、物聯(lián)網(wǎng)信息組合使用,對多維數(shù)據(jù)采用清洗去重、聚合分類、關(guān)系碰撞、跨鏡追蹤等數(shù)據(jù)處理和數(shù)據(jù)智能技術(shù),方能達到更有效的實戰(zhàn)效果。
另外,人工智能技術(shù)的應用也對用戶的組織能力帶來挑戰(zhàn)。人工智能的核心目標是預防和預警,而傳統(tǒng)安防手段更適合事后追查,這勢必要求一線使用人員、管理人員改變被動響應的習慣,采用激勵、考核、制度等方式保障人工智能系統(tǒng)高效發(fā)揮作用。
當前,人工智能面臨的最大挑戰(zhàn)是多廠商系統(tǒng)的兼容。特別是在數(shù)據(jù)中心,往往可能采用了多廠商、多樣化的智能分析系統(tǒng),系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)——特別是用來做比對的長特征值,往往無法進行互相比對。因此,在智能系統(tǒng)的建設中,要考慮采用多算法服務框架。多算法服務框架至少要具備兩個特點:1)統(tǒng)一:資源統(tǒng)一分配、算法統(tǒng)一管理、任務統(tǒng)一調(diào)度、數(shù)據(jù)統(tǒng)一檢索;2)開放:兼容異構(gòu)硬件包括嵌入式、一體機、服務器;兼容異構(gòu)軟件包括智能系統(tǒng)、智能軟件、智能算法包、算法插件等形態(tài);兼容主流廠商GPU包括Intel、Nvidia、HiSilicon等;提供開放的接口。
人工智能的應用逐漸從服務于公共安全、智能交通等領域向服務于企業(yè)和民生發(fā)展。有專家斷言,人工智能不再是人工智能廠商自身競爭力的體現(xiàn),而且逐步成為政府機關(guān)、高校、商業(yè)連鎖、金融、能源、制造等各行各業(yè)競爭力和效率提升的關(guān)鍵技術(shù),甚至是企業(yè)未來生存的必備技能。40年前,布魯克斯在《人月神話》中探索了大量軟件開發(fā)實踐中的工程管理和復雜性,當時雖然誕生了Unix這樣的超級成功的操作系統(tǒng),但作者認為我們?nèi)匀粵]有找到保證大型軟件開發(fā)成功的“銀彈”。那么,人工智能會是解決工業(yè)文明時代一切問題的銀彈嗎?人工智能現(xiàn)在僅僅能告訴我們身在何地。或許有一天人工智能會超越人類,告訴我們?nèi)ネ翁帲菚r候,我們才能說真正進入了人工智能時代。