国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何做嵌入式人工智能

2019-10-08 08:18:23張先軼
軟件和集成電路 2019年8期
關(guān)鍵詞:云端人臉內(nèi)存

張先軼

澎峰科技是中科院的技術(shù)團(tuán)隊(duì),做過(guò)國(guó)際知名的開(kāi)源矩陣計(jì)算庫(kù)OpenBLAS,獲得過(guò)中國(guó)計(jì)算機(jī)學(xué)會(huì)科技進(jìn)步二等獎(jiǎng)、中國(guó)科學(xué)院杰出科技成就獎(jiǎng),是國(guó)家高新技術(shù)企業(yè)、中關(guān)村高科技企業(yè)、中關(guān)村金種子企業(yè)。澎峰科技的主要業(yè)務(wù)是嵌入式AI解決方案,包括高性價(jià)比智能硬件、高性能視頻處理、低功耗IoT,為互聯(lián)網(wǎng)客戶、安防客戶、學(xué)校等提供服務(wù)。

什么叫嵌入式人工智能,或者說(shuō)端上智能呢?其實(shí)并不是在嵌入或在設(shè)備端來(lái)訓(xùn)練深度學(xué)習(xí)模型,在部署階段,我們的模型在服務(wù)器內(nèi)訓(xùn)練,但是在實(shí)際使用的過(guò)程中,是在云端做部署,還是在端上設(shè)備做部署,兩者會(huì)有很大的差異。大家見(jiàn)的比較多的是在云端做部署,比如很多API通過(guò)網(wǎng)絡(luò)的方式上傳圖片,在云上計(jì)算并返回結(jié)果。使用嵌入式端部署的話,模型可能傳輸?shù)搅耸謾C(jī)上,在此基礎(chǔ)上可以做圖像識(shí)別和處理功能,另外也可以傳輸?shù)綗o(wú)人機(jī)上或智能攝像頭上。

以抖音為例,里面有個(gè)美顏直播功能,當(dāng)人臉動(dòng)的時(shí)候,美顏的畫(huà)像其實(shí)一直跟著人臉動(dòng),同時(shí)也有很多特效,這個(gè)就是嵌入式非常典型的應(yīng)用。那么為什么不是拍好一段視頻上傳到云端,再做美顏呢?因?yàn)槿绻蟼鞯皆贫嗽偬幚?,交互性?huì)非常差,無(wú)法讓用戶實(shí)時(shí)看到效果,成本也比較高。因此,所有的效果全部在手機(jī)端完成,交互性會(huì)更好。這里主要用到了三個(gè)算法:一是人臉檢測(cè),先找到人的臉;二是識(shí)別人臉關(guān)鍵點(diǎn),找到人的鼻子在哪兒,眼睛在哪兒;三是做一些貼圖,比如眼鏡或小貓的貼圖,不管人臉怎么動(dòng),甚至是旋轉(zhuǎn),貼圖都可以時(shí)刻貼合人臉。

但是真正做嵌入式系統(tǒng)的時(shí)候會(huì)遇到一些挑戰(zhàn),最主要的挑戰(zhàn)是運(yùn)行速度。有些模型太大,是很難傳輸?shù)绞謾C(jī)上的,通常好幾秒才能處理一張圖像,或者功耗太高了,可能手機(jī)錄一會(huì)兒就沒(méi)電了,這些都是我們遇到過(guò)的挑戰(zhàn)。要應(yīng)對(duì)這種挑戰(zhàn),一般來(lái)說(shuō)要從硬件、軟件、算法三個(gè)方面共同努力,才能把嵌入式AI部署好。

介紹一下高性價(jià)比ARM SoC AI方案。以人臉識(shí)別為例,高性價(jià)比人臉識(shí)別設(shè)備支持本地2萬(wàn)張人臉庫(kù),聯(lián)網(wǎng)抓拍模式可支持5萬(wàn)人臉庫(kù),識(shí)別時(shí)間在0.2秒以內(nèi)。大家知道Caffe、Tensorflow框架,很多大公司做了很多服務(wù)器的訓(xùn)練框架,用來(lái)訓(xùn)練模型,但是訓(xùn)練完去部署的時(shí)候,如果還是照搬安裝在手機(jī)上,其實(shí)非常耗資源,也非常笨拙。

現(xiàn)在有專(zhuān)門(mén)針對(duì)嵌入式平臺(tái)的前向推理框架,前向推理框架的主要功能有五個(gè)方面。一是設(shè)備管理,一般來(lái)說(shuō)嵌入式系統(tǒng)都是異構(gòu)系統(tǒng),不只是CPU,可能還有GPU、IPG或DSP,手機(jī)芯片里面有DSP,也可以用DSP做深度學(xué)習(xí)計(jì)算。二是除了異構(gòu)性管理以外,還涉及模型管理。三是內(nèi)存管理和存儲(chǔ)格式,需要考慮以內(nèi)存占用優(yōu)先還是以性能優(yōu)先。手機(jī)的內(nèi)存通常很充足,但是一些更小的嵌入式設(shè)備、IoT級(jí)別的設(shè)備,內(nèi)存非常受限,那就需要重點(diǎn)考慮。四是層級(jí)融合,從性能優(yōu)化的角度來(lái)提升速度。五是實(shí)現(xiàn)方法選擇。比如卷積,卷積是AI操作中非常重要的一部分操作,怎么做卷積最快有很多門(mén)道,卷積的實(shí)現(xiàn)方法有三到四種,要求底層的優(yōu)化與上層的框架實(shí)現(xiàn)互相配合,而且要針對(duì)所調(diào)用的模型,根據(jù)效果做試配??梢酝ㄟ^(guò)性能評(píng)測(cè)看到結(jié)果,很多平臺(tái)上都可以做性能評(píng)測(cè)。

下面看一下高性能FPGA AI方案。如果模型比較大,但又要求速度比較快,那么該如何去部署?典型的做法是用FPGA的AI來(lái)實(shí)現(xiàn)。我們支持兩種常見(jiàn)的SoC架構(gòu)和FPGA的開(kāi)發(fā)生態(tài)。硬件部分結(jié)合軟件工具,可以將訓(xùn)練好的模型經(jīng)過(guò)量化、壓縮等操作,部署在AI加速處理架構(gòu)上,實(shí)現(xiàn)較高效的執(zhí)行。AI加速處理架構(gòu)主要分為PS端與PL端的兩部分設(shè)計(jì),實(shí)質(zhì)上是用狀態(tài)機(jī)控制模型,使用PE實(shí)現(xiàn)具體的卷積操作,從而獲得比較好的性能。

使用該方案能得到比較快的速度,平臺(tái)上的速度可達(dá)300MHz,7100芯片上的速度可達(dá)160MHz,基本上都達(dá)到了每秒處理60幀的速度,同時(shí)DSP單元的使用率達(dá)到了95%。這項(xiàng)技術(shù)可以應(yīng)用在無(wú)人機(jī)上,而且未來(lái)還可以形成定制芯片。

我們不僅要將硬件和軟件結(jié)合起來(lái)做底層優(yōu)化,在算法模型這一層也有很多工作要做。首先,針對(duì)嵌入式AI的深度學(xué)習(xí)模型,要專(zhuān)門(mén)做優(yōu)化。其次,我們要做模型壓縮功能,最常用的方法是蒸餾法。蒸餾法是指我們先在服務(wù)器上訓(xùn)練一個(gè)比較復(fù)雜的模型,再在此基礎(chǔ)上訓(xùn)練一個(gè)小的模型,相當(dāng)于一個(gè)老師教一個(gè)學(xué)生,這樣學(xué)習(xí)來(lái)的小模型可以具備和大模型接近的性能效果,精度也更高,并且大大節(jié)省了計(jì)算資源。然后,我們要做量化。最后,我們持續(xù)研發(fā)新型的網(wǎng)絡(luò)結(jié)構(gòu),從而進(jìn)一步降低計(jì)算量。

總結(jié)一下,如何做嵌入式AI,涉及硬件、框架、軟件以及模型。硬件ARM SoC集成度高,性價(jià)比不錯(cuò),而FPGA平臺(tái)非常適合做高性能的工業(yè)級(jí)應(yīng)用,更重要的是,要有針對(duì)性地根據(jù)場(chǎng)景做定制化的模型,才能獲得比較好的效果。

(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)

猜你喜歡
云端人臉內(nèi)存
有特點(diǎn)的人臉
云端之城
“春夏秋冬”的內(nèi)存
三國(guó)漫——人臉解鎖
美人如畫(huà)隔云端
行走在云端
初中生(2017年3期)2017-02-21 09:17:43
云端創(chuàng)意
馬面部與人臉相似度驚人
長(zhǎng)得象人臉的十種動(dòng)物
奇聞怪事(2014年5期)2014-05-13 21:43:01
基于內(nèi)存的地理信息訪問(wèn)技術(shù)
安图县| 托里县| 老河口市| 郎溪县| 华宁县| 涿鹿县| 崇礼县| 灵山县| 醴陵市| 饶平县| 闽清县| 手游| 清丰县| 江源县| 阿拉善盟| 淳化县| 新巴尔虎左旗| 福州市| 南漳县| 襄垣县| 来宾市| 定西市| 金华市| 临清市| 称多县| 三都| 玉门市| 阜平县| 若羌县| 天气| 和硕县| 枣阳市| 安吉县| 定西市| 湘阴县| 瑞昌市| 高雄市| 肇东市| 津市市| 北碚区| 中西区|