国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的人臉情緒識(shí)別研究

2021-03-23 06:38:04尚宇成郝世宇
關(guān)鍵詞:人臉殘差卷積

尚宇成 郝世宇 洪 揚(yáng)

(南京郵電大學(xué)自動(dòng)化學(xué)院人工智能學(xué)院,江蘇 南京210000)

人臉面部表情是人與人溝通的一種高效、快速的方式,也是當(dāng)代實(shí)現(xiàn)人機(jī)交互的關(guān)鍵組成部分,廣泛應(yīng)用于教育、科技、醫(yī)學(xué)等領(lǐng)域。在1974 年美國心理學(xué)家Mehrabian 的研究中,在人類情緒表達(dá)方式中,通過聲音及語言表達(dá)的信息分別占所有信息的7%,38%,而55%的信息則通過表情來傳達(dá)。二十世紀(jì),心理學(xué)家Ekman 和Friesen 經(jīng)過跨文化的研究和實(shí)驗(yàn),將人類表情分為六種基本表情,包括:憤怒、驚訝、害怕、哀傷、高興、厭惡。人臉情緒識(shí)別是用計(jì)算機(jī)獲取的面部數(shù)據(jù),通過網(wǎng)絡(luò)進(jìn)行模型的建立,對(duì)人臉面部表情進(jìn)行分類,從而來判斷當(dāng)前人臉?biāo)淼那榫w。

1 問題分析

進(jìn)入21 世紀(jì),以深度學(xué)習(xí)為首的機(jī)器學(xué)習(xí)獲得了迅速發(fā)展,其通過對(duì)輸入的數(shù)據(jù)進(jìn)行迭代處理,并不斷調(diào)整參數(shù),使機(jī)器能夠在學(xué)習(xí)中找到某一事物的特定“規(guī)則”,并建立該“規(guī)則”下的模型,下次數(shù)據(jù)輸入時(shí)便可直接使用。其中深度網(wǎng)絡(luò)已經(jīng)在機(jī)器視覺、圖像分類、聲音識(shí)別等多個(gè)方面取得很多成果。深度神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)的處理方式相比,能夠更好的揭示數(shù)據(jù)之間的深層聯(lián)系,提取出有利于處理和分類的抽象特征。數(shù)據(jù)量決定模型訓(xùn)練的高度,輸入的數(shù)據(jù)越多,深度網(wǎng)絡(luò)建立的模型就越精準(zhǔn),使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練的方法效果明顯優(yōu)于傳統(tǒng)的提取方法,所以采用深度學(xué)習(xí)進(jìn)行情緒識(shí)別。

2 理論與所提方法

圖1 深度學(xué)習(xí)基本流程圖

圖2 殘差網(wǎng)絡(luò)情緒識(shí)別框圖

近來隨著視覺識(shí)別挑戰(zhàn)賽(ILSVRC)和FER2013 表情識(shí)別比賽提供了充分的情緒數(shù)據(jù),推動(dòng)了情緒識(shí)別技術(shù)的發(fā)展,深度學(xué)習(xí)作為研究機(jī)器學(xué)習(xí)的新領(lǐng)域,其在準(zhǔn)確和效率方面得到了很大提高,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在目標(biāo)分類任務(wù)上取得了顯著成效,1998 年,LeCun 等應(yīng)用CNN 實(shí)現(xiàn)了手寫數(shù)字識(shí)別,2012年,Alex Krizhevsky 等使用CNN 方法在ImageNet 2012 比賽中贏得了第一名。2013 年,Tang 和Bergstra 在kaggle 舉辦的面部表情識(shí)別挑戰(zhàn)賽中使用卷積神經(jīng)網(wǎng)絡(luò)贏得了第一名??梢詫⑷祟惷娌勘砬檫M(jìn)行分類,譬如:“驚訝”、“恐慌”、“憤怒”、“厭惡”、“中性”等,每一類尋取足夠多的圖片數(shù)據(jù)放入深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,獲得隸屬于每一類的深度學(xué)習(xí)模型(如圖1)。

卷積神經(jīng)網(wǎng)絡(luò)受生物學(xué)視覺皮層的啟發(fā),由Hubel 和Wiesel 在1962 年對(duì)貓視覺皮層的實(shí)驗(yàn)中研究而來,在圖像分類中應(yīng)用廣泛,若采用傳統(tǒng)優(yōu)化算法訓(xùn)練網(wǎng)絡(luò),包括梯度下降及變體、牛頓法或其他算法,若沒有殘差模塊,沒有首尾段的直接相連,隨著網(wǎng)絡(luò)層數(shù)的增多,模型訓(xùn)練的準(zhǔn)確率會(huì)下降,訓(xùn)練表現(xiàn)不是很好,會(huì)出現(xiàn)梯度下降十分緩慢的問題。由此可見網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)不是越多越好。事實(shí)上,網(wǎng)絡(luò)層數(shù)的增多會(huì)導(dǎo)致訓(xùn)練集的準(zhǔn)確率降低。但殘差網(wǎng)絡(luò)不同,其將原始輸入數(shù)據(jù)加到下一層的輸入,可以學(xué)習(xí)更深層次的網(wǎng)絡(luò),顯著改善梯度消失和爆炸的問題,使得在訓(xùn)練深層網(wǎng)絡(luò)的同時(shí),又可提高模型訓(xùn)練的準(zhǔn)確性。殘差網(wǎng)絡(luò)在訓(xùn)練深度網(wǎng)絡(luò)模型方面效果顯著,故可以用來進(jìn)行情緒分類、識(shí)別。結(jié)構(gòu)框圖如圖2。

3 常見的數(shù)據(jù)集(庫)

3.1 FER2013 數(shù)據(jù)集

FER2013 人臉面部表情數(shù)據(jù)集是在Kaggle 競賽中被提出,其中有28709 張訓(xùn)練圖。驗(yàn)證圖像與測試圖像相同,都為3589 張,每張圖像為48*48 像素,包括厭惡、恐懼、悲傷、高興、驚訝、憤怒和中性七種表情,大多是在自然條件下拍攝的表情。

3.2 CK+數(shù)據(jù)集

CK+數(shù)據(jù)集是進(jìn)行人臉表情識(shí)別最大的實(shí)驗(yàn)室數(shù)據(jù)集,包含593 個(gè)視頻序列,其中有327 個(gè)被標(biāo)簽的序列,包含生氣、輕視、厭惡、悲痛、驚訝、恐懼、快樂七種基本情緒,沒有訓(xùn)練集、驗(yàn)證集、測試集。

3.3 ExpressionNet 數(shù)據(jù)集

ExpressionNet 是一個(gè)大規(guī)模的人臉表情數(shù)據(jù)集,包括了從互聯(lián)網(wǎng)上收集到的一百萬張人臉表情圖片。其中共有95 萬張圖片被收集、提供標(biāo)記。其中也包含了2478 張被六種基本表情和十種復(fù)合表情標(biāo)記的人臉表情圖片。

3.4 CMU MultiPLE 數(shù)據(jù)

MU MultiPLE 數(shù)據(jù)庫有337 個(gè)人、共750000 張照片,從不同的角度和光照條件進(jìn)行拍攝,共有憤怒、厭惡、快樂、中立、驚喜、傷心、驚訝七種情緒。

3.5 GEMEP-FERA 2011 數(shù)據(jù)庫

GEMEP-FERA 2011 數(shù)據(jù)庫中含有10 個(gè)演員的表情數(shù)據(jù),包括7 個(gè)主題含155 個(gè)圖像序列的訓(xùn)練數(shù)據(jù)及6 個(gè)主題含134個(gè)圖像序列的測試數(shù)據(jù),包括了生氣、害怕、幸福、安慰和哀傷五種情緒。

3.6 JAFFE 人臉表情數(shù)據(jù)庫

JAFFE 人臉表情數(shù)據(jù)庫,包括10 位日本女性構(gòu)成的213 張圖像,包含七種面部表情(生氣、開心、悲痛、中性、厭惡、恐懼、驚訝)。60 名女學(xué)生對(duì)6 個(gè)情感形容詞進(jìn)行語義評(píng)分。

本文使用FER2013 數(shù)據(jù)集,其像素大小規(guī)整,且包含訓(xùn)練集、驗(yàn)證集、測試集,可以更好進(jìn)行網(wǎng)絡(luò)測試和數(shù)據(jù)訓(xùn)練,減少了計(jì)算量。為了提高模型訓(xùn)練的成效,需要對(duì)數(shù)據(jù)預(yù)處理,常見的數(shù)據(jù)預(yù)處理方式包括均值化、歸一化、PCA 和白化等。均值化是使數(shù)據(jù)每個(gè)點(diǎn)的數(shù)值減去平均值,對(duì)于圖像來說,可以在RGB三個(gè)維度上分別操作,使圖像的每一個(gè)像素減去圖像中所有像素加權(quán)求得的平均值??梢暂^有效的移除圖像的公共部分,顯現(xiàn)特性,對(duì)圖片處理更加方便快速,歸一化是將數(shù)據(jù)的多個(gè)維度進(jìn)行映射,使得不同量綱的數(shù)據(jù)可以進(jìn)行比較和運(yùn)算。對(duì)于圖像數(shù)據(jù),像素從0-255 變?yōu)?-1 范圍,加快訓(xùn)練網(wǎng)絡(luò)的收斂性,但這種處理只在輸入圖像形狀不同的情況下使用才有意義,本文使用的FER2013 數(shù)據(jù)集不必再做歸一化處理。PCA 即主成分分析,將數(shù)據(jù)降維后得到新的數(shù)據(jù),將一系列可能存在相關(guān)性的變量轉(zhuǎn)換成線性無關(guān)的變量,將多維特征降到n 維上,這n 維特征即為主成分,可以降低輸入的冗余性。白化,即是在主成分分析的基礎(chǔ)上除以每個(gè)特征值的標(biāo)準(zhǔn)差,使數(shù)據(jù)進(jìn)行歸一化,白化后的數(shù)據(jù)相關(guān)性低,是一個(gè)均值為零的矩陣。

4 殘差網(wǎng)絡(luò)與學(xué)習(xí)框架

網(wǎng)絡(luò)層數(shù)的增多可能會(huì)伴隨著梯度消失、過擬合以及耗費(fèi)計(jì)算資源等問題,發(fā)生網(wǎng)絡(luò)退化時(shí),層數(shù)較少的網(wǎng)絡(luò)往往能取得比深層網(wǎng)絡(luò)更準(zhǔn)確的模型,在提取特征的過程中,將原始數(shù)據(jù)傳送到高層,補(bǔ)充深層丟失的特征原始信息,可以解決網(wǎng)絡(luò)退化的問題以及層數(shù)太多導(dǎo)致的過擬合,增加模型的泛化能力。2015 年,ResNet 卷積神經(jīng)網(wǎng)絡(luò)被微軟提出,可以解決神經(jīng)網(wǎng)絡(luò)深度過深呈現(xiàn)的梯度消失問題,且殘差網(wǎng)絡(luò)塊的提出可以明顯提高訓(xùn)練效率。殘差網(wǎng)絡(luò)可分為ResNet-50、ResNet-101、ResNet-152 等。ResNet 殘差網(wǎng)絡(luò)中,包含的殘差模塊如圖3,首先用1x1 的卷積核對(duì)網(wǎng)絡(luò)進(jìn)行降維,再經(jīng)過3x3 卷積,之后使用1x1 卷積進(jìn)行升維。其中,1x1 的卷積核能夠大大減少參數(shù)數(shù)量。此外殘差網(wǎng)絡(luò)中使用的批歸一化方法,可以對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,以達(dá)到高的準(zhǔn)確率,解決了訓(xùn)練網(wǎng)絡(luò)過深造成的梯度消失問題。

圖3 殘差單元模塊

目前較為流行的深度學(xué)習(xí)框架包括命令式的實(shí)現(xiàn)和符號(hào)式的實(shí)現(xiàn)兩大類,包括以下幾類:

(1)Caffe 是模塊化的,由BVLC 創(chuàng)立,內(nèi)核由C++實(shí)現(xiàn),但提供有C++、Python 接口,支持卷積神經(jīng)網(wǎng)絡(luò)與圖像處理,可以實(shí)現(xiàn)CPU 和GPU 的無縫轉(zhuǎn)換,能夠大幅減少網(wǎng)絡(luò)訓(xùn)練時(shí)間,但其安裝和配置時(shí)較為復(fù)雜且可移植性較低。

(2)Tensorflow 是Google 開發(fā)且開源的深度學(xué)習(xí)技術(shù),內(nèi)含大量RNN 的API,支持快速開發(fā),支持移動(dòng)端,但其由Python 編寫導(dǎo)致速度較慢。

(3)Keras 是基于Theano 和Tensorflow 的深度學(xué)習(xí)框架,由Python 編寫,高級(jí)API 簡化了模型搭建,在keras 中實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)計(jì)較輕松。

(4)Torch 于2002 年誕生于紐約大學(xué),使用不是很大眾的Lua 作為接口,其簡潔高效但使用的人較少。

本文的目標(biāo)是找一個(gè)操作簡便、計(jì)算迅速、兼容性好、靈活性高的框架,Tensorflow 能夠滿足要求,所以選取Tensorflow 作為訓(xùn)練模型的框架。

5 結(jié)論

隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺迅猛發(fā)展,教育、醫(yī)療機(jī)構(gòu)、廣告公司等為了更好的實(shí)現(xiàn)人機(jī)交互,急需能夠準(zhǔn)確識(shí)別人臉面部表情的技術(shù),用來達(dá)到更好的醫(yī)療效果和廣告轉(zhuǎn)換率。通過研究,發(fā)現(xiàn)目前實(shí)現(xiàn)圖像分類效果較好的是采用深度學(xué)習(xí)算法中的卷積神經(jīng)網(wǎng)絡(luò),采用fer2013 數(shù)據(jù)集,所有圖片為48*48 大小的分辨率且有足夠多的樣本,可以大大縮減網(wǎng)絡(luò)模型大小,加快計(jì)算速度,得到更高的準(zhǔn)確率,而卷積神經(jīng)網(wǎng)絡(luò)中的殘差網(wǎng)絡(luò),采用首段與尾端相連,解決了網(wǎng)絡(luò)過深造成的梯度過深的問題,以達(dá)到更好的情緒識(shí)別效果。

猜你喜歡
人臉殘差卷積
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有特點(diǎn)的人臉
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
三國漫——人臉解鎖
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
平穩(wěn)自相關(guān)過程的殘差累積和控制圖
河南科技(2015年8期)2015-03-11 16:23:52
馬面部與人臉相似度驚人
斗六市| 宜城市| 乌恰县| 布尔津县| 东丽区| 天气| 日土县| 邵阳县| 洮南市| 永善县| 墨脱县| 阿拉善右旗| 海宁市| 古蔺县| 伊通| 龙江县| 福鼎市| 凭祥市| 和硕县| 玉树县| 张家口市| 巴东县| 富顺县| 谢通门县| 曲松县| 古蔺县| 东港市| 达日县| 兴化市| 贵南县| 荣成市| 出国| 蚌埠市| 同仁县| 土默特右旗| 图木舒克市| 铜山县| 吉安市| 烟台市| 曲靖市| 仁布县|