国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的人臉/面癱表情識(shí)別方法

2019-04-15 05:17彭先霖張海曦胡琦瑤
關(guān)鍵詞:多任務(wù)面癱人臉

彭先霖,張海曦,胡琦瑤

(1.西北工業(yè)大學(xué) 電子信息學(xué)院,陜西 西安 710129;2.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)

在心理學(xué)和人工智能領(lǐng)域,人臉表情識(shí)別(facial expression recognition)是一個(gè)持續(xù)不斷的研究課題,在過(guò)去30年中吸引了眾多研究者的關(guān)注,至今仍然是一個(gè)富有挑戰(zhàn)性的課題。

人臉表情通常被劃分為憤怒、蔑視、厭惡、恐懼、幸福、悲傷和驚訝這7類,表情識(shí)別方法主要有基于傳統(tǒng)人工特征提取和分類器相結(jié)合的方法[1-5]和基于深度學(xué)習(xí)的方法。傳統(tǒng)表情識(shí)別方法中人工選擇的特征難以較完整地描述人臉表情特點(diǎn),因此表情識(shí)別效果不佳。深度學(xué)習(xí)由于在特征提取方面的卓越表現(xiàn)已成為目前表情識(shí)別領(lǐng)域的主流方法。Yu[6]構(gòu)建一個(gè) 9 層 CNNs 結(jié)構(gòu),在最后一層連接層采用softmax分類器將表情分為 7 類,該模型在 SFEW2. 0 數(shù)據(jù)集上識(shí)別率達(dá)到 61.29%。Lopes[7]在CNN網(wǎng)絡(luò)前加入預(yù)處理過(guò)程,探索預(yù)處理對(duì)精度的影響,最終識(shí)別率在CK+數(shù)據(jù)集上達(dá)到 97.81%,且訓(xùn)練時(shí)間更短。Wang[8]采用triple損失函數(shù)訓(xùn)練CNN模型,并且運(yùn)用數(shù)據(jù)增強(qiáng)手段,將識(shí)別率提高2%。該模型對(duì)難以區(qū)分的類間表情(如生氣和厭惡)表現(xiàn)優(yōu)良。Zhao[9]融合 MLP 和 DBN,將 DBN 無(wú)監(jiān)督特征學(xué)習(xí)的優(yōu)勢(shì)和MLP的分類優(yōu)勢(shì)聯(lián)系起來(lái)以提高性能。He[10]結(jié)合深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí),首先運(yùn)用LBP/VAR提取初次特征,以初次特征作為 DBN的輸入實(shí)現(xiàn)分類。Li[11]為了解決DBN忽略圖像局部特征的問(wèn)題,將CS-LBP與DBN進(jìn)行融合,提高了識(shí)別率。

面癱是一種常見(jiàn)病,臨床表現(xiàn)為面部表情肌群運(yùn)動(dòng)功能障礙,如口眼歪斜,嚴(yán)重患者甚至無(wú)法完成閉眼、皺眉、微笑等動(dòng)作,因此,可以通過(guò)被觀察者在閉眼、微笑、抬眉、皺眉、聳鼻、示齒和鼓腮等動(dòng)作下的面部表觀特點(diǎn),判斷其是否存在面癱癥狀以及存在哪種癥狀,從而初步判定其是否有面癱疾病。從面癱患者的面部變化特點(diǎn)可以看出,面癱表情可以看作一類特殊的表情劃分類別。與常規(guī)表情類似,面癱表情也體現(xiàn)在嘴巴、鼻子、眉毛等人臉部位的變化,但面癱表情在這些部位的變化特點(diǎn)與常規(guī)表情不同。由此可以推出,人臉常規(guī)表情識(shí)別的方法可以推廣應(yīng)用于面癱表情識(shí)別。

目前計(jì)算機(jī)技術(shù)已初步用于對(duì)面癱表情進(jìn)行自動(dòng)分析。Neely等人提出了一種基于灰度對(duì)比法的面癱識(shí)別算法[12]。Moran等人對(duì)該方法做了推廣,使其具有了更廣泛的應(yīng)用[13]。Murty等采用測(cè)量和比較患者靜態(tài)和固定動(dòng)作狀態(tài)下的特征點(diǎn)間距離的方法來(lái)對(duì)面神經(jīng)功能進(jìn)行量化,得到Nottingham分級(jí)法[14]。王紹宇等人提出了基于特征光流(Eigen flow)特征的面癱客觀評(píng)估算法[15],利用主動(dòng)形狀模型提取出感興趣的人臉區(qū)域和面部特征,然后結(jié)合醫(yī)學(xué)圖像分析方法,使用光流對(duì)面癱時(shí)具有的特殊面部表情進(jìn)行評(píng)價(jià)。閆亞美等提出了一種基于對(duì)稱軸的面癱分級(jí)算法[16],在圖像邊緣提取的基礎(chǔ)上,根據(jù)面癱患者面部不對(duì)稱的特點(diǎn)進(jìn)行面癱識(shí)別。Guo等人提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的面癱客觀評(píng)估算法[17],并在給定的面癱數(shù)據(jù)庫(kù)UPFP數(shù)據(jù)集上得到更高的預(yù)測(cè)精度。

現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)方法大多專注于表情識(shí)別單個(gè)任務(wù),然而,現(xiàn)實(shí)世界中人臉表情與不同個(gè)體的面部形態(tài)、頭部姿勢(shì)、外部光照等多種因素交織在一起。為了減弱面部形態(tài)對(duì)表情識(shí)別的影響,本文構(gòu)建深度多任務(wù)學(xué)習(xí)框架,將知識(shí)從人臉識(shí)別相關(guān)任務(wù)中遷移過(guò)來(lái),克服面部形態(tài)對(duì)表情識(shí)別的影響。考慮到卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)已廣泛用于圖像處理與分析領(lǐng)域[18-19],特別是VGG face[20],Googlenet[21],Resnet 34[22]的優(yōu)秀表現(xiàn),本文選擇這些深度模型來(lái)驗(yàn)證本文所提方法的有效性,并將其推廣到面癱表情識(shí)別。

1 基于分層多任務(wù)學(xué)習(xí)的人臉表情識(shí)別

本文提出的多任務(wù)深度學(xué)習(xí)方法的結(jié)構(gòu)如圖1所示。與傳統(tǒng)的深度CNN方法相比,進(jìn)行了以下改進(jìn):①采用雙層樹(shù)分類器代替深層網(wǎng)絡(luò)中的平面softmax分類器,在提出的網(wǎng)絡(luò)中共同使用人臉表情標(biāo)簽和人臉標(biāo)簽;②利用多任務(wù)深度學(xué)習(xí)方法學(xué)習(xí)不同任務(wù)的特定深度特征。

1.1 分層結(jié)構(gòu)的構(gòu)建

文中構(gòu)建了一個(gè)兩層結(jié)構(gòu)來(lái)體現(xiàn)人臉識(shí)別和人臉表情識(shí)別任務(wù)之間的關(guān)系。對(duì)于人臉表情識(shí)別,其目的是忽略人臉成分并識(shí)別表情成分,而對(duì)于人臉識(shí)別,人臉表情成分應(yīng)該被忽略,重點(diǎn)識(shí)別人臉。本文的多層次結(jié)構(gòu)將不同人臉與不同人臉表情視為一個(gè)新的類別,通過(guò)利用人臉標(biāo)簽和人臉表情標(biāo)簽,學(xué)習(xí)更具辨別力的深層特征。

圖1 分層多任務(wù)學(xué)習(xí)框圖Fig.1 The hierarchical multitasking learning block diagram

多任務(wù)深度學(xué)習(xí)模型采用的層次結(jié)構(gòu)如圖2所示,其中,使用一個(gè)人臉表情識(shí)別分類器和多個(gè)人臉識(shí)別分類器。高層學(xué)習(xí)任務(wù)側(cè)重于人臉表情的識(shí)別,而每個(gè)低層學(xué)習(xí)任務(wù)側(cè)重于人臉識(shí)別(具有相同表情的人臉)。此外,分層結(jié)構(gòu)可用于確定每個(gè)學(xué)習(xí)任務(wù)中的粗節(jié)點(diǎn)(人臉表情)的數(shù)量和低層節(jié)點(diǎn)(人臉)的分布,其中具有相同人臉表情的人臉應(yīng)被分配到相同的學(xué)習(xí)任務(wù)中。

圖2 兩層結(jié)構(gòu)框圖Fig.2 The two-layer structure block diagram

1.2 基于分層結(jié)構(gòu)的多任務(wù)深度學(xué)習(xí)

如上所述,使用兩層樹(shù)分類器來(lái)代替?zhèn)鹘y(tǒng)深層網(wǎng)絡(luò)中的平面softmax分類器,在提出的網(wǎng)絡(luò)中,可利用人臉表情標(biāo)簽和人臉標(biāo)簽來(lái)幫助深度網(wǎng)絡(luò)學(xué)習(xí)更具辨別力的深度特征。更重要的是,由于人臉表情的變化會(huì)影響人臉識(shí)別的準(zhǔn)確率,因此,應(yīng)該針對(duì)不同的分類任務(wù)使用特定的深度特征。

對(duì)于輸入圖像I,屬于第l個(gè)人臉表情的對(duì)象圖像I的預(yù)測(cè)概率可以用式(1)計(jì)算,

(1)

其中,We表示人臉表情識(shí)別分類器權(quán)重參數(shù);xe表示人臉表情識(shí)別學(xué)習(xí)的特定深部特征;M是粗粒度屬(人臉表情)的總數(shù)。人臉表情識(shí)別的預(yù)測(cè)概率可用于選擇特定的人臉識(shí)別分類器。對(duì)于對(duì)應(yīng)于第l個(gè)表情的第l個(gè)低層分類器,輸入圖像I屬于第j個(gè)類別的預(yù)測(cè)概率可以表示為

(2)

其中,Wf表示特定的人臉識(shí)別分類器權(quán)重參數(shù);xf表示用于人臉識(shí)別的特定深度特征;Hl是對(duì)象圖像被分類的特定學(xué)習(xí)任務(wù)。

由于最終預(yù)測(cè)概率可計(jì)算為P(I∈el)P(I∈fj),因此深層網(wǎng)絡(luò)的損失函數(shù)可以表示為

£(W,x)=

(3)

本文提出目標(biāo)函數(shù)旨在最大化人臉表情識(shí)別和人臉識(shí)別的正確預(yù)測(cè)概率,因此,在每次迭代期間可以聯(lián)合優(yōu)化多級(jí)分類器中的權(quán)重參數(shù)。

損失函數(shù)用于在訓(xùn)練過(guò)程中優(yōu)化分層樹(shù)分類器中的所有權(quán)重參數(shù),可通過(guò)誤差反向傳播的方法進(jìn)行學(xué)習(xí)。具體而言,可分別在式(4)和式(5)中計(jì)算多級(jí)分類器X和Y中的權(quán)重參數(shù)的對(duì)應(yīng)梯度

(4)

(5)

可以看到,與傳統(tǒng)的反向傳播不同,在每次迭代過(guò)程中只優(yōu)先考慮相關(guān)的學(xué)習(xí)任務(wù)。這是因?yàn)?損失函數(shù)僅考慮分層樹(shù)分類器中的相關(guān)權(quán)重參數(shù),以及其他學(xué)習(xí)任務(wù)的預(yù)測(cè)概率,防止在訓(xùn)練過(guò)程中遠(yuǎn)離全局最優(yōu)。

2 實(shí) 驗(yàn)

本文提出的分層多任務(wù)學(xué)習(xí)方法在流行的人臉表情數(shù)據(jù)集(CK+)[23]上進(jìn)行了對(duì)比實(shí)驗(yàn),并進(jìn)一步在面癱表情數(shù)據(jù)庫(kù)上進(jìn)行了本文方法的有效性驗(yàn)證。

2.1 CK+數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

CK+數(shù)據(jù)集:擴(kuò)展CohnKanade*(CK+)數(shù)據(jù)集是用于評(píng)估人臉表情識(shí)別方法的最常用數(shù)據(jù)集之一。 CK+包含來(lái)自123名受試者的593個(gè)視頻序列,其中只有327個(gè)被標(biāo)記。CK+數(shù)據(jù)集未為每幅圖像提供精確的標(biāo)簽,只有圖像序列有標(biāo)簽,序列中包含了從平靜到表情表現(xiàn)峰值的圖像。因此通過(guò)對(duì)應(yīng)表情序列取表情峰值附近的3幀。之后,9個(gè)子集用于訓(xùn)練,另一個(gè)子集用于驗(yàn)證。文中118個(gè)具有精確標(biāo)簽的受試者被分配到7個(gè)粗類別(人臉表情)中。值得注意的是,由于每個(gè)類別的CK+數(shù)據(jù)集中沒(méi)有足夠的圖像,因此,本文以VGG-face人臉模型參數(shù)為基礎(chǔ)進(jìn)行訓(xùn)練。

所有方法在CK+數(shù)據(jù)集上的識(shí)別準(zhǔn)確率如表1所示,可以很容易地發(fā)現(xiàn),本文所提出的方法在準(zhǔn)確率方面取得了很好的表現(xiàn)。與基于低級(jí)特征的方法(如HOG3D[24]或3D Sift[25])相比,基于深度學(xué)習(xí)的方法在學(xué)習(xí)可靠性和特征提取上均具有更好的表現(xiàn)。此外,與基于深度學(xué)習(xí)的已有方法(3DCNN[26],DTGAN[27],PHRNN-MSCNN[28],Inception V3[21],Resnet 34[22],VGG-face[20])相比,本文提出的方法仍然可以在依賴于人的實(shí)驗(yàn)中獲得最佳性能,更重要的是,可以在不依賴于人的實(shí)驗(yàn)上得到更多的改善。

表1 CK+數(shù)據(jù)集上不同表情識(shí)別方法的準(zhǔn)確率

Tab.1 Accuracy of different expression recognition methods on CK+data sets

方法 準(zhǔn)確率/%HOG3D 60.89 3D Sift 64.39 3DCNN 85.9 3DCNN-DAP 92.4 DTGAN(weighted sum) 96.94 DTGAN(joint) 97.25 PHRNN-MSCNN 97.78 VGG face fintune(person-dependent) 96.42 Our method(person-dependent) 97.53 VGG face fintune(person-independent) 92.70 Our method(person-independent)95.64Inception V3(person-dependent)100.0Our method(person-dependent)100.0Inception V3(person-independent)93.35Our method(person-independent)96.02Resnet 34(person-dependent)100.0Our method(person-dependent)100.0Resnet 34(person-independent)94.21Our method(person-independent) 96.62

同樣容易理解的是,依賴于人臉的準(zhǔn)確率高于不依賴于人臉的準(zhǔn)確率,因?yàn)槿四樞畔⒖梢栽谏顚泳W(wǎng)絡(luò)中學(xué)習(xí),并且可能影響表情識(shí)別。與傳統(tǒng)深度CNN方法相比,本文提出的方法可以實(shí)現(xiàn)更高的準(zhǔn)確率。

提出方法的混淆矩陣如表2所示,從表2可以看到,本文提出的方法可以在某些人臉表情(如憤怒,蔑視,厭惡,恐懼和幸福)上獲得令人滿意的表現(xiàn),而對(duì)于其他一些人臉表情(如悲傷和驚喜),由于表情彼此相似,難以區(qū)分,識(shí)別準(zhǔn)確率仍相對(duì)較低。

表2 本文方法在CK +數(shù)據(jù)庫(kù)上的混淆矩陣(依賴于人的結(jié)果)

Tab.2 The confusion matrix of this method on CK+database (depending on human results)

憤怒蔑視厭惡恐懼幸福悲傷驚訝?wèi)嵟?00000000蔑視010000000厭惡001000000恐懼000100000幸福000010000悲傷7.3206.410086.270驚訝01.45000098.55

2.2 面癱表情數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

考慮到面癱表情和基本人臉表情間的相關(guān)性,本文提出的分層多任務(wù)深度學(xué)習(xí)方法進(jìn)一步在面癱表情識(shí)別問(wèn)題上進(jìn)行了驗(yàn)證。

目前,國(guó)內(nèi)外沒(méi)有統(tǒng)一的面癱評(píng)估標(biāo)準(zhǔn)和公用數(shù)據(jù)庫(kù),在本實(shí)驗(yàn)中,利用一個(gè)尚未公開(kāi)的面癱表情數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。如圖3所示,該數(shù)據(jù)庫(kù)記錄了49名面癱患者的7種面癱表情動(dòng)作(閉眼、微笑、抬眉、皺眉、聳鼻、示齒和鼓腮)。

圖3 同一個(gè)人的7種面癱表情Fig.3 Seven facial expressions of the same person

由于所得的面癱數(shù)據(jù)有限,每一個(gè)人對(duì)應(yīng)每一個(gè)表情動(dòng)作只有一張圖片,因此在本實(shí)驗(yàn)中只能進(jìn)行face-independent的實(shí)驗(yàn)。在實(shí)驗(yàn)中,本文選擇了268個(gè)面癱表情樣本作為訓(xùn)練樣本,40個(gè)樣本作為測(cè)試樣本。

實(shí)驗(yàn)結(jié)果如表3和圖 4所示。可以發(fā)現(xiàn),本文提出的模型在面癱表情動(dòng)作的識(shí)別上依舊可以得到一定的提升。相比傳統(tǒng)的手工特征方法, 基于深度學(xué)習(xí)的算法能夠得到更加穩(wěn)定的特征。而且本文提出的算法通過(guò)利用人臉信息和表情信息,可以使深度網(wǎng)絡(luò)學(xué)習(xí)得到可分性更強(qiáng)的特征。但是由于數(shù)據(jù)量極少,因此有限的數(shù)據(jù)可能難以將網(wǎng)絡(luò)參數(shù)進(jìn)行有效的優(yōu)化。同時(shí)可以發(fā)現(xiàn),微笑和皺眉很難被正確區(qū)分,這是因?yàn)檫@兩種表情很容易與其他表情混淆。

表3 面癱表情數(shù)據(jù)庫(kù)上不同方法的準(zhǔn)確率

Tab.3 Accuracy of different methods on the facial expression database

方法準(zhǔn)確率 VGG-fintune62.50 VGG+multi-task learning67.50Inception V370.00Inception V3+multi-task learning72.50Resnet 3475.00 Resnet 34+multi-task learning 80.00

圖4 面癱數(shù)據(jù)集3種方法正確率比較Fig.4 Comparison of the correctness rates of three methods for facial data sets

3 結(jié) 語(yǔ)

本文提出了一種基于分層多任務(wù)學(xué)習(xí)的人臉表情識(shí)別方法。該方法采用雙層樹(shù)分類器代替?zhèn)鹘y(tǒng)深層CNN中的平面softmax分類器,構(gòu)成在表情識(shí)別同時(shí)考慮人臉識(shí)別的多任務(wù)學(xué)習(xí)框架,與用于人臉表情識(shí)別的傳統(tǒng)單層分類器相比,有效提高了表情識(shí)別率。本文進(jìn)一步將提出的方法推廣應(yīng)用于面癱表情識(shí)別中,也取得較好的識(shí)別效果。

猜你喜歡
多任務(wù)面癱人臉
東紅分期辨治周圍性面癱經(jīng)驗(yàn)
結(jié)合自監(jiān)督學(xué)習(xí)的多任務(wù)文本語(yǔ)義匹配方法
有特點(diǎn)的人臉
一起學(xué)畫(huà)人臉
針?biāo)幉⒂弥委熤車悦姘c驗(yàn)案舉隅
穴位按摩與康復(fù)訓(xùn)練治療周圍性面癱的療效觀察
基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
三國(guó)漫——人臉解鎖
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
長(zhǎng)得象人臉的十種動(dòng)物
阿尔山市| 晋江市| 杭锦后旗| 安丘市| 宿州市| 宽城| 宁津县| 曲阳县| 阳新县| 城固县| 平乐县| 太白县| 香河县| 常山县| 绿春县| 太仓市| 沾化县| 阳西县| 茌平县| 方正县| 海城市| 页游| 垫江县| 桐柏县| 明溪县| 介休市| 松潘县| 连州市| 盘锦市| 永州市| 法库县| 璧山县| 东丰县| 和平县| 杂多县| 虞城县| 观塘区| 海门市| 阜城县| 兴海县| 琼海市|