管子玉,劉 杰,謝 飛,許鵬飛,辛?xí)澡?/p>
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;2.上海交通大學(xué) 醫(yī)學(xué)院 附屬瑞金醫(yī)院,上海 200025)
面癱是一種常見(jiàn)病,發(fā)病范圍很廣,不受年齡限制,不僅會(huì)對(duì)患者的生活造成一定的影響,同時(shí)也會(huì)對(duì)其內(nèi)心造成一定的打擊,嚴(yán)重影響著患者的身心健康。隨著面癱發(fā)病率的不斷增加,越來(lái)越多的學(xué)者開(kāi)始關(guān)注面癱識(shí)別研究。
為實(shí)現(xiàn)面癱的自動(dòng)識(shí)別,目前國(guó)內(nèi)外諸多學(xué)者已對(duì)該方面進(jìn)行了研究。他們通過(guò)關(guān)注靜態(tài)面部不對(duì)稱和動(dòng)態(tài)面部變化、跟蹤面部關(guān)鍵點(diǎn)的運(yùn)動(dòng)差異、利用深度學(xué)習(xí)方法對(duì)關(guān)鍵點(diǎn)進(jìn)行定位、利用深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)提取特征等方法對(duì)面癱進(jìn)行識(shí)別[1-6]。然而,這些方法均根據(jù)人臉的面部異?;虿粚?duì)稱情況進(jìn)行判定,比較武斷地將面部不對(duì)稱或異常確定為面癱?,F(xiàn)實(shí)中存在一些面部異常但并非是面癱患者的人,這種情況我們稱之為假面癱現(xiàn)象。由于研究者們忽略了假面癱現(xiàn)象的存在,使得現(xiàn)有的面癱識(shí)別方法存在誤判情況,從而在一定程度上降低了面癱識(shí)別的準(zhǔn)確率。因此,針對(duì)上述存在的假陽(yáng)性問(wèn)題(稱為“假面癱”),目前的面癱識(shí)別研究領(lǐng)域需要一種更魯棒的自動(dòng)化識(shí)別方法對(duì)真假面癱進(jìn)行識(shí)別。
通過(guò)對(duì)真假面癱的圖像和視頻數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),面癱患者在重復(fù)做一個(gè)面部動(dòng)作(如閉眼)時(shí),患者每次所做動(dòng)作幾乎無(wú)明顯差異,而讓假面癱對(duì)象在不同時(shí)刻重復(fù)做相同的面部動(dòng)作(如正常人模仿面癱患者的動(dòng)作)時(shí),其動(dòng)作前后往往會(huì)出現(xiàn)明顯差異,如圖1所示。
(a1)與(a2)表示面癱患者的兩次閉眼動(dòng)作;(b1)和(b2)表示正常人兩次閉眼動(dòng)作圖1 真假面癱不同時(shí)刻動(dòng)作圖像對(duì)比Fig.1 Comparison of the facial states between a facial paralysis patient and a normal person at different times
根據(jù)以上情況,我們認(rèn)為識(shí)別真假面癱的一個(gè)重要依據(jù)為不同時(shí)刻動(dòng)作的前后差異,當(dāng)前后動(dòng)作差異較大時(shí),存在較大概率為假面癱,當(dāng)前后動(dòng)作差異較小時(shí),較大概率為真面癱患者。以往基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,人們提出了面癱識(shí)別和評(píng)價(jià)的方法[1,7-8],它們需要執(zhí)行多個(gè)預(yù)處理步驟,并且提取的面部特征不包含多次重復(fù)相同面部診斷動(dòng)作時(shí)的面部狀態(tài)差異信息。近年來(lái),學(xué)術(shù)界對(duì)于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)有了更深入的研究,例如孿生網(wǎng)絡(luò)使用雙通道CNN分別提取兩幅圖像的特征,并計(jì)算兩個(gè)特征向量之間的歐式距離以評(píng)估兩幅圖像的相似性[9-10]。本文面癱的識(shí)別主要基于不同時(shí)刻做同一面部診斷動(dòng)作時(shí)面部狀態(tài)的不同。受孿生網(wǎng)絡(luò)思想的啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)新的神經(jīng)網(wǎng)絡(luò)模型,稱為深度差異性網(wǎng)絡(luò)(DDN)。它以兩張面部圖像作為輸入,代表不同時(shí)刻同一面部診斷動(dòng)作幅度達(dá)到最大時(shí)的面部狀態(tài)。不同于傳統(tǒng)的孿生網(wǎng)絡(luò),我們的目標(biāo)是測(cè)量能夠區(qū)分真假面癱病例的“差異”,總體思路如圖2所示。
圖2 總體解決方案Fig.2 The overall solution scheme
DDN通過(guò)一個(gè)雙數(shù)據(jù)流卷積神經(jīng)網(wǎng)絡(luò)(two-stream CNN)提取不同時(shí)刻的同位狀態(tài)圖像的深層特征,并根據(jù)所提取特征計(jì)算兩張圖像間的特征差異;再利用單分支CNN提取深層差異特征的特征,實(shí)現(xiàn)真假面癱識(shí)別。在DDN中,two-stream CNN提取的是一對(duì)圖像的深層特征圖,特征圖的提取保留了圖像的紋理、形狀、面部器官位置等特征信息;通過(guò)計(jì)算兩張圖像的特征圖差異(稱為“差異特征圖”),可獲得面部紋理、形狀、面部器官位置等特征的差異;通過(guò)CNN提取差異特征圖的特征(即自動(dòng)提取對(duì)判斷真假面癱有益的高層特征),使得網(wǎng)絡(luò)著重關(guān)注于面部圖像之間差異信息的特征。
現(xiàn)如今由于面癱發(fā)病率的不斷增高,高效、自動(dòng)化的面癱識(shí)別方法成為臨床診斷的迫切需要,目前,國(guó)內(nèi)外諸多學(xué)者已對(duì)面癱識(shí)別進(jìn)行了相關(guān)研究,提出了各種基于不同算法的面癱識(shí)別方法,這些識(shí)別方法為臨床診斷提供極為高效、便利的診斷途徑,克服了主觀因素對(duì)診斷結(jié)果的影響,并且在一定程度上達(dá)到了較高的識(shí)別率。
1)基于關(guān)鍵點(diǎn)檢測(cè)和邊緣檢測(cè)算法的面癱識(shí)別研究:Liu Li′an等人在2010年提出利用SUSAN邊緣檢測(cè)算法,通過(guò)關(guān)注特定面部區(qū)域的表面積變化對(duì)面癱進(jìn)行識(shí)別[11];Wang Ting等人在2016年的面癱研究中提出,利用主動(dòng)形狀模型(ASM)的關(guān)鍵點(diǎn)定位算法,結(jié)合患者面部靜態(tài)特征與動(dòng)態(tài)變化,根據(jù)靜態(tài)面部不對(duì)稱和動(dòng)態(tài)面部變化自動(dòng)評(píng)估面部麻痹程度[1];Nishida等人同樣利用關(guān)鍵點(diǎn)檢測(cè)算法,選擇左頰點(diǎn)和右頰點(diǎn)作為一對(duì)關(guān)鍵點(diǎn)進(jìn)行定量分析,首先計(jì)算出關(guān)鍵點(diǎn)移動(dòng)距離,然后根據(jù)關(guān)鍵點(diǎn)之間的運(yùn)動(dòng)差異對(duì)麻痹程度進(jìn)行定量測(cè)量[2]。
2)基于紅外熱成像和濾波器算法的面癱識(shí)別研究:Liu Xulong等人利用一種紅外熱成像算法,以獲得面部相關(guān)區(qū)域的溫度分布特征,實(shí)現(xiàn)面癱的自動(dòng)化評(píng)估[12];Ngo等人提出利用同心調(diào)制濾波器,對(duì)濾波后的圖像進(jìn)行臉部?jī)蓚?cè)對(duì)稱性和不對(duì)稱性的測(cè)量,根據(jù)測(cè)量信息對(duì)面癱進(jìn)行評(píng)估分析[13]。
3)基于深度學(xué)習(xí)方法的面癱識(shí)別研究:Yoshihara等人提出了基于深度CNN的面癱特征點(diǎn)自動(dòng)檢測(cè)方法,先利用主動(dòng)外觀模型(AAM)進(jìn)行關(guān)鍵點(diǎn)檢測(cè),之后將中心帶有檢測(cè)點(diǎn)(特征點(diǎn))的區(qū)域作為DCNN輸入,實(shí)現(xiàn)關(guān)鍵點(diǎn)精確定位[5];Guo Zhexiao等人提出利用DCNN算法對(duì)面癱進(jìn)行客觀評(píng)估,將整張圖像作為輸入,捕捉臉部區(qū)域并通過(guò)DCNN提取特征[6]。
這些基于不同算法的面癱自動(dòng)化識(shí)別方法雖然能在一定程度對(duì)面癱癥狀進(jìn)行識(shí)別,但仍存在一些問(wèn)題:①在基于邊緣檢測(cè)與關(guān)鍵點(diǎn)檢測(cè)的識(shí)別算法中,首先,邊緣檢測(cè)與關(guān)鍵點(diǎn)檢測(cè)大多依賴于檢測(cè)模板,模板的質(zhì)量會(huì)對(duì)其準(zhǔn)確性產(chǎn)生一定的影響;其次,一些方法根據(jù)圖像區(qū)域計(jì)算表面積差異,或根據(jù)關(guān)鍵點(diǎn)位置距離計(jì)算面部不對(duì)稱性,這類方法不能體現(xiàn)其較好的適用性,且計(jì)算方法復(fù)雜、計(jì)算量大;再者,傳統(tǒng)的特征提取方法只能提取紋理形狀等單方面特征,不能對(duì)其進(jìn)行有效的結(jié)合。②基于紅外熱成像和濾波器的識(shí)別方法的缺點(diǎn)在于,利用紅外熱成像技術(shù)形成的圖像對(duì)比度低,分辨細(xì)節(jié)的能力較差;利用濾波器方法對(duì)圖像濾波后進(jìn)行測(cè)量同樣依賴于測(cè)量模板。此外,這些算法均針對(duì)單張圖像的面部異常情況作出評(píng)估,比較武斷地將面部異常的圖像確定為面癱圖像。③基于深度學(xué)習(xí)的識(shí)別方法對(duì)于特征的學(xué)習(xí)有了較好的效果,一定程度上提高了面癱識(shí)別的準(zhǔn)確率并減少了計(jì)算量,但與以上非深度學(xué)習(xí)方法一樣,均存在一個(gè)問(wèn)題:將單幅人臉圖像呈現(xiàn)異常者判定為面癱患者。可見(jiàn),現(xiàn)有的面癱識(shí)別算法最為突出的問(wèn)題是,忽略了正常未患病的人(假面癱)亦可能存在面部異常和不對(duì)稱,無(wú)法很好地區(qū)分真假面癱。當(dāng)假面癱數(shù)據(jù)存在時(shí),識(shí)別結(jié)果存在一定的誤判。因此,本文希望通過(guò)設(shè)計(jì)一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)對(duì)真假面癱的較好識(shí)別。
對(duì)于實(shí)驗(yàn)數(shù)據(jù)中的視頻數(shù)據(jù),我們需要提取視頻動(dòng)作的關(guān)鍵幀,用于DDN的訓(xùn)練與測(cè)試。針對(duì)這個(gè)問(wèn)題,我們利用multi-stage CNNs方法定位視頻中動(dòng)作的起始與結(jié)束位置[14-17],獲取動(dòng)作發(fā)生的連續(xù)幀,并選取這些動(dòng)作連續(xù)幀的中間幀(即動(dòng)作幅度最大時(shí)的幀)作為實(shí)驗(yàn)所用數(shù)據(jù),關(guān)鍵幀獲取過(guò)程如圖3所示。
圖3 利用multi-stage CNNs獲取視頻動(dòng)作關(guān)鍵幀F(xiàn)ig.3 The key frames obtained by multi-stage CNNs from videos
在實(shí)驗(yàn)過(guò)程中,由于數(shù)據(jù)采集的環(huán)境不同,導(dǎo)致數(shù)據(jù)間存在不同的背景信息,而DDN的重要依據(jù)為圖像特征的差異性,因此,這些背景信息一定程度上干擾了實(shí)驗(yàn)效果,降低了識(shí)別的準(zhǔn)確率。為了盡可能地降低背景信息對(duì)實(shí)驗(yàn)結(jié)果的干擾,對(duì)于實(shí)驗(yàn)數(shù)據(jù),需要最大程度去除圖像的背景信息。本文利用Faster R-CNN進(jìn)行區(qū)域檢測(cè)[18-20],提取圖像中臉部區(qū)域,去除與臉部信息無(wú)關(guān)的背景信息,盡可能地避免因背景不同而產(chǎn)生的圖像之間的差異信息對(duì)實(shí)驗(yàn)結(jié)果所造成的影響,如圖4所示。
圖4 Faster R-CNN目標(biāo)檢測(cè)Fig.4 Object detection with Faster R-CNN
本文根據(jù)真假面癱的識(shí)別依據(jù)——不同時(shí)刻同一診斷面部動(dòng)作間的差異,設(shè)計(jì)了一套基于DDN的面癱識(shí)別算法。該網(wǎng)絡(luò)模型的基本原理是通過(guò)two-stream CNN提取深層特征的差異性信息,再利用CNN從該差異性信息中進(jìn)一步提取差異的特征,最終根據(jù)深度差異特征對(duì)面癱的真假性進(jìn)行識(shí)別。
根據(jù)DDN的設(shè)計(jì)原理,可將網(wǎng)絡(luò)分成兩部分。前半部分為two-stream CNN,用于深度特征圖提取。我們將被測(cè)對(duì)象在不同時(shí)刻所做同一動(dòng)作的兩張圖像輸入two-stream CNN,分別得到兩張圖像的輸出特征圖序列,然后,將兩個(gè)特征圖序列分別進(jìn)行融合(256個(gè)特征圖融合成一張),形成一對(duì)特征圖,進(jìn)而構(gòu)造一個(gè)特征圖差異度量,作為兩張圖片的差異性特征的計(jì)算函數(shù),得到差異特征圖。后半部分用于提取差異特征圖的特征,將網(wǎng)絡(luò)前半部分獲取的差異特征圖輸入一個(gè)深層CNN,提取差異特征(特征圖間的差異)的特征,并利用softmax函數(shù)進(jìn)行分類,得到真假面癱識(shí)別結(jié)果。
根據(jù)孿生網(wǎng)絡(luò)原理[9-10],two-stream CNN采用同一網(wǎng)絡(luò)相同參數(shù)的模型:包含7個(gè)卷積層和兩個(gè)池化層,同時(shí)提取兩張圖片的深層特征。由于在提取差異特征時(shí),需要關(guān)注的是人臉圖像的紋理及器官位置、形狀等信息,根據(jù)這些信息的差異來(lái)識(shí)別面癱的真假性,因此,在two-stream CNN部分,需要通過(guò)多個(gè)卷積層提取圖像的深層特征圖。通過(guò)利用不同深度的網(wǎng)絡(luò)模型提取特征圖,我們發(fā)現(xiàn)7個(gè)卷積層可以將圖像的紋理特征等信息較好地提取出來(lái),并且為差異特征函數(shù)提供較為清晰且適用的數(shù)據(jù)信息。
通過(guò)實(shí)驗(yàn)分析,我們將two-stream CNN訓(xùn)練模型最終確定為有7個(gè)卷積層與兩個(gè)池化層組成的CNN:
(conv+ReLU)+
(conv+ReLU+pooling)+
(conv+ReLU)+
(conv+ReLU+pooling)+
(conv+ReLU)×3
(1)
網(wǎng)絡(luò)卷積層的卷積核大小均為3×3,步長(zhǎng)默認(rèn)為1,池化層池化大小均為2×2,步長(zhǎng)為2,激活函數(shù)均采用ReLU函數(shù)[21],通過(guò)多層卷積和池化最終獲得256個(gè)深層特征圖。這樣,就通過(guò)7層卷積和兩層池化,最終從每對(duì)人臉圖像數(shù)據(jù)中分別獲取包含256個(gè)特征圖的序列F(Im),Im表示輸入的圖像,m為圖像序號(hào),m=1,2。
F(Im)=(fm,1,fm,2,fm,3,…,fm,256)。
(2)
其中,fm,i表示第m個(gè)圖像的第i個(gè)特征圖,i=1,2,…,256。
DDN的核心是特征的差異性特征。孿生卷積網(wǎng)絡(luò)通過(guò)計(jì)算圖像特征的歐式距離來(lái)判定相似度,而DDN關(guān)注于圖像的紋理差異,眼、鼻子、嘴等器官的位置與形狀差異等信息,這些差異作為真假面癱的判定依據(jù)。因此,我們希望獲取人臉圖像數(shù)據(jù)的特征圖之間的差異,通過(guò)提取差異特征圖的特征來(lái)判定面癱的真假性。
為了獲取由two-stream CNN提取的特征圖之間的差異,在網(wǎng)絡(luò)中需要構(gòu)造一個(gè)度量函數(shù),用于計(jì)算深度特征的差異特征圖。
由于CNN提取的特征圖為一個(gè)序列,為了方便計(jì)算圖像特征圖之間的差異,把由two-stream CNN提取的特征圖序列F(I1)和F(I2)分別進(jìn)行融合,
Fm=(fm,1+fm,2+fm,3+…+fm,256)/256。
(3)
其中,F(xiàn)m表示融合后的特征圖。每對(duì)圖像數(shù)據(jù)得到融合后的特征圖F1和F2,然后構(gòu)造一個(gè)用于獲取差異特征的度量函數(shù),
DF=F1-F2。
(4)
我們發(fā)現(xiàn),通過(guò)這個(gè)簡(jiǎn)單的差異特征度量函數(shù)可以有效提取兩個(gè)特征圖的差異信息,得到差異特征圖。
DDN后半部分的主要作用是通過(guò)提取深度差異特征的特征以實(shí)現(xiàn)真假面癱識(shí)別。研究表明,CNN可在其頂層加上一個(gè)softmax作為分類器,廣泛應(yīng)用于圖像分類,并達(dá)到了極高的分類準(zhǔn)確率。我們?cè)诰W(wǎng)絡(luò)結(jié)構(gòu)后半部分連接一個(gè)二元分類器,以進(jìn)行真假面癱識(shí)別。通過(guò)模型訓(xùn)練測(cè)試發(fā)現(xiàn),一個(gè)深度為8的CNN可以實(shí)現(xiàn)較好的分類效果,因此,我們將網(wǎng)絡(luò)后半部分的CNN結(jié)構(gòu)設(shè)置為
(conv+ReLU+pooling+LRN)×2+
(conv+ReLU)×2+
(conv+ReLU+pooling)+
(fc+ReLU)×2+softmax
(5)
網(wǎng)絡(luò)第1層卷積層采用大小為11×11、步長(zhǎng)為4的卷積核,第2層卷積核大小為5×5,步長(zhǎng)默認(rèn)為1,前兩層在進(jìn)行卷積和池化的同時(shí),利用LRN(Local response normalization)技術(shù)進(jìn)行歸一化。第3,4,5層卷積核大小均為3×3,步長(zhǎng)默認(rèn)為1,網(wǎng)絡(luò)中池化大小均為3×3,步長(zhǎng)為2。該單分支網(wǎng)絡(luò)利用多層卷積與池化,提取深度差異特征的高層特征,再通過(guò)2層全連接層,送入softmax層輸出最終分類結(jié)果。網(wǎng)絡(luò)整體設(shè)計(jì)框圖如圖5所示,圖6顯示了DDN在特定示例下的內(nèi)部狀態(tài)。
圖5 深度差異性網(wǎng)絡(luò)(DDN)Fig.5 Deep differentiated network (DDN)
圖6 特定例子中深度差異性網(wǎng)絡(luò)的內(nèi)部狀態(tài)Fig.6 The intermediate results of the DDN for a specific sample instance
我們用two-stream CNN提取圖像深層特征,然后用差異特征函數(shù)計(jì)算特征差異,最后用單分支CNN提取深度差異特征的特征并進(jìn)行分類。這些組件共同組成了深度差異性特征網(wǎng)絡(luò)DDN,實(shí)現(xiàn)了對(duì)真假面癱的分類識(shí)別。綜上所述,DDN是一個(gè)根據(jù)差異性特征的特征進(jìn)行分類的深度神經(jīng)網(wǎng)絡(luò)模型。
為驗(yàn)證提出的方法能夠有效識(shí)別真假面癱,我們采集了面癱患者和正常人在做面部動(dòng)作時(shí)的視頻進(jìn)行實(shí)驗(yàn),并針對(duì)訓(xùn)練過(guò)程及測(cè)試結(jié)果對(duì)比現(xiàn)有幾種識(shí)別方法進(jìn)行討論。
在數(shù)據(jù)采集過(guò)程中,我們借鑒Kihara等人提出的動(dòng)態(tài)面部表情數(shù)據(jù)庫(kù)的建立方法和臨床醫(yī)生的面癱診斷流程[22],建立了一個(gè)視頻數(shù)據(jù)庫(kù),記錄了健康志愿者和面癱患者的面部動(dòng)作。其中面癱患者的數(shù)據(jù)包括微笑、示齒、聳鼻、皺眉、抬眉、閉眼、鼓腮等動(dòng)作數(shù)據(jù);健康志愿者的面部數(shù)據(jù)包括正常人模仿面癱患者各類動(dòng)作的數(shù)據(jù)。對(duì)于數(shù)據(jù)的要求:每位動(dòng)作數(shù)據(jù)提供者需針對(duì)同一動(dòng)作在不同的時(shí)刻隨機(jī)重復(fù)做兩次。通過(guò)這種采集方式,我們收集了57例面癱患者和106例正常人的面部運(yùn)動(dòng)錄像。經(jīng)過(guò)視頻編輯,共有2 282個(gè)視頻片段(163×7×2)作為實(shí)驗(yàn)數(shù)據(jù),即1 141對(duì)。從這些視頻中提取的一些面部圖像或幀記錄了相應(yīng)的面部動(dòng)作的最大面部狀態(tài),如圖7和圖8所示。圖7(a)和圖8(a)分別是真假面癱閉眼的面部動(dòng)作,圖7(a1),7(a2)和圖8(a1),8(a2)是在不同時(shí)間出現(xiàn)的最大面部狀態(tài),圖7(b),7(c)和圖8(b),8(c)展示的是另外兩種面部動(dòng)作的結(jié)果??梢?jiàn),面癱患者在不同時(shí)刻做同一診斷動(dòng)作時(shí)所出現(xiàn)的最大面部狀態(tài)非常相似,但正常人的面部狀態(tài)卻存在一定的差異。
圖7 面癱人臉部分動(dòng)作圖像Fig.7 Partial movement images of a facial paralysis patient face
圖8 假面癱人臉部分動(dòng)作圖像Fig.8 Partial movements images of false facial paralysis face
在模型訓(xùn)練之前,對(duì)采集到的原始視頻進(jìn)行一些預(yù)處理,利用Multi-stage CNNs從視頻中提取記錄最大面部運(yùn)動(dòng)的關(guān)鍵幀[14-16],并通過(guò)Faster RCNN檢測(cè)主要面部區(qū)域,以去除大部分無(wú)關(guān)的背景信息[18-20],如圖9所示。
圖9 對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理去除背景信息Fig.9 Image data preprocessing by Faster RCNN to remove background information
在DDN的訓(xùn)練過(guò)程中,使用疑似患者的兩幅記錄了同一面部動(dòng)作在達(dá)到最大幅度面部運(yùn)動(dòng)狀態(tài)時(shí)的面部圖像作為DDN的輸入數(shù)據(jù),實(shí)現(xiàn)對(duì)面部癱瘓的識(shí)別。在實(shí)驗(yàn)中,700對(duì)人臉圖像用作訓(xùn)練數(shù)據(jù),剩下的441對(duì)人臉圖像用作測(cè)試數(shù)據(jù)。將該過(guò)程重復(fù)10次,并對(duì)實(shí)驗(yàn)結(jié)果的平均值進(jìn)行分析。
對(duì)于實(shí)驗(yàn)數(shù)據(jù),需要說(shuō)明的是,由于數(shù)據(jù)采集是個(gè)不連續(xù)的過(guò)程,所有的視頻片段都是在任意地點(diǎn)和隨機(jī)時(shí)間拍攝的,因此造成部分?jǐn)?shù)據(jù)存在背景不同、臉部發(fā)生偏轉(zhuǎn)等現(xiàn)象,使得數(shù)據(jù)存在由外部因素產(chǎn)生的較大差異;此外,由于不同的人對(duì)于臨床診斷面部動(dòng)作有不同的理解,這導(dǎo)致疑似患者在重復(fù)相同的診斷面部動(dòng)作時(shí),其面部狀態(tài)是不同的?;谏鲜銮闆r,我們的識(shí)別結(jié)果在一定程度上依賴于所選數(shù)據(jù),識(shí)別任務(wù)難度較大。
由于本文的任務(wù)是識(shí)別真假面癱,假面癱中包括了自然不對(duì)稱的人臉數(shù)據(jù)以及正常人模仿面癱病人的表情動(dòng)作數(shù)據(jù)。而現(xiàn)有的面癱識(shí)別方法關(guān)注點(diǎn)均為面部異常或不對(duì)稱,且大多以面部不對(duì)稱性作為識(shí)別依據(jù),造成將假面癱現(xiàn)象誤識(shí)別為面癱的情況。這些現(xiàn)有方法不具備識(shí)別假面癱的能力,無(wú)法達(dá)到識(shí)別真假面癱的效果,因此,本文中我們不再與這些方法進(jìn)行實(shí)驗(yàn)比較。
針對(duì)真假面癱的識(shí)別任務(wù),根據(jù)現(xiàn)有方法的識(shí)別原理,我們選取了幾種具有代表性的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)并觀察效果:LeNet,AlexNet和VGG,這些方法均利用一個(gè)單一的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行面癱識(shí)別,將帶有標(biāo)簽的單一的實(shí)驗(yàn)數(shù)據(jù)直接輸入網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)提取特征,并利用softmax實(shí)現(xiàn)二分類得到分類結(jié)果,實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看到,這些傳統(tǒng)方法的面癱識(shí)別效果并不太好,DDN在多個(gè)評(píng)價(jià)指標(biāo)方面比這些傳統(tǒng)方法具有更好的性能。平均起來(lái),DDN比VGG,AlexNet和LeNet在準(zhǔn)確率方面提高了26.17%,16.5%和15.67%;在精確度方面提高了25.74%,14.29%和15.73%;在召回率上提高了26%,20.33%和14%,在F1值上提高了25.77%,17.69%和15.24%。此外,DDN的優(yōu)點(diǎn)也在圖10中得到了證實(shí),圖10將這些評(píng)價(jià)指標(biāo)以直方圖的形式輸出顯示。
表1 不同方法的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results on different methods
圖10 DDN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型在準(zhǔn)確度、精確度、召回率和F1值上的比較Fig.10 Comparison of DDN and traditional neural network models in accuracy, precision, recall and F1-measure
本文提出了利用面癱患者在不同時(shí)間做面部動(dòng)作時(shí)面部狀態(tài)的差異進(jìn)行面癱識(shí)別的思想。那么,對(duì)基于人臉圖像直接進(jìn)行作差(DDFI)后提取的人臉特征或基于兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)(EF-CNN)直接提取特征差異的面癱識(shí)別方法進(jìn)行性能測(cè)試,其效果如何呢?在這里,我們將DDFI,EF-CNN和DDN這3種方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,DDFI比EF-CNN具有更好的性能,但與DDN相比其各性能指標(biāo)還是要低很多,其中準(zhǔn)確率低19.34%,精確度低22.74%,召回率低11.33%,F1值低17.63%。因此,這兩種方法不能取得更好的結(jié)果。這是因?yàn)镈DFI是基于圖像本身的差異來(lái)進(jìn)行判斷的,但是,這些面部圖像在背景、光線、拍攝角度等因素上存在很大差異,而這些差異不是面部狀態(tài)的差異。EF-CNN是基于孿生網(wǎng)絡(luò)的識(shí)別方法,利用函數(shù)對(duì)圖像特征進(jìn)行映射,通過(guò)差值(歐式距離)損失函數(shù)進(jìn)行類別匹配,忽略了部分面部紋理、形狀、面部器官位置等差異信息,例如,面部器官向左或右兩個(gè)方向歪斜而形成的差異,這使得該方法無(wú)法達(dá)到理想的結(jié)果。相比之下,DDN具有最好的性能,這主要?dú)w因于DDN在提取特征之間的差異的特定能力。此外,圖11清楚地顯示了DDN在4個(gè)評(píng)價(jià)指標(biāo)中一般優(yōu)于DDFI,EF-CNN這兩個(gè)比較方法。
圖11 DDFI, EF-CNN在準(zhǔn)確率、精確度、回歸率以及F1值上與DDN的比較Fig.11 Comparison of DDFI, EF-CNN and DDN in accuracy, precision, recall and F1-measure
本文提出了一個(gè)面癱識(shí)別中存在的新問(wèn)題:假面癱數(shù)據(jù)導(dǎo)致的面癱誤判,并且為了解決此問(wèn)題,在孿生神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,設(shè)計(jì)了一種新網(wǎng)絡(luò):深度差異性神經(jīng)網(wǎng)絡(luò),為真假面癱的識(shí)別奠定了基礎(chǔ)。對(duì)于真假面癱的識(shí)別,解決了自動(dòng)化面癱識(shí)別中由于假面癱數(shù)據(jù)的存在而導(dǎo)致的誤判現(xiàn)象,進(jìn)一步提高了面癱識(shí)別的準(zhǔn)確率。此外,DDN采用two-stream CNN與單一深層CNN相連的網(wǎng)絡(luò),該網(wǎng)絡(luò)關(guān)注人臉五官的紋理形狀、位置、肌理等特征差異,通過(guò)提取差異性特征的高層特征進(jìn)行分類,很好地解決了真假面癱識(shí)別問(wèn)題,并達(dá)到了較高的準(zhǔn)確率。