關(guān)鍵詞: 疼痛評(píng)估; 多模態(tài)特征; 對(duì)比學(xué)習(xí); 自適應(yīng)權(quán)重更新
1 引 言
疼痛是一種包含感官、情感、認(rèn)知和社會(huì)因素的、與實(shí)際或潛在的組織損傷相關(guān)的痛苦體驗(yàn)[1].同時(shí),疼痛也是最常見的臨床癥狀之一,在當(dāng)前的醫(yī)療保健、康復(fù)醫(yī)學(xué)中具有巨大的應(yīng)用潛力和醫(yī)療意義. 目前臨床上疼痛檢測(cè)主要依靠患者的主觀報(bào)告,即在指定的時(shí)間內(nèi)報(bào)告當(dāng)前疼痛的等級(jí)(如0~10). 然而,自我報(bào)告可能受到病人主觀性和心理因素的影響,缺乏統(tǒng)一的評(píng)判標(biāo)準(zhǔn). 對(duì)于一些如嬰幼兒或意識(shí)障礙患者等無(wú)法清晰表達(dá)自身疼痛等級(jí)的群體,這種方法也失去了作用. 因此,自動(dòng)疼痛識(shí)別技術(shù)就成為研究者探索的熱點(diǎn)領(lǐng)域.
在過(guò)去幾十年中,科研工作者從各個(gè)方面對(duì)疼痛識(shí)別進(jìn)行了研究. 一部分研究者通過(guò)生理信號(hào)提取相關(guān)的疼痛特征,如心電(ECG)、腦電(EEG)和肌電(EMG)等,取得了顯著的進(jìn)展. 但這些生理反應(yīng)的獲取往往需要復(fù)雜的設(shè)備,不利于大規(guī)模應(yīng)用,并且有可能加重患者的不適體驗(yàn).因此,為提供更便捷、舒適的疼痛評(píng)估方法,基于人臉的無(wú)感疼痛分析具有其合理性和可行性.
傳統(tǒng)的人臉疼痛識(shí)別方法主要對(duì)人臉的紋理、幾何特征建模,從而挖掘蘊(yùn)含的疼痛信息. 主流的方法包括主成分分析(Principal ComponentAnalysis, PCA)和局部二元模式(Local BinaryPatterns, LBP). 另外,還可以通過(guò)主動(dòng)外觀模型[2](Active Apperance Model, AAM)或主動(dòng)形狀模型[3](Active Shape Model, ASM)來(lái)捕捉像素點(diǎn)的數(shù)學(xué)變化. 然而,傳統(tǒng)的手工特征無(wú)法得到深層次的空間信息以及時(shí)序信息. 因此,如今人們更傾向于采用具有強(qiáng)大表征能力的深度學(xué)習(xí)方法來(lái)進(jìn)行面部疼痛識(shí)別. El Morabit 等[4]和Ye 等[5]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和局部注意力聚焦更細(xì)致的靜態(tài)表征;Zhou等[6]和Rodriguez 等[7]將多幀圖像的靜態(tài)特征送入循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)進(jìn)行時(shí)序建模. de Melo 等[8]和Huang[9]等進(jìn)而使用3D CNN 直接提取視頻序列中的時(shí)序信息,捕捉更多的和疼痛表情相關(guān)的動(dòng)態(tài)特征. 然而,這些研究均未對(duì)動(dòng)態(tài)和靜態(tài)疼痛特征進(jìn)行融合. 為了解決這個(gè)問(wèn)題,一些工作[10,11]同時(shí)考慮了動(dòng)態(tài)和靜態(tài)特征,并納入了面部關(guān)鍵點(diǎn),以獲取更全面的特征描述. 盡管如此,這些研究?jī)H從特征提取角度出發(fā),并未考慮不同程度疼痛之間的差異. 不同等級(jí)的疼痛(如1 級(jí)和10 級(jí))通常對(duì)應(yīng)不同的面部特征,這種差異特征則是區(qū)分不同疼痛等級(jí)的關(guān)鍵.因此,在疼痛評(píng)估的過(guò)程中將這種面部差異納入考慮具有充足的可行性.
受到上述工作的啟發(fā),本文提出了一種基于對(duì)比學(xué)習(xí)的面部疼痛評(píng)估方法. 首先,提取同一樣本不同模態(tài)的信息,包括時(shí)序特征、面部外觀特征和面部關(guān)鍵點(diǎn)的幾何特征,得到全面的疼痛信息表征;其次,通過(guò)引入對(duì)比學(xué)習(xí)的思想學(xué)習(xí)不同疼痛程度間特征的差異性,更有效地對(duì)疼痛等級(jí)進(jìn)行區(qū)分;最后,設(shè)計(jì)了一種損失函數(shù)學(xué)習(xí)方法,自動(dòng)學(xué)習(xí)對(duì)比學(xué)習(xí)損失和傳統(tǒng)均方誤差損失的比重. 本文在UNBC-McMaster 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),和現(xiàn)有方法相比具有最好的性能,證明了本文方法的有效性.
2 相關(guān)工作
2. 1 面部疼痛識(shí)別
面部表情可以最直觀地反應(yīng)人類所承受的疼痛狀況,因而成為研究疼痛的重要手段. 早期研究者將其視為1 個(gè)二分類問(wèn)題,即只判斷有無(wú)疼痛.Ashraf 等[12]使用支持向量機(jī)(SVM)對(duì)通過(guò)AAM獲得的相似歸一化形狀、相似歸一化外觀和規(guī)范外觀進(jìn)行分類,證明了自動(dòng)識(shí)別疼痛的可行性.Lucey 等[13,14]使用相同的方法在他們提出的UNBC-McMaster 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),通過(guò)識(shí)別面部動(dòng)作單元(Action Units, AUs)計(jì)算PSPI[15]評(píng)分(Prkachin and Solomon Pain Intensity, PSPI)作為度量指標(biāo). PSPI 將疼痛分為16 個(gè)等級(jí),其中0 表示無(wú)痛,15 表示最強(qiáng)的疼痛等級(jí),其計(jì)算公式如下所示:
其中不同數(shù)字和特定的面部動(dòng)作單元一一對(duì)應(yīng),如AU4 描述眉毛向下移動(dòng)的程度. Khan 等[16]通過(guò)分層梯度方向直方圖(Pyramid Histogram of OrientedGradients, PHOG)和分層局部二值模式(Pyramid Local Binary Pattern, PLBP)提取有區(qū)分性的面部形狀與外觀特征. Zafar 等[17]使用KNN對(duì)建立的面部幾何特征集進(jìn)行分類.
然而,只判斷有無(wú)疼痛是非常粗糙的,無(wú)法滿足實(shí)際的應(yīng)用. 因此,越來(lái)越多的研究人員開始對(duì)疼痛的強(qiáng)度進(jìn)行估計(jì). 最初研究者使用傳統(tǒng)手工特征如離散余弦變化(Discrete Cosine Transform,DCT)和LBP[18]、形狀直方圖[19](Histograms ofTopographical, HoT)、尺度不變特征變化[20](Scale Invariant Feature Transform, SIFT)等來(lái)挖掘疼痛特征. 近年來(lái),基于深度學(xué)習(xí)的方法已經(jīng)成為主流. Thiam 等[21]設(shè)計(jì)了一個(gè)雙流網(wǎng)絡(luò),通過(guò)注意力機(jī)制關(guān)注光流和歷史運(yùn)動(dòng)圖像中的特征. 一些方法通過(guò)分析視頻序列中的時(shí)序信息,學(xué)習(xí)疼痛產(chǎn)生時(shí)面部表情的變化[6,8,9,22,23]. 文獻(xiàn)[24,25]提取了面部關(guān)鍵點(diǎn)的位置和幾何信息,進(jìn)而對(duì)疼痛特征進(jìn)行表征. 另外,靜態(tài)的面部圖像也蘊(yùn)含豐富的疼痛信息,研究者們以全局和局部的角度作為切入點(diǎn),通過(guò)注意力機(jī)制深入挖掘疼痛信息,展開了相關(guān)的工作[5,26,27]. Huang 等[10]和Wang 等[11]將上述的時(shí)序、關(guān)鍵點(diǎn)和面部圖像信息整合起來(lái)以得到更全面的特征. 然而,以上工作都忽略了不同強(qiáng)度疼痛對(duì)應(yīng)面部特征的差異,因此本文借助對(duì)比學(xué)習(xí)的思想來(lái)解決這個(gè)問(wèn)題.
2. 2 計(jì)算機(jī)視覺中的對(duì)比學(xué)習(xí)
對(duì)比學(xué)習(xí)作為一個(gè)新興的領(lǐng)域,近年來(lái)也被引入到計(jì)算機(jī)視覺的相關(guān)任務(wù)中. Wu 等[28]把數(shù)據(jù)集中的每一個(gè)樣本都看作一個(gè)類別,通過(guò)這種個(gè)體判別任務(wù)將對(duì)比學(xué)習(xí)引入到計(jì)算機(jī)視覺中. He等[29]在此基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)隊(duì)列和動(dòng)量編碼器來(lái)提升對(duì)比學(xué)習(xí)的性能. 由于將每一個(gè)樣本都當(dāng)成一種類別需要占用額外的計(jì)算資源,Ye 等[30]和Chen 等[31]在一批數(shù)據(jù)中定義正負(fù)樣本,通過(guò)最大化正樣本特征的一致性進(jìn)行訓(xùn)練. Tian 等[32]將同一個(gè)場(chǎng)景的不同視角作為正樣本來(lái)增大不同視圖下的互信息,從而學(xué)習(xí)一種具有視角不變性的本質(zhì)特征.
傳統(tǒng)的對(duì)比學(xué)習(xí)都是基于無(wú)監(jiān)督的范式,無(wú)法有效利用標(biāo)簽中的信息. Khosla 等[33]首先對(duì)無(wú)監(jiān)督的方法進(jìn)行擴(kuò)展,提出一個(gè)有監(jiān)督且易于實(shí)現(xiàn)的損失函數(shù)來(lái)利用標(biāo)簽信息. Ma 等[34]提出了一種有監(jiān)督的對(duì)比學(xué)習(xí)框架,利用多頭自注意力區(qū)分不同視圖不同模態(tài)的相對(duì)重要性. Yuan 等[35]使用數(shù)據(jù)增強(qiáng)的方式學(xué)習(xí)模態(tài)類內(nèi)的本質(zhì)特征,同時(shí)通過(guò)模態(tài)類間的對(duì)比提取跨模態(tài)的語(yǔ)義特征.Mai 等[36]通過(guò)探索音頻、視覺和文本信息的類間關(guān)系,獲得了更充分的聯(lián)合嵌入特征,以進(jìn)行更深入的情感分析. Mustafa 等[37]利用圖像和文本對(duì)稀疏混合專家模型進(jìn)行訓(xùn)練,并提出了一個(gè)基于熵的正則化方案用來(lái)穩(wěn)定訓(xùn)練. 然而,這些方法沒(méi)有關(guān)注與任務(wù)相關(guān)的損失函數(shù),因此,本文設(shè)計(jì)了一種聯(lián)合優(yōu)化對(duì)比學(xué)習(xí)和與任務(wù)相關(guān)的損失函數(shù)的方法.
3 算法設(shè)計(jì)
3. 1 整體結(jié)構(gòu)
針對(duì)目前工作沒(méi)有對(duì)比不同疼痛等級(jí)的特征差異,無(wú)法有效區(qū)分疼痛等級(jí)的問(wèn)題,本文提出了基于對(duì)比學(xué)習(xí)的面部疼痛評(píng)估方法,總體框架如圖1 所示. 首先,為了得到更加全面的疼痛特征,本文對(duì)視頻序列中的多模態(tài)信息進(jìn)行提取. 對(duì)于視頻序列中任意一幀靜態(tài)圖像i,為了提取靜態(tài)的面部外觀特征fa,i,本文利用帶有預(yù)訓(xùn)練權(quán)重的ResNet-50[38]網(wǎng)絡(luò)作為特征提取器,它通過(guò)殘差連接可以保證梯度正?;貍鞯那闆r下加深網(wǎng)絡(luò)的深度,提升網(wǎng)絡(luò)的性能;然后通過(guò)堆疊標(biāo)簽相同的視頻幀形成時(shí)序通道輸入,利用S3D-G[39]網(wǎng)絡(luò)提取其中的時(shí)序信息,捕捉更多的面部動(dòng)態(tài)特征ft,i;隨后,本文使用一維卷積來(lái)提取經(jīng)過(guò)處理后的人臉關(guān)鍵點(diǎn)數(shù)據(jù)(AAM),得到面部的幾何特征fg,i ,最終形成樣本i 的特征集Fi,其表示方法如式(2)所示. 對(duì)于一個(gè)批次的數(shù)據(jù)來(lái)說(shuō),對(duì)其中的每一個(gè)樣本做相同的處理,得到這個(gè)批次中所有樣本特征的集合F,其表示見式(3),其中N 表示這個(gè)批次中樣本的數(shù)量. 之后通過(guò)對(duì)比學(xué)習(xí)區(qū)分F 中不同疼痛等級(jí)樣本的嵌入特征,學(xué)習(xí)更豐富的疼痛信息,提高視覺表征的質(zhì)量. 最后,通過(guò)自適應(yīng)權(quán)重更新的方法聯(lián)合優(yōu)化對(duì)比學(xué)習(xí)損失和均方誤差損失,增強(qiáng)網(wǎng)絡(luò)的性能.
3. 2 多模態(tài)特征提取
為了更充分地利用已有信息,本文分別利用三維(3D)、二維(2D)和一維(1D)卷積網(wǎng)絡(luò)提取樣本中的疼痛信息. 由于面部表情的動(dòng)態(tài)變化是人類表達(dá)疼痛的重要區(qū)別特征[40],所以本文使用S3D-G 網(wǎng)絡(luò)來(lái)提取圖像序列中的時(shí)序特征ft,S3DG網(wǎng)絡(luò)通過(guò)用低成本的2D 卷積代替了一部分3D卷積,在計(jì)算復(fù)雜度和準(zhǔn)確率上達(dá)到了平衡. Zhou等[41]的研究表明,在3D 特征中引入2D 特征可以得到更深、信息量更大的特征圖. 因此,本文利用2D 的ResNet 網(wǎng)絡(luò)提取靜態(tài)圖像中的面部外觀特征fa,得到局部疼痛特征. 另外,通過(guò)面部關(guān)鍵點(diǎn)的識(shí)別,可計(jì)算出客觀的PSPI 評(píng)分,證實(shí)了它與疼痛表達(dá)的關(guān)聯(lián)性. 因此本文首先參照文獻(xiàn)[10]中的方法對(duì)關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行歸一化(Norm),方法如式(4)所示.
其中,Vi 為歸一化后得到的向量;L (i,n) 表示第i個(gè)點(diǎn)到參考點(diǎn)(鼻尖)的距離;L (e,n) 表示鼻尖到眉毛中心的距離. 然后利用圖2 所示的輸出維度為256、1024、2048、4096、2048 的5 層1D 卷積提取面部關(guān)鍵點(diǎn)中的幾何特征fg,與上述的3D、2D 特征構(gòu)成完備的特征集合. 最后,將得到的ft、f a 和fg拼接后通過(guò)全連接層得到疼痛評(píng)估分?jǐn)?shù),并使用均方誤差損失(mse loss)對(duì)模型進(jìn)行優(yōu)化.
3. 3 疼痛對(duì)比損失函數(shù)
不同程度的疼痛通常對(duì)應(yīng)著不同的面部表情,因此,對(duì)面部表情加以區(qū)分對(duì)于疼痛識(shí)別至關(guān)重要. 然而,現(xiàn)有的工作多關(guān)注于疼痛特征的提取,無(wú)法有效區(qū)分疼痛等級(jí). 為此,本文提出了一種疼痛對(duì)比損失函數(shù)(con loss),通過(guò)對(duì)比具有不同PSPI 評(píng)分的樣本來(lái)學(xué)習(xí)不同疼痛程度對(duì)應(yīng)面部特征的差異,提升了網(wǎng)絡(luò)的泛化性和魯棒性.
對(duì)比損失函數(shù)的描述為:對(duì)于一個(gè)樣本數(shù)量為N 的批次,I 為數(shù)據(jù)增強(qiáng)后的樣本集,常用的數(shù)據(jù)增強(qiáng)方式有裁剪、加噪等. i 為I 中任意樣本的索引,通用的無(wú)監(jiān)督對(duì)比學(xué)習(xí)的損失函數(shù)如式(5)所示.
其中,j (i) 為和樣本i 同源的另一個(gè)增強(qiáng)樣本的索引,也稱為正樣本. zi 和zj (i)為通過(guò)網(wǎng)絡(luò)提取的特征;τ 為一個(gè)超參數(shù),用來(lái)控制損失函數(shù)對(duì)負(fù)樣本的敏感程度. A(i)≡ I {i}為I中除去當(dāng)前樣本的剩余樣本. 式(5)表明當(dāng)正樣本越相似時(shí)損失函數(shù)的值越小.
有監(jiān)督對(duì)比學(xué)習(xí)和無(wú)監(jiān)督對(duì)比學(xué)習(xí)不同的是,有監(jiān)督對(duì)比學(xué)習(xí)將具有相同標(biāo)簽的數(shù)據(jù)視為正樣本,因此可以學(xué)到更高階的語(yǔ)義信息. 具體而言,P (i) 為該批次中與樣本i 標(biāo)簽相同的樣本集合,且不包含i. | P (i) |為其中樣本的個(gè)數(shù). 本文將數(shù)據(jù)集中的靜態(tài)圖像視為樣本i,將由其得到的時(shí)序信息和面部關(guān)鍵點(diǎn)數(shù)據(jù)作為數(shù)據(jù)增強(qiáng)方式,以此得到對(duì)比學(xué)習(xí)所需的正樣本. 分別提取特征后得到時(shí)序特征ft,i、面部外觀特征fa,i 和幾何特征fg,i,在對(duì)比不同疼痛等級(jí)所對(duì)應(yīng)的面部特征時(shí)融合多模態(tài)的疼痛數(shù)據(jù).
3. 4 自適應(yīng)損失函數(shù)權(quán)重更新
在一次前向傳播中,模型只能得到當(dāng)前批次的數(shù)據(jù),無(wú)法得到整個(gè)數(shù)據(jù)集全面的特征,因而計(jì)算出的損失函數(shù)具有局限性. 為了在模型迭代過(guò)程中更嚴(yán)謹(jǐn)?shù)丶s束模型的更新,本文設(shè)計(jì)了一種權(quán)重更新方法(Weight Update, WU)融合con loss和mse loss,流程如圖3 所示. 權(quán)重的計(jì)算方法如式(7)所示.
隨著模型不斷更新迭代,得到的損失函數(shù)更能準(zhǔn)確體現(xiàn)預(yù)測(cè)值與真實(shí)標(biāo)簽的差異,從而更好地利用這種信息.
4 實(shí)驗(yàn)結(jié)果與分析
4. 1 實(shí)驗(yàn)數(shù)據(jù)集
本文在UNBC-McMaster 數(shù)據(jù)集[42]上對(duì)提出的方法進(jìn)行驗(yàn)證. UNBC-McMaste 是一個(gè)肩痛表情數(shù)據(jù)集,同時(shí)也是疼痛識(shí)別領(lǐng)域最常用的數(shù)據(jù)集. 其中包含了200 個(gè)視頻序列,記錄了25 個(gè)成年肩痛患者的面部表情. 該數(shù)據(jù)集一共有48 398 幀,每一幀都提供了66 點(diǎn)的面部關(guān)鍵點(diǎn)坐標(biāo),并且用0~15 的PSPI 評(píng)分作為真實(shí)標(biāo)簽.
對(duì)于不同通道數(shù)據(jù)的獲取,本文遵循文獻(xiàn)[10]中的方法. 即首先抽取視頻序列中的一幀得到靜態(tài)圖像,為了去除背景的干擾和人臉轉(zhuǎn)動(dòng)帶來(lái)的影響,通過(guò)數(shù)據(jù)集中提供的面部關(guān)鍵點(diǎn)坐標(biāo)和仿射變換進(jìn)行人臉裁剪及對(duì)齊,以此作為外觀支路的輸入. 由于連續(xù)兩幀的變化并不大,所以隨機(jī)選取和當(dāng)前幀疼痛等級(jí)相同的15 幀和當(dāng)前幀拼接成16 幀作為時(shí)序支路的輸入. 另外,為了獲得穩(wěn)定的面部關(guān)鍵點(diǎn)特征,使用距離歸一化方法處理關(guān)鍵點(diǎn)信息,消除人臉位置改變帶來(lái)的影響,從而得到一維的特征向量,并將其作為關(guān)鍵點(diǎn)支路的輸入,進(jìn)而對(duì)所有的視頻幀進(jìn)行評(píng)估.
4. 2 實(shí)驗(yàn)設(shè)置及指標(biāo)計(jì)算
在數(shù)據(jù)預(yù)處理時(shí),本文將裁剪后的人臉圖像縮放至112×112,并進(jìn)行隨機(jī)水平翻轉(zhuǎn). 為了在對(duì)比不同疼痛程度時(shí)得到更全面的特征,將3 個(gè)通道的輸出維度都調(diào)整為2048 維. 網(wǎng)絡(luò)使用SGD 算法進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0. 0001,使用余弦退火調(diào)整學(xué)習(xí)率,總訓(xùn)練迭代數(shù)為40. 實(shí)驗(yàn)環(huán)境為Ubuntu 20. 04,NVIDIA GeForce RTX 4×3090.參照之前的工作[8,10,11],本文使用留一驗(yàn)證法(Leave One Subject Out)進(jìn)行實(shí)驗(yàn),即選取數(shù)據(jù)集中的每一位受試者作為測(cè)試集,其余的受試者作為訓(xùn)練集進(jìn)行訓(xùn)練,如此重復(fù)25 次,最終以25 次實(shí)驗(yàn)結(jié)果的平均值作為指標(biāo)結(jié)果. 本文采用平均絕對(duì)誤差(Mean Absolute Error, MAE)、均方誤差(Mean Square Error, MSE)和皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient, PCC). MAE 和MSE 表示預(yù)測(cè)值和真實(shí)標(biāo)簽的距離,越小越好.PCC 可以反映變量間的相關(guān)度,越大越好. MAE、MSE、PCC 的計(jì)算方法分別如式(9)~ 式(11)所示.
為測(cè)試集預(yù)測(cè)結(jié)果的平均值.
4. 3 實(shí)驗(yàn)結(jié)果及分析
本文和目前最先進(jìn)的方法進(jìn)行了比較,結(jié)果如表1 所示,其中加粗?jǐn)?shù)值表示所有方法中取得的最優(yōu)指標(biāo). 從中可以看出,本文方法MAE 和PCC上達(dá)到了最好的效果,在MSE 上基本與最先進(jìn)的方法持平. 其中,文獻(xiàn)[18-20]使用傳統(tǒng)手工特征進(jìn)行疼痛識(shí)別,如HOT、DCT、PCA. 這些方法存在特征單一、泛化性差以及準(zhǔn)確率較低的問(wèn)題. 因此,具有強(qiáng)大的表征能力、可以端到端學(xué)習(xí)的深度學(xué)習(xí)方法逐漸成為主流. 通過(guò)捕獲持續(xù)和瞬時(shí)面部變化來(lái)探索多尺度時(shí)間信息[8]. 再使用卷積網(wǎng)絡(luò)提取面部的靜態(tài)特征[6,7,43,44],然后將得到的特征送入循環(huán)神經(jīng)網(wǎng)絡(luò)中表征時(shí)序信息,從而構(gòu)建時(shí)空模型. 其中文獻(xiàn)[44]在MSE 指標(biāo)上取得了最好的結(jié)果,原因是為了得到更加均衡的數(shù)據(jù),該方法通過(guò)原始數(shù)據(jù)集劃分了無(wú)痛序列和疼痛刺激序列,并對(duì)數(shù)據(jù)進(jìn)行了一些刪減. 這樣處理可以過(guò)濾掉一些波動(dòng)較大的序列,因此減少了異常值,進(jìn)而提升了MSE 指標(biāo). 而本文在未重新劃分?jǐn)?shù)據(jù)集的情況下達(dá)到了和文獻(xiàn)[44]相近的MSE,且獲得了更好的MAE 和PCC,證明了本文方法的優(yōu)異性能.文獻(xiàn)[10,11,45]使用更強(qiáng)大的3D 卷積網(wǎng)絡(luò)直接提取視頻序列中的時(shí)序特征,其中文獻(xiàn)[10,11]同時(shí)將靜態(tài)圖像特征和關(guān)鍵點(diǎn)特征也納入考慮,取得了更好的效果. 本文與性能較好的文獻(xiàn)[10,11]中的方法均提取了面部圖像的時(shí)序信息、外觀信息和關(guān)鍵點(diǎn)信息. 與這些方法相比,本文在3 個(gè)指標(biāo)上均有較大的提升,說(shuō)明通過(guò)對(duì)比學(xué)習(xí)的方法,能夠充分學(xué)習(xí)到不同疼痛等級(jí)對(duì)應(yīng)面部特征的差異,從而在疼痛評(píng)估時(shí)更好地區(qū)分疼痛等級(jí). 另外,之前的方法僅使用單一的損失函數(shù),無(wú)法有效指導(dǎo)網(wǎng)絡(luò)訓(xùn)練. 本文提出的損失函數(shù)權(quán)重更新方法可以動(dòng)態(tài)地結(jié)合對(duì)比損失和均方誤差損失,充分利用數(shù)據(jù)集中的信息.
為了更直觀地展示文本方法在數(shù)據(jù)集上的效果,我們進(jìn)行了可視化實(shí)驗(yàn)對(duì)比疼痛標(biāo)簽的真實(shí)值和預(yù)測(cè)值,如圖4 所示. 其中圖4a 是利用時(shí)序信息、面部外觀特征和關(guān)鍵點(diǎn)特征進(jìn)行疼痛預(yù)測(cè)的結(jié)果,可以觀察到預(yù)測(cè)結(jié)果的波動(dòng)幅度較大,且在無(wú)疼痛時(shí)出現(xiàn)較多的誤判. 圖4b 是加入對(duì)比學(xué)習(xí)的損失函數(shù)以及自適應(yīng)權(quán)重更新后的結(jié)果,可見預(yù)測(cè)結(jié)果更加接近真實(shí)值,且對(duì)于無(wú)疼痛的預(yù)測(cè)非常準(zhǔn)確,證明了本文方法的有效性.
4. 4 消融實(shí)驗(yàn)
本文還開展了一系列消融實(shí)驗(yàn)來(lái)驗(yàn)證網(wǎng)絡(luò)中各個(gè)模塊的有效性,結(jié)果如表2 所示.
本文以單支路的關(guān)鍵點(diǎn)幾何特征(AAM)作為比較基準(zhǔn). 在加入用Res50 提取的外觀特征后,所有指標(biāo)均得到改善,說(shuō)明結(jié)合幾何特征和面部外觀特征可以更精確地評(píng)估疼痛等級(jí). 相同的結(jié)果也適用于加入用S3D-G 提取的時(shí)序特征時(shí),說(shuō)明捕捉時(shí)序信息可以獲得和疼痛相關(guān)的面部動(dòng)態(tài)特征,有助于疼痛識(shí)別. 此外,在加入基于對(duì)比學(xué)習(xí)的損失函數(shù)(CL)后,MAE 指標(biāo)有較大提升,MSE和PCC 基本保持不變,說(shuō)明對(duì)比不同疼痛等級(jí)下的特征可以減小預(yù)測(cè)誤差,使結(jié)果更為擬合. 最后,在引入損失函數(shù)權(quán)重更新方法(WU)后,所有指標(biāo)均有提升,說(shuō)明在更全面地利用數(shù)據(jù)集中的信息后可以提升疼痛識(shí)別效果. 本文采取留一驗(yàn)證法進(jìn)行實(shí)驗(yàn),所以學(xué)習(xí)到的權(quán)重r 隨著不同子集而變化. 除去一個(gè)標(biāo)簽全部為無(wú)痛的子集,r 的值都在0. 3~0. 7 的范圍內(nèi),驗(yàn)證了聯(lián)合優(yōu)化基于對(duì)比學(xué)習(xí)的損失和均方誤差損失的有效性.
5 結(jié)論
疼痛等級(jí)具有類間差異大的特點(diǎn),考慮到現(xiàn)有方法不能有效區(qū)分不同疼痛等級(jí)下的面部差異,本文提出了一種基于對(duì)比學(xué)習(xí)的面部疼痛評(píng)估方法. 首先分別提了取面部的多模態(tài)特征,隨后將其作為正樣本對(duì)進(jìn)行疼痛等級(jí)的對(duì)比學(xué)習(xí),最后設(shè)計(jì)了權(quán)重更新方法自動(dòng)學(xué)習(xí)對(duì)比學(xué)習(xí)損失和均方誤差的比例,更有效地利用預(yù)測(cè)值和真實(shí)值的誤差信息. 在UNBC-McMaster 數(shù)據(jù)集上的實(shí)驗(yàn)表明,將不同程度疼痛間的差異納入考慮可以提升評(píng)估性能,證明了本文方法的有效性. 另外,本文研究還有一些可擴(kuò)展的方面. 首先,不同模態(tài)特征雖具有差異,但其代表的本質(zhì)是一致的,如何在學(xué)習(xí)本質(zhì)特征的同時(shí)消除模態(tài)差異是一項(xiàng)關(guān)鍵任務(wù). 此外,疼痛等級(jí)之間的差異應(yīng)有所區(qū)別,相近疼痛等級(jí)的差異應(yīng)相對(duì)較小,如何考慮這種差異也是今后的研究方向.