趙 津 ,宋文愛(ài),邰雋,楊吉江,王青,李曉丹,雷毅,邱悅
(1.中北大學(xué)軟件學(xué)院,太原 030051;2.首都兒科研究所附屬兒童醫(yī)院耳鼻咽喉頭頸外科,北京 100020;3.清華大學(xué)自動(dòng)化系,北京 100084;4.首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院耳鼻咽喉頭頸外科北京 100045)
1976 年兒童阻塞性睡眠呼吸暫停(Obstructive Sleep Apnea,OSA)被Guilleminault 等[1]第一次提出,之后阻塞性睡眠呼吸暫停綜合征被定義為上氣道間歇性完全阻塞或部分阻塞,這種疾病會(huì)影響睡眠質(zhì)量,常伴有睡眠碎片和間歇性低氧血癥[2],由OSA 引發(fā)的慢性間歇性夜間低氧血癥和睡眠不足可能會(huì)導(dǎo)致神經(jīng)行為問(wèn)題、心血管疾病和精神疾病綜合癥等重大風(fēng)險(xiǎn)。根據(jù)調(diào)查顯示兒童OSA 患病率為1.2%~5.7%[3],我國(guó)香港地區(qū)的兒童OSA 患病率為4.8%[4]??梢?jiàn)OSA 嚴(yán)重影響兒童的身心健康,并對(duì)未來(lái)的長(zhǎng)期健康產(chǎn)生深遠(yuǎn)影響。所以,對(duì)于兒童OSA患者來(lái)說(shuō),初期發(fā)現(xiàn)和診斷至關(guān)重要。
兒童 OSA 的診斷一般是通過(guò)多導(dǎo)睡眠圖(PolySomnoGraphy,PSG)以及針對(duì)兒科的診斷標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)的[5]。根據(jù)文獻(xiàn)[6]可知,在面部特征方面,推薦重點(diǎn)關(guān)注腺樣體面容;文獻(xiàn)[7-8]中分析了腺樣體面容,面部特征變化主要集中在眼睛、鼻子、嘴唇。這些面部特征也可用于兒童OSA的預(yù)測(cè)中。臨床數(shù)據(jù)中一般收集人口統(tǒng)計(jì)學(xué)特征如身高、體重、頸圍、腹圍、臀圍和PSG檢測(cè)中的睡眠參數(shù)。在診斷時(shí),把PSG數(shù)據(jù)中的阻塞性呼吸暫停低通氣指數(shù)(Obstructive Apnea/Hypopnea Index,OAHI)>1 次/小時(shí)作為兒童OSA 的診斷界值指標(biāo),有利于早期發(fā)現(xiàn)和干預(yù)治療。此外呼吸暫停低通氣指數(shù)(Apnea Hypopnea Index,AHI)、阻塞性呼吸暫停指數(shù)(Obstructive Apnea Index,OAI)和最低血氧飽和度對(duì)兒童OSA診斷也有重要參考作用。對(duì)于兒童OSA嚴(yán)重程度診斷指標(biāo),參考標(biāo)準(zhǔn)如下:1)輕度為1次/時(shí)
在偏遠(yuǎn)地區(qū)和醫(yī)療條件差的區(qū)域,不可能每個(gè)人都進(jìn)行PSG監(jiān)測(cè),造成對(duì)兒童OSA的診斷困難很大,所以非常需要計(jì)算機(jī)進(jìn)行輔助診斷。隨著人工智能等領(lǐng)域的發(fā)展,使用計(jì)算機(jī)輔助診斷這類(lèi)疾病,可以幫助早期發(fā)現(xiàn)和診斷兒童OSA,改善了偏遠(yuǎn)地區(qū)醫(yī)療資源不足等問(wèn)題。
傳統(tǒng)的人臉輔助診斷的研究最先是提取圖像上的淺層特征,如紋理特征、幾何特征、顏色特征進(jìn)行輔助診斷,如:Balaei等[9]通過(guò)提取到的臉部寬度、眼睛寬度、頸心角和下頜長(zhǎng)度等幾何特征,使用邏輯回歸分類(lèi)器來(lái)預(yù)測(cè)OSA;Song等[10]通過(guò)提取內(nèi)眥贅皮、黑素細(xì)胞痣的紋理特征,前額、鼻梁和眼睛之間的幾何特征預(yù)測(cè)特納綜合征;Schneider 等[11]提取紋理和幾何特征預(yù)測(cè)指端肥大癥。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,可利用神經(jīng)網(wǎng)絡(luò)提取圖像中的深度特征進(jìn)行輔助診斷,如:Kumov等[12]使用神經(jīng)網(wǎng)絡(luò)提取圖像的深度特征,并融合了幾何特征來(lái)預(yù)測(cè)8種遺傳病癥,平均分類(lèi)精度達(dá)到了約93%;Balaei 等[9]把正臉和側(cè)臉圖像作為輸入向量,輸入到前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類(lèi),然后又選擇臉部特定的四個(gè)特征輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類(lèi),結(jié)果顯示對(duì)于使用臉部特定位置的四個(gè)特征進(jìn)行預(yù)測(cè),與直接使用正臉和側(cè)臉圖像進(jìn)行預(yù)測(cè)相比準(zhǔn)確率有所提高。
傳統(tǒng)的診斷方法由于可供訓(xùn)練的數(shù)據(jù)集較少,神經(jīng)網(wǎng)絡(luò)不能充分地發(fā)揮其性能,遷徙學(xué)習(xí)的提出,解決了數(shù)據(jù)集短缺的問(wèn)題,充分發(fā)揮了神經(jīng)網(wǎng)絡(luò)的分類(lèi)性能。遷徙學(xué)習(xí)按照遷移方案劃分,可以分為歸納遷移學(xué)習(xí)、直推式遷移學(xué)習(xí)、無(wú)監(jiān)督遷移學(xué)習(xí);如果按照遷移學(xué)習(xí)方法劃分,可以分為實(shí)例學(xué)習(xí)、基于特征表示的遷移、基于參數(shù)的遷移、基于相關(guān)性的遷移。目前使用遷移學(xué)習(xí)來(lái)診斷兒童OSA 的相關(guān)研究非常有限,遷移學(xué)習(xí)可以有效地解決兒童OSA數(shù)據(jù)短缺問(wèn)題。
與二維圖像相比,3D 人臉數(shù)據(jù)包含更多的信息,可以提高診斷的準(zhǔn)確性,也是疾病輔助診斷研究的重要領(lǐng)域。最先的研究是提取3D 人臉數(shù)據(jù)上的局部特征進(jìn)行疾病的預(yù)測(cè),如:Kiaee 等[13]提取3D 人臉模型上的等高線、曲率和水平曲線,將提取到的特征用拓?fù)鋽?shù)據(jù)分析方法進(jìn)行分類(lèi);Wu[14]利用兒童的3D 人臉數(shù)據(jù),計(jì)算線性和角度測(cè)量值,采用三維形態(tài)計(jì)量學(xué)分析來(lái)評(píng)估高危人群和低風(fēng)險(xiǎn)人群面部特征的差異。隨著深度學(xué)習(xí)的發(fā)展,設(shè)計(jì)更加龐大復(fù)雜的神經(jīng)網(wǎng)絡(luò),可以提取3D 人臉數(shù)據(jù)上的深度表型特征來(lái)進(jìn)行輔助診斷。如Kiaee 等[13]的研究,3D 人臉數(shù)據(jù)理論上可以捕捉到兒童臉上微小的面容變化,更好地預(yù)測(cè)兒童OSA,但由于3D 人臉數(shù)據(jù)數(shù)量少,目前的研究不是很理想。
傳統(tǒng)的計(jì)算機(jī)人臉診斷方法、基于遷移學(xué)習(xí)的診斷方法、基于3D人臉數(shù)據(jù)的診斷方法中的主要步驟如下:
1)傳統(tǒng)的兒童OSA 人臉輔助診斷。一般首先獲取臉部圖像并進(jìn)行人臉檢測(cè)、圖像預(yù)處理、人臉關(guān)鍵點(diǎn)檢測(cè)、面容特征分析,然后提取人臉特征,最后進(jìn)行分類(lèi)預(yù)測(cè)。傳統(tǒng)的兒童OSA人臉輔助診斷流程如圖1所示。
圖1 傳統(tǒng)的兒童OSA人臉輔助診斷流程Fig.1 Flow chart of traditional face aided diagnosis of OSA in children
2)基于遷徙學(xué)習(xí)的兒童OSA 輔助診斷。首先使用成熟的神經(jīng)網(wǎng)絡(luò)在大規(guī)模人臉數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后把經(jīng)過(guò)預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型作為人臉特征提取器,再根據(jù)目標(biāo)任務(wù)調(diào)整分類(lèi)器,并利用目標(biāo)域的數(shù)據(jù)集進(jìn)行微調(diào)來(lái)預(yù)測(cè)兒童OSA?;谶w徙學(xué)習(xí)的兒童OSA 輔助診斷流程圖如圖2所示。
圖2 基于遷移學(xué)習(xí)的兒童OAS診斷流程Fig.2 Flow chart of OAS diagnosis in children based on transfer learning
3)基于3D 人臉數(shù)據(jù)的兒童OSA 輔助診斷與傳統(tǒng)的輔助診斷類(lèi)似,一般先獲取3D 人臉數(shù)據(jù)、3D 人臉重建、特征提取,再分類(lèi)預(yù)測(cè)。基于3D 人臉數(shù)據(jù)的兒童OSA 輔助診斷流程如圖3所示。
圖3 基于3D人臉數(shù)據(jù)的兒童OAS診斷流程Fig.3 Flow chart of OAS in children diagnosis based on 3D face data
傳統(tǒng)的兒童OSA人臉診斷主要步驟如下:
1)圖像獲取。一般都是在醫(yī)療機(jī)構(gòu),在統(tǒng)一的環(huán)境下,由專(zhuān)業(yè)的人員使用統(tǒng)一的設(shè)備進(jìn)行拍攝,采集正臉和側(cè)臉的面部圖像。對(duì)于圖片的標(biāo)簽可以根據(jù)文獻(xiàn)[6],利用OAHI 指標(biāo)進(jìn)行標(biāo)注。
2)人臉檢測(cè)。把圖像中的人臉區(qū)域裁剪出來(lái)。人臉檢測(cè)是輔助診斷中重要的基礎(chǔ)任務(wù)之一,人臉檢測(cè)算法可以分為基于特征的人臉檢測(cè)和基于圖像的人臉檢測(cè),例如基于AdaBoost的算法和基于神經(jīng)網(wǎng)絡(luò)的算法都是基于圖像的。人臉檢測(cè)常用的算法有VJ(Viola and Jones)人臉檢測(cè)[15],VJ 人臉檢測(cè)器用多個(gè)AdaBoost 分類(lèi)器篩選人臉候選框,每個(gè)弱分類(lèi)器使用Haar-like 特征進(jìn)行分類(lèi),所有的弱分類(lèi)器集合起來(lái)判定人臉區(qū)域,隨后更多的特征被考慮,比如:一些擴(kuò)展的Harr 特征、基于聚合通道的特征等?;贏daBoost 的算法還有FloatBoost 算法、可變形的組件模型等;基于神經(jīng)網(wǎng)絡(luò)的算法有級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Cascaded Convolutional Neural Network,Cascade CNN)[16],Cascade CNN 不僅結(jié)合了VJ 人臉檢測(cè)器的優(yōu)點(diǎn),還在每一級(jí)分類(lèi)器中使用卷積網(wǎng)絡(luò)作為分類(lèi)器,用于提高檢測(cè)的精確度,基于神經(jīng)網(wǎng)絡(luò)的算法還有DenseBox、多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Network,MTCNN)等。在兒童OSA 輔助診斷中,人臉檢測(cè)可以減少背景對(duì)實(shí)驗(yàn)的影響。Qin 等[17]使用人臉圖片識(shí)別唐氏綜合癥,對(duì)于進(jìn)行了人臉檢測(cè)等預(yù)處理的數(shù)據(jù)集準(zhǔn)確性高達(dá)95.87%,對(duì)沒(méi)有進(jìn)行人臉檢測(cè)等預(yù)處理的數(shù)據(jù)集準(zhǔn)確性僅僅只有57.87%,可見(jiàn)人臉檢測(cè)是重要的一環(huán)。參考文獻(xiàn)[18-19],人臉檢測(cè)方法的優(yōu)缺點(diǎn)對(duì)比如表1所示。
表1 人臉檢測(cè)方法的優(yōu)缺點(diǎn)對(duì)比Tab.1 Comparison of advantages and disadvantages of face detection methods
3)圖像預(yù)處理。消除光照等環(huán)境因素對(duì)實(shí)驗(yàn)的影響,提高圖像的清晰度,一般對(duì)人臉圖像進(jìn)行翻轉(zhuǎn)和圖像增強(qiáng)。傳統(tǒng)的圖像增強(qiáng)方法有歸一化、灰度變換、直方圖均衡化等;深度學(xué)習(xí)中,在不改變網(wǎng)絡(luò)模型的情況下,通過(guò)圖像增強(qiáng)的方法提高了分類(lèi)的準(zhǔn)確性,在深度學(xué)習(xí)中常見(jiàn)的數(shù)據(jù)增強(qiáng)方法有幾何增強(qiáng)、色彩增強(qiáng)、mixup、隨機(jī)擦除等。
4)人臉關(guān)鍵點(diǎn)檢測(cè)。檢測(cè)人臉關(guān)鍵點(diǎn),在兒童OSA 診斷中也是一項(xiàng)重要的基礎(chǔ)任務(wù)。對(duì)于兒童OSA 的面容特征,重點(diǎn)關(guān)注眼睛、嘴唇、鼻梁等關(guān)鍵區(qū)域。人臉關(guān)鍵點(diǎn)檢測(cè)大致可以分為三類(lèi):基于統(tǒng)計(jì)模型的方法、基于級(jí)聯(lián)形狀回歸的方法、基于深度學(xué)習(xí)的方法?;诮y(tǒng)計(jì)模型的方法包括點(diǎn)分布模型(Active Shape Model,ASM)[20]和形狀統(tǒng)計(jì)模型(Active Appearance Model,AAM)[21],ASM[20]把人臉關(guān)鍵點(diǎn)坐標(biāo)組合成形狀向量,隨后提出的AAM 算法[21]加入了形狀約束,適用范圍都有所提高;基于級(jí)聯(lián)回歸的方法把關(guān)鍵點(diǎn)問(wèn)題轉(zhuǎn)化為一個(gè)回歸問(wèn)題。在訓(xùn)練階段,回歸模型學(xué)習(xí)預(yù)測(cè)關(guān)鍵點(diǎn)的位置函數(shù),預(yù)測(cè)時(shí),直接用這個(gè)函數(shù)輸出關(guān)鍵點(diǎn)的位置坐標(biāo)。常用的人臉關(guān)鍵點(diǎn)檢測(cè)的個(gè)數(shù)有兩種:一種是檢測(cè)人臉上的5個(gè)關(guān)鍵點(diǎn);另一種是檢測(cè)人臉上的68個(gè)關(guān)鍵點(diǎn)。68個(gè)人臉上的關(guān)鍵點(diǎn)標(biāo)記出眼睛、嘴巴、鼻子、眉毛、大致的臉部輪廓[10],如圖4(文獻(xiàn)[10])所示。根據(jù)的兒童OSA 的面容特征,可以檢測(cè)眼睛、鼻子、嘴唇上部、腮部等關(guān)鍵點(diǎn),在兒童OSA 的診斷中,檢測(cè)出人臉上的68 個(gè)關(guān)鍵點(diǎn)可以更好地捕捉到兒童變化的面容特征。如Dlib 庫(kù)中的級(jí)聯(lián)回歸梯度下降樹(shù)(Gradient Boosting Decision Tree,GBDT)[22]檢測(cè)人臉的68 個(gè)關(guān)鍵點(diǎn),首先在特征池中挑選兩個(gè)點(diǎn),然后計(jì)算每張圖片與這兩個(gè)點(diǎn)之間的像素差,再隨機(jī)產(chǎn)生一個(gè)數(shù)值,如果像素差大于這個(gè)數(shù)值則向右分類(lèi),反之向左一直分裂至葉子節(jié)點(diǎn),且二叉樹(shù)深度已經(jīng)確定,不斷更新回歸樹(shù),最終輸出模型,級(jí)聯(lián)回歸的算法還有基于回歸樹(shù)的人臉對(duì)齊(Ensemble of Regression Trees,ERT)算法等?;谏疃葘W(xué)習(xí)的方法在關(guān)鍵點(diǎn)檢測(cè)上表現(xiàn)優(yōu)異,如當(dāng)前在檢測(cè)人臉68 個(gè)關(guān)鍵點(diǎn)中表現(xiàn)優(yōu)越的實(shí)用的人臉特征點(diǎn)標(biāo)記(Practical Facial Landmark Detector,PFLD)模型[23],其在損失函數(shù)中,通過(guò)給少量樣本包括側(cè)臉、正臉、頭朝上、頭朝下、表情、遮擋等賦予更多的屬性權(quán)重,角度偏差大的樣本賦予更多的角度權(quán)重,同時(shí)將3D姿勢(shì)的估算與2D距離的測(cè)量結(jié)合起來(lái),對(duì)于姿勢(shì)較大和遮擋的人臉圖像關(guān)鍵點(diǎn)識(shí)別的精度也很高。人臉關(guān)鍵點(diǎn)檢測(cè)的精確與否對(duì)于下一步的特征提取至關(guān)重要,人臉關(guān)鍵點(diǎn)檢測(cè)作為基礎(chǔ)工作中重要的一環(huán),影響著兒童OSA 預(yù)測(cè)的準(zhǔn)確度。本節(jié)參考了文獻(xiàn)[19]和文獻(xiàn)[24],人臉關(guān)鍵點(diǎn)檢測(cè)的優(yōu)缺點(diǎn)對(duì)比如表2所示。
表2 人臉關(guān)鍵點(diǎn)檢測(cè)方法的優(yōu)缺點(diǎn)對(duì)比Tab.2 Comparison of advantages and disadvantages of face keypoint detection methods
圖4 人臉關(guān)鍵點(diǎn)檢測(cè)Fig.4 Face keypoint detection
5)面容特征分析。將每種類(lèi)別照片上的關(guān)鍵點(diǎn)進(jìn)行線性變換,生成每個(gè)類(lèi)別的平均臉,通過(guò)熱力圖或皮爾遜相關(guān)系數(shù)矩陣等方法分析不同平均臉之間的面部差異和變化,如:文獻(xiàn)[7]使用平均臉繪制人臉68 個(gè)點(diǎn)之間的相關(guān)系數(shù)矩陣和熱力圖,分析腺樣體肥大的面容特征;文獻(xiàn)[25]計(jì)算每組中平均面部灰度的差值并顯示為熱力圖,分析兒童阻塞性睡眠呼吸暫停綜合征在術(shù)后的面容特征。面容特征分析對(duì)于醫(yī)生的診斷和接下來(lái)的特征提取具有很大的參考價(jià)值。
6)人臉特征提取。人臉特征提取是兒童OSA 輔助診斷中最重要的一步,直接影響著兒童OSA 預(yù)測(cè)的準(zhǔn)確性。人臉特征提取大致可以分為兩個(gè)方法:一種是提取幾何、紋理、顏色特征;另一種是使用神經(jīng)網(wǎng)絡(luò)提取深度特征。根據(jù)引言中所述的兒童OSA 面容特征,主要對(duì)眼部、嘴唇、鼻梁方面特征提取的方法進(jìn)行了介紹和研究。
對(duì)于人臉幾何特征的提取一般是使用關(guān)鍵點(diǎn)之間的歐氏距離進(jìn)行測(cè)量。針對(duì)兒童OSA 中的面容特征,可以計(jì)算眼睛之間的歐氏距離和鼻梁之間的歐氏距離作為特征進(jìn)行分類(lèi),如:Balaei 等[9]提取眼睛寬度進(jìn)行OSA 的預(yù)測(cè);Song 等[10]提取眼睛和鼻梁之間的歐氏距離對(duì)特納綜合征進(jìn)行診斷預(yù)測(cè)。對(duì)于人臉照片從3D 投影到2D 時(shí),臉上關(guān)鍵點(diǎn)之間的實(shí)際距離有很大的差別,可能會(huì)對(duì)提取的幾何特征產(chǎn)生影響。為了消除這個(gè)影響,Kumov 等[12]用2D 人臉坐標(biāo)進(jìn)行3D 人臉重構(gòu),然后再提取特征。提取紋理特征最常用的方法是Gabor 小波變換,如:Song 等[10]在預(yù)測(cè)特納綜合征時(shí),對(duì)眼睛區(qū)域在每個(gè)方向上分別對(duì)5個(gè)標(biāo)度的Gabor濾波結(jié)果求平均,然后將平均結(jié)果合并為一個(gè)向量,進(jìn)而提取眼部向量特征;武佳麗[26]使用8個(gè)方向、5 個(gè)尺度的Gabor 濾波器提取嘴唇的紋理特征。Gabor 濾波器經(jīng)過(guò)一系列多尺度和多方向的濾波器組對(duì)圖像進(jìn)行卷積,可以提取到空間局部的低頻特征,但可能會(huì)丟失特征信息,而且提取到的特征信息維度高,數(shù)據(jù)龐大。為了解決這個(gè)問(wèn)題,除了使用常見(jiàn)的主成分分析(Principal Component Analysis,PCA)法進(jìn)行降維外,倪永婧等[27]研究了二維Gabor小波與非對(duì)稱(chēng)的鄰域梯度編碼(Asymmetric Region Local Gradient Coding,AR-LGC)算子相結(jié)合的人臉特征提取,可以更好地提取圖像的局部紋理信息。提取顏色特征的常用方法包括顏色直方圖、顏色矩、顏色集等。顏色直方圖反映了圖像中顏色的分布,可以比較圖像間的顏色差。而顏色集則是通過(guò)建立索引表進(jìn)行特征檢索,如Chen等[28]根據(jù)嘴唇的顏色特征提取嘴唇邊緣,獲得上唇和下唇之間的輪廓并擬合曲線,用提取到的嘴唇特征診斷慢性疲勞綜合癥。而神經(jīng)網(wǎng)絡(luò)提取到的深層人臉特征,可以捕捉到兒童面部特征的微小變化,提高兒童OSA 的分類(lèi)精度,如Lin 等[29]使用深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)把病人的正臉、頭頂、左側(cè)60°和右側(cè)60°的四個(gè)圖像輸入到DCNN 中檢測(cè)冠心病。人臉特征提取方法的優(yōu)缺點(diǎn)對(duì)比如表3所示。
7)數(shù)據(jù)降維。數(shù)據(jù)降維對(duì)計(jì)算機(jī)輔助診斷的準(zhǔn)確率尤為重要,常用的方法有主成分分析(PCA)和線性判別分析(Linear Discriminant Analysis,LDA),如Kumov 等[12]對(duì)提取到的特征進(jìn)行降維后,分類(lèi)準(zhǔn)確度顯著提高。
8)分類(lèi)器分類(lèi)。根據(jù)疾病的類(lèi)型可以分為單一疾病的單一癥狀、單一疾病的多種癥狀、多種疾病的多種癥狀,常用的分類(lèi)器有最近鄰算法(K-Nearest Neighbor,KNN)、支持向量機(jī)(Support Vector Machine,SVM)、AdaBoost、DCNN 等。本文是針對(duì)兒童OSA進(jìn)行研究,用多個(gè)面部特征去預(yù)測(cè)兒童OSA,主要關(guān)注單一疾病的多種癥狀。單一疾病的多種癥狀用到的分類(lèi)器大致可以分為兩種:一種是使用AdaBoost;另一種是根據(jù)不同特征選擇不同的分類(lèi)器。文獻(xiàn)[30]中使用邏輯回歸(Logistic Regression,LR)、KNN、SVM 和卷積神經(jīng)網(wǎng) 絡(luò)(Convolutional Neural Network,CNN)對(duì)不同的特征進(jìn)行分類(lèi)來(lái)診斷指端肥大癥,使用了加權(quán)算術(shù)平均值的策略,其中相應(yīng)的權(quán)重通過(guò)最小二乘法計(jì)算。
隨著大規(guī)模數(shù)據(jù)庫(kù)VGG-Face[31]和ImageNet[32]的建立和神經(jīng)網(wǎng)絡(luò)的發(fā)展,遷移學(xué)習(xí)廣泛應(yīng)用于醫(yī)療領(lǐng)域。如:Van Ginneken 等[33]和Shi 等[34]使用遷移學(xué)習(xí)的方法檢測(cè)肺結(jié)節(jié);Esteva等[35]使用遷移學(xué)習(xí)的方法診斷皮膚癌;Gurovich等[36]使用遷移學(xué)習(xí)的方法來(lái)預(yù)測(cè)罕見(jiàn)的遺傳綜合癥,準(zhǔn)確率高達(dá)91%;Qin 等[17]在大規(guī)模人臉數(shù)據(jù)集上,使用遷移學(xué)習(xí)的方法來(lái)預(yù)測(cè)唐氏綜合癥,達(dá)到了95.87%的準(zhǔn)確率,93.18%的召回率和97.40%的特異性;Jin 等[37]使用遷移學(xué)習(xí)的方法對(duì)β地中海貧血癥進(jìn)行二分類(lèi),微調(diào)后的模型達(dá)到了95.0%的精度,對(duì)于多疾病的分類(lèi),用遷移學(xué)習(xí)預(yù)訓(xùn)練了一個(gè)特征提取器,并用SVM 進(jìn)行分類(lèi),精確度達(dá)到了93.3%。由此可見(jiàn),在大規(guī)模數(shù)據(jù)庫(kù)上訓(xùn)練后,深度卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到強(qiáng)大的分類(lèi)能力,理論上可以捕捉到兒童面容特征的微小變化。
隨著深度學(xué)習(xí)[38-39]的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)以優(yōu)良的性能被世界上研究者廣泛使用。卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以在多個(gè)以數(shù)組形式出現(xiàn)的輸入數(shù)據(jù)(如彩色圖像等)中學(xué)習(xí)特征。CNN有四個(gè)關(guān)鍵特征:權(quán)重共享、部分連接、池化、多個(gè)層的共同作用。因?yàn)榍皫讓拥木矸e層提取通用特征,最后幾層提取更原始的特征,所以CNN 不僅有足夠的能力來(lái)識(shí)別相似的圖像中潛在的細(xì)微差別,還可以學(xué)習(xí)圖像中深層次的語(yǔ)義信息。不同的特征圖可以檢測(cè)局部特殊的圖像特征。在不同位置的單元之間由于權(quán)重共享,在檢測(cè)圖像時(shí),可以學(xué)習(xí)到圖像間相似的特征。池化層可以減小特征圖的尺寸,不僅為小的偏移和變形創(chuàng)建不變性,還可以把語(yǔ)義上相似的特征合并為一個(gè)。但是CNN 通常需要在大規(guī)模數(shù)據(jù)集上才能發(fā)揮其全部潛力,所以在大規(guī)模數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),然后用小規(guī)模的兒童OSA 數(shù)據(jù)集進(jìn)行微調(diào),可以發(fā)揮出巨大的潛力。如:Van Ginneken 等[33]使用OverFeat[40]經(jīng)過(guò)遷移學(xué)習(xí)后來(lái)診斷肺結(jié)節(jié);Shi等[34]使用VGGNet-16[41]經(jīng)過(guò)遷移學(xué)習(xí)后診斷肺結(jié)節(jié);Yu 等[42]使用VGGNet-16[41]和ResNet-50[43]對(duì)醫(yī)學(xué)圖像進(jìn)行分類(lèi);Esteva 等[35]使用GoogleNet Inception v3[44]診斷皮膚癌。對(duì)于人臉圖像的診斷,如:Gurovich 等[36]使用深格塔式的深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)由10 個(gè)卷積層組成,來(lái)預(yù)測(cè)遺傳??;Qin 等[17]用10 個(gè)卷積層的DCNN,并用大內(nèi)核分解為多個(gè)較小內(nèi)核的多層網(wǎng)絡(luò)模型,并在大規(guī)模人臉數(shù)據(jù)集CASIA Web-Face[45]上進(jìn)行遷移學(xué)習(xí)來(lái)預(yù)測(cè)唐氏綜合癥;Jin等[37]使用5個(gè)卷積層的DCNN進(jìn)行疾病分類(lèi)。
表4 總結(jié)了醫(yī)療領(lǐng)域方面使用的遷移學(xué)習(xí)的網(wǎng)絡(luò)模型結(jié)構(gòu)。
表4 醫(yī)療領(lǐng)域使用的遷移學(xué)習(xí)網(wǎng)絡(luò)模型及相應(yīng)的源域數(shù)據(jù)集Tab.4 Transfer learning network models used in medical field and corresponding source domain data sets
當(dāng)在小規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),容易發(fā)生過(guò)擬合。為了解決某類(lèi)數(shù)據(jù)短缺的問(wèn)題,遷移學(xué)習(xí)[46]被提出。對(duì)于遷移學(xué)習(xí)的兒童OSA 輔助診斷的分類(lèi),如果按照遷移學(xué)習(xí)的方案劃分,由于目標(biāo)域和源域的分類(lèi)任務(wù)不同,屬于歸納遷移學(xué)習(xí);如果按照遷移學(xué)習(xí)方法劃分,它將轉(zhuǎn)移的知識(shí)編碼為共享參數(shù),則屬于基于參數(shù)的遷移學(xué)習(xí)[46]。在遷移學(xué)習(xí)的深度網(wǎng)絡(luò)模型中,特征提取和分類(lèi)在一個(gè)統(tǒng)一的結(jié)構(gòu)下,檢測(cè)速度和性能都有所提高。由于源域和目標(biāo)域的人臉數(shù)據(jù)集在特征空間上一致,當(dāng)在大規(guī)模VGG-Face[31]等人臉數(shù)據(jù)集上對(duì)模型進(jìn)行訓(xùn)練時(shí),可以學(xué)到豐富的先驗(yàn)知識(shí)。當(dāng)遷移學(xué)習(xí)時(shí),通過(guò)參數(shù)的轉(zhuǎn)移,把大量的先驗(yàn)知識(shí)轉(zhuǎn)到了目標(biāo)域的分類(lèi)上,可以提高目標(biāo)域的分類(lèi)準(zhǔn)確度。
在大規(guī)模人臉數(shù)據(jù)上學(xué)到先驗(yàn)知識(shí)后,需要在小規(guī)模的兒童OSA 數(shù)據(jù)集上進(jìn)行微調(diào),從而更好地進(jìn)行分類(lèi)。微調(diào)的方法可以分為以下兩種:
1)把最后一層的全連接層替換為目標(biāo)分類(lèi)任務(wù)的線性分類(lèi)器(如Softmax、SVM 等),剩下的網(wǎng)絡(luò)被當(dāng)作特征提取器在目標(biāo)域的數(shù)據(jù)集上訓(xùn)練新的分類(lèi)器。如Qin 等[17]和Shi 等[34]等只微調(diào)最后一層,然后訓(xùn)練新的分類(lèi)器。
2)不僅僅只訓(xùn)練最后一層的分類(lèi)器,以合適的學(xué)習(xí)率和神經(jīng)網(wǎng)絡(luò)的反向傳播機(jī)制微調(diào)所有層的參數(shù)。如Shi 等[34]凍結(jié)除最后一層的全連接層,并將其替換為合適的分類(lèi)器,然后使用反向傳播微調(diào)所有層。
與二維人臉圖像相比,三維人臉數(shù)據(jù)對(duì)于光照、遮擋、人臉姿態(tài)的魯棒性更高。同時(shí),三維人臉數(shù)據(jù)中的表型特征被廣泛用于醫(yī)療領(lǐng)域,極大提高了疾病診斷的準(zhǔn)確性[47]。3D 人臉數(shù)據(jù)的兒童OSA輔助診斷主要流程如下:
1)獲取3D 人臉數(shù)據(jù)。醫(yī)療領(lǐng)域的人臉三維成像有以下幾種,如電子計(jì)算機(jī)斷層掃描(Computed Tomography,CT)、錐形束CT(Cone Beam CT,CBCT)、微計(jì)算機(jī)斷層掃描(Micro CT,MCT)、3D 激光掃描、結(jié)構(gòu)光技術(shù)、立體攝影測(cè)量技術(shù)和磁共振成像(Magnetic Resonance Imaging,MRI)[48]。在兒童OSA 診斷中常用的有:①CT,如程超等[49]使用CT 幫助醫(yī)生正確判斷上呼吸道狹窄或梗阻部位,提高手術(shù)效率;②3D 激光掃描,如深度圖;③結(jié)構(gòu)光技術(shù),如點(diǎn)云,Wu[14]利用點(diǎn)云結(jié)構(gòu)分析高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)人群間的面部差異;④立體攝影測(cè)量技術(shù),如三維可變形模型(3D Morphable Model,3DMD)系統(tǒng)、網(wǎng)格等。兒童OSA 常用的3D 人臉數(shù)據(jù)總結(jié)如表5 所示。圖5(參考了文獻(xiàn)[50])顯示了三種常用的人臉三維結(jié)構(gòu)示意圖。
表5 常見(jiàn)的三維人臉數(shù)據(jù)獲取方法的特點(diǎn)對(duì)比Tab.5 Characteristics comparison of common 3D face data acquisition methods
圖5 三種常用的三維人臉結(jié)構(gòu)Fig.5 Three commonly used 3D face structures
2)圖像預(yù)處理:去除掉3D人臉數(shù)據(jù)上對(duì)于實(shí)驗(yàn)有影響的特征,如眼鏡、首飾頭發(fā)等,使用平滑和孔洞填充等過(guò)濾器對(duì)3D 人臉數(shù)據(jù)進(jìn)行重采樣和預(yù)處理并檢測(cè)人臉的位置和方向[13,50]。
3)三維人臉重建。將三維圖像進(jìn)行融合配準(zhǔn),生成完整的三維人臉數(shù)據(jù),如點(diǎn)云數(shù)據(jù)的重建:將深度圖像進(jìn)行數(shù)據(jù)增強(qiáng),然后進(jìn)行點(diǎn)云計(jì)算和配準(zhǔn),最后融合點(diǎn)云數(shù)據(jù),獲得高精度的3D人臉數(shù)據(jù)。
4)三維人臉特征提取。與二維人臉特征一樣,同樣包括傳統(tǒng)方法和使用深度神經(jīng)網(wǎng)絡(luò)的方法。傳統(tǒng)方法直接在3D人臉數(shù)據(jù)上測(cè)量關(guān)鍵點(diǎn)之間的線性距離和角度,如文獻(xiàn)[51-53]方案使用線性距離和角度來(lái)測(cè)量OSA患者的3D人臉數(shù)據(jù)結(jié)構(gòu),因?yàn)榫€性距離容易受尺寸的影響,當(dāng)兩個(gè)不同測(cè)量對(duì)象缺少相對(duì)位置信息時(shí),可能會(huì)產(chǎn)生相同的形狀信息,所以在形狀分析上造成很多困難。為了改進(jìn)這些問(wèn)題,文獻(xiàn)[13]方案提取3D 人臉模型上的持久同源性來(lái)診斷兒童OSA,因?yàn)槌志猛窗藥缀翁卣骱屯負(fù)涮卣鳎越Y(jié)合了幾何的區(qū)分能力和拓?fù)涞姆诸?lèi)能力[54];文獻(xiàn)[14]方案則提取3D人臉數(shù)據(jù)上的幾何形態(tài)計(jì)量學(xué)(Geometric Morphometry Metrology,GMM)來(lái)診斷兒童OSA,GMM 不僅可以對(duì)整體形狀進(jìn)行分析,還可以減少偏差[55];也可直接使用神經(jīng)網(wǎng)絡(luò)自動(dòng)去提取深度表型特征,如文獻(xiàn)[13]方案。但是由于3D 人臉數(shù)據(jù)復(fù)雜且數(shù)量少,而且神經(jīng)網(wǎng)絡(luò)需要更多的層數(shù)和復(fù)雜的參數(shù),所以神經(jīng)網(wǎng)絡(luò)無(wú)法發(fā)揮出其潛在的性能,導(dǎo)致目前兒童OAS 的研究并不理想。3D人臉數(shù)據(jù)特征提取總結(jié)如表6所示。
表6 3D人臉數(shù)據(jù)特征提取方法的特點(diǎn)對(duì)比Tab.6 Characteristics comparison of 3D face data feature extraction methods
5)分類(lèi)。對(duì)提取到的特征進(jìn)行分類(lèi),如機(jī)器學(xué)習(xí)方法、深度神經(jīng)網(wǎng)絡(luò)、高維正則化判別分析模型等。
本文綜述了兒童OSA 計(jì)算機(jī)人臉輔助診斷的三種技術(shù)路線。兒童OSA 作為一種發(fā)病率較高、并發(fā)癥嚴(yán)重的疾病,影響著兒童的健康發(fā)育,需要盡快建立一種快捷方便的診斷方式,提高診斷的準(zhǔn)確性。
在二維人臉圖像中,傳統(tǒng)的圖像處理技術(shù)也在不斷地發(fā)展,神經(jīng)網(wǎng)絡(luò)在人臉檢測(cè)、人臉關(guān)鍵點(diǎn)提取、人臉特征提取、疾病分類(lèi)等方面在未來(lái)將會(huì)有更大的發(fā)展,但是還有很多問(wèn)題值得研究:尋找更好的模型和方法來(lái)檢測(cè)人臉,以消除背景對(duì)實(shí)驗(yàn)的影響;對(duì)于遮擋、姿態(tài)較大等問(wèn)題的人臉圖像如何更好地提取關(guān)鍵點(diǎn);使用神經(jīng)網(wǎng)絡(luò)如何更好地提取圖像的深度特征來(lái)進(jìn)行診斷預(yù)測(cè),都需要建立更好的模型,不斷地進(jìn)行參數(shù)優(yōu)化。同時(shí)側(cè)臉相較于正臉圖像,可以提供更多的關(guān)于嘴唇、鼻梁、耳朵等特征信息,側(cè)臉可以與正臉特征結(jié)合起來(lái)提高兒童OSA預(yù)測(cè)的準(zhǔn)確性。
3D 人臉數(shù)據(jù)雖然成本高,實(shí)施困難,臨床應(yīng)用性低,但是與2D 人臉相比,不受焦深的影響,焦深會(huì)在2D 圖像中產(chǎn)生明顯的形貌失真,影響預(yù)測(cè)的準(zhǔn)確性。雖然目前對(duì)于兒童OSA的3D面容研究還沒(méi)有取得突破進(jìn)展,且現(xiàn)有的研究中由于數(shù)據(jù)量較少,導(dǎo)致研究結(jié)果不是很理想。但隨著研究的不斷深入,將有更多的3D 人臉局部特征提取方法被提出,可以更好地識(shí)別兒童面部變化。通過(guò)神經(jīng)網(wǎng)絡(luò)提取3D 人臉上的深度表型特征也是未來(lái)研究的重點(diǎn),深度表型特征可以提取到3D人臉上更深層的特征信息,更加精細(xì)地捕捉到兒童的面部變化,但同時(shí)需要建立龐大的數(shù)據(jù)庫(kù)和復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
隨著2D、3D、視頻等更多人臉數(shù)據(jù)庫(kù)的建立,如最近剛開(kāi)源的大規(guī)模人臉數(shù)據(jù)集MAAD-Face,使用遷移學(xué)習(xí)可以有效地緩解兒童OSA 二維或三維人臉數(shù)據(jù)的短缺問(wèn)題,同時(shí)也要避免負(fù)遷移,更好地優(yōu)化遷移算法,完成目標(biāo)域中的分類(lèi)任務(wù)。遷移學(xué)習(xí)也是未來(lái)研究的趨勢(shì)之一。
對(duì)于條件允許的地區(qū),兒童OSA 中的一些臨床數(shù)據(jù)也可與圖像數(shù)據(jù)相結(jié)合,提高兒童OSA 診斷的準(zhǔn)確性。在未來(lái),還要建立、建全兒童OSA 的圖像數(shù)據(jù)庫(kù),不僅可以加快兒童OSA 輔助診斷的發(fā)展,也可以為其他相關(guān)聯(lián)的兒童疾病提供數(shù)據(jù)來(lái)源和技術(shù)參考。