莫梓華,王樹(shù)水,劉 惠,玉今珒,黃 飚
[1.華南理工大學(xué)醫(yī)學(xué)院,廣州 510110;2.廣東省心血管病研究所心兒科廣東省人民醫(yī)院(廣東省醫(yī)學(xué)科學(xué)院),廣州 510100]
William-Beuren 綜合征(Williams-Beuren syn?drome,WBS)是一種罕見(jiàn)的遺傳性疾病,由7號(hào)染色體7q11.23 上的28 個(gè)基因半合子微缺失引起[1-2]。該病往往以主動(dòng)脈瓣上狹窄、肺動(dòng)脈瓣上狹窄及多發(fā)性外周肺動(dòng)脈狹窄為最突出的臨床表現(xiàn),如不及時(shí)診治,將會(huì)嚴(yán)重影響患兒的生命健康。WBS 患者多具有眼距寬、鼻梁低平、鼻尖圓潤(rùn)飽滿、長(zhǎng)人中、嘴唇寬大等面容特征,人們稱之為“精靈樣面容”[3]。由于患者的面容特征表型多變且復(fù)雜,加之很多醫(yī)生對(duì)該病并不熟悉,臨床醫(yī)生很難通過(guò)面容對(duì)該病進(jìn)行診斷。人臉識(shí)別近年已在社會(huì)經(jīng)濟(jì)生活中廣泛應(yīng)用。2003 年Loos 等[4]學(xué)者首次使用人臉識(shí)別技術(shù)來(lái)協(xié)助診斷遺傳綜合征,證明可以通過(guò)計(jì)算機(jī)學(xué)習(xí)分析面部的特征來(lái)對(duì)遺傳綜合征患者進(jìn)行識(shí)別。此后,陸續(xù)有少量人臉識(shí)別應(yīng)用于遺傳綜合征的報(bào)道。但既往的人臉識(shí)別研究過(guò)于著重關(guān)注人臉標(biāo)記點(diǎn)附近的局部區(qū)域,未能融合遺傳綜合征患兒面部的整體特征,容易造成信息丟失。2019 年,北京大學(xué)電子工程學(xué)院Yang等[5]提出一種基于區(qū)域定位和特征融合策略的圖像識(shí)別技術(shù),基于該技術(shù)的圖像識(shí)別模型準(zhǔn)確率明顯提高。本研究首次將這種區(qū)域定位和特征融合策略的圖像識(shí)別技術(shù)應(yīng)用于WBS 綜合征的人臉識(shí)別研究。
納入2018 年1 月至2020 年12 月廣東省人民醫(yī)院收治的面容異常的WBS 兒童104 例。以同期伴有特殊面容的其他遺傳綜合征患兒91 例及正常兒童145名為對(duì)照組。WBS患兒與對(duì)照組的年齡、性別等人口學(xué)基線資料比較,差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。每位受試者拍攝正面面部照片3~5 張,選取最為清晰的一張正面照片進(jìn)行研究。WBS 及其他遺傳綜合征患兒均經(jīng)染色體核型分析、染色體微陣列及二代基因測(cè)序等檢查確診。145 名健康兒童經(jīng)兩位小兒遺傳病專(zhuān)家訪視排除面容異常。91 例伴有特殊面容其他遺傳綜合征包括Noonan綜合征(n=43)、Down 綜合征(n=10)、Loeys-Dietz綜合征(n=4)、DiGeorge 綜合征(n=3)、Alagille 綜合征(n=3)、Marfan′s 綜合征(n=4)、下頜骨顏面發(fā)育不全綜合征(n=2)、德朗熱綜合征(n=1)、Helmoortelvan der Aa 綜合征(n=1)、Wolf-Hirschhorn 綜合征(n=1)、Holt-Oram 綜合征(n=1)、Klippel-Feil 綜合征4 型(n=1)、Barth 綜合征(n=1)、Coffin-Siris 綜合征(n=1)、Stickler 綜合征I 型(n=1)、貓叫綜合征(n=1)、角膜脆弱綜合征1 型(n=1)、先天性皮膚缺失合并Menkes ?。╪=1)、先天性肌病伴肌梭過(guò)多/Costello 綜合征(n=1)、先天性攣縮細(xì)長(zhǎng)指(趾)/早發(fā)性黃斑變性(n=1)、小眼畸形綜合征2 型眼-面-心-牙(OFCD)綜合征(n=1)、肌肝腦眼侏儒(n=1)、21q22.3 缺失綜合征(n=2)、16p11.2 缺失綜合征合并22q11.2 重復(fù)綜合征(n=1)、2q35q37.3 嵌合缺失合并14q32.2q32.33 嵌合重復(fù)(n=1)、1p36 缺失綜合征合并8 號(hào)染色體短臂重排綜合征(n=1)、8p23 微缺失微重復(fù)綜合征(n=1)。照片隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集共納入194 張面部照片樣本(63 例WBS,131 例對(duì)照組),驗(yàn)證集共納入49 張(16 例WBS,33 例對(duì)照組),用于訓(xùn)練人臉識(shí)別模型。測(cè)試集共納入97 張面部照片樣本(25 例WBS,72 例對(duì)照組),用于評(píng)估經(jīng)訓(xùn)練后的模型的分類(lèi)性能。本研究由廣東省人民醫(yī)院醫(yī)學(xué)研究倫理委員批準(zhǔn)(No.KY2020-033-01)。項(xiàng)目參與人在向受試者收集信息以及采集面部照片時(shí)已獲得受試者或其監(jiān)護(hù)人的同意,并簽署知情同意書(shū)。
所有拍攝的照片均轉(zhuǎn)換為JPEG 文件格式。為了減少背景噪聲的影響,本研究使用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)對(duì)人臉進(jìn)行檢測(cè)和校準(zhǔn),將檢測(cè)到的人臉照片大小調(diào)整至448 mm×448 mm×3 mm。為增強(qiáng)訓(xùn)練數(shù)據(jù)的多樣性,將人臉圖像進(jìn)行改變大小、隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作。
1.3.1 模型結(jié)構(gòu)概述 本研究利用區(qū)域定位和特征融合策略的深度學(xué)習(xí)方法建立WBS人臉識(shí)別模型?;趨^(qū)域定位和特征融合策略的人臉識(shí)別模型由導(dǎo)航模塊、評(píng)估模塊、融合模塊3 部分組成(圖1)。本模型用殘差網(wǎng)絡(luò)34(residual network 34,ResNet-34)[6]提取人臉全局特征和局部特征。提取的局部特征圖被輸入到導(dǎo)航模塊中進(jìn)行信息量排序,評(píng)估模塊對(duì)這些區(qū)域進(jìn)行置信度評(píng)估后將結(jié)果反饋回導(dǎo)航模塊,使導(dǎo)航模塊最終所定位的局部區(qū)域更具有疾病識(shí)別能力。融合模塊將全局特征和局部特征進(jìn)行融合以進(jìn)一步提高識(shí)別性能。
圖1 基于區(qū)域定位和特征融合策略的WBS 人臉識(shí)別模型框架示意圖
1.3.2 導(dǎo)航模塊 預(yù)處理后的人臉圖像用ResNet-34 提取全局人臉深度特征,隨后通過(guò)滑動(dòng)窗口搜索機(jī)制自上而下提取多種尺度的臉部局部區(qū)域。ResNet-34 最后一個(gè)卷積層組的輸出特征圖將被輸入導(dǎo)航模塊,最終得到1 614 維向量,元素個(gè)數(shù)代表1 614 個(gè)區(qū)域,每一個(gè)數(shù)值大小代表1 614 個(gè)區(qū)域的信息量大小。本研究使用非極大值抑制算法篩除交并比大于0.25 的區(qū)域以減少區(qū)域重疊造成的信息冗余,同時(shí)將余下的區(qū)域按照信息量分?jǐn)?shù)降序排列,取若干個(gè)信息量豐富的區(qū)域送入評(píng)估模塊進(jìn)行評(píng)估置信度操作。導(dǎo)航模塊提取不同遺傳綜合征患者面部區(qū)域之間存在的人臉表征細(xì)微差異特征,這也是基于區(qū)域定位和特征融合模型區(qū)別于現(xiàn)有人臉識(shí)別模型特點(diǎn)。
1.3.3 評(píng)估模塊 評(píng)估模塊將每個(gè)局部區(qū)域特征輸入到二分類(lèi)任務(wù)全連接層中對(duì)這些區(qū)域進(jìn)行置信度評(píng)估,最終輸出兩個(gè)神經(jīng)元分別表示該局部區(qū)域?qū)儆诜荳BS 的概率及WBS 的概率,從而在多個(gè)面部局部區(qū)域中獲得表示W(wǎng)BS 概率置信度高以及表示非WBS 概率置信度高的區(qū)域。評(píng)估模塊的特征提取部分與導(dǎo)航模塊的特征提取器共享參數(shù),以減少模型的參數(shù)量和增加特征提取器的復(fù)用率。
1.3.4 融合模塊 融合模塊將評(píng)估模塊中獲得的4 個(gè)置信度最高的以及全局人臉區(qū)域進(jìn)行拼接,構(gòu)成(4+1)×2 048 維向量。通過(guò)將融合后的維向量輸入到輸出神經(jīng)元個(gè)數(shù)為2 的全連接層中,最后輸出該輸入圖像患WBS 的概率。
在本研究中,我們構(gòu)建以ResNet-34 模塊的WBS 人臉識(shí)別模型作為基準(zhǔn)模型,與本文構(gòu)建的基于區(qū)域定位和特征融合策略的WBS 人臉識(shí)別模型進(jìn)行比較。ResNet-34 網(wǎng)絡(luò)以全局人臉圖像作為輸入,數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)方式以及訓(xùn)練策略與基于區(qū)域定位和特征融合模型保持一致,最終輸出圖像患有WBS 的概率。
本研究通過(guò)生成類(lèi)激活圖將模型關(guān)注的包含人臉圖像信息的區(qū)域進(jìn)行可視化,以解釋面部識(shí)別網(wǎng)絡(luò)所作出的決策。該過(guò)程通過(guò)反向傳播算法獲得網(wǎng)絡(luò)卷積層的特征圖權(quán)重,該權(quán)重代表每個(gè)特征對(duì)于最后結(jié)果的貢獻(xiàn)程度,最后用每張?zhí)卣鲌D乘以權(quán)重得到類(lèi)激活圖,使人臉圖像信息特征可視化(圖2)。
圖2 模型可視化過(guò)程示意圖
ResNet-34 基準(zhǔn)模型和基于區(qū)域定位和特征融合模型分別對(duì)測(cè)試集中的人臉圖像進(jìn)行預(yù)測(cè),并記錄兩個(gè)模型的判別結(jié)果。采用Bootstrapping方法重復(fù)1 000 次從模型預(yù)測(cè)結(jié)果中有放回抽取60%樣本,分別計(jì)算出兩個(gè)模型的1 000個(gè)曲線下面積(area under curve,AUC),以及1 000個(gè)準(zhǔn)確率、敏感性、特異性、陽(yáng)性預(yù)測(cè)率(positive predictive value,PPV)和陰性預(yù)測(cè)率(negative predictive value,NPV)來(lái)量化模型預(yù)測(cè)性能。另外,分別邀請(qǐng)2 名初級(jí)兒科醫(yī)師與2 名心血管專(zhuān)科醫(yī)師分別對(duì)測(cè)試集所有人臉圖片分類(lèi),判斷是否患有WBS。這4 名醫(yī)師除人臉照片外未接觸過(guò)測(cè)試者其他資料。測(cè)試集每張人臉圖片給10 s 觀察時(shí)間,判斷是否患有WBS 并記錄結(jié)果,10 s 結(jié)束自動(dòng)播放下一張,以此類(lèi)推,直達(dá)完成所有圖片的分類(lèi)。為了比較模型和臨床醫(yī)生的性能,采用Bootstrapping 方法從醫(yī)生預(yù)測(cè)結(jié)果中有放回抽樣60%的樣本,重復(fù)1 000 次,分別計(jì)算出4 名臨床醫(yī)生的1 000 個(gè)AUC,以及1 000 個(gè)準(zhǔn)確率、敏感性、特異性、PPV 和NPV。
應(yīng)用Python 3.6.8 編程語(yǔ)言調(diào)用Scipy 1.2.0 工具包對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析。非正態(tài)分布數(shù)據(jù)用M(P25~P75)表示。數(shù)據(jù)呈非正態(tài)分布,使用Mann-Whitney U秩和檢驗(yàn)對(duì)本研究構(gòu)建的不同模型之間以及模型和臨床醫(yī)生之間的通過(guò)Bootstrap?ping 方法計(jì)算得到的1000 個(gè)AUC、準(zhǔn)確率、敏感性、特異性、PPV 以及NPV 指標(biāo)的均數(shù)進(jìn)行顯著性檢驗(yàn)。以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
ResNet-34 基準(zhǔn)模型和基于區(qū)域定位和特征融合模型采用Bootstrapping 方法重復(fù)1 000 次有放回抽樣并計(jì)算AUC、準(zhǔn)確率、敏感性、特異性、PPV以及NPV,基于區(qū)域定位和特征融合模型的各個(gè)性能指標(biāo)均高于ResNet-34 基準(zhǔn)模型,結(jié)果表明兩個(gè)模型的AUC、準(zhǔn)確率、敏感性、特異性、PPV 以及NPV 比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)(表1)。通過(guò)可視化的類(lèi)激活圖可以看出,本研究模型通過(guò)定位和分析眼睛、鼻子和嘴巴附近的多個(gè)區(qū)域?qū)膊≡\斷進(jìn)行決策,而僅使用ResNet-34 的模型只關(guān)注部分特征區(qū)域(圖3),圖中顏色越紅的區(qū)域越受關(guān)注。
圖3 ResNet-34 基準(zhǔn)模型與基于區(qū)域定位和特征融合模型的類(lèi)激活圖對(duì)比
表1 ResNet-34 基準(zhǔn)模型與基于區(qū)域定位和特征融合模型的性能指標(biāo)比較 [M(P25~P75)]
采用Bootstrapping 抽樣法從醫(yī)生預(yù)測(cè)結(jié)果中有放回抽樣60%的樣本,重復(fù)1 000 次,計(jì)算得到的兒科心血管醫(yī)師1的AUC、準(zhǔn)確率、敏感性、特異性、PPV 以 及NPV 分別為0.761、0.755、0.764、0.771、0.619、0.869;兒科心血管醫(yī)師2 為0.679、0.622、0.846、0.514、0.455、0.875;兒科醫(yī)師1 為0.462、0.600、0.080、0.891、0.140、0.651;兒科醫(yī)師2為0.629、0.733、0.375、0.903、0.666、0.742。結(jié)果表明除了基于區(qū)域定位和特征融合模型和兒科心血管醫(yī)師2 在敏感性指標(biāo)上沒(méi)有顯著差異外(P=0.218),基于區(qū)域定位和特征融合模型在AUC、準(zhǔn)確率、敏感性、特異性、PPV 以及NPV 均高于4 名臨床醫(yī)生,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)(圖4)。
圖4 4名臨床醫(yī)生與基于區(qū)域定位和特征融合模型(箱線圖中簡(jiǎn)稱為模型)各個(gè)指標(biāo)的箱線圖比較(紅色橫線表示中位數(shù))
遺傳綜合征常引起多器官多系統(tǒng)病變。由于遺傳綜合征表型復(fù)雜,病種繁多,人們對(duì)其認(rèn)識(shí)不足,不但無(wú)法及時(shí)對(duì)患者進(jìn)行診治,遺傳咨詢和優(yōu)生優(yōu)育更加無(wú)從談起。遺傳學(xué)檢測(cè)是遺傳綜合征的診斷標(biāo)準(zhǔn),包括細(xì)胞遺傳學(xué)分析、連鎖和關(guān)聯(lián)研究、拷貝數(shù)變異、DNA 微陣列、全外顯子組測(cè)序[7]。但染色體檢查和基因測(cè)序通常需要較長(zhǎng)時(shí)間,目前也不是臨床常規(guī)檢查項(xiàng)目。因此,該類(lèi)疾病的診斷有賴于臨床醫(yī)生的個(gè)人經(jīng)驗(yàn),也導(dǎo)致遺傳綜合征經(jīng)常漏診。在目前已知的7 000 多類(lèi)遺傳綜合征中,有4 526 種合并有顏面部異常[8]。不同綜合征患者的面部特征具有一定的相似性。WBS 的面容特征包括臉頰豐滿、唇厚、鼻梁寬闊、鼻孔前傾、眶距增加,嘴唇肥厚、長(zhǎng)人中、小下頜等,其面容特征表型多變且復(fù)雜,臨床醫(yī)生從面容上進(jìn)行識(shí)別WBS 存在著較大難度[9]。近年來(lái),隨著人工智能技術(shù)的不斷發(fā)展,人臉識(shí)別技術(shù)使運(yùn)用疾病特征性的面容進(jìn)行遺傳綜合征篩查、構(gòu)建相應(yīng)的疾病面容模型以幫助疾病診斷成為可能。2003 年德國(guó)學(xué)者發(fā)表了第一篇運(yùn)用人臉識(shí)別技術(shù)進(jìn)行遺傳病輔助診斷的論文[4]。在該研究中,計(jì)算機(jī)正確識(shí)別率為76%,高于臨床遺傳學(xué)家62%的識(shí)別率。2014 年以色列/美國(guó)人臉識(shí)別技術(shù)公司FDNA 公司研制出一款基于卷積神經(jīng)網(wǎng)絡(luò)的軟件Face2Gene,該軟件可通過(guò)人臉照片對(duì)遺傳綜合征患者進(jìn)行輔助分類(lèi)診斷[10],但對(duì)遺傳綜合征無(wú)篩查功能。目前專(zhuān)門(mén)針對(duì)WBS 的人臉識(shí)別研究不多。
以往的深度學(xué)習(xí)大多需要研究者手動(dòng)對(duì)由計(jì)算機(jī)檢測(cè)的人臉標(biāo)記點(diǎn)附近的區(qū)域進(jìn)行特征提取,這種依靠人眼的特征識(shí)別及區(qū)域提取,往往會(huì)忽略了不同綜合征患者人臉之間所存在的細(xì)微差異,從而影響計(jì)算機(jī)診斷模型的最終分類(lèi)結(jié)果。為解決以往研究中人臉標(biāo)記點(diǎn)相對(duì)固定以及缺乏考慮融合全局特征和局部特征的問(wèn)題,本研究提出了一個(gè)能夠自動(dòng)定位顯著區(qū)域并融合全局和局部特征識(shí)別WBS 的診斷模型。該模型在提取人臉整體特征的同時(shí),將人臉?lè)殖扇舾蓚€(gè)大小、形狀不同的局部區(qū)域,使用導(dǎo)航模塊尋找信息量最豐富的區(qū)域,提取更為全面和豐富的面部信息區(qū)域,構(gòu)建WBS 患者特殊面容的平均臉,從而提升模型分類(lèi)診斷的精確度和分類(lèi)性能。實(shí)驗(yàn)結(jié)果顯示,將本研究模型用于WBS 的篩查時(shí),WBS 識(shí)別準(zhǔn)確率為0.911,高于僅使用ResNet-34 的模型的準(zhǔn)確率0.866。其他性能指標(biāo)如敏感性、特異度、PPV、NPV 和AUC 同樣高于僅使用ResNet-34 的模型。本研究模型的分類(lèi)性能顯著優(yōu)于僅使用ResNet-34 網(wǎng)絡(luò)的模型,同時(shí),基于區(qū)域定位和特征融合模型識(shí)別WBS 的特異度、PPV、NPV 和AUC 也高于兩位心血管兒科專(zhuān)科醫(yī)師以及兩位兒科專(zhuān)科初級(jí)醫(yī)師。因而基于自動(dòng)定位和特征融合策略人臉識(shí)別模型有助于提升WBS 的診斷,能有效避免個(gè)人主觀性和經(jīng)驗(yàn)所導(dǎo)致的誤診、漏診,對(duì)臨床醫(yī)生在臨床診治中提高WBS 診斷、預(yù)防并發(fā)癥及改善疾病預(yù)后具有至關(guān)重要的意義。
類(lèi)激活圖用于可視化卷積神經(jīng)網(wǎng)絡(luò)關(guān)注的人臉區(qū)域,從而對(duì)面部識(shí)別網(wǎng)絡(luò)作出決策的依據(jù)進(jìn)行解釋。從實(shí)驗(yàn)的類(lèi)激活圖可看出,在對(duì)WBS患者和非WBS 患者進(jìn)行識(shí)別時(shí),僅使用ResNet-34 模型僅能對(duì)面部的個(gè)別區(qū)域進(jìn)行定位,無(wú)法準(zhǔn)確識(shí)別具有診斷意義的信息區(qū)域。而本研究模型首先定位眼睛、鼻子、嘴巴附近的信息區(qū)域,再經(jīng)過(guò)模型網(wǎng)絡(luò)對(duì)定位的信息區(qū)域進(jìn)行綜合分區(qū),從而對(duì)患者是否屬于WBS 進(jìn)行識(shí)別。通過(guò)對(duì)比兩種模型所定位的人臉區(qū)域,再次證明基于區(qū)域定位和特征融合模型在診斷WBS 時(shí)具有更強(qiáng)的有效性和科學(xué)性。
本研究的局限性在于數(shù)據(jù)量有限,主要是由于醫(yī)療數(shù)據(jù)的收集和標(biāo)注費(fèi)時(shí)費(fèi)力、醫(yī)療數(shù)據(jù)樣本量稀少、類(lèi)別不平衡等問(wèn)題所導(dǎo)致。我們通過(guò)對(duì)輸入圖像進(jìn)行翻轉(zhuǎn)、平移和縮放等操作,在一定程度上提高模型的泛化能力。此外,由于拍攝照片時(shí)患者年齡、所處的環(huán)境、情緒各異,面部圖像質(zhì)量也會(huì)成為影響模型最終識(shí)別能力的一個(gè)因素。在未來(lái)的研究中,我們將擴(kuò)充WBS 人臉圖像數(shù)據(jù)庫(kù),進(jìn)一步提高模型的分類(lèi)性能以緩解數(shù)據(jù)不足的問(wèn)題。
綜上所述,基于區(qū)域定位和特征融合策略的WBS 人臉識(shí)別模型在WBS 的診斷中具有重要作用,有助于對(duì)WBS 進(jìn)行臨床診斷。