王詩琪 劉潔 朱晨雨 舒暢 周航寧 謝鳳英 徐濤 晉紅中
100730北京,中國醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 北京協(xié)和醫(yī)院皮膚科(王詩琪、劉潔、朱晨雨、舒暢、晉紅中),過敏性疾病精準(zhǔn)診療研究北京市重點(diǎn)實(shí)驗(yàn)室(劉潔);北京航空航天大學(xué)宇航學(xué)院圖像處理中心(周航寧、謝鳳英);中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病及統(tǒng)計(jì)學(xué)系(徐濤)
隨著大數(shù)據(jù)時(shí)代的到來和計(jì)算機(jī)技術(shù)及設(shè)備的進(jìn)步,深度學(xué)習(xí)尤其是深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在肺部疾?。?-2]、骨骼疾病[3]、腹部疾?。?]、乳腺疾?。?]等醫(yī)學(xué)影像領(lǐng)域成為研究熱點(diǎn),在皮膚病影像領(lǐng)域也取得引人矚目的進(jìn)展[6-7]。為了評(píng)估CNN對(duì)皮膚疾病影像的分類能力,本課題組與北京航空航天大學(xué)宇航學(xué)院圖像處理中心合作,以色素痣和脂溢性角化?。⊿K)為例,比較CNN與皮膚科醫(yī)師診斷的準(zhǔn)確率,并對(duì)CNN錯(cuò)誤分類的皮膚鏡圖像進(jìn)行分析,為未來研發(fā)能準(zhǔn)確、有效識(shí)別在體皮膚病的智能診斷系統(tǒng)打下基礎(chǔ)。
2015年12月至2017年1月在北京協(xié)和醫(yī)院皮膚科門診收集確診的色素痣和SK患者皮膚鏡圖像5 154幅,其中,3 045幅為色素痣,2 109幅為SK,每幅圖像對(duì)應(yīng)1處皮損。入選(確診)標(biāo)準(zhǔn):①臨床上診斷為色素痣或SK;②兩位經(jīng)過皮膚鏡培訓(xùn)合格的有經(jīng)驗(yàn)的皮膚科醫(yī)師對(duì)皮膚鏡圖像判讀結(jié)果一致。排除標(biāo)準(zhǔn):兩位皮膚科醫(yī)師對(duì)皮膚鏡圖像判讀結(jié)果不一致。
1.皮膚鏡圖像采集及診斷標(biāo)準(zhǔn):皮膚鏡圖像均使用奧地利MoleMax公司(MoleMax HD,Digital lmaing Systems)皮膚鏡系統(tǒng)獲得,根據(jù)皮損表面情況,采用偏振光浸潤式、偏振光非浸潤式或非偏振光浸潤式拍攝,鏡頭與皮損之間使用75%乙醇作為浸潤液體,放大倍數(shù)為20、30或40。根據(jù)文獻(xiàn)[8-10]及預(yù)實(shí)驗(yàn),色素痣的皮膚鏡特征為:①網(wǎng)狀模式;②球狀模式;③均質(zhì)模式;④星爆狀模式;⑤掌跖部位色素痣為皮溝平行模式、網(wǎng)格樣模式或纖維狀模式;⑥雙重模式和多元模式;⑦面部色素痣可為假性色素網(wǎng)狀模式;⑧其他模式。SK的皮膚鏡特征為:①邊界清楚,蟲蝕狀邊緣;②粉刺樣開口;③多發(fā)粟粒樣囊腫(>3個(gè));④腦回狀模式、溝嵴模式;⑤發(fā)夾樣血管等。由兩位經(jīng)過皮膚鏡培訓(xùn)合格的有經(jīng)驗(yàn)的皮膚科醫(yī)師結(jié)合患者臨床資料分別進(jìn)行,該判讀結(jié)果為本研究診斷的標(biāo)準(zhǔn)。
2.構(gòu)建CNN二分類模型及自動(dòng)分類:使用3 015幅色素痣和2 079幅SK的皮膚鏡圖像對(duì)ResNet-50[11]通過遷移學(xué)習(xí)[12]進(jìn)行訓(xùn)練,構(gòu)建CNN二分類模型。將一個(gè)待分類皮損圖像輸入至訓(xùn)練好的ResNet-50卷積神經(jīng)網(wǎng)絡(luò),即可預(yù)測出皮損類別。使用該二分類模型對(duì)上述5 094幅圖像以外的30幅色素痣和30幅SK皮膚鏡圖像進(jìn)行自動(dòng)分類,計(jì)算CNN對(duì)兩種疾病的分類準(zhǔn)確率。其中,本實(shí)驗(yàn)所使用的CNN模型結(jié)構(gòu)為50層的ResNet-50結(jié)構(gòu),是當(dāng)前分類性能最強(qiáng)的CNN模型之一,具備極強(qiáng)的數(shù)據(jù)抽象能力、特征提取能力和圖像分類能力,ResNet模型結(jié)構(gòu)中的殘差結(jié)構(gòu)可以使網(wǎng)絡(luò)在很深的時(shí)候依然易于訓(xùn)練;訓(xùn)練過程中采用遷移學(xué)習(xí)方法使用ImageNet數(shù)據(jù)集(約130萬幅圖像)預(yù)訓(xùn)練好的模型參數(shù)對(duì)ResNet進(jìn)行初始化,降低了過擬合現(xiàn)象,并提高了網(wǎng)絡(luò)的泛化能力。
3.皮膚科醫(yī)師診斷:95名有5年以上皮膚科工作經(jīng)驗(yàn)的皮膚科醫(yī)師(副高及以上職稱醫(yī)師49人,副高以下職稱醫(yī)師46人;三甲醫(yī)院醫(yī)師41人,三甲以下等級(jí)醫(yī)院醫(yī)師54人),經(jīng)過累計(jì)時(shí)長為10 h的皮膚鏡培訓(xùn)合格后,結(jié)合皮損的臨床圖像,對(duì)上述CNN二分類模型自動(dòng)分類的60幅皮膚鏡圖像進(jìn)行判讀,每例判讀時(shí)間為30 s,將判讀結(jié)果與前期確診結(jié)果對(duì)比,得到每位醫(yī)師判讀準(zhǔn)確率,計(jì)算所有皮膚科醫(yī)師判讀準(zhǔn)確率的平均值。
表1 深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動(dòng)分類模型及95位皮膚科醫(yī)師對(duì)兩種疾病的診斷結(jié)果
4.統(tǒng)計(jì)學(xué)分析:采用SAS軟件,分別統(tǒng)計(jì)CNN分類模型和皮膚科醫(yī)師對(duì)兩種疾病的診斷準(zhǔn)確率和總準(zhǔn)確率,并用Kappa系數(shù)分析CNN分類模型及皮膚科醫(yī)師與金標(biāo)準(zhǔn)之間的評(píng)價(jià)一致性。Kappa系數(shù)>0.75表示一致性很好,0.4~0.75表示較好,<0.4表示較差。準(zhǔn)確率用χ2檢驗(yàn)比較,Kappa系數(shù)用矯正后的Z檢驗(yàn),P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
如表1所示,CNN分類模型對(duì)色素痣和SK的皮膚鏡圖像的分類總準(zhǔn)確率為88.33%,95位皮膚科醫(yī)師的診斷總準(zhǔn)確率為84.47%。CNN自動(dòng)分類模型及皮膚科醫(yī)師與金標(biāo)準(zhǔn)之間的評(píng)價(jià)一致性均較好(P>0.05),CNN自動(dòng)分類模型與95位皮膚科醫(yī)師對(duì)色素痣和SK的診斷總準(zhǔn)確率差異無統(tǒng)計(jì)學(xué)意義(P> 0.05)。
在皮膚科醫(yī)師錯(cuò)誤診斷率排名前10(誤診率為32.6%~71.6%)的圖像中,2幅為SK錯(cuò)誤診斷為色素痣,圖像中存在毛發(fā)干擾或曝光角度等問題,在使用CNN分類時(shí)也出現(xiàn)了分類錯(cuò)誤;其余8幅為色素痣錯(cuò)誤診斷為SK,其中5例為皮內(nèi)痣,3例為交界痣或混合痣。
CNN錯(cuò)誤分類的7幅圖像均為SK錯(cuò)誤分類為色素痣。從皮膚科醫(yī)師角度分析,CNN錯(cuò)誤分類的皮膚鏡圖像大致可被分為3類,即特殊類型(如皮損色素含量多、角化明顯,圖1A)、具有典型特征但存在干擾因素(圖1B、1C)和具有典型特征尚找不到錯(cuò)誤分類原因(圖1D)。
已有學(xué)者對(duì)計(jì)算機(jī)輔助診斷技術(shù)在皮膚科疾病自動(dòng)分類進(jìn)行研究,但多局限于色素痣與惡性黑素瘤的診斷與鑒別診斷[13-15]。在我國惡性黑素瘤發(fā)病率相對(duì)較低,而SK為最常見的皮膚腫瘤之一。SK及色素痣的臨床表現(xiàn)不典型時(shí),不僅兩者之間鑒別診斷困難,而且需行組織病理檢查,排除惡性腫瘤的可能。所以本課題組創(chuàng)新性地將二者作為研究對(duì)象,探索人工智能在色素細(xì)胞來源和非色素細(xì)胞來源腫瘤診斷中的應(yīng)用。
本實(shí)驗(yàn)使用的網(wǎng)絡(luò)模型為CNN網(wǎng)絡(luò),可自發(fā)地從原始圖像數(shù)據(jù)中進(jìn)行特征提取,并學(xué)習(xí)復(fù)雜的特征信息[16]。圖像分類任務(wù)方面,所采用的CNN是“端到端”模型,輸入皮損圖像,便能預(yù)測出皮膚疾病類別。2017年1月,Esteva等[7]采用深度學(xué)習(xí)的方法對(duì)臨床和皮膚鏡圖像進(jìn)行自動(dòng)分類,把使用三類或九類粗粒度標(biāo)簽進(jìn)行訓(xùn)練得到的CNN分類結(jié)果,與兩名專業(yè)醫(yī)師的分類結(jié)果進(jìn)行對(duì)比,結(jié)果顯示,CNN在三分類和九分類任務(wù)中均取得了與皮膚科醫(yī)師接近的“診斷”水平。
本實(shí)驗(yàn)構(gòu)建的CNN自動(dòng)分類模型在色素痣和SK皮膚鏡圖像的二分類任務(wù)中的總體表現(xiàn)與經(jīng)過皮膚鏡培訓(xùn)的有經(jīng)驗(yàn)的皮膚科醫(yī)師水平相當(dāng)。與皮膚科醫(yī)師相比,CNN自動(dòng)分類模型對(duì)色素痣的分類靈敏度偏高,特異度偏低,即此模型可減少色素痣的漏診率,但增加SK誤診為色素痣的風(fēng)險(xiǎn)。本實(shí)驗(yàn)中CNN自動(dòng)分類模型和皮膚科醫(yī)師對(duì)色素痣和SK的診斷總準(zhǔn)確率差異無統(tǒng)計(jì)學(xué)意義,可能與數(shù)據(jù)樣本量小有關(guān)。
圖1 深度卷積神經(jīng)網(wǎng)絡(luò)錯(cuò)誤診斷皮膚鏡圖像
我們對(duì)CNN分類錯(cuò)誤的圖像進(jìn)行分析,發(fā)現(xiàn)錯(cuò)誤分類的原因大致可分為3類。第1類為特殊類型,如圖1A所示,皮損中存在粉刺樣開口,但由于皮損色素含量較多、角化明顯,特征顯示得不清晰,很難診斷;第2類為具有典型的皮損特征,但存在干擾因素,如圖1B皮損中可見蟲蝕狀邊緣、粉刺樣開口及粟粒樣囊腫,1C中可見腦回狀模式,二者均為SK,皮膚科醫(yī)師不難診斷,但前者存在毛發(fā)的干擾,后者因光線、角度等使特征不易識(shí)別,可能為計(jì)算機(jī)錯(cuò)誤分類的原因;第3類為具有典型的皮損特征,如圖1D所示,皮損內(nèi)可見腦回狀模式、溝嵴模式及多發(fā)粉刺樣開口,皮膚科醫(yī)師可正確診斷為SK,目前尚找不到計(jì)算機(jī)錯(cuò)誤分類的原因。以上分析為未來皮膚科醫(yī)師采集適用于人工智能診斷的皮膚圖像提供了依據(jù)。然而,這些只是從皮膚科醫(yī)師角度分析的結(jié)果,智能診斷系統(tǒng)“失誤”的真正原因還需要皮膚科醫(yī)師與人工智能專業(yè)人員共同探索。皮膚科醫(yī)師易將皮內(nèi)痣和SK混淆,與皮內(nèi)痣存在表面凹陷和隆起,單獨(dú)分析圖像無法結(jié)合搖擺試驗(yàn)(wobble test)有關(guān)。
人工智能輔助診斷技術(shù)具有學(xué)習(xí)時(shí)間短、大量存儲(chǔ)、不易疲勞、受外界干擾少、客觀可重復(fù)等優(yōu)點(diǎn),但目前尚不能像臨床醫(yī)師一樣,將患者的病史信息(年齡、性別、發(fā)病年齡、病程長短等)、皮損臨床特點(diǎn)(視診、觸診信息等)、實(shí)驗(yàn)室檢查結(jié)果、皮膚鏡、皮膚高頻超聲、皮膚共聚焦顯微鏡和皮膚組織病理結(jié)果進(jìn)行融會(huì)貫通地分析。本研究證實(shí)基于CNN的自動(dòng)分類模型在皮膚病影像領(lǐng)域應(yīng)用的可行性和有效性。但皮膚科疾病種類繁多,如何利用皮膚疾病豐富的診斷信息“培訓(xùn)”計(jì)算機(jī),使人工智能獲取完整的皮膚疾病三維信息,實(shí)現(xiàn)人工智能對(duì)多種皮膚影像資料融合分析、對(duì)皮膚科所有常見病均取得理想的分類能力,仍然任重而道遠(yuǎn)。