許葉圣 ,孔鳴 ,謝文加,段潤(rùn)平 ,方鉦清 ,林宇蕭 ,朱強(qiáng) ,湯斯亮 ,吳飛 ,*,姚玉峰 ,*
a Department of Ophthalmology, Sir Run Run Shaw Hospital, School of Medicine, Zhejiang University, Hangzhou 310016, China
b College of Computer Science and Technology, Zhejiang University, Hangzhou 31002, China
通常來(lái)說(shuō),角膜疾病的診斷是由醫(yī)生通過(guò)觀察,結(jié)合個(gè)人的經(jīng)驗(yàn)和知識(shí)得出的。近年來(lái),使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)算法在醫(yī)療圖像處理領(lǐng)域大放異彩。疾病分類和診斷算法已在各醫(yī)學(xué)成像技術(shù)領(lǐng)域得到了應(yīng)用與驗(yàn)證,包括計(jì)算機(jī)斷層掃描(CT)、磁共振成像(MRI)、眼底照相、光學(xué)相干斷層掃描(OCT)和病理圖像等[1]。這得益于醫(yī)學(xué)成像技術(shù)可以非常自然地導(dǎo)出豐富的圖像數(shù)據(jù),商業(yè)化的醫(yī)學(xué)成像技術(shù)對(duì)這些醫(yī)學(xué)圖像設(shè)定了統(tǒng)一的標(biāo)準(zhǔn),可以在短時(shí)間內(nèi)從單個(gè)或多個(gè)醫(yī)學(xué)中心收集這些圖像。
然而大多數(shù)臨床疾病的診斷并不需要商業(yè)化的醫(yī)學(xué)成像技術(shù),因此許多醫(yī)療機(jī)構(gòu)在臨床診療中不進(jìn)行圖像記錄保存,導(dǎo)致這類疾病圖像數(shù)據(jù)的收集主要靠各醫(yī)療中心的歷史積累,但針對(duì)這些臨床疾病開(kāi)發(fā)機(jī)器學(xué)習(xí)診斷系統(tǒng)也同等重要。針對(duì)皮膚病變良惡性分類的研究[2]是在非傳統(tǒng)醫(yī)療圖像領(lǐng)域的一次成功嘗試。角膜疾病分類也可以效仿這種方式。角膜病是世界上最常見(jiàn)的致盲原因之一[3,4]。保守估計(jì),世界上約有450萬(wàn)人因罹患角膜病導(dǎo)致角膜混濁,從而蒙受中到重度的視力損傷[4]。感染性角膜炎是最常見(jiàn)的角膜病[5]。正常的角膜擁有獨(dú)有的透明性,感染性角膜炎最顯著的特點(diǎn)是病原體在角膜內(nèi)生長(zhǎng),導(dǎo)致角膜局灶性團(tuán)塊混濁和粗糙,不可避免地使每種病原微生物在組織內(nèi)生長(zhǎng)并呈現(xiàn)獨(dú)特的特點(diǎn)[6]。感染性角膜炎的診斷主要取決于眼科醫(yī)生對(duì)角膜感染性病變視覺(jué)特征的鑒別。臨床上,眼科醫(yī)生通常依靠裂隙燈顯微鏡來(lái)觀察角膜是否異常。除了用作觀察工具外,裂隙燈顯微鏡還可以用于拍攝照片并同時(shí)記錄每位患者的角膜狀態(tài),從而有助于開(kāi)發(fā)出具有優(yōu)質(zhì)標(biāo)注的人工智能(AI)數(shù)據(jù)集,為感染性角膜炎的識(shí)別和分析打下基礎(chǔ)。
從1998年開(kāi)始,我們積累了一個(gè)大型且擁有正確標(biāo)注的裂隙燈顯微圖像數(shù)據(jù)集,該數(shù)據(jù)集來(lái)自10 609名角膜疾病患者,總共115 408張圖像?;谶@個(gè)數(shù)據(jù)集我們?cè)O(shè)計(jì)出一種基于深度學(xué)習(xí)的方法,以端到端的方式進(jìn)行感染性角膜炎的診斷。為了直觀地模擬眼科醫(yī)生診斷感染性角膜炎的方式,我們提出了一種特征學(xué)習(xí)機(jī)制,通過(guò)學(xué)習(xí)序列特征來(lái)識(shí)別不同的視覺(jué)模式,其中蘊(yùn)含著豐富的視覺(jué)信息。對(duì)于一張臨床圖像,從感染病灶區(qū)域的中心到邊緣的樣本子塊被重新排列,組成一個(gè)序列有序集(SOS),并輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。我們提出的序列特征學(xué)習(xí)機(jī)制可以利用感染性病變區(qū)域子塊之間的空間關(guān)系,并且可以分離出數(shù)據(jù)樣本中蘊(yùn)含的值得探索的差異性因素。此外,該數(shù)據(jù)集提供了一個(gè)潛在的策略以實(shí)現(xiàn)更可靠、有效、準(zhǔn)確的診斷。使用該數(shù)據(jù)集對(duì)我們的模型進(jìn)行評(píng)估,獲得了比400名眼科醫(yī)生更高的診斷準(zhǔn)確率。
多年來(lái),電子病歷(EMR)積累了大量的醫(yī)學(xué)數(shù)據(jù),這使研究人員從中發(fā)現(xiàn)了許多隱藏知識(shí)。 數(shù)據(jù)挖掘方法被廣泛應(yīng)用于醫(yī)學(xué)數(shù)據(jù),以發(fā)現(xiàn)隱藏的知識(shí),并利用提取的知識(shí)來(lái)輔助各種有害疾病的預(yù)測(cè)、診斷和治療。
疾病預(yù)測(cè)對(duì)于預(yù)防疾病的發(fā)生和減少疾病的損傷具有重要意義。Yang等[7]使用患者的健康記錄來(lái)預(yù)測(cè)糖尿病潛在并發(fā)癥,同時(shí)發(fā)現(xiàn)了并發(fā)癥與實(shí)驗(yàn)室類型之間的隱含關(guān)系。He等[8]使用EMR數(shù)據(jù)集預(yù)測(cè)肺癌術(shù)后并發(fā)癥,并同時(shí)從數(shù)據(jù)集中提取關(guān)鍵變量。
具有預(yù)測(cè)診斷標(biāo)簽和藥物信息的EMR可幫助自動(dòng)助理預(yù)測(cè)疾病診斷并為醫(yī)生提供快速診斷參考。Nee等[9]使用大型EMR文本數(shù)據(jù)集對(duì)每種疾病的EMR上下文進(jìn)行建模,并在EMR中執(zhí)行準(zhǔn)確的疾病診斷預(yù)測(cè)。Wright等[10]使用數(shù)據(jù)挖掘方法從醫(yī)學(xué)數(shù)據(jù)集中獲取有用的關(guān)系和規(guī)則集,以預(yù)測(cè)接下來(lái)要開(kāi)哪些藥。
傳統(tǒng)的醫(yī)學(xué)圖像使用手工構(gòu)造特征,通過(guò)淺模型進(jìn)行分類與分割。Scott等[11]在2003年使用梯度取向、拐角和邊緣強(qiáng)度檢測(cè)雙能量X射線圖像中的椎骨。此外,區(qū)域劃分和合并也是基于區(qū)域的方法中的較為知名的技術(shù)。Manousakas等[12]應(yīng)用區(qū)域劃分和合并技術(shù),試圖克服在MRI中使用均勻性測(cè)量時(shí)遇到的困難。Zhao等[13]介紹了形態(tài)學(xué)的基本數(shù)學(xué)理論和操作,并提出了一種新穎的形態(tài)學(xué)邊緣檢測(cè)方法,以區(qū)分帶有椒鹽噪聲的CT圖像中的肺部邊緣。實(shí)驗(yàn)結(jié)果表明,與2006年最佳邊緣檢測(cè)方法相比,該方法在醫(yī)學(xué)圖像降噪和邊緣檢測(cè)方面均更有效。除此之外,K-means聚類也曾被Kaus等[14]應(yīng)用在心臟MRI中進(jìn)行自動(dòng)左心室的分割。Cordes等[15]通過(guò)使用分層聚類來(lái)衡量MRI的連通性,該方法可以檢測(cè)到低頻波動(dòng)的相似性,結(jié)果表明,類似于已知神經(jīng)元連接的層次聚類能夠檢測(cè)心臟連通模式。2006年,Pohl等[16]提出了一種將有符號(hào)距離圖嵌入線性對(duì)數(shù)優(yōu)勢(shì)空間的方法,可以解決建模問(wèn)題。上述方法專注于區(qū)域、邊緣和聚類等簡(jiǎn)單手段,所以它們?cè)诂F(xiàn)實(shí)世界數(shù)據(jù)上往往性能有限[17]。
在計(jì)算機(jī)輔助診斷中,深度學(xué)習(xí)現(xiàn)已廣泛用于醫(yī)學(xué)圖像識(shí)別[18,19]。深度學(xué)習(xí)的基本結(jié)構(gòu)是CNN,它的結(jié)構(gòu)有三層,即卷積層、池化層和全連接層。為了開(kāi)發(fā)基于CNN的強(qiáng)大AI算法,我們通常需要大量帶標(biāo)注的數(shù)據(jù)。
醫(yī)學(xué)圖像的標(biāo)準(zhǔn)化收集并不像收集一般自然圖像那樣容易。但是,如今幾個(gè)公共醫(yī)學(xué)圖像數(shù)據(jù)庫(kù)和多中心數(shù)據(jù)收集可以幫助解決該問(wèn)題。某些類型的醫(yī)學(xué)圖像數(shù)據(jù)可以被大量收集,如X射線圖像、CT、心電圖和病理圖像。通過(guò)使用這些大數(shù)據(jù),基于CNN的AI算法可以對(duì)CT圖像進(jìn)行解剖結(jié)構(gòu)分割[20],對(duì)胸部X射線圖像正?;虍惓=Y(jié)果進(jìn)行分類[21],對(duì)肺癌或乳腺癌進(jìn)行篩查[22,23],檢測(cè)出顱腦CT掃描中的危險(xiǎn)情況[24],使用基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的模型對(duì)肝臟病變進(jìn)行分類[25],進(jìn)行心臟病篩查[26,27],以及在病理圖像中探測(cè)淋巴結(jié)轉(zhuǎn)移等[27,28]。
在眼科領(lǐng)域,由于眼底照相和OCT圖像易于收集,因此基于CNN的AI算法主要應(yīng)用領(lǐng)域是探查視網(wǎng)膜疾病,如糖尿病性視網(wǎng)膜病變、年齡相關(guān)性黃斑變性和青光眼[29-31]。
當(dāng)前,人工智能輔助的醫(yī)學(xué)診斷系統(tǒng)主要應(yīng)用于醫(yī)學(xué)成像領(lǐng)域。如果疾病的診斷需要依賴自然觀察,則其主要取決于醫(yī)生的個(gè)人經(jīng)驗(yàn)。皮膚病損是一個(gè)例子,當(dāng)前的AI算法可以將數(shù)碼皮膚照片中的惡性黑色素瘤與良性病變區(qū)分開(kāi)[2]。角膜病也是一個(gè)例子,眼科醫(yī)生可以使用裂隙燈顯微鏡來(lái)獲得正確的診斷,但迄今為止,還沒(méi)有有關(guān)利用AI來(lái)提高角膜病的診斷準(zhǔn)確性的研究。
經(jīng)機(jī)構(gòu)倫理委員會(huì)批準(zhǔn),此研究的圖像數(shù)據(jù)集包括了1998年5月至2018年在浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院眼科通過(guò)裂隙燈顯微鏡獲得的115 408張臨床數(shù)字圖像,這些圖像來(lái)自10 609例89種角膜病患者。臨床圖像由兩種類型的裂隙燈顯微鏡拍攝,即蔡司裂隙燈顯微鏡SL 130(德國(guó)卡爾·蔡司公司),集成了SL Cam for Imaging模塊,每個(gè)圖像的分辨率為1024×768像素;以及附帶數(shù)碼相機(jī)Unit DC-1的Topcon裂隙燈顯微鏡(日本拓普康公司),其圖像分辨率為1740×1536像素或2048×1536像素。
在數(shù)據(jù)集中,拍攝的活躍期角膜感染的圖像,包括細(xì)菌性角膜炎(BK)、真菌性角膜炎(FK)和單純皰疹病毒基質(zhì)性角膜炎(HSK)的圖像,被選擇用于算法分類的訓(xùn)練或測(cè)試集。來(lái)自角膜感染患者的所有圖像均帶有明確的臨床診斷標(biāo)注,至少有以下證據(jù)中的兩種:①角膜感染的臨床表現(xiàn)如圖1(a)所示。②通過(guò)相關(guān)的診斷性單藥或聯(lián)合藥物治療,影響和終止了角膜感染的進(jìn)展,從而最終治愈。③感染部位樣本的病原體鑒定:在細(xì)菌和真菌感染中,通過(guò)顯微鏡檢查涂片或生物培養(yǎng)確認(rèn)病原診斷;在病毒感染中,通過(guò)聚合酶鏈反應(yīng)(PCR)評(píng)估淚液或角膜刮片組織樣本進(jìn)行病原診斷。除了角膜感染的類別外,患有具有相似視覺(jué)特征的其他角膜病患者的圖像被歸類為“其他”類別。此類別包括各種角膜變性、泡性角結(jié)膜炎、各種角膜腫瘤、角膜乳頭狀瘤、角膜退行性變,甚至還包括棘阿米巴角膜炎。每個(gè)類別的代表性圖像如圖1(a)所示。
最終數(shù)據(jù)集包含來(lái)自867例患者的2284幅圖像。訓(xùn)練集包括來(lái)自747例患者的387張隨機(jī)選擇的BK圖像、519張F(tuán)K圖像、488張HSK圖像和528張其他角膜病圖像。測(cè)試集由120例患者隨機(jī)選擇的86張BK圖像、97張F(tuán)K圖像、51張HSK圖像和128張其他診斷圖像組成。為了評(píng)估眼科醫(yī)生的疾病分類表現(xiàn),選擇測(cè)試集中每位患者的首次診斷圖像以構(gòu)建評(píng)估眼科醫(yī)生診斷水平的數(shù)據(jù)集(即總共使用了120張圖像來(lái)評(píng)估眼科醫(yī)生的表現(xiàn))。
圖1. 典型裂隙燈顯微圖像與我們提出的四類角膜疾病的SOS模型中嵌入特征的t-分布隨機(jī)鄰域嵌入(t-SNE)的表示可視化。(a)細(xì)菌性角膜炎(BK)、真菌性角膜炎(FK)、單純皰疹病毒基質(zhì)性角膜炎(HSK)和其他角膜炎(上述三類角膜疾病之外的角膜炎)的典型裂隙燈顯微圖像。不同類別的疾病或同一類別疾病的不同階段表現(xiàn)出不同的視覺(jué)特征。(b)SOS模型通過(guò)t-SNE嵌入每種疾病類別的二維空間獲得的深度序列特征。t-SNE用于可視化高維數(shù)據(jù),這些數(shù)據(jù)是經(jīng)過(guò)診斷驗(yàn)證的攝影測(cè)試集的SOS模型中的特征表示(362幅圖像)。彩色的點(diǎn)云代表疾病的不同類別,顯示了算法如何將疾病分組為不同的簇。插圖顯示了與各個(gè)點(diǎn)相對(duì)應(yīng)的圖像。
如前所述,我們發(fā)明了一種使用圖像序列特征的感染性角膜炎分類模型訓(xùn)練方法。為了展示我們提出的這一方法的優(yōu)勢(shì),我們將其與另兩類方法——基于完整圖像特征的學(xué)習(xí)方法和基于圖像子塊特征的方法——進(jìn)行了對(duì)比。
基于完整圖像特征的深度學(xué)習(xí)模型接收原始的無(wú)標(biāo)注疾病圖像,直接由CNN進(jìn)行分類。為解決訓(xùn)練圖像有限的問(wèn)題,我們采用了遷移學(xué)習(xí)的方法[32,33]。在實(shí)驗(yàn)中,我們選擇了如下三種經(jīng)典的圖像分類模型結(jié)構(gòu):VGG-16(由英國(guó)牛津大學(xué)計(jì)算幾何小組提出)[34]、GoogleLeNet-v3(由谷歌公司修改的LeNet模型的第三個(gè)版本)[35]以及稠密卷積網(wǎng)絡(luò)(DenseNet)[36]。
在基于圖像子塊特征深度學(xué)習(xí)模型當(dāng)中,眼前節(jié)圖像由手工進(jìn)行初步標(biāo)注,分割出四塊:角膜感染病灶區(qū)、角膜感染灶旁區(qū)、結(jié)膜充血區(qū)和前房積膿區(qū)。在該類方法中我們同樣使用了三種遷移模型結(jié)構(gòu),即VGG-16、GoogleLeNet-v3和DenseNet。在對(duì)圖像的每個(gè)子塊完成分類后,通過(guò)多數(shù)投票的方法給出整張疾病圖像的分類結(jié)果。
在基于序列的深度學(xué)習(xí)模型中,對(duì)于每張圖片,如果其中存在病變區(qū)域,模型的關(guān)注點(diǎn)就會(huì)被設(shè)置在病變區(qū)域上。病變區(qū)的最小外接圓被進(jìn)一步劃分為由小到大的K個(gè)圓環(huán),如圖2所示。落在由內(nèi)到外的第i個(gè)圓環(huán)上的所有圖像子塊組成一個(gè)子塊集合Si,所有集合組成一個(gè)由內(nèi)而外的序列{S1,S2, ...,SK}。為解決標(biāo)注數(shù)據(jù)不足的問(wèn)題,在訓(xùn)練階段,我們通過(guò)隨機(jī)失活機(jī)制來(lái)隨機(jī)剔除每個(gè)集合中的一些元素,這樣我們能夠獲得更多的序列來(lái)擴(kuò)大訓(xùn)練集多樣性,使得模型的訓(xùn)練更加穩(wěn)定。
圖2. 采樣以及如何將病變區(qū)域分成K個(gè)集合。圓圈代表每個(gè)集合的邊界,正方形代表采樣區(qū)域。要注意的是為避免圖片過(guò)度重疊,僅顯示了一半的采樣區(qū)域。
我們利用一個(gè)深層的殘差CNN(如DenseNet),通過(guò)編碼器-解碼器框架[37-39]來(lái)提取每個(gè)集合中的每個(gè)子塊的表征。卷積編碼器能夠?qū)⒌趇個(gè)集合中的第j個(gè)子塊pij轉(zhuǎn)化為一個(gè)能夠表示其性質(zhì)的表征向量fij,得到圖像子塊的表征的集合{F1,F2, ...,FK}。對(duì)每個(gè)集合Fi,通過(guò)最大池化計(jì)算獲得整個(gè)子塊集合的表征f′i,表示每個(gè)集合的整體性質(zhì)。由于病變區(qū)由內(nèi)到外的子塊集合構(gòu)成了一個(gè)序列,我們可以使用長(zhǎng)短時(shí)記憶(long short-term memory, LSTM)模型[37]——一種經(jīng)典的序列學(xué)習(xí)模型,來(lái)將表征序列{f′1,f′2, ...,f′K}轉(zhuǎn)化為最終用于分類的表征。最終的圖像特征可以通過(guò)一個(gè)全連接層解碼,通過(guò)softmax計(jì)算得到每個(gè)疾病類別的分類概率。圖1(b)展示了每種疾病的圖像表征在二維空間上的分布。圖3展示了整個(gè)系統(tǒng)的結(jié)構(gòu)。經(jīng)由獲得的概率分布與真實(shí)標(biāo)簽的損失函數(shù),通過(guò)反向傳播精調(diào)模型參數(shù)[40,41]。
我們從全國(guó)各地招募眼科醫(yī)生,測(cè)試他們基于圖像進(jìn)行診斷的能力,并將其與已開(kāi)發(fā)的深度學(xué)習(xí)方法進(jìn)行比較。呈現(xiàn)給眼科醫(yī)生的圖像和測(cè)試集中每位患者的經(jīng)過(guò)診斷驗(yàn)證的圖像都是從初次就診時(shí)隨機(jī)選擇的(即總共120張圖像)。所招募的眼科醫(yī)生具有不同的學(xué)術(shù)頭銜(從住院醫(yī)生到高年資醫(yī)生,甚至到醫(yī)學(xué)院的臨床教授)、工作機(jī)構(gòu)(從大學(xué)醫(yī)學(xué)院的教學(xué)醫(yī)院到公立市級(jí)醫(yī)院再到社區(qū)診所)和專業(yè)經(jīng)驗(yàn)(分為1~5年、6~10年、11~15年、16~20年以及20年以上)。我們總共招募了421名眼科醫(yī)生。
圖3. 病變區(qū)域進(jìn)行深度序列特征學(xué)習(xí)的過(guò)程。對(duì)于每張裂隙燈顯微圖像,病變區(qū)域外接圓被劃分為K個(gè)圓環(huán)(直觀起見(jiàn),此處K = 3)。我們從每個(gè)圓環(huán)(從最內(nèi)層到最外層)上采樣,采樣的區(qū)域用于生成集合序列。隨后通過(guò)最大池化和長(zhǎng)短期記憶(LSTM)模型進(jìn)行序列特征學(xué)習(xí)。f:采樣區(qū)域的特征;f’:集合的序列特征。
眼科醫(yī)生手動(dòng)檢視圖像從而進(jìn)行基于圖像的診斷,主要遵循兩步流程。第一步,眼科醫(yī)生僅依靠圖像進(jìn)行診斷,將來(lái)自測(cè)試集中每位患者的首次診斷圖像中的四類角膜病圖像,即BK、FK、HSK和其他角膜病的圖像提供給眼科醫(yī)生,眼科醫(yī)生通過(guò)手動(dòng)選擇為每個(gè)圖像做出診斷。第二步,為眼科醫(yī)生提供與每個(gè)圖像相關(guān)的其他標(biāo)準(zhǔn)化和結(jié)構(gòu)化的醫(yī)學(xué)信息,包括簡(jiǎn)短的病史、起病時(shí)間、疼痛程度和復(fù)發(fā)情況(如果有)以及藥物使用史。第三步,要求眼科醫(yī)生通過(guò)手動(dòng)檢視并考慮其他醫(yī)學(xué)信息,對(duì)每個(gè)圖像做出診斷決定。所有眼科醫(yī)生均獨(dú)立執(zhí)行此程序,沒(méi)有時(shí)間限制。
鑒于不同的學(xué)術(shù)頭銜、工作機(jī)構(gòu)和專業(yè)經(jīng)驗(yàn)導(dǎo)致的置信度不同,使用社會(huì)科學(xué)統(tǒng)計(jì)軟件包(SPSS 18.0版;美國(guó)Cary公司)對(duì)眼科醫(yī)生的診斷數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。眼科醫(yī)生診斷準(zhǔn)確度的平均水平以(均值±標(biāo)準(zhǔn)差)%表示。使用Kolmogorov-Smirnov檢驗(yàn)驗(yàn)證數(shù)據(jù)的正態(tài)性。根據(jù)數(shù)據(jù)正態(tài)性,使用單因素方差分析(ANOVA)分析了不同醫(yī)院級(jí)別和職稱組之間的診斷準(zhǔn)確性差異。最小顯著差異法用于參數(shù)變量的事后分析。使用皮爾遜相關(guān)系數(shù)測(cè)試了診斷準(zhǔn)確性和專業(yè)經(jīng)驗(yàn)?zāi)曩Y之間的相關(guān)性。采用逐步法進(jìn)行多元線性回歸分析,從學(xué)術(shù)頭銜、醫(yī)院層級(jí)和專業(yè)經(jīng)驗(yàn)?zāi)曩Y等方面分析了統(tǒng)計(jì)學(xué)因素的影響。進(jìn)行了配對(duì)t檢驗(yàn)(針對(duì)正態(tài)分布的變量)和Wilcoxon符號(hào)秩檢驗(yàn)(針對(duì)非正態(tài)分布的變量),以確定在有無(wú)附加醫(yī)學(xué)信息的情況下,醫(yī)生在診斷準(zhǔn)確性上是否存在顯著差異。所有檢驗(yàn)的顯著性水平設(shè)置為0.05。
完整圖像疾病的深度模型目前在醫(yī)學(xué)圖像診斷任務(wù)中非常流行,此類方法直接將原始醫(yī)學(xué)圖像交由CNN處理。我們的工作中選擇了VGG-16、GoogleLeNet-v3和DenseNet三種經(jīng)典模型結(jié)構(gòu),并對(duì)比了其對(duì)BK、FK、HSK的診斷準(zhǔn)確率,如表1所示。考慮到直接將完整圖像傳入CNN可能會(huì)含有一些無(wú)關(guān)的信息,我們進(jìn)一步基于這三種結(jié)構(gòu)設(shè)計(jì)了基于圖像子塊的模型[42,43]。在基于圖像子塊的模型中,圖像包含由人工標(biāo)注的角膜感染病灶區(qū)、角膜感染灶旁區(qū)、結(jié)膜充血區(qū)和前房積膿區(qū)等區(qū)域信息,我們并不傳入完整的原始圖像,而是使用包含這些區(qū)域的圖像子塊進(jìn)行分類。三種基于子塊的模型對(duì)每個(gè)子塊的識(shí)別準(zhǔn)確率分別能夠達(dá)到49.62%、51.52%和60%。在每個(gè)圖像子塊分類后,通過(guò)多數(shù)投票的方法給出整張圖像的診斷結(jié)果?;趫D像子塊的模型對(duì)圖像的分類準(zhǔn)確率分別可以達(dá)到52.50%、55.52%和66.30%,如表1所示。
最后,我們使用基于圖像序列特征的模型,該方法能夠保持醫(yī)學(xué)圖像中潛在的空間結(jié)構(gòu)信息。如前所述,子塊集合序列的表征是通過(guò)由內(nèi)而外的順序排列獲得的(即SOS),使用SOS提取特征能達(dá)到78.73%的分類準(zhǔn)確率。除了產(chǎn)生集合序列外,我們還生成了隨機(jī)排序的子塊(ROP)和順序排列的子塊(SOP)來(lái)獲得特征序列。ROP通過(guò)隨機(jī)選擇產(chǎn)生子塊序列,而SOP按照從內(nèi)到外的順序采樣序列(但是沒(méi)有將屬于同一圓環(huán)的子塊聚成一個(gè)集合)。實(shí)驗(yàn)結(jié)果表面,ROP方法能夠達(dá)到74.23%的準(zhǔn)確率(BK 75.29%、FK 68.04%、HSK 82.35%)。SOP方法達(dá)到75.14%的準(zhǔn)確率。這些實(shí)驗(yàn)結(jié)果表明我們基于序列的深度學(xué)習(xí)模型在基于圖像的角膜病分類診斷任務(wù)上能獲得最好的表現(xiàn)。
表1 不同深度模型在測(cè)試集上的診斷能力對(duì)比
我們使用數(shù)據(jù)集評(píng)估了本文中考慮的所有算法,以比較每種算法與眼科醫(yī)生的表現(xiàn)。表2列出了所有算法的準(zhǔn)確性以及該數(shù)據(jù)集(120幅圖像)上眼科醫(yī)生的平均表現(xiàn)。表3列出了眼科醫(yī)生在臨床圖像診斷中的表現(xiàn)。從全國(guó)各地共招募421名眼科醫(yī)生參加這項(xiàng)研究。在沒(méi)有參考任何額外醫(yī)療信息的眼科醫(yī)生的平均準(zhǔn)確度為(49.27 ± 11.5)%(范圍:20.00%~86.67%),遠(yuǎn)低于AI深度學(xué)習(xí)模型所獲得的準(zhǔn)確性。例如,SOS算法的診斷準(zhǔn)確度達(dá)到80.00%,其中BK、FK和HSK的準(zhǔn)確度分別為53.33%、83.33%和93.33%(表2)。圖4描繪了受試者工作特征(ROC)曲線、SOS模型的混淆矩陣以及眼科醫(yī)生的表現(xiàn)。ROC曲線是分類模型的一種可視化。曲線下的面積(AUC)是性能的衡量,最大值為1。如果眼科醫(yī)生的敏感度-特異性點(diǎn)位于分類模型的曲線下方,則該模型可達(dá)到優(yōu)于眼科醫(yī)生的性能。
表2 在樣本量為120的測(cè)試集上眼科醫(yī)生與深度模型的對(duì)比
表3 根據(jù)醫(yī)院級(jí)別、工作年限和眼科醫(yī)生的專業(yè)職稱的平均分類準(zhǔn)確率
對(duì)于工作地點(diǎn)對(duì)眼科醫(yī)生診斷水平的影響,教學(xué)醫(yī)院的眼科醫(yī)生的表現(xiàn)比市級(jí)醫(yī)院和社區(qū)診所的要好(P< 0.001),而市級(jí)醫(yī)院和社區(qū)診所之間沒(méi)有統(tǒng)計(jì)差異(P= 0.226)。專業(yè)級(jí)別較高的眼科醫(yī)生在診斷臨床圖像時(shí)具有更高的準(zhǔn)確性,如高級(jí)職稱和中級(jí)職稱醫(yī)師的表現(xiàn)優(yōu)于住院醫(yī)師(分別為P< 0.001和P= 0.003),但高級(jí)職稱和中級(jí)職稱之間差異無(wú)統(tǒng)計(jì)學(xué)意義(P= 0.071)。在執(zhí)業(yè)年資和診斷準(zhǔn)確性之間未發(fā)現(xiàn)顯著相關(guān)性(P=0.084)。
綜合考慮醫(yī)院等級(jí)和醫(yī)生等級(jí)的因素,教學(xué)醫(yī)院的高級(jí)職稱眼科醫(yī)生的表現(xiàn)[準(zhǔn)確性為(57.08 ± 12.02)%,范圍:33.33%~86.67%]好于社區(qū)診所的住院醫(yī)生[準(zhǔn)確性為(41.99 ± 10.51)%,范圍:22.50%~63.33%]。逐步多元回歸分析得出影響診斷準(zhǔn)確性的三個(gè)模型。模型1(R2= 0.062)僅具有醫(yī)院水平的因素(β= 0.254,P<0.001);模型2(R2= 0.100)具有醫(yī)院水平(β= 0.239,P< 0.001)和專業(yè)職稱(β= 0.200,P< 0.001)的因素;模型3(R2= 0.109)具有所有三個(gè)因素:醫(yī)院水平(β= 0.227,P< 0.001)、專業(yè)職稱(β= 0.326,P< 0.001)和工作年限(β= ?0.164,P= 0.024)。
當(dāng)進(jìn)一步為眼科醫(yī)生提供每張圖像的附加醫(yī)學(xué)信息時(shí),包括簡(jiǎn)短的病史、發(fā)病時(shí)間、疼痛程度和復(fù)發(fā)發(fā)作(如果有)以及用藥史,平均總診斷準(zhǔn)確性從49.27%提高到57.16%,差異具有統(tǒng)計(jì)學(xué)意義(Wilcoxon符號(hào)秩檢驗(yàn),P< 0.001)。詳細(xì)而言,附加醫(yī)學(xué)信息后,BK的診斷準(zhǔn)確性從46.55%提高到55.55%(P< 0.001),F(xiàn)K從45.56%提高到56.28%(P< 0.001),HSK從65.01%提高到73.25%(P< 0.001),404名醫(yī)生的平均總準(zhǔn)確性提高了8.28%,9名醫(yī)生的準(zhǔn)確性下降了2.13%,其他8名醫(yī)生的準(zhǔn)確性保持不變。
圖4. SOS模型與眼科醫(yī)生表現(xiàn)的ROC曲線及混淆矩陣對(duì)比圖。(a)SOS模型的ROC曲線;(b)、(c)在用于診斷水平測(cè)試的數(shù)據(jù)集上眼科醫(yī)生與SOS模型的混淆矩陣;(d)~(f)對(duì)應(yīng)的BK、FK與HSK等各子類的ROC曲線。
一般而言,人類通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、味覺(jué)和嗅覺(jué)對(duì)事物進(jìn)行判斷,并以此對(duì)事物進(jìn)行適當(dāng)?shù)姆诸怺44]。其中視覺(jué)感知發(fā)揮著最重要的作用[45],視覺(jué)知識(shí)可以描述空間形狀、大小和相關(guān)性以及顏色和紋理之間的關(guān)系[46]。醫(yī)生對(duì)疾病的診斷主要依靠觀察和推理。在所有人類疾病中,角膜病具有最直接、最顯著的視覺(jué)感知變化;因?yàn)榻】到悄ぞ哂型耆该鞯莫?dú)特特征,這與病理狀況下角膜內(nèi)外圖像的變化形成鮮明對(duì)比。人類專家通過(guò)對(duì)圖像的理解和分析來(lái)進(jìn)行角膜病的診斷決策,這可能是AI輔助人類最合適的任務(wù)。
一般而言,深度學(xué)習(xí)是由大量帶標(biāo)注的數(shù)據(jù)驅(qū)動(dòng)的[47,48]。然而,尚不清楚有多少臨床圖像訓(xùn)練數(shù)據(jù)足以被開(kāi)發(fā)用于診斷臨床疾病的AI系統(tǒng)。我們中心收集和記錄具有臨床圖像的角膜病例已有20余年,但是,如果按照每種疾病類別對(duì)所有圖像進(jìn)行標(biāo)注,那么在最常見(jiàn)的疾病類別中可以有數(shù)千張臨床圖像,而某些罕見(jiàn)疾病類別中只有少數(shù)臨床圖像。每個(gè)角膜病類別中帶標(biāo)注數(shù)據(jù)的不平衡性導(dǎo)致我們將注意力集中在最常見(jiàn)的疾?。ㄈ绺腥拘越悄げ。┥?,以初步開(kāi)發(fā)本研究中的AI診斷系統(tǒng)。
在本研究中,我們證明了通過(guò)裂隙燈顯微鏡拍攝的臨床圖像,通過(guò)CNN進(jìn)行的深度學(xué)習(xí)可以用于角膜感染性疾病的臨床診斷。我們共評(píng)估了3組9種深度學(xué)習(xí)架構(gòu),以開(kāi)發(fā)用于角膜感染性疾病的圖像診斷系統(tǒng)。從圖像級(jí)別和圖像子塊級(jí)別模型的結(jié)果可以看出,盡管只有4個(gè)類別,但這仍是一個(gè)困難的任務(wù),尤其是對(duì)于VGG-16和GoogLeNet-v3。這兩種結(jié)構(gòu)在圖像子塊分類中均表現(xiàn)不佳,圖像子塊之間的投票并未顯著改善其性能。相比之下,DenseNet的圖像子塊分類達(dá)到60%,投票后達(dá)到66.3%。研究表明,如果模型在圖像子塊分類中表現(xiàn)得足夠好,那么從感染性病變區(qū)域著眼于圖像子塊可以產(chǎn)生比著眼于圖片整體更高的性能。ROP方法可被視為除表決之外組合圖像子塊特征的另一種方法。結(jié)果表明,即使沒(méi)有空間信息,采用適當(dāng)?shù)慕M合方法也可以進(jìn)一步改善圖像子塊級(jí)模型。我們發(fā)現(xiàn),總體而言SOS是用于角膜病中僅依賴圖像進(jìn)行診斷的最有前景的方法。SOS比其他方法更好的一個(gè)可能原因是在這種深度學(xué)習(xí)模型中,直接實(shí)現(xiàn)了對(duì)臨床圖像空間結(jié)構(gòu)的適當(dāng)利用。SOP表現(xiàn)不佳,是因?yàn)樗鼪](méi)有考慮病變區(qū)域的環(huán)形結(jié)構(gòu)。據(jù)我們所知,本研究首次提出了一種角膜病分類深度學(xué)習(xí)模型,該模型在僅依靠圖像進(jìn)行診斷時(shí)比人類眼科醫(yī)生具有更高的準(zhǔn)確性。在本研究中,一般眼科醫(yī)生在僅依賴圖像的角膜病診斷中的表現(xiàn)要比AI系統(tǒng)差。毫無(wú)疑問(wèn),錯(cuò)誤的診斷可能造成長(zhǎng)期使用不適當(dāng)?shù)乃幬铮瑢?dǎo)致識(shí)別特征變得更為模糊,使醫(yī)生診斷更加困難[6]。我們研究中的多元回歸分析表明,就職稱、工作機(jī)構(gòu)和年資而言,這3個(gè)統(tǒng)計(jì)學(xué)因素對(duì)診斷性能會(huì)有影響,但3個(gè)模型中的確定系數(shù)較低。這表明上述因素可能無(wú)法如實(shí)全面地決定眼科醫(yī)生對(duì)角膜病的診斷準(zhǔn)確性,或者影響診斷性能的因素可能非常復(fù)雜,無(wú)法通過(guò)上述3個(gè)因素簡(jiǎn)單地準(zhǔn)確總結(jié)。因此,如果AI可以幫助臨床醫(yī)生以更高的診斷準(zhǔn)確性顯著提高臨床能力,那么這將極大地使角膜病患者受益,同時(shí)節(jié)省了醫(yī)療資源并減輕社會(huì)負(fù)擔(dān)。目前全世界仍有450萬(wàn)人正遭受由角膜病引起角膜混濁導(dǎo)致的中度至重度視力障礙,特別是在發(fā)展中國(guó)家。提高診斷準(zhǔn)確性可有兩種途徑,一是完善醫(yī)師培訓(xùn)體系,加強(qiáng)醫(yī)師專業(yè)教育和培訓(xùn);另一種即開(kāi)發(fā)實(shí)用的AI系統(tǒng)以協(xié)助診斷。我們的研究表明,通過(guò)使用臨床圖像來(lái)開(kāi)發(fā)AI系統(tǒng)以提高角膜病診斷準(zhǔn)確性是切實(shí)可行的。在測(cè)試眼科醫(yī)生的表現(xiàn)時(shí),我們發(fā)現(xiàn)當(dāng)向醫(yī)生提供圖像和病史時(shí),診斷準(zhǔn)確性比單純提供圖像有所提高(從49.27%增至57.16%,P< 0.001)。該結(jié)果表明,其他信息可以幫助進(jìn)一步提高診斷表現(xiàn),AI診斷系統(tǒng)也可能如此。研究表明,將數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)與人類知識(shí)相結(jié)合可以有效地開(kāi)發(fā)出可解釋、強(qiáng)大且通用的AI [49];諸如病史之類的信息可能包含類似于人的常識(shí),可以使模型利用有限的訓(xùn)練數(shù)據(jù)來(lái)解決許多不同的任務(wù)。為了改善我們的AI診斷系統(tǒng)以提高準(zhǔn)確性,在未來(lái)的工作中可能需要設(shè)計(jì)一種多模態(tài)學(xué)習(xí)模型(即視覺(jué)和非視覺(jué)信息的有效組合),或是一個(gè)更合適的序列學(xué)習(xí)模型。
不可否認(rèn)的是,在現(xiàn)階段我們的AI診斷準(zhǔn)確性只能由我們所收集的有限圖像數(shù)據(jù)來(lái)證實(shí)[50],并通過(guò)與使用相同臨床圖像的眼科醫(yī)生進(jìn)行對(duì)比。這種AI系統(tǒng)在輔助醫(yī)生臨床實(shí)踐中的實(shí)際應(yīng)用,需要在將來(lái)進(jìn)行更大規(guī)模的深入臨床評(píng)估[51]。
傳染性角膜炎是最常見(jiàn)的眼科疾病,可能導(dǎo)致失明。眼科醫(yī)生通過(guò)觀察裂隙燈圖像診斷疾病,利用計(jì)算機(jī)輔助圖像分析算法方便診斷。在這項(xiàng)工作中,我們提出了一個(gè)序列水平的深部模型,端到端診斷傳染性角膜炎。具體地說(shuō),利用深度卷積網(wǎng)絡(luò)良好的特征提取性能,首先提取角膜區(qū)域的細(xì)節(jié)模式,然后將局部特征分成符合空間結(jié)構(gòu)的有序集合,學(xué)習(xí)角膜圖像的全局表示并進(jìn)行診斷。我們收集了超過(guò)10 000名患者的110 000張圖像。在此基礎(chǔ)上,充分的實(shí)驗(yàn)對(duì)比結(jié)果表明,該模型是一種更為可行的結(jié)構(gòu),比傳統(tǒng)的CNN具有更好的診斷性能。另外,通過(guò)與400多位專業(yè)眼科醫(yī)生的診斷結(jié)果進(jìn)行對(duì)比發(fā)現(xiàn),我們的模式可以大大超過(guò)專業(yè)人士的平均水平,達(dá)到頂級(jí)眼科醫(yī)生的水平表現(xiàn)。據(jù)我們所知,這是第一個(gè)關(guān)于感染性角膜炎診斷的研究,我們的研究有力地證明了使用人工智能進(jìn)行這些類型疾病的臨床輔助診斷的潛力。
致謝
本研究得到了浙江省衛(wèi)生健康委員會(huì)(WKJZJ-1905、2018ZD007)、浙江省重點(diǎn)研究開(kāi)發(fā)項(xiàng)目(2018C03082)和國(guó)家自然科學(xué)基金(61625107)的支持。感謝張仲非教授的意見(jiàn)和建議。
Compliance with ethics guidelines
Yesheng Xu, Ming Kong, Wenjia Xie, Runping Duan,Zhengqing Fang, Yuxiao Lin, Qiang Zhu, Siliang Tang, Fei Wu, and Yu-Feng Yao declare that they have no conflict of interest or financial conflicts to disclose.