張馳名,王慶鳳,劉志勤,黃 俊,陳 波,付 婕,周 瑩
(1.西南科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010; 2.綿陽市中心醫(yī)院 放射科,四川 綿陽 621010)
胸部病變十分常見且種類繁多,已成為影響現(xiàn)代人身體健康的主要威脅之一。X射線(CXR)是目前最常見的放射檢查類型,快捷、成本較低的優(yōu)勢使其成為多種胸部疾病(如肺炎、氣胸、腫塊等)篩查和診斷的主要方式。據(jù)世界衛(wèi)生組織(WTO)相關(guān)報告,每年約有4.5億例肺炎病例記錄在案,約有400萬人死于該病,占全球患病死亡總?cè)藬?shù)(5 700萬人)的7%[1],而肺癌更是全世界發(fā)病率和致死率最高的惡性腫瘤之一,我國肺癌患者的5年生存率僅為16.1%[2]。國內(nèi)外專家主要通過對胸部病癥的早診早治來降低死亡率,但胸部X射線閱讀需要極強的專業(yè)知識,目前主要依賴于放射科醫(yī)師人工觀察。由于胸部病理特征的多樣性以及放射科醫(yī)師的潛在疲勞或缺乏經(jīng)驗,在實際中誤診不可避免。因此,亟需開發(fā)胸片輔助診斷算法以支持放射科醫(yī)師臨床工作,從而及時有效地對胸部病癥進行評估。
近年來,醫(yī)學(xué)人工智能作為一種新興技術(shù),在全球范圍內(nèi)引起了廣泛關(guān)注[3]。計算機輔助診斷(Computer Aided Diagnosis,CAD)的改進在許多生物醫(yī)學(xué)領(lǐng)域產(chǎn)生了重要影響,如皮膚癌診斷[4]、胎兒超聲標準平面檢索[5]和肺結(jié)節(jié)檢測[6-7]等。目前,已有學(xué)者將CAD技術(shù)應(yīng)用于胸部X片分類任務(wù)。文獻[8]將預(yù)訓(xùn)練的全卷積網(wǎng)絡(luò)作為特征提取器,僅訓(xùn)練全連接分類層,以評估多種卷積網(wǎng)絡(luò)的診斷性能,結(jié)果表明,ResNet[9]網(wǎng)絡(luò)性能最佳。文獻[10]分析14個病理標簽相關(guān)性問題,使用DenseNet[11]和長短期記憶(LSTM)網(wǎng)絡(luò)分別作為編碼器(Encode)和解碼器(Decode),從而學(xué)習(xí)病理標簽之間的依賴關(guān)系。文獻[12]提出CheXNet網(wǎng)絡(luò)模型,其使用遷移學(xué)習(xí)微調(diào)DenseNet-121變體[11]實現(xiàn)了更好的多標簽病變診斷。隨后,文獻[13-14]在文獻[8]發(fā)布的官方數(shù)據(jù)劃分標準下進行比較評估,文獻[14]提出的定位感知網(wǎng)絡(luò)結(jié)合X線中的病理空間信息,在14種疾病診斷中實現(xiàn)了最優(yōu)的結(jié)果,其平均AUC值達到0.807。
上述方法取得了較好的結(jié)果,但是仍存在一些不足。首先,不同于自然圖像的粗粒度識別,胸部病變區(qū)域與其余正常區(qū)域之間的特征辨識度低,其占比小、位置多變,已有方法通常使用經(jīng)典卷積網(wǎng)絡(luò)架構(gòu)(ResNet[9]、DenseNet[11])獨立處理多個特征圖,無法構(gòu)建特征通道間的相關(guān)性,難以捕捉最具代表性的特征用于胸部疾病的細粒度分類。其次,胸部疾病樣本具有不平衡性,簡單易分的負樣本(無疾病樣本)太多,會主導(dǎo)梯度的更新方向,使得模型優(yōu)化方向傾向于無疾病樣本的學(xué)習(xí),即無效學(xué)習(xí),從而導(dǎo)致方法只能分辨出有無疾病,無法分辨具體的疾病種類。此外,疾病間存在特征差異性,學(xué)習(xí)難易程度不同,上述方法使用二元交叉熵(Binary Cross Entropy,BCE)作為損失函數(shù),無法解決正負樣本不平衡、簡單與困難樣本學(xué)習(xí)難易程度不同的問題。
在計算機輔助診斷中,通過病灶區(qū)域定位等視覺證據(jù)支持疾病分類結(jié)果,是臨床診斷的重要組成部分,其可降低診斷的假陽性率。但是,胸片上的自動病癥區(qū)域檢測具有較大的難度,常依賴于自然語言處理(Natural Language Processing,NLP)技術(shù)將病理報告轉(zhuǎn)換為疾病標簽,或者通過醫(yī)學(xué)專家人工閱讀和標注。前者無法從報告中獲得病變區(qū)域的像素級標簽信息,后者獲取大規(guī)模高質(zhì)量的病灶邊界注釋時代價高昂。很少有胸部X線數(shù)據(jù)集對病變區(qū)域進行標釋(ChestX-Ray14數(shù)據(jù)集[8]僅有少量病灶邊框注釋),因此,可將計算機輔助診斷任務(wù)轉(zhuǎn)換為弱監(jiān)督學(xué)習(xí)[15]問題,即僅使用疾病類標簽訓(xùn)練網(wǎng)絡(luò),通過弱監(jiān)督學(xué)習(xí)實現(xiàn)病變區(qū)域的可視化定位。
本文提出一種基于深度學(xué)習(xí)的胸部疾病診斷方法。在ResNet50[9]的基礎(chǔ)上引入壓縮激勵模塊[16],顯式地建立特征通道之間的相互依賴關(guān)系,通過全局信息選擇性地增強與病理模式高度相關(guān)的重要特征,同時壓縮無用信息以減少特征冗余。使用全局最大-平均池化層保留更多的病理特征信息,采用焦點損失[17]降低易分類樣本的權(quán)重,使得模型更專注于困難樣本的學(xué)習(xí)。在此基礎(chǔ)上,通過梯度加權(quán)類激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)[18]突出顯示網(wǎng)絡(luò)病變診斷時最依賴的關(guān)鍵性病變位置,以實現(xiàn)弱監(jiān)督學(xué)習(xí)的病癥區(qū)域定位。
2015年,BAR等人[19]將深度學(xué)習(xí)技術(shù)應(yīng)用于胸部X射線的輔助診斷,研究結(jié)果驗證了卷積網(wǎng)絡(luò)在胸部X射線智能診斷中的可行性以及巨大的潛力,但因缺乏病理學(xué)家的高質(zhì)量注釋,BAR等人僅能在433張X線圖像上進行實驗,遠不能滿足深度學(xué)習(xí)的數(shù)據(jù)量要求。2017年,美國國立衛(wèi)生研究院(NIH)發(fā)布了ChestX-Ray14[8]公共胸部X射線數(shù)據(jù)集,為醫(yī)學(xué)圖像的發(fā)展提供了有力支持。該數(shù)據(jù)集共收集了30 805例患者的112 120張胸片正面視圖,圖片大小為1 024×1 024。每一幅X線圖片都標記了14種常見胸腔疾病的一種或多種類型:肺不張,心臟腫大,積液,浸潤,腫塊,結(jié)節(jié),肺炎,氣胸,胸實變,水腫,肺氣腫,纖維化,胸膜增厚,疝氣。特別地,上述圖像標簽并非直接來自放射科專家手工注釋,而是通過自然語言處理技術(shù)挖掘相關(guān)放射學(xué)報告生成,其準確性高于90%。
表1所示為數(shù)據(jù)集中14種疾病的分布情況(患病率=包含該疾病的圖像數(shù)/總圖像數(shù)),個別病理的患病率較低,如肺炎、疝氣等,樣本患病率差異較大,在0.20%~17.74%之間。因此,訓(xùn)練集中的類標簽噪聲大,類別不平衡,給疾病分類任務(wù)帶來較大的難度。如圖1所示,有880張X光片具有放射科醫(yī)生手工標注的病變區(qū)邊界框。在本文實驗中,僅使用疾病類標簽訓(xùn)練和評價模型性能,邊界框只用于病灶區(qū)域定位的可視化評估。
表1 ChestX-Ray14數(shù)據(jù)集14種病變標簽分布
圖1 8種胸部常見疾病的X射線圖及病變區(qū)域
但是,目前大部分研究[10,12]通過隨機分割數(shù)據(jù)集進行模型訓(xùn)練、驗證和測試對比,這存在一定問題,因為在ChestX-Ray14數(shù)據(jù)集中,每個患者平均擁有3.6張X線圖片,同一患者的樣本可能同時出現(xiàn)在訓(xùn)練和測試集中,從而引入潛在的過擬合問題。此外,由于類的不平衡性,網(wǎng)絡(luò)在劃分不同的2組數(shù)據(jù)上存在顯著的差異性,使得性能對比存在難度[14]。因此,文獻[8]進行了官方數(shù)據(jù)集的劃分工作,其將數(shù)據(jù)集在患者層面上分割為70%訓(xùn)練集、10%驗證集和20%測試集,確保同一患者的圖像在三部分中不交叉。為與已有方法[8,13-14]進行公平的定性比較,本文使用文獻[8]公開的官方數(shù)據(jù)分割標準。
如圖2所示,本文胸部疾病診斷網(wǎng)絡(luò)結(jié)構(gòu)分為壓縮激勵、全局最大-平均池化層、焦點損失以及梯度加權(quán)類激活映射(Grad-CAM)等部分。
圖2 胸部疾病診斷網(wǎng)絡(luò)結(jié)構(gòu)
卷積核作為卷積神經(jīng)網(wǎng)絡(luò)的核心,通常是在局部感受野上將空間信息和特征維度信息進行聚合[20]。本文針對胸部病變細粒度識別的問題,引入卷積層通道維度間的信息學(xué)習(xí),在ResNet50網(wǎng)絡(luò)中嵌入壓縮激勵模塊,以對特征通道間的相關(guān)性進行建模從而提升模型的表征能力。具體而言,網(wǎng)絡(luò)通過學(xué)習(xí)的方式來自動獲取每個特征通道的重要程度,然后依照該重要程度提升有用的特征并抑制對當前任務(wù)用處不大的特征,使網(wǎng)絡(luò)的注意力集中于顯著性病理特征。壓縮激勵模塊示意圖如圖3所示。
圖3 壓縮激勵模塊示意圖
壓縮激勵模塊的通道間注意力機制計算過程分為3步:
1)特征壓縮。擠壓操作將跨空間維度的特征圖進行聚合,生成一個通道描述向量z,其表征著在特征通道上響應(yīng)的全局分布。具體而言,將卷積核提取的原始特征圖Uc進行全局平均池化,使H×W×C的特征圖壓縮為1×1×C的向量,該向量具有全局的感受野,其維度與輸入的特征通道數(shù)相匹配,計算公式如下:
(1)
其中,Uc(i,j)表示第c個特征圖中(i,j)位置處的激活值,W、H、C分別為特征圖的長、寬、通道數(shù)。
2)激勵。激勵操作是基于通道之間的依賴關(guān)系對每個通道進行權(quán)值評比的一種篩選機制。如式(2)所示,將特征壓縮的全局特征向量z通過全連接層自適應(yīng)學(xué)習(xí)各通道間的重要程度,然后采用sigmoid激活函數(shù)層,將輸出值s控制在(0,1)之間。
s=Fex(z,W)=sigmoid(W2×Relu(W1×z))
(2)
3)特征重標定。特征重標定將激勵操作的輸出權(quán)重(每個特征通道的重要性)在原始特征圖上逐通道加權(quán),從而對通道維度上的原始特征進行重標定,如式(3)所示:
(3)
全局最大池化鼓勵網(wǎng)絡(luò)只關(guān)注1個區(qū)別性特征區(qū)域,而全局平局池化更鼓勵網(wǎng)絡(luò)識別整個特征對象區(qū)域,2種特征信息在對醫(yī)學(xué)病理特征進行提取時相輔相成。因此,在特征空間池化方面,本文提出一種全局最大-平均池化層以提取特征圖的空間域信息,使網(wǎng)絡(luò)在病理特征圖的空間壓縮特征映射方面表現(xiàn)更好,減少特征丟失現(xiàn)象。圖4所示為全局最大-平均池化層示意圖,將特征圖Uc分別進行全局平均池化和全局最大池化后實現(xiàn)線性組合,如式(4)所示:
(4)
圖4 全局最大-平均池化層示意圖
在ChestX-Ray14的多標簽診斷中,本文為每張X線圖片定義一個15維的標簽向量Y=[Y1,Y2,…Yc],C=15,每個維度代表一種疾病,Yc表示是否存在相應(yīng)的疾病,值為1表示患有該疾病,值為0則表示不患病。Y15代表無任何疾病。
已有研究大都選擇二分類交叉熵作為損失函數(shù),如下:
(5)
在醫(yī)學(xué)圖像中,較少的疾病樣本卻包含了大量重要的病理信息,負樣本(無疾病樣本)過多使網(wǎng)絡(luò)不能充分學(xué)習(xí)到病變樣本的病理信息,其次,由于疾病特征的多樣性,疾病間的學(xué)習(xí)難易程度不同。因此,如式(6)所示,本文首先在原有二分類交叉熵的基礎(chǔ)上添加權(quán)重因子γ(γ>0)減少易分類樣本的損失,使網(wǎng)絡(luò)更關(guān)注易錯分的樣本,此外,通過加入平衡因子α,以平衡正負樣本本身的比例。
(6)
根據(jù)文獻[17],α取值為0.25,γ取值為2。
Grad-CAM可突出顯示X線中網(wǎng)絡(luò)用于診斷決策時所依賴的關(guān)鍵區(qū)域,實現(xiàn)弱監(jiān)督的病癥區(qū)域定位。在卷積網(wǎng)絡(luò)中,深層次的卷積層可以捕捉到更高層次的視覺結(jié)構(gòu),且保留在全連接層中丟失的空間信息。如圖2所示,Grad-CAM通過最后一個卷積層的特征圖梯度信息來理解每個神經(jīng)元對于網(wǎng)絡(luò)決策的重要性。首先,將圖像輸入網(wǎng)絡(luò)并提取最后一個卷積層輸出的特征圖,通過類別輸出結(jié)果yc對卷積層特征圖進行求導(dǎo),計算特征圖k對類別c的權(quán)重,如式(7)所示:
(7)
將所有特征圖與對應(yīng)類別的權(quán)重進行加權(quán)求和,利用Relu激活函數(shù),只考慮對類別c有正影響的像素點,得到類別c的熱力圖,如下:
(8)
原始X線圖像尺寸為1 024×1 024,本文將圖片縮放至299×299作為網(wǎng)絡(luò)輸入,訓(xùn)練過程中應(yīng)用隨機水平翻轉(zhuǎn)的數(shù)據(jù)增強方式,采用Adam為優(yōu)化函數(shù),在驗證集損失達到穩(wěn)定后停止訓(xùn)練。初始學(xué)習(xí)率設(shè)置為0.001,每10個epoch速率減小10倍。網(wǎng)絡(luò)搭建和訓(xùn)練基于Pytorch框架。
為了更客觀、準確、全面地評估算法的診斷性能,本文選用國際上常用的受試者操作特征曲線(Receiver Operating Characteristics,ROC)作為每種疾病的評判指標,根據(jù)ROC曲線下面積(AUC)對每種算法的分類性能進行定量分析。ROC曲線越靠近左上角,其AUC值越接近1,說明算法的診斷性能越好。
圖5直觀地比較了本文算法和文獻[8,13-14]算法對14種疾病類別的AUC值變化情況,表2進一步顯示了4種算法對每種疾病類別的AUC值以及所有類別的平均AUC值情況,其中最優(yōu)結(jié)果加粗表示。從中可以看出,在ChestX-Ray14數(shù)據(jù)集上,本文算法對14種疾病的診斷精度均超過3種對比算法,平均AUC值達到了0.830,其中,肺氣腫、胸膜增厚、疝氣的性能提升較大,原因是心臟腫大、氣胸是大病灶類典型疾病,本文算法分類性能表現(xiàn)較好,其AUC值均達到90%以上。對于一些難度更高的小病灶區(qū)域病變診斷(如結(jié)節(jié)、腫塊等),相對于對比算法,本文算法的AUC值也有明顯提升,即其可學(xué)習(xí)到多尺度、區(qū)別性的細粒度病理特征。但是,本文算法對肺炎疾病的AUC值提升較小,可能是由于肺炎的病理特征復(fù)雜以及病例樣本缺乏,僅有1.3%的樣本中標記有肺炎。
圖5 14種胸部疾病診斷AUC值對比
表2 不同算法在ChestX-Ray14數(shù)據(jù)集上的AUC值比較
在醫(yī)學(xué)輔助診斷中,網(wǎng)絡(luò)的可解釋性十分重要。感興趣區(qū)域可視化可為網(wǎng)絡(luò)預(yù)測結(jié)果提供相應(yīng)的視覺支持,有助于建立臨床醫(yī)生對輔助診斷的信任,使放射科醫(yī)生能夠提供更快、更準確的診斷。本文通過Grad-CAM生成弱監(jiān)督的病灶區(qū)域熱圖,解釋網(wǎng)絡(luò)進行病變診斷時最依賴的關(guān)鍵性病變區(qū)域,并根據(jù)放射科醫(yī)生標注的真實邊界框進行可視化評估。圖6右圖為8種胸部常見病變的Grad-CAM熱力圖,左圖為醫(yī)生標注病變區(qū)域。右圖中深紅高亮區(qū)域(詳見《計算機工程》官網(wǎng)電子稿)非常接近專業(yè)醫(yī)生標注的病變區(qū)域(左圖邊框),驗證了網(wǎng)絡(luò)病變檢測的優(yōu)異性,與理論結(jié)果相吻合。具體而言,對于心臟肥大、肺炎等大病灶區(qū)域疾病,網(wǎng)絡(luò)感興趣區(qū)域覆蓋廣泛、準確,如圖6(b)的心臟腫大疾病,放射科醫(yī)師對整個心臟進行標釋,而網(wǎng)絡(luò)捕捉到了更精確的病變區(qū)域。對于肺不張、腫塊、結(jié)節(jié)等小病灶區(qū),網(wǎng)絡(luò)同樣很好地定位到病灶區(qū)域,如圖6(g)深紅高亮區(qū)域準確包裹整個結(jié)節(jié)。此外,如圖6(e)所示,即使存在因病人姿勢或拍攝條件帶來的圖像扭曲問題,網(wǎng)絡(luò)仍能準確檢測到病變區(qū)域,表明本文算法具有良好的魯棒性和泛化性。由于本文算法在訓(xùn)練中沒有使用任何邊界框,卻能夠提供與疾病分類相應(yīng)的視覺解釋,表明算法在疾病診斷與區(qū)域定位方面具有較好的解釋能力,能夠滿足臨床應(yīng)用的潛在需要。
圖6 8種胸部常見病變的Grad-CAM熱力圖
本文提出一種胸部14種疾病細粒度診斷算法,同時進行基于弱監(jiān)督學(xué)習(xí)的病癥區(qū)域定位。通過Grad-CAM生成病變區(qū)域顯著性熱力圖,為網(wǎng)絡(luò)預(yù)測結(jié)果提供可視化支持。實驗結(jié)果表明,該算法的胸部疾病診斷性能優(yōu)于3種對比的深度學(xué)習(xí)方法。下一步將利用有限的邊界框研究病灶區(qū)域的準確定位問題,將非圖像信息,如性別、年齡等與X線圖像信息相融合以進行網(wǎng)絡(luò)學(xué)習(xí)。