徐翠蓮 印宏坤 伋立榮 蔡 武 張 偉 范國華,*
1.蘇州大學(xué)附屬第二醫(yī)院影像診斷科 (江蘇 蘇州 215004)
2.北京推想科技有限公司 (北京 100020)
目前,新型冠狀病毒肺炎(COVID-19)疫情在全世界范圍迅速蔓延,嚴(yán)重危害人類健康和生命。RT-PCR被認(rèn)為是診斷新冠肺炎的“金標(biāo)準(zhǔn)”,但核酸檢測存在一定的假陰性,敏感性有限[1-3]。據(jù)報(bào)道,幾乎所有的新冠患者在病程中可出現(xiàn)肺部改變[4-5],胸部CT在肺炎診斷中具有無創(chuàng)、快捷、靈敏度高的優(yōu)勢,在肺炎的早期發(fā)現(xiàn)、疑似病例鑒別、療效評估中起至關(guān)重要的作用。然而,各種病毒性肺炎影像學(xué)表現(xiàn)非常相似,常規(guī)影像診斷方法鑒別困難。近年來,AI輔助診斷系統(tǒng)在肺結(jié)節(jié)的檢測及診斷中顯現(xiàn)出較高的應(yīng)用價(jià)值[6-8]。新冠肺炎疫情爆發(fā)使肺炎的AI輔助診斷研究成為熱點(diǎn),并已取得初步成果[9]。目前,針對新冠肺炎的AI輔助診斷通常采用影像組學(xué)或深度學(xué)習(xí)的方法,然而影像組學(xué)病灶需要醫(yī)生手工標(biāo)記,存在主觀偏差,深度學(xué)習(xí)的結(jié)果可解釋性差。本研究綜合深度學(xué)習(xí)和影像組學(xué)的優(yōu)點(diǎn),通過深度學(xué)習(xí)實(shí)現(xiàn)肺炎病灶的自動、客觀分割,然后通過提取CT圖像的影像組學(xué)特征建立模型,以診斷和鑒別COVID-19肺炎和非COVID-19病毒性肺炎。
1.1 樣本數(shù)據(jù)本研究回顧性收集2020年1月至2020年2月于我院確診的6例COVID-19肺炎患者和17例普通病毒性肺炎患者資料,從網(wǎng)上的公開數(shù)據(jù)庫下載20例COVID-19肺炎患者的CT影像(http://doi.org/10.5281/zenodo.3757476)。納入組標(biāo)準(zhǔn)為患者通過RT-PCR或病毒抗原檢測的方法確診為COVID-19陽性或非COVID-19的病毒性肺炎;排除標(biāo)準(zhǔn)為CT影像無明顯肺炎征象。排除2例無肺炎患者后,最終入組24例COVID-19肺炎患者,其中來自公開數(shù)據(jù)集19例,來源本院5例[男性4例,女性1例,平均年齡(46.2±13.0)歲];來源本院的普通病毒性肺炎患者17例[男性13例,女性4例,平均年齡(54.6±17.2)歲],其中包括12例甲型流感、2例乙型流感和3例腺病毒肺炎。將入組患者分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集包括19例來自公開數(shù)據(jù)庫的COVID-19患者和10例來自本院的普通病毒性肺炎患者,驗(yàn)證集包括來自本院的5例COVID-19患者以及7例普通病毒性肺炎患者。分別采用Mann-Whitney秩和檢驗(yàn)和χ2檢驗(yàn)比較驗(yàn)證兩組患者年齡和性別的差異,結(jié)果顯示COVID-19患者和普通病毒性肺炎患者在年齡(P=0.347)和性別(P=0.869)上差異均無統(tǒng)計(jì)學(xué)意義。
1.2 CT影像采集方法所有病例的胸部CT圖像均采集于BrightSpeed CT Scanner(GE),掃描參數(shù)如下:管電壓120kV,自動毫安,矩陣512×512,準(zhǔn)直5mm,重建層厚5mm(厚層)和1.25mm(薄層)。訓(xùn)練呼吸后采用吸氣后憋氣掃描,掃描范圍自肺尖至肺底。
1.3 基于深度學(xué)習(xí)的肺炎病灶分割肺炎病灶分割采用北京推想科技有限公司預(yù)訓(xùn)練的模型在InferScholar科研平臺上完成,模型基于ResNet18網(wǎng)絡(luò)架構(gòu),經(jīng)過超過700例肺炎患者的CT影像建模訓(xùn)練完成。
1.4 影像組學(xué)特征提取和篩選所有的CT影像經(jīng)圖像重采樣及圖像灰度標(biāo)準(zhǔn)化等預(yù)處理后,采用pyradiomics工具包(https://pyradiomics.readthedocs.io)分別提取CT序列圖像中每一幀的影像組學(xué)特征??偣蔡崛〉?184個影像組學(xué)特征分為四組:(1)形狀特征:包含14個反映區(qū)域形狀和大小的二維特征;(2)一階統(tǒng)計(jì)特征:包含90個通過常用和基本度量來描述由掩模定義的圖像區(qū)域內(nèi)的體素強(qiáng)度分布的特征;(3)紋理特征:包含105個灰度共生矩陣特征、70個灰度相關(guān)矩陣特征、80個灰度級長矩陣特征、80個灰度及帶矩陣特征和25個鄰域灰度差分矩陣特征;(4)圖像濾波特征:采用wavelet-HHH、wavelet-HHL、wavelet-HLL、wavelet-LLL、wavelet-LHH、wavelet-LLH、wavelet-HLH和wavelet-LHL在內(nèi)的八種小波變換濾波器組合方式,對原始圖像進(jìn)行濾波處理及小波變換后提取的特征,共計(jì)720個特征。
為了避免不相關(guān)因素的干擾,簡化預(yù)測模型并優(yōu)化模型性能,采用了LASSO回歸算法進(jìn)行特征降維,通過十折交叉驗(yàn)證的方式選擇最優(yōu)調(diào)和參數(shù)lambda,將無關(guān)特征的系數(shù)降至零,保留系數(shù)為非零的特征用于后續(xù)建模。
1.5 基于機(jī)器學(xué)習(xí)的診斷模型建立和驗(yàn)證將通過AI自動分割炎癥病灶后的新冠肺炎和普通病毒性肺炎的CT影像隨機(jī)分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集包括來自于公開數(shù)據(jù)集19例新冠肺炎患者的1842幅CT圖像和來自于10例普通病毒性肺炎患者的2477幅CT圖像,驗(yàn)證集包括來自于5例新冠肺炎患者的1567幅CT圖像(包括1375幅薄層CT和192幅厚層CT圖像)和來自于7例普通病毒性肺炎患者的1184幅CT圖像(包括1011幅薄層CT和173幅厚層CT圖像)。
分別采用高斯樸素貝葉斯(Gaussian Na?ve Bayes)、隨機(jī)森林(Random Forest)以及極端梯度提升(eXtreme Gradient Boosting)的方法,對經(jīng)過LASSO回歸降維篩選出的組學(xué)特征分別在訓(xùn)練集中建立針對每一幀CT圖像中病灶的預(yù)測模型,計(jì)算其為新冠肺炎的概率,并在驗(yàn)證集中測試模型性能。數(shù)據(jù)分析和建模過程均在北京推想科技有限公司的InferScholar科研平臺上完成。
對于每個CT序列影像,首先分別計(jì)算包含病灶的每一幀圖像為新冠肺炎的概率(per-slice diagnosis),并計(jì)算概率最高的前20%影像的平均值作為該CT序列影像為新冠肺炎的概率(per-CT diagnosis)。
實(shí)驗(yàn)設(shè)計(jì)流程如圖1所示。
1.6 統(tǒng)計(jì)學(xué)分析采用Mann-Whitney秩和檢驗(yàn)以及χ2檢驗(yàn)分析新冠肺炎和普通病毒性肺炎患者臨床信息間的差異,采用Dice系數(shù)(Dice coefficient)評估深度學(xué)習(xí)肺炎病灶分割的準(zhǔn)確性,采用受試者工作曲線(receiver operating curve,ROC)、曲線下面積(area under curve,AUC)、靈敏度(sensitivity)和特異度(specificity)來評估新冠肺炎診斷效能,采用Delong Test來評估兩條受試者工作曲線的差異。P<0.05為具有統(tǒng)計(jì)學(xué)差異。
2.1 肺炎病灶分割結(jié)果以人工標(biāo)記結(jié)果為“金標(biāo)準(zhǔn)”,在19例來自公開數(shù)據(jù)集的新冠肺炎CT影像中評估InferScholar平臺肺炎分割模型對CT影像中炎癥病灶自動分割的準(zhǔn)確性。如圖2所示,在每一幅CT圖像上(per-slice level)分割結(jié)果的Dice系數(shù)為(0.835±0.122),在每一例CT序列影像中(per-CT level)分割結(jié)果的Dice系數(shù)為(0.864±0.036),同時(shí)AI分割的病灶每一幅CT圖像上的面積或者在每一例CT序列影像中的體積與人工標(biāo)記結(jié)果有著非常好的一致性,這些結(jié)果表明AI具有良好的分割準(zhǔn)確度。
2.2 影像組學(xué)特征篩選結(jié)果對于提取的1184個影像組學(xué)特征,采用lasso回歸方法進(jìn)行降維,保留對應(yīng)lambda值下相關(guān)系數(shù)不為零的組學(xué)特征(圖3),最終結(jié)果表明glcm_ClusterTendency_wavelet-LHL,glcm_Contrast_original,firstorder_Variance_wavelet-LHH,glszm_GrayLevelVariance_wavelet-LHL,glcm_ClusterTendency_wavelet-HHL,firstorder_Variance_wavelet-HHH,glrlm_GrayLevelVariance_wavelet-HHL,glcm_DifferenceVariance_wavelet-HHL,glszm_SmallAreaEmphasis_exponential這9個影像組學(xué)特征與COVID-19與普通病毒性肺炎的鑒別診斷有較強(qiáng)關(guān)聯(lián),將用于后續(xù)分析(圖3)。
2.3 影像組學(xué)模型在單幀CT圖像的新冠肺炎診斷結(jié)果分析針對每一幀CT圖像的新冠肺炎診斷,如圖4所示,采用Gaussian Naive Bayes、Random Forest和XGBoost分類器的組學(xué)模型在薄層CT影像驗(yàn)證集上的AUC分別為0.919、0.838和0.829,在厚層CT影像驗(yàn)證集上的AUC分別為0.802、0.730和0.715,基于Gaussian Na?ve Bayes的模型獲得了相對更好的效能,組學(xué)模型在薄層CT影像上的預(yù)測性能普遍優(yōu)于在厚層CT影像上的預(yù)測性能(P<0.05)。
圖4 影像組學(xué)預(yù)測模型在每一幀CT圖像上的ROC曲線,紅色代表薄層CT影像的ROC曲線,藍(lán)色代表厚層CT影像的ROC曲線。圖5 影像組學(xué)預(yù)測模型在CT序列影像上的ROC曲線,紅色代表薄層CT影像的ROC曲線,藍(lán)色代表厚層CT影像的ROC曲線。
2.4 影像組學(xué)模型在CT序列影像層面的新冠肺炎診斷結(jié)果分析針對CT序列影像的新冠肺炎診斷,如圖5所示,采用Gaussian Naive Bayes、Random Forest和XGBoost分類器的組學(xué)模型在薄層CT影像驗(yàn)證集上的AUC分別為0.829、0.829和0.857,在厚層CT影像驗(yàn)證集上的AUC分別為0.786、0.743和0.743,基于三種分類器的模型性能基本相當(dāng),組學(xué)模型在薄層CT影像上的預(yù)測效能略優(yōu)于在厚層CT影像上的預(yù)測性能,但差異無統(tǒng)計(jì)學(xué)意義(Gaussian Naive Bayes,P=0.651;Random Forest,P=0.686;XGBoost,P=0.425)。
根據(jù)國家衛(wèi)生健康委員會發(fā)布的《新型冠狀病毒肺炎診療方案(試行第七版)》,CT檢查已納入COVID-19診斷標(biāo)準(zhǔn)與出院標(biāo)準(zhǔn),且在監(jiān)測病情進(jìn)展中發(fā)揮重要作用[10]。疫情防控需求使胸部CT檢查的患者人數(shù)劇增,每天閱讀海量CT圖像給放射科醫(yī)師診斷工作帶來嚴(yán)峻考驗(yàn),此外,常規(guī)影像診斷方法對COVID-19肺炎與普通病毒性肺炎鑒別困難。目前,基于胸部CT的AI輔助診斷研究表明,AI不僅可以有效篩查COVID-19[9],減輕放射科醫(yī)師負(fù)擔(dān),而且可以評估病情變化,提高診斷效率[11-12]。但常用的AI技術(shù)均采用深度學(xué)習(xí)的方法,無法為系統(tǒng)的決策提供可視化的解釋,缺乏透明性。影像組學(xué)可以挖掘醫(yī)學(xué)影像中臨床醫(yī)師肉眼不能發(fā)現(xiàn)的特征,對病灶部位的異質(zhì)性進(jìn)行定量,從而更好地輔助臨床診斷。劉發(fā)明等[13]采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法構(gòu)建了有效的COVID-19診斷系統(tǒng),結(jié)果表明影像組學(xué)特征可用于COVID-19患者和其他肺炎患者的分類。但傳統(tǒng)的影像組學(xué)方法要求醫(yī)生手工標(biāo)注病變區(qū)域,不僅費(fèi)時(shí)費(fèi)力,還可能因?yàn)椴煌t(yī)生標(biāo)記的主觀偏差對結(jié)果造成影響。為了充分利用深度學(xué)習(xí)和影像組學(xué)的優(yōu)點(diǎn),規(guī)避其缺點(diǎn),本研究采用深度學(xué)習(xí)與影像組學(xué)相結(jié)合建模的方法,首先利用深度學(xué)習(xí)自動分割胸部CT中肺炎病灶區(qū)域,在提升效率的同時(shí)也避免了醫(yī)生標(biāo)注的主觀偏差,進(jìn)而通過病灶區(qū)域進(jìn)行影像組學(xué)特征分析建模,避免了深度學(xué)習(xí)的“黑盒子”,保證了結(jié)果的可解釋性。同時(shí),為了解決傳統(tǒng)影像組學(xué)要求數(shù)據(jù)層厚一致,限制了模型在臨床中的應(yīng)用范圍的問題,本研究采用了基于單幅CT圖像的2D影像組學(xué)建模和綜合所有層面CT圖像的整體評估方法,能同時(shí)用于不同層厚CT影像的新冠肺炎輔助診斷。對比試驗(yàn)表明,本研究的AI模型對于薄層和厚層CT影像均有較好的診斷效能。
醫(yī)學(xué)圖像分割是AI輔助檢測的關(guān)鍵一步,分割精準(zhǔn)度對后續(xù)圖像的分析處理起著至關(guān)重要的作用。傳統(tǒng)的醫(yī)學(xué)圖像分割方法存在著耗費(fèi)大量的人力和時(shí)間,易受主觀意識的影響導(dǎo)致分割的差異性等問題。近年來,深度學(xué)習(xí)在圖像分割領(lǐng)域取得了顯著成就。Liauchuk等[14]在CT圖像上采用GoogLeNet CNN檢測肺結(jié)節(jié),發(fā)現(xiàn)基于CNN檢測病灶較傳統(tǒng)的基于特征提取方法具有相對較高的靈敏度和特異性。Xu等[15]設(shè)計(jì)了一種堆疊稀疏自編碼器(SSAE)實(shí)例的深度學(xué)習(xí)策略,應(yīng)用于乳腺癌組織病理學(xué)的自動化細(xì)胞核檢測,顯示SSAE優(yōu)于基線方法。深度學(xué)習(xí)對醫(yī)學(xué)圖像病灶分割明顯優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)算法,可以輔助醫(yī)生定量分析和診斷疾病[16]。本文采用基于ResNet網(wǎng)絡(luò)的分割方法分割肺炎病灶,經(jīng)驗(yàn)證具有較高的分割精準(zhǔn)度。
本研究選擇高斯樸素貝葉斯、隨機(jī)森林、極端梯度提升三種先進(jìn)的機(jī)器學(xué)習(xí)算法進(jìn)行建模,結(jié)果顯示,基于三種分類器的智能診斷模型均有助于鑒別COVID-19和非COVID-19病毒性肺炎。在三種機(jī)器學(xué)習(xí)分類算法中,高斯樸素貝葉斯表現(xiàn)出最好的診斷效能。
本研究存在的不足之處:(1)數(shù)據(jù)樣本量較小,后續(xù)研究中將收集更多的病例,以提高該模型的靈敏度和特異性;(2)基于深度學(xué)習(xí)的肺炎病灶分割精度還有待于進(jìn)一步提高;(3)病例收集區(qū)域較局限,影像組學(xué)特征提取可能存在不夠典型的缺點(diǎn)。