劉雪艷 王芳 李春華 唐光孝 鄭嬌鳳 王惠秋 李玉蕊 王佳男 舒?zhèn)?呂圣秀
結核病是由結核分枝桿菌感染引發(fā)的傳染病,是全球范圍內(nèi)僅次于新型冠狀病毒感染的導致人類死亡的第二大單一傳染病[1]。作為結核病高負擔國家,我國結核病防控的任務十分艱巨[2]。2022年全球登記報告的結核病患者中,肺結核占比高達83%[2],而繼發(fā)性肺結核又是肺結核中最為常見的一種類型[3-4],若能實現(xiàn)對繼發(fā)性肺結核的早期識別和診斷,及時進行治療,將對結核病的防控具有重要意義。
影像學檢查在結核病的診療中具有重要價值。在臨床實踐中,放射科醫(yī)師可通過對影像的分析和比較進行繼發(fā)性肺結核的診斷。然而,基于影像學的診斷嚴重依賴醫(yī)生的經(jīng)驗與水平。但繼發(fā)性肺結核的影像學表現(xiàn)具有多樣性與多變性,在臨床診斷中極易與其他肺部感染相混淆,且是一個耗時且主觀的過程。醫(yī)生根據(jù)CT圖像進行疾病診斷時,不可避免地會出現(xiàn)主觀和判斷不一致的情況[5-6]。但隨著人工智能的不斷發(fā)展,大數(shù)據(jù)樣本驅動下的深度學習模型可以從深層次挖掘出目標特征,實現(xiàn)醫(yī)學影像數(shù)據(jù)的快速、精準識別,有望用于繼發(fā)性肺結核的早期識別。相比于一般神經(jīng)網(wǎng)絡的分類器直接依賴于網(wǎng)絡最后一層的特征,DenseNet網(wǎng)絡可以綜合利用淺層復雜度低的特征,得到一個泛化性能更好的分類模型[7]。由于該網(wǎng)絡加強了特征傳遞,同時減輕了模型梯度消失的問題,可以在一定程度上減少模型參數(shù)量[8]。故本研究主要采用DenseNet算法構建繼發(fā)性肺結核的輔助診斷模型,并評估其臨床應用價值,同時采用基礎網(wǎng)絡模型(BasicNet)進行對比分析。
1.資料收集:采用回顧性研究方法,收集2018年12月至2023年4月在重慶市公共衛(wèi)生醫(yī)療救治中心接受胸部CT平掃的2004例患者的病例資料,根據(jù)納入和排除標準分別歸入肺部正常組[544例;女性331例,男性213例;年齡32(37~39)歲]、普通肺部感染組[526例;女性142例,男性384例;年齡57(45~71)歲;包括細菌性肺炎119例,真菌性肺炎103例,病毒性肺炎304例]和繼發(fā)性肺結核組[934例;女性302例,男性632例;年齡52(34~65)歲]。
2.診斷、納入和排除標準:(1)肺部正常組:納入標準為年齡18周歲及以上;雙肺發(fā)育正常,無任何病變。排除標準為圖像質量不符合診斷要求。(2)普通肺部感染組:納入標準為年齡18周歲及以上;滿足肺部細菌、真菌或病毒感染的診斷標準[8-10];患者開始治療前首次拍攝過胸部CT攝片。排除標準為患者合并繼發(fā)性肺結核或肺部腫瘤性病變;肺部殘留有非活動性肺結核的增殖灶、纖維灶或鈣化灶;圖像質量不符合診斷要求者。(3)繼發(fā)性肺結核組:納入標準為年齡18周歲及以上;參照《WS 288—2017肺結核診斷》[11]滿足肺結核的診斷標準,且肺結核分型中包含繼發(fā)性肺結核;患者開始抗結核治療前首次拍攝過胸部CT攝片。排除標準為患者合并其他肺部病變者;圖像質量不符合診斷要求者;人類免疫缺陷病毒感染者。
1.研究流程:根據(jù)上述標準,搜集入選者的胸部CT平掃圖像,構建基于深度學習算法的自動分類模型。針對研究對象的CT平掃圖像,首先進行肺野分割,進一步基于肺野信息,實現(xiàn)正常肺部、普通肺部感染和繼發(fā)性肺結核患者的分類鑒別,見圖1。
圖1 技術路線圖
2.CT掃描參數(shù):采用通用電氣公司Optima CT 680 Expert 64排螺旋CT機、東軟集團股份有限公司32排螺旋CT機、東芝公司Aquilion16排螺旋CT機進行胸部平掃檢查?;颊卟扇⊙雠P位,在深吸氣后屏氣狀態(tài)下,從肺尖掃描至肺底肋膈角水平。管電壓120 kV,管電流采用自動毫安秒。層厚及層距均為5 mm。每層重建為512×512矩陣,平面內(nèi)像素空間分辨率為0.312 mm×0.312 mm~0.977 mm×0.977 mm。利用肺窗(窗位/窗寬:―600 HU/1500 HU)將每次掃描的CT值(亨氏單位)插值處理為1 mm×1 mm×5 mm,以減少掃描間層厚等變化。
3.肺野分割:所有圖像均通過上海聯(lián)影智能醫(yī)療科技有限公司獨立研發(fā)的科研平臺(uAI Research Portal,版本:20230515)進行處理。利用已經(jīng)建立的深度學習模型VB-Net自動分割左側肺野和右側肺野區(qū)域。在筆者團隊前期的工作中,模型的平均Dice相似系數(shù)(Dice similarity coefficient,DSC)高達0.989,平均DSC標準差為0.004[12]。該模型在其他與肺部感染相關的研究中也有被應用[13-14]。然后,由具有10年及以上胸部影像診斷經(jīng)驗的醫(yī)師對自動分割的圖像進行復核,對分割不準確的區(qū)域進行修訂。
70.0%的研究對象(1402例)作為訓練集,進行肺部正常組、普通肺部感染組和繼發(fā)性肺結核組的深度學習分類模型構建,網(wǎng)絡模型選擇BasicNet和DenseNet。其中,基礎對比模型BasicNet由4個Conv-Batch Normalization(BN)-Rectified Linear Unit(Relu)塊組成。BN對神經(jīng)網(wǎng)絡層輸出值進行歸一化,使得輸出層滿足均值為0,方差為1的標準正態(tài)分布。Relu激活函數(shù)將輸入特征映射到一個非線性特征空間,實現(xiàn)深度特征的復雜表達。研究主要使用的DenseNet模型是一個密集卷積神經(jīng)網(wǎng)絡,由4個密集連接塊堆疊構建而成。密集連接塊之間由1×1的卷積和池化層過渡連接,用于壓縮參數(shù)量,降低計算復雜度。在N層DenseNet網(wǎng)絡中,存在N(N+1)/2個連接層。BasicNet和DenseNet的末端均帶有soft-max分類層,用于實現(xiàn)正常肺部、普通肺部感染和繼發(fā)性肺結核的分類。在訓練過程中,兩個模型的超參數(shù)設置如下:spacing=0.7×0.7×5.0,crop size=64×64×64,采樣方法為fixed_length,box center random=5×5×5,采用圖像翻轉、旋轉、平移等方式進行數(shù)據(jù)增強處理,學習率=0.0001,損失函數(shù)為Focal loss。將30.0%的研究對象(602例)作為獨立測試數(shù)據(jù)集應用于模型,并通過ROC曲線、校準曲線,以及敏感度、特異度、準確率、精確率等指標,評估模型分類性能。
在獨立測試集中,隨機挑選50例患者,讓放射科3位不同年資[低年資(5年診斷經(jīng)驗)、中年資(10年診斷經(jīng)驗)、高年資(15年以上診斷經(jīng)驗)]的醫(yī)生對該批患者做出自己獨立的診斷,然后選擇性能最優(yōu)的人工智能模型與每位醫(yī)生的診斷結果進行比較。
1.預測性能評估:采用ROC曲線、校準曲線和混淆矩陣評估BasicNet模型和DenseNet模型的預測性能。結果顯示,相較于BasicNet模型(平均AUC為89.4%),DenseNet模型(平均AUC為92.1%)對肺部正常組、普通肺部感染組和繼發(fā)性肺結核組有更高的預測性能。見圖2~7。
圖2 BasicNet模型ROC曲線
圖3 BasicNet模型校準曲線
圖5 DenseNet模型ROC曲線
圖6 DenseNet模型校準曲線
圖7 DenseNet模型混淆矩陣
2.分類性能評估:采用AUC、敏感度、特異度、準確率、精確率和F1值評估BasicNet模型和DenseNet模型的分類性能。結果顯示,DenseNet模型在三組研究樣本中,分類性能高于BasicNet模型,其平均AUC、敏感度、特異度、準確率、精確率和F1值分別為92.1%和89.4%、79.7%和74.0%、89.4%和86.6%、86.2%和83.3%、77.8%和73.9%、78.5%和74.0%。在DenseNet模型中,正常肺部、普通肺部感染和繼發(fā)性肺結核在測試集中分類性能良好,且正常肺部最容易被準確識別,其AUC、敏感度、特異度和準確率分別為96.7%、92.9%、90.8%和91.4%。普通肺部感染的診斷精確率最低,敏感度、特異度和準確率分別為68.8%、90.2%和84.7%,其中35例被誤判為繼發(fā)性肺結核,13例被誤判為正常肺部。繼發(fā)性肺結核的診斷敏感度雖然較正常肺部低,但其AUC、特異度、準確率、精確率和F1值均大于80%。見表1。
表1 2種模型的評價指標 (%)
使用獨立測試集,選擇性能最優(yōu)的人工智能模型與3位放射科醫(yī)生的診斷性能進行比較。圖8展示了DensNet模型和3位放射科醫(yī)生對三分類任務的平均敏感度、特異度和準確性。圖9~11分別展示了DenseNet模型和3位放射科醫(yī)生在正常肺部、普通肺部感染和繼發(fā)性肺結核組的診斷性能。在以上3個指標中,DenseNet模型的診斷性能優(yōu)于低年資(5年資)醫(yī)生,差異無統(tǒng)計學意義(準確性分別為90.7%和89.1%,P=1.000,Kappa=0.677);與中年資(10年資)醫(yī)生的診斷性能相當,有較高的一致性(準確性分別為90.7%和92.2%,P=0.371,Kappa=0.746);與高年資(15年資)醫(yī)生的診斷水平差異無統(tǒng)計學意義,且有極好的一致性(準確性分別為90.7%和95.3%,P=1.000,Kappa=0.819)。工作經(jīng)驗越長的放射科醫(yī)師對普通肺部感染和繼發(fā)性肺結核的診斷準確率越高,但中、高年資醫(yī)生對普通肺部感染患者識別的敏感度僅分別為75.0%和83.3%,見圖10。
圖8 DenseNet模型和3位放射科醫(yī)生對三組整體評價的對比結果
圖9 DenseNet模型和3位放射科醫(yī)生對肺部正常組評價的對比結果
圖10 DenseNet模型和3位放射科醫(yī)生對普通肺部感染組評價的對比結果
圖11 DenseNet模型和3位放射科醫(yī)生對繼發(fā)性肺結核組評價的對比結果
近10年來,隨著深度卷積神經(jīng)網(wǎng)絡的興起、大數(shù)據(jù)的累積和計算能力的大幅提升,人工智能技術在醫(yī)學圖像領域的應用不斷發(fā)展。國內(nèi)外研究機構紛紛利用深度學習技術投入到醫(yī)療影像的研究,使計算機輔助診斷系統(tǒng)的結構更為簡化,診斷更為精確,并已在不同領域取得了初步成果[15-17]。這些良好的結果和成功的實踐為人工智能在醫(yī)學成像中輔助疾病診斷的臨床應用奠定了基礎。
本研究選擇BasicNet和DenseNet兩種不同的深度學習算法,構建不同的模型來實現(xiàn)正常肺部、普通肺部感染和繼發(fā)性肺結核的3種分類的研究。研究發(fā)現(xiàn),DenseNet模型較BasicNet模型對肺部正常組、普通肺部感染組和繼發(fā)性肺結核組有更高的預測性能,平均AUC為92.1%。且DenseNet模型在三組研究樣本中,平均AUC、敏感度、特異度、準確率、精確率和F1值分別為92.1%、79.7%、89.4%、86.2%、77.8%和78.5%,各項指標均高于BasicNet模型。從DenseNet結果看,正常肺部最容易被準確識別,普通肺部感染的診斷精確性最低。這可能是因為肺部正常組中的人群肺部無病灶存在,更容易被機器學習和掌握;而普通肺部感染組包括細菌性肺炎、真菌性肺炎及病毒性肺炎等不同疾病的患者,該組患者的影像學表現(xiàn)更為復雜,故機器學習的難度最大,診斷的精確率最低。而繼發(fā)性肺結核組的診斷精確率雖然較肺部正常組低,但其AUC、特異度、準確率、精確率和F1值均大于80%。故本研究結果表明,在運用人工智能實現(xiàn)正常肺部、普通肺部感染和繼發(fā)性肺結核三者的分類方面,DenseNet模型更值得進一步深入挖掘和開發(fā)。
近幾年,關于肺結核檢測的人工智能相關研究也在不斷發(fā)展。早期研究主要集中在利用胸部X線攝片(簡稱“胸片”)實現(xiàn)對肺結核的診斷和篩查方面[18-19]。曾有多名學者運用不同的機器學習算法,以提高胸片在肺結核智能輔助診斷中的準確率[20-22]。但在實際工作中,胸片的臨床診斷準確率通常低于胸部CT,因CT掃描在識別早期實質性病變、檢測縱隔淋巴結腫大和確定結核病活動性方面都比胸片更敏感。隨著CT技術的普及和公共數(shù)據(jù)庫的建立,現(xiàn)在越來越注重CT影像的人工智能處理。2020年,Ma等[23]采用U-Net分割算法實現(xiàn)二維CT層面的活動性肺結核病灶分割,通過后處理方式(患者CT圖像連續(xù)4個層面被檢測為活動性肺結核病灶,且層與層之間的重疊大于30%),判斷活動性肺結核組和非活動性肺結核組。他們的研究數(shù)據(jù)包括肺結核、肺炎和正常肺部3類患者,共846例。雖然在測試集得到較高的AUC值,但存在一些缺點,不利于應用推廣,包括:(1)該研究沒有評估活動性肺結核病灶分割的精確性,不知道U-Net分割模型的最終效能;(2)將三維CT圖像拆分成二維圖像進行處理,在圖像分割任務中,直接忽略層與層之間的影響;(3)雖然研究納入了肺炎患者,但最終分類結果中,將肺炎患者和肺部正常組歸為一類,不清楚肺炎和肺結核分類的差異,大幅降低了分類模型的臨床實用性。而本研究采用分類的方法,可對疾病的種類進行預測,具有一定的臨床應用價值。最新研究報告顯示,馬依迪麗·尼加提等[24]利用960例活動性肺結核患者和980例非活動性肺結核患者的病例資料構建的深度學習框架(3D ResNet-50)顯示,肺結核CT輔助診斷模型在區(qū)分活動性和非活動性肺結核方面,與經(jīng)驗豐富的放射科醫(yī)生水平接近,可作為活動性肺結核檢測及鑒別診斷的快速輔助診斷工具。本研究與馬依迪麗·尼加提等[24]的研究均使用深度學習的方法進行分類模型構建,該方法可將患者的完整影像進行學習,不僅可以充分挖掘圖像中的信息,還可以節(jié)約勾畫時間及避免研究結果受勾畫者主觀因素的影響。但與DenseNet相比,ResNet對訓練數(shù)據(jù)需求較高,且模型深度較深、復雜度較高、參數(shù)量大,需要更多的計算資源和存儲空間,不利于實際臨床應用部署。相較于Wang等[25]開發(fā)的非結核分枝桿菌肺病和肺結核的3D-ResNet分類模型,本研究基于DenseNet模型構建的正常肺部、普通肺部感染和繼發(fā)性肺結核三分類模型,任務更難、樣本量更大、分類性能更優(yōu)。雖然吳樹才等[26]研究發(fā)現(xiàn),基于深度學習的卷積神經(jīng)網(wǎng)絡肺結核CT輔助診斷模型有較高的診斷敏感度和準確率,可輔助影像科醫(yī)師進行肺結核診斷工作,但其納入的研究對象均為肺結核確診患者,未納入普通肺部感染者,故其得出的結果屬于符合性驗證,而本研究納入正常肺部、普通肺部感染和繼發(fā)性肺結核患者,研究對象較前更為全面。
為進一步驗證模型的性能,本研究使用獨立測試集,將性能最優(yōu)的DensNet模型與3位不同年資放射科醫(yī)生的診斷結果進行比較。研究發(fā)現(xiàn),在三分類任務的平均敏感度、特異度和準確率中,DenseNet模型的診斷性能優(yōu)于低年資醫(yī)生,與中年資醫(yī)生的診斷性能相當,有較高的一致性;與高年資醫(yī)生的診斷水平差異無統(tǒng)計學意義,且有極好的一致性,Kappa=0.819。以上結果表明,DenseNet模型在識別繼發(fā)性肺結核等疾病方面,與放射科中年資醫(yī)師的診斷水準相當,有望作為繼發(fā)性肺結核的輔助診斷工具在臨床中推廣應用。研究還發(fā)現(xiàn),工作經(jīng)驗越久的醫(yī)師診斷準確性越高,但即使中、高年資醫(yī)生也較難準確識別普通肺部感染患者,其敏感度分別為75.0%和83.3%。由此可見,普通肺部感染的診斷是放射科醫(yī)生臨床工作的一個難點,仍需要醫(yī)務人員不斷地加強學習和提升診斷能力。
本研究不足之處在于,雖然本中心患者來自川渝地區(qū)的各區(qū)縣,具有一定區(qū)域代表性,但研究對象來自單中心,可能會存在“過擬合”的現(xiàn)象。研究隊列中未包括人類免疫缺陷病毒感染者和兒童等特殊人群。因此,建議在今后的研究中,可擴大研究對象的覆蓋范圍和人群,采用川渝地區(qū)以外的多中心數(shù)據(jù)進行深入研究,這將對研究的進一步升華具有重要意義。
綜上所述,DenseNet 模型較BasicNet模型在繼發(fā)性肺結核的診斷識別中,各項指標表現(xiàn)更為優(yōu)良,DenseNet 模型的診斷性能與放射科中年資醫(yī)師的診斷水平相當,故該模型將來有可能成為繼發(fā)性肺結核患者的早期篩查工具,從而實現(xiàn)該病的早發(fā)現(xiàn)和早治療,為結核病的防控工作添磚加瓦。
利益沖突所有作者均聲明不存在利益沖突
作者貢獻劉雪艷:研究設計、模型構建、論文撰寫;王芳:模型構建、統(tǒng)計學分析;李春華、唐光孝、鄭嬌鳳和舒?zhèn)?數(shù)據(jù)搜集、分析;王惠秋、李玉蕊和王佳男:模型性能評估、論文修改;呂圣秀:研究設計