安超,張晨,鄭廣平,曹義,楊根東,印宏坤,顧俊,鄒彤,吳雙,王立非
我國是全球30個結核病流行嚴重的國家之一,每年新增肺結核病患者約90萬例[1],嚴重危害人民健康和生命安全。肺結核病診斷的“金標準”是細菌學,即痰培養(yǎng)法,雖然靈敏度較高,但此法檢驗所需時間較長,且容易受其他雜桿菌影響結果[2]。臨床實踐約有2/3的肺結核患者痰抗酸染色和痰結核分枝桿菌培養(yǎng)為陰性[3],對于此類患者,傳統(tǒng)的痰培養(yǎng)法無法準確篩查肺結核,往往會造成漏診[4]。胸部X線(chest X-rays,CXR)是發(fā)現結核病患者最簡便、可推廣、適宜基層的篩查措施。X線篩查具有較高的敏感度,但是特異度較差,高度依賴于醫(yī)生的主觀判斷,具有較大的組內和組間觀察者差異[5],特別是對于基層醫(yī)院具有一定的挑戰(zhàn)性[6]。近來,隨著人工智能(AI)和深度學習技術的迅猛發(fā)展,深度學習算法被廣泛應用于醫(yī)學影像輔助檢測和診斷?;诰矸e神經網絡的深度學習算法可以用于顱內血腫分割及出血類型識別[7],在基于彩色眼底圖像的糖尿病視網膜病變分級、皮膚癌與良性病變等疾病的診斷上,AI已接近或達到臨床專家水平[8,9];通過大樣本訓練,AI也被應用于眼底病變和小兒肺炎的診斷[10];此外,深度學習技術還可用于心電圖中心臟收縮功能障礙和心律失常的檢測[11]。目前也有一些利用深度學習檢測胸部X線肺結核的報道[12,13],但是這些研究都是基于公開數據集,缺乏外部獨立測試集和臨床數據集的驗證,因此無法判斷其魯棒性和泛化性。另外,基于卷積神經網絡的深度學習模型由于參數量巨大,之前報道的研究中使用的樣本數量通常較小(約1000例左右或更少),容易出現過擬合的情況。目前尚未有研究報道胸部X線肺結核檢測深度學習模型在多中心臨床數據上的表現。
本研究旨在通過搜集多中心、大樣本數據建立基于胸部X線的肺結核檢出深度學習模型,并通過多中心的外部獨立數據集來評估深度學習模型的效能、魯棒性及臨床應用價值。
開發(fā)數據搜集:本研究回顧性搜集2600例來自國內3家醫(yī)療機構的胸部X線掃描影像作為開發(fā)數據集,所有數據均直接從PACS系統(tǒng)導出并經過脫敏處理。結核患者入組標準為:患者年齡>16歲,且根據中華人民共和國衛(wèi)生行業(yè)標準中肺結核診斷的規(guī)定(WS 288-2017)確診為肺結核,具體依據:①DNA/RNA或GeneXpert試劑盒檢測證實肺結核陽性;②痰培養(yǎng)及抗酸桿菌陽性和結核分歧桿菌陽性;③組織活檢提示結核病。排除標準:患者患有腫瘤性疾病,或由于支氣管炎、肺炎及手術產生雙肺上葉支氣管增粗、肺紋理增濃導致難以與肺結核區(qū)別的。此外,本研究還搜集407例未患有肺結核的胸部X線掃描影像作為陰性對照。最終搜集數據中包含了2193例確診肺結核患者數據,其中1580例為活動性病灶,613例為非活動性病灶。
外部測試集數據搜集:本研究共搜集2組公開數據集[14]和1組臨床數據集作為外部測試集,用于深度學習模型性能的檢測以及臨床應用的評估,具體包括:①ChinaSet公開數據集,大部分來自于深圳三院在2012年9月份搜集的病例,共包含336例結核病與326例非結核病患者數據,所有的胸部X線影像均采用飛利浦數字化X射線攝影系統(tǒng)(Philips DR digital diagnost system)采集,并存為3000×3000分辨率的PNG圖片格式;②MontgomerySet公開數據集,共包含58例結核病和80例非結核病患者的胸部X線影像,均來自于美國馬里蘭州蒙哥馬利縣,所有數據以PNG圖片格式保存,分辨率為4892×4020;ChinaSet公開數據集和MontgomerySet公開數據集的下載地址為:http://archive.nlm.nih.gov/repos/chestImages.php;③深圳三院外部臨床測試數據集,包含從2012年1月-2019年9月之間搜集的200例結核病與694例非結核病患者的DICOM格式胸部X線影像,均使用飛利浦數字DR系統(tǒng)進行捕獲,分辨率約為3000×3000。深圳三院外部臨床測試數據集為獨立搜集,與開發(fā)數據集來自不同醫(yī)院,且與ChinaSet公開數據集來自于不同的患者。
數據標記:本項目目的是在胸部X線影像中實現肺結核病灶的檢測,因此所有數據中的病灶均由放射科醫(yī)生用矩形框進行標記。為了確保標記結果的準確性與一致性,在原有標記結果的基礎上所有數據均由1名來自三甲醫(yī)院的主治醫(yī)生對照影像報告進行二次確認,對于有疑問的病例由另一名高年資主治醫(yī)師進行最終審核確認,作為結核病灶位置判斷的最終結果。
數據預處理:將開發(fā)數據集中的2600例數據隨機劃分為訓練集(2122例)、驗證集(300例)和內部測試集(178例),分別進行深度學習模型的訓練、參數調優(yōu)和結果測試。深度學習一般要求樣本數量充足,樣本量越大訓練出來的模型效果越好,泛化能力也越強。因此,我們采用了包含圖像變化、旋轉等數據增強技術對訓練集中的圖像進行了預處理,以提升模型的效能和魯棒性。
模型構建:本研究通過構建基于類似于RetinaNet網絡的深度學習模型實現肺結核的檢測。使用ResNeXt-50作為骨架網絡,相比于經典的ResNet殘差網絡,ResNeXt在其基礎上進一步提出了一種拓撲結構的轉換模塊,使得網絡結構在寬度上變得更寬,擁有更強的特征提取能力。ResNeXt-50的每一個模塊中我們都采用了Conv+BN+ReLU的結構,其中Conv表示卷積層,用于提取圖像特征;BN表示批歸一化(batch normalization),有助于網絡的收斂和防止過擬合;ReLU是一種激活函數,用于提升網絡的非線性擬合能力。此外,為了保證不同尺寸肺結核征象的檢出率,本研究在ResNeXt網絡結構的基礎上添加特征金字塔結構(feature pyramid networks,FPN)來有效融合不同層次的圖像特征;為保證一些樣本量比較少的肺結核征象的檢出率,采用難樣本挖掘技術;為了保證收斂效果,避免過擬合,采用多任務的loss函數。本研究采用的深度學習模型是一種以ResNeXt-FPN為基礎網絡的一步(one-stage)檢測模型(圖1)。模型的輸入為1張DR胸片圖像,不需要其他的臨床信息。模型通過影像的特征分析,輸出為該影像中包含肺結核征象的概率值。
圖1 肺結核檢測深度學習模型的網絡架構與工作流程示意圖。
為了提高模型訓練效率,本研究還采用了遷移學習(transfer learning)的方法進行了預訓練,預訓模型參數的數據來源于Image Net的子集,其中訓練集1281167張,驗證集50000張,測試集100000張,總共1000個分類,在測試集上top5分類錯誤率達到6.6%。
模型效能評估:肺結核診斷采用受試者工作曲線(receiver operating characteristic curve,ROC curve),在內部測試集和2個公開數據集上進行肺結核檢測,以每張胸部X線片上是否檢測出結核病灶作為AI診斷肺結核的結果,參比金標準進行AI診斷性能的分析。通過計算曲線下面積(area under curve,AUC)來評估模型的診斷效能,并基于約登指數所對應的閾值來確定模型的敏感性(sensitivity)、特異性(specificity)和準確性(accuracy)。
樣本量計算:據WHO 2014 年發(fā)布的有關肺結核分診(triage)篩查產品性能指標的最低要求,靈敏度需要達到90%,特異度需要達到70%。本研究引用WHO標準,采用目標值法對AI模型的有效性進行驗證。主要評價指標:AI模型在陽性肺結核影像病例上的靈敏度高于目標值90%,優(yōu)效界值為0,實現優(yōu)效;AI模型在陰性肺結核影像病例上的特異度高于目標值70%,優(yōu)效界值為0,實現優(yōu)效。
對AI的有效性驗證進行測試樣本量估計,公式如下:
其中n為最少樣本量,Z1-α/2、Z1-β為標準正態(tài)分布的分數位,當雙側顯著性α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842。
預期的靈敏度=95.5%,目標值=90%,計算得到靈敏度優(yōu)效所需的最低樣本量為192.23。預期的特異度=75%,目標值=70%,計算得到特異度優(yōu)效所需的最低樣本量為637.85。
臨床一致性評估:為了檢測AI模型在臨床實際使用的情況,本研究對于臨床一致性也進行了評估。首先對不同人員之間的結果一致性進行評估,分別由操作員A、B和C使用AI系統(tǒng)進行深圳三院外部臨床測試數據集的肺結核檢測,每次檢測前均將正負樣本隨機打散,由觀察人員記錄AI診斷結果,整個過程中操作員A、B、C互不干擾,互不知情。將所有操作員的檢測結果匯總并與已知金標準結果(臨床確診的結果)進行比對,計算各自的敏感性和特異性并評估AI模型的結果再現性。其次本研究還對結果的再現性進行了評估,由操作員D使用AI模型重復在深圳三院外部臨床測試數據集上檢測肺結核3次,每次檢測前均將正負樣本隨機打散,每次檢測間隔時間為1周。將操作員D 3次檢測結果匯總并與已知金標準結果(臨床確診的結果)進行比對,評估AI模型的可重復性。
深度學習模型在內部測試集的ROC下曲線面積(AUC)為0.967,對應最佳閾值下的敏感度為95.32%,特異度為83.33%,AI模型診斷肺結核的準確率為94.94%。
AI模型在ChinaSet和MontgomerySet公開數據集上的測試結果AUC分別為0.95和0.93(圖2),與內部驗證集的AUC基本一致,表現良好的魯棒性。深度學習模型在ChinaSet和MontgomerySet公開數據集的外部測試詳細結果如表1。
圖2 深度學習模型在公開數據集ChinaSet(a)和MontgomerySet(b)上的ROC曲線分析。 圖3 深度學習模型在深圳三院臨床數據集上的ROC曲線分析。
表1 深度學習模型在公開數據集上的具體驗證結果
深圳三院臨床數據集包含200例肺結核樣本和694例正常對照樣本,滿足有效性評價的測試樣本量需求。數據集包含了來自523名男性和371名女性的胸部X線影像數據,其中有596例患者年齡在16~35歲,323例患者年齡在36~55歲,65例患者年齡在56歲以上,1例患者年齡信息缺失。患者的性別和年齡分布符合臨床實際情況。
ROC分析結果表明AI模型在深圳三院臨床數據集上也體現了優(yōu)異的診斷效能,AI模型的AUC為0.976(圖3),對應閾值為0.17時的敏感度為97.50%,優(yōu)于WHO規(guī)定的90%;特異度為77.52%,優(yōu)于WHO規(guī)定的70%,AI模型診斷肺結核的準確率為81.99%。
基于設定好的閾值0.17,AI模型會將輸出概率≤0.17的圖像判定為陰性,>0.17的圖像判定為陽性,則模型預測的各圖像陰陽性與金標準一一對比,則可得到以下指標。①TP:真陽,金標準為陽性且模型預測為陽性的圖像數;②TN:真陰,金標準為陰性且模型預測為陰性的圖像數;③FP:假陽,金標準為陰性而模型預測為陽性的圖像數;④FN:假陰,金標準為陽性而模型預測為陰性的圖像數。
據AI預測結果和金標準的對比,操作員A、B、C分別的檢測結果以及操作員D3次檢測的結果匯總(表2)。
表2 深度學習模型臨床一致性評估結果
測試結果表明在相同的環(huán)境條件下,不同的操作員或者同一操作員不同時間的檢測結果均完全一致,說明AI模型對于胸部X線肺結節(jié)檢測具有良好的重復性和再現性。
一位典型體檢患者在本研究構建的人工智能輔助診斷系統(tǒng)下的結核病灶識別檢出情況(圖4),結果表明AI可準確的識別結核病灶并對其進行定位,有助于輔助臨床醫(yī)生進行肺結核診斷。
此外,我們也對AI模型的漏診病例進行了分析,患者雙肺紋理增強模糊,右肺及左上肺見結片狀致密影,邊界欠清,心臟大小形態(tài)正常范圍,雙側膈面光滑,雙側肋膈角銳利(圖5a),提示右肺及左上肺感染性病變,最終經病原學確診為肺結核。AI漏診可能原因是由于雙肺尖部局限性、對稱性病變,且病變區(qū)與鎖骨近端、第一前肋存在重疊,從而造成模型誤判?;颊哂曳紊弦翱梢妶F片模糊影及纖維條索灶,右側肺門上提,余雙肺未見其他異常密度灶,主動脈紆曲增寬,余未見異常(圖5b),右上肺改變提示陳舊結核可能,最終經過痰液病理檢查確診。AI誤判的可能原因是右肺尖部淡薄稍高密度影,病變范圍較小導致結核征象不典型,同時受到肺尖部鎖骨及第一前肋的影響造成模型漏診。
圖4 典型的在體檢影像報告顯示為結核疑似患者右肺上葉結核在被深度學習模型識別檢出。
圖5 兩例深度學習模型漏診病例分析,肺結核病灶用白色箭頭標出。
本研究建立了基于胸部X線的肺結核檢出深度學習模型,采用了基于RetinaNet網絡的檢測方法,檢測精度高[15]。內部測試數據中模型的AUC為0.967,幾乎達到了100%無漏診。在公開數據集ChinaSet和MontgomerySet上,模型的AUC分別為0.95和0.93,相比于內部測試集結果模型性能無明顯下降,表明該模型不存在過擬合的現象,具有較高的魯棒性。此外,我們還與商業(yè)軟件Qure.ai在胸部X線肺結核診斷的結果進行了比較,不論是在ChinaSet公開數據集上(AUC,0.95 vs 0.87)還是MontgomerySet數據集上(AUC,0.93 vs 0.91),我們建立的模型都有著更高的診斷準確率[16]。在來自深圳三院外部驗證數據集上模型的AUC仍然達到了0.976,與模型在內部驗證集以及2組公開數據集上的測試結果幾乎完全一致,表明模型具有很好的泛化性。
相比于之前關于深度學習在胸部X線結核檢測中的報道,本研究有以下優(yōu)點:①本研究納入了來自三家醫(yī)院的2600例胸部X線數據用于模型訓練,據我們所知這是目前最大的肺結核胸部X線多中心數據庫。多中心、大樣本的數據為深度學習模型的構建提供了保障,實驗結果也證明我們的AI模型有著良好的效能和優(yōu)秀的魯棒性。②本研究通過構建基于類似RetinaNet的ResNeXt-FPN網絡架構進行肺結核病灶的檢測,相比于之前報道中所采用的AlexNet和GoogLeNet等傳統(tǒng)模型,本研究在胸部X線整圖診斷的基礎上進一步的實現了病灶定位,從而更有利于輔助臨床醫(yī)生進行診斷,同時源于RetinaNet的改良損失函數解決了目標檢測模型中正負樣本嚴重不平衡的問題,金字塔形的網絡結構也充分利用了多尺度的特征,從而保證了檢測精度。③本研究分別在公開數據集和來自臨床的獨立數據集上進行的模型性能的外部驗證,充分驗證了AI模型的魯棒性和泛化性,為臨床應用提供了數據支撐。④本研究還在深圳三院臨床數據集中計算了最低樣本量,確保了模型在敏感度和特異度上相對于WHO標準的優(yōu)效性驗證,同時還進行了AI模型的臨床一致性研究,充分證明了模型的臨床應用可靠性。
AI模型可以精確計算出每個病例的患病風險,通過人為設定一個閾值(threshold)來鑒別診斷正負樣本,隨著閾值從小到大逐漸升高,模型敏感性隨之降低的同時特異性也隨之升高,反之亦然。約登指數(Youden Index)是常用的評價篩查試驗真實性的方法,其應用的前提是假設假陰性(漏診率)和假陽性(誤診率)的危害性具有同等意義[17]。針對不同疾病診斷的實際臨床實驗中,假陰性和假陽性的危害性往往并不相同,因此需要通過調節(jié)閾值大小來進行平衡。本研究基于WHO在肺結核診斷上的標準,在深圳三院臨床測試數據集上通過人為設定閾值為0.17,確保了模型在具有高敏感性(97.50%)的同時也有良好的特異性(77.52%)。
本研究也存在局限性:首先,本研究為回顧性研究,未來還需要前瞻性的搜集更多病例來驗證模型的臨床應用效能;其次,本研究只分析了AI對于結核病灶的檢出效能,還需要進行閱片實驗來探索深度學習模型與人類醫(yī)生在結核檢查的效能差異,以及評估醫(yī)生在AI輔助下對結核檢測準確率的提升;再次,臨床驗證結果表明雖然AI對于肺結核的檢測準確率較高,但是對于病變特征不明顯且有其他部位遮擋的結核病灶仍然存在漏診的情況,需要針對性的進行模型優(yōu)化以降低漏診率;最后,本研究開發(fā)的AI模型只針對了肺結核病灶的檢測,在訓練過程中未納入肺部其他病變,因此目前只能局限于肺結核的檢測,未來將進一步拓展針對其他肺部病變的檢測功能。
總之,本研究通過搜集多中心來源的大樣本數據集,構建了具有高魯棒性和泛化性的深度學習胸部X線影像肺結核檢測模型,并采用了多個外部獨立測試集進行性能驗證,同時還在深圳三院臨床數據集中對模型的優(yōu)效性和可靠性進行了評估。結果表明基于深度學習的胸部X線肺結核病灶智能檢測模型擁有較高的準確率和良好的可靠性,有助于更準確、有效地指導肺結核疾病的臨床醫(yī)療決策。