陶雪敏,方 瑞,吳重重,張 弛,張榮國,于朋鑫,趙紹宏
1解放軍醫(yī)學院,北京 100853 2中國人民解放軍總醫(yī)院第一醫(yī)學中心放射診斷科,北京 100853 3北京推想科技有限公司先進研究院,北京 100025
隨著多排螺旋CT技術發(fā)展及低劑量CT篩查的廣泛應用,越來越多的肺內(nèi)純磨玻璃密度結(jié)節(jié)(pure ground glass nodule,pGGN)被發(fā)現(xiàn),且長期的磨玻璃結(jié)節(jié)存在肺癌可能[1- 2]。國內(nèi)外對pGGN肺腺癌浸潤性的判斷已經(jīng)有很多報道[3- 5],這些報道大多數(shù)是基于CT特征的,而pGGN不具備典型影像特征時,判斷其浸潤性就比較困難,目前仍主要依靠醫(yī)生臨床經(jīng)驗,診斷與治療均有很大的隨意性,存在過度治療的傾向[6]。浸潤性肺腺癌的治療方式及5年無病生存率都與非浸潤性肺腺癌(如原位腺癌、微浸潤性腺癌)截然不同[7],所以,如何在術前鑒別浸潤性腺癌與非浸潤性腺癌尤為重要。本研究利用深度學習模型對術前pGGN的病理類型進行預判,并與術后病理及專家診斷對比,判斷深度學習模型在pGGN浸潤性判斷的價值。
對象采用單中心回顧性分析,收集2013年 2月至2018年5月中國人民解放軍總醫(yī)院第一醫(yī)學中心符合以下標準的患者臨床及影像資料。納入標準:(1)病理確診為肺腺癌;(2)手術之前未行放療和化療;(3)術前1周內(nèi)行CT檢查并有1.25 mm的薄層圖像;(4)CT表現(xiàn)為pGGN。排除標準:(1)術前有惡性腫瘤病史并接受過抗腫瘤治療;(2)CT肺窗上病變內(nèi)觀察到實性成分。219例患者共 240個病變納入研究。其中浸潤前病灶(包括不典型腺瘤樣增生及原位腺癌)為58個,微浸潤腺癌(minimally invasive adenocarcinoma,MIA)病灶為86個,浸潤性腺癌病灶為96個,部分病例表現(xiàn)為多發(fā),而且同一例患者不同病灶或病理亞型不相同也會作為獨立的樣本進行分析。
病理檢查方法所有入組患者均接受手術并取標本病理送檢。病理檢查方法為10%甲醛進行固定,取材后進行石蠟包埋切片,最后行HE染色以及免疫組織化學染色。病理診斷參照2015年WHO肺癌分類標準。其中,不典型腺瘤樣增生(atypical adenomatous hyperplasia,AAH)表現(xiàn)為肺泡內(nèi)襯有單一的輕度不典型長方體及柱狀體上皮細胞。表現(xiàn)為單純磨玻璃樣結(jié)節(jié)的病變以原位腺癌(adenocarcinoma in situ,AIS)和MIA為主,AIS 為腫瘤細胞沿肺泡附壁生長的肺內(nèi)磨玻璃樣結(jié)節(jié),邊緣大部分較清晰,表現(xiàn)為肺泡間隔的增厚,無基質(zhì)血管和基膜侵犯;MIA 以附壁生長方式為主,表現(xiàn)為孤立性且浸潤灶≤ 5 mm的肺腺癌;浸潤性腺癌為基質(zhì)血管和基膜受侵犯,浸潤灶> 5 mm的肺腺癌。
CT掃描參數(shù)采用美國GE Optima CT660掃描儀。患者取仰臥位、雙臂上舉、 頭先進,均在吸氣末屏氣后掃描。掃描范圍包括肺尖至膈下3 cm。掃描參數(shù):管電壓120 kVp,自動管電流調(diào)整技術,重建出1.25 mm的薄層CT圖像;肺窗窗寬1600 HU,窗位-600 HU;縱隔窗窗寬400 HU,窗位40 HU;輻射劑量均小于10 mGy。用于標注的CT圖像均為1.25 mm的薄層肺窗圖像。
感興趣區(qū)域的勾畫與標注對CT圖像上的病灶進行人工勾畫逐層分割感興趣容積(volume of interest,VOI),勾畫方式如圖1所示。VOI包含整個病變,排除VOI內(nèi)的大血管和動脈。最后由另一名放射科醫(yī)師對每個VOI進行復核,確保每個VOI準確勾勒病灶邊界,同時根據(jù)手術記錄及病理結(jié)果對病灶進行標記,分別標記為浸潤前病變、微浸潤性腺癌、浸潤性腺癌。
基于VOI的人工智能深度神經(jīng)網(wǎng)絡分析
模型算法:采用3D DenseNet模型算法,本模型是基于16位的醫(yī)學數(shù)字成像和通信圖像,PyTorch 框架進行訓練,3D DenseNet 模型使用和DenseNet[8]類似的169層神經(jīng)網(wǎng)絡結(jié)構(gòu),不同的是網(wǎng)絡輸入是3D圖像,即患者CT圖像的VOI區(qū)域,網(wǎng)絡的輸出是pGGN的病理分型的概率預測,模型的結(jié)構(gòu)如圖2所示,模型中包含的隱含層及其參數(shù)見表1。使用DenseNet在ImageNet數(shù)據(jù)集上的預訓練模型,用于遷移學習[9]。使用遷移學習的目的是加快網(wǎng)絡訓練速度并在一定程度上減少過擬合現(xiàn)象。
表1 3D 深度卷積神經(jīng)網(wǎng)絡參數(shù)
VOI:感興趣容積;以逐層標記的方式進行醫(yī)學數(shù)字成像和通信數(shù)據(jù)中VOI的勾畫
3D DenseNet模型的主要結(jié)構(gòu)包括密集連接塊、轉(zhuǎn)換層、上采樣層、池化層、展開層、特征連接層和全連接層,3D DenseNet 的輸入為圖像塊,輸出為結(jié)節(jié)浸潤概率,黃色塊與紅色塊分別表示特征連接層的輸入和輸出
訓練過程:訓練與驗證的所有數(shù)據(jù)均使用患者CT圖像提取出的VOI區(qū)域進行分類,每一個VOI區(qū)域提取出一個長方體,提取過程并未對VOI區(qū)域進行加窗處理,以便在訓練過程中進行數(shù)據(jù)增強(圖3)。本研究按每一病理類型隨機分為兩組,訓練集數(shù)據(jù)和測試集數(shù)據(jù)。訓練集數(shù)據(jù)占全部數(shù)據(jù)的80%,測試集數(shù)據(jù)占20%。
數(shù)據(jù)優(yōu)化處理:包括數(shù)據(jù)增強及數(shù)據(jù)不平衡的處理。由于數(shù)據(jù)較少,數(shù)據(jù)增強可以減少訓練過程中的過擬合現(xiàn)象。本研究使用的數(shù)據(jù)增強方法包括:(1)生成隨機的訓練數(shù)據(jù)。輸入尺寸是根據(jù)所有 VOI 的勾畫結(jié)果統(tǒng)計值確定,在確保可以完整包含病灶區(qū)域的前提下盡量縮小輸入數(shù)據(jù)的大小,最后確定的網(wǎng)絡輸入大小為80×80×64像素,對于訓練集,原始的結(jié)節(jié)分割VOI會隨機分布到提取長方體的任何一個位置;對于測試集,結(jié)節(jié)分割VOI處于長方體的中心。(2)實時窗寬窗位的隨機變化。默認窗位窗寬為(-600 HU,1600 HU),在訓練過程中,訓練集會進行窗位-5到5的變化,以達到增強數(shù)據(jù)的目的;測試集使用默認窗寬窗位。本研究數(shù)據(jù)存在一定程度的類別不平衡,對此,在訓練期間采用了對小類別樣本進行過采樣的方法來平衡數(shù)據(jù)。
專家對測試集(共48例)的數(shù)據(jù)進行評估對于測試集的數(shù)據(jù),由兩位具有15年以上胸部影像診斷工作經(jīng)驗的專家在不知道病理結(jié)果的基礎上對CT圖像進行評估并做出病理亞型判斷,兩人獨立進行,每人共分前后兩次,兩次評判的間隔時間為1周,做好記錄。最后,對于判斷結(jié)果不一致的病例,兩位專家一起評判得到一致意見,作為聯(lián)合評判結(jié)果。
統(tǒng)計學處理采用SPSS 22.0和MedClac進行數(shù)據(jù)分析。使用SPSS 22.0計算深度學習模型和專家與病理結(jié)果的一致性檢驗(Kappa檢驗),采用χ2檢驗進行準確率的檢驗以及受試者工作特性(receiver operating characteristic,ROC)曲線的繪制。以病理診斷為參考標準,為了實現(xiàn)分類目的以及評價深度學習模型與專家組診斷的準確性,利用ROC曲線顯示深度學習模型與專家組區(qū)分pGGN浸潤性的診斷能力。ROC曲線以靈敏度(真陽性率)和1-特異度(假陽性率)為橫縱坐標繪制而成,將ROC曲線上各個點的靈敏度與1-特異度的值拷貝在Excel表格中,計算出約登指數(shù),取約登指數(shù)最大的點作為臨界值。使用MedClac軟件計算準確率、靈敏度和特異度的95%CI以及ROC曲線下的面積(area under curve,AUC)值的差異性檢驗(Z檢驗)[10]。研究中的混淆矩陣是一個組合2×2列聯(lián)表,報告了深度學習模型與專家組診斷浸潤性腺癌的真陽性數(shù)、假陽性數(shù)、假陰性數(shù)和真陰性數(shù)。計算靈敏度、特異度、約登指數(shù)、陽性預測值、陰性預測值、陽性似然比以及陰性似然比等診斷指標。靈敏度為正確識別出浸潤性腺癌的比例;特異度為正確識別的非浸潤性腺癌患者的比例;約登指數(shù)為評價診斷實驗真實性的指標,其計算方法為靈敏度與特異度之和減去1;陽性預測值為診斷浸潤性腺癌的樣本中,實際浸潤性腺癌的百分比;陰性預測值為診斷非浸潤性腺癌的樣本中,實際非浸潤性腺癌的百分比;陽性似然比為真陽性率與假陽性率的比值;陰性似然比為假陰性率與真陰性率的比值。同時,利用F1值評價機器學習的診斷效能,F(xiàn)1值越高,診斷效能越好。F1值計算方式為2(精確度×召回率)/(精確度+召回率),而召回率又稱真陽性率或靈敏度,精確度也稱陽性預測值。P<0.05為差異有統(tǒng)計學意義。
數(shù)據(jù)優(yōu)化處理中的數(shù)據(jù)增強方法由圖像塊的隨機選擇和歸一化組成,圖中的紅色塊、藍色塊和綠色塊分別表示對同一個結(jié)節(jié)的隨機選取圖像塊,對每個圖像塊以不同的窗寬窗位進行歸一化,得到歸一化后的圖像塊;可視化圖像塊其任意層的結(jié)果如圖中右側(cè)所示
一般情況訓練集中,共有男性73例,平均年齡為(55.4±10.5)歲;女性98例,平均年齡為(53.1±9.4)歲。測試集中,共有男性18例,平均年齡為(57.1±8.2)歲;女性30例,平均年齡為(54.3±9.8)歲。訓練集數(shù)據(jù)中有192個pGGN,其中非浸潤性腺癌共116個(包括浸潤前病變48個、微浸潤性腺癌68個),浸潤性腺癌76個。測試集中有48個pGGN,其中非浸潤性腺癌共28個(包括浸潤前病變10個、微浸潤性腺癌18個),浸潤性腺癌20個。
深度學習模型驗證結(jié)果與專家診斷結(jié)果將浸潤性腺癌定為陽性結(jié)果,非浸潤性腺癌(包括不典型腺瘤樣增生、原位腺癌、微浸潤性腺癌)即為陰性結(jié)果,深度學習與專家診斷的結(jié)果顯示,對于CT上表現(xiàn)為pGGN的浸潤性腺癌與非浸潤性腺癌,僅深度學習的診斷結(jié)果差異有統(tǒng)計學意義(χ2=20.743,P<0.001)(表2)。
表2 深度學習與專家組對測試集pGGN的診斷結(jié)果(n)
專家對測試集pGGN的一致性檢驗結(jié)果對專家1和專家2前后兩次診斷進行一致性檢驗顯示兩位專家各自前后兩次判斷的一致性較好(Kappa=0.939,Kappa=0.799)。選取第2次診斷意見進行專家間的一致性檢驗顯示略低于專家個人的一致性(Kappa=0.667)。
深度學習模型驗證效能與專家診斷效能深度學習模型判斷pGGN的準確率為0.833,95%CI為0.7016~0.9157,靈敏度為0.7,95%CI為0.4567~0.8716,特異度為0.929,95%CI為0.7504~0.9875,約登指數(shù)為0.629。深度學習模型診斷的陽性預測值、陰性預測值、陽性似然比與陰性似然比分別為0.875、0.813、9.800和0.323。用于評價機器學習診斷效能的指標F1值為0.778,診斷效能較好。
專家1對pGGN診斷的準確率為0.5000,95%CI為0.3639~0.6361,靈敏度為0.8500,95%CI為0.6114~0.9604,特異度為0.2860,95%CI為0.1143~0.4522,約登指數(shù)為0.1000。專家1診斷的陽性預測值、陰性預測值、陽性似然比與陰性似然比分別為0.4470、0.7000、1.1900和0.6000。F1值為0.5860,診斷效能一般。專家2對pGGN診斷的準確率為0.5625,95%CI為0.4227~0.6931,靈敏度為0.8000,95%CI為0.5573~0.9339,特異度為0.3570,95%CI為0.2213~0.5927,約登指數(shù)為0.1930。專家2診斷的陽性預測值、陰性預測值、陽性似然比與陰性似然比分別為0.4850、0.7330、1.1322和0.5090。F1值為0.6040,診斷效能一般。兩位專家聯(lián)合診斷pGGN的準確率為0.5417,95%CI為0.4029~0.6743,靈敏度為0.9000,95%CI為0.6687~0.9825,特異度為0.2860,95%CI為0.1395~ 0.4887,約登指數(shù)為0.1857。兩位專家聯(lián)合診斷的陽性預測值、陰性預測值、陽性似然比與陰性似然比分別為0.4740、0.8000、1.2600和0.3500。F1值為0.6210,診斷效能一般。深度學習診斷的準確率明顯高于專家組診斷結(jié)果,準確率高達0.8330,特異度高達0.9290,對非浸潤性肺腺癌的識別效能好,深度學習與專家組之間診斷準確率的差異具有統(tǒng)計學意義(χ2=14.113,P=0.000)。
對深度學習模型及專家診斷意見以病理結(jié)果作為參考標準進行ROC曲線繪制,ROC曲線下面積的大小表明診斷試驗準確度的大小。ROC曲線對比圖顯示,4種診斷結(jié)果均在參考線以上,且深度學習結(jié)果明顯優(yōu)于其他3組結(jié)果(圖4)。其中,深度學習、專家1、專家2和專家組的AUC值分別為0.814、0.550、0.600、0.590,經(jīng)過統(tǒng)計學檢驗,專家1與專家2(Z=0.837,P=0.402)、專家1與專家組(Z=1.395,P=0.163)、專家2與專家組(Z=0.068,P=0.946)之間差異無統(tǒng)計學意義,而專家1與深度學習(Z=4.346,P=0.000)、專家2與深度學習(Z=3.144,P=0.002)、專家組與深度學習(Z=3.404,P=0.001)差異有統(tǒng)計學意義。
圖4 深度學習與專家診斷的受試者工作特征曲線
根據(jù)2015年WHO肺腫瘤新分類[11],浸潤性肺腺癌、MIA以及浸潤前病變(包括AAH和AIS)在CT上均可以表現(xiàn)為pGGN[12]。但不同的是,早期浸潤前病變?nèi)鏏AH和AIS,可采用密切隨訪或局部切除,且5年生存率達100%;MIA也無淋巴結(jié)轉(zhuǎn)移和血行轉(zhuǎn)移,但可轉(zhuǎn)化為浸潤性腺癌,可采用亞葉切除或肺葉切除,5年生存率近于100%;而浸潤性腺癌除非小于2 cm或磨玻璃成分大于75%,即使肺葉切除加淋巴結(jié)清掃,5年生存率也只有60%~80%[7,11,13],因此,術前實現(xiàn)對浸潤性肺腺癌的精準診斷非常重要。
人工智能輔助影像診斷的研究已有文獻報道[14- 15]。人們相信CT上磨玻璃結(jié)節(jié)肯定存在肉眼觀察之外的信息,所以有研究者基于影像組學幫助判斷磨玻璃結(jié)節(jié)的良惡性和浸潤性[16]。影像組學和深度學習都是以影像內(nèi)部特征與病灶表現(xiàn)的相關性為基礎對結(jié)節(jié)進行評估,兩者也存在區(qū)別。影像組學對影像特征的提取以先驗知識為基礎,事先需設定好需要提取的特征類型,而深度學習則完全由數(shù)據(jù)本身驅(qū)動,通過自身不斷學習的方式提取特征[17]。本研究利用深度學習算法嘗試對pGGN進行初步的病理分型,即將浸潤性腺癌從微浸潤性腺癌與浸潤前病變中鑒別出來,結(jié)果顯示深度學習模型有較好的診斷性能,與專家診斷結(jié)果相比,顯示出明顯的優(yōu)勢,尤其是準確率和特異度評價指標。以后還會加入影像組學,增加樣本數(shù)據(jù)量,以獲得最新的診斷模型,進而對兩者進行更深度地比較,以輔助臨床診斷。
國內(nèi)外對pGGN浸潤性的研究大多數(shù)都是基于磨玻璃結(jié)節(jié)(ground glass nodule,GGN)的影像特征,分析GGN的各種CT征象判斷病變浸潤性,但報道都不盡相同。Lee等[18]的研究結(jié)果顯示,pGGN的直徑大于15 mm,CT值大于-472 HU,傾向于浸潤性腺癌。Zhang等[19]的研究結(jié)果顯示GGN內(nèi)包括肺動靜脈異常及支氣管異常、胸膜牽拉等內(nèi)部結(jié)構(gòu)的異常均提示GGN的浸潤性,這一點在楊越清等[20]和金鑫等[21]的研究結(jié)果中也有相同的報道。pGGN的影像特征在各亞型間存在重疊,Wu等[22]研究顯示在小于10 mm的pGGN中也存在30%的浸潤肺腺癌,而病變內(nèi)部結(jié)構(gòu)無改變時對浸潤性的判斷更加困難,尤其是人的肉眼觀察和分辨能力有限,很難對pGGN做出較為準確的診斷。本研究即使是兩位從事胸部影像診斷15年以上的專家,對表現(xiàn)為純磨玻璃密度結(jié)節(jié)浸潤性判斷準確性也不足60%,特異性更不足40%。本研究兩位專家的特異性較低,主要是由于非浸潤性腺癌識別相對不足,將大部分病理結(jié)果為微浸潤性腺癌的病變診斷為浸潤性腺癌。但微浸潤性腺癌與浸潤性腺癌的手術方式和預后顯著不同,僅憑肉眼確實很難將兩者區(qū)分開來,因此,愈加說明pGGN浸潤性的判斷和診斷還存在很大困難,同時也說明國內(nèi)pGGN病變存在過度治療的傾向,容易將非浸潤性腺癌作為浸潤性腺癌處理和治療,這一點和Hutchinson等[6]的報道一致,Hutchinson等[6]認為表現(xiàn)為純磨玻璃密度結(jié)節(jié)肺腺癌好的預后帶來了純磨玻璃密度結(jié)節(jié)的過度治療,另外,Kakinuma 等[23]對795例患者共1229處病灶進行4.3年隨訪,只有1%的患者結(jié)果為浸潤性肺腺癌。
有文獻報道人工智能技術在GGN診斷中的應用[12-13]。Mei等[13]的研究顯示,隨機森林預測GGN的惡性程度準確率高達95.1%,預測惡性GGN的浸潤性達83%。孫炎冰等[24]利用人工智能CT定量分析對肺磨玻璃密度結(jié)節(jié)進行初探研究,認為病灶尺寸定量參數(shù)測定有助于為磨玻璃密度肺結(jié)節(jié)預測臨床治療時機。Fan等[16]研究顯示影像組學特征在浸潤性腺癌和非浸潤性病變之間能夠顯示出良好的預測效果。本研究顯示深度學習的ROC曲線下的面積(AUC值)明顯高于專家自身以及專家聯(lián)合診斷結(jié)果,這也進一步表明人工智能的確能幫助放射科醫(yī)師提高診斷的準確性。而專家個人前后或?qū)<抑g一致性都相對較好,表明對于同一個病變,同一個專家的認識差異不大,但專家之間存在一定差異,表明目前對pGGN浸潤性的判斷尚缺乏一個有效的診斷標準,即證明人工智能的存在可以使pGGN的診斷更加標準化,減少同一病變因不同觀察者而出現(xiàn)不同結(jié)果的情況,可以為未來實現(xiàn)標準化的pGGN處理提供理論與技術支持。
本研究的限制性在于:(1)樣本量相對不足,尤其測試的樣本量僅有48例,在人工智能建模中,利用數(shù)據(jù)增強抵消這一不足,后期會擴大樣本量繼續(xù)研究。(2)本研究只納入有手術病理的病例,存在選擇性偏倚。
綜上,深度學習模型對pGGN肺腺癌浸潤性的初步判斷具有良好的診斷效能,準確率為0.8330,特異性高達0.9290,優(yōu)于專家診斷。