陶雪敏,方瑞,金鑫,羅春材,余石林,胡飛,王方,趙紹宏
1.中國(guó)人民解放軍總醫(yī)院第一醫(yī)學(xué)中心 放射診斷科,北京 100853;2.北京青燕祥云科技有限公司,北京 100043
隨著低劑量CT的普及和肺癌篩查人群的日益增加,越來越多的肺結(jié)節(jié)被檢出,而亞實(shí)性的肺結(jié)節(jié)常與肺癌相關(guān),尤其是目前發(fā)病率最高的肺腺癌[1]。亞實(shí)性肺結(jié)節(jié)包括不含實(shí)性成分的純磨玻璃密度結(jié)節(jié)和伴有實(shí)性成分的混合磨玻璃密度結(jié)節(jié)[2]。既往研究[3-4]表明,長(zhǎng)期存在(存在時(shí)間≥3個(gè)月[5])的亞實(shí)性肺結(jié)節(jié)多為浸潤(rùn)性肺腺癌或其癌前病變。盡管如此,與實(shí)性肺結(jié)節(jié)相比,亞實(shí)性肺結(jié)節(jié)的生長(zhǎng)較為緩慢,呈一個(gè)惰性的生長(zhǎng)方式[6]。正因?yàn)槿绱?,?dāng)前臨床對(duì)亞實(shí)性肺結(jié)節(jié)的處理和隨訪尚存在爭(zhēng)議,尤其是實(shí)性成分<5 mm的混合磨玻璃密度結(jié)節(jié)以及不含實(shí)性成分的純磨玻璃密度結(jié)節(jié)[7-8]。Fleischner學(xué)會(huì)[2]指出,倍增時(shí)間是腫瘤體積或細(xì)胞數(shù)增加一倍的時(shí)間,它在腫瘤的定性中具有相當(dāng)重要的意義,是鑒別結(jié)節(jié)良惡性的重要指標(biāo)。據(jù)報(bào)道,三維的體積比二維的直徑更能反映亞實(shí)性結(jié)節(jié)的真實(shí)生長(zhǎng)[9-10]。
影像組學(xué)的概念在2012年由Lambin等[11]首次提出,即從放射影像的圖像中高通量地提取大量的影像特征。2017年Lambin等[12]進(jìn)一步提出,影像組學(xué)是一種高通量的圖像定量特征數(shù)據(jù)挖掘技術(shù),可以搭建起醫(yī)學(xué)影像與精準(zhǔn)醫(yī)療之間的橋梁,應(yīng)用于臨床決策體系。近年來,影像組學(xué)作為人工智能的一個(gè)重要分支,在肺癌的精準(zhǔn)診治中發(fā)揮了重要的作用,例如肺癌的診斷、病理分型以及鑒別診斷等[13]。因此,本研究的目的是嘗試通過影像組學(xué)方法,預(yù)測(cè)長(zhǎng)期存在的亞實(shí)性肺結(jié)節(jié)的體積倍增時(shí)間,進(jìn)而分析其在隨訪中的價(jià)值,以提出合理的隨訪計(jì)劃。
收集我院從2013年5月至2018年12月胸部螺旋CT掃描初次檢查時(shí)發(fā)現(xiàn)亞實(shí)性肺結(jié)節(jié)且首次復(fù)查時(shí)間間隔12個(gè)月以上,隨機(jī)選取患者45例作為訓(xùn)練集數(shù)據(jù),其中男15例,女30例,年齡28~81歲;19例患者為單發(fā)的結(jié)節(jié),26例患者為多發(fā)結(jié)節(jié),共納入結(jié)節(jié)116對(duì);結(jié)節(jié)前后兩次檢查間隔時(shí)間中位數(shù)為13個(gè)月(范圍:4~99個(gè)月)。另隨機(jī)選取27例患者作為測(cè)試集數(shù)據(jù),其中男8例,女19例,年齡范圍31~80歲;其中12例患者為單發(fā)結(jié)節(jié),15例患者為多發(fā)結(jié)節(jié),共納入結(jié)節(jié)55個(gè)。
采用美國(guó)Philips Brilliance 256 iCT或Siemens Cardiac 64排螺旋CT掃描儀?;颊呷⊙雠P位,雙臂上舉,頭先進(jìn),均在吸氣末屏氣后掃描。掃描范圍包括從肺尖至膈下3 cm。掃描參數(shù):管電壓120 kVp,自動(dòng)管電流調(diào)整技術(shù),薄層重建層厚1 mm;肺窗窗寬1600 HU,窗位-600 HU;縱隔窗窗寬400 HU,窗位40 HU。復(fù)查時(shí)與首次掃描條件一致。
病灶感興趣區(qū)域(Region of Interest,ROI)的精準(zhǔn)劃分對(duì)影像特征的提取以及統(tǒng)計(jì)學(xué)分析有著關(guān)鍵性的作用。為了減少手動(dòng)勾畫ROI區(qū)域造成的人為誤差(包括同一標(biāo)注人員前后兩次勾畫造成的組內(nèi)誤差以及不同勾畫人員勾畫造成的組間誤差)以及病灶邊緣信息的遺漏。本次研究采用PereDoc醫(yī)療影像標(biāo)注系統(tǒng)(http://imgant.peredoc.com/)的半自動(dòng)ROI勾畫方式進(jìn)行病灶分割。半自動(dòng)勾畫ROI是指由2位醫(yī)生大致逐層勾畫出結(jié)節(jié)的外邊緣,再用自適應(yīng)閾值分割[14]以達(dá)到更精準(zhǔn)的病灶分割,分割結(jié)果由一名高年資醫(yī)生審核。
通過算法對(duì)訓(xùn)練集前后兩次CT檢查上的同一亞實(shí)性結(jié)節(jié)進(jìn)行匹配,再由一位醫(yī)生和一位工程師核對(duì)結(jié)節(jié)是否匹配正確。有兩次檢查的患者共40例,有3次檢查的患者共5例,其中19例患者為單發(fā)結(jié)節(jié),13例患者為2個(gè)結(jié)節(jié),6例患者有3個(gè)結(jié)節(jié),5例患者有4個(gè)結(jié)節(jié),1例患者有5個(gè)結(jié)節(jié),1例患者有6個(gè)結(jié)節(jié);其中有3次檢查的5例患者,前后檢查匹配的次數(shù)為3次,分別是第1次和第2次檢查,第2次和第3次檢查,第1次和第3次檢查。116對(duì)結(jié)節(jié)前后兩次匹配均正確。
由北京青燕祥云公司團(tuán)隊(duì)自行編程,從分割后的病灶中進(jìn)行特征提取。特征提取參照ISBI標(biāo)準(zhǔn)[15]。通過對(duì)病灶變化的觀察以及對(duì)結(jié)節(jié)生長(zhǎng)速率影響因素的了解,自行編程進(jìn)行影像組學(xué)特征的提取,其中下述影像組學(xué)特征的計(jì)算方法均可在ISBI中查看。以下為提取的影像組學(xué)特征及注釋,提取了6類共46個(gè)影像組學(xué)特征[16],具體特征如表1所示。
由于患者的隨訪間隔時(shí)間不等,原因在于不同的醫(yī)生隨訪建議不同以及患者的依從性不一致等,因此將亞實(shí)性結(jié)節(jié)倍增時(shí)間的預(yù)測(cè)轉(zhuǎn)化為增長(zhǎng)速率的預(yù)測(cè)。結(jié)節(jié)增長(zhǎng)率計(jì)算方式[17]見式(1)。
其中,y表示增長(zhǎng)率,V1、T1代表第一次所測(cè)的體積及檢查時(shí)間,V2、T2為第二次所測(cè)的體積及檢查時(shí)間,T2-T1代表兩次檢查的時(shí)間差(以月計(jì)算)。
亞實(shí)性結(jié)節(jié)增長(zhǎng)速率的分布散點(diǎn)圖如圖1所示。因此,結(jié)節(jié)的體積倍增時(shí)間,即當(dāng)V2=2V1時(shí),T2-T1即Δt的計(jì)算方式可以轉(zhuǎn)化為Δt=1/GR。
圖1 亞實(shí)性結(jié)節(jié)的生長(zhǎng)速率散點(diǎn)圖
特征選擇的任務(wù)是從一組數(shù)量為D的特征中選擇一組數(shù)量為d(D>d)的一組最優(yōu)特征[18],并且過濾掉噪音數(shù)據(jù),LASSO[19]是一種基于一范式的特征選擇方法。與已有的特征選擇方法相比較,LASSO不僅能夠準(zhǔn)確地選擇出與類標(biāo)簽強(qiáng)相關(guān)的變量,同時(shí)還具有特征選擇的穩(wěn)定性[20]。因此本研究利用LASSO回歸進(jìn)行特征篩選。首先將所有影像組學(xué)特征歸一化,歸一化的方法,見式(2):
其中,z為歸一化的特征參數(shù),μ為影像特征x的平均值,σ為影像組學(xué)特征的標(biāo)準(zhǔn)差。
LASSO回歸的損失函數(shù)表示為如式(3):
其中,y表示增長(zhǎng)速率,βj為歸一化后的特征z的系數(shù),λ為正則項(xiàng)參數(shù)。
LASSO回歸特征篩選后,非零系數(shù)的變量作為模型輸入變量。為了得到合適的正則項(xiàng)參數(shù)λ,使用k-fold交叉驗(yàn)證法來調(diào)節(jié)正則項(xiàng)參數(shù)λ,每調(diào)節(jié)一次參數(shù),將系數(shù)不為零的自變量作為所選特征,利用k-fold(k=5)交叉驗(yàn)證法得到k次回歸的均方根誤差,計(jì)算k次交叉驗(yàn)證均方根誤差的平均值,均方根誤差用rmse表示,均方根誤差常用來作為機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果衡量的標(biāo)準(zhǔn)[21-22],rmse計(jì)算公式如式(4):
其中,n表示樣本個(gè)數(shù),h(xi)表示模型輸出,y表示標(biāo)簽,即結(jié)節(jié)增長(zhǎng)的真實(shí)時(shí)間。
利用Python 3.8.1軟件進(jìn)行統(tǒng)計(jì)學(xué)分析。通過LASSO篩選特征,從總的影像組學(xué)特征中篩選出對(duì)結(jié)節(jié)增長(zhǎng)貢獻(xiàn)最大的特征,將篩選出的特征作為自變量,利用多重線性回歸構(gòu)建預(yù)測(cè)模型。
先由2位醫(yī)生如圖2所示逐層大致勾畫出結(jié)節(jié)的外邊緣(同層面的病灶約占ROI的2/3,正常肺組織約占ROI的1/3),不含血管結(jié)構(gòu),若有血管穿過病灶,則該血管當(dāng)作病灶內(nèi)的一部分處理,然后對(duì)手動(dòng)勾畫的ROI采用自適應(yīng)閾值分割達(dá)到更高的分割結(jié)果如圖3所示。
圖2 手動(dòng)逐層勾畫ROI
圖3 自適應(yīng)閾值分割
LASSO回歸對(duì)46個(gè)影像組學(xué)特征以及2個(gè)臨床特征(患者的年齡、性別)進(jìn)行篩選,當(dāng)增大正則項(xiàng)參數(shù)時(shí),正則項(xiàng)的懲罰力度加大,部分自變量的LASSO回歸系數(shù)變?yōu)榱悖瑒t可以篩選出非零系數(shù)的特征作為模型的輸入變量。如圖4所示,當(dāng)λ為0.086時(shí),均方根誤差下降到最低點(diǎn),此時(shí)篩選出5個(gè)特征,分別是病人的年齡(Patient Age)、GLCM的熵(GLCM entropy)、GLSZM的小區(qū)域強(qiáng)調(diào)(GLSZM small area emphasis)、形態(tài)學(xué)特征的分形維數(shù)(Fractal Dimension)和致密度 2(Compactness2)。
圖4 基于LASSO回歸及k-fold交叉驗(yàn)證篩選的特征
基于LASSO回歸以及k-fold交叉驗(yàn)證,篩選出5個(gè)特征及其系數(shù),分別為Patient Age、GLCM entropy、GLSZM small area emphasis、Fractal Dimension 和 Compactness 2。在使用k-fold(k=5)交叉驗(yàn)證法選擇特征時(shí),篩選出的5個(gè)特征在均方根誤差最小時(shí)的系數(shù)分別為0.024、0.010、-0.029、-0.013和0.018,此時(shí)的均方根誤差為0.036。由于本次入組患者前后兩次檢查時(shí)間間隔不定(中位數(shù)13個(gè)月,范圍4~99個(gè)月),因此通過預(yù)測(cè)結(jié)節(jié)的增長(zhǎng)速率來間接預(yù)測(cè)結(jié)節(jié)的倍增時(shí)間。進(jìn)行特征篩選與模型建立時(shí),用式(2)對(duì)所有特征進(jìn)行歸一化。利用多重線性回歸建立預(yù)測(cè)亞實(shí)性結(jié)節(jié)的增長(zhǎng)速率模型前,將所有特征進(jìn)行歸一化處理,篩選出的5個(gè)特征歸一化需要的平均值和標(biāo)準(zhǔn)差如表2所示。
表2 特征歸一化所需的平均值與標(biāo)準(zhǔn)差
將年齡及4種影像組學(xué)特征根據(jù)表2中的數(shù)據(jù)結(jié)果,經(jīng)過歸一化后分別代入式(5)即可預(yù)測(cè)出結(jié)節(jié)增長(zhǎng)速率,從而求得倍增時(shí)間。測(cè)試集驗(yàn)證結(jié)果如表3所示。
表3 影像組學(xué)特征預(yù)測(cè)倍增速率部分結(jié)果展示
在我們的研究中,找到了影響長(zhǎng)期存在亞實(shí)性肺結(jié)節(jié)生長(zhǎng)的影像組學(xué)特征和臨床特征,影像組學(xué)特征分別為GLCM entropy、GLSZM small area emphasis、Fractal Dimension、Compactness2,臨床特征為患者的年齡。利用得到的這些特征計(jì)算亞實(shí)性結(jié)節(jié)的生長(zhǎng)速率,并構(gòu)建了亞實(shí)性結(jié)節(jié)倍增時(shí)間的預(yù)測(cè)模型。在驗(yàn)證集中,通過與亞實(shí)性結(jié)節(jié)的真實(shí)平均生長(zhǎng)速率(0.041 mm3/月)相比較,預(yù)測(cè)生長(zhǎng)速率為0.038 mm3/月,略小于亞實(shí)性結(jié)節(jié)的實(shí)際增長(zhǎng)速率。因此,本研究基本實(shí)現(xiàn)了基于影像組學(xué)對(duì)亞實(shí)性肺結(jié)節(jié)生長(zhǎng)速率預(yù)測(cè),從而估計(jì)亞實(shí)性肺結(jié)節(jié)的倍增時(shí)間。基于此研究,我們可以通過患者初次的CT檢查,預(yù)測(cè)其倍增時(shí)間,以此作為一個(gè)重要的參照,給出長(zhǎng)期存在亞實(shí)性肺結(jié)節(jié)的隨訪建議。
既往的研究[23-24]通過公式VDT=[log2×T]/[log(Vfinal/Vinitial)]計(jì)算肺結(jié)節(jié)的倍增時(shí)間,繼而鑒別難以定性的肺結(jié)節(jié)良惡性。該方法的主要缺點(diǎn)是需要兩次CT檢查才能確定結(jié)節(jié)的倍增時(shí)間,增加患者的輻射暴露與心理負(fù)擔(dān)。本研究利用影像組學(xué)技術(shù),嘗試找到通過一次CT檢查就能預(yù)測(cè)結(jié)節(jié)倍增時(shí)間的方法,人類肉眼很難做到這一點(diǎn),當(dāng)然其結(jié)果的可靠性還需要更多前瞻性的臨床驗(yàn)證。
既往國(guó)內(nèi)外研究報(bào)道良性肺結(jié)節(jié)倍增時(shí)間都長(zhǎng)于惡性肺結(jié)節(jié),周科峰等[23]的研究報(bào)道炎性肺結(jié)節(jié)的倍增時(shí)間非常短(小于30 d)或良性肺結(jié)節(jié)的倍增時(shí)間相當(dāng)長(zhǎng)(180 d以上),而惡性肺結(jié)節(jié)的倍增時(shí)間由于病理類型不同,平均倍增時(shí)間在35~136 d。齊琳琳等[24]研究發(fā)現(xiàn)浸潤(rùn)性肺腺癌的倍增時(shí)間明顯短于微浸潤(rùn)性肺腺癌、原位腺癌、不典型腺瘤樣增生,且當(dāng)純磨玻璃肺結(jié)節(jié)的體積倍增時(shí)間<2095.86 d時(shí),提示其病理類型為浸潤(rùn)性腺癌的可能性大。Qi等[25]認(rèn)為在初次CT檢查時(shí),純磨玻璃密度的肺結(jié)節(jié)的體積可以預(yù)測(cè)結(jié)節(jié)的增長(zhǎng)。本研究創(chuàng)新性的采用影像組學(xué)方法,通過首次的CT檢查圖像,找出了影響亞實(shí)性肺結(jié)節(jié)增長(zhǎng)的影像組學(xué)及臨床特征,成功構(gòu)建了預(yù)測(cè)亞實(shí)性肺結(jié)節(jié)生長(zhǎng)速率的模型,并取得了一定的效果。
既往影像組學(xué)用于肺結(jié)節(jié)的研究時(shí)多基于肺結(jié)節(jié)的分類。梁偉等[26]通過構(gòu)建獨(dú)特的影像組學(xué)特征,小細(xì)胞肺癌與非小細(xì)胞肺癌預(yù)測(cè)的準(zhǔn)確率為75%,可以提供良好的參考價(jià)值。Fan等[27]研究發(fā)現(xiàn)影像組學(xué)特征與傳統(tǒng)的CT形態(tài)學(xué)表現(xiàn)或平均CT值相比,在術(shù)前鑒別磨玻璃結(jié)節(jié)浸潤(rùn)性(即浸潤(rùn)性肺腺癌與非浸潤(rùn)性病變)時(shí)有更高的預(yù)測(cè)效能。而本研究利用是基于影像組學(xué)特征建立亞實(shí)性結(jié)節(jié)倍增時(shí)間的預(yù)測(cè)模型,由于不同結(jié)節(jié)的倍增時(shí)間是完全不同的,且倍增時(shí)間是一個(gè)連續(xù)性的變量,因此不能用分類變量的評(píng)價(jià)方法,如準(zhǔn)確率等,所以我們使用均方根誤差來評(píng)價(jià)回歸模型[21-22]。本研究的均方根誤差為0.036,同時(shí)在測(cè)試集中驗(yàn)證了該模型,效果較好。
本研究不足的地方在于:① 樣本量較少,在后期我們將進(jìn)一步擴(kuò)大樣本數(shù)量以取得更具魯棒性的預(yù)測(cè)模型;② 本研究是半自動(dòng)勾畫病灶 ,較為費(fèi)時(shí)費(fèi)力,但保證了病灶分割的準(zhǔn)確性同時(shí)保留了病灶的邊緣性;③ 本研究除性別和年齡外,未納入更多的臨床特征;④ 本研究只納入體積倍增時(shí)間,沒有納入質(zhì)量倍增時(shí)間。由于本研究是探索性研究,后期我們會(huì)針對(duì)以上缺點(diǎn)提出解決方案優(yōu)化模型。
總之,本研究通過影像組學(xué)特征的提取與篩選,找出了影響亞實(shí)性肺結(jié)節(jié)倍增時(shí)間的影像組學(xué)特征,并成功建立了亞實(shí)性肺結(jié)節(jié)倍增時(shí)間的預(yù)測(cè)模型,對(duì)長(zhǎng)期存在的亞實(shí)性肺結(jié)節(jié)隨訪周期和隨訪間隔的復(fù)查策略提供了重要的量化信息,有助于臨床決策。