李逸凡,駱源,郭麗,梁猛
肺癌是當(dāng)前我國(guó)致死率排名第一的癌癥。與X線胸片相比,低劑量CT檢查可以有效提升肺癌的早期檢出率,從而提高治愈率、降低死亡率[1-2]。在CT檢查中對(duì)肺結(jié)節(jié)的良、惡性進(jìn)行分類是肺癌早期篩查的重要一環(huán),然而,對(duì)肺結(jié)節(jié)良惡性的準(zhǔn)確鑒別仍是目前的難點(diǎn)。常規(guī)影像學(xué)檢查主要通過(guò)分析病變的影像學(xué)征象來(lái)進(jìn)行判斷,如鈣化、分葉征和毛刺征等,沒(méi)有充分利用圖像數(shù)據(jù)。影像組學(xué)通過(guò)對(duì)醫(yī)學(xué)影像圖像進(jìn)行定量化測(cè)量,高通量提取圖像的紋理特征,實(shí)現(xiàn)對(duì)圖像數(shù)據(jù)的深入挖掘[3]。當(dāng)前,影像組學(xué)方法已在肺腺癌和肉芽腫的鑒別、肺癌預(yù)后預(yù)測(cè)、基因表型檢測(cè)、腺癌侵襲性分型、結(jié)節(jié)影像學(xué)性質(zhì)、結(jié)節(jié)良惡性分類等方面得到了廣泛應(yīng)用[4-11],其可重復(fù)性也得到了一定的研究[12]。
肺圖像數(shù)據(jù)庫(kù)聯(lián)盟與圖像數(shù)據(jù)庫(kù)資源計(jì)劃(Lung Image Database Consortium and Image Database Resource Initiative,LIDC-IDRI)這一公開(kāi)數(shù)據(jù)庫(kù)是當(dāng)前全球最大的肺結(jié)節(jié)影像數(shù)據(jù)庫(kù)[13],有1018份完整的肺部CT掃描數(shù)據(jù)及注釋文件[14]。國(guó)際光學(xué)工程學(xué)會(huì)-美國(guó)醫(yī)學(xué)物理學(xué)家協(xié)會(huì)肺部CT挑戰(zhàn)(Society of Photo-Optical Instrumentation Engineers- American Association of Physicists in Medicine Lung CT Challenge,SPIE-AAPM Lung CT Challenge,簡(jiǎn)稱LUNGx)公開(kāi)數(shù)據(jù)集是2015年SPIE醫(yī)學(xué)影像會(huì)議的一部分,提供了可用來(lái)對(duì)比計(jì)算機(jī)輔助診斷(computer assistant detection,CAD)算法性能的數(shù)據(jù)庫(kù)[15],并標(biāo)注了肺結(jié)節(jié)的位置及其良惡性。LIDC-IDRI和LUNGx數(shù)據(jù)庫(kù)中被試信息均經(jīng)過(guò)匿名化處理,且不提供臨床資料。
已經(jīng)有多項(xiàng)研究使用LIDC-IDRI數(shù)據(jù)庫(kù)并利用影像組學(xué)方法來(lái)構(gòu)建肺結(jié)節(jié)的良惡性分類器,結(jié)果均肯定了影像組學(xué)特征在肺結(jié)節(jié)診斷中的價(jià)值[16-17]。但是這些研究中分類器的訓(xùn)練和測(cè)試均來(lái)自同一數(shù)據(jù)集,缺少外部驗(yàn)證集,因此,難以評(píng)估其結(jié)果的泛化性能及可靠性。本研究結(jié)合LIDC-IDRI數(shù)據(jù)庫(kù)(訓(xùn)練集)和LUNGx數(shù)據(jù)庫(kù)(獨(dú)立外部驗(yàn)證集),利用影像組學(xué)紋理信息對(duì)肺結(jié)節(jié)進(jìn)行定量化表述,建立肺結(jié)節(jié)良惡性分類模型,旨在進(jìn)一步探討影像組學(xué)紋理特征在肺結(jié)節(jié)良惡性診斷方面的價(jià)值及其泛化能力。
1.肺結(jié)節(jié)數(shù)據(jù)
LIDC-IDRI數(shù)據(jù)庫(kù)中肺結(jié)節(jié)的納入標(biāo)準(zhǔn)為結(jié)節(jié)直徑為3~30 mm。在所有1018份肺部CT掃描圖像中,共有1372個(gè)滿足條件的結(jié)節(jié),其中良性1190個(gè)、惡性182個(gè)。為了與LIDC-IDRI數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)相匹配,自LUNGx公開(kāi)數(shù)據(jù)集中選擇直徑為3~30 mm的肺結(jié)節(jié),共納入56個(gè)肺結(jié)節(jié),包括良性31個(gè)、惡性25個(gè)。最終納入本研究的肺結(jié)節(jié)共1428個(gè),以LIDC-IDRI數(shù)據(jù)庫(kù)中獲取的1372個(gè)結(jié)節(jié)作為訓(xùn)練集,LUNGx數(shù)據(jù)庫(kù)中獲取的56個(gè)結(jié)節(jié)作為驗(yàn)證集。
2.圖像分割
LIDC-IDRI數(shù)據(jù)庫(kù)中,自每個(gè)被試文件夾內(nèi)的注釋文件中可提取所有4位放射科醫(yī)師對(duì)于3 mm以上肺結(jié)節(jié)的分割結(jié)果和惡性程度評(píng)分,同時(shí)被至少2位放射科醫(yī)師劃分在結(jié)節(jié)內(nèi)的體素將被納入該結(jié)節(jié)的最終分割范圍。結(jié)節(jié)的良惡性判定取所有診斷醫(yī)師評(píng)分的均值,≥4分為惡性,否則為良性。
對(duì)于LUNGx數(shù)據(jù)庫(kù),由一位放射科醫(yī)師在注釋文件指定的肺結(jié)節(jié)坐標(biāo)處使用3D-slicer軟件輔助繪制功能,逐層手動(dòng)勾畫(huà)ROI,最終獲得完整的3D-ROI以提取影像組學(xué)特征[18]。ROI繪制完畢后,由另一位高年資放射科醫(yī)師對(duì)分割結(jié)果進(jìn)行了檢查,對(duì)于有爭(zhēng)議的分割結(jié)果在雙方討論后進(jìn)行了重新繪制。
3.影像組學(xué)特征提取
在提取影像組學(xué)特征之前,為更好地顯示結(jié)節(jié)所在灰度范圍區(qū)域,將CT圖像設(shè)置為肺窗(窗寬1500 HU,窗位-750 HU)。為了減弱體素大小不同帶來(lái)的影響,所有結(jié)節(jié)體素均被重采樣至大小為1 mm×1 mm×1 mm。
本文采用基于Python3.7的軟件包pyradiomics 2.2.0[19],基于每個(gè)肺結(jié)節(jié)的3D-ROI共提取946個(gè)影像組學(xué)特征,包括:①一階統(tǒng)計(jì)學(xué)特征18個(gè);②灰度共生矩陣(gray level co-occurrence matrix,GLCM)特征22個(gè);③灰度依賴矩陣(gray level dependence matrix,GLDM)特征14個(gè);④灰度游程矩陣(gray level run length matrix,GLRLM)特征,16個(gè);⑤灰度大小區(qū)域矩陣(gray level size zone matrix,GLSZM)特征16個(gè);⑥拉普拉斯高斯(Laplacian of Gaussian,LoG)算子濾波后特征,172個(gè);⑦小波濾波后特征,688個(gè)。
4.特征選擇及模型構(gòu)建
在訓(xùn)練集中(LIDC-IDRI數(shù)據(jù)庫(kù)),采用嵌套交叉驗(yàn)證的方法進(jìn)行特征選擇和模型參數(shù)優(yōu)化,并驗(yàn)證所得模型在LIDC-IDRI數(shù)據(jù)庫(kù)上的性能。首先,將全部樣本隨機(jī)分成互不重疊的10組,每組均由訓(xùn)練集中良性樣本的10%和惡性樣本的10%構(gòu)成。之后在每次交叉驗(yàn)證過(guò)程中,將其中9組作為訓(xùn)練集,余下1組作為測(cè)試集,構(gòu)成嵌套交叉驗(yàn)證的外循環(huán),使得每組均作為測(cè)試集進(jìn)行一次交叉驗(yàn)證。
在上述每次交叉驗(yàn)證過(guò)程中,基于9組樣本所構(gòu)成的訓(xùn)練集,對(duì)所有特征進(jìn)行組間差異分析(若兩組數(shù)據(jù)均滿足正態(tài)分布,采用雙側(cè)獨(dú)立樣本t檢驗(yàn);否則,采用Wilcox秩和檢驗(yàn)),對(duì)組間比較P<0.05的特征進(jìn)行列標(biāo)準(zhǔn)化處理,以消除特征間尺度差異的影響,然后使用絕對(duì)值收斂和選擇算子(least absolute shrin-kage and selection operator,LASSO)回歸算法或三聯(lián)法進(jìn)行進(jìn)一步特征選擇[20]。LASSO回歸特征選擇再次采取10折交叉驗(yàn)證(即嵌套交叉驗(yàn)證的內(nèi)循環(huán))方法,選擇能使模型二項(xiàng)誤差在最小值一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)的最簡(jiǎn)模型所對(duì)應(yīng)的參數(shù)λ,以增強(qiáng)模型的泛化能力[21]。在應(yīng)用此調(diào)整參數(shù)后系數(shù)非零的特征被保留,用于分類模型構(gòu)建。三聯(lián)法特征選擇分別使用分類錯(cuò)誤概率聯(lián)合平均相關(guān)系數(shù)、互信息和Fisher相關(guān)系數(shù),各自選擇最佳的10個(gè)特征,之后將其合并為三聯(lián)法選擇的特征?;谶x定特征,利用線性支持向量機(jī)(support vector machines,SVM)算法構(gòu)建肺結(jié)節(jié)良、惡性分類器,得到每個(gè)訓(xùn)練樣本的概率輸出及分類結(jié)果,對(duì)模型效能進(jìn)行評(píng)估。以上嵌套交叉檢驗(yàn)流程重復(fù)100次,取均值,以增加結(jié)果的穩(wěn)定性。在調(diào)整SVM的參數(shù)C后,重復(fù)以上嵌套交叉驗(yàn)證流程以獲取不同參數(shù)條件下模型在訓(xùn)練集上的分類性能。認(rèn)為當(dāng)受試者工作特征曲線的曲線下面積(area under curve,AUC)達(dá)到最高時(shí)的模型參數(shù)為最優(yōu)。
采用上述最優(yōu)模型參數(shù),再次使用全部訓(xùn)練集(LIDC-IDRI數(shù)據(jù)庫(kù))樣本,利用同樣的特征選擇方法確定模型構(gòu)建所需的特征,重新訓(xùn)練SVM分類模型,完成最終模型的構(gòu)建。此外,為評(píng)價(jià)上述特征選擇方法所選擇出的影像組學(xué)特征的判別效能,進(jìn)一步采取層次聚類算法在驗(yàn)證集(LUNGx數(shù)據(jù)庫(kù))中基于上述選擇出的特征對(duì)肺結(jié)節(jié)樣本進(jìn)行無(wú)監(jiān)督聚類(固定類別數(shù)為2),檢驗(yàn)這些特征是否能夠?qū)⒘紣盒越Y(jié)節(jié)正確聚為兩類。
5.模型分類性能評(píng)估
以下所有統(tǒng)計(jì)學(xué)分析及圖形繪制均使用統(tǒng)計(jì)軟件包R語(yǔ)言(版本3.6.1)完成。我們對(duì)模型在兩個(gè)數(shù)據(jù)庫(kù)中的分類性能分別進(jìn)行了評(píng)估。在LIDC-IDRI數(shù)據(jù)庫(kù)(訓(xùn)練集)中,基于最優(yōu)參數(shù)對(duì)應(yīng)模型所得結(jié)果(100次10折交叉驗(yàn)證結(jié)果的均值)對(duì)該建模方法在訓(xùn)練集內(nèi)部進(jìn)行效能評(píng)估。
在LUNGx數(shù)據(jù)庫(kù)(驗(yàn)證集)中,首先使用訓(xùn)練集特征標(biāo)準(zhǔn)化參數(shù)對(duì)測(cè)試集樣本進(jìn)行特征標(biāo)準(zhǔn)化,并輸入最終構(gòu)建的分類模型,以得到每個(gè)測(cè)試樣本的分類結(jié)果。
模型分類性能的評(píng)估具體采用以下指標(biāo):受試者工作特性曲線(ROC)及曲線下面積(AUC)、分類符合率、敏感度、特異度、陽(yáng)性預(yù)測(cè)值(positive predictive value,PPV)和陰性預(yù)測(cè)值(negative predictive value,NPV)。
1.特征選擇結(jié)果
在訓(xùn)練集中進(jìn)行的嵌套交叉驗(yàn)證過(guò)程中,有811.27±6.21個(gè)特征的組間差異具有顯著統(tǒng)計(jì)學(xué)意義(P<0.05)。進(jìn)一步經(jīng)過(guò)LASSO算法特征選擇后,共有12.48±2.91個(gè)特征被保留;若使用三聯(lián)法進(jìn)行特征選擇,共有29.74±0.05個(gè)特征被保留。
在最優(yōu)模型參數(shù)確定后,使用全部訓(xùn)練集樣本再次進(jìn)行特征選擇,共820個(gè)特征的組間差異具有顯著統(tǒng)計(jì)學(xué)意義(P<0.05),經(jīng)LASSO算法最終保留17個(gè)特征(圖1)。被保留的特征包括1個(gè)GLDM特征,4個(gè)LoG特征和12個(gè)小波特征;經(jīng)三聯(lián)法特征選擇后保留30個(gè)特征,包括1個(gè)一階統(tǒng)計(jì)學(xué)特征,1個(gè)GLCM特征,1個(gè)GLDM特征,1個(gè)GLSZM特征,7個(gè)LoG特征和19個(gè)小波特征。圖2顯示了利用LASSO算法選擇的特征。對(duì)驗(yàn)證集樣本進(jìn)行無(wú)監(jiān)督聚類分析,結(jié)果顯示所建立的分類模型對(duì)良惡性肺結(jié)節(jié)的聚類正確率為0.686,敏感度為0.640,特異度為0.679,PPV為0.696,NPV為0.679。表明選擇的特征在兩組間具有一定的分類能力。
2.模型評(píng)估
在LIDC-IDRI數(shù)據(jù)庫(kù)(訓(xùn)練集)中進(jìn)行100次10折交叉檢驗(yàn)后,對(duì)結(jié)果進(jìn)行平均。在使用LASSO算法選擇特征的情況下,得到的AUC為0.892,符合率為0.859,敏感度為0.788,特異度為0.876,PPV為0.492,NPV為0.964;在使用三聯(lián)法選擇特征的情況下,得到的AUC為0.888,符合率為0.863,敏感度為0.759,特異度為0.879,PPV為0.491,NPV為0.959。
基于完整訓(xùn)練集建立的模型,在LUNGx數(shù)據(jù)庫(kù)(驗(yàn)證集)上驗(yàn)證時(shí),在使用LASSO特征選擇算法的情況下,AUC為0.765,符合率為0.745,敏感度為0.800,特異度為0.700,PPV為0.689,NPV為0.808;在使用三聯(lián)法特征選擇的情況下,AUC為0.737,符合率為0.636,敏感度為0.84,特異度為0.467,PPV為0.568,NPV為0.778。
圖1 通過(guò)交叉驗(yàn)證法選擇LASSO算法的最佳調(diào)整參數(shù)λ。a)交叉驗(yàn)證的二項(xiàng)誤差隨logλ的變化曲線,標(biāo)注為min和1SE的虛線分別代表令二項(xiàng)誤差最小和在最小值的一個(gè)標(biāo)準(zhǔn)差(SE)范圍內(nèi)使模型最簡(jiǎn)的logλ值及其對(duì)應(yīng)的特征數(shù)量(圖上方數(shù)字);b)經(jīng)LASSO算法保留的特征數(shù)量(圖上方數(shù)字)及對(duì)應(yīng)的特征系數(shù)隨L1范數(shù)的變化。 圖2 對(duì)LASSO算法選擇的特征在驗(yàn)證集中使用無(wú)監(jiān)督聚類算法的熱圖,每一列代表一個(gè)結(jié)節(jié),每一行代表一個(gè)特征,顏色代表了該特征在該樣本上的取值大小,熱圖最上方一行的藍(lán)色與紅色分別代表該樣本實(shí)際為良性或惡性。 圖3 基于LIDC-IDRI數(shù)據(jù)庫(kù)采用LASSO特征選擇算法所構(gòu)建的最終肺結(jié)節(jié)分類模型在LUNGx數(shù)據(jù)庫(kù)上的分類性能。a)ROC曲線,曲線下面積為0.765;b)混淆矩陣。
根據(jù)以上結(jié)果,認(rèn)為使用LASSO特征選擇算法產(chǎn)生的模型為最優(yōu)模型,模型的參數(shù)及其系數(shù)見(jiàn)表1,其ROC曲線及對(duì)應(yīng)的混淆矩陣見(jiàn)圖3,對(duì)于部分肺結(jié)節(jié)的診斷結(jié)果示例如圖4。
表1 肺結(jié)節(jié)分類模型中各項(xiàng)紋理特征的系數(shù)
我們使用LIDC-IDRI數(shù)據(jù)庫(kù)的肺結(jié)節(jié)數(shù)據(jù),基于影像組學(xué)信息構(gòu)建了一個(gè)肺結(jié)節(jié)良惡性分類器,并在LUNGx獨(dú)立數(shù)據(jù)庫(kù)上進(jìn)行了驗(yàn)證。結(jié)果表明,通過(guò)高通量地提取CT圖像的影像組學(xué)信息,影像組學(xué)方法可以作為一種無(wú)創(chuàng)性工具來(lái)獲取肺結(jié)節(jié)的內(nèi)部紋理特性,輔助肺結(jié)節(jié)的診斷。
LIDC-IDRI數(shù)據(jù)庫(kù)是一個(gè)數(shù)據(jù)量龐大的多中心肺結(jié)節(jié)公開(kāi)數(shù)據(jù)集,帶有經(jīng)驗(yàn)豐富的放射科醫(yī)師對(duì)圖像的注釋,有效促進(jìn)了肺結(jié)節(jié)檢測(cè)和分類方法的發(fā)展。該數(shù)據(jù)庫(kù)被許多研究廣泛使用,并已驗(yàn)證了其數(shù)據(jù)的可靠性[16,17,22]。同時(shí),使用統(tǒng)一的數(shù)據(jù)集有助于各種CAD模型之間的比較,提升了模型的可信度。但在使用單一數(shù)據(jù)來(lái)源的情況下,模型依舊可能存在過(guò)擬合(即使該數(shù)據(jù)庫(kù)本身是多中心的),導(dǎo)致產(chǎn)生過(guò)高的性能表現(xiàn)而不能被正確評(píng)估。因此,有必要利用不同來(lái)源的獨(dú)立外部驗(yàn)證集對(duì)機(jī)器學(xué)習(xí)模型的泛化性能進(jìn)行測(cè)試。LUNGx數(shù)據(jù)庫(kù)是2015年SPIE醫(yī)學(xué)影像會(huì)議對(duì)良惡性肺結(jié)節(jié)診斷挑戰(zhàn)使用的數(shù)據(jù)集,可用來(lái)驗(yàn)證模型泛化性能。
Balagurunathan等[23]發(fā)現(xiàn),基于非形態(tài)學(xué)特征的影像組學(xué)紋理特征在預(yù)測(cè)肺結(jié)節(jié)癌癥狀態(tài)時(shí)表現(xiàn)出了更好的辨別能力,其AUC為0.83。有研究利用11個(gè)影像組學(xué)特征構(gòu)建的分類器的敏感度為0.922,特異度為0.810,驗(yàn)證了影像組學(xué)對(duì)肺部實(shí)性小結(jié)節(jié)的診斷效能[24]。也有研究者利用LIDC-IDRI數(shù)據(jù)庫(kù)中593例結(jié)節(jié)所構(gòu)建的影像組學(xué)分類模型,判別肺結(jié)節(jié)良、惡性的符合率為0.761,敏感度為0.746,特異度為0.789[16]。此外,Choi等[17]利用LIDC-IDRI數(shù)據(jù)庫(kù)中的72例肺結(jié)節(jié)構(gòu)建的影像組學(xué)良惡性分類模型符合率為0.846,AUC為0.89,且效能優(yōu)于傳統(tǒng)的肺影像報(bào)告和數(shù)據(jù)系統(tǒng)(lung imaging reporting and data system,Lung-RADS)分級(jí)方法。這些研究證明了影像組學(xué)在肺結(jié)節(jié)良惡性上的分類性能,但均未采取獨(dú)立驗(yàn)證集,不能驗(yàn)證影像組學(xué)模型的泛化性能。
圖4 基于LIDC-IDRI數(shù)據(jù)庫(kù)采用LASSO特征選擇算法所構(gòu)建的肺結(jié)節(jié)分類模型在LUNGx數(shù)據(jù)庫(kù)中的診斷結(jié)果。a)誤診為良性的惡性肺結(jié)節(jié);b)正確診斷的惡性肺結(jié)節(jié);c)正確診斷的良性肺結(jié)節(jié);d)誤診為惡性的良性肺結(jié)節(jié)。
本研究中使用LIDC-IDRI數(shù)據(jù)庫(kù)的1372例肺結(jié)節(jié)的影像資料建立的最佳影像組學(xué)分類器(即使用LASSO算法進(jìn)行特征選擇所構(gòu)建的分類器)在LIDC-IDRI數(shù)據(jù)庫(kù)內(nèi)部驗(yàn)證時(shí)的AUC為0.892,符合率為0.859,敏感度為0.788,特異度為0.876,性能與之前的研究相類似。而利用LIDC-IDRI數(shù)據(jù)庫(kù)構(gòu)建的分類器在獨(dú)立驗(yàn)證集LUNGx數(shù)據(jù)庫(kù)上得到的符合率為0.745,敏感度為0.800,特異度為0.700,雖然性能相較于在LIDC-IDRI數(shù)據(jù)庫(kù)內(nèi)部驗(yàn)證時(shí)有一定的下降,但表現(xiàn)依舊良好,表明影像組學(xué)方法在LIDC-IDRI數(shù)據(jù)庫(kù)上建立的分類模型具有一定的泛化性能。同時(shí),利用LASSO算法和三聯(lián)法作為特征選擇算法構(gòu)建的分類器均有較強(qiáng)的分類能力,表明了影像組學(xué)特征的可靠性和穩(wěn)定性。這提示我們影像組學(xué)方法在肺結(jié)節(jié)良惡性分類上具有一定的判別能力,可進(jìn)一步探索將其應(yīng)用于臨床輔助診斷。
本研究存在一定的局限性:①為回顧性研究,后續(xù)研究需前瞻性搜集病例的數(shù)據(jù)以進(jìn)一步驗(yàn)證結(jié)果;②未考慮臨床常見(jiàn)的影像學(xué)征象的分類價(jià)值,后續(xù)研究可考慮結(jié)合影像組學(xué)方法和臨床影像學(xué)征象,以觀察其能否進(jìn)一步提升模型的診斷性能。③本研究中為手動(dòng)勾畫(huà)結(jié)節(jié)邊緣,后續(xù)研究中考慮使用自動(dòng)化算法來(lái)降低個(gè)人經(jīng)驗(yàn)對(duì)于影像組學(xué)特征提取的影響。
綜上所述,CT影像組學(xué)紋理特征在肺結(jié)節(jié)良惡性分型上有一定的應(yīng)用價(jià)值和泛化能力,是一種可輔助臨床診斷的定量分析方法。