黃志成,葉釘利,胡喬治,鄭 君,趙瑞坤
(吉林省腫瘤醫(yī)院放射科,吉林 長春 130021)
肺癌是臨床常見呼吸系統(tǒng)惡性腫瘤[1],多起源于肺上皮細胞[2],按照組織病理學分型可分為小細胞肺癌(small cell lung cancer, SCLC)和非小細胞肺癌(non-small cell lung cancer, NSCLC)。SCLC約占肺癌總數(shù)的15%[3],是最具侵襲性的肺癌亞型,生長迅速、較早轉(zhuǎn)移、易復發(fā)、預后差,患者5年生存率不足7%[4],臨床治療常以化學治療(簡稱化療)為主[5]。NSCLC約占肺癌總數(shù)的85%,與SCLC相比,生長相對緩慢,擴散、轉(zhuǎn)移亦相對較晚;手術(shù)是對早期NSCLC的最優(yōu)干預方式[6]。準確鑒別SCLC與NSCLC有助于臨床合理制定治療方案。影像組學借助計算機軟件,采用特征提取方法從醫(yī)學影像數(shù)據(jù)中挖掘多維度定量特征,并以統(tǒng)計學和機器學習方法篩選最有價值的紋理特征用以訓練機器學習模型,以此鑒別診斷疾病[7]。本研究觀察基于CT的影像組學模型鑒別診斷SCLC與NSCLC的價值。
1.1 一般資料 回顧性分析2018年2月—2020年2月1 524例于吉林省腫瘤醫(yī)院接受手術(shù)治療(穿刺活檢術(shù)、胸腔鏡手術(shù)或開胸手術(shù))的肺癌患者,男681例,女843例,年齡28~88歲,平均(62.2±9.7)歲。納入標準:①術(shù)前接受胸部CT平掃檢查;②經(jīng)活檢病理或術(shù)后病理確診為NSCLC或SCLC;③病灶長徑1~5 cm。排除標準:①其他系統(tǒng)惡性腫瘤;②CT圖像有明顯金屬或運動偽影。
1 524例中,SCLC患者526例(SCLC組),男243例,女283例,年齡32~85歲,平均(62.6±9.4)歲;NSCLC患者998例(NSCLC組),男438例,女560例,年齡28~88歲,平均(62.1±9.9)歲,其中肺腺癌498例、肺鱗癌500例。
1.2 儀器與方法 采用GE Lightspeed 16排CT機。囑患者仰臥,頭先進,雙臂上舉,深吸氣后屏氣接受肺部掃描。掃描參數(shù):層厚5 mm、層間距5 mm、管電壓120 kV、管電流215 mA、轉(zhuǎn)速27.5 mm/rot、螺距1.375∶1,重建矩陣512×512。
1.3 提取影像組學特征與機器學習 由2名具有3年以上胸部CT診斷經(jīng)驗的主治醫(yī)師在不知曉患者信息和臨床資料的情況下閱片,意見不一致時,由1名從業(yè)20年以上的影像科副主任醫(yī)師進行最終判斷。于縱隔窗區(qū)分腫瘤、壞死及空洞區(qū)域,以肺窗圖像進一步確定腫瘤邊界;肺內(nèi)存在多個病灶時,選取穿刺活檢或手術(shù)切除病灶作為分析目標。采用MaZda(Version 4.6)軟件在病灶最大層面圖像中沿腫瘤邊緣手動勾畫ROI(圖1),避開壞死和空洞區(qū)域,邊界不清或遇淋巴結(jié)融合等情況時通過CT值確定病灶邊界。提取病灶紋理特征參數(shù),采用Z-Score標準化算法對數(shù)據(jù)進行標準化處理。而后對影像組學特征行Correlation相關(guān)性分析,截斷值設(shè)定為0.7,根據(jù)自變量與自變量的相關(guān)系數(shù)r進行篩選,如多個自變量的r均>0.7,則保留1個自變量,以剔除冗余數(shù)據(jù)并保留特征值差異明顯的組學特征。在此基礎(chǔ)上以最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)算法[8]進一步處理(圖2),篩選出最佳影像組學特征,用以構(gòu)建預測模型。
圖1 患者男,67歲,肺鱗癌 A.病灶最大層面縱隔窗CT圖像; B.根據(jù)CT值將病灶分為腫瘤區(qū)域(紅色)、壞死區(qū)域(藍色)和空洞區(qū)域(黑色); C.縱隔窗CT圖像示ROI; D.肺窗CT圖像示ROI (箭示ROI)
圖2 Correlation模型、LASSO模型在訓練集和驗證集中的熱圖 A.Correlation模型在訓練集中的熱圖; B.Correlation模型在驗證集中的熱圖; C.LASSO模型在訓練集中的熱圖; D.LASSO模型在驗證集中的熱圖
以7∶3比例將數(shù)據(jù)分為訓練集和驗證集。在模型訓練階段分別采用7種機器學習模型對數(shù)據(jù)進行處理,包括Logistic回歸、隨機森林(random forest, RF)、貝葉斯算法(Naive Bayes, NB)、決策樹(decision tree, DT)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、鄰近算法(K-nearest neighbor, KNN)和支持向量機(support vector machine, SVM)模型;以驗證集測試結(jié)果作為機器學習分類器的性能指標,根據(jù)準確率選擇最佳分類器模型。
1.4 統(tǒng)計學分析 采用SPSS 25.0統(tǒng)計分析軟件。計量資料以±s表示,計數(shù)資料以頻數(shù)表示。采用χ2檢驗比較組間患者性別差異,以獨立樣本t檢驗比較組間年齡差異。P<0.05為差異有統(tǒng)計學意義。
SCLC組與NSCLC組患者性別(χ2=0.74、P=0.39)、年齡(t=0.97,P=0.33)差異均無統(tǒng)計學意義。對每個病灶提取306個紋理特征參數(shù),最終篩選出20個組間差異明顯的影像組學特征(表1),并以之構(gòu)建預測模型。
表1 用于構(gòu)建機器學習模型的20個影像組學特征
模型訓練結(jié)果顯示,KNN模型鑒別診斷SCLC與NSCLC的準確率最高(圖3),為最佳分類器模型;其在訓練集的AUC為0.88、準確率81.34%、特異度97.00%、敏感度51.63%,在驗證集的AUC為0.82、準確率78.82%、特異度95.00%、敏感度48.10%,見圖4。
圖3 各分類器模型對驗證集的分類準確率 圖4 KNN模型預測病理分型的ROC曲線 A.訓練集; B.驗證集
根據(jù)2015版WHO肺癌組織學分類標準[9],肺癌分為9種類型, SCLC為發(fā)病早、生長快、易轉(zhuǎn)移、預后差的一種特殊類型肺癌,明顯區(qū)別于其他類型。對于SCLC,手術(shù)治療和局部放射治療難以發(fā)揮關(guān)鍵性作用,細胞毒性化療為主要治療方法;對NSCLC則以手術(shù)聯(lián)合全身化療和/或局部放療為主要干預方式。治療前準確區(qū)分SCLC與NSCLC,有助于臨床醫(yī)師制定更有效的干預措施,以達到最佳治療效果。
既往研究[10]報道,SCLC與NSCLC的平掃CT影像學表現(xiàn)存在重疊,而能譜CT對二者的鑒別價值亦有限[11],導致單純依據(jù)CT圖像很難準確預測SCLC與NSCLC。影像組學可無創(chuàng)預測病灶組織學分類,為臨床決策提供依據(jù)。CHEN等[12]對69例肺癌的CT平掃圖像進行影像組學分析,結(jié)果顯示基于CT平掃圖像的影像組學模型可有效鑒別SCLC與NSCLC。梁偉等[13]分析131例肺癌的CT平掃圖像,發(fā)現(xiàn)基于CT平掃圖像的影像組學模型對SCLC與NSCLC有較好的鑒別能力。徐圓等[14]基于100例肺癌的CT增強圖像建立的影像組學模型可有效鑒別SCLC與NSCLC。郭炎兵等[15]分析145例肺癌的MR T2WI,并建立基于T2WI的影像組學模型,其鑒別SCLC與NSCLC的效能亦較高。
本研究在上述研究基礎(chǔ)上擴大樣本量,并進一步擴展機器學習模型范圍,基于1 524例肺癌的CT平掃圖像,通過提取特征的方式對每個病灶獲得量化后的306個紋理特征,再以相關(guān)性分析和LASSO算法篩選出SCLC與NSCLC組間差異最明顯的20個影像組學特征用于機器學習模型訓練。在模型訓練階段采用7種機器學習模型,以盡可能多地納入目前常用機器學習分類算法,結(jié)果顯示KNN模型的準確率最高,其在驗證組的AUC和準確率分別為0.82和78.82%。
KNN是數(shù)據(jù)挖掘分類算法之一,主要依靠待定樣本周圍有限的鄰近確定樣本,而非依靠判別類域的方法來確定所屬類別,故對類域交叉或重疊較多的待定樣本集而言較其他方法更具優(yōu)勢。本研究中SCLC和NSCLC數(shù)據(jù)集在類域方面存在較多交叉重疊,這可能是KNN算法診斷效能優(yōu)于其他診斷模型的原因。但KNN算法亦存在不足,當樣本數(shù)量不平衡時,輸入一個新樣本可使該樣本的K個鄰近確定樣本中的大容量類樣本占據(jù)多數(shù),導致判斷結(jié)果出現(xiàn)偏差。本研究中SCLC與NSCLC的樣本數(shù)量不平衡,NSCLC樣本居多,可能導致KNN算法預測新的SCLC樣本時因鄰近K個樣本中NSCLC數(shù)量占多數(shù)而誤判為NSCLC,此點可能是KNN模型在訓練集和驗證集中敏感度均不夠高的主要原因。
本研究的局限性:①為回顧性分析,選取樣本均為術(shù)后病例,可能存在選擇性偏倚;②系單中心研究,可能導致結(jié)果缺乏拓展性;③未納入年齡和性別之外的其他臨床信息和影像學征象,有待完善。
綜上所述,基于CT影像組學結(jié)合機器學習算法建立的診斷模型能鑒別SCLC與NSCLC,以KNN模型的效能更優(yōu)。