周天綺,朱超挺,石峰
浙江醫(yī)藥高等??茖W(xué)校,寧波市,315100
據(jù)國家癌癥中心統(tǒng)計,我國肺癌發(fā)病人數(shù)和死亡人數(shù)已連續(xù)10年位居惡性腫瘤之首,每年新發(fā)肺癌約78.7萬人,因肺癌死亡約63.1萬人[1]。中國抗癌協(xié)會科普宣傳部部長支修益表示,很多的肺癌患者都不是早期肺癌患者,所以才導(dǎo)致目前肺癌患者的高死亡率。
經(jīng)過五十年的努力,肺癌的五年生存期并沒有得到明顯的提高。究其原因,一是常規(guī)影像PET、CT、MRI、超聲無法診斷5 mm以下腫瘤,缺乏早期診斷手段;二是腫瘤異質(zhì)性不確定性高,缺乏定量評估方法。
盡管已經(jīng)得到大量腫瘤基因數(shù)據(jù),但癌癥仍然無法被治愈。腫瘤基因組的時空異質(zhì)性限制了靶向治療的效果,缺乏有效的手段去全面定量評估腫瘤異質(zhì)性。影像組學(xué)(Radiomics)利用海量影像(結(jié)構(gòu)影像、功能影像、分子影像)和基因病理信息來量化腫瘤微環(huán)境,早期定量評價腫瘤異質(zhì)性,實現(xiàn)精準(zhǔn)診療決策,延長病人生存期。
影像組學(xué)利用大數(shù)據(jù)挖掘技術(shù)從影像、基因、臨床等信息中提取海量特征來量化腫瘤等重大疾病[2]。通過預(yù)測算法幫助臨床醫(yī)生制定科學(xué)的診療決策,如腫瘤分型、腫瘤分期、生存期預(yù)測及診療方案優(yōu)化等,提高疾病早診率和病人生存期。美國莫菲特癌癥中心針對影像數(shù)據(jù)挖掘不足,肺癌患者預(yù)后難以定量評估的問題,在1 000余例病理、影像數(shù)據(jù)完整的肺癌患者數(shù)據(jù)中提取強(qiáng)度、形狀紋理、小波等特征建立標(biāo)簽,進(jìn)行智能分析,結(jié)果表明影像組學(xué)標(biāo)簽具有顯著的預(yù)后價值,并與基因顯著相關(guān)。中國科學(xué)院分子影像重點實驗室基于4 000例信息完善肺癌數(shù)據(jù)研發(fā)的肺癌影像組學(xué)預(yù)測軟件,可以進(jìn)行肺癌的良惡性、生存期、TNM分期等預(yù)測,以及最優(yōu)診療方案建議,可實現(xiàn)腫瘤的自動分割和592個特征的提取,已在國內(nèi)20余家三甲醫(yī)院進(jìn)行試點檢測,臨床預(yù)測精度達(dá)80%以上。
可見,影像組學(xué)能無創(chuàng)地鑒別肺腫瘤的良惡性、療效及預(yù)后評估等,實現(xiàn)早發(fā)現(xiàn)、早診斷、早治療,幫助醫(yī)生進(jìn)行臨床輔助診斷。本研究介紹影像組學(xué)的基本概念及其在肺腫瘤良惡性分類預(yù)測中的應(yīng)用。
影像組學(xué)最早由荷蘭學(xué)者Lambin等在2012年提出。其是指高通量地從MRI、PET、CT影像中提取大量高維的定量影像特征,實現(xiàn)腫瘤分割、特征提取與模型建立,憑借對海量影像數(shù)據(jù)信息進(jìn)行更深層次的挖掘、預(yù)測和分析來輔助醫(yī)生做出最準(zhǔn)確的診斷[2]。醫(yī)生需要醫(yī)學(xué)有用的特征信息來診斷疾病處于哪一個層次,影像組學(xué)便可將影像轉(zhuǎn)換為可挖掘的特征數(shù)據(jù)。
影像組學(xué)的數(shù)據(jù)范圍在獲取、存儲、管理和分析等方面都大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍。具有大數(shù)據(jù)的“4V”特征:①Volume:海量的數(shù)據(jù)規(guī)模;②Velocity:快速的數(shù)據(jù)流轉(zhuǎn);③Variety:多樣的數(shù)據(jù)類型;④Value:價值大,價值密度低。影像組學(xué)利用大數(shù)據(jù)挖掘技術(shù)定量腫瘤異質(zhì)性,實現(xiàn)精準(zhǔn)診療決策,延長患者的生存期[3]。
影像組學(xué)處理的一般流程包括:影像數(shù)據(jù)采集、圖像分割、特征提取和特征降維、模型構(gòu)建等步驟。
(1)影像數(shù)據(jù)采集
現(xiàn)代醫(yī)院影像設(shè)備包括CT、MRI、PET等。影像組學(xué)的入組數(shù)據(jù)需要具有相同或相似的采集參數(shù),保證數(shù)據(jù)不會受到機(jī)型、參數(shù)的影響[2]。如,NSCLC腫瘤中,影像組學(xué)特征的可變性與不同CT掃描的圖像有關(guān)。應(yīng)考慮影像掃描的差異性對腫瘤異質(zhì)性分析所造成的影響。因此,為保證入組數(shù)據(jù)的一致性需制定好入組標(biāo)準(zhǔn)和規(guī)范。另外,在結(jié)構(gòu)或功能影像以外還應(yīng)采集必要的臨床病歷信息或基因、病理數(shù)據(jù),以提高診斷的準(zhǔn)確性[4]。
(2)圖像分割
影像組學(xué)研究需先對病變腫瘤區(qū)域精準(zhǔn)定位。通過將圖像分割為感興趣區(qū)域(Region of Interest,ROI),使腫瘤區(qū)域和其他組織分離,用以標(biāo)定腫瘤區(qū)域。分割方法包括:人工手動分割、半自動分割和自動分割。手動分割被視為病灶分割的金標(biāo)準(zhǔn),由專業(yè)的影像醫(yī)生來勾畫,精度最高,但臨床腫瘤影像數(shù)據(jù)量龐大,手工勾畫腫瘤邊緣費時費力且主觀性較強(qiáng)。針對影像組學(xué)的大數(shù)據(jù)集,可采用基于區(qū)域生長的半自動分割法或基于雪橇自動生長分割法(Toboggan Based Growing Automatic Segmentation Approach,TBGA)的自動圖像分割。具體選用哪種方法進(jìn)行分割應(yīng)結(jié)合具體情況合理選擇。
(3)特征提取和特征降維
高通量影像學(xué)特征用于定量描述分割完成后的ROI的屬性。特征提取是通過變換的方法用低維空間表示高維度特征數(shù)據(jù)。在ROI分割完成后,就可以對其進(jìn)行特征提取。目前常用的四大類高通量影像學(xué)特征包括:強(qiáng)度、形狀、紋理、小波。為提高分類和預(yù)測的精確度,應(yīng)將計算機(jī)定量特征、經(jīng)驗特征、文本信息、基因信息和病理信息相結(jié)合,全面量化腫瘤異質(zhì)性,如表1所示。
表1 特征提取Tab.1 Features extraction
由表1可以看出,高維度特征包含海量信息且冗余性大,需特征降維以減少特征的數(shù)量,找到少數(shù)真正關(guān)鍵的特征。可以采用機(jī)器學(xué)習(xí)或者統(tǒng)計學(xué)方法來實現(xiàn),如通過最大相關(guān)最小冗余(Maximum Relevance and Minimum Redundancy,mRMR)或主成分分析法(Principal Component Analysis,PCA)進(jìn)行特征降維[5]。
(4)模型構(gòu)建
針對具體臨床問題,建立計算機(jī)定量影像特征與臨床研究問題標(biāo)簽之間的分類模型。從影像大數(shù)據(jù)原始像素出發(fā),提取高維手工設(shè)計特征并進(jìn)行特征選擇,或自主挖掘與臨床問題相關(guān)的影像組學(xué)特征,構(gòu)建影像特征與臨床問題的分類模型。常用模型有支持向量機(jī)(Support Vector Machine,SVM)模型、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks segmentation)模型等。
肺腫瘤良惡性的輔助判斷是影像組學(xué)目前應(yīng)用較多的臨床實踐之一。本實驗針對肺癌患者CT影像的樣本數(shù)據(jù),提取和優(yōu)化特征空間,將優(yōu)化后的特征空間數(shù)據(jù)作為SVM的輸入,創(chuàng)建肺部腫瘤良惡性分類預(yù)測模型,預(yù)測患者患癌的可能性。并驗證SVM分類器模型對不同結(jié)節(jié)大小良惡性預(yù)測的準(zhǔn)確性。
本次實驗的數(shù)據(jù)樣本選自公開數(shù)據(jù)集LIDCIDRI上的816例患者的CT影像數(shù)據(jù)。包括惡性腫瘤451例,良性腫瘤365例。切片厚度均小于3 mm,圖像大小為512×512×400像素。
為使不同切片厚度的CT圖像能夠應(yīng)用于同一模型中,需對數(shù)據(jù)集進(jìn)行歸一化處理。首先,對CT圖像進(jìn)行縮放,每一像素大小調(diào)整為1 mm3的體積大??;然后,將CT圖像的像素強(qiáng)度轉(zhuǎn)換為HU值,并將HU值(-1 000~400)線性變換為0~255;同時確保所有CT圖像都具有相同的方向;最后,對CT圖像進(jìn)行粗略肺部分割,消除與肺部的不相交區(qū)域,如圖1所示。
圖1 肺部分割Fig.1 Partial pulmonary segmentation
為滿足基于大數(shù)據(jù)的影像組學(xué)分析,需采用高效的圖像分割算法實現(xiàn)自動、可重復(fù)、精準(zhǔn)的分割。先由經(jīng)驗豐富的放射科醫(yī)生標(biāo)記1 200個肺結(jié)節(jié),用于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。從整體CT圖像中的結(jié)節(jié)標(biāo)記周圍裁剪出小型3D圖像塊,將這些更小的3D圖像塊與結(jié)節(jié)標(biāo)記直接對應(yīng),然后通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來檢測肺結(jié)節(jié)。
本實驗采用中科院田捷項目組提出的中心池化卷積神經(jīng)網(wǎng)絡(luò)分割方法。中心池化運算保留關(guān)鍵特征、雙分支網(wǎng)絡(luò)融合2D和3D信息、多尺度輸入提取多尺度特征,對組織粘連和空腔等多種肺結(jié)節(jié)分割精度較高,如圖2所示。
肺癌七大典型的影像學(xué)特征:分葉征、毛刺征、胸膜凹陷征、空泡征、細(xì)支管充氣征、空洞、血管聚集征等都是臨床診斷經(jīng)驗化的信息[6],并沒有量化成為確切診斷的標(biāo)準(zhǔn)。本實驗采用影像組學(xué)特征提取包Pyradiomics,從CT圖像的結(jié)節(jié)中提取97維定量圖像特征,包括灰度共生矩陣特征、一階統(tǒng)計特征、灰度級區(qū)域矩陣特征等。
然后,采用FSelector 特征篩選模型進(jìn)行特征降維。FSelector由以下五個函數(shù)構(gòu)成:①identify_missing;②identify_collinear;③identify_zero_importance;④identify_low_importance;⑤identify_single_unique。這5個函數(shù)分別用于刪除特征集中高missing-values百分比的特征、高相關(guān)性的特征、無貢獻(xiàn)的特征、低貢獻(xiàn)的特征和單值特征。
圖2 組織粘連和空腔等肺結(jié)節(jié)分割Fig.2 Segmentation of pulmonary nodules such as tissue adhesion and cavity
采用統(tǒng)計學(xué)中的皮爾森(Pearson)相關(guān)系數(shù)計算特征的權(quán)重并排序。按權(quán)重降序選擇多個特征構(gòu)建優(yōu)化特征空間?;谄柹嚓P(guān)系數(shù)計算得到的特征權(quán)重(前20個特征),如圖3所示。權(quán)重排在前5的特征分別是:最大2D直徑尺寸、延伸度、球度、平整度、表面體積比。
Vapnik提出的支持向量機(jī)(SVM)是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題[7]。近年來SVM方法已經(jīng)在圖像識別、信號處理和基因圖譜識別等方面得到了成功的應(yīng)用,顯示了它的優(yōu)勢[8]。
圖3 基于皮爾森相關(guān)系數(shù)計算得到的特征權(quán)重Fig.3 Characteristic weight based on pearson coefficient
訓(xùn)練集含516例患者的CT影像數(shù)據(jù),包括258例惡性腫瘤,258例良性腫瘤;測試集含300例CT影像數(shù)據(jù),包括惡性腫瘤189例,良性腫瘤111例。為了確定優(yōu)化特征空間的特征數(shù)量,計算SVM模型在不同特征數(shù)量下的可靠性,如圖4所示。從圖中可看出,當(dāng)權(quán)重較大的前20個特征作為SVM模型的輸入時,模型的可靠性最高。
圖4 SVM模型的可靠性計算Fig.4 Reliability calculation of SVM model
由權(quán)重較大的20個特征組成優(yōu)化特征空間,將訓(xùn)練集的優(yōu)化特征空間作為SVM分類器的輸入,訓(xùn)練腫瘤良惡分類預(yù)測模型,通過學(xué)習(xí)肺癌的這些特征,實現(xiàn)對肺腫瘤良惡性的有效判別。
k折交叉驗證一般用來驗證機(jī)器學(xué)習(xí)中分類算法的準(zhǔn)確性[9]。本實驗采用十折交叉驗證。將樣本數(shù)據(jù)隨機(jī)分成10份,輪流將其中9份作為訓(xùn)練集,剩余一份作為測試集,10次結(jié)果的均值作為分類算法的預(yù)測準(zhǔn)確率。
肺結(jié)節(jié)的大小與其良惡性有一定的相關(guān)性,一般結(jié)節(jié)越大,惡性的可能性越高[10]。為驗證SVM模型對不同結(jié)節(jié)大小良惡性分類預(yù)測的準(zhǔn)確性,本實驗按照肺部結(jié)節(jié)的大小分別將樣本中的肺結(jié)節(jié)(直徑小于30 mm)、小結(jié)節(jié)(直徑小于20 mm)、微小結(jié)節(jié)(直徑小于5 mm)的CT影像數(shù)據(jù)輸入SVM分類器,對肺結(jié)節(jié)、小結(jié)節(jié)、微小結(jié)節(jié)的良惡性進(jìn)行分類,并計算其預(yù)測準(zhǔn)確率,如表2所示。
表2 不同結(jié)節(jié)大小的分類預(yù)測準(zhǔn)確率(%)Tab.2 Classification and prediction accuracy of different nodule sizes
繪制基于肺結(jié)節(jié)和小結(jié)節(jié)良惡性分類預(yù)測的接收器工作特征曲線(Receiver Operating Characteristics,ROC),如圖5所示。然后通過計算曲線下面積(Area under the Curve,AUC)以評價SVM分類器模型的好壞。
圖5 結(jié)節(jié)良惡性分類預(yù)測的ROC 曲線Fig.5 ROC curve for classification and prediction of benign and malignant nodules
本實驗中SVM分類器模型針對肺結(jié)節(jié)、小結(jié)節(jié)良惡性分類的預(yù)測準(zhǔn)確率分別為83.7%、80.4%、AUC的值分別為0.824、0.792,表明SVM分類器可以準(zhǔn)確地預(yù)測直徑大于5 mm的結(jié)節(jié)的良惡性,可輔助臨床醫(yī)生進(jìn)行診斷。
本實驗構(gòu)建的SVM分類器模型應(yīng)用于肺腫瘤良惡性的定量預(yù)判,以輔助臨床醫(yī)生進(jìn)行診斷。本實驗中也存在一些不足,如樣本數(shù)較少,應(yīng)通過努力擴(kuò)大樣本數(shù)量;訓(xùn)練集中的ROI手動分割主觀強(qiáng),可結(jié)合多個醫(yī)生手動分割的ROI進(jìn)行分析。隨著深度學(xué)習(xí)在影像學(xué)領(lǐng)域研究的不斷深入,基于深度學(xué)習(xí)的預(yù)測分析方法將是未來的發(fā)展方向。