朱潔,沈浮,袁淵,王敏杰,白辰光,王顥,邵成偉
由于早診斷早治療的防治策略在醫(yī)療實踐中的逐步推進(jìn)以及結(jié)直腸癌治療方案的不斷進(jìn)步,發(fā)達(dá)國家結(jié)直腸癌的發(fā)病率和死亡率不斷下降。在中國,結(jié)直腸癌的發(fā)病率相對平穩(wěn),但是死亡率有所增長[1-2],多數(shù)患者在首診時已是局部進(jìn)展期;就發(fā)病部位而言,我國病例近半數(shù)發(fā)生于直腸[1]。根據(jù)美國國家綜合癌癥網(wǎng)絡(luò)(National Comprehensive Cancer Network,NCCN)指南,局部進(jìn)展期直腸癌(locally advanced rectal cancer,LARC)術(shù)前推薦行新輔助放化療(neoadjuvant chemoradiotherapy,nCRT),達(dá)到術(shù)前降期的目的,甚至部分患者可以達(dá)到病理完全反應(yīng)(pathologic complete response,pCR)[3-5]。然而pCR目前只能通過術(shù)后病理確認(rèn),尚無可靠的術(shù)前無創(chuàng)方式能對其進(jìn)行準(zhǔn)確的判斷。MRI對直腸癌的評估主要依賴于主觀形態(tài)學(xué)評估,無法定量分析深層次的臨床病理特征,因此尚不能進(jìn)行符合精準(zhǔn)醫(yī)療目標(biāo)的精準(zhǔn)評估。影像組學(xué)(radiomics)可以深度挖掘醫(yī)學(xué)圖像中人眼無法識別的大量影像數(shù)據(jù)特征,經(jīng)降維算法最終篩選出最有價值的特征,這些特征聯(lián)合機器學(xué)習(xí)(machine learning,ML)方法建立的診斷模型能明顯提高對病變的評估準(zhǔn)確性,可以很好地服務(wù)臨床[6],因此具有重要的臨床意義。
本研究在通過對nCRT結(jié)束后直腸癌患者的高分辨T2WI圖像上提取和篩選與pCR狀態(tài)相關(guān)的最有價值的影像組學(xué)特征,再建立機器學(xué)習(xí)診斷模型并進(jìn)行驗證,旨在探討影像組學(xué)結(jié)合ML方法對評估nCRT后直腸癌pCR狀態(tài)的價值。
回顧性分析2019年1月-2020年12月在本院確診且符合條件的99例LARC患者的臨床和影像資料。納入標(biāo)準(zhǔn):①經(jīng)腸鏡活檢病理證實為直腸腺癌;②單一病灶;③術(shù)前外科醫(yī)師參考影像檢查確定患者的臨床分期為T3/T4N0M0或TxN+M0;④根治性手術(shù)治療前接受完整療程的nCRT;⑤nCRT結(jié)束后5~12周行直腸MRI檢查;⑥有術(shù)后病理檢查結(jié)果。排除標(biāo)準(zhǔn):①MRI圖像質(zhì)量差,比如有嚴(yán)重圖像偽影;②nCRT后直腸MRI檢查與手術(shù)間隔時間(T)超過4周;③發(fā)現(xiàn)同期有遠(yuǎn)處轉(zhuǎn)移;④既往有其它盆腔腫瘤病史。
入組患者均行術(shù)前長程同步放化療方案,總劑量45~50 Gy,分25~28次并于5~5周半完成,同時給予化療藥物[靜滴5-氟脲嘧啶(5-fluorouracil,5-FU),1200 mg/m2/d或口服卡培他濱1000 mg/m2]。nCRT后5~12周行直腸MRI檢查及手術(shù)切除。根據(jù)臨床和手術(shù)病理結(jié)果確定患者的TNM分期,將ypT0N0M0(y表示新輔助治療后,p表示病理分期)患者納入pCR組,其余患者納入非pCR組。
使用Siemens Skyra 3.0T磁共振儀掃描和腹部相控陣線圈。所有患者在檢查前常規(guī)使用一支開塞露(20 mL甘油)以清潔腸道。直腸MRI檢查序列包括矢狀面T2WI及橫軸面T1WI、高分辨率T2WI、DWI及對比增強T1WI。高分辨率T2WI為斜橫軸面,掃描線垂直于腸管的長軸,掃描參數(shù):TR 4000 ms,TE 108 ms,視野18 cm×18 cm,回波鏈長度16,矩陣320×320,層厚3.0 mm,無間距掃描,層數(shù)28,翻轉(zhuǎn)角150°,帶寬108 Hz/pixel,無脂肪抑制,廣義自校準(zhǔn)并行采集(generalized auto calibrating partially parallel acquisition,GRAPPA)技術(shù),加速因子3,采集時間250 s。
將所有患者的原始DICOM數(shù)據(jù)導(dǎo)入影像組學(xué)大數(shù)據(jù)分析云平臺(慧影醫(yī)療科技有限公司)進(jìn)行后處理和數(shù)據(jù)分析。為了減少不同檢查之間MRI信號強度差異帶來的影響,我們對圖像的信號強度進(jìn)行歸一化處理,公式如下:
(1)
其中,x表示原始強度,f(x)代表歸一化強度,μ表示平均值,σ表示方差,S參數(shù)的默認(rèn)值為1。
所有病灶由兩位放射學(xué)醫(yī)師(分別有11年及5年腹部診斷經(jīng)驗)分別獨立手動勾畫感興趣區(qū)(region of interest,ROI),兩位醫(yī)師在勾畫ROI時對患者的臨床及病理結(jié)果不知情。ROI勾畫方法:在高分辨T2WI上逐層沿病灶的邊緣進(jìn)行勾畫,軟件即自動生成病灶的3維容積感興趣區(qū)(volume of interest,VOI)并提取影像組學(xué)特征(圖1)。
圖1 pCR組LCRC患者,女,56歲。a)新輔助治療后高分辨T2WI,示直腸左前壁原來腫瘤所在部位呈混雜信號(治療后改變),局部黏膜層可見低信號瘢痕和呈高信號黏液區(qū)(黃箭);b)沿病灶邊緣勾畫ROI (紅線);c)軟件自動生成的VOI;d)術(shù)后病理切片,光鏡下示黏膜下層及肌層有大片黏液湖形成,未見腫瘤細(xì)胞殘留(×100,HE)。
本研究中共提取了1409個組學(xué)特征(基于Python中的pyradiomics V3.0.1軟件包,https://pyradiomics.readthedocs.io/),這些特征可分為兩大類。一、基于特征類:①一階統(tǒng)計量特征(first order);②形狀特征(shape-based),包括二維和三維特征;③紋理特征(texture),包括灰度級共生矩陣(gray level cooccurrence matrix,GLCM)、灰度級長度矩陣(gray level run length matrix,GLRLM)、灰度級形狀矩陣(gray level size zone matrix,GLSZM)、灰度級依賴矩陣(gray level dependence Matrix,GLDM)和相鄰灰度差分矩陣(neighborhood gray-tone difference matrix,NGTDM)。二、基于過濾器類:是指經(jīng)過小波變換(wavelets)、對數(shù)(logarithm)、梯度(gradient)、平方根(squareroot)、指數(shù)(exponential)、梯度(gradient)和局部二進(jìn)制模式(local binary patterns,LBP)等方法處理得到的完全可重復(fù)的特征。
計算兩位醫(yī)師提取的組學(xué)特征的組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,ICC),基于高年資醫(yī)師的組學(xué)特征集,去除兩位醫(yī)師之間ICC小于0.8的組學(xué)特征。剩余的特征維數(shù)還是過高,直接進(jìn)行機器學(xué)習(xí)容易過擬合,采用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)算法進(jìn)行降維(L1正則化),選擇出對判斷pCR最有價值的特征??紤]到pCR組樣本量較小,與非pCR組數(shù)據(jù)分布不均衡,采用合成少數(shù)類過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)的算法進(jìn)行二次采樣來提高后續(xù)分析的穩(wěn)健性和檢驗效能。根據(jù)z-score歸一法獲得特征熱圖,計算公式如下:
(2)
其中,x代表標(biāo)準(zhǔn)化的隨機變量,μ代表數(shù)據(jù)集均值,σ表示數(shù)據(jù)標(biāo)準(zhǔn)差。
采用隨機方法對總樣本按照7∶3的比例進(jìn)行分組,訓(xùn)練集68例(其中15例為pCR),測試集31例(其中7例為pCR)。將訓(xùn)練集的數(shù)據(jù)用于機器學(xué)習(xí)(基于Python中的sciket learn V0.24.2軟件包,https://scikit-learn.org/stable/),使用支持向量機(support vector machine,SVM)建立模型并調(diào)整相應(yīng)參數(shù)。本研究中SVM算法使用了4種核函數(shù):linear為線性核函數(shù);poly為多項式核函數(shù);sigmoid為雙曲正切核函數(shù);rbf為高斯徑向基核函數(shù)。在調(diào)參過程中,在訓(xùn)練集中對每個核函數(shù)分別建模,并將正則化系數(shù)C的范圍設(shè)置為0~10,每間隔1構(gòu)建一個模型,獲得不同C值條件下核函數(shù)模型的AUC,選擇AUC最高的參數(shù)C值及核函數(shù)模型,對此模型的診斷效能進(jìn)行ROC曲線分析,計算各項效能指標(biāo)值,包括AUC及其95%CI、敏感度、特異度、符合率、陽性預(yù)測值、陰性預(yù)測值、陽性似然比和陰性似然比。
使用SPSS 25.0軟件進(jìn)行統(tǒng)計分析。對于呈正態(tài)分布的計量資料,組間比較使用獨立樣本t檢驗;對于計數(shù)資料,組間比較使用χ2檢驗。以P<0.05為差異有統(tǒng)計學(xué)意義。
99例患者中,男72例,女27例;治療前病灶下緣距肛緣的距離(在矢狀面MRI上測量)為3.0~12.0 cm,中位數(shù)5.5 cm;分化程度:高-中分化(G-M)83例,低分化(L)16例;外科醫(yī)師基于NCCN指南,參考術(shù)前影像檢查確定治療前腫瘤臨床分期(cTNM):Ⅱ期59例,Ⅲ期40例?;贏JCC第八版標(biāo)準(zhǔn),確定病理學(xué)腫瘤退縮分級(tumor regression grade,TRG):0級22例,1級15例,2級41例,3級21例。pCR組22例(22.22%),非pCR組77例(77.78%);術(shù)后病理檢查顯示所有患者無環(huán)周切緣陽性,術(shù)后臨床病理分期(ypTNM):Ⅰ期17例,Ⅱ期31例,Ⅲ期29例。兩組患者臨床資料的比較見表1。兩組之間各項臨床指標(biāo)間的差異均無統(tǒng)計學(xué)意義(P>0.05)。
表1 pCR組與非pCR組臨床資料的比較
每個病灶共提取了1409個組學(xué)特征,所有特征在兩位醫(yī)師之間ICC的中位數(shù)為0.965,剔除143個(10.15%)ICC小于0.8的特征,再經(jīng)特征篩選和降維后,獲得11個最有價值的組學(xué)特征:⑴一階統(tǒng)計量特征/峰度/小波變換-LHL(wavelet-LHL_firstorder_Kurtosis);⑵一階統(tǒng)計量特征/最小值/對數(shù)(logarithm_firstorder_Minimum);⑶一階統(tǒng)計量特征/最小值/小波變換-LLL(wavelet-LLL_firstorder_Minimum);⑷一階統(tǒng)計量特征/峰度/小波變換-HLL(wavelet-HLL_firstorder_Kurtosis);⑸一階統(tǒng)計量特征/峰度/小波變換-HLH(wavelet-HLH_firstorder_Kurtosis);⑹一階統(tǒng)計量特征/峰度/小波變換-HHL(wavelet-HHL_firstorder_Kurtosis);⑺一階統(tǒng)計量特征/峰度/小波變換-LHH(wavelet-LHH_firstorder_Kurtosis);⑻一階統(tǒng)計量特征/峰度/平方根(squareroot_firstorder_Kurtosis);⑼一階統(tǒng)計量特征/偏度/梯度(gradient_firstorder_Skewness);⑽灰度級長度矩陣/長游程低灰度級調(diào)強/小波變換-LLL(wavelet-LLL_GLRLM_LongRunLowGrayLevelEmphasis);⑾一階統(tǒng)計量特征/峰度/對數(shù)(logarithm_firstorder_Kurtosis)。小波變換中的H、L分別代表病灶區(qū)域在x、y和z軸上的低頻分量(L)和高頻分量(H)。這11項組學(xué)特征的系數(shù)及其在訓(xùn)練集和測試集中的特征分布熱圖見圖2~3。
圖2 LASSO算法篩選出的組學(xué)特征及其系數(shù)圖。橫軸為特征系數(shù),縱軸為影像組學(xué)特征,紅色矩形條代表系數(shù)為負(fù)值,綠色矩形條代表系數(shù)為正值。 圖3 組學(xué)特征熱圖。采用Z-score歸一法獲得的11個影像組學(xué)特征的熱圖,可視化訓(xùn)練集和測試集中pCR組與非pCR組的組學(xué)特征分布。每一行代表一個組學(xué)特征,每個縱列代表1例患者。最下一行的深灰色與淺灰色分別代表pCR組與非pCR組。矩陣中每個小矩形不同的顏色代表Z-score值,白色為數(shù)值為零,偏藍(lán)色代表數(shù)值為負(fù)值,偏紅色代表數(shù)值為正。
訓(xùn)練集中,SVM建模時分別使用了4個核函數(shù),對它們各自在不同正則化系數(shù)C條件下所建立模型進(jìn)行ROC曲線分析,繪制其AUC變化圖(圖4)。4個核參數(shù)中以poly的效果最優(yōu),因此選用poly核函數(shù)建立的模型進(jìn)行后續(xù)分析;且在C=10時,診斷模型的AUC最高,達(dá)0.974,相應(yīng)的診斷符合率為92.65%;將此模型應(yīng)用于測試集時,AUC為0.798,符合率為83.87%(表2、圖5)。
圖4 SVM算法中4種核函數(shù)建立模型的AUC變化曲線,以核函數(shù)ploy建立模型的AUC最大。圖5 核函數(shù)為ploy、C=10時所建立的SVM模型的ROC曲線圖。a)訓(xùn)練集;b)測試集。
表2 機器學(xué)習(xí)建立模型的診斷效能指標(biāo)
隨著診療方式的改進(jìn)及臨床研究的發(fā)展,LARC患者的預(yù)后不斷改善。現(xiàn)階段對LARC的標(biāo)準(zhǔn)治療方式為nCRT后再進(jìn)行手術(shù)治療,循證醫(yī)學(xué)證據(jù)表明這樣的治療方式可以得到腫瘤縮小、局部降期和局部復(fù)發(fā)率降低等多方面的益處,甚至部分患者經(jīng)nCRT后可達(dá)到pCR,即術(shù)后病理標(biāo)本中已檢測不到殘留的腫瘤細(xì)胞(無鏡下可見腫瘤細(xì)胞,僅殘留纖維化組織或黏液湖)。pCR患者預(yù)后更好,局部復(fù)發(fā)率和5年遠(yuǎn)處轉(zhuǎn)移率更低,而且管理策略(觀察與等待)更佳[4,6,7]。與手術(shù)治療方案相比,采用觀察與等待策略的患者總生存期并無明顯減少,但負(fù)擔(dān)得到了有效減輕,避免了過度治療,在降低手術(shù)并發(fā)癥及死亡率的同時又保留了器官功能。因此,觀察與等待策略已逐步被廣泛認(rèn)可,成為一種可供選擇的治療方案[8]。
然而,現(xiàn)階段對pCR狀態(tài)的判斷只能依靠根治性手術(shù)切除后的病理標(biāo)本進(jìn)行確認(rèn),尚無可靠的術(shù)前影像學(xué)評法能簡便、有效、準(zhǔn)確地對其進(jìn)行判斷。目前,對LARC患者臨床完全反應(yīng)(clinical complete response,cCR)的評估方式多樣,包括直腸指診、腸鏡及傳統(tǒng)影像學(xué)方法,但是在這部分患者中實際僅有25%~50%的患者為pCR[9],這種情況影響患者的治療方式及預(yù)后?;贛RI評估腫瘤退縮分級(MR imaging tumor regression grade,mrTRG),需要對比治療前、后的MRI圖像,依據(jù)腫瘤體積縮小的程度來評估原發(fā)腫瘤的TRG分級,TRG的病理診斷將其分為4級,目前mrTRG分級與病理TRG分級吻合度低,兩種分級體系無法一一對應(yīng)。我們認(rèn)為臨床實踐中認(rèn)識到mrTRG雖然可以評估病灶大體退縮程度,但無法準(zhǔn)確反映腫瘤對治療反應(yīng)的不同病理變化,將呈現(xiàn)低信號的治療相關(guān)纖維化與呈現(xiàn)灰色中等信號的殘余腫瘤進(jìn)行比較,如果治療后的病灶只有腫瘤的中等信號,即使體積縮小明顯,也可能認(rèn)為對治療反應(yīng)不良;如果治療后僅殘留低信號的纖維瘢痕則可能達(dá)到完全反應(yīng)。擴(kuò)散加權(quán)成像作為一種重要的功能性成像工具,可能有助于評估治療后的腫瘤殘留,但應(yīng)當(dāng)注意的是,當(dāng)出現(xiàn)黏液湖、出血或壞死時,可能使DWI圖像無法準(zhǔn)確判斷腫瘤殘留[10]。因此,需要更加客觀和精準(zhǔn)的預(yù)測方法。
影像組學(xué)是通過挖掘影像學(xué)數(shù)據(jù)中的大量信息,充分提取病灶內(nèi)代表腫瘤異質(zhì)性的特征性數(shù)據(jù),然后將這些數(shù)據(jù)分析的結(jié)果作為臨床決策的依據(jù),這些數(shù)據(jù)擁有著客觀性、可重復(fù)性和可深度探索的特點,可以有效地服務(wù)于精準(zhǔn)醫(yī)療和個性化醫(yī)療[11-12]。影像組學(xué)研究的基本流程:1、圖像獲??;2、病灶分割;3、特征提取與降維;4、建立診斷模型并驗證[11,13,14]。既往有研究顯示基于CT、MRI和PET-CT等技術(shù)的影像組學(xué)方法可以評估結(jié)直腸癌nCRT的療效,同時肯定了影像組學(xué)機器學(xué)習(xí)模型在療效評估和預(yù)后判斷等方面的可行性[15-17]。Li等[18]利用nCRT前、后直腸高分辨T2WI數(shù)據(jù)建立了多種機器學(xué)習(xí)診斷模型,發(fā)現(xiàn)這些模型可用于對LARC患者nCRT后TRG分級及pCR狀態(tài)進(jìn)行判斷。但臨床實踐中很多患者nCRT前、后的影像檢查缺乏統(tǒng)一標(biāo)準(zhǔn),甚至缺失可供對比的治療前圖像數(shù)據(jù),導(dǎo)致需要對比治療前圖像的傳統(tǒng)主觀評價方式的診斷效能顯著下降。同時使用新輔助治療前、后兩次圖像數(shù)據(jù)的組學(xué)診斷模型在臨床實踐中對數(shù)據(jù)要求較高,而單獨使用治療后圖像進(jìn)行組學(xué)評估對數(shù)據(jù)要求低、實用性佳。
本研究基于患者nCRT后的高分辨T2WI數(shù)據(jù),采用手動方式勾畫病灶經(jīng)過治療后的殘留區(qū)域,提取VOI的組學(xué)特征數(shù)據(jù),經(jīng)過篩選和降維,最終得到11個最有價值的pCR相關(guān)組學(xué)特征。降維的目的是提高模型的訓(xùn)練效率,大量冗余且相關(guān)性低的特征會讓模型的訓(xùn)練和驗證變得異常緩慢。我們最終篩選出的特征均為基于過濾器類的高階特征,不含一階統(tǒng)計量特征、形狀特征及紋理特征。特征熱圖顯示pCR組與非pCR組的特征分布趨勢不同,這正體現(xiàn)了影像組學(xué)可以深度挖掘醫(yī)學(xué)圖像中人眼無法識別的特征數(shù)據(jù)的特點。利用這些特征建立SVM模型,在訓(xùn)練集中,通過調(diào)參優(yōu)化模型參數(shù),選擇出診斷效能最佳并較為穩(wěn)定的模型,并在測試集中進(jìn)行驗證,結(jié)果顯示該模型的AUC達(dá)到了0.798(95%CI:0.615~0.920),敏感度、特異度和符合率分別達(dá)到了85.71%、83.33%和83.87%,顯示出模型對nCRT后直腸癌pCR狀態(tài)的判斷具有較好的臨床應(yīng)用價值。SVM模型也稱支持向量網(wǎng)絡(luò),是機器學(xué)習(xí)方法中一種廣受關(guān)注的算法,在分類問題中,無論是線性還是非線性的問題,都能得到很好的效果。SVM在各類實際問題中表現(xiàn)優(yōu)異,包括也被用于圖像的分類系統(tǒng)中,利用模型分析圖像數(shù)據(jù),探索數(shù)據(jù)的內(nèi)在規(guī)律,經(jīng)過驗證后可以輸出保存預(yù)設(shè)模型,分析新的未知病例時只要輸入病灶圖像,就可以發(fā)揮組學(xué)自動化高通量分析的優(yōu)勢,輔助臨床制定醫(yī)療決策[19],因此具有重要的臨床意義。
本研究的主要局限性:第一,樣本量相對較小,數(shù)據(jù)集可能存在選擇偏倚,尤其是達(dá)到pCR的樣本數(shù)量偏少,且缺乏外部驗證,可能會影響模型的準(zhǔn)確性,而且較小的樣本量可能造成過擬合,因此需在今后擴(kuò)大樣本量進(jìn)行更深入的研究;第二,本研究采用的傳統(tǒng)手動勾畫感興趣區(qū)的方法耗時較久、工作量較大,不適用于大規(guī)模的數(shù)據(jù)處理,而且直腸癌病灶nCRT后的形態(tài)及信號表現(xiàn)多樣,對病灶區(qū)域的勾畫易受主觀因素的影響,可能導(dǎo)致可重復(fù)性及穩(wěn)定性降低;第三,本次研究中僅分析了病灶在高分辨T2WI上的影像組學(xué)特征,而沒有結(jié)合其它序列及相關(guān)臨床因素,有待今后進(jìn)一步深入研究。
總體而言,基于高分辨T2WI的影像組學(xué)對nCRT后直腸癌pCR狀態(tài)的預(yù)測有一定價值,可以應(yīng)用于臨床決策。