張 鑫,吳 靜,2 ,劉亞鋒,邢應(yīng)如,周家偉,謝 軍,胡 東,2*
(1.安徽理工大學(xué)醫(yī)學(xué)院,安徽 淮南 232001;2. 安徽理工大學(xué)職業(yè)健康安全工程實(shí)驗(yàn)室,安徽 淮南 232001;3. 安徽理工大學(xué)附屬腫瘤醫(yī)院,安徽 淮南 232035)
肺癌是最常見的惡性腫瘤,占全球癌癥死亡率第1位[1]。肺腺癌是非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)中的一種常見亞型,大約占肺原發(fā)腫瘤的40%,其惡性程度雖較低,但由于其易復(fù)發(fā),仍有超過30%的患者面臨著術(shù)后復(fù)發(fā)的風(fēng)險[2]。在分子靶向藥物和免疫檢查點(diǎn)抑制劑的有效的治療策略下,肺癌的存活率已經(jīng)提高[3]。然而,治療遠(yuǎn)處轉(zhuǎn)移患者的療效仍是有限的[4]。在肺腺癌中,很小的原發(fā)腫瘤也會發(fā)生轉(zhuǎn)移,晚期預(yù)后較差,平均5a生存率低于20%[5-6]。目前肺腺癌缺乏特異且靈敏的診斷標(biāo)志物及預(yù)后判斷標(biāo)志物,因此亟需尋找新的生物標(biāo)志物用于肺腺癌的早期檢測和開發(fā)有效的臨床相關(guān)預(yù)測模型。
張力蛋白4(Tensin 4,TNS4)是一種多功能細(xì)胞因子,其異常表達(dá)與腫瘤相關(guān)[7]。研究表明,TNS4是在多種癌癥中過表達(dá)的腫瘤基因,如乳腺癌、大腸癌、肝癌、肺癌等[8-10],在調(diào)節(jié)細(xì)胞黏附、運(yùn)動、侵襲以及上皮間質(zhì)轉(zhuǎn)化等方面發(fā)揮重要作用[11-14]。盡管TNS4已被確定為多種癌癥的腫瘤基因,但其在調(diào)節(jié)黏附、運(yùn)動、侵襲和轉(zhuǎn)移等的作用機(jī)制仍不明確,因此TNS4在肺腺癌中的應(yīng)用有待進(jìn)一步研究。
為探討TNS4在肺腺癌的發(fā)生發(fā)展及生存預(yù)后的意義,本研究通過對TCGA公共數(shù)據(jù)庫中肺腺癌的基因組和臨床信息組進(jìn)行分析,并利用Cox回歸分析篩選與肺腺癌預(yù)后相關(guān)的臨床特征,聯(lián)合臨床信息構(gòu)建臨床預(yù)測模型,以期為TNS4基因在肺腺癌的生存預(yù)測提供新的方法。
(1)數(shù)據(jù)下載及預(yù)處理
從TCGA公共數(shù)據(jù)庫中(https://tcga-data.nci.nih.gov/tcga/tcgaHo-me2.jsp)下載551例肺腺癌患者組織標(biāo)本的mRNA-Seq數(shù)據(jù)與486例臨床信息,并進(jìn)行預(yù)處理:提取mRNAs原始數(shù)據(jù);標(biāo)本編號與癌和癌旁信息匹配;刪除臨床信息缺失及患者生存時間為0的樣本。
(2) TNS4的表達(dá)預(yù)后及臨床相關(guān)性分析
用R語言軟件中l(wèi)imma、Scatter和Paired-Plot軟件包對497例癌組織樣本和54例癌旁組織樣本中配對樣本和非配對樣本中TNS4基因mRNA表達(dá)水平進(jìn)行差異分析,用survival包將癌組織樣本中TNS4基因mRNA表達(dá)分為高低兩組,并分析兩組和患者預(yù)后的相關(guān)性,用R(beeswarm)包分別計算TNS4基因表達(dá)與臨床特征的相關(guān)性。
(3)單-多因素Cox回歸分析
考慮到不同病人個體特征可能會影響到患者的生存率,因此將患者的性別、年齡和疾病分期(stage)、疾病分型(T,M,N)都納入分析。用單因素Cox分析有統(tǒng)計學(xué)意義的臨床參數(shù)進(jìn)行校正后納入多因素Cox回歸中用于分析臨床參數(shù)與肺腺癌生存預(yù)后的關(guān)系,以P<0.05為篩選條件。
(4)隨機(jī)分組
本研究將325例臨床信息與表達(dá)TNS4的標(biāo)本進(jìn)行匹配,得到317例可用數(shù)據(jù),然后采用隨機(jī)數(shù)產(chǎn)生法將317例肺腺癌患者隨機(jī)分為訓(xùn)練集、驗(yàn)證集和總體標(biāo)本集3個隊列,總體標(biāo)本集317例,訓(xùn)練集(222例)用于學(xué)習(xí)標(biāo)本特征和估計模型,驗(yàn)證集(95例)用于作為內(nèi)部驗(yàn)證隊列驗(yàn)證模型的預(yù)測性能。
(5) 列線圖模型建立和驗(yàn)證
使用R包survival對矩陣數(shù)據(jù)進(jìn)行Cox多因素回歸篩選和肺腺癌患者預(yù)后相關(guān)的變量作為基準(zhǔn)變量,結(jié)合變量重新建模,分別計算模型AIC值,選取AIC值最小的模型使用rms包進(jìn)行列線圖可視化構(gòu)建。分別使用ROC曲線及校正曲線兩種方法對列線圖模型進(jìn)行內(nèi)部驗(yàn)證。
(6) 統(tǒng)計學(xué)分析
使用SPSS20.0進(jìn)行統(tǒng)計分析。癌組織與癌旁組織表達(dá)量比較用配對t檢驗(yàn)。臨床病理參數(shù)相關(guān)性分析及組間比較采用χ2檢驗(yàn)。Kaplan-Meier生存分析采用R語言Survival包,顯著性分析為Log-rank檢驗(yàn)。單-多因素Cox回歸分析將患者年齡、性別、TNM分期、病理分期、TNS4表達(dá)水平等指標(biāo)量化賦值,P<0.05為差異有統(tǒng)計學(xué)意義。列線圖采用R3.5.2語言rms和survival包進(jìn)行繪制,survcomp包用于評價模型預(yù)測能力的C指數(shù)及其95%CI的計算。
(1) TNS4的表達(dá)預(yù)后及臨床相關(guān)性分析
運(yùn)用R語言中l(wèi)imma、Scatter和Paired-Plot軟件包對551例肺腺癌患者的癌及癌旁組織和54例來自同一病人的癌及癌旁組織中TNS4表達(dá)差異進(jìn)行可視化分析。如圖1(a)所示,在非配對樣本中TNS4在癌組織中顯著高表達(dá),差異有統(tǒng)計學(xué)意義(P<0.01)。為了消除數(shù)據(jù)來自不同樣本的異質(zhì)性,分析配對樣本中TNS4表達(dá)水平,如圖1(b)所示, TNS4在配對癌組織中同樣顯著高表達(dá), 差異有統(tǒng)計學(xué)意義(P<0.01)。 用survival包分析TNS4表達(dá)水平與肺腺癌患者總體生存期, 結(jié)果如圖1(c)所示, TNS4高表達(dá)的患者總體生存期明顯差于低表達(dá)的患者(P<0.01)。為了研究TNS4基因在不同疾病分期及疾病分型(T,M,N)中表達(dá)水平, 將疾病分期stage分為兩組: Ⅰ/Ⅱ和Ⅲ/Ⅳ; T分為兩組: T1和T2~4;M分兩組:M0和M1; N分為兩組: N0和N1~3。 用R中beeswarm包分別計算TNS4基因與臨床特征的相關(guān)性, 結(jié)果如圖1(d)所示,疾病分期中,III/IV中TNS4表達(dá)水平高于I/ II期(P<0.01),可見隨著病人疾病期別的進(jìn)展,TNS4表達(dá)會增加。在T和N分型中,隨著進(jìn)展,TNS4同樣會上調(diào)(P<0.01)。但是在TNS4與M分型之間無相關(guān)性(P>0.05)。由此猜測TNS4的上調(diào)會促進(jìn)腫瘤的生長及淋巴擴(kuò)散,但是并不影響腫瘤的轉(zhuǎn)移。
(a)TNS4表達(dá)量 (b)配對樣本TNS4表達(dá)量 (c)TNS4生存曲線
(2)單-多因素Cox分析肺腺癌患者臨床因素
考慮到不同病人個體特征可能會影響到患者的生存率, 因此將患者的性別、 年齡和疾病分期(stage)、 疾病分型(T,M,N)都納入分析,性別分為男和女;年齡分兩組:>65歲和≤65歲; 疾病分期stage分為兩組:Ⅰ/Ⅱ和Ⅲ/Ⅳ;T分為兩組:T1和T2~4;M分兩組:M0和M1;N分為2組:N0和N1~3。在單因素Cox分析中T分型、N分型、疾病分期和TNS4表達(dá)狀態(tài)均能夠顯著影響患者的預(yù)后(P<0.01),性別、年齡、M分型對預(yù)后沒有明顯影響,多因素分析結(jié)果顯示TNS4的表達(dá)狀態(tài)和疾病分期是影響肺腺癌患者預(yù)后的獨(dú)立因素(P<0.01)(見表1)。由于臨床上疾病分期是評估患者預(yù)后的金指標(biāo), 可見TNS4基因具有準(zhǔn)確預(yù)測患者預(yù)后的能力。
表1 肺腺癌患者臨床相關(guān)因素分析
(3) 列線圖模型的構(gòu)建與驗(yàn)證
多因素分析中,篩選出TNS4的表達(dá)狀態(tài)和疾病分期都是影響肺腺癌患者預(yù)后的獨(dú)立因素(P<0.01)。由于疾病分期是預(yù)后的金指標(biāo),如果聯(lián)合TNS4的表達(dá)狀態(tài)和疾病分期來共同預(yù)測患者預(yù)后,將會得到更準(zhǔn)確的結(jié)果??紤]到臨床中年齡也是肺腺癌患者的一個重要預(yù)后因素,因此也納入分析。用總標(biāo)本集中TNS4基因聯(lián)合臨床信息構(gòu)建肺腺癌患者3a和5a的臨床預(yù)測列線圖模型,如圖2(a)所示,病人分為兩組,定義≥65歲分值1,<65歲值為0。疾病分期分為I、II、III和IV,定義分值分別為0、23、43和37。TNS4的分值根據(jù)病人的TNS4基因表達(dá)水平來定義,TNS4基因表達(dá)水平為1得分為0.55。假設(shè)一個病人62歲,疾病分期分為II,TNS4基因表達(dá)水平為10,那么這個病人總得分為28.5,此病人3a生存率大約為41%,5a生存率大約為21%。也就是說,在這個模型中可以根據(jù)病人的得分準(zhǔn)確預(yù)測其3a及5a的預(yù)后,將這個得分定義為風(fēng)險評分。分別計算每個病人的風(fēng)險評分,并根據(jù)風(fēng)險值中位數(shù),劃分為高風(fēng)險與低風(fēng)險組,在3個數(shù)據(jù)集中分別分析風(fēng)險評分和預(yù)后相關(guān)性。結(jié)果如圖2(b)~(d),風(fēng)險評分對患者預(yù)后的影響均具有統(tǒng)計學(xué)意義(P<0.01),且高風(fēng)險的患者生存率明顯降低。相比較其他數(shù)據(jù)集,總體標(biāo)本集更能反映患者的預(yù)后。
(a)肺腺癌患者的3a和5a臨床預(yù)測列線圖模型
ROC曲線指受試者工作特征曲線,是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),AUC值(曲線下面積)越大,診斷準(zhǔn)確性越高。如圖3所示,本研究用ROC曲線驗(yàn)證3個數(shù)據(jù)集構(gòu)建模型預(yù)測患者3a及5a預(yù)后的準(zhǔn)確性,如圖3(a)~(f),3個數(shù)據(jù)集中預(yù)測3a預(yù)后能力的AUC值分別為0.699、0.681和0.704,預(yù)測5a預(yù)后能力的AUC值分別為0.684、0.627和0.686。所有AUC值均大于0.600,因此模型具有準(zhǔn)確預(yù)測能力。在3a和5a AUC值中,總標(biāo)本集的AUC值均大于訓(xùn)練集大于驗(yàn)證集。可知模型納入的病人數(shù)據(jù)越多,結(jié)果越準(zhǔn)確,且模型預(yù)測患者3a生存率更準(zhǔn)確。同時,用校準(zhǔn)曲線驗(yàn)證3個數(shù)據(jù)集構(gòu)建模型預(yù)測患者3a和5a預(yù)后的準(zhǔn)確性。校準(zhǔn)曲線是實(shí)際結(jié)果和預(yù)測結(jié)果的對比,曲線越接近對角線,說明預(yù)測效果越好。如圖4(a)~(f),該模型可以準(zhǔn)確預(yù)測LUAD患者3a和5a的生存率,但相較于驗(yàn)證集,訓(xùn)練集和總體標(biāo)本集具有更高的預(yù)測準(zhǔn)確性。
(a)訓(xùn)練集ROC曲線 (b)驗(yàn)證集ROC曲線 (c)總體標(biāo)本集ROC曲線
(a)訓(xùn)練集校準(zhǔn)曲線 (b)驗(yàn)證集校準(zhǔn)曲線 (c)總體標(biāo)本集校準(zhǔn)曲線
越來越多的研究發(fā)現(xiàn),TNS4在肺腺癌中異常表達(dá)往往與患者預(yù)后密切相關(guān)[15]。本研究分析發(fā)現(xiàn)癌組織中TNS4顯著高表達(dá),并且高表達(dá)TNS4的患者預(yù)后較差。這和已有研究結(jié)果一致,證明TNS4可作為診斷肺腺癌患者的預(yù)后標(biāo)志物。
有細(xì)胞學(xué)實(shí)驗(yàn)研究表明,高表達(dá)TNS4蛋白的腫瘤細(xì)胞運(yùn)動和侵襲能力加強(qiáng)[16-18],而腫瘤細(xì)胞活力增強(qiáng),往往會導(dǎo)致患者疾病分期及分型的加重[19-20]。本研究發(fā)現(xiàn)隨著TNS4的上調(diào),會促進(jìn)腫瘤的生長及淋巴擴(kuò)散及轉(zhuǎn)移。由此可知,高表達(dá)TNS4的肺腺癌患者往往疾病分期及分型更重,這與TNS4可能會提高肺腺癌細(xì)胞的活力密切相關(guān)。同時TNS4作為一種原癌基因,已被認(rèn)為是多種惡性腫瘤中極具潛力的生物標(biāo)志物和治療靶點(diǎn)[21],然而鮮有文獻(xiàn)論證TNS4是否可以指導(dǎo)肺腺癌的治療情況。如果抑制肺腺癌患者中TNS4表達(dá),將會改善患者疾病分期,提高患者生存率,TNS4抑制劑將會是肺腺癌的一種有效治療方法。
列線圖模型是一種臨床醫(yī)生利用患者個體化信息預(yù)測癌癥患者生存率的新方法,因其簡單準(zhǔn)確性價高而越來越受到人們的重視[22]。已有研究發(fā)現(xiàn)將TNS4等預(yù)后基因合并患者臨床信息構(gòu)建的列線圖可以預(yù)測患者預(yù)后[23]。本研究構(gòu)建了TNS4合并患者臨床信息的預(yù)后列線圖模型,發(fā)現(xiàn)該模型可以準(zhǔn)確預(yù)測患者3a和5a生存率。這對臨床上治療肺腺癌患者具有重大意義,臨床醫(yī)生可以根據(jù)患者TNS4表達(dá)水平,更加準(zhǔn)確地判斷患者疾病程度,也可以結(jié)合患者TNS4表達(dá)和臨床信息,準(zhǔn)確預(yù)測患者預(yù)后生存率,從而制定準(zhǔn)確有效的治療方法。盡管列線圖模型可以準(zhǔn)確預(yù)測癌癥患者生存率,但模型可行性往往需要大量的數(shù)據(jù)及多種驗(yàn)證方法進(jìn)行驗(yàn)證[24]。很多研究都會將患者數(shù)據(jù)進(jìn)行拆分,并運(yùn)用ROC曲線和校準(zhǔn)曲線來驗(yàn)證預(yù)后基因合并癌癥患者臨床信息構(gòu)建預(yù)后列線圖模型的可行性[25]。本研究將患者數(shù)據(jù)拆分為3個數(shù)據(jù)集,運(yùn)用以上兩種方法驗(yàn)證了在3個數(shù)據(jù)集中均具有構(gòu)建模型的可行性,且數(shù)據(jù)集中患者數(shù)據(jù)越多,模型的可行性和準(zhǔn)確性越高。由此可知,本研究構(gòu)建的模型是足夠準(zhǔn)確的,在臨床上有一定的應(yīng)用價值,有助于促進(jìn)肺腺癌患者個體化治療和生存評估的普及。
本研究揭示了TNS4在肺腺癌中的表達(dá)意義及臨床價值,TNS4可以作為肺腺癌的一個潛在診斷及準(zhǔn)確預(yù)后指標(biāo)。同時,開發(fā)的列線圖預(yù)后模型,不僅降低了肺腺癌治療的成本,還促進(jìn)肺腺癌患者的個體化治療及生存評估。
本研究不足之處在于,TCGA數(shù)據(jù)集中提供的是mRNA水平的表達(dá)數(shù)據(jù),可能無法完全代表TNS4在蛋白質(zhì)水平的表達(dá)情況。同時,TCGA數(shù)據(jù)庫中缺乏治療信息可能會對結(jié)果產(chǎn)生影響。如果增加更多的病人臨床治療信息,預(yù)后列線圖模型和評分系統(tǒng)將會更加完善。在今后的研究中,將收集更多的肺腺癌患者臨床數(shù)據(jù),完善列線圖模型,進(jìn)一步研究TNS4調(diào)控肺腺癌腫瘤生長及淋巴擴(kuò)散的具體機(jī)制。