胡旭鋼 唐夏莉 劉細幫 陳清勇
肺癌是目前世界上發(fā)病率及死亡率最高的腫瘤類型,肺腺癌(LUAD)是肺癌最常見的組織學(xué)類型[1]。近年來,針對肺癌的分子靶向治療極大地提高了患者的生存率。尋找新的生物標(biāo)志物,不僅可以更精準(zhǔn)地闡述LUAD細胞惡變的分子機制,還可為LUAD的早期診斷、療效監(jiān)測、預(yù)后評估等提供參考。酪氨酸和蘇氨酸蛋白激酶(TTK)是一種雙特異性蛋白激酶,能夠磷酸化酪氨酸、絲氨酸和蘇氨酸,是有絲分裂過程中紡錘體裝配檢查點的核心調(diào)節(jié)蛋白[2]。目前研究顯示,在結(jié)腸癌、肝癌、膽囊癌等多種腫瘤中均存在TTK的過表達,與患者的不良預(yù)后相關(guān)[3-7]。本研究擬基于公共腫瘤數(shù)據(jù)庫觀察TTK在LUAD中的表達模式及預(yù)后意義,為TTK的機制研究及臨床應(yīng)用提供一定的理論基礎(chǔ)。
1.1 數(shù)據(jù)獲取 通過UCSC Xena數(shù)據(jù)庫(https://tcga.xenahubs.net)下載腫瘤基因圖譜(TCGA)中標(biāo)準(zhǔn)化的肺腺癌RNASeq3級數(shù)據(jù)及臨床病理資料[8]。最終59例正常肺上皮組織及517例肺腺癌納入研究,其中494例包含完整隨訪信息的病例納入生存分析。從基因表達綜合數(shù)據(jù)庫(GEO,https://www.ncbi.nlm.nih.gov/geo)下載肺腺癌GSE31210、GSE68465和GSE75037數(shù)據(jù)集的原始微陣列mRNA表達數(shù)據(jù)及臨床資料,采用RMA方法進行歸一化后進行相關(guān)分析[9-11]。GSE31210,共20例正常肺上皮組織和226例肺腺癌組織,臨床資料包括患者的年齡、性別、腫瘤分期、吸煙史、EGFRALKKRAS突變情況及生存隨訪信息。GSE68465,共442例包含完整生存隨訪信息的肺腺癌患者,納入生存分析。GSE75037,共83對肺腺癌及對應(yīng)癌旁組織納入研究,臨床資料包括患者的年齡、性別、腫瘤分期、吸煙史及EGFRKRASSTK11突變情況。腫瘤免疫評估資源(TIMER,https://cistrome.shinyapps.io/timer/)是一個利用RNA-Seq表達譜數(shù)據(jù)預(yù)測腫瘤組織中免疫細胞浸潤情況的網(wǎng)站[12-13],通過Diff Exp模塊可以快速獲得TTK基因在肺腺癌等33種腫瘤組織及對應(yīng)正常組織中的表達情況。人類蛋白質(zhì)圖譜(HPA,https://www.proteinatlas.org)是利用各種組學(xué)技術(shù)來繪制蛋白質(zhì)在正常及腫瘤細胞、組織和器官中表達的網(wǎng)站[14],在線查詢可獲得TTK蛋白(抗體編號:CAB013229)在正常肺泡上皮細胞及肺腺癌中的免疫組化染色結(jié)果。
1.2 基因富集分析 采用GSEA軟件(4.0.2版本),以TCGA數(shù)據(jù)集中肺腺癌標(biāo)本為分析對象,依據(jù)TTK表達的中位值進行分組,以Hallmark基因集作為參考基因集,置換次數(shù)為1000次,將同時滿足P<0.05和FDR<0.25的基因集認(rèn)為是顯著富集的基因集。
1.3 統(tǒng)計學(xué)方法 采用R軟件(3.6.1版本)和Graphpad(8.0版本)統(tǒng)計軟件。計量資料以()表示,兩兩組間比較采用t檢驗,配對數(shù)據(jù)采用配對t檢驗,多組間比較采用單因素方差分析。篩選包含生存隨訪信息的TCGA、GSE31210和GSE68465數(shù)據(jù)集的標(biāo)本,納入隨訪>30 d的病例進行生存分析。依據(jù)TTK表達的中位值,將患者分為TTK低表達組和TTK高表達組。利用R軟件的survival和surviminer包繪制Kaplan-Meier曲線,進行l(wèi)og-rank檢驗;timeROC包繪制ROC曲線,計算AUC值;survival和surviminer包進行單因素及多因素Cox回歸分析,采用forestplot包繪制森林圖。根據(jù)多因素Cox回歸結(jié)果繪制列線圖,并繪制校準(zhǔn)曲線和決策曲線來驗證列線圖模型在預(yù)后預(yù)測中的作用。以P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 泛癌組織中TTK的表達 通過TIMER網(wǎng)站的Diff Exp模塊,搜索TTK基因在33類腫瘤組織中的表達情況。TTK在包括膀胱尿路上皮癌(BLCA)、乳腺浸潤癌(BRCA)、膽管癌(CHOL)、結(jié)腸癌(COAD)、食管癌(ESCA)、頭頸鱗狀細胞癌(HNSC)、腎嫌色細胞癌(KICH)、腎透明細胞癌(KIRC)、腎乳頭狀細胞癌(KIRP)、肝細胞肝癌(LIHC)、肺腺癌(LUAD)、肺鱗癌(LUSC)、前列腺癌(PRAD)、直腸腺癌(READ)、胃癌(STAD)、甲狀腺癌(THCA)及子宮內(nèi)膜癌(UCEC)等多種腫瘤組織中的表達均顯著高于正常組織,見圖1A。皮膚黑色素瘤(SKCM)有遠處轉(zhuǎn)移的腫瘤患者,TTK的表達明顯高于無遠處轉(zhuǎn)移的腫瘤患者。結(jié)果表明,TTK在泛癌組織中存在高表達,提示可能與惡性腫瘤的發(fā)生、演進密切相關(guān)。
2.2 LUAD組織中TTK的表達 在TCGA數(shù)據(jù)集中,與正常肺上皮組織(n=59)比較,LUAD組織(n=517)中TTK mRNA的表達顯著升高(t=16.470,P<0.001),見圖1B。在GSE31210數(shù)據(jù)集中,20例正常肺上皮組織與226例LUAD組織比較,TTK mRNA在腫瘤組織中存在顯著高表達(t=5.406,P<0.001),見圖1C。在GSE75037數(shù)據(jù)集中,83例LUAD組織及癌旁組織配對比較,TTK mRNA在LUAD組織中過表達(t=18.690,P<0.001),見圖1D。HPA數(shù)據(jù)庫中的免疫組化結(jié)果提示,TTK蛋白在正常肺上皮組織中弱表達,在LUAD組織中表達明顯增加,見圖1E。綜上,TTK在LUAD組織中的表達顯著高于正常肺上皮組織。
圖1 腫瘤組織與正常組織TTK表達的比較
2.3 TTK表達與LUAD患者臨床病理特征的相關(guān)性 TTK的表達與年齡、性別、吸煙史、腫瘤大小、淋巴結(jié)轉(zhuǎn)移、TNM分期、驅(qū)動基因突變狀態(tài)、KRAS突變等密切相關(guān)(P<0.05),與患者的 ECOG 評分(P=0.052)、遠處轉(zhuǎn)移(P=0.087)、MAP2K1突變(P=0.095)、PTPN11突變(P=0.060)可能相關(guān),見圖2。觀察TCGA、GSE31210和GSE75037三個數(shù)據(jù)集中的TTK表達與TNM分期、吸煙史及EGFR突變的關(guān)系,結(jié)果提示TNM分期越晚,TTK表達越高(P<0.05),見圖3A;既往吸煙史患者的TTK表達明顯升高(P<0.05),見圖3B;在GSE31210和GSE75037兩個數(shù)據(jù)集中,與EGFR野生型患者比較,EGFR突變患者的TTK表達顯著下調(diào)(P<0.05),見圖3C。綜上,LUAD的惡性程度越高,TTK的表達隨之增加,且TTK的表達與患者的基因突變情況密切相關(guān)。
圖2 TTK表達與LUAD患者臨床病理特征的相關(guān)性
圖3 TTK表達與LUAD患者TNM分期﹑吸煙史及EGFR基因突變的相關(guān)性
2.4 TTK表達與患者預(yù)后的相關(guān)性 在TCGA、GSE31210和GSE68465三個數(shù)據(jù)集中,通過繪制Kaplan-Meier生存曲線發(fā)現(xiàn),TTK表達越高,患者的總體生存率越低(P<0.001,P=0.001,P=0.004),見圖4A;時間依賴的ROC曲線表明,TTK能夠準(zhǔn)確預(yù)測患者的總體生存率,見圖4B;1年生存率的曲線下面積分別為0.630、0.685和0.610;3年生存率的曲線下面積分別為0.601、0.661和0.635;5年生存率的曲線下面積分別為0.570、0.724和0.610。多因素Cox回歸結(jié)果顯示,TTK是預(yù)測LUAD患者預(yù)后的獨立預(yù)后因子,見圖4C。綜上,高表達TTK的LUAD患者預(yù)后差,且TTK是預(yù)測患者預(yù)后的一個可重復(fù)的獨立預(yù)后因素。
圖4 TTK表達與患者預(yù)后的相關(guān)性
2.5 列線圖模型的構(gòu)建及驗證 基于多因素Cox回歸分析的結(jié)果,在TCGA數(shù)據(jù)集中納入腫瘤大小、淋巴結(jié)轉(zhuǎn)移及TTK表達等3個獨立預(yù)后因素,構(gòu)建列線圖模型,見圖5A。校準(zhǔn)曲線結(jié)果顯示,列線圖模型能夠較準(zhǔn)確預(yù)測LUAD患者真實的3年生存率,見圖5B。決策曲線結(jié)果表明,與單因素預(yù)測比較,列線圖模型能更準(zhǔn)確地反應(yīng)患者預(yù)后情況,見圖5C。綜上,聯(lián)合TTK、腫瘤大小和淋巴結(jié)轉(zhuǎn)移的列線圖模型,能更準(zhǔn)確地預(yù)測LUAD患者的預(yù)后。
圖5 列線圖模型的構(gòu)建及驗證
2.6 TTK的功能基因集富集 TTK高表達的LUAD患者在細胞增殖相關(guān)通路如有絲分裂紡錘體形成通路和G2M檢查點通路、E2F靶點通路、mTOR信號通路、Myc信號通路、糖酵解通路及DNA損傷修復(fù)等信號通路富集,可能參與TTK促進LUAD演進的過程。見圖6。
圖6 TTK高表達LUAD患者的富集信號通路分析
在腫瘤研究領(lǐng)域,大數(shù)據(jù)已經(jīng)成為最新的驅(qū)動力,數(shù)據(jù)驅(qū)動型研究逐漸成為腫瘤生物信息學(xué)研究的重要模式,高通量測序分析技術(shù)所產(chǎn)生的腫瘤生物信息學(xué)數(shù)據(jù),是腫瘤大數(shù)據(jù)的主要來源之一[15]。腫瘤生物信息學(xué)數(shù)據(jù)具有質(zhì)控規(guī)范、資源共享、海量樣本、超高數(shù)據(jù)維度等特點,對研究腫瘤發(fā)生、演進及治療具有重要意義[16-17]。在惡性腫瘤的病理診斷、藥物篩選、個體化基因型與表型構(gòu)建、預(yù)后預(yù)測等方面,基于大數(shù)據(jù)分析的人工智能和機器學(xué)習(xí)都已取得了飛速的發(fā)展[17-18]。運用大數(shù)據(jù)挖掘技術(shù)探究腫瘤的本質(zhì)是今后腫瘤研究領(lǐng)域的重要方法。
有絲分裂是一個高度精確有序的過程,紡錘體裝配檢查點在監(jiān)督細胞正確分裂過程中發(fā)揮重要作用。TTK作為紡錘體裝配檢查點的核心組分,只有當(dāng)染色體正確連接時,有絲分裂才能順利進入后期,否則阻滯與M期[19]。因此,TTK在高增殖指數(shù)的細胞中明顯升高,如正常睪丸及胎盤組織,以及在惡性腫瘤組織中高表達[20-21]。本研究通過多組學(xué)、多中心的數(shù)據(jù)比較發(fā)現(xiàn),TTK在包括LUAD在內(nèi)的泛癌組織中存在明顯高表達,并與LUAD的惡性表型及不良預(yù)后明顯相關(guān),聯(lián)合TTK表達及腫瘤大小、淋巴結(jié)轉(zhuǎn)移等臨床特征,可以準(zhǔn)確的預(yù)測患者的總體生存時間,為后續(xù)的TTK相關(guān)細胞及機制研究提供了良好的基礎(chǔ)。
流行病學(xué)調(diào)查結(jié)果提示,約90%肺癌的患者均存在不同程度的煙草暴露,煙草暴露人群的肺癌發(fā)病風(fēng)險較無暴露人群提高了近30倍[22]。本研究發(fā)現(xiàn),在既往有煙草暴露史的LUAD患者中,TTK的表達明顯升高,而相比于EGFR突變的患者,EGFR野生型的患者中TTK表達顯著增加。這些結(jié)果提示TTK可能成為煙草暴露患者,尤其是EGFR野生型患者的有效治療靶點,與腫瘤的惡性表型及不良預(yù)后密切相關(guān),可作為預(yù)后監(jiān)測及藥物治療的新標(biāo)志物。