秦 花,李小燕,何 杰,李 婷
成都醫(yī)學(xué)院第一附屬醫(yī)院(成都 610500)
隨著環(huán)境污染加劇、職業(yè)暴露和吸煙人群增多、人口老齡化及肺癌影像學(xué)篩查普及,肺癌患者數(shù)量呈逐年上升趨勢(shì)[1-2]。據(jù)統(tǒng)計(jì),2018年世界人口中肺癌新增病例約200萬人,直接或間接因肺癌死亡病例150萬人,其中70%以上的肺癌都屬于非小細(xì)胞肺癌[3]。而近年來,非小細(xì)胞肺癌中肺腺癌所占比例高于肺鱗癌,居第一位[3-4]。因肺腺癌起病相對(duì)較隱匿,早期并無特殊癥狀,以致部分患者確診時(shí)已錯(cuò)失手術(shù)良機(jī),總體的5年生存率低于20%[5]。盡管目前研究[6]已經(jīng)發(fā)現(xiàn)多種分子生物標(biāo)志可以輔助臨床用于肺腺癌的預(yù)后判斷,但均有一定的局限性和不足。因此,構(gòu)建一種新的、有效的預(yù)測(cè)模型有助于肺腺癌患者的預(yù)后判斷和個(gè)體化治療。
自噬是一種正常的生物過程,它將細(xì)胞質(zhì)中的物質(zhì)組成轉(zhuǎn)移到溶酶體中,再將其分解為初級(jí)成分[7]。自噬的平衡出現(xiàn)異常將導(dǎo)致腫瘤的發(fā)生和發(fā)展[8]。微小核糖核酸(microRNA,miRNA)也可以通過調(diào)節(jié)自噬相關(guān)的信號(hào)通路,干擾腫瘤細(xì)胞的增殖周期和凋亡。如在黑色素細(xì)胞瘤中,miR-290-295簇能靶向結(jié)合ulk1、atg7等多個(gè)自噬相關(guān)基因,抑制黑色素瘤細(xì)胞自噬性死亡,以提高腫瘤細(xì)胞的生存力[9]?;騧tor參與調(diào)節(jié)細(xì)胞自噬的過程,也是miR-1271的靶基因。在非小細(xì)胞肺癌中,miR-1271與mtor呈負(fù)相關(guān),miR-1271通過吸附mtor基因抑制其表達(dá),從而抑制非小細(xì)胞肺癌的增殖[10]。
鑒于miRNA在肺癌自噬中的重要作用,本研究通過比較癌癥基因組圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫中肺腺癌與正常肺組織中不同的自噬基因,尋找與自噬基因相關(guān)的miRNA,并構(gòu)建預(yù)后風(fēng)險(xiǎn)評(píng)分(risk score,RS)模型,探討運(yùn)用自噬相關(guān)miRNA預(yù)后RS模型預(yù)測(cè)肺腺癌患者預(yù)后的可行性,為肺腺癌的精準(zhǔn)醫(yī)療提供參考。
2021年8月從TCGA官方網(wǎng)站(https://gdc-portal.nci.nih.gov/)下載肺腺癌患者的信使核糖核酸(messenger RNA,mRNA)和miRNA測(cè)序數(shù)據(jù)及臨床信息,測(cè)序數(shù)據(jù)由Illumina高通量測(cè)序平臺(tái)獲得。數(shù)據(jù)內(nèi)容涉及肺腺癌患者535例腫瘤組織和59例癌旁組織及相關(guān)臨床信息。由于生存時(shí)間少于30 d的患者可能導(dǎo)致分析結(jié)果出現(xiàn)偏差,因此將其刪除,最終納入肺腺癌患者的例數(shù)為490例。
1.2.1 自噬相關(guān)miRNA的提取 從人類自噬數(shù)據(jù)庫(human autophagy database,HADb)(http://autophagy.lu/)中獲得自噬基因232個(gè),通過ActivePerl軟件(版本號(hào)5.26)提取自噬基因在TCGA的表達(dá)譜以及miRNA的表達(dá)譜。采用R軟件中的“edgeR”包(https://www.R-project.org)對(duì)mRNA和miRNA測(cè)序表達(dá)值進(jìn)行l(wèi)og2轉(zhuǎn)換,以log2(fold change)的絕對(duì)值>2和偽發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)<0.05設(shè)定為閾值,差異基因表達(dá)分析采用“edgeR”包。繪制熱圖展現(xiàn)差異表達(dá)的自噬基因和miRNA。使用R軟件中的“corrplot”包篩選出與自噬基因相關(guān)的miRNA,閾值設(shè)定為相關(guān)系數(shù)|r|>0.4,P<0.05,并繪制網(wǎng)絡(luò)圖。
1.2.2 隨機(jī)分組產(chǎn)生訓(xùn)練集和測(cè)試集 使用Excel軟件產(chǎn)生隨機(jī)數(shù),將490例肺腺癌患者均分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用來完成學(xué)習(xí)標(biāo)本特征分析和模型構(gòu)建,測(cè)試集用來完成內(nèi)部驗(yàn)證。
1.2.3 單因素Cox回歸分析聯(lián)合LASSO回歸分析篩選關(guān)鍵miRNA 為初步篩選出和生存預(yù)后相關(guān)的miRNA,使用R包“survival”對(duì)自噬相關(guān)miRNA進(jìn)行單因素Cox回歸分析,篩選出與預(yù)后相關(guān)的miRNA,并計(jì)算風(fēng)險(xiǎn)比。為避免單因素Cox回歸分析結(jié)果可能有過度擬合的問題,通過R包“glmet”對(duì)單因素Cox回歸篩選出的結(jié)果再次進(jìn)行LASSO回歸分析。本研究使用10折交叉驗(yàn)證法來確定最小λ值,當(dāng)λ最小時(shí)模型最優(yōu)化。一旦確定了miRNA,應(yīng)用它們構(gòu)建基于如下表達(dá)式的預(yù)后RS模型,表達(dá)式如下所示:
1.2.4 預(yù)后模型評(píng)價(jià)和卡普蘭-梅爾估計(jì)量法描述生存分析 為驗(yàn)證肺腺癌預(yù)后RS模型是否可以用于肺腺癌患者的預(yù)后評(píng)估,本研究對(duì)高風(fēng)險(xiǎn)人群和低風(fēng)險(xiǎn)人群采用卡普蘭-梅爾估計(jì)量法(Kaplan-Meier,K-M)進(jìn)行生存分析;其次,再次利用R軟件中的“survival”和“time ROC”包繪制3年及5年總生存率的受試者工作特征曲線(receiver operating characteristic curve,ROC)的曲線下面積(area under curve,AUC),評(píng)估其預(yù)測(cè)3、5年生存率的能力。此外,本研究結(jié)合TCGA下載的肺腺癌臨床相關(guān)信息,如年齡、性別、病理分期等,對(duì)預(yù)后模型進(jìn)行多因素Cox回歸分析,以驗(yàn)證該模型所計(jì)算出的危險(xiǎn)評(píng)估是否可成為獨(dú)立的預(yù)測(cè)因子,以諾莫列線圖的形式加以展示。
1.2.5 試驗(yàn)驗(yàn)證 1)標(biāo)本來源:收集成都醫(yī)學(xué)院第一附屬醫(yī)院2016年3月至2019年7月收治的肺腺癌患者50例,相應(yīng)的50例肺腺癌樣本及癌旁正常組織樣本通過外科手術(shù)或呼吸與危重癥醫(yī)學(xué)科纖支鏡活檢手術(shù)獲得,病理結(jié)果均確診為肺腺癌?;颊呒凹覍俸炇鹬橥鈺?,配合參與本研究試驗(yàn),倫理申請(qǐng)通過成都醫(yī)學(xué)院第一附屬醫(yī)院倫理委員會(huì)批準(zhǔn)。2)制劑:Trizol、實(shí)時(shí)定量PCR所需試劑、RIPA裂解緩沖液(美國,賽默飛世爾科技公司)。3)引物的設(shè)計(jì)和合成:按照GenBank中提供的人hsa-mir-31,hsa-mir-1293,hsa-mir-548f-1全長基因序列,由杭州艾比肯生物工程(浙江)股份有限公司設(shè)計(jì)合成,以U6為內(nèi)參基因,制定的引物序列(表1)。4)PCR實(shí)驗(yàn)方法:實(shí)時(shí)定量PCR嚴(yán)格按照商品的使用說明書進(jìn)行操作,所獲標(biāo)本進(jìn)行研磨后,用Trizol試劑從標(biāo)本中提取總RNA,用ND-1200核酸定量檢測(cè)儀(美國,賽默飛世爾科技公司)測(cè)定提取總RNA的濃度和吸光度值,以吸光度值1.8~2.0為合格??俁NA經(jīng)過1%瓊脂糖凝膠電泳鑒定,所有樣本總RNA的吸光度值均為1.8~2.0,提示提取的總RNA質(zhì)量合格。按照PrimeScriptTMRT Master Mix試劑盒(日本,Takara公司)合成cDNA,以u(píng)6為內(nèi)參;檢測(cè)在ABI 8000實(shí)時(shí)定量PCR儀進(jìn)行,反應(yīng)條件按照如下標(biāo)準(zhǔn)進(jìn)行設(shè)定:95 ℃預(yù)變性30 s;95 ℃、5 s;60 ℃、34 s;總共40個(gè)循環(huán);60 ℃退火30 s。計(jì)算2-ΔΔct作為相對(duì)表達(dá)量。
表1 目的miRNA和參照基因的引物序列
符合納入標(biāo)準(zhǔn)的肺腺癌患者490例,隨機(jī)分為訓(xùn)練集和測(cè)試集,兩組患者的臨床特征,包括年齡、性別、腫瘤分期、生存狀態(tài)和生存時(shí)間等,差異無統(tǒng)計(jì)學(xué)意義(P>0.05)(表2),說明訓(xùn)練集和測(cè)試集的樣本來源于同一個(gè)總體,隨機(jī)分組合理。
表2 納入患者的基本資料和特征
總體樣本中,經(jīng)R軟件分析,滿足條件log2FC的絕對(duì)值>2和FDR<0.05的自噬基因共有30個(gè)。基因表達(dá)譜聚類熱圖展示了其在樣本中的表達(dá)(圖1)。
圖1 59例正常肺組織和490例肺腺癌組織中30個(gè)自噬基因的差異表達(dá)
通過Perl軟件共提取出1 881個(gè)miRNA,篩選出70個(gè)差異表達(dá)的miRNA(圖2),依據(jù)相關(guān)系數(shù)(|r|>0.4,P<0.05)獲得12個(gè)自噬相關(guān)miRNA,這12個(gè)自噬相關(guān)miRNA和5個(gè)自噬基因相關(guān)(圖3)。
圖2 70個(gè)差異miRNA的熱圖
圖3 自噬相關(guān)的12個(gè)miRNA網(wǎng)絡(luò)互作圖
訓(xùn)練集中,采用Perl軟件將每個(gè)樣本的臨床信息與miRNA的表達(dá)量進(jìn)行合并,單因素Cox回歸分析初步篩選出和肺腺癌預(yù)后相關(guān)的3個(gè)關(guān)鍵miRNA;通過LASSO回歸分析進(jìn)一步確定了3個(gè)關(guān)鍵的自噬相關(guān)miRNA,分別是hsa-mir-31、hsa-mir-1293和hsa-mir-548f-1(圖4)。3個(gè)自噬相關(guān)miRNA的生物學(xué)信息(表3)。
圖4 LASSO回歸模型篩選變量
表3 3個(gè)自噬相關(guān)miRNA的詳細(xì)信息
訓(xùn)練集中,上述研究中所得的3個(gè)自噬相關(guān)miRNA,通過RS表達(dá)式再次計(jì)算出訓(xùn)練集中每個(gè)肺腺癌患者的預(yù)后RS,RS=0.048×hsa-mir-31+0.201×hsa-mir-1293+0.174×hsa-mir-548f-1,以中位值為界線將患者分成高、低風(fēng)險(xiǎn)組,并構(gòu)建相應(yīng)的預(yù)后模型。K-M生存分析顯示,高風(fēng)險(xiǎn)組患者的中位生存期是1.63年,預(yù)測(cè)3、5年患者的生存率分別為49%、25%,低風(fēng)險(xiǎn)組中位生存期是2.08年,3、5年生存率分別為74%、52%,低風(fēng)險(xiǎn)組總體生存時(shí)間(overall survival,OS)較高風(fēng)險(xiǎn)組長(P<0.05)(圖5A);3年總生存率的AUC=0.796,5年總生存率的AUC=0.837(圖5B),該預(yù)后模型的C指數(shù)為0.811。與訓(xùn)練集一樣,測(cè)試集中高風(fēng)險(xiǎn)分?jǐn)?shù)越高的患者預(yù)后越差(P<0.05)(圖6A),3年總生存率的AUC=0.684,5年總生存率的AUC=0.646(圖6B),并且R軟件計(jì)算出該預(yù)后模型的C指數(shù)為0.761。
圖5 訓(xùn)練集中模型的預(yù)測(cè)能力評(píng)估
圖6 測(cè)試集中模型的預(yù)測(cè)能力評(píng)估
訓(xùn)練集中,以O(shè)S為因變量,以RS、年齡、性別、病理分期等多個(gè)因素作為協(xié)變量進(jìn)行單因素和多因素Cox回歸分析,結(jié)果顯示RS與患者OS呈負(fù)相關(guān),且可作為1個(gè)獨(dú)立的預(yù)測(cè)預(yù)后的因子(HR=2.100,95%CI=1.541~2.861,P<0.05)。經(jīng)過測(cè)試集驗(yàn)證,本預(yù)后模型也可作為1個(gè)獨(dú)立的預(yù)測(cè)預(yù)后的因子(HR=1.826,95%CI=1.282~3.425,P<0.05)(表4)。
表4 肺腺癌患者訓(xùn)練集、測(cè)試集的單因素和多因素分析比較(n=245)
基于多因素Cox回歸系數(shù)建立諾莫列線圖(圖7A);校正曲線提示,模型對(duì)3、5年的生存率均有較好的預(yù)測(cè)能力(3年的C指數(shù)為0.712,5年的C指數(shù)為0.705)(圖7B)。
圖7 模型形成諾莫列線圖
收集到的符合納入標(biāo)準(zhǔn)的肺腺癌患者50例,其中男35例,女15例,年齡中位數(shù)為47歲,TNM分期Ⅰ期25例,Ⅱ期15例,Ⅲ期10例。實(shí)時(shí)定量PCR提示,hsa-mir-31在肺腺癌中相對(duì)量表達(dá)水平為(3.381±0.265),正常組織(0.682±0.014)(t=69.287,P=0.001),hsa-mir-1293在肺腺癌中相對(duì)表達(dá)量表達(dá)水平為(1.862±0.054),正常組織(0.161±0.021)(t=217.352,P=0.004),hsa-mir-548f-1在肺腺癌中相對(duì)表達(dá)量表達(dá)水平為(0.967±0.179),正常組織(0.217±0.041)(t=28.046,P=0.001)。3個(gè)miRNA在肺腺癌組織中表達(dá)均較高,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)(圖8)。
圖8 3個(gè)miRNA在肺腺癌組織和癌旁正常組織的表達(dá)
miRNA為一種轉(zhuǎn)錄長度約22個(gè)核苷酸的非編碼RNA,伴有非完整的特異性開放閱讀框,同時(shí)缺乏編碼蛋白質(zhì)的功能[11]。目前許多研究[12-13]證實(shí),miRNA能夠通過組蛋白修飾、染色質(zhì)異構(gòu)、RNA代謝等生物學(xué)過程調(diào)控自噬基因的表達(dá)。多種腫瘤和miRNA的異常表達(dá)緊密相關(guān),miRNA既可作為腫瘤抑制因子,又可作為促腫瘤生長因子[14]。有研究[15]報(bào)道,在非小細(xì)胞肺癌中,腫瘤抑制因子有l(wèi)et-7家族、miR-200、miR-486等;而另一方面,miR-31、miR-212及miR-196a具有促進(jìn)肺癌細(xì)胞生長的作用[16]。miRNA以通過與靶標(biāo)基因mRNA的3′端非翻譯區(qū)結(jié)合為主要途徑,沉默靶標(biāo)mRNA或者抑制mRNA的翻譯,以此調(diào)控相應(yīng)蛋白的表達(dá)[17]。
miRNA的過表達(dá)、缺失或突變可通過調(diào)控腫瘤的自噬基因而對(duì)腫瘤的惡性生物行為產(chǎn)生驅(qū)動(dòng)作用。Pishkari等[18]研究表明,在甲狀腺髓樣癌細(xì)胞中,過表達(dá)miR-183后LC3B表達(dá)量下降,腫瘤細(xì)胞增殖速度增快。此外,一些異常表達(dá)miRNA也與肺癌的不良預(yù)后密切相關(guān),如程永華等[19]研究表明,miR-200b在非小細(xì)胞肺癌患者血清中表達(dá)量較健康人低,且低表達(dá)miR-200b的肺癌患者淋巴結(jié)轉(zhuǎn)移的概率明顯增高,OS更短。盡管目前關(guān)于miRNA在肺癌自噬中的研究已有很多,但多數(shù)是研究單個(gè)miRNA對(duì)自噬的調(diào)節(jié)作用,范圍較局限,自噬相關(guān)miRNA在肺腺癌中的作用和機(jī)制以及在臨床預(yù)后評(píng)估中的應(yīng)用仍有待進(jìn)一步探索。
本研究通過生物信息學(xué)數(shù)據(jù)庫TCGA和HADb,獲得了肺腺癌患者自噬相關(guān)miRNA表達(dá)譜,用Perl軟件與生存相關(guān)信息匹配合并。本研究發(fā)現(xiàn),在肺腺癌中的自噬基因存在異常表達(dá),這些異常與患者的預(yù)后相關(guān)。針對(duì)自噬基因的表達(dá)改變,初步篩選出了自噬基因相關(guān)的miRNA有70個(gè)。為探尋單個(gè)自噬相關(guān)miRNA和臨床預(yù)后的關(guān)系,進(jìn)行了單因素Cox回歸分析,篩選出12個(gè)自噬相關(guān)miRNA和臨床預(yù)后密切相關(guān)。但單因素Cox回歸分析每次僅納入1個(gè)變量,可能存在過度擬合的現(xiàn)象,進(jìn)一步使用LASSO回歸分析進(jìn)行降維可以降低過度擬合,最終確定了3個(gè)關(guān)鍵的自噬相關(guān)miRNA構(gòu)建模型。根據(jù)模型對(duì)每個(gè)肺腺癌患者計(jì)算預(yù)后RS,并按照預(yù)后RS的中位數(shù)值分為高危組患者和低危組患者,在高、低危組間運(yùn)用K-M生存分析,繪制ROC并計(jì)算C指數(shù),以評(píng)估該預(yù)后RS模型的預(yù)測(cè)精度,模型結(jié)果提示,低危組患者具有明顯的生存優(yōu)勢(shì),3、5年總生存率的AUC值均較高,預(yù)示模型具有中等程度的預(yù)測(cè)能力。最后,將年齡、性別、病理分期等納入多因素Cox回歸分析,模型的HR=2.100,95%CI=1.541~2.861,P<0.05,說明可以作為1個(gè)獨(dú)立的預(yù)后因子,并且諾莫列線圖提示預(yù)后模型具有一定的臨床實(shí)用價(jià)值。為了更進(jìn)一步驗(yàn)證模型中3個(gè)miRNA的臨床意義,本研究收集了50例肺腺癌患者的腫瘤標(biāo)本,檢測(cè)這3個(gè)自噬相關(guān)miRNA表達(dá)量,結(jié)果顯示,hsa-mir-31、hsa-mir-1293、hsa-mir-548f-1的表達(dá)水平在肺腺癌組織中均較高,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),其結(jié)果與生物信息學(xué)分析預(yù)測(cè)的趨勢(shì)一致。本研究中,hsa-mir-31與cdkn2a有共表達(dá)關(guān)系,研究[20]表明,hsa-mir-31是一種人體進(jìn)化中高度保守的miRNA,定位于人類染色體9q21.3上,cdkn2a并不是hsa-mir-31靶基因,不能直接受到hsa-mir-31的調(diào)控,兩者共表達(dá)關(guān)系可能與hsa-mir-31與cdkn2a位置相鄰有關(guān),關(guān)于hsa-mir-1293,hsa-mir-548f-1和肺癌的研究報(bào)道較少,其與gapdh、birc5的機(jī)制有待進(jìn)一步研究。
雖然本研究模型中的3個(gè)miRNA與肺腺癌預(yù)后密切相關(guān),且該模型可以作為獨(dú)立的預(yù)后因子,但是目前暫缺乏關(guān)于它們調(diào)控機(jī)制的基礎(chǔ)實(shí)驗(yàn)研究,所以它們?cè)诜蜗侔┲兴l(fā)生的作用機(jī)制仍不清楚,有待進(jìn)一步探索。另外,本研究采用的生物信息分析方法和工具較多,利用系統(tǒng)方法處理大量的數(shù)據(jù)是其優(yōu)勢(shì),但仍然存在一定的不足之處:1)大部分?jǐn)?shù)據(jù)均來自于TCGA數(shù)據(jù)庫,未通過其他數(shù)據(jù)庫再次對(duì)其驗(yàn)證;2)預(yù)后RS模型僅納入了自噬相關(guān)miRNA表達(dá)水平,未考慮其他基因改變,如LncRNA、circRNA等表達(dá)水平改變對(duì)預(yù)后的影響。在下一步研究中,將結(jié)合本研究的驗(yàn)證數(shù)據(jù)和隨訪信息,開展更為深入的生物學(xué)水平機(jī)制研究,同時(shí)考慮納入更多可能影響臨床預(yù)后的因素,如吸煙情況、LncRNA、circRNA表達(dá)水平等,以期構(gòu)建更穩(wěn)定和可靠的預(yù)后RS模型服務(wù)于肺癌患者。
綜上所述,本研究通過挖掘TCGA數(shù)據(jù)庫,構(gòu)建了1個(gè)基于3個(gè)自噬相關(guān)miRNA的肺腺癌預(yù)后模型,預(yù)測(cè)準(zhǔn)確性中等,且該模型可以作為獨(dú)立的預(yù)后因子,可能為肺腺癌機(jī)制的研究提供一定理論依據(jù),為探索肺腺癌相關(guān)分子標(biāo)志物及個(gè)體化治療方案提供一定參考。