張斯娜,馬書杰
1.淄博市疾病預(yù)防控制中心性病艾滋病防制所(山東淄博 255020)
2.河南理工大學(xué)醫(yī)學(xué)院(河南焦作 454003)
急性髓系白血病(acute myeloid leukemia,AML)是一種未成熟髓系造血干細(xì)胞異??寺⌒詯盒阅[瘤,具有高度異質(zhì)性,其主要特征是克隆性造血干細(xì)胞或祖細(xì)胞(hematopoietic stem and progenitor cells, HSPCs)分化和凋亡障礙。AML可導(dǎo)致克隆性HSPCs 在骨髓中惡性增殖和聚集,從而影響骨髓正常造血功能[1-2]。AML 的高度異質(zhì)性與多種因素有關(guān),如基因組突變、表觀遺傳學(xué)異常和基因表達(dá)異常等[3]。全球范圍內(nèi),AML發(fā)病人數(shù)從1990 年的63 840 例增加到2017 年的119 570 例,發(fā)病率在過(guò)去的28 年間增加了87.3%[4]?;煛⑸镏苿┖透杉?xì)胞移植是AML的主要治療方式[5-7]。盡管AML 的治療取得了重大進(jìn)展,但化療藥物毒性可能導(dǎo)致急性和危及生命的并發(fā)癥。AML 通常預(yù)后不良,患者中位生存時(shí)間僅為8.5 個(gè)月,2 年和5 年總生存率(overall survival, OS)均低于35%,僅35%~40%的年輕患者(<60 歲)和5%~15%的老年患者(≥60 歲)在化療后可存活5 年以上[8-9]。隨著分子生物學(xué)的迅速發(fā)展,基因組學(xué)、蛋白質(zhì)組學(xué)和生物信息學(xué)分析方法已被用于開發(fā)新的個(gè)性化治療策略,研究相關(guān)生物分子的功能,收集臨床數(shù)據(jù)基因組匹配的新趨勢(shì)信息是改善AML 患者預(yù)后的有效方法[10-11]。盡管許多研究分析了AML 的基因組變異,但基因組變異與AML 分子機(jī)制間的關(guān)聯(lián)仍不明確。因此,需要進(jìn)一步探索更有效的AML早期診斷和預(yù)后方法。AML 的基因表達(dá)譜已被證明在診斷不同的細(xì)胞遺傳學(xué)亞型、發(fā)現(xiàn)新的AML亞類和預(yù)測(cè)預(yù)后方面具有重要價(jià)值[12-13]。基因組分析是篩選潛在的疾病診斷和預(yù)后生物標(biāo)志物的一種有效方法,本研究基于公共數(shù)據(jù)庫(kù)的基因表達(dá)譜數(shù)據(jù)集構(gòu)建并驗(yàn)證AML 患者預(yù)后風(fēng)險(xiǎn)模型,識(shí)別AML 患者的預(yù)后生物標(biāo)志物。
基于癌癥基因組圖譜(The Cancer Genome Atla, TCGA)數(shù)據(jù)庫(kù)(https://gdc.xenahubs.net/download/TCGA-LAML/Xena_Matrices/TCGALAML.htseq_fpkm.tsv.gz),獲取AML 基因數(shù)據(jù)(151 例)作為病例組?;诨蛐?組織表達(dá)(Genotype-Tissue Expression, GTEx) 數(shù)據(jù)庫(kù)(https://toil.xenahubs.net/download/TCGatargettex_rsem_gene_fpkm.gz),獲取正常骨髓樣本(70 例)作為對(duì)照組。利用Wilcoxon 秩和檢驗(yàn)分析AML樣本基因數(shù)據(jù),篩選|logFC|>2 且錯(cuò)誤發(fā)現(xiàn)率(false discovery rate, FDR)<0.05 的差異表達(dá)基因(differentially expressed genes, DEGs)。采用單因素Cox 回歸分析,篩選DEGs 中與AML 生存相關(guān)基因,以P<0.01 為差異有統(tǒng)計(jì)學(xué)意義。
151 例AML 樣本中,剔除臨床特征信息缺失和隨訪時(shí)間為0 的樣本后,最終納入132 例,將132 例AML 樣本按照1 ∶ 1 的比例隨機(jī)分成兩組,分別作為訓(xùn)練集和測(cè)試集。在訓(xùn)練集中,通過(guò)單變量Cox 比例風(fēng)險(xiǎn)回歸分析mRNA 的表達(dá)與患者OS 之間的關(guān)系。在構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型前,采用隨機(jī)生存森林算法對(duì)AML 預(yù)后相關(guān)的差異基因進(jìn)行篩選。在隨機(jī)生存森林監(jiān)督分類算法中,采用迭代過(guò)程縮小基因集。隨機(jī)森林的樹數(shù)(ntree)為1 000,將每一步輸入節(jié)點(diǎn)數(shù)的平方根設(shè)為單個(gè)分類樹的每個(gè)節(jié)點(diǎn)隨機(jī)選取的預(yù)后相關(guān)的差異mRNA 的大小,對(duì)袋外數(shù)據(jù)樣本進(jìn)行泛化誤差估計(jì)。為了選擇極少最重要的基因變量,可依據(jù)變量的重要性(per-mutation variable important,VIMP)對(duì)變量進(jìn)行篩選,VIMP 值越大表明其預(yù)測(cè)能力越強(qiáng)。風(fēng)險(xiǎn)預(yù)測(cè)評(píng)分模型是基于AML 預(yù)后相關(guān)的差異基因而構(gòu)建,通過(guò)其估計(jì)回歸系數(shù)加權(quán)如下:
其中,N 為預(yù)后相關(guān)的差異基因數(shù)量,Expi為預(yù)后相關(guān)的差異基因的表達(dá)值,Coei為單變量Cox 回歸分析中預(yù)后相關(guān)差異基因的估計(jì)回歸系數(shù)。模型構(gòu)建后,模型中涉及的特征基因通過(guò)以下方式進(jìn)一步驗(yàn)證:①對(duì)模型高低風(fēng)險(xiǎn)組的生存分析,最佳的截?cái)啾磉_(dá)值由“survminer”R 包的“surv_cutpoint”函數(shù)確定。使用Kaplan-Meier和log-rank 方法在訓(xùn)練集中進(jìn)行生存分析,再使用AML 數(shù)據(jù)和臨床信息在測(cè)試集中驗(yàn)證該模型。②在訓(xùn)練集和測(cè)試集中使用“survivalROC”R 軟件包進(jìn)行時(shí)間依賴的受試者工作特征(receiver operating characteristic, ROC)曲線分析,并計(jì)算1 年、2 年和3 年AML 患者生存率的ROC 曲線下面積(area under the curve, AUC)。通過(guò)決策曲線分析量化不同時(shí)間概率下的凈收益,從而確定風(fēng)險(xiǎn)評(píng)分的臨床實(shí)用性,決策曲線分析通過(guò)“rmda”R 軟件包進(jìn)行?;谒袠颖镜幕虮磉_(dá),使用“Rtsne”R 軟件包進(jìn)行t-SNE 分析,探索不同組的分布。
在全集中,對(duì)AML 患者總生存率顯著相關(guān)的臨床特征數(shù)據(jù)進(jìn)行分層分析,其中年齡以60歲為截?cái)嘀?,?0 歲為老年組,<60 歲為年輕組。
為了闡明與風(fēng)險(xiǎn)評(píng)分相關(guān)的生物學(xué)功能和途徑,高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組之間的DEGs 被用于進(jìn)行基因本體(Gene Ontology, GO)富集分析。利用“clusterProfiler”R 包進(jìn)行分析,以校正后P值小于0.05 為差異有統(tǒng)計(jì)學(xué)意義。
訓(xùn)練集、測(cè)試集和全集中AML 患者的臨床特征見表1。
表1 AML患者的臨床特征Table 1.Clinical characteristics of patients with AML
基于AML 樣本和正常骨髓樣本數(shù)據(jù),共獲取19 022 個(gè)基因的mRNA 測(cè)序數(shù)據(jù),通過(guò)基因差異顯著性分析篩選出2 270 個(gè)DEGs(圖1)。通過(guò)單變量Cox 回歸分析,得到335 個(gè)AML 預(yù)后相關(guān)特征基因(P<0.01)。
圖1 差異基因表達(dá)熱圖Figure 1.Heatmap of differential genes expression
為了進(jìn)一步縮小預(yù)后基因的數(shù)量,通過(guò)隨機(jī)森林算法對(duì)335 個(gè)與AML 患者OS 顯著相關(guān)的DEGs 進(jìn)行分析,在每一步中,根據(jù)通過(guò)置換測(cè)試使用袋外樣品對(duì)每個(gè)基因的重要分?jǐn)?shù)進(jìn)行估計(jì),丟棄不重要的基因,并根據(jù)每一步中的排列重要評(píng)分,得到與AML 患者OS 顯著相關(guān)的5 個(gè)基因標(biāo)志物 (ACOT7、SFXN3、SLC29A2、HINT2和ZMAT1),見圖2-A。
圖2 特征基因風(fēng)險(xiǎn)評(píng)分分析Figure 2.Risk scoring analysis of characteristic genes
風(fēng)險(xiǎn)評(píng)分模型構(gòu)建如下:風(fēng)險(xiǎn)評(píng)分=(-0.959 24×ZMAT1表達(dá)值)+(0.525 21×SFXN3表達(dá)值)+(1.060 22×HINT2表達(dá)值)+(0.669 68×SLC29A2表達(dá)值)+(0.079 19×ACOT7表達(dá)值)?;陲L(fēng)險(xiǎn)評(píng)分模型計(jì)算訓(xùn)練集每個(gè)AML 患者的風(fēng)險(xiǎn)評(píng)分,根據(jù)評(píng)分將患者分為高風(fēng)險(xiǎn)組(n=24)和低風(fēng)險(xiǎn)組(n=42),使用cutoff=19.686 作為風(fēng)險(xiǎn)臨界值。圖2-B、圖2-C、圖2-D 展示了66 例AML 患者的預(yù)后評(píng)分、生存狀態(tài)和腫瘤mRNA 表達(dá)的分布,根據(jù)5 個(gè)特征基因的預(yù)后評(píng)分值進(jìn)行排序。在5 個(gè)基因中,4 個(gè)基因(ACOT7、SFXN3、SLC29A2和HINT2)與預(yù)后高風(fēng)險(xiǎn)相關(guān) [風(fēng)險(xiǎn)比(hazard ratio, HR)>1],1 個(gè)基因(ZMAT1)為保護(hù)性因素(HR <1)。預(yù)后評(píng)分高的基因傾向于表達(dá)高風(fēng)險(xiǎn)的mRNA,而預(yù)后評(píng)分低的基因傾向于表達(dá)保護(hù)性mRNA,見圖2-C 和圖2-D。Kaplan-Meier 生存分析和對(duì)數(shù)秩檢驗(yàn)表明,高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組的總體生存率有顯著差異,高風(fēng)險(xiǎn)組患者總生存期明顯短于低風(fēng)險(xiǎn)組(中位生存期3.79 年 vs.0.57 年,P<0.001),見圖2-E。5 個(gè)基因生存預(yù)測(cè)的時(shí)間依賴ROC 曲線分析顯示,1 年、2 年、3 年的AUC 值分別為0.778、0.743、0.677,曲線接近左上角,具有良好的敏感性和特異性,表明該預(yù)測(cè)模型具有較高的準(zhǔn)確率,見圖2-F。
為了測(cè)試5 個(gè)特征基因在預(yù)測(cè)AML 患者總生存期中的預(yù)后價(jià)值,在測(cè)試集中測(cè)試5 個(gè)特征基因。通過(guò)使用相同的風(fēng)險(xiǎn)評(píng)分模型,測(cè)試集的66 例患者被分為高風(fēng)險(xiǎn)組(n=33)和低風(fēng)險(xiǎn)組(n=33)。結(jié)果顯示,高風(fēng)險(xiǎn)組患者的總生存期明顯短于低風(fēng)險(xiǎn)組患者(中位生存期0.71 年vs.2.5 年,P<0.001),見圖3-A。時(shí)間依賴的ROC 曲線分析對(duì)5 個(gè)特征基因的生存預(yù)測(cè)的AUC值在1 年時(shí)達(dá)到0.775,2 年時(shí)達(dá)到0.746,3 年時(shí)達(dá)到0.696,見圖3-B。進(jìn)一步將5 個(gè)特征基因應(yīng)用于整個(gè)數(shù)據(jù)集的患者,以驗(yàn)證其預(yù)測(cè)價(jià)值,來(lái)自訓(xùn)練集的相同風(fēng)險(xiǎn)評(píng)分模型和中位風(fēng)險(xiǎn)截止標(biāo)準(zhǔn)將全集的132 例AML 患者分為高風(fēng)險(xiǎn)組(n=66)和低風(fēng)險(xiǎn)組(n=66)。高風(fēng)險(xiǎn)組患者的總生存期明顯短于低風(fēng)險(xiǎn)組患者(中位生存期0.68 年 vs.2.58 年,P<0.001),見圖3-C。在132 例AML患者全集中驗(yàn)證5 個(gè)特征基因的ROC 曲線在1 年、2 年、3 年的AUC 值分別為0.836、0.777、0.694,見圖3-D。
如表2 所示,多變量Cox 回歸分析結(jié)果表明,經(jīng)年齡、性別和各分子分析異常測(cè)試結(jié)果調(diào)整后,5 個(gè)特征基因仍與AML 患者總生存率存在顯著相關(guān)性。當(dāng)控制其他臨床變量時(shí),在訓(xùn)練集中,高風(fēng)險(xiǎn)組相對(duì)于低風(fēng)險(xiǎn)組總生存率的風(fēng)險(xiǎn)比為3.47[95%CI(1.80,6.70),P< 0.001],在測(cè)試集和全集中,高風(fēng)險(xiǎn)組相對(duì)于低風(fēng)險(xiǎn)組總生存率的風(fēng)險(xiǎn)比分別為3.25 [95%CI(1.71, 6.19),P<0.001]和3.39 [95%CI(2.12,5.43),P<0.001]。年齡與三組數(shù)據(jù)集AML 患者的總生存率顯著相關(guān),因此根據(jù)年齡進(jìn)行分層分析,所有患者被分為年輕組(n=77)和老年組(n=55),再根據(jù)風(fēng)險(xiǎn)評(píng)分模型,將年輕組和老年組患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。如圖4-A 和圖4-B 所示,生存分析表明,在年輕組和老年組中,高風(fēng)險(xiǎn)組的總體生存時(shí)間明顯短于低風(fēng)險(xiǎn)組(P<0.001)。
圖4 兩組總體生存率的估計(jì)Figure 4.Estimation of overall survival rates for two groups
表2 單變量和多變量Cox回歸分析結(jié)果Table 2.Results of univariate and multivariate Cox regression analysis
t-SNE 分析表明,不同風(fēng)險(xiǎn)組的患者分布在兩個(gè)方向(圖5-A)。5 個(gè)特征基因組合風(fēng)險(xiǎn)評(píng)分的決策曲線分析表明,風(fēng)險(xiǎn)評(píng)分預(yù)測(cè)AML 患者1 年、2 年和3 年的生存情況表現(xiàn)出比極端曲線更高的凈獲益,而1 年的閾值范圍更大,認(rèn)為1 年風(fēng)險(xiǎn)評(píng)分表現(xiàn)更優(yōu),見圖5-B。
圖5 特征基因的性能評(píng)估Figure 5.Performance evaluation of characteristic genes
如圖6-A 所示,在整個(gè)數(shù)據(jù)集中,DEGs 富集幾種與代謝過(guò)程相關(guān)的途徑,如固醇代謝過(guò)程、膽固醇代謝過(guò)程、類固醇代謝過(guò)程、仲醇代謝過(guò)程、脂質(zhì)代謝過(guò)程和酒精代謝過(guò)程(校正后P<0.05);在許多免疫相關(guān)的生物過(guò)程中也明顯富集,如白細(xì)胞遷移、T 細(xì)胞分化和巨噬細(xì)胞遷移(校正后P<0.05);DEGs 在凋亡相關(guān)的生物過(guò)程中也明顯富集,如凋亡信號(hào)通路的負(fù)調(diào)控、線粒體凋亡途徑和線粒體釋放細(xì)胞色素C途徑(校正后P<0.05)。圖6-B 展示了各途徑所富集到的基因。
圖6 GO富集分析Figure 6.GO enrichment analysis
在最近的研究中,許多AML 相關(guān)的癌基因和腫瘤抑制基因已被確定。例如,Zhou 等發(fā)現(xiàn)HSPG2過(guò)表達(dá)與AML 患者的不良預(yù)后相關(guān),AML 患者中HSPG2的表達(dá)水平顯著上調(diào),完全緩解后則下調(diào),而在復(fù)發(fā)時(shí)再次升高[14]。Li 等研究表明,SLC38A1是AML 的重要預(yù)后和預(yù)測(cè)指標(biāo),SLC38A1高表達(dá)患者的NPM1基因突變率較低,不良風(fēng)險(xiǎn)核型發(fā)生率較高,SLC38A1表達(dá)水平高的患者總生存期顯著縮短[15]。Wróbel 等發(fā)現(xiàn)IL-17F多態(tài)性與AML 的誘導(dǎo)密切相關(guān)[16]。盡管發(fā)現(xiàn)了一些與AML 預(yù)后和診斷相關(guān)的基因,但其在AML 中的作用仍有待探究。AML 的預(yù)后部分由遺傳因素驅(qū)動(dòng),多種基因的結(jié)合有助于提高預(yù)后預(yù)測(cè)的準(zhǔn)確性。本研究中,AML 患者的臨床數(shù)據(jù)和基因表達(dá)數(shù)據(jù)來(lái)自TCGA 數(shù)據(jù)庫(kù),以鑒定與預(yù)后相關(guān)的基因。通過(guò)單變量Cox 分析和隨機(jī)生存森林分析選擇生存相關(guān)特征基因,最終通過(guò)多變量Cox 回歸分析構(gòu)建了基于5 個(gè)預(yù)后相關(guān)特征基因的風(fēng)險(xiǎn)評(píng)分模型。
在本研究篩選出的5 個(gè)特征基因中,僅ZMAT1被認(rèn)為是低風(fēng)險(xiǎn)且與AML預(yù)后相關(guān)基因。目前尚未發(fā)現(xiàn)ZMAT1在AML 中的研究報(bào)告,但在胰腺導(dǎo)管腺癌中有過(guò)報(bào)道,研究發(fā)現(xiàn)ZMAT1的下調(diào)與胰腺導(dǎo)管腺癌不良的臨床病理特征和低生存率相關(guān),ZMAT1通過(guò)誘導(dǎo)SIRT3/p53信號(hào)通路在胰腺導(dǎo)管腺癌中起到抑癌因子的作用,其中ZMAT1促進(jìn)SIRT3基因的轉(zhuǎn)錄,隨后上調(diào)p53的表達(dá),并參與調(diào)節(jié)胰腺導(dǎo)管腺癌的細(xì)胞周期進(jìn)程和凋亡[17]。Zhang 等研究發(fā)現(xiàn)高水平的ACOT7對(duì)AML 患者的預(yù)后有顯著影響,ACOT7高表達(dá)組的無(wú)事件生存期(event-free survival, EFS)和OS顯著降低[18]。ACOT7的表達(dá)水平是影響AML 患者預(yù)后的獨(dú)立因素,ACOT7的高表達(dá)水平在男性患者中更常見,且表達(dá)水平與FAB 亞型以及細(xì)胞遺傳學(xué)之間可能存在潛在相關(guān)性[18]。SLC29A2也是ENT2,有研究表明肝細(xì)胞癌(hepatocellular carcinoma, HCC)組織中SLC29A2的上調(diào)與晚期、血管浸潤(rùn)與患者生存率不良顯著相關(guān)[19]。有研究推測(cè)SLC29A2的異常上調(diào)可能改變細(xì)胞核苷酸合成和核苷酸池平衡,從而導(dǎo)致癌癥基因組不穩(wěn)定,進(jìn)而為腫瘤提供生長(zhǎng)優(yōu)勢(shì)[20]。由于SLC29A2是一種已知的腺苷轉(zhuǎn)運(yùn)體,而從缺氧組織中釋放的腺苷刺激血管內(nèi)皮生長(zhǎng)因子的釋放,再結(jié)合內(nèi)皮細(xì)胞上的受體,刺激內(nèi)皮細(xì)胞增殖、遷移和腫瘤血管生成[20]。SFXN3和HINT2已被證明分別在口腔鱗狀細(xì)胞癌和肝細(xì)胞癌中作為癌基因[21-22]。Murase 等認(rèn)為口腔鱗狀細(xì)胞癌患者血清抗SFXN3自身抗體水平顯著升高,血清抗SFXN3-autoAb水平與原發(fā)腫瘤大小輕度相關(guān),但在早期癌癥中水平稍高,SFXN3蛋白在癌巢之間的基質(zhì)成纖維細(xì)胞中表達(dá),也在鱗狀上皮的基底層中表達(dá),治療后血清抗SFXN3自身抗體水平的變化與臨床腫瘤負(fù)荷相關(guān)[21]。Zhou 等研究表明HINT2在HCC組織中的表達(dá)明顯低于鄰近的非腫瘤組織,且HINT2低表達(dá)HCC 患者復(fù)發(fā)的可能性更高,可作為HCC 復(fù)發(fā)的一個(gè)預(yù)后指標(biāo)[22]。鑒于在其他類型癌癥中的重要作用,這些特征基因可用于預(yù)測(cè)AML 患者的生存率。基于5 個(gè)特征基因的風(fēng)險(xiǎn)評(píng)分模型,低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)患者的存活率有顯著差異,高風(fēng)險(xiǎn)患者比低風(fēng)險(xiǎn)患者存活時(shí)間明顯更短。
基于不同風(fēng)險(xiǎn)組間的DEGs 進(jìn)行了GO 富集分析,發(fā)現(xiàn)許多免疫相關(guān)的生物過(guò)程和途徑得到了富集,說(shuō)明AML 可能與腫瘤免疫有密切聯(lián)系的推測(cè)具有一定合理性?;? 個(gè)特征基因的風(fēng)險(xiǎn)評(píng)分模型初步用于AML 患者的生存預(yù)測(cè),并進(jìn)一步證明了這些特征基因在AML 生存中的重要作用,可作為更好地評(píng)估AML 患者生存和預(yù)后的新方法。此外,風(fēng)險(xiǎn)評(píng)分模型在測(cè)試集及整個(gè)數(shù)據(jù)集中得到進(jìn)一步驗(yàn)證,表明該模型在AML患者生存預(yù)測(cè)中具有良好的可重復(fù)性。由于流行病學(xué)的限制,本研究未能分析風(fēng)險(xiǎn)評(píng)分與AML患者生存率之間的具體關(guān)系,未來(lái)有待進(jìn)一步深入探究。
綜上所述,本研究確定了5 個(gè)與AML 預(yù)后密切相關(guān)的特征基因,并構(gòu)建和驗(yàn)證了基于5 個(gè)特征基因的風(fēng)險(xiǎn)評(píng)分模型,該模型可用于預(yù)測(cè)AML 患者的生存期,為AML 患者的個(gè)性化風(fēng)險(xiǎn)評(píng)估、治療和預(yù)后提供參考。