李耀威 壽堅 陳龍
卵巢癌(ovarian cancer,OC)是導致婦科惡性腫瘤患者死亡的主要原因,75%OC病理類型系上皮性來源,卵巢上皮性癌(epithelial ovarian carcinoma,EOC)患者的生存率近年來未明顯提高[1],鑒定敏感且切實有效的生物標志物對實現(xiàn)早期診斷或有效預測EOC 患者的臨床預后有重要的現(xiàn)實意義。lncRNA是一類長度超過200個核苷酸的非編碼RNA,越來越多證據(jù)表明lncRNA 起著癌基因、抑癌基因或兩者兼?zhèn)涞淖饔茫?-4]。然而,大多數(shù)lncRNA 的表達模式、生物學功能和臨床意義仍不甚清楚。本研究對在OC 患者中表達異常lncRNA 相關聯(lián)的蛋白質編碼基因(protein coding gene,PCG)進行生物信息學分析,以期對lncRNA 在參與OC 致病、進展、預后等方面機制增進了解,進而為后續(xù)實驗設計提供線索。
1.1 獲取OC 組織中與lncRNA 共表達且差異表達的基因(1)差異表達mRNA 芯片數(shù)據(jù)的獲取:①在美國國立生物技術中心(NCBI)的Gene Expression Omnibus(GEO)數(shù)據(jù)庫中檢索與OC 相關的mRNA 表達譜芯片數(shù)據(jù)集(檢索條件:研究類型為expression profiling by array、種屬為homo sapiens、病例和對照樣本數(shù)目均≥10 例、時間為自建庫至2022 年12 月31 日),隨后下載符合納入條件的mRNA 表達譜芯片數(shù)據(jù)集備后續(xù)分析。②R/Bioconductor 中的Limma 軟件包(3.36.5 版)用于識別OC組織和正常卵巢上皮組織之間的差異表達基因(DEG)。使用Benjamini 和Hochberg 提出的偽發(fā)現(xiàn)率(FDR)得到調整后P值糾正偽陽性結果。P<0.05和|log2(FC)|>1 設置為差異基因的納入標準[注:FC表示差異倍數(shù)(fold change)]。根據(jù)下載的平臺注釋文件匹配矩陣文件中的原始探針數(shù)據(jù)為基因名稱,通過最小P 值選擇同一基因對應的多個探針的表達值作為該基因的表達值。(2)在OC 組織中與lncRNA 共表達基因的獲取。①利用關鍵詞“l(fā)ong non-coding RNA”、“l(fā)ong noncoding RNA”、“l(fā)ncRNA”、“ovarian cancer”、“ovarian carcinoma”、“ovarian neoplasm”、“ovarian tumor”、“ovarian tumors”、“ovarian tumour”、“ovarian tumours”、“ovarian malignancy”通過計算機及手工檢索Medline/PubMed、EMBASE、Web of Knowledge 數(shù)據(jù)庫,檢索時間從建庫至2022 年12 月31 日。查找來源于OC 患者、經過實驗證實表達異常且明確已知其序列及結構等注釋信息的lncRNA 納入分析。②利用perl 語言及R 語言平臺使用皮爾森相關系數(shù)和z-test 檢驗目標lncRNA 的表達水平與每個PCG 之間的相關性。與目標lncRNA 正或負相關的PCG 被視為與lncRNA 相關的PCG(| pearson correlation|> 0.4,P<0.01 為判定標準)。(3)通過Venny 2.1.0 在線工具,取相關芯片數(shù)據(jù)差異基因(A)與lncRNA 共表達相關基因(B)的交集即獲得OC 組織中與lncRNA 共表達且差異表達的PCG。
1.2 生物學功能及通路富集分析 利用在線數(shù)據(jù)庫DAVID 中GO 和KEGG 進行生物功能及通路富集分析,F(xiàn)DR<0.05 判定為有統(tǒng)計學意義。
1.3 PPI 網(wǎng)絡構建 及hub gene 確 定 PPI 網(wǎng)絡由STRING 數(shù)據(jù)庫構建,并使用Cytoscape 進行可視化處理。Hub gene 是在生物學過程中發(fā)揮至關重要作用的基因,在相關通路中,其他基因的調控常受該基因的影響,PPI 網(wǎng)絡中degree ≥10 判定為hub gene 的納入標準。
1.4 Module 分析 使用Cytoscape 軟件MCODE 軟件包進行module 分析,設定degree cutoff=2,node score cutoff=0.2,k-core=2,and max.depth=100。使用DAVID對module 中的DEG 進行GO 分析及KEGG 通路富集分析。
1.5 對hub gene 進行生存分析 OncoLnc 是與mRNA、miRNA 或lncRNA 的表達數(shù)據(jù)相關聯(lián)的可用于生存分析的在線工具。
2.1 OC 組織中與lncRNA 共表達且差異表達基因的獲得(1)OC 組織中差異表達基因的獲得:由GEO 數(shù)據(jù)庫獲得GSE14407 和GSE18520 兩個mRNA 表達譜芯片數(shù)據(jù)集。GSE14407 和GSE1852 芯片數(shù)據(jù)集分別由12、53 個上皮性OC 組織和12、10 個正常卵巢上皮組織構成。從GSE14407、GSE18520 數(shù)據(jù)集中分別識別出2328 和9590 個DEG。(2)lncRNA 數(shù)據(jù)的獲得:通過檢索文獻共獲得9 種lncRNA(分別是LINC01088[5]、SNHG3[6]、SPRY4-IT1[7]、CPS1-IT1[8]、CDKN2BAS1(又 名ANRIL)[9]、MALAT1[10]、FAM215A[11]、LINC00472[11]和HOTAIR[12],以上均已知序列及結構等注釋信息)供作者進行生物信息學分析研究。利用皮爾森相關系數(shù)和z-test 檢驗9 種lncRNA 的表達水平與每個PCG 之間的相關性后發(fā)現(xiàn),9 種lncRNA 共表達的PCG 數(shù)目(去重后)總和為15,965 個。(3)利用在線工具venny 將GSE18520、GSE14407 數(shù)據(jù)集所得DEG同與lncRNA 共表達的PCG 取交集得到與lncRNA 共表達且屬差異表達的基因共1,421 個。
2.2 與lncRNA 共表達且屬差異表達基因的生物學功能分析 GO分析發(fā)現(xiàn)許多共表達差異基因參與了DNA replication、cell division、cell proliferation、extracellular exosome 及protein binding 等功能富集過程;KEGG 分析發(fā)現(xiàn)在這些共表達基因中有49 個基因參與了pathways in cancer 信號通路。見表1。
表1 與lncRNA共表達的差異表達基因的GO及KEGG分析
2.3 PPI 網(wǎng)絡構建和hub gene 確定及互作分析 經PPI網(wǎng)絡構建后,滿足與lncRNA 共表達且屬差異表達基因的PPI 網(wǎng)絡由979 nodes 和5,060 edges 組成。隨后篩選出滿足條件的hub gene 共274 個。
2.4 Module 確定和功能富集分析 用Cytoscape 軟件中的MCODE 應用程序分析互作網(wǎng)絡后,獲得2 個重要module,標記為module 1 和module 2,分別包括46、35個nodes 和917、290 個edges。對module 1 進行GO 分析表明,這些基因參與cell cycle、cell division、ATP binding、nucleoside binding、nucleotide binding、microtubule motor activity 等生物學過程;KEGG 分析發(fā)現(xiàn)參與Cell cycle及Oocyte meiosis 信號通路。對 module 2 進行GO 分析表明,這些基因參與modification-dependent macromolecule catabolic process、modification-dependent protein catabolic process、cellular protein catabolic process、protein ubiquitination、ubiquitin-protein ligase activity、actin binding 等生物學過程,KEGG 分析表明參與Ubiquitin mediated proteolysis 信號通路。
2.5 hub gene 表達水平對OC 患者總體生存情況的影響 由于hub gene 在生物學過程中發(fā)揮至關重要作用,在相關通路中,其他基因的調控常受到hub gene 影響,因此,檢驗hub gene 與OC 患者預后轉歸情況有重要臨床意義。利用OncoLnc 評估了所得的274 個hub gene與OC 患者預后相關性的情況,結果發(fā)現(xiàn)高表達水平的CDCA3、IQGAP1、BTRC、UBR4、FBXL3、FGF2、SYT1、TRIM4、REPS1、AGFG1、PCNT、POLK、PTGER3和QKI 與OC 患者的總體生存率(OS)降低顯著相關(P<0.05);低表達水平的EXO1、MCM3、POLR2D、ANAPC11、SPC24、KLHL25、LSM4、PUF60 和EIF3M與OC 患者的OS 降低顯著相關(P<0.05)。
據(jù)相關統(tǒng)計表明,大約70%的OC 患者在首次明確診斷時已屬腫瘤晚期(III 或IV 期),其5 年生存率<30%;然而,能早期(I 或II 期)明確診斷的患者5年生存率高達70%~90%[13],故開發(fā)敏感且可靠的生物標志物以早期診斷OC進而制定有效防治策略具有重要意義。相關研究表明異常表達的lncRNA 與包括OC 在內的惡性腫瘤的發(fā)生、耐藥及診斷預后密切相關[14-15]。
在本研究中,作者對已發(fā)表的有關OC 患者異常表達lncRNA 相關文獻進行分析,得到目前已知序列及結構等注釋信息的lncRNA 共9 種,隨后通過與GSE14407、GSE18520 數(shù)據(jù)集取交集獲得在OC 組織中與上述差異lncRNA 相關的差異表達基因共1,421 個。這些差異基因由478 個上調基因和943 個下調基因組成。這些差異基因在細胞組成(CC)方面主要富集在細胞質、核質、中間體、微管、細胞骨架、細胞膜、有絲分裂核分裂、細胞核和溶酶體膜等部位;在生物學過程(BP)方面主要富集在DNA 復制、細胞分裂、細胞增殖和胞外外泌體等過程;在分子功能(MF)方面主要富集在蛋白質結合過程。KEGG 分析提示49 個差異表達基因(上調18 個,下調31 個)參與了Pathways in cancer 通路。隨后,從PPI 網(wǎng)絡中篩選出hub gene 274個;經OncoLnc 在線工具分析這些hub gene 與OC 患者的生存預后相關性后發(fā)現(xiàn),14 個基因的高水平表達和9 個基因的低水平表達與OC 患者的不良OS 結局密切相關。
一些hub gene 已在其他實驗研究中得到證實與患者的不良預后密切相關。例如,CDCA3 在各種類型癌癥的發(fā)展中起著關鍵作用[16-17]。本研究提示,CDCA3在OC 患者中表達水平異常升高,且與OC 患者的不良預后相關(P<0.05),提示CDCA3 有望作為腫瘤預后標志物。又如,在先前報道的OC 研究中,IQGAP1 在OC浸潤前期的高表達水平和彌散性表達模式與不良預后顯著相關,表明IQGAP1 可能是OC 的潛在預后標志物。就目前診治水平而言,OC 的預后仍較差,這與OC 患者明確診斷時間較晚及患者并發(fā)廣泛的腹膜內轉移密切相關。本研究中的預后分析表明IQGAP1 與OC 的OS不良預后密切相關。若進一步深入研究其致病性、轉移等惡性生物學行為機理,則有望指導IQGAP1 高表達和彌散性表達患者個體化隨訪頻率并設計出更為有效的治療方法。其他hub gene,如EXO1、POLR2D、BTRC等在本研究中均提示與OC 的不良預后密切關系,但這些基因在腫瘤方面的研究報道甚少,故有進一步研究挖掘的潛在意義。
綜上所述,與lncRNA 相關聯(lián)的hub gene 的異常表達與OC 患者的不良OS 預后密切相關,一些hub gene如MCM3、CDCA3、IQGAP1、KLHL25 及SPC24 等在其他實驗研究中也已得到證實,相對較多的hub gene 與腫瘤的預后相關性尚未見于文獻報道。目前關于lncRNA及其靶基因協(xié)同作用在OC 的基礎和臨床研究較少,故值得進一步探究,因此,本研究對于開展lncRNA 及與之共表達的相關基因對OC 的診斷、預后等實驗生物學研究具有一定的啟示作用。下一步,本課題組將對篩選的部分差異基因進行實驗和臨床雙重驗證,并將追蹤更新的芯片數(shù)據(jù)進行生物信息學分析。