国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用TCGA公共數(shù)據(jù)庫挖掘乳腺癌預后相關長鏈非編碼RNA生物標志物*

2020-08-04 03:04:16喻冬柯
關鍵詞:共表達生存率乳腺癌

熊 萱, 李 一, 喻冬柯, 張 遠△

四川省醫(yī)學科學院·四川省人民醫(yī)院 1個體化藥物治療四川省重點實驗室,藥學部 2乳腺外科,成都 610072

乳腺癌占全球女性惡性腫瘤發(fā)病總數(shù)的25%,近幾十年來,發(fā)展中國家的乳腺癌發(fā)病率也在持續(xù)上升[1]。乳腺癌中又以導管癌和小葉癌較為常見。生物標志物(biomarker)有助于疾病診斷、判斷疾病分期或用來評價新藥及新療法在目標人群中的安全性和有效性[2]。隨著高通量測序技術的普及和表觀遺傳學的深入研究,長鏈非編碼RNA(long non-coding RNA,lncRNA)在疾病發(fā)生、發(fā)展中的作用得到越來越多的關注,被認為對疾病的早期診斷和預后評估有著極高的應用價值[3]。本研究利用公共數(shù)據(jù)庫癌癥基因組圖譜(The Cancer Genome Atlas,TCGA),下載女性乳腺癌轉(zhuǎn)錄組測序數(shù)據(jù),利用生物信息學方法篩選差異表達的lncRNAs,并對其與乳腺癌預后的相關性和其可能的生物學功能進行分析。

1 材料與方法

1.1 數(shù)據(jù)獲取

數(shù)據(jù)來源于TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/),篩選路徑如下:“Files”中“Data Category”選擇“Transcriptome Profiling”,“Data Type”選擇“Gene Expression Quantification”,“Workflow Type”選擇“HTSeq-Counts”,“Cases”中“Primary Site”選擇“Breast”,“Project”選擇“TCGA-BRCA”,“Disease Type”選擇“Ductal and Lobular Neoplasms”,“Gender”選擇“Female”,為保證數(shù)據(jù)準確性同時減少計算機運算負荷,在“Race”中選擇“Black or African American”。共獲取5例癌旁組織(正常對照)和150例癌組織的數(shù)據(jù)集。其中導管癌126例,小葉癌15例,導管癌混合其他類型癌9例?;颊咂骄挲g(57±14)歲,腫瘤分期為Ⅰ期有9例,Ⅰa期16例,Ⅰb期2例,Ⅱ期2例,Ⅱa期49例,Ⅱb期32例,Ⅲa期20例,Ⅲb期3例,Ⅲc期7例,Ⅳ期4例,4例分期不清(stage x),2例未報告。患者平均生存時間為(3.58±3.61)年。

1.2 數(shù)據(jù)處理

利用Perl腳本對下載的數(shù)據(jù)進行合并和ID轉(zhuǎn)換,得到155個樣本的基因表達矩陣。隨后利用R軟件的edger包進行數(shù)據(jù)標準化并計算差異表達的基因,設定表達水平倍數(shù)變化(fold change,F(xiàn)C)的log2絕對值(|log2FC|)大于1,將癌組織基因表達量與正常對照的中位數(shù)進行比較,取校正后P(Benjamini和Hochberg提出FDR)<0.05作為篩選標準。

1.3 數(shù)據(jù)分析

得到基因差異表達的矩陣后,提取其中的lncRNA,再與樣本的臨床數(shù)據(jù)(生存時間)相結合,利用R軟件的survival包進行單因素Cox回歸分析,鑒定其中與生存期顯著相關(P<0.05)的lncRNA,再將有顯著相關的lncRNA進行多因素Cox回歸分析,得到獨立風險因素。利用R軟件的survcomp包和survival ROC包進行一致性指數(shù)(C-index)的計算和ROC曲線下面積的繪制。根據(jù)多因素Cox分析得到的風險值(risk score)中位數(shù)將患者分為高、低風險組,使用Kaplan-Meier方法對高、低風險組的生存期進行比較,統(tǒng)計方法選用Log-rank。根據(jù)高、低風險,繪制生存曲線。

采用在線生存分析的方法驗證Cox回歸得到的獨立風險因素。網(wǎng)站選用lnCAR,lnCAR是專門針對lncRNA的綜合數(shù)據(jù)庫,數(shù)據(jù)源主要來源于GEO(Gene Expression Omnibus)[4]。將基因的名字分別輸入lnCAR網(wǎng)站(https://lncar.renlab.org/#1 st-screen),點選生存分析即可。

lncRNA與其潛在的調(diào)控靶基因可能有相同的表達模式,本研究利用共表達方式探尋lncRNA的靶基因,采用R軟件的limma包對標準化后的基因表達矩陣進行共表達基因的篩選。設定皮爾森相關系數(shù)(Pearson correlation coefficient)的絕對值>0.4和P<0.01為顯著相關。得到的基因名稱映射至在線網(wǎng)站metascape(http://metascape.org/gp/index.html#/main/step1)中,進行基因本體(Gene Oncology,GO)/京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)/Reactome Gene Sets通路分析。與參考數(shù)據(jù)集比較,P<0.05的條目富集程度具有顯著性意義。

2 結果

2.1 差異表達lncRNAs

通過對基因表達矩陣的計算和提取,一共得到168個差異表達lncRNA。與正常組織比較,乳腺癌組織表達增加的差異表達基因有75個,表達降低的差異表達基因有93個。表1列出了差異表達前10的lncRNAs。

表1 150名非裔美國女性導管癌和小葉癌患者轉(zhuǎn)錄本表達數(shù)據(jù)中顯著性差異表達排名前10的lncRNAsTable 1 Top 10 up- and down-regulated lncRNAs in 150 African-American women with ductal and lobular cancer

2.2 單因素Cox分析

對所有差異表達的lncRNA進行預后價值分析:通過與臨床生存時間相結合做單因素Cox回歸,篩選其中有顯著性的lncRNA共9個用于進一步的多因素回歸分析(表2)。

表2 單因素Cox回歸中與非裔美國女性乳腺導管癌和小葉癌患者生存率顯著相關的lncRNAsTable 2 LncRNAs with significant impact on survival of African-American women with ductal and lobular breast cancers by univariate Cox regression

2.3 多因素Cox比例風險回歸分析

將單因素Cox分析篩選得到的與患者生存率顯著相關的lncRNA納入到多因素Cox比例風險回歸分析中,得到的模型包括4個lncRNA:LINC00640(lnc00640)、LINC00506(lnc00506)、PCAT6(prostate cancer associated transcript 6)、HAGLROS(HAGLR opposite strand LncRNA)(圖1),其中l(wèi)nc00640、lnc00506、PCAT6的P<0.05,是獨立風險因素。

圖1 Cox多因素回歸分析lnc00640、PCAT6、HAGLROS、lnc00506在非裔美國女性導管癌和小葉癌患者中的風險比值比森林圖Fig.1 Cox multivariate regression analysis of risk ratio of lnc00640、PCAT6、HAGLROS、Lnc00506 in African-American women with duct and lobular breast cancer

將這4個lncRNA(lnc00640、lnc00506、PCAT6、HAGLROS)輸入到lnCAR網(wǎng)站中,顯示PCAT6和HAGLROS與乳腺癌患者的總生存率顯著相關(Log-rank檢驗P<0.05,驗證樣本數(shù)分別為263和104,均為高加索人),而lnc00506未顯示有顯著相關(P=0.889,驗證樣本數(shù)為42,高加索人),該網(wǎng)站中未能找到lnc00640與乳腺癌生存期相關的數(shù)據(jù)。見表3。

表3 lnCAR在線分析lnc00506、PCAT6、HAGLROS對乳腺癌患者總生存期影響Table 3 On-line survival analysis for lnc00506/PCAT6/HAGLROS using lnCAR

采用R軟件的survcomp包計算一致性指數(shù)(C-index)對該模型進行評價,其值為0.77(95%CI:0.67~0.87),說明有較高的預測準確率。

繪制多因素Cox比例風險回歸分析得到模型的ROC曲線,計算得到ROC曲線下面積(AUC)=0.82,表示模型準確率較高(圖2)。

圖2 ROC曲線下面積Fig.2 Area under the receiver operating characteristic(ROC)curve

根據(jù)Cox多因素回歸中計算得到的風險值將患者分為高、低風險組,利用Kaplan-Meier進行生存分析并進行Log-rank檢驗,發(fā)現(xiàn)高、低風險組患者的生存率存在顯著差異(P=4.269×10-4)。見圖3。

圖3 高低風險患者的生存率曲線Fig.3 Survival curves for high and low risk patients

2.4 共表達方式預測lncRNA功能

通過lncRNA與其共表達的mRNA來預測lncRNA的功能。經(jīng)過篩選,找到與lnc00640相關的共表達基因46個,與PCAT6相關的共表達基因2232個,與HAGLROS相關的共表達基因18個,與lnc00506相關的共表達基因1043個。將這些基因映射到metascape網(wǎng)站進行功能富集,發(fā)現(xiàn)lnc00640的功能主要富集在化學趨向性(GO:0006935,chemotaxis)、細胞之間的粘附(GO:0098742,cell-cell adhesion via plasma-membrane adhesion molecules)、蛋白定位(GO:0035418,protein localization to synapse)等方面(圖4);PCAT6的功能主要富集在RNA的代謝(R-HSA-8953854,metabolism of RNA)和RNA的各項功能調(diào)節(jié)(R-HSA-72766,translation;R-HSA-72312,rRNA processing;GO:0006397,mRNA processing;R-HSA-6790901,rRNA modification in the nucleus and cytosol;GO:0090501,RNA phosphodiester bond hydrolysis;GO:0009451,RNA modification)等方面(圖5);lnc00506的功能主要富集在細胞遷移(GO:0040017,positive regulation of locomotion)、白細胞分化(GO:002521,leukocyte differentiation)、免疫系統(tǒng)調(diào)節(jié)(GO:0002683,negative regulation of immune system process)、腫瘤壞死因子信號通路(hsa04668,TNF signaling pathway)、磷脂酰肌醇3激酶/蛋白激酶B信號通路(hsa04151,PI3K-Akt signaling pathway)等方面(圖6)。通過該方式未能找到HAGLROS相關的功能富集通路,可能與篩選到的共表達基因數(shù)量較少有關。

圖6 Lnc00506共表達基因在metascape的功能富集柱狀圖Fig.6 Functional enrichment histogram of Lnc00506’s co-expressed genes in metascape

圖5 PCAT6共表達基因在metascape的功能富集柱狀圖Fig.5 Functional enrichment histogram of PCAT6’s co-expressed genes in metascape

圖4 lnc00640共表達基因在metascape的功能富集柱狀圖Fig.4 Functional enrichment histogram of lnc00640’s co-expressed genes in metascape

3 討論

lncRNA長度在200~100000個核苷酸之間,不編碼蛋白卻參與細胞內(nèi)多種調(diào)控。lncRNA目前還處于研究初級階段,其種類、數(shù)量、功能都不明確,屬于基因組中人類知之甚少的“暗物質(zhì)”[3]。

lncRNA在腫瘤的發(fā)生、發(fā)展過程中起促進腫瘤或抑制腫瘤抑制因子的作用,參與細胞凋亡、腫瘤浸潤和轉(zhuǎn)移過程。尋找正常組織和腫瘤組織之間的lncRNA差異表達可作為疾病預防、治療和預后的生物標志物[8]。Sun等[9]最新的研究發(fā)現(xiàn),SNHG7(long non-coding RNA small nucleolar RNA host gene 7)可通過吸附微小RNA-34a(miRNA-34a)調(diào)控上皮細胞間質(zhì)轉(zhuǎn)型(epithelial-mesenchymal transitions,EMT)和NOTCH-1信號通路,從而影響乳腺癌癌細胞的增殖和浸潤。Gupta等[10]研究發(fā)現(xiàn)HOTAIR(HOX transcript antisense RNA),一種可以與多硫蛋白抑制體2(plolycomb repressive complex2,PRC2)和組蛋白去甲基化酶復合體相結合從而調(diào)控基因表達的lncRNA,與乳腺癌的轉(zhuǎn)移和預后密切相關,高表達預示著高轉(zhuǎn)移風險和不良預后。HOTAIR在血清中的高表達也被發(fā)現(xiàn)具有潛在的診斷乳腺癌的價值[11]。lncRNA還與乳腺癌的治療相關:有研究報道lncRNA ARA和ATB分別與乳腺癌治療用藥阿霉素和曲妥珠單抗的耐藥相關[12-13]。

乳腺癌是常見的癌癥,是全世界女性癌癥死亡的第二大原因。目前,乳腺癌的治療手段包括外科手術、放療、化療、激素治療和免疫治療,在不斷進步的治療方法下,其5年生存率有了較大改善。但是,仍然有不少乳腺癌對現(xiàn)有的治療方式不敏感,出現(xiàn)轉(zhuǎn)移和復發(fā),最終導致患者死亡[14],這類現(xiàn)象的原因還未闡明。通過研究lncRNA這一類新興的表觀遺傳調(diào)控分子,可對乳腺癌的調(diào)控機制有更深入的了解。本研究利用公共數(shù)據(jù)庫進行數(shù)據(jù)挖掘得到了4個跟乳腺癌預后顯著相關的lncRNA——lnc00640、PCAT6、HAGLROS和lnc00506。對這4個lncRNA相關文獻進行檢索,發(fā)現(xiàn)對它們進行的功能研究均很少。其中,PCAT6被發(fā)現(xiàn)通過Wnt/β-catenin通路調(diào)節(jié)細胞生長和腫瘤轉(zhuǎn)移,也可以通過以miR-204為靶標介導結腸癌細胞對5-氟尿嘧啶的耐藥[15-16]。雖然未能查詢到HAGLROS的功能富集通路,但有文獻顯示其表達高低與骨癌患者的預后相關[17]。體外實驗證明HAGLROS可以通過調(diào)節(jié)凋亡和自噬影響癌細胞[18-19]。目前尚未找到關于lnc00640和lnc00506的任何文獻報道。這4個lncRNA是否能成為新的乳腺癌預后標志物或者是疾病新靶標,尚需在臨床樣本中進一步驗證。

隨著大數(shù)據(jù)時代的到來、信息資源共享水平不斷提升、數(shù)據(jù)獲取與處理技術不斷突破,讓科學家們能夠通過公共資源短時間內(nèi)獲取自己關注疾病與非編碼RNA的關系,這無疑大大加快了科學家們對這一新興領域的探索,是一種值得推薦的高效的研究方式。

猜你喜歡
共表達生存率乳腺癌
絕經(jīng)了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
侵襲性垂體腺瘤中l(wèi)ncRNA-mRNA的共表達網(wǎng)絡
“五年生存率”不等于只能活五年
人工智能助力卵巢癌生存率預測
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
“五年生存率”≠只能活五年
膀胱癌相關lncRNA及其共表達mRNA的初步篩選與功能預測
HER2 表達強度對三陰性乳腺癌無病生存率的影響
癌癥進展(2016年12期)2016-03-20 13:16:14
滨海县| 全椒县| 阿尔山市| 峡江县| 固安县| 香格里拉县| 页游| 保靖县| 长泰县| 靖州| 临武县| 巴青县| 乌兰浩特市| 海丰县| 高州市| 水城县| 禄丰县| 基隆市| 嘉义县| 遵义县| 北碚区| 丹棱县| 禹城市| 内乡县| 浙江省| 广西| 武鸣县| 沭阳县| 吉木乃县| 西林县| 图们市| 保德县| 胶州市| 武功县| 南阳市| 鸡西市| 潜江市| 梅州市| 平乐县| 桐柏县| 宣城市|