2且pvalue關(guān)鍵詞: R語(yǔ)言;數(shù)據(jù)挖掘;前列腺癌;關(guān)鍵基因【Abstract】 To search for key genes in Prostate Cancer tissues and normal prostate tissues, the ge"/>

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于R語(yǔ)言的前列腺癌樣本的關(guān)鍵基因數(shù)據(jù)挖掘

2019-12-05 08:35:54孫澤坤袁錢(qián)圖胡建新
關(guān)鍵詞:R語(yǔ)言前列腺癌數(shù)據(jù)挖掘

孫澤坤 袁錢(qián)圖 胡建新

摘 要:為尋找前列腺癌組織與正常前列腺組織的關(guān)鍵基因,從Gene Expression Omnibus(GEO)數(shù)據(jù)庫(kù)下載前列腺癌樣本基因表達(dá)譜數(shù)據(jù)集GSE69223。進(jìn)行芯片標(biāo)準(zhǔn)化處理后設(shè)置閾值|log2(FC)|>2且pvalue<0.05篩選出差異表達(dá)的基因,選擇其中高表達(dá)的41個(gè)基因進(jìn)行GO和KEGG分析,得出8個(gè)關(guān)鍵基因:FFAR2、THBS4、TRPM4、CLDN3、CLDN8、HPN、PLA2G2A和FOLH1基因。再經(jīng)UALCAN生存分析的到3個(gè)上調(diào)后患者生存可能性降低的基因:FFAR2、HPN和FOLH1。得出的8個(gè)關(guān)鍵基因主要富集在細(xì)胞趨化性、細(xì)胞-細(xì)胞連接、脂肪酸代謝等通路,這些通路與前列腺癌的發(fā)生發(fā)展有著密切聯(lián)系。除文獻(xiàn)已經(jīng)報(bào)道的與前列腺癌有密切聯(lián)系的基因外,研究推測(cè):CLDN3、CLDN8和FFAR2基因可能與前列腺癌特別是處于T2、T3分期的前列腺癌有著潛在的聯(lián)系。

關(guān)鍵詞: R語(yǔ)言;數(shù)據(jù)挖掘;前列腺癌;關(guān)鍵基因

【Abstract】 To search for key genes in Prostate Cancer tissues and normal prostate tissues, the gene expression profile data set GSE69223 of Prostate Cancer samples is downloaded from the Gene Expression Omnibus (GEO) database. After the chip standardization treatment, the threshold ∣log2(FC)∣>2 and pvalue<0.05 are used to screen out the differentially expressed genes, and 41 genes with high expression are selected for GO and KEGG analysis, and 8 key genes are obtained: FFAR2, THBS4, TRPM4, CLDN3, CLDN8, HPN, PLA2G2A and FOLH1 genes. After UALCAN survival analysis, the genes with reduced survival probability after three up-regulations are: FFAR2, HPN and FOLH1. The eight key genes are mainly enriched in cell chemotaxis, cell-cell junction, and fatty acid metabolism. These pathways are closely related to the development of Prostate Cancer. In addition to the genes already reported in the literature that are closely related to Prostate Cancer, it is hypothesized that the CLDN3, CLDN8, and FFAR2 genes may be potentially associated with Prostate Cancer, particularly Prostate Cancer at T2 and T3 stages.

【Key words】 ?R language; data mining; Prostate Cancer; key genes

0 引 言

前列腺癌(Prostate Cancer,PCa)是男性常見(jiàn)惡性腫瘤之一,多發(fā)于老年男性,同時(shí)具有高轉(zhuǎn)移性,且早期沒(méi)有明顯癥狀,發(fā)現(xiàn)可能已經(jīng)是晚期[1]。據(jù)美國(guó)癌癥協(xié)會(huì)估計(jì),2018年美國(guó)有大約164 690例新發(fā)PCa病例。同年大約有29 430例死于該病,這使其在世界致癌誘因統(tǒng)計(jì)榜單中已排至第二位[2]。與大多數(shù)其它癌癥一樣,PCa病情的發(fā)展取決于其擴(kuò)散,因此局部疾病患者的5年生存率幾乎為100%,癌癥轉(zhuǎn)移患者的生存率將下降至28%[3]。中國(guó)前列腺癌發(fā)病率雖遠(yuǎn)低于歐美國(guó)家,但隨著中國(guó)社會(huì)老齡化程度的逐漸提高、飲食結(jié)構(gòu)及生活習(xí)慣的不斷改變、診療水平及生產(chǎn)工藝的亟待改進(jìn)等因素,中國(guó)前列腺癌的發(fā)病率也有逐年上升的趨勢(shì)[4]。

研究可知,R語(yǔ)言是由Ihaka和 Gentleman教授聯(lián)合開(kāi)發(fā)的一種計(jì)算機(jī)語(yǔ)言[5],現(xiàn)已經(jīng)主要應(yīng)用于數(shù)據(jù)處理、統(tǒng)計(jì)計(jì)算、數(shù)學(xué)建模、數(shù)據(jù)可視化等多個(gè)領(lǐng)域,是一款開(kāi)源、免費(fèi)、自由的面向?qū)ο蟮木幊誊浖?,并已擁有Linux、(Mac)OS X、Windows等多個(gè)版本。R語(yǔ)言使用的拓展包(packages)可根據(jù)用戶需要自由開(kāi)發(fā),同時(shí)還可供使用者免費(fèi)下載[6]。隨著計(jì)算機(jī)技術(shù)及高通量測(cè)序技術(shù)的發(fā)展,生物芯片已然成為臨床樣本分析的一種有效方法,為疾病預(yù)測(cè)、分子診斷、新藥開(kāi)發(fā)發(fā)揮著強(qiáng)有力的助益作用[7-8]。本研究采用了基于R語(yǔ)言的芯片分析方法來(lái)研究前列腺癌與正常前列腺組織之間的基因差異,從GEO數(shù)據(jù)(https://www.ncbi.nlm.nih.gov/geo/)下載基因表達(dá)譜數(shù)據(jù)集GSE69223后對(duì)樣本進(jìn)行質(zhì)量檢測(cè),數(shù)據(jù)清洗后設(shè)定閾值∣log2(FC)∣>2, pvalue<0.05,篩選出差異表達(dá)基因(FC:fold change 基因倍數(shù)變化),對(duì)其中的上調(diào)基因進(jìn)行KEGG和GO分析以及UALACN(http://ualcan.path.uab.edu/)生存分析,從而發(fā)現(xiàn)了一些前列腺癌、特別是處于T2、T3分期的前列腺癌的關(guān)鍵基因,對(duì)研究前列腺癌的分子診斷、抗前列腺癌藥物候選靶點(diǎn)提供了有益參考。

1 材料與方法

1.1 材料

芯片數(shù)據(jù)集GSE69223及芯片平臺(tái)數(shù)據(jù)GPL570從GEO數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)下載得到,R語(yǔ)言版本為R3.6。除內(nèi)置程序包外,其余拓展包下載自https://cran.r-project.org/及http://bioconductor.org/packages。

1.2 實(shí)驗(yàn)方法

1.2.1 數(shù)據(jù)獲取及數(shù)據(jù)清洗

GSE69223基因表達(dá)譜芯片數(shù)據(jù)由美國(guó)Affymetrix公司制作,使用芯片平臺(tái)為GPL570。數(shù)據(jù)集GSE69223包括15個(gè)正常前列腺組織樣本以及15個(gè)前列腺癌組織樣本。下載txt格式的原始數(shù)據(jù),使用R語(yǔ)言獲取表達(dá)矩陣、分組信息、表型數(shù)據(jù),過(guò)濾掉沒(méi)有基因名對(duì)應(yīng)的探針以及對(duì)應(yīng)某個(gè)基因名的多個(gè)探針。

1.2.2 聚類分析和PCA分析

使用R語(yǔ)言中的dist和hclust函數(shù)對(duì)30個(gè)樣品進(jìn)行聚類分析,初步判斷15個(gè)正常樣本與15個(gè)前列腺癌樣本的差異,用以檢測(cè)該數(shù)據(jù)集是否具有數(shù)據(jù)挖掘的潛力。再對(duì)樣本進(jìn)行主成分分析(PCA),用以判斷是否有潛在因子影響兩者之間的差異性。

1.2.3 獲得表達(dá)差異基因

用T檢驗(yàn)獲得包含基因名、LogFC、pvalue等信息的數(shù)據(jù)框,以∣log2(FC)∣>2,pvalue<0.05為閾值篩選出差異基因,并規(guī)定LogFC>2為上調(diào),LogFC<-2為下調(diào)。

1.2.4 差異表達(dá)基因的KEGG分析和GO分析

使用R語(yǔ)言中的clusterProfiler包對(duì)差異表達(dá)基因中的上調(diào)基因進(jìn)行KEGG分析和GO富集分析。找出該基因的功能和富集的KEGG信號(hào)通路等信息。

1.2.5 生存分析

將經(jīng)KEGG分析和GO分析的上調(diào)差異基因上傳到UALACN(http://ualcan.path.uab.edu/),選擇prostate adenocarcinoma(前列腺腺癌)進(jìn)行生存分析,獲得差異基因與生存時(shí)間之間的關(guān)系。

2 結(jié)果與分析

2.1 數(shù)據(jù)獲取及數(shù)據(jù)清洗

數(shù)據(jù)集包括15個(gè)正常前列腺樣本以及15個(gè)前列腺癌樣本的、共54 675個(gè)基因。通過(guò)數(shù)據(jù)清洗及標(biāo)準(zhǔn)化過(guò)程,可得與探針具有一一對(duì)應(yīng)關(guān)系的基因有23 521個(gè)。為檢驗(yàn)基因表達(dá)量的準(zhǔn)確性,研究繪制了管家基因(GAPDH)以及β-actin的箱型圖(見(jiàn)圖1(a)),發(fā)現(xiàn)兩者的表達(dá)量平均值都在0附近,這表明此數(shù)據(jù)集中的基因表達(dá)未出現(xiàn)異常,在誤差允許范圍內(nèi)可進(jìn)行后續(xù)分析。將30個(gè)樣本納入分析范圍,圖1(b)展示了各樣本中基因的表達(dá)情況。

2.2 聚類分析和PCA分析

為初步判斷30個(gè)樣本中的前列腺正常樣本(normal)與前列腺癌樣本的差異,研究對(duì)樣本進(jìn)行了聚類分析和PCA分析。分析結(jié)果表明,樣本中的某些基因的差異表達(dá),可作為前列腺癌的診斷依據(jù)。在此次聚類分析中,有10個(gè)正常樣本與前列腺癌樣本分開(kāi),準(zhǔn)確度達(dá)到66.7%,但此數(shù)據(jù)集中樣本總量為30個(gè),分組數(shù)據(jù)較少,用聚類分析只能初步揭示正常樣品與前列腺癌樣品具有差異性(見(jiàn)圖1(c))。進(jìn)一步地,對(duì)樣品進(jìn)行PCA分析。結(jié)果表明,主成分1對(duì)樣本差異性的貢獻(xiàn)率為11.44%,主成分2對(duì)樣本差異性的貢獻(xiàn)率為9.87%,通過(guò)主成分1(PC1)和主成分2(PC2)可以將前列腺正常樣本與前列腺癌樣本較好的進(jìn)行區(qū)分(見(jiàn)圖1(d))。

2.3 獲得表達(dá)差異基因

通過(guò)T檢驗(yàn),得到包含基因名、log2(FC)以及pvalue的數(shù)據(jù)框,設(shè)定閾值pvalue<0.05,log2(FC)>2以及l(fā)og2(FC)<-2的基因,并規(guī)定log2(FC)>2的基因?yàn)樯险{(diào)基因,log2(FC)<-2的基因?yàn)橄抡{(diào)基因,得到101個(gè)下調(diào)基因和41個(gè)上調(diào)基因(見(jiàn)圖2(a))。選擇前列腺癌較正常前列腺組織中的上調(diào)基因41個(gè),導(dǎo)出其基因名及pvalue詳見(jiàn)表1。

2.4 KEGG和GO分析

將得到的41個(gè)基因利用超幾何分布原理在KEGG和GO數(shù)據(jù)庫(kù)中進(jìn)行比對(duì),得到富集結(jié)果見(jiàn)表2、表3。GO分析結(jié)果表明,前列腺癌細(xì)胞較前列腺正常細(xì)胞上調(diào)的差異基因主要富集的細(xì)胞活動(dòng)過(guò)程有:白細(xì)胞遷移、細(xì)胞趨化性、細(xì)胞粘附、外肽酶活性、細(xì)胞 - 細(xì)胞連接。FFAR2、THBS4、TRPM4、CLDN3、CLDN8以及HPN被富集到多條通路。FFAR2、HBS4和TRPM4三個(gè)基因與白細(xì)胞遷移與細(xì)胞趨化性有關(guān),白細(xì)胞遷移,可能導(dǎo)致前列腺癌組織中的白細(xì)胞增多,白細(xì)胞產(chǎn)生白介素,調(diào)控多種生理生化反應(yīng)。該樣本中前列腺癌樣本集中于T2、T3分期,該時(shí)期的前列腺癌存在轉(zhuǎn)移潛能,因此可能與細(xì)胞趨化性有關(guān)。CLDN3和CLDN8是Claudin家族基因,該基因編碼的蛋白由Shoichiro Tsukita及其同事在1998年發(fā)現(xiàn),是細(xì)胞緊密連接的重要分子,已有報(bào)道稱Claudin-1在結(jié)腸癌、Claudin-10在肝細(xì)胞癌、Claudin-18在胃癌中具有一定的臨床價(jià)值[9-11]。HPN基因又叫Hepsin基因,該基因編碼一種II型跨膜絲氨酸蛋白酶,該蛋白酶可能參與多種細(xì)胞功能,包括凝血和維持細(xì)胞形態(tài)。編碼蛋白的表達(dá)與癌癥,尤其是前列腺癌的生長(zhǎng)和發(fā)展有關(guān)[12]。KEGG富集分析結(jié)果表明,差異表達(dá)的基因主要集中在緊密連接信號(hào)通路、多種生物分子代謝信號(hào)通路(在此列舉一條α-亞麻酸代謝信號(hào)通路)、細(xì)胞粘附分子(CAMs)信號(hào)通路、黏著力信號(hào)通路、維生素消化吸收信號(hào)通路。除GO分析結(jié)果涉及的基因外,KEGG分析中還出現(xiàn)了PLA2G2A、FOLH1兩個(gè)基因。PLA2G2A基因編碼的蛋白是磷脂酶A2家族(PLA 2)的成員。該基因產(chǎn)物屬于Ⅱ類,含有分泌型PLA 2,這是一種低分子質(zhì)量的胞外酶,需要鈣離子進(jìn)行催化。也可催化磷酸甘油中sn-2脂肪酸?;ユI的水解,釋放游離脂肪酸和溶血磷脂,并參與生物膜磷脂代謝的調(diào)控[13]。同時(shí),通過(guò)富集的結(jié)果來(lái)看,該基因還參與其他生物大分子如亞油酸代謝、脂肪消化吸收、醚脂代謝、花生四烯酸代謝、甘油磷脂代謝。而脂肪酸的氧化代謝過(guò)程已被證實(shí)與前列腺癌的發(fā)生和發(fā)展有著密切聯(lián)系[14]。FOLH1基因編碼屬于M28肽酶家族的Ⅱ型跨膜糖蛋白。該蛋白以谷氨酸羧肽酶的形式存在于不同的替代底物上,包括營(yíng)養(yǎng)葉酸和神經(jīng)肽N-乙酰-1-天冬氨酰-1-谷氨酸,在前列腺、中樞神經(jīng)、外周神經(jīng)系統(tǒng)和腎臟等多種組織中均有表達(dá)。在前列腺中,該基因編碼的蛋白質(zhì)(PSMA)在癌細(xì)胞中被上調(diào),并被用作前列腺癌的有效診斷和預(yù)后指標(biāo)[15]。

2.5 生存分析

在UALCAN得到的生存分析結(jié)果中,研究發(fā)現(xiàn),在候選的8個(gè)基因中,有5個(gè)基因的高表達(dá)組的生存可能較高,而FFAR2、FOLH1、HPN高表達(dá)組的生存可能性較低(見(jiàn)圖2(b)~(d))。其中,已經(jīng)有文獻(xiàn)報(bào)道HPV編碼的蛋白與前列腺癌有關(guān)[12],F(xiàn)OLH1基因編碼的蛋白已成為前列腺癌的腫瘤標(biāo)志物[11],而在相同的數(shù)據(jù)庫(kù)相同樣本的情況下,F(xiàn)FAR2組的P值最小,差異最為顯著,因此研究推斷,F(xiàn)FAR2基因與前列腺癌有較大關(guān)聯(lián)性。

3 結(jié)束語(yǔ)

R語(yǔ)言作為一種操作簡(jiǎn)單、免費(fèi)、開(kāi)源的編程語(yǔ)言,適用于多種操作系統(tǒng),為使用者提供了極大的方便。此次研究從GSE69223基因表達(dá)譜數(shù)據(jù)集中獲取了54 675個(gè)基因,設(shè)定閾值pvalue<0.05,log2(FC)>2,篩選出其中的41個(gè)上調(diào)基因,并對(duì)這些基因進(jìn)行了KEGG分析和GO分析,獲得8個(gè)關(guān)鍵基因FFAR2、THBS4、TRPM4、CLDN3、CLDN8、HPN、PLA2G2A以及FOLH1。其中,F(xiàn)FAR2、THBS4、TRPM4三個(gè)基因與細(xì)胞趨化性相關(guān),查看該數(shù)據(jù)集的表型數(shù)據(jù)發(fā)現(xiàn),腫瘤樣本全部處于T2、T3時(shí)期,此3個(gè)基因的上調(diào),印證了該分期的前列腺癌繼續(xù)發(fā)展可能轉(zhuǎn)移的事實(shí)。CLDN3和CLDN8屬于Claudin家族基因,該基因編碼的蛋白是細(xì)胞緊密連接的重要分子,已有報(bào)道稱Claudin-1在結(jié)腸癌、Claudin-10在肝細(xì)胞癌、Claudin-18在胃癌中具有一定的臨床價(jià)值,因此研究推測(cè)CLDN3和CLDN8兩個(gè)基因可能與前列腺癌有潛在聯(lián)系。PLA2G2A參與多種脂類大分子代謝,而脂肪酸的氧化代謝過(guò)程已被證實(shí)與前列腺癌的發(fā)生發(fā)展有著密切聯(lián)系。HPN和FOLH1已被文獻(xiàn)報(bào)道與前列腺癌有著密切聯(lián)系,并且FOLH1編碼的蛋白(PSMA)還被用作前列腺癌的腫瘤標(biāo)志物,在前列腺癌的診斷和預(yù)后中起著不可替代的作用。通過(guò)生存分析,研究還發(fā)現(xiàn)這8個(gè)關(guān)鍵基因中,F(xiàn)FAR2、HPN以及FOLH1三個(gè)基因的高表達(dá)會(huì)減低患者生存可能性,除文獻(xiàn)已經(jīng)報(bào)道的HPN核FOLH1基因外,本文再次經(jīng)過(guò)分析推測(cè)后指出,F(xiàn)FAR2基因與前列腺癌的發(fā)生及發(fā)展有著潛在的關(guān)聯(lián)性。但要明確其具體機(jī)制,卻還需展開(kāi)進(jìn)一步研究。

參考文獻(xiàn)

[1]SHI Wei, DONG Li, BAO Junsheng. Progress in the studies of prostate cancer related molecules[J]. National Journal of Andrology, 2015, 21(4):357-362.

[2]America Cancer Society. Cancer Information, Answers, and Hope[EB/OL]. https://www.cancer.org/cancer/prostate-cancer/about/key statistics.html.

[3]MILLER K D, SIEGEL R L, LIN C C, et al. Cancer treatment and survivorship statistics,2016[J]. CA Cancer J Clin. 2016,66(4):271-289.

[4]萬(wàn)克松. 手術(shù)去勢(shì)間斷聯(lián)合抗雄激素藥物治療晚期前列腺癌臨床療效研究[D]. 廣州:南方醫(yī)科大學(xué), 2012.

[5]IHAKA R, GENTLEMAN R. R: A language for data analysis and graphics[J].Journal of Computational and Graphical Statistics,1996, 5(3) :299-314.

[6]韓俊偉, 智慧, 王宏, 等. R語(yǔ)言在生物信息實(shí)踐中的應(yīng)用[J]. 生物技術(shù)世界, 2015(2):180.

[7]李喜瑩, 李珊珊. 生物芯片技術(shù)及其在臨床檢驗(yàn)醫(yī)學(xué)中的應(yīng)用進(jìn)展[J]. 分子診斷與治療雜志, 2011,3(1):62-67.

[8]于穎彥. 生物芯片在胃癌藥物病理學(xué)研究中的先導(dǎo)作用[J]. 上海交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版), 2007,27(5):491-493.

[9]李東升, 王巍, 李晴, 等. 結(jié)腸癌組織中Her-2和Claudin-1的表達(dá)及意義[J]. 廣東醫(yī)學(xué), 2012, 33(2):237-239.

[10]張正東. Claudin-1和Claudin-10在肝細(xì)胞癌中的表達(dá)及意義[D]. 合肥:安徽醫(yī)科大學(xué), 2011

[11]左忠林, 陳鵬, 陳小龍,等. Claudin-18在胃癌中的臨床表達(dá)關(guān)系與治療[J]. 中華臨床醫(yī)師雜志(電子版), 2018, 12(3):173-176.

[12]KIM H J , HAN J H , CHANG I H , et al. Variants in the HEPSIN gene are associated with susceptibility to prostate cancer[J]. Prostate Cancer and Prostatic Diseases, 2012, 15(4):353-358.

[13]洪雙雙. PLAG1和PLA2G2A在肝癌中的異常表達(dá)[D]. 鄭州:鄭州大學(xué), 2011.

[14]姜偉. 復(fù)雜疾病特異的基因網(wǎng)路與microRNA-TF協(xié)同調(diào)控網(wǎng)絡(luò)的構(gòu)建[D]. 哈爾濱:哈爾濱醫(yī)科大學(xué),2008.

[15]MARAJ B H , MARKHAM A F. Prostate-specific membrane antigen (FOLH1): recent advances in characterising this putative prostate cancer gene[J]. Prostate Cancer and Prostatic Diseases, 1999, 2(4):180-185.

猜你喜歡
R語(yǔ)言前列腺癌數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
前列腺癌復(fù)發(fā)和轉(zhuǎn)移的治療
關(guān)注前列腺癌
認(rèn)識(shí)前列腺癌
前列腺癌,這些蛛絲馬跡要重視
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
基于R語(yǔ)言的Moodle平臺(tái)數(shù)據(jù)挖掘技術(shù)的研究
基于R語(yǔ)言的湖南產(chǎn)業(yè)結(jié)構(gòu)對(duì)其經(jīng)濟(jì)增長(zhǎng)貢獻(xiàn)分析
商(2016年24期)2016-07-20 08:03:39
注重統(tǒng)計(jì)思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計(jì)學(xué)課程建設(shè)
考試周刊(2016年15期)2016-03-25 04:09:43
偏关县| 涟水县| 靖边县| 满洲里市| 邹城市| 夏河县| 修文县| 含山县| 清河县| 会东县| 环江| 新民市| 华亭县| 张家界市| 温泉县| 加查县| 五原县| 汾西县| 扶沟县| 台前县| 上饶县| 湖北省| 乐平市| 启东市| 沂源县| 营口市| 曲松县| 金堂县| 邻水| 龙江县| 无极县| 榆中县| 商都县| 蓬安县| 辽阳县| 临桂县| 根河市| 正阳县| 聊城市| 鹤山市| 楚雄市|