李中輝,鄭文嶺,馬文麗
(南方醫(yī)科大學 基因工程研究所, 廣東 廣州 510515)
?
研究論文
2型糖尿病相關(guān)基因的生物信息學分析
李中輝,鄭文嶺,馬文麗*
(南方醫(yī)科大學 基因工程研究所, 廣東 廣州 510515)
目的通過生物信息分析途徑,從分子水平揭示2型糖尿病的發(fā)病機制,為2型糖尿病的研究提供新的思路。方法從公共數(shù)據(jù)庫GEO中下載2型糖尿病相關(guān)基因芯片數(shù)據(jù),利用Qlucore Omics Explorer 3.0軟件篩選差異表達基因,STRING、DAVID等在線分析工具對差異表達基因進行下一步的生物信息學分析。結(jié)果共篩選出89個差異基因,其中表達上調(diào)67個,下調(diào)22個,這些差異表達基因主要涉及到氧化還原反應、葡萄糖代謝過程、磷酸化作用、細胞骨架蛋白結(jié)合、核苷酸結(jié)合等分子功能和生物學過程。通過STRING分析,發(fā)現(xiàn)9個基因處在核心節(jié)點位置。結(jié)論通過生物信息學的方法分析得出CDK9、TXN,NDUFS8基因可能為潛在的治療靶點,需要下一步的分子生物學實驗證實。
2型糖尿?。还趋兰?;生物信息學;基因芯片
骨骼肌組織是人體的一個關(guān)鍵的代謝組織,是吸收和利用葡萄糖的主要部位,在體內(nèi)糖代謝平衡重發(fā)揮著重要的作用,骨骼肌胰島素抵抗的發(fā)生是2型糖尿病發(fā)病的重要因素[1]。所以,對2型糖尿病患者骨骼肌組織的研究也顯得尤為重要。近年來,隨著基因芯片技術(shù)的發(fā)展和應用,產(chǎn)生了大量的基因表達譜數(shù)據(jù),如何從這些數(shù)據(jù)挖掘出有價值的信息,已成為生物信息學研究的一個熱點[2- 3],生物信息學的興起為糖尿病的研究帶來了新的方向。本研究對來自基因芯片公共數(shù)據(jù)庫(gene expression omnibus,GEO)中的兩組2型糖尿病患者骨骼肌組織的芯片數(shù)據(jù)進行了生物信息學分析。
1.1 材料
本研究所采用的兩組與2型糖尿病骨骼肌組織相關(guān)的基因表達譜數(shù)據(jù)(登錄號分別為GSE7014和GSE29221),均從美國國立生物信息中心NCBI數(shù)據(jù)庫GEO (http://www.ncbi.nlm.nih.gov/geo/)中下載,在GEO Datasets數(shù)據(jù)庫搜索框中以“diabetes,type 2 diabetes mellitus”為檢索詞,獲得Krahe R, Sirito M等提交的芯片數(shù)據(jù)GSE7014和由Jain P, Vig S等提交的芯片數(shù)據(jù)GSE29221。GSE7014所用實驗平臺是Affymetrix公司的HG-U133_Plus_2芯片,總共有26個樣本,其中2型糖尿病患者骨骼肌組織樣本數(shù)20例,正常人骨骼肌樣本數(shù)6例。GSE29221所用的實驗平臺為Illumina公司的HumanHT-12 V3.0芯片,總共有24例樣本,其中2型糖尿病骨骼肌組織樣本數(shù)12例,正常人骨骼肌組織樣本數(shù)12例。
1.2 方法
1.2.1 數(shù)據(jù)處理及差異基因分析:Qlucore Omics Explorer 3.0(http://www.qlucore.com/)可用于分析基因芯片、Mi-RNA芯片,甲基化芯片、蛋白質(zhì)芯片等,該軟件不僅功能完善,而且操作相對簡便。本研究利用Qlucore Omics Explorer 3.0軟件對芯片數(shù)據(jù)進行統(tǒng)計學分析,先將數(shù)據(jù)集導入到Qlucore Omics Explorer 3.0軟件,再對數(shù)據(jù)信息進行標準化處理(平均數(shù)為0,標準差為1),采用two group comparsion(兩組樣本t檢驗)統(tǒng)計方法,對數(shù)據(jù)信息的有效過濾,篩選出差異基因,差異基因的篩選條件為:P<0.05,≥2 fold change,Q<0.01。
1.2.2 差異基因的GO富集分析和通路分析:生物學信息注釋數(shù)據(jù)庫(the database for annotation, visualization and integrated discovery,DAVID),為大規(guī)模的基因或蛋白列表提供系統(tǒng)綜合的生物功能注釋信息,能夠找出最顯著富集的生物學注釋[4- 5]。本研究是將篩選出的差異基因上傳至DAVID (http://www.pantherdb.org/)在線軟件,選擇DAVID軟件中的基因功能注釋(functional annotation),對這些差異基因分別進行生物學過程、分子功能、生物學通路分析(kyoto encyclopedia of genes and genomes,KEGG)。
1.2.3 差異基因編碼蛋白的相互作用分析: 蛋白質(zhì)相互作用關(guān)系數(shù)據(jù)庫 (functional protein association networks,STRING),包含1 133個物種里的5 214 234種蛋白質(zhì),是最大的蛋白質(zhì)數(shù)據(jù)庫之一,通過STRING分析工具,我們可以直接或間接地預測蛋白質(zhì)之間的關(guān)系[6- 7]。將差異基因?qū)隨TRING(http://string-db.org)分析工具,分析其所編碼的蛋白之間的相互作用圖,找出處在關(guān)鍵節(jié)點的蛋白質(zhì)。
2.1 差異基因篩選結(jié)果
從GSE7014數(shù)據(jù)中篩選出的差異基因為1 271(圖1),從GSE29221數(shù)據(jù)中篩選出的差異基因1480(圖2),篩選出的共同差異基因為89個,其中表達上調(diào)的為67個,表達下調(diào)的為22個(表1)。
Red dots represent high expression and green dots mean low expression圖1 GSE7014數(shù)據(jù)中篩選出的差異基因Fig 1 Differentially expressed genes of GSE7014
Red dots represent high expression and green dots mean low expression圖2 GSE29221數(shù)據(jù)中篩選出的差異基因Fig 2 Differentially expressed genes of GSE29221
GEOdatasetsdifferentialexpressiongenes(n)over-expressedgenes(n)under-expressedgenes(n)GSE70141271956315GSE2922114804521028Co-expressedgene896722
2.2 差異基因的GO富集分析和通路分析結(jié)果
GO富集分析顯示這些差異表達基因主要參與到氧化還原反應、葡萄糖代謝過程、磷酸化作用、細胞骨架蛋白結(jié)合、核苷酸結(jié)合等分子功能和生物學過程。KEGG通路分析顯示這些差異基因主要參與阿爾茨海默病信號通路、亨廷頓病信號通路、帕金森病信號通路、檸檬酸循環(huán)(TCA循環(huán))信號通路、脂肪細胞因子信號通路、氧化磷酸化等信號通路(表2)。
2.3 差異基因編碼蛋白的相互作用分析
通過STRING 9.1在線工具對89個差異基因進行蛋白質(zhì)相互作用網(wǎng)絡(luò)分析(被STRING識別的基因有89個)(圖3),從圖中可以看出,GBR10、CDK9、TXN、IGFBP3、PDHA1、NDUFB3、NDUFA5、NDUFS8和TNFRSF1A蛋白與其他蛋白存在≥5的相互作用關(guān)系,為此蛋白質(zhì)相互作用網(wǎng)絡(luò)的中心節(jié)點,刪除這些節(jié)點蛋白后,網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性降低。
2型糖尿病的發(fā)生是多基因相互作用的結(jié)果,基因表達譜在糖尿病中的大量應用,為本研究提拱了從生物信息學方面研究糖尿病發(fā)病機制的可能性,對基因芯片數(shù)據(jù)進行后續(xù)的生物學解釋,是挖掘基因芯片數(shù)據(jù)的一個重要方向。本研究利用生物信息學軟件對芯片數(shù)據(jù)進行分析,共發(fā)現(xiàn)89個差異表達基因,并對這些差異基因進行富集分析、通路分析以及蛋白質(zhì)相互作用網(wǎng)絡(luò)分析,篩選出了9個可能和2型糖尿病病變相關(guān)的基因,其中GBR10、PDHA1、NDUFB3、NDUFA5和NDUFS8表達上調(diào),TNFRSF1A、CDK9、TXN和IGFBP3表達下調(diào)。對這些基因深入研究,發(fā)現(xiàn)GBR10、NDUFB3、NDUFA5、TNFRSF1A、CDK9、TXN、IGFBP3以及PDHA1與2型糖尿病的關(guān)系已有文獻報道,NDUFS8與2型糖尿病關(guān)系報道的少之又少。在以上8個已經(jīng)報道的和2型糖尿病發(fā)病有關(guān)的基因中,只有GBR10、IGFBP3、PDHA1、NDUFB3、NDUFA5和TNFRSF1A已經(jīng)被證實了在骨骼肌中表達的異常和2型糖尿病的發(fā)病有著密切的聯(lián)系,CDK9、TXN只是被證實了在胰島組織中表達的異常和2型糖尿病發(fā)病有關(guān),在骨骼肌組織中并沒有類似的研究,其具體的作用機制還不清楚,可以作為潛在的治療靶點,不過還需實驗進行證實。
表2 差異基因的GO分析和Kegg通路分析列表
NDUFS8基因(nadh dehydrogenase (ubiquinone) Fe-S protein 8), 即煙酰胺腺嘌呤二核苷酸脫
圖3 差異表達基因的蛋白-蛋白相互作用圖
氧酶鐵-硫蛋白3,相對分子質(zhì)量為23 ku,包含7個外顯子,位于染色體11q13,是線粒體電子傳遞鏈復合物Ⅰ的一個重要的亞單位,在真核生物和原核生物中高度保守[8- 10],主要在心臟和骨骼肌組織中表達。在莢膜紅細菌的研究中發(fā)現(xiàn)其在復合體Ⅰ的裝配中發(fā)揮著重要的作用[6]。在紅面包菌的研究中發(fā)現(xiàn)它能阻止復合體Ⅰ的裝配[8]。另有研究發(fā)現(xiàn)它的突變與亞急性壞死性腦脊髓病的發(fā)生有著很大關(guān)系[11- 12]。而在本研究中,NDUFS8基因在2型糖尿病患者骨骼肌組織中高表達,可以推測,NDUFS8表達的上調(diào),會影響骨骼肌組織正常的糖代謝,導致胰島素抵抗的出現(xiàn),進而促發(fā)糖尿病。對于采用生物信息學方法篩選出的差異基因,對2型糖尿病發(fā)生的預測價值,還需要通過體內(nèi)外實驗研究證實和大量的臨床病例驗證。
[1] Eckardt K, Taube A, Eckel J. Obesity-associated insulin resistance in skeletal muscle: role of lipid accumulation and physical inactivity [J]. Rev Endoc Metab Disord, 2011, 12: 163- 172.
[2] 郭霞,伊力努爾·沙比提,瑪依拉·卡米力江,等.基于IPA@生物信息平臺篩選維吾爾族宮頸癌前病患者血漿預警蛋白[J]?;A(chǔ)醫(yī)學與臨床雜志,2014,34:6- 10.
[3] 龐希寧,李彩虹,施萍,等.EGF對hAMSCs基因表達譜影響及生物信息學分析[J]。基礎(chǔ)醫(yī)學與臨床雜志,2013,33:1391- 1397.
[4] Huang da W, Sherman BT, Stephens R,etal. DAVID gene ID conversion tool [J]. Bioinformation, 2008, 2: 428- 430.
[5] Huang da W, Sherman BT, Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources [J]. Nat Protoc, 2009, 4: 44- 57.
[6] Salwinski L, Miller CS, Smith AJ,etal. The database of interacting proteins: 2004 update [J]. Nucleic Acids Res, 2004, 32: 449- 451.
[7] Mishra GR, Suresh M, Kumaran K,etal. Human protein reference database-2006 update [J]. Nucleic Acids Res, 2006, 34: 411- 414.
[8] V Procaccio, D Depetris, P Soularue,etal. cDNA sequence and chromosomal localization of the NDUFS8 human gene coding for the 23 kDa subunit of the mitochondrial complex Ⅰ [J]. Biochim Biophys Acta, 1997, 1351: 37- 41.
[9] Walker JE. The NADH: ubiquinone oxidoreductase (complex Ⅰ) of respiratory chains [J]. Biophys Acta, 1992, 25: 253- 324.
[10] Weidner U, Geier S, Ptock A,etal. The gene locus of the proton-translocating NADH: ubiquinone oxidoreductase in escherichia coli: organization of the 14 genes and relationship between the derived proteins and subunits of mitochondrial complex Ⅰ [J]. J Mol Biol, 1993, 233: 109- 122.
[11] Duarte M, Videira A. Respiratory chain complex Ⅰ is essential for sexual development in Neurospora and binding of iron sulfur clusters are required for enzyme assembly [J]. Genetics, 2000, 156: 607- 615.
[12] Loeffen J, Smeitink J, Triepels R,etal. The first nuclear-encoded complex Ⅰ mMutation in a patient with leigh syndrome [J]. Am J Hum Genet, 1998, 63: 1598- 1608.
Bioinformatic analysis of genes related to type 2 diabetes mellitus
LI Zhong-hui, ZHENG Wen-ling, MA Wen-li*
(Institute of Genetic Engineering, Southern Medical University, Guangzhou 510515, China)
Objective To investigate the genes associated with type 2 diabetes and to explore the molecular mechanism of type 2 diabetes. Methods The microarray data of type 2 diabetes were downloaded from the Gene Expression Omnibus(GEO) database and Qlucore Omics Explorer software was used to screen differentially expressed genes. The further analysis of differentially expressed genes were comducted by the on-line tools STRING, DAVID. Results Of all the 89 differentially expressed genes, 67 genes were of overexpression, 22 genes were underexpressed. These genes were involved in the biological process and molecular function of oxidation reduction, glucose metabolic process, phosphorylation, cytoskeletal protein binding, nucleotide binding. ConclusionsCDK9,TXNandNDUFS8 may be a potential therapeutic target through the bioinformatic analysis, which needs a further study together with molecular experiments.
type 2 diabetes; skeletal muscle; bioinformatic; gene microarray
2014- 10- 23
2014- 12- 29
國家自然科學基金(39880032);廣東省領(lǐng)軍人才基金(C1030925)
1001-6325(2015)06-0749-05
R587.1
A
*通信作者(corresponding author):wenlima668@qq.com