王 敏,李方明,劉祖明,毛貴川,陳海明,王興林,劉金偉,楊紹華
(1.黔西南州人民醫(yī)院暨遵義醫(yī)學(xué)院第七附屬醫(yī)院,貴州 興義 562400;2.遵義醫(yī)學(xué)院附屬醫(yī)院暨貴州省細(xì)胞工程實(shí)驗(yàn)室,貴州 遵義 563099;3.??诒6悈^(qū)遠(yuǎn)兮細(xì)胞分子技術(shù)應(yīng)用研發(fā)有限公司,海南 ???570000)
位于染色體4q25的人表皮生長因子前體蛋白(prepro-epidermal growth factor,preproEGF)基因由24個(gè)外顯子和23個(gè)內(nèi)含子組成,全長約110 kb,其外顯子編碼一條1207個(gè)氨基酸的蛋白多肽鏈,其間含有1段(53個(gè)氨基酸)表皮生長因子,9段重復(fù)的低密度脂蛋白受體多肽,9段類表皮生長因子結(jié)構(gòu)域(其中3段結(jié)構(gòu)域兼具潛在的Ca++結(jié)合位點(diǎn)),此外該蛋白還含有9個(gè)糖基化位點(diǎn)和12個(gè)位點(diǎn)的氨基酸變體。這表明preproEGF蛋白除了具有表皮生長因子的生物學(xué)功能之外,還應(yīng)具有低密度脂蛋白受體,參與出凝血機(jī)制和組成細(xì)胞膜結(jié)構(gòu)的功能,對(duì)細(xì)胞的生長分化和組織代謝起著多方面的重要作用[1,2]。已有研究揭示preproEGF基因的遺傳變體或多態(tài),特別是單核苷酸多態(tài)(Single nucleotide polymorphysims,SNPs)可能與冠心病、智力發(fā)育障礙和腫瘤發(fā)生等臨床病具有相關(guān)性[3,4]。研究同時(shí)也表明分布在 preproEGF基因第61 bp位點(diǎn)的SNP(A/G)與歐美人某些腫瘤例如黑色素瘤等之發(fā)生具有相關(guān)性[5]。可見深入探索鑒定SNPs在preproEGF基因中的分布情況及其特點(diǎn)頗具醫(yī)學(xué)遺傳價(jià)值。理論上講SNPs以平均千分之一個(gè)單核苷酸的機(jī)率發(fā)生和分布在整個(gè)基因組序列之中,但有研究顯示在編碼基因內(nèi)只有少數(shù)(約1/3)的SNPs分布,而且有些SNPs是以稍微富集成串叢簇的方式散布于人基因組全序列之中[6,7]。然而,基因組 SNPs的這些分布特點(diǎn)對(duì)其在單個(gè)基因序列內(nèi)的分布是否同樣如此尚不清楚。我們報(bào)道了SNPs在preproEGF基因第20和21外顯子及其內(nèi)含子區(qū)段分布未見其富集成串叢簇的特點(diǎn),但見其1~2個(gè)SNPs散布于約4.5kb 大片段內(nèi)的稀疏分布現(xiàn)象[8];至于 preproEGF基因其余區(qū)段的SNPs分布狀況,尚需進(jìn)一步的探索研究。目前業(yè)已完成的人類基因組計(jì)劃和第二代國際人類基因組單體型圖譜為深入探尋SNPs在各基因序列內(nèi)部的分布提供了充分有力的遺傳信息支撐和資料數(shù)據(jù)保障[9,10]。本研究擬應(yīng)用生物信息技術(shù)對(duì)preproEGF基因的DNA序列進(jìn)行檢索分析,為進(jìn)一步的基因遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用提供一個(gè)基礎(chǔ)。
1.1 研究對(duì)象 preproEGF基因DNA序列~110 kb。
1.2 主要儀器和材料資源 計(jì)算機(jī)(聯(lián)想公司),電訊寬帶網(wǎng)路(中國電訊),NCBI的生物信息技術(shù)程序和dbSNP。
1.3 方法 從電訊寬帶登錄網(wǎng)址www.nlm.nih.gov,打開NLM主頁并經(jīng)PubMed/MEDLINE轉(zhuǎn)到SNP項(xiàng),點(diǎn)擊可進(jìn)入 dbSNP Home Page,然后經(jīng)Blast和Entrez SNP即可檢索到preproEGF基因的dbSNP并對(duì)其進(jìn)行分析。
經(jīng)Blast和Entrez SNP檢索到在4號(hào)染色體及preproEGF基因的DNA序列中分布有93個(gè)參照SNPs(reference SNP,RefSNP)和 51個(gè)亞 SNPs(subset SNP);這些SNPs或以單一SNP(RefSNP)或以多個(gè)SNPs(RefSNP+亞SNP)分別分布于從6651bp到810bp大小不等的各基因片段中;同時(shí)本研究計(jì)算了各基因片段之間和之內(nèi)的相鄰SNPs間之平均距離(bp)?,F(xiàn)將這些數(shù)據(jù)結(jié)果進(jìn)行統(tǒng)計(jì)(見表1)。
表1 SNPs在染色體preproEGF基因中的分布情況
(續(xù)表)
(續(xù)表)
(續(xù)表)
由列表之?dāng)?shù)據(jù)可見SNPs在基因序列中的分布大致表現(xiàn)出如下特征:①平均1/1000的分布密度;②成串叢簇聚集分布;③不均等散布。
本研究利用生物信息學(xué)技術(shù)對(duì)存在于preproEGF基因DNA序列內(nèi)的SNPs進(jìn)行了檢索分析。結(jié)果顯示這些SNPs共計(jì) 144個(gè),其中93個(gè)為RefSNPs(rs),51個(gè)為亞SNPs(侯選SNP或candidate SNP)。從列表之?dāng)?shù)據(jù)可見,絕大多數(shù)(約99%)的SNPs位于人的第4號(hào)染色體DNA序列中,僅第100號(hào)rs61691240和第133號(hào)rs11098054可能位于第7號(hào)染色體上。進(jìn)一步分析揭示:首先,在93個(gè)RefSNPs中有占比約53﹪的49個(gè)分別分布在1200 bp~800 bp(平均1000 bp或1 kb)長的各DNA區(qū)段內(nèi),即分布密度約為千分之一(1/1000)??梢?,僅約二分之一的RefSNPs在preproEGF基因的分布與其理論分布相吻合,這就意味著其余二分之一RefSNPs分布在preproEGF基因有另外的形式。其次,以至少3個(gè)以上的SNPs聚集,且相鄰SNPs之間平均距離短于200 bp(<200 bp)作為其富集成串叢簇的指標(biāo),在列表中就可見到有相鄰SNPs之間平均距離分別為155、154、102、62、55、43 和 41bp 的 7 段 RefSNP 富集區(qū),其平均間距分別為15和9bp的兩段亞SNP富集分布之基因片段;還可見各富集區(qū)段SNP數(shù)目彼此各不相等,其中154 bp或9 bp富集區(qū)段分別含有6或22個(gè)SNPs,各自為RefSNP類或亞SNP類富集區(qū)段中含SNPs最多的DNA區(qū)段或基因片段。很顯然,這是SNPs在preproEGF基因中分布的另一種形式或特點(diǎn),對(duì)于該基因及其相關(guān)疾病研究的課題設(shè)計(jì)具有重大的指導(dǎo)參考價(jià)值。第三,如果順序觀察編號(hào)SNPs,不難發(fā)現(xiàn)其中的第001~004、016 ~019、039 ~040、042 ~046、051 ~052、054、056 ~057、059 ~ 060、062、064 ~ 065、067~068、070~071、073~074和121~126號(hào)共37個(gè)SNPs雖已達(dá)一定總數(shù)占比(約26﹪),但其即不具備密度為1/1000的SNPs分布特征也不符合至少3個(gè)或以上的SNPs成串聚集和相鄰SNPs之間的平均距離短于200 bp(<200 bp)的富集成簇指標(biāo),因而只能將其另類為不均等散布于preproEGF基因DNA序列中之SNPs(不均等散布的SNPs)??梢娺@是SNPs在preproEGF基因內(nèi)分布的又一特別之處。總之,SNPs在preproEGF基因DNA序列中的分布明顯表現(xiàn)出多數(shù)以平均1/1000的分布密度;部分RefSNPs和少數(shù)亞SNPs富集成串叢簇聚集;另有占總數(shù)約26﹪的SNPs呈不均等散布的特征。這些特征比其SNPs在人類基因組全序列中的分布明顯有所不同[6],這對(duì)于指導(dǎo)進(jìn)一步的研究設(shè)計(jì)頗具獨(dú)特的參考價(jià)值和深遠(yuǎn)影響。另一方面,這些分布特征對(duì)于指導(dǎo)設(shè)計(jì)具體的探索性實(shí)驗(yàn)可增強(qiáng)其針對(duì)性,減少其盲目性,避免不必要的重復(fù)實(shí)驗(yàn)并提高工作效率,對(duì)于加速研究工作的順利完成具有十分重要的意義。
基因組范圍相關(guān)性研究中,已有報(bào)道至少有800個(gè)SNPs與疾病的發(fā)生相關(guān),不過其中約占總數(shù)81%的650個(gè)SNPs并不分布在基因的編碼序列,而是分布在基因的內(nèi)含子和各基因之間的DNA 序列中[11,12]。與此情況相類似,preproEGF基因第20和21外顯子及其內(nèi)含子(第20內(nèi)含子)區(qū)段的研究也證實(shí)該區(qū)段僅有的2個(gè)SNPs,且全都分布于內(nèi)含子區(qū)段,這與其它基因組相關(guān)性研究的結(jié)果相似。
[1]Bell GI,F(xiàn)ong N M,Stempien M M,et al.Human epidermal growth factor precursor:cDNA sequence,expression in vitro and gene organization [J].Nucleic Acids Res,1986,14(21):8427 -8446.
[2]Mukai E,Kume N,Hayashida K,et al.Heparin-binding EGF-like growth factor induces expression of lectinlike oxidized LDL receptor-1 in vascular smooth muscle cells[J].Atherosclerosis,2004,176(2):289 -296.
[3]Pluskota E,Stenina OI,Krukovets I,et al.Mechanism and effect of thrombospondin-4polymorphisms on neutrophil function[J].Blood,2005,106(12):3970-3978.
[4]Tian W M,Zhang KR,Zhang J,et al.Association between the epidermal growth factor gene and intelligence in major depression patients[J].Chin Med Sci J,2010,25(2):105-108.
[5]Casula M,Alaibac M,Pizzichetta M A,et al.Role of the EGF+61A>G polymorphism in melanoma pathogenesis:an experience on a large series of Italian cases and controls[J].BMC Dermatol,2009,9:7.
[6]Koboldt D C,Miller R D,Kwok P Y.Distribution of human SNPs and its effect on high-throughput genotyping[J].Hum Mutat,2006,27(3):249 - 254.
[7]何云剛,金力,黃薇.單核苷酸多態(tài)性與連鎖不平衡研究進(jìn)展[J].基礎(chǔ)醫(yī)學(xué)與臨床,2004,24(5):487-490.
[8]王興林,毛貴川,陸興忠,等.漢族和布依族個(gè)體 preproEGF基因DNA序列中3個(gè)新的單核苷酸多態(tài)性研究[J].四川大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2011,42(6):771-774.
[9]Sherry S T,Ward M H,Kholodov M,et al.dbSNP:the NCBI database of genetic variation[J].Nucleic Acids Res,2001,29(1):308-311.
[10]The International HapMap Consortium.A second generation human haplotype map of over 3.1 million SNPs[J].Nature,2007,449(7164):851- 861.
[11]Wellcome Trust Case Control Consortium.Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls[J].Nature,2007,447(7145):661-678.
[12]Jonsson JJ,F(xiàn)oresman M D,Wilson N,et al.Intron requirement for expression of the human purine nucleoside phosphorylase gene[J].Nucleic Acids Res,1992,20(12):3191-3198.