王 晨,楊 娟,袁肇方,張雪婷,魏鎖成
(西北民族大學(xué) 生命科學(xué)與工程學(xué)院,甘肅 蘭州 730030)
生物信息學(xué)(Bioinformatics)是通過計算處理實現(xiàn)對生命系統(tǒng)的科學(xué)理解,旨在對大量的原始數(shù)據(jù)進行存儲、編輯、處理、傳播和歸納,分析變化規(guī)律,以揭示數(shù)據(jù)中所蘊含的生物學(xué)奧秘,挖掘和發(fā)現(xiàn)新知識[1,2].目前,生物信息學(xué)已在眾多科學(xué)領(lǐng)域中廣泛應(yīng)用.雌激素(包括雌酮,雌三醇和17β-雌二醇)是膽固醇衍生的類固醇激素,主要由卵巢產(chǎn)生.雌激素在調(diào)控性行為和生殖功能方面發(fā)揮重要作用,可調(diào)節(jié)多種組織和器官的發(fā)育和穩(wěn)態(tài)[3].雌激素只有與其特異性的受體(Estrogen receptor,ER)結(jié)合才能發(fā)揮生物性作用[3].雌激素受體β(Estrogen receptor beta,ERβ)是雌激素受體家族中的重要一員,是雌激素作用于細胞的主要途徑,促進雌激素發(fā)揮生理功能[4].一般認(rèn)為,ERβ只在正常卵巢上皮細胞的核膜上表達,也在卵巢癌細胞的細胞質(zhì)中表達[5].很多研究結(jié)果表明,ERβ不僅與卵巢癌的發(fā)病機制有關(guān),而且與治療反應(yīng)有關(guān)[6,7].鑒于ERβ基因的重要生物學(xué)功能,以及目前未見關(guān)于綿羊ERβ基因生物信息學(xué)相關(guān)報道,本研究擬通過生物信息學(xué)工具對ERβ基因結(jié)構(gòu)、蛋白質(zhì)理化性質(zhì)、二級結(jié)構(gòu)、三級結(jié)構(gòu)、同源性、分子功能、信號通路與蛋白互作進行系統(tǒng)分析,全面深入地了解綿羊ERβ基因的生物信息學(xué)特點,以期為進一步研究ERβ基因的生物學(xué)功能提供理論依據(jù).
在Genbank數(shù)據(jù)庫找到綿羊ERβ基因(登錄號:AF177936.1).本研究所用15個物種的ERβ基因CDS區(qū)編碼氨基酸序列來源于NCBI,見表1.
表1 不同物種ERβ基因序列來源
根據(jù)從數(shù)據(jù)庫所收集的基因序列進行分析,應(yīng)用NCBI中ORFfinder (https://www.ncbi.nlm.nih.gov/orffinder)軟件分析開放閱讀框,使用ProtParam (https://web.expasy.org/protparam)與BioEdit(https://bioedit.software.informer.com/)分析ERβ基因的理化性質(zhì),以ProtParam分析ERβ基因的疏水性與親水性,利用SignalP-4.1(http://www.cbs.dtu.dk/services/SignalP/)分析ERβ基因的信號肽,使用Netphos3.1Server(http://www.cbs.dtu.dk/services/NetPhos/)軟件分析ERβ基因磷酸化位點,使用MultiLoc2下的Yloc(https://abi-services.informatik.uni-tuebingen.de/yloc/webloc.cgi)分析ERβ基因的亞細胞結(jié)構(gòu)定位,通過TMHMM server v.2.0(http://www.cbs.dtu.dk/services/TMHMM/)預(yù)測ERβ基因的跨膜結(jié)構(gòu)區(qū)域,使用Sopma(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)與SWISS MODEL分別預(yù)測ERβ基因的二級和三級結(jié)構(gòu),使用NCBI-BLAST分析同源性相似度,使用MEGA-X(https://www.megasoftware.net/)構(gòu)建進化樹,應(yīng)用KEGG (https://www.kegg.jp)數(shù)據(jù)庫分析ERβ信號通路,利用STRING(https://string-db.org/)預(yù)測蛋白互作網(wǎng)絡(luò).
ERβ全長為1584bp,CDS (Coding sequence) 范圍為1-1584bp.ORF finder分析表明即全長均屬ORF(見圖1),同時包含ORF2-ORF10九個子ORF,他們的核苷酸起止位點不同,核苷酸數(shù)大小有別,分別為108bp、147bp、105bp、163bp、78bp、583bp、99bp、84bp和333bp.核苷酸序列既不同,又重疊.
圖1 綿羊ERβ基因序列的ORF分析
經(jīng)ProtParam軟件及Bioedit軟件分析計算蛋白理化性質(zhì).得到ERβ基因的氨基酸組成(見表2),該基因由527個氨基酸組成,其中最多的是亮氨酸(Leu)與絲氨酸(Ser),均占總氨基酸數(shù)的11.67%.
蛋白分子量為59120.12Da,理論等電點為8.83,分子式為C2583H4136N736O771S40,共8 266個原子,負電荷殘基總數(shù)(Asp和Glu)51個,正電荷殘基總數(shù)(Arg和 Lys)63個,不穩(wěn)定系數(shù)為61.68,表明該蛋白不穩(wěn)定.脂肪指數(shù)為81.59,總平均親水性為-0.336,表明該蛋白為親水性蛋白(見圖2).
表2 綿羊ERβ基因的氨基酸組成
圖2 綿羊ERβ基因的疏水性與親水性分析
注:C-score:原始剪切位點得分;S-score:信號肽得分;Y-score:被結(jié)合的剪切位點得分
經(jīng)預(yù)測分析可知(見圖3),ERβ蛋白氨基酸序列不存在信號肽.ERβ蛋白整體序列都位于細胞膜表面,是非跨膜蛋白(見圖4).
ERβ基因磷酸化位點進行分析結(jié)果顯示(圖5-a、圖5-b),有38個絲氨酸(Ser)、12個蘇氨酸(Thr)、8個酪氨酸(Tyr)可能成為蛋白激酶磷酸化的位點.
基于YLoc+動物模型,對ERβ基因的亞細胞定位預(yù)測.結(jié)果顯示,該蛋白主要位于細胞核內(nèi)的概率為67.6%,位于細胞質(zhì)的概率為31.8%,位于線粒體和細胞膜的概率分別為0.6%和0.1%.
圖4 綿羊ERβ蛋白的跨膜結(jié)構(gòu)域分析
圖5-a 綿羊ERβ基因磷酸化位點預(yù)測
注:S—絲氨酸;T—蘇氨酸;Y—酪氨酸
圖5-b綿羊ERβ基因磷酸化位點預(yù)測
經(jīng)綿羊ERβ蛋白結(jié)構(gòu)預(yù)測分析,得到其二級結(jié)構(gòu)(圖6)、功能域(圖7)、三級結(jié)構(gòu)(圖8)預(yù)測示意圖和二級結(jié)構(gòu)元件比例,綿羊ERβ蛋白是由53.89%無規(guī)則卷曲、34.54% α螺旋、3.04%β轉(zhuǎn)角和2.66%延伸鏈組成,由此可推測,α-螺旋與無規(guī)則卷曲是綿羊ERβ蛋白最主要的蛋白質(zhì)二級結(jié)構(gòu)元件.ERβ蛋白質(zhì)含有1個ERbeta_N蛋白結(jié)構(gòu)域,位于12-122氨基酸位置,1個ZnF_C4蛋白功能域(核激素受體中的C4鋅指)和一個HOLI蛋白功能域(激素受體配體結(jié)合域)分別位于143-214位氨基酸和297-466位氨基酸處.其中HOLI蛋白功能域(激素受體配體結(jié)合域)E期望值最大,達到1.35e-32.在ERbeta_N與ZnF_C4之間,125-139位點上有一個低復(fù)雜區(qū)域.使用SWISS MODEL軟件以同源建模方法預(yù)測綿羊ERβ蛋白三級結(jié)構(gòu),其中以人ERβ蛋白為模版(SMTL ID:1l2j.1),預(yù)測的三級結(jié)構(gòu)顯示,序列一致性達到93.57%、相似性為0.57、覆蓋率為0.47,綿羊ERβ蛋白三級結(jié)構(gòu)中主要由α-螺旋結(jié)構(gòu)單元組成,有極少的β-折疊和無規(guī)則卷曲結(jié)構(gòu)單元.
注:藍—α-螺旋;紅—延伸鏈;綠—β-轉(zhuǎn)角;紫—無規(guī)則卷曲
圖7 綿羊ERβ蛋白功能域預(yù)測示意圖
圖8 綿羊ERβ蛋白三級結(jié)構(gòu)預(yù)測示意圖
通過對15個物種的ERβ蛋白序列進行多重序列比對發(fā)現(xiàn),綿羊ERβ基因與山羊、水牛、牛、牦牛、野豬、白鯨、抹香鯨、北美灰熊、美洲獅、家貓、非洲草原象、大棕蝠、大猩猩、小鼠和人類的同源性相似度分別為98.66%、98.10%、97.15%、96.58%、91.84%、88.77%、88.59%、89.62%、89.04%、88.66%、87.55%、88.80%、87.74%、83.94%和87.55%.使用MEGA-X軟件的鄰接法構(gòu)建出15個物種的ERβ基因進化樹(圖9).兩種方法的結(jié)果均表明綿羊ERβ基因的同源性和親緣關(guān)系與山羊最近,與小鼠的親緣關(guān)系最遠.因此,推測ERβ蛋白在山羊、水牛、綿羊、牛等哺乳動物中可能具有相似的生物學(xué)功能.
KEGG數(shù)據(jù)庫分析結(jié)果表明,ERβ主要參與5個信號通路,包括雌激素信號通路(ko04915)、催乳素信號通路(ko04917)、內(nèi)分泌抵抗機制過程(ko01522),同時還參與包括乳腺癌(ko05224)在內(nèi)的癌癥的信號通路(ko05200).蛋白質(zhì)互作網(wǎng)絡(luò)分析結(jié)果也表明(圖10),網(wǎng)絡(luò)中的蛋白彼此之間關(guān)聯(lián)性較強,少數(shù)蛋白直接與ERβ形成關(guān)聯(lián),多數(shù)蛋白質(zhì)以ERβ作為媒介間接進行關(guān)聯(lián),這表明ERβ在其中的信號通路中起到關(guān)鍵性作用.
圖9 15個物種的ERβ基因的系統(tǒng)發(fā)育樹
圖10 ERβ蛋白互作網(wǎng)絡(luò)分析結(jié)果
雌激素(主要是雌二醇,E2)的生物學(xué)作用是通過兩類胞內(nèi)雌激素受體(estrogen receptor,ER)雌激素受體α(estrogen receptor-alpha,ERα)和雌激素受體β(estrogen receptor-beta,ESR2,ERβ)介導(dǎo)的[8-10].ERβ介導(dǎo)雌激素發(fā)揮生理作用.ERβ可以增強ERα介導(dǎo)的激素依賴性癌細胞的增殖[11].我們先前的研究也表明,可通過ERβ的表達量與抑制卵巢癌的發(fā)生有密切關(guān)系[12-13],且ERβ是卵巢癌的潛在愈后指標(biāo)和治療靶點[14].因此,對ERβ基因進行全面深入的生物信息學(xué)分析尤為重要.
通過ERβ基因結(jié)構(gòu)的分析可知,綿羊ERβ基因CDS區(qū)共編碼527個氨基酸.ERβ蛋白屬于不穩(wěn)定的親水性蛋白,在ERβ蛋白磷酸化過程中,蘇氨酸和絲氨酸磷酸化的主要作用是激活蛋白質(zhì)的活力,綿羊ERβ蛋白的蘇氨酸和絲氨酸磷酸化位點比較多,酪氨酸的磷酸化位點相對較少.有研究表明,17β-雌二醇經(jīng)ERβ活化ERK1/2雌激素胞膜信號傳導(dǎo),從而促進腫瘤的侵襲和轉(zhuǎn)移[15],證實了本試驗得出的綿羊ERβ蛋白酶活力較強的預(yù)測.通過亞細胞定位預(yù)測分析可知,ERβ蛋白主要在細胞核中表達,少量在細胞質(zhì)及其他結(jié)構(gòu)中表達,這與De STEFANO I 等人的研究結(jié)果相同[5],其研究表明在正常的卵巢組織中ERβ蛋白只在核膜上表達,但卵巢癌細胞在細胞質(zhì)中表達,且細胞質(zhì)中出現(xiàn)ERβ是卵巢癌患者愈后不良的因素之一[17].因此,ERβ蛋白的亞細胞定位在卵巢癌的篩查與治療方面有重要的生物學(xué)作用.
不同物種間ERβ基因編碼序列比對發(fā)現(xiàn),綿羊ERβ基因的同源性和親緣關(guān)系與山羊最近,與小鼠的親緣關(guān)系最遠,表明綿羊和山羊的ERβ蛋白可能具有十分相似的生物學(xué)功能.
通過分子功能預(yù)測與蛋白互作網(wǎng)絡(luò)分析,可知ERβ蛋白與G蛋白偶聯(lián)受體活性相關(guān)性極強.然而,前期的研究認(rèn)為,乳腺癌組織中G蛋白偶聯(lián)受體表達及ERβ表達相互獨立,兩者與臨床病理變量沒有相關(guān)性[16].另有研究表明,ERβ蛋白的表達與乳腺癌、卵巢癌、前列腺癌和結(jié)腸癌的發(fā)生有密切關(guān)系[17-20],在腫瘤發(fā)生過程中ERβ表達水平逐漸降低,產(chǎn)生了類似腫瘤抑制因子的作用.但其作用的有效性和適用性仍存在爭議,故ERβ基因和ERβ蛋白的作用有待進一步深入研究.
綿羊ERβ基因共編碼527個氨基酸,其同源性和親緣關(guān)系與山羊最近.ERβ蛋白屬于不穩(wěn)定的親水性非跨膜蛋白,無信號肽.