罕園園,馬開利
(中國醫(yī)學科學院北京協(xié)和醫(yī)學院醫(yī)學生物學研究所藥物安全性評價研究中心,云南 昆明 650118)
中緬樹鼩(Tupaiachinensis)屬于靈長目與食蟲目之間獨立的目—攀鼩目,由于與人類具有高度的同源性,廣泛應用于人類病毒性疾病動物模型、細菌感染疾病、內(nèi)分泌、神經(jīng)系統(tǒng)疾病和腫瘤方面的研究[1-3],其基因組序列也在近期完成測序,并獲得了高覆蓋率(79X)的基因組序列,以及轉(zhuǎn)錄組鳥槍法組裝序列數(shù)據(jù)庫(Transcriptome Shotgun Assembly Sequence Database, TSA)[4],這些數(shù)據(jù)使得采用生物信息學方法分析樹鼩分泌蛋白質(zhì)組的研究成為可能。
分泌蛋白組指所有的分泌蛋白及蛋白質(zhì)運輸?shù)耐緩?,分泌蛋白在多細胞生物體中決定、控制和協(xié)調(diào)許多生物學過程,在生物體個體發(fā)育、生理功能的發(fā)揮及各種病理過程的演進中起著重要作用,分泌蛋白起到的核心作用使它們成為疾病診斷、治療、藥物干預中很好的標志物和靶標[5],研究和鑒定樹鼩分泌蛋白組的結(jié)構(gòu)和功能,有助于闡明樹鼩免疫、內(nèi)分泌調(diào)控、神經(jīng)傳導、細胞增殖、激素調(diào)節(jié)等生理活動的機制、闡釋其生命現(xiàn)象和推動實驗動物模型的開發(fā)。
利用基因組序列和可信度較高的生物信息學軟件對生物分泌蛋白進行研究顯示出強大的優(yōu)越性,已對多種細菌[6,7]、酵母菌/真菌[8]、微孢子蟲[9,10]、草魚[11]等實驗對象進行了分泌蛋白組的預測分析,建立了可信度較高的分泌蛋白預測系統(tǒng)[12-14],得到了許多有益的結(jié)果,但迄今樹鼩分泌蛋白的分離鑒定主要集中于免疫因子類(如干擾素[15]、IL-2[16]等),尚未見到其它分泌蛋白的研究報道,本研究基于基因組測序數(shù)據(jù),通過生物信息學方法對樹鼩的分泌蛋白在全基因組范圍進行預測,并對分泌蛋白的功能和序列特征進行分析,以期為樹鼩免疫、內(nèi)分泌調(diào)控、神經(jīng)傳導、細胞增殖、激素調(diào)節(jié)等生理活動機制的實驗研究提供參考,使實驗數(shù)據(jù)更具目的性和有效性。
用于分析的樹鼩分泌蛋白的3895個來源為Tupaiachinensis的完整氨基酸序列來源于uniprot蛋白數(shù)據(jù)庫(http://www.uniprot.org/)。真核生物分泌蛋白預測流程EuSecPred 2.0(http://silkpathdb.swu.edu.cn/silkpathdb/eusecpred)。蛋白質(zhì)Gene Ontology(GO)注釋及繪圖程序分別為InterProScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/) 和 WEGO(http://wego.genomics.org.cn/cgi-bin/wego/index.pl)。氨基酸序列組成分析程序WebLogo(http://weblogo.threeplusone.com/create.cgi),蛋白質(zhì)序列基序分析軟件MEME(http://meme.nbcr.net/meme/cgi-bin/meme.cgi)。
以上述樹鼩的全部轉(zhuǎn)錄組蛋白質(zhì)序列為基礎(chǔ)數(shù)據(jù),運行EuSecPred 2.0在線流程篩選分泌型蛋白質(zhì),該流程通過運行TMHMM程序過濾跨膜蛋白,利用Kohgpi程序剔除具有GPI錨定位點的蛋白質(zhì),通過MitoProt去除線粒體蛋白,運行Nucpred、NLStradamus和PredictNLS程序去除定位于細胞核的蛋白質(zhì),然后利用SignalP 4.0對過濾后的蛋白質(zhì)序列進行信號肽預測,最后利用TargetP、PSORT和WoLF PSORT對具有信號肽的蛋白質(zhì)進行亞細胞定位預測,篩選定位于細胞膜外的蛋白質(zhì)。以上所有程序的運行及結(jié)果的處理通過EuSecPred 2.0在線流程完成[8]。篩選得到的分泌蛋白合集包括含有信號肽的經(jīng)典型分泌(classical secreted protein,CSP)以及無信號肽的非經(jīng)典型分泌蛋白(non-classical secreted protein,NCSP)兩種[17]。
針對以上預測結(jié)果,利用InterProScan以Nr和Swiss-Prot數(shù)據(jù)庫中的蛋白質(zhì)序列為參考序列,利用BLASTP程序進行比對,將最高得分同源序列的功能作為各分泌蛋白的參考功能,并利用WEGO將InterProScan獲得的注釋結(jié)果繪圖[9]。
根據(jù)信號肽的預測信息,利用Perl腳本截取所有分泌蛋白的信號肽序列,并統(tǒng)計信號肽序列的長度,然后通過WebLogo程序?qū)λ蟹置诘鞍仔蛄小⑿盘栯男蛄屑靶盘栯募羟形稽c前后3個氨基酸的組成進行統(tǒng)計分析,并利用MEME程序預測序列中的基序[8]。
對預測獲得的3 895個樹鼩蛋白質(zhì)序列進行EuSecPred 流程預測,發(fā)現(xiàn)其中3 178個蛋白質(zhì)具有跨膜結(jié)構(gòu)域,313個蛋白質(zhì)具有線粒體定位信號,570個蛋白質(zhì)具有細胞核定位信號,405個蛋白質(zhì)具有信號肽序列,最終篩選獲得了237個具有信號肽的分泌蛋白和42個無信號肽的分泌蛋白,占已知樹鼩蛋白序列的7.2%。蛋白長度為100 bp~3896 bp,平均長度466 bp,分布最多的區(qū)域集中在100 bp~500 bp,500 bp~4 000 bp稍有分布,現(xiàn)已知序列的樹鼩分泌蛋白呈現(xiàn)偏態(tài)分布(圖1)。
圖1 樹鼩信號肽分泌蛋白的ORF長度
圖2 樹鼩的分泌蛋白GO注釋
對預測獲得的237個CSP和42個NCSP進行功能注釋,279個分泌蛋白均在公共蛋白質(zhì)數(shù)據(jù)庫中檢索到明確功能信息的同源蛋白,在分子功能方面數(shù)目最多的是水解酶類,占42.4%,具有蛋白結(jié)合功能的蛋白占32.4%,具有離子結(jié)合功能的蛋白占16.4%,在生物過程方面涉及初級代謝的蛋白最多,占46.6%(圖2)。
引導分泌蛋白的信號肽長度介于15~37個氨基酸之間,長度主要集中在18 aa~20 aa,平均為25 aa,中值為19 aa(圖3)。如圖4所示,根據(jù)SignalP 3.0的結(jié)果,從樹鼩分泌型信號肽的N 結(jié)構(gòu)域、H 結(jié)構(gòu)域和C 結(jié)構(gòu)域的變化來看,帶正電荷的N 結(jié)構(gòu)域的長度變化為2~ 21 aa,平均為6 aa。H 結(jié)構(gòu)域的長度變化為6~ 14 aa,平均為10 aa。分泌蛋白組成主要為疏水性氨基酸,占全部氨基酸組成的41.5%,含量最高的是亮氨酸(L),占全部氨基酸組成的10.2%,親水性氨基酸占全部氨基酸組成的34.6%,分泌蛋白氨基酸組成中色氨酸(W)的含量最低 (圖4純色填充區(qū));分泌蛋白信號肽氨基酸組成主要為疏水性氨基酸,占全部氨基酸組成的65.7%,其中含量最高的也為亮氨酸(L),占全部氨基酸組成的26.8%,親水性氨基酸占25.4%,堿性、酸性氨基酸的比率低于分泌蛋白中的相應比率,各占6.8%和2.1%(圖4漸變填充區(qū))。
對樹鼩分泌蛋白進行基序分析發(fā)現(xiàn),在信號肽區(qū)域未發(fā)現(xiàn)有基序的存在,而在非信號肽區(qū)域發(fā)現(xiàn)有5種基序存在,分別為基序1:GxHxCGG[FSV]L[IV][RAS][EP]D[WF]VLTAAHC、基序2:[KG]PPGV[YF]T[RK][VI][SC]x[YF][VL][DS]WIQx[TV][MI][RK]、基序3:[DT][SA][CF][QK]GDSGGPLVCNGV[LA]QG[IL]V、基序4:GY[HL][FL]CGG[SAT]L[ILV]S[EDP][CR]WV[LV][TS]AAHCF、基序5:N[IV][FI]FSP[LV]S[IV][SA][TA]ALAMLSLG[AT]xNDTLTQ[IL]L[EQ][GV]LGF[ND]LT[ES]T[SP]E(圖5)。
圖3 樹鼩分泌蛋白信號肽長度分布
圖4 樹鼩分泌蛋白及信號肽序列的氨基酸組成
圖5 樹鼩分泌蛋白基序
對樹鼩分泌蛋白的信號肽剪切位點前后3個氨基酸進行統(tǒng)計分析發(fā)現(xiàn),與整個信號肽的氨基酸組成稍有不同,剪切位點出現(xiàn)多種親水性氨基酸及酸性、堿性氨基酸,其中甘氨酸(G)和絲氨酸(S)含量最為豐富;從各個位點來看,其基本序列組成為Lxx[AV]x[AG],即剪切位點上游﹣3位較保守,主要為亮氨酸(L);上游﹣2、-1和+2位呈現(xiàn)隨機分布狀態(tài),-2位主要為甘氨酸(G)、丙氨酸(A)和脯氨酸(P),-1位主要為亮氨酸(L)、甘氨酸(G)和絲氨酸(S),2位主要為亮氨酸(L)、絲氨酸(S)和谷氨酰胺(Q);1位主要為丙氨酸(A)和纈氨酸(V),3位主要為丙氨酸(A)和甘氨酸(G)(圖6)。
樹鼩作為實驗動物的開發(fā)還處于起步階段,其分泌蛋白組的研究還在持續(xù)發(fā)展當中,除了少量細胞免疫因子類蛋白的分離外,其他分泌蛋白尚無報道。而近年來基于實驗數(shù)據(jù)所建立的生物信息學算法的發(fā)展以及樹鼩轉(zhuǎn)錄組數(shù)據(jù)的獲得則為從基因組水平方面鑒定分泌蛋白提供了可能。本研究基于樹鼩基因組數(shù)據(jù),在全基因組范圍內(nèi)對分泌蛋白進行預測,獲得了279個分泌蛋白,為樹鼩分泌蛋白的后續(xù)實驗研究提供了靶標和參考。另一方面,本研究采用的所有預測方法是一套非常嚴格的流程,保證了預測結(jié)果的可靠性,且EuSecPred 2.0加入了SecretomeP程序,使得非經(jīng)典途徑分泌的蛋白質(zhì)也可以被預測。
剪切位點前后氨基酸
本研究預測獲得的279個樹鼩分泌蛋白中,均能夠在公共蛋白質(zhì)數(shù)據(jù)庫中檢索到明確功能信息的同源蛋白,從而獲得蛋白的GO注釋,在分子功能方面數(shù)目最多的是分泌性的水解酶類,占42.4%,具有蛋白結(jié)合功能的占32.4%,具有離子結(jié)合功能的占16.4%,在生物過程方面涉及初級代謝過程的蛋白最多,占46.6%,這也驗證了本研究所采用預測方法的可靠性,更重要的是為解析樹鼩與人類的同源性和細胞信息傳遞機制方面提供了更多的靶標和切入點。樹鼩基因組中還有大量的通過預測(Predicted)得到的蛋白序列,由于其蛋白序列未被確定,因此在本研究中未進行預測分析,而這些預測得到的蛋白序列也有可能存在分泌蛋白,這類蛋白的預測分析還有待大量的工作對蛋白數(shù)據(jù)庫進行進一步的完善。而從全基因組范圍來看,樹鼩的分泌蛋白也主要由疏水性氨基酸組成,是高度保守的,因此信號肽是高度進化的,在決定亞細胞定位上是非常精密的,這可能是分泌蛋白的特有特征。信號肽中亮氨酸的含量最高,表明亮氨酸可能是信號肽的一種關(guān)鍵氨基酸。樹鼩分泌蛋白的信號肽區(qū)不存在基序,而位于序列內(nèi)部的另外5個基序則可以對分泌蛋白的核定位功能研究提供重要參考。
生物信息學與生物學實驗相結(jié)合的方法已經(jīng)越來越廣泛的應用于生物學的研究當中,通過多個軟件結(jié)合對整個基因組的蛋白進行高通量和快速的分析,再用實驗的方法加以驗證,可以減少大量的實驗工作和縮短科研耗時,本研究借助于現(xiàn)有的樹鼩蛋白序列信息,對樹鼩基因組蛋白進行了挖掘,并主要對經(jīng)典的含信號肽的分泌蛋白進行了系統(tǒng)分析,對樹鼩特異的生物信息通路、分泌蛋白表達譜研究有基礎(chǔ)指導作用,樹鼩分泌蛋白數(shù)據(jù)庫的構(gòu)建和完善,可為后續(xù)工作提供各種類的分泌蛋白進行針對性的研究,將大大加快分泌蛋白組的進程;同時結(jié)合液相色譜/質(zhì)譜聯(lián)用產(chǎn)生的大量數(shù)據(jù),以及生物學技術(shù)Western blot、免疫組化、Pull down、免疫共沉淀、酵母雙雜交及蛋白質(zhì)芯片技術(shù)等的聯(lián)合,最終能達到由基因到功能的轉(zhuǎn)換和互通[18]。
參考文獻:
[1] 王曉娟, 楊春, 蘇建家. 樹鼩在醫(yī)學實驗研究中的新進展 [J]. 中國比較醫(yī)學雜志, 2010, 20(2):67-70.
[2] 徐林, 張云, 梁斌, 等. 實驗動物樹鼩和人類疾病的樹鼩模型研究概述 [J]. 動物學研究, 2013, 34 (2):59-69.
[3] 黃曉燕, 徐娟, 孫曉梅, 等. 樹鼩在人類疾病動物模型中應用研究進展 [J]. 實驗動物科學, 2013, 30(2):59-64.
[4] Fan Y, Huang AY, Cao CC, et al. Genome of the Chinese tree shrew [J]. Nat Commun, 2013, 4:1426.
[5] Guerriero CJ, Brodsky JL. The delicate balance between secreted protein folding and endoplasmic reticulum-associated degradation in human physiology [J]. Physiol Rev, 2012, 92(2):537-576.
[6] Tjalsma H, Bolhuis A, Jonqbloed JD, et al. Signal peptide-dependent protein transport in Bacillus subtilis: a genome-based survey of the secretome [J]. Microbiol Mol Biol Rev, 2000, 64(3):515-547.
[7] Vizcaíno C, Restrepo-Montoya D, Rodríguez D, et al. Computational prediction and experimental assessment of secreted/surface proteins from Mycobacterium tuberculosis H37Rv [J]. Plos Comput Biol, 2010, 6(6):e1000824.
[8] Druzhinian IS, Shelest E, Kubicek CP, et al. Novel traits of Trichoderma predicted through the analysis of its secretome [J]. FEMS Microbiol Lett, 2012, 337(1):1-9.
[9] 李田, 劉顯林, 韓冰, 等. 家蠶微孢子蟲全基因組分泌蛋白的預測分析 [J]. 蠶業(yè)科學,2013, 39 (2):295-301.
[10] 李田, 齊曉冉, 陶美林, 等. 4種微孢子蟲的分泌蛋白的比較基因組學分析 [J]. 蠶業(yè)科學, 2013, 39 (3):527-536.
[11] 孫翰昌, 楊帆, 徐敬明, 等. 草魚含信號肽分泌蛋白的預測分析 [J]. 水產(chǎn)科學, 2011, 30 (3):164-167.
[12] Klee EW, Ellis LB. Evaluating eukaryotic secreted protein prediction [J]. BMC Bioimformatics, 2005, 14(6):256-263.
[13] Min XJ. Evaluation of computational methods for secreted protein prediction in different eukaryotes[J]. J Proteomics Bioinform, 2012, 3(5):143-147.
[14] Cui J, Liu Q, Puett D, et al. Computational prediction of human proteins that can be secreted into the bloodstream [J]. Bioinformatics, 2008, 25(20):2370-2375.
[15] 李明利, 田巍威, 高躍東, 等. 樹鼩干擾素家族的基本構(gòu)成及分子特征分析 [J]. 動物學研究, 2012, 33 (1):67-74.
[16] 黃曉燕, 李明利, 徐娟, 等. 樹鼩IL-2全長編碼序列的克隆及分子特征分析 [J]. 動物學研究, 2013, 34 (2):121-126.
[17] Malhotra V. Unconventional protein secretion [J]. EMBO J, 2013, 32(12):1660-1664.
[18] 張楠楠, 劉欣, 孫晶, 等. 真核細胞非經(jīng)典蛋白分泌途徑 [J]. 遺傳, 2009, 31(1):29-35.