劉 凱,謝 楠,馮曉宇,劉新軼,潘彬斌,姚桂桂
(杭州市農(nóng)業(yè)科學(xué)研究院,浙江 杭州 310024)
?
三角魴肝臟EST序列微衛(wèi)星信息分析
劉 凱,謝 楠,馮曉宇,劉新軼,潘彬斌,姚桂桂
(杭州市農(nóng)業(yè)科學(xué)研究院,浙江 杭州 310024)
摘要:利用RNA-Seq技術(shù)對(duì)三角魴的肝臟進(jìn)行了轉(zhuǎn)錄組測(cè)序,獲得了大量EST序列后,利用MISA軟件進(jìn)行微衛(wèi)星信息分析。結(jié)果表明,通過轉(zhuǎn)錄組測(cè)序獲得三角魴EST序列62780條,長(zhǎng)度31.9 Mb,發(fā)現(xiàn)8853個(gè)SSR,出現(xiàn)頻率為14.1%。在三角魴EST-SSR中,重復(fù)單元以1~2堿基重復(fù)為最多,并以長(zhǎng)度小于16 bp的短重復(fù)序列為主,間隔SSR和復(fù)合SSR的EST序列RPKM均值低于單純型SSR的EST序列RPKM均值,且在單純型SSR中SSR長(zhǎng)度越長(zhǎng),其RPKM均值則越低。因此,對(duì)富含SSR位點(diǎn)的EST序列的挖掘?qū)殚_發(fā)SSR特異性標(biāo)記,并應(yīng)用于三角魴生物多樣性和選育提供了參考。
關(guān)鍵詞:三角魴;表達(dá)序列標(biāo)簽;微衛(wèi)星;序列分析
三角魴(Megalobramaterminalis)隸屬鯉形目(Cypriniformes)鯉科(Cyprinidae)鲌亞科(Culterinae)魴屬(Megalobrama),在我國嶺南以北各大水系均有分布。受捕撈、環(huán)境因素的影響,目前,國內(nèi)三角魴的野生自然資源量已經(jīng)相對(duì)匱乏,僅在錢塘江、長(zhǎng)江中游、珠江、黑龍江有一定數(shù)量的分布。其中以錢塘江流域三角魴最為著名,錢塘江六和塔附近一帶的“塔鳊”以及梅城三江交匯處盛產(chǎn)的“三江鳊”均指三角魴,該品種具有生長(zhǎng)快、病害少、養(yǎng)殖效益高、成活率高、肉質(zhì)好、經(jīng)濟(jì)價(jià)值高等優(yōu)勢(shì)[1]。目前,三角魴已成為浙江省主要特色名優(yōu)淡水養(yǎng)殖品種之一,尤其是杭州地區(qū),三角魴養(yǎng)殖已形成相當(dāng)大的規(guī)模。
隨著養(yǎng)殖規(guī)模的不斷擴(kuò)大,進(jìn)一步保護(hù)、開發(fā)錢塘江三角魴,推動(dòng)三角魴養(yǎng)殖產(chǎn)業(yè)化發(fā)展成為迫在眉睫需要開展的工作。目前,對(duì)錢塘江三角魴種質(zhì)資源的保護(hù)與研究不夠深入[2-4],因此,深入研究三角魴遺傳育種并加以利用,可進(jìn)一步提升養(yǎng)殖三角魴的優(yōu)良性狀。隨著科學(xué)技術(shù)的快速發(fā)展,RNA-Seq技術(shù)的出現(xiàn)為非模式生物轉(zhuǎn)錄組研究帶來了生機(jī),由于無需所研究物種的基因信息,即可對(duì)其進(jìn)行轉(zhuǎn)錄組分析而受到廣大研究者的青睞。微衛(wèi)星(Simple Sequence Repeats,SSR)作為第二代分子標(biāo)記,因其在基因組中數(shù)量眾多、分布均勻、共顯性等優(yōu)點(diǎn),被越來越多地用于水生動(dòng)物群體遺傳學(xué)分析。因此,本文基于RNA-Seq技術(shù)對(duì)三角魴進(jìn)行轉(zhuǎn)錄組測(cè)序,獲得相關(guān)EST序列并進(jìn)行SSR信息分析,以期能為三角魴的種質(zhì)資源保護(hù)和相關(guān)分子標(biāo)記開發(fā)等提供參考。
1材料與方法
1.1試驗(yàn)材料
試驗(yàn)用三角魴采自浙江杭州國家級(jí)錢塘江三角魴原種場(chǎng),體質(zhì)健康(體重≈750 g)。試驗(yàn)用樣品組織為肝臟,分別采集6個(gè)三角魴的肝臟并混合后作為轉(zhuǎn)錄組建庫及測(cè)序樣本,將樣品組織先經(jīng)液氮瞬時(shí)冷凍,之后于-80 ℃低溫保存?zhèn)溆谩?/p>
1.2EST序列的獲得
從三角魴的肝臟提取mRNA構(gòu)建cDNA文庫,建好的文庫用Illumina HiSeq 2000進(jìn)行測(cè)序,經(jīng)過序列拼接及去重復(fù),得到62780個(gè)EST序列,大小為31.9 Mb,序列平均長(zhǎng)度為531.89 bp,G、C堿基占總堿基的比例為45.7%,N50值為652,可以滿足后續(xù)數(shù)據(jù)分析要求。
1.3基因表達(dá)豐度
用拼接得到的轉(zhuǎn)錄本(≥200 bp)做庫,用序列相似性比對(duì)法求各轉(zhuǎn)錄本在各樣本中的表達(dá)豐度,豐度值采用RPKM(Reads Per Kilobase of exon model per Million mapped reads)法計(jì)算。使用軟件bwa(http://sourceforge.net/projects/bio-bwa),采用single-end的mapping方法,允許一個(gè)reads比對(duì)到多個(gè)轉(zhuǎn)錄本上,此時(shí)每個(gè)reads在每個(gè)轉(zhuǎn)錄本上計(jì)1/n,每個(gè)EST序列下面的所有轉(zhuǎn)錄本可比對(duì)上的reads均計(jì)于該EST序列下。
1.4SSR分析
以Illumina HiSeq 2000測(cè)序獲得的EST序列作為參考序列,使用SSR篩選軟件MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)進(jìn)行SSR篩選。篩選標(biāo)準(zhǔn)為1個(gè)堿基重復(fù)≥10次,2個(gè)堿基重復(fù)≥6,3~6個(gè)堿基重復(fù)≥5次,兩個(gè)微衛(wèi)星之間的距離小于100 bp的時(shí)候,兩個(gè)微衛(wèi)星組成一個(gè)復(fù)合微衛(wèi)星。用SSR出現(xiàn)頻率和SSR平均分布距離來描述SSR,出現(xiàn)頻率前2位的重復(fù)單元定義為優(yōu)勢(shì)重復(fù)單元。計(jì)算公式分別為:
SSR出現(xiàn)頻率=搜索到的SSR數(shù)量/EST序列數(shù)量
SSR平均分布頻率=EST序列總堿基數(shù)/搜索到的SSR數(shù)量
利用Primer3 interface modules (http://pgrc.ipk-gatersleben.de/misa/Primer3.html)對(duì)SSR篩選結(jié)果進(jìn)行預(yù)處理后,利用Primer3(http://sourceforge.net/projects/Primer3)進(jìn)行SSR引物的批量設(shè)計(jì),引物設(shè)計(jì)的參數(shù)是Tm為60 ℃,引物長(zhǎng)度為20 bp。
2結(jié)果與分析
2.1三角魴肝臟EST序列中SSR重復(fù)單元分布
利用MISA軟件對(duì)三角魴肝臟的EST序列進(jìn)行SSR特征分析,檢測(cè)的三角魴肝臟EST序列共62780條,長(zhǎng)度為31.9 Mb,共發(fā)現(xiàn)8853個(gè)SSR,出現(xiàn)頻率為14.1%,平均每3.69 kb出現(xiàn)1個(gè)SSR。檢出的SSR包含了1、2、3、4、5、6堿基重復(fù)單元,不同重復(fù)單元出現(xiàn)頻率隨堿基數(shù)增加而明顯降低,其中最常見的是1堿基和2堿基重復(fù)單元,各重復(fù)單元SSR出現(xiàn)頻率及分布頻率信息見表1。
表1 三角魴肝臟EST序列中不同重復(fù)
注:不同重復(fù)單元SSR分布情況考慮到了堿基的互補(bǔ)作用。下同。
在搜索到的三角魴肝臟EST序列SSR中,共觀察到52種不同的重復(fù)單元類型,其中1堿基重復(fù)2種、2堿基重復(fù)4種、3堿基重復(fù)10種、4堿基重復(fù)16種、5堿基重復(fù)11種、6堿基重復(fù)9種。1堿基重復(fù)中,A/T類型出現(xiàn)的頻率最高,占95.42%;2堿基重復(fù)中,AC/GT出現(xiàn)的頻率最高,占60.67%;3堿基重復(fù)中,ATC/ATG出現(xiàn)的頻率最高,占28.06%;4堿基重復(fù)中,AAAG/CTTT出現(xiàn)的頻率最高,占20.45%;5堿基重復(fù)中,AAAAG/CTTTT出現(xiàn)的頻率最高,占18.42%;6堿基重復(fù)中,ACCTCC/AGGTGG出現(xiàn)的頻率最高,占97.87%,結(jié)果見表2。
2.2三角魴肝臟EST序列中SSR的長(zhǎng)度分布
對(duì)三角魴肝臟的EST序列中所發(fā)現(xiàn)的SSR長(zhǎng)度變化進(jìn)行了分析,結(jié)果發(fā)現(xiàn)序列所含SSR在長(zhǎng)度上存在顯著變異,SSR長(zhǎng)度從10到217個(gè)堿基不等,SSR的加權(quán)平均長(zhǎng)度為21.94 bp,以長(zhǎng)度小于16 bp的短重復(fù)序列最多,其次是長(zhǎng)度為16~20 bp的序列重復(fù),大于40 bp的較長(zhǎng)序列重復(fù)占比為7.57%(圖1),利用SPSS進(jìn)行Pearson相關(guān)性分析表明,三角魴肝臟SSR數(shù)量和長(zhǎng)度呈顯著負(fù)相關(guān)性,相關(guān)系數(shù)為-0.487,P=0.000<0.01具有統(tǒng)計(jì)學(xué)意義。
以SSR數(shù)量對(duì)堿基重復(fù)數(shù)量作圖(圖2),由此可知,SSR數(shù)量隨著堿基重復(fù)次數(shù)的增加而呈明顯下降趨勢(shì),而且堿基重復(fù)次數(shù)越少,SSR數(shù)量下降的速率就越快。1堿基重復(fù)次數(shù)達(dá)到24次、2堿基重復(fù)次數(shù)達(dá)到21次、其他堿基重復(fù)次數(shù)達(dá)到12次的時(shí)候,SSR數(shù)量的下降速率降低并進(jìn)入平臺(tái)期。
表2 三角魴肝臟EST序列中不同重復(fù)單元SSR的出現(xiàn)頻率
三角魴肝臟62780條EST序列中,含SSR的EST序列共有6209條,占總數(shù)的9.89%。將含SSR的EST序列與不含SSR的EST序列的RPKM均值比較,含SSR的EST序列的RPKM均值為47.86,是不含SSR的EST序列的RPKM均值22.40的2.14倍。Weber將微衛(wèi)星分為3類,即單純(Pure)SSR、復(fù)合(Compound)SSR和間隔(Interrupted)SSR[15]。本試驗(yàn)發(fā)現(xiàn),三角魴肝臟中含有間隔SSR和復(fù)合SSR的EST序列的RPKM均值分別為35.92、63.04,單純型SSR的EST序列的RPKM均值為48.93,高于間隔SSR的EST序列的RPKM均值,但低于復(fù)合SSR的EST序列的RPKM均值,結(jié)果見表3。對(duì)SSR長(zhǎng)度與相關(guān)EST序列的RPKM值進(jìn)行相關(guān)性分析,SSR長(zhǎng)度與EST序列的RPKM值相關(guān)系數(shù)為-0.007,無顯著相關(guān)性。
以三角魴肝臟的EST序列為基礎(chǔ),利用Primer3軟件進(jìn)行批量引物設(shè)計(jì),14561個(gè)含SSR序列,7297條序列引物設(shè)計(jì)失敗,成功設(shè)計(jì)7264對(duì)SSR引物,成功率為49.89%。
圖1 三角魴肝臟EST序列中SSR堿基
圖2 三角魴肝臟EST序列中SSR數(shù)量
3討論
本試驗(yàn)分析了三角魴肝臟EST序列中SSR的分布頻率和重復(fù)單元的特征,發(fā)現(xiàn)三角魴肝臟19.03%的EST序列中能檢出SSR,這一比例明顯高于櫛孔扇貝(1.61%)、中國對(duì)蝦(2.2%)、鯉魚(5.55%),中華鱉(7.45%)和斑點(diǎn)叉尾鮰(11.2%)的[5-9]。這表明基于轉(zhuǎn)錄組測(cè)序獲得EST序列后去尋找SSR標(biāo)記有明顯優(yōu)點(diǎn),當(dāng)然SSR出現(xiàn)頻率的顯著差異也可能是由于水生動(dòng)物物種特異性引起的,此外也有部分原因是篩選SSR設(shè)定參數(shù)的不同所造成的。
在三角魴肝臟EST-SSR中,重復(fù)單元以1~2堿基重復(fù)為最多,其次是3、4、5和6堿基重復(fù),這與牙鲆、中國對(duì)蝦和凡納濱對(duì)蝦中的研究結(jié)果相似[6,10-11],而在縊蟶和大黃魚的研究中[12-13],3堿基重復(fù)比例大于2堿基重復(fù)。此外,本試驗(yàn)中發(fā)現(xiàn),三角魴肝臟EST-SSR中6堿基重復(fù)比例相對(duì)于4、5堿基重復(fù)明顯要高,該結(jié)果與長(zhǎng)牡蠣EST-SSR的研究類似[14],其中出現(xiàn)頻率最高的是ACCTCC/AGGTGG。在三角魴肝臟EST-SSR的2堿基重復(fù)單元中出現(xiàn)頻率最高的是AC/GT,這與牙鲆、鯉魚、中華鱉和斑點(diǎn)叉尾鮰的結(jié)果一致[7-10]。而在縊蟶中頻率最高的是AT/AT[12]、長(zhǎng)牡蠣中AG/CT數(shù)量最多[14]。由此推測(cè),這種SSR堿基偏倚性可能在大多數(shù)水生生物中存在,具有物種特異性,也不排除與試驗(yàn)方法的差異有關(guān)。
由重復(fù)單元的重復(fù)次數(shù)不同所造成的多態(tài)性常常表現(xiàn)為復(fù)等位性,在不同的基因型間存在豐富的多態(tài)性。研究者認(rèn)為這種多態(tài)性起因于復(fù)制過程中的滑動(dòng)[16]。因此,SSR長(zhǎng)度的變化反映SSR位點(diǎn)獲得或失去重復(fù)單元的活躍程度。越來越多的研究表明,SSR參與基因的表達(dá)調(diào)控及基因重排、變異等活動(dòng)并與腫瘤發(fā)生及神經(jīng)系統(tǒng)疾病有關(guān)[17-20]。在羅非魚研究中發(fā)現(xiàn),SSR長(zhǎng)度與基因表達(dá)強(qiáng)度相關(guān),在無環(huán)境脅迫的條件下SSR長(zhǎng)度越長(zhǎng),基因表達(dá)水平越低,在有環(huán)境脅迫的條件下則反之[21]。本試驗(yàn)發(fā)現(xiàn),三角魴肝臟測(cè)序所獲得的EST序列中,,單純型SSR的EST序列的RPKM均值,高于間隔SSR的EST序列的RPKM均值,但低于復(fù)合SSR的EST序列的RPKM均值,表明三角魴肝臟中復(fù)合SSR的EST序列表達(dá)強(qiáng)度較高。在單純型SSR中SSR長(zhǎng)度越長(zhǎng),其RPKM均值則越低,這與羅非魚上的研究結(jié)論類似。而在楊樹和茶樹EST-SSR的研究中認(rèn)為,含有SSR的基因總體表達(dá)水平偏低,這樣有利于相應(yīng)基因在基因組中的保存,規(guī)避部分選擇壓力[22-23]。但本試驗(yàn)中發(fā)現(xiàn),三角魴肝臟中含SSR的EST序列的RPKM均值明顯高于不含SSR的EST序列的RPKM均值,與楊樹和茶樹的研究結(jié)果不同,這也許是由于物種差異或試驗(yàn)方法上的差別所造成的,但有待進(jìn)一步研究。此外,本試驗(yàn)中使用Primer3對(duì)轉(zhuǎn)錄本進(jìn)行批量SSR引物設(shè)計(jì),大大提高了工作效率,為下一步工作的開展奠定了基礎(chǔ)。
參考文獻(xiàn):
[1] 馮曉宇.浙江省三角魴研究進(jìn)展及示范推廣情況[J].科學(xué)養(yǎng)魚,2009(10):40-41.
[2] 李思發(fā),朱澤聞,鄒曙明,等.魴屬團(tuán)頭魴、三角魴及廣東魴種間遺傳關(guān)系及種內(nèi)遺傳差異[J].動(dòng)物學(xué)報(bào),2002,48(3):339-345.
[3] 謝楠,劉新軼,馮曉宇,等.魴屬魚類細(xì)胞色素b片段序列分析[J].現(xiàn)代農(nóng)業(yè)科技,2012(1):290-292.
[4] 張倩倩,陳杰,蔣霞云,等.不同鳊魴魚類群體微衛(wèi)星DNA指紋圖譜的構(gòu)建和遺傳結(jié)構(gòu)分析[J].水產(chǎn)學(xué)報(bào),2014,38(1):15-22.
[5] Zhan A B, Bao Z M, Hu X L. Characterization of 95 novel microsatellite markers for Zhikong scallopChlamysfareriusing FIASCO colony hybridization and EST database mining[J]. Fisheries Science, 2008, 74(3): 516-526.
[6] Wang H X, Li F H, Xiang J H. Polymorphic EST-SSR markers and their mode of inheritance inFenneropenaeuschinensis[J]. Aquaculture, 2005, 249(1/4): 107-114.
[7] Wang D, Liao X L, Cheng L, et al. Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J]. Aquaculture, 2007, 271(1/4): 558-574.
[8] 許曉軍,張海琪,張超,等.中華鱉表達(dá)序列標(biāo)簽資源中的微衛(wèi)星信息分析[J].經(jīng)濟(jì)動(dòng)物學(xué)報(bào),2013,17(1):5-18.
[9] Serapion J, Kucuktas H, Feng J N, et al. Bioinformatic mining of type I microsatellites from expressed sequence tags of channel catfish(Ictaluruspunctatus)[J]. Mar. Biotechnol, 2004, 6(4): 364-377.
[10] 陳松波,龔麗,劉海金.牙鲆EST資源的SSR信息分析[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2010,41(10):82-86.
[11] 王艷紅,胡超群,張呂平,等.凡納濱對(duì)蝦EST微衛(wèi)星標(biāo)記初步篩選[J].大連水產(chǎn)學(xué)院學(xué)報(bào),2008,23(4):304-308.
[12] 劉博,邵艷卿,滕爽爽,等.縊蟶(Sinonovaculaconstricta)EST-SSR分布特征及引物開發(fā)利用[J].海洋與湖沼,2012,43(1):133-137.
[13] Zhang A, Wang Y, Brown B, et al. Isolation and characterization of novel microsatellite markers for yellow perch (Percaflavescens)[J]. Int Mol Sci, 2009, 10(1): 18-27.
[14] 張琳琳,李莉,張國范.長(zhǎng)牡蠣(Crassostreagigas)EST串聯(lián)重復(fù)序列的組成和分布[J].海洋科學(xué),2011,35(4):9-14.
[15] Weber J L. Informativeness of human (dC-dA)n·(dG-dT)n poly-morphisms[J]. Genomics, 1990, 7(4): 524-530.
[16] Sharopova N. Plant simple sequence repeats: distribution, variation, and effects on gene expression[J]. Genome, 2008, 51(2): 79-90.
[17] Thibodeau S N, Bren G, Schaid D. Microsatellite instability in cancer of the proximal colon[J]. Science, 1993, 260(5109): 816-819.
[18] Aaltonen L A, Lauri A, Leach F S, et al. Clues to the pathogenesis of familial colorctal cancer[J]. Science, 1993, 260(5109): 812-816.
[19] Yurij Ionov, Miguel A Peinado, Sergei Malkhosyan, et al. Ubiquitous somatic mutations in simple repeated sequences reveal a new mechanism for colon carcinogenesis[J]. Nature, 1993, 363(6429): 558-561.
[20] Toth G, Gaspari Z, Jurka J. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 2000, 10(7): 967-981.
[21] Streelman J, Kocher T. Microsatellite variation associated with prolactin expression and growth of salt-challengedTilapia[J]. Physiol. Genom, 2002, 9(1): 1-4.
[22] 劉菁菁,戴曉港,王潔,等.楊樹微衛(wèi)星序列對(duì)基因表達(dá)頻率的影響及表達(dá)序列中微衛(wèi)星特征的分析[J].南京林業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,35(1):11-14.
[23] 王麗鴛,韋康,張成才,等.茶樹花轉(zhuǎn)錄組微衛(wèi)星分布特征[J].作物學(xué)報(bào),2014,40(1):80-85.
(責(zé)任編輯:曾小軍)
Analysis of Microsatellite Information of Expressed Sequence Tags in Liver ofMegalobramaterminalis
LIU Kai, XIE Nan, FENG Xiao-yu, LIU Xin-yi, PAN Bin-bin, YAO Gui-gui
(Hangzhou Academy of Agricultural Sciences in Zhejiang Province, Hangzhou 310024, China)
Abstract:A lot of expressed sequence tags (EST) obtained from transcriptome sequencing of livers inMegalobramaterminalisbased on high-throughput RNA sequencing technology, and perform analysis of simple sequence repeats (SSR) information in EST. The results showed that, 62780 EST with 31.9 Mb length were obtained, and 8853 EST-SSR mined out by MISA, the frequency of which was 14.1%. In the EST-SSR ofMegalobramaterminalis, nucleotide and binucleotide repeats were the main types, in a short length of less than 16 bp mainly, mean RPKM of EST contain interrupted and compound SSR were lower than mean RPKM of EST contain pure SSR, and in the pure EST-SSR, the longer SSR in length, the lower mean of RPKM. These EST sequences containing SSR would facilitate the further development of specific SSR markers, as well as providing reference for applying the biodiversity ofMegalobramaterminalisand breeding.
Key words:Megalobramaterminalis; Expressed sequence tags; Microsatellite; Sequence analysis
收稿日期:2015-11-07
基金項(xiàng)目:國家大宗淡水魚產(chǎn)業(yè)技術(shù)體系(CARS-46-43);三角魴良種繁育及產(chǎn)業(yè)化發(fā)展項(xiàng)目(浙江省杭州市財(cái)政專項(xiàng))“三角魴良種選育與生態(tài)養(yǎng)殖”。
作者簡(jiǎn)介:劉凱(1982─),男,工程師,研究方向:水產(chǎn)養(yǎng)殖。
中圖分類號(hào):Q785
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-8581(2016)06-0087-05