王 娟,李春娟,閆彩霞,趙小波,單世華
(山東省花生研究所,山東 青島 266100)
花生(ArachishypogaeaL.)是我國重要的經(jīng)濟作物和油料作物,我國的花生產(chǎn)量占世界花生總產(chǎn)的40%以上,居世界第一位[1]。栽培種花生基因組(AABB)龐大而復雜[2],導致對花生基因組的測序和分析非常困難。為解決類似難題,科學家們基于只對非重復或低重復基因組區(qū)域進行測序來降低測序基因組復雜程度的簡化基因組測序(Reduced-Representation Genome Sequencing, RRGS),開發(fā)了一系列低成本、高通量的基因型鑒定方法。其中,基于測序的基因分型(Genotyping by Sequencing,GBS)方法是通過獲取全基因組范圍內(nèi)呈現(xiàn)特異性酶切位點附近的小片段DNA標簽,以獲得整個基因組的序列特征,從而進行全基因組水平的生物信息學分析[3]。隨著測序技術(shù)的不斷改進,雙酶切GBS(Double digest Genotyping-by Sequencing, ddGBS)測序能夠降低基因組復雜程度,使得全基因組水平的基因分型更加簡便、可靠、實用[4]。
因此,ddGBS能夠為進一步揭示花生種質(zhì)資源中的新基因,以及確定影響花生生長發(fā)育的關(guān)鍵基因構(gòu)建理論基礎(chǔ)。作為GBS測序的第一步,對限制性內(nèi)切酶組合的選擇決定了酶切位點附近的小片段DNA分布,對于后續(xù)基因信息的識別有重要的影響。本研究對三組常用的酶切組合進行比較[5-6],選取了最佳酶切組合,并且通過統(tǒng)計分析進一步確認該酶切組合的合理性。
本研究所用參考基因組序列來自花生數(shù)據(jù)庫(https://www.peanutbase.org/)。其中,Arachisduranensis的基因組(A基因組)大小為1.08G,A.ipaensis的基因組 (B基因組)大小為1.35G。
根據(jù)文獻報道,選取三組常用的限制性內(nèi)切酶組合(SacI和MseI;PstI和MspI;EcoRI和NIaIII)。其中,SacI的識別位點為GAGCT^C,MseI的識別位點為T^TAA,PstI的識別位點是CTGCA^G和G^ACGTC,MspI的識別位點為C^CGG,EcoRI的識別位點為G^AATTC,NIaIII的識別位點是CATG。選擇依據(jù):① 酶切片段在各染色體上分布較均勻;② 酶切片段在全基因組上覆蓋度較高。通過電子酶切統(tǒng)計結(jié)果,初步選定酶切組合[7]。
通過R軟件包(https://www.r-project.org/)和Excel軟件統(tǒng)計候選酶切組合得到酶切片段長度。通過R軟件包統(tǒng)計該酶切組合在全基因組和各個染色體上的分布、數(shù)目和長度。
針對群體分析的研究目的,測序深度選擇在5~10X左右。依次使用三組常用的限制性內(nèi)切酶組合(SacI和MseI;PstI和MspI;EcoRI和NIaIII)對已公布的花生野生二倍體基因組A(Arachisduranensis)和基因組B(A.ipaensis)序列進行電子酶切。結(jié)果顯示,EcoRI和NIaIII酶切組合得到的酶切片段覆蓋全基因組比例最大,A基因組上占3.10%,B基因組上占3.53%;PstI和MspI得到的酶切片段覆蓋全基因組范圍最小,A基因組上占0.88%,B基因組上占1.19%。因此,EcoRI和NIaIII酶切組合成為候選酶切組合,相應(yīng)測序量在403~806 M之間(表1)。
EcoRI和NIaIII酶切組合所產(chǎn)生酶切片段長度如下(圖1)。基因組A和B上,大小在1~10kb片段所占比例最大,>40kb以上的片段占比例最小。高通量測序通常選取大小在300~500 bp酶切片段,本研究中,實際統(tǒng)計的有效長度在386~390 bp之間,片段數(shù)目在B05染色體上最多,達到27568個,A01染色體上最少,有7888個。有效Tags總數(shù)與染色體長度相關(guān),所占染色體的比例穩(wěn)定,除A08染色體為0.15外,均為0.14(表2)。
在花生全基因組范圍內(nèi),有效tags總數(shù)為412662個,花生各個染色體上的分布位置見圖2,酶切片段分布較均勻,有效覆蓋度2.46%(表3),能夠達到GBS測序所需的覆蓋范圍(1%~3%),因此,酶切所得到DNA片段的覆蓋范圍對于后續(xù)的分析也比較合理。
圖1 酶切片段長度柱形統(tǒng)計圖 Fig.1 The bar chart of the enzyme fragment length
表2 酶切片段在每條染色體上的分布情況
圖2 酶切片段分布(左)以及有效酶切片段的分布(右) Fig.2 The distribution of restriction fragments (left) and the effective of restriction fragments (right)
表3 酶切片段在全基因組上的分布情況
GBS是一種性價比較高的簡化基因組測序方法。GBS測序首先需要選擇最佳的酶切組合來保證后續(xù)測序和分析的正常進行。根據(jù)參考文獻信息,研究選取了三組常用的限制性內(nèi)切酶組合(SacI和MseI;PstI和MspI;EcoRI和NIaIII),并分別對已公布的花生野生二倍體基因組A(Arachisduranensis)和基因組B(Arachisipaensis)序列進行電子酶切和相關(guān)統(tǒng)計。
通過對酶切片段覆蓋范圍,數(shù)目以及長度統(tǒng)計數(shù)據(jù)進行分析和對比,表明EcoRI和NIaIII是相對比較理想的限制性內(nèi)切酶組合,因此本研究為群體遺傳資源在全基因組水平的挖掘奠定了基礎(chǔ)。
[1] 萬書波. 中國花生品質(zhì)區(qū)劃[M]. 北京:科學出版社,2012.
[2] 禹山林.中國花生品種及其系譜[M]. 上海:上海科學技術(shù)出版社, 2008.
[3] Davey J W, Hohenlohe P A, Etter P D, et al. Genome-wide genetic marker discovery and genotyping using next-generation sequencing [J]. Nature Reviews Genetics, 2011, 12(7): 499-510.
[4] Elshire R J, Glaubitz J C, Sun Q, et al. A robust, simple genotyping-by-sequencing (GBS) approach for high diversity species [J]. PloS ONE, 2011, 6: e19379. DOI:10.1371/journal.pone.0019379.
[5] Shirasawa K, Hirakawa H, and Isobe S. Analytical workflow of double-digest restriction site-associated DNA sequencing based on empirical and in silico optimization in tomato [J]. DNA Research, 2016, 23:145-153.
[6] Zhou X, Xia Y, Ren X, et al. Construction of a SNP-based genetic linkage map in cultivated peanut based on large scale marker development using next-generation double-digest restriction-site-associated DNA sequencing (ddRADseq) [J]. BMC Genomics, 2014, 15(1):351.
[7] Bertioli D J, Cannon S B, Froenicke L, et al. The genome sequences ofArachisduranensisandArachisipaensis, the diploid ancestors of cultivated peanut [J]. Nature Genetics, 2016, 48(4):118-120.