王 瑞 凌 亮 詹鵬杰 于紀珍 楚建強 平俊愛,*張福耀,*
1山西省農(nóng)業(yè)科學院高粱研究所 / 高粱遺傳與種質(zhì)創(chuàng)新山西省重點實驗室, 山西榆次 030600; 2山西省農(nóng)業(yè)科學院食用菌研究所, 山西太原030031
高粱[Sorghum bicolor(L.) Moench]是全球農(nóng)業(yè)生態(tài)系統(tǒng)中重要的糧食和飼料作物。全球年種植面積 4000多萬公頃, 總產(chǎn)約 6000萬噸。高粱抗旱且耐鹽堿和瘠薄土壤, 具有在惡劣環(huán)境下生長的能力,被視為干旱和鹽堿土壤農(nóng)業(yè)區(qū)農(nóng)業(yè)可持續(xù)發(fā)展的一種重要作物[1-3]。隨著對淡水資源需求的增加、邊際農(nóng)田利用的增多和全球氣候變暖, 耐干旱、鹽堿作物——高粱將在全球糧食需求不斷增加的今天顯的越來越重要。高粱也是我國的重要旱糧作物之一,全國年種植面積約80萬公頃。目前, 我國的農(nóng)業(yè)生產(chǎn)進入新的轉(zhuǎn)型期, 勞動力成本逐年提高, 農(nóng)民對機械化栽培高粱的渴求與日俱增, 但推廣的高粱品種基本不適宜機械化栽培, 一是株高本身偏高, 不適宜機械化作業(yè), 二是分蘗高度與主莖不一致, 高粱穗不在一個層面, 造成收獲時丟損嚴重, 極大地制約了高粱機械化生產(chǎn)的發(fā)展[4-5]。因此, 高粱分蘗和主莖株高一致的研究, 對指導高粱育種和選育適宜機械化生產(chǎn)高粱品種具有十分重要的理論意義和應用價值。
國內(nèi)外對機械化生產(chǎn)高粱品種的研究主要集中在株高和分蘗力這2個性狀。Quinby等[6]研究確定了植株高度由4個基因位點控制, 依此命名為Dwl、Dw2、Dw3和Dw4; Pereira 等[7]以 CK60 和 PI229828為親本雜交得到 F2群體, 計算出 4個控制株高的QTL; Lin等[8]以雜交F2代群體鑒定出6個控制株高的QTL; Rami等[9]以IS2807分別與種質(zhì)庫中2種高粱雜交, 得到2個RIL群體, 以此為研究對象, 得到3個與株高相關的 QTL; Klein等[10]以 Sureno和RTx430為親本雜交, 選取125株F2鑒定得到2個控制株高性狀的QTL; Upadhyaya等[11]用242份微核心種質(zhì)與39個標記關聯(lián)分析, 得出5個標記與熟期或株高關聯(lián); Upadhyaya等[12]開發(fā)了14,739個SNP標記評估株高, 結(jié)果發(fā)現(xiàn), 6個 SNP位點與株高關聯(lián);Harris-Shultz等[13]以 F2群體發(fā)現(xiàn)了 1個新的株高QTL位于第 3染色體上; 蘇舒等[14]以 T70和 P607為親本, 雜交得到F6代RIL檢測到6個控制株高的QTL; 劉娟等[15]利用‘河農(nóng) 16’與‘千三’的 F2:3遺傳作圖群體的后代材料建立的F8代的132個重組自交系, 檢測到2個與株高相關的QTL。分蘗數(shù)表現(xiàn)出數(shù)量性狀的遺傳特點, 受多個數(shù)量基因位點和環(huán)境因子的共同作用[16]。Feltus等[17]利用BTx623 ×IS3620C的F6-8代作為構圖群體, 檢測到9個控制高粱分蘗數(shù)的 QTL; Shehzad等[18]對來自亞洲和非洲27個國家的代表性高粱品種多樣性研究發(fā)現(xiàn)7個影響分蘗數(shù)的 QTL; Shiringani等[19]利用甜高粱 SS79和粒用高粱M71雜交得到的F6代重組自交系群體為定位群體, 檢測到 6個影響高粱分蘗數(shù)的 QTL; 董維等[20]以T70 × P607雜交得到的F6代RIL群體構建遺傳連鎖圖, 檢測到7個與分蘗數(shù)相關的QTL。對高粱分蘗和主莖株高一致的研究尚未見報道。本研究通過雜交、自交等方法構建 F2分離群體, 基于SLAF-seq技術, 利用F2遺傳分離群體和集群分離法(BSA)對高粱分蘗與主莖株高一致性狀進行關聯(lián)分析, 定位該基因在染色體上的位置, 以期提高我國適宜機械化高粱品種選育水平以及選擇的準確性和科學性。
本實驗田間部分在山西省農(nóng)業(yè)科學院高粱研究所試驗基地(山西榆次和海南三亞)進行, 選用矮桿多分蘗且分蘗整齊一致的品種 K35-Y5為母本, 中高桿有分蘗且分蘗明顯高于主莖的恢復系1383為父本雜交得F1代, 冬季在海南三亞種植F1代, 第 2年夏在山西榆次種植 F2代, 株行距為 25 cm × 50 cm, 每公頃留苗約8萬株, 保證每個單株充分表達其性狀。開花后調(diào)查分蘗與主莖株高的一致性, 分蘗株高與主莖株高同等或株高差≤ 5 cm, 記為株高一致, 分蘗株高與主莖株高差> 5 cm記為不一致。
選取F2分離群體中分蘗與主莖株高一致和分蘗明顯高于主莖的植株各45株, 構建分蘗與主莖株高一致與分蘗明顯高于主莖的 2個極端性狀混池, 連同2個親本作為定位群體進行關聯(lián)分析。
選擇已經(jīng)測序完成的高粱基因組作為參考基因組 ( 下 載 地 址 : ftp://ftp.ensemblgenomes.org/pub/plants/release-25/fasta/sorghum_bicolor/, 組裝出的基因組大小738.61 Mb, GC含量為43.93%), 根據(jù)基因組大小以及 GC含量等信息作為參考基因組進行酶切預測, 根據(jù)選定的最適酶切方案, 對檢測合格的各樣品基因組DNA分別進行酶切。對得到的酶切片段(SLAF標簽)進行3′端加A處理、連接Dual-index[21]測序接頭、PCR擴增、純化、混樣、切膠選取目的片段, 文庫質(zhì)檢合格后用Illumina HiSeq 2500測序。為評估酶切實驗的準確性, 選用水稻(Oryza sativa)[22]作為對照進行測序。
利用Dual-index對測序得到的原始數(shù)據(jù)進行識別, 得到各個樣品的 reads。過濾測序 reads的接頭后, 進行測序質(zhì)量和數(shù)據(jù)量的評估。通過Control數(shù)據(jù)評估酶切效率, 以此判斷實驗過程的準確性和有效性。通過將reads與參考基因組比對, 在親本和混池中開發(fā) SLAF標簽, 尋找在親本中存在多態(tài)性的SLAF標簽和有 reads覆蓋區(qū)域的 SNP。將得到的SNP利用 SNP-index方法[23]和ED方法[24]進行關聯(lián)分析, 獲得與性狀緊密關聯(lián)的位點。
1.4.1 SNP-index方法原理 SNP-index是通過混池間的基因型頻率差異進行標記關聯(lián)分析的方法[23],主要是尋找混池之間基因型頻率的顯著差異。
利用兩親本的 SNP數(shù)據(jù), 分別計算兩混池的SNP-index, 并通過 ΔSNP-index觀測可能與性狀分離相關的位點。
式中, Mut和WT分別為子代的突變池與野生池, ρX和ρx分別為野生型親本的等位基因, 以及突變型親本的等位基因在各自池中出現(xiàn)的 read數(shù)目。通過ΔSNP-index可以觀察每個位點在突變池與野生池之間的差異。
為了消除假陽性的位點, 利用標記在基因組上的位置, 對同一條染色體上標記的ΔSNP-index值進行擬合, 并根據(jù)關聯(lián)閾值, 選擇閾值以上的區(qū)域作
為與性狀相關的區(qū)域。
1.4.2 歐氏距離方法原理 歐式距離(Euclidean distance, ED)是利用測序數(shù)據(jù)尋找混池間存在的顯著差異標記, 并以此評估與性狀關聯(lián)區(qū)域的方法[24]。ED值越大, 表明該標記在兩混池間的差異越大。
式中,Amut、Cmut、Gmut和Tmut分別為 A、C、G和 T堿基在突變混池中的頻率,Awt、Cwt、Gwt和Twt分別為A、C、G和T堿基在野生型混池中的頻率。
利用兩混池間基因型存在差異的SNP位點, 統(tǒng)計各個堿基在不同混池中的深度, 并計算每個位點ED值, 為消除背景噪音, 對原始 ED值進行乘方處理[24]。
為了消除假陽性的位點, 利用標記在基因組上的位置, 對同一條染色體上標記的ED值進行擬合[24],并根據(jù)關聯(lián)閾值, 選擇閾值以上的區(qū)域作為與性狀相關的區(qū)域。
K35-Y5是從美國引進的種質(zhì), 通過在山西和海南多年種植鑒定, 表現(xiàn)為矮桿多分蘗且分蘗整齊一致, 是適宜機械化生產(chǎn)品種選育的優(yōu)良親本系。1383是我國主干高粱雜交種‘晉雜 12號’的恢復系, 中高桿有分蘗且明顯高于主莖, 由它配制的晉雜12號在生產(chǎn)中一直表現(xiàn)分蘗高、弱苗高、整齊度差。
選用K35-Y5與1383雜交, F1植株表現(xiàn)為有分蘗且分蘗比主莖高, 說明分蘗與主莖株高一致性狀為隱形, 而分蘗高于主莖性狀為顯性。F2分離群體中分蘗與主莖株高不一致與一致的分離比例為239∶72, 經(jīng)卡方(χ2)檢驗, χ2=0.57<χ20.05=3.84, 分離符合 3∶1, 說明分蘗與主莖株高一致性狀受一對隱性核基因控制。
對高粱參考基因組序列進行電子酶切預測, 確定限制性內(nèi)切酶為RsaI +HaeIII, 酶切片段長度在364~414 bp的序列定義為 SLAF標簽, 預測可得到103,902個SLAF標簽。統(tǒng)計SLAF標簽在各染色體上的數(shù)量(表1), 繪制SLAF標簽在染色體上的分布圖(圖1)。由圖可知, SLAF標簽在基因組各染色體上分布基本均勻, 酶切方案可行。
表1 SLAF標簽在各染色體上的數(shù)量統(tǒng)計Table 1 Number of SLAF labels on each chromosome
圖1 SLAF標簽在參考基因組各染色體上的分布Fig. 1 Distribution of SLAF on reference genome
為進一步評估酶切方案的有效性, 以水稻(Oryza sativa)作對照, 其基因組大小為374.31 Mb (下載地址:http://rice.plantbiology.msu.edu), 通過 BWA[25]軟件將對照的測序 reads與參考基因組比對(表 2和圖 2)顯示, 本次實驗雙端比對效率在 93.35%, 酶切效率為 90.60%, 對照測序 reads插入片段的長度均集中分布在360~410 bp之間, 說明SLAF建庫正常。
采用100 bp×2作為后續(xù)使用的數(shù)據(jù), 進行數(shù)據(jù)評估和分析。測序質(zhì)量值(Q)是評估高通量測序單堿基錯誤率的重要指標, 測序質(zhì)量值越高對應的堿基測序錯誤率越低。共獲得30.80 M reads數(shù)據(jù), 測序平均Q30為91.70%, 平均GC含量為45.79% (表3)。用于評估實驗建庫的準確性的水稻(Control)測序獲得0.19 M reads的數(shù)據(jù)量。
圖2 對照reads插入片段分布Fig. 2 Distribution of observed control insert size
表2 水稻測序reads比對分析Table 2 Alignment analysis of obtained reads in Oryza sativa
表3 各樣品測序數(shù)據(jù)統(tǒng)計表Table 3 Statistics of sequencing for each sample
利用參考基因組共開發(fā)133,246個SLAF標簽,SLAF標簽親本平均測序深度為 22.68×, 混池平均測序深度為 61.94× (表 4); SNP 的檢測主要使用GATK軟件工具包實現(xiàn), 所有樣品的SNP統(tǒng)計信息見表5。統(tǒng)計不同染色體上的SLAF標簽與SNP標記的分布(表 6); 根據(jù) SLAF在染色體上的分布, 繪制SLAF標簽和多態(tài)性SLAF標簽的染色體分布圖,由圖3可以看出, 開發(fā)的SLAF標記分布較均勻。
2.5.1 SNP-index方法關聯(lián)結(jié)果 在 SNP-index關聯(lián)分析前, 先從319,428個SNP中, 過濾掉有多重突變的SNP位點、混池中read支持度小于4的位點、親本中不存在的 SNP位點, 最終獲得 59,407個SNP。利用 SNP-index方法[23]計算關聯(lián)值, 并采用SNPNUM方法對ΔSNP-index進行擬合, 取每個SNP附近200個SNP的ΔSNP-index的中值作為該位點擬合后的關聯(lián)值。兩個混池分別的 SNP-index及ΔSNP-index的分布如圖4所示:
表4 SLAF標簽統(tǒng)計Table 4 Statistics of SLAF
表5 SNP信息統(tǒng)計Table 5 Statistics of SNP information
根據(jù)計算機模擬實驗[26]計算結(jié)果, 當置信度為0.90時, 定位區(qū)域在第 9染色體上的 54,788,026~56,740,873 (1.95 M)區(qū)間內(nèi)(表 7)。
2.5.2 ED方法關聯(lián)結(jié)果 在ED法關聯(lián)分析前,先從319,428個SNP中過濾任一混池中read支持度小于 4的位點 212,186個, 得到高質(zhì)量的可信SNP位點共107,242個, 并在此基礎上識別兩混池間差異的位點共100,261個。利用ED方法[24]計算關聯(lián)值, 并取原始ED的3次方作為關聯(lián)值以達到消除背景噪音的功能, 然后采用局部線性回歸LOESS方法對 ED值進行擬合, 關聯(lián)值分布見圖 5。
取所有位點擬合值的 median+3SD作為分析的關聯(lián)閾值[24], 計算得 0.0457, 根據(jù)關聯(lián)閾值判定,定位區(qū)域在第 9染色體的 30,964,929~38,410,608(7.45 M)和 43,824,552~59,633,348 (15.81 M)區(qū)間內(nèi)(表 8)。
表6 SLAF標簽和SNP標記在染色體上的分布統(tǒng)計Table 6 Distribution statistics of SLAF and SNP on genome
圖3 SLAF標簽和SNP標記在染色體上的分布Fig. 3 Distribution of SLAF and SNP on genome
圖4 SNP-index關聯(lián)值在染色體上的分布Fig. 4 Distribution of SNP-index associated values on genome
表7 關聯(lián)區(qū)域信息統(tǒng)計表Table 7 Statistics of associated region information
2.5.3 候選關聯(lián)區(qū)域篩選與功能分析 對這2種方法取交集, 以期得到更準確的結(jié)果, 得到的交集是定位區(qū)域在第 9染色體上的 54,788,026~56,740,873區(qū)間內(nèi), 該關聯(lián)區(qū)域長度1.95 Mb, 在關聯(lián)區(qū)域內(nèi)共有 265個候選基因。針對關聯(lián)區(qū)域內(nèi)的基因, 分析在外顯子區(qū)域兩個親本之間差異的 SNP信息, 對 SNP進行變異的注釋(表 9), 共發(fā)現(xiàn)存在非同義突變的 SNP4個, 對應到Sobic.009G197901.1、Sobic.009G213300.1和Sobic.009G221200.1三個基因,初步確定這些基因是與性狀直接相關的功能基因。
圖5 ED關聯(lián)值在染色體上的分布Fig. 5 Distribution of ED associated values on genome
表8 關聯(lián)區(qū)域信息統(tǒng)計表Table 8 Statistics of associated region information
表9 SNP標記信息Table 9 Information of SNP
在4個非同義突變的SNP兩端設計引物(表10),對雙親的基因組 DNA進行 PCR擴增, 用瓊脂糖凝膠電泳檢測擴增產(chǎn)物。將擴增產(chǎn)物回收, 測序; 對測序結(jié)果進行多序列對比, 獲得基因序列特異差異(圖6)。分蘗與主莖株高不一致親本1383和分蘗與主莖株高一致親本K35-Y5在第55,037,659 bp處分別為A和C; 在第 55,037,906 bp處分別為 G和 T; 在第56,069,487 bp處分別為G和T; 在第56,613,839 bp處分別為G和A。說明這4個SNP是與分蘗與主莖株高一致性狀直接相關的。
對高粱分蘗性已有廣泛研究, 影響分蘗性的主要因素有水肥條件、溫度、密度等[27]。水肥條件充分, 分蘗期早且長, 分蘗早且多; 不同品種分蘗性具有隨播種至分蘗期土壤溫度的升高而降低的趨勢,溫度高, 生長快, 迅速進入拔節(jié)期, 縮短分蘗時期;在北方地區(qū), 隨著種植密度的增加單株分蘗數(shù)明顯減少, 高粱分蘗性受環(huán)境影響較大。但高粱分蘗與主莖的高度差這一性狀基本不受環(huán)境的影響, 分蘗與主莖高度一致這一性狀遺傳穩(wěn)定, 已在適宜高粱機械化育種中應用, 育成一批適宜機械化生產(chǎn)的高粱品種[28]。Upadhyaya等[11]用 242份微核心種質(zhì)與39個標記關聯(lián)分析, 得出5個標記與熟期或株高關聯(lián), 分別位于第 6、第 9、第 10染色體上。Brown等[29]用包含119個單株的RIL群體鑒定得到與株高相關的4個QTL, 分別位于第3、第6、第7、第9染色體上。Shiringani等[30]建立了包含188個單株的RIL群體, 利用 157對引物, 得到 5個關于株高的QTL, 分別位于第1、第2、第5、第6、第9染色體上。Feltus等[17]利用 BTx623×IS3620C 的 F6-8代作為構圖群體, 共檢測到 9個控制高粱分蘗數(shù)的 QTL,多數(shù)集中于第1和第6染色體上, 第5、第7和第9染色體上各檢測到1個QTL。不同的研究者研究結(jié)果不盡相同, 但大多研究結(jié)果都關聯(lián)到第9染色體。本研究對高粱分蘗與主莖株高一致性基因的定位與前人研究結(jié)果一致, 所定位到的基因也位于高粱第9染色體上, 說明高粱第9染色體不僅存在分蘗性狀的基因, 而且還有分蘗與主莖株高一致性的基因。
表10 引物序列和信息Table 10 Sequence and information of the primers
圖6 引物SNP1(A)、SNP2(B)、SNP3(C)、SNP4(D)對雙親的測序結(jié)果Fig. 6 Sequencing results of the parents with primer SNP1(A), SNP2(B), SNP3(C), and SNP4(D)
基于 SLAF-seq技術的基因定位, 是集 BSA技術、生物信息學和高通量測序技術為一體的一種簡單高效的基因定位方法。目前, 利用此類方法定位的有番茄雄性不育基因[31], 甘藍型油菜抗霜霉病基因[32], 油菜與種子重量高度相關的基因[33]等。本研究利用SLAF-seq技術, 將高粱分蘗與主莖株高一致基因定位于第 9染色體上的 54,788,026~56,740,873區(qū)間內(nèi), 關聯(lián)區(qū)域長度1.95 Mb。
分蘗與主莖株高一致性狀由1對隱性核基因控制。利用SNP-index法和Euclidean distance法及取兩者交集進行關聯(lián)分析, 得到一個關聯(lián)區(qū)域, 位于第 9染色體上的 54,788,026~56,740,873區(qū)間內(nèi), 關聯(lián)區(qū)域長度1.95 Mb。在該關聯(lián)區(qū)域內(nèi)發(fā)現(xiàn)4個非同義突變的 SNP, 它們和分蘗與主莖株高一致性狀相關。對應到Sobic.009G197901.1、Sobic.009G213300.1
和Sobic.009G221200.1三個基因上, 這些基因可能是與性狀直接相關的功能基因。通過進一步精細定位, 可以確定該目標基因。