王喬,蔣洪蔚,謝建國,潘文婧,鄭海洋,侯立龍,熊心,武小霞*
(1.東北農(nóng)業(yè)大學(xué),黑龍 江哈爾濱, 150030;2.吉林省農(nóng)業(yè)科學(xué)院,吉林省長春市郵編 130033)
大豆莢皮,是影響大豆產(chǎn)量的重要性狀。作為大豆生產(chǎn)的主要副產(chǎn)品,大豆莢皮和大豆籽粒的比例達(dá)高達(dá)1∶2[1]。大豆莢皮中富含大量的蛋白質(zhì)和纖維素,具有較高的飼用價(jià)值[2]。Sruamsiri 等利用大豆莢皮替代部分稻草飼喂奶牛,結(jié)果表明奶牛的采食量和4%標(biāo)準(zhǔn)乳產(chǎn)量均有升高[3]。但大豆莢皮的利用率較低,大多數(shù)作為農(nóng)業(yè)廢棄物進(jìn)行焚燒,對環(huán)境造成極大破壞[4~6],也不利于資源的可持續(xù)發(fā)展。大豆莢皮厚與大豆單株產(chǎn)量呈負(fù)向相關(guān)。營養(yǎng)物質(zhì)在莢部的分配主要集中于莢皮與子粒,莢皮過厚不利于子粒營養(yǎng)物質(zhì)的積累,降低了可食用率[7]。故大豆莢皮厚的研究對大豆增產(chǎn)、資源再利用等都具有重要意義。
現(xiàn)如今,隨著測序技術(shù)的發(fā)展和新型標(biāo)記的開發(fā),有關(guān)QTL 的研究已經(jīng)趨于成熟。其中有關(guān)QTL的算法,有復(fù)合區(qū)間作圖法(CIM)和完備區(qū)間作圖法(ICIM),這兩種方法都可以精確定位QTL。李永亮等[8]利用CIM 和ICIM 兩種方法結(jié)合,對來自CSSLs 群體的62 個(gè)單株和RIL 群體的147 個(gè)單株進(jìn)行大豆冠層性狀QTL定位分析,最終檢測到31個(gè)相關(guān)的QTL 位點(diǎn)。姚丹等[9]以ICIM 法對吉農(nóng)18 和吉育47 雜交后代F2及次級分離群體進(jìn)行大豆油分相關(guān)QTL 定位,共檢測到分布于4 條染色體的7 個(gè)與高油含量相關(guān)的QTL 位點(diǎn)。ICIM 法簡化了CIM 法中由背景遺傳調(diào)控的變異,精細(xì)了對QTL 的檢測效率[10]。大豆莢皮厚受環(huán)境因素和遺傳背景的共同調(diào)控,因此也是由多基因控制的數(shù)量性狀。我們利用完備區(qū)間作圖法(ICIM)對其進(jìn)行QTL定位。
集群分離分析法(BSA)利用遺傳群體構(gòu)建高低混池進(jìn)行高通量測序,找到與目標(biāo)性狀相關(guān)標(biāo)記,從而實(shí)現(xiàn)QTL 精細(xì)定位。這是一種對遺傳群體的后代篩選極端表型,以構(gòu)建DNA 混池,快速檢測與目的性狀相關(guān)聯(lián)分子標(biāo)記的方法[11]。BSA 最早由Michelmore[12]于1991 年提出,主要用于鑒定基因組某個(gè)區(qū)域內(nèi)的標(biāo)記?,F(xiàn)在,BSA 混池測序通過開發(fā)分子標(biāo)記,廣泛應(yīng)用于遺傳學(xué)、農(nóng)藝基因組學(xué)、分子標(biāo)記輔助育種[13]。隨著全基因組高通量測序技術(shù)的發(fā)展,利用BSA 分析與全基因組測序相結(jié)合的BSA混池測序技術(shù),被廣泛應(yīng)用到QTL 定位和候選基因挖掘[14]。人們通過使用較大的遺傳群體,增加極端表型個(gè)體數(shù)量和提高分子標(biāo)記密度,使BSA 更適用于靶基因定位,從而無需通過使用陽性標(biāo)記對整個(gè)群體進(jìn)行基因分型驗(yàn)證假定標(biāo)記[15]。Shen 等[16]利用BSA混池測序和基于SSR標(biāo)記所得的QTL定位出三個(gè)小麥鐮刀菌枯萎?。‵HB)抗性區(qū)間。Trick 等[17]將測序數(shù)據(jù)與BSA 分析相結(jié)合,對小麥的谷物蛋白含量進(jìn)行精細(xì)定位,成功將基因GPC-B1定位在0.4 cM 的區(qū)間內(nèi)。Song 等[18]用基于下一代測序(NGS)的BSA 法,快速定位植物中兩個(gè)控制大豆種子子葉顏色的基因。
本實(shí)驗(yàn)首先構(gòu)建由SN14 與ZYD00006 為父母本的CSSLs 群體,然后利用ICIM 進(jìn)行QTL 定位,共獲得位于6 條連鎖群的13 個(gè)QTL 區(qū)間。同時(shí)構(gòu)建高低混池,進(jìn)行BSA 混池測序,得到新的QTL 區(qū)間。對兩方法得到的QTL 區(qū)間進(jìn)行整合,得到共識QTL區(qū)間。對該區(qū)間內(nèi)的所有基因進(jìn)行注釋,通過基因的序列對比、氨基酸變異確定候選基因。最終得到與大豆莢皮厚相關(guān)的目的基因,為高產(chǎn)大豆品種的遺傳改良奠定理論基礎(chǔ)。
從2006 年至2018 年,使用母本黑龍江省栽培品種綏農(nóng)14(SN14)為與父本野生品種ZYD00006進(jìn)行雜交,再經(jīng)過多次的回交、自交,最后構(gòu)建一套包含208 個(gè)株系的染色體片段替代系(CSSLs)[19]。每個(gè)品系每年種成株行,行距60 cm,株距6 cm,行長5 m。材料成熟后,每行材料隨機(jī)選取5 株,每株材料隨機(jī)取十個(gè)莢皮,整齊疊放在一起,用游標(biāo)卡尺進(jìn)行測量,獲取莢皮厚的表型數(shù)據(jù)[20]。
根據(jù)2013至2016莢皮厚4年的表型數(shù)據(jù),計(jì)算平均值,整體表型呈現(xiàn)標(biāo)準(zhǔn)的正態(tài)分布(圖1),極大值2.40 cm 和極小值1.54 cm,相差0.86 cm,變異程度較大,以平均值加減一倍標(biāo)準(zhǔn)差篩選出極端表型各30 份材料(如表1),構(gòu)建DNA 混池,為混池測序做準(zhǔn)備。
表1 莢皮厚高低混池的材料組成Table 1 Phenotypic screening of pod thickness in high and low mixed ponds
圖1 CSSLs群體莢皮厚四年平均值表型數(shù)據(jù)Fig.1 Four-year average data of pod thickness of CSSLs population
選取新鮮的葉片,使用CTAB 法提取植物組織的DNA,對提取的DNA 片段進(jìn)行修飾,添加測序接頭。利用PCR擴(kuò)增對DNA 片段進(jìn)行富集,完成測序混池的構(gòu)建。最后合格的DNA 文庫,送于Illumina-HiSeqTM測序平臺進(jìn)行測序。為了保證數(shù)據(jù)分析的可靠性,對原始的測序數(shù)據(jù)進(jìn)行以下處理:去掉測序接頭,過濾數(shù)據(jù)中未檢測堿基數(shù)量比值大于10%的數(shù)據(jù),再次過濾數(shù)據(jù)中低質(zhì)量堿基——即堿基質(zhì)量值小于10%大于50%的數(shù)據(jù),使用GATK 軟件進(jìn)行局部重新比對,過濾得到高質(zhì)量的SNP 位點(diǎn)。最后利用BW[21]軟件將測序數(shù)據(jù)定位到參考基因組中,進(jìn)行變異分析。
對CSSLs群體莢皮厚性狀的四年表型數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。利用ICIMapping4.1 對CSSLs 群體中“BIP”模型進(jìn)行QTL 分析。以LOD>2.5 為標(biāo)準(zhǔn),確定QTL 存在的依據(jù)。使用MapChart2.2 軟件,將定位得出的QTL 標(biāo)注在連鎖群上。QTL 命名方法如下:q+性狀名稱+LG或LG編號+“-”+QTL編號[8]。
SNP-index 是通過計(jì)算極端混池間基因型頻率的顯著差異,進(jìn)而進(jìn)行關(guān)聯(lián)分析[22~24],利用雙親的重測序結(jié)果,計(jì)算極端混池SNP-index,尋找與性狀緊密相關(guān)的位點(diǎn)。計(jì)算公式如下:
SNP-index(Mut)=ρx/(ρX+ρx)
SNP-index(WT)=ρx/(ρX+ρx)
ΔSNP-index=SNP-index(Mut)-SNP-index(WT)
以Williams 82.a2.v1 為參考基因組,根據(jù)所得的共識QTL 區(qū)間,利用NCBI 數(shù)據(jù)庫對目標(biāo)區(qū)間的所有基因進(jìn)行注釋。結(jié)合生物信息學(xué)分析,進(jìn)行序列比對,同源基因功能查找,分析氨基酸變異,預(yù)測候選基因,確定與莢皮厚相關(guān)的目的基因。
對CSSLs 群體2013 年至2016 年四年的莢皮厚表型數(shù)據(jù)(表2)統(tǒng)計(jì)分析。四年間的表型數(shù)據(jù)的極高值3.62 cm、極低值1.23 cm,相差2.39 cm,變異較大。四年間表型的平均值差異也較大。2013 年群體莢皮厚的平均值為1.67 cm,與2016 年群體表型的平均值1.67 cm 較接近,而同比明顯低于2014和2015莢皮厚表型平均值。CSSLs群體莢皮厚性狀在4個(gè)環(huán)境的數(shù)據(jù)分布都顯示為典型的近似正態(tài)分布,說明莢皮厚性狀符合數(shù)量性狀遺傳特征,適用于QTL 定位分析(圖2)。
圖2 CSSLs群體四年莢皮厚表型數(shù)據(jù)頻率分布Fig.2 Frequency distribution of pod thickness phenotype data of CSSLs population in four years
表2 四年CSSLs群體的莢皮厚表型數(shù)據(jù)參數(shù)Table 2 Phenotypic parameters of pod thickness in four year CSSLs population
我們利用ICIM 法對大豆莢皮厚進(jìn)行QTL 定位,在8個(gè)連鎖群上共定位到13個(gè)與莢皮厚相關(guān)的QTL(表3,圖3)。表型貢獻(xiàn)率為2.98%~14.44%,LOD 值在2.53~8.43 之間。F 連鎖群上被檢測到的QTL 最多有3 個(gè),分別為qPT-f-1、qPT-f-2和qPTf-3。三個(gè)QTL位點(diǎn)的區(qū)間位置非常接近,可能是緊密連鎖的關(guān)系。N、K 連鎖群上的QTL 為2 個(gè),其他的連鎖群僅有1 個(gè)。其中qPT-n-2在2015 年和Mean兩個(gè)環(huán)境中同時(shí)被檢測到,重復(fù)被檢測到也說明了該QTL位點(diǎn)的可靠性。
圖3 CSSLs群體莢皮厚性狀QTL分析Fig.3 QTL analysis of pod thickness in CSSLs population
表3 ICIM法對大豆夾皮厚性狀QTL分析Table 3 Analysis of QTL for pod thickness in soybean by ICIM
進(jìn)行DNA 混池測序的極端材料中,共檢測到1 953 662 個(gè)原始SNP。經(jīng)過SNP 過濾,最終得到1 630 948個(gè)高質(zhì)量的SNP位點(diǎn)。
利用混池間的基因型頻率和莢皮厚進(jìn)行關(guān)聯(lián)分析,以群體的中值+3 倍標(biāo)準(zhǔn)差為閾值,計(jì)算每個(gè)位點(diǎn)的ED 值,選擇ED 值大于閾值的區(qū)域?yàn)楹蜻x區(qū)間。最終在4 個(gè)連鎖群上定位了7 個(gè)與大豆莢皮厚相關(guān)的候選區(qū)域(表4,圖4)。其中,F(xiàn)連鎖群上檢測到3個(gè)QTL位點(diǎn),N連鎖群檢測到2個(gè)QTL位點(diǎn)。這與ICIM 法在F連鎖群和N連鎖群檢測到3個(gè)QTL和2個(gè)QTL的結(jié)果一致,說明F連鎖群和N連鎖群含有調(diào)控大豆莢皮厚性狀的QTL 位點(diǎn)。最小的QTL 區(qū)間qPT-f-4僅為0.08 Mb,最大的QTL 區(qū)間qPT-b1-1達(dá)到8 Mb。
圖4 CSSLs群體莢皮厚性狀BSA分析Fig.4 BSA analysis of pod thickness in CSSLs population
表4 BSA法對大豆莢皮厚性狀QTL分析Table 4 Analysis of QTLs associated with pod thickness in soybean by BSA
我們通過比較BSA 法和ICIM 法定位的QTL 位點(diǎn),找到公共的QTL 區(qū)間。這樣既能得到相對穩(wěn)定的QTL 位點(diǎn),也能縮小了QTL 的置信區(qū)間。將ICIM法檢測到的13 個(gè)QTL 區(qū)間與BSA 法檢測到的7 個(gè)QTL 位點(diǎn)相結(jié)合(圖5),獲得1 個(gè)穩(wěn)定的QTL 位點(diǎn)qPT-n-2。同時(shí),qPT-n-2在多個(gè)環(huán)境中同時(shí)被檢測到,說明該QTL 是調(diào)控大豆莢皮厚的穩(wěn)定可靠QTL 位點(diǎn)。最終通過兩種分析方法,共同將影響大豆莢皮厚性狀的候選區(qū)間精確到3 號染色體0.03Mb(2 970 674 bp~3 000 004 bp)的區(qū)間內(nèi),為后續(xù)候選基因的挖掘工作奠定基礎(chǔ)。
圖5 CSSLs群體莢皮厚性狀QTL在連鎖群上的分布Fig.5 Distribution of QTLs about pod thickness of CSSLs populations on linkage groups
為得到共識QTL 區(qū)間內(nèi)的功能基因,我們對該區(qū)間進(jìn)行了基因注釋,得到4 個(gè)候選基因Gly?ma. 03G027000、Glyma. 03G027100、Glyma. 03G0272 00、Glyma. 03G027300注 釋 結(jié) 果(表5)。Gly?ma.03G027000的擬南芥同源基因?yàn)锳T3G50120,是未知功能的植物蛋白;Glyma. 03G027100沒有擬南芥同源基因,其GO 注釋為膜的組成部分;Gly?ma.03G027200的擬南芥同源基因?yàn)锳T1G35710,注釋為具有富含亮氨酸重復(fù)域的蛋白激酶家族蛋白,其GO 注釋為蛋白質(zhì)磷酸化以及蛋白激酶活性等功能。Glyma. 03G027300的擬南芥同源基因?yàn)锳T4G00110,注釋為UDP-D-葡萄糖醛酸4-表異構(gòu)酶3。通過Soybase 公共數(shù)據(jù)庫查詢,四個(gè)基因在花、莢不同時(shí)期的表達(dá)量差異較大。Glyma.03G027 000和Glyma.03G027200在花莢各個(gè)時(shí)期表達(dá)量都非常低,而Glyma. 03G027100和Glyma. 03G027300在花莢各個(gè)時(shí)期的表達(dá)量則顯著的較高,尤其是Glyma. 03G027300在花和莢中的表達(dá)量最高(如圖6)。
圖6 soybase數(shù)據(jù)庫候選基因花莢時(shí)期表達(dá)量分析Fig.6 Expression analysis of candidate genes at flowering and pod stage in soybase database
表5 大豆莢皮厚性狀候選基因注釋信息Table5 Candidate gene annotation information related to pod thickness of soybean
通過比對SN14和ZYD00006兩個(gè)親本間的堿基和氨基酸序列,Glyma. 03G027200的堿基變異程度很低,只有兩個(gè)堿基發(fā)生突變,對應(yīng)的組氨酸和亮氨酸氨基酸發(fā)生了非同義突變,氨基酸的相似度為99.82%。Glyma. 03G027100和Glyma. 03G027300的基因堿基序列變異程度很高。Glyma.03G027100有26處堿基發(fā)生突變,氨基酸序列有17種非同義突變,Glyma. 03G027300的堿基突變?yōu)? 處,對應(yīng)9 處氨基酸都發(fā)生了非同義突變。
現(xiàn)階段對大豆莢皮厚性狀研究內(nèi)容較少。但是大豆莢皮厚與大豆的產(chǎn)量和抗病蟲能力都緊密相關(guān),是未來大豆?;繕?biāo)育種及分子育種的重要性狀。
如今對于大豆QTL 定位的研究非常多。截止到2020 年1 月,Soybase 數(shù)據(jù)庫(https://www.soybase.org)公布的與大豆蛋白質(zhì)含量相關(guān)的QTL 超過200個(gè),但具有重演性的QTL 很少[25,26]。究其原因是由于數(shù)量性狀遺傳機(jī)制復(fù)雜,受環(huán)境影響較大。傳統(tǒng)的QTL 定位需要構(gòu)建遺傳群體,與整個(gè)群體全部分析相比,BSA方法與成熟的測序技術(shù)相結(jié)合,為快速基因定位和基因挖掘提供了技術(shù)支持,并為鑒定和開發(fā)新的分子標(biāo)記開辟了一條捷徑[27]。由于該方法僅僅分析子代群體中具有極端表型的一些個(gè)體,極大地降低了測序成本,而其統(tǒng)計(jì)能力也與QTL 定位相當(dāng),具有省時(shí)省力,精確度高的優(yōu)點(diǎn)[28,29]。本研究通過ICIM 法和BSA混池測序相結(jié)合的方法,共檢測到20 個(gè)QTL 位點(diǎn),分別位于N、C2、A2、K、O 等10 條連鎖群。位于F 連鎖群的QTL 位點(diǎn)有6 個(gè),位置緊密相連,表明F 染色體含有調(diào)控大豆莢皮厚性狀的重要基因。qPT-n-1位于兩種方法檢測的共識QTL區(qū)間,同時(shí)在兩個(gè)環(huán)境中同時(shí)多次被檢測到,具有重演性、穩(wěn)定性的特點(diǎn),故而是和大豆莢皮厚關(guān)聯(lián)的關(guān)鍵QTL。
圖7 候選基因親本序列氨基酸比對Fig.7 Amino acid alignment of candidate gene between two parents
本研究對定位到的QTL 區(qū)間qPT-n-1內(nèi)基因進(jìn)行了分析。結(jié)合基因注釋信息分析與Soybase 數(shù)據(jù)庫網(wǎng)站提供的基因空間表達(dá)分析,最終從中篩選出2 個(gè)與大豆莢皮厚性狀相關(guān)的目的基因,為Glyma.03G027100和Glyma.03G027300。Glyma. 03G027100的GO 注釋為細(xì)胞膜的組成部分相關(guān),很有可能是調(diào)控細(xì)胞膜生長的重要功能基因,在莢中高表達(dá),說明與莢皮厚性狀密切相關(guān),可能是直接調(diào)控大豆莢皮厚性狀的基因。Gly?ma.03G027300是花和莢中的各個(gè)時(shí)期表達(dá)量最高的基因,該基因的擬南芥同源基因?yàn)锳T4G00110,在UDP-D-葡萄糖醛酸-表型異構(gòu)酶的編碼中起作用,UDP-葡萄糖是由蔗糖降解所得到的產(chǎn)物,經(jīng)過UDP-葡萄糖焦磷酸化酶(UGP)催化后進(jìn)入纖維素合成途徑[30]。這個(gè)過程中UDP-葡萄糖生成UDP-葡萄糖醛酸,經(jīng)由UDP-葡萄糖醛酸-差向異構(gòu)酶(GAE)和半乳糖醛酸轉(zhuǎn)移酶(GAUT)的催化作用,最終進(jìn)入果膠的合成途徑[31]。這個(gè)途徑的中間產(chǎn)物還可作為細(xì)胞壁組分的合成前體[32]。GO 注釋描述為碳水化合物代謝過程、生物合成過程等功能,是一類參與植物生長發(fā)育中能量合成消耗循環(huán)的重要基因,能量代謝的調(diào)控作用側(cè)面影響大豆莢皮的發(fā)育,對植物的整個(gè)生長發(fā)育過程中都起著關(guān)鍵作用。這兩個(gè)基因都可能直接或間接地參與了大豆莢皮厚的調(diào)節(jié)途徑,其具體的生物學(xué)過程和分子機(jī)制還需進(jìn)一步研究。
綜上所述,本研究鑒定到與莢皮厚相關(guān)的重要的、可信度高的QTLqPT-n-1,預(yù)測到Gly?ma. 03G027100和Glyma. 03G027300是 調(diào) 控 大 豆 莢皮厚性狀的重要基因。這些工作為大豆莢皮厚研究奠定了基礎(chǔ),為開發(fā)新的分子標(biāo)記,實(shí)現(xiàn)大豆莢皮厚分子標(biāo)記輔助育種及?;繕?biāo)提供理論和材料基礎(chǔ)。