余 塵, 溫永仙
(1.福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院;2.福建農(nóng)林大學(xué)生命科學(xué)學(xué)院,福建 福州 350002)
?
基于E-bayes的F2群體胚乳性狀QTL上位性的分析
余 塵1,2, 溫永仙1
(1.福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院;2.福建農(nóng)林大學(xué)生命科學(xué)學(xué)院,福建 福州 350002)
在F2群體中,采用經(jīng)驗(yàn)貝葉斯統(tǒng)計(jì)方法(E-bayes)對(duì)谷類作物的胚乳性狀QTL進(jìn)行上位性分析,并通過(guò)計(jì)算機(jī)模擬加以驗(yàn)證.研究表明,基于E-bayes的胚乳性狀QTL上位性分析,能準(zhǔn)確地定位各QTL,同時(shí)有效地估計(jì)出QTL的各種遺傳效應(yīng).
胚乳性狀; 上位性; 經(jīng)驗(yàn)貝葉斯(E-bayes); QTL
自上個(gè)世紀(jì)以來(lái),谷類作物品質(zhì)性狀的遺傳改良漸漸成為國(guó)際上的一大育種目標(biāo).胚乳作為谷類作物種子的重要部分,其數(shù)量性狀表現(xiàn)往往決定了該谷類作物的品質(zhì).因此如何對(duì)胚乳性狀進(jìn)行準(zhǔn)確而有效的QTL定位對(duì)于谷物改良具有重要意義.胚乳是顯花植物雙受精的產(chǎn)物,屬于三倍體組織,早期人們將二倍體QTL定位方法直接應(yīng)用到胚乳性狀QTL分析中[1-2].Wu et al[3-13]相繼提出了一系列基于胚乳性狀三倍體的數(shù)量遺傳模型的胚乳性狀QTL定位,通常是應(yīng)用線性回歸分析方法[4-11].Wang et al[14]率先提出胚乳性狀QTL區(qū)間作圖的貝葉斯方法,但該方法是基于單QTL模型的區(qū)間作圖.Wang et al[15]又提出將胚乳性狀單QTL模型擴(kuò)展為多QTL模型的方法,并研究出基于MCMC算法[16]的貝葉斯方法和程序.雖然該方法能夠準(zhǔn)確地估計(jì)胚乳性狀QTL的位置和效應(yīng),并可有效區(qū)分2種顯性效應(yīng),但是運(yùn)算量超負(fù)荷.而Xu[17]、Cai et al[18]提出應(yīng)用經(jīng)驗(yàn)貝葉斯(E-bayes)方法進(jìn)行二倍體QTL定位分析,改進(jìn)了貝葉斯方法運(yùn)算超負(fù)荷的缺陷.
但是以上提到的三倍體QTL定位方法皆未考慮到上位性效應(yīng).上位性效應(yīng)是進(jìn)化的遺傳基礎(chǔ)和群體進(jìn)化的動(dòng)力.在經(jīng)典數(shù)量遺傳學(xué)中,程君奇等[19]曾提出在雙列雜交體系的基礎(chǔ)上建立一個(gè)遺傳模型對(duì)三倍體胚乳性狀以及上位性進(jìn)行分析,并利用混合線性模型[20-21]對(duì)這個(gè)遺傳模型進(jìn)行分析,采用最小范數(shù)二階無(wú)偏估算法[20-21]估算無(wú)偏性.He et al[22]基于隨機(jī)交配設(shè)計(jì)和種子混和測(cè)定,應(yīng)用懲罰最大似然法進(jìn)行胚乳性狀的QTL上位性定位分析.
本文提出利用經(jīng)驗(yàn)貝葉斯方法進(jìn)行胚乳性狀QTL的上位性分析.標(biāo)記信息來(lái)自種子胚,性狀表型值信息來(lái)自同一粒種子的胚乳,在此基礎(chǔ)上建立胚乳性狀QTL定位的遺傳模型.利用該模型研究胚乳性狀的QTL上位性效應(yīng);應(yīng)用經(jīng)驗(yàn)貝葉斯方法進(jìn)行參數(shù)估計(jì)和檢驗(yàn);最后利用計(jì)算機(jī)模擬該方法的有效性和可行性.
將數(shù)量性狀上具有顯著差異的2個(gè)自交系親本進(jìn)行雜交(P1×P2),得到F1,再利用F1自交產(chǎn)生F2群體.其中標(biāo)記基因型信息通過(guò)從來(lái)自父本和母本F2的二倍體組織種子胚中提取DNA分析獲得;而胚乳性狀表型值則來(lái)自F2中的胚乳.
對(duì)于上述F2群體種子的胚乳,鑒于母體(F1)植株在發(fā)育過(guò)程中并沒(méi)有出現(xiàn)遺傳分離,因此假定F2種子胚乳性狀不存在母體效應(yīng),胚乳性狀QTL效應(yīng)僅僅來(lái)自于胚乳基因組自身.
Mo[23]于1987年首先提出胚乳性狀三倍體模型,認(rèn)為對(duì)于1對(duì)等位基因Q和q,F2種子胚乳性狀具有QQQ、QQq、Qqq和qqq 4種基因型,而不是通常的QQ、Qq、qq 3種基因型;1對(duì)等位基因Q和q有3種遺傳效應(yīng),即等位基因Q替代的平均替代效應(yīng)(加性效應(yīng)a)、等位基因QQ和q的互作效應(yīng)(第一顯性效應(yīng)d1)、等位基因Q和qq的互作效應(yīng)(第二顯性效應(yīng)d2).F2種子胚乳性狀相應(yīng)的基因型效應(yīng)分別為:μ1=μ+3a/2,μ2=μ+a/2+d1,μ3=μ-a/2+d2和μ4=μ-3a/2(μ表示群體均值).
2.1 具有上位性的數(shù)量遺傳模型
本文基于高密度分子標(biāo)記連鎖圖譜,通過(guò)假定每個(gè)標(biāo)記為可能的QTL進(jìn)行分析,根據(jù)文獻(xiàn)[17],上位性的遺傳模型可寫(xiě)成:
(1)
其中y=(y1,……yn)T表示n個(gè)數(shù)量性狀表型值,t=(t1,……,tn)T和δ表示一些已知影響y的某些系統(tǒng)環(huán)境變量和其他效應(yīng),例如時(shí)間和空間因素等,將其納入模型以減少剩余誤差方差.gl=(g1l,……,gnl)T是座位l的基因指示變量,其中g(shù)il(i=1,……,n;l=1,……,e)表示在座位l上第i個(gè)個(gè)體上的基因型指示變量.gl?gl′表示向量gl和gl′對(duì)應(yīng)元素相乘,αl表示座位l上的主效應(yīng),αll′則表示座位l和l′間的上位性效應(yīng),同時(shí)ε~N(0,σ2I).
2.2 胚乳性狀遺傳模型
假設(shè)群體大小為n,q表示控制胚乳性狀QTL數(shù)目,由于設(shè)定的群體胚乳性狀表達(dá)不受母體效應(yīng)的影響,并且充分考慮所有成對(duì)QTL之間的上位性,據(jù)式(1),胚乳性狀QTL的遺傳模型為:
(2)
結(jié)合式(1)、式(2),且考慮到模型中主效應(yīng)與上位性效應(yīng)的處理方法相同,將模型寫(xiě)成
(3)
y=xβ+Zγ+ε
(4)
(5)
因此,y的協(xié)方差矩陣表示如下:
(6)
3.1 參數(shù)估計(jì)
(7)
因此其數(shù)值迭代步驟表示如下:
(1)更新混合效應(yīng):
(8)
(2)更新剩余方差:
(9)
(3)更新G使得下式函數(shù)達(dá)到最大的Gi:
(10)
式(10)對(duì)Gi求偏導(dǎo)為零,得到
(11)
(12)
(4)重復(fù)步驟(1)-(3)直至最終收斂.
3.2 γj的Bayesian估計(jì)
(13)
3.3 檢驗(yàn)統(tǒng)計(jì)
提出2個(gè)步驟來(lái)甄別QTL.第1步:暫不考慮上位性,將每個(gè)標(biāo)記分別假定為QTL進(jìn)行逐個(gè)搜索.第2步:在第1步搜索出QTL的基礎(chǔ)上,在遺傳模型中考慮上位性效應(yīng),再重新應(yīng)用E-bayes方法進(jìn)行分析,具體步驟如下:
(1)檢測(cè)QTL的存在性,假設(shè)H0∶LA=0和H1∶LA≠0,其中L=(1,0,0)、(0,1,0)和(0,0,1),A=(a,d1,d2)T.
(2)檢測(cè)QTL之間上位性效應(yīng)的存在性,在第1步搜索到QTL的基礎(chǔ)上,考慮到上位性效應(yīng).設(shè)H0∶LA=0和H1∶LA≠0,重新定義L矩陣:
L=diag(1,1,……,1)15×15
3.4QTL的遺傳率
對(duì)于混合線性模型(式(2)),性狀表型方差可以表述為:
(14)
(15)
3.5 十折交叉驗(yàn)證
(16)
如此輪流試驗(yàn)10次,得到十折交叉驗(yàn)證標(biāo)準(zhǔn)誤差為:
(17)
4.1 模擬設(shè)計(jì)
在模擬中,考慮以下幾方面:(1)樣本容量,種子數(shù)取2個(gè)水平(200,600),暫不考慮極端大樣本的情況;(2) QTL遺傳力大小,假定群體環(huán)境方差分別為5和10,可得QTL總遺傳率分別為67%和49%.當(dāng)環(huán)境方差為5時(shí),由于全部標(biāo)記所貢獻(xiàn)的遺傳方差(包括主效應(yīng)和上位性效應(yīng))大約是24.5,協(xié)方差為2.5,因此總表型方差為37.0.各遺傳率大小見(jiàn)表1.100次參數(shù)估計(jì)的標(biāo)準(zhǔn)誤偏差提供了參數(shù)估計(jì)誤差標(biāo)準(zhǔn),每個(gè)效應(yīng)的顯著性閾值均在顯著性水平為0.05下進(jìn)行檢驗(yàn),即自由度為1的卡方分布(3.84).統(tǒng)計(jì)功效為100次模擬中似然比測(cè)驗(yàn)統(tǒng)計(jì)量大于閾值的總數(shù).
逆卡方先驗(yàn)中關(guān)于(τ,ω)這2個(gè)超參數(shù)的選取,通過(guò)式(17)計(jì)算選定.考慮到方法的收斂性以及統(tǒng)計(jì)功效等各方面的因素,選定以下幾個(gè)組合進(jìn)行驗(yàn)證,從中選取1個(gè)最優(yōu)值,結(jié)果見(jiàn)表2.
表1 QTL的位置和效應(yīng)的真值和遺傳率
表2 十折交叉驗(yàn)證模擬結(jié)果
在逆卡方先驗(yàn)方法中,擇定(τ,ω)=(5,1.5),全部模擬結(jié)果見(jiàn)表2.
4.2 模擬結(jié)果
由表3可知,基于E-bayes進(jìn)行胚乳性狀QTL上位性的定位分析能夠得到較好的模擬結(jié)果.在絕大多數(shù)情況下逆卡方先驗(yàn)方法都能較為準(zhǔn)確地檢測(cè)到QTL位置和估計(jì)各種遺傳效應(yīng)(表3).
表3 各處理下QTL的位置和效應(yīng)的估計(jì)值和標(biāo)準(zhǔn)誤
在所有的模擬中,檢測(cè)的QTL統(tǒng)計(jì)功效幾乎均達(dá)到了100%.QTL效應(yīng)值(a,d1,d2)和位置估計(jì)值均具有較高的準(zhǔn)確度和精確度.從結(jié)果上看,即便是在樣本容量較小而環(huán)境方差較大時(shí),不僅主效應(yīng)能夠被檢測(cè)出來(lái),加加上位性的效應(yīng)值也能夠被檢測(cè)出來(lái),且也具有較高的統(tǒng)計(jì)功效.
在樣本容量為200、600以及群體環(huán)境方差分別為10和5的情況下,QTL位置估計(jì)值相當(dāng)準(zhǔn)確,差異很小.而QTL效應(yīng)估計(jì)值則隨著樣本容量的逐步增多以及遺傳率的逐步增大,模擬的QTL的加性效應(yīng)、第一顯性效應(yīng)、第二顯性效應(yīng)以及QTL之間的加加上位性互作效應(yīng),功效逐步提升,標(biāo)準(zhǔn)誤不斷減小,效應(yīng)估計(jì)值精度越來(lái)越高.
即使在小樣本(200粒F2種子)情況下,仍能夠準(zhǔn)確地估計(jì)出QTL的位置以及加性效應(yīng)和加加上位性,雖然顯性效應(yīng)(包括d1和d2)的統(tǒng)計(jì)功效并不是太理想,只有80%左右,但只要提高樣本容量,在樣本容量較大(600粒F2種子)的情況下,顯性效應(yīng)(包括d1和d2)的統(tǒng)計(jì)功效大大提高,達(dá)到98%以上.在試驗(yàn)設(shè)計(jì)中,當(dāng)樣本容量較大(600粒F2種子)時(shí),有的標(biāo)準(zhǔn)誤已經(jīng)達(dá)到0.01.
圖1 染色體水平QTL加性效應(yīng)真值與估計(jì)值位置分布圖
圖2 染色體水平QTL第一顯性效應(yīng)真值與估計(jì)值位置分布圖
圖3 染色體水平QTL第二顯性效應(yīng)真值與估計(jì)值位置分布圖
本文應(yīng)用E-bayes方法進(jìn)行胚乳性狀QTL主效應(yīng)以及上位性的定位分析,準(zhǔn)確性、精確度高,統(tǒng)計(jì)功效較好.從理論上來(lái)說(shuō),全貝葉斯方法的計(jì)算負(fù)荷大,且太依賴于方差部分的先驗(yàn)選擇[17],而本文提出的E-bayes方法能夠克服這些缺點(diǎn).同時(shí)本文所采用的E-bayes方法引入了分塊坐標(biāo)下降法,能夠解決傳統(tǒng)方法中只有在維數(shù)較小的情況下功效才能較好以及高維數(shù)模型下計(jì)算量大的問(wèn)題.將分塊下降法替代原有的逐個(gè)計(jì)算方法[25],在時(shí)間效率上有明顯的提高[25].因此E-bayes能有效地減少計(jì)算機(jī)的計(jì)算量,能夠處理大規(guī)模數(shù)量的可能效應(yīng)值,包括顯性、加性、上位性、環(huán)境效應(yīng),還有基因與環(huán)境間的互作效應(yīng)等.
圖4 染色體水平QTL上位性效應(yīng)真值與估計(jì)值位置分布圖
由于本文應(yīng)用E-bayes進(jìn)行統(tǒng)計(jì)分析是假定每個(gè)標(biāo)記為可能的QTL,所以該法適用于高密度分子標(biāo)記連鎖圖譜分析.
[1]WANGXL,LARKINSBA.Geneticanalysisofaminoacidaccumulationinopaque-2maizeendosperm[J].PlantPhysiol, 2001,125:1766-1777.
[2] WANG X L, WOO Y M, KIM C S, et al. Quantitative trait locus mapping of loci influencing elongation factor lacontent in maize endosperm[J]. Plant Physiol, 2001,125:1271-1282.
[3] WU R L, LOU X Y, MA C X, et al. An improved genetic model generates high resolution mapping of QTL for protein quality in maize endosperm[J]. PNAS, 2002,99(17):11281-11286.
[4] XU C, HE X, XU S Z.Mapping quantitative trait loci underlying triploid endosperm traits[J]. Heredity, 2003,90(3):228-235.
[5] WU R L, MA C X, MARIA G M, et al. Statistical methods for dissecting triploid endospermtraits using molecular markers: an autogamous model[J]. Genetics, 2002,162:875-892.
[6] WEN Y X, WU W R. Methods for mapping QTLs underlying endosperm traits based on random hybridization design[J]. Chinese Science Bulletin, 2006,51(16):1976-1981.
[7] KAO C H. Multiple-interval mapping for quantitative trait loci controlling endospermtrait[J]. Genetics, 2004,167(4):1987-2002.
[8] CUI Y, WU R L. Statistical model for characterizing epistatic control of triploid endosperm triggered by maternal and offspring QTLs[J]. Genetical Research, 2005,86:65-75.
[9] HU Z Q, XU C W. A new statistical method for mapping QTLs underlying endospermtraits[J]. Chinese Science Bulletin, 2005,50(14):1470-1476.
[10] WEN Y X, WU W R. Interval mapping of quantitative trait loci underlying triploid endospermtraits using F3 seeds[J]. Journal of Genetics and Genomics, 2007,34(5):429-436.
[11] WEN Y X, WU W R. Experimental designs and statistical methods for mapping quantitative trait loci underlying triploid endosperm traits without maternal genetic variation[J]. Journal of Heredity, 2008,99(5):546-551.
[12] 何小紅.應(yīng)用遺傳交配設(shè)計(jì)檢測(cè)數(shù)量性狀上位性QTL方法的研究[D].南京:南京農(nóng)業(yè)大學(xué),2010.
[13] 溫永仙.基于BC1F1:2種子的胚乳QTL區(qū)間定位[J].生物數(shù)學(xué)學(xué)報(bào),2011,3:540-546.
[14] 王亞民,孫長(zhǎng)森,湯在祥,等.谷物胚乳性狀QTL區(qū)間作圖的貝葉斯方法[J].揚(yáng)州大學(xué)學(xué)報(bào):農(nóng)業(yè)與生命科學(xué)版,2008,29(3):12-17.
[15] 王亞民,湯在祥,陸鑫,等.基于貝葉斯統(tǒng)計(jì)的谷物胚乳性狀QTL多區(qū)間作圖方法[J].作物學(xué)報(bào),2009,35(9):1569-1575.
[16] XU S Z, HU Z. Mapping quantitative trait loci using the MCMC procedure in SAS[J]. Heredity, 2010,106(2):357-369.
[17] XU S Z. An empirical Bayes method for estimating epistatic effects of quantitative trait loci[J]. Biometrics, 2007,6(63):513-521.
[18] CAI X D, HUANG A H, XU S Z. Fast empirical Bayesian LASSO for multiple quantitative trait locus mapping[J]. BMC Bioinformatics, 2011,12:211-224.
[19] CHEN J Q, WU J G, SHI C H, et al. Analysis of epistasis: a genetic model for triploid endosperm traits[J].Journal of Zhejiang University,2007,33(1):1-7.
[20] ZHOU X, MATTHEW S. Genome-wide efficient mixed-model analysis for association studies[J]. Nature Genetics, 2012,7(44):821-824.
[21] 梁文科,張世煌,戚廷香,等.應(yīng)用混合線性模型(AD)分析熱帶溫帶玉米群體間的遺傳關(guān)系[J].作物學(xué)報(bào),2006,32(7):1018-1023.
[22] HE X H, ZHANG Y M. Mapping epistatic quantitative trait loci underlying endosperm traits using all markers on the entiregenome in a random hybridization design[J]. Heredity, 2008,101:39-47.
[23] Mo H D, Genetic Expression for Endosperm Traits[R]. Raleigh: North Carolina State University, 1987.
[24] SYLVAIN A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010,4:40-79.
[25] XU S Z. Principles of Statistical Genomics[M]. NewYork:Springer, 2012:259-266.
(責(zé)任編輯:葉濟(jì)蓉)
Epistatic anlysis of the quantitative trait loci underlying triploid endosperm traits in F2populations based on Empirical bayes
YU Chen1,2, WEN Yong-xian1
(1.College of Computer and Information Science; 2.College of Life Science, Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)
In F2populations, Empirical bayes (E-bayes) method was used to analyze the epistasis of quantitative trait loci (QTL) underlying endosperm traits. The feasibility and efficiency of the method were verified by Monte Carlo simulations. The result showed that the method could efficiently detect endosperm QTLs and precisely estimate their epistatic effects.
endosperm trait; epistasis; Empirical bayes(E-bayes); quantitative trait loci (QTL)
2014-09-23
2015-01-22
國(guó)家自然科學(xué)基金資助項(xiàng)目(31171448);福建省自然科學(xué)基金資助項(xiàng)目(2012J01069).
余塵(1990-),女,碩士研究生.研究方向:生物信息學(xué).通訊作者溫永仙(1966-),教授,博士生導(dǎo)師.研究方向:生物信息學(xué).Email:wen9681@sina.com.
S330
A
1671-5470(2015)04-0337-08
10.13323/j.cnki.j.fafu(nat.sci.).2015.04.001