王倩雯 郭茂祖 王春宇 劉曉燕
摘要:QTL的精確定位對(duì)數(shù)量性狀遺傳機(jī)制的研究及應(yīng)用具有重要意義。隨著分子生物技術(shù)和遺傳學(xué)的發(fā)展,產(chǎn)生了大量可用于QTL定位的遺傳標(biāo)記和分析方法。然而,多數(shù)方法只能將QTL定位到一個(gè)區(qū)間而非具體位置,且具有較高的假陽(yáng)性。為此,提出利用全基因組上的SNP標(biāo)記,通過(guò)emBayesB方法和性狀-標(biāo)記回歸區(qū)間分析相結(jié)合的組合方法進(jìn)行QTL定位研究。組合方法能夠篩選出與QTL存在較強(qiáng)關(guān)聯(lián)的SNP標(biāo)記,具有較高的計(jì)算速度和計(jì)算效率;通過(guò)性狀-標(biāo)記區(qū)間檢測(cè),能夠較為精確地計(jì)算出QTL的位置。方法中考慮到染色體上其它標(biāo)記的背景遺傳信息,提高定位成功率和可信度。
關(guān)鍵詞:QTL定位; 組合方法; emBayesB方法; SNP標(biāo)記
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2014)04-0017-04
Abstract:Search the precise position of QTL , is very significant for understanding the genetic mechanisms of quantitative traits and its application. The development of molecular biology and genetics results in a large number of genetic markers and analytical methods can be used for QTL mapping. However, most methods can only map QTL to a interval rather than a specific location with a high false positive. This paper proposes that the use of genome-wide SNP markers and combination strategy which combining emBayesB methods and traits - mark regression interval analysis conducted QTL mapping studies. Combination strategy could screen out SNP markers which associated with QTL in the presence of strong, and having a high computing speed and efficiency; through trait-mark interval detection, the location of the QTL can be calculated more accurately. The method takes into account the background genetic information of other genetic markers on the chromosome, achieves higher position success rate, and improves the positioning reliability.
Key words:QTL Mapping; Combination Strategy; EmBayesB Method;SNP
0引言
具有連續(xù)表型測(cè)量值的性狀稱為數(shù)量性性狀,許多重要農(nóng)藝、經(jīng)濟(jì)性狀都是數(shù)量性狀,因此,研究數(shù)量性狀的遺傳機(jī)制并在生產(chǎn)中加以應(yīng)用對(duì)動(dòng)植物育種工作具有重要作用。數(shù)量性狀位點(diǎn)(quantitative trait loci,QTL )的概念由 Gelderman[1]1975 年首次提出,可將其表述為:QTL是指基因組上的一個(gè)或多個(gè)影響性狀表型變異的基因或染色體片段。廣義理解認(rèn)為,QTL 包含基因組中所有影響性狀表型變異的基因,在實(shí)際研究中只將那些可被檢測(cè)出的、具有顯著效應(yīng)的基因或者染色體片段稱為 QTL[2]。數(shù)量性狀受多基因控制,遺傳基礎(chǔ)復(fù)雜,對(duì)外在環(huán)境的影響也較為敏感,并表現(xiàn)為連續(xù)的變異,而且必須通過(guò)測(cè)量才能得到表型變異值,因此研究過(guò)程中存在一定的困難。
利用發(fā)生在遺傳標(biāo)記與目標(biāo)性狀表型值間的關(guān)聯(lián),根據(jù)標(biāo)記與QTL之間的連鎖關(guān)系,通過(guò)統(tǒng)計(jì)分析確定QTL在染色體上的位置并估計(jì)其遺傳效應(yīng),該過(guò)程稱為QTL定位[3]。早期的研究,只能借助數(shù)理統(tǒng)計(jì)手段,將控制數(shù)量性狀的多個(gè)基因作為一個(gè)整體進(jìn)行分析[4-6],該類方法無(wú)法了解影響數(shù)量性狀的每一個(gè)基因的位置和效應(yīng),存在嚴(yán)重的制約性。二十世紀(jì)八十年代以后,隨著分子標(biāo)記技術(shù)的出現(xiàn),通過(guò)利用分子標(biāo)記進(jìn)行QTL定位研究,增強(qiáng)了人們對(duì)數(shù)量性狀的遺傳操縱能力,提高了QTL定位研究對(duì)數(shù)量性狀研究的生物學(xué)意義。在QTL定位過(guò)程中遺傳標(biāo)記的選擇由最初的RFLP標(biāo)記、RAPD標(biāo)記、SSR標(biāo)記等等發(fā)展為現(xiàn)在常用的SNP(Single Nucleotide Polymorphism,單核苷酸多態(tài)性)標(biāo)記。單核苷酸多態(tài)性是由單個(gè)核苷酸的變異引起的DNA序列多態(tài)性,因其數(shù)量豐富密度高、遺傳穩(wěn)定性好、分布廣泛等特點(diǎn),已將SNP標(biāo)記作為新一代遺傳標(biāo)記而獲得廣泛使用[7-9]。
在眾多已有的QTL定位方法中,其分析大多都是基于單個(gè)標(biāo)記或者區(qū)間進(jìn)行,而較少考慮其它標(biāo)記或者區(qū)間的背景遺傳信息的影響,本文提出的組合方法,是將期望最大化(Expectation Maximum,EM)算法和貝葉斯模型相結(jié)合[10],較為準(zhǔn)確地估計(jì)每個(gè)SNP標(biāo)記與QTL存在連鎖不平衡(Linkage Disequilibrium,LD)的后驗(yàn)概率,并從中選擇出與目標(biāo)性狀存在很強(qiáng)關(guān)聯(lián)性的標(biāo)記作為顯著SNP標(biāo)記,而且降低了顯著SNP標(biāo)記造成的假陽(yáng)性率,進(jìn)一步又利用基于性狀-標(biāo)記區(qū)間檢測(cè)方法,對(duì)顯著SNP標(biāo)記進(jìn)行分析,精確定位QTL 的位置和效應(yīng)?;谌蚪MSNP標(biāo)記進(jìn)行分析,可以同時(shí)估計(jì)所有標(biāo)記的效應(yīng),更加有效地利用標(biāo)記的遺傳信息。
1組合方法的分析方法
本實(shí)驗(yàn)采用的組合方法,先利用基因組選擇算法emBayesB方法對(duì)全基因組SNP標(biāo)記進(jìn)行分析,求得與至少一個(gè)QTL存在關(guān)聯(lián)的每個(gè)SNP遺傳標(biāo)記后驗(yàn)概率,再選擇后驗(yàn)概率超過(guò)一定閾值的標(biāo)記作為顯著性SNP標(biāo)記進(jìn)行第二步分析。而且,運(yùn)用性狀-標(biāo)記回歸區(qū)間檢測(cè)計(jì)算得到顯著性標(biāo)記與潛在QTL的重組率,從而得到QTL在染色體上的位置。組合方法不僅可以分析標(biāo)記和樣本數(shù)量都比較大的情況,同時(shí),還將盡可能多地發(fā)現(xiàn)與性狀存在顯著性相關(guān)的 SNP 標(biāo)記,嚴(yán)格控制假陽(yáng)性結(jié)果的產(chǎn)生,提高分析結(jié)果的準(zhǔn)確性和定位QTL的精確性。
1.1基于全基因組SNP標(biāo)記的emBayesB算法
整個(gè)基因組的SNP標(biāo)記數(shù)目十分龐大,但基因組中QTL的數(shù)目卻較為有限,只有部分標(biāo)記與QTL存在緊密連鎖關(guān)系,并可為QTL定位提供有用信息。若能準(zhǔn)確選擇出這些標(biāo)記并有效利用,就可提高定位QTL的成功率和定位的準(zhǔn)確性。因此,設(shè)計(jì)通過(guò)emBayes算法,即將EM算法與貝葉斯模型相結(jié)合[11],由此而找到與目標(biāo)性狀存在顯著關(guān)聯(lián)的SNP標(biāo)記集合。
1.1.1SNP先驗(yàn)分布及缺失數(shù)據(jù)處理
通過(guò)對(duì)比可以看到傳統(tǒng)回歸分析雖然定位得到的真實(shí)QTL比較多,但是假陽(yáng)性率也非常高,通過(guò)利用固定區(qū)間判定的關(guān)聯(lián)分析方法以及emBayesB方法只得到了顯著性SNP,對(duì)于QTL所在的具體區(qū)間的確定則是通過(guò)人工不斷嘗試而得到的,而且利用LD區(qū)間檢測(cè)的emBayesB分析方法,也能夠通過(guò)LD分析確定QTL所在區(qū)間。但是,這三種方法也僅僅說(shuō)明在確定的區(qū)間內(nèi)有QTL存在,卻并未得到QTL的準(zhǔn)確位置。組合方法的分析模型的提出,結(jié)合了emBayesB和性狀-標(biāo)記回歸區(qū)間檢測(cè)的優(yōu)勢(shì),同時(shí)能夠通過(guò)計(jì)算QTL與所在區(qū)間左側(cè)標(biāo)記的重組率得到QTL的具體位置和該QTL的加性效應(yīng),并且取得了較高的成功率和較低的假陽(yáng)性。
3結(jié)束語(yǔ)
綜合以上分析可以看到,通過(guò)emBayesB方法得到與至少一個(gè)QTL存在連鎖不平衡的顯著性SNP標(biāo)記集合,對(duì)這些標(biāo)記實(shí)行性狀-標(biāo)記回歸區(qū)間分析,并可進(jìn)一步確定QTL的位置和效應(yīng),該方法在成功率和假陽(yáng)性率方面都有不錯(cuò)的表現(xiàn),尤其能夠通過(guò)計(jì)算更為精確地得到QTL在染色體上的位置和效應(yīng)值。
通過(guò)emBayeB方法為第二步的回歸區(qū)間檢測(cè)分析提供了包含豐富遺傳信息的SNP標(biāo)記,同時(shí)大大減少了標(biāo)記數(shù)量,并且也減少了計(jì)算的工作量。這就使得用于處理小樣本數(shù)據(jù)的性狀-標(biāo)記回歸分析方法的應(yīng)用成為可能。性狀-標(biāo)記回歸區(qū)間檢測(cè)考慮到了其他標(biāo)記的背景遺傳信息的影響,進(jìn)而增加了QTL定位的可信度。
參考文獻(xiàn):
[1]GELDERMAN H. Investigation on inheritance of quantitative characters in animals by gene markers[J].I. Methods. Theor. Appl.Genet.,1975(46):300-319.
[2]胡芳. 中國(guó)荷斯坦奶牛6號(hào)染色體泌乳性狀QTL精細(xì)定位研究[D]. 武漢:華中農(nóng)業(yè)大學(xué), 2010.
[3]王健康. 數(shù)量性狀基因的完備區(qū)間作圖方法[J]. 作物學(xué)報(bào), 2009, 35(2): 239-245.
[4]LYNCH M,WALSH B.Genetic and Analysis of Quantitative Traits.Sunderland[J].Sinauer Associates,1998.
[5]DOERGE R W. Mapping and analysis of quantitative trait loci in experient populations[J]. Nat Rev Genet, 2002, 3: 43–52.
[6]翟虎渠, 王建康. 應(yīng)用數(shù)量遺傳[M]. 北京: 中國(guó)農(nóng)業(yè)科技出版社, 2007.
[7]XU Shizhong. Estimating polygenic effects using markers of the entire genome[J].Genetics,2003,163:789-801.
[8]EDWARDS SV. Is a new and general theory of molecular systematic emerging[J]. Evolution, 2009,63( 1) :1-19.
[9]HUANG Wenda, ZHAO Xueyon, ZHAO Xin, et al. Application of molecular markers in population genetics[J].Pratacultural Science,2010,27(11):115-120.
[10]SHEPHERD R K, MEUWISSEN THE, WOOLLIAMS J A. Genomic selection and complex trait prediction using a fast EM algorithm applied to genome-wide markers[J]. BMC Bioinformatics, 2010, 11:529.
[11]FLINT-GARICA SA, THORNSBERRY J M,BUCKLER E S .Structure of linkage disequilibrium in plants[J]. Annu Rev Plant Biol,2003, 54:357-374.
[12]吳為人,李維明.基于性狀-標(biāo)記回歸的QTL區(qū)間檢測(cè)方法[J]. 遺傳,2001,23(2):143-146.