楊文宇 吳成秀 肖英杰,3,* 嚴建兵,3
基于Adaptive Lasso的兩階段全基因組關(guān)聯(lián)分析方法
楊文宇1,2吳成秀1肖英杰1,3,*嚴建兵1,3
1作物遺傳改良全國重點實驗室, 湖北武漢 430070;2華中農(nóng)業(yè)大學(xué)理學(xué)院, 湖北武漢 430070;3湖北洪山實驗室, 湖北武漢 430070
作為進行全基因組關(guān)聯(lián)分析的主流方法, 混合線性模型類方法得到了廣泛的應(yīng)用。但是, 現(xiàn)有方法仍存在檢測功效不高的問題。本文提出一種基于Adaptive Lasso的2階段全基因組關(guān)聯(lián)分析方法(two-stage Adaptive Lasso-based genome-wide association analysis, ALGWAS), 該方法在第1階段通過變量選擇方法Adaptive Lasso篩選出與目標性狀相關(guān)聯(lián)的單核苷酸多態(tài)性位點(single nucleotide polymorphism, SNP), 第2階段將第1階段篩選出的SNP作為協(xié)變量放入線性模型中進行全基因組掃描。在模擬實驗中, ALGWAS方法與3種常用的全基因組關(guān)聯(lián)分析方法fastGWA、GEMMA和EMMAX相比具有最高的檢測功效, 同時具有較低的錯誤發(fā)現(xiàn)率(false discovery rate, FDR)。將以上4種方法應(yīng)用到包含1341份材料的玉米CUBIC (Complete-diallel plus Unbalanced Breeding-like Inter-Cross)群體的全基因組關(guān)聯(lián)分析中, ALGWAS方法可檢測到與開花期相關(guān)基因、和, 與株高相關(guān)基因和, 與產(chǎn)量相關(guān)基因、和等, 而其他3種常用的全基因組關(guān)聯(lián)分析方法檢測功效較低。本研究提出了一種非混合線性模型類的全基因組關(guān)聯(lián)分析方法, 對解析微效多基因決定的復(fù)雜遺傳性狀具有更高的檢測效率, 為基因挖掘提供了新的途徑。
玉米; 全基因組關(guān)聯(lián)分析; 變量選擇; Adaptive Lasso
全基因組關(guān)聯(lián)分析(Genome-Wide Association Study, GWAS)是在全基因組水平上分析高密度的SNP與性狀相關(guān)性的分析, 從而發(fā)現(xiàn)影響復(fù)雜性狀的基因變異的一種統(tǒng)計方法。遺傳學(xué)家最先使用的是簡單易算的線性模型(Linear Model, LM), 但該模型沒有考慮群體結(jié)構(gòu)的影響, 會挖掘出很多基因位點與復(fù)雜性狀的假陽性關(guān)聯(lián)。在一般線性模型中控制群體結(jié)構(gòu)效應(yīng)后, 假陽性檢測大大降低。此外, 遺傳學(xué)家發(fā)現(xiàn)復(fù)雜的親緣關(guān)系也會帶來假陽性的關(guān)聯(lián)結(jié)果, 因此Zhang等[1]和Yu等[2]提出了混合線性模型?;旌暇€性模型能同時控制群體結(jié)構(gòu)和親緣關(guān)系的影響, 降低了假陽性率。此后, 很多研究者致力于改善混合線性模型。Kang 等[3]2008年提出有效的混合線性模型(Efficient Mixed-Model Association, EMMA)。EMMA是一種被廣泛使用的精確方法, 它將求解混合線性模型時涉及的優(yōu)化問題轉(zhuǎn)化成了一維的優(yōu)化問題, 提高了計算效率, 并通過譜分解方法避免了每次迭代計算似然函數(shù)時的大量矩陣相乘和求逆運算, 進一步提高了計算效率。但是EMMA難以處理由數(shù)千個個體組成的數(shù)據(jù)集, 為了解決這個問題, Kang等[4]2010年在EMMA的基礎(chǔ)上提出了EMMAX (EMMA eXpedited)。EMMAX將EMMA掃描每個位點時均需估計的多基因方差與殘差方差之比用無效應(yīng)模型中得到的比值近似, 大幅減少了計算量。同年, Zhang等[5]在混合線性模型的基礎(chǔ)上提出了壓縮的混合線性模型(Compressed MLM, CMLM)和P3D (Population Parameters Previously Determined)方法。CMLM采用聚類方法將群體進行分組, 減少了有效樣本數(shù)量。P3D通過固定多基因方差與殘差方差的比值, 減少了全基因組掃描時需要估計的參數(shù)數(shù)目, 提升了計算效率。2012年Zhou等[6]提出一種高效的精確方法, 全基因組高效混合線性模型(Genome- wide Efficient Mixed-Model Association, GEMMA)。GEMMA大約比EMMA快倍(為樣本數(shù)目), 它的出現(xiàn)使得處理大樣本數(shù)據(jù)集時采用精確全基因組關(guān)聯(lián)分析方法變得可行。近年來, 混合線性模型類方法得到了廣泛的應(yīng)用[7-13], 與之相關(guān)的快速算法也陸續(xù)被提出, 如Fast-LMM[14]、Fast-LMM-Select[15]和BOLT-LMM[16]等。2019年Jiang等[17]針對大規(guī)模數(shù)據(jù)分析, 開發(fā)了一種基于混合線性模型的新方法fastGWA, 它通過將親緣關(guān)系矩陣中較小系數(shù)替換成0值, 增加矩陣稀疏性, 提高了模型功效和運算速度, 并用模擬實驗證明了fastGWA的可靠性和魯棒性。
在過去的幾十年, GWAS在人類、動物和植物中識別了成千上萬的相關(guān)基因座, 為疾病診斷和動植物育種提供了幫助。但是, GWAS識別出的基因座只能解釋很小的一部分表型變異, 這種現(xiàn)象被稱為“消失的遺傳力”[18]。例如, GWAS識別到了約50個與人類身高相關(guān)的基因座, 但是他們僅能解釋5%的身高變異[19]。Yang等2010年指出遺傳力并沒有消失, 而是基因組中存在大量的微效位點GWAS檢測不到[20]。這說明長期以來復(fù)雜性狀GWAS一直都存在檢測功效不足的問題。為了提高GWAS的檢測功效, 主要有以下3個方面的探索: (1) 增加標記的類型, Song等[21]采用InDel (short insertion/deletion)作為標記進行 GWAS分析, 發(fā)現(xiàn)使用SNP進行GWAS檢測不到的基因; (2) 采用多變量模型, Zhang等[22]通過模擬實驗和真實數(shù)據(jù)驗證了多位點模型MrMLM的優(yōu)越性; (3) 采用非參數(shù)模型, Yang等[23]提出A-D test方法, 對不服從正態(tài)分布的表型可提高GWAS的檢測功效。本研究在參數(shù)模型的范疇下, 為了提高GWAS的檢測功效提出一種基于Adaptive Lasso的2階段全基因組關(guān)聯(lián)分析方法(ALGWAS), 該方法先通過Adaptive Lasso篩選出與目標性狀相關(guān)聯(lián)的SNP, 再將篩選出的SNP作為協(xié)變量放入一般線性模型中進行全基因組掃描。本研究選用包含1341份材料的玉米CUBIC群體的基因型和模擬的表型, 采用2種模擬方法進行數(shù)值實驗, 并與3種常用的全基因組關(guān)聯(lián)分析方法fastGWA、GEMMA和EMMAX進行對比。試驗結(jié)果顯示ALGWAS具有最高的檢測功效且具有較低的錯誤發(fā)現(xiàn)率。
本文使用以上4種方法對玉米CUBIC群體的開花期、株高和產(chǎn)量數(shù)據(jù)進行全基因組關(guān)聯(lián)分析, 發(fā)現(xiàn)ALGWAS方法可檢測到與開花期相關(guān)的已知基因、和, 與株高相關(guān)的已知基因和, 與產(chǎn)量相關(guān)的已知基因、和等, 而其他3種常用的全基因組關(guān)聯(lián)分析方法只能檢測到少量已知基因。
本研究所用的1341份材料來源于玉米CUBIC群體[24]。該群體通過以“黃改系”為核心的24個優(yōu)良玉米自交系作為親本, 采用一代不完全的雙列雜交和6代的隨機交配, 再進行6代的連續(xù)自交得到。利用第2代測序技術(shù)對CUBIC群體的1341個后代自交系進行低覆蓋度的測序(~1X), 選擇最小等位基因頻率大于0.02, 獲得11,800,000高質(zhì)量的SNP, 本文從中隨機挑選標記60,000個。在全國選取5個典型玉米種植生態(tài)區(qū)種植CUBIC群體, 進行大規(guī)模的田間表型試驗。對每份材料調(diào)查抽雄期(days to tasseling)、株高(plant height)和穗重(ear weight)性狀。本研究利用的基因型和表型性狀數(shù)據(jù)來自Liu等[24]已發(fā)表文章。
1.3.2 ALGWAS方法的第2階段 假設(shè)第1階段由Adaptive Lasso篩選出與性狀相關(guān)的SNP集合為B, 第2階段全基因組掃描到第個SNP, 定義ALGWAS方法第2階段的模型為:
=+zγ+, (1)
這里是×1表型向量,z是×1基因型向量,γ是第個SNP效應(yīng),=[1, …,x+1]是×(+1)設(shè)計矩陣,x+1=(1, …, 1),=(1, …,b+1)是(+1)×1系數(shù)向量,b+1為模型(1)的截距,為集合B中選出進入模型(1) SNP的個數(shù)(<||),(0,2)。規(guī)定掃描窗口大小為10 Mb, 即第個SNP左右5 Mb以外的集合B中的SNP, 作為檢測第個SNP的協(xié)變量進入模型(1)。ALGWAS 方法的R語言程序可從github (https://github.com/yangwenyurain/ALGWAS. git)下載。
1.4.1 線性模型(LM)方法 線性模型為:=+Zγ+, 這里是×1表型向量,是截距,Z是×1基因型向量, γ是第個SNP的效應(yīng),(0,2)。
1.4.2 混合線性模型方法 混合線性模型為:=++,是×1表型向量,是固定效應(yīng)對應(yīng)的×設(shè)計矩陣,是×1代表固定效應(yīng)的系數(shù)向量,是隨機效應(yīng)對應(yīng)的×設(shè)計矩陣, 多基因效應(yīng)(0,2),為親緣關(guān)系矩陣, 殘差效應(yīng)向量(0,2),為單位矩陣,2和2分別為估計的遺傳方差和殘差方差。本研究利用EMMAX[4]、GEMMA[6]和fastGWA[17]3種常用的混合線性模型進行模擬數(shù)據(jù)和真實數(shù)據(jù)的GWAS分析。
利用CUBIC群體基因型數(shù)據(jù), 定義20個和50個QTN, 狹義遺傳力為0.5和0.8, 共4個模擬組合, 隨機重復(fù)50次后, 共得到200個模擬表型。使用LM、EMMAX、GEMMA、fastGWA和ALGWAS分別對其進行全基因組關(guān)聯(lián)分析, 得到的平均結(jié)果見表1。從表1可以看出, ALGWAS與EMMAX、GEMMA和fastGWA相比具有最高的平均檢測功效和較低的錯誤發(fā)現(xiàn)率, 進一步可以看出ALGWAS檢測功效高的原因在于ALGWAS對于低效應(yīng)的QTN平均檢測功效比較高。當(dāng)QTN數(shù)目為20, 遺傳力為0.8時, ALGWAS的平均檢測功效為0.802, fastGWA的檢測功效為0.457, ALGWAS對于低效應(yīng)QTN的平均檢測功效為0.48, 比fastGWA的平均檢測功效0.04高12倍。
在CUBIC群體觀察到的表型抽雄期、株高和穗重上分別隨機選擇標記, 添加1個QTN效應(yīng), QTN的效應(yīng)設(shè)置為表型標準差的0.1倍至0.5倍, 重復(fù)50次后, 共得到1350個模擬表型。使用EMMAX、GEMMA、fastGWA和ALGWAS分別對其進行全基因組關(guān)聯(lián)分析, 得到的平均結(jié)果如圖1。從圖1可以看出在不同表型上添加QTN效應(yīng), ALGWAS均具有最高的平均檢測功效, 尤其是添加小效應(yīng)QTN時, ALGWAS的優(yōu)勢更明顯, 例如在穗重表型上添加表型標準差0.1倍的QTN效應(yīng)時, EMMAX、GEMMA和fastGWA的平均檢測功效均為0, 而ALGWAS的檢測功效為0.12。
考慮CUBIC群體觀察到的表型抽雄期、株高和穗重, 使用EMMAX、GEMMA、fastGWA和ALGWAS分別對其進行全基因組關(guān)聯(lián)分析(圖2~圖4)??梢钥闯鯡MMAX、GEMMA和fastGWA方法檢測到的QTL, ALGWAS均可檢測到, 并且ALGWAS還可檢測到更多的QTL, 這說明了ALGWAS有更高檢測功效。對于抽雄期, ALGWAS方法可檢測到與開花期相關(guān)的基因、和[24,29], 而GEMMA和fastGWA只能檢測到基因和, EMMAX僅能檢測到基因。對于株高, ALGWAS可檢測到與株高相關(guān)的基因[30]和[31], 并檢測到基因, 該基因通過延遲開花進而影響株高, 而其他3種方法只能檢測到基因。對于穗重, ALGWAS方法可檢測到與產(chǎn)量相關(guān)的基因[32][33][34][35][36]和[37], 而其他3種方法幾乎檢測不到相關(guān)基因。通過QQ圖, 可以發(fā)現(xiàn)ALGWAS相比于其他3種常用的混合線性模型方法均具有更高的統(tǒng)計功效, 同時對背景噪音導(dǎo)致的假陽性有較好的控制(圖5)。ALGWAS方法檢測到的已知基因位置及其對應(yīng)的peakSNP位置見表2。
表1 基于從頭模擬表型的不同全基因組關(guān)聯(lián)分析方法的平均檢測功效和錯誤發(fā)現(xiàn)率
圖1 基于真實性狀遺傳結(jié)構(gòu)模擬表型的不同全基因組關(guān)聯(lián)分析方法的檢測功效
A: 抽雄期; B: 株高; C: 穗重。A: days to tasseling; B: plant height; C: ear weight.
圖2 CUBIC群體抽雄期的曼哈頓圖
圖3 CUBIC群體株高的曼哈頓圖
圖4 CUBIC群體穗重的曼哈頓圖
圖5 不同全基因組關(guān)聯(lián)分析方法的QQ圖
A: 抽雄期; B: 株高; C: 穗重。A: days to tasseling; B: plant height; C: ear weight.
表2 ALGWAS方法檢測到的已知基因位置及其對應(yīng)的peakSNP位置
ALGWAS的第1階段需要篩選與性狀相關(guān)的SNP, 這一步可通過變量選擇方法實現(xiàn), 本研究選用的是Adaptive Lasso方法, 因為Zou給出了該方法具有一致性的理論證明[28]。本研究提供的是一個2階段方法的框架, 其他的變量選擇方法也可用于ALGWAS, 比如機器學(xué)習(xí)方法。在實際GWAS研究中, 如全基因組SNP數(shù)目達到百萬級別時, ALGWAS的變量篩選階段建議從中隨機抽取一部分SNP作分析。
ALGWAS方法雖然在檢測功效上具有優(yōu)勢, 但是它本身也有一定的局限性。ALGWAS的第2階段進行單點掃描時, 每一次都需要對進入模型的協(xié)變量進行判斷, 這一步導(dǎo)致了ALGWAS的速度還有待提高, 在后期的研究中, 我們將參考EMMAX[4]的做法, 通過固定進入模型的協(xié)變量來對其進行提速。
為了進一步提升ALGWAS方法的檢測功效, 可以參考Li等[38]在CIM (Composite Interval Mapping)的基礎(chǔ)上提出ICIM (Inclusive CIM)[39]的作法, 將ALGWAS第1階段通過Adaptive Lasso方法得到的SNP優(yōu)化權(quán)重直接用于第2階段模型的學(xué)習(xí)。采用此方法也可進一步對ALGWAS方法進行提速。
本研究提出了一種基于Adaptive Lasso的2階段全基因組關(guān)聯(lián)分析方法ALGWAS, 相比于目前常用的混合線性模型GWAS方法, ALGWAS在較好控制假陽性情況下, 統(tǒng)計功效更高, 特別對于產(chǎn)量等微效多基因遺傳的性狀, ALGWAS具有明顯的檢測優(yōu)勢, 這為復(fù)雜性狀解析提供了新的解決途徑。
[1] Zhang Y M, Mao Y C, Xie C Q, Smith H, Luo L, Xu S Z. Mapping quantitative trait loci using naturally occurring genetic variance among commercial inbred lines of maize (L.)., 2005, 169: 2267–2275.
[2] Yu J M, Pressoir G, Briggs H W, Vroh B I, Yamasakiet M, Doebley J F, McMullen M D, Gaut B S, Nielsen D M, Holland J B, Kresovich S, Buckler E S. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness., 2006, 38: 203–208.
[3] Kang H M, Zaitlen N A, Wade C M, Kirby A, Heckerman D, Daly M J, Eskin E. Efficient control of population structure in model organism association mapping., 2008, 178: 1709–1723.
[4] Kang H M, Sul J H, Service S K, Zaitlen N A, Kong S Y, Freimer N B, Sabatti C, Eskin E. Variance component model to account for sample structure in genome-wide association studies., 2010, 42: 348–354.
[5] Zhang Z W, Ersoz E, Lai C Q, Todhunter R J, Tiwari H K, Gore M A, Bradbury P J, Yu J, Arnett D K, Ordovas J M, Buckler E S. Mixed linear model approach adapted for genome-wide association studies., 2010, 42: 355–360.
[6] Zhou X, Stephens M. Genome-wide efficient mixed-model analysis for association studies., 2012, 44: 821–824.
[7] Wellcome Trust Case Control Consortium. Genome-wide association study of 14,000 cases of seven common diseases and 3000 shared controls., 2007, 447: 661–678.
[8] Li H, Peng Z Y, Yang X H, Wang W D, Fu J J, Wang J H, Han Y J, Chai Y C, Guo T T, Yang N, Liu J, Warburton M L, Cheng Y B, Hao X M, Zhang P, Zhao J Y, Liu Y J, Wang G Y, Li J S, Yan J B. Genome-wide association study dissects the genetic architecture of oil biosynthesis in maize kernels., 2013, 45: 43–50.
[9] Huang X H, Wei X H, Sang T, Zhao Q, Feng Q, Zhao Y, Li C Y, Zhu C R, Lu T T, Zhang Z W, Li M, Fan D L, Guo Y L, Wang A, Wang L, Deng L W, Li W J, Lu Y Q, Weng Q J, Liu K Y, Huang T,Zhou T Y, Jing Y F, Li W, Lin Z, Buckler E S, Qian Q, Zhang Q F, Li J Y, Han B. Genome-wide association studies of 14 agronomic traits in rice landraces., 2010, 42: 961–969.
[10] Xiao Y J, Liu H J, Wu L J, Warburton M L, Yan J B. Genome- wide association studies in maize: praise and stargaze., 2017, 10: 359–374.
[11] 彭勃, 趙曉雷, 王奕, 袁文婭, 李春輝, 李永祥, 張登峰, 石云素, 宋燕春, 王天宇, 黎裕. 玉米葉向值的全基因組關(guān)聯(lián)分析. 作物學(xué)報, 2020, 46: 819–831. Peng B, Zhao X L, Wang Y, Yuan W Y, Li C H, Li Y X, Zhang D F, Shi Y S, Song Y C, Wang T Y, Li Y. Genome-wide association studies of leaf orientation value in maize., 2020, 46: 819–831 (in Chinese with English abstract).
[12] 謝磊, 任毅, 張新忠, 王繼慶, 張志輝, 石書兵, 耿洪偉. 小麥穗發(fā)芽性狀的全基因組關(guān)聯(lián)分析. 作物學(xué)報, 2021, 47: 1891–1902. Xie L, Ren Y, Zhang X Z, Wang J Q, Zhang Z H, Shi S B, Geng H W. Genome-wide association study of pre-harvest sprouting traits in wheat., 2021, 47: 1891–1902 (in Chinese with English abstract).
[13] 楊飛, 張征鋒, 南波, 肖本澤. 水稻產(chǎn)量相關(guān)性狀的全基因組關(guān)聯(lián)分析及候選基因篩選. 作物學(xué)報, 2022, 48: 1813–1821. Yang F, Zhang Z F, Nan B, Xiao B Z. Genome-wide association analysis and candidate gene selection of yield related traits in rice., 2022, 48: 1813–1821 (in Chinese with English abstract).
[14] Lippert C, Listgarten J, Liu Y, Kadiel C M, Davidson R I, Heckerman D. FaST linear mixed models for genome-wide association studies., 2011, 8: 833–835.
[15] Listgarten J, Lippert C, Kadie C M, Davidson R I, Eskin E, Heckerman D. Improved linear mixed models for genome-wide association studies., 2012, 9: 525–526.
[16] Loh P R, Bhatia G, Gusev A, Finucane H K, Bulik-Sullivan B K, Pollack S J. Contrasting genetic architectures of schizophrenia and other complex diseases using fast variance-components analysis., 2015, 47: 1385–1392.
[17] Jiang L D, Zheng Z L, Qi T, Kemper K E, Wray N R, Visscher P M, Yang J. A resource-efficient tool for mixed model association analysis of large-scale data., 2019, 51: 1749–1755.
[18] Maher B. Personal genomes: the case of the missing heritability., 2008, 456: 18–21.
[19] Visscher P. Sizing up human height variation., 2008, 40: 489–490.
[20] Yang J, Benyamin B, McEvoy B P, Gordon S, Henders A K, Nyholt D R, Madden P A, Heath A C, Martin N G, Montgomery G W, Goddard M E, Visscher P M. Common SNPs explain a large proportion of the heritability for human height., 2010, 42: 565–569.
[21] Song B, Mott R, Gan X. Recovery of novel association loci inandthrough leveraging INDELs association and integrated burden test., 2018, 14: e1007699.
[22] Zhang Y W, Tamba C L, Wen Y J, Li P, Ren W L, Ni Y L, Gao J, Zhang Y M. mrMLM v4.0.2: an R platform for multi-locus genome-wide association studies., 2020, 18: 481–487.
[23] Yang N, Lu Y L, Yang X H, Huang J, Zhou Y, Ali F H, Wen W W, Liu J, Li J S, Yan J B. Genome wide association studies using a new nonparametric model reveal the genetic architecture of 17 agronomic traits in an enlarged maize association panel., 2014, 10: e1004573.
[24] Liu H J, Wang X Q, Xiao Y J, Luo J Y, Qiao F, Yang W Y, Zhang R Y, Meng Y J, Sun J M, Yan S J, Peng Y, Niu L Y, Jian L M, Song W, Yan J L, Li C H, Zhao Y X, Liu Y, Warburton M L, Zhao J R, Yan J B. CUBIC: an atlas of genetic architecture promises directed maize improvement., 2020, 21: 20.
[25] Lande R, Thompson R. Efficiency of marker-assisted selection in the improvement of quantitative traits., 1990, 124: 743–756.
[26] Yu J M, Holland J B, McMullen M D, Buckler E S. Genetic design and statistical power of nested association mapping in maize., 2008, 178: 539–551.
[27] Tibshirani R. Regression shrinkage and selectionthe lasso., 1996, 58: 267–288.
[28] Zou H. The adaptive lasso and its oracle properties., 2006, 101: 1418–1429.
[29] Liang Y M, Liu Q, Wang X F, Huang C, Xu G H, Hey S, Lin H Y, Li C, Xu D Y, Wu L S, Wang C L, Wu W H, Xia J L, Han X, Lu S J, Lai J S, Song W B, Schnable P S, Tian F. ZmMADS69 functions as a flowering activator through the regulatory module and contributes to maize flowering time adaptation., 2019, 221: 2335–2347.
[30] Makarevitch I, Thompson A, Muehlbauer G J, Springer N M.gene in maize encodes a brassinosteroid C-6 oxidase., 2012, 7: e30798.
[31] Xing A Q, Gao Y F, Ye L F, Zhang W P, Cai L C, Ching A, Llaca V, Johnson B, Liu L, Yang X H, Kang D M, Yan J B, Li J S. A rare SNP mutation in Brachytic2 moderately reduces plant height and increases yield potential in maize., 2015, 66: 3791–3802.
[32] Yang N, Liu J, Gao Q, Gui S T, Chen L, Yang L F, Huang J, Deng T Q, Luo J Y, He L J, Wang Y B, Xu P W, Peng Y, Shi Z, Lan L, Ma Z Y, Yang X, Zhang Q Q, Bai M Z, Li W, Liu L, Jackson D, Yan J B. Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement., 2019, 51: 1052–1059.
[33] Luo Y, Zhang M L, Liu Y, Liu J, Li W Q, Chen G S, Peng Y, Jin M, Wei W J, Jian L M, Yan J, Fernie A R, Yan J B. Genetic variation in YIGE1 contributes to ear length and grain yield in maize., 2022, 234: 513–526.
[34] Du Y F, Liu L, Peng Y, Li M F, Li Y F, Liu D, Li X W, Zhang Z X.expression and inflorescence development is mediated byand the distal enhancer,, in maize., 2020, 16: e1008764.
[35] Chen W K, Chen L, Zhang X, Yang N, Guo J H, Wang M, Ji S G, Zhao X Y, Yin P F, Cai L C, Xu J, Zhang L L, Han Y J, Xiao Y N, Xu G, Wang Y B, Wang S H, Wu S, Yang F, Jackson D, Cheng J K, Chen S H, Sun C Q, Qin F, Tian F, Fernie A R, Li J S, Yan J B, Yang X H. Convergent selection of a WD40 protein that enhances grain yield in maize and rice., 2022, 375: e7985.
[36] Liu L, Gallagher J, Arevalo E D, Chen R, Skopelitis T, Wu Q, Bartlett M, Jackson D. Enhancing grain-yield-related traits by CRISPR-Cas9 promoter editing of maize CLE genes., 2021, 7: 287–294.
[37] Jia H T, Li M F, Li W Y, Liu L, Jian Y N, Yang Z X, Shen X M, Ning Q, Du Y F, Zhao R, Jackson D, Yang X H, Zhang Z X. A serine/threonine protein kinase encoding gene KERNEL NUMBER PER ROW6 regulates maize grain yield., 2020, 11: 988.
[38] Zeng Z B. Precision mapping of quantitative trait loci.1994, 136: 1457–1468.
[39] Li H H, Ye G Y, Wang J K. A modified algorithm for the improvement of composite interval mapping., 2007, 175: 361–374.
ALGWAS: two-stage Adaptive Lasso-based genome-wide association study
YANG Wen-Yu1,2, WU Cheng-Xiu1, XIAO Ying-Jie1,3,*, and YAN Jian-Bing1,3
1National Key Laboratory of Crop Genetic Improvement, Huazhong Agricultural University, Wuhan 430070, Hubei, China;2College of Science, Huazhong Agricultural University, Wuhan 430070, Hubei, China;3Hubei Hongshan Laboratory, Wuhan 430070, Hubei, China
As mainstream methods for genome-wide association analysis, mixed linear model methods have been widely used. However, the existing methods still have the problem of low detection power. In this study, a two-stage Adaptive Lasso-based genome-wide association analysis (ALGWAS) method was proposed. In the first stage, single nucleotide polymorphism (SNP) associated with target traits were screened by Adaptive Lasso, a variable selection method. In the second stage, SNPs selected from the first stage were put into the linear model as the covariates for genome-wide scanning. Compared with fastGWA, GEMMA and EMMAX, the ALGWAS method had the highest detection power and lower false discovery rate (FDR) in the simulation experiments. The above four methods were applied to genome-wide association analysis of Complete-diallel plus Unbalanced Breeding-like Inter-Cross (CUBIC) population of 1341 individuals in maize. ALGWAS method can detect the genes (,,, andrelated to days to tasseling, the genes (and) related to plant height, and the genes (,,and) related to yield, while the other three commonly used genome-wide association analysis methods had low detection efficiency. In this study, a non-mixed linear model class of genome-wide association analysis method was proposed, which had higher detection advantage for microeffect polygenes and provided a new way for genetic analysis of complex traits.
maize; genome-wide association study; variable selection; Adaptive Lasso
2022-10-28;
2023-02-21;
2023-03-03.
10.3724/SP.J.1006.2023.23072
通信作者(Corresponding author):肖英杰, E-mail: yxiao25@mail.hzau.edu.cn
E-mail: yangwenyurain@126.com
本研究由國家自然科學(xué)基金項目(32201855, 32122066)資助。
This study was supported by the National Natural Science Foundation of China (32201855, 32122066).
URL: https://kns.cnki.net/kcms/detail/11.1809.S.20230302.1544.007.html
This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).