劉澤璇,趙毅強(qiáng)
綜 述
基因滲入的檢測(cè)和表征方法
劉澤璇,趙毅強(qiáng)
中國農(nóng)業(yè)大學(xué)生物學(xué)院,北京 100193
基因滲入也稱為滲入性雜交,遺傳學(xué)上指通過不斷回交,遺傳成分從一個(gè)群體的基因庫流向另一個(gè)群體基因庫的過程?;驖B入在自然界廣泛存在,對(duì)于增加遺傳多樣性和提高環(huán)境適應(yīng)性起到了重要的貢獻(xiàn),影響著動(dòng)植物以及人類的演化進(jìn)程?;驖B入作為進(jìn)化中的重要事件而被廣泛關(guān)注,包括鑒定基因滲入是否發(fā)生以及滲入的方向、時(shí)間和滲入模式等。隨著高通量測(cè)序技術(shù)的快速發(fā)展,使得利用全基因組數(shù)據(jù)檢測(cè)和表征基因滲入的方法不斷出現(xiàn)。本文系統(tǒng)總結(jié)了基因滲入檢測(cè)的系列方法,介紹了這些方法的設(shè)計(jì)原理和使用案例,并討論了滲入后基因片段的維持與選擇,以期為基因滲入相關(guān)研究提供較為全面的參考。
基因滲入;滲入檢測(cè);滲入方向;滲入時(shí)間;適應(yīng)性滲入
基因滲入/漸滲(introgression)是發(fā)生在遺傳距離相對(duì)較遠(yuǎn)的群體之間的基因流動(dòng),通常是經(jīng)過種間雜交后由后代種與一個(gè)祖先種的反復(fù)回交所致[1]。作為一個(gè)長(zhǎng)期的過程,基因滲入會(huì)導(dǎo)致復(fù)雜的、高度可變的基因組混合[2]。自Anderson[3]關(guān)于基因在物種間轉(zhuǎn)移的開創(chuàng)性工作之后,滲入雜交(introgressive hybridization)一詞開始進(jìn)入研究者的視野,目前已在豬()、牛()、山羊()等動(dòng)物、大量植物以及人類基因組中發(fā)現(xiàn)基因滲入的痕跡[4~7]。
通過基因滲入,一個(gè)群體的遺傳物質(zhì)轉(zhuǎn)移至另一個(gè)群體中,進(jìn)而對(duì)受體的基因庫實(shí)現(xiàn)部分改寫。過去20年中,越來越多的基因組數(shù)據(jù)表明基因滲入是引入新的遺傳變異的重要方式[8],能豐富受體群體的變異類型,并增加遺傳多樣性。供體和受體之間的等位基因差異越大,供體方個(gè)體的數(shù)量越多,對(duì)受體群體遺傳結(jié)構(gòu)的影響就越大[9]。最著名的基因滲入的例子是尼安德特人對(duì)現(xiàn)代人祖先的基因滲入[4],研究表明非非洲人中約2%的基因組來自尼安德特人[10]。
基因滲入被認(rèn)為是重要的進(jìn)化力量。盡管遠(yuǎn)緣雜交可能導(dǎo)致雜交不育,然而如果后代兩性可育,則有可能促使優(yōu)勢(shì)等位基因傳遞,最終產(chǎn)生進(jìn)化上的優(yōu)勢(shì)[11,12]。來自供體的等位基因如果能提高受體群體所處環(huán)境下的適合度,此時(shí)的基因滲入就是適應(yīng)性的。適應(yīng)性基因滲入(adaptive introgression)通過引入新的適應(yīng)性變異快速提高物種的適應(yīng)能力[13]。適應(yīng)性基因滲入在植物中進(jìn)行了廣泛的研究[14],據(jù)統(tǒng)計(jì)大約25%的開花植物與近親交換基因,而動(dòng)物中這一比例僅為10%[15]。由于雜交在動(dòng)物界被認(rèn)為是一種罕見的現(xiàn)象,因此基因滲入在動(dòng)物進(jìn)化中的作用一直被低估[13]。但隨著高通量測(cè)序技術(shù)的普及,眾多的古現(xiàn)代基因組數(shù)據(jù)及新發(fā)現(xiàn)的滲入事件為滲入在進(jìn)化中的重要性提供了證據(jù)。近期的研究提示,從黑尾兔()中滲入的基因?qū)е卵┩?)產(chǎn)生多態(tài)性季節(jié)偽裝,提高了環(huán)境適應(yīng)性[16]。
基因滲入會(huì)在受體基因組中留下可檢測(cè)的痕跡,相對(duì)于受體的遺傳背景,滲入的遺傳信息通常和供體更為相似[17]。近期的滲入會(huì)在子代個(gè)體基因組中保留清晰的印跡[18],然而多世代的回交將會(huì)顯著減少保留印記的位點(diǎn)的數(shù)量,使得古老的基因滲入事件難以檢測(cè)[19]。自Green等[4]利用全基因組數(shù)據(jù)檢測(cè)現(xiàn)代人中尼安德特人的基因滲入以來,定性和定量檢測(cè)基因滲入的方法快速發(fā)展。根據(jù)滲入后基因組特征的改變,檢測(cè)策略包括遺傳相似性、等位基因位點(diǎn)頻率差異、拓?fù)浣Y(jié)構(gòu)改變等等?;谶@些特征設(shè)計(jì)的統(tǒng)計(jì)量清晰直觀,可解釋性強(qiáng)。隨著對(duì)基因滲入了解的加深,人們對(duì)是否存在滲入以及量化其在整個(gè)基因組中的程度、識(shí)別供體和受體群體、推斷滲入事件發(fā)生時(shí)間等產(chǎn)生了濃厚的興趣。雖然目前準(zhǔn)確描述這些特征仍存在困難[20~22],但對(duì)還原滲入事件的全貌必不可少。本文對(duì)常用的基因滲入檢測(cè)和表征方法進(jìn)行了總結(jié),并詳細(xì)介紹了這些方法的設(shè)計(jì)原理及優(yōu)缺點(diǎn)。
基因滲入的檢測(cè)主要包括判斷滲入是否發(fā)生、具體位點(diǎn)及滲入比例。隨著基因組數(shù)據(jù)海量增加,人們需要可靠的統(tǒng)計(jì)及計(jì)算方法檢測(cè)群體歷史中的滲入信號(hào),目前已提出基于遺傳相似性、位點(diǎn)頻率差異等進(jìn)行探究的統(tǒng)計(jì)量,其中統(tǒng)計(jì)量應(yīng)用范圍最廣,并且進(jìn)行了豐富的拓展[4,23]。
1.1.1
檢測(cè)滲入的起點(diǎn)是個(gè)體之間的遺傳相似性,可使用窗口為單位進(jìn)行分析,主要用于基因滲入的定性分析。此方法側(cè)重于個(gè)體層面的檢測(cè),敏感度較高,即使?jié)B入時(shí)間短,滲入片段僅存在于少數(shù)個(gè)體中,也能夠檢測(cè)出來。檢測(cè)還可以用于識(shí)別較大范圍的基因滲入趨勢(shì),例如染色體間的差異[27],并且能夠?qū)蜻x區(qū)域進(jìn)行定位,以便進(jìn)一步表征。
1.1.2 卡方統(tǒng)計(jì)量
與個(gè)體間IBD的指標(biāo)不同,單倍型相似性可以直接在群體水平進(jìn)行比較。假設(shè)背景群體、受體群體為姐妹群體,那么二者的單倍型相似性較高。在不發(fā)生基因滲入的情況下,供體群體與受體群體整體的單倍型相似性較低。如果供體群體向受體群體發(fā)生基因滲入,則受體群體和供體群體在滲入?yún)^(qū)域整體的單倍型相似性會(huì)增加。卡方統(tǒng)計(jì)量常用于計(jì)數(shù)資料的相似性比較,此處用來衡量滲入?yún)^(qū)域的單倍型相似性,其公式為[28]:
相比于單點(diǎn)的檢測(cè),單倍型包含了相位與連鎖不平衡等豐富的信息,其組合數(shù)目和豐富程度大大增加了遺傳信息的維度。與不同,卡方統(tǒng)計(jì)量直接基于群體水平進(jìn)行檢測(cè),只有滲入在群體中達(dá)到一定程度時(shí)才會(huì)被檢測(cè)出來;如果滲入發(fā)生在近期,或滲入單倍型只存在于少數(shù)個(gè)體中,則不會(huì)被鑒定出來。此外,由于該方法需要較多的樣本量構(gòu)建統(tǒng)計(jì)量,所以相應(yīng)的成本較高。樣本量不足時(shí)檢測(cè)效力會(huì)嚴(yán)重降低[28]。
1.1.3統(tǒng)計(jì)量
統(tǒng)計(jì)量又被稱為“ABBA-BABA”檢驗(yàn),通過計(jì)算不完全譜系分選(incomplete lineage sorting)的情況下兩個(gè)姐妹物種與第三個(gè)密切相關(guān)的物種共享衍生等位基因的比例來推斷基因滲入是否發(fā)生。統(tǒng)計(jì)量要求提供一個(gè)外群,計(jì)算公式如下:
其中代表基因組上不同位置的等位基因位點(diǎn);代表基因位點(diǎn)總數(shù)。H1與H2為兩個(gè)姐妹群體, H3為滲入源群體,即供體群體。將外群等位基因定義為祖先等位基因A,衍生等位基因?yàn)锽。假設(shè)外群祖先等位基因A是固定的,那么統(tǒng)計(jì)量就是ABBA和BABA模式之間的標(biāo)準(zhǔn)化差異。ABBA位點(diǎn)代表拓?fù)浣Y(jié)構(gòu)(((H2,H3),H1),O)下的模式,即H2和H3之間發(fā)生了基因滲入;BABA位點(diǎn)代表拓?fù)浣Y(jié)構(gòu)(((H1,H3),H2),O)下的模式,即H1和H3之間發(fā)生基因滲入。由于H1與H2起源于與H3分離的共同祖先,那么在隨機(jī)交配的情況下出現(xiàn)在H3中的衍生等位基因應(yīng)該和H1或者H2中的衍生等位基因頻率相同。由此推斷在沒有基因滲入的情況下,統(tǒng)計(jì)量的期望值為0。當(dāng)統(tǒng)計(jì)量為正時(shí),表明H2群體與H3群體共享更多等位基因。相反地,當(dāng)統(tǒng)計(jì)量為負(fù)值時(shí)則表明H1群體與H3群體共享更多等位基因。需要指出的是,統(tǒng)計(jì)量本身并不能給出滲入的方向。由于H3被預(yù)先定義為滲入供體,所以統(tǒng)計(jì)量為正時(shí)通常解釋為H3到H2方向的滲入,為負(fù)時(shí)通常解釋為H3到H1方向的滲入。
統(tǒng)計(jì)量首先用于檢測(cè)現(xiàn)代人祖先和尼安德特人之間的基因滲入[4],現(xiàn)已廣泛應(yīng)用于各物種和群體的基因滲入檢測(cè)。為了研究羊群之間的基因交流,Zheng等[5]設(shè)定H1為歐洲馴化山羊,H2為東亞馴化山羊,H3為阿塞拜疆和札格羅斯地區(qū)的野山羊,外群為盤羊。當(dāng)H3為札格羅斯地區(qū)的野山羊時(shí),檢測(cè)到統(tǒng)計(jì)量為正值,表明該地區(qū)野山羊向東亞馴化山羊之間存在基因滲入;當(dāng)H3為阿塞拜疆地區(qū)的野山羊時(shí),檢測(cè)到統(tǒng)計(jì)量為負(fù)值,表明該地區(qū)野山羊向歐洲馴化山羊之間存在基因滲入。在類似的研究中,Yu等[30]將H1設(shè)定為中國家貓(),H2為世界范圍內(nèi)家貓,H3為西藏山貓(),檢測(cè)到山貓向同域家貓顯著的滲入信號(hào),為西藏山貓和同域家貓的基因交流提供了證據(jù)。
當(dāng)用作非姐妹群體間滲入的全基因組測(cè)試時(shí),在不同外群遺傳距離、滲入方向、滲入模型等情況下統(tǒng)計(jì)量都具有穩(wěn)健性[34,35]。統(tǒng)計(jì)量不適用于滑窗計(jì)算,因?yàn)檩^小的窗口中非重組基因座可能只存在單一位點(diǎn)模式,例如基因座只存在ABBA位點(diǎn)。此時(shí)值為1,會(huì)錯(cuò)誤解讀為群體H2和H3之間存在基因流。因此統(tǒng)計(jì)量更適合整個(gè)基因組范圍的滲入檢測(cè),并且僅限于判斷基因滲入是否發(fā)生,不能提供精確的信息。
1.1.44和4-ratio
-statistics由Pattreson等[32, 36]提出,用來衡量2個(gè)、3個(gè)或4個(gè)群體之間等位基因頻率的差異。4個(gè)群體的-statistics與統(tǒng)計(jì)量非常相似,也廣泛用于從群體遺傳數(shù)據(jù)中檢測(cè)基因交流,記為4-statistics(以下簡(jiǎn)稱4),用來衡量群體H1、H2和H3、H4之間等位基因頻率差異的平均相關(guān)性:
為等位基因頻率,一般取多個(gè)SNP的均值。針對(duì)不同的拓?fù)浣Y(jié)構(gòu),4存在以下代數(shù)變換:
4-statistics另一個(gè)重要的應(yīng)用是4-ratio,用于量化基因滲入的程度。假設(shè)圖2中群體X由比例的H2群體和1–比例的H3群體混合而來,則有:
于是有:
此處的即為4-ratio,代表來自群體H2的基因片段在群體X中比例。由于4-ratio計(jì)算簡(jiǎn)單,非常適合基因組規(guī)模的數(shù)據(jù)集并具有魯棒性[31]。Green等[4]利用4-ratio,設(shè)定群體H1為黑猩猩(),H2為約魯巴人,X為待測(cè)群體法國人,H3為供體尼安德特人,H4為丹尼索瓦人,通過4-ratio估計(jì)得到尼安德特人基因流入法國人群體的比例為0.022。
1.1.5 其他衍生統(tǒng)計(jì)量
f的估計(jì)值與基因滲入水平大致成正比。在對(duì)蝴蝶(、、)[37]全基因組數(shù)據(jù)的分析中,通過多個(gè)不同群體組合測(cè)試f值,結(jié)果表明f統(tǒng)計(jì)量具有較好的穩(wěn)健性。不足之處是估計(jì)值較保守,當(dāng)群體數(shù)量很大時(shí),f往往會(huì)低估滲入的真實(shí)水平,這是由于群體規(guī)模相對(duì)于分化時(shí)間較大時(shí),譜系信息缺失無法準(zhǔn)確量化滲入造成的[37]。
公式中Hd動(dòng)態(tài)取H1或H3群體中具有更高衍生等位基因頻率的群體。Vahedi等[39]設(shè)定H1為歐洲牛(Bos taurus),H2為復(fù)合肉牛,H3為印度牛(Bos taurus indicus),外群為牦牛(Bos grunniens),通過fdM統(tǒng)計(jì)顯示約12.9%的復(fù)合肉牛群體的遺傳成分由印度牛滲入。
A:4預(yù)期為0;B:4預(yù)期為;C:4預(yù)期為(1–)。4預(yù)期值由重疊路徑確定。
圖2 f4-ratio五個(gè)群體下滲入圖解
群體X祖先成分包括比例的H2群體和1–比例的H3群體。
f和f均適用于滑窗計(jì)算[23],能夠準(zhǔn)確計(jì)算滲入比例并具有良好的穩(wěn)健性。
1.1.5.3D為了估算基因滲入的比例,Hamlin等[40]設(shè)計(jì)了統(tǒng)計(jì)量的擴(kuò)展版本D。通過考慮ABBA和BABA以外的雙等位基因位點(diǎn)模式,將BBAA位點(diǎn)的計(jì)數(shù)添加到分母中,此時(shí)分母包含所有雙等位基因位點(diǎn)模式的計(jì)數(shù),使得D接近于基因組的滲入比例。BBAA即位點(diǎn)基因與物種樹拓?fù)浣Y(jié)構(gòu)(((H1,H2),H3),O)一致時(shí)的預(yù)期等位基因模式。
在不同滲入時(shí)間和滲入方向的模擬中,D估計(jì)值與基因滲入的真實(shí)值接近,呈線性變化,略微低估。尤其當(dāng)基因滲入比例小于10%時(shí),D與真實(shí)值差距小于1%[40]。Hamlin等[40]使用來自11個(gè)野生番茄()品種32個(gè)譜系的全基因組序列,通過D來評(píng)估密切相關(guān)種群間的滲入程度,以及地理因素、遺傳差異等條件下滲入比例的變化。D既可以像f、f一樣應(yīng)用于滑窗計(jì)算,也可以用于量化全基因組的滲入比例。但是如果H1和H3之間以及H2和H3之間存在雙向基因流,D可能會(huì)低估總的滲入量[40]。
以上統(tǒng)計(jì)量從不同角度對(duì)基因滲入進(jìn)行定性或定量分析,總結(jié)見表1。由于這些統(tǒng)計(jì)量在設(shè)計(jì)的時(shí)候錨定基因滲入后某種基因組特征的改變,所以方法直觀可解釋性較強(qiáng)。統(tǒng)計(jì)量和statistics作為經(jīng)典方法,是使用最多的全基因組滲入檢測(cè)手段,同時(shí)在大多數(shù)群體統(tǒng)計(jì)情況下具有魯棒性[31],適用于全局檢測(cè)。f等拓展統(tǒng)計(jì)量針對(duì)滲入定量估計(jì)進(jìn)行優(yōu)化,矯正了和statistics的偏差,適用于滑窗計(jì)算。另外,滲入事件的其他參數(shù),包括基因滲入的方向(供體和受體群體的身份區(qū)分)、滲入時(shí)間(相對(duì)于檢測(cè)時(shí)間,滲入在多少代次之前發(fā)生)和滲入模式(離散的脈沖式或連續(xù)基因流)等對(duì)于準(zhǔn)確了解滲入事件也同樣重要。
表1 滲入檢測(cè)統(tǒng)計(jì)量匯總
雖然僅從基因樹拓?fù)浣Y(jié)構(gòu)就可以了解到很多關(guān)于滲入的信息,但考慮基因樹分支長(zhǎng)度等額外信息可以提取更豐富的信息,例如確定群體之間的滲入方向,有助于精準(zhǔn)描述滲入事件。本節(jié)主要介紹如何結(jié)合拓?fù)浣Y(jié)構(gòu)以外的信息推斷滲入方向。
1.2.1 基于復(fù)雜拓?fù)浣Y(jié)構(gòu)
DFOIL的原理和統(tǒng)計(jì)量類似,都是比較不同滲入情況對(duì)應(yīng)的拓?fù)浣Y(jié)構(gòu)下位點(diǎn)頻率的差異,與預(yù)期值零的顯著偏差表示滲入發(fā)生。不過該方法既考慮了待測(cè)群體之間的共享變異位點(diǎn)的情況,也考慮了待測(cè)群體之間保留共同祖先位點(diǎn)的情況。例如,D公式中包括BABAA和BBBAA(群體H1和群體H3共享變異位點(diǎn))以及ABABA和AAABA(群體H1和群體H3保留共同祖先位點(diǎn))。假設(shè)基因滲入方向?yàn)槿后wH2到群體H3,由于H1和H2為姐妹群體,H3將和H1共享更多的位點(diǎn),D為正;D直接檢測(cè)此類滲入,結(jié)果為正;由于發(fā)生滲入,H2和H3之間的共享等位基因比H1和H3之間多,D為負(fù);最后,因?yàn)镠1和H2都沒有與H4發(fā)生滲入,H1和H4之間等位基因共享數(shù)目應(yīng)與H2和H4之間的數(shù)目相同,D預(yù)計(jì)為零。不同滲入方向?qū)?yīng)的各統(tǒng)計(jì)量值見表2。
數(shù)據(jù)模擬證明,DFOIL可以正確識(shí)別基因滲入發(fā)生的群體和滲入的方向,在一定的滲入量和滲入時(shí)間范圍內(nèi)準(zhǔn)確推斷出滲入事件,假陽性率極低[41]。Wang等[43]利用DFOIL,設(shè)H1、H2為歐洲和北美棕熊(),H3、H4為阿拉斯加北極熊(s)和古代北極熊,外群為黑熊,檢測(cè)出古代和現(xiàn)代發(fā)生的從北極熊到棕熊的單向基因流。但是,DFOIL方法要求具有對(duì)稱拓?fù)浣Y(jié)構(gòu)的4個(gè)群體,限制了方法的通用性。因?yàn)槎鄠€(gè)相同概率的差異拓?fù)浣Y(jié)構(gòu)是對(duì)稱系統(tǒng)發(fā)育結(jié)構(gòu)的特征[41],這也使得DFOIL無法應(yīng)用于非對(duì)稱的系統(tǒng)發(fā)育結(jié)構(gòu)。例如非對(duì)稱結(jié)構(gòu)(((H1,H2),H3),H4),H1、H2與H3的關(guān)系比H4更密切,因此與H3共享更多等位基因,即使沒有發(fā)生基因滲入D也會(huì)為正,導(dǎo)致該方法失去檢測(cè)效力。
表2 預(yù)期滲入對(duì)應(yīng)的DFOIL各統(tǒng)計(jì)量值
1.2.2 基于基因樹分支長(zhǎng)度
除了利用基因樹拓?fù)浣Y(jié)構(gòu),一些方法利用基因樹分支長(zhǎng)度差異來推斷滲入方向。舉例來說,下圖中盡管H3到H2(圖3B)和H2到H3(圖3C)的滲入事件會(huì)產(chǎn)生相似的拓?fù)浣Y(jié)構(gòu),但是這兩個(gè)滲入事件產(chǎn)生的分支長(zhǎng)度不同。群體H3到群體H2的基因流不會(huì)改變H1和H3的預(yù)期溯祖時(shí)間(圖3B)。相反地,從群體H2到群體H3的基因流會(huì)使得群體H3中的位點(diǎn)可通過群體H2追溯其歷史,同時(shí)也會(huì)使群體H1和群體H3更早地溯祖(圖3C)。這種差異使人們能夠以此確定不同群體之間主要的滲入方向。
基于此原理,2[44]統(tǒng)計(jì)量根據(jù)預(yù)期溯祖時(shí)間的差異進(jìn)行推斷,在特定基因樹下區(qū)分基因滲入方向。假設(shè)群體H2和群體H3之間發(fā)生了基因滲入,此時(shí)2公式如下:
不同于DFOIL基于拓?fù)浣Y(jié)構(gòu)和等位基因頻率差異,2在拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上考慮了基因樹分支長(zhǎng)度信息,僅需要3個(gè)待測(cè)群體和一個(gè)外群即可完成檢測(cè)。模擬表明,如果群體分化時(shí)間較近,分支長(zhǎng)度差異可能較小,2檢測(cè)效力將大大下降,因此2無法檢測(cè)近期發(fā)生的滲入事件。此外值得注意的是,2統(tǒng)計(jì)量提示的是基因滲入的主要方向,而不是排他性地說明基因滲入只在單方向發(fā)生。使用類似策略判斷基因滲入方向的方法還有[45]統(tǒng)計(jì)量。
1.2.3 機(jī)器學(xué)習(xí)的應(yīng)用
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)方法用于推斷基因滲入方向上也取得了一些進(jìn)展。FILET[46]是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法,利用來自兩個(gè)相關(guān)群體的基因組數(shù)據(jù)來確定給定的基因組窗口是否存在基因流,并判斷滲入方向。此方法綜合使用多個(gè)統(tǒng)計(jì)量,包括d[47]、G[48]以及作者為提高檢測(cè)敏感性設(shè)計(jì)的d、d和Z[46]。
圖3 不同滲入方向產(chǎn)生不同分支長(zhǎng)度。
A:未發(fā)生基因交流的基因樹;B:存在群體H3到群體H2基因流情況下的基因樹;C:存在群體H2到群體H3基因流情況下的基因樹。1表示H1和H2之間的溯祖時(shí)間,2表示H1和H2的共同祖先與譜系H3之間的溯祖時(shí)間,t表示H2和H3之間溯祖時(shí)間。
d代表了群體間最小的序列分歧度,G為d的拓展:
d統(tǒng)計(jì)量在群體A、B中比較了d和核苷酸多樣性,分別為d、d、d,公式為:
為群體A的核苷酸多樣性。其原理為如果有群體A到群體B的滲入事件,并且群體B中至少有一條染色體保留了滲入的單倍型,則得到d值的兩個(gè)個(gè)體應(yīng)追溯到祖先群體A。因此,這兩個(gè)個(gè)體之間該區(qū)域的平均序列分歧度應(yīng)等于π。d與d類似。d為d值占所有比對(duì)的百分比排序。
Z基于在有基因流的情況下,受體群體中連鎖不平衡(linkage disequilibrium,LD)會(huì)升高,但在全部群體中不會(huì)升高這一假設(shè),其公式為:
Z和Z分別測(cè)量群體A和群體B所有窗口的平均LD水平,Z測(cè)量全部群體內(nèi)的LD水平。
FILET通過極端隨機(jī)樹分類器(extra-trees classifier),將基因組窗口分為群體A到群體B的基因滲入,群體B到群體A的基因滲入,以及沒有滲入這3個(gè)類別。除了上述d、G、d、d和Z,此方法還使用了、[49]、[50]、F[51]和等統(tǒng)計(jì)量以提高滲入檢測(cè)的敏感性。Schrider等[46]將FILET應(yīng)用于果蠅數(shù)據(jù),檢測(cè)到果蠅(之間廣泛的基因滲入,并推斷出這種滲入主要是從到的方向進(jìn)行的。
推斷基因滲入的方向?qū)τ跐B入細(xì)節(jié)的研究至關(guān)重要[52]。僅使用拓?fù)浣Y(jié)構(gòu)對(duì)應(yīng)的位點(diǎn)頻率無法區(qū)分滲入的方向,必須在檢測(cè)過程中聯(lián)合考慮其他信息。DFOIL通過增加群體數(shù)量,結(jié)合拓?fù)湫畔硗茢嗨屑僭O(shè)方向,D基于基因樹分支長(zhǎng)度,無需多個(gè)群體也能夠檢測(cè)出滲入發(fā)生的主要方向。FILET則結(jié)合機(jī)器學(xué)習(xí),通過引入多個(gè)統(tǒng)計(jì)量提高檢測(cè)的敏感性,后續(xù)將問題框架轉(zhuǎn)化為參數(shù)估計(jì)而非分類,或許能夠精確推斷滲入事件發(fā)生的時(shí)間和數(shù)量。
除了檢測(cè)滲入事件是否發(fā)生、定量滲入比例、以及推斷滲入方向,如果想要獲得滲入歷史的全貌,基因滲入在何時(shí)發(fā)生也同樣受到研究者的關(guān)注。本節(jié)介紹利用基因組中重組信息和連鎖不平衡水平來進(jìn)行基因滲入時(shí)間的推斷。
1.3.1 基于重組數(shù)
GLOBETROTTER[53]軟件基于此原理估計(jì)滲入發(fā)生的時(shí)間。首先通過ChromoPainter[54]將待測(cè)群體的染色體拆分為單倍型區(qū)塊,與其他群體的單倍型進(jìn)行比對(duì),尋找潛在的滲入供體。然后對(duì)每組滲入群體擬合一條共祖衰減曲線,衰減程度正比于滲入發(fā)生后的世代時(shí)間,從而估計(jì)出滲入發(fā)生時(shí)間。Hellenthal等[53]在考慮到滲入情況可能在多個(gè)種群間多次發(fā)生的情況下,通過GLOBETROTTER構(gòu)建了全世界人類基因滲入歷史的圖譜,仔細(xì)區(qū)分了過去4000多年發(fā)生的100多個(gè)滲入事件。
在密切相關(guān)的群體之間,往往需要?jiǎng)澐州^大的單倍型區(qū)塊以保證準(zhǔn)確推斷其祖先來源。這種情況下會(huì)導(dǎo)致n低估,相應(yīng)的滲入時(shí)間也會(huì)被低估[55]。如果基因滲入程度較小,以至于檢測(cè)不到滲入片段的重組事件,此方法則無法進(jìn)行推斷。因此應(yīng)用前最好結(jié)合4ratio等統(tǒng)計(jì)量估計(jì)滲入比例,以判斷基于重組數(shù)推斷時(shí)間是否適用。
1.3.2 基于連鎖不平衡
基因滲入初期會(huì)在受體群體中產(chǎn)生高水平的LD[20],由于每一代發(fā)生的重組導(dǎo)致特定等位基因彼此分離,子代群體中LD水平逐漸降低。根據(jù)基因組中LD衰減水平也可推斷滲入發(fā)生的時(shí)間。
(0)代表初始的LD水平,
是滲入比例,是滲入發(fā)生的兩個(gè)群體之間位點(diǎn)或的等位基因頻率差異[57]。Moorjani等[58]首先基于此原理使用加權(quán)LD減少祖先LD水平的影響,進(jìn)而來推斷滲入時(shí)間[55]。
Patterson等[32]開發(fā)了ROLLOFF軟件,基于圖2的拓?fù)?,模擬目標(biāo)群體X中混合連鎖不平衡的衰減,根據(jù)成對(duì)標(biāo)記間的LD指數(shù)衰減率來估計(jì)單次滲入的發(fā)生時(shí)間:
為成對(duì)標(biāo)記間的遺傳距離,0為初始LD水平,()為L(zhǎng)D水平統(tǒng)計(jì)量,其結(jié)果與加權(quán)后的多態(tài)位點(diǎn)和LD片段有關(guān),–td為經(jīng)過代后成對(duì)標(biāo)記間仍然處于LD的概率。模擬表明ROLLOFF能夠準(zhǔn)確推斷500代以下滲入事件發(fā)生時(shí)間[32]。
其中
是的離散化參數(shù),則有
其中0是一個(gè)常數(shù)。根據(jù)待測(cè)群體LD水平擬合()的衰減曲線即可得出滲入發(fā)生的代次,并且此統(tǒng)計(jì)量對(duì)于參考群體的約束更少[59],相較于ROLLOFF,ALDER在單個(gè)群體祖先信息缺失時(shí),仍然可以根據(jù)剩余的祖先群體(H2或H3)和受體群體(X)進(jìn)行滲入時(shí)間推斷。Yu等[30]通過ALDER計(jì)算的LD衰減程度,確定了從中國山貓到藏區(qū)同域家貓群體單向滲入的滲入時(shí)間約為7.42代之前。以家貓2年的世代時(shí)間計(jì),即發(fā)生在大約15年前。
由于該方法不像ROLLOFF那樣通過多態(tài)位點(diǎn)和LD片段進(jìn)行標(biāo)準(zhǔn)化,因此該方法不會(huì)由于群體的樣本經(jīng)歷了嚴(yán)重瓶頸效應(yīng)或近期發(fā)生了基因滲入而產(chǎn)生偏差。此外ALDER通過快速傅里葉變換加速()計(jì)算,速度得到顯著提升[33]。值得注意的是,ALDER必須校正背景LD水平,用來排除祖先群體中LD的干擾,使得加權(quán)LD曲線適用于待測(cè)群體距離較遠(yuǎn)的成對(duì)基因座[59]。
Pickrell等[60]將ALDER軟件的檢測(cè)范圍擴(kuò)展到群體經(jīng)歷多次基因滲入的情況,對(duì)于A、B兩個(gè)群體以及A′、B′兩個(gè)參考群體,
其中W代表滲入比例,是滲入發(fā)生的兩個(gè)群體之間位點(diǎn)或的等位基因頻率差異,代表參考群體中對(duì)應(yīng)位點(diǎn)的等位基因頻率差異,t為不同滲入事件的發(fā)生的代次。MALDER檢測(cè)到的單次滲入事件與ALDER結(jié)果高度重合,同時(shí)會(huì)檢測(cè)到少量的多次滲入。Busby等[61]利用MALDER檢測(cè)撒哈拉以南非洲人群的滲入事件,發(fā)現(xiàn)來自相似祖先地區(qū)群體的滲入事件往往發(fā)生在同一時(shí)間并涉及相似的來源,表明共同的歷史事件推動(dòng)了該地區(qū)人群的群體結(jié)構(gòu)變化。
經(jīng)過數(shù)年的發(fā)展和改進(jìn),基于LD的滲入定年方法已十分穩(wěn)健。對(duì)于年代較近(約35代內(nèi))的滲入事件估計(jì)較準(zhǔn)確,同時(shí)隨著樣本量的增加估計(jì)的準(zhǔn)確性增加[32,58,59]。與基于重組數(shù)的方法相比,此類方法可以基于基因型數(shù)據(jù)進(jìn)行計(jì)算,因此更具有優(yōu)勢(shì),能夠降低局部祖先推斷錯(cuò)誤的風(fēng)險(xiǎn)。
目前大部分基因滲入的研究關(guān)注于滲入事件的定性和定量檢測(cè),對(duì)于滲入發(fā)生后基因組變化的報(bào)道相對(duì)較少。研究表明,由于遺傳漂變或自然選擇等多種因素的影響,滲入的遺傳成分表現(xiàn)出動(dòng)態(tài)的變化[9],并且隨著時(shí)間推移,最終會(huì)由于漂變或選擇固定下來。例如在向日葵()雜交品種中,基因組在不到1000代的時(shí)間內(nèi)快速穩(wěn)定[62]。盡管人們更加關(guān)注來自供體的適應(yīng)性滲入,但基因組中的遠(yuǎn)源滲入部分僅有少量能保留下來[63]。自滲入以來2000代內(nèi),人類基因組中的尼安德特人片段少于4%被固定下來[64]。相比之下,在酵母菌()的雜交譜系中,近400代中約30%的基因組得到固定[65]。
由于來自供體的基因與受體的基因組不相容[66]、生態(tài)不適應(yīng)[67],以及供體本身攜帶有害等位基因[68]等原因,可能會(huì)造成雜交個(gè)體的適應(yīng)性降低[69]。在這種情況下,基因組中滲入的部分會(huì)被選擇性清除,并且在初期的數(shù)十代會(huì)經(jīng)歷一個(gè)快速凈化期[70],凈化速度主要與物種、重組率有關(guān)。前人的研究結(jié)果發(fā)現(xiàn),選擇更會(huì)傾向清除基因組中功能重要區(qū)域的滲入片段[63,64,68,69,71,72]。例如現(xiàn)代人中來自尼安德特人的滲入片段絕大部分被清除[72],在調(diào)控相關(guān)和保守的非編碼區(qū)以及蛋白質(zhì)編碼序列的保守區(qū)域更是缺少尼安德特人來源的滲入片段[73]。與現(xiàn)代人不同,劍尾魚()的滲入片段較大程度得以保留,但是在一些重要區(qū)域滲入片段也已被選擇清除[63]。
重組在清除有害的基因滲入片段中發(fā)揮著重要的作用,研究表明重組率低的物種會(huì)更有效地清除滲入片段[9]。這是因?yàn)闈B入的片段最初以完全連鎖不平衡的方式出現(xiàn)在受體群體中,長(zhǎng)的滲入片段可能聚合了有害效應(yīng),所以更容易被選擇清除。隨著滲入后代次的增加,重組將最初滲入的長(zhǎng)片段打斷為短片段并分散到不同的個(gè)體中。這些片段的危害較小,從而不易被選擇清除[74]。
有效群體大小同樣影響有害滲入片段的清除。有效群體小凈化能力弱,小的受體群體更容易由于漂變的原因積累輕微的有害突變[9]。過量輕微有害突變的累積最終會(huì)降低個(gè)體的適合度并引發(fā)選擇清除這些滲入片段,小的受體群體清除有害的基因滲入片段的速率更慢。與此相反,大群體則能更有效地清除滲入的有害變異?,F(xiàn)代人的有效群體大小約為尼安德特人的10倍[75],較小的群體導(dǎo)致尼安德特人群體中逐漸積累大量的弱有害等位基因[76],滲入到現(xiàn)代人祖先群體中后,這些變異受到更強(qiáng)烈的選擇作用[68],導(dǎo)致現(xiàn)代人中來自尼安德特人的祖先片段逐漸被剔除到低至約2%的水平[10]。
“適應(yīng)性滲入”一詞首次出現(xiàn)在雜交杜鵑()的研究中[77],之后隨著越來越多滲入事件的發(fā)現(xiàn),其在物種適應(yīng)性和進(jìn)化中的潛力受到關(guān)注,成為基因滲入研究的重點(diǎn)內(nèi)容之一。來自供體的等位基因如果是因?yàn)樘岣吡耸荏w群體所處環(huán)境下的適合度而保留下來,即發(fā)生了適應(yīng)性滲入。從本質(zhì)上講,這是一個(gè)選擇性保留的過程,當(dāng)適應(yīng)性位點(diǎn)轉(zhuǎn)向固定時(shí),由于搭車效應(yīng),該區(qū)域周圍雜合度降低。此外,受體群體和非滲入群體可能在適應(yīng)性片段保留區(qū)域產(chǎn)生極端分化,而受體群體和供體群體間分化程度則較低[78]。由于適應(yīng)性片段的選擇性保留會(huì)和全基因組范圍的選擇清除同時(shí)發(fā)生[22],這在一定程度上變得容易區(qū)分,因?yàn)橥ǔ;蚪M中來自滲入供體的位點(diǎn)頻率偏低,而適應(yīng)性滲入片段在此背景下卻具有較高的頻率[72]。由此得出,不同選擇力量共同塑造了滲入事件的結(jié)果[9],典型的例子是選擇清除和適應(yīng)性滲入在人類和尼安德特人的滲入事件中共同發(fā)揮作用[10, 79]。由于重組的緣故,適應(yīng)性單倍型的長(zhǎng)度并不會(huì)始終維持原始的長(zhǎng)度,相反因?yàn)槠淞舸娴臅r(shí)間長(zhǎng),經(jīng)歷更多次數(shù)的重組,長(zhǎng)度也只能維持在較短的水平[80]。
適應(yīng)性滲入在進(jìn)化中發(fā)揮著重要的作用,幫助群體快速適應(yīng)環(huán)境并擴(kuò)大生存范圍[81],甚至促進(jìn)物種進(jìn)化乃至形成新的物種(表3)。適應(yīng)性滲入最典型的例子之一是與高原適應(yīng)性相關(guān)的基因滲入。Huerta-Sanchez等[82]通過對(duì)藏族人基因上下游區(qū)域重測(cè)序和單倍型分析,發(fā)現(xiàn)藏族人基因區(qū)域單倍型來自于丹尼索瓦人的基因滲入,幫助藏族人適應(yīng)了高原缺氧的環(huán)境。作為高原適應(yīng)性的明星基因,在高原犬中也發(fā)現(xiàn)了來自灰狼的基因滲入[83]。Wang等[84]進(jìn)一步發(fā)現(xiàn)灰狼和喜馬拉雅山狼群的基因的片段來自一種未知的古代犬科動(dòng)物。Wang等[85]研究發(fā)現(xiàn),牦牛貢獻(xiàn)的基因有助于其他品種的牛適應(yīng)高原低氧環(huán)境。
表3 影響廣泛的適應(yīng)性滲入?yún)R總
本文介紹了檢測(cè)基因滲入是否發(fā)生、判斷滲入方向和估計(jì)滲入發(fā)生時(shí)間的方法和策略,并討論了滲入發(fā)生后基因組結(jié)構(gòu)的變化。由于基因滲入在學(xué)術(shù)和應(yīng)用上的價(jià)值,使其在分子進(jìn)化、物種保護(hù)以及相關(guān)領(lǐng)域越來越受到關(guān)注[20]?;驖B入在品種形成和性狀獲得方面起到了重要的作用。例如,有研究表明亞洲水稻的基因組中復(fù)雜的基因滲入幫助形成目前主要的粳稻和秈稻群體[90]。通過基因滲入,秈稻間接獲得了主要的馴化等位基因,產(chǎn)生白色色素沉著、芳香和糯淀粉等特性。野山羊向現(xiàn)代山羊中滲入的基因有助于抵抗胃腸道病原體入侵[5]。作為一把雙刃劍,Merotto等[91]發(fā)現(xiàn)水稻品種對(duì)咪唑啉酮除草劑的抗性基因滲入到雜草群體中,給農(nóng)民造成了巨大的經(jīng)濟(jì)損失。基因滲入也可以作為遺傳拯救的一種手段,通過引入外源適應(yīng)性基因,減少因近親繁殖而增加遺傳負(fù)荷,提高群體的適應(yīng)性從而避免滅絕[92]。
盡管與基因滲入相關(guān)的研究覆蓋了對(duì)基因滲入事件定性和定量的檢測(cè)及推斷,但目前的研究對(duì)象更多是分化較遠(yuǎn)的物種或品種之間的基因交流。對(duì)于發(fā)生在分化距離較近的品種之間的滲入事件,當(dāng)前廣泛使用的以單位點(diǎn)頻率變化為材料的檢測(cè)方法效果欠佳,需要進(jìn)一步改進(jìn)統(tǒng)計(jì)分析方法,開發(fā)和優(yōu)化基于單倍型等更高分辨率材料的檢測(cè)方法和分析工具。另一方面,目前大多數(shù)推斷滲入的方法基于已知的拓?fù)浣Y(jié)構(gòu),基于沒有基因滲入發(fā)生的溯祖模型來測(cè)試滲入假設(shè)。由于各種原因的限制,推測(cè)的溯祖模型并不能保證完全正確。拓?fù)浣Y(jié)構(gòu)的不確定性影響到滲入推斷的可信度,如果選擇錯(cuò)誤的溯祖模型,那么滲入推斷也可能會(huì)出現(xiàn)偏差。漫長(zhǎng)的進(jìn)化過程中可能存在已滅絕或未能采樣到的幽靈譜系的滲入。幽靈譜系作為供體滲入到待測(cè)群體中,可能會(huì)對(duì)拓?fù)浣Y(jié)構(gòu)產(chǎn)生影響。假如幽靈譜系X滲入到群體H1中,群體拓?fù)浣Y(jié)構(gòu)可能從((H1,H2)H3)變?yōu)?H1(H2,H3))。此時(shí)H2、H3變?yōu)榻忝萌后w,表現(xiàn)出和H2、H3之間發(fā)生滲入相近的特征,從而導(dǎo)致誤判。Tricou等[93]使用統(tǒng)計(jì)量進(jìn)行測(cè)試,發(fā)現(xiàn)雖然幽靈譜系和待測(cè)群體之間能夠檢測(cè)出滲入發(fā)生,但是除此以外的信息推斷都是錯(cuò)誤的。此外,姐妹譜系間的滲入檢測(cè)目前仍然較為困難。雖然姐妹譜系間的滲入在溯祖時(shí)間上會(huì)與其他滲入場(chǎng)景存在差異,但是這種信號(hào)很容易被連鎖選擇(linked selection)干擾[94],相關(guān)方法尚未被開發(fā)[19]。
在缺少先驗(yàn)知識(shí)的情況下,一些研究采取遍歷的策略檢測(cè)所有的拓?fù)浣M合,這樣可能帶來一些假陽性結(jié)果。如果更好地了解基因滲入供體和受體群體的遺傳結(jié)構(gòu)和品種歷史,能對(duì)滲入事件有更清晰的把握。配合全基因組關(guān)聯(lián)研究(genome wide association study,GWAS)更準(zhǔn)確地繪制表型和適應(yīng)性基因圖譜[95,96],通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證基因滲入導(dǎo)致的適應(yīng)性增強(qiáng),將會(huì)更清楚地說明基因滲入是如何在進(jìn)化中發(fā)揮作用。
感謝中國農(nóng)業(yè)大學(xué)生物學(xué)院張春媛博士和王宇占博士對(duì)本文的指導(dǎo)。
[1] Rhymer JM, Simberloff D. Extinction by hybridization and introgression., 1996, 27: 83–109.
[2] Petit RJ, Excoffier L. Gene flow and species delimitation., 2009, 24(7): 386–393.
[3] Anderson E. Introgressive hybridization., 1953, 28(3): 280–307.
[4] Green RE, Krause J, Briggs AW, Maricic T, Stenzel U, Kircher M, Patterson N, Li H, Zhai WW, Fritz MHY, Hansen NF, Durand EY, Malaspinas AS, Jensen JD, Marques-Bonet T, Alkan C, Prüfer K, Meyer M, Burbano HA, Good JM, Schultz R, Aximu-Petri A, Butthof A, H?ber B, H?ffner B, Siegemund M, Weihmann A, Nusbaum C, Lander ES, Russ C, Novod N, Affourtit J, Egholm M, Verna C, Rudan P, Brajkovic D, Kucan ?, Gu?ic I, Doronichev VB, Golovanova LV, Lalueza-Fox C, de la Rasilla M, Fortea J, Rosas A, Schmitz RW, Johnson PLF, Eichler EE, Falush D, Birney E, Mullikin JC, Slatkin M, Nielsen R, Kelso J, Lachmann M, Reich D, P??bo S. A draft sequence of the neandertal genome., 2010, 328(5979): 710–722.
[5] Zheng ZQ, Wang XH, Li M, Li YJ, Yang ZR, Wang XL, Pan XY, Gong M, Zhang Y, Guo YW, Wang Y, Liu J, Cai YD, Chen QM, Okpeku M, Colli L, Cai DW, Wang K, Huang SS, Sonstegard TS, Esmailizadeh A, Zhang WG, Zhang TT, Xu YB, Xu NY, Yang Y, Han JL, Chen L, Lesur J, Daly KG, Bradley DG, Heller R, Zhang GJ, Wang W, Chen YL, Jiang Y. The origin of domestication genes in goats., 2020, 6(21): eaaz5216.
[6] Suarez-Gonzalez A, Hefer CA, Christe C, Corea O, Lexer C, Cronk QCB, Douglas CJ. Genomic and functional approaches reveal a case of adaptive introgression from populus balsamifera (balsam poplar) in(black cottonwood)., 2016, 25(11): 2427–2442.
[7] Adavoudi R, Pilot M. Consequences of hybridization in mammals: a systematic review., 2021, 13(1): 50.
[8] Suarez-Gonzalez A, Lexer C, Cronk QCB. Adaptive introgression: a plant perspective., 2018, 14(3): 20170688.
[9] Moran BM, Payne C, Langdon Q, Powell DL, Brandvain Y, Schumer M. The genomic consequences of hybridization., 2021, 10: e69016.
[10] Prüfer K, De Filippo C, Grote S, Mafessoni F, Korlevic P, Hajdinjak M, Vernot B, Skov L, Hsieh PS, Peyrégne S, Reher D, Hopfe C, Nagel S, Maricic T, Fu QM, Theunert C, Rogers R, Skoglund P, Chintalapati M, Dannemann M, Nelson BJ, Key FM, Rudan P, Ku?an ?, Gu?i? I, Golovanova LV, Doronichev VB, Patterson N, Reich D, Eichler EE, Slatkin M, Schierup MH, Andrés AM, Kelso J, Meyer M, P??bo S. A high-coverage neandertal genome from vindija cave in croatia., 2017, 358(6363): 655–658.
[11] Baack EJ, Rieseberg LH. A genomic view of introgression and hybrid speciation., 2007, 17(6): 513–518.
[12] Arnold ML. Transfer and origin of adaptations through natural hybridization: were anderson and stebbins right?, 2004, 16(3): 562–570.
[13] Taylor SA, Larson EL. Insights from genomes into the evolutionary importance and prevalence of hybridization in nature., 2019, 3(2): 170–177.
[14] Lexer C, Widmer A. The genic view of plant speciation: recent progress and emerging questions., 2008, 363(1506): 3023–3036.
[15] Mallet J, Besansky N, Hahn MW. How reticulated are species?, 2016, 38(2): 140–149.
[16] Jones MR, Mills LS, Alves PC, Callahan CM, Alves JM, Lafferty DJR, Jiggins FM, Jensen JD, Melo-Ferreira J, Good JM. Adaptive introgression underlies polymorphic seasonal camouflage in snowshoe hares., 2018, 360(6395): 1355–1358.
[17] Payseur BA, Rieseberg LH. A genomic perspective on hybridization and speciation., 2016, 25(11): 2337–2360.
[18] Gompert Z, Mandeville EG, Buerkle CA. Analysis of population genomic data from hybrid zones., 2017, 48(1): 207–229.
[19] Hibbins MS, Hahn MW. Phylogenomic approaches to detecting and characterizing introgression., 2022, 220(2): iyab173.
[20] Yuan K, Zhou Y, Ni XM, Wang YC, Liu C, Xu SH. Models, methods and tools for ancestry inference and admixture analysis., 2017, 5(3): 236–250.
[21] Jiao XY, Flouri T, Yang ZH. Multispecies coalescent and its applications to infer species phylogenies and cross- species gene flow., 2021, 8(12): nwab127.
[22] Edelman NB, Frandsen PB, Miyagi M, Clavijo B, Davey J, Dikow RB, Garcia-Accinelli G, Van Belleghem SM, Patterson N, Neafsey DE, Challis R, Kumar S, Moreira GRP, Salazar C, Chouteau M, Counterman BA, Papa R, Blaxter M, Reed RD, Dasmahapatra KK, Kronforst M, Joron M, Jiggins CD, Mcmillan WO, Di Palma F, Blumberg AJ, Wakeley J, Jaffe D, Mallet J. Genomic architecture and introgression shape a butterfly radiation., 2019, 366(6465): 594–599.
[23] Malinsky M, Matschiner M, Svardal H. Dsuite—fast D-statistics and related admixture evidence from VCF files., 2021, 21(2): 584–595.
[24] Bosse M, Megens HJ, Frantz LAF, Madsen O, Larson G, Paudel Y, Duijvesteijn N, Harlizius B, Hagemeijer Y, Crooijmans RPMA, Groenen MAM. Genomic analysis reveals selection for asian genes in european pigs following human-mediated introgression., 2014, 5: 4392.
[25] Giuffra E, Kijas JM, Amarger V, Carlborg O, Jeon JT, Andersson L. The origin of the domestic pig: independent domestication and subsequent introgression., 2000, 154(4): 1785–1791.
[26] Wang XT, Chen LY, Ma JX. Genomic introgression through interspecific hybridization counteracts genetic bottleneck during soybean domestication., 2019, 20(1): 22.
[27] Martin SH, Davey JW, Jiggins CD. Evaluating the use of ABBA-BABAa statistics to locate introgressed loci., 2015, 32(1): 244–257.
[28] Zhang CY, Lin D, Wang YZ, Peng DZ, Li HF, Fei J, Chen KW, Yang N, Hu XX, Zhao YQ, Li N. Widespread introgression in chinese indigenous chicken breeds from commercial broiler., 2019, 12(3): 610–621.
[29] Wang YZ, Zhang CY, Peng YB, Cai XY, Hu XX, Bosse M, Zhao YQ. Whole-genome analysis reveals the hybrid formation of chinese indigenous DHB pig following human migration., 2022, 15(3): 501–514.
[30] Yu H, Xing YT, Meng H, He B, Li WJ, Qi XZ, Zhao JY, Zhuang Y, Xu X, Yamaguchi N, Driscoll CA, O'brien SJ, Luo SJ. Genomic evidence for the chinese mountain cat as a wildcat conspecific () and its introgression to domestic cats., 2021, 7(26): eabg0221.
[31] Durand EY, Patterson N, Reich D, Slatkin M. Testing for ancient admixture between closely related populations., 2011, 28(8): 2239–2252.
[32] Patterson N, Moorjani P, Luo YT, Mallick S, Rohland N, Zhan YP, Genschoreck T, Webster T, Reich D. Ancient admixture in human history., 2012, 192(3): 1065–1093.
[33] Harris AM, Degiorgio M. Admixture and ancestry inference from ancient and modern samples through measures of population genetic drift., 2017, 89(1): 21–46.
[34] Zheng YC, Janke A. Gene flow analysis method, the D-statistic, is robust in a wide parameter space., 2018, 19(1): 10.
[35] Kong S, Kubatko LS. Comparative performance of popular methods for hybrid detection using genomic data., 2021, 70(5): 891–907.
[36] Reich D, Thangaraj K, Patterson N, Price AL, Singh L. Reconstructing indian population history., 2009, 461(7263): 489–494.
[37] Martin SH, Davey JW, Salazar C, Jiggins CD. Recom-bination rate variation shapes barriers to introgression across butterfly genomes., 2019, 17(2): e2006288.
[38] Malinsky M, Challis RJ, Tyers AM, Schiffels S, Terai Y, Ngatunga BP, Miska EA, Durbin R, Genner MJ, Turner GF. Genomic islands of speciation separate cichlid ecomorphs in an east african crater lake., 2015, 350(6267): 1493–1498.
[39] Vahedi SM, Ardestani SS, Afshari KP, Ghoreishifar SM, Moghaddaszadeh-Ahrabi S, Banabazi MH, Brito LF. Genome-wide selection signatures and human-mediated introgression events inindicus-influenced composite beef cattle., 2022, 13: 844653.
[40] Hamlin JAP, Hibbins MS, Moyle LC. Assessing biological factors affecting postspeciation introgression., 2020, 4(2): 137–154.
[41] Pease JB, Hahn MW. Detection and polarization of introgression in a five-taxon phylogeny., 2015, 64(4): 651–662.
[42] Martin SH, Amos W. Signatures of introgression across the allele frequency spectrum., 2021, 38(2): 716–726.
[43] Wang MS, Murray GGR, Mann D, Groves P, Vershinina AO, Supple MA, Kapp JD, Corbett-Detig R, Crump SE, Stirling I, Laidre KL, Kunz M, Dalén L, Green RE, Shapiro B. A polar bear paleogenome reveals extensive ancient gene flow from polar bears into brown bears., 2022, 6(7): 936–944.
[44] Hibbins MS, Hahn MW. The timing and direction of introgression under the multispecies network coalescent., 2019, 211(3): 1059–1073.
[45] Forsythe ES, Sloan DB, Beilstein MA. Divergence-based introgression polarization., 2020, 12(4): 463–478.
[46] Schrider DR, Ayroles J, Matute DR, Kern AD. Supervised machine learning reveals introgressed loci in the genomes of drosophila simulans and., 2018, 14(4): e1007341.
[47] Joly S, Mclenachan PA, Lockhart PJ. A statistical approach for distinguishing hybridization and incomplete lineage sorting., 2009, 174(2): E54–E70.
[48] Geneva AJ, Muirhead CA, Kingan SB, Garrigan D. A new method to scan genomes for introgression in a secondary contact model., 2015, 10(4): e0118621.
[49] Hudson RR. A new statistic for detecting genetic differentiation., 2000, 155(4): 2011–2014.
[50] Tajima F. Statistical method for testing the neutral mutation hypothesis by DNA polymorphism., 1989, 123(3): 585–595.
[51] Hudson RR, Slatkin M, Maddison WP. Estimation of levels of gene flow from DNA sequence data., 1992, 132(2): 583–589.
[52] Dannemann M, Andrés AM, Kelso J. Introgression of neandertal- and denisovan-like haplotypes contributes to adaptive variation in human toll-like receptors., 2016, 98(1): 22–33.
[53] Hellenthal G, Busby GBJ, Band G, Wilson JF, Capelli C, Falush D, Myers S. A genetic atlas of human admixture history., 2014, 343(6172): 747–751.
[54] Lawson DJ, Hellenthal G, Myers S, Falush D. Inference of population structure using dense haplotype data., 2012, 8(1): e1002453.
[55] Chimusa ER, Defo J, Thami PK, Awany D, Mulisa DD, Allali I, Ghazal H, Moussa A, Mazandu GK. Dating admixture events is unsolved problem in multi-way admixed populations., 2020, 21(1): 144–155.
[56] Hill WG, Robertson A. The effect of linkage on limits to artificial selection., 1966, 8(3): 269–294.
[57] Winkler CA, Nelson GW, Smith MW. Admixture mapping comes of age., 2010, 11: 65–89.
[58] Moorjani P, Patterson N, Hirschhorn JN, Keinan A, Hao L, Atzmon G, Burns E, Ostrer H, Price AL, Reich D. The history of african gene flow into southern europeans, levantines, and jews., 2011, 7(4): e1001373.
[59] Loh PR, Lipson M, Patterson N, Moorjani P, Pickrell JK, Reich D, Berger B. Inferring admixture histories of human populations using linkage disequilibrium., 2013, 193(4): 1233–1254.
[60] Pickrell JK, Patterson N, Loh PR, Lipson M, Berger B, Stoneking M, Pakendorf B, Reich D. Ancient west eurasian ancestry in southern and eastern africa., 2014, 111(7): 2632–2637.
[61] Busby GB, Band G, Le QS, Jallow M, Bougama E, Mangano VD, Amenga-Etego LN, Enimil A, Apinjoh T, Ndila CM, Manjurano A, Nyirongo V, Doumba O, Rockett KA, Kwiatkowski DP, Spencer CC, Malaria Genomic Epidemiology Network. Admixture into and within sub-saharan africa., 2016, 5: e15266.
[62] Buerkle CA, Rieseberg LH. The rate of genome stabilization in homoploid hybrid species., 2008, 62(2): 266–275.
[63] Schumer M, Cui RF, Powell DL, Rosenthal GG, Andolfatto P. Ancient hybridization and genomic stabilization in a swordtail fish., 2016, 25(11): 2661–2679.
[64] Sankararaman S, Mallick S, Dannemann M, Prüfer K, Kelso J, P??bo S, Patterson N, Reich D. The genomic landscape of neanderthal ancestry in present-day humans., 2014, 507(7492): 354–357.
[65] Stukenbrock EH, Christiansen FB, Hansen TT, Dutheil JY, Schierup MH. Fusion of two divergent fungal individuals led to the recent emergence of a unique widespread pathogen species., 2012, 109(27): 10954–10959.
[66] Orr HA. The population genetics of speciation: the evolution of hybrid incompatibilities., 1995, 139(4): 1805–1813.
[67] Schluter D. Evidence for ecological speciation and its alternative., 2009, 323(5915): 737–741.
[68] Harris K, Nielsen R. The genetic cost of neanderthal introgression., 2016, 203(2): 881–891.
[69] Sankararaman S, Mallick S, Patterson N, Reich D. The combined landscape of denisovan and neanderthal ancestry in present-day humans., 2016, 26(9): 1241–1247.
[70] Veller C, Edelman NB, Muralidhar P, Nowak MA. Recombination and selection against introgressed DNA., 2021.
[71] Kulmuni J, Nouhaud P, Pluckrose L, Satokangas I, Dhaygude K, Butlin RK. Instability of natural selection at candidate barrier loci underlying speciation in wood ants., 2020, 29(20): 3988–3999.
[72] Vernot B, Akey JM. Resurrecting surviving neandertal lineages from modern human genomes., 2014, 343(6174): 1017–1021.
[73] Petr M, P??bo S, Kelso J, Vernot B. Limits of long-term selection against neandertal introgression., 2019, 116(5): 1639–1644.
[74] Barton NH, Otto SP. Evolution of recombination due to random drift., 2005, 169(4): 2353–2370.
[75] Juric I, Aeschbacher S, Coop G. The strength of selection against neanderthal introgression., 2016, 12(11): e1006340.
[76] Prüfer K, Racimo F, Patterson N, Jay F, Sankararaman S, Sawyer S, Heinze A, Renaud G, Sudmant PH, De Filippo C, Li H, Mallick S, Dannemann M, Fu QM, Kircher M, Kuhlwilm M, Lachmann M, Meyer M, Ongyerth M, Siebauer M, Theunert C, Tandon A, Moorjani P, Pickrell J, Mullikin JC, Vohr SH, Green RE, Hellmann I, Johnson PLF, Blanche H, Cann H, Kitzman JO, Shendure J, Eichler EE, Lein ES, Bakken TE, Golovanova LV, Doronichev VB, Shunkov MV, Derevianko AP, Viola B, Slatkin M, Reich D, Kelso J, P??bo S. The complete genome sequence of a neanderthal from the altai mountains., 2014, 505(7481): 43–49.
[77] Milne RI, Abbott RJ. Origin and evolution of invasive naturalized material of. In the british isles., 2000, 9(5): 541–556.
[78] Ai HS, Fang XD, Yang B, Huang ZY, Chen H, Mao LK, Zhang F, Zhang L, Cui LL, He WM, Yang J, Yao XM, Zhou LS, Han LJ, Li J, Sun SL, Xie XH, Lai BX, Su Y, Lu Y, Yang H, Huang T, Deng WJ, Nielsen R, Ren J, Huang LS. Adaptation and possible ancient interspecies introgression in pigs identified by whole-genome sequencing., 2015, 47(3): 217–225.
[79] Zeberg H, P??bo S. The major genetic risk factor for severe COVID-19 is inherited from neanderthals., 2020, 587(7835): 610–612.
[80] Shchur V, Svedberg J, Medina P, Corbett-Detig R, Nielsen R. On the distribution of tract lengths during adaptive introgression., 2020, 10(10): 3663–3673.
[81] Edelman NB, Mallet J. Prevalence and adaptive impact of introgression., 2021, 55: 265–283.
[82] Huerta-Sánchez E, Jin X, Asan, Bianba Z, Peter BM, Vinckenbosch N, Liang Y, Yi X, He MZ, Somel M, Ni PX, Wang B, Ou XH, Huasang, Luosang JB, Cuo ZXP, Li K, Gao GY, Yin Y, Wang W, Zhang XQ, Xu X, Yang HM, Li YR, Wang J, Wang J, Nielsen R. Altitude adaptation in tibetans caused by introgression of denisovan-like DNA., 2014, 512(7513): 194–197.
[83] Vonholdt B, Fan ZX, Vecchyo DOD, Wayne RK.variants in high altitude tibetan wolves were selectively introgressed into highland dogs., 2017, 5: e3522.
[84] Wang MS, Wang S, Li Y, Jhala Y, Thakur M, Otecko NO, Si JF, Chen HM, Shapiro B, Nielsen R, Zhang YP, Wu DD. Ancient hybridization with an unknown population facilitated high-altitude adaptation of canids., 2020, 37(9): 2616–2629.
[85] Wang XG, Ju ZH, Jiang Q, Zhong JF, Liu CK, Wang JP, Hoff JL, Schnabel RD, Zhao H, Gao YP, Liu WH, Wang LL, Gao YD, Yang CH, Hou MH, Huang N, Regitano LCA, Porto-Neto LR, Decker JE, Taylor JF, Huang JM. Introgression, admixture, and selection facilitate genetic adaptation to high-altitude environments in cattle., 2021, 113(3): 1491–1503.
[86] Liu KJ, Steinberg E, Yozzo A, Song Y, Kohn MH, Nakhleh L. Interspecific introgressive origin of genomic diversity in the house mouse., 2015, 112(1): 196–201.
[87] Fontaine MC, Pease JB, Steele A, Waterhouse RM, Neafsey DE, Sharakhov IV, Jiang XF, Hall AB, Catteruccia F, Kakani E, Mitchell SN, Wu YC, Smith HA, Love RR, Lawniczak MK, Slotman MA, Emrich SJ, Hahn MW, Besansky NJ. Extensive introgression in a malaria vector species complex revealed by phylogenomics., 2015, 347(6217): 1258524.
[88] Malinsky M, Svardal H, Tyers AM, Miska EA, Genner MJ, Turner GF, Durbin R. Whole-genome sequences ofreveal multiple radiations interconnected by gene flow., 2018, 2(12): 1940–1955.
[89] Whitney KD, Broman KW, Kane NC, Hovick SM, Randell RA, Rieseberg LH. Quantitative trait locus mapping identifies candidate alleles involved in adaptive introgression and range expansion in a wild sunflower., 2015, 24(9): 2194–2211.
[90] Choi JY, Platts AE, Fuller DQ, Hsing YI, Wing RA, Purugganan MD. The rice paradox: multiple origins but single domestication in asian rice., 2017, 34(4): 969–979.
[91] Merotto A, Goulart ICGR, Nunes AL, Kalsing A, Markus C, Menezes VG, Wander AE. Evolutionary and social consequences of introgression of nontransgenic herbicide resistance from rice to weedy rice in brazil., 2016, 9(7): 837–846.
[92] Hoffmann AA, Miller AD, Weeks AR. Genetic mixing for population management: from genetic rescue to provenancing., 2020, 14(3): 634–652.
[93] Tricou T, Tannier E, De Vienne DM. Ghost lineages highly influence the interpretation of introgression tests., 2022, 71(5): 1147–1158.
[94] Roux C, Fra?sse C, Romiguier J, Anciaux Y, Galtier N, Bierne N. Shedding light on the grey zone of speciation along a continuum of genomic divergence., 2016, 14(12): e2000234.
[95] Zhou X, Carbonetto P, Stephens M. Polygenic modeling with bayesian sparse linear mixed models., 2013, 9(2): e1003264.
[96] Gompert Z, Egan SP, Barrett RDH, Feder JL, Nosil P. Multilocus approaches for the measurement of selection on correlated genetic loci., 2017, 26(1): 365–382.
Methods to detect and characterize introgression
Zexuan Liu, Yiqiang Zhao
Introgression, also known as introgressive hybridization, refers to the process that genetic components from the gene pool of one population transfer to the other via constant backcrossing. Introgression is widespread in nature, which plays important roles in increasing genetic diversity and improving adaptability to the environment, and in turn, influences the evolutionary progress of animals, plants and humans. Being as an important evolutionary event, researchers pay great attention to the detection of introgression, the introgression direction, the introgression timing, the pattern of introgression and so on. With the rapid development of high-throughput sequencing technologies, methods to detect and characterize introgression based on genome-wide data are continuously developed. In this review, we summarize a series of methods for introgression detection, and introduce the design principles and applications of these methods. We also discuss the maintenance and selection of gene segments after introgression. This review provides a relatively comprehensive reference for the studies on introgression.
introgression; introgression detection; introgression direction; introgression timing; adaptive introgression
2022-12-01;
2023-01-04;
2023-01-26
國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(編號(hào):2021YFD1200803)資助[Supported by the National Key Research and Development Program of China (No. 2021YFD1200803)]
劉澤璇,在讀博士研究生,專業(yè)方向:生物信息學(xué)。E-mail: liuzexuan@cau.edu.cn
趙毅強(qiáng),博士,副教授,博士生導(dǎo)師,研究方向:生物信息學(xué)。E-mail: yiqiangz@cau.edu.cn
10.16288/j.yczz.22-394
(責(zé)任編委: 姜雨)