李桂新,王詩媛,楊 杰,王小鵬,鄭恩琴
(華南農業(yè)大學動物科學學院,國家生豬種業(yè)工程技術研究中心,廣東廣州 510642)
在二倍體生物的基因組中,連續(xù)性純合片段(Runs of Homozygosity,ROH)是指基因組中沒有雜合子的純合基因型的連續(xù)染色體片段。ROH 主要由群體歷史變遷形成的,如種群瓶頸、遺傳漂變和近親繁殖等。另外,強烈的自然和人工選擇也塑造著基因組區(qū)域不同的ROH 模式。較長的單倍型遺傳自最近的共同祖先,較短的單倍型遺傳自遙遠的祖先。ROH 被認為是評估人類和動植物近親繁殖的有效方法。優(yōu)良性狀的選擇產生了畜禽品種顯著的表型變化,并形成了基因組不同區(qū)域的ROH 模式。同時,選擇也增加了基因座周圍的純合性。育種計劃的選擇強度和優(yōu)良種畜的廣泛應用導致近親繁殖增加,引起群體的遺傳多樣性降低。使用中、高密度SNP 基因芯片掃描基因組中的ROH 是識別血緣同源(Identical By Descent,IBD)單倍型的有效方法?;蚪MROH 可以提供一個種群過去和最近的群體變化信息,揭示世代間演變的歷程。最近幾十年,人類對瘦肉型豬的高強度選育可能導致近親繁殖的累積,造成基因組中單倍型的多樣性降低,等位基因的基因頻率升高甚至接近固定存在于基因組中。本文主要圍繞動物基因組ROH 研究的發(fā)展簡史、ROH 的識別軟件和相關參數,以及ROH 在瘦肉型豬的應用和研究進展進行綜述,旨在為瘦肉型豬的育種提供參考依據。
1999 年,Broman 等首次對人類基因組進行連續(xù)性純合檢測分析,推斷純合片段可能代表同合性,而且可能與人類健康具有很大的相關性。2006 年,Gibson 等利用高密度SNP 芯片首次在人類基因組中報道了ROH,揭示了整個基因組中ROH 的長度、頻率和分布。2010 年,S?lkner 等、Feren?akovi? 等首次將高密度SNP 芯片應用于畜禽基因組ROH 研究。隨著重測序技術和SNP 芯片的發(fā)展、成熟和廣泛引用及成本不斷降低,出現了一系列關于畜禽基因組ROH 分析的相關研究。例如在豬基因組研究中,Bosse 等2012 年,首次研究瘦肉型豬基因組ROH 的群體歷史(如群體瓶頸、近交繁殖等)、基因組特征(如GC 含量和重組率)和選擇對基因組ROH 的影響。Silió 等利用系譜和基因組數據中評估了伊比利亞豬豬的近交水平和近交衰退。Herrero-Medrano 等利用高密度SNP 芯片通過ROH 分析,揭示了家豬和野豬的群體歷史和近交繁殖。2014 年,Herrero-Medrano 等使 用60K SNP 芯片和重測序數據(~10X)進行ROH 檢測,發(fā)現檢測的ROH 和近交系數呈現很強的相關性。此后,瘦肉型豬基因組ROH 成為一個興起的研究熱點。
目前,對于不同的數據集,關于不同軟件間以及同一軟件間不同參數的設置對ROH 檢測影響的研究較少,使用不同軟件之間的最佳參數難以確定。不同的研究采用了不同的軟件和參數來識別ROH。目前,缺乏對ROH 的定義和識別標準,局限了ROH 相關研究的發(fā)展。不同的研究在檢測ROH 時使用了各自的標準,有些研究采用了嚴格的標準,如Lencz 等采用至少100個連續(xù)SNPs,不允許存在雜合子,且需要在10 個或者更多個體間共享的ROH 為研究目標。而有些研究采用了較為寬松的標準,如Spain 等使用完全連鎖不平衡和低連鎖不平衡的數據集,研究了不同數量的SNPs和不同長度的ROH 對識別ROH 的影響,研究允許2%的雜合子出現,且取消了對SNPs 之間最大距離和最小SNPs 密度的限制。定義和識別ROH 標準的差異可能導致千差萬別的結果,同時增加了假陽性出現的概率,并使不同研究結果之間的比較變得困難。
2.1 檢測ROH 的軟件 當前,根據不同的方式識別基因組ROH,可以將檢測方法分為連續(xù)性(Consecutive Runs)識別和窗口滑動(Sliding Window)識別。連續(xù)性識別是一種沿著基因組對SNPs 位點連續(xù)掃描檢測的方法,其設置參數類別包括一個ROH 中最小的SNPs數量、最大的雜合子與缺失SNPs 數量、相鄰SNPs 位點的最大間隙以及最小運行長度等。應用連續(xù)性識別方法檢測ROH 的軟件有SVS(Golden Helix SNP &Variation Suite v.7.6.8)、SAS(SAS Institute)以 及最近比較熱門的R 包—detectRUNS等。另一種檢測方法是窗口滑動檢測法,即設置窗口大小,以滑動窗口形式檢測基因組ROH 的方法。常用軟件及腳本有PLINK、GERMLINE、BEAGLE、cgaTOH、SVS(Golden Helix SNP &Variation Suite v.7.6.8)、BCFtools/RoH、RZooRoH和FORTRAN 腳本等。其中,SVS 軟件和R 包—detectRUNS 能同時用這2 種檢測方法來識別基因組ROH。目前PLINK 的窗口滑動和R 包—detectRUNS 的連續(xù)性檢測方法被廣泛應用于ROH 的研究。
2.2 檢測ROH 的參數 無論是連續(xù)性運行還是窗口滑動識別ROH,都需要對多個參數和閾值進行設置。這些設置可能會對ROH 數量、大小和分布產生顯著影響,而且默認設置值并不總是適合各種基因型數據,尤其是不同密度的商業(yè)SNP 芯片數據。Purfield 等使用牛50K 和HD SNP 芯片(777972 SNPs)分析ROH時,發(fā)現HD 芯片能更準確地識別ROH,50K 芯片的SNP 密度適用于大多數牛品種的ROH 檢測。作者還比較了50K 和HD 芯片共有SNPs 數據集與HD 芯片識別ROH 的差異,發(fā)現二者都難以識別0.5~1 Mb 短長度的ROHs,且都能識別所有>5 Mb 長度的ROHs。同時,因為低密度SNP 芯片估計的ROH 水平與根據系譜的近交系數呈正相關。因此,常用商業(yè)基因芯片的標記密度在鑒定ROH 是合適的。進行ROH 分析之前,是否需要過濾最小等位基因型頻率(Minor Allele Frequency,MAF)、偏離哈代-溫伯格平衡(Hardy-Weinberg Equilibrium,HWE)和高連鎖不平衡(Linkage Disequilibrium,LD)的SNPs 尚未得到共識。大多數研究都是采用過濾MAF<0.01 或者<0.05 的SNPs。有些研究也過濾LD,如Meyermans 等測試過濾不同LD 和MAF 值對檢測ROH 的影響,發(fā)現隨著過濾LD值的增加,基因組覆蓋率迅速下降;同時發(fā)現MAF 過濾不僅影響固定區(qū)域的ROH 檢測,而且在非固定區(qū)域檢測到ROH 的發(fā)生率也存在較大差異。因此,在進行ROH 研究時,作者建議不要進行LD 和MAF 過濾。SNP 基因型分型錯誤是另一個可能影響ROH 檢測的因素,它的存在會影響包含SNPs 數量多的長ROH 識別。當前研究的一個解決方案是允許一定數量的雜合SNP存在,但這是否會影響檢測ROH 的可靠性尚未得到證實。此外,其他因素如ROH 中SNP 的最小密度、最大間隙、滑動窗口大小、窗口閾值、ROH 最小長度、ROH 包含的最少SNP 數量和最多缺失基因型數量在一定程度都會影響ROH 的檢測。
目前,ROH 分析廣泛應用于瘦肉型豬研究中,主流瘦肉型豬品種基因組ROH 的部分研究工作以及用于識別ROH 的相應參數和閾值均在表1 中展示。然而還有一些研究的參數設置沒有明確地提到,不確定作者是否使用默認設置或調整參數,這樣可能使得基因組的覆蓋率被過高或過低估計??梢姡琑OH 的識別和定義標準在不同品種內和品種間都存在差異。
表1 不同瘦肉型豬品種ROH 識別和參數設置的比較
2010 年,S?lkner 等首次在牛基因組研究中報道ROH 后,越來越多學者對畜禽的ROH 進行了更深入的探索,尤其是瘦肉型豬ROH 的研究,包括遺傳多樣性分析、群體歷史及近交系數的評估、選擇信號的鑒別和不利ROH 檢測等多個重點研究方向。
3.1 ROH 分析遺傳多樣性 基因組信息已被廣泛用于評估畜禽的遺傳多樣性。經歷過高強度人工選育的優(yōu)良畜禽動物的表型變異減少,基因組單倍型的多樣性降低,被選擇位點周圍的純合性增加,出現ROH 模式,導致優(yōu)良動物的遺傳多樣性降低、近交系數升高。
3.2 ROH 評估近親繁殖水平 近交系數(Inbreeding Coefficient,F)是監(jiān)測種群遺傳變異和管理畜禽遺傳資源的重要參數之一,準確地評估個體和群體的近交系數不僅是實際生產的切實需求,也是近交效應研究的重點。傳統(tǒng)上,近交系數的估計是基于系譜信息(F),該方法度量的是個體任意位點上出現共享等位基因型的概率,估計值是固定的。F值是否能夠真實反映群體的近交水平取決于個體系譜信息的完整性和準確性。然而,在實際生產中,由于各種因素導致系譜信息不完整或者記錄錯誤的現象普遍存在,這將大大降低F估計值的可靠性。此外,F依賴于基礎群信息,基于群體的基因組沒有經歷重組和個體不受選擇的基礎計算,也難以反映染色體中的純合性,更不允許計算特定染色體區(qū)域的近交系數。
早期的低密度分子標記由于標記數量有限,可能存在抽樣誤差,導致估計值的準確性低。但隨著重測序技術和高密度SNP 芯片的發(fā)展,DNA 分子信息顯著地提高了評估近交系數的準確性。利用分子信息來評估群體的近交水平主要分為3 種方法:基于純合子SNP 的近交系數(F);基于SNP 分子標記間的近交系數(F);基于ROH 的近交系數(F)。與F和F相比,F估計群體近交系數有以下幾點優(yōu)勢:第一,可以區(qū)分是IBD 還是狀態(tài)同源(Identical By State,IBS)。在使用單一分子標記計算估計近交水平時,難以區(qū)分IBD 和IBS,但使用ROH 卻可以做到;第二,可以揭示近交發(fā)生的時期(近期還是遙遠時期)。在減數分裂時重組事件可以打斷較長的ROH 片段,因此ROH 的長度和距離共同祖先的世代數有很強的相關性。例如Shi 等檢測到大白豬的近交水平可能是在近5 代積累導致,而且F和F之間的相關性比較低(0.18~0.37)。這個結果與其它瘦肉型豬的研究一致,并且F和F之間的相關性在不同長度的ROH沒有明顯變化。F不能區(qū)分IBD 和IBS,可能過高地估計了近交水平,除了與F之間的相關性較低外,與F和不同長度的F相關性都較高,這在皮特蘭豬、杜洛克豬、長白豬以及不同品系大白豬的研究中都得到相同的結論。Zhan 等基于系譜信息和基因組信息評估了皮特蘭豬的近交水平,F和F有顯著的高相關性(r=0.949),F與F之間相關性較低,這也與Gorssen 等在其他皮特蘭豬群體的報道一致,F和F都與F沒有高相關性。這些結果表明F和F之間的相關性不高,可能是因為F和F應用的計算方法和原理不同,如F不能計算基因組中IBD 實際比例,也不能解釋減數分裂期間重組的隨機事件,這可能影響了計算的準確性,特別是沒有或缺乏系譜信息時。同時基因組中某些單倍型可能是由于局部的低程度重組和高水平LD形成的。此外,相關研究表明短片段和中等長度片段的ROH 更有可能來自LD 或者遙遠時期的近交事件,而通過排除LD 和隨機效應的干擾,長片段ROH 估算的近交系數可以更準確地代表近期近交繁殖的水平。然而,不同群體的ROH 分類沒有固定標準。因此,使用總長度的ROH 來估算近交水平是一個更為可行的方法。由評估瘦肉型豬和其他動物ROH 的相關研究表明,F可能是一種在理論上更有效和準確的度量畜禽近交水平的替代方法,被廣泛用于評估個體和群體的近交水平。
3.3 ROH 識別人工選擇的痕跡 歐洲家豬大約在9 000年前在近東被馴化,是最早被馴化的家畜之一。近一兩百年來,隨著人類對瘦肉型豬品種的需求和優(yōu)良種畜的選育,不僅造成了瘦肉型豬外形和生長性狀的變化,還在基因組中留下了選擇的印跡。當基因組的特定區(qū)域受到長期、連續(xù)和高強度的正向選擇,特別是人工選擇,會表現出受選擇區(qū)域的純合頻率迅速增加,甚至固定下來,出現ROH 片段。Bosse 等觀察到,ROH在染色體中是非隨機分布的,許多SNPs 分子標記在ROH 片段中具有異常頻率,這些區(qū)域被稱為“ROH 熱點”或“ROH 島”。因此,通過掃描基因組中的ROH 高頻區(qū)域區(qū)段可以鑒定受到選擇的基因組區(qū)域。
Gorssen 等對5 個不同品系皮特蘭豬基因組進行ROH 分析,并與杜洛克豬、大白豬和長白豬進行比較,在8 號染色體上觀察到一個90 Mb 的ROH 熱點區(qū)域,約85%的個體存在共享ROH,著名的影響豬毛色的基因在這個區(qū)域也被鑒定到。此外,50~60 Mb區(qū)域處發(fā)現所有皮特蘭品系、長白豬和大白豬存在的ROH 島重疊。Zhan 等同樣進行了皮特蘭豬ROH分析,將16 個ROH 熱點區(qū)域與豬數量性狀基因座(Quantitative Trait Locus,QTL)進行比對,發(fā)現其與生長、肉質、胴體品質和繁殖等性狀相關。同時,還鑒定到在生物學過程起關鍵作用的候選基因。Shi 等在大白豬基因組的4 個ROH 熱點區(qū)域中檢測到大量與繁殖相關的候選基因,這與大白豬繁殖力高、產仔數多的種質特性相一致。Gorssen 等利用全球共享的動物基因組數據進行了ROH 分析,觀察到杜洛克豬在這些動物中ROH 熱點區(qū)域最多,同時SNPs 發(fā)生頻率也是最高的,很大部分超過80%,有些甚至達到100%。
經過長期的正向選擇,控制重要經濟性狀的調控區(qū)域將高度純合,這些特定區(qū)域也就更容易暴露在ROH高頻區(qū)域。所以,觀察到的ROH 高頻區(qū)域有助于識別被選擇的位點或區(qū)域,尋找與經濟性狀相關的候選基因,并應用于育種實踐中。
3.4 檢測不利ROH 單倍型 在瘦肉型豬育種工作中,重要經濟性狀的遺傳增益是通過高強度選育實現的。然而,高強度選育會造成遺傳多樣性降低和近親繁殖程度增加,而且可能會導致隱性有害等位基因的積累。這反過來又導致近交衰退,即平均表型性能的降低。近親繁殖會產生ROH,大多數的ROH 對表型有中性甚至有利的影響,從而掩蓋了少數不利的ROH 影響。由于近親繁殖的模式在整個基因組中是不同的,因此,確定與表型相關的基因組ROH 區(qū)域可以使遺傳增益和近親繁殖水平之間得到更有效的平衡。有不少研究報道了ROHs 對經濟性狀會造成不利影響,但是沒有考慮到不同ROH 片段對同一表型的影響和不同ROH 片段對多個表型的影響。Howard 等提出了一種能檢測對表型不利的ROH,即能對個體內和個體間ROH 出現的聯合效應進行描述的軟件——Unfavorable Haplotype Finder。利用此軟件在大白豬基因組中檢測到13 個生長性狀和繁殖性狀相關的不利ROH(平均長度為1.54 Mb;長白豬中為4 個ROHs,平均長度為1.56 Mb),以及2 個品種中3 個與繁殖性狀相關的共有區(qū)域。同時還指出LD、QTL 和ROH 在基因組中發(fā)生的頻率對識別不利ROH 的能力產生很大影響。
ROH 分析是研究畜禽基因組特征的有效方法。本文針對瘦肉型豬基因組中ROH 在分析遺傳多樣性、評估近交繁殖水平和識別人工選擇痕跡等應用進行了全面的綜述。然而,在瘦肉型豬中有害突變的累積是否在ROH 出現的概率更高,以及ROH 是否與經濟性狀具有強相關性尚未有報道,仍需要進一步探究。
雖然目前對基因組中ROH 有很多研究,但仍存在許多科學問題值得進一步挖掘:①瘦肉型豬中ROH 的定義以及檢測的參數和閾值缺乏一致的標準,很難直接比較不同研究的結果;②瘦肉型豬ROH 覆蓋率高的ROH 區(qū)域是否存在有害突變,不同長度的ROH 中有害突變的頻率是否有規(guī)律,對生長性狀是否產生負面影響;③Unfavorable Haplotype Finder 軟件既然能找出不利ROH 片段,那么是否可以能通過調整參數找到對瘦肉型豬最有利的ROH 片段或者雜合子片段(Runs of Heterozygosity,ROHet)以及不利的ROHet 片段,以用于現代育種計劃。因此,關于瘦肉型豬基因組中ROH 和ROHet 仍需深入研究,進而為育種工作和解析瘦肉型豬遺傳和表型差異的遺傳機制提供理論依據。