郭其新,胡亦舟,白 皓,常國斌
(揚(yáng)州大學(xué)動(dòng)物科學(xué)與技術(shù)學(xué)院,江蘇揚(yáng)州 225009)
在過去的幾十年里,動(dòng)物基因組學(xué)領(lǐng)域已經(jīng)從一門尋求首次了解生命之樹基因組序列的學(xué)科轉(zhuǎn)變?yōu)橐粋€(gè)致力解釋組裝全球所有生物的基因組序列,同時(shí)從一個(gè)只要求全力解決動(dòng)物線性基因組的方法發(fā)展為從多維度解決基因組序列間的空間關(guān)系。第一個(gè)動(dòng)物基因組序列于25 年前發(fā)表[1]。97Mb 的秀麗隱桿線蟲基因組組裝開創(chuàng)了動(dòng)物基因組生物學(xué)的新時(shí)代,可以在基因組規(guī)模上研究遺傳模式和過程,并于2004 年完成人類第一個(gè)基因組組裝。隨著越來越多樣化的物種基因組組裝不斷積累,我們對基因組如何變化和塑造地球生物多樣性的了解也越來越豐富[2]?;蚪M質(zhì)量的重大轉(zhuǎn)變是由兩個(gè)關(guān)鍵事件推動(dòng)的。首先,高通量(一次對幾十萬到幾百萬條核酸分子進(jìn)行序列測定)、短讀長(每條read 的長度在35~700bp)測序的發(fā)明提供了一種經(jīng)濟(jì)手段,為任何可以獲得足夠DNA 的物種生成數(shù)百萬個(gè)讀長,這些約100bp 的短讀段可以組裝成有用的(盡管是碎片化的)基因組組件[3]。其次,長讀長測序的興起使得在同樣花費(fèi)的基礎(chǔ)上增加讀長成為可能,這些讀長通常比短讀長長幾個(gè)數(shù)量級,從而產(chǎn)生更加連續(xù)的基因組組裝。截至2021 年6月,已對3278 種動(dòng)物的核基因組進(jìn)行了測序,并在美國國家生物技術(shù)信息中心(NCBI)Gen-Bank 數(shù)據(jù)庫中公開了組裝結(jié)果[4,5]。家禽作為全球重要的肉類和蛋類來源,對家禽基因組進(jìn)行測序可能有益于家禽生產(chǎn)實(shí)踐、家禽健康和福利,也有利于我們了解動(dòng)物不同表型的遺傳基礎(chǔ),同時(shí)進(jìn)一步加速了家禽育種目標(biāo)的實(shí)現(xiàn)。除了這些更具應(yīng)用性的研究領(lǐng)域之外,基因組測序還讓我們了解了這些物種和相關(guān)物種的進(jìn)化途徑。近年來,隨著高分辨率基因組的組裝,從多維度解析家禽表型的遺傳基礎(chǔ)成為可能,但同樣對家禽的現(xiàn)代育種技術(shù)提出了新的挑戰(zhàn)。
DNA 測序是一個(gè)快速發(fā)展的領(lǐng)域,技術(shù)和平臺正在以驚人的速度更新。Sanger 和哈佛大學(xué)科學(xué)家Allan Maxam 和Walter Gilbert 獨(dú)立推出了自己的DNA 測序方法,徹底改變并促進(jìn)了基因組學(xué)發(fā)展[6]。其主要采用DNA 復(fù)制原理。Sanger 測序反應(yīng)體系中包括目標(biāo)DNA 片段、脫氧三磷酸核苷酸(dNTP)、雙脫氧三磷酸核苷酸(ddNTP)、測序引物及DNA 聚合酶等。測序反應(yīng)的核心就是其使用的ddNTP:由于缺少3'-OH基團(tuán),不具有與另一個(gè)dNTP 連接形成磷酸二酯鍵的能力,這些ddNTP 可用來中止DNA 鏈的延伸。此外,這些ddNTP 上連接有放射性同位素或熒光標(biāo)記基團(tuán),因此可以被自動(dòng)化的儀器或凝膠成像系統(tǒng)所檢測到。此后,該測序手段用于人類的第一個(gè)基因組序列以及人類健康關(guān)鍵模型(如大鼠和小鼠)的高質(zhì)量基因組草圖[7,8],同時(shí)也完成小鼠基因組計(jì)劃近交實(shí)驗(yàn)室C57BL/J6 品系測序。然而,該測序方法仍然是一個(gè)昂貴的工作(每兆堿基序列約1000 美元)。新的短讀長測序技術(shù)(SRS)和平臺不斷發(fā)展,包括ABI SOLiD[9]、Roche 454[10]和Illumina[11]。這些技術(shù)在成本、樣本輸入、讀取長度和錯(cuò)誤率方面都有其優(yōu)缺點(diǎn)。隨后,Illumina 利用雙端測序方法完成了狗[12]、馬[13]、牛[14]、獼猴[15]、負(fù)鼠[16]和雞[17]等物種基因組序列組裝。雖然這些基因組極大促進(jìn)了這些物種的發(fā)展,但這些物種的基因組中存在大量的空白序列無法組裝,這主要是由于測序讀長較短和連續(xù)性較低導(dǎo)致。認(rèn)識到長讀長和連續(xù)性對基因組草圖的重要性?;蚪M組裝的新技術(shù)[18](如Dovetail 的鄰近連接)和長讀長測序技術(shù)(long-read sequencing,LRS),如PacBio 的單分子實(shí)時(shí)(single molecule real time sequencing,SMRT)[19]、Chromium 10x[20]、Oxford Nanopore技術(shù)[21]和Bionano 基因組作圖技術(shù)[22]的發(fā)展。為了進(jìn)一步獲得高質(zhì)量的基因組,通過分別組合SRS 和LRS 以及組裝工具生成不同的組裝策略對當(dāng)時(shí)黃金標(biāo)準(zhǔn)基因組的改進(jìn),如人類構(gòu)建的GRCh38 使用Bionano 等光學(xué)繪圖儀來確認(rèn)組裝和細(xì)化單倍型[23];此外,高覆蓋度虎皮鸚鵡(Melopsittacus undulatus)基因組是使用多種測序技術(shù)生成的[24],包括SRS(Roche 454 和Illumina)和LRS(PacBio)及類似的de novo 山羊(Capra hircus)參考基因組是結(jié)合PacBio、Illumina 和Bionano 方法生成了迄今為止最連續(xù)的哺乳動(dòng)物基因組之一,但依然缺乏類似于著絲粒等復(fù)雜區(qū)域的序列信息。為了填補(bǔ)基因組中缺乏的著絲粒等位置的序列,科學(xué)家們設(shè)計(jì)了一種基于轉(zhuǎn)座酶結(jié)合BAC 文庫的方案,使用納米孔測序(MinION 測序技術(shù))產(chǎn)生BAC 文庫DNA 的高讀數(shù)覆蓋。如在轉(zhuǎn)座酶中用單個(gè)切割位點(diǎn)線性化圓形BAC 并添加測序接頭,從而實(shí)現(xiàn)整個(gè)插入片段的完整、端到端序列覆蓋,這使得完整測序著絲粒序列成為可能。在此基礎(chǔ)上,科學(xué)家們近年來完成了人[25-27]、雞[28]以及魚[29]等動(dòng)植物的完整端粒到端粒的完整基因組(T2T)。
隨著大規(guī)?;蚪M研究的發(fā)展,人們發(fā)現(xiàn)單一參考基因組模式無法代表物種水平的遺傳多樣性。畜禽往往具有復(fù)雜的起源和遷徙路線,這表明當(dāng)前參考基因組中可能遺漏了一些種群特異性序列。相反,泛基因組是一個(gè)物種所有DNA 序列的集合,包含所有個(gè)體共享的序列(核心基因組),并且還能顯示每個(gè)個(gè)體獨(dú)有的序列信息(可變基因組)。人類、植物和家畜泛基因組研究進(jìn)展表明,通過泛基因組研究可以探索缺失的遺傳成分和大結(jié)構(gòu)變異(SV)的識別。許多個(gè)體特異性序列已被證明與生物適應(yīng)性、表型和重要的經(jīng)濟(jì)性狀相關(guān)。泛基因組可以在分析單個(gè)參考基因組的基礎(chǔ)上補(bǔ)充缺失的遺傳信息,挖掘隱藏的遺傳變異,展示物種水平上真正的遺傳多樣性[30-32]。此外,許多研究表明,以泛基因組為參考,可以顯著提高讀段映射率、轉(zhuǎn)錄組比對效率以及一些罕見和大變異的檢出率[32-34]。此外,泛基因組研究的一個(gè)重要組成部分是檢查新發(fā)現(xiàn)的基因的生物學(xué)功能。泛基因組可以識別通常屬于非核心基因組的非參考序列,并且可能對生物體的適應(yīng)性產(chǎn)生重要影響[35]。因此,分析它們在個(gè)體中的分布以及所包含基因的功能可以更好地了解物種對極端環(huán)境的適應(yīng)。構(gòu)建真核生物的全基因組必須考慮基因組內(nèi)的所有DNA 序列,才能真正發(fā)揮全基因組的參考對象作用。由于測序技術(shù)、成本和基因組復(fù)雜性等限制,真核全基因組研究起步晚于原核全基因組。直到2009 年,基于人類基因組計(jì)劃[36]和多個(gè)參考基因組組裝完成[37-39],泛基因組才被應(yīng)用于人類基因組學(xué)研究。動(dòng)植物泛基因組研究從2013 年才逐步開展。最近有兩個(gè)關(guān)于雞泛基因組的研究,第一個(gè)是使用迭代作圖和組裝方法構(gòu)建的,使用了664 個(gè)個(gè)體的WGS 數(shù)據(jù)和參考基因組構(gòu)建的泛基因組,基于該泛基因組鑒定了參考基因組(GRCg6a)中不存在的約66.5Mb 編碼4063 個(gè)高可信度基因序列,通過鑒定了大量的存在/ 不存在變異(PAV)變異,基于PAV 的全基因組關(guān)聯(lián)研究發(fā)現(xiàn)了許多與生長、胴體成分、肉質(zhì)或生理性狀相關(guān)的候選突變。其中,IGF2BP1 啟動(dòng)子區(qū)域的缺失影響雞體大小[40];另外一個(gè)是通過組裝世界范圍內(nèi)20 個(gè)代表物種的基因組構(gòu)建的一個(gè)雞的泛基因組,該泛基因組主要利用20 個(gè)高測序深度從頭組裝的基因組構(gòu)建了來自世界范圍內(nèi)的雞泛基因組,并鑒定了GRCg6a 中未發(fā)現(xiàn)的1,335 個(gè)蛋白質(zhì)編碼基因和3011 個(gè)長非編碼RNA[41]。這些研究挖掘了一些新的遺傳變異,為解析表型提供了新的思路,在一定程度上為家禽育種提供了一些新的見解。
3D 基因組是指基因組在空間和時(shí)間上的折疊方式,這是一個(gè)在生物學(xué)領(lǐng)域備受關(guān)注的問題。通過開發(fā)一系列前所未有的高分辨率方法,如染色質(zhì)構(gòu)象捕獲、高分辨率光學(xué)和電子顯微鏡等技術(shù),我們對基因組架構(gòu)和功能有了全新的認(rèn)識。眾所周知,人類DNA 長2m,這種DNA 如何經(jīng)歷巨大的壓縮以適應(yīng)細(xì)胞核的微小空間(直徑約20μm)一直是細(xì)胞生物學(xué)的主要謎團(tuán)之一。核小體的重復(fù)單元(146bp 的DNA 包裹在組蛋白核心八聚體周圍)組織成10nm 的 “串珠”[42]。然而,需要進(jìn)一步壓縮以使DNA 適合細(xì)胞核。長期存在的模型假設(shè)染色質(zhì)以分層方式折疊成更高階的結(jié)構(gòu),其中包括通過連接組蛋白H1 將10nm 纖維折疊成30nm 纖維,然后折疊成更大的結(jié)構(gòu)[43,44]。組蛋白除了壓縮DNA 之外,還可以通過對其尾部進(jìn)行翻譯后修飾來主動(dòng)控制基因表達(dá),從而共同生成表觀遺傳 “組蛋白密碼”[45]。特定的組蛋白 “標(biāo)記” 與基因組的活躍區(qū)域和沉默區(qū)域相關(guān),因此被認(rèn)為會(huì)產(chǎn)生不同水平的染色質(zhì)壓縮和高階結(jié)構(gòu)。也就是說,基因組的一部分似乎包含未修飾的組蛋白[46,47],并且抑制性組蛋白標(biāo)記有時(shí)也可以在活性啟動(dòng)子中找到[48],強(qiáng)調(diào)需要更好的工具來可視化和繪制組蛋白標(biāo)記、基因組之間的精確關(guān)系、結(jié)構(gòu)和功能。常染色質(zhì)、異染色質(zhì)和細(xì)胞核中個(gè)體染色體區(qū)域的假說的重提[49,50]以及熒光原位雜交(FISH)的新型成像技術(shù)的發(fā)展使得染色體區(qū)域假說最終得到驗(yàn)證。隨著新的成像和基因組技術(shù)的出現(xiàn),推動(dòng)了核結(jié)構(gòu)研究[51-53]。同時(shí),F(xiàn)ISH 方法證明了染色體區(qū)域和區(qū)域邊緣染色體混合的存在,也表明富含活性基因的染色體區(qū)域主要位于核內(nèi)部,而富含非活性基因的染色體區(qū)域主要位于核外圍[54-63]。在此基礎(chǔ)上,綜合全基因組測序(Whole Genome Sequencing,WGS)、RNA-seq、Hi-C 等技術(shù),解析北京鴨的三維基因組空間構(gòu)象[64]以及利用Hi-C 技術(shù)對水稻染色質(zhì)的三維結(jié)構(gòu)進(jìn)行了全基因組解析[65,66]。3D基因組揭示了基因組在超分辨率和活細(xì)胞成像下的組織結(jié)構(gòu),為我們提供了基因組功能的新視角,發(fā)現(xiàn)一些以前沒有發(fā)現(xiàn)的基因組空間結(jié)構(gòu)層次的變異。同時(shí),這種高分辨率成像也挑戰(zhàn)了我們對基因組的傳統(tǒng)理解,推動(dòng)了科學(xué)界對基因組認(rèn)識的深化,也為育種技術(shù)提出了新的挑戰(zhàn)。
育種是指人類驅(qū)動(dòng)的培育和增強(qiáng)動(dòng)物物種的過程,其中涉及干預(yù)其生物進(jìn)化。在過去的一個(gè)世紀(jì)里,育種方法不斷從傳統(tǒng)方法向現(xiàn)代方法發(fā)展以滿足人類的需求。動(dòng)物馴化始于大約幾千年前,標(biāo)志著動(dòng)物育種的開始。在這個(gè)階段,人們通過目視評估野生動(dòng)物的表型性狀,并根據(jù)需要對其進(jìn)行馴化。1865 年,孟德爾遺傳定律的發(fā)現(xiàn)標(biāo)志著動(dòng)物育種傳統(tǒng)時(shí)代的開始,當(dāng)時(shí)主要的育種技術(shù)是雜交育種等。這一時(shí)期的動(dòng)物育種研究主要集中在雜交和統(tǒng)計(jì)分析上,且耗時(shí)較長。傳統(tǒng)育種技術(shù)無法精確操縱和選擇特定基因從而導(dǎo)致選育效果較差。分子生物學(xué)的快速進(jìn)步促進(jìn)了分子標(biāo)記輔助育種的發(fā)展,它利用分子標(biāo)記來反映個(gè)體或群體之間的變異或多態(tài)性。利用這些標(biāo)記來識別雜交后代中的目標(biāo)基因,可以最大限度地減少育種過程中的人類和環(huán)境干擾,并加速整個(gè)育種進(jìn)程。標(biāo)記輔助育種可以同時(shí)檢測多個(gè)或連鎖基因。但這項(xiàng)技術(shù)需要大量的高質(zhì)量DNA,且價(jià)格昂貴。2001 年,Meuwissen 等[67]引入了基因組選擇(GS)。使用訓(xùn)練群體的基因型和表型數(shù)據(jù)構(gòu)建基因組預(yù)測模型,然后利用已知的基因型和表型數(shù)據(jù)預(yù)測候選個(gè)體的基因組估計(jì)育種值(GEBV)。GS 技術(shù)同時(shí)評估多個(gè)全基因組標(biāo)記在由基因分型和表型個(gè)體組成的訓(xùn)練群體中的作用,從而顯著提高選擇效率。因此,基于GS 的育種仍然是一項(xiàng)具有很大發(fā)展?jié)摿Φ拈_創(chuàng)性技術(shù)。近年來,在牛等動(dòng)物中開展了一系列開展基因組選擇的報(bào)道,如肉牛[68]、奶牛[69]、豬[70]和雞等[71]。對于肉雞,同樣也使用不同模型(如PBLUP、GBLUP 和ssGBLUP)的預(yù)測準(zhǔn)確性和遺傳參數(shù)進(jìn)行了估計(jì)[72-75]。
過去幾十年內(nèi),隨著基因組編輯技術(shù)的發(fā)展,使其能對基因組進(jìn)行精確編輯?;蚪M編輯技術(shù)在家禽業(yè)及整個(gè)畜牧生產(chǎn)中的應(yīng)用在過去十年中得到了改善[76]。3 種常用的基因組編輯技術(shù)用于家禽生產(chǎn),如鋅指核酸酶(ZFN)、轉(zhuǎn)錄激活因子樣效應(yīng)核酸酶(TALEN)以及成簇規(guī)則間隔短回文重復(fù)序列(CRISPR)相關(guān)蛋白 9(CRISPR/Cas9)是最常見且最先進(jìn)的基因組編輯技術(shù),其中,CRISPR/Cas9 技術(shù)在雞和鵪鶉中的應(yīng)用取得了實(shí)質(zhì)性進(jìn)展,例如,最近的一個(gè)研究通過對雞的ANP32 蛋白家族的ANP32A 基因中的N129I 和D130N 氨基酸基因編輯,消除了甲型流感病毒(IAV)的感染和傳播[77];此外,通過對雞DF-1 細(xì)胞的NHE1 基因的關(guān)鍵氨基酸殘基進(jìn)行編輯,使得該細(xì)胞獲得對ALV-J 感染的獲得性抗性[78];與此同時(shí),日本鵪鶉MSTN 中的非移碼突變導(dǎo)致體重和肌肉質(zhì)量顯著增加。使用CRISPR/Cas9 通過基因突變破壞或去除MSTN 會(huì)抑制其抗生肌功能,從而導(dǎo)致MSTN 敲除雞的肌肉質(zhì)量增加[79]。CRISPR 技術(shù)并非旨在取代傳統(tǒng)育種系統(tǒng),而是為育種者提供更多可供選擇的遺傳變異,因?yàn)槭褂脗鹘y(tǒng)育種獲得遺傳增益在向特定種群內(nèi)引入遺傳變異方面存在局限性,使用CRISPR/Cas9 系統(tǒng)引入遺傳變異可用于改善家禽的性能,在一定程度上加速了育種的進(jìn)程,實(shí)現(xiàn)更高的遺傳進(jìn)展。
基因組測序計(jì)劃完成開啟了遺傳育種研究的新紀(jì)元,但占基因組98%的非編碼區(qū)域功能研究很少,調(diào)控元件注釋也尚不清晰,這嚴(yán)重制約了經(jīng)濟(jì)性狀分子機(jī)理解析及基因組育種技術(shù)創(chuàng)新。隨著高分辨率基因組組裝以及泛基因組組裝,可以很大程度上促進(jìn)從多水平(基因組、表觀修飾、轉(zhuǎn)錄、翻譯和蛋白等)解析性狀發(fā)生的分子調(diào)控機(jī)制和致因基因/ 變異。最近有研究發(fā)現(xiàn),通過結(jié)合數(shù)量表觀遺傳學(xué)和群體表觀遺傳學(xué)等表觀信息開展基因組選擇發(fā)現(xiàn)表觀遺傳變異能夠解釋65%的表型變異。此外,基于鑒定SNPs 是否位于表觀功能基因組區(qū)域進(jìn)行分類,將表觀基因組信息引入GFBLUP(genomic feature best linear unbiased prediction)模型,其預(yù)測準(zhǔn)確性相比傳統(tǒng)GBLUP 有所提高。此外,隨著新的成像和基因組測序以及組裝技術(shù)的出現(xiàn),基因組正以前所未有的細(xì)節(jié)水平可視化,同時(shí)結(jié)合基因組選擇,可以最大程度提高育種值估計(jì)準(zhǔn)確性。此外通過結(jié)合高分辨率基因組和泛基因組,可以為精確的設(shè)計(jì)育種提供更精確的位點(diǎn)調(diào)控信息,為基于基因組編輯技術(shù)構(gòu)建的設(shè)計(jì)育種提供幫助。
隨著越來越多物種的高分辨率基因組的組裝,在一定程度上為現(xiàn)代育種提供了一定的幫助。但是也為現(xiàn)代育種技術(shù)提出了新的挑戰(zhàn),主要分為以下幾個(gè)方面:①多組學(xué)水平復(fù)雜性狀的解析。雖然目前的高分辨率基因組已經(jīng)可以解釋大多數(shù)性狀的調(diào)控發(fā)生機(jī)制以及致因突變,但是目前用于基因組選擇的組學(xué)數(shù)據(jù)均是在組織水平進(jìn)行。隨著單細(xì)胞和空間表觀組測序發(fā)展,從單細(xì)胞時(shí)空水平解析表型的發(fā)生調(diào)控機(jī)制和致因突變成為新的方法,但是這也導(dǎo)致從多尺度解析表型發(fā)生機(jī)制更為復(fù)雜,如何在多組學(xué)水平解析表型發(fā)生的致因突變是目前現(xiàn)代育種中面臨的新一輪挑戰(zhàn);②新算法的開發(fā)。在現(xiàn)代高分辨率基因組下,多個(gè)尺度(基因組、表觀調(diào)控水平、轉(zhuǎn)錄水平、翻譯水平和蛋白水平)調(diào)控表型形成的變異信息被鑒定,導(dǎo)致需要更強(qiáng)大的算力要求,因此需要開發(fā)一些在不損害準(zhǔn)確性的情況下的壓縮算法,減少算力的消耗,降低計(jì)算的時(shí)間。此外,隨著越來越多變異信息的加入,目前的算法可能不太適用于多尺度的計(jì)算,為了引入更多的基因組信息,為每個(gè)水平變異設(shè)置權(quán)重(基于其對表型發(fā)生的貢獻(xiàn)率)可以更高水平的提高現(xiàn)代育種的準(zhǔn)確率。
綜上所述,高分辨率基因組在家禽育種中的研究和應(yīng)用尚處于起步和發(fā)展階段,還有許多挑戰(zhàn)和領(lǐng)域中有待探索和解決的問題,但是已有的研究方法和初步成果為現(xiàn)代家禽育種提出了廣闊的發(fā)展前景。同時(shí)隨著家禽高分辨率基因組的不斷完善,家禽重要經(jīng)濟(jì)性狀的基因組候選區(qū)域和致因變異為開展家禽現(xiàn)代設(shè)計(jì)育種提供了重要的支持。