張子敬 ,劉燕蓉,張順進(jìn),賀 花,李佳霄,劉 賢,呂世杰,李志明,王二耀,雷初朝,黃永震*
(1.河南省農(nóng)業(yè)科學(xué)院畜牧獸醫(yī)研究所,河南鄭州 450002;2.西北農(nóng)林科技大學(xué)動物科技學(xué)院,陜西楊凌 712100;3.西北農(nóng)林科技大學(xué)動物醫(yī)學(xué)院,陜西楊凌 712100;4.河南省畜牧總站,河南鄭州 450008)
隨著生物信息學(xué)的快速發(fā)展,DNA 測序技術(shù)在不斷創(chuàng)新。第一代測序技術(shù),即Sanger 的鏈終止方法[1]于1977 年登上歷史舞臺,其主要應(yīng)用于人類基因組(HGP)計劃,人們耗時15 年花費了30 億美元完成了首個人類基因組圖譜。盡管一代測序讀長可達(dá)1 000 bp、精確度高達(dá)99.999%,但測序通量低、成本高等缺點限制了它的大規(guī)模應(yīng)用。直到21 世紀(jì)初,以高通量為主要特點的第二代測序技術(shù)(又稱為下一代測序技術(shù),Next-Generation Sequencing,NGS)的開發(fā),如Roche 公司的454 技術(shù)、Illumina 公司的Solexa 技術(shù)和ABI 公司的SOLID 技術(shù)[2],使成本從HGP 的1 億美元1 個基因組下降到2015 年底的1 000 美元1 個基因組,并且測序時間大幅縮短,成功地把DNA 測序引入到了高通量測序時代,同時也把研究方向從單個基因位點擴(kuò)展到全基因組研究的水平層面,并從人類應(yīng)用擴(kuò)展到各種生物的研究中。然而由于第二代測序技術(shù)存在讀長過短、引入PCR 擴(kuò)增錯誤、具有GC 偏好性等缺點,不能夠完全滿足人們對于全基因組測序的需求。隨著人們繼續(xù)研究高通量測序技術(shù),以單分子測序為技術(shù)特點的第三代測序——He-licos 單分子測序儀、Pacific Bioscience 的SMRT 技術(shù)(PacBio)和Oxford Nanopore Technologies 公司的納米孔單分子測序技術(shù)登上了DNA 測序技術(shù)的舞臺。與第二代測序的核心原理,即邊合成邊測序相比,第三代測序技術(shù)的特征在于單分子測序,即不需要PCR 擴(kuò)增,這就避免了PCR 擴(kuò)增引入錯誤,同時第三代測序具有更高的通量和測序效率。
1.1 Pacific Bioscience SMRT 技術(shù) 從測序手段來看,PacBio 測序是基于光信號的三代測序技術(shù),可在目標(biāo)DNA 分子復(fù)制的過程中捕獲序列信息(即邊合成邊測序)。PacBio 測序使用一種被稱為SMRTbell 的模板,這是一個通過將發(fā)夾接頭序列連接到目標(biāo)雙鏈DNA 分子兩端而形成的單鏈環(huán)狀DNA 分子。當(dāng)SMRTbell 通過被稱為SMRT cell 的芯片上時,SMRTbell 會擴(kuò)散到被稱為零模式波導(dǎo)(Zero-Mode Waveguide,ZMW)的測序單元中,每個SMRT cell 中含有15 萬個零模式波導(dǎo)管。ZMW 是一種直徑僅為幾十納米的納米孔,每個ZMW 底部都固定有聚合酶,可以與SMRTbell 的任一發(fā)夾接頭序列結(jié)合并開始復(fù)制。SMRT cell 中添加有4種不同熒光基團(tuán)的核苷酸,不同熒光基團(tuán)被激活時會產(chǎn)生不同的發(fā)射光譜。當(dāng)一個堿基與聚合酶結(jié)合時,便會產(chǎn)生一個光脈沖被記錄下來,根據(jù)光的波長和峰值便能夠識別這個堿基[3]。PacBio 測序的一個關(guān)鍵是將反應(yīng)信號與游離堿基的熒光背景區(qū)別出來,因為ZMW 的孔徑小于波長,從底部打上去的激光不直接通過孔徑,但是可以在孔徑處發(fā)生光的衍射,僅僅能夠照射ZMW 的底部區(qū)域。而DNA 聚合酶就鎖定在底部的這個區(qū)域,由于其只能被堿基攜帶的熒光基團(tuán)激活并檢測到發(fā)光,從而大大減少了背景熒光的干擾。PacBio 測序的另一個關(guān)鍵就是聚合酶的活性,它決定了測序的長度。DNA聚合酶的活性會在激光照射下逐漸減弱,因此不能無限長度的進(jìn)行合成反應(yīng),所以DNA 鏈的測序長度是有限的。此外當(dāng)存在如甲基化之類的堿基修飾時,相鄰堿基的測序時間會變長,因此可以通過測定相鄰2 個堿基的測序時間來檢測堿基修飾。PacBio 的測序速度很快,然而,這種測序方法的錯誤率(可達(dá)到15%)遠(yuǎn)高于二代測序,不過因為出錯隨機(jī),可通過增加測序深度來有效糾正測序錯誤。
1.2 納米孔單分子測序技術(shù) 與基于光信號的PacBio 測序不同,納米孔單分子測序技術(shù)(The Single-Molecule Nanopore DNA Sequencing)的實質(zhì)是利用電信號測序的技術(shù),其原理是納米孔內(nèi)有共價結(jié)合的分子接頭,當(dāng)單個堿基或DNA 分子通過納米孔通道時,會使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強度。由于化學(xué)結(jié)構(gòu)的差異,A、C、G 和T 這4 種不同堿基通過納米孔時會產(chǎn)生不同強度的電流,通過靈敏的電子設(shè)備可以檢測到電流變化,進(jìn)而可以識別DNA 鏈上的堿基完成測序。與上述PacBio 測序方法相比,納米孔單分子測序技術(shù)處理樣品非常簡單,也不需要脫氧核糖核苷酸,這也使得該測序方法的成本不是很高。然而,納米孔單分子測序技術(shù)也有缺陷,由于DNA 通過納米孔極其迅速,極可能引起電流特征性變化不明顯,從而降低測序的準(zhǔn)確度,故將單個核苷酸通過孔的速度降低則成為了這個技術(shù)擬解決的難題,與PacBio 測序類似,納米孔單分子測序的堿基錯誤率也遠(yuǎn)高于二代測序。
2.1 在基因組方面的應(yīng)用
2.1.1 從頭組裝 獲得一個物種的基因組對相關(guān)研究者具有十分重要的意義,二代高通量測序的發(fā)展使得諸多物種的基因組從頭組裝(De novo Assembly)成為現(xiàn)實。然而由于許多生物學(xué)和技術(shù)上的原因,特別是重復(fù)或雜合序列、測序錯誤、嵌合讀碼、讀長不足或讀碼覆蓋不全或有偏差等因素[4],造成高質(zhì)量的基因組組裝具有很大挑戰(zhàn)性。在這些限制因素中,最突出和最具挑戰(zhàn)性的便是重復(fù)序列,二代測序技術(shù)因為讀長過短(只有50~500 bp)在鑒別重復(fù)元素等方面存在固有的局限性。三代測序的長讀長(10 kb 以上)克服了二代測序的這些限制,因此利用三代測序產(chǎn)生的長讀長進(jìn)行從頭組裝成為三代測序的主要應(yīng)用方面[3]。
2016 年,Shi 等[5]用單分子實時(SMRT)測序?qū)χ袊藗€體HX1 進(jìn)行測序,構(gòu)建物理圖譜,生成2.93 Gb 的從頭組裝數(shù)據(jù)集,為中國個體生成了第一個近乎完整的從頭組裝基因組,該基因組填補了人類參考基因組GRCh38 中274 個(28.4%)空白,與GRCh38 相比,發(fā)現(xiàn)了12.8 Mb 的HX1 特異性序列,包括在先前報道的亞洲人基因組中不存在的4.1 Mb 序列。2018 年,Matthew 等[6]也使用SMRT 測序?qū)? 個瑞典人基因組進(jìn)行了重新組裝,研究發(fā)現(xiàn)每個個體中有超過10 Mb 的序列從人類參考基因組GRCh38 中缺失,而且大約有6 Mb的新序列是與中國人的個人基因組(HX1)共有的。這些研究結(jié)果表明了GRCh38 參考基因組還不完整,同時證明了三代測序在復(fù)雜基因組的組裝上具有獨特的優(yōu)勢,能夠發(fā)現(xiàn)諸多二代短讀長測序遺漏的基因組信息。
目前三代測序除了應(yīng)用在人類基因組的從頭組裝上,也已經(jīng)用在水稻[7]、小麥[8]、豬[9]、雞[10]、牛[11]、羊[12]等具有重大經(jīng)濟(jì)價值的動植物基因組的從頭組裝上。
2.1.2 結(jié)構(gòu)變異檢測 結(jié)構(gòu)變異(Structural Variation,SV)包括拷貝數(shù)變異、插入、刪除、易位以及這些事件的組合等,SV 已被證明對許多物種的進(jìn)化、基因組疾病、基因調(diào)控和其他表型等有重大影響[13]。與單核苷酸多態(tài)性(SNPs)相比,SV 的情況復(fù)雜得多,因此更難以檢測和識別。由于二代測序長度較短,檢測出的SV 具有低靈敏度和假陽性率高的特點,對這些復(fù)雜SV 的研究有很大的局限性,尤其是涉及重復(fù)區(qū)域的結(jié)構(gòu)變異研究。而三代測序產(chǎn)生的讀長平均長度遠(yuǎn)大于二代測序產(chǎn)生讀長,大大有利于結(jié)構(gòu)變異的檢測。Couldrey 等[14]利用PacBio 長讀長測序和Illumina 測序檢測和評估新西蘭奶牛的拷貝數(shù)變化,研究表明這種長讀長測序?qū)τ贑NV 的檢測是一個理想的平臺,將最終有助于改進(jìn)基因組預(yù)測。
全外顯子組測序(Whole Exome Sequencing,WES)目前被廣泛應(yīng)用于疑似或臨床證實有遺傳疾病的患者的基因檢測。但是目前Illumina 的短讀長測序技術(shù)在臨床上診斷為孟德爾?。▎位虿。┑幕颊咧?,有很大比例(60%~70%)的患者在WES 上得到陰性結(jié)果[15]。即從臨床WES 中只能發(fā)現(xiàn)一種雜合致病變異,可能原因是從短讀測序技術(shù)檢測致病結(jié)構(gòu)變異(SVs)的能力有限。Miao 等[15]應(yīng)用Nanopore 測序?qū)σ幻茨芡ㄟ^WES 找到病因的患有糖原儲存型疾病(常染色體隱性病,由G6PC 基因雙等位基因突變引起)的患者進(jìn)行全基因組測序,發(fā)現(xiàn)一個7.1 kb 的缺失,其覆蓋了另一個等位基因上的2 個外顯子,這表明復(fù)雜的結(jié)構(gòu)變異可能解釋了隱性疾病中WES 缺失第二個致病等位基因的部分情況。缺失的2 個斷點都在Alu 元素內(nèi),于是Miao等[15]設(shè)計了基于斷點的Sanger 測序和定量PCR 分析,以用來對患者家庭計劃生育的另一個孩子進(jìn)行胚胎植入前遺傳診斷(PGD),在通過體外受精后獲得的4 個胚胎中,經(jīng)PGD 后將1 個G6PC 基因無缺失的胚胎進(jìn)行移植。經(jīng)產(chǎn)前診斷、產(chǎn)后診斷及出生后情況證實無疾病癥狀。該研究第一個使用三代長讀長測序來識別外顯子測序陰性患者中具有因果關(guān)系的復(fù)雜結(jié)構(gòu)變異,從而使成功的個性化PGD 成為可能。同時該研究表明,三代測序為通過短讀測序發(fā)現(xiàn)未確診或被誤診患者的基因變異提供了一種手段,并有助于提高臨床診斷的效率。
2.2 在轉(zhuǎn)錄組方面的應(yīng)用
2.2.1 全長轉(zhuǎn)錄組測序(Iso-Seq) 短讀長RNA 測序(RNA-seq)技術(shù)的發(fā)展大大提高了基因表達(dá)的定量效果。然而這個方法的主要局限性之一便是由于讀長很短,根本無法解析最復(fù)雜的基因或包含許多類似轉(zhuǎn)錄本形式的基因家族的結(jié)構(gòu)[16]。Iso-Seq 是基于SMRT 測序技術(shù),憑借超長讀長的優(yōu)勢,無需打斷RNA 分子,直接對反轉(zhuǎn)錄的全長cDNA 測序,即可得到從5’末端到3’PolyA尾的高質(zhì)量全長轉(zhuǎn)錄本序列,從而對同源異構(gòu)體、可變剪接、融合基因、同源基因、超家族基因、等位基因表達(dá)等進(jìn)行精確分析,而且Iso-Seq 允許在不使用參考基因組的情況下直接測序10 kb 以下的轉(zhuǎn)錄本[3]。
選擇性剪接是真核生物中廣泛使用的一種增加蛋白原種類的機(jī)制。二代短讀長測序在定性基因表達(dá)和事件檢測方面是有效的。然而,其準(zhǔn)確檢測剪接基因變異的能力有限。Shi 等[5]對HX1 轉(zhuǎn)錄組的長讀長測序中揭示了新的未在GENCODE 中注釋的、被短讀RNA-Seq遺漏的剪接基因。Chen 等[17]同樣采用Iso-Seq 技術(shù)對家兔進(jìn)行全轉(zhuǎn)錄組分析,從14 474 個基因座中獲得了36 186 個高信度轉(zhuǎn)錄本,其中超過23%的基因座和66%的亞型尚未在目前的參考基因組中得到注釋。此外,在這一新構(gòu)建的轉(zhuǎn)錄組中檢測到17%的非編碼RNA 和多達(dá)24 797 個可變剪接以及11 184 個可變聚腺苷酸化事件。Li 等[18]用PacBio 測序技術(shù)對豬轉(zhuǎn)錄本進(jìn)行了研究,獲得了389 781 個高質(zhì)量的FLNC reads,其中77 075 個亞型包含39 940個位點,97 727個可變剪接事件和4 394個以前未在豬中注釋的新lincRNA。該研究首次對豬的剪接變異提供了全面的觀點,并證明了Iso-Seq 在識別FL 剪接亞型方面的優(yōu)勢。這些研究都表明了基于三代測序的Iso-Seq 在構(gòu)建一個更完整的參考轉(zhuǎn)錄本、準(zhǔn)確評價轉(zhuǎn)錄組的復(fù)雜性、完善對基因組的注釋方面具有巨大優(yōu)勢。
2.2.2 快速鑒定病毒基因型 畜禽健康不斷受到病毒感染的挑戰(zhàn),病毒感染可引起腸、呼吸道、生殖和全身性疾病。利用基于二代測序的宏基因組學(xué)方法從病原體中檢測核酸是診斷檢測的一種基本解決方案。然而,大多數(shù)二代測序平臺需要大量投資,而且病毒基因組學(xué)還需要大量的實驗室準(zhǔn)備工作,包括離心、過濾和核酸酶處理,以丟棄構(gòu)成現(xiàn)有大部分核酸的細(xì)菌和宿主核酸。此外,樣本中的病毒核酸含量非常低,在二代測序分析之前需要對這些基因組進(jìn)行靶向或隨機(jī)擴(kuò)增,擴(kuò)增可能會引起偏差。以上這些因素導(dǎo)致從樣本采集到生成診斷報告需要花費大量時間,阻礙了快速診斷的發(fā)展。
掌上納米孔測序儀(MinION 測序儀)是一種最新的基于Nanopore 測序的微型測序儀,僅有U 盤大小,十分便攜。Theuns 等[19]用MinION 測序儀對用細(xì)胞培養(yǎng)的豬流行性腹瀉病毒和輪狀病毒A 進(jìn)行測序,測序開始后7 s 便檢測到序列,3 h 后測序深度可達(dá)19.2~103.5X。在Theuns 等[19]人對細(xì)胞培養(yǎng)的病毒鑒定成功后,他們通過對一只1 周大的乳豬的糞便樣本進(jìn)行分 析,進(jìn)一步測試了MinION 的性能,結(jié)果表明MinION 可以快速檢測腸病毒。新城疫(NDV)是家禽養(yǎng)殖業(yè)面臨的全球性挑戰(zhàn),對新城疫病毒(NDV)的快速識別和毒力預(yù)測能夠有效提高管理效率。Butt 等[20]也使用MinION測序儀對33 個雞蛋分離物樣本(其中15 個NDV 基因型和15 個臨床樣本)進(jìn)行測序分析,并與Miseq 測序進(jìn)行比較,兩者都能準(zhǔn)確預(yù)測到毒力和基因型,而且MinION 測序和MiSeq 測序的序列結(jié)果基本一致。
總的來說,雖然這些檢測需要在更多病毒更多情況下進(jìn)行更廣泛的驗證,但在不久的將來,這種新技術(shù)將改變診斷的方式。屆時,一個樣本中所有病毒和其他病原體的完整概述遺傳信息將只需幾分鐘在一個讀數(shù)中給出,而不需要不同的診斷分析。
2.3 在表觀遺傳學(xué)領(lǐng)域的應(yīng)用 表觀遺傳修飾在基因表達(dá)的抑制、胚胎發(fā)育的調(diào)控和細(xì)胞染色質(zhì)結(jié)構(gòu)的測定等方面具有重要影響,例如細(xì)菌表觀遺傳修飾在細(xì)胞應(yīng)激反應(yīng)、DNA 復(fù)制、分離、耐藥等過程中起著關(guān)鍵作用。在以往的表觀遺傳修飾檢測中,亞硫酸氫鹽測序是在二代測序平臺上最常用的全基因組甲基化模式檢測方法,它需要對亞硫酸氫鹽處理過和未處理過的DNA 進(jìn)行測序,并且需要比較這兩個序列的讀長,該處理過程繁瑣且效率有限。而且由于二代測序缺乏簡單的方法來確定大多數(shù)DNA 修飾的位置,許多DNA 修飾通常被忽略[21]。而利用三代測序技術(shù)檢測細(xì)菌表觀遺傳修飾能夠?qū)崟r檢測DNA 的合成狀況并能夠分析測序過程中各種類型的DNA 修飾(包括某些類型甲基化m6A、m4C、m5C 在內(nèi)的堿基修飾),無需DNA 預(yù)處理或擴(kuò)增[22]。Rand 等[22]使用MinION 裝置檢測了大腸桿菌不同生長階段基因組DNA 甲基化水平的變化,研究者用20 X 的測序深度準(zhǔn)確地繪制了大腸桿菌DNA 中96%細(xì)胞因子的甲基化狀態(tài)。2017 年,Castro-Wallace 等[23]利用MinION 納米孔測序儀進(jìn)行了極端環(huán)境太空站下細(xì)菌的基因組測序、組裝、甲基化等研究,結(jié)果表明該測序儀可以在國際空間站上進(jìn)行快速的現(xiàn)場診斷和微生物鑒定,并且可以在任何空間環(huán)境中進(jìn)行大規(guī)模的微生物鑒定。簡而言之,三代測序相比于目前標(biāo)準(zhǔn)的亞硫酸氫鹽測序可以提供新的見解,而且具有更大的優(yōu)勢,是一種高效、強大的DNA 堿基特征識別方法。
與一代測序的低通量、二代測序的短讀長相比,三代測序做到了高通量、長讀長,長讀長能夠有效減少基因組拼接的成本,節(jié)省計算的內(nèi)存和時間,在原理上也避免了PCR 的擴(kuò)增錯誤,同時可以直接應(yīng)用在RNA 測序、DNA 甲基化等研究上。新興的三代長讀長測序技術(shù)以及相關(guān)的生物信息學(xué)軟件,使得人們?yōu)樵趧又参锷蠘?gòu)建出越來越多高質(zhì)量的基因組、轉(zhuǎn)錄組、表觀基因組成為可能。三代測序帶來的更高質(zhì)量的參考基因組和整個染色體更好的分辨率,促進(jìn)了基因組各個方面的分析:更完整和更準(zhǔn)確的基因表達(dá)、更好地測定臨床變異,改進(jìn)的調(diào)控區(qū)域和其他重要基因元件的定位,改進(jìn)的等位基因特異性的分型。
然而三代測序仍存在一些重要限制因素:堿基錯誤率太高、依賴DNA 聚合酶的活性、成本高、生物信息軟件不夠豐富等。因此,對這些因素的改善有益于促進(jìn)三代測序的應(yīng)用。雖然三代測序的堿基錯誤率遠(yuǎn)高于一代測序和二代測序,但是利用先進(jìn)的生物信息學(xué)方法,讀長中單個核苷酸測序的錯誤率對組裝序列準(zhǔn)確性的影響相對較小,因為在具有足夠測序深度的情況下(30X或更高),它們可以有效地將每個核苷酸測序的錯誤率由20%降低到1%以下[24]。不過這也帶來了成本的提高,三代測序的測序成本遠(yuǎn)高于二代測序,所以僅用三代測序進(jìn)行大規(guī)模群體應(yīng)用目前是不現(xiàn)實的。因此,將廉價的二代測序與三代測序進(jìn)行結(jié)合分析是有必要的。比如利用二代測序?qū)θ鷾y序進(jìn)行校正,利用相對較少的由長讀長測序產(chǎn)生的高質(zhì)量參考基因組來改進(jìn)之前僅用短讀長測序產(chǎn)生的大量基因組的分析。另一個重要研究成本便是數(shù)據(jù)的計算,這些測序數(shù)據(jù)的計算需要大量的數(shù)據(jù)存儲和計算成本。因此,還需要進(jìn)行更多的算法和系統(tǒng)研究,使得分析更快、更廉價、更實用。目前新的技術(shù)如機(jī)器學(xué)習(xí)技術(shù)、深度學(xué)習(xí)技術(shù)等,可以用來進(jìn)一步提高序列的準(zhǔn)確性,或改進(jìn)對基因組變異或表觀遺傳修飾的檢測。因此新的下游校正軟件、變量調(diào)用軟件和可視化工具等都有待于相關(guān)研究者的進(jìn)一步開發(fā)。
相信對三代測序限制因素的改進(jìn)能使得三代測序的應(yīng)用范圍和應(yīng)用規(guī)模越來越大,諸如應(yīng)用在宏基因組學(xué)和泛基因組學(xué)的發(fā)展上,促進(jìn)在諸多物種上的研究。這些研究不但可以促進(jìn)人們對生命科學(xué)的進(jìn)一步了解,而且還可以應(yīng)用在精準(zhǔn)醫(yī)學(xué)上,例如從基因的水平上來對疾病進(jìn)行預(yù)防,促進(jìn)“全民小康”的實現(xiàn)。