崔夢楠,郭彥,武雅蓉,裴廣倩,崔玉軍
綜 述
高通量測序文庫質(zhì)量控制技術(shù)研究進(jìn)展
崔夢楠,郭彥,武雅蓉,裴廣倩,崔玉軍
軍事科學(xué)院軍事醫(yī)學(xué)研究院微生物流行病研究所,北京 100071
作為生命科學(xué)和醫(yī)學(xué)領(lǐng)域中的關(guān)鍵性支撐技術(shù),高通量測序已得到快速發(fā)展并日趨成熟。該技術(shù)工作流程可分為核酸提取、文庫構(gòu)建、上機測序、數(shù)據(jù)分析等,其中文庫構(gòu)建是承上啟下的關(guān)鍵步驟,文庫構(gòu)建的效果受制于上游樣品質(zhì)量,同時會對測序數(shù)據(jù)產(chǎn)出后的數(shù)據(jù)分析造成影響。對文庫構(gòu)建質(zhì)量控制技術(shù)的選擇和實施是提高結(jié)果可靠性、降低測序數(shù)據(jù)誤差的重要保證。本文對文庫構(gòu)建質(zhì)量控制技術(shù)進(jìn)行深入綜述,總結(jié)評價其原理、優(yōu)缺點、適用范圍,并對實際應(yīng)用場景中相關(guān)技術(shù)的選擇進(jìn)行了論述,以期為科研人員、疾病預(yù)防控制人員等在選擇文庫質(zhì)量控制技術(shù)時提供理論依據(jù)與參考,從而促進(jìn)高通量測序工作的質(zhì)量和效率。
高通量測序文庫;文庫濃度;文庫大小分布;質(zhì)量控制;技術(shù)評價
高通量測序又稱下一代測序(next generation sequencing),相較于Sanger測序,通量高,運行一次能讀取幾十萬到幾百萬條DNA分子的序列,在鑒定病原、揭示病原微生物變異與進(jìn)化、微生物群落組成等方面具有獨特的優(yōu)勢[1~3],已被廣泛應(yīng)用在生命科學(xué)和醫(yī)學(xué)領(lǐng)域[4]。由于高通量測序儀無法識別天然的DNA分子,所以測序前需進(jìn)行文庫的構(gòu)建,即在DNA分子上連接接頭序列,使之能夠被測序儀捕獲,進(jìn)行克隆擴增反應(yīng)以激發(fā)信號[5]。例如,Illumina測序采取了邊合成邊測序,通過橋式PCR形成簇,將文庫序列與測序芯片(flow cell)連接固定。
文庫構(gòu)建的實驗流程雖然較為繁瑣復(fù)雜,但意義重大。文庫的質(zhì)量與樣品的質(zhì)量具有一定的相關(guān)性,其在一定程度上可識別質(zhì)量較差或濃度不足的樣品,低質(zhì)量的樣品會影響文庫的轉(zhuǎn)化率、測序的深度、復(fù)雜性和均一性,同時對質(zhì)量高的文庫進(jìn)行上機測序也是測序成功的前提。對質(zhì)量不合格的文庫進(jìn)行上機測序會降低數(shù)據(jù)的產(chǎn)出,達(dá)不到有效數(shù)據(jù)量進(jìn)而影響下游分析,甚至?xí)?dǎo)致測序失敗,無法充分發(fā)揮測序平臺的功能,浪費樣品、昂貴的試劑、用戶時間和儀器[6]。此外一張芯片的理論數(shù)據(jù)量一般遠(yuǎn)遠(yuǎn)大于單個樣品產(chǎn)生的實際測序數(shù)據(jù)量,在實際操作過程中,往往對多樣品文庫進(jìn)行混合(pooling)[7],以此來提高經(jīng)濟效益、時間效益和通量。當(dāng)進(jìn)行上機測序的文庫濃度較低時,產(chǎn)生的有效數(shù)據(jù)量較少,增大測序成本、延長測序周期;當(dāng)文庫濃度較高時,影響上機測序時的捕獲效率,嚴(yán)重時會導(dǎo)致測序異常;當(dāng)部分文庫濃度較高、部分文庫濃度較低時,會造成樣品的測序深度不同,較高的測序深度會加重數(shù)據(jù)處理負(fù)擔(dān),提高測序成本;較低測序深度可能會導(dǎo)致一些基因組區(qū)域的覆蓋不足,影響特定區(qū)域的檢測能力,結(jié)果可信度較差。因此,對文庫的質(zhì)量控制是實現(xiàn)最優(yōu)數(shù)據(jù)產(chǎn)量、提高實驗室效率和測序通量的重要保障。
文庫的質(zhì)量控制技術(shù)通常包括對文庫濃度的評價和大小分布的評價,常用的濃度測定技術(shù)有紫外吸收技術(shù)[8~10]、熒光染料技術(shù)[11~13]、實時熒光定量PCR(quantitative real-time PCR, qPCR)[14]技術(shù)和微滴數(shù)字PCR(droplet digital PCR,ddPCR)技術(shù)[15]等。常用的大小分布測定技術(shù)有瓊脂糖凝膠電泳技術(shù)[16]和微流控芯片技術(shù)[17]等。目前國內(nèi)外領(lǐng)域?qū)@些質(zhì)量控制技術(shù)缺乏系統(tǒng)性的評價,本文從各技術(shù)的原理、優(yōu)缺點、適用范圍等進(jìn)行分析,同時也對常見技術(shù)進(jìn)行橫向?qū)Ρ?,總結(jié)了不同技術(shù)的應(yīng)用場景,并展望了文庫質(zhì)量控制技術(shù)的發(fā)展,以期為文庫的評價、文庫混合等提供可靠的選擇依據(jù),為獲得高質(zhì)量的測序數(shù)據(jù)奠定基礎(chǔ),進(jìn)而提高測序通量、縮短測序周期、降低測序成本。
紫外吸收技術(shù)是利用核酸的紫外吸收特性進(jìn)行濃度定量,是較常用的技術(shù),常用的儀器有美國賽默飛公司的NanoDrop。NanoDrop在測定前不需要進(jìn)行額外的操作,是一種簡單、快速的測定文庫質(zhì)量技術(shù),但是靈敏度較低(1ng/μL)。Hussing等[18]用NanoDrop測定擴增子文庫的濃度,發(fā)現(xiàn)濃度被高估,原因可能是雙鏈DNA、單鏈DNA、游離核苷酸等在260nm處均有光吸收信號,敏感性較差。當(dāng)文庫濃度越低時,NanoDrop的測定值越不穩(wěn)定,波動越大。Harris等[19]對一個文庫通過NanoDrop進(jìn)行三次重復(fù)測定,評價其精確度,結(jié)果表明,變異系數(shù)較高,為12%,變異系數(shù)越高,表明均一化程度越低。Hosomichi等[20]先以NanoDrop定量文庫后再以等摩爾比例混合上機,發(fā)現(xiàn)文庫的覆蓋度變化較大??梢?,紫外吸收測量法存在著一定的弊端,究其原因:一是對DNA、RNA、蛋白質(zhì)沒有選擇性;二是其絕對值受其他污染物和堿基組成的影響較大;三是當(dāng)DNA濃度較低時,精確性較差[21]。因此,NanoDrop適用于文庫的初檢或者作為不具有其他高靈敏度檢測技術(shù)時的替代品。
熒光染料技術(shù)是通過測定染料與DNA文庫結(jié)合時發(fā)出的熒光強度來定量DNA文庫,熒光強度與DNA濃度成正比。熒光染料法操作便捷、快速、靈敏度較高、成本較低[22]。常用的定量DNA文庫的熒光染料有Hoechst 33258和PicoGreen。Hoechst 33258染料能檢測低至10pg/μL的DNA,PicoGreen染料能夠定量低至25pg/μL的dsDNA。Qubit (美國賽默飛公司)是典型的通過熒光染料法定量DNA文庫的儀器。與NanoDrop相比,Qubit最顯著的特征是能提供更可靠的定量結(jié)果,準(zhǔn)確率高。當(dāng)定量10 ng/μL的DNA時,NanoDrop的測定錯誤率高達(dá)5%,而Qubit僅為1%[23]。當(dāng)定量0.5 ng/μL的DNA時,采用Qubit進(jìn)行10次重復(fù)測定,平均值為0.53ng/μL,95%置信區(qū)間為0.47~0.60 ng/μL[24]。當(dāng)樣品質(zhì)量較差時,Qubit定量的成功率為80%[21]。
采用Qubit定量的DNA文庫濃度高于基于電泳定量的濃度,與Qubit不能區(qū)分不同長度的DNA有關(guān),使得引物二聚體、接頭二聚體、未連接接頭的gDNA、PCR產(chǎn)物等被計算在內(nèi)[18]。有研究表明,當(dāng)使用PicoGreen染料時,定量結(jié)果受DNA片段大小分布的影響,濃度隨片段的增加而降低[25]。當(dāng)長度小于23kb時,濃度被低估[26]。Qubit定量是一個較便宜、較精確的定量平臺,操作流程快速簡便,但是每次只能對一個樣品進(jìn)行檢測,當(dāng)樣品數(shù)量較多時,耗費時間較長。
qPCR技術(shù)是指在PCR反應(yīng)體系中加入熒光基團(tuán),通過監(jiān)測熒光信號的變化來定量濃度。由于其特異性引物的存在,qPCR技術(shù)能夠估計出文庫中可擴增的目標(biāo)片段的數(shù)量,具有較高的敏感性和特異性,能夠準(zhǔn)確排除單端或雙端都不連接接頭的不可測序文庫的干擾,在準(zhǔn)確定量在5′和3′端連接接頭的分子片段時具有明顯優(yōu)勢。目前,根據(jù)熒光標(biāo)記的方法不同,qPCR分析檢測技術(shù)分為基于熒光探針法(TaqMan)[27]和熒光染料法(SYBR-Green)[28]。由于SYBR-Green 法不需要設(shè)計熒光探針,方法更為靈活且便宜[29]。Dang等[30]研究表明,TaqMan法和SYBR法在定量文庫濃度上具有相似性。通過qPCR技術(shù)定量的文庫濃度的好壞與利用測序后得到的數(shù)據(jù)進(jìn)行下游分析后的得到的總序列數(shù)多少具有相關(guān)性,這可能是因為后續(xù)的橋式PCR和乳濁液PCR也是PCR反應(yīng)[31,32]。
PCR反應(yīng)容易受多種因素的影響,是一個較敏感的反應(yīng)。增加PCR反應(yīng)會導(dǎo)致文庫序列異源雙鏈的減少,從而使序列的原始比率失真,影響測序質(zhì)量[33],并損失珍貴的樣品[34]。當(dāng)擴增過短的片段,高GC:AT含量和DNA/Taq聚合酶保真度較低時,序列的異質(zhì)性可能會隨著PCR的擴增反應(yīng)而改變[35]。qPCR文庫定量技術(shù)不是絕對定量方法,不能區(qū)分接頭二聚體,不適合接頭二聚體濃度高的片段,依賴于生物分析儀對文庫片段大小分布的檢測[28]。而在復(fù)雜的文庫中,引物和污染物會影響片段大小測定的準(zhǔn)確性,最終使得加載到測序芯片上的文庫的量有一定的波動。但與紫外吸收技術(shù)和熒光染料技術(shù)相比,雖然qPCR技術(shù)成本較高(為6~12倍),花費時間較長(為5~10倍)[18]。但是當(dāng)對文庫質(zhì)量要求較高時,還應(yīng)采用qPCR技術(shù)進(jìn)行定量,因為與測序試劑、重測序成本相比,qPCR技術(shù)與其他兩種定量技術(shù)在人工操作時間和價格的差距可忽略不計。
1999年,Volgelstein 等[36]提出了數(shù)字PCR (digital PCR,dPCR)。dPCR最開始主要有以下兩種模式:一是使用微孔或微流控室將反應(yīng)分成許多納升級反應(yīng)室,分別進(jìn)行PCR擴增,檢測陽性液滴數(shù)量,根據(jù)泊松分布進(jìn)行絕對定量。雖然微流控芯片簡化了反應(yīng)程序,但是難以實現(xiàn)大通量及規(guī)?;欢抢肂EAMing,該模式基于乳液PCR,即增強型dPCR。原理是在磁珠上進(jìn)行dPCR后,再利用熒光雜交探針標(biāo)記,最終被傳統(tǒng)的流式細(xì)胞讀取,該技術(shù)雖然通量高,但工作的復(fù)雜程度也較高。2011年,Hindson等[37]開發(fā)出了油包水液滴的ddPCR,即使用微流體和特定表面活性劑化學(xué)物質(zhì),將PCR樣品分成油包水液滴進(jìn)行dPCR,原理如圖1所示。在ddPCR中,一個樣本被分割成幾十至幾萬份微滴至不同的反應(yīng)單元,每個單元至少包含一個拷貝的目標(biāo)分子(DNA模板),目標(biāo)分子能在不同的反應(yīng)單元里進(jìn)行PCR擴增,擴增反應(yīng)結(jié)束后通過收集各個反應(yīng)單元的熒光信號,進(jìn)行統(tǒng)計學(xué)分析。ddPCR的操作流程和使用試劑與TaqMan探針法類似。
ddPCR可以根據(jù)簇的熒光強度的不同來判定文庫片段的質(zhì)量。基于ddPCR的兩端水解探針,當(dāng)文庫兩端連接P5、P7時,呈雙陽現(xiàn)象;當(dāng)只有接頭二聚體時,PCR擴增效率最高,熒光最強,能夠明顯地與前者區(qū)分開。PCR擴增效率與接頭二聚體的長度呈反比。當(dāng)文庫的質(zhì)量較好時,往往沿著雙正簇分布在FAM/HEX通道2D散點圖的右上方,無其他FAM熒光。Heredia等[15]對通過ddPCR定量后的12個文庫按等摩爾比例進(jìn)行上機測序,發(fā)現(xiàn)每個文庫對應(yīng)的序列數(shù)無顯著差別,該結(jié)果進(jìn)一步體現(xiàn)了ddPCR較強的質(zhì)量控制能力。ddPCR還能提供文庫構(gòu)建過程中的動態(tài)信息,如接頭連接、PCR擴增等。Aigrain等[37]用ddPCR技術(shù)從每個文庫構(gòu)建步驟后剩余的DNA含量、片段末端連接接頭的比例、擴增后帶有P5/P7的比例三個方面評價了不同文庫構(gòu)建方法,發(fā)現(xiàn)接頭連接效率是文庫構(gòu)建過程中的關(guān)鍵步驟,接頭連接效率較低會影響文庫的復(fù)雜度。不同的文庫構(gòu)建方法中,連接和PCR產(chǎn)量呈相反變化趨勢,這可能是因為起始DNA投入量低或者連接效率低,進(jìn)行PCR反應(yīng)的帶有DNA片段的接頭的量較少,也可能是因為連接效率較高或DNA投入量較大,大量的DNA進(jìn)行了PCR反應(yīng)。較高的連接率能夠保證樣品的多樣性,縮短所需的PCR循環(huán)數(shù),從而避免因PCR過程帶來的偏差[38]。
圖1 ddPCR的原理
A:微滴制備。配制含樣品、PCR酶、dNTP、緩沖液、特定引物、Taqman探針的反應(yīng)體系,并將反應(yīng)體系置于微滴發(fā)生器中,使一樣本被分割成幾十至幾萬份微滴至不同的反應(yīng)單元,每個反應(yīng)單元至少包含一個拷貝的目標(biāo)分子(DNA模板)。B:微滴PCR擴增。在每個反應(yīng)單元中單獨進(jìn)行PCR反應(yīng),只有含有目標(biāo)分子的微滴在PCR擴增后顯示出高熒光。C:微滴讀取和數(shù)據(jù)分析。讀取每個微滴熒光值,確定陰性、陽性微滴數(shù),并通過泊松統(tǒng)計分析計算原始樣品中目標(biāo)DNA模板濃度。
不同文庫濃度的質(zhì)量控制技術(shù)具有不同的優(yōu)劣勢(表1)。與前面的評價技術(shù)相比,ddPCR是絕對定量,不依賴于具有特定大小分布的標(biāo)準(zhǔn)品,不依賴于校準(zhǔn)物的擴增效率,避免了qPCR中真實樣品擴增效率可能與校準(zhǔn)物擴增效率不同的問題,是一種準(zhǔn)確度更高、置信度和可重復(fù)性更好的評價技術(shù)。
構(gòu)建好的文庫中可能會存在二聚體、小片段、大片段等非目的片段及片段峰過寬的問題,影響定量的準(zhǔn)確度、精確度,從而干擾下游的生物信息學(xué)分析,因此需要對文庫大小分布進(jìn)行雙重驗證。常見的檢測技術(shù)有傳統(tǒng)的瓊脂糖凝膠電泳、微流控芯片技術(shù)等。
瓊脂糖凝膠電泳技術(shù)基于待分離樣品中各種分子帶電性質(zhì)的差異以及分子本身的大小、形狀的不同,從而在通過瓊脂或瓊脂糖作支持的凝膠介質(zhì)時產(chǎn)生不同的遷移速度,來分離帶電分子,是一種較經(jīng)典的技術(shù),目前仍常用于鑒定和純化DNA片段。在電場作用下,DNA片段遷移距離與堿基對的對數(shù)成反比,可通過計算待測片段的移動距離與已知大小的標(biāo)準(zhǔn)品的移動距離的比例來定量未知片段的大小。瓊脂糖凝膠電泳需要配膠、加染料、制膠板、上樣/制樣、電泳、檢測等步驟,雖然原理、操作等較簡單,成本較低,但是操作時間較長,分離精度較低。Chang等[16]利用高溫高壓制備了充分溶解的高濃度瓊脂糖凝膠,發(fā)明了一種簡單易操作的灌膠塑料盒灌制黏稠的HAG垂直凝膠,改進(jìn)了適合小分子量核酸的緩沖液條件,可有效分離在10~100bp范圍內(nèi)相2bp或2nt的DNA片段,解決了瓊脂糖凝膠濃度較低,低分子量核酸分辨率較低的問題,并且制備過程中不涉及危險化學(xué)試劑,安全、無毒。
該技術(shù)常聯(lián)合采集設(shè)備來得到相應(yīng)的凝膠電泳圖像,對圖像的精確處理和分析尤為重要。Ziraldo等[39]開發(fā)了基于ImageJ的插件,該插件可以用于分析連續(xù)型或離散型凝膠模式,在離散型模式下,基于條帶的強度和寬度直接定量DNA分子的相對數(shù)量;在連續(xù)型模式下,通過從標(biāo)準(zhǔn)品衍生的疊加高斯電泳峰來預(yù)估DNA大小分布,是一種有效的且成本較低的分析文庫大小分布的方式。與美國安捷倫公司TapeStation儀器的定量結(jié)果具有較高的一致性,且在峰較平緩時檢測具有一定的優(yōu)勢,能夠處理較低的信噪比電泳圖。
表1 不同文庫濃度評價技術(shù)的比較
a來源于官網(wǎng)說明,https://assets.thermofisher.com/TFS-Assets/CAD/manuals/nd-1000-v3.8-users-manual-8%205x11.pdf;b來源于官網(wǎng)說明,https://www.thermofisher.cn/document-connect/document-connect.html?url=https://assets.thermofisher.cn/TFS-Assets%2FLSG%2Fma-nuals%2FMAN0017455_Qubit_1X_dsDNA_HS_Assay_Kit_UG.pdf;c來源于官網(wǎng)說明,https://www.bio-rad.com/sites/default/files/webroot/ web/pdf/lsr/literature/Bulletin_6407.pdf。
然而,由于傳統(tǒng)的瓊脂糖凝膠電泳分離精度較低、操作繁瑣、自動化程度低,在分離鑒定大量重疊片段時存在著一定的困難,因此還需要高精度、高自動化、高效率的技術(shù)來解決該問題。
微流控芯片技術(shù)最早由Manz和Widmer[40]于20世紀(jì)90年代提出,他們的研究表明了在微通道網(wǎng)絡(luò)中以電滲流為驅(qū)動力實施進(jìn)樣和電泳分離的可能性。隨著科學(xué)技術(shù)的發(fā)展,在芯片上構(gòu)造出電泳微流通道結(jié)構(gòu),包括進(jìn)樣系統(tǒng)、分離系統(tǒng)、檢測系統(tǒng)等,當(dāng)給予芯片一定的電壓時,樣品便在芯片上的顯微蝕刻管道中進(jìn)行毛細(xì)管電泳。在樣品流動過程中,不同DNA片段根據(jù)其大小被分離。微流控芯片電泳技術(shù)是集分離、檢測為一體的自動化、一體化、集成化的技術(shù)。
對芯片進(jìn)行改進(jìn)可以提高樣品的通量,縮短時間,提高分選效率。Loughran等[41]對芯片進(jìn)行修飾,構(gòu)建了40條平行并列的陣列電泳通道,并用二甲基丙烯酰胺-烯丙基縮水甘油醚控制電滲流,在6 min內(nèi)完成了10個DNA片段的分離檢測。劉科輝等[42]通過改變介質(zhì)和嵌入式熒光標(biāo)記染料,實現(xiàn)了無膠篩分和激光誘導(dǎo)熒光檢測,在75s內(nèi)分離了12條DNA片段。Sun等[17]開發(fā)了一種新的熒光片段分析試劑,搭配美國珀金埃爾默公司商業(yè)化片段分析儀LabChip GX Touch使用,該檢測技術(shù)整合了樣品分離、檢測、數(shù)據(jù)可視化和初步的數(shù)據(jù)分析報告,樣品加載和數(shù)據(jù)獲得過程是自動化的、快速化的,在96-孔板中最多可處理48個樣品,每個樣品處理時間為1 min。
目前,基于微流控芯片電泳技術(shù)的商業(yè)化平臺有美國安捷倫公司的Bioanalyzer、TapeStation、Fragment Analyzer,美國珀金埃爾默公司的GX Touch等。他們主要由能夠自動輸送流體的注射泵、激發(fā)染料的LED芯片、監(jiān)測熒光強度的變化的電荷耦合器件組成,無需進(jìn)行凝膠制備、電泳、染色、脫色、成像等操作步驟,減少與有害物質(zhì)的接觸,所需進(jìn)樣量、試劑量等少,有利于保護(hù)珍貴樣品,操作簡單安全、數(shù)據(jù)可視化、分析自動化。此外,與傳統(tǒng)的瓊脂糖凝膠電泳技術(shù)相比,微流控芯片電泳技術(shù)準(zhǔn)確度高、重復(fù)性好、靈敏度高。在500 bp片段的范圍內(nèi),一般商業(yè)類儀器的分辨率有3~5bp的誤差。Chiappetta等[43]通過計算ROC曲線得出Agilent 2100 Bioanalyzer (美國安捷倫公司)的靈敏度為86.7%,特異性為92.3%。當(dāng)內(nèi)標(biāo)與測定片段長度差異較大時,計算偏差也較大,優(yōu)化內(nèi)標(biāo)可進(jìn)一步提高重復(fù)性。王洪霞等[44]設(shè)計了與測序片段相近的內(nèi)標(biāo)用于校正片段,發(fā)現(xiàn)可以糾正重復(fù)性較差的缺點,具有相同VNTR位點數(shù)的菌株的電泳峰完全重疊。
相較于傳統(tǒng)的瓊脂糖凝膠電泳技術(shù),采用微流控芯片技術(shù)可以更好地、更精確地獲得文庫的大小及片段分布,且靈敏度更高,濃度低的片段也能被檢測到,檢測過程簡單方便、高效,是一種化學(xué)品消耗少、分析時間短、分離效率高的文庫大小分布定量技術(shù),但是芯片價格較昂貴,當(dāng)實驗室經(jīng)費緊張時,價格低廉的瓊脂糖凝膠電泳技術(shù)更受到青睞(表2)。
不同的文庫質(zhì)量控制技術(shù)各有優(yōu)缺點,在選擇時,應(yīng)根據(jù)實際需求和應(yīng)用場景,對成本、準(zhǔn)確度、精確度、時間、操作自動化、操作復(fù)雜度、投入量等進(jìn)行綜合考量。一般來說,成本和準(zhǔn)確度、精確度、操作復(fù)雜度成正比,和操作自動化成反比。
當(dāng)成本較寬松,但準(zhǔn)確度要求較高時,如臨床和法醫(yī)DNA實驗室,應(yīng)選擇qPCR分析技術(shù)對文庫進(jìn)行濃度質(zhì)量控制。qPCR分析是一種靈敏度較高的定量技術(shù),其定量值的大小與下游測序數(shù)據(jù)分析后的文庫覆蓋度具有較好的相關(guān)性;同時,該技術(shù)還能用于評估文庫中擴增的目標(biāo)分子的數(shù)量。雖然qPCR分析技術(shù)的成本較高,但與濃度質(zhì)量控制技術(shù)間的價格差異相比,因質(zhì)量控制不準(zhǔn)確而導(dǎo)致的測序失敗引起的測序試劑成本、重測序時間成本更高。因此,當(dāng)對文庫覆蓋度的均一性要求較高,且不計成本時,應(yīng)選擇準(zhǔn)確度、精確度較高的qPCR質(zhì)量控制技術(shù)。雖然ddPCR能夠?qū)ξ膸爝M(jìn)行絕對定量,并且能夠定量相對文庫大小分布、文庫構(gòu)建過程中產(chǎn)生的接頭二聚體的數(shù)量等,但因ddPCR操作較復(fù)雜,如微滴形成和PCR擴增、監(jiān)測需在不同的儀器中完成,在實際應(yīng)用中較少。
在需要壓縮成本,且能接受文庫覆蓋度的差異性波動時,可以選擇相對便宜、快速、簡單的熒光染料分析技術(shù),如Qubit。Qubit分析技術(shù)準(zhǔn)確度較高,當(dāng)用其測定已知濃度的雙鏈DNA寡核苷酸時,濃度測定值與理論值較接近,且當(dāng)濃度較低時(20~40pg/μL),也能被精確測定[45]。但是紫外吸收技術(shù)因其對DNA、RNA、蛋白質(zhì)沒有選擇性,準(zhǔn)確性、靈敏度都較差,在不具備其他高靈敏度檢測裝置時可用作文庫質(zhì)量控制的初檢。當(dāng)有其他技術(shù)選擇時,不推薦用于文庫濃度的測定。值得注意的是,Qubit分析技術(shù)不能區(qū)分不同長度的DNA,當(dāng)文庫中存在引物二聚體、接頭二聚體、未連接接頭的小片段、大片段時,會使文庫的實際濃度被高估。
表2 不同文庫大小分布評價技術(shù)的比較
文庫濃度的質(zhì)量控制技術(shù)通常需要和文庫大小分布的質(zhì)量控制技術(shù)協(xié)同應(yīng)用,因為qPCR分析技術(shù)、Qubit分析技術(shù)均對不同長度的DNA沒有選擇性。在考慮成本因素時,可選擇傳統(tǒng)的瓊脂糖凝膠電泳技術(shù)。不計成本時,可選擇基于微流控芯片電泳技術(shù)的商用化平臺,如美國安捷倫公司的Bioanalyzer、TapeStation、Fragment Analyzer、美國珀金埃爾默公司的GX Touch等。其中,Bioanalyzer和TapeStation操作簡便,但是同一批次運行的樣品量少,在這四種商業(yè)化儀器中,Bioanalyzer成本最高。Fragment Analyzer通量高,操作復(fù)雜,在無人值守的情況下,每24 h可分析上千個文庫。GX Touch雖然能夠提供可重復(fù)使用的芯片,但是清洗流程復(fù)雜,且在進(jìn)行文庫大小分布測定前需對文庫濃度進(jìn)行測定或估計,濃度過高會破壞芯片。此外,基于毛細(xì)管電泳技術(shù)的光鼎公司的Qsep也可實現(xiàn)對文庫大小分布的測定,其所需投入量低,僅為0.5 ng/μL,分離片段范圍可達(dá)15 bp~15 kb,運行一次可實現(xiàn)對96個文庫的檢測,單個文庫檢測時間大約為5 min。與基于微流控芯片電泳技術(shù)的商用化平臺相比,成本較低。
極端特殊情況時,在保證規(guī)范操作和下游數(shù)據(jù)謹(jǐn)慎分析的前提下,可忽略文庫的質(zhì)量控制結(jié)果。如樣本非常重要且難以或沒時間重新獲取時,即使文庫構(gòu)建結(jié)果不滿足質(zhì)量控制要求,也可嘗試進(jìn)行下一步測序操作。2019年底新冠肺炎疫情爆發(fā)時,Chen等[1]從兩名感染異常肺炎的患者肺泡灌洗液樣本中提取總RNA,通過Qubit對提取后的濃度進(jìn)行測定,發(fā)現(xiàn)濃度低于0.5ng/μL(當(dāng)加入1μL樣品時,Qubit的檢測下限),后采取靶向目標(biāo)的Trio RNA-Seq試劑盒(瑞士帝肯公司)構(gòu)建文庫,應(yīng)用Illumina Miseq平臺進(jìn)行雙端測序。經(jīng)生物信息學(xué)分析,鑒定出一種新型的冠狀病毒,為疫情防控奠定了基礎(chǔ)。
高通量測序技術(shù)已經(jīng)從專業(yè)實驗室走向常規(guī)分子生物學(xué)實驗室和檢測診斷實驗室。隨著其應(yīng)用范圍的不斷擴展,整個測序流程的質(zhì)量控制變得日益關(guān)鍵。文庫構(gòu)建作為高通量測序中的核心環(huán)節(jié)之一,其質(zhì)量控制對于確保獲得準(zhǔn)確和有用的測序數(shù)據(jù)至關(guān)重要。目前高通量測序文庫質(zhì)量控制技術(shù)可選擇性較多,但各自存在局限性,例如,一些準(zhǔn)確度較高的技術(shù)操作復(fù)雜,難以自動化;而成本低、操作簡便的技術(shù),則可能在文庫濃度和片段大小的準(zhǔn)確測定方面有所不足。因此,應(yīng)根據(jù)不同的實驗條件和目的,靈活選擇合適的文庫構(gòu)建質(zhì)量控制技術(shù)。
隨著生物技術(shù)的不斷進(jìn)步,特別是高通量測序平臺技術(shù)的高速發(fā)展,我們有理由相信文庫構(gòu)建質(zhì)量控制技術(shù)將持續(xù)得到改進(jìn)和完善,未來的技術(shù)發(fā)展將趨向智能化、簡便化和低成本化,而這將進(jìn)一步簡化操作流程,降低對專業(yè)人員和實驗室條件的依賴。這些進(jìn)步將使高通量測序技術(shù)在生命科學(xué)研究、診斷與個性化醫(yī)療、公共衛(wèi)生監(jiān)測等領(lǐng)域發(fā)揮更大作用,為社會帶來更加顯著的應(yīng)用價值。
[1] Chen LJ, Liu WY, Zhang Q, Xu K, Ye GM, Wu WC, Sun ZY, Liu F, Wu KL, Zhong B, Mei Y, Zhang WX, Chen Y, Li YR, Shi M, Lan K, Liu YL. RNA based mNGS approach identifies a novel human coronavirus from two individual pneumonia cases in 2019 Wuhan outbreak., 2020, 9(1): 313–319.
[2] Zheng HY, Yan L, Yang C, Wu YR, Qin JL, Hao TY, Yang DJ, Guo YC, Pei XY, Zhao TY, Cui YJ. Population genomics study of Vibrio alginolyticus., 2021, 43(4): 350–361.鄭宏源, 閆琳, 楊超, 武雅蓉, 秦婧靚, 郝彤宇, 楊大進(jìn), 郭云昌, 裴曉燕, 趙彤言, 崔玉軍. 溶藻弧菌群體基因組學(xué)研究. 遺傳, 2021, 43(4): 350–361.
[3] Wang GZ, Long J, Zhuang Y, Leng X, Zhang YQ, Liu LBX, Fu JW, Chen Y, Li CQ, Zhou Y, Huang B, Feng CC. Application of metagenomic next-generation sequencing in the detection of pathogens in spinal infections., 2023, 23(6): 859–867.
[4] B?rsting C, Morling N. Next generation sequencing and its applications in forensic genetics., 2015, 18: 78–89.
[5] Liu YL, Xu C, Sun YZ, Chen X, Dong WP, Yang XY, Zhou SL. Method for quick DNA barcode reference library construction., 2021, 11(17): 11627–11638.
[6] Laurie MT, Bertout JA, Taylor SD, Burton JN, Shendure JA, Bielas JH. Simultaneous digital quantification and fluorescence-based size characterization of massively parallel sequencing libraries., 2013, 55(2): 61–67.
[7] Modi A, Vai S, Caramelli D, Lari M. The Illumina sequencing protocol and the NovaSeq 6000 system., 2021, 2242: 15–42.
[8] Glasel JA. Validity of nucleic acid purities monitored by 260nm/280nm absorbance ratios., 1995, 18(1): 62–63.
[9] Huberman JA. Importance of measuring nucleic acid absorbance at 240 nm as well as at 260 and 280 nm., 1995, 18(4): 636.
[10] Manchester KL. Value of A260/A280 ratios for measurement of purity of nucleic acids., 1995, 19(2): 208–210.
[11] Singer VL, Jones LJ, Yue ST, Haugland RP. Characterization of picoGreen reagent and development of a fluorescence-based solution assay for double-stranded dna quantitation., 1997, 249(2): 228–238.
[12] Le Pecq JB, Paoletti C. A new fluorometric method for RNA and DNA determination., 1966, 17(1): 100–107.
[13] Kapuscinski J. DAPI: a DMA-specific fluorescent probe., 1995, 70(5): 220–233.
[14] Heydt C, Fassunke J, Künstlinger H, Ihle MA, K?nig K, Heukamp LC, Schildhaus HU, Odenthal M, Büttner R, Merkelbach-Bruse S. Comparison of pre-analytical FFPE sample preparation methods and their impact on massively parallel sequencing in routine diagnostics., 2014, 9(8): e104566.
[15] Heredia NJ. Droplet Digital? PCR next-generation sequencing library qc assay., 2018, 1768: 477–488.
[16] Chang LL, Wang D, Peng CZ, Wang Q, Xu BQ, Tong Z. A method for high-concentration agarose gel preparation and its application in high-resolution separation of low- molecular-weight nucleic acids and proteins., 2023, 231: 123358.
[17] Sun YL, Lu ZX, Miller M, Perroud T, Tong YH. Application of microfluidic chip electrophoresis for high-throughput nucleic acid fluorescence fragment analysis assays., 2023, 5(1): lqad011.
[18] Hussing C, Kampmann ML, Mogensen HS, B?rsting C, Morling N. Quantification of massively parallel sequencing libraries -a comparative study of eight methods., 2018, 8(1): 1110.
[19] Harris JK, Sahl JW, Castoe TA, Wagner BD, Pollock DD, Spear JR. Comparison of normalization methods for construction of large, multiplex amplicon pools for next-generation sequencing., 2010, 76(12): 3863–3868.
[20] Hosomichi K, Mitsunaga S, Nagasaki H, Inoue I. A bead-based normalization for uniform sequencing depth (BeNUS) protocol for multi-samples sequencing exemplified by HLA-B., 2014, 15(1): 645.
[21] Masago K, Fujita S, Oya Y, Takahashi Y, Matsushita H, Sasaki E, Kuroda H. Comparison between fluorimetry (qubit) and spectrophotometry (nanodrop) in the quantification of DNA and RNA extracted from frozen and FFPE tissues from lung cancer patients: a real-world use of genomic tests., 2021, 57(12): 1375.
[22] Tuononen K, M?ki-Nevala S, Sarhadi VK, Wirtanen A, R?nty M, Salmenkivi K, Andrews JM, Telaranta-Keerie AI, Hannula S, Lagstr?m S, Ellonen P, Knuuttila A, Knuutila S. Comparison of targeted next-generation sequencing (NGS) and real-time PCR in the detection of EGFR, KRAS, and BRAF mutations on formalin-fixed, paraffin-embedded tumor material of non-small cell lung carcinoma-superiority of NGS., 2013, 52(5): 503–511.
[23] Sah S, Chen LJ, Houghton J, Kemppainen J, Marko AC, Zeigler R, Latham GJ. Functional DNA quantification guides accurate next-generation sequencing mutation detection in formalin-fixed, paraffin-embedded tumor biopsies., 2013, 5(8): 77.
[24] Simbolo M, Gottardi M, Corbo V, Fassan M, Mafficini A, Malpeli G, Lawlor RT, Scarpa A. DNA qualification workflow for next generation sequencing of histopatho-logical samples., 2013, 8(6): e62692.
[25] Holden MJ, Haynes RJ, Rabb SA, Satija N, Yang K, Blasic JR. Factors affecting quantification of total DNA by UV spectroscopy and PicoGreen fluorescence., 2009, 57(16): 7221–7226.
[26] Georgiou CD, Papapostolou I. Assay for the quantification of intact/fragmented genomic DNA., 2006, 358(2): 247–256.
[27] Navarro E, Serrano-Heras G, Casta?o MJ, Solera J. Real-time PCR detection chemistry., 2015, 439: 231–250.
[28] Robin JD, Ludlow AT, LaRanger R, Wright WE, Shay JW. Comparison of DNA quantification methods for next generation sequencing., 2016, 6: 24067.
[29] Arya M, Shergill IS, Williamson M, Gommersall L, Arya N, Patel HRH. Basic principles of real-time quantitative PCR., 2005, 5(2): 209–219.
[30] Dang J, Mendez P, Lee S, Kim JW, Yoon JH, Kim TW, Sailey CJ, Jablons DM, Kim IJ. Development of a robust DNA quality and quantity assessment qPCR assay for targeted next-generation sequencing library preparation., 2016, 49(4): 1755–1765.
[31] Dressman D, Yan H, Traverso G, Kinzler KW, Vogelstein B. Transforming single DNA molecules into fluorescent magnetic particles for detection and enumeration of genetic variations., 2003, 100(15): 8817–8822.
[32] Fedurco M, Romieu A, Williams S, Lawrence I, Turcatti G. BTA, a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies., 2006, 34(3): e22.
[33] Parkinson NJ, Maslau S, Ferneyhough B, Zhang G, Gregory L, Buck D, Ragoussis J, Ponting CP, Fischer MD. Preparation of high-quality next-generation sequencing libraries from picogram quantities of target DNA., 2012, 22(1): 125–133.
[34] Li MK, Stoneking M. A new approach for detecting low-level mutations in next-generation sequence data., 2012, 13(5): R34.
[35] Mamedov TG, Pienaar E, Whitney SE, TerMaat JR, Carvill G, Goliath R, Subramanian A, Viljoen HJ. A fundamental study of the PCR amplification of GC-rich DNA templates., 2008, 32(6): 452–457.
[36] Vogelstein B, Kinzler KW. Digital PCR., 1999, 96(16): 9236–9241.
[37] Aigrain L, Gu Y, Quail MA. Quantitation of next generation sequencing library preparation protocol efficiencies using droplet digital PCR assays-a systematic comparison of DNA library preparation kits for Illumina sequencing., 2016, 17: 458.
[38] Seguin-Orlando A, Schubert M, Clary J, Stagegaard J, Alberdi MT, Prado JL, Prieto A, Willerslev E, Orlando L. Ligation bias in Illumina next-generation DNA libraries: implications for sequencing ancient genomes., 2013, 8(10): e78575.
[39] Ziraldo R, Shoura MJ, Fire AZ, Levene SD. Deconvolution of nucleic-acid length distributions: a gel electrophoresis analysis tool and applications., 2019, 47(16): e92.
[40] Manz A, Graber N, Widmer HM. Miniaturized total chemical analysis systems: a novel concept for chemical sensing., 1990, 1(1–6): 244–248.
[41] Loughran M, Cretich M, Chiari M, Suzuki H. Separation of DNA in a versatile microchip., 2005, 107(2): 975–979.
[42] Liu KH, Liang N, Yao B, Luo GA, Wang YM. Development of Laser-induced fluorescence detector for deoxyribonucleic acid fragments seperation by micro-fluidic chip., 2005, 33(9): 1350–1353.劉科輝, 梁寧, 姚波, 羅國安, 王義明. 微流控芯片-激光誘導(dǎo)熒光檢測器的研制及核酸片段分離檢測中應(yīng)用. 分析化學(xué), 2005, 33(9): 1350–1353.
[43] Chiappetta C, Anile M, Leopizzi M, Venuta F, Della Rocca C. Use of a new generation of capillary electrophoresis to quantify circulating free DNA in non-small cell lung cancer., 2013, 425: 93–96.
[44] Wang HX, Cui ZG, Xiong LF, Zhang LJ, Kan B. Study on multiple locus VNTRs analysis ofby nucleic acid separation technology based on microfluidics., 2009, 24(3): 209–212.王洪霞, 崔志剛, 熊禮鳳, 章麗娟, 闞飆. 基于微流控的核酸片段分離技術(shù)用于傷寒沙門菌MLVA分型的研究. 疾病監(jiān)測, 2009, 24(3): 209–212.
[45] Hussing C, Kampmann ML, Mogensen HS, B?rsting C, Morling N. Comparison of techniques for quantification of next-generation sequencing libraries., 2015, 5: e276–e278.
Progress on the quality control technology of next generation sequencing library
Mengnan Cui, Yan Guo, Yarong Wu, Guangqian Pei, Yujun Cui
100071,
As a key supporting technology in the fields of life sciences and medicine, high-throughput sequencing has developed rapidly and become increasingly mature. The workflow of this technology can be divided into nucleic acid extraction, library construction, sequencing, and data analysis. Among these, library construction is a pivotal step that bridges the previous and subsequent stages. The effectiveness of library construction is contingent on the quality of upstream samples and also impacts the data analysis following sequence data output. The selection and implementation of library construction quality control techniques are crucial for enhancing the reliability of results and reducing errors in sequencing data. This review provides an in-depth discussion of library construction quality control techniques, summarizing and evaluating their principles, advantages and disadvantages, and applicability. It also discusses the selection of relevant technologies in practical application scenarios. The aim is to offer theoretical foundations and references for researchers, disease prevention and control personnel, and others when choosing library quality control techniques, thereby promoting the quality and efficiency of high-throughput sequencing work.
next generation sequencing library; library concentration; size distribution of the library; quality control; technology analysis
2023-10-23;
2023-12-22;
2024-01-05
崔夢楠,碩士,實驗師,高通量測序和數(shù)據(jù)解讀。E-mail:mengncui@163.com
崔玉軍,博士,研究員,基因組流行病學(xué)。E-mail:cuiyujun.new@gmail.com
10.16288/j.yczz.23-262
(責(zé)任編委: 劉鋼)