国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

血漿游離DNA全基因組甲基化測序的實用穩(wěn)定性評估

2019-12-28 03:07:40方歡鐘碧溪魏磊張祥林張威汪小我
生物工程學(xué)報 2019年12期
關(guān)鍵詞:建庫文庫甲基化

方歡,鐘碧溪,魏磊,張祥林,張威,汪小我

生物工程與大健康

汪小我 清華大學(xué)自動化系長聘副教授,博士生導(dǎo)師。主要研究方向為模式識別、生物信息學(xué)、合成生物學(xué)。在、等學(xué)術(shù)期刊發(fā)表論文40余篇,被SCI他引3 000余次。曾獲全國優(yōu)秀博士學(xué)位論文獎、國家自然科學(xué)基金優(yōu)秀青年基金、教育部新世紀優(yōu)秀人才、中國自動化學(xué)會青年科學(xué)家獎等。目前擔任中國生物工程學(xué)會青年工作委員會主任、中國人工智能學(xué)會生物信息學(xué)與人工生命專委會副主任、中國自動化學(xué)會青工委常委、中國計算機學(xué)會生物信息學(xué)專委會常委等。

血漿游離DNA全基因組甲基化測序的實用穩(wěn)定性評估

方歡,鐘碧溪,魏磊,張祥林,張威,汪小我

清華大學(xué) 自動化系 合成與系統(tǒng)生物學(xué)研究中心 生物信息學(xué)教育部重點實驗室 北京信息科學(xué)與技術(shù)國家研究中心生物信息學(xué)研究部,北京 100084

隨著液體活檢技術(shù)的發(fā)展,血漿游離DNA成為當前的研究熱點之一。血漿游離DNA的全基因組甲基化測序被認為在癌癥檢測等醫(yī)學(xué)應(yīng)用擁有巨大潛力,但目前尚缺乏針對該實驗流程的實用穩(wěn)定性評估。文中利用兩名志愿者在不同時間采樣的血漿游離DNA,在不同實驗平臺分別進行DNA甲基化的重亞硫酸鹽轉(zhuǎn)化前建庫 (Pre-BS)、轉(zhuǎn)化后建庫 (Post-BS) 和常規(guī)DNA建庫,獲取多因素影響下的測序數(shù)據(jù)樣本。在此基礎(chǔ)上,建立了一套血漿游離DNA測序數(shù)據(jù)分析的質(zhì)量控制參考流程,綜合評估了血液采集提取、游離DNA建庫測序過程的實用穩(wěn)定性,為血漿游離DNA全基因組甲基化測序應(yīng)用于臨床液體活檢提供實用性的基礎(chǔ)參考。

血漿游離DNA,全基因組,DNA甲基化,片段化模式,微量DNA建庫

細胞游離DNA (Cell-free DNA,cfDNA) 廣泛存在于人體的血液、唾液、尿液、糞便、腦脊液及其他體液中[1],是無創(chuàng)液體活檢技術(shù)中的重要標記物之一[2-3]。血漿游離DNA由全身各組織細胞的基因組經(jīng)過細胞凋亡、細胞壞死、主動分泌等斷裂釋放到血液中[4],攜帶了其來源細胞的基因組變異、DNA甲基化、核小體排布等多方面信息[5],可應(yīng)用于孕婦的無創(chuàng)產(chǎn)前檢測、器官移植受體的術(shù)后排異評估和癌癥的溯源檢測等領(lǐng) 域[6-8],具有極高的研究價值和應(yīng)用潛力。

血漿游離DNA的檢測方式多種多樣,按照檢測位點數(shù)量來分,包括基于PCR的單位點檢測[9-10]、基于雜交捕獲的基因芯片和靶向測序[11-13]、基于高通量測序的全基因組檢測[6,14]等;按照檢測的信息來分,包括檢測突變的有無[15]、染色體拷貝數(shù)的多少[16]、DNA甲基化的程度[17]、病原體的感染[18]等。隨著二代測序技術(shù)的發(fā)展,全基因組測序、多維度信息整合是液體活檢未來的發(fā)展趨勢[2]。血漿游離DNA的全基因組甲基化測序數(shù)據(jù)除了用以獲取DNA甲基化程度外,還蘊含著部分點突變、拷貝數(shù)變異、片段化模式的信息,具有極大的應(yīng)用潛力。然而,目前尚缺乏對血漿游離DNA全基因組甲基化數(shù)據(jù)中非甲基化信息的詳細論證與研究。

目前最常見的血漿游離DNA的全基因組甲基化檢測是基于全基因組重亞硫酸鹽測序 (Whole genome bisulfite sequencing,WGBS)。其基本原理為:在重亞硫酸鹽的作用下,DNA序列中非甲基化的胞嘧啶C會轉(zhuǎn)化為尿嘧啶U,經(jīng)過PCR擴增后變成胸腺嘧啶T,而甲基化的C則不變,將測序片段與人的基因組比對后,即可定量C位點的甲基化狀態(tài)。這一過程主要分為建庫測序?qū)嶒灪蛿?shù)據(jù)分析兩部分,其中,甲基化建庫方式分為轉(zhuǎn)化前建庫 (Pre-BS) 和轉(zhuǎn)化后建庫 (Post-BS) 兩種[19]。在重亞硫酸鹽轉(zhuǎn)化過程中DNA有可能被打斷。Pre-BS建庫在轉(zhuǎn)化之前連接測序接頭,部分DNA被打斷丟失,但測序獲得的序列均為真實的原始片段;Post-BS建庫在轉(zhuǎn)化之后連接測序接頭,避免了DNA因斷裂失去接頭而損失,但人工引入了被打斷的片段。因此,兩種建庫方式在檢出甲基化和片段化模式中各有利弊,Pre-BS保留了片段長度信息,Post-BS所需DNA的起始量更低。目前,測序公司對于Pre-BS建庫的送樣要求為1 μg,對于Post-BS建庫的送樣要求則至少為20 ng。而在研究型實驗室中,在使用更高成本的試劑的前提下,Pre-BS的起始量可低至10 ng,Post-BS的起始量則僅需0.5 ng。按照血漿游離DNA提取濃度為20 ng/mL計算,僅需抽取5 mL血液,獲取2–3 mL血漿即可滿足公司的Post-BS建庫和實驗室的Pre-BS建庫需求。

本研究從血漿游離DNA全基因組甲基化測序的實用性和穩(wěn)定性角度出發(fā),探究血漿游離DNA的采集提取過程的穩(wěn)定性、不同甲基化建庫方式的異同點與質(zhì)量控制評價、甲基化測序中的片段化模式信息,為血漿游離DNA全基因組甲基化測序應(yīng)用于癌癥檢測、無創(chuàng)產(chǎn)前檢測等液體活檢領(lǐng)域提供實用性的基礎(chǔ)參考。

1 材料與方法

1.1 血漿游離DNA測序數(shù)據(jù)的獲取

1.1.1 血液采集及血漿分離

為了比較不同人、不同采血時間、是否為凍存血樣等因素對血漿游離DNA采集的影響,研究采集了兩名志愿者 (P1為男性,P2為女性) 在兩個時間點 (第一次采血時間記為w0,6周后第二次采血時間記為w6) 的血樣。血液采集方式使用標準采血流程,使用10 mL EDTA抗凝管低溫運輸,并在采血后的2 h內(nèi)分離血漿。血漿分離步驟為:將混有EDTA的血液置于冷凍高速離心機中,4 ℃、1 600×離心10 min;在超凈臺中將上層血漿轉(zhuǎn)移至離心管中,再次4 ℃、16 000×離心 10 min;將上清分裝至1.5 mL EP管中,用于后續(xù)提取血漿游離DNA,或?80 ℃冷凍保存。

1.1.2 血漿游離DNA的提取

不同于組織或細胞的基因組DNA,血漿游離DNA在血液中的含量極低,不能使用基因組DNA的試劑盒提取血漿游離DNA。通過文獻調(diào)研與比較,我們選擇了QIAamp Circulating Nucleic Acid試劑盒提取血漿游離DNA。同時,將相同的血漿樣品通過干冰運輸分別送至市面上主流的兩家測序服務(wù)提供商 (公司A、公司B),進行血漿游離DNA的提取服務(wù),每家公司重復(fù)一次。通過Qubit熒光劑測量血漿游離DNA的濃度,并計算每毫升血漿中的得率;通過安捷倫2100生物分析儀測量血漿游離DNA的片段大小,合格的樣品主峰應(yīng)該在170 bp左右,且無大片段的基因組污染;通過重復(fù)試驗間的濃度比較,確定提取的穩(wěn)定性。

1.1.3 血漿游離DNA的建庫和測序

對于血漿游離DNA,市場上主流測序公司僅提供微量全基因組甲基化建庫服務(wù) (Post-BS建庫方式),我們在實驗室進行了全基因組甲基化的微量Pre-BS建庫,并將兩種建庫方式的結(jié)果進行比較。同時,為比較A和B兩家公司提取血漿游離DNA的得率和穩(wěn)定性,選擇公司A對兩名志愿者的3次血樣進行提取建庫和測序,公司B對一次血樣進行提取建庫和測序,每個血樣設(shè)置一次重復(fù)。公司A與B一共構(gòu)建完成8個甲基化文庫。此外,為了探究不同甲基化建庫方式對DNA甲基化、片段長度的影響,我們對同樣的血漿樣品進行了非甲基化的常規(guī)全基因組建庫測序作為參照。本研究使用的測序平臺包括Illumina的NovaSeq 6000和Hiseq X Ten,測序讀長均為雙端150 bp。本研究中關(guān)于血漿游離DNA樣本的血液來源志愿者、采血時間、建庫方式、測序平臺、建庫實驗室等詳細信息見表1。

1.2 血漿游離DNA數(shù)據(jù)的質(zhì)量控制

針對血漿游離DNA測序數(shù)據(jù)的特點,本研究開發(fā)了一套血漿游離DNA預(yù)處理與質(zhì)量控制的流程,包括檢驗測序質(zhì)量、去除接頭序列、比對基因組、去除PCR重復(fù)、計算轉(zhuǎn)化效率、片段長度分布、覆蓋度和深度等。

表1 研究涉及血漿游離DNA的樣本信息

1.2.1 cfDNA全基因組甲基化數(shù)據(jù)的預(yù)處理

對于SP7之外的全基因組甲基化數(shù)據(jù),進行如下預(yù)處理步驟:首先,使用FastQC軟件對數(shù)據(jù)的測序質(zhì)量、堿基分布、序列重復(fù)次數(shù)、接頭污染情況等進行初步統(tǒng)計。由于基因組大部分C位點無甲基化修飾,測序為T堿基,因此在甲基化文庫序列中,T的比例最高,C的比例最低,造成堿基不均衡現(xiàn)象。然后,由于血漿游離DNA的片段長度較短,當片段長度短于測序讀長時,雙端測序讀段的3′端包含部分測序接頭序列。我們通過Cutadapt軟件截去接頭序列。下一步,使用BS-Seeker2軟件[20]將甲基化測序數(shù)據(jù)比對到人的hg19基因組上,匹配模式為局部比對。最后,使用Picard軟件去除比對到同一位置的重復(fù)片段,計算全基因組每一CpG位點上比對的片段數(shù)目和甲基化片段數(shù)目。

1.2.2 cfDNA全基因組測序數(shù)據(jù)的預(yù)處理

由于本研究涉及的血漿游離DNA全基因組甲基化測序受到多因素影響,而采集的樣本有限,因此,設(shè)置cfDNA全基因組測序數(shù)據(jù) (Whole genome sequencing, WGS) 作為基礎(chǔ)對照,并搜集公共數(shù)據(jù)集中健康人的血漿游離DNA全基因組數(shù)據(jù),彌補樣本數(shù)量的不足,增強結(jié)論的可信度。本研究搜集的公共數(shù)據(jù)集包括GEO數(shù)據(jù)庫中的GSE71378數(shù)據(jù)集 (樣本編號BH01,美國多個健康人的血漿游離DNA混合測序數(shù)據(jù))[21]以及EGA數(shù)據(jù)庫中的EGAS00001001024數(shù)據(jù)集 (樣本編號C309–314,中國香港健康人血漿游離DNA測序數(shù)據(jù))[22]。與甲基化測序數(shù)據(jù)相比,血漿游離DNA的全基因組數(shù)據(jù)處理流程類似,使用esATAC包[23]去除接頭序列和比對基因組,使用Picard去除PCR重復(fù)擴增的片段。

1.2.3 cfDNA文庫的質(zhì)量控制標準

在測序數(shù)據(jù)的預(yù)處理過程中,分別統(tǒng)計測序片段數(shù)、成功比對片段數(shù)、去重后片段數(shù),計算比對率、PCR重復(fù)率和測序有效率,其中PCR重復(fù)率越低越好,比對率和測序有效率越高越好。對有效片段統(tǒng)計其長度分布,觀測主峰位置是否符合血漿游離DNA的長度特點。再基于片段的實際長度,用片段覆蓋到的基因組區(qū)域除以基因組總長度計算覆蓋度,使用片段總堿基數(shù)除以覆蓋基因組范圍得到平均測序深度。我們以上述參數(shù)為指標,比較不同建庫方式、不同實驗室建庫獲得的血漿游離DNA甲基化測序數(shù)據(jù)的質(zhì)量。

PCR重復(fù)率與測序深度息息相關(guān),對同一文庫來說,測序較淺時,我們發(fā)現(xiàn)重復(fù)片段的概率較低,PCR重復(fù)率低;隨著測序加深,PCR重復(fù)率逐漸升高。對原始測序數(shù)據(jù)進行降采樣,以5 M測序片段為步長設(shè)計采樣點,每個采樣點重復(fù) 兩次,分別計算重復(fù)率,取兩次重復(fù)的平均值觀測PCR重復(fù)率與測序深度的關(guān)系。此外,自建庫的SP10和SP11測序過程分為兩步,首先測序5G原始數(shù)據(jù),根據(jù)上述標準判斷文庫質(zhì)量,然后根據(jù)文庫復(fù)雜度進行加測,由此得到的兩次獨立上機的數(shù)據(jù)可用于探索同一文庫在兩次測序中的結(jié)果異同。后續(xù)分析比較使用兩次測序合并的數(shù)據(jù)。

1.3 cfDNA甲基化數(shù)據(jù)的片段化模式評估

借鑒文獻中的短片段比例作為片段化模式特征[14],分別計算SP1–11和美國人血漿游離DNA混合測序數(shù)據(jù)BH01、中國香港人血漿游離DNA測序數(shù)據(jù)C309–314的全基因組片段化模式圖譜。具體步驟如下:首先,將基因組劃分為不重疊的 5 M寬的窗口,計算每個窗口內(nèi)長度為100–150 bp的短片段數(shù)量和長度為150–220 bp的長片段數(shù)量,短片段占比為短片段數(shù)量除以長短片段總數(shù)。為了避免性別對片段化模式特征的影響,將X和Y性染色體排除在外。為了使不同樣本間可比,對短片段占比進行標準化,通過減去均值使片段化模式特征分布于0附近,再用于后續(xù)聚類分析。

為了定量刻畫不同血漿游離DNA文庫的片段化模式差異,以全基因組的短片段占比為特征向量,計算兩兩樣本間的皮爾森相關(guān)系數(shù),再采用非加權(quán)配對算術(shù)平均法進行聚類,得到血漿游離DNA甲基化數(shù)據(jù)的片段化模式關(guān)系。

2 結(jié)果與分析

2.1 血漿游離DNA的提取穩(wěn)定性

為了探究人群差異、采血時間、血漿凍存時間、起始血漿體積等因素對血漿游離DNA提取的影響,本研究采集了兩名志愿者在兩個時間點的血樣,將血漿凍存不同時間后使用同一流程進行多次提取,血漿游離DNA的提取濃度見表2。結(jié)果表明,兩名志愿者的血漿游離DNA濃度存在顯著差異;同一個人在不同時間采集的血漿游離DNA趨于穩(wěn)定,采血時間對血漿游離DNA濃度的影響不及不同人的影響大;凍存時間與游離DNA濃度并不是正比關(guān)系,而是呈現(xiàn)游離DNA濃度隨著凍存時間加長而先增大后減小的趨勢。這可能是因為:在新鮮血漿中,細胞的基因組DNA較為完整,容易在提取過程中去除;當血漿凍存一段時間后,基因組DNA逐漸降解,混入游離DNA中一起提取,從而增加了血漿游離DNA的濃度;當血漿經(jīng)過長期冷凍后,DNA降解消失現(xiàn)象增多,血漿游離DNA的濃度逐漸減少。通過使用安捷倫2100生物分析儀對凍存血漿中游離DNA的長度分布進行檢測,證實了凍存血漿中大片段基因組污染增多的觀點。實際上,DNA濃度不僅與血漿中片段的摩爾量有關(guān),而且與片段長度直接相關(guān)。因此,當存在基因組污染時,使用質(zhì)量濃度定量血漿游離DNA是不準確的,即使大片段的摩爾量很少,百倍的片段長度也會使測得的游離DNA濃度虛高??赡芨_定量血漿游離DNA的方案有:方案1是通過片段選擇去除長片段后檢測游離DNA的質(zhì)量濃度,排除長片段的干擾;方案2是使用摩爾濃度替代質(zhì)量濃度,通過qPCR定量血漿中游離DNA的摩爾數(shù)量,避免片段長度對定量準確性的影響。

表2 多因素對血漿游離DNA提取濃度的影響

The lines in bold corresponding to SP10 and SP11 in table 3.

為了比較不同實驗室提取血漿游離DNA的濃度與穩(wěn)定性差異,將兩名志愿者的多個血漿樣本分別送至公司A、B進行血漿游離DNA提取,最終提取濃度與本實驗室的兩樣本提取結(jié)果匯總見 表3。從表中可以觀察到不同實驗室是影響血漿游離DNA提取濃度的關(guān)鍵因素,公司A提取的SP1–7濃度較低,公司B提取的SP8–9濃度較高,但重復(fù)實驗間的一致性較差。此外,在公司A提取的樣本中,來自P2個體的樣本(SP3–4) 的cfDNA濃度低于來自P1個體的樣本 (SP1–2、SP5–7),與前面本實驗室提取的結(jié)果一致。最后,使用安捷倫2 100生物分析儀檢測血漿游離DNA的片段長度分布,確認SP1–11無基因組污染,提取結(jié)果達到了建庫要求,可以進行后續(xù)建庫和測序。

表3 研究中血漿游離DNA的提取濃度

SP1 and SP2 are different libraries from the same extracted DNA.

2.2 血漿游離DNA的建庫一致性

2.2.1 血漿游離DNA數(shù)據(jù)的質(zhì)量控制

本研究涉及Pre-BS和Post-BS兩種甲基化建庫方式。10個血漿游離DNA甲基化文庫的Qubit濃度和2 100片段分布都符合上機測序要求,血漿游離DNA甲基化測序數(shù)據(jù)的預(yù)處理和質(zhì)量控制結(jié)果見表4。公司A建庫的SP1–6的局部比對率不超過40%,遠低于公司B建庫的SP8–9。當使用全局匹配模式進行比對時,SP1–6的成功比對率只有25%左右。在排除了接頭序列污染等流程不當?shù)囊蛩睾?,我們在未成功比對的片段中觀測到了部分PCR異源雙鏈核酸分子,確認造成比對率低的原因發(fā)生于公司A的甲基化建庫過程中。由于比對率的不足,造成與SP8–9相似測序深度的SP1–4、SP6的總有效片段數(shù)量較少,基因組覆蓋度偏低,平均有效深度僅 (1–2)×;對于測序量是SP8或SP9三倍的SP5,其獲得的有效片段數(shù)、平均深度與SP8、SP9持平。綜合來看,公司B的血漿游離DNA甲基化建庫的數(shù)據(jù)有效率比公司A更高??紤]Pre-BS與Post-BS兩種建庫方式的特點,可見SP10–11的PCR重復(fù)率略高于SP8–9,這可能是因為Pre-BS建庫打斷損失了部分血漿游離DNA,文庫復(fù)雜度降低導(dǎo)致PCR重復(fù)片段增多。

2.2.2 血漿游離DNA數(shù)據(jù)的文庫復(fù)雜度評價

在表4中,可見PCR重復(fù)率與測序深度高度相關(guān),測序最深的SP5和SP10是重復(fù)率最高的兩個樣本。為了更精確地定量比較血漿游離DNA甲基化文庫的復(fù)雜度差異,我們對有效片段數(shù)較多的SP5、SP8–11的原始甲基化測序數(shù)據(jù)作了降采樣分析,結(jié)果如圖1所示。隨著測序數(shù)據(jù)的采樣下降,PCR重復(fù)率下降,符合正相關(guān)關(guān)系。對比同一降采樣深度下不同文庫的重復(fù)率,發(fā)現(xiàn)公司A的SP5文庫重復(fù)率最高;公司B的SP8、SP9文庫重復(fù)率最低;SP10、SP11兩個Pre-BS文庫理論上應(yīng)該重復(fù)率較高,但實際上介于公司A和公司B的Post-BS文庫之間。重復(fù)率的高低直接關(guān)系到測序成本和文庫的極限測序量,是建庫水平的一個直觀反映。有趣的一點是,同一文庫在兩次獨立測序中得到的重復(fù)率曲線不完全相同。具體來說,圖1中test_SP10與test_SP11的重復(fù)率高于SP10和SP11,當預(yù)期測序深度較低時,所得數(shù)據(jù)的重復(fù)率高于高深度數(shù)據(jù)的降采樣重復(fù)率。這可能是因為:血漿游離DNA甲基化文庫的復(fù)雜度有限,不同預(yù)期測序量下的上機文庫量不同,造成文庫的復(fù)雜度、重復(fù)率差異。

表4 血漿游離DNA甲基化數(shù)據(jù)的質(zhì)量控制

2.2.3 血漿游離DNA數(shù)據(jù)的片段長度分布

除了成功比對率、重復(fù)率、覆蓋度深度等質(zhì)量控制指標之外,血漿游離DNA甲基化文庫的評價標準還包括片段長度分布。根據(jù)成功比對的片段繪制血漿游離DNA甲基化文庫的長度分布曲線,同時對比非甲基化建庫的SP7和多個健康人混合數(shù)據(jù)BH01,所得結(jié)果如圖2所示。圖2中虛線為170 bp,BH01和SP7–11文庫的主峰均在170 bp附近,而公司A建庫的SP1–6主峰明顯偏離170 bp。此外,更為嚴重的問題是公司A實驗的Post-BS文庫和SP7都存在長度分布截斷的現(xiàn)象。事實上,實驗中的片段選擇步驟難以做到完全截斷,不會是垂直的長度分布曲線。經(jīng)過反復(fù)排查測序數(shù)據(jù)的預(yù)處理流程,采取局部比對基因組的策略,問題依然存在??紤]到片段長度截斷發(fā)生在150 bp以內(nèi),有可能是因為測序公司在生成原始數(shù)據(jù)時,默認過濾了含有部分接頭序列的片段。對于基因組DNA的常規(guī)建庫來說,文庫大小 (200–400 bp) 遠高于測序的讀長 (150 bp),因此舍棄短片段不會影響測序數(shù)據(jù)的分析,但是對于血漿游離DNA來說,過濾短片段會對后續(xù)分析的影響較大。例如,癌癥病人血漿游離DNA比健康人更短[24],使用長度為90–150 bp的血漿游離DNA可以更靈敏地區(qū)分癌癥病人和健康人[25]。換句話說,血漿游離DNA的短片段中,癌癥來源片段的比例更高,舍棄短片段將直接影響血漿游離DNA的應(yīng)用。

圖1 測序深度與文庫重復(fù)率的關(guān)系

圖2 血漿游離DNA文庫的長度分布(A:WGS文庫的長度分布;B:公司A構(gòu)建的Post-BS文庫的長度分布;C:公司B構(gòu)建的Post-BS文庫的長度分布;D:Pre-BS甲基化文庫的長度分布)

對比Pre-BS和Post-BS建庫的片段長度區(qū)別,可見SP10與SP11這兩個Pre-BS文庫的片段長度分布呈現(xiàn)10 bp左右的周期,與非甲基化建庫 (WGS) 的公共數(shù)據(jù)BH01中的周期一致,而兩家公司的Post-BS數(shù)據(jù)中,血漿游離DNA片段長度分布比較平滑。由于Pre-BS與Post-BS兩種建庫方式是分別在不同實驗室完成的,所以不能排除實驗室差異的因素造成片段長度分布的差異。但至少,這一現(xiàn)象證實了Pre-BS可以保留部分片段長度信息,而公司A、B的Post-BS建庫對精細的片段長度信息損失較多。

2.3 血漿游離DNA甲基化數(shù)據(jù)的長度信息

為了進一步闡述血漿游離DNA甲基化文庫中的片段長度信息,研究參考了文獻中的血漿游離DNA長度特征[14],使用全基因組5 M窗口內(nèi)的短片段比例作為特征,繪制甲基化與常規(guī)文庫的全基因組片段化模式圖譜,所得結(jié)果見圖3。

由于在考察血漿游離DNA的長度特征時,全基因組測序比全基因組甲基化測序更能反映真實情況,因此,本研究將全基因組甲基化數(shù)據(jù)中的片段長度特征與全基因組測序數(shù)據(jù)進行比較,以期評估血漿游離DNA甲基化數(shù)據(jù)中的片段長度信息。此外,為了反映片段長度在人群中的差異,還搜集了兩個公共數(shù)據(jù)集中的健康人血漿游離DNA全基因組測序數(shù)據(jù) (美國多個健康人混合血漿測序數(shù)據(jù)BH01、中國香港健康人血漿測序數(shù)據(jù)C309–314)。從圖3可以看出,SP10–11中Pre-BS甲基化數(shù)據(jù)得到的片段化模式特征在全基因組的方差較大,信息量更大,其分布模式與WGS數(shù)據(jù)BH01、SP7相似,而與SP1–6與SP8–9中Post-BS數(shù)據(jù)存在顯著差異。這一現(xiàn)象再次印證了Pre-BS保留片段長度信息的特點。

我們根據(jù)血漿游離DNA的全基因組片段化模式圖譜,計算樣本間的相關(guān)關(guān)系,聚類分析推斷樣本間相似性,聚類結(jié)果如圖4所示。SP10–11中Pre-BS數(shù)據(jù)與SP7、BH01相關(guān)性高;公司B建庫的Post-BS數(shù)據(jù)和C309–314聚在一起;而公司A建庫的Post-BS數(shù)據(jù)單獨聚在一起。從聚類結(jié)果可以觀察到血漿游離DNA的Pre-BS數(shù)據(jù)可以保留WGS的片段化模式特征;公司B建庫Post-BS數(shù)據(jù)也捕獲了部分片段化模式特征,對應(yīng)到圖3的基因組圖譜中,例如1號、10號染色體的圖譜模式印證了Post-BS B與C309–314更相似??傮w來說,不管是Pre-BS還是Post-BS甲基化建庫,都含有血漿游離DNA的片段化模式信息,不同甲基化建庫方式的數(shù)據(jù)差異與不同實驗室的WGS數(shù)據(jù)差異相當,說明甲基化與非甲基化建庫方式對片段化模式的影響甚至不及人群因素的影響大。但是,對于公司A產(chǎn)出的Post-BS數(shù)據(jù),其片段化模式與WGS數(shù)據(jù)相關(guān)性差,這一點有可能與公司A的短片段截斷有關(guān)。

圖3 血漿游離DNA全基因組數(shù)據(jù)中的片段化模式

圖4 血漿游離DNA文庫間的片段化模式相關(guān)性

3 討論

血漿游離DNA在液體活檢領(lǐng)域有著廣泛的應(yīng)用,在癌癥檢測領(lǐng)域,血漿游離DNA中部分位點的檢測試劑盒已經(jīng)得到國家食品藥品監(jiān)督管理總局的批準,應(yīng)用于人群的癌癥篩查中。隨著新一代測序技術(shù)的不斷發(fā)展,血漿游離DNA的全基因組甲基化測序在早期癌癥的檢測與腫瘤溯源方面具有良好的應(yīng)用前景。

本研究通過對不同人、不同采血時間、不同凍存時間、不同建庫方式、不同測序平臺、不同公司等變量的分析,探究了血漿游離DNA的采集、提取、建庫、測序、信息分析過程,綜合評估實驗的穩(wěn)定性和甲基化數(shù)據(jù)的實用性。研究結(jié)果表明:針對血漿游離DNA的采集提取穩(wěn)定性,兩名健康異性志愿者的血漿游離DNA濃度在5–65 ng/mL范圍內(nèi),兩人的血漿游離DNA濃度有顯著差異,而不同采血時間的濃度較為穩(wěn)定;針對血漿游離DNA的建庫測序穩(wěn)定性,我們發(fā)現(xiàn)不同測序公司間的建庫質(zhì)量存在較大差異,并存在短序列讀段的長度截斷等干擾因素;針對Pre-BS與Post-BS甲基化建庫的實用性,結(jié)果表明抽取5 mL血液即可滿足Pre-BS與Post-BS的建庫需求,同時Pre-BS保留了更精細的片段長度信息;針對血漿游離DNA甲基化數(shù)據(jù)中的片段化模式,我們發(fā)現(xiàn)Pre-BS甲基化測序數(shù)據(jù)中能提取到與WGS相似的片段化模式特征。這些實用性與穩(wěn)定性的評估結(jié)果將為血漿游離DNA全基因組甲基化測序應(yīng)用于液體活檢領(lǐng)域提供有力的參考和支撐。

[1] Chan AK, Chiu RW, Lo YM, et al. Cell-free nucleic acids in plasma, serum and urine: a new tool in molecular diagnosis. Ann Clin Biochem, 2003, 40(2): 122–130.

[2] Heitzer E, Haque IS, Roberts CES, et al. Current and future perspectives of liquid biopsies in genomics-driven oncology. Nat Rev Genet, 2019, 20(2): 71–88.

[3] Schwarzenbach H, Hoon DS, Pantel K. Cell-free nucleic acids as biomarkers in cancer patients. Nat Rev Cancer, 2011, 11(6): 426–437.

[4] Lui YY, Chik KW, Chiu RW, et al. Predominant hematopoietic origin of cell-free DNA in plasma and serum after sex-mismatched bone marrow transplantation. Clin Chem, 2002, 48(3): 421–427.

[5] Wan JCM, Massie C, Garcia-Corbacho J, et al. Liquid biopsies come of age: towards implementation of circulating tumour DNA. Nat Rev Cancer, 2017, 17(4): 223–238.

[6] Sun K, Jiang PY, Chan KCA, et al. Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc Natl Acad Sci USA, 2015, 112(40): E5503–E5512.

[7] De Rubis G, Rajeev Krishnan S, Bebawy M. Liquid biopsies in cancer diagnosis, monitoring, and prognosis. Trends Pharmacol Sci, 2019, 40(3): 172–186.

[8] Li WY, Li QJ, Kang SL, et al. CancerDetector: ultrasensitive and non-invasive cancer detection at the resolution of individual reads using cell-free DNA methylation sequencing data. Nucleic Acids Res, 2018, 46(15): e89.

[9] Ooki A, Maleki Z, Tsay JJ, et al. A panel of novel detection and prognostic methylated DNA markers in primary non-small cell lung cancer and serum DNA. Clin Cancer Res, 2017, 23(22): 7141–7152.

[10] Cohen JD, Li L, Wang YX, et al. Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science, 2018, 359(6378): 926–930.

[11] Liu L, Toung JM, Jassowicz AF, et al. Targeted methylation sequencing of plasma cell-free DNA for cancer detection and classification. Ann Oncol, 2018, 29(6): 1445–1453.

[12] Jamal-Hanjani M, Wilson GA, Horswell S, et al. Detection of ubiquitous and heterogeneous mutations in cell-free DNA from patients with early-stage non-small-cell lung cancer. Ann Oncol, 2016, 27(5): 862–867.

[13] Guo SC, Diep D, Plongthongkum N, et al. Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA. Nat Genet, 2017, 49(4): 635–642.

[14] Cristiano S, Leal A, Phallen J, et al. Genome-wide cell-free DNA fragmentation in patients with cancer. Nature, 2019, 570(7761): 385–389.

[15] Qu CF, Wang YT, Wang P, et al. Detection of early-stage hepatocellular carcinoma in asymptomatic HBsAg-seropositive individuals by liquid biopsy. Proc Natl Acad Sci USA, 2019, 116(13): 6308–6312.

[16] Chan KCA, Jiang PY, Chan CWM, et al. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc Natl Acad Sci USA, 2013, 110(47): 18761–18768.

[17] Feng H, Jin P, Wu H. Disease prediction by cell-free DNA methylation. Brief Bioinform, 2019, 20(2): 585–597.

[18] Lam WKJ, Jiang PY, Chan KCA, et al. Sequencing-based counting and size profiling of plasma Epstein-Barr virus DNA enhance population screening of nasopharyngeal carcinoma. Proc Natl Acad Sci USA, 2018, 115(22): E5115–E5124.

[19] Olova N, Krueger F, Andrews S, et al. Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data. Genome Biol, 2018, 19(1): 33.

[20] Guo WL, Fiziev P, Yan WH, et al. BS-Seeker2: a versatile aligning pipeline for bisulfite sequencing data. Bmc Genomics, 2013, 14: 774.

[21] Snyder MW, Kircher M, Hill AJ, et al. Cell-free DNA comprises annucleosome footprint that informs its tissues-of-origin. Cell, 2016, 164(1/2): 57–68.

[22] Jiang PY, Chan CWM, Chan KCA, et al. Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients. Proc Natl Acad Sci USA, 2015, 112(11): E1317–E1325.

[23] Wei Z, Zhang W, Fang H, et al. esATAC: an easy-to-use systematic pipeline for ATAC-seq data analysis. Bioinformatics, 2018, 34(15): 2664–2665.

[24] Underhill HR, Kitzman JO, Hellwig S, et al. Fragment length of circulating tumor DNA. PLoS Genet, 2016, 12(7): e1006162.

[25] Mouliere F, Chandrananda D, Piskorz AM, et al. Enhanced detection of circulating tumor DNA by fragment size analysis. Sci Transl Med, 2018, 10(466): eaat4921.

Practical stability of whole-genome bisulfite sequencing using plasma cell-free DNA

Huan Fang, Bixi Zhong, Lei Wei, Xianglin Zhang, Wei Zhang, and Xiaowo Wang

,,,,,,100084,

With the development of liquid biopsy technology, plasma cell-free DNA (cfDNA) becomes one of the research hotspots. Whole-genome bisulfite sequencing of plasma cell-free DNA has shown great potential medical applications such as cancer detection. However, the practical stability evaluation is still lacking. In this study, plasma cell-free DNA samples from two volunteers at different time were collected and prepared for sequencing in multiple laboratories. The library preparation strategies include pre-bisulfite, post-bisulfite and regular whole-genome sequencing. We established a set of quality control references for plasma cell-free DNA sequencing data and evaluated practical stability of blood collection, DNA extraction, and library preparation and sequencing depth. This work provided a technical practice guide for the application of plasma cfDNA methylation sequencing for clinical applications.

plasma cell-free DNA, whole genome, DNA methylation, fragmentation pattern, low input library

June 26, 2019;

August30, 2019

National Natural Science Foundation of China (No. 61721003).

Xiaowo Wang. Tel: +86-10-62794294-808; Fax: +86-10-62783552; E-mail: xwwang@tsinghua.edu.cn

方歡, 鐘碧溪, 魏磊, 等. 血漿游離DNA全基因組甲基化測序的實用穩(wěn)定性評估. 生物工程學(xué)報, 2019, 35(12): 2284–2294.

Fang H, Zhong BX, Wei L, et al. Practical stability of whole-genome bisulfite sequencing using plasma cell-free DNA. Chin J Biotech, 2019, 35(12): 2284–2294.

國家自然科學(xué)基金(No. 61721003)資助。

(本文責編 陳宏宇)

猜你喜歡
建庫文庫甲基化
專家文庫
優(yōu)秀傳統(tǒng)文化啟蒙文庫
幽默大師(2020年10期)2020-11-10 09:07:22
關(guān)于推薦《當代詩壇百家文庫》入選詩家的啟事
中華詩詞(2019年1期)2019-11-14 23:33:56
專家文庫
面向建庫與制圖一體化的規(guī)則研究
中文期刊回溯建庫的實踐與思考——以貴州省圖書館為例
鼻咽癌組織中SYK基因啟動子區(qū)的甲基化分析
胃癌DNA甲基化研究進展
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
全甲基化沒食子兒茶素沒食子酸酯的制備
卢氏县| 甘谷县| 上蔡县| 岚皋县| 湘阴县| 永福县| 浙江省| 安陆市| 蚌埠市| 达日县| 禹城市| 博湖县| 来安县| 英德市| 望谟县| 阜康市| 山东| 香格里拉县| 彝良县| 通榆县| 驻马店市| 平顶山市| 扶绥县| 凭祥市| 泰宁县| 烟台市| 屏南县| 潞城市| 班玛县| 昌乐县| 麻栗坡县| 利辛县| 江口县| 长沙县| 新巴尔虎左旗| 固安县| 鄱阳县| 梅州市| 溆浦县| 永州市| 开封市|