国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向臨床研究的基因測(cè)序項(xiàng)目的設(shè)計(jì)原則、管理流程與質(zhì)量控制標(biāo)準(zhǔn)

2022-04-06 12:36劉陽(yáng)許喆程絲石延楓林金嬉孟霞姜勇李昊
中國(guó)卒中雜志 2022年3期
關(guān)鍵詞:測(cè)序變異基因組

劉陽(yáng),許喆,程絲,石延楓,林金嬉,孟霞,姜勇,李昊

基因檢測(cè)是對(duì)受試者的DNA進(jìn)行檢測(cè)以尋找可能的遺傳變異的過程。高通量測(cè)序是一種基因檢測(cè)技術(shù),能夠?qū)?shù)百萬(wàn)個(gè)DNA片段進(jìn)行平行序列測(cè)定,因此可以同時(shí)對(duì)大量遺傳變異進(jìn)行鑒定和分析。在臨床研究中引入基因測(cè)序,可以將受試者的遺傳變異與臨床表型、生物標(biāo)志物等數(shù)據(jù)相結(jié)合,為疾病機(jī)制的研究和藥物靶標(biāo)的開發(fā)提供豐富的資源[1]。臨床研究的樣本收集時(shí)間跨度往往以年為單位,一些大型研究還涉及多中心管理,因此面向臨床研究的基因測(cè)序項(xiàng)目對(duì)管理流程、分析手段及質(zhì)量控制的標(biāo)準(zhǔn)化程度要求很高,需要與之相適應(yīng)的項(xiàng)目管理框架。本研究旨在確定面向臨床研究的基因測(cè)序項(xiàng)目的設(shè)計(jì)原則,搭建項(xiàng)目管理與質(zhì)控標(biāo)準(zhǔn)化流程,并將該流程應(yīng)用于一項(xiàng)全國(guó)性多中心大型臨床研究,從而確定質(zhì)量控制標(biāo)準(zhǔn)。

1 方法

1.1 基因測(cè)序項(xiàng)目框架的確定

1.1.1 文獻(xiàn)復(fù)習(xí) 通過文獻(xiàn)復(fù)習(xí)學(xué)習(xí)生物醫(yī)學(xué)研究中的基因測(cè)序數(shù)據(jù)分析流程[2-5],調(diào)研國(guó)際、國(guó)內(nèi)大規(guī)模測(cè)序隊(duì)列的建設(shè)現(xiàn)狀[6-9],制訂面向臨床研究的基因測(cè)序數(shù)據(jù)處理流程。

1.1.2 專家咨詢 遴選國(guó)內(nèi)基因組學(xué)、生物信息學(xué)、統(tǒng)計(jì)學(xué)、生物樣本庫(kù)、臨床試驗(yàn)、數(shù)據(jù)管理等領(lǐng)域的專家,調(diào)研面向臨床研究的基因測(cè)序項(xiàng)目的需求,完善基因測(cè)序項(xiàng)目設(shè)計(jì)原則并確定管理規(guī)范。

1.2 基因測(cè)序項(xiàng)目的設(shè)計(jì)原則 通過整理吸納文獻(xiàn)復(fù)習(xí)結(jié)果和專家咨詢意見,面向臨床研究的基因測(cè)序項(xiàng)目需要能滿足可擴(kuò)展性、可重復(fù)性及可溯源性的需求。針對(duì)這3點(diǎn)需求,分別確定了如下設(shè)計(jì)原則:

1.2.1 可擴(kuò)展性 隨著對(duì)疾病機(jī)制研究的深入,越來(lái)越多疾病相關(guān)的遺傳變異被發(fā)現(xiàn)。在進(jìn)行臨床研究基因檢測(cè)的設(shè)計(jì)時(shí),如果僅包含當(dāng)時(shí)所了解的疾病相關(guān)遺傳變異,一方面無(wú)法涵蓋今后可能報(bào)道的新變異,另一方面也很難進(jìn)行探索性的挖掘。全基因組測(cè)序(whole genome sequencing,WGS)是對(duì)受試者的所有DNA進(jìn)行的高通量測(cè)序,可以覆蓋和識(shí)別整個(gè)基因組的變異,包括單核苷酸變異(single nucleotide variant,SNV)、短插入/缺失變異(insertion-deletions,INDEL)以及更長(zhǎng)的結(jié)構(gòu)變異,能夠滿足臨床基因研究的可擴(kuò)展性需求。

1.2.2 可重復(fù)性 科學(xué)研究的統(tǒng)計(jì)功效需要有一定的樣本量,而高通量測(cè)序技術(shù)依賴復(fù)雜的試劑、硬件和訓(xùn)練有素的人員[10],一個(gè)批次所能測(cè)定的樣本有限,因此臨床研究的基因測(cè)序項(xiàng)目通常涉及多個(gè)批次。批次效應(yīng)(batch effect)是指樣本之間的變化不是來(lái)自真實(shí)的生物學(xué)差異,而是來(lái)自實(shí)驗(yàn)或技術(shù)之間的差異[11-12]。批次效應(yīng)會(huì)降低研究結(jié)果的可重復(fù)性,導(dǎo)致假陽(yáng)性和假陰性關(guān)聯(lián),甚至可能會(huì)產(chǎn)生誤導(dǎo)性生物學(xué)或臨床結(jié)論[13]。解決批次效應(yīng),依賴于全面的研究項(xiàng)目設(shè)計(jì)、可靠的質(zhì)量控制方案、仔細(xì)的執(zhí)行過程記錄,以及恰當(dāng)?shù)慕y(tǒng)計(jì)建模方法,這些在臨床研究基因測(cè)序項(xiàng)目的方案設(shè)計(jì)中都應(yīng)該考慮到。

1.2.3 可溯源性 研究人員進(jìn)行大規(guī)模臨床研究的課題分析時(shí)可能會(huì)發(fā)現(xiàn)感興趣的現(xiàn)象需要回溯到單獨(dú)的樣本,這就對(duì)基因測(cè)序數(shù)據(jù)的可溯源性提出了要求。臨床研究往往涉及多中心、長(zhǎng)時(shí)間的樣本收集,對(duì)于基因測(cè)序項(xiàng)目,一方面是管理上的挑戰(zhàn),另一方面也是機(jī)遇,因?yàn)檫z傳數(shù)據(jù)本身能夠?qū)颖举|(zhì)量和來(lái)源形成反饋。在基因測(cè)序項(xiàng)目管理流程的搭建中,應(yīng)當(dāng)充分利用這一點(diǎn)。

1.3 基因測(cè)序項(xiàng)目管理流程的應(yīng)用 數(shù)據(jù)處理流程搭建好后,需要在真實(shí)的臨床研究中確定合適的質(zhì)控標(biāo)準(zhǔn)。中國(guó)國(guó)家卒中登記Ⅲ(China national stroke registry-Ⅲ,CNSR-Ⅲ)隊(duì)列是住院的急性缺血性腦血管事件患者的全國(guó)前瞻性登記研究,共有15 166例缺血性卒中患者或TIA患者,涉及201家醫(yī)院,是一個(gè)典型的多中心隊(duì)列[14]。CNSR-Ⅲ研究設(shè)計(jì)了遺傳亞組并進(jìn)行了全基因組測(cè)序,是非常好的基因測(cè)序項(xiàng)目管理流程應(yīng)用場(chǎng)景,因此本研究將在CNSR-Ⅲ隊(duì)列上實(shí)施并確定質(zhì)控標(biāo)準(zhǔn)。

2 結(jié)果

2.1 樣本處理

2.1.1 樣本類型 遺傳研究的目標(biāo)是檢測(cè)患者的生殖系基因變異,因此理論上來(lái)說,來(lái)源于患者的任何細(xì)胞都含有同樣的變異,都可以用于基因測(cè)序[4]。為了取樣方便,臨床研究中通常保留患者的外周血白細(xì)胞用于基因測(cè)序。采集血樣標(biāo)本需要送到指定實(shí)驗(yàn)室分離血清、血漿和白細(xì)胞,隨后進(jìn)行中心化儲(chǔ)存和基因測(cè)序安排。在CNSR-Ⅲ研究中,預(yù)先確定了171家醫(yī)院納入遺傳亞組,在這些醫(yī)院入組的12 603例患者參與了基因測(cè)序項(xiàng)目,其中有1308例沒有提供足夠的白細(xì)胞。

2.1.2 DNA提取 常用的將基因組DNA從細(xì)胞中提取出來(lái)的方法有兩種,其一是采用酚氯仿法提取,其二是使用具有獨(dú)特分離作用的磁珠(如DP329磁性血液基因組DNA試劑盒)。提取既可以手工進(jìn)行,也可以使用全自動(dòng)儀器(如核酸蛋白提取系統(tǒng))進(jìn)行。

2.2 測(cè)序數(shù)據(jù)生成

2.2.1 DNA質(zhì)量評(píng)估 提取出的基因組DNA需要經(jīng)過質(zhì)量評(píng)估,DNA總量、濃度和片段長(zhǎng)度均合格的樣本才可用于基因測(cè)序。常見的對(duì)基因組DNA的濃度進(jìn)行定量測(cè)量的儀器有Qubit 2.0熒光儀和Gemini XPS酶標(biāo)儀;對(duì)DNA質(zhì)量的評(píng)估一般在瓊脂糖凝膠上進(jìn)行電泳,以確?;蚪MDNA沒有大量降解。合格樣本的標(biāo)準(zhǔn)見表1。在CNSR-Ⅲ項(xiàng)目中,經(jīng)過DNA提取和質(zhì)量評(píng)估,381例患者的DNA含量不足或質(zhì)量不合格。

2.2.2 測(cè)序平臺(tái)選擇 大規(guī)模隊(duì)列研究通常采用的高通量基因測(cè)序儀器為Illumina?測(cè)序儀或Ion TorrentTM測(cè)序儀[15]。出于人類遺傳資源數(shù)據(jù)安全以及成本方面的考慮,國(guó)內(nèi)的隊(duì)列研究也逐漸開始采用國(guó)產(chǎn)的華大智造DNBSEQ測(cè)序平臺(tái),如ChinaMAP計(jì)劃[7]。不同測(cè)序儀所用的化學(xué)試劑、擴(kuò)增方式、檢測(cè)方式、讀段長(zhǎng)度等均有不同,各有利弊。CNSR-Ⅲ研究的測(cè)序項(xiàng)目由華大制造的BGISEQ-500型號(hào)的測(cè)序儀(以下簡(jiǎn)稱BGISEQ)完成。除外沒有提供足夠白細(xì)胞的患者以及DNA含量不足或質(zhì)量不合格的樣本,有10 914例患者的外周血白細(xì)胞樣本進(jìn)行了基因測(cè)序文庫(kù)制備[16]。

2.2.3 文庫(kù)制備 “文庫(kù)”指的是帶有可用于測(cè)序的側(cè)翼接頭的DNA片段,不同的測(cè)序儀所需要的文庫(kù)大小及接頭序列不同,因此文庫(kù)制備方法與所選用的測(cè)序儀有關(guān)。BGISEQ的文庫(kù)制備步驟包括隨機(jī)打斷基因組DNA,選擇一定長(zhǎng)度范圍內(nèi)的DNA片段,末端修復(fù),連接接頭,擴(kuò)增連接產(chǎn)物,分離單鏈并與夾板寡核苷酸生成單鏈環(huán)化DNA,消化線性分子,最后對(duì)連接產(chǎn)物進(jìn)行純化以得到最終文庫(kù)(質(zhì)量控制標(biāo)準(zhǔn)見表1)。在CNSR-Ⅲ項(xiàng)目中,11例樣本經(jīng)反復(fù)多次嘗試均無(wú)法成功制備文庫(kù),159例樣本疑似有微生物污染,最終有10 744例樣本進(jìn)行了基因測(cè)序。

表1 基因組DNA及測(cè)序文庫(kù)質(zhì)控標(biāo)準(zhǔn)

2.2.4 測(cè)序 “測(cè)序”指的是應(yīng)用特定技術(shù)對(duì)文庫(kù)DNA進(jìn)行檢測(cè)并且使用與平臺(tái)相關(guān)的專用軟件進(jìn)行初始分析及堿基檢出的過程。對(duì)合格的文庫(kù)進(jìn)行滾環(huán)擴(kuò)增以產(chǎn)生DNA納米球,然后將DNA納米球加載到規(guī)則陣列芯片上,并在BGISEQ平臺(tái)上進(jìn)行測(cè)序。序列衍生原始圖像文件由BGISEQ基本堿基識(shí)別軟件在默認(rèn)參數(shù)設(shè)置下處理,序列數(shù)據(jù)以FASTQ格式存儲(chǔ),包含每一讀段的序列以及相應(yīng)的堿基質(zhì)量分?jǐn)?shù)。圖1展示了基因測(cè)序?qū)嶒?yàn)部分的流程圖。

圖1 臨床研究中基因測(cè)序項(xiàng)目的實(shí)驗(yàn)流程

2.3 測(cè)序數(shù)據(jù)生物信息學(xué)分析及質(zhì)控

2.3.1 測(cè)序讀段清理 “讀段”指的是高通量基因測(cè)序儀檢測(cè)出來(lái)的DNA片段。測(cè)序儀的原始輸出文件中往往含有一些低質(zhì)量的讀段,需要進(jìn)行過濾。如果任一讀段含有測(cè)序接頭,或低質(zhì)量堿基比例(堿基質(zhì)量≤12)超過50%,或無(wú)法識(shí)別的堿基(“N”堿基)比例>10%,則移除該讀段對(duì)。之后對(duì)FASTQ文件進(jìn)行質(zhì)檢,使用Fastp軟件進(jìn)一步過濾掉低質(zhì)量的讀段和堿基[17]。

2.3.2 基因組比對(duì) 基因測(cè)序的讀段來(lái)自基因組DNA的隨機(jī)打斷,因此將質(zhì)量合格的讀段比對(duì)回人類基因組,比對(duì)情況可以反映該數(shù)據(jù)來(lái)源樣本的DNA質(zhì)量。利用在Sentieon軟件中實(shí)現(xiàn)的Burrows Wheeler校準(zhǔn)工具將讀段比對(duì)到hg38人類參考基因組序列上[18],比對(duì)結(jié)果儲(chǔ)存在SAM或BAM文件中,該文件包括讀段序列、比對(duì)到染色體的位置以及比對(duì)質(zhì)量等信息。完全相同的讀段通常是由于文庫(kù)制備時(shí)的PCR過程帶來(lái)的,因此需要去除。

2.3.3 雜合度 臨床研究的樣本可能會(huì)存在污染,如果污染來(lái)自微生物,會(huì)體現(xiàn)在文庫(kù)制備與測(cè)序數(shù)據(jù)質(zhì)量上,在前述質(zhì)控環(huán)節(jié)即應(yīng)被鑒別與去除;而如果污染來(lái)自其他人源樣本,則需要基于測(cè)序數(shù)據(jù)基因組比對(duì)的結(jié)果進(jìn)行深入分析。使用VerifyBamID軟件可以檢驗(yàn)樣本之間的污染與混雜[19]。

2.3.4 測(cè)序數(shù)據(jù)質(zhì)量評(píng)估 本研究通過對(duì)CNSR-Ⅲ項(xiàng)目10 744例樣本的數(shù)據(jù)質(zhì)量進(jìn)行整體評(píng)估,確定了9個(gè)單樣本質(zhì)控項(xiàng)目,這些項(xiàng)目的內(nèi)容與閾值見表2。質(zhì)量評(píng)估結(jié)果為,15例樣本的10X覆蓋度<80%,1例樣本的錯(cuò)配率>0.9%,267例樣本的人源污染率>0.03,這些樣本均被去除。圖2的上半部分展示了對(duì)每個(gè)樣本進(jìn)行生物信息學(xué)分析及質(zhì)控的過程。

表2 中國(guó)國(guó)家卒中登記Ⅲ隊(duì)列9個(gè)單樣本質(zhì)控項(xiàng)目的測(cè)序數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)

2.4 遺傳變異鑒定

2.4.1 單樣本遺傳變異鑒定 GATK(genome analysis toolkit)最佳實(shí)踐指南是學(xué)術(shù)界最常用的高通量測(cè)序數(shù)據(jù)處理流程。根據(jù)該指南,首先,對(duì)樣本比對(duì)基因組的結(jié)果BAM文件進(jìn)行堿基質(zhì)量分?jǐn)?shù)重新校準(zhǔn),目的是使用經(jīng)驗(yàn)誤差模型調(diào)整測(cè)序讀段的堿基質(zhì)量分?jǐn)?shù);其次,使用Sentieon軟件實(shí)現(xiàn)的Haplotyper算法為每個(gè)樣本鑒定SNV和INDEL,最終生成VCF變異調(diào)用文件,該文件涵蓋每個(gè)變異在染色體上的位置、該位置原始的序列和變異序列,以及鑒定該變異的可信程度等信息。

2.4.2 變異聯(lián)合檢測(cè) 變異聯(lián)合檢測(cè)是指同時(shí)考慮所有樣本的變異檢測(cè)過程,該過程能利用一些樣本中的信息來(lái)推斷另一些樣本中最可能的基因型[2],從而提高低覆蓋區(qū)域中變異檢測(cè)的敏感性。利用GATK軟件可以將同一項(xiàng)目中所有樣本的變異調(diào)用文件整合為涵蓋全部樣本上全部變異的文件[20]。

2.4.3 變異質(zhì)量分?jǐn)?shù)重新校準(zhǔn) 變異質(zhì)量分?jǐn)?shù)重新校準(zhǔn)可以通過計(jì)算一個(gè)新的質(zhì)量分?jǐn)?shù)并以此為標(biāo)準(zhǔn)過濾遺傳變異,從而平衡鑒定變異的特異性和敏感性。使用GATK軟件對(duì)全部樣本進(jìn)行硬過濾以去除高雜合度位點(diǎn)[20],接著將變異分為SNV和其他變異(包含INDEL和混合變異),并分別進(jìn)行變異質(zhì)量分?jǐn)?shù)重新校準(zhǔn)。在CNSR-Ⅲ項(xiàng)目中,兩類變異的過濾標(biāo)準(zhǔn)分別設(shè)定為敏感度99.0%和98.0%。圖2的下半部分展示了對(duì)全部樣本進(jìn)行聯(lián)合生物信息分析及質(zhì)控的過程。

圖2 臨床研究中基因測(cè)序項(xiàng)目的生物信息分析流程

2.5 樣本臨床信息推斷

2.5.1 性別推斷 全基因組測(cè)序數(shù)據(jù)包含了個(gè)體的全部遺傳信息,因此可以推斷出樣本的性別。常見的推斷性別的原理有兩種:其一為根據(jù)性染色體深度,該方法同時(shí)可以判斷性染色體非整倍性;其二為根據(jù)X染色體雜合度,如可以使用Plink軟件判定X染色體雜合度異常的樣本[21]。

根據(jù)性染色體的深度進(jìn)行性別推斷的方法:對(duì)于每個(gè)樣本,將X染色體和Y染色體的深度分別通過整個(gè)基因組的深度進(jìn)行歸一化,并表示為二維圖上的一個(gè)點(diǎn),兩個(gè)軸的坐標(biāo)分別表示歸一化的X染色體深度和歸一化的Y染色體深度。根據(jù)臨床研究收集的基線信息對(duì)每個(gè)樣本按照性別進(jìn)行標(biāo)記后,在二維圖上自然地出現(xiàn)了邊界。在CNSR-Ⅲ項(xiàng)目中,僅憑歸一化的Y染色體深度0.075的簡(jiǎn)單水平線即能夠?qū)⒛行曰颊吲c女性患者分開,因而被選為性別推斷的閾值(圖3)。

同時(shí),圖3中的離群散點(diǎn)代表了疑似性染色體非整倍性的樣本,由于納入這一步分析的樣本已經(jīng)經(jīng)過了測(cè)序質(zhì)量的篩選,因此這些樣本更有可能是人群中自然的性染色體異?;颊叨菧y(cè)序異常導(dǎo)致的。為了避免異常性染色體對(duì)遺傳相關(guān)機(jī)制研究產(chǎn)生影響,CNSR-Ⅲ項(xiàng)目中的這11例樣本被排除。同理,Plink軟件推斷出的13例異常X染色體雜合度樣本在后續(xù)分析中也被排除。

圖3 根據(jù)性染色體的歸一化深度對(duì)樣本進(jìn)行性別推斷

2.5.2 親緣關(guān)系及重復(fù)樣本推斷 不同的臨床研究納入的患者不同,有的是針對(duì)家系的研究,有的則認(rèn)為大部分受試者均無(wú)親緣關(guān)系,通過KING軟件可以推斷樣本之間的親緣關(guān)系以及群體中的重復(fù)樣本對(duì)[22]。CNSR-Ⅲ隊(duì)列作為一個(gè)前瞻性觀察性研究,沒有針對(duì)家系進(jìn)行納入或排除,因此患者之間有可能存在親屬關(guān)系。使用KING軟件推斷樣本之間的潛在親緣關(guān)系,對(duì)于PI_HAT>0.125的個(gè)體對(duì)認(rèn)為彼此之間是遺傳上相關(guān)聯(lián)的。

2.5.3 臨床樣本管理 基因測(cè)序項(xiàng)目不僅要保證數(shù)據(jù)正確,還要確保測(cè)序數(shù)據(jù)與生物樣本對(duì)應(yīng)關(guān)系準(zhǔn)確。因此,在納入排除樣本的流程中,需要考慮樣本推斷信息與臨床記錄不一致的情況(圖4)。在CNSR-Ⅲ項(xiàng)目中,將通過基因測(cè)序推斷的性別與臨床數(shù)據(jù)庫(kù)的性別進(jìn)行對(duì)比,發(fā)現(xiàn)154例樣本的推斷性別與記錄性別不一致,且經(jīng)過中心化項(xiàng)目管理部門與分中心研究者的校驗(yàn)與核對(duì),無(wú)法判斷是數(shù)據(jù)庫(kù)記錄錯(cuò)誤還是樣本對(duì)應(yīng)錯(cuò)誤,因此刪除這些樣本。此外,經(jīng)過臨床研究項(xiàng)目管理部門的工作,所有推斷出來(lái)的親緣關(guān)系均得到了分中心研究者確認(rèn),因此將38例患者排除在隊(duì)列之外。

圖4 臨床研究中基因測(cè)序項(xiàng)目納入排除樣本的流程

2.6 基因測(cè)序項(xiàng)目的質(zhì)量保證

2.6.1 基因檢測(cè)數(shù)據(jù)的相互驗(yàn)證 對(duì)于大型臨床研究的基因測(cè)序項(xiàng)目,為了確保樣本在傳遞、提取、上機(jī)的過程中沒有被搞混,最好安排獨(dú)立平行的其他基因檢測(cè)方式,以驗(yàn)證DNA樣本和測(cè)序數(shù)據(jù)來(lái)自同一個(gè)體。在CNSR-Ⅲ項(xiàng)目中,選取了21個(gè)雙等位基因指紋SNV,采用基于飛行質(zhì)譜的基因分型方法進(jìn)行項(xiàng)目質(zhì)量管理[16],4例樣本因SNV分型一致率<85%而被排除。經(jīng)過上述一系列樣本質(zhì)控,有10 241例樣本最終可用。

2.6.2 樣本編號(hào) 涉及臨床研究的基因測(cè)序項(xiàng)目,為了避免患者隱私泄露以及人類遺傳資源數(shù)據(jù)安全遭到威脅,不僅需要對(duì)患者信息進(jìn)行脫敏,而且建議不使用能追溯到其他信息(如患者基線、隨訪、生物標(biāo)志物、影像等數(shù)據(jù))的編號(hào),可以采用一套新的唯一不重復(fù)編號(hào)并維護(hù)與其他信息編號(hào)的對(duì)應(yīng)關(guān)系。在CNSR-Ⅲ項(xiàng)目中,以生物樣本送檢時(shí)的孔板編號(hào)為基礎(chǔ)編制了基因測(cè)序編號(hào),在DNA提取和測(cè)序、SNV分型以及生物信息學(xué)分析的整個(gè)流程中均使用該基因測(cè)序編號(hào),在后續(xù)涉及具體課題的分析中才對(duì)應(yīng)回與其他信息能夠匹配的編號(hào)上。

2.6.3 樣本溯源 為了便于樣本溯源,應(yīng)當(dāng)記錄每個(gè)樣本在各個(gè)環(huán)節(jié)的信息?;驕y(cè)序項(xiàng)目中需要保留的信息包括送樣批次及孔板排布信息、DNA提取批次及質(zhì)控信息、引物和接頭名稱及序列、建庫(kù)批次及質(zhì)控信息、測(cè)序批次及上下機(jī)時(shí)間、過程中的成功或失敗記錄及異常信息。如果樣本有重新送樣、提取、建庫(kù)情況,每次重復(fù)操作時(shí)的記錄也必須保留。測(cè)序過程可能會(huì)存在首次測(cè)序反應(yīng)成功但數(shù)據(jù)量或質(zhì)量不合格的情況,除了需記錄復(fù)測(cè)、加測(cè)時(shí)的生產(chǎn)記錄,還需記錄首次測(cè)序與復(fù)測(cè)、加測(cè)批次的對(duì)應(yīng)情況,便于將多次測(cè)序的結(jié)果整合分析。上述所有記錄文件均須保留電子版和紙質(zhì)版記錄備查。

2.6.4 批次效應(yīng)控制 為了盡量降低測(cè)序反應(yīng)中的批次效應(yīng),整個(gè)項(xiàng)目過程需采用預(yù)先指定的處理程序,測(cè)序儀和操作人員盡量保持一致,反應(yīng)試劑盡量為同一生產(chǎn)批次。如果由于客觀原因無(wú)法保持一致,應(yīng)盡量換用同品牌同貨號(hào)的產(chǎn)品并記錄每個(gè)樣本所使用的試劑批次、批號(hào)等,方便后續(xù)在數(shù)據(jù)處理階段去除批次效應(yīng)。

2.6.5 實(shí)時(shí)反饋 臨床研究的基因測(cè)序項(xiàng)目往往樣本量大、運(yùn)行時(shí)間長(zhǎng),如果待所有數(shù)據(jù)都接收后再進(jìn)行質(zhì)控,一旦發(fā)現(xiàn)問題,可能會(huì)給問題的解決或漏洞的彌補(bǔ)帶來(lái)麻煩。因此,在項(xiàng)目運(yùn)行中應(yīng)當(dāng)采取實(shí)時(shí)反饋的機(jī)制,每接收一批數(shù)據(jù)應(yīng)立即按照指定質(zhì)控流程進(jìn)行處理,并將不合格樣本或異常信息向檢測(cè)實(shí)驗(yàn)室反饋,以便及時(shí)進(jìn)行重測(cè)或加測(cè),從而確保項(xiàng)目穩(wěn)定和高效運(yùn)轉(zhuǎn)。

2.7 數(shù)據(jù)安全與生物樣本安全

2.7.1 基因測(cè)序數(shù)據(jù)的安全 為了保障基因測(cè)序數(shù)據(jù)的安全,在生產(chǎn)過程中,測(cè)序儀要做到專機(jī)專用,并且項(xiàng)目開始前到項(xiàng)目結(jié)束后一定時(shí)期不可連接互聯(lián)網(wǎng)。測(cè)序數(shù)據(jù)生成后,不可使用網(wǎng)絡(luò)傳輸,可以采用硬盤等介質(zhì)并進(jìn)行加密傳輸,密碼需要采用與數(shù)據(jù)不同的途徑進(jìn)行傳遞。此外,由于數(shù)據(jù)較大,為了避免傳遞過程中出錯(cuò),在將數(shù)據(jù)拷貝到傳遞介質(zhì)之前需要生成MD5碼,將數(shù)據(jù)從傳遞介質(zhì)拷貝到目的地后,再對(duì)MD5碼進(jìn)行校驗(yàn),以確保數(shù)據(jù)完整和正確。基因測(cè)序成本高昂且難以再生,因此需要建立“兩地三中心”的容災(zāi)備份解決方案。

2.7.2 生物樣本的安全保藏 用于基因測(cè)序的生物樣本及測(cè)序過程的中間產(chǎn)物含有人類遺傳物質(zhì),需要妥善保管。因此,在項(xiàng)目結(jié)束后,所用到的外周血白細(xì)胞、提取好的基因組DNA和測(cè)序文庫(kù)均必須返還中心化樣本庫(kù),返還過程中需妥善包裝、冷鏈運(yùn)輸。對(duì)于外周血白細(xì)胞,需要使用送樣時(shí)的原盒原孔原排布順序,已用完的白細(xì)胞也需要返還空管;對(duì)于基因組DNA和測(cè)序文庫(kù),需要提交孔板排布表以及內(nèi)容物的體積和濃度信息。為了避免運(yùn)輸過程中樣本管順序被打亂,在包裝之前,需對(duì)每個(gè)樣本盒拍照,要求能看得清楚樣本盒的編號(hào)、板孔的狀態(tài)。

3 討論

高通量測(cè)序技術(shù)的實(shí)現(xiàn)改變了人類對(duì)健康和疾病的認(rèn)識(shí),如癌癥基因組圖譜(the cancer genome atlas,TCGA)、孟德爾基因組中心(centers for Mendelian genomics)和英國(guó)UK10K項(xiàng)目均采用高通量測(cè)序來(lái)進(jìn)行疾病機(jī)制和健康狀況的研究[6,23-24]。臨床研究中基因測(cè)序的樣本量通常很大,檢測(cè)范圍更全面,因而對(duì)分析流程標(biāo)準(zhǔn)化、質(zhì)控指標(biāo)統(tǒng)一化以及項(xiàng)目管理精細(xì)化提出了更高的要求。本研究確定了面向臨床研究的基因測(cè)序項(xiàng)目的設(shè)計(jì)原則,搭建了項(xiàng)目管理與標(biāo)準(zhǔn)化數(shù)據(jù)質(zhì)控流程,并在超過萬(wàn)人的CNSR-Ⅲ隊(duì)列進(jìn)行了驗(yàn)證。

對(duì)質(zhì)控標(biāo)準(zhǔn)的選擇是臨床研究基因測(cè)序項(xiàng)目的重點(diǎn),特別是大規(guī)模多中心的臨床研究,由于不同分中心的醫(yī)院等級(jí)不同、設(shè)施設(shè)備不同、研究參與人員不同,因此樣本質(zhì)量有所參差。對(duì)于質(zhì)控標(biāo)準(zhǔn)的選擇,既不能太嚴(yán)格導(dǎo)致樣本量縮水增加檢測(cè)成本,又不能太寬松導(dǎo)致影響整體研究質(zhì)量,需要在樣本量與樣本質(zhì)量之間尋找到微妙平衡。本研究確定的基因組DNA質(zhì)控標(biāo)準(zhǔn)適用于任何基因檢測(cè)項(xiàng)目,數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)適用于大多數(shù)高通量測(cè)序項(xiàng)目(“平均測(cè)序深度”和“10X覆蓋率”兩個(gè)項(xiàng)目只適用于全基因組測(cè)序)。

通過生物信息學(xué)分析鑒別出的樣本性別有時(shí)與臨床信息中記錄的不同,親緣關(guān)系推斷出患者中隱藏的家庭和人口結(jié)構(gòu)信息也不為研究者所掌握。此外,重復(fù)樣本可能暗示在樣本的傳遞、提取、上機(jī)的過程中有紕漏。上述不一致、不明確的情況均需反饋到中心化項(xiàng)目管理部門進(jìn)行核驗(yàn)與糾正,有時(shí)也需要回到分中心與研究者進(jìn)行確認(rèn)。這些現(xiàn)象在大型臨床研究中很難避免,也被其他研究所報(bào)道[7]。只要問題樣本所占的比例在一定范圍內(nèi),這其實(shí)不是壞事,通過對(duì)臨床研究的項(xiàng)目管理以及樣本質(zhì)量形成閉環(huán)反饋,可以幫助找到并排除與臨床信息不對(duì)應(yīng)的生物樣本,降低統(tǒng)計(jì)分析中的假陽(yáng)性與假陰性。

本研究在基因測(cè)序項(xiàng)目的質(zhì)量保證方面所做的工作(基因檢測(cè)數(shù)據(jù)的相互驗(yàn)證、樣本重編號(hào)、全流程記錄、實(shí)時(shí)反饋等),盡最大可能降低了批次效應(yīng)和系統(tǒng)偏差,保證了生物樣本安全與數(shù)據(jù)安全。然而,本研究還存在以下局限性:第一,樣本到達(dá)中心化生物樣本庫(kù)之前的步驟可控性差,院內(nèi)采集患者生物樣本以及運(yùn)輸過程中均存在弄混樣本的可能;第二,項(xiàng)目運(yùn)行中人員、試劑、儀器等的更換難以控制;第三,盡管已經(jīng)進(jìn)行了非常詳盡的記錄,仍不可能窮盡批次效應(yīng)的所有潛在來(lái)源。后續(xù)通過專門考慮批次效應(yīng)的統(tǒng)計(jì)分析方案,可以進(jìn)一步降低乃至消除批次效應(yīng)[10],而這也依賴于本研究產(chǎn)生的可溯源性記錄。

總之,本研究所搭建的基因測(cè)序管理流程在CNSR-Ⅲ項(xiàng)目中應(yīng)用成功,也為其他臨床研究中基因測(cè)序項(xiàng)目的管理與質(zhì)量控制提供了參考與借鑒。

說明:本文涉及的部分生物信息學(xué)術(shù)語(yǔ)或數(shù)據(jù)庫(kù)名稱在國(guó)內(nèi)尚無(wú)統(tǒng)一譯文,強(qiáng)行將這些術(shù)語(yǔ)或名稱翻譯成中文將影響讀者對(duì)原意的理解,因此本文對(duì)此類術(shù)語(yǔ)及名稱未進(jìn)行翻譯。

【點(diǎn)睛】本研究搭建了一套基因測(cè)序項(xiàng)目框架,在中國(guó)國(guó)家卒中登記Ⅲ隊(duì)列上應(yīng)用成功,可以為其他臨床研究中基因測(cè)序項(xiàng)目的管理與質(zhì)量控制提供參考與借鑒。

猜你喜歡
測(cè)序變異基因組
“植物界大熊貓”完整基因組圖譜首次發(fā)布
我國(guó)小麥基因組編輯抗病育種取得突破
新一代高通量二代測(cè)序技術(shù)診斷耐藥結(jié)核病的臨床意義
宏基因組測(cè)序輔助診斷原發(fā)性肺隱球菌
生物測(cè)序走在前
變異
基因測(cè)序技術(shù)研究進(jìn)展
變異的蚊子
病毒的變異
形的變異與的主題
建水县| 湟中县| 景德镇市| 上高县| 大同市| 长沙市| 翁牛特旗| 奉节县| 邢台县| 噶尔县| 本溪市| 建始县| 改则县| 沿河| 慈溪市| 阆中市| 白银市| 元江| 佛坪县| 汉寿县| 黑龙江省| 安溪县| 调兵山市| 广宗县| 孟连| 南漳县| 黑龙江省| 奇台县| 盈江县| 平南县| 神池县| 临沭县| 柏乡县| 肇州县| 远安县| 曲麻莱县| 康定县| 宕昌县| 称多县| 合作市| 噶尔县|