孫楠 曲守方 陳樣宜 高飛 張文新 于婷★ 黃杰★
隨著檢測(cè)技術(shù)發(fā)展,高通量測(cè)序技術(shù)已經(jīng)在臨床被廣泛應(yīng)用于遺傳和腫瘤檢測(cè)領(lǐng)域,如無創(chuàng)產(chǎn)前基因檢測(cè)(NIPT)、胚胎植入前遺傳學(xué)篩查與診斷(PGS/PGD)、遺傳病篩查與診斷、腫瘤診斷與治療等[1-4]。目前商業(yè)上常用的二代測(cè)序平臺(tái)根據(jù)測(cè)序原理可分為光學(xué)技術(shù)(Illumina 公司和華大基因公司為代表)和半導(dǎo)體技術(shù)(Thermo 公司為代表)[5-6]。每個(gè)測(cè)序平臺(tái)都有各自的特異性參數(shù),包括儀器大小、通量、讀長、運(yùn)行時(shí)間及測(cè)序成本等,應(yīng)結(jié)合具體的臨床應(yīng)用需求選擇合適的測(cè)序平臺(tái)進(jìn)行評(píng)估[7]。不同測(cè)序平臺(tái)之間存在顯著的系統(tǒng)性差異,對(duì)測(cè)序平臺(tái)性能進(jìn)行綜合評(píng)估能夠有效規(guī)范臨床應(yīng)用平臺(tái)的使用和應(yīng)用開發(fā)。為實(shí)現(xiàn)對(duì)第二代測(cè)序儀器性能評(píng)估,中國食品藥品檢定研究院研制了測(cè)序儀性能評(píng)價(jià)用脫氧核糖核酸國家參考品,也制定了高通量基因測(cè)序儀行業(yè)標(biāo)準(zhǔn)。本研究按照制定的高通量基因測(cè)序儀行業(yè)標(biāo)準(zhǔn)的性能指標(biāo)的要求,使用測(cè)序通量<20 Gb/run 且≥2 Gb/run 高通量基因測(cè)序儀進(jìn)行驗(yàn)證,評(píng)價(jià)該標(biāo)準(zhǔn)的可行性。
測(cè)序儀性能評(píng)價(jià)用脫氧核糖核酸國家參考品,包括四種基因組DNA 樣本,分別是人基因組DNA 樣本(Human_1~3)、大腸桿菌基因組DNA 樣本(Ecoli_1~3)、高GC 含量細(xì)菌基因組DNA 樣本(Olsenella_1~3)、人乳頭瘤病毒11 型基因組DNA樣本(HPV11_1~3),中國食品藥品檢定研究院(簡稱中檢院)提供。
文庫構(gòu)建試劑盒、測(cè)序反應(yīng)通用試劑盒(半導(dǎo)體法)和BioelectronSeq 4000 基因測(cè)序儀,東莞博奧木華基因科技有限公司提供。
采用文庫構(gòu)建試劑盒(半導(dǎo)體測(cè)序法)對(duì)樣本進(jìn)行文庫制備。先將國家參考品DNA 酶切,接頭連接,進(jìn)行目標(biāo)DNA 片段的PCR 擴(kuò)增,獲得待測(cè)序分析的文庫。使用熒光定量PCR 儀測(cè)定各個(gè)文庫的濃度,按照等物質(zhì)的量混合文庫。
采用測(cè)序反應(yīng)通用試劑盒(半導(dǎo)體法)(S10010)并按照試劑盒說明書進(jìn)行操作。將一定量的混合文庫,加到測(cè)序芯片上,用Bioelectron-Seq 4000 基因測(cè)序儀,將帶有測(cè)序接頭的DNA 文庫加入乳液擴(kuò)增反應(yīng)體系,使每個(gè)DNA 模板在獨(dú)立的微擴(kuò)增環(huán)境中擴(kuò)增放大,然后將其作為測(cè)序模板載入測(cè)序芯片。將四種脫氧核苷酸分別標(biāo)記不同的熒光基團(tuán),每一個(gè)循環(huán)添加一種核苷酸,該核苷酸如果被合成到DNA 中會(huì)釋放氫離子,引起溶液pH 值變化從而得到核苷酸序列信息。
測(cè)序完成后通過生物信息軟件,對(duì)獲得的fastq 數(shù)據(jù)進(jìn)行過濾,使用BWA 軟件,將每個(gè)read與參考序列進(jìn)行比對(duì),使用軟件GATK Haplotype Caller 對(duì)比對(duì)結(jié)果進(jìn)行變異分析。
對(duì)于“測(cè)序覆蓋率和測(cè)序平均深度”,標(biāo)準(zhǔn)要求制造商應(yīng)規(guī)定檢測(cè)國家參考品或標(biāo)準(zhǔn)品的測(cè)序覆蓋率和測(cè)序平均深度。制造商規(guī)定的要求為:測(cè)序覆蓋率要求>95%,測(cè)序平均深度應(yīng)>100×。結(jié)果表明,測(cè)序覆蓋率為99.99%,測(cè)序平均深度為166×,符合制造商的規(guī)定。
對(duì)于“測(cè)序準(zhǔn)確率”,標(biāo)準(zhǔn)規(guī)定在制造商規(guī)定的測(cè)序覆蓋率和測(cè)序平均深度下,符合以下要求:①檢測(cè)人基因組DNA 參考品或標(biāo)準(zhǔn)品中指定的全外顯子區(qū)域,比對(duì)率應(yīng)符合制造商的要求,與指定全外顯子區(qū)域單核苷酸多態(tài)性(Single nucleotide polymorphisms,SNP)和插入缺失(Insertion-deletion,Indel)參考數(shù)據(jù)集比較,SNP、Indel 的準(zhǔn)確率和靈敏度應(yīng)符合制造商的要求;②檢測(cè)人基因組DNA 參考品或標(biāo)準(zhǔn)品中指定的全外顯子區(qū)域,比對(duì)率應(yīng)符合制造商的要求,與人基因組DNA 參考序列中指定的全外顯子區(qū)域比對(duì),測(cè)序一致序列準(zhǔn)確率應(yīng)不低于99.0%;③檢測(cè)細(xì)菌和病毒DNA 參考品,與對(duì)應(yīng)參考序列比對(duì),測(cè)序一致序列準(zhǔn)確率應(yīng)不低于99.0%。結(jié)果表明,對(duì)國家參考品中人基因組DNA樣本(Human)的比對(duì)率為86.14%,堿基測(cè)序準(zhǔn)確率為98.97%;SNP、Indel 準(zhǔn)確率為95.40%;SNP、Indel靈敏度為85.75%,均符合制造商的要求:比對(duì)率應(yīng)>80%,堿基測(cè)序準(zhǔn)確率應(yīng)>95%,SNP、Indel 準(zhǔn)確率應(yīng)>90%,靈敏度應(yīng)>80%。對(duì)國家參考品中人基因組DNA 樣本的一致序列準(zhǔn)確率為99.94%,符合制造商的一致序列準(zhǔn)確率>99.0%要求。對(duì)國家參考品中人乳頭瘤病毒11 型基因組DNA 樣本(HPV11)、大腸桿菌基因組DNA 樣本(E.coli)、高GC 含量細(xì)菌基因組DNA 樣本(Olsenella),HPV11的測(cè)序一致序列準(zhǔn)確率為100%;E.coli 的準(zhǔn)確率為99.95%;Olsenella 的準(zhǔn)確率為99.88%,均符合制造商的一致序列準(zhǔn)確率>99.0%要求。
將下機(jī)數(shù)據(jù)分別與參考基因組進(jìn)行比對(duì),統(tǒng)計(jì)比對(duì)率和錯(cuò)配率,進(jìn)而計(jì)算出堿基準(zhǔn)確率(1-錯(cuò)配率),將人基因組樣本的數(shù)據(jù)與人類參考基因組hs37d5 使用BWA 比對(duì),然后使用GATK Haplotype Caller 對(duì)比對(duì)結(jié)果進(jìn)行變異分析獲得檢測(cè)的變異數(shù)據(jù)集,最后分析該數(shù)據(jù)集在27 Mb 外顯子區(qū)域的結(jié)果與高置信變異集的比對(duì)一致性情況,將大腸桿菌E.coli,高GC 菌Olsenella 和HPV-11 下機(jī)數(shù)據(jù)與各自基因組的一致性序列比對(duì)。見圖1。
圖1 國家參考品比對(duì)結(jié)果Figure 1 Mapped results of national reference materials
人基因組樣本數(shù)據(jù)與人類參考基因組hs37d5進(jìn)行比對(duì)和變異檢測(cè),與高置信變異標(biāo)準(zhǔn)集進(jìn)行比較,變異評(píng)估結(jié)果見表1和圖2。
圖2 外顯子27M 區(qū)域人基因組樣本的變異評(píng)估結(jié)果Figure 2 Variation assessment results of human genome samples from exon 27M region
對(duì)于“重復(fù)性”,取國家參考品進(jìn)行三次重復(fù)測(cè)序,每次結(jié)果均符合“測(cè)序覆蓋率和測(cè)序平均深度”和“測(cè)序準(zhǔn)確率”要求,結(jié)果見圖1、表1。
表1 外顯子27M 區(qū)域人基因組樣本的變異評(píng)估結(jié)果Table 1 Variation assessment results of human genome samples from exon 27M region
傳統(tǒng)的化學(xué)降解法、雙脫氧鏈終止法以及在它們的基礎(chǔ)上發(fā)展來的測(cè)序技術(shù)統(tǒng)稱為第一代測(cè)序。它在分子生物學(xué)研究中發(fā)揮了重要的作用,如人類基因組計(jì)劃。第二代測(cè)序主要包括羅氏454 公司的454 測(cè)序技術(shù)、Illumina 公司的Solexa 測(cè)序技術(shù)和Life Technologies 公司的Ion Torrent 測(cè)序技術(shù)[8-10]。與傳統(tǒng)測(cè)序技術(shù)相比,二代測(cè)序技術(shù)的核心思想是邊合成邊測(cè)序,具有高通量、低成本等優(yōu)點(diǎn)。
許多公司進(jìn)行了高通量測(cè)序儀的開發(fā)和應(yīng)用。但是目前尚無統(tǒng)一的標(biāo)準(zhǔn)對(duì)高通量測(cè)序儀的性能及使用進(jìn)行規(guī)范,對(duì)其臨床上的風(fēng)險(xiǎn)不易把控,所以亟需研制相應(yīng)的行業(yè)標(biāo)準(zhǔn)對(duì)其性能進(jìn)行評(píng)估。行業(yè)標(biāo)準(zhǔn)的制定將有助于提高并統(tǒng)一產(chǎn)品的標(biāo)準(zhǔn)[11-12]。中國食品藥品檢定研究院制定了高通量基因測(cè)序儀行業(yè)標(biāo)準(zhǔn)。經(jīng)過對(duì)各測(cè)序指標(biāo)的篩選、比較與分析,最后確定了符合高通量基因測(cè)序儀的評(píng)價(jià)指標(biāo),包含測(cè)序讀長和通量、堿基識(shí)別質(zhì)量百分比、測(cè)序覆蓋率和測(cè)序平均深度、測(cè)序準(zhǔn)確率、重復(fù)性、軟件功能、安全要求、環(huán)境試驗(yàn)要求和電磁兼容性要求等。鑒于不同測(cè)序平臺(tái)因?yàn)槠錅y(cè)序原理和技術(shù)手段不同,具有不同的測(cè)序平均讀長。測(cè)序平均讀長過短會(huì)影響后續(xù)拼接、組裝和比對(duì)等,從而影響測(cè)序效果。因此需要對(duì)測(cè)序讀長這一指標(biāo)加以規(guī)范。測(cè)序通量也是代表性的指標(biāo)之一,因?yàn)楦咄繙y(cè)序區(qū)別于一代Sanger 測(cè)序的明顯差別之一就在于其測(cè)序通量。而測(cè)序準(zhǔn)確率這一指標(biāo),可以最直觀的表現(xiàn)每次測(cè)序結(jié)果的精確程度,其對(duì)高通量基因測(cè)序結(jié)果評(píng)價(jià)具有重要意義。
二代基因測(cè)序技術(shù)檢出數(shù)據(jù)量非常龐大,要借助生物信息學(xué)分析,對(duì)檢測(cè)結(jié)果進(jìn)行初步分析。研究表明在進(jìn)行Indel 分析時(shí),由于Indel 存在導(dǎo)致Indel 周邊堿基的測(cè)序質(zhì)量會(huì)有所降低,從而對(duì)Indel 的檢出以及可靠性評(píng)估都會(huì)造成較大影響[13]。在測(cè)序一致序列準(zhǔn)確率均不低于99.0%的情況下,在SNP、Indel 的準(zhǔn)確率和靈敏度存在較大的差別,主要是平臺(tái)本身的技術(shù)原理和技術(shù)性能決定的。本研究的一致序列準(zhǔn)確率是計(jì)算平臺(tái)在所有覆蓋區(qū)域上的主要堿基與參考序列一致的占比,次要堿基不列入統(tǒng)計(jì),次要堿基可能為測(cè)序錯(cuò)誤,也可能為真實(shí)存在的變異。本研究的平臺(tái)采用GATK Haplotype Caller 軟件獲得SNP 和Indel,該軟件對(duì)某位置上存在兩種以上的堿基時(shí),會(huì)用隱馬爾科夫模型在給定的read 數(shù)據(jù)下,計(jì)算各單倍型的進(jìn)行最大似然值,給出可信變異的列表。因此在平均深度為100×的測(cè)序中,測(cè)序有效覆蓋區(qū)域的一致序列準(zhǔn)確率可以達(dá)到99.0%甚至99.9%的水平。半導(dǎo)體測(cè)序法的特點(diǎn)是快速實(shí)時(shí)讀取堿基,堿基準(zhǔn)確率相比基于熒光信號(hào)識(shí)別堿基的高通量測(cè)序平臺(tái)稍差,特別是連續(xù)相同堿基(homopolymer)的區(qū)域測(cè)序獲得的錯(cuò)配堿基部分為可重復(fù)的情況,在未進(jìn)行系統(tǒng)性校正的情況下容易超過軟件統(tǒng)計(jì)模型設(shè)定的閾值,從而導(dǎo)致準(zhǔn)確性和靈敏度下降。Ion Proton 平臺(tái)一般采用擴(kuò)增子法進(jìn)行文庫構(gòu)建。SNP 僅是單個(gè)堿基的變化,因此對(duì)于PCR 擴(kuò)增的影響極小,但I(xiàn)ndel 一般是多個(gè)堿基的插入或者缺失,若發(fā)生Indel 的位置與PCR 引物的位置有交叉時(shí),則極有可能導(dǎo)致擴(kuò)增失敗,Indel 的擴(kuò)增失敗率要遠(yuǎn)遠(yuǎn)高于SNP,導(dǎo)致其準(zhǔn)確性和靈敏度遠(yuǎn)遠(yuǎn)低于SNP。比對(duì)基因組主要是觀察測(cè)序序列與參考序列的相似程度,擴(kuò)增子長度在200 bp 左右,SNP 的單個(gè)堿基變化導(dǎo)致測(cè)序序列與參考序列的差別是非常小的。但是Indel的十幾個(gè)堿基的插入與缺失,使測(cè)序序列與參考序列的差別大幅增加,增加了基因組比對(duì)的困難,導(dǎo)致Indel 的reads 被丟棄。因此在生信分析比對(duì)基因組過程中也會(huì)導(dǎo)致Indel 的準(zhǔn)確性和靈敏度遠(yuǎn)遠(yuǎn)低于SNP。實(shí)際臨床應(yīng)用中,可采用基于半導(dǎo)體測(cè)序平臺(tái)測(cè)序偏好的相關(guān)分析方法如TMAP 和TVC 配套軟件,準(zhǔn)確性可提高至97%;或者開發(fā)基于特定基因位點(diǎn)變異模式的貝葉斯分析方法,降低測(cè)序錯(cuò)誤的影響,提高檢測(cè)性能。國家參考品中增加了SNP、Indel 的準(zhǔn)確率和靈敏度的要求,但并未對(duì)平臺(tái)進(jìn)行統(tǒng)一規(guī)定,要求制造商給出各自平臺(tái)的具體要求。這一評(píng)價(jià)方式和國際上評(píng)價(jià)測(cè)序儀的方式一致。
本研究采用BioelectronSeq 4000 基因測(cè)序儀按照高通量基因測(cè)序儀行業(yè)標(biāo)準(zhǔn)對(duì)國家參考品進(jìn)行檢驗(yàn),測(cè)序通量<20 Gb/run 且≥2 Gb/run。驗(yàn)證結(jié)果顯示符合行業(yè)標(biāo)準(zhǔn)的測(cè)序覆蓋率和測(cè)序平均深度、測(cè)序準(zhǔn)確率和重復(fù)性的要求,表明該行業(yè)標(biāo)準(zhǔn)具有很好的適用性,可以用于高通量測(cè)序儀的性能評(píng)價(jià)和上市后的監(jiān)督管理工作。