王 樂(lè),葉 健,白 雪,楊 帆,趙興春
(公安部物證鑒定中心 法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室 北京市現(xiàn)場(chǎng)物證檢驗(yàn)工程技術(shù)研究中心,北京 100038)
二代測(cè)序技術(shù)及其在法醫(yī)遺傳學(xué)中的應(yīng)用
王 樂(lè),葉 健,白 雪,楊 帆,趙興春*
(公安部物證鑒定中心 法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室 北京市現(xiàn)場(chǎng)物證檢驗(yàn)工程技術(shù)研究中心,北京 100038)
從DNA指紋圖譜到STR復(fù)合擴(kuò)增檢驗(yàn),30年來(lái)法醫(yī)DNA工作者目睹著技術(shù)的深刻變革以及在此推動(dòng)下案件偵查模式的巨大轉(zhuǎn)變。自從二代測(cè)序技術(shù)問(wèn)世以來(lái),遺傳學(xué)的研究方式已發(fā)生了巨大轉(zhuǎn)變。但是相比其在癌癥和遺傳病診斷、基因組從頭測(cè)序和重測(cè)序、轉(zhuǎn)錄組重測(cè)序、藥物研制等領(lǐng)域的應(yīng)用,二代測(cè)序在法庭科學(xué)領(lǐng)域的應(yīng)用尚處于起步階段。本文介紹二代測(cè)序的基本概念、發(fā)展歷史和工作原理,綜述了二代測(cè)序技術(shù)在STR分型、SNP分型、線粒體全基因組測(cè)序等幾個(gè)重點(diǎn)領(lǐng)域近兩年的最近動(dòng)態(tài),最后結(jié)合二代測(cè)序在法庭科學(xué)領(lǐng)域的應(yīng)用展望提出可能遇到的挑戰(zhàn),希冀對(duì)相關(guān)研究和實(shí)踐提供參考。
法醫(yī)遺傳學(xué);二代測(cè)序;短串聯(lián)重復(fù)序列;單核苷酸多態(tài)性;線粒體全基因組測(cè)序
自從二代測(cè)序(second generation sequencing,SGS)技術(shù)和平臺(tái)問(wèn)世以來(lái),遺傳學(xué)的研究方式已發(fā)生了巨大轉(zhuǎn)變。如今,每周都有基因組數(shù)據(jù)發(fā)表,測(cè)序速度越來(lái)越快,測(cè)序成本越來(lái)越低。在過(guò)去十年間,二代測(cè)序的方法和平臺(tái)變得日趨完善,數(shù)據(jù)準(zhǔn)確性顯著提升,并開(kāi)始運(yùn)用于人類(lèi)臨床診斷。法醫(yī)遺傳學(xué)領(lǐng)域也開(kāi)始關(guān)注二代測(cè)序,在科技論文發(fā)表和學(xué)術(shù)會(huì)議報(bào)告方面,二代測(cè)序相關(guān)成果數(shù)量呈現(xiàn)爆發(fā)式增長(zhǎng),這些成果為解決刑事案件提供新的可能性。運(yùn)用二代測(cè)序技術(shù),基于一次實(shí)驗(yàn)、一份微量生物樣本檢材就可以同時(shí)獲得短串聯(lián)重復(fù)序列多態(tài)性(short tandem repeat,STR)、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入缺失多態(tài)性(insertion/deletion polymorphism,Indel)、mRNA等各種類(lèi)型的大量的遺傳標(biāo)記信息,這是現(xiàn)有PCR-CE (PCR-capillary electrophoresis)平臺(tái)所無(wú)法做到的。運(yùn)用二代測(cè)序技術(shù),STR等位基因間精細(xì)的序列差異得以彰顯,未知的稀有STR等位基因得以被發(fā)現(xiàn),這些詳細(xì)的序列信息有可能輔助混合樣本的數(shù)據(jù)解析。本文將簡(jiǎn)單介紹二代測(cè)序的基本概念、發(fā)展歷史、工作原理,并對(duì)其在STR分型、SNP分型、線粒體全基因組測(cè)序領(lǐng)域的最新進(jìn)展進(jìn)行綜述。
1980年,英國(guó)生物化學(xué)家Frederick Sanger與美國(guó)生物化學(xué)家Walter Gilbert因建立DNA測(cè)序技術(shù)獲得諾貝爾化學(xué)獎(jiǎng)。在Sanger測(cè)序中,核苷酸擴(kuò)增從某一固定堿基開(kāi)始,通過(guò)摻入雙脫氧核苷酸在隨機(jī)堿基終止,通過(guò)A、T、C、G四種雙脫氧核苷酸分別標(biāo)記著不同顏色的熒光基團(tuán),判定DNA序列每個(gè)堿基位置的核苷酸種類(lèi)[1]。由于Sanger測(cè)序巧妙地引入了雙脫氧核苷酸,該方法也被稱為雙脫氧鏈終止法。二代測(cè)序技術(shù)出現(xiàn)后,為了便于區(qū)分,以Sanger測(cè)序?yàn)榇淼腄NA測(cè)序方法被稱為一代測(cè)序。Sanger測(cè)序被譽(yù)為生物化學(xué)領(lǐng)域最偉大的發(fā)明之一,壟斷DNA測(cè)序行業(yè)三十年,為生物科技的迅猛發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ),至今仍是DNA測(cè)序的主流技術(shù)。
二代測(cè)序,也叫下一代測(cè)序(next generation sequencing,NGS)或大規(guī)模平行測(cè)序(massively parallel sequencing,MPS),它不是DNA測(cè)序的一種方法,而是具有共同本質(zhì)屬性的一類(lèi)方法,這個(gè)共同的本質(zhì)屬性是“大規(guī)模平行”,這也正是二代測(cè)序區(qū)別于一代測(cè)序的關(guān)鍵所在。無(wú)論一代測(cè)序或是二代測(cè)序,其實(shí)驗(yàn)結(jié)果都是由A、T、C、G 4種核苷酸組成的DNA序列。二代測(cè)序?qū)嶒?yàn)過(guò)程大體可分為樣本準(zhǔn)備、文庫(kù)構(gòu)建、測(cè)序反應(yīng)和數(shù)據(jù)分析四個(gè)步驟。各公司提供的二代測(cè)序平臺(tái)在測(cè)序原理方面千差萬(wàn)別,但基本都體現(xiàn)以上實(shí)驗(yàn)步驟。
二代測(cè)序技術(shù)的發(fā)展進(jìn)程是新型二代測(cè)序平臺(tái)不斷涌現(xiàn)、速度不斷提升、成本不斷降低的過(guò)程。以下就幾款較為經(jīng)典的二代測(cè)序平臺(tái)簡(jiǎn)要介紹其工作原理。
2.1 454/Roche GS FLX系統(tǒng)
2004年,454生命科學(xué)公司(2007年被Roche公司收購(gòu))生產(chǎn)了商品化二代測(cè)序儀—基因組測(cè)序儀20 (GS 20)[2]。2006年12月,推出新款二代測(cè)序儀—基因組測(cè)序儀FLX (GS FLX)[3-5]。GS FLX系統(tǒng)首先將基因組DNA打碎成300~800 bp片段,在單鏈DNA的3’和5’端分別連上不同的接頭,每條帶有接頭的單鏈DNA被固定在一顆磁珠上,隨后擴(kuò)增試劑將磁珠乳化,形成油包水的混合物,即形成許多個(gè)只包含一個(gè)磁珠和一個(gè)獨(dú)特片段的微反應(yīng)器。每個(gè)片段在自己的微反應(yīng)器里進(jìn)行獨(dú)立擴(kuò)增,擴(kuò)增產(chǎn)物仍然結(jié)合在磁珠上。緊接著,攜帶DNA的磁珠被放入PTP板中進(jìn)行測(cè)序,板上小孔的直徑?jīng)Q定了每個(gè)小孔只能容納一顆磁珠,四種堿基依照T、A、C、G的順序依次循環(huán)進(jìn)入PTP板,每次只進(jìn)入一個(gè)堿基,如果發(fā)生堿基配對(duì),就會(huì)釋放出一個(gè)焦磷酸,這個(gè)焦磷酸在酶的作用下轉(zhuǎn)化為光信號(hào),并實(shí)時(shí)地被CCD捕獲,由此可以準(zhǔn)確、快速的確定待測(cè)模板的堿基序列。454系統(tǒng)是二代測(cè)序技術(shù)的代表性平臺(tái),雖已宣布停產(chǎn),但時(shí)至今日基于該系統(tǒng)的研究成果仍在不斷涌現(xiàn)。
2.2 Solexa系統(tǒng)
2006年,Illumina公司收購(gòu)Solexa公司,于2007年推出二代測(cè)序儀Illumina genome analyzer[6-8]。Solexa系統(tǒng)的核心思想是邊合成邊測(cè)序。首先將基因組DNA打碎成100~200 bp的小片段,在小片段兩端加上接頭,單鏈DNA片段的一端通過(guò)接頭與芯片表面的引物堿基互補(bǔ)而被固定,另一端隨機(jī)和附近的另外一個(gè)引物互補(bǔ),形成橋狀結(jié)構(gòu)。擴(kuò)增后,DNA單分子成為單克隆的DNA簇。合成反應(yīng)中,加入DNA聚合酶、熒光標(biāo)記脫氧核糖核苷三磷酸(deoxynucleotide triphosphate, dNTP)和接頭引物進(jìn)行擴(kuò)增,在DNA簇延伸互補(bǔ)鏈時(shí),每加入一個(gè)熒光標(biāo)記dNTP就能釋放出相應(yīng)熒光,測(cè)序儀通過(guò)捕獲熒光信號(hào)即可獲得待測(cè)片段的序列信息。
2.3 SOLiDTM系統(tǒng)
2007年,ABI公司推出二代測(cè)序平臺(tái)—SOLiDTM系統(tǒng)[9]。SOLiDTM是“通過(guò)寡核苷酸連接和檢測(cè)測(cè)序(sequencing by oligonucleotide ligation and detection)”的英文縮寫(xiě),與GS FLX系統(tǒng)和Solexa系統(tǒng)不同,SOLiDTM系統(tǒng)采用的不是合成法測(cè)序,而是連接法測(cè)序。完成文庫(kù)構(gòu)建后,SOLiDTM系統(tǒng)采用與454技術(shù)類(lèi)似的乳液PCR對(duì)短片段進(jìn)行擴(kuò)增,擴(kuò)增產(chǎn)物同樣固定于磁珠表面,磁珠共價(jià)結(jié)合于玻片上。SOLiDTM系統(tǒng)的獨(dú)特之處在于使用DNA連接酶和熒光標(biāo)記寡核苷酸探針(8個(gè)堿基)實(shí)現(xiàn)測(cè)序反應(yīng),并通過(guò)“雙堿基編碼”系統(tǒng)實(shí)現(xiàn)熒光顏色識(shí)別。
2.4 Ion PGMTM系統(tǒng)
2010年, Life Technologies公司收購(gòu)Ion Torrent公司,并迅速推出首款半導(dǎo)體測(cè)序儀—Ion PGMTM系統(tǒng)[10,11]。2012年,推出新型臺(tái)式測(cè)序儀—Ion ProtonTM系統(tǒng)[12]。Ion PGMTM和Ion ProtonTM系統(tǒng)開(kāi)啟了后光學(xué)測(cè)序時(shí)代,即整個(gè)測(cè)序過(guò)程不涉及光信號(hào),直接監(jiān)測(cè)測(cè)序反應(yīng)過(guò)程中氫離子釋放導(dǎo)致的局部pH值變化,利用離子傳感器直接將化學(xué)信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)。2014年,Thermo Fisher公司收購(gòu)Life Technologies公司,推出兩款為Ion PGMTM系統(tǒng)設(shè)計(jì)的法醫(yī)SNP分型試劑盒:包含124個(gè)常染色體SNP位點(diǎn)和34個(gè)Y-SNP位點(diǎn)的人類(lèi)個(gè)體識(shí)別試劑盒以及包含165個(gè)常染色體SNP位點(diǎn)的祖先來(lái)源推斷試劑盒,Thermo Fisher正致力于研發(fā)CODIS核心基因座的STR分型試劑盒,先期適用版本包含10個(gè)基因座[13]。
2.5 MiSeq FGxTM系統(tǒng)
圖1 Pubmed歷年新收錄二代測(cè)序科研論文數(shù)量Fig.1 Annual statistics of research articles on NGS in Pubmed
2014年,Illumina公司推出基于二代測(cè)序技術(shù)的法醫(yī)基因組分析系統(tǒng)—MiSeq FGxTM系統(tǒng),并配套二代測(cè)序試劑盒—Forenseq DNA Signature Prep試劑盒[13]。MiSeq FGxTM系統(tǒng)繼承Solexa系統(tǒng)邊合成邊測(cè)序的基本原理,支持STR、SNP、線粒體DNA等多種法庭科學(xué)分子標(biāo)記檢測(cè)與分析;Forenseq DNA Signature Prep試劑盒包含27個(gè)常染色體STR基因座、24個(gè)Y-STR基因座、7個(gè)X-STR基因座、94個(gè)身源識(shí)別SNP基因座、22個(gè)表型SNP基因座和56個(gè)地域祖先來(lái)源SNP基因座。
科研論文的發(fā)表數(shù)量和變化趨勢(shì)可以直觀地體現(xiàn)某個(gè)研究領(lǐng)域的研究熱度和發(fā)展趨勢(shì)。截止2015 年7月10日,Pubmed搜索引擎共收錄16423篇二代測(cè)序相關(guān)科研論文,主要集中于二代測(cè)序技術(shù)在各類(lèi)癌癥和遺傳病診斷、基因組從頭測(cè)序和重測(cè)序、藥物研制、轉(zhuǎn)錄組、微生物組、基因調(diào)控等領(lǐng)域的研究和應(yīng)用。自2007年起論文數(shù)量呈現(xiàn)逐年遞增趨勢(shì)(見(jiàn)圖1),2014年達(dá)到4506篇,預(yù)計(jì)2015年將突破5000篇。以上數(shù)據(jù)說(shuō)明二代測(cè)序技術(shù)的相關(guān)研究正處于上升階段,更多的科研團(tuán)隊(duì)正投入到相關(guān)研究中。相比之下,二代測(cè)序技術(shù)在法庭科學(xué)領(lǐng)域中的應(yīng)用發(fā)展滯后,截止2015年7月10日總共僅有119篇科研論文發(fā)表(見(jiàn)圖2),占比不足二代測(cè)序文章總數(shù)的1%,且直到2014年文章數(shù)量才出現(xiàn)急劇增長(zhǎng),說(shuō)明二代測(cè)序技術(shù)在法庭科學(xué)領(lǐng)域起步晚,尚處于剛剛興起的階段。
圖2 Pubmed歷年新收錄二代測(cè)序技術(shù)在法庭科學(xué)領(lǐng)域運(yùn)用科研論文數(shù)量Fig.2 Annual statistics of research articles on forensic NGS in Pubmed
STR技術(shù)是當(dāng)前法醫(yī)DNA領(lǐng)域的主流技術(shù)。首先,我國(guó)公安機(jī)關(guān)現(xiàn)有400余個(gè)DNA實(shí)驗(yàn)室,對(duì)于其中90%以上的實(shí)驗(yàn)室,基于PCR-CE方法進(jìn)行STR分析是唯一的技術(shù)手段;第二,目前國(guó)際上最先進(jìn)的法醫(yī)遺傳學(xué)實(shí)驗(yàn)室仍視基于PCR-CE平臺(tái)的STR分析為DNA鑒定金標(biāo)準(zhǔn);第三,全球各國(guó)DNA數(shù)據(jù)庫(kù)均基于STR基因座;第四,大量積案、冷案的DNA證據(jù)均以STR分型體現(xiàn),檢材已無(wú)法再次獲得。綜合以上四點(diǎn),筆者認(rèn)為STR技術(shù)在未來(lái)法醫(yī)DNA領(lǐng)域中仍將占據(jù)統(tǒng)治地位,二代測(cè)序技術(shù)若要在法醫(yī)遺傳學(xué)領(lǐng)域站穩(wěn)腳跟,則必須妥善解決好STR分型問(wèn)題。
基于二代測(cè)序進(jìn)行STR分析相比PCR-CE平臺(tái)具有顯著優(yōu)勢(shì):第一,PCR-CE平臺(tái)僅區(qū)分等位基因的片段大小,核苷酸數(shù)量相等的所有等位基因被認(rèn)為是同一個(gè)等位基因;二代測(cè)序技術(shù)可明辨DNA序列,展示出STR等位基因重復(fù)單元和側(cè)翼序列的真實(shí)差異。丹麥哥本哈根大學(xué)Morling等利用二代測(cè)序技術(shù)對(duì)197份丹麥人樣本進(jìn)行STR檢驗(yàn),在D12S391基因座中發(fā)現(xiàn)53種不同的等位基因,而同批樣本用PCR-CE平臺(tái)檢測(cè),僅發(fā)現(xiàn)15個(gè)不同的等位基因[14]。另一項(xiàng)研究顯示,PCR-CE平臺(tái)檢測(cè)結(jié)果中30%的純合子經(jīng)測(cè)序驗(yàn)證為雜合子[13]。以上結(jié)果表明基于二代測(cè)序進(jìn)行STR分析比PCR-CE平臺(tái)更為精細(xì)化,更充分發(fā)掘現(xiàn)有STR基因座的區(qū)分能力,只需更少的基因座即可達(dá)到現(xiàn)有個(gè)體識(shí)別率。第二, 二代測(cè)序?qū)到鈾z材進(jìn)行STR分析具有優(yōu)勢(shì)。PCR-CE平臺(tái)采用多色熒光復(fù)合擴(kuò)增技術(shù),為在各色熒光中安置更多的基因座,設(shè)計(jì)引物時(shí)經(jīng)常有意保留較長(zhǎng)的側(cè)翼序列,導(dǎo)致擴(kuò)增效率降低,不利于降解檢材分型。利用二代測(cè)序技術(shù)進(jìn)行STR分型,各基因座片段長(zhǎng)度完全可以重疊在小片段區(qū)域且互不干擾,相當(dāng)于將更多的常規(guī)STR基因座作為Mini-STR基因座使用,對(duì)降解檢材分型效果自然更好。
2011年,丹麥自然歷史博物館Gilbert研究團(tuán)隊(duì)基于454平臺(tái)率先將二代測(cè)序技術(shù)引入STR分析[15]。2012年,比利時(shí)根特大學(xué)Deforce教授研究組比較了D3S1358等9個(gè)CODIS核心基因座在454 和PCR-CE平臺(tái)的測(cè)序效果[16]。Deforce教授肯定了利用454平臺(tái)進(jìn)行STR分析的可行性,也客觀指出454平臺(tái)比PCR-CE平臺(tái)更昂貴,需要更繁重的實(shí)驗(yàn)室工作,錯(cuò)誤率也更高。同年,美國(guó)巴特爾紀(jì)念研究Faith研究團(tuán)隊(duì)報(bào)道利用Illumina二代測(cè)序系統(tǒng)進(jìn)行STR分型[17]。2014年, Morling等報(bào)道基于454平臺(tái)進(jìn)行STR分型嘗試和方法優(yōu)化,研究了D3S1358、D12S391、D21S11等3個(gè)STR基因座,發(fā)現(xiàn)30個(gè)新等位基因,并在D12S391核心重復(fù)單元中發(fā)現(xiàn)新的SNP位點(diǎn)[14]。美國(guó)武裝部隊(duì)DNA鑒定實(shí)驗(yàn)室Scheible教授首次嘗試?yán)枚鷾y(cè)序進(jìn)行案件檢材的STR分型,并建立了48個(gè)常用STR基因座的二代測(cè)序分型方法[18]。
2015年,Morling等利用Thermo Fisher公司的Ion PGMTM系統(tǒng),以及尚處于試用階段的包含10個(gè)基因座的試劑盒產(chǎn)品,建立了STR分型方法[19]。結(jié)果表明該方法在價(jià)格、需要檢材量、測(cè)序速度等方面相比其它方法具有優(yōu)勢(shì)。目前,Ion PGMTM系統(tǒng)測(cè)序讀長(zhǎng)可達(dá)400 bp,雖然該方法僅針對(duì)重復(fù)單元較短的基因座(103~205 bp),但該系統(tǒng)仍具有潛力分型重復(fù)單元更長(zhǎng)的基因座。Illumina公司推出的MiSeq FGxTM系統(tǒng)和Forenseq DNA Signature Prep試劑盒是現(xiàn)有唯一商業(yè)化二代測(cè)序STR分型解決方案,Illumina同時(shí)宣布要用二代測(cè)序技術(shù)替代PCR-CE平臺(tái)。而Thermo Fisher公司的策略則是將二代測(cè)序STR分型作為PCR-CE平臺(tái)的補(bǔ)充[13]。就在本文撰寫(xiě)過(guò)程中,上海刑事科學(xué)技術(shù)研究院、上海市公安局、復(fù)旦大學(xué)聯(lián)合研究團(tuán)隊(duì)報(bào)道在國(guó)際上首次成功利用二代測(cè)序技術(shù)進(jìn)行Y-STR分型[20]。
不同于STR分型區(qū)分長(zhǎng)度多態(tài)性,SNP分型區(qū)分的是序列多態(tài)性。在二代測(cè)序數(shù)據(jù)分析方面,SNP要比STR更簡(jiǎn)單。SNaPshot是基于PCR-CE平臺(tái)的SNP分型方法,也是目前最常用的SNP分型方法之一。澳大利亞Daniel研究組在136個(gè)SNP位點(diǎn)范圍內(nèi)比較了二代測(cè)序(Ion PGMTM平臺(tái))、SNaPshot 和Sanger測(cè)序的實(shí)驗(yàn)結(jié)果,二代測(cè)序分型成功率達(dá)97%以上,也發(fā)現(xiàn)個(gè)別位點(diǎn)由于特殊結(jié)構(gòu)而導(dǎo)致測(cè)序錯(cuò)誤[21]。奧地利、西班牙、德國(guó)等國(guó)家實(shí)驗(yàn)室對(duì)二代測(cè)序SNP分型進(jìn)行了實(shí)驗(yàn)室間比對(duì)研究,研究組使用的是Ion PGMTM平臺(tái)和配套試劑盒,結(jié)果表明靈敏度達(dá)到25 pg,僅在rs1979255等5個(gè)位點(diǎn)發(fā)現(xiàn)結(jié)果不一致情況[10]。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院Vallone團(tuán)隊(duì)研究了二代測(cè)序?qū)到釪NA的分型效果,發(fā)現(xiàn)基于二代測(cè)序Ion PGMTM平臺(tái)的SNP體系對(duì)降解檢材分型效果優(yōu)于基于PCR-CE平臺(tái)的STR、Mini-STR和Indel體系[22]。二代測(cè)序數(shù)據(jù)的增長(zhǎng)對(duì)Y染色體進(jìn)化和Y-SNP研究也產(chǎn)生了深遠(yuǎn)影響,每次二代測(cè)序研究都有機(jī)會(huì)對(duì)Y染色體重新分析并發(fā)現(xiàn)新的Y-SNP,學(xué)者已經(jīng)呼吁在二代測(cè)序背景下盡快形成具有國(guó)際共識(shí)的系統(tǒng)命名規(guī)則[23]。
2014年以來(lái),法醫(yī)遺傳學(xué)相關(guān)二代測(cè)序研究最集中的領(lǐng)域當(dāng)屬線粒體基因組測(cè)序[24-30]。雖然線粒體DNA技術(shù)的應(yīng)用遠(yuǎn)不及STR技術(shù)廣泛,我國(guó)公安機(jī)關(guān)開(kāi)展線粒體DNA鑒定的實(shí)驗(yàn)室也相對(duì)較少,但該技術(shù)對(duì)于涉及微量DNA檢材或母系遺傳調(diào)查的案件具有獨(dú)特優(yōu)勢(shì)和不可替代性,是一項(xiàng)重要的刑事技術(shù)手段[31]。線粒體基因組全長(zhǎng)16569個(gè)堿基,由于使用Sanger方法測(cè)線粒體基因組全序列費(fèi)用高且工作量繁重,很多法庭科學(xué)實(shí)驗(yàn)室只關(guān)注控制區(qū)中約600個(gè)堿基的高變區(qū)Ⅰ和高變區(qū)Ⅱ。二代測(cè)序技術(shù)使線粒體基因組測(cè)序的法醫(yī)學(xué)常規(guī)應(yīng)用成為可能,線粒體DNA的識(shí)別率將獲提升,線粒體技術(shù)有可能重新煥發(fā)青春。
Irwin等人率先意識(shí)到現(xiàn)有法庭科學(xué)線粒體數(shù)據(jù)庫(kù)只包含控制區(qū)信息,無(wú)法滿足線粒體基因組二代測(cè)序的數(shù)據(jù)分析需求[32]。Parson團(tuán)隊(duì)評(píng)估了Ion PGMTM系統(tǒng)對(duì)線粒體基因組進(jìn)行測(cè)序的效果,他們建立了64套線粒體基因組,并全部與經(jīng)典的Sanger測(cè)序結(jié)果比對(duì),發(fā)現(xiàn)結(jié)果差異率低于0.02%[11]。美國(guó)Budowle研究組和McElhoe研究組分別建立并優(yōu)化評(píng)估了基于Illumina二代測(cè)序平臺(tái)的線粒體基因組測(cè)序方法,并比較了高變區(qū)Ⅰ/高變區(qū)Ⅱ與線粒體基因組的單倍型多樣性差異[25,26]。與高變區(qū)序列分析類(lèi)似,線粒體基因組測(cè)序同樣只需微量DNA樣本。Parson等人使用Illumina二代測(cè)序平臺(tái)成功地從單根毛干樣本中恢復(fù)出完整的線粒體基因組序列,并建立起法醫(yī)DNA實(shí)驗(yàn)室可常規(guī)使用的技術(shù)方法[27]。454系統(tǒng)同樣支持線粒體基因組測(cè)序[24,29],并被應(yīng)用于異質(zhì)性分析研究中[29]。
隨著二代測(cè)序技術(shù)在法庭科學(xué)領(lǐng)域萌芽與發(fā)展,一場(chǎng)革命性的技術(shù)變革正在醞釀之中。二代測(cè)序技術(shù)的優(yōu)勢(shì)并不局限于高通量、高速度、集成化、低成本,在法庭科學(xué)領(lǐng)域,二代測(cè)序技術(shù)最有可能從微量的生物檢材中挖掘出案件所需要的全部遺傳學(xué)相關(guān)信息,這對(duì)于公安實(shí)戰(zhàn)具有無(wú)可比擬的吸引力。二代測(cè)序技術(shù)在法庭科學(xué)領(lǐng)域的應(yīng)用范圍并不局限于本文提到的STR、SNP和線粒體基因組測(cè)序,也可以為與法庭科學(xué)相關(guān)的動(dòng)物、植物、微生物種屬鑒定和來(lái)源分析提供解決方案,服務(wù)于微生物恐怖襲擊、瀕危物種販賣(mài)、食品安全等類(lèi)型案件,還可以用于表觀遺傳學(xué)和MicroRNA分析,推斷組織來(lái)源、嫌疑人年齡等信息[31]。
同時(shí),我們也清醒認(rèn)識(shí)到二代測(cè)序距離法庭科學(xué)常規(guī)應(yīng)用還有一定距離:首先,測(cè)序成本必須有效降低。低成本是二代測(cè)序的顯著優(yōu)勢(shì),也是各公司推廣產(chǎn)品過(guò)程中的重要宣傳項(xiàng)目,但所謂“低成本”是與二代測(cè)序的另一個(gè)顯著特點(diǎn)“高通量”相輔相成的,即只有當(dāng)測(cè)序數(shù)據(jù)量足夠大時(shí),單位數(shù)據(jù)量的成本才能夠降下來(lái)。當(dāng)前,常規(guī)STR分型、SNP分型往往只關(guān)注十幾個(gè)到幾十個(gè)位點(diǎn),在如此小的數(shù)據(jù)量前提下,二代測(cè)序的成本則顯著高于PCR-CE平臺(tái)。第二,法庭科學(xué)數(shù)據(jù)分析方法尚不成熟。以STR分型為例,PCR-CE平臺(tái)關(guān)注的是STR的長(zhǎng)度多態(tài)性,而二代測(cè)序獲得的是更加精細(xì)化的STR序列多態(tài)性,將對(duì)法庭科學(xué)起到更大的支撐作用;另一方面,基于各國(guó)現(xiàn)有的龐大DNA數(shù)據(jù)庫(kù),技術(shù)接軌是必然選擇,如何將序列多態(tài)性在一定程度上轉(zhuǎn)化為長(zhǎng)度多態(tài)性是二代測(cè)序工作者必須解決的問(wèn)題。雖然業(yè)內(nèi)公司已提出初步解決方案,但大多是針對(duì)各個(gè)基因座的不同情況各個(gè)擊破,要實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)分析系統(tǒng)還需要更多的工作。第三,數(shù)據(jù)準(zhǔn)確性風(fēng)險(xiǎn)必須有效規(guī)避。法庭科學(xué)關(guān)乎個(gè)人命運(yùn)、家庭幸福、公平正義和社會(huì)穩(wěn)定,是社會(huì)公眾不允許出錯(cuò)的學(xué)科。各種二代測(cè)序平臺(tái)都不可避免地存在一定比例的錯(cuò)誤率,這些技術(shù)風(fēng)險(xiǎn)的控制效果將決定二代測(cè)序技術(shù)何時(shí)可以通過(guò)法律認(rèn)可應(yīng)用于法庭科學(xué)實(shí)踐。第四,二代測(cè)序必須是一個(gè)開(kāi)放的平臺(tái)。一項(xiàng)技術(shù)要被普及運(yùn)用,離不開(kāi)國(guó)際學(xué)界的廣泛參與、探索、優(yōu)化與完善。目前二代測(cè)序平臺(tái)由少數(shù)公司提供,除了價(jià)格、穩(wěn)定性等因素外,用戶往往傾向于選擇更加開(kāi)放的平臺(tái),即允許用戶根據(jù)各自需求自主設(shè)計(jì)實(shí)驗(yàn),更改參數(shù)設(shè)置,并與其它平臺(tái)有效兼容。法庭科學(xué)新技術(shù)往往需要專(zhuān)家證人出庭作證,只有整個(gè)技術(shù)的工作原理清晰明了,才有可能被法庭和立法機(jī)關(guān)接受。丹麥Morling教授已經(jīng)提出,二代測(cè)序的數(shù)據(jù)分析軟件算法必須公開(kāi),數(shù)據(jù)分析算法的“黑盒子”是無(wú)法被接受的[13]。第五,數(shù)據(jù)整合與倫理學(xué)。如前文所述,要充分發(fā)揮二代測(cè)序技術(shù)“高通量”與“低成本”的優(yōu)勢(shì),數(shù)據(jù)整合勢(shì)在必行?;赑CR-CE平臺(tái)開(kāi)發(fā)的常染色體STR、Y染色體STR、地域種族推斷SNP、外表特征刻畫(huà)SNP、插入缺失多態(tài)性Indel、mRNA、表觀遺傳學(xué)修飾等多種實(shí)驗(yàn)體系,在二代測(cè)序的技術(shù)框架下都可以整合在一起,甚至法庭科學(xué)以外的其他標(biāo)記(如疾病診斷、遺傳缺陷篩查等)也可以整合在一起。從二代測(cè)序技術(shù)的特點(diǎn)角度講,越整合成本越低;從倫理學(xué)的角度講,越整合倫理學(xué)風(fēng)險(xiǎn)越大;如何把握好二者之間的平衡,尚須全面深入的研究探討。
[1] Sanger F, Nicklen S, Coulson AR.DNA sequencing with chain-terminating inhibitors [J].Proc Natl Acad Sci USA,1977,74(12):5463-5467.
[2] Margulies M, Egholm M, Altman WE, et al.Genome sequencing in microfabricated high-density picolitre reactors [J].Nature, 2005,437:376-380.
[3] Meyer M, Stenzel U, Myles S, et al.Targeted high-throughput sequencing of tagged nucleic acid samples [J].Nucleic Acids Res, 2007,35: e97.
[4] Meyer M, Stenzel U, Hofreiter M.Parallel tagged sequencing on the 454 platform [J].Nat Protoc, 2008,3: 267-278.
[5] Droege M, Hill B.The genome sequencer FLX system--longer reads, more applications, straight forward bioinformatics and more complete data sets [J].J Biotechnol, 2008,136:3-10.
[6] Van Tassell CP, Smith TP, Matukumalli LK, et al.SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries [J].Nat Methods, 2008,5:247-252.
[7] Cronn R, Liston A, Parks M, et al.Multiplex sequencing of plant chloroplast genomes using Solexa sequencing-by-synthesis technology[J].Nucleic Acids Res, 2008,36:e122.
[8] Li R, Li Y, Fang X, et al.SNP detection for massively parallel whole-genome resequencing [J].Genome Res, 2009,19:1124-1132.
[9] Lin B, Wang J, Cheng Y.Recent patents and advances in the nextgeneration sequencing technologies [J].Recent Pat Biomed Eng,2008,2008:60-67.
[10] Eduardoff M, Santos C, de la Puente M, et al.Inter-laboratory evaluation of SNP-based forensic identification by massively parallel sequencing using the ion PGM [J].Forensic Sci Int Genet, 2015,17:110-121.
[11] Parson W, Strobl C, Huber G, et al.Evaluation of next generation mtGenome sequencing using the ion torrent personal genome machine (PGM) [J].Forensic Sci Int Genet, 2013,7:543-549.
[12] Thomson JP, Fawkes A, Ottaviano R, et al.DNA immunoprecipitation semiconductor sequencing (DIP-SC-seq) as a rapid method to generate genome wide epigenetic signatures [J].Sci Rep, 2015,5:9778.
[13] Borsting C, Morling N.Next generation sequencing and its applications in forensic genetics [J].Forensic Sci Int Genet, 2015,http://dx.doi.org/10.1016/j.fsigen.2015.02.002.
[14] Gelardi C, Rockenbauer E, Dalsgaard S, et al.Second generation sequencing of three STRs D3S1358, D12S391 and D21S11 in Danes and a new nomenclature for sequenced STR alleles [J].Forensic Sci Int Genet, 2014,12:38-41.
[15] Fordyce SL, Avila-Arcos MC, Rockenbauer E, et al.Highthroughput sequencing of core STR loci for forensic genetic investigations using the Roche genome sequencer FLX platform [J].Biotechniques, 2011,51:127-133.
[16] Van Neste C, Van Nieuwerburgh F, Van Hoofstat D, et al.Forensic STR analysis using massive parallel sequencing [J].Forensic Sci Int Genet, 2012,6:810-818.
[17] Bornman DM, Hester ME, Schuetter JM, et al.Short-read, highthroughput sequencing technology for STR genotyping [J].Biotech Rapid Dispatches, 2012:1-6.
[18] Scheible M, Loreille O, Just R, et al.Short tandem repeat typing on the 454 platform: strategies and considerations for targeted sequencing of common forensic markers [J].Forensic Sci Int Genet, 2014,12:107-119.
[19] Fordyce SL, Mogensen HS, Borsting C, et al.Second-generation sequencing of forensic STRs using the ion torrent HID STR 10-plex and the Ion PGM [J].Forensic Sci Int Genet, 2015,14:132-140.
[20] Zhao X, Ma K, Li H, et al.Multiplex Y-STRs analysis using the Ion Torrent Personal Genome Machine (PGM) [J].Forensic Sci Int Genet, 2015.http://dx.doi.org/10.1016/j.fsigen.2015.06.012.
[21] Daniel R, Santos C, Phillips C, et al.A SNaPshot of next generation sequencing for forensic SNP analysis [J].Forensic Sci Int Genet, 2015,14:50-60.
[22] Gettings KB, Kiesler KM, Vallone PM.Performance of a next generation sequencing SNP assay on degraded DNA [J].Forensic Sci Int Genet, 2015,19:1-9.
[23] Larmuseau MH, Van Geystelen A, Kayser M, et al.Towards a consensus Y-chromosomal phylogeny and Y-SNP set in forensics in the next-generation sequencing era [J].Forensic Sci Int Genet, 2015,15:39-42.
[24] Mikkelsen M, Frank-Hansen R, Hansen AJ, et al.Massively parallel pyrosequencing of the mitochondrial genome with the 454 methodology in forensic genetics [J].Forensic Sci Int Genet,2014,12:30-37.
[25] King JL, LaRue BL, Novroski NM, et al.High-quality and highthroughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq [J].Forensic Sci Int Genet, 2014,12:128-135.
[26] McElhoe JA, Holland MM, Makova KD, et al.Development and assessment of an optimized next-generation DNA sequencing approach for the mtgenome using the Illumina MiSeq [J].Forensic Sci Int Genet, 2014,13:20-29.
[27] Parson W, Huber G, Moreno L, et al.Massively parallel sequencing of complete mitochondrial genomes from hair shaft samples[J].Forensic Sci Int Genet, 2015,15:8-15.
[28] Van Neste C, Gansemans Y, De Coninck D, et al.Forensic massively parallel sequencing data analysis tool: Implementation of MyFLq as a standalone web- and Illumina BaseSpace((R))-application [J].Forensic Sci Int Genet, 2015,15:2-7.
[29] Skonieczna K, Malyarchuk B, Jawien A, et al.Heteroplasmic substitutions in the entire mitochondrial genomes of human colon cells detected by ultra-deep 454 sequencing [J].Forensic Sci Int Genet, 2015,15:16-20.
[30] Just RS, Irwin JA, Parson W.Mitochondrial DNA heteroplasmy in the emerging field of massively parallel sequencing [J].Forensic Sci Int Genet, 2015.http://dx.doi.org/10.1016/ j.fsigen.2015.05.003.
[31] Yang Y, Xie B, Yan J.Application of next-generation sequencing technology in forensic science [J].Genomics Proteomics Bioinformatics, 2014,12:190-197.
[32] Irwin JA, Parson W, Coble MD, et al.mtGenome reference population databases and the future of forensic mtDNA analysis [J].Forensic Sci Int Genet, 2011,5:222-225.
引用本文格式:王樂(lè),葉健,白雪,等.二代測(cè)序技術(shù)及其在法醫(yī)遺傳學(xué)中的應(yīng)用 [J].刑事技術(shù),2015,40(5):353-358.
Next Generation Sequencing and Its Application in Forensic Genetics
WANG Le, YE Jian, BAI Xue, YANG Fan, ZHAO Xingchun*
(Beijing Engineering Research Center of Crime Scene Evidence Examination, Key Laboratory of Forensic Genetics of Ministry of Public Security, Institute of Forensic Science of Ministry of Public Security, Beijing 100038, China)
From DNA fi ngerprinting to multiplex STR amplifi cation and detection, forensic DNA scientists witnessed the rapid advances in DNA technology and the substantial changes in ways of solving criminal cases during the past three decades.As a matter of fact, only incremental developments of forensic DNA technologies and the "passive comparison" mode of using DNA information could not meet current expectations for forensic genetics from crime investigators.It has been unprecedentedly emphasized that great efforts are needed for more powerful solutions that are automatic, highthroughput, precise, rapid and being support to the "active searching" mode of DNA information utilization.Under such circumstances, next generation sequencing (NGS) comes just in time.Chinese authorities and experts have already realized the great potential of NGS applications for forensic purposes, although the application of NGS in forensic science is still at initial stages, compared with its applications in fi elds of cancer diagnosis, genetic disease diagnosis, de novo sequencing,genome resequencing, transcriptome resequencing and drug discovery.More information can be obtained from a single experiment by analyzing the STR, SNP, Indel and RNA markers simultaneously, which could be impossible on routinely used PCR-CE platforms because of the limited amount of exhibits.In this article, the authors attempt to describe the basic concepts, developmental history and working principles of NGS to Chinese experts in the general fi eld of forensic science and technologies, and share the updates of NGS-based STR typing, SNP typing and whole mtGenome sequencing during the past two years.Representative NGS platforms including the 454/Roche GS FLX system, the Solexa system, the SOLiDTMsystem, the Ion PGMTMsystem and the MiSeq FGxTMsystem were introduced.Annual statistics of research articles on NGS and forensic NGS were described and trends for related research were analyzed.Finally, perspectives of forensic NGS were presented and possible challenges including data analysis methods, openness of NGS systems and ethical issues were discussed in the hope of providing a reference for related research and applications.
forensic genetics; next generation sequencing; STR; SNP; whole mtGenome sequencing
DF795.2
A
1008-3650(2015)05-0353-06
10.16467/j.1008-3650.2015.05.002
公安部科技強(qiáng)警基礎(chǔ)工作專(zhuān)項(xiàng)項(xiàng)目(No.2013GABJC035),中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)項(xiàng)目(No.2012JB001, 2015JB007)
王 樂(lè)(1983—),男,遼寧沈陽(yáng)人,副主任法醫(yī)師,博士,研究方向?yàn)榉ㄡt(yī)遺傳學(xué)。 E-mail: wangle_02@163.com
趙興春,男,主任法醫(yī)師,碩士,研究方向?yàn)榉ㄡt(yī)遺傳學(xué)。 E-mail: zhaoxchun@sina.com
2015-7-21