屈軼齡,林源,楊子豪,陶瑞旸,夏若成,曹正軍,高瑞祥,于歡1,,王紫薇1,,楊琪1,,張曉春1,,張素華,李成濤1,
1.蘇州大學(xué)基礎(chǔ)醫(yī)學(xué)與生物科學(xué)學(xué)院,江蘇 蘇州 215123;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺(tái),上海 200063;3.華東政法大學(xué),上海 200042;4.鹽城市公安局刑警支隊(duì),江蘇 鹽城224000
短串聯(lián)重復(fù)(short tandem repeat,STR)序列由2~6 個(gè)核心重復(fù)堿基構(gòu)成,是法醫(yī)遺傳學(xué)中應(yīng)用最為廣泛的DNA 遺傳標(biāo)記[1]。大規(guī)模平行測(cè)序(massively parallel sequencing,MPS)技術(shù)也被稱為下一代測(cè)序(next generation sequencing,NGS),近年來在法醫(yī)學(xué)領(lǐng)域中的應(yīng)用逐漸增多。相較于傳統(tǒng)的聚合酶鏈反應(yīng)-毛細(xì)管電泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)分型技術(shù),MPS 技術(shù)不僅能區(qū)分等位基因片段長(zhǎng)度大小,還可以區(qū)分等位基因的序列差異,并且能夠同時(shí)對(duì)多個(gè)樣本的多個(gè)遺傳標(biāo)記進(jìn)行高覆蓋度的測(cè)序分析,極大提高了法醫(yī)遺傳學(xué)實(shí)驗(yàn)室對(duì)DNA 序列的識(shí)別能力和對(duì)大批量樣本的處理能力[2]。
美國(guó)Illumina公司基于MiSeq FGx法醫(yī)基因組學(xué)系統(tǒng)針對(duì)法醫(yī)遺傳學(xué)開發(fā)了商業(yè)化MPS檢測(cè)試劑盒——ForenSeqTMDNA Signature Prep 試劑盒(以下簡(jiǎn)稱ForenSeq 試劑盒)。該試劑盒簡(jiǎn)化了測(cè)序流程,提供了從DNA 樣本到數(shù)據(jù)分析的一體化解決方案,單次檢測(cè)可獲得59 個(gè)STR 和172 個(gè)單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)遺傳標(biāo)記的信息,克服了PCR-CE 技術(shù)需要多個(gè)試劑盒才能檢測(cè)相同數(shù)目遺傳標(biāo)記的難題,展現(xiàn)出良好的應(yīng)用前景[3-5]。
畬族是我國(guó)主要的少數(shù)民族之一,起源于中國(guó)東南沿海地區(qū),主要分布在浙江省內(nèi)的廣大山區(qū),經(jīng)過與多個(gè)民族的不斷融合以及歷經(jīng)不同歷史、文化、地理變遷,逐漸發(fā)展為具有獨(dú)特遺傳結(jié)構(gòu)的少數(shù)民族[6]。本研究基于MiSeq FGx 法醫(yī)基因組學(xué)系統(tǒng),采用ForenSeq試劑盒對(duì)浙江畬族人群中58 個(gè)STR 基因座的遺傳多態(tài)性進(jìn)行法醫(yī)遺傳學(xué)分析,擬探究MPS 技術(shù)對(duì)STR 基因座的檢測(cè)能力。
采集浙江省麗水市50 例畬族無關(guān)個(gè)體的外周血樣本,其中女性28 例,男性22 例。所有研究對(duì)象在采樣前均簽署知情同意書,并明確個(gè)體在三代內(nèi)無親緣關(guān)系。以上樣本的采集和使用均已獲得司法鑒定科學(xué)研究院倫理委員會(huì)批準(zhǔn)(編號(hào)為STY2020-W024)。
本研究采用3 個(gè)陽(yáng)性對(duì)照品,包括男性標(biāo)準(zhǔn)品DNA 2800M 和9948(美國(guó)Promega 公司),女性標(biāo)準(zhǔn)品DNA 9947A(美國(guó)Promega 公司)。
使用QIAamp DNA Blood Mini試劑盒(德國(guó)Qiagen公司)對(duì)外周血進(jìn)行DNA提取,具體操作參照試劑盒說明書。使用Qubit?dsDNA HS Assay 試劑盒和Qubit?2.0 熒光定量?jī)x(美國(guó)Thermo Fisher Scientific 公司)對(duì)DNA 進(jìn)行定量,并依據(jù)梯度稀釋的原則,使用無核酸酶水將DNA 稀釋至0.2 ng/μL。MPS 及CE 實(shí)驗(yàn)中稀釋DNA 使用量均為5 μL,即1 ng DNA。
基于ForenSeq 試劑盒對(duì)50 例畬族個(gè)體血樣及3 個(gè)陽(yáng)性對(duì)照品的DNA 進(jìn)行文庫(kù)構(gòu)建,并設(shè)置去離子水為陰性對(duì)照。首先利用ForenSeq 寡核苷酸引物混合液以及STR 上下游DNA 序列的特定區(qū)域擴(kuò)增DNA,通過添加特異性標(biāo)簽組合標(biāo)記DNA 并實(shí)現(xiàn)靶點(diǎn)富集,經(jīng)兩輪DNA 分選磁珠對(duì)文庫(kù)進(jìn)行純化和標(biāo)準(zhǔn)化,最后將文庫(kù)混合到一個(gè)微量離心管中。混合文庫(kù)經(jīng)變性和稀釋后,采用MiSeq FGx Reagent 試劑盒(美國(guó)Illumina 公司)在MiSeq FGx 法醫(yī)基因組學(xué)系統(tǒng)(美國(guó)Illumina 公司)上進(jìn)行DNA 測(cè)序。
采用PCR-CE 技術(shù)對(duì)ForenSeq 試劑盒中包含的58 個(gè)STR 基因座和Amelogenin進(jìn)行檢測(cè),使用的商業(yè)化試劑盒包括Sifa STRTM23 plex DNA 身份鑒定系統(tǒng)[基點(diǎn)認(rèn)知技術(shù)(北京)有限公司][7]、21+1 STR 熒光檢測(cè)試劑盒(無錫中德美聯(lián)生物技術(shù)有限公司)[8]、Investigator?Argus X-12 QS 試劑盒(德國(guó)Qiagen 公司)[9]和Goldeneye?DNA 身份鑒定系統(tǒng)Y-Plus 試劑盒[基點(diǎn)認(rèn)知技術(shù)(北京)有限公司][10],均按照試劑盒說明書的指導(dǎo)進(jìn)行PCR 擴(kuò)增和毛細(xì)管電泳。使用GeneMapperTMID-Xv1.5 軟件(美國(guó)Thermo Fisher Scientific 公司)對(duì)電泳數(shù)據(jù)進(jìn)行分析,最終得到STR基因座的等位基因分型結(jié)果,用于與MPS 測(cè)序結(jié)果的一致性驗(yàn)證?;贑E 平臺(tái)對(duì)上述試劑盒未覆蓋到的DYS505和DYS612基因座單獨(dú)設(shè)計(jì)引物(表1),對(duì)各樣本進(jìn)行單點(diǎn)擴(kuò)增和檢測(cè)。
表1 DYS505 和DYS612 基因座的引物信息Tab.1 Primer information of DYS505 and DYS612
通過下機(jī)數(shù)據(jù)中的Q30 值初步判斷數(shù)據(jù)質(zhì)量,利用ForenSeqTM通用分析軟件按照默認(rèn)分析閾值和解釋閾值處理原始測(cè)序數(shù)據(jù),同時(shí)使用STRait Razor v2軟件[11]對(duì)測(cè)序的FASTQ 文件進(jìn)一步分析。從以下三方面對(duì)測(cè)序質(zhì)量進(jìn)行評(píng)估:(1)測(cè)序序列信息構(gòu)成比,指27 個(gè)常染色體STR 基因座(以下簡(jiǎn)稱A-STR)、7 個(gè)X 染色體STR 基因座(以下簡(jiǎn)稱X-STR)和24 個(gè)Y 染色體STR基因座(以下簡(jiǎn)稱Y-STR)中等位基因、stutter峰和信號(hào)噪聲分別占總reads的百分比;(2)測(cè)序深度;(3)等位基因覆蓋率(allele coverage ratio,ACR),計(jì)算方法為用雜合子等位基因中較小的reads 數(shù)除以較大的reads 數(shù)。采用Arlequin v3.5 軟件[12]進(jìn)行各基因座的Hardy-Weinberg 平衡檢驗(yàn)及基因座間的連鎖不平衡檢驗(yàn)。另外,通過與hg19(GRCh37)參考基因組進(jìn)行比較,對(duì)STR 基因座側(cè)翼序列信息展開分析。最后,采用Cervus 3.0 軟件[13]計(jì)算各基因座的多態(tài)信息含量(polymorphic information content,PIC)、非父排除率(probability of paternity excluding,PE)、二聯(lián)體非父排除率(probability of exclusion of duo-testing,PEduo)、三聯(lián)體非父排除率(probability of exclusion of trios-testing,PEtrio)、平均非父排除率(mean probability of exclusion)等,運(yùn)用群體遺傳分析軟件[13]計(jì)算各基因座的個(gè)體識(shí)別率(discrimination power,DP),依據(jù)《常染色體STR 基因座的法醫(yī)學(xué)參數(shù)計(jì)算規(guī)范》(SF/Z JD0105010—2018)計(jì)算累積個(gè)體識(shí)別率(cumulative discrimination power,CDP)、累積非父排除率(cumulative probability of exclusion,CPE)和累積平均非父排除率(cumulative mean probability of exclusion),依據(jù)《法醫(yī)物證鑒定Y-STR 檢驗(yàn)規(guī)范》(SF/Z JD0105007—2018)計(jì)算基因多樣性(gene diversity,GD)、單倍型多樣性(haplotype diversity,HD)、單倍型的分辨能力(discrimination capacity,DC)和單倍型匹配概率(haplotype match probability,HMP)。
50 例樣本測(cè)序共產(chǎn)生4.9 G 的數(shù)據(jù),每個(gè)樣本的總reads均大于14 Mb,Q30≥90%。每個(gè)樣本在A-STR、X-STR 及Y-STR 基因座中的平均等位基因、stutter 峰和信號(hào)噪聲占比如圖1 所示,結(jié)果顯示,所有樣本的等位基因均可與信號(hào)噪聲區(qū)分開,平均等位基因占比為90.90%,最低為DYS612(61.31%),最高為Penta D(98.93%)。對(duì)50 例樣本在58 個(gè)STR 基因座的MPS測(cè)序信息進(jìn)行測(cè)序深度分析,結(jié)果如圖2 所示。50 例樣本的測(cè)序覆蓋深度在6 463×~376 837×,平均覆蓋深度為(2 339±1 652)×;在A-STR、X-STR 及Y-STR 基因座上顯示測(cè)序深度不均衡,但整體滿足等位基因判讀要求。
圖1 58 個(gè)STR 基因座(27 個(gè)A-STR、7 個(gè)X-STR 和24 個(gè)Y-STR)的等位基因、stutter峰和信號(hào)噪聲構(gòu)成比Fig.1 The ratios of allele,stutter and signal noise of 58 STR loci(27 A-STR,7 X-STR and 24 Y-STR)
圖2 58 個(gè)STR 基因座(27 個(gè)A-STR、7 個(gè)X-STR 和24 個(gè)Y-STR)的平均覆蓋深度及標(biāo)準(zhǔn)差Fig.2 Average coverage depth and standard deviation of 58 STR loci(27 A-STR,7 X-STR and 24 Y-STR)
對(duì)50 例樣本在34 個(gè)STR 基因座(包括27 個(gè)ASTR 和7 個(gè)X-STR 基因座)檢見的1 235 個(gè)雜合等位基因進(jìn)行均衡性分析,結(jié)果如圖3 所示。ACR 值最低的基因座是D22S1045(0.347 6),最高的是D17S1301(0.868 5);除D22S1045外,其余基因座的平均ACR 值均高于0.600 0,標(biāo)準(zhǔn)差范圍為0.080 0~0.180 0。陽(yáng)性對(duì)照品的STR 分型結(jié)果與試劑盒標(biāo)準(zhǔn)分型結(jié)果一致。
圖3 34 個(gè)STR 基因座(27 個(gè)A-STR 和7 個(gè)X-STR)的ACR 值及標(biāo)準(zhǔn)差Fig.3 ACR values and standard deviation of 34 STR loci(27 A-STR and 7 X-STR)
在50 例畬族個(gè)體血樣的58 個(gè)STR 基因座中共檢出448 種序列多態(tài)性等位基因,每個(gè)基因座檢出2~26 種等位基因。其中,A-STR、X-STR、Y-STR 分別檢出279、62、107 種序列多態(tài)性等位基因,相較于PCRCE 技術(shù)所得的片段長(zhǎng)度多態(tài)性等位基因分別增加了59、9、14 種等位基因,增加的等位基因主要來源于長(zhǎng)度一致但序列結(jié)構(gòu)有差異的等位基因,具體信息見表2。結(jié)果顯示,D21S11、DXS10135和DYF387S1分別為27 個(gè)A-STR、7 個(gè)X-STR 和24 個(gè)Y-STR 中由于序列差異而等位基因增加最多的基因座,其中,部分同一長(zhǎng)度等位基因的基序結(jié)構(gòu)多達(dá)4 種,而在CSF1PO、DXS8378和Y-GATA-H4等38 個(gè)基因座中未發(fā)現(xiàn)長(zhǎng)度一致但序列結(jié)構(gòu)不同的等位基因。
表2 PCR-CE 技術(shù)和MPS 技術(shù)在50 名畬族無關(guān)個(gè)體中檢出的等位基因個(gè)數(shù)及提升率Tab.2 The number of alleles detected by PCR-CE and MPS and the growth rate in 50 She samples
通過參考hg19(GRCh37)基因組對(duì)58 個(gè)STR 基因座核心序列上下游各延伸50 bp 的核苷酸序列信息進(jìn)行解讀,共在6 個(gè)STR 基因座上觀察到7 個(gè)SNP位點(diǎn),分別位于D2S441(1 個(gè))、D5S818(1 個(gè))、D7S820(2 個(gè))、D13S317(1 個(gè))、D16S539(1 個(gè))和vWA(1 個(gè)),這些側(cè)翼序列變異信息增加了STR 基因座的等位基因個(gè)數(shù),提升了其多態(tài)信息含量及雜合度。
基于PCR-CE 技術(shù)對(duì)50 例畬族個(gè)體血樣的58 個(gè)STR基因座進(jìn)行檢測(cè),分型結(jié)果與MPS檢測(cè)結(jié)果一致。此外,在MPS數(shù)據(jù)分析過程中發(fā)現(xiàn),F(xiàn)orenSeq試劑盒所提供的部分STR基因座核心序列信息與國(guó)際法醫(yī)遺傳學(xué)會(huì)(International Society for Forensic Genetics,ISFG)對(duì)MPS-STR 的命名建議[14]存在出入,其中D1S1656、D2S1338、D5S818、CSF1P0、D6S1043、D7S820、Penta E、D19S433、FGA、HPRTB、DXS8378、DXS7423、DYS19、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS392與DYS460基因座的核心序列結(jié)構(gòu)信息與ISFG 建議不一致。
經(jīng)計(jì)算,58 個(gè)STR 基因座在本次調(diào)查的50 名畬族個(gè)體中的分布均符合Hardy-Weinberg平衡(P>0.05),且各基因座間均不存在連鎖不平衡現(xiàn)象。根據(jù)實(shí)驗(yàn)數(shù)據(jù),分別基于重復(fù)序列多態(tài)性等位基因和片段長(zhǎng)度多態(tài)性等位基因進(jìn)行群體遺傳學(xué)參數(shù)的計(jì)算,無論是A-STR、Y-STR 還是X-STR,基于重復(fù)序列多態(tài)性進(jìn)行計(jì)算得到的各項(xiàng)群體遺傳學(xué)參數(shù)均高于基于片段長(zhǎng)度多態(tài)性所得結(jié)果(表3)。
表3 基于重復(fù)序列多態(tài)性和片段長(zhǎng)度多態(tài)性獲得的STR 分型系統(tǒng)效能比較Tab.3 Comparisons of forensic efficiency of STR typing based on repeat sequence polymorphism and fragment length polymorphism
MPS 技術(shù)的出現(xiàn)打破了以PCR-CE 技術(shù)為主的常規(guī)法醫(yī)實(shí)驗(yàn)室檢測(cè)手段,MPS 技術(shù)中可組合的STR基因座個(gè)數(shù)不受熒光種類和核酸片段大小的限制,極大地增加了同一體系中檢測(cè)STR 等遺傳標(biāo)記的數(shù)目。盡管PCR-CE 技術(shù)能夠滿足法醫(yī)學(xué)檢驗(yàn)中的大部分需求,但MPS 技術(shù)與其相比具有更高的通量,可以詳細(xì)提供關(guān)于等位基因、stutter 峰以及信號(hào)噪聲的比例,也可為混合樣本的結(jié)果分析及復(fù)雜親緣關(guān)系的鑒定提供更好的解決策略[15]。
本研究基于MiSeq FGx 法醫(yī)基因組學(xué)系統(tǒng)采用ForenSeq 試劑盒對(duì)50 例浙江畬族個(gè)體血樣中58 個(gè)STR 基因座進(jìn)行MPS 檢測(cè),獲得了58 個(gè)STR 基因座的完整等位基因分型及序列信息(包括核心序列信息和側(cè)翼序列信息),結(jié)果顯示,所有樣本的等位基因均可與信號(hào)噪聲區(qū)分開,均衡性良好,可滿足判讀要求。此外,陽(yáng)性對(duì)照品的STR 分型結(jié)果與試劑盒標(biāo)準(zhǔn)分型結(jié)果一致,確保了檢測(cè)的準(zhǔn)確性和穩(wěn)定性。MPS 檢測(cè)結(jié)果與CE 分型結(jié)果一致,與PCR-CE 技術(shù)相比,MPS技術(shù)能獲取STR 基因座上長(zhǎng)度相同但序列結(jié)構(gòu)不同的等位基因信息,提高了STR 序列多態(tài)性的檢測(cè)效能,使序列信息得到更充分的利用。比較基于片段長(zhǎng)度多態(tài)性與重復(fù)序列多態(tài)性獲得的等位基因分型,基于重復(fù)序列的等位基因數(shù)目增長(zhǎng)了22.40%,等位基因數(shù)目增加最多的3 個(gè)基因座為D21S11、D12S391和D2S1338,分別增加了144.44%、122.22%和110.00%。當(dāng)?shù)任换蜷L(zhǎng)度相同時(shí),仍可能存在序列結(jié)構(gòu)的差異,在PCR-CE 技術(shù)檢測(cè)中為純合子的基因座可能擁有不同的序列結(jié)構(gòu)。由于等位基因數(shù)目的增加,基于重復(fù)序列多態(tài)性分析結(jié)果中的STR 基因座的PIC、CDP、累積非父排除率等群體遺傳學(xué)參數(shù)均大于基于片段長(zhǎng)度多態(tài)性的分析結(jié)果。因此,MPS 技術(shù)對(duì)于STR 基因座序列結(jié)構(gòu)的深度解讀可提高其應(yīng)用于法醫(yī)學(xué)個(gè)體識(shí)別和親權(quán)鑒定的檢測(cè)效能,對(duì)于復(fù)雜親緣關(guān)系鑒定案件的偵破等法醫(yī)學(xué)實(shí)踐具有很好的應(yīng)用價(jià)值和重要意義。
側(cè)翼序列上的SNP變異可能對(duì)整個(gè)STR基因座的擴(kuò)增造成影響,因?yàn)樵揝NP 可能位于引物結(jié)合區(qū)域,從而降低特定等位基因成功擴(kuò)增的概率。與此同時(shí),側(cè)翼序列的變異信息對(duì)STR 基因座的多樣性也具有重要價(jià)值,MPS 技術(shù)可利用這些側(cè)翼序列的多態(tài)性變異信息,提高STR 基因座的識(shí)別能力。其中,尤其需要注意D13S317基因座側(cè)翼區(qū)的SNP,其核心重復(fù)序列為[TATC],3′側(cè)翼區(qū)以8 個(gè)核苷酸(AATCAATC)開始,而在本研究及其他國(guó)內(nèi)外相關(guān)研究[5]中觀察到多個(gè)等位基因在3′側(cè)翼序列第一個(gè)堿基上表現(xiàn)出A/T變異(從AATC 變?yōu)門ATC),這種突變可能會(huì)造成基于片段長(zhǎng)度多態(tài)性和序列多態(tài)性的基因分型結(jié)果不一致。本研究發(fā)現(xiàn)的側(cè)翼序列變異信息僅限于ForenSeq試劑盒中使用引物的指定區(qū)域,如果使用其他引物則可能無法檢測(cè)到本研究中的變異,也可能檢出其他變異。
值得注意的是,本研究中D1S1656、D5S818、Penta E、DXS10103、DYS522、DYS19、DYS389 Ⅱ、YGATA-H4、DYS460基因座的測(cè)序覆蓋深度小于整體的平均值,在今后的實(shí)驗(yàn)中可嘗試重新設(shè)計(jì)引物或提高引物的濃度。另一方面,D22S1045基因座的平均ACR 值為0.347 6±0.169 8,而其余基因座的平均ACR值均高于0.6,在CHURCHILL 等[16]的研究中也發(fā)現(xiàn)了相同現(xiàn)象,這提示D22S1045基因座的雜合子等位基因不穩(wěn)定程度高于其他基因座,檢測(cè)中需要額外注意。
此外,本研究發(fā)現(xiàn),F(xiàn)orenSeq 試劑盒中所提供的部分STR 基因座核心序列信息與ISFG 對(duì)MPS-STR的命名建議[14]存在出入,可能是由于采用正鏈或者反鏈進(jìn)行MPS 數(shù)據(jù)分析時(shí)引起序列方向不一致,或是因?yàn)榉治鼋Y(jié)果在核心序列結(jié)構(gòu)命名上(如核心序列起始位置與終止位置、重復(fù)結(jié)構(gòu)、側(cè)翼序列變異信息等)與之前數(shù)據(jù)庫(kù)或文獻(xiàn)報(bào)道存在差異所致,在今后的工作中應(yīng)注意。
綜上,本研究基于MPS 技術(shù)系統(tǒng)地探究了STR 遺傳標(biāo)記的詳細(xì)信息,為ForenSeq 試劑盒的法醫(yī)學(xué)應(yīng)用提供了參考。本研究采用ForenSeq試劑盒對(duì)58個(gè)STR基因座的遺傳信息進(jìn)行解讀有助于補(bǔ)充關(guān)于浙江畬族人群STR 基因座的MPS 數(shù)據(jù)報(bào)道,尤其是對(duì)長(zhǎng)度一致但序列信息不同的等位基因的解讀,對(duì)提升浙江畬族人群族源分析能力及浙江各民族間鑒別能力具有重要價(jià)值。此外,基于ForenSeq 試劑盒進(jìn)行MPS-STR檢測(cè),得到的STR 等位基因與目前的數(shù)據(jù)庫(kù)格式差異較小,能夠?qū)崿F(xiàn)CE 與MPS 數(shù)據(jù)的對(duì)接。因此,該試劑盒在法醫(yī)遺傳學(xué)領(lǐng)域具有重要的研究?jī)r(jià)值和應(yīng)用潛力。本研究基于MPS 技術(shù)的分型結(jié)果計(jì)算得到的部分群體遺傳學(xué)參數(shù)較PCR-CE 技術(shù)無明顯提高,可能與檢測(cè)的人群樣本量不足有關(guān)[3-4]。試劑盒引物A中還包含94 個(gè)常染色體SNP 位點(diǎn),相關(guān)信息仍有待分析,預(yù)期將進(jìn)一步提高試劑盒的個(gè)體識(shí)別和親權(quán)鑒定的系統(tǒng)效能。