莊 艷
(重慶警察學(xué)院, 重慶 401331)
簡化基因測序技術(shù)在植物檢材個(gè)體認(rèn)定中應(yīng)用初探
莊 艷
(重慶警察學(xué)院, 重慶 401331)
目的 在涉及中草藥真假辨識(shí)及個(gè)體識(shí)別的案件中很大比例的植物類物證都無法用形態(tài)學(xué)檢驗(yàn)方法來鑒別,而植物DNA測序分析技術(shù)為我們提供了一種強(qiáng)有力的手段。方法 通過對18個(gè)桂花植物樣品進(jìn)行DNA建庫和高通量測序、序列多態(tài)性分析,評估其遺傳多樣性,并用基于單核苷酸多態(tài)性分析方法探討了簡化基因測序技術(shù)用于個(gè)體識(shí)別的案例。結(jié)果 未知植物物證樣品A與桂花1的匹配度最高,未知植物物證樣品B與桂花4匹配度最高,未知植物物證樣品B與桂花11的匹配度最高,該方法能成功識(shí)別3個(gè)盲測樣品。
簡化基因測序技術(shù); 單核苷酸多態(tài)性; 桂花; 個(gè)體識(shí)別
很多涉及食品安全的案件中常常出現(xiàn)植物類物證,而植物是犯罪現(xiàn)場中一種很容易被忽視的環(huán)境和過程證據(jù),大多這些植物類物證都無法用形態(tài)學(xué)檢驗(yàn)方法來鑒別,需要借助植物DNA技術(shù)手段,對植物物證的來源和種類進(jìn)行鑒定,如果能對案件中涉及的植物類材料進(jìn)行物種鑒別,進(jìn)而建立起人與物的環(huán)境或者過程關(guān)系,那鑒定結(jié)果對偵查破案和法庭訴訟產(chǎn)生重要的指導(dǎo)和支撐作用[1-3]。
RAD-seq(Restriction Association site DNA sequencing)技術(shù)是在第二代測序技術(shù)基礎(chǔ)上發(fā)展起來的,利用限制性內(nèi)切酶對基因組進(jìn)行酶切,結(jié)合一定大小的插入片段文庫,通過高通量測序和信息分析,快速鑒定成千上萬的單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)信息,獲得的SNP位點(diǎn)信息可以較好的代表整個(gè)基因組的序列特征,RAD-seq技術(shù)操作簡單、可簡化復(fù)雜基因組,而且可以不受參考基因組限制,目前已廣泛應(yīng)用于分子育種、系統(tǒng)進(jìn)化等領(lǐng)域[4]。但RAD-seq技術(shù)應(yīng)用于涉及植物個(gè)體識(shí)別的鑒定案例還未見報(bào)道。
本文選擇沒有可參考基因組的植物物證桂花作為研究對象,利用簡化基因組測序技術(shù)來降低基因組測序和分析的復(fù)雜度,構(gòu)建桂花的個(gè)體識(shí)別數(shù)據(jù)庫,試圖找到能識(shí)別桂花同一個(gè)體的方法。
桂花樣品全部與2015年10月采自西南大學(xué)校園里,每棵桂花樹隨機(jī)采集2~4片葉片,置于4 ℃冰箱備用,將選取的葉片樣品,提取總基因組DNA進(jìn)行分析。
2.1 利用限制性內(nèi)切酶對基因組DNA樣品進(jìn)行酶切,保證產(chǎn)生的RAD標(biāo)記能夠在基因組上均有分布,同時(shí)獲得的RAD標(biāo)記數(shù)量能夠達(dá)到實(shí)驗(yàn)所需的飽和度。
2.2 建庫主要步驟如下:
(1) 用限制性酶消化基因組DNA,并在酶切片段兩端加P1接頭;(2) 對連接P1 接頭的DNA片段進(jìn)行pooling,并隨機(jī)打斷,收集長度在350~550 bp之間的片段;(3) 在回收片段兩端加P2接頭。P2接頭為分叉的Y 型接頭,可阻止未連接P1接頭的片段擴(kuò)增;(4) 選擇連接了P1接頭的RAD tag進(jìn)行擴(kuò)增。
2.3 上機(jī)測序
將 PCR 后產(chǎn)物進(jìn)行DNA片段回收,并對最終構(gòu)建完成的文庫利用安捷倫2100r文庫質(zhì)量檢測儀進(jìn)行檢測。RAD-seq測序平臺(tái)的測序儀器為Illumina Hiseq 4000。
2.4 數(shù)據(jù)產(chǎn)出
采用Illumina Hiseq4000測序儀對RAD文庫進(jìn)行序列測定。對所測得的原始數(shù)據(jù)進(jìn)行過濾,其過濾標(biāo)準(zhǔn)如下:(1)僅使用含有 Hind Ⅲ酶切識(shí)別位點(diǎn)Read1序列;(2)reads序列整體質(zhì)量Q30>85%;(3)如果一條read,它的低質(zhì)量(Q≤5(E)) 的堿基數(shù)占整條read的50%以上,則去掉該reads;(4)去除前5bp不是酶切序列AATTC的reads(5)整條序列中不確定堿基不多于 3 個(gè);(6)去除含有dupulication的reads;(7)去除PolyAreads。過濾后的序列根據(jù)index序列劃分到具體個(gè)體,便于后續(xù)分析。
3.1 測序基本信息分析
如表1所示,獲得15個(gè)已知植物物證桂花樣本以及3個(gè)未知植物物證桂花樣本的原始DNA序列,根據(jù)如下標(biāo)準(zhǔn)對原始數(shù)據(jù)進(jìn)行過濾:(1)僅使用含有Hind Ⅲ酶切識(shí)別位點(diǎn)Read1序列;(2)利用Q30標(biāo)準(zhǔn)對序列質(zhì)量進(jìn)行評估;(3)所得的序列的前50 bp不存在不確定堿基;(4)整條序列中不確定堿基不多于3個(gè)。
15個(gè)已知桂花樣本的原始數(shù)據(jù)經(jīng)過濾后共產(chǎn)出3.47 Gb clean data,3個(gè)未知樣本的原始數(shù)據(jù)經(jīng)過濾后共產(chǎn)出746 Mb clean data。并且G和C含量相近,A和T含量相近,說明測序質(zhì)量較好。從整體數(shù)據(jù)量來看,數(shù)據(jù)有效率高達(dá)97.28%。經(jīng)過濾后,共獲得6,638,587,602 bp的Clean data,平均每個(gè)個(gè)體數(shù)據(jù)高達(dá)368 810 422 bp,數(shù)據(jù)量統(tǒng)計(jì)如表1所示。
表1 植物物證桂花樣本測序質(zhì)量統(tǒng)計(jì)表
3.2 SNP的查找檢測和建庫
利用RAD技術(shù)對過濾后的數(shù)據(jù)進(jìn)行聚類和SNP的查找,然后得出初步的SNP的可能位點(diǎn),且先對15個(gè)已知樣品通過聚類獲得的初始SNP進(jìn)行初步過濾,得到SNP數(shù)量為119 708 5個(gè),過濾標(biāo)準(zhǔn)如下:所有SNP位點(diǎn)總深度須大于等于4,如果SNP為雜合型則次好堿基深度須大于等于2。
如表2所示,植物物證桂花樣品獲得的SNP數(shù)量從3 373到158 467不等,樣品平均SNP數(shù)量為79 805。Mc Carroll.S.A認(rèn)為群體遺傳上的差異主要是通過對其群體上SNP位點(diǎn)信息,來進(jìn)行群體間遺傳多樣性的分析[5]。本實(shí)驗(yàn)獲得SNP數(shù)量最多的是植物物證桂花9,最少的是桂花8。雜合度最高個(gè)體是桂花4,高達(dá)83.52%。植物物證桂花個(gè)體的SNP的差異性反映了個(gè)體間的多態(tài)性。
3.3 建庫比對分析法
為進(jìn)一步解析系統(tǒng)發(fā)育樹分析結(jié)果的推測,本文進(jìn)一步通過建立SNP數(shù)據(jù)庫和未知植物物證樣品的SNP位點(diǎn)比較來找出具有區(qū)分效力的SNP子集,并建立個(gè)體識(shí)別的分析方法。
表2 經(jīng)過濾所得的SNP信息
通過RAD-seq技術(shù)獲得15個(gè)桂花樣本的SNP數(shù)據(jù)集,對此數(shù)據(jù)集進(jìn)行篩選(篩選原則:純合SNP深度至少為4,雜合SNP的次好深度至少為2),將至少在15個(gè)樣本都存在的136個(gè)SNP位點(diǎn)和至少在14個(gè)桂花樣本都存在1 046個(gè)SNP位點(diǎn),獲得 共計(jì)1 182個(gè)SNP位點(diǎn),然后用這1 182個(gè)SNP數(shù)據(jù)集建庫。
3.3.1 盲測單樣品tag簇嚴(yán)格過濾分析
通過RAD-seq技術(shù)分別獲得3個(gè)未知樣本的SNP數(shù)據(jù)集,遵循以上原則進(jìn)行篩選,然后將得到的SNP位點(diǎn)信息與SNP庫做比對,最終得出的統(tǒng)計(jì)結(jié)果如表3。
表3 未知樣品A、B、C的SNP位點(diǎn)信息與桂花數(shù)據(jù)庫比對的結(jié)果
從表3中可以看出,未知植物物證桂花樣品A的SNP位點(diǎn)信息與桂花數(shù)據(jù)庫比對后,桂花1與未知植物物證樣品A的比對符合度最高,有148個(gè)位點(diǎn)符合,符合率達(dá)到12.52%;未知植物物證樣品B的SNP位點(diǎn)信息與桂花數(shù)據(jù)庫比對后,桂花4與未知樣品B的比對的符合度最高,有116個(gè)位點(diǎn)符合,符合率達(dá)到9.81%;未知植物物證樣品C的SNP位點(diǎn)信息與桂花數(shù)據(jù)庫比對后,桂花11與未知樣品C的比對的符合度最高,有112個(gè)位點(diǎn)符合,符合率達(dá)到9.48%。從而推測出A、B、C三個(gè)未知植物物證樣品分別是桂花1、桂花4、桂花11。分析結(jié)果剛好也驗(yàn)證了系統(tǒng)發(fā)育樹的推測,且與實(shí)際情況吻合。
3.3.2 盲測單樣品tag簇寬松條件過濾分析
將3個(gè)未知植物物證樣品的數(shù)據(jù)產(chǎn)出結(jié)果進(jìn)行聚類,并進(jìn)行過濾(過濾原則:將tag中不含有N值并且至少有兩個(gè)tag聚類在一起的tag提取出來),將過濾后的聚類結(jié)果與本文15個(gè)植物桂花樣本所建的SNP庫做比對,統(tǒng)計(jì)結(jié)果如下表4。
表4 3個(gè)未知樣品聚類與桂花SNP數(shù)據(jù)庫比對結(jié)果
3個(gè)未知植物物證樣品同時(shí)與桂花SNP數(shù)據(jù)庫比對,從中可以近似地看出這樣一種情況:未知植物物證樣品A與數(shù)據(jù)庫中的桂花1重疊度最高,重疊SNP位點(diǎn)達(dá)234,未知植物物證樣品B與數(shù)據(jù)庫中的桂花4重疊度最高,重疊SNP位點(diǎn)達(dá)227,未知植物物證樣品C與數(shù)據(jù)庫中的桂花11重疊度最高,重疊SNP位點(diǎn)達(dá)220。這種數(shù)據(jù)分析結(jié)果也很好的驗(yàn)證了系統(tǒng)發(fā)育樹的推測和盲測單樣品tag簇嚴(yán)格過濾分析結(jié)果,說明該分析方法是可行且有效的。
在涉及食品安全案件中,如何快速、準(zhǔn)確地鑒別中藥材的易混品,以及在涉及鑒別植物個(gè)體的案件中建立一種行為人及受害者可控物品中附著植物與案件現(xiàn)場的植物是否存在同一性聯(lián)系的方法就顯得尤為重要[6]。本文首次嘗試?yán)肦AD-seq技術(shù)來識(shí)別桂花個(gè)體同一性,用未知桂花個(gè)體與已知建庫中的桂花個(gè)體比對分析,得出兩個(gè)桂花個(gè)體的特征點(diǎn)相同,存在同一性聯(lián)系,這對于查找破案線索,劃定偵查范圍往往具有重要的意義。
傳統(tǒng)的分析方法都是制作系統(tǒng)發(fā)育樹,通過分析樣本之間的親緣關(guān)系來識(shí)別3個(gè)未知樣本。本文的數(shù)據(jù)采用建庫比對分析法來區(qū)分未知植物樣品,不管是盲測單樣品tag簇寬松條件或者是盲測單樣品tag簇嚴(yán)格過濾條件的分析結(jié)果,可以得到即:未知植物物證樣品A與桂花1的匹配度最高,未知植物物證樣品B與桂花4匹配度最高,未知植物物證樣品C與桂花11的匹配度最高,也就是說,我們鑒定出未知植物物證樣品A、B、C對應(yīng)庫中桂花個(gè)體1、4和11。這些不同角度的分析方法都進(jìn)一步說明數(shù)據(jù)分析的可靠性。
未知植物物證樣品A與桂花1有148條SNP位點(diǎn)信息相吻合,符合度達(dá)到了12.5%,這12.5%的吻合度是否可以對未知植物物證的樣品A與桂花1的同一認(rèn)定做出定性的判斷?在今后的不同物種個(gè)體識(shí)別的研究中,是否可以建立一個(gè)最低的認(rèn)定標(biāo)準(zhǔn)做定性判斷,這些問題還需要大量的樣本和實(shí)驗(yàn)研究進(jìn)一步確定。
[1] HEBERT P D N, CYWINSKA A, BALL S L, et al. Biological identifications through DNA barcodes [J].Proceedings of the Royal Society B:Biological Sciences,2003,270(1512):313-321.
[2] 王彥學(xué).植物DNA檢驗(yàn)技術(shù)在命案現(xiàn)場重建中的應(yīng)用策略[J].中國司法鑒定,2014(3):53-57.
[3] 王樂,葉健,白雪,等.二代測序技術(shù)及其在法醫(yī)遺傳學(xué)中的應(yīng)用[J]. 刑事技術(shù), 2015(5):353-358.
[4] 王洋坤,胡艷,張?zhí)煺?RAD-seq技術(shù)在基因組研究中的現(xiàn)狀及展望[J].遺傳,2014(1):41-49.
[5] MCCARROLL S A, KURUVILLA F G, KORN J M, et al. Integrated detection and population-genetic analysis of SNPs and copy number variation[J]. Nature Genetics,2008, 40(1):1166-1174.
[6] 郝宏奎,楊立云.同一認(rèn)定理論地位新探[J].中國人民公安大學(xué)學(xué)報(bào),2010(4):1-5.
(責(zé)任編輯于瑞華)
D918.93
重慶市基礎(chǔ)與前沿研究計(jì)劃項(xiàng)目(cstc2014jcyiA00012)階段性成果;重慶市教委科學(xué)技術(shù)項(xiàng)目(KJ1501502)。
莊 艷(1980—),女,新疆昌吉人,博士,講師。研究方向?yàn)橹参镂镒C鑒定技術(shù)。