劉 冰
(公安部物證鑒定中心,北京 100038)
現(xiàn)階段我國DNA數(shù)據(jù)庫發(fā)展的幾個關(guān)鍵問題
劉 冰
(公安部物證鑒定中心,北京 100038)
經(jīng)過15年發(fā)展,我國DNA數(shù)據(jù)庫集聚了3000萬以上的STR數(shù)據(jù),在超過100萬起案件中發(fā)揮了作用。隨著Y-STR、SNP等新遺傳標(biāo)記被引入法庭科學(xué)領(lǐng)域,對DNA數(shù)據(jù)庫的應(yīng)用已不僅僅滿足于傳統(tǒng)的直接匹配和簡單親緣關(guān)系檢索?,F(xiàn)階段我國DNA數(shù)據(jù)庫究竟該向何處發(fā)展,文章認(rèn)為:(1)關(guān)于增加DNA數(shù)據(jù)庫支持基因座數(shù)量的必要性已在法醫(yī)遺傳學(xué)領(lǐng)域達(dá)成共識,但常染色體STR基因座數(shù)量的增加必須以確定核心基因座為前提。(2)對于SNP等新型遺傳標(biāo)記的采用,DNA數(shù)據(jù)庫應(yīng)本著“善意期待”和“審慎觀望”的態(tài)度,在數(shù)據(jù)庫已經(jīng)進(jìn)入千萬級容量的今天,采用SNP的可能性已經(jīng)極低,未來能夠?qū)NA數(shù)據(jù)庫帶來變革的,很可能是全基因組DNA測序。(3)復(fù)雜親緣關(guān)系檢索是DNA數(shù)據(jù)庫人口覆蓋率不足情況下的合理補(bǔ)充和必然選擇,但應(yīng)遵循嚴(yán)格的規(guī)則。(4)在沒有通過嚴(yán)謹(jǐn)演繹推理構(gòu)建起理論框架,特別是結(jié)果評價的數(shù)學(xué)模型之前,Y-STR數(shù)據(jù)庫的應(yīng)用還只是經(jīng)驗(yàn)的而不是科學(xué)的。綜上,作為千萬級大容量DNA數(shù)據(jù)庫,涉及發(fā)展方向、安全、穩(wěn)定的根本性問題要慎重從事,用科學(xué)的方法思考、規(guī)劃和推動工作的進(jìn)行。
法醫(yī)遺傳學(xué);DNA數(shù)據(jù)庫;Y-STR數(shù)據(jù)庫;核心基因座;SNP;個體識別;親緣關(guān)系檢索
DNA數(shù)據(jù)庫(DNA database),是將分子遺傳學(xué)技術(shù)、計算機(jī)網(wǎng)絡(luò)信息傳遞技術(shù)和數(shù)據(jù)庫管理技術(shù)相結(jié)合的,實(shí)現(xiàn)DNA信息數(shù)字化組織、存儲、管理和檢索的系統(tǒng)。目前,最為人們熟知的DNA數(shù)據(jù)庫多為DNA序列數(shù)據(jù)庫,如歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)的EMBLDNA數(shù)據(jù)庫、美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的GenBank、日本的DDBJ(DNA Data Bank of Japan)等,其數(shù)據(jù)信息主要來源于科研人員或大規(guī)?;蚪M測序計劃,實(shí)現(xiàn)全球科學(xué)研究領(lǐng)域的資源共享。本文談及的DNA數(shù)據(jù)庫,特指法庭科學(xué)DNA數(shù)據(jù)庫(Forensic DNA database),也可稱作犯罪DNA數(shù)據(jù)庫(Crime DNA database),主要用于為偵查破案、執(zhí)法辦案、訴訟活動、公共安全和社會管理提供DNA數(shù)據(jù)服務(wù)。
自90年代中期公安部提出“統(tǒng)一規(guī)劃、統(tǒng)一標(biāo)準(zhǔn)、分步實(shí)施、滾動發(fā)展”的DNA數(shù)據(jù)庫建設(shè)原則開始,從科學(xué)研究到實(shí)際應(yīng)用,從區(qū)域性建設(shè)到全國性部署,我國的DNA數(shù)據(jù)庫已有15年的歷史[1-9]。10余年來,DNA數(shù)據(jù)庫集聚了3000萬以上的各類樣本的短串聯(lián)重復(fù)序列(short tandem repeat,STR)數(shù)據(jù),在超過100萬起的案件中發(fā)揮了作用,已經(jīng)初步實(shí)現(xiàn)了跨時空多元化應(yīng)用的建設(shè)目標(biāo),在精確打擊犯罪中發(fā)揮了顯著成效。近年來,Y染色體STR(Y-STR)、單核苷酸多態(tài)性(single nucleotide polymorphisms,SNP)、單細(xì)胞檢驗(yàn)、高通量核酸測序等新的生物學(xué)技術(shù)不斷被引入法庭科學(xué)領(lǐng)域,實(shí)踐中對DNA數(shù)據(jù)庫的應(yīng)用也不僅滿足于傳統(tǒng)的基于直接匹配的個體識別和簡單親緣關(guān)系檢索(指“父母-子女”三聯(lián)體關(guān)系的檢索)。那么現(xiàn)階段我國DNA數(shù)據(jù)庫究竟該向何處發(fā)展,是一個重要問題。本文試圖從常染色體STR基因座的選擇,新遺傳標(biāo)記與DNA數(shù)據(jù)庫的關(guān)系,復(fù)雜親緣關(guān)系檢索以及Y-STR數(shù)據(jù)庫建設(shè)等幾個方面探討千萬級大容量DNA數(shù)據(jù)庫建設(shè)應(yīng)用中的關(guān)鍵問題,以期為今后我國DNA數(shù)據(jù)庫的科學(xué)發(fā)展和應(yīng)用提供參考和幫助。
現(xiàn)階段關(guān)于增加DNA數(shù)據(jù)庫支持基因座數(shù)量的必要性,在法醫(yī)遺傳學(xué)領(lǐng)域已達(dá)成共識。DNA數(shù)據(jù)庫常染色體STR基因座數(shù)量增加必須以確定核心基因座為前提。我國現(xiàn)有DNA數(shù)據(jù)庫系統(tǒng)只支持24 個STR基因座,這既有技術(shù)和歷史的局限,也有出于數(shù)據(jù)庫比對效率的考量。因此問題的關(guān)鍵是如何權(quán)衡基因座數(shù)量與數(shù)據(jù)庫比對效率間的關(guān)系。一方面,隨著DNA數(shù)據(jù)庫數(shù)據(jù)總量不斷擴(kuò)大,數(shù)據(jù)庫基于直接匹配(direct match)的個體識別中出現(xiàn)無關(guān)個體隨機(jī)匹配(random match)的可能性大大增加,親緣關(guān)系檢索的識別能力會大幅度降低[10],隨著數(shù)據(jù)庫容量的增長,增加基因座數(shù)量是必然趨勢;另一方面,數(shù)據(jù)庫比對算法、數(shù)據(jù)庫間數(shù)據(jù)共享能力又要求樣本間的基因座選擇盡量的趨同。理想的狀況是,數(shù)據(jù)庫選取規(guī)定了一組足夠多的基因座組合后,所有入庫樣本數(shù)據(jù)遵循這一規(guī)定。由于技術(shù)、歷史、商業(yè)等諸多因素這一理想狀態(tài)無法達(dá)成。但是確定核心基因座是DNA數(shù)據(jù)庫健康發(fā)展的必然選擇,英國、美國、歐洲就是研究制定核心基因座的先行者和受益者。
上世紀(jì)90年代,英國法庭科學(xué)服務(wù)部(Forensic Science Service,F(xiàn)SS)在世界上最先確定了第一代核心STR基因座(first generation multiplex,F(xiàn)GM),1994年發(fā)展了第二代核心STR基因座(second generation multiplex,SGM),1998年又研究確定了第三代核心STR基因座(third generation multiplex,TGM)與SGM配合使用,將個人識別能力提高到100億分之一。1996年,F(xiàn)BI開展了一項(xiàng)為期18個月的專項(xiàng)研究,為美國聯(lián)合DNA索引系統(tǒng)(Combined DNA Index System,CODIS)篩選核心STR基因座,22個DNA實(shí)驗(yàn)室共同參與此項(xiàng)研究。在對17個候選STR基因座進(jìn)行比較測試后,1997年,正式確定了13個常染色體STR基因座為CODIS核心STR基因座,同時建立了一系列的測試方法、評估標(biāo)準(zhǔn)和基礎(chǔ)人員信息數(shù)據(jù)庫。德國國家DNA數(shù)據(jù)庫建設(shè)起步于1998年,確定了8個常染色體STR基因座和1個性別基因座作為其核心STR基因座。此后,為加強(qiáng)與歐洲各國的在案件協(xié)查、失蹤人口調(diào)查、DVI等方面的合作,英國與歐洲主要國家又將D2S1338、D19S433、FGA、TH01、VWA、D3S1358、D8S1179、D16S539、D18S51和D21S11等10個常染色體STR基因座確定為共有的核心STR基因座,以利于相互間的數(shù)據(jù)交換共享。近年,為有利于世界各國的國際合作和DNA數(shù)據(jù)交換,國際刑警組織也建立了DNA數(shù)據(jù)庫,該 庫 選 用 FGA、TH01、VWA、D3S1358、D8S1179、D18S51、D21S11等7個常染色體STR基因座作為其核心STR基因座。英、美、德等國核心STR基因座在其國家DNA數(shù)據(jù)庫的建設(shè)中起到了重要的基礎(chǔ)性作用,使國家DNA數(shù)據(jù)庫在建設(shè)之初就走入規(guī)范化、科學(xué)化軌道。同時,核心STR基因座的確定也很好的引導(dǎo)了DNA檢驗(yàn)試劑市場的發(fā)展,DNA檢驗(yàn)試劑研發(fā)生產(chǎn)處于有序發(fā)展、良性競爭的軌道,用戶、廠商雙方得益。
我國至今尚未開展此項(xiàng)工作。由于缺乏引導(dǎo),各類常染色體STR檢驗(yàn)試劑產(chǎn)品研發(fā)處于無序狀況:在可檢測基因座大幅度增加的同時,DNA數(shù)據(jù)庫中樣本共有常染色體STR基因座不增反降,由最初的13個降為不足11個(見表1),制約了DNA數(shù)據(jù)庫在法庭科學(xué)領(lǐng)域的應(yīng)用效能和發(fā)展、應(yīng)用前景。應(yīng)該看到,核心基因座的確定不單純是一個技術(shù)性行為,需要考慮多方面因素,多方面參與,國外的經(jīng)驗(yàn)也是如此。在諸多因素中,兼容性,特別是向下兼容是首先需要考慮的。隨著新一版DNA數(shù)據(jù)庫系統(tǒng)軟件的應(yīng)用,科學(xué)選擇,合理調(diào)整,盡快確定中國人群常染色體核心STR基因座,出臺配套標(biāo)準(zhǔn)規(guī)范,將DNA檢驗(yàn)試劑的研發(fā)納入科學(xué)有序的軌道,已經(jīng)成為我國社會公共安全領(lǐng)域重要的基礎(chǔ)性研究內(nèi)容,具有關(guān)鍵的戰(zhàn)略意義,這一項(xiàng)工作迫在眉睫。
近年來,SNP、DNA芯片以及新一代核酸測序技術(shù)儼然成為法醫(yī)遺傳學(xué)的熱點(diǎn),特別是SNP,被認(rèn)為是新一代遺傳標(biāo)記且終將取代STR。但對于新型遺傳標(biāo)記的采用,DNA數(shù)據(jù)庫應(yīng)本著“善意期待”和“審慎觀望”的態(tài)度。事實(shí)上,DNA數(shù)據(jù)庫[8]、常染色體STR檢測試劑[11,12]、DNA芯片及SNP檢測技術(shù)[13,14]在2001年均被列為國家“十五”科技攻關(guān)課題。10余年來,基于常染色體STR檢測,我國已建成全世界最大的DNA數(shù)據(jù)庫,而SNP檢測技術(shù)作為熱點(diǎn)反復(fù)被提及卻仍未在法醫(yī)遺傳學(xué)領(lǐng)域形成大規(guī)模成熟應(yīng)用,這一現(xiàn)象值得思考。一類遺傳標(biāo)記能否被DNA數(shù)據(jù)庫采用,取決于諸多因素:對于遺傳標(biāo)記,(1)其技術(shù)解決方案必須成熟完整,涵蓋檢測平臺、檢測試劑、分析軟件等因素,相關(guān)產(chǎn)品必須進(jìn)入商業(yè)化生產(chǎn)階段;(2)其常用標(biāo)記選定、數(shù)據(jù)分析解讀方式必須在業(yè)界達(dá)成共識,檢測結(jié)果能夠在實(shí)驗(yàn)室間通行使用;(3)其檢測結(jié)果具有很高的實(shí)用價值,即普通技術(shù)人員可以用其來解決實(shí)際問題;(4)其檢測成本能夠?yàn)槎鄶?shù)實(shí)驗(yàn)室接受。對于DNA數(shù)據(jù)庫,(1)要考慮已有數(shù)據(jù)的價值保護(hù);(2)要衡量引入新遺傳標(biāo)記帶來的收益和數(shù)據(jù)迭代成本間的關(guān)系。英國、美國國家DNA數(shù)據(jù)庫建設(shè)最初,所應(yīng)用的DNA分型技術(shù)是單位點(diǎn)探針指紋圖技術(shù)(single locus probe,SPL),當(dāng)STR檢測技術(shù)出現(xiàn)后,SPL技術(shù)很快被替代是因?yàn)椋海?)STR檢測技術(shù)方案成熟,商業(yè)化程度高;(2)STR檢測應(yīng)用規(guī)范,結(jié)果數(shù)字化程度高(國際法醫(yī)遺傳學(xué)會、FBI的DNA分析方法科學(xué)工作組制定了大量相關(guān)指導(dǎo)性文件[15]);(3)已有數(shù)據(jù)庫數(shù)據(jù)規(guī)模還不大,技術(shù)迭代成本不高;(4)STR相對于SPL技術(shù)優(yōu)勢明顯。
表1 國內(nèi)部分常見常染色體STR檢驗(yàn)試劑產(chǎn)品Table1 Common autosomal STR kits in Chinese market
應(yīng)該看到,無論是英國、美國還是我國DNA數(shù)據(jù)庫,目前的情況與STR取代SPL技術(shù)時有顯著不同:(1)由于數(shù)據(jù)庫容量巨大,法醫(yī)遺傳學(xué)檢測對STR檢測技術(shù)已經(jīng)形成“路徑依賴”,這種依賴總體上看還處于良性循環(huán)的軌道,即隨著數(shù)據(jù)庫規(guī)模擴(kuò)大,使用者的受益也在不斷放大;(2)規(guī)?;蟮腄NA數(shù)據(jù)庫對于變革呈天然的保守姿態(tài),且數(shù)據(jù)規(guī)模越大,保守性越強(qiáng)烈,無論是從系統(tǒng)安全性還是數(shù)據(jù)價值保護(hù),使用新遺傳標(biāo)記帶來的益處相對于風(fēng)險和代價來說微不足道;(3)SNP等新的遺傳標(biāo)記對于STR的優(yōu)勢尚未達(dá)到STR相對于SPL那樣的顯著。以我國DNA數(shù)據(jù)庫為例,如果采用SNP技術(shù),(1)結(jié)果不能兼容現(xiàn)有千萬級STR數(shù)據(jù),無法形成規(guī)?;б?;(2)尚沒有一套成熟的商業(yè)化檢測方案形成主導(dǎo),不同的解決方案間數(shù)據(jù)無法兼容;(3)在個體識別、親緣關(guān)系檢索中SNP對于STR的優(yōu)勢沒有顯著到必須取而代之的地步;(4)SNP在表觀遺傳學(xué)、群體遺傳學(xué)領(lǐng)域的應(yīng)用還未進(jìn)入成熟實(shí)用階段;(5)也是最重要的,現(xiàn)有數(shù)據(jù)價值僅以經(jīng)濟(jì)價值衡量已近人民幣十億級,迭代成本無法承受。因此,如果在15年前DNA數(shù)據(jù)庫技術(shù)起步,5年前數(shù)據(jù)庫進(jìn)入高速增長的節(jié)點(diǎn)SNP技術(shù)沒有被引入的話,在數(shù)據(jù)庫已經(jīng)計入千萬級容量的今天,采用SNP技術(shù)的可能性已經(jīng)極低。而未來能夠?qū)NA數(shù)據(jù)庫帶來變革的,很可能是全基因組DNA測序。
DNA數(shù)據(jù)庫的主要優(yōu)勢和用途在于人的個體識別。目前,采用的個體識別方式包括完全匹配和親緣關(guān)系檢索,其中完全匹配是主要的應(yīng)用方式。從應(yīng)用模式看(見圖1),在使用完全匹配方式時,DNA數(shù)據(jù)庫較其他生物識別(如指紋、人臉、聲紋等)數(shù)據(jù)庫有著不同的特點(diǎn):在由專業(yè)人員完成數(shù)據(jù)提取(即檢驗(yàn)結(jié)果的分析)后,由于STR檢測數(shù)字化程度高,結(jié)果清楚明了(一般為呈兩組數(shù)字一對一的形式),非技術(shù)人員經(jīng)簡單培訓(xùn)也可使用。這與其他生物識別數(shù)據(jù)庫恰恰相反。從數(shù)字分析來看,完全匹配是用戶的主要使用模式(見表2)。
既然如此,為什么DNA數(shù)據(jù)庫還要設(shè)定親緣關(guān)系檢索模式?從數(shù)據(jù)特性來看,DNA數(shù)據(jù)庫數(shù)據(jù)已基本具有大數(shù)據(jù)的三個特性,即規(guī)模性(volume)、多樣性(variety)和高速性(velocity)。其中,數(shù)據(jù)的規(guī)模性(volume)包含兩個涵意:數(shù)據(jù)的絕對數(shù)量和對樣本空間的覆蓋程度。一般來說,數(shù)據(jù)對樣本空間的覆蓋程度與運(yùn)算模型的復(fù)雜程度呈反比。當(dāng)數(shù)據(jù)量大到覆蓋整個樣本空間時,對于樣本的推斷,不再強(qiáng)烈依賴于模型的比對。極端而簡單的例子就是,當(dāng)建立全民DNA數(shù)據(jù)庫后,只使用完全匹配方式就可實(shí)現(xiàn)精確的個體識別(同卵雙生和骨髓移植等特殊情況除外)。因此不難理解,由于人口覆蓋率問題,現(xiàn)階段親緣關(guān)系檢索模式還是DNA數(shù)據(jù)庫個體識別一個必不可少的補(bǔ)充。從比對模式復(fù)雜度的角度,親緣關(guān)系檢索模式可以分為“簡單”和“復(fù)雜”兩種,前者主要指“父母-子女”三聯(lián)體以及單親遺傳關(guān)系的檢索;后者狹義上指同胞關(guān)系檢索,廣義上還包括“祖-孫”、父系以及母系等親緣關(guān)系的檢索。在使用遺傳標(biāo)記上,復(fù)雜親緣關(guān)系檢索模式已不僅僅局限于常染色體STR,還包括Y-STR和線粒體DNA。
圖1 生物特征數(shù)據(jù)庫的應(yīng)用模式Fig.1 Applifcation pattern of biometric database
雖然使用DNA數(shù)據(jù)庫進(jìn)行復(fù)雜親緣關(guān)系檢索早就有嘗試并有成功的案例,如英國的Craig Harman案、Jeffery Gafoor案和美國的Grim Sleeper案等,但DNA數(shù)據(jù)庫應(yīng)用領(lǐng)域?qū)Υ@一方式始終持謹(jǐn)慎、保守的態(tài)度。這是由于:(1)條件苛刻,需要有高的前置概率和附加檢索條件;(2)假陽性(false positives)和假陰性(false negatives)率高,結(jié)果指向性很差;(3)結(jié)果的篩查需要大量的調(diào)查工作;(4)存在道德諸如隱私權(quán)方面的爭議。如在美國,根據(jù)聯(lián)邦法律,F(xiàn)BI被禁止在CODIS中開展親緣關(guān)系查詢;僅加利福尼亞州、科羅拉多州、得克薩斯州、弗吉尼亞州4個州允許使用親緣關(guān)系查詢,而馬里蘭州、哥倫比亞特區(qū)則禁止利用DNA數(shù)據(jù)庫進(jìn)行親緣關(guān)系檢索。在我國,復(fù)雜親緣關(guān)系檢索的需求逐年增長,但是實(shí)際上復(fù)雜親緣關(guān)系檢索并不適用于我國,這是因?yàn)椋海?)此類檢索適用于封閉的小區(qū)域,低流動性人群,我國DNA數(shù)據(jù)庫中多數(shù)數(shù)據(jù)來自于流動人口;(2)此類檢索對于基因座數(shù)量有較高要求,目前DNA數(shù)據(jù)庫中基因座數(shù)量偏低,特別是共有基因座數(shù)僅有11個。盡管如此,開展復(fù)雜親緣關(guān)系檢索是我國DNA數(shù)據(jù)庫應(yīng)用在一個較長時期內(nèi)的合理補(bǔ)充和必然選擇,原因客觀上是需求推動,主觀上是實(shí)現(xiàn)數(shù)據(jù)庫效益的最大化。但此項(xiàng)業(yè)務(wù)的展開應(yīng)遵循嚴(yán)格的規(guī)則,技術(shù)上:(1)源樣本必須來自單一個體(或分型可被準(zhǔn)確區(qū)分),每個基因座不超過兩個等位基因;(2)非混合樣本;(3)DNA分型無誤,無等位基因丟失,無錯判。程序上:(1)只限于最重大案件;(2)已無其它的線索和信息供案件調(diào)查使用;(3)用于比對的現(xiàn)場物證經(jīng)分析確定來源于犯罪嫌疑人;(4)對于嫌疑人來源的地區(qū)要有嚴(yán)格的預(yù)判;(5)必須有其他非DNA信息作為輔助篩選的因素。
表2 我國DNA數(shù)據(jù)庫兩種比對結(jié)果的比較(2010~2014)Table2 Comparison of 2 kinds of results analysed in China national DNA database(2010~2014)
數(shù)據(jù)庫的復(fù)雜親緣關(guān)系檢索中,存在一類特殊的類型即單倍型(haplotype)檢索,主要指應(yīng)用Y-STR和線粒體DNA進(jìn)行的父系和母系遺傳關(guān)系檢索。這類特殊遺傳關(guān)系的特點(diǎn)是遺傳規(guī)律清晰,在隔代和遠(yuǎn)親屬的親緣關(guān)系判斷中有優(yōu)勢;缺點(diǎn)是需要建立專門數(shù)據(jù)庫,數(shù)據(jù)研判中要特殊考量突變的因素,必須與其他方法結(jié)合使用才能達(dá)到個體識別。如前所述,由于DNA人口覆蓋率低,DNA現(xiàn)有的完全匹配和親緣關(guān)系檢索不能完全滿足偵查破案的現(xiàn)實(shí)需求,近年來Y-STR數(shù)據(jù)庫的建設(shè)被越來越多的地方提上日程并付諸實(shí)施??陀^的說,Y-STR數(shù)據(jù)庫的建設(shè)確有其迫切性。家系資料的搜集是Y-STR數(shù)據(jù)庫建立的必要條件。在我國完整的多代家系基本只存在于農(nóng)村。據(jù)統(tǒng)計,在1990年到2010年的20年時間里,我國的行政村數(shù)量由于城鎮(zhèn)化和村莊兼并等原因,從100多萬個銳減到64萬多個,每年減少1.8萬個村落,每天減少約50個[16]。因此,隨著村落的消亡,Y-STR數(shù)據(jù)庫建立的基礎(chǔ)也將逐漸消失。但是,Y-STR數(shù)據(jù)庫的特殊性所帶來的問題也必須引起關(guān)注。
4.1 人員樣品采集可能涉及法律、社會等諸多問題
DNA數(shù)據(jù)庫的樣本的采集,立法先行是國外的慣例。英國1984年制定的《警察與刑事證據(jù)法》,1994年的《刑事審判與公共秩序法》,1995年的《樣本提取條例》,為英國國家DNA數(shù)據(jù)庫的樣品采集提供了法律依據(jù)。美國國會1994年通過的《聯(lián)邦DNA鑒定法》,授權(quán)FBI建立國家DNA數(shù)據(jù)庫;自1989年起,各州又先后通過了相關(guān)立法。我國關(guān)于DNA數(shù)據(jù)庫沒有專門立法,關(guān)于數(shù)據(jù)庫中人員樣品的采集目前往往援引《中華人民共和國刑事訴訟法》(2012 年3月14日第二次修正)第一百三十條的規(guī)定。但是,Y-STR數(shù)據(jù)庫人員樣品采集的特點(diǎn)是:(1)地理空間相對封閉;(2)涉及人員范圍廣;(3)需同時搜集家系資料;(4)被采集人多數(shù)不在第一百三十條的規(guī)定覆蓋范圍。上述特點(diǎn)決定,樣品采集的過程必然產(chǎn)生社會影響,在公民法制意識日益增強(qiáng)的當(dāng)今社會,DNA數(shù)據(jù)庫的法律支持問題日益引起關(guān)注[17,18],稍有措施方式不當(dāng)極易形成社會不穩(wěn)定因素。
4.2 社會學(xué)意義家系不等同于遺傳學(xué)意義家系
家系是Y-STR數(shù)據(jù)庫數(shù)據(jù)組織的骨架,也是檢索結(jié)果轉(zhuǎn)化應(yīng)用的路徑。這里的家系指的是遺傳學(xué)意義的家系,即客觀反應(yīng)血親關(guān)系的家系。通過走訪采集到的家系,可以稱之為社會學(xué)意義上的家系,反應(yīng)的是現(xiàn)有社會組織框架下家庭單位內(nèi)部以及之間成員的表象關(guān)系。人們心目中常識性的認(rèn)為Y-STR可作為姓氏基因幫助尋根問祖,是建立在二者吻合的前提下。從大量現(xiàn)實(shí)情況來看,由于非婚生、領(lǐng)養(yǎng)等現(xiàn)象的存在,二者目前往往不能等同。某一男性是否為其父的親生子,事實(shí)往往由生母掌握(有時甚至生母也不能掌握),通過走訪或資料采集完全無法獲得。也就意味著,在初始階段,作為Y-STR數(shù)據(jù)庫基礎(chǔ)的家系信息在可信度上就存在巨大不確定性,這一缺陷即使后期通過技術(shù)也是很難修正的。因此由此造成的結(jié)果誤導(dǎo)也是不可預(yù)知的,甚至可以激進(jìn)的認(rèn)為Y-STR的應(yīng)用帶有很強(qiáng)的博弈屬性。
4.3 對Y-STR數(shù)據(jù)庫的評價更多是經(jīng)驗(yàn)而非科學(xué)的
演繹推理的邏輯形式對于理性的重要意義在于,它對人的思維保持嚴(yán)密性、一貫性,有著不可替代的校正作用。因此Y-STR應(yīng)用的科學(xué)性必須通過演繹推理來證實(shí)。但目前,國內(nèi)關(guān)于Y-STR數(shù)據(jù)庫應(yīng)用的效果評價多基于歸納推理,且基本上均采用不完全歸納推理的方式,或通過成功的案例來證明Y-STR數(shù)據(jù)庫應(yīng)用的價值,或通過局部的數(shù)據(jù)分析來引導(dǎo)出斷言式結(jié)論。這其中存在兩個問題:(1)對歸納推理而言真實(shí)的前提未必會導(dǎo)出真實(shí)的結(jié)論,大衛(wèi)·休謨說過:“運(yùn)用歸納法的正當(dāng)性永遠(yuǎn)不可能從理性上被證明”;(2)出于趨利原則,此類文章中很少存在不利的反證。實(shí)際上,現(xiàn)階段Y-STR的應(yīng)用帶有顯著的不可證偽性(兩個個體Y-STR分型相同不能得出來自同一家系的必然結(jié)論,分型不同也不能得出必然否定的結(jié)論),其科學(xué)性無法成立。因此,在沒有通過嚴(yán)謹(jǐn)?shù)难堇[推理構(gòu)建起Y-STR數(shù)據(jù)庫的理論框架,特別是結(jié)果評價的數(shù)學(xué)模型之前,它的應(yīng)用還只是經(jīng)驗(yàn)的而不是科學(xué)的,而且很難確定這種經(jīng)驗(yàn)對于他人是否具有實(shí)際價值。
4.4 家系信息的搜集、存儲和使用存在風(fēng)險隱患
對于存儲常染色體STR的DNA數(shù)據(jù)庫,因基因座僅存在于DNA的非編碼區(qū)域,不包含類似遺傳學(xué)易患病體質(zhì)的醫(yī)學(xué)信息,并不如一些觀點(diǎn)[17-19]所擔(dān)心的那樣會涉及觸及個體的遺傳學(xué)隱私。但Y-STR數(shù)據(jù)庫中涉及到的家系信息則完全屬于隱私范疇,特別如上文提及的非婚生現(xiàn)象,如果泄露將對地方的社會、家庭關(guān)系產(chǎn)生巨大的沖擊。Y-STR數(shù)據(jù)庫建立涉及環(huán)節(jié)、人員眾多,從搜集、整理、存儲、應(yīng)用,主觀故意和客觀疏忽均可能導(dǎo)致泄露、誤用和濫用等。河南省在Y-STR數(shù)據(jù)庫建設(shè)中就對這一問題進(jìn)行了嚴(yán)肅的思考并進(jìn)行了有益的嘗試[20]。
4.5 數(shù)據(jù)庫均衡發(fā)展要綜合考慮成本與效益問題
建設(shè)Y-STR數(shù)據(jù)庫的目的是彌補(bǔ)現(xiàn)階段DNA數(shù)據(jù)庫人口覆蓋率不足短板,不能舍本逐末。一個地方在常規(guī)DNA數(shù)據(jù)庫數(shù)量未達(dá)到規(guī)模效益點(diǎn),增長進(jìn)入良性循環(huán)的時候,規(guī)模性的啟動Y-STR數(shù)據(jù)庫建設(shè),其成本和效益的綜合比是很低的。這是由于:(1)應(yīng)用范圍不同,Y-STR數(shù)據(jù)庫應(yīng)用以農(nóng)村等低人口流動地區(qū)為主,常染色體STR適用于所有地區(qū)和人群;(2)經(jīng)濟(jì)成本不同,目前單個樣本檢驗(yàn)成本Y-STR約是常染色體STR的2倍;(3)Y-STR數(shù)據(jù)庫可以解決本人、近親屬不在時的比對問題,但這些問題隨著常染色體STR數(shù)據(jù)庫人口覆蓋率提升可以大幅度緩解;(4)Y-STR數(shù)據(jù)庫前期建設(shè)的人力投入和后期應(yīng)用的偵查成本遠(yuǎn)遠(yuǎn)高于常染色體STR。
從近年來各國特別是我國法庭科學(xué)DNA數(shù)據(jù)庫建設(shè)應(yīng)用的實(shí)際上看,一方面,對DNA數(shù)據(jù)庫的功能要求呈現(xiàn)多警種、多部門、多角度、多領(lǐng)域以及綜合化、復(fù)雜化的趨勢,DNA數(shù)據(jù)庫除服務(wù)于刑事偵查工作外,在其他警種和處置重大公共安全事件和重大災(zāi)害事故中有著越來越廣泛的應(yīng)用。另一方面,對DNA數(shù)據(jù)庫信息進(jìn)行深度挖掘,綜合應(yīng)用復(fù)雜親緣關(guān)系比對(包括單親、雙親、兄弟、姐妹等)和案(事)件、人員背景等非遺傳信息,為疑難案件提供偵破線索已成為DNA檢驗(yàn)技術(shù)和DNA數(shù)據(jù)庫應(yīng)用的一個新的熱點(diǎn)和重點(diǎn)。由此看來,隨著技術(shù)發(fā)展和實(shí)踐的深入,DNA數(shù)據(jù)庫在打擊犯罪、公安社會管理創(chuàng)新、國家安全、公共安全、災(zāi)難事故處置、醫(yī)療衛(wèi)生、經(jīng)濟(jì)、軍事等各個領(lǐng)域還將發(fā)揮更突出的作用。但越是如此,對于DNA數(shù)據(jù)庫的建設(shè)越要慎重從事,特別是涉及發(fā)展方向、安全、穩(wěn)定的根本性問題,應(yīng)以科學(xué)的方法來思考、規(guī)劃和推動工作的進(jìn)行。
[1] 張國臣,劉冰,陳松,等.實(shí)驗(yàn)性犯罪數(shù)據(jù)庫的設(shè)計 [J].刑事技術(shù),2000(1):44-45.
[2] 杜志淳,李莉,林源,等.中國“罪犯DNA數(shù)據(jù)庫”STR基因座研究 [J].中國法醫(yī)學(xué)雜志,2000,15(2):65-68.
[3] 李莉,柳燕,林源,等.國內(nèi)外“DNA數(shù)據(jù)庫”遺傳學(xué)標(biāo)志的比較研究 [J].中國司法鑒定,2001(2):25-27.
[4] 胡蘭,陳松,張國臣.國家法庭科學(xué)DNA數(shù)據(jù)庫建設(shè)勢在必行 [J].刑事技術(shù),2003(6):3-5.
[5] 焦章平,唐暉,劉雅誠,等.建立法醫(yī)DNA數(shù)據(jù)庫的初步探討 [J].中國法醫(yī)學(xué)雜志,2003,18(1):58-59.
[6] 姜先華,李軍,劉峰.法庭科學(xué)DNA數(shù)據(jù)庫的建設(shè)和應(yīng)用 [J].中國法醫(yī)學(xué)雜志,2004,19(1):61-62.
[7] 侯一平,王保捷,叢斌,等.中國法醫(yī)學(xué)會物證專業(yè)委員會法醫(yī)DNA分析的若干建議 [J].中國法醫(yī)學(xué)雜志,2006,21(5):257-259.
[8] 姜先華.中國法庭科學(xué)DNA數(shù)據(jù)庫 [J].中國法醫(yī)學(xué)雜志,2006,21(5):260-262.
[9] 劉冰.基于數(shù)據(jù)庫數(shù)據(jù)分析的DNA證據(jù)作用評價 [J].刑事技術(shù),2015,40(3):199-203.
[10] 葛建業(yè),嚴(yán)江偉,Budowle B,等.關(guān)于法庭科學(xué)DNA數(shù)據(jù)庫若干問題的探討 [J].中國法醫(yī)學(xué)雜志,2011,26(3):252-255.
[11] 李紅.DNA檢驗(yàn)試劑有望國產(chǎn)化 [N].科技日報,2004-12-06.
[12] 王莉莉,蘇雪峰.國產(chǎn)DNA試劑盒:實(shí)現(xiàn)從無到有的突破.創(chuàng)新學(xué)習(xí)的新思路 [N].人民公安報,2010-02-01(7).
[13] 朱淳良.國家十五重點(diǎn)科技攻關(guān)項(xiàng)目“法醫(yī)學(xué)DNA芯片技術(shù)研究”課題通過專家驗(yàn)收 [J].中國司法鑒定,2014(3):60.
[14] 朱淳良,周云飛.解讀“生命天書”的攻堅(jiān)戰(zhàn)——攻克“法醫(yī)學(xué)DNA芯片技術(shù)研究”課題專訪 [J].中國司法鑒定,2014(4):58-60.
[15] 劉爍,劉冰,王彥斌,等.國外法庭科學(xué)DNA實(shí)驗(yàn)室的質(zhì)量保證和質(zhì)量控制現(xiàn)狀 [J].刑事技術(shù),2013(3):3-8.
[16] 李培林.從“農(nóng)民的終結(jié)”到“村落的終結(jié)”[J].傳承,2012(15):84-85.
[17] 甕怡潔.法庭科學(xué)DNA數(shù)據(jù)庫的風(fēng)險與法律規(guī)制 [J].環(huán)球法律評論,2012(3):37-53.
[18] 陳學(xué)權(quán).刑事程序法視野中的法庭科學(xué)DNA數(shù)據(jù)庫 [J].中國刑事法雜志,2007(6):52-61.
[19] 邱格屏.刑事DNA數(shù)據(jù)庫的基因隱私權(quán)分析 [J].法學(xué)評論,2008,23(2):37-43.
[20] 楊玉章.Y-STR DNA數(shù)據(jù)庫建設(shè)及應(yīng)用 [J].河南警察學(xué)院學(xué)報,2013,22(5):47-53.
引用本文格式:劉冰.現(xiàn)階段我國DNA數(shù)據(jù)庫發(fā)展的幾個關(guān)鍵問題 [J].刑事技術(shù), 2015,40(4):318-323.
Several Key Issues for China National DNA Database Development
LIU Bing
(Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China)
ABATRACT: China national DNA database has a history of 15 years and has kept more than 30 million short tandem repeat (STR) profles, generating over 1.5 million matches assisting in more than 1 million investigations.In recent years, Y chromosome STR (Y-STR), single nucleotide polymorphism (SNP), single cell testing, and high throughput DNA sequencing technology have been continuously introduced in forensic science.Currently, the DNA database could only allow the traditional direct match and simple mode of familial searching for personal identifcation, far behind the high-tech assays which is expected.How to utilize these new technologies to develop new stratedgies for China national DNA database? How to further develop China DNA database and maximize its effciency? This paper discusses the development in the light of 4 issues.First of all, the core loci of database need to be set prior to increasing the number of autosomal STR loci, even though there is a consensus on the quantity change.As for the new genetic markers, such as SNP, the attitude of “good will of expectation” should be in line with “prudent wait-and-see”, since there is few possibility to use SNP commonly in a database with ten-million profles.It is more likely that the genome-wide analysis will bring the great change to the DNA database in the future.Still, the special familial searching is a supplementation and inevitable choice for DNA database in case of a low coverage of the population.But this searching has to follow strict rule.Finally, Y-STR database development is objective and urgent, but it must be cautious as personnel sample collection might be involving legal, social and other problems; the pedigree in sociological term may not equal to genetic one; positive evaluations of Y-STR database should be also built on deductive method; a balanced development of database should be considered of both costs and benefts.Therefore, without a theoretical framework constructed with rigorous deduction, especially prior to the mathematical model of evaluation, Y-STR database is only a matter of empirical, rather than scientifc, letting alone the diffculty to assess the value of such experience for others.In conclusion, as a DNA database with ten-millions profles, any change related to fundamental issues concerned with development, security or stability must be dealt with comprehensively and scientifcally.
forensic genetics; DNA database; Y-STR database; core loci; SNP; personal identifcation; familial searching
DF795.2
B
1008-3650(2015)04-0318-06
10.16467/j.1008-3650.2015.04.015
中央級公益性科研院所基本科研業(yè)務(wù)費(fèi)項(xiàng)目(No.2013JB019)
劉 冰(1974—),男,黑龍江齊齊哈爾人,副主任法醫(yī)師,研究方向?yàn)榉ㄡt(yī)遺傳學(xué)。 E-mail: liubing@cifs.gov.cn
2015-05-20