国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

STR分型的民族推斷

2017-05-14 08:49:09毛坤云陳嘉佳郝興龍
中國刑警學(xué)院學(xué)報 2017年2期
關(guān)鍵詞:基因座漢族等位基因

王 禹 毛坤云 陳嘉佳 郝興龍 賈 潤

(鎮(zhèn)江市公安局刑警支隊 江蘇 鎮(zhèn)江 212000)

STR分型的民族推斷

王 禹 毛坤云 陳嘉佳 郝興龍 賈 潤

(鎮(zhèn)江市公安局刑警支隊 江蘇 鎮(zhèn)江 212000)

利用不同民族間等位基因頻率的差異,使用統(tǒng)計學(xué)方法將這種差異量化,判斷未知STR分型的民族來源。使用卡方檢驗,證明新疆某少數(shù)民族和漢族在D8S1179等19個基因座的等位基因頻率有極顯著差異。使用貝葉斯推斷分析,當(dāng)一個STR分型的R值大于1000、先驗概率為5%時,推斷該分型來源于新疆某少數(shù)民族的概率達(dá)到67%以上,相對于5%的先驗概率,提高了13倍。當(dāng)一個STR分型的R值大于50、先驗概率為50%時,推斷該分型來源于新疆某少數(shù)民族的概率達(dá)到95%以上。

STR分型 民族推斷 等位基因頻率 貝葉斯推斷 卡方檢驗

1 引言

隨著社會經(jīng)濟(jì)的迅速發(fā)展,DNA鑒定技術(shù)被廣泛應(yīng)用到各個領(lǐng)域,為刑事偵查工作提供了準(zhǔn)確的定案證據(jù),在一定程度上加快了破案的速度。DNA鑒定技術(shù)在刑事偵查中的應(yīng)用,是刑事偵查技術(shù)和生物科技的一次完美結(jié)合,打破了傳統(tǒng)的刑事偵查策略。特別是當(dāng)DNA鑒定技術(shù)與DNA數(shù)據(jù)庫相結(jié)合之后,一份犯罪現(xiàn)場遺留DNA通過數(shù)據(jù)庫比對,就可能直接破案。但是DNA數(shù)據(jù)庫不是全體人類的數(shù)據(jù)庫,只是其中的抽樣,必然有部分犯罪嫌疑人的DNA數(shù)據(jù)不在數(shù)據(jù)庫中。他們犯罪后遺留在現(xiàn)場的DNA的價值就大大下降了,最理想的情況也只是提供串案的依據(jù)。此文的目的是探索一種統(tǒng)計學(xué)的方法,利用等位基因頻率在不同民族中的差異,來判斷STR分型的民族來源,并對判斷的可靠性進(jìn)行量化。由于我國民族組成復(fù)雜,本文選擇漢族和新疆地區(qū)某少數(shù)民族進(jìn)行研究。

2 材料和方法

2.1 等位基因頻率的統(tǒng)計和分析

結(jié)合鎮(zhèn)江本地數(shù)據(jù)庫的特點和實際工作的需求,本文采用GoldeneyeTM20A基因分型系統(tǒng)(中國基點認(rèn)知公司)對新疆地區(qū)某少數(shù)民族和中國東部漢族人群遺傳學(xué)數(shù)據(jù)進(jìn)行分析。分別隨機(jī)選取各2000例無關(guān)個體血樣進(jìn)行檢驗,經(jīng)統(tǒng)計得到新疆某少數(shù)民族和漢族D8S1179等19個STR基因座的等位基因頻率,見表1。其中,等位基因頻數(shù)小于5的,都按頻數(shù)5計算頻率[1],即頻率為0.00125。

2.2 新疆某少數(shù)民族與漢族等位基因頻率差異的證實

利用STR基因座等位基因頻率(以下簡稱基因頻率)的差異來區(qū)分新疆某少數(shù)民族和漢族,先要證明兩個民族間的基因頻率有顯著差異。首先,有文獻(xiàn)報道新疆某少數(shù)民族與漢族歷史起源差異較大,而且互相通婚極為少見[2]。其次,本文使用卡方檢驗[3]的方法,以漢族的基因頻率為理論值,新疆某少數(shù)民族的基因頻率為實際觀測值進(jìn)行量化分析,結(jié)果19個基因座的等位基因頻率差異均評價為極顯著(見表2),證明可以應(yīng)用兩個民族間基因頻率的差異來進(jìn)行STR分型的民族來源判斷。

表1 新疆某少數(shù)民族和漢族19個STR基因座等位基因頻率分布(n=2000)

表2 新疆某少數(shù)民族和漢族19個STR基因座等位基因頻率差異的卡方檢驗

2.3 貝葉斯推斷

在判斷一個犯罪嫌疑人是新疆某少數(shù)民族還是漢族之前,偵查員根據(jù)以前的經(jīng)驗、對案情的分析和當(dāng)?shù)孛褡迦丝诒壤纫蛩兀瑫岢鲆粋€傾向性的意見,例如90%是新疆某少數(shù)民族,或者新疆某少數(shù)民族或漢族的概率都是50%。此時,通過DNA檢驗得到的STR分型由于2.2所述的原因,帶有其民族特性,可以用來修正偵查員的意見。貝葉斯推斷實際是借助于新的信息修正先驗概率的推理方法,這樣的方法如果運(yùn)用得當(dāng),可以使我們在依據(jù)概率作出決斷時,不必一次收集一個長期過程的大量資料,而可以根據(jù)事物發(fā)展的情況,不斷利用新的信息來修正前面的概率,得到后驗概率,作出正確決策。貝葉斯后驗概率公式[4],即:

等式左邊P(A|B)即后驗概率或稱置信度,意為當(dāng)B事件發(fā)生時A事件發(fā)生的概率。P(B|A),意為當(dāng)A事件發(fā)生時B事件發(fā)生的概率,P(B|A'),意為當(dāng)A'事件發(fā)生時B事件發(fā)生的概率。P(A)與P(A')分別為A事件和A'事件發(fā)生的概率,兩者同為先驗概率,且兩者互補(bǔ)為一個總體,即:

2.4 事件的定義

為了能直觀地使用貝葉斯后驗概率公式,首先需要定義A事件和B事件。本文將A事件定義為STR分型來源于新疆某少數(shù)民族,A'事件定義為STR分型來源于漢族。P(A)即為STR分型來源于新疆某少數(shù)民族的先驗概率,P(A') 即為STR分型來源于漢族的先驗概率,這兩個概率采納偵查員意見。

B事件的定義較為關(guān)鍵,實際上是要找出一種診斷指標(biāo),指出在STR分型具有某個特征時,該分型的民族傾向如何,并且可以統(tǒng)計該特征在新疆某少數(shù)民族和漢族中出現(xiàn)的概率。因此本文引入一個可計算的值R,計算方法為某個STR分型以新疆某少數(shù)民族基因頻率計算的隨機(jī)匹配概率除以以漢族基因頻率計算的隨機(jī)匹配概率。因為一個隨機(jī)的STR分型,有更大的可能選取到本民族中出現(xiàn)頻率較高的等位基因,所以上述R值越大,該分型就越可能來源于新疆某少數(shù)民族。因此將B事件定義為R值大于某個特定值X,則P(B) 為R大于某個特定值X的概率。

2.5 P(B|A)和P(B|A')的統(tǒng)計和計算

P(B|A)為當(dāng)STR分型來源于新疆某少數(shù)民族時R大于某個特定值的概率,可稱為檢驗準(zhǔn)確度。P(B|A')為當(dāng)STR分型來源于漢族時R大于某個特定值的概率,可稱為誤報率。以上兩個概率都可以通過抽樣統(tǒng)計的方法得到。本文另從數(shù)據(jù)庫中隨機(jī)各抽取680例無關(guān)新疆某少數(shù)民族STR分型和698例無關(guān)漢族STR分型,分別計算得到680個R(少)值和698個R(漢)值,結(jié)果R(少)介于6.17×10-3和5.29×105之間,R(漢)介于7.92×10-4和9.24×102之間。再將R(少)和R(漢),以數(shù)值大于1、大于5、大于10、大于50、大于250、大于1000、大于10000、大于100000共8個范圍條件分別計數(shù),記為C(少)和C(漢),則P(B|A)=C(少)/680,P(B|A')=C(漢)/698,結(jié)果見表3??梢姛o論R取何值,P(B|A)始終大于P(B|A'),隨著R取值的逐漸加大, P(B|A)和P(B|A')都逐漸變小,但是P(B|A)/P(B|A')逐漸提高,這表明P(B|A)的下降速度相對較慢。

表3 P(B|A)和P(B|A')的計算

2.6 P(A|B)的計算

這樣對于一個未知民族的STR分型,我們可以通過計算得到其R值,從而確定P(B|A)和P(B|A'),根據(jù)犯罪地民族人口比例結(jié)合具體案情,估計P(A)和P(A'),再使用貝葉斯后驗概率公式計算得到P(A|B),也就是該STR分型來源于新疆某少數(shù)民族的概率,即本文目的所在。

結(jié)合后驗概率公式和表3,計算得到在不同的R值和P(A)時,P(A|B)的數(shù)值。由于698個漢族樣本未觀察到R大于1000的情況,此時P(B|A')為0,但是我們不能因為一個事件沒有被觀察到,就武斷地認(rèn)為該事件發(fā)生的概率為0。而且如果按此計算,此時P(A|B)為1,意味著R值大于1000時,該分型100%來源于新疆某少數(shù)民族,這顯然是不合適的。因此,本文采用拉普拉斯平滑來處理這種情況,將每個分量的計數(shù)加1,這樣雖然高估了P(B|A'),降低了P(A|B),但是可以方便有效的避免零概率問題,使得推斷結(jié)果更可信。所以,當(dāng)R大于1000,近似估計P(B|A) =39/681,P(B|A')=1/699。當(dāng)R大于10000和100000時,不采用拉普拉斯平滑處理,因為此時將P(B|A')估計為1/699,會明顯高估,從而導(dǎo)致P(A|B)降低。最終計算結(jié)果見表4。

表4 P(A|B)計算表

3 結(jié)果與討論

從表4可以看到本文最終研究結(jié)果,例如,根據(jù)偵查員意見,認(rèn)為犯罪嫌疑人是新疆某少數(shù)民族或漢族的概率都是50%,則P(A)=0.5。此時,嫌疑人DNA的STR分型經(jīng)使用前文所述的方法計算R值大于1時,則該犯罪嫌疑人是新疆某少數(shù)民族的概率提升到76.84717%。R值大于50時,犯罪嫌疑人是新疆某少數(shù)民族的概率提升到95.56657%,從對犯罪嫌疑人民族完全無知,到幾乎認(rèn)定犯罪嫌疑人是新疆某少數(shù)民族。同理,當(dāng)P(A)=0.05時,從偵查員的觀點看,犯罪嫌疑人是新疆某少數(shù)民族在統(tǒng)計學(xué)上認(rèn)為是小概率事件,但是如果R值大于50,新疆某少數(shù)民族的概率就提升到53.15106%,R值大于1000,新疆某少數(shù)民族的概率就提升到67.81343%,提升了13倍。這表明當(dāng)一個原本認(rèn)為幾乎不可能是新疆某少數(shù)民族作案的案件,如果現(xiàn)場提取的犯罪嫌疑人DNA的STR分型的R值大于1000,則更傾向認(rèn)為是新疆某少數(shù)民族作案,這對案件的偵查工作將有極大的幫助。

從表2給出的卡方值可以看出,雖然本文使用的19個基因座的等位基因頻率的差異在新疆某少數(shù)民族和漢族之間都極顯著,但是差異程度各不相同。從差異最小的基因座D3S1358,卡方值為88.302,到差異最大的基因座Penta E,卡方值為13688.52?;蜃鵓enta E的等位基因7,n=2000時,在新疆某少數(shù)民族中出現(xiàn)頻數(shù)為264,在漢族中出現(xiàn)頻數(shù)為5,僅僅一個等位基因就使得R值提高了近53倍。在今后的工作中,如果需要分辨STR分型的民族來源,應(yīng)該選用民族差異大的遺傳標(biāo)記,可以有效提高系統(tǒng)分辨率。

另外,由于受到樣本數(shù)量和計算能力的限制,用于計算R值的抽樣不到700份,導(dǎo)致在漢族中未觀察到R大于1000的樣本。如果能加大抽樣數(shù)量,還有望繼續(xù)提高民族推斷的準(zhǔn)確度。

[1]John M. Butler.法醫(yī)DNA分型[M].侯一平,劉雅誠,譯.北京:科學(xué)出版社,2007:346.

[2]李曉霞.新疆南部農(nóng)村維漢通婚調(diào)查[J].新疆社會科學(xué),2012(4):59-66.

[3]鄭秀芬.法醫(yī)DNA分析[M].北京:中國人民公安大學(xué)出版社,2002:380.

[4]伯納德·羅斯納.生物統(tǒng)計學(xué)基礎(chǔ)[M].孫尚拱,譯.北京:科學(xué)出版社,2004:55.

(責(zé)任編輯:孟凡騫)

DF795.2

A

2095-7939(2017)02-0096-04

10.14060/j.issn.2095-7939.2017.02.019

2016-12-15

王禹(1983-),男,江蘇鎮(zhèn)江人,江蘇省鎮(zhèn)江市公安局刑警支隊主檢法醫(yī)師,主要從事法醫(yī)遺傳學(xué)研究。

猜你喜歡
基因座漢族等位基因
國清榮
親子鑒定中男性個體Amelogenin基因座異常1例
智慧健康(2021年17期)2021-07-30 14:38:32
Study on Local Financial Supervision Right and Regulation Countermeasures
改成漢族的滿族人
WHOHLA命名委員會命名的新等位基因HLA-A*24∶327序列分析及確認(rèn)
DXS101基因座稀有等位基因的確認(rèn)1例
臨夏回族自治州撒拉族人群15個STR基因座遺傳多態(tài)性
DYF387S1基因座分型異?,F(xiàn)象
食管疾病(2015年3期)2015-12-05 01:45:11
國家視野中的河湟漢族
等位基因座D21S11稀有等位基因32.3的確認(rèn)
菏泽市| 通榆县| 浮梁县| 长岛县| 虹口区| 金秀| 牟定县| 蓬安县| 安溪县| 文化| 铜鼓县| 托里县| 电白县| 武义县| 凤凰县| 台中县| 方正县| 南城县| 偃师市| 洛川县| 当雄县| 普格县| 腾冲县| 云浮市| 忻城县| 威海市| 永泰县| 东山县| 抚顺市| 崇礼县| 彝良县| 通许县| 吉林省| 本溪| 潞西市| 无为县| 花莲县| 宜城市| 麻江县| 丘北县| 江北区|