趙煥東 ,趙書民 ,陳玉祥 ,李成濤
(1.中南大學(xué)湘雅醫(yī)院 國家衛(wèi)生部納米生物技術(shù)重點實驗室,湖南 長沙 410008;2.中南大學(xué)藥學(xué)院,湖南長沙 410013;3.江蘇東南證據(jù)科學(xué)研究院有限公司,江蘇 南京 210042;4.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點實驗室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺,上海 200063)
2014年,司法鑒定科學(xué)研究院與國內(nèi)其他機構(gòu)共同研制的《生物學(xué)全同胞關(guān)系鑒定實施規(guī)范》(SF/Z JD0105002—2014)作為部頒規(guī)范正式發(fā)布實施(以下簡稱《規(guī)范》)?!兑?guī)范》發(fā)布以來,對國內(nèi)各鑒定機構(gòu)相關(guān)業(yè)務(wù)的規(guī)范實施發(fā)揮了積極作用。在該《規(guī)范》中,作為判斷標準的核心參數(shù)并未采用傳統(tǒng)的全同胞指數(shù),而是采用了兩個個體間常染色體多重STR分型系統(tǒng)的狀態(tài)一致性(identity by state,IBS)評分。后者計算簡單,避免了實際應(yīng)用中的復(fù)雜計算。由于技術(shù)規(guī)范在內(nèi)容和篇幅上有特殊要求,該《規(guī)范》對完成三種不同數(shù)量STR基因座時對應(yīng)的IBS評分閾值以及相應(yīng)的系統(tǒng)效能進行了簡要說明,但并未對其基本判斷原理過多闡述。近年來已有學(xué)者對如何更為靈活地使用《規(guī)范》進行了一些有益的探索[1]。本研究結(jié)合《規(guī)范》的研制過程,對IBS評分在生物學(xué)全同胞關(guān)系鑒定的原假設(shè)(H0:被檢驗個體間為無關(guān)個體)中概率分布的計算公式進行了推導(dǎo)與驗證。
假設(shè)兩名無關(guān)個體(A與B)某一常染色體STR基因座可能的分型結(jié)果如表1所示,比較A與B在該STR基因座分型結(jié)果有且僅有三種互相排斥的結(jié)果:有2個相同的等位基因、僅有1個等位基因相同、無相同等位基因,分別以a2=1、a1=1、a0=1表示。A與B在該基因座相同的等位基因個數(shù)即為兩者在該基因座上的IBS評分,記作ibs。對特定個體對而言,在某個常染色體STR基因座有:a2+a1+a0=1,且ibs=2a2+a1。表1是對《規(guī)范》中單個常染色體STR基因座IBS評分表的擴展。
表1 單個常染色體STR基因座分型結(jié)果對應(yīng)的IBS評分表
若對A與B完成n個相互獨立的常染色體STR基因座分型,A與B間基因型相同的基因座總個數(shù)A2、僅有1個等位基因相同的基因座總個數(shù)A1、無相同等位基因的基因座總個數(shù)A0則分別為各個STR基因座上 a2、a1、a0值的總和,且有:
依據(jù)A2、A1、A0可以計算得到無關(guān)個體對在所檢測的n個常染色體STR基因座上總相同等位基因個數(shù),即IBS評分,記作IBS,其計算公式為:
這一計算公式與《規(guī)范》中給出的計算公式是等效的。
若以 p2、p1、p0分別表示 a2、a1、a0取值為 1 的概率,由于A與B在同一個STR基因座上a2、a1、a0三者中必有且僅有其一能取值為1,則有:
依據(jù)表1備注信息,以Ho代表純合子,以He代表雜合子,可將 p2、p1、p0分解為:
設(shè)某STR基因座有 m個等位基因,并以fi(i=1,2,3,…,m)表示該基因座上第 i個等位基因的頻率,則有:
1.3.1 推導(dǎo)p2計算公式
1.3.1.1 推導(dǎo) p2(HoHo)計算公式
依據(jù)表1 備注信息,式(4)中 p2(HoHo)指 A 與 B 基因型相同且均為純合子的概率,依據(jù)這一定義,p2(HoHo)可以寫作:
1.3.1.2 p2(HeHe)計算公式的推導(dǎo)
依據(jù)表1 備注信息,式(4)中 p2(HeHe)指 A 與 B 基因型相同且均為雜合子的概率,依據(jù)這一定義,p2(HeHe)可以寫作:
展開后得到:
依據(jù)式(4)可以得到:
1.3.2 推導(dǎo)p1計算公式
1.3.2.1 推導(dǎo) p1(HoHe)計算公式
依據(jù)表1 備注信息,式(5)中 p1(HoHe)指 A 與 B 在該基因座只有1個相同的等位基因且二者1個為純合子、1個為雜合子的概率。依據(jù)這一定義,p1(HoHe)可以寫作:
1.3.2.2 p1(HeHe)計算公式的推導(dǎo)
依據(jù)表1 備注信息,式(5)中 p1(HeHe)指 A 與 B 在該基因座只有1個相同的等位基因且二者均為雜合子的概率。 依據(jù)這一定義,p1(HeHe)可以寫作:
依據(jù) p1(HoHe)、p1(HeHe)的計算公式和式(5),可以得到p1的計算公式為:
1.3.3 推導(dǎo)p0計算公式
依據(jù)式(3)和 p2、p1的計算公式,可以得到 p0的計算公式為:
1.3.3.1 推導(dǎo) p0(HoHo)計算公式
依據(jù)表1 備注信息,式(6)中 p0(HoHo)指 A 與 B 無相同等位基因且二者均為純合子的概率。依據(jù)這一定義,p0(HoHo)可以寫作:
1.3.3.2 推導(dǎo) p0(HoHe)計算公式
依據(jù)表1 備注信息,式(6)中 p0(HoHe)指 A 與 B 無相同等位基因且二者1個為純合子、1個為雜合子的概率。 依據(jù)這一定義,p0(HoHe)可以寫作:
1.3.3.3 p0(HeHe)計算公式的推導(dǎo)
依據(jù)表1 備注信息,式(6)中 p0(HeHe)指 A 與 B 均為雜合子且無相同的等位基因。依據(jù)這一定義,p0(HeHe)可以寫作:
依據(jù)式(6)及上述推導(dǎo)得到的 p0、p0(HoHo)和 p0(HeHo)計算公式,即可換算得到的 p0(HeHe)展開式為:
依據(jù)1.1節(jié)中關(guān)于a2、a1、a0的定義可知:對無關(guān)個體對A與B采用包含n個相互獨立的STR基因座進行分型檢測,a2=1這樣的事件所發(fā)生的次數(shù)即A2,服從總體率為 P2的二項分布,可記作 A2~B(n,P2)[2]。 同樣的,A1服從總體率為P1的二項分布,記作A1~B(n,P1)。其中 P2為 1.3.1 節(jié)推導(dǎo)得到的各個 p2l(l=1,2,…,n)的算術(shù)平均數(shù),P1為1.3.2節(jié)推導(dǎo)得到的各個p1l(l=1,2,…,n)的算術(shù)平均數(shù),即有:
依據(jù)式(2)和二項分布的可加性[3],IBS亦為服從二項分布的變量。對于包含n個相互獨立的STR基因座的分型系統(tǒng)而言,IBS的最大值為2n,則IBS服從總體率為 π 的二項分布:IBS~B(2n,π)。
IBS 的期望值 E(IBS)為:
IBS的總體率π為:
采用參考文獻[3-4]中FGA等19個STR基因座在華東漢族人群中的等位基因頻率,依據(jù)每一個STR基因座各自的等位基因頻率和1.3節(jié)推導(dǎo)的公式,可以分別計算出各個STR基因座對應(yīng)的p2、p1、p0值,進而得到對于這19個STR基因座所組成的分型系統(tǒng)各參數(shù)在無關(guān)個體對人群中的二項分布的總體率(表2),并得到相應(yīng)參數(shù)在無關(guān)個體對人群中的二項分布(圖1),同時也可以計算得到不同參數(shù)、不同取值時對應(yīng)的全同胞鑒定原假設(shè)(H0)對應(yīng)的概率值。例如,當無關(guān)個體對A與B經(jīng)FGA等19個必檢STR基因座分型后,IBS=10,依據(jù)IBS二項分布的總體率,通過EXCEL的二項分布函數(shù)BINOM.DIST,輸入BINOM.DIST(10,38,0.3110,F(xiàn)ALSE)即可得到二者為無關(guān)個體的概率為0.1181。在得到生物學(xué)全同胞對人群中IBS分布特征參數(shù)后,即可直接計算IBS=10時二者為生物學(xué)全同胞(檢驗假設(shè)中的備擇假設(shè)H1)的概率。備擇假設(shè)H1對應(yīng)概率與原假設(shè)H0對應(yīng)概率的比值,意義即類似于全同胞指數(shù),表示了A與B為生物學(xué)全同胞的可能性是二者為無關(guān)個體的可能性的倍數(shù)。
表2 FGA等19個STR基因座分型系統(tǒng)對應(yīng)的各參數(shù)二項分布總體率
圖1 19個STR基因座分型系統(tǒng)IBS評分在無關(guān)個體對人群中的二項分布
在進行生物學(xué)全同胞等親緣關(guān)系檢驗時,通常會有兩種相互對立的檢驗假設(shè),原假設(shè)(H0):被檢驗的兩名個體間無任何親緣關(guān)系,即為一對無關(guān)個體;備擇假設(shè)(H1):被檢驗的兩名個體間存在其所聲稱的親緣關(guān)系(如生物學(xué)全同胞、生物學(xué)父子等)。依據(jù)得到的遺傳標記分型結(jié)果(遺傳學(xué)證據(jù)),計算某種參數(shù)并依據(jù)該參數(shù)的概率分布來推斷兩種假設(shè)成立的可能性(遺傳學(xué)證據(jù)評價)。當H0成立的概率低于所規(guī)定的檢驗水準時(如 α=0.01),則拒絕 H0、接受 H1。 當 H0的發(fā)生概率大于檢驗水準時,則依據(jù)現(xiàn)有的遺傳學(xué)證據(jù)不能拒絕H0,即還不能排除二者是無關(guān)個體。這一邏輯判斷過程是統(tǒng)計學(xué)中的一種基本思想。
前期研究[5-8]已發(fā)現(xiàn),IBS評分是一種理想的用于生物學(xué)全同胞的遺傳學(xué)統(tǒng)計參數(shù)。在這些研究中,均嘗試劃定一個IBS評分閾值來區(qū)分全同胞與無關(guān)個體,并比較了IBS評分法與傳統(tǒng)的親權(quán)指數(shù)或似然比方法的一致性,其出發(fā)點均與《規(guī)范》一致。但在這些研究中均面臨同樣的問題:受制于特定的STR分型系統(tǒng)。每出現(xiàn)一種新的STR分型系統(tǒng),或所使用的STR基因座個數(shù)發(fā)生變化時,均應(yīng)對其判定全同胞的IBS評分閾值或有效性進行重新評估[1,7]。這無論是對實際案件中的應(yīng)用還是對新的常染色體STR基因座分型系統(tǒng)的研究都是不利的。因此,需要一種可對任意STR基因座組合的生物學(xué)全同胞鑒定效能進行評估的數(shù)學(xué)模型。
如果能夠僅依據(jù)STR基因座的等位基因頻率這一基礎(chǔ)數(shù)據(jù),即可了解IBS評分在不同人群(H0對應(yīng)的無關(guān)個體對人群和H1對應(yīng)的生物學(xué)全同胞人群)中的概率分布,將可解決對任意STR分型系統(tǒng)全同胞鑒定效能的有效性評估問題。本研究依據(jù)兩個個體同一STR基因座可能的基因型組合,通過對有2個相同的等位基因、有1個相同的等位基因和無相同的等位基因這三種情形的概率的分解,依據(jù)概率的基本原理,推導(dǎo)出了依據(jù)STR等位基因頻率計算上述三種情形出現(xiàn)概率的通用公式,而上述三種情形又分別對應(yīng)了單一STR基因座IBS評分分別為2、1、0的三種情形。隨后依據(jù)二項分布的可加性得到多重分型系統(tǒng)IBS評分在相應(yīng)人群中二項分布的關(guān)鍵參數(shù)(總體率)?;谒瓿煞中偷腟TR基因座個數(shù)n以及依據(jù)這n個STR基因座的等位基因頻率計算得到的IBS評分的總體率,即可對任意STR基因座組合的、任意IBS分值對應(yīng)的H0概率進行計算。如計算檢驗26個STR基因座、IBS評分為21時的H0概率等。
如何驗證這些推導(dǎo)結(jié)果的可靠性呢?作為一個可普遍應(yīng)用的計算公式,可以用一些簡單的特例來進行驗證。如假定一個STR基因座只有3個等位基因,其等位基因頻率分別為0.3、0.3和0.4。由于等位基因個數(shù)有限,可以很方便地通過窮舉法列舉出無關(guān)個體對基于這一STR基因座的基因型組合,從而對本研究所推導(dǎo)的公式進行驗證。事實上,在既往的一些應(yīng)用場景中,已有一些計算公式可以用來計算特定情形下STR基因座的概率p2,如在個體識別中個體識別率(discrimination power,DP)的計算公式[9]。某 STR 基因座的DP是指該STR基因座上任意兩個無關(guān)個體基因型不同的概率,則1-DP即該基因座上任意兩個體基因型相同的概率,即1.3.1節(jié)推導(dǎo)所得的p2,1-DP的結(jié)果與本研究從頭推導(dǎo)結(jié)果一致,這也說明了本研究推導(dǎo)過程的正確性。另外,兩個體間無相同的等位基因,在不考慮突變的情形下,類似于二聯(lián)體親權(quán)鑒定中的排除親權(quán)的情形,亦即該STR基因座的二聯(lián)體非父排除率[10]。而1.3.3節(jié)所示的從頭推導(dǎo)結(jié)果與文獻報道[10]的二聯(lián)體非父排除率公式是一致的,這也證明了推導(dǎo)過程的正確性。1.3.3.3節(jié)中對p0(HeHe)定義式采用了“已知和求部分”這種簡便的加減法計算方式。但如果對1.3.3.3節(jié)中p0(HeHe)定義式從頭展開,也可以反向通過“已知部分求和”的方法進行驗證,因為p2、p1、p0三部分的總和一定為 1。
在進行任一親權(quán)關(guān)系鑒定時,原假設(shè)H0與備擇假設(shè)H1都是一對有機整體。本研究僅完成了生物學(xué)全同胞關(guān)系鑒定中IBS評分在原假設(shè)H0對應(yīng)人群中的概率分布的推導(dǎo)。IBS評分在備擇假設(shè)(H1)對應(yīng)人群中的概率分布仍需進一步研究。