相淑珍
(天津公安警官職業(yè)學(xué)院,天津 300382)
?
基于貝葉斯判別分類的筆跡檢驗定量分析
相淑珍
(天津公安警官職業(yè)學(xué)院,天津300382)
摘要應(yīng)用多元統(tǒng)計分析方法中的貝葉斯判別分析理論對筆跡檢驗中選取的筆跡特征進(jìn)行量化處理,從而建立起評價的函數(shù)模型,定量地分析筆跡檢材與樣本的符合程度,迅速、科學(xué)、準(zhǔn)確地得出鑒定結(jié)論,對提高筆跡檢驗的鑒定質(zhì)量和檢驗的綜合能力起到了很大的作用,更有利于文檢技術(shù)人員出庭作證。
關(guān)鍵詞貝葉斯判別分析; 筆跡特征; 定量分析
0引言
隨著科技的進(jìn)步和發(fā)展,對筆跡檢驗鑒定工作提出了更高的要求。為迅速、科學(xué)、準(zhǔn)確地進(jìn)行筆跡檢驗,應(yīng)用數(shù)理統(tǒng)計等數(shù)學(xué)方法,建立數(shù)學(xué)模型,定量、科學(xué)地研究筆跡檢驗中的問題,應(yīng)用有關(guān)的數(shù)學(xué)原理和方法對筆跡特征加以量化,已經(jīng)被越來越重視并得到深入地開展分析研究,對提高筆跡檢驗的鑒定質(zhì)量和檢驗的綜合能力起到了巨大的作用。
馬克思曾經(jīng)說過:“任何一門科學(xué)只有充分利用了數(shù)學(xué)才能夠達(dá)到完美的境界”。在筆跡檢驗中引入數(shù)學(xué)方法,用數(shù)學(xué)方法來解釋筆跡檢驗中遇到的一些問題,對筆跡檢驗非常有意義。本文應(yīng)用多元統(tǒng)計分析方法中的貝葉斯判別分析理論對筆跡檢驗中選取的筆跡特征進(jìn)行量化處理,從而建立起評價的函數(shù)模型,定量地分析筆跡檢材與樣本的符合程度,得出科學(xué)、準(zhǔn)確的鑒定結(jié)論,為文檢技術(shù)人員出庭作證提供重要的量化依據(jù)。
1筆跡檢驗
筆跡檢驗是文件檢驗的一個重要內(nèi)容,文檢技術(shù)人員運用筆跡檢驗技術(shù)對與案件有關(guān)的文件物證進(jìn)行科學(xué)分析,發(fā)掘被檢文件物證所蘊含的信息,為認(rèn)定文件物證筆跡是否為某一嫌疑人所書寫提供證據(jù)。
筆跡檢驗研究的對象是各種書寫文件上的筆跡,筆跡是個人書寫技能和書寫習(xí)慣通過書寫活動外化成的文字符號的形象。每個人的筆跡不盡相同,各具特色,同一人的筆跡和不同人的筆跡都可以通過檢驗進(jìn)行鑒別。筆跡檢驗中認(rèn)識同一個人或區(qū)別不同人的書寫習(xí)慣是通過研究筆跡特征來實現(xiàn)的,筆跡特征能夠反映一個人的書寫技能和書寫習(xí)慣。在筆跡檢驗中,最為關(guān)鍵的是對被檢的筆跡材料反復(fù)分析,挖掘出筆跡材料中能夠反映書寫人書寫技能和書寫習(xí)慣的筆跡特征,保證所選的筆跡特征有一定的廣度和深度。在選擇筆跡特征時,可以從整體到局部、從宏觀到微觀,去發(fā)現(xiàn)和運用筆跡特征。同時,筆跡檢驗要依據(jù)筆跡檢驗的科學(xué)原理,按照分別檢驗、比較檢驗、綜合評斷等基本程序?qū)Ρ粰z材料實施檢驗,保證鑒定結(jié)論的正確。
2貝葉斯判別分析方法
2.1貝葉斯判別基本思想
貝葉斯判別分析方法是現(xiàn)代統(tǒng)計學(xué)的一個重要分支,它的基本思想是:假設(shè)對研究的樣本對象已有一定的認(rèn)識,即可應(yīng)用先驗概率分布來描述這種認(rèn)識,然后對先驗認(rèn)識作一些修正后,得到后驗概率分布,它是基于后驗概率分布對被檢測數(shù)據(jù)對象進(jìn)行統(tǒng)計推理分析的方法。貝葉斯方法的特點在于利用了先驗分布,由于有了這個先驗分布,所以不需要很大的樣本也可以得到很好的概率估計值,這是貝葉斯方法的優(yōu)點。
將貝葉斯統(tǒng)計分析思想用于判別分析方法中,這就是貝葉斯判別分析方法,它是一種常用的判別分析方法,它提供了一種簡單而又強大的有指導(dǎo)分類方法。貝葉斯理論使用的數(shù)據(jù)可以來源于主觀的直觀判斷或是經(jīng)驗數(shù)據(jù),也可以來源于間接的資料信息。它假定的參數(shù)是一個未知的隨機變量,不再是一個未知的常數(shù),它可以將主觀信息和客觀信息用一定的數(shù)學(xué)公式進(jìn)行估計。
2.2貝葉斯判別原理
使用統(tǒng)計語言來描述貝葉斯判別分析時,令U={A1,A2,…,An,C}是隨機變量的有限集合,其中A1,A2,…,An是屬性變量,類別變量C的取值范圍是C={C1,C2,…,Cm},ai是屬性Ai的取值,那么xi={a1,a2,…,an}屬于Cj類的概率可以由貝葉斯定理表示為:
對于給定的模式X,我們通過計算全部的隸屬類Cj的后驗概率P(Cj|X),依據(jù)P(Cj|X)的最大值來判斷出輸入歸屬在哪一類,通常我們應(yīng)用這個方法構(gòu)造一組多個評判函數(shù)g(X),而對于每一個評判函數(shù)來說,它們分別對應(yīng)其評價判別規(guī)則,定義如下:
當(dāng)且僅當(dāng)對于所有的i=1,2,…,I,i≠j全部滿足gj(X)>gi(X),再進(jìn)行評價判別X隸屬于Cj類別,gi(X)為第i類的評判函數(shù)。
3實例分析
貝葉斯判別分析方法能夠利用輸入變量和與之對應(yīng)類別信息建立相應(yīng)的判別函數(shù),然后將觀測值代入分類對象的判別函數(shù),再根據(jù)計算結(jié)果判斷其隸屬于哪一類別。將貝葉斯判別分析應(yīng)用于筆跡檢驗中,就是利用收集到的已知嫌疑人樣本類別的數(shù)據(jù)進(jìn)行分析,判斷筆跡檢材與筆跡樣本的歸屬關(guān)系,即確定檢材與哪一個樣本屬于同一類。利用貝葉斯判別分析對筆跡檢驗進(jìn)行定量研究,首先確定判別變量和賦值,其次建立貝葉斯判別模型,最后對貝葉斯判別模型進(jìn)行檢驗。
筆跡檢驗是通過對被檢材料的筆跡特征進(jìn)行認(rèn)真、系統(tǒng)的分析研究,發(fā)現(xiàn)兩份筆跡的書寫習(xí)慣是存在內(nèi)在聯(lián)系還是有本質(zhì)的不同,在選用特征時不能偏愛某些方面的特征而忽視另一方面的特征,要從實際出發(fā)對能暴露書寫人習(xí)慣的方方面面的特征都注意挖掘和使用,對每個特征字的結(jié)構(gòu)、搭配比例、筆順、運筆的弧度和交叉筆畫的角度,以及起、收筆的細(xì)小動作特點和筆痕、筆壓都要注意挖掘。經(jīng)過多年的實驗和研究結(jié)果表明,經(jīng)常選取的筆跡特征主要有:特征字筆畫的角度、筆畫的長度、筆畫的寬度、字跡的大小、書寫速度、用筆壓力、字間距、搭配特征、連續(xù)性等。對于能夠測量的筆跡特征,我們可以通過使用測量工具獲得數(shù)據(jù),如筆畫的角度、筆畫的長度、筆畫的寬度、字跡的大小、字間距等;而對于用筆壓力、搭配特征、連續(xù)性和書寫速度等無法通過測量獲得數(shù)據(jù)的筆跡特征,我們可以對特征指標(biāo)進(jìn)行定性數(shù)據(jù)轉(zhuǎn)化,從而實現(xiàn)從定性到定量的轉(zhuǎn)化,即將這些特征設(shè)定幾個級別的評價集,然后由文檢人員根據(jù)鑒定經(jīng)驗對其賦予不同的數(shù)據(jù),得到定性指標(biāo)評價集量化標(biāo)準(zhǔn)(見表1)。
表1 定性指標(biāo)評價集量化標(biāo)準(zhǔn)
經(jīng)過對各個筆跡特征的測量和定性分析后,我們就可以得到對樣本筆跡特征的分析數(shù)據(jù),X1,X2,…,X9分別代表選取的筆跡特征,即特征字筆畫的角度(X1)、筆畫的長度(X2)、筆畫的寬度(X3)、字跡的大小(X4)、書寫速度(X5)、用筆壓力(X6)、字間距(X7)、搭配特征(X8)、連續(xù)性(X9)等,Y代表嫌疑人編號,本案有2名嫌疑人。
通過對樣本筆跡特征進(jìn)行測量和分析后獲得的數(shù)據(jù)(見表2)。
經(jīng)過推導(dǎo)得出Bayes判別函數(shù):
表2 嫌疑人樣本筆跡特征數(shù)據(jù)
Bayes判別函數(shù)1為:
y=106.52x1-2 224.69x2+1 267.48x3+
2 712.35x4-51.29x5-360.00x6+
9 027.64x7-146.36x8-213.93x9-9 572.82
Bayes判別函數(shù)2為:
y=103.83x1-2 296.76x2+1 376.16x3+
2 810.55x4-46.14x5-371.84x6+8 989.10x7-
146.91x8-211.95x9-9 858.55
對檢材特征字筆畫的角度(X1)、筆畫的長度(X2)、筆畫的寬度(X3)、字跡的大小(X4)、書寫速度(X5)、用筆壓力(X6)、字間距(X7)、搭配特征(X8)、連續(xù)性(X9)等筆跡特征進(jìn)行測量和賦值,得到如下數(shù)據(jù)(見表3)。
表3 檢材筆跡特征數(shù)據(jù)
最后將檢材中特征字筆跡特征數(shù)據(jù)代入已推導(dǎo)出的Bayes判別函數(shù)1和Bayes判別函數(shù)2中,判斷筆跡檢材與筆跡樣本的歸屬關(guān)系。即將上表中的檢材筆跡特征數(shù)據(jù)代入上述兩個判別函數(shù)中,經(jīng)計算得出:y1=6 427.74>y2=6 298.33,由此可以判斷出檢材應(yīng)與1號嫌疑人歸屬為一類。
4結(jié)論
應(yīng)用貝葉斯判別分析方法進(jìn)行筆跡檢驗,方便、快捷、準(zhǔn)確,可以在對樣本筆跡特征統(tǒng)計分析的基礎(chǔ)上對檢材與樣本的歸屬關(guān)系作出判斷。突破了筆跡檢驗定性分析的局限,將定性分析與定量分析有機結(jié)合,做出符合客觀實際的推斷結(jié)論。值得注意的是,對筆跡檢驗進(jìn)行定量分析時要加深對檢材和樣本筆跡特征的認(rèn)識,提高各相關(guān)特征量的質(zhì)量,選用相對穩(wěn)定的筆跡特征進(jìn)行定量分析,以確保定量分析中各種數(shù)據(jù)的準(zhǔn)確率,從而獲得正確的分析結(jié)果。
參考文獻(xiàn)
[1]賈玉文.文件檢驗學(xué)教程[M].沈陽:遼寧人民出版社,1998.
[2]于秀林,任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999.
[3]任若恩.多元統(tǒng)計數(shù)據(jù)分析[M].北京:國防工業(yè)出版社,1997.
[4]肖云茹.概率統(tǒng)計計算方法[M].天津:南開大學(xué)出版社,1994.
[5]相淑珍.集對分析方法在筆跡檢驗中的應(yīng)用[J].山西警官高等??茖W(xué)校學(xué)報,2012(4).
[6]相淑珍.應(yīng)用多集模糊模式識別方法評價筆跡樣本特征質(zhì)量[J].廣州市公安管理干部學(xué)院學(xué)報,2011(2).
(責(zé)任編輯陳小明)
基金項目天津市2012年度哲學(xué)社會科學(xué)規(guī)劃項目“基于數(shù)學(xué)方法的文件檢驗定量研究”(TJFX12-061)。
作者簡介相淑珍(1963—),女,天津人,教授。研究方向為文件檢驗。
中圖分類號D918.92