張翠玲
(1.西南政法大學刑事偵查學院, 重慶 401120; 2.重慶高校刑事科學技術(shù)重點實驗室, 重慶 401120)
20世紀以來,國際上對法庭證據(jù)技術(shù)的科學性問題關(guān)注越來越多,對科學證據(jù)的檢驗與采信也提出了一系列標準和要求[1-7]。在這一系列標準、報告和規(guī)范中都明確提出了提高法庭證據(jù)技術(shù)的“科學性”的核心要求,即要求檢驗技術(shù)及程序方法具有準確性、可靠性、客觀性、透明性、可重復性、可驗證性等。Saks和Koehler在《科學》上發(fā)表評論[8]指出,“同一認定”“獨特性”等法庭科學的核心假設(shè)理論正在受到挑戰(zhàn)和質(zhì)疑,法律和科學正合力推動傳統(tǒng)的法庭鑒定科學走向新的科學范式,并將新范式描述為“以實證為基礎(chǔ)的科學”,像DNA分型一樣,“基于數(shù)據(jù)”進行“概率評估”。他們還建議其他法庭科學分支也效仿DNA檢驗,“構(gòu)建樣本特征數(shù)據(jù)庫來支持概率方法”,同時通過錯誤率估算表明其局限性。
這種新范式就是基于似然比框架的證據(jù)評估模式。國際上,法庭科學證據(jù)的檢驗與評價正處于新舊范式的轉(zhuǎn)換進程中[8]。2016年9月,為了促進各國法庭科學實驗室在統(tǒng)一框架下進行法庭科學證據(jù)的檢驗與評價,以及對評價結(jié)果的含義及表述達成共識,歐洲法庭科學研究所聯(lián)盟(ENFSI)發(fā)布了法庭證據(jù)評價報告指南[9],推薦包括語音在內(nèi)的所有法庭科學分支都采用基于似然比框架體系的新的證據(jù)評價范式。
法庭說話人識別是法庭科學的重要分支之一。目前,在國內(nèi),法庭說話人識別還主要依賴于語音專家的主觀評斷,缺乏客觀的評判標準和足夠的量化數(shù)據(jù)支持。而國際上,法庭說話人識別已經(jīng)開始轉(zhuǎn)向以似然比框架為核心的法庭證據(jù)評價的新范式[10]。為促進國內(nèi)同行的探討與交流,本文從國際上法庭采信證據(jù)的標準和要求出發(fā),分析法庭證據(jù)評價范式轉(zhuǎn)變的必要性,對法庭說話人識別技術(shù)的傳統(tǒng)范式及發(fā)展現(xiàn)狀進行評述,進而提出法庭語音證據(jù)評價的新范式,并對其基本內(nèi)涵和核心要素進行解析,闡明其在法庭實踐中的科學性、適用性及發(fā)展前景。
法庭說話人識別是指利用語音進行案件錄音中說話人的身份辨識,即通過對案件中檢材語音與樣本語音的比較辨識,判斷二者的同源性。其范式包括使用的技術(shù)方法和證據(jù)評價體系兩個方面。
國際上,傳統(tǒng)的法庭說話人識別的方法主要有以下前三種,后又逐漸發(fā)展形成了后兩種[11]:
(1)聽覺分析方法:該方法通過聽覺感知來鑒別比較檢材語音與樣本語音的相似性和差異性,最后判斷其同源性。
(2)圖譜或聽覺- 圖譜方法:即所謂的“聲紋”方法[12],該方法通過對檢材語音與樣本語音的聽覺比較和聲學圖譜特征的形態(tài)比較,分析其相似性和差異性,最后判斷其同源性。
(3)聽覺- 聲學- 語音學方法:該方法除了包括對檢材語音與樣本語音的聽覺分析以外,還包括對其音段特征和超音段特征的聲學- 語音學分析及其參數(shù)的定量測量,最后綜合判斷其同源性。
(4)聲學- 語音學統(tǒng)計方法:該方法是聽覺- 聲學- 語音學方法的拓展,不僅包括對檢材語音與樣本語音的聲學測量和比較,還包括對相關(guān)背景人群語音的測量、比較和統(tǒng)計分析[13]。該方法對檢材語音與樣本語音參數(shù)特征的相似性及其在相關(guān)背景人群中的典型性進行概率估計、統(tǒng)計建模和似然比計算,最后以似然比形式評估語音證據(jù)的價值[14-15]。
(5)自動識別方法:該方法采用計算機軟件系統(tǒng)進行說話人的自動識別,包括需要專家人工干預的半自動識別和全自動識別兩種。這兩種方法的相同之處在于語音聲學特征都是自動測量和提取的,不同之處是專家人工干預的程度不同。
就這五種方法而言,前兩種主要基于專家的經(jīng)驗和主觀判斷,缺乏客觀性、標準性和透明性,容易產(chǎn)生主觀偏誤。后三種主要基于聲學參數(shù)的定量測量和比較,程序方法相對客觀透明,并具有可重復性和可驗證性。但是,聲學-語音學方法一般要求檢材語音與樣本語音語種、方言、言語內(nèi)容相關(guān),還要有一定數(shù)量的相同可比音節(jié),而自動識別則對此要求較低。
國際上,傳統(tǒng)的法庭語音證據(jù)評價體系主要有下述前三種模式,后逐漸發(fā)展形成第四種模式:
(1)認定/否定/無結(jié)論模式:即所謂的絕對“二分法”,鑒定意見表述為“非認即否”,也就是說,檢材語音與樣本語音或者來源于同一人,或者來源于不同人。如果無法判定,即為無結(jié)論。
(2)后驗概率模式:鑒定意見以概率形式來表述,即基于語音證據(jù)條件下,檢材語音與樣本語音來源于同一人的概率。這種概率可以用數(shù)字形式表達,如80%、95%等;也可以用信心程度的文字分級形式來表達,如很可能、非常可能等。
(3)英國模式:該模式目前僅在英國使用。該模式首先考慮檢材語音與樣本語音的特征一致性,然后考慮其特征的特殊性。如果對檢材語音與樣本語音的比較結(jié)果為不一致,就意味著二者來源于不同人。如果比較結(jié)果為一致,再考慮特殊性問題。特征的特殊性分為五個級別:不特殊、適中、特殊、很特殊、非常特殊。而特征一致并不代表檢材與樣本同源[16]。
(4)似然比模式:即基于起訴假設(shè)(也稱同源假設(shè),即假設(shè)檢材語音與樣本語音來源于同一人)和辯護假設(shè)(也稱不同源假設(shè),即檢材語音與樣本語音來源于不同人),給出這兩個競爭假設(shè)條件下獲得檢材語音特征(證據(jù))的相對概率,即概率之比。似然比的表達可以是數(shù)字形式,也可以是其文字分級表達形式[17]。
就這四種模式而言,前兩種模式只考慮了檢材語音與樣本語音特征的相似性,對其在相關(guān)背景人群中的典型性(或特殊性)考慮不足[18]。第三種評價模式雖然考慮了檢材語音與樣本語音特征的相似性,也考慮了其在相關(guān)背景人群中的典型性,但是對其特殊性的五個等級分類并沒有明確加以說明。目前,第四種模式被國際上認為是最正確和最符合邏輯的法庭證據(jù)評價模式[19]。
在國內(nèi),按照司法部2010年發(fā)布的語音同一性鑒定技術(shù)規(guī)范,語音特征分析的主要方法有:聽覺檢驗、聲譜檢驗、實驗分析、統(tǒng)計分析等。按照公安部2010年的語音同一認定方法,語音同一認定的主要方法有:聽辨分析、聲譜分析、聲譜分析與聽辨分析相結(jié)合、定量比對等。然而,從目前國內(nèi)各鑒定機構(gòu)的實踐來看,鑒定人員在具體的檢驗方法、技術(shù)流程和操作規(guī)范上并不統(tǒng)一。
按照2.2中的證據(jù)評價模式分類,我國語音證據(jù)的評價模式應(yīng)該屬于第二種后驗概率中信心程度的文字分級表達形式。目前,按照司法部規(guī)范和公安部方法,語音同一性的鑒定意見均分為五級模式。盡管兩者在用詞上略有差異,但其基本含義是一樣的,分為確定性結(jié)論(認定或否定)、非確定性結(jié)論(傾向認定、傾向否定)和無法判斷三種。只有達不到任何指向性意見時,才做出“無法判定是否同一”的結(jié)論。
似然比體系是DNA檢驗的標準框架體系。在該框架體系下,法庭語音專家的任務(wù)就是針對法庭提出的兩種競爭性主張(同一話者假設(shè)和不同話者假設(shè)),計算同一話者假設(shè)條件下獲得檢材語音特性的概率與不同話者假設(shè)條件下獲得檢材語音特性的概率之比—似然比LR值,為法庭提供證據(jù)支持假設(shè)的強度。例如,LR=100,其含義就是:“不管在引入該語音證據(jù)之前你的(先驗)信念是多少,現(xiàn)在你應(yīng)該100倍地相信檢材與樣本來源于同一人。
似然比LR的計算表達式如下:
式中,E代表證據(jù),即檢材語音的聲學特征;p(E|H)為假設(shè)條件下的證據(jù)概率;Hss為同一話者假設(shè),Hds為不同話者假設(shè)。LR的分子代表檢材與樣本特征的相似性,LR的分母代表檢材特征在相關(guān)背景人群數(shù)據(jù)中的典型性。檢材與樣本的語音特征越相似、越不典型(特殊),證據(jù)價值越大,即更大程度地支持同一話者假設(shè)。反之,檢材與樣本的語音特征越不相似、越典型(普遍),證據(jù)的價值越大。傳統(tǒng)的證據(jù)比較方法往往偏重比較特征的相似性,而忽略了特征在相關(guān)人群中的典型性。
LR值代表證據(jù)價值的大小以及證據(jù)支持起訴假設(shè)或辯護假設(shè)的程度。以1為分界,LR越大或越小于1,其證據(jù)價值越高。LR越接近于1,證據(jù)價值越低。然而,需要強調(diào)的是,法庭證據(jù)的價值不在于LR值究竟有多大,而在于它是否對事實裁定者的信念有更新作用。
2.2.1 相關(guān)數(shù)據(jù)
相關(guān)數(shù)據(jù)是指具有相關(guān)背景人群的語音特征的統(tǒng)計數(shù)據(jù)。語音證據(jù)評價的新范式不僅要求對語音特征進行量化測量,還要對特征數(shù)據(jù)的相似性和典型性進行概率評估和統(tǒng)計建模,以及對檢驗系統(tǒng)的準確性和可靠性評估,這些都必須建立在一個具有一定規(guī)模及代表性相關(guān)背景人群語音數(shù)據(jù)庫的基礎(chǔ)上[20]。這是新范式應(yīng)用的前提和基礎(chǔ)。
相關(guān)背景人群指的是檢材語音說話人的所屬人群,即符合檢材語音基本特征的言語人群。這些基本特征一般包括年齡、性別、語種及方言口音等。具有代表性則是指相關(guān)背景人群語音數(shù)據(jù)庫應(yīng)代表或反映被檢案件錄音的實際條件,包括檢材與樣本的錄音條件和講話人的言語風格等。實際案件中,由于檢材語音與樣本語音往往來自不同信道、設(shè)備、環(huán)境和言語風格等,因而在選擇相關(guān)人群語音數(shù)據(jù)庫時,必須對檢材語音與樣本語音的不匹配條件給予充分考慮。
2.2.2 量化測量
在法庭說話人識別中,特征參數(shù)分為兩種:一種是聲學-語音學參數(shù),另一種是自動識別參數(shù)。新范式不僅需要測量檢材語音和樣本語音的特征參數(shù),還要測量相關(guān)人群數(shù)據(jù)庫中所有語音的特征參數(shù)。相對參數(shù)的人工手動測量來說,自動測量的優(yōu)勢更為明顯。而先前的研究也表明,相對聲學語音學參數(shù)系統(tǒng)需要投入大量的人工測量成本來說,基于自動識別參數(shù)的法庭說話人識別系統(tǒng)更有優(yōu)勢和潛力,特別是在案件現(xiàn)實條件下[21]。
2.2.3 統(tǒng)計模型
對于語音特征參數(shù)的測量數(shù)據(jù),需要計算這些數(shù)值的概率密度函數(shù)分布,即統(tǒng)計建模。利用嫌疑人的樣本語音數(shù)據(jù)構(gòu)建嫌疑人語音模型(嫌疑模型),利用相關(guān)背景人群的語音數(shù)據(jù)建立相關(guān)背景人群語音模型(背景模型)。常用的統(tǒng)計模型有兩種:一種是多變量核密度(MVKD)模型[22],另一種是高斯混合模型(GMMs)。前者一般用于聲學-語音學數(shù)據(jù),后者一般用于自動識別數(shù)據(jù)。由于語音特征是多維的,因此參數(shù)數(shù)據(jù)的概率密度分布也不是固定不變的,這取決于參數(shù)本身的分布特點以及具體的案件錄音條件。因此,哪種統(tǒng)計模型最合適還需要進行系統(tǒng)比較和實證檢驗。
2.2.4 似然比計算
似然比的計算方法如圖1所示。其中,同源假設(shè)為檢材語音與樣本語音來自同一個人,非同源假設(shè)為檢材語音與樣本語音來自相關(guān)背景人群的不同人,使用的聲學特征為基頻F0。似然比就是檢材語音特征值所對應(yīng)的嫌疑模型的概率值與檢材語音特征值所對應(yīng)的背景模型的概率值之比。
圖1 案件語音的似然比計算
任何法庭科學技術(shù)方法都應(yīng)該表明其有效性(準確性)和可靠性(精確性),并且其錯誤率應(yīng)該在法庭接受范圍內(nèi)。因此,必須對系統(tǒng)(包括檢驗程序和檢驗方法的組合)進行有效性和可靠性的實證測試[23]。
2.3.1 準確度評測
在似然比框架下,語音證據(jù)檢驗評價的任務(wù)不是給出檢材語音與樣本語音是否同源的二分性結(jié)論,而是要證明評價該語音證據(jù)是支持同源假設(shè)還是支持不同源假設(shè)以及支持的程度如何,即表明證據(jù)的強度。因此新范式下,系統(tǒng)的準確度評測指標為對數(shù)似然比代價函數(shù)(log-likelihood-ratio cost,Cllr)[24]。其計算公式如下:
式中,Ns和Nd分別是同一話者和不同話者測試對的數(shù)量,LRs和LRd分別是同一話者和不同話者測試對比較的似然比。log2(1+1/LRs)為同源懲罰值,log2(1+LRd)為不同源懲罰值。Cllr是連續(xù)值,計算Cllr必須首先計算對每個測試對的似然比結(jié)果的懲罰值。與事實不符的結(jié)果,偏離事實程度越大,懲罰的力度也就越大??偟恼f來,Cllr的值越小,表明系統(tǒng)的準確性越好。
2.3.2 精確度評測
精確度是指對相同樣品進行重復測定后所得結(jié)果的重現(xiàn)性。在法庭證據(jù)檢驗中,結(jié)果的可重復性是系統(tǒng)評價的重要考量指標。目前,精確度的評價方法主要有兩種,一種是頻率學派的表示方法,即提供似然比的最佳估計值和該值可能存在的區(qū)間范圍,例如LR的最佳估計值為900,95%概率在800~1 000之間。另一種方法是貝葉斯學派的表示方法,即僅報告最靠近似然比為1的邊界值,例如95%的概率LR至少為850。盡管兩種方法在表現(xiàn)形式上有一定差異,但無論采用哪種形式,在法庭上表明所用分析系統(tǒng)的精確度始終都是必要的。
2.3.3 代表具體案件條件
在實際案件中,每個案件的具體條件或多或少都會有所不同,因此不能一概而論,泛泛地說系統(tǒng)的準確性有多高、可靠性有多好,而是應(yīng)該就被檢案件的具體條件進行驗證評估。即在最大限度接近實際檢材和樣本條件情況下進行系統(tǒng)測試,因為同一系統(tǒng)在某一案件中的性能表現(xiàn)并不代表它在其他案件中也會有相同的性能表現(xiàn)。
法庭語音比較系統(tǒng)驗證一般通過Tippett圖表示(見圖2)。其中,橫軸為以10為底的對數(shù)似然比,縱軸代表對數(shù)似然比的累積分布比例。向右上升的實線代表來自同一話者測試對的結(jié)果,縱軸上的值代表小于或等于橫軸上對數(shù)似然比的累積比例。向左上升的實線代表來自不同話者測試對的結(jié)果,縱軸上的值代表大于或等于橫軸上對數(shù)似然比的累積比例。虛線代表的是95%的貝葉斯置信區(qū)間(Credible interval,95%CI),表明系統(tǒng)的可靠性或精確度。
圖2 系統(tǒng)測試的Tippett圖
與傳統(tǒng)范式相比,法庭說話人識別及其法庭語音證據(jù)評價的新范式采用似然比框架作為評價體系,通過計算起訴假設(shè)和辯護假設(shè)這兩種競爭假設(shè)條件下獲得證據(jù)的相對概率- 似然比來量化評估法庭語音證據(jù)的價值及其對控、辯雙方主張的支持力度。這既是法庭科學領(lǐng)域的技術(shù)革新,也是法庭在事實裁定和證據(jù)采信方面的進步,對于提高法庭證據(jù)技術(shù)的科學性和促進司法公正具有重要意義。
法庭語音證據(jù)評價的新范式通過相關(guān)數(shù)據(jù)、定量測量和統(tǒng)計模型等程序方法,不僅可以量化評估語音特征的相似程度和典型程度,還可以保證檢驗判斷的客觀性、程序方法的透明性、檢驗結(jié)果的可重復性和可驗證性,進而最大限度地減少分析評判的主觀成分,降低或避免主觀認知偏誤。
目前,國際上已經(jīng)將這種新的法庭語音證據(jù)評價范式應(yīng)用于法庭說話人識別的司法實踐[25-26]。2015年,歐洲法庭科學研究所聯(lián)盟(ENFSI)還專門頒布了基于新范式的法庭說話人識別的最佳實踐指南。在國內(nèi),關(guān)于新范式的理論研究和實驗研究也已取得了較大進展[13, 15, 18],目前實證研究也取得了初步的成果[27]。這些研究工作為其將來的實踐應(yīng)用奠定了前提和基礎(chǔ)。
當然,新范式在推行過程中不可避免地會面臨一定的爭議、阻力。一方面,傳統(tǒng)的思維模式和慣式阻礙人們對新事物的認識和接受,另一方面“復雜”的邏輯推理和概率統(tǒng)計也確實令人“望而生畏”。因此,我們不僅需要更為深入的理論研究,還需要廣泛的實證研究,特別是針對應(yīng)實踐中的具體細節(jié)問題,如基礎(chǔ)語音數(shù)據(jù)的采集、相關(guān)背景人群的選擇、語音特征的量化提取方法、參數(shù)統(tǒng)計模型的構(gòu)建以及具有可操作性的標準與規(guī)范的制訂等,都是需要研究解決的根本現(xiàn)實問題。
此外,在司法語音相關(guān)背景人群基礎(chǔ)語音數(shù)據(jù)的建設(shè)和法庭說話人識別專家輔助系統(tǒng)的研制等方面急需進一步加強。由于傳統(tǒng)的、基于語音專家分析和手工測量的聲學- 語音學方法需要大量的人力投入,因此對于較大規(guī)模的相關(guān)背景人群語音特征的量化分析和手工測量幾乎不可能實現(xiàn)。因此,語音特征的分析及其參數(shù)測量提取必須朝自動化方向發(fā)展,這樣才能最大程度地實現(xiàn)人工專家檢驗與自動識別技術(shù)的優(yōu)勢結(jié)合,最終使我國的司法語音檢驗走向客觀化、標準化、自動化和透明化。