馬國富,王子賢,馬勝利
(中央司法警官學(xué)院 信息管理系,河北 保定 071000)
機(jī)器學(xué)習(xí)模型在預(yù)測服刑人員再犯罪危險性中的效用分析
馬國富,王子賢,馬勝利
(中央司法警官學(xué)院 信息管理系,河北 保定 071000)
通過對國內(nèi)外服刑人員的危險性及其再犯罪評估現(xiàn)狀梳理,發(fā)現(xiàn)基于量表的傳統(tǒng)服刑人員危險性評估工具的適應(yīng)性和精確性越來越受到挑戰(zhàn).由數(shù)據(jù)和參數(shù)驅(qū)動的機(jī)器學(xué)習(xí)模型可以不斷地進(jìn)行自學(xué)習(xí),從而不斷地提高模型的適用性和精確性.首先對LR(logistic regression)、CART(classification and regression tree)、CHAID(chi-squared automatic interaction detection)、MLPNN(multi-layer perceptron neural network)4個常見的分類機(jī)器學(xué)習(xí)模型進(jìn)行了介紹;在此基礎(chǔ)上以2004年美國司法統(tǒng)計局(BJS)對服刑人員的調(diào)查(SISFCF)數(shù)據(jù)作為數(shù)據(jù)源,用靈敏率、特效率、準(zhǔn)確率和AUC等評價指標(biāo)對這4個模型進(jìn)行了效用評估;最后對4個模型的預(yù)測能力進(jìn)行比較.
機(jī)器學(xué)習(xí);預(yù)測;再犯罪;危險性評估
新形勢下,監(jiān)獄職能發(fā)生了重大變化,對服刑人員的科學(xué)性和精準(zhǔn)性教育改造和監(jiān)管,需要更深入、更全面的掌握服刑人員的相關(guān)信息,這勢必給監(jiān)獄有限的警力造成更大的負(fù)擔(dān).隨著監(jiān)獄信息化建設(shè)在監(jiān)獄的深入推進(jìn),監(jiān)獄積累了大量的數(shù)據(jù),因此,利用數(shù)據(jù)分析、數(shù)據(jù)挖掘、模式識別、機(jī)器學(xué)習(xí)等大數(shù)據(jù)技術(shù),從監(jiān)獄信息資源庫、安防等系統(tǒng)及服刑人員的在監(jiān)日常行為中收集服刑人員相關(guān)數(shù)據(jù)并整合成數(shù)據(jù)集,然后進(jìn)行分析,提取模式和規(guī)律,建立模型來對服刑人員的再犯罪危險性進(jìn)行模式識別、分類和預(yù)測,從而將有限的警力用于重點(diǎn)服刑人員,提高服刑人員的教育改造質(zhì)量和監(jiān)管水平.服刑人員的危險性識別、分類、預(yù)測及由此進(jìn)行的減刑和假釋將日益基于服刑人員的數(shù)據(jù)分析作出,而并非基于經(jīng)驗(yàn)和主觀意圖,從而提升依法治監(jiān)的科學(xué)性和規(guī)范性.根據(jù)風(fēng)險原則,監(jiān)獄的矯正措施應(yīng)重點(diǎn)運(yùn)用于那些危險性最高的服刑人員,從而最大限度上有效降低服刑人員的再犯罪危險性.對于刑事司法研究人員和從業(yè)人員而言,怎樣利用現(xiàn)有數(shù)據(jù)進(jìn)行高效地訓(xùn)練,建立適合于不同領(lǐng)域、不同場景、不同類別的更準(zhǔn)確、有效的機(jī)器學(xué)習(xí)模型來對服刑人員的再犯罪危險性進(jìn)行識別和預(yù)測一直是一個具有挑戰(zhàn)性的任務(wù).
1.1 國外服刑人員再犯罪危險性評估
加拿大、美國、英國、澳大利亞等國家的“風(fēng)險-需求-響應(yīng)模式”在19世紀(jì)90年代已經(jīng)標(biāo)準(zhǔn)化,并且,這些國家普遍采用了比較通用的預(yù)測工具,比如用于評估性犯罪風(fēng)險的Static-99、Risk Matrix 2000和Rapid Risk of Sex Offender Recidivism[1];用于評估暴力犯罪風(fēng)險的HCR-20[2];用于評估精神紊亂犯罪人風(fēng)險的Reactions on Display[3].當(dāng)前,服刑人員危險性評估工具遵循服刑人員危險性統(tǒng)計數(shù)據(jù),包括靜態(tài)因素和動態(tài)因素,并將服刑人員場所管理納入危險性評估和預(yù)測中[4-8].
1.2 國內(nèi)服刑人員再犯罪危險性評估
司法部預(yù)防犯罪研究所于1992年出版了《中國重新犯罪研究》,對影響服刑人員再犯罪的可能性因素及其動機(jī)進(jìn)行了定性分析,但沒有實(shí)證數(shù)據(jù),也沒有給出怎樣進(jìn)行再犯罪危險性評估;2003年,上海市監(jiān)獄管理局制定了《違法犯罪可能性量表(修訂版)》對減刑、假釋和監(jiān)外執(zhí)行的服刑人員的危險性進(jìn)行預(yù)測,但沒有提出具體的預(yù)測關(guān)系[9].2004年浙江警官職業(yè)學(xué)院黃興瑞等采用抽樣方法對浙江省715名服刑人員制作了判刑前、入獄前、服刑中、釋放前4種再犯罪預(yù)測量表,但由于用初犯替代沒有再犯罪的服刑人員,也沒有對不同的影響維度設(shè)定不同的權(quán)重,導(dǎo)致棄真錯誤率超過50%[10].2005年華東政法學(xué)院鄔慶祥[11]編制成《刑釋人員個體人身危險性測評量表》,但只對相關(guān)因素進(jìn)行了顯著性分析,沒有對模型進(jìn)行性能度量和比較檢驗(yàn)[12].2011年浙江警官職業(yè)學(xué)院曾赟提取出了11項(xiàng)服刑人員出監(jiān)前再犯罪預(yù)測因子,但沒有給出預(yù)測因子(自變量)與再犯罪(因變量)的函數(shù)關(guān)系[13].同年,浙江警官職業(yè)學(xué)院的孔一等人對服刑人員危險性特征進(jìn)行篩選,但該方法一方面設(shè)定的權(quán)重沒有進(jìn)行統(tǒng)計檢驗(yàn);另一方面也同樣也沒有給出預(yù)測特征(自變量)和再犯罪(因變量)的函數(shù)關(guān)系[14].2015年司法部預(yù)防犯罪研究所“中國監(jiān)獄罪犯分類理論與實(shí)務(wù)研究”課題組在上海青浦監(jiān)獄研制了針對服刑人員再犯罪的動態(tài)風(fēng)險評估“智能”平臺,該平臺可將1個或數(shù)個同類或不同類型的評估量表(服刑人員心理、人格、獄內(nèi)危險性、獄內(nèi)防自殺、刑釋前再犯罪危險性評估)制作成網(wǎng)絡(luò)版,部署在“智能平臺”上,實(shí)現(xiàn)多人同時進(jìn)行危險性評估[15].但該平臺只是利用了已有的量表,沒有針對本監(jiān)獄不同類型、不同時期的服刑人員進(jìn)行模型度量和檢驗(yàn),因此很難保證平臺預(yù)測的準(zhǔn)確性.
論文主要通過使用ROC和AUC等可信度評價指標(biāo)[12,16]對邏輯回歸(logistic regression,LR)模型、決策樹(decision trees,主要是CART、CHAID)模型和神經(jīng)網(wǎng)絡(luò)(neural network,主要是MLPNN)模型進(jìn)行評價,進(jìn)而找出適合不同應(yīng)用領(lǐng)域的最有效模型.
2.1 邏輯回歸模型
LR模型是機(jī)器學(xué)習(xí)中一種有監(jiān)督的學(xué)習(xí)分類模型(當(dāng)應(yīng)變量取有限個離散值時,預(yù)測問題便成為分類問題[17]),邏輯回歸的作用是用于估計事件發(fā)生的概率,例如可以預(yù)測服刑人員在出獄后12個月內(nèi)是否再犯罪.邏輯回歸的一般線性模型如下:
log[p/(1-p)]=β0+β1x1+β2x2+…+βixi,
(1)
其中p是感興趣結(jié)果的估計條件概率(比如再犯罪的概率),β0是常數(shù)項(xiàng)(也稱為截距),β1,β2,…,i是預(yù)測自變量xi所對應(yīng)的邏輯偏回歸系數(shù).對于是否再犯罪2種分類,在假陽性和假陰性2種錯誤分類造成的代價相同的情況下,邏輯回歸默認(rèn)的分類概率閾值為0.5,即如果某個服刑人員的再犯罪概率大于或等于0.5,就認(rèn)為他會再犯罪.然而,實(shí)際應(yīng)用時,特定的情況可以選擇不同閾值,如果對正例的判別準(zhǔn)確性要求高,可以選擇閾值大一些;對正例的召回要求高,則可以選擇閾值小一些.例如為了提高監(jiān)獄的安全監(jiān)管水平,最大程度上降低服刑人員回歸社會后的再犯罪率,在預(yù)測服刑人員的再犯罪危險性時,應(yīng)該選擇更小的閾值,來盡可能降低假陰性,最大限度上預(yù)測出那些具有再犯罪危險性的服刑人群.
2.2 決策樹模型
機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型(例如用于預(yù)測是否再犯罪),文獻(xiàn)[18]認(rèn)為CART和CHAID算法在預(yù)測暴力犯危險性方面更加有效,CART算法應(yīng)用于服刑人員再犯罪預(yù)測時主要是用基尼指數(shù)(Gini index)最小化準(zhǔn)則,進(jìn)行特征選擇,實(shí)現(xiàn)分類樹,而CHAID算法的優(yōu)點(diǎn)是可以用來解釋變量間的交互作用,得到的細(xì)分結(jié)果容易理解,并可以防止以錯誤的參數(shù)進(jìn)行估計帶來的錯誤估計值,卡方檢驗(yàn)公式[19]為
(2)
其中,Xpq代表第p個屬性特征的第q個屬性值,Epq是第p個屬性的所有屬性值的均值.文獻(xiàn)[20]認(rèn)為CHAID對數(shù)據(jù)集訓(xùn)練學(xué)習(xí)模型采用交叉驗(yàn)證可以獲得一個無偏估計的高精確度.由于CART樹是二叉樹,不適用于離散特征有多個可能取值的場景,因此在預(yù)測服刑人員再犯罪危險性時,CHAID相比較于CART算法的適用性更強(qiáng).
2.3 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(neural network,NN)模型是借鑒了生物神經(jīng)網(wǎng)絡(luò)的工作原理而形成的一種非線性機(jī)器學(xué)習(xí)模型.文獻(xiàn)[12]將神經(jīng)網(wǎng)絡(luò)定義為由具有適應(yīng)性的簡單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),MLPNN是常見的神經(jīng)網(wǎng)絡(luò)模型,屬于多層前饋神經(jīng)網(wǎng)絡(luò)(模型見參考文獻(xiàn)[21]),為避免MLPNN出現(xiàn)過擬合,可通過在代價函數(shù)中加入規(guī)則化項(xiàng)來提高M(jìn)LPNN輸出的平滑性以獲得較好的泛化能力.代價函數(shù)[12]如下:
(3)
目前,外界很難實(shí)時收集服刑人員數(shù)據(jù)來進(jìn)行研究,因此文章以2004年美國人口普查局(ICPSR#4572)對司法統(tǒng)計局(BJS)所管轄的州和聯(lián)邦監(jiān)獄服刑人員的調(diào)查(SISFCF)數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行模型的效用評估.SISFCF提供從2003年10月到2004年5月關(guān)押在監(jiān)獄的服刑人員相關(guān)數(shù)據(jù),該數(shù)據(jù)主要包括服刑人員的罪行、判刑、犯罪史、家庭背景、毒品服用史、醫(yī)療衛(wèi)生狀況、槍支使用情況、在監(jiān)獄的表現(xiàn)及勞動情況等信息.該數(shù)據(jù)集共包括14 499人,經(jīng)過對數(shù)據(jù)進(jìn)行清洗,實(shí)際有效數(shù)據(jù)為10 328人.為提高機(jī)器學(xué)習(xí)模型的效用,采用5折交叉驗(yàn)證方法,隨機(jī)從原始數(shù)據(jù)中選擇10 000例,并均分成5個數(shù)據(jù)集,分別標(biāo)記為1、2、…、5,為降低某種機(jī)器學(xué)習(xí)技術(shù)的誤差率,避免過擬合,K折交叉驗(yàn)證法在實(shí)踐中被認(rèn)為是標(biāo)準(zhǔn)方法[16,21].使用數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型時,每次隨機(jī)選擇其中一個數(shù)據(jù)集為測試集,其余4/5的數(shù)據(jù)作為訓(xùn)練集進(jìn)行模型訓(xùn)練,從而建立模型.
傳統(tǒng)的服刑人員危險性評估主要是通過量表來實(shí)施,而量表的建立是通過抽樣,是基于某個特定時期、特定地域、特定類型的服刑人員,當(dāng)將建立后的量表用在其他地域、其他類型的服刑人員危險性評估時,由于評估的服刑人群發(fā)生了變化,原有的信度和效度及準(zhǔn)確性很難保證.由于監(jiān)獄從業(yè)警察人數(shù)及其專業(yè)能力的限制,監(jiān)獄沒有能力定期對量表進(jìn)行反饋修正來更好適用本監(jiān)獄的服刑人員危險性識別和預(yù)測.而機(jī)器學(xué)習(xí)模型可以基于訓(xùn)練數(shù)據(jù)集建立模型,基于驗(yàn)證數(shù)據(jù)集動態(tài)反饋修正模型,不斷優(yōu)化模型.由于機(jī)器學(xué)習(xí)模型是基于數(shù)據(jù)集建立,因此將已建立的模型應(yīng)用于不同地域、不同類型的服刑人員時,可讓模型基于本地數(shù)據(jù)進(jìn)行修正參數(shù),從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的模型自學(xué)習(xí),減少人的主觀作用,提高模型的適應(yīng)性和精準(zhǔn)性.
4.1 數(shù)據(jù)集中的變量
為了更好地用數(shù)據(jù)訓(xùn)練模型,對數(shù)據(jù)集中的自變量和應(yīng)變量進(jìn)行了規(guī)范化處理.因變量被用來描述服刑人員在監(jiān)獄的任何不當(dāng)行為,主要是指不良行為、再犯罪及其他暴力行為,也包括違反監(jiān)獄的任何規(guī)則.數(shù)據(jù)集中因變量被設(shè)置成一個二分類變量,如果服刑人員在監(jiān)獄至少有一項(xiàng)不當(dāng)行為,則服刑人員將選擇該項(xiàng)為“是”,否則選擇“否”.從數(shù)據(jù)集中選擇了11個維度作為自變量,其中性別為二分類變量,用1表示男,0表示女;種族為二分類變量,用1表示非洲裔美國人,用0表示其他種族,這是因?yàn)樵诿绹谌吮劝兹撕推渌N族的人有更高的犯罪率;婚姻為二分類變量,用1表示結(jié)婚,0表示沒結(jié)婚(離婚、分居、從來沒有結(jié)婚等);入獄前工作為二分類變量,用1表示有,0表示沒有;年齡為多分類變量,用0表示20歲及以下,1表示21至35歲之間,2表示36歲及以上;同樣首次入獄年齡為多分類變量,用0表示13歲以下,1表示13至20之間,2表示21歲及以上;入獄前教育(最高學(xué)歷)也為多分類變量,用0表示高中以下(即幼兒園到八年級),1表示高中(即九年級到十二年級),2表示大一至大四,3表示大學(xué)以上或研究生學(xué)位;入獄前曾經(jīng)入獄次數(shù)也為多分類變量,用0表示0次,1表示1次,2表示2至5次,3表示5次以上;當(dāng)前犯罪類型也為多分類變量,用0表示違反公共安全,1表示毒品罪,2表示財產(chǎn)罪,3表示暴力罪;入獄前濫用藥物為二分類變量,用0表示沒有濫用任何藥物,用1表示至少濫用一種藥物(海洛因、其他鴉片、冰毒、其他苯丙胺、安眠酮、巴比妥類藥物、鎮(zhèn)定劑、可卡因、普斯普劑、搖頭丸、麥角乙二胺、大麻及其他藥物);精神或人格障礙也為二分類變量,用0表示沒有任何精神病或心理障礙,用1表示至少有一種心理疾病或障礙(抑郁癥、躁郁癥、精神分裂癥或其他精神病性疾病、創(chuàng)傷后障礙、其他焦慮障礙,如驚恐障礙、人格障礙及其他).
4.2 模型評價指標(biāo)
機(jī)器學(xué)習(xí)有很多分類預(yù)測模型,可用錯誤率來對模型進(jìn)行評估.分類錯誤的樣本數(shù)占樣本總數(shù)的比例稱為錯誤率(error fate),更一般是把學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本的真實(shí)輸出之間的差異稱為誤差,學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差,在新樣本上的誤差稱為泛化誤差,理想的模型評價是選擇泛化誤差最小的模型.錯誤率雖常用,但并不能滿足所有任務(wù)需求,查準(zhǔn)率(precision,也稱精度)和查全率(recall,也稱召回率)是更為適用的度量指標(biāo),對于不平衡數(shù)據(jù)也可使用靈敏率(sensitivity,也稱真正例率)、特效率(specificity,也稱真負(fù)例率)和整體準(zhǔn)確率(accuracy)來度量,它們是通過混淆矩陣來表示的,二分類混淆矩陣是一個2*2矩陣,如表1所示.
表1 混淆矩陣
查準(zhǔn)率P、查全率R分別定義為
(4)
(5)
靈敏率Sen、特效率Spe和準(zhǔn)確率Acc分別定義為
(6)
(7)
(8)
一般情況,查準(zhǔn)率高時,查全率偏低;而查全率高時,查準(zhǔn)率偏低.為此,以查準(zhǔn)率為縱軸、查全率為橫軸作圖,將各模型的查準(zhǔn)率和查全率值畫到圖上,得到查準(zhǔn)率-查全率曲線,簡稱P-R曲線[12],然而,實(shí)際工作中,很多分類模型為預(yù)測的應(yīng)變量產(chǎn)生一個實(shí)值或概率預(yù)測值,然后將這個預(yù)測值與一個分類閾值進(jìn)行比較,若大于閾值則分為正例,否則為反例.ROC曲線以真正例率(true positive rate,簡稱TPR)為縱軸,以假正例率(false positive rate,簡稱FPR)為橫軸作圖,兩者分別定義如下:
(9)
(10)
可以發(fā)現(xiàn),TPR等于靈敏率,與P-R圖類似,對分類模型進(jìn)行評價時,若一個模型的ROC曲線被另一個模型的ROC曲線完全包住,則后者的預(yù)測性能要優(yōu)于前者;若2個模型的ROC曲線發(fā)生交叉,則比較合理的依據(jù)是比較ROC曲線下的面積,即AUC(area under curve).當(dāng)正負(fù)樣本數(shù)據(jù)差距不大的情況下,ROC和P-R曲線的趨勢差不多,但當(dāng)負(fù)樣本數(shù)據(jù)很多時,兩者截然不同,ROC曲線要優(yōu)于P-R曲線,因此在后面的模型評價中,主要以ROC曲線及其AUC作為評價指標(biāo).
4.3 模型評價
4.3.1 模型的靈敏率、特效率和準(zhǔn)確率評價
對LR、CART、CHAID、MLPNN 4個模型使用靈敏率Sen、特效率Spe及在95%的置信區(qū)間下的準(zhǔn)確率Acc3個指標(biāo)進(jìn)行模型評價,分類閾值設(shè)定為0.5,如表2所示.
從表2可以看出在LR模型中,5個訓(xùn)練集的靈敏率為0.69~0.71,5個測試集的靈敏率為0.68~0.72;而5個訓(xùn)練集和測試集的特效率都為0.55~0.57.顯而易見,LR模型的靈敏率Sen要高于特效率Spe,由于LR模型能產(chǎn)生較高的靈敏率,相比較于識別正常的服刑人員,LR模型能更好地預(yù)測有危險性的服刑人員.在準(zhǔn)確率方面,LR模型5個訓(xùn)練集的范圍為0.63至0.64(95%置信區(qū)間為0.62~0.65);5個測試集為0.62~0.65(95%置信區(qū)間為0.60~0.68);整體數(shù)據(jù)集為0.64(95%置信區(qū)間為0.63~0.65).
在CART和CHAID模型中,5個訓(xùn)練集的靈敏率分別為0.61~0.77和0.57~0.78,;特效率分別為0.47~0.65和0.47~0.69,兩者比較相似.而2個模型5個測試集的靈敏率和特效率一樣,分別為0.55~0.59和0.64~0.68.在準(zhǔn)確率方面,CART模型5個訓(xùn)練集的范圍為0.62~0.63(95%置信區(qū)間為0.61~0.65),5個測試集為0.60~0.63(95%的置信區(qū)間為0.57~0.65),5個數(shù)據(jù)集整體為0.63(95%置信區(qū)間為0.61~0.65);CHAID模型5個訓(xùn)練集的準(zhǔn)確率為0.63(95%置信區(qū)間為0.62~0.64);5個測試集的準(zhǔn)確率為0.60~0.63(95%置信區(qū)間為0.57~0.65);5個數(shù)據(jù)集整體都為0.63(95%置信區(qū)間為0.62~0.64).比較而言,在預(yù)測有危險性的服刑人員方面,LR模型的預(yù)測準(zhǔn)確率要高于CART和CHAID模型.
表2 模型的靈敏率、特效率和準(zhǔn)確率評價
關(guān)于MLPNN模型,5個訓(xùn)練集靈敏率為0.68~0.69,5個測試集靈敏率為0.66~0.72;5個訓(xùn)練集的特效率為0.58~0.61,5個測試集特效率為0.58~0.60.與LR模型類似,MLPNN模型5個數(shù)據(jù)集的靈敏率要高于特效率,相比較于識別正常的服刑人員,MLPNN模型能更好地識別有危險性的服刑人員.在準(zhǔn)確率方面,5個訓(xùn)練集都為0.64(95%置信區(qū)間為:0.63~0.65),5個測試集為0.63~0.66(95%置信區(qū)間為0.61~0.68),5個數(shù)據(jù)集整體為0.64~0.65(95%置信區(qū)間為0.63~0.66),由此,發(fā)現(xiàn)在預(yù)測有危險性的服刑人員方面,MLPNN要優(yōu)于LR、CART、CHAID模型.
4.3.2 模型的AUC評價
LR、CART、CHAID、MLPNN 4個模型的AUC及其95%置信區(qū)間下的AUC值如表3所示.從表3可以看出,在LR模型中,5個訓(xùn)練集的AUC值為0.68(95%置信區(qū)間為0.67~0.69),5個測試集的AUC值為0.66~0.70(95%置信區(qū)間為0.64~0.72),5個數(shù)據(jù)集總體的AUC值都為0.68(95%置信區(qū)間為0.67~0.69);在CART模型中,5個訓(xùn)練集的AUC值為0.64~0.66(95%置信區(qū)間為0.63~0.67),5個測試集的AUC值為0.60~0.63(95%置信區(qū)間為0.58~0.65),5個數(shù)據(jù)集總體的AUC值為0.64~0.65(95%置信區(qū)間為0.63~0.66);在CHAID模型中,5個訓(xùn)練集的AUC值為0.67~0.68(95%置信區(qū)間為0.66~0.69),5個測試集的AUC值為0.62~0.65(95%置信區(qū)間為0.60~0.67),5個數(shù)據(jù)集總體的AUC值都為0.67(95%置信區(qū)間為0.66~0.68);在MLPNN模型中,5個訓(xùn)練集的AUC值都為0.69(95%置信區(qū)間為0.68~0.70),5個測試集的AUC值為0.67~0.69(95%置信區(qū)間為0.65~0.71),5個數(shù)據(jù)集總體的AUC值為0.68~0.69(95%置信區(qū)間為0.67~0.70).由此可以得出:在預(yù)測有危險性的服刑人員方面,MLPNN模型要略優(yōu)于LR模型,而MLPNN和LR 2個模型的預(yù)測能力都要優(yōu)于CART和CHAID模型.就CART和CHAID這2個模型而言,CHAID模型的預(yù)測能力要優(yōu)于CART模型.
表3 模型的AUC及其95%置信區(qū)間下的AUC評價
由于刑事司法數(shù)據(jù)的隱私性及從業(yè)人員的特殊性,將機(jī)器學(xué)習(xí)模型用于預(yù)測服刑人員的危險性及其再犯罪的研究較少.在論文中,為了尋求服刑人員危險性及其再犯罪預(yù)測最佳模型和工具,依據(jù)模型相似的刑事司法應(yīng)用領(lǐng)域,對傳統(tǒng)的LR模型和3個分類模型CART、CHAID、MLPNN進(jìn)行了預(yù)測服刑人員危險性及其再犯罪能力比較發(fā)現(xiàn):相比較于預(yù)測正常的服刑人員,4種模型在預(yù)測有危險性和再犯罪的服刑人員方面有更好的預(yù)測能力.在預(yù)測有危險性和再犯罪的服刑人員方面,CART和CHAID模型的容易出現(xiàn)過擬合;相比較于CART和CHAID模型,LR模型有較好地穩(wěn)定性和魯棒性;相比較于LR、CART、CHAID模型,不論是在預(yù)測正常的服刑人員還是有危險性的服刑人員方面,MLPNN模型有更強(qiáng)的預(yù)測能力.
受限于存儲、計算能力等實(shí)際復(fù)雜情況,論文選擇數(shù)據(jù)集中的11個變量進(jìn)行預(yù)測,怎樣更有效地從數(shù)據(jù)集中選擇出更合適、更多的特征變量來提高模型的精確度和適應(yīng)性是下一步要研究的內(nèi)容.數(shù)據(jù)的不同可能得到的模型評價結(jié)果也不同,希望國內(nèi)有監(jiān)獄和我們合作,對中國不同地域空間、不同犯罪類型、不同服刑年限、不同時間周期等多種維度上的服刑人員引入更多模型進(jìn)行效用評價,從而選出針對性強(qiáng)、預(yù)測精度高的模型;也將不斷地用新的數(shù)據(jù)來反饋修訂模型,并將各維度、領(lǐng)域上的單個模型進(jìn)行組合,最大限度上提高服刑人員危險性和再犯罪的預(yù)測效果,從而建立基于大數(shù)據(jù)驅(qū)動的新型教育與監(jiān)管范式,不斷降低服刑人員的危險性和再犯罪率.
[1] DAN W,BEECH A,BLACKER H F M J.Actuarial risk assessment and recidivism in a sample of UK intellectually disabled sexual offenders[J].Journal of Sexual Aggression,2009,15(1):97-106.DOI:10.1080/13552600802578577.
[2] WIJK L, EDELBRING S, SVENSSON A, et al.A pilot for a computer-based simulation system for risk estimation and treatment of mentally disordered offenders[J].Informatics for Health& Social Care,2009,34(2):106-115.DOI:/10.1080/17538150903014395.
[3] KELLY R,HELEN L M.The effect of training on the quality of HCR-20 violence risk Assessments in forensic secure services[J].Journal of Forensic Psychiatry&Psychology,2009, 20(3):473-480.DOI:10.1080/14789940802638366.
[4] GRANT D W.The development,validity and reliability of the minnesota screening tool assessing recidivism risk[J].Criminal Justice Policy Review,2014,25(5):579-613.DOI:10.11-77/0887403413478821.
[5] ZENGY J M,USTUNY B,RUDIN C.Interpretable classification models for recidivism prediction[EB/OL](2015-03-30)[2016-8-16].http://arxiv.org/pdf/1503.07810v2.pdf.
[6] HAMILTON Z,NEUILLY M A,LEE S,et al.Isolating modeling effects in offender risk assessment[J].Journal of Experimental Criminology,2015, 11(2):299-318.DOI:10.1007/s11292-014-9221-8.
[7] HOCHSTETLER A, PETERS D J, DELISI M.Classifying risk development and predicting parolee recidivism with growth mixture models[J].American Journal of Criminal Justice,2016,41(3):602-620.DOI:10.1007/s12103-015-93-208.
[8] DUWE G, KIM K D.Out with the old and in with the new An empirical comparison of supervised learning algorithms to predict recidivism[J].Criminal Justice Policy Review,2015,41(9):1-31.DOI:10.1177/0887403415604899.
[9] 胡慶生.行刑方式的文明進(jìn)步-上海市積極拓展社區(qū)矯治新空間[N].法制日報,2003-08-04(8).
[10] 黃興瑞,孔一,曾贇.再犯預(yù)測研究-對浙江罪犯再犯可能性的實(shí)證分析[J].犯罪與改造研究,2004(8):8-13. HUANG X R,KONG Y,ZENG Y.Prediction of recidivism-empirical analysis of the possibility of recidivism in Zhejiang[J].Research on crime and transformation,2004(8):8-13.
[11] 鄔慶祥.刑釋人員人身危險性的測評研究[J].心理科學(xué),2005,28(1):222-224.DOI:10.16719/j.cnki.1671- 6981.2005.01.063. WU Q X.A research on the appraisal of the personal dangerousness of persons released after completion of a sentence[J].Psychological Science,2005,28(1):222-224.DOI:10.16719/j.cnki.1671-6981.2005.01.063.
[12] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[13] 曾赟.服刑人員刑滿釋放前重新犯罪風(fēng)險預(yù)測研究[J].法學(xué)評論,2011(6):131-137.DOI:10.13415/j.cnki.fxpl.2011.06.003. ZENG Y.Prediction of risk of redivism before the offenders released from prison[J].Law Review,2011(6):131-137. DOI:10.13415/j.cnki.fxpl.2011.06.003.
[14] 孔一,黃興瑞.刑釋人員再犯風(fēng)險評估量表(RRAI)研究[J].中國刑事法雜志,2011(10):91-106. KONG Y,HUANG X R.Study of recidivism risk assessment list for released offenders[J].Journal of Chinese criminal law,2011(10):91-106.
[15] 丁傳慶,魯蘭,任軍,等.中國監(jiān)獄罪犯分類理論與實(shí)務(wù)研究[J].刑事法評論,2015(1):636-652. DING C Q,LU L,REN J.Research on the theory and practice of the classification of prison criminals in china[J].Criminal law review,2015(1):636-652.
[16] WITTEN I H,FRANK E,HALL M A.數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)(原書第3版)[M].北京:機(jī)械工業(yè)出版社,2014.
[17] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2015.
[18] FELLOW S T, LEESE M.A green-fingered approach can improve the clinical utility of violence risk assessment tools[J].Criminal Behaviour & Mental Health,2003,13(3):153-158.DOI: 10.1002/cbm.538.
[19] 楊友星.CHAID 算法并行化及其在信用風(fēng)險分析中的應(yīng)用[D].長春:長春工業(yè)大學(xué),2016. YANG Y X.CHAID Algorithm parallelization and application in credit risk analysis[D].Changchun:Changchun University of Technology,2016.
[20] GOTTFREDSON S D, MORIARTY L J.Statistical risk assessment: old problems and new applications[J]. Crime&Delinquency, 2006, 52(52):178-200.DOI: 10.1177/0011128705281748.
[21] HAN J W,KAMBER M, PEI J.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].北京:機(jī)械工業(yè)出版社,2015.
(責(zé)任編輯:孟素蘭)
Analysis of the effectiveness of machine learning model in predicting the risk of inmates
MA Guofu,WANG Zixian,MA Shengli
(Department of Information Management,the National Police University for Criminal Justice, Baoding 071000,China)
By analyzing the current situation of risk assessment of inmate at home and abroad, we find that the adaptability and accuracy of the traditional risk assessment tool of inmate based on the scale is being in creasingly challenged.However,the machine learning model driven by the data and parameter can be self learning,so as to continuously improve the applicability and accuracy of the model.Firstly, the paper introduces the four common machine learning models of LR, CART, CHAID and MLPNN; then,using the 2004 survey of inmates in state and federal correctional facilities(SISFCF) as the data source, the four models were evaluated by the sensitivity, specificity, accuracy, AUC and other evaluating indicators;finally, the predictive ability of the four models are compared.
machine learning;prediction;recidivism;risk assessment
10.3969/j.issn.1000-1565.2017.04.015
2016-11-04
教育部人文社會科學(xué)研究規(guī)劃基金項(xiàng)目(14YJAZH055);中央司法警官學(xué)院青年教師學(xué)術(shù)創(chuàng)新團(tuán)隊資助項(xiàng)目
馬國富(1974—),男,河北保定人,中央司法警官學(xué)院副教授,主要從事信息安全、機(jī)器學(xué)習(xí)方向研究. E-mail:magf2003@126.com
TP393.08
A
1000-1565(2017)04-0426-08