国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的服刑人員危險性預(yù)測

2017-01-10 06:58馬國富王子賢馬勝利
關(guān)鍵詞:離群服刑人員危險性

馬國富,王子賢,馬勝利

(中央司法警官學(xué)院 信息管理系,河北 保定 071000)

?

基于大數(shù)據(jù)的服刑人員危險性預(yù)測

馬國富,王子賢,馬勝利

(中央司法警官學(xué)院 信息管理系,河北 保定 071000)

在對監(jiān)獄服刑人員再犯罪預(yù)測與危險性評估應(yīng)用現(xiàn)狀進(jìn)行分析的基礎(chǔ)上,提出了一種基于大數(shù)據(jù)的監(jiān)獄服刑人員危險性識別與預(yù)測架構(gòu)體系.在該體系的模型層,針對不同的價值密度、不同的數(shù)據(jù)類型,重點對架構(gòu)中的統(tǒng)計模型、離群點檢測模型、集成分類模型在服刑人員危險性識別與預(yù)測中的應(yīng)用算法進(jìn)行了描述,尤其是使用R軟件包實驗了服刑人員危險性集成分類識別與預(yù)測,并給出了分類預(yù)測誤差.基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測體系可實現(xiàn)對服刑人員危險性的個性化、精準(zhǔn)化預(yù)警,為大數(shù)據(jù)時代監(jiān)獄的監(jiān)管安全提供了可靠保障.

危險性評估;識別;預(yù)測;大數(shù)據(jù);算法

監(jiān)獄作為國家的刑罰執(zhí)行機(jī)關(guān),監(jiān)管安全是監(jiān)獄工作的首要任務(wù),也是構(gòu)建和諧社會的重要基石.目前,監(jiān)獄為了確保監(jiān)管安全,提出了各種管理方法,制定了各種管理制度,來規(guī)范監(jiān)管.近年來,按照國家、司法部和各省的有關(guān)部署,經(jīng)過各級司法行政機(jī)關(guān)的共同努力,監(jiān)獄信息化建設(shè)工作已取得了很大的進(jìn)展,但與公安等政法系統(tǒng)相比,各地監(jiān)獄信息化建設(shè)發(fā)展不均衡、水平不一、缺乏信息化評估體系;各系統(tǒng)重復(fù)數(shù)據(jù)錄入,各系統(tǒng)之間沒有實現(xiàn)數(shù)據(jù)整合與共享,形成很多“信息孤島”;重防控、輕整合,重建設(shè)、輕應(yīng)用的現(xiàn)象比較普遍,信息化應(yīng)用的總體水平仍然相對較低,信息技術(shù)在監(jiān)管安全中的應(yīng)用有待進(jìn)一步提升.隨著云計算、物聯(lián)網(wǎng)、智能化視頻監(jiān)控等新型IT技術(shù)在監(jiān)獄中的深入應(yīng)用,監(jiān)獄網(wǎng)絡(luò)、信息資源庫、應(yīng)用軟件、應(yīng)用服務(wù)器、視頻監(jiān)控系統(tǒng)、無線傳感器網(wǎng)絡(luò)、基于無線定位的電子腕帶和RFID等組成的物聯(lián)網(wǎng)智能安防監(jiān)控等系統(tǒng)所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,并且數(shù)據(jù)量從線性級到指數(shù)級增長,數(shù)據(jù)已經(jīng)成為一種新的資產(chǎn),而大數(shù)據(jù)將產(chǎn)生新的價值,監(jiān)獄系統(tǒng)正面臨著“大數(shù)據(jù)”、“大系統(tǒng)”的管理和維護(hù)問題.利用數(shù)據(jù)挖掘、模式識別和機(jī)器學(xué)習(xí)等大數(shù)據(jù)技術(shù)從監(jiān)獄信息化資源庫、安防監(jiān)控等系統(tǒng)及服刑人員的日常行為中收集服刑人員的相關(guān)數(shù)據(jù)并整合成數(shù)據(jù)集,然后進(jìn)行聚類、關(guān)聯(lián)、分類和深度分析,提煉信息規(guī)律,獲取知識建立數(shù)據(jù)模型來對監(jiān)獄服刑人員的危險性進(jìn)行模式識別和預(yù)測,服刑人員危險性的識別與預(yù)測將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗和直覺.

1 監(jiān)獄監(jiān)管安全的現(xiàn)狀

懲罰和改造服刑人員,預(yù)防和減少犯罪,確保監(jiān)管安全穩(wěn)定,維護(hù)執(zhí)法公平正義是《監(jiān)獄法》賦予監(jiān)獄的職能,而這其中監(jiān)管安全更是重中之重.當(dāng)前,監(jiān)獄各類業(yè)務(wù)信息管理系統(tǒng)和安全防范系統(tǒng)在監(jiān)獄的應(yīng)用大大提高了監(jiān)獄的監(jiān)管改造管理水平和工作能力,然而監(jiān)獄突發(fā)事件仍時有發(fā)生.在百度搜索引擎里輸入“越獄案件統(tǒng)計”,百度找到相關(guān)結(jié)果約1 280 000個,排在前幾個的統(tǒng)計信息有:2011年9月15日財新網(wǎng)公開報道10起重大越獄案件,報道最后總結(jié)這些越獄案件多與監(jiān)獄管理漏洞有關(guān)[1];2014年9月4日中商情報網(wǎng)報道近年來的7大越獄案件[2],2014年11月3日中華網(wǎng)公開報道了近7年來的12起越獄案件[3],2015年環(huán)球軍事網(wǎng)報道了中國最嚴(yán)重的監(jiān)獄越獄案件分析[4],報道中廣東省監(jiān)獄管理局副局長說:”這說明監(jiān)獄在內(nèi)部管理上、在隱患整治上存在漏洞.”.上述只是公開報道的監(jiān)獄越獄事件,監(jiān)獄安全監(jiān)管事件除了服刑人員越獄脫逃外,還包括集體暴亂、自殺、罪犯斗毆、傳染病、生產(chǎn)安全事故及自然災(zāi)害類等安全突發(fā)事件.然而,在現(xiàn)有制度下,大部分省份的監(jiān)獄將勞動改造、生活衛(wèi)生等形成的計分作為減刑、假釋的重要依據(jù),證明服刑人員卻有悔改不致危害社會,這顯然會導(dǎo)致監(jiān)獄執(zhí)法的科學(xué)性受到質(zhì)疑.服刑人員出于減刑、假釋的需要,會有針對性地根據(jù)監(jiān)獄制定的計分方式和計分細(xì)則進(jìn)行最大努力獲取分?jǐn)?shù),這必然會造成服刑人員改造思想的不端正和誘發(fā)功利改造思想.在實踐中,普遍存在罪犯減刑前后兩個樣,前后反差很大的現(xiàn)象,并且一旦服刑人員脫離了監(jiān)獄環(huán)境回歸社會,監(jiān)獄監(jiān)管的喪失,服刑人員的危險性將很難預(yù)料.從長遠(yuǎn)意義上來說,計分考核制度在一定程度上給監(jiān)獄監(jiān)管改造工作帶來不良影響,因此有必要對服刑人員的監(jiān)管改造模式進(jìn)行革新,探索新的監(jiān)管安全手段和方法.

2 服刑人員再犯罪預(yù)測與安全性評估

2.1 服刑人員再犯罪預(yù)測

Beck&Bemand(1989)通過檔案分析發(fā)現(xiàn),5%的犯罪人要對45%案件的發(fā)生負(fù)責(zé);Farrington(1996)的研究也顯示,在所有案件中,有將近一半是由6%的犯罪人完成的.這一現(xiàn)象表明,通過對高危險性服刑人員的行為識別和預(yù)測是可以實現(xiàn)預(yù)防的.各國學(xué)者開始了相關(guān)問題的探討,研究個體特別是特定服刑人員是否具有人身危險性、危險性程度如何等問題,并且形成了一系列評估手段、方法.阿根廷的拉普拉特在2011年實施了“風(fēng)險評估試點項目”,在當(dāng)?shù)胤ㄔ旱纳暾埾?,通過HCR-20、PCL-R和VARG,對65名有假釋資格的罪犯進(jìn)行了評估;日本成立了“專門監(jiān)督官特別隊”,對緩刑、假釋者進(jìn)行再犯風(fēng)險評估;英國研發(fā)出了“犯罪人需要評價量表”,根據(jù)量表得分劃分風(fēng)險程度,并將不同風(fēng)險的犯罪人劃分為高、中、低3種監(jiān)管等級[5].在中國,為提高監(jiān)管改造的科學(xué)性和執(zhí)法的公正性,為預(yù)防獄內(nèi)突發(fā)事件的發(fā)生,為減刑、假釋的需要,為服刑人員在社區(qū)矯正中再犯罪預(yù)測,全國很多監(jiān)獄都開展了針對服刑人員的危險性評估.司法部預(yù)防犯罪研究所于1992年出版的《中國重新犯罪研究》,定性地分析了影響刑釋人員再犯的可能性因素及其動機(jī),但由于缺少實證數(shù)據(jù)和科學(xué)手段的支持,也沒有提出如何對再犯可能性進(jìn)行評估.上海市監(jiān)獄管理局(2003)[6]制定了《違法犯罪可能性量表(修訂版)》對減刑、假釋、監(jiān)外執(zhí)行的服刑人員的危險性進(jìn)行預(yù)測,但沒有提出具體預(yù)測關(guān)系函數(shù);黃興瑞等[7]采用判斷抽樣方法對浙江省715名(初犯345,再犯370)犯人進(jìn)行了問卷調(diào)查,運用數(shù)理統(tǒng)計方法,提取出12項與再犯顯著相關(guān)的特征,并分別制成判刑前、入獄前、服刑中、釋放前4種再犯罪預(yù)測量表,但由于用初犯代替未重新犯罪者,對不同特征沒有賦予不同的權(quán)重,導(dǎo)致“棄真”錯誤率超過50%.鄔慶祥[8]對15 000名刑釋人員進(jìn)行問卷調(diào)查,選擇14個再犯特征,利用多元線性回歸函數(shù)對其再犯罪進(jìn)行預(yù)測.章恩友[9]提出通過在押人員自評量表、他評量表和實驗?zāi)M3個主要手段建立再犯預(yù)測評估體系,通過對在押人員的掩飾傾向、個性特質(zhì)的變化、社會適應(yīng)水平、改造質(zhì)量等方面來確定再犯罪概率;曾赟[10]對浙江省不同類型監(jiān)獄1 238名隨機(jī)在押犯樣本進(jìn)行調(diào)查與統(tǒng)計,采用多因素方差分析與二元Logistic回歸分析,提出了11項罪犯出監(jiān)前重新犯罪預(yù)測因子,但沒有給出預(yù)測因子與應(yīng)變量(再犯罪)的函數(shù)關(guān)系;孔一等[11]選擇浙江省監(jiān)獄313名重新犯罪人員和288未重新犯罪的刑釋人員分別作為實驗組和對照組,利用SPSS17.0通過統(tǒng)計方法求得E2系數(shù)來選擇初始預(yù)測特征,再通過合并預(yù)測特征,實現(xiàn)降維,但同樣也沒有給出預(yù)測特征和應(yīng)變量的函數(shù)關(guān)系.

2.2 服刑人員危險性評估

在西方國家,根據(jù)罪犯危險等級分配司法資源,既可以降低司法成本,也可以提高司法效能,其中的司法實踐就是“危險管理”,而對罪犯進(jìn)行危險性評估是危險管理的重要依據(jù),其準(zhǔn)確程度將直接影響危險控制的效果.段曉東[12]將危險性評估定義為通過摸底排隊,了解全部罪犯的有關(guān)動態(tài),從而對監(jiān)獄內(nèi)所監(jiān)管的罪犯危險性進(jìn)行分析;翟中東[13]將危險性評估定義為通過一定技術(shù)對罪犯重新犯罪或者實施其他犯罪的可能進(jìn)行預(yù)測,從而為控制這些危險提供依據(jù);學(xué)術(shù)界,很多專家也從罪犯的人身危險性、社會危險性、心理危險性和再犯罪等多個角度對其危險性進(jìn)行評估.浙江師范大學(xué)曹建路[14]利用SPSS13.0和LISEL8.70統(tǒng)計工具對江蘇省某重型犯監(jiān)獄的352名罪犯將靜態(tài)因素量表和自建動態(tài)因素量表想結(jié)合,但沒有通過實驗測量法進(jìn)行權(quán)重賦值;上海師范大學(xué)徐英蘭[15]以1 830名新收監(jiān)罪犯為研究對象編制了罪犯獄內(nèi)危險評估自評量表和他評量表,應(yīng)用統(tǒng)計方法對量表進(jìn)行信度和效度檢驗,相關(guān)擬合指數(shù)大于0.8,模型擬合較好,通過量表測定給出危險等級和危險類型,但其特征因素的權(quán)重主要是依據(jù)經(jīng)驗設(shè)定;孫岳芳等[16]對假釋罪犯制定了人身危險性量表,主要包括罪前人身、犯罪行為、生理狀況、心理狀況和罪后表現(xiàn),但沒有對這些量表中特征進(jìn)行統(tǒng)計學(xué)意義上信度和效度檢驗.目前,對于社區(qū)矯正危險性評估就是對其再犯罪的預(yù)測,張學(xué)霏[17]將社區(qū)矯正中人身危險性評估分為入矯前、矯正中、解矯前3個階段,并根據(jù)不同階段設(shè)定不同量表,但只是進(jìn)行定性敘述.由此,可以看出服刑人員危險性評估按照時空的轉(zhuǎn)換可分為獄前危險性評估、獄內(nèi)危險性評估、罪犯假釋危險性評估、社區(qū)矯正人員危險性評估.

綜上所述,可以看出,早期對罪犯的再犯罪的預(yù)測或危險性評估主要是通過定性分析,最近幾年主要是通過隨機(jī)抽樣選擇樣本,然后利用統(tǒng)計學(xué)方法提取特征,制定量表進(jìn)行再犯罪預(yù)測或危險性評估.一方面,量表測評本身具有其局限性,如果量表沒有進(jìn)行信度和效度的檢驗,其準(zhǔn)確性很難保證,即使進(jìn)行了效度和信度檢驗,一套量表一旦制定出來就相對固定了,變成通用的了,然而和犯罪行為相關(guān)的因素會隨著社會環(huán)境、地理區(qū)域、犯罪類型等的變化而變化,因此量表的信、效度會隨著時空的轉(zhuǎn)換而變得越來越低.另一方面,抽樣調(diào)查本身具有登記性誤差和代表性誤差,登記性誤差是指由犯人人為因素造成的誤差;代表性誤差是指不論隨機(jī)抽樣多么科學(xué),總是不能代替所有目標(biāo)對象,因此從樣本空間提取出來的特征總是和實際有一定的誤差.在大數(shù)據(jù)時代,首先收集全部服刑人員的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),也即靜態(tài)屬性和動態(tài)行為數(shù)據(jù);然后利用統(tǒng)計方法、數(shù)據(jù)挖掘等相關(guān)技術(shù)提取罪犯危險性特征,建立服刑人員危險性識別與動態(tài)預(yù)測模型;再然后利用機(jī)器學(xué)習(xí)等技術(shù)根據(jù)后期測試結(jié)果不斷訓(xùn)練模型,提高精度,使其成為一個循環(huán)反饋環(huán)路,從而建立一套服刑人員危險性識別與動態(tài)預(yù)測體系.該體系一方面針對的是所有服刑人員,避免了抽樣調(diào)查本身帶來的誤差;另一方面該體系收集的是每個服刑人員的靜態(tài)屬性和動態(tài)行為數(shù)據(jù),可提供個性化、精細(xì)化的危險性識別和預(yù)測,避免了模型隨時空的轉(zhuǎn)換而信、效度降低的可能.

3 監(jiān)獄大數(shù)據(jù)分享中的隱私保護(hù)

20世紀(jì)90年代中葉,美國馬薩諸塞州團(tuán)體保險委員會發(fā)布州政府雇員的“經(jīng)過匿名化處理的”醫(yī)療數(shù)據(jù)供公共醫(yī)學(xué)研究,刪除了數(shù)據(jù)中所有的敏感信息,例如姓名、住址和社會安全號碼.然而1997年,麻省理工學(xué)院博士生拉坦婭·斯威尼利用數(shù)據(jù)集中的出生日期、性別和郵編三元組信息成功破解了這份匿名數(shù)據(jù),并找到了時任州長威廉·威爾德的醫(yī)療記錄,還將該記錄直接寄給了州長本人.2006年8月4日,美國在線公司在互聯(lián)網(wǎng)上發(fā)布了超過65萬用戶在過去3個月的搜索關(guān)鍵字,以供公眾對搜索技術(shù)進(jìn)行研究.該公司用一個隨機(jī)號碼來替代用戶的賬號實現(xiàn)匿名化處理,隨后,《紐約時報》成功破解該數(shù)據(jù)集,這起隱私泄漏事件導(dǎo)致美國在線在北加州地方法院被起訴.目前,相比較于其他領(lǐng)域,學(xué)者對服刑人員的危險性研究之所以較少,一個很大的原因就是因為服刑人員數(shù)據(jù)的敏感性.然而在大數(shù)據(jù)時代,對監(jiān)獄服刑人員的數(shù)據(jù)進(jìn)行研究同樣也是必要的,這有利于監(jiān)獄對服刑人員危險性的識別和預(yù)測,但是數(shù)據(jù)分享會帶來被泄露的風(fēng)險,因此對監(jiān)獄服刑人員的數(shù)據(jù)進(jìn)行隱私保護(hù)成為監(jiān)獄大數(shù)據(jù)研究中的必要條件.隱私保護(hù)的目標(biāo)在于既要保證修改后的數(shù)據(jù)不會遭受去匿名化攻擊,又要在保護(hù)隱私的同時,保留原數(shù)據(jù)的有用信息.監(jiān)獄服刑人員數(shù)據(jù)屬性可以分為4類屬性[18]:1)個體標(biāo)識屬性,可以顯式表明個體身份的屬性,比如姓名、身份證號碼和手機(jī)號碼[19].2)準(zhǔn)標(biāo)識屬性,攻擊者可以通過與外部數(shù)據(jù)表進(jìn)行鏈接從而獲得個體隱私信息,比如性別、年齡和郵政編碼.3)敏感屬性,描述個體隱私的細(xì)節(jié)信息,比如疾病和收入.4)與上述無關(guān)的其他屬性.

對于服刑人員個體標(biāo)識信息一般可通過刪除、隨機(jī)數(shù)替換、哈希碼替換等方法來實現(xiàn)數(shù)據(jù)保護(hù).因為某些準(zhǔn)標(biāo)識屬性組的取值是唯一的,為了防止攻擊者通過鏈接攻擊的方法獲得個體隱私信息,對于服刑人員準(zhǔn)標(biāo)識屬性可通過數(shù)據(jù)概化方法和有損連接來處理[19].最早被廣泛認(rèn)同的隱私保護(hù)機(jī)制為k-匿名[20],它要求發(fā)布表中的每個元組都至少與其他(k_1)個元組在準(zhǔn)標(biāo)識屬性上完全相同,使得其不再與任何人一一對應(yīng),然而k-匿名存在嚴(yán)重一致性攻擊漏洞;微軟研究院的德沃柯(Dwork)等人[21]于2006年提出了差分隱私模型及差分隱私的通用隨機(jī)算法:拉普拉斯機(jī)制,但該機(jī)制主要針對實數(shù)值的場合;為此,麥克雪莉(McSherry)和圖沃(Tulwar)提出適用于離散值域的指數(shù)機(jī)制,也是差分隱私的經(jīng)典通用算法[22].差分隱私假定攻擊者及時知曉了原數(shù)據(jù)中的除了某一條記錄之外的所有信息,仍然能提供保護(hù),但如此高強(qiáng)度的保護(hù)必然帶來大量的噪聲,影響數(shù)據(jù)的可用性.所以在實際應(yīng)用中,也出現(xiàn)了一些改進(jìn)差分隱私的嘗試[23].在利用服刑人員的靜態(tài)屬性和動態(tài)行為數(shù)據(jù)進(jìn)行危險性識別與預(yù)測時,可根據(jù)數(shù)據(jù)的類型、安全級別、數(shù)據(jù)的精確度和隱私度的值來進(jìn)行不同泛化的算法選擇.數(shù)據(jù)隱私保護(hù)力度可通過平均泄露概率比(average probability rate,簡稱APR)來衡量,數(shù)據(jù)精確度(泛化后數(shù)據(jù)的可用程度)可通過加權(quán)屬性熵(weighted attributes entropy,簡稱WAE)來衡量[24].

(1)

(2)

其中,N表示數(shù)據(jù)集T*中的元組數(shù),pi=1/ei(ei為第i個分組中的元組數(shù))表示第i條元組對應(yīng)個體信息的被泄露率,k為數(shù)據(jù)泛化處理中每個分組中的元組數(shù),emin表示等價組中的最小元組數(shù).

(3)

(4)

其中,WAE(T*)定義為所有元組加權(quán)信息量的平均值,I(Gi)為等價組G個屬性的加權(quán)信息總量,gcnt為T*包含的等價組總數(shù);|G|表示等價組G的元組數(shù),D表示屬性Aj的最大數(shù),wj是各個屬性分配的不同權(quán)重,有∑wj=1,vcntj是屬性Aj(1≤j≤D)在等價組G上的值Vj所代表的精確值個數(shù).實驗結(jié)果[24]發(fā)現(xiàn)數(shù)據(jù)的隱私度和精確度在總體上呈現(xiàn)相反的變化趨勢,但在整個區(qū)間并不都是單調(diào)遞減關(guān)系,段與段之間是逐漸增長或消減的,因此在選擇較優(yōu)的泛化隱私保護(hù)模型及算法時,可根據(jù)實際需要選擇那些隱私度和精確度都優(yōu)的點,也可選擇那些隱私度或精確度單個優(yōu)的點.

4 基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測

4.1 基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測架構(gòu)

目前,全國大部分監(jiān)獄都已建立各類業(yè)務(wù)信息管理系統(tǒng),內(nèi)部歷史數(shù)據(jù)量越來越大,然而在建設(shè)過程中由于主要從業(yè)務(wù)部門考慮,導(dǎo)致數(shù)據(jù)分散存儲、數(shù)據(jù)冗余、數(shù)據(jù)不完整、數(shù)據(jù)字段標(biāo)準(zhǔn)不一等現(xiàn)象,使得數(shù)據(jù)難以集成為統(tǒng)一的大數(shù)據(jù)平臺.面對有結(jié)構(gòu)化數(shù)據(jù)(例如各業(yè)務(wù)管理系統(tǒng)中的數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(例如服刑人員病例)和非結(jié)構(gòu)化數(shù)據(jù)(例如服刑人員和家屬會見及電話記錄、視頻監(jiān)控)組成的海量多源數(shù)據(jù),不僅需要有效組織存儲,而且需要篩選過濾,經(jīng)深度挖掘后提取出更為有效的知識,為服刑人員的危險性識別和預(yù)測服務(wù).20世紀(jì)90年代以來,數(shù)據(jù)倉庫作為一種支持?jǐn)?shù)據(jù)挖掘、聯(lián)機(jī)分析處理、傳統(tǒng)查詢及報表功能并解決數(shù)據(jù)整合、數(shù)據(jù)展現(xiàn)及數(shù)據(jù)分析的系統(tǒng)架構(gòu)受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,逐漸成為信息化建設(shè)的主流技術(shù),為決策支持提供了重要幫助[25].一個典型的數(shù)據(jù)倉庫架構(gòu)見圖1所示,它分為4個層次,首先使用ETL工具對數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取(extract)、清洗(cleaning)、轉(zhuǎn)換(transform)、裝載(load)到數(shù)據(jù)倉庫集中存儲,然后按照某種模型(星型或雪花型)組織數(shù)據(jù);然后OLAP(on-line analytical processing)工具從數(shù)據(jù)倉庫中讀取數(shù)據(jù),生成數(shù)據(jù)立方體,供前段用戶查詢、分析和挖掘等應(yīng)用.

大數(shù)據(jù)時代圖1的模型存在2個問題:首先由于在數(shù)據(jù)源層和分析層之間引入一個存儲管理層,在提升數(shù)據(jù)質(zhì)量的同時也付出了較大的數(shù)據(jù)遷移代價和執(zhí)行時的連接代價;其次傳統(tǒng)的數(shù)據(jù)倉庫假設(shè)主題是較少變化的,因此很難適應(yīng)基于主題的大數(shù)據(jù)需求變化.面對數(shù)據(jù)量大、數(shù)據(jù)類型多、處理速度快、價值密度低、異構(gòu)(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)等大數(shù)據(jù)下的各種挑戰(zhàn),監(jiān)獄需要新的大數(shù)據(jù)分析與預(yù)測架構(gòu).文獻(xiàn)[26]提出視頻監(jiān)控大數(shù)據(jù)應(yīng)用框架和監(jiān)獄大數(shù)據(jù)應(yīng)用架構(gòu),但架構(gòu)沒有分層,更沒有針對業(yè)務(wù)邏輯進(jìn)行建模和大數(shù)據(jù)處理.

圖1 數(shù)據(jù)倉庫典型架構(gòu)Fig.1 A typical data warehouse architecture

基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測架構(gòu)見圖2所示,在多維數(shù)據(jù)源層的結(jié)構(gòu)化數(shù)據(jù)中,罪犯信息庫包括:罪犯服刑數(shù)據(jù)、罪犯家屬數(shù)據(jù)、罪犯社會關(guān)系數(shù)據(jù);警察職工信息庫包括:警察職工數(shù)據(jù)、警察職工人事管理數(shù)據(jù)、警務(wù)督察數(shù)據(jù).監(jiān)管改造信息庫包括:獄政管理數(shù)據(jù)、勞動改造數(shù)據(jù)、教育改造數(shù)據(jù)、刑法執(zhí)行數(shù)據(jù)、獄內(nèi)偵查數(shù)據(jù)、生活衛(wèi)生數(shù)據(jù)、罪犯醫(yī)療健康數(shù)據(jù)等.物聯(lián)信息庫包括:罪犯定位數(shù)據(jù)、車輛定位數(shù)據(jù)、勞動工具定位數(shù)據(jù)、安防設(shè)備物聯(lián)數(shù)據(jù);半結(jié)構(gòu)化數(shù)據(jù)中的日志數(shù)據(jù)主要包括:各信息系統(tǒng)的日志,社會數(shù)據(jù)主要包括:監(jiān)獄門戶網(wǎng)站及互聯(lián)網(wǎng)中有關(guān)服刑人員的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)中的文本數(shù)據(jù)主要包括:監(jiān)獄日常開會的記錄數(shù)據(jù)、監(jiān)獄警察每月對服刑人員的談話數(shù)據(jù)、服刑人員可穿戴設(shè)備產(chǎn)生的數(shù)據(jù)、監(jiān)獄警察在服刑人員和家屬會見時的記錄數(shù)據(jù)等一切由監(jiān)獄日常工作所產(chǎn)生的所有文本數(shù)據(jù),音頻數(shù)據(jù)主要包括:監(jiān)獄會見系統(tǒng)及遠(yuǎn)程電話等系統(tǒng)中的所有錄音數(shù)據(jù),視頻數(shù)據(jù)主要包括:監(jiān)獄所有視頻監(jiān)控產(chǎn)生的數(shù)據(jù).對多源數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后可存放到分布式數(shù)據(jù)庫中,然后分別建立基于不同的危險等級和危險分類主題的數(shù)據(jù)集市,并通過數(shù)據(jù)倉庫來實現(xiàn),利用圖計算系統(tǒng)對服刑人員的社會關(guān)系、勞動關(guān)系、飯友關(guān)系等網(wǎng)絡(luò)進(jìn)行分析;邏輯模型層通過統(tǒng)一的數(shù)據(jù)總線接口進(jìn)行數(shù)據(jù)分析挖掘和機(jī)器學(xué)習(xí).

圖2 基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測架構(gòu)Fig.2 A architecture of risk identification and prediction for prisoners based on big data

4.2 基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測邏輯模型

基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測邏輯模型主要包括統(tǒng)計模型、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘模型、離群點檢測模型、集成分類模型等,這些模型針對不同的數(shù)據(jù)結(jié)構(gòu)類型、不同的業(yè)務(wù)領(lǐng)域通過相關(guān)算法從不同維度、不同的時空變化來實現(xiàn)對服刑人員危險性的識別與預(yù)測.

4.2.1 服刑人員危險性統(tǒng)計模型

大數(shù)據(jù)時代的到來暴露了傳統(tǒng)統(tǒng)計學(xué)已有方法的缺陷,從抽樣調(diào)查、數(shù)據(jù)管理和存儲、統(tǒng)計分析和計算,海量數(shù)據(jù)分析的需求對統(tǒng)計學(xué)帶來了嚴(yán)峻的挑戰(zhàn).針對大數(shù)據(jù)時代的高維數(shù)據(jù)降維分析,Jiangqing Fan教授提出了優(yōu)于傳統(tǒng)主成分分析的投影主成分分析(projected principal component analysis),是大數(shù)據(jù)背景下統(tǒng)計學(xué)的重構(gòu)和創(chuàng)新.而要想從高維數(shù)據(jù)中找到起作用的特征,有效的變量選擇通過剔除多余的變量能夠給出最優(yōu)的預(yù)測變量,從而得到最簡潔的模型,同時,有效的變量選擇能夠提高模型的預(yù)測精度.確定獨立篩選方法(sure independence screening,SIS)大大提高了超高維變量選擇的計算速度及統(tǒng)計性質(zhì)[27].

然而在大數(shù)據(jù)時代下,統(tǒng)計學(xué)模型仍然具有重要的有意義,比如可利用回歸分析進(jìn)行變量選擇.對服刑人員所犯案件及其同伙服刑人員(不一定要在一個監(jiān)獄關(guān)押)的犯罪網(wǎng)絡(luò)圖譜進(jìn)行分析,可建立服刑人員危險性邏輯模型,實現(xiàn)對服刑人員的犯罪網(wǎng)絡(luò)維度上的統(tǒng)計分析、危險性識別與預(yù)測.服刑人員的危險性可通過服刑人員網(wǎng)絡(luò)中心度Cp來識別,它是用來表示服刑人員在整個服刑人員網(wǎng)絡(luò)(監(jiān)獄或監(jiān)區(qū))里的影響力,則

(5)

4.2.2 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘模型

機(jī)器學(xué)習(xí)是指利用經(jīng)驗來改善計算機(jī)系統(tǒng)自身的性能,最本質(zhì)的問題是要最小化預(yù)測誤差的某種度量.數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的過程.大體上看,數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫的交叉,它主要利用機(jī)器學(xué)習(xí)提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫提供的技術(shù)來管理海量數(shù)據(jù).利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征分析、變化和偏差分析等.利用回歸分析,可對服刑人員危險性建立函數(shù)關(guān)系,發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,可通過散點圖進(jìn)行特征選擇;對未標(biāo)記危險性類別的服刑人員進(jìn)行聚類分析,可用于發(fā)現(xiàn)服刑人員的異常行為,可用于離群點檢測;特征分析用于確定服刑人員危險性的屬性特征;變化和偏差分析用于識別服刑人員的日常反常行為.在監(jiān)獄這個獨特的環(huán)境中,可利用時空數(shù)據(jù)挖掘?qū)崿F(xiàn)對服刑人員危險性的識別與預(yù)測,時空數(shù)據(jù)挖掘主要分為:時空模式挖掘、時空聚類、時空異常檢測[28].服刑人員危險性時空異常檢測在于識別某個服刑人員和他在空間上相鄰并在一段連續(xù)時間內(nèi)出現(xiàn)的鄰居有著顯著差異的服刑人員,常用基于距離、密度和聚類的方法.

4.2.3 服刑人員危險性離群點檢測模型

離群點是數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù),被用來發(fā)現(xiàn)稀有模式或者數(shù)據(jù)集中異常于其他數(shù)據(jù)的對象.離群點檢測可以分成3類:全局離群點、情景(或條件)離群點和集體離群點,全局離群點是指一個數(shù)據(jù)對象顯著偏離數(shù)據(jù)集中的其他所有對象;情景離群點是指在某個特定情景下,一個數(shù)據(jù)對象顯著偏離該情景中的其他對象;集體離群點是指數(shù)據(jù)集的一個子集偏離整個數(shù)據(jù)集[29].通過對服刑人員危險性數(shù)據(jù)集中的離群點分析,可以迅速、準(zhǔn)確地甄別發(fā)生在監(jiān)獄中的時間、空間中的異常事件,從而識別與預(yù)測出服刑人員的危險性行為.服刑人員危險性的全局離群點檢測主要是指某個服刑人員相比較于其他所有犯人的危險性行為.情景離群點檢測在服刑人員危險性識別與預(yù)測中,主要是指在監(jiān)獄的特定區(qū)域或特定時間段內(nèi)發(fā)生的異常行為事件.特定區(qū)域是指監(jiān)獄食堂、監(jiān)舍、工作場地等服刑人員活動的場所和監(jiān)獄周界圍墻等高危險性場所;特定時間段是指服刑人員早課、就餐、工作、就寢、學(xué)習(xí)、休閑等時間段.服刑人員危險性集體離群點檢測主要是指一小部分服刑人員的集體異常危險性行為,一般可用于服刑人員的網(wǎng)絡(luò)圖譜(犯罪網(wǎng)絡(luò)、飯友網(wǎng)絡(luò)等)離群點檢測.服刑人員危險性識別與預(yù)測主要通過情景離群點檢測來實現(xiàn),具體算法如下:

1) 對于給定的數(shù)據(jù)集D,確定該數(shù)據(jù)集的情景屬性sai(i≤m,m為情景屬性的最大維度)和行為屬性bpj(j≤n,n為行為屬性的最大維數(shù));

2) 使用訓(xùn)練數(shù)據(jù),在情景屬性sai上學(xué)習(xí)數(shù)據(jù)的一個混合模型U,在行為屬性bpj上學(xué)習(xí)數(shù)據(jù)的一個混合模型V;

3) 在U和V的基礎(chǔ)上,學(xué)習(xí)一個映射p(Vj|Ui),然后捕獲屬于情景屬性Ui上的簇的對象o被行為屬性Vj上的簇產(chǎn)生的概率;

4) 用公式(6)計算離群點得分,如果該值顯著偏離正常值,確定最終離群點,預(yù)測出服刑人員的危險性行為.

S(o)=∑UiP(o∈Ui)∑VjP(o∈Vj)P(Vj|Ui).

(6)

4.2.4 服刑人員危險性集成分類模型

分類是數(shù)據(jù)挖掘、模式識別和機(jī)器學(xué)習(xí)領(lǐng)域中一種重要的技術(shù),是根據(jù)數(shù)據(jù)集的特點構(gòu)造一個分類模型(分類函數(shù),或稱為分類器),能把未知類別的數(shù)據(jù)映射到給定類別中的一種技術(shù).常用的分類算法主要有決策樹、Bayes、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、馬爾可夫等分類算法,分類算法的評價標(biāo)準(zhǔn)是預(yù)測的準(zhǔn)確率、速度、強(qiáng)壯性、可伸縮性、可解釋性.文獻(xiàn)[30-31]基于馬爾可夫模型對軟件故障、軟件漏洞進(jìn)行分類預(yù)測,但是馬爾可夫鏈所反映的最本質(zhì)的屬性是馬爾可夫性(稱為無后效性),即系統(tǒng)的狀況與過去的狀況無關(guān).而服刑人員危險性前后是非常緊密相關(guān)的,比如一個想自殺的犯人可能會多次自殺,越獄的犯人會多次想越獄等,顯然馬爾可夫模型不適合用于服刑人員危險性分類預(yù)測.經(jīng)典的神經(jīng)網(wǎng)絡(luò)分類模型計算量大,用戶很難辨別輸入條件對分類結(jié)果的影響,而集成分類器通過構(gòu)建一組基分類器(包括決策樹、Bayes、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等分類器),最后通過投票來實現(xiàn)分類,從而提高分類準(zhǔn)確率和模型的穩(wěn)定性.隨機(jī)森林就是一個經(jīng)典的集成分類器,它的每一顆樹的子分類器相互獨立,最后匯總各分類子樹的結(jié)果,用戶可以對分類器進(jìn)行在線改進(jìn),通過條件的不同組合進(jìn)行訓(xùn)練,可隨時根據(jù)數(shù)據(jù)和危險性特征的更新而對新的輸入條件進(jìn)行運算,得到預(yù)測結(jié)果[32].隨機(jī)森林的運算速度很快,在處理大數(shù)據(jù)時表現(xiàn)優(yōu)異,給出了所有變量的重要,并可以體現(xiàn)變量間的交互作用,對離群值不敏感[33],因此,基于多個決策樹集成的隨機(jī)森林可用在對服刑人員的危險性進(jìn)行識別和預(yù)測中.假定服刑人員數(shù)據(jù)集為D,然后隨機(jī)抽取K個bootsrap樣本集,記為Di(i=1,2,…,k);其次,對每個Di分別建立服刑人員危險性決策樹模型{h(x,θi),i=1,2,…,k},其中x是服刑人員危險性特征變量,參數(shù)集θi是獨立同分布的隨機(jī)向量;最后,經(jīng)過k輪訓(xùn)練,得到分類模型序列{h1(x),h2(x),…,hk(x)},再用它們構(gòu)成一個多分類模型,通過投票方式得到最終分類結(jié)果,最終的分類決策可用如下公式表示:

(7)

其中,H(x)表示集成分類模型,hi(x)是單個決策樹分類模型,Y表示輸出變量(脫逃、自殺、暴力等危險類型),I(.)為示性函數(shù).可用R語言中的軟件包randomForest運行隨機(jī)森林算法對服刑人員危險性進(jìn)行分類預(yù)測,R中代碼執(zhí)行如下:

Install.packages("randomForest")

//安裝隨機(jī)森林程序包

Library(randomForest)

//調(diào)用隨機(jī)森林程序包

Offender<-read.csv("c:/data/offenders.csv",header=TRUE)

//從硬盤讀入數(shù)據(jù)集

RF3<-randomForest(offender[,c('L1','L2','L3','L4')],offender[,'category'],importance=TRUE,ntr ee=10000)

//調(diào)用隨機(jī)森林模型

RF3

//顯示模型結(jié)果

其中,offender[,c('L1','L2','L3','L4')]表示服刑人員危險性量度,offender[,'category']表示服刑人員危險性類別.表1是服刑人員危險性分類混淆矩陣,表2顯示模型對A類的判別錯誤為21.6%,對B和C類的判別錯誤率為0.

表1 隨機(jī)森林的混淆矩陣

表2 隨機(jī)森林的混淆矩陣的危險性分類誤差

5 結(jié)論

本文在對服刑人員再犯罪預(yù)測與危險性評估現(xiàn)狀分析的基礎(chǔ)上,提出了一種基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測架構(gòu),并重點對架構(gòu)中的統(tǒng)計模型、離群點檢測模型、集成分類模型4個邏輯模型在服刑人員危險性識別與預(yù)測中的應(yīng)用算法進(jìn)行了描述,尤其是使用R軟件包實驗了服刑人員危險性集成分類識別與預(yù)測,并給出了分類預(yù)測誤差.

下一步的主要工作是針對監(jiān)獄大數(shù)據(jù),豐富基于大數(shù)據(jù)的服刑人員危險性識別與預(yù)測架構(gòu),例如流計算框架(spark)、圖處理并行框架(graphlab)、實時流計算框架(storm)等;另外還研究針對監(jiān)獄不同數(shù)據(jù)類型、不同價值密度的開源實現(xiàn)架構(gòu)和數(shù)據(jù)分析工具;最核心的內(nèi)容是進(jìn)一步研究將更多的機(jī)器學(xué)習(xí)算法應(yīng)用到服刑人員的危險性識別與預(yù)測領(lǐng)域中,通過不斷的訓(xùn)練,找出越來越精準(zhǔn)的服刑人員危險性識別與預(yù)測模型,實現(xiàn)對服刑人員的危險性識別與預(yù)測.

[1] 黃晨.近年10起重大越獄案件一覽[EB/OL].http://www.caing.com/2011-09-15/100302744.html,2011-09-15/2015-12-16.

[2] 中商情報網(wǎng).黑龍江嫌犯殺警越獄盤點:近年國內(nèi)越獄大案件[EB/OL].http://mil.askci.com/military/2014/09/04/93322wofp.shtml,2014-09-14/2015-12-16.

[3] 王婷婷,張瑩.媒體盤點近7年12起越獄案[EB/OL].http://news.china.com/domestic/945/20141103/18922977-all.html,2014-11-03/2015-12-16.

[4] 環(huán)球軍事網(wǎng).中國最嚴(yán)重的監(jiān)獄越獄案件分析[EB/OL].http://www.huanqiumil.com/a/40936-2.html,2015-06-10/2015-12-17.

[5] 何川,馬皚.罪犯危險性評估研究綜述[J].河北北方學(xué)院學(xué)報:社會科學(xué)版,2014,30(2):67-73.

HE C,MA A.Research overview on criminal risk assessment[J].Journal of Hebei North University:Social Science Edition,2014,30(2):67-73.

[6] 胡慶生.行刑方式的文明進(jìn)步-上海市積極拓展社區(qū)矯治新空間[N].法制日報,2003-08-04(8).

[7] 黃興瑞,孔一,曾贇.再犯預(yù)測研究-對浙江罪犯再犯可能性的實證分析[J].犯罪與改造研究,2004(8):8-13.

HUANG X R,KONG Y,ZENG Y.Prediction of recidivism-empirical analysis of the possibility of recidi-vism in Zhejiang[J].Research on crime and transformation,2004(8):8-13.

[8] 鄔慶祥.刑釋人員人身危險性的測評研究[J].心理科學(xué),2005,28(1):222-224.DOI:10.16719/j.cnki.1671-6981.2005.01.063.

WU Q X.A research on the appraisal of the personal dangerousness of persons released after completion of a sentence[J].Psychological Science,2005,28(1):222-224.DOI:10.16719/j.cnki.1671-6981.2005.01.063.

[9] 章恩友.罪犯心理矯治[M].北京:中國民主法制出版社,2007.

[10] 曾赟.服刑人員刑滿釋放前重新犯罪風(fēng)險預(yù)測研究[J].法學(xué)評論,2011(6):131-137.DOI:10.13415/j.cnki.fxpl.2011.06.003.

ZENG Y.Prediction of risk of redivism before the offenders released from prison[J].Law Review,2011(6):131-137.DOI:10.13415/j.cnki.fxpl.2011.06.003.

[11] 孔一,黃興瑞.刑釋人員再犯風(fēng)險評估量表(RRAI)研究[J].中國刑事法雜志,2011(10):91-106.

KONG Y,HUANG X R.Study of recidivism risk assessment list for released offenders[J].Journal of Chinese criminal law,2011(10):91-106.

[12] 段曉東.科學(xué)分析獄情之管見[J].中國監(jiān)獄學(xué)刊,2005(1):67-70.

DUAN X D.The scientific analysis on the situation of prison[J].Journal of Chinese Prison,2005,(1):67-70.

[13] 翟中東.國際視域下的重新犯罪防治政策[M].北京:北京大學(xué)出版社.2009.

[14] 曹建路.成年服刑人員人身危險性評估體系的建構(gòu)[D].金華:浙江師范大學(xué),2013.

CAO J L.Construction of personal danger evaluation system on adult prisoners[D].Jinhua:Zhejiang Normal University,2013.

[15] 徐英蘭.罪犯獄內(nèi)危險度評估量表的研制[D].上海:上海師范大學(xué),2015.

XU Y L.The risk assessment scale of criminals in prison[D].Shanghai:Shanghai Normal University,2015.

[16] 孫岳芳,俞凱.假釋罪犯人身危險性評估機(jī)制研究[J].法制與社會,2013(5):216-217.

SUN Y F,YU K.Research on the mechanism of the personal risk assessment of offenders on parole[J].Legal and Social,2013(5):216-217.

[17] 張雪霏.社區(qū)矯正中人身危險性評估的三階段劃分及應(yīng)用[J].開封教育學(xué)院學(xué)報,2015,35(10):259-260.DOI:10.3969/j.issn.1008.9640.2015.10.123.

ZHANG X F.Three stage division and application of personal risk assessment in community correction[J].Journal of Kaifeng Institute of Education,2015,35(10):259-260.DOI:10.3969/j.issn.1008.9640.2015.10.123.

[18] 王茜,張剛景.實現(xiàn)單敏感屬性多樣性的微聚集算法[J].計算機(jī)工程與應(yīng)用,2015,51(11):72-75.DOI:10.3778/j.issn.1002-8331.1306-0317.

WANG Q,ZHANG G J.Microaggregation algorithm for single sensitive attribute diversely[J].Computer Engineering and Applications,2015,51(11):72-75.DOI:10.3778/j.issn.1002-8331.1306-0317.

[19] 童云海,陶有東,唐世渭,等.隱私保護(hù)數(shù)據(jù)發(fā)布中身份保持的匿名方法[J].軟件學(xué)報,2010,21(4):771-781.DOI:10.3724/SP.J.1001.2010.03466.

TONG Y H,TAO Y D,TANG S W,et al.Identity-reserved anonymity in privacy preserving data publishing[J].Journal of Software,2010,21(4):771-781.DOI:10.3724/SP.J.1001.2010.03466.

[20] SWEENEY L.k-anonymity:A model for protecting privacy[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5) (2002):557-570.

[21] DWORK C,MCSHERRY F,NISSIM K,et al.Calibrating noise to sensitivity in private data analysis[J].Theory of Cryptography,2006,3876:265-284.DOI:10.1007/11681878-14.

[22] MCSHERRY F,TALWAR K.Mechanism design via differential privacy[Z].48th Annual IEEE Symposium on Foundations of Computer Science,Washington,2007.

[23] HE X,MACHANAVAJJHALA A,DING B.Blowfish privacy:tuning privacy-utility trade-offs using policies[Z].Proceedings of the 2014 ACM SIGMOD international conference on Management of data,New York,2014.DOI:10.1145/2588555.2588581.

[24] 黃燦.數(shù)據(jù)發(fā)布中隱私保護(hù)關(guān)鍵技術(shù)的研究[D].南京:南京航空航天大學(xué),2010.

HUANG C.Research on key technologies of privacy protection in data publishing[D].Nanjing:Nanjing Uni-versity of Aeronautics and Astronautics,2010.

[25] 唐世渭,童云海.數(shù)據(jù)倉庫技術(shù)在金融行業(yè)的深度應(yīng)用和發(fā)展趨勢[J].中國金融電腦,2010(7):22-25.

TANG S W,TONG Y H.Advanced application and development trend of data warehouse technology in financial industry[J].China Financial Computer,2010(7):22-25.

[26] 孫培梁.智慧監(jiān)獄[M].北京:清華大學(xué)出版社,2014.

[27] 趙彥云,田茂再,吳延科,等.大數(shù)據(jù)時代統(tǒng)計學(xué)的重構(gòu)與創(chuàng)新[J].統(tǒng)計研究,2015,32(2):3-9.

ZHAO Y Y,TIAN M Z,WU Y K et al.Reconstruction and innovation of statistics in the era of big data[J].Statistical Research,2015,32(2):3-9.

[28] 吉根林,趙斌.面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J].南京師大學(xué)報(自然科學(xué)版),2014,37(1):-1-7.

JI G L,ZHAO B.A Survey of spatiotemporal data mining for big data[J].Journal of Nanjing Normal University(Natural Science Edition),2014,37(1):1-7.

[29] HAN J W,KAMBER M,PEI J.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2015.

[30] 易錦,羅峋,凹建勛,等.基于馬爾科夫鏈的軟件故障分類預(yù)測模型[J].中國科學(xué)院大學(xué)學(xué)報,2013,30(4):562-567.DOI:10.7523/j.issn.2095-6134.2013.04.019.

YI J,LUO X,AO J X,et al.Software fault classification prediction model based on Markov chain[J]Journal of University of Chinese Academy of Sciences,2013,30(4):562-567.DOI:10.7523/j.issn.2095-6134.2013.04.019.

[31] 高志偉,姚堯,饒飛,等.基于漏洞嚴(yán)重程度分類的漏洞預(yù)測模型[J].電子學(xué)報,2014,41(9):1784-1787.DOI:10.3969/j.issn.0372-2112.2013.09.018.

GAO Z W,YAO Y,RAO F,et al.Predicting model of vulnerabilities based on the type of vulnerability severity[J].Chinese Journal of Electronics,2014,41(9):1784-1787.DOI:10.3969/j.issn.0372-2112.2013.09.018.

[32] 孫菲菲,曹卓,肖曉雷.基于隨機(jī)森林的分類器在犯罪預(yù)測中的應(yīng)用研究[J].情報雜志,2014,33(10):148-152.DOI:10.3969/j.issn.1002-1965.2014.10.025.

SUN F F,CAO Z,XIAO X L.Application of an improved random forest based classifier in crime prediction domain[J].Journal of Intelligence,2014,33(10):148-152.DOI:10.3969/j.issn.1002-1965.2014.10.025.

[33] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報,2013,50(4):1190-1197.DOI:10.7679/j.issn.2095-1353.2013.163.

LI X H.Using random forest for classification and regression[J].Chinese Journal of Applied Entomology,2013,50(4):1190-1197.DOI:10.7679/j.issn.2095-1353.2013.163.

(責(zé)任編輯:孟素蘭)

Prediction of the risk of offenders based on big data

MA Guofu,WANG Zixian,MA Shengli

(Department of Information Management,The Central Institute for Correctional Police,Baoding 071000,China)

Based on the analysis of current status of offenders recidivism prediction and risk assessment,we proposed an architecture system of identification and prediction of the risk of offenders based on big data.Aiming at different value density and different data types,in the model layer of the system,we described application algorithm of identification and prediction of offenders risk for the statistical model,outlier detection model,integrated classification model of architecture system.In particular,using R software package,we conducted integrated classification identification and prediction experiments,and gives the classification prediction error.The architecture system of identification and prediction of the risk of offenders is based on big data,can realize personalized and accurate early warning for offenders risk,and provide a reliable guarantee for the safety of offenders supervision in the big data era.

risk assessment;identification;prediction;big data;algorithm

10.3969/j.issn.1000-1565.2016.06.014

2016-01-03

教育部人文社會科學(xué)研究規(guī)劃基金項目(14YJAZH055);中央司法警官學(xué)院青年教師學(xué)術(shù)創(chuàng)新團(tuán)隊資助項目

馬國富(1974—),男,河北保定人,中央司法警官學(xué)院副教授,主要從事信息安全、機(jī)器學(xué)習(xí)方向研究.E-mail:magf2003@126.com

TP393.08

A

1000-1565(2016)06-0657-10

猜你喜歡
離群服刑人員危險性
一種基于鄰域粒度熵的離群點檢測算法
O-3-氯-2-丙烯基羥胺熱危險性及其淬滅研究
危險性感
輸氣站場危險性分析
基于AHP對電站鍋爐進(jìn)行危險性分析
服刑人員生育權(quán)論要
一種相似度剪枝的離群點檢測算法
大選登記
“三釋課堂”為新入監(jiān)服刑人員上好“第一課”
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用