邱凌峰,胡嘯峰,周 睿, 顧海碩,唐 正,鄭超慧,張學(xué)軍
(1.中國人民公安大學(xué) 信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院,北京 102623;2.安全防范技術(shù)與風(fēng)險評估公安部重點實驗室,北京 102623;3.清華大學(xué) 工程物理系,北京 100084;4.清華大學(xué) 公共安全研究院,北京 100084)
2017年4月,中共中央、國務(wù)院決定在河北設(shè)立雄安新區(qū),這是以習(xí)近平總書記為核心的黨中央作出的一項重大歷史性戰(zhàn)略選擇,是千年大計、國家大事。
隨著雄安新區(qū)的建設(shè)和發(fā)展,當(dāng)?shù)氐娜丝诮Y(jié)構(gòu)和周邊環(huán)境等將會發(fā)生巨大改變,并由此帶來一系列的社會安全問題[1]。《河北雄安新區(qū)規(guī)劃綱要》(以下簡稱《綱要》)中明確提出,要構(gòu)筑“現(xiàn)代化城市安全體系”,提高針對公共安全領(lǐng)域的突發(fā)事件的監(jiān)測預(yù)警和應(yīng)急處置能力。作為突發(fā)事件中的第4大類,針對社會安全事件的預(yù)警和防控工作將是構(gòu)筑“現(xiàn)代化城市安全體系”的一項重要內(nèi)容。社會安全事件的誘發(fā)主體往往是人,具有較強不確定性,其安全風(fēng)險是動態(tài)變化的,預(yù)測和預(yù)防的難度較大,因此,針對社會安全事件的預(yù)測預(yù)警研究十分必要。
盜竊犯罪是一個比重巨大,并且嚴(yán)重影響社會安全的世界性和歷史性的隱患,嚴(yán)重消耗著社會資源,是一類典型的社會安全事件。這一全國乃至全球普遍存在的犯罪形式,同樣也成為雄安新區(qū)必將要面對的社會安全風(fēng)險。據(jù)全國數(shù)據(jù)統(tǒng)計,2013—2017年,檢察機(jī)關(guān)起訴的刑事犯罪嫌疑人中,盜竊犯罪達(dá)146.3萬人,排名第1,占比超過25%[2]。因此,針對盜竊犯罪的治理工作將有助于降低雄安新區(qū)面臨的社會安全風(fēng)險,對保護(hù)人民財產(chǎn)安全、維持社會穩(wěn)定具有重要意義。在盜竊犯罪嫌疑人中,盜竊前科人員再犯罪問題突出,常反復(fù)作案,且作案手段隱蔽、高超,涉案金額往往較大。在盜竊案高發(fā),而社會治安資源有限的情況下,針對盜竊前科人員進(jìn)行預(yù)警,從而重點治理,能夠提高社會治安資源利用率,震懾其他盜竊人員,并降低盜竊犯罪風(fēng)險。
本文利用脫密處理后的A市2012—2016年盜竊犯罪數(shù)據(jù),基于多種機(jī)器學(xué)習(xí)模型,構(gòu)建盜竊前科人員分類預(yù)測模型,并根據(jù)預(yù)測結(jié)果進(jìn)一步挖掘盜竊人員的作案規(guī)律。A市與雄安新區(qū)同處華北平原腹地,城市間距離較近,交通便利,地貌、氣候、水文等地理環(huán)境具有很高的相似度。A市是我國北方的一線中心城市,經(jīng)濟(jì)、文化發(fā)達(dá),人口高度密集,雄安新區(qū)的發(fā)展定位為未來的首都副中心,經(jīng)濟(jì)、文化、人口密度極可能達(dá)到與A市相當(dāng)?shù)乃?,成為京津冀地區(qū)的核心城市區(qū)域,社會環(huán)境也具有相似性?;谧匀慌c社會環(huán)境的相似性,宏觀上可以推斷,2個城市整體的流動人口規(guī)模與密度、安全防范水平、重點人員跨地域作案動機(jī)、作案成本等多種風(fēng)險要素也可能具有較高的相似性。因此,利用A市數(shù)據(jù)進(jìn)行盜竊犯罪發(fā)生規(guī)律的研究,將有助于雄安新區(qū)在建立社會安全防控體系的過程中識別、歸納共性問題,有針對性地提出預(yù)防措施,完善警務(wù)、應(yīng)急以及綜合治理系統(tǒng)的頂層設(shè)計方案。
在此基礎(chǔ)上,根據(jù)《綱要》的要求,針對研究過程中的數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析及研究結(jié)果中的數(shù)據(jù)挖掘規(guī)律,提出對雄安新區(qū)構(gòu)建基于數(shù)據(jù)驅(qū)動的社會安全事件預(yù)測預(yù)警和綜合研判系統(tǒng)的思考及建議。
在國內(nèi)外相關(guān)研究中,基于數(shù)據(jù)主導(dǎo)的犯罪預(yù)測取得了良好的效果[3-4]。文獻(xiàn)[5]基于統(tǒng)計學(xué)的方法,利用犯罪人員的定罪歷史預(yù)測3種類型的累犯;文獻(xiàn)[6]基于隨機(jī)森林,利用定罪數(shù)量,年齡,犯罪類型,犯罪歷史的多樣性和藥物濫用等特征對患有精神障礙人員進(jìn)行分類預(yù)測;文獻(xiàn)[7]基于樸素貝葉斯,利用發(fā)案的日期和地點,犯罪類型,罪犯ID和熟人等特征預(yù)測嫌疑人犯罪風(fēng)險;文獻(xiàn)[8]通過罪犯、犯罪目標(biāo)、犯罪環(huán)境3個因素預(yù)測犯罪發(fā)生的可能性;文獻(xiàn)[9]基于支持向量機(jī),利用案件信息及受害者身份信息,預(yù)測犯罪嫌疑人的身份特征;文獻(xiàn)[10]基于改進(jìn)的GA-BP神經(jīng)網(wǎng)絡(luò),利用案件信息、人口及經(jīng)濟(jì)信息、土地利用信息等,對財產(chǎn)犯罪的時空分布進(jìn)行預(yù)測;文獻(xiàn)[11]基于隨機(jī)森林,利用刑事案件中罪犯的特征,預(yù)測可能的犯罪嫌疑人。
已有研究為基于數(shù)據(jù)主導(dǎo)的犯罪預(yù)測提供了豐富的方法和思路,但是,這些研究利用的信息大多是在確定了嫌疑人身份后才能獲得的,如:年齡、犯罪歷史、熟人等。而在大多數(shù)情況下,盜竊事件發(fā)生后,嫌疑人的身份是未知的,能獲取的信息只有案發(fā)的時間、地點、盜竊手段和損失金額。針對該問題,本文基于多種機(jī)器學(xué)習(xí)方法,利用發(fā)案時間、發(fā)案地點、實施手段和損失金額作為特征,對盜竊人員進(jìn)行分類預(yù)測。
本文首先從盜竊犯罪數(shù)據(jù)中提取出發(fā)案時間、發(fā)案地點、實施手段和損失金額作為特征,預(yù)處理后,按時間順序?qū)?shù)據(jù)集劃分為訓(xùn)練集和測試集,然后利用測試集檢驗訓(xùn)練好的模型,最后利用表現(xiàn)最優(yōu)的模型進(jìn)行結(jié)果分析,具體流程如圖1所示。
圖1 盜竊前科人員預(yù)測流程Fig.1 Forecast flow chart for Larceny Ex-convict
本文選取A市2012—2016年的實際盜竊案數(shù)據(jù)進(jìn)行盜竊前科人員的分類預(yù)測研究。其中數(shù)據(jù)集共包括7 772條案件信息,每條數(shù)據(jù)包含案件信息和案犯類型(初犯累犯慣犯),按照盜竊事件發(fā)生后可獲得的信息維度,提取出“發(fā)案時間”、“發(fā)案地點”、“實施手段”和“損失金額”共4個特征,對盜竊人員的類型進(jìn)行分類預(yù)測。
數(shù)據(jù)集中的盜竊前科人員為此次犯罪之前受過刑罰處罰的盜竊人員,類型包括初犯、累犯和慣犯3種。累犯是在此次犯罪之前已受過刑罰處罰的前科人員;初犯和慣犯為初次受到刑罰處罰的前科人員,其中,慣犯的歷次犯罪行為未被發(fā)現(xiàn)、處理和登記,也是初次受到刑罰處罰,慣犯的犯罪規(guī)律有可能與初犯和累犯存在差異。本文基于大量數(shù)據(jù),挖掘規(guī)律性較強的盜竊犯罪特征,累犯數(shù)據(jù)的隨機(jī)性低于初犯和慣犯,再犯罪規(guī)律預(yù)期更為顯著,因此,對其作案規(guī)律的探索意義大于初犯和慣犯,本文在算法的性能評估中重點關(guān)注模型對累犯的預(yù)測精度。
因此,本文對盜竊前科人員作案規(guī)律的研究,包括了累犯、初犯、慣犯3種,但考慮到研究的現(xiàn)實意義與犯罪規(guī)律的魯棒性,對累犯進(jìn)行重點挖掘。3.1節(jié)發(fā)現(xiàn)累犯的預(yù)測精度很高,而初犯和慣犯的精度較低,印證了上文的觀點,即累犯作案的規(guī)律性可能強于初犯與慣犯。
本文預(yù)處理工作是將“發(fā)案時間”、“發(fā)案地點”和“實施手段”的原有數(shù)據(jù)類型轉(zhuǎn)化為整型數(shù)據(jù),從“簡要案情”中提取出損失金額,將初犯、累犯、慣犯分別標(biāo)記為0,1,2,預(yù)處理后的數(shù)據(jù)樣式如表1所示。
表1 數(shù)據(jù)樣式Table1 Data pattern
由于“發(fā)案時間”、“發(fā)案地點”和“實施手段”原有分類過多,導(dǎo)致模型預(yù)測準(zhǔn)確性不高,本文根據(jù)數(shù)據(jù)類型特點,結(jié)合公安工作經(jīng)驗,對這3個特征進(jìn)行歸類后,模型的分類預(yù)測精度明顯提升,參見3.1內(nèi)容。
2.2.1 實施手段處理
實施手段指盜竊人員進(jìn)行盜竊時使用的方法,如剪門掛鎖、順手牽羊等共90多種??紤]不同類型的盜竊人員作案經(jīng)驗的不同,選擇的手段可能具有差異性,將“實施手段”分為4類。其中,“其他類”標(biāo)記為“4”(該類型為記錄時無法確定具體使用的盜竊手段);將有破壞行為的手段標(biāo)記為“3”(包括通過破壞車、門、窗等破壞手段盜竊房屋或車內(nèi)物品);將有扒竊行為的手段標(biāo)記為“1”;不包含破壞行為和扒竊行為的手段標(biāo)記為“2”,如表2所示。
表2 實施手段分類Table 2 Classification of means
2.2.2 發(fā)案時間處理
原始數(shù)據(jù)中的發(fā)案時間精確到“年/月/日/時/分”,種類達(dá)到了幾千種,采用原始分類會導(dǎo)致分類準(zhǔn)確性下降;現(xiàn)實中,失主發(fā)現(xiàn)物品被盜與案件發(fā)生的時間往往具有不一致性,采用原有發(fā)案時間也會對結(jié)果分析帶來一定的偏差。因此,本文將時間分析的尺度調(diào)整為1天中的4個時段,結(jié)果如表3所示。
表3 發(fā)案時間分類Table 3 Classification of duration
2.2.3 發(fā)案地點處理
發(fā)案地點指盜竊人員實施盜竊的地點,原始分類共90多種,如:地鐵站、商場、網(wǎng)吧和賓館等。根據(jù)公安實習(xí)經(jīng)驗,手法熟練的扒手往往會在人流量大的車站實施盜竊;有經(jīng)驗的盜竊人員知道網(wǎng)吧里上網(wǎng)的人戒備心較低,放在桌上的手機(jī)容易盜走。本文按照人流量大小、安保力量多少和市民在該地點所持的戒備心高低,將“發(fā)案地點”分為4類,結(jié)果如表4所示。
表4 發(fā)案地點分類Table 4 Classification of location
其中,大型公共場所包括汽車站、醫(yī)院等;商業(yè)地區(qū)包括商場、繁華街道等;休閑娛樂場所包括網(wǎng)吧、KTV等;住所包括賓館、居民小區(qū)等。
2.2.4 損失金額處理
損失金額指案件被盜物品的價值,其大小可能影響不同類型盜竊人員的選擇。原始數(shù)據(jù)中,簡要案情記錄了案件發(fā)生的經(jīng)過,其中包括丟棄的物品名稱和估價,主要分為3種類型:“包含丟失物品的估價”、“沒有估價但包含物品的品牌”、“沒有估價和品牌但有丟失物品名稱”,如:
1)丟失蘋果牌土豪金色6PLUS手機(jī),價值5 000元。
2)丟失蘋果5手機(jī)。
3)丟失手機(jī)。
將上述3類數(shù)據(jù)標(biāo)記為“1”、“0”、“2”,并采用正則表達(dá)式提取出金額或被盜物品的品牌。對類型“1”賦值“5000”;對類型“0”,提取出“蘋果5”,并與建立好的字典“蘋果5:4000”進(jìn)行匹配,賦值“4000”;類型“2”屬于缺失值,由于數(shù)量較多,用類型“0”和“1”中的頻繁項進(jìn)行插補,結(jié)果如表5所示。
表5 損失金額分類Table 5 Classification of loss of the victim
由于類型“2”具有較大的不確定性,針對該不確定性,本文進(jìn)行了敏感性分析。統(tǒng)計發(fā)現(xiàn),“損失金額”75%的值集中在3 000到60 000,在該區(qū)間內(nèi),以500為步長,對類型“2”進(jìn)行賦值,每次賦值后都進(jìn)行5折交叉驗證。根據(jù)結(jié)果顯示,交叉驗證準(zhǔn)確率變化的標(biāo)準(zhǔn)差較小(0.003 3),說明分類結(jié)果對類型“2”的賦值不敏感。
2.2.5 不平衡數(shù)據(jù)處理
原始數(shù)據(jù)中,初犯、累犯和慣犯的數(shù)量分別為:4 488,906和2 378條,具有一定的不平衡性,這容易導(dǎo)致模型對初犯和慣犯學(xué)習(xí)較好,而對累犯(盜竊前科人員)的預(yù)測效果不理想[12-14],因此,本文利用SMOTE算法對累犯樣本進(jìn)行采樣處理。
SMOTE算法[15]首先對少數(shù)類樣本進(jìn)行分析,對其中的每1個樣本 ,以歐氏距離為標(biāo)準(zhǔn)計算其到所有少數(shù)類樣本的距離,并得到其K近鄰數(shù)據(jù)點,在此基礎(chǔ)上,根據(jù)原始數(shù)據(jù)樣本的不平衡比例,設(shè)置采樣比,從而確定采樣倍率。進(jìn)而,對于每1個少數(shù)類樣本,從其K近鄰數(shù)據(jù)點中隨機(jī)選擇若干樣本,并分別與原始數(shù)據(jù)樣本按照如下式(1)生成新的樣本數(shù)據(jù)。
Χnew=Χ+rand(0,1)×|Χ-Χn|
(1)
式中:Χn為Χ的K近鄰數(shù)據(jù)點,Χnew為新的樣本數(shù)據(jù)。
利用SMOTE算法處理后,初犯、累犯和慣犯的數(shù)據(jù)量依次是4 488,2 721和2 378條,數(shù)據(jù)不平衡性得到了降低。
數(shù)據(jù)集劃分考慮實戰(zhàn)應(yīng)用的場景:歷史數(shù)據(jù)用于訓(xùn)練模型,利用訓(xùn)練好的模型對新數(shù)據(jù)進(jìn)行分類預(yù)測,2者之間存在時序性。本文選取2012—2015年的數(shù)據(jù)作為訓(xùn)練集(共9 172條,其中初犯4 367條,累犯2 538條,慣犯2 267條),2016年的數(shù)據(jù)作為測試集(共415條,其中初犯121條,累犯183條,慣犯111條)。
本文選取查準(zhǔn)率(Precision)、查全率(Recall)和F1作為評價指標(biāo)[16-17]。其中,累犯的查準(zhǔn)率表示“預(yù)測為累犯的盜竊人員中有多少是真的累犯”;查全率表示“所有的累犯中有多少被正確預(yù)測”;當(dāng)這2項指標(biāo)難以直觀比較時,根據(jù)F1評價模型的預(yù)測精度,該值綜合了查準(zhǔn)率和查全率,F(xiàn)1為1時,代表模型的綜合性能最好,為0時性能最差;3項指標(biāo)的計算如式(2)~(4)所示。
Precision=TP/(TP+FP)
(2)
Recall=TP/(TP+FN)
(3)
F1=2×Precision×Recall/(Precision+Recall)
(4)
式中:TP表示被正確分類為正樣本數(shù);FP表示被錯誤分類的負(fù)樣本數(shù);FN表示被錯誤分類的正樣本數(shù)。
由于建模的目標(biāo)是預(yù)測盜竊前科人員,對比不同機(jī)器學(xué)習(xí)算法時只關(guān)注其對累犯的預(yù)測精度。利用python3.6中的Scikit-learn開源機(jī)器學(xué)習(xí)模型庫實現(xiàn)邏輯斯蒂[18]、支持向量機(jī)[19]、決策樹[20]、隨機(jī)森林[21]、K近鄰[22]和樸素貝葉斯[23]共6種機(jī)器學(xué)習(xí)模型的建立,并計算模型在測試集上對累犯的預(yù)測精度,結(jié)果如表6所示。
表6 不同算法對累犯預(yù)測精度的比較Table 6 Comparison of prediction accuracy of recidivism by different algorithms
由表6可知,隨機(jī)森林在預(yù)測累犯時性能最優(yōu),3項指標(biāo)均達(dá)到了0.85。決策樹和樸素貝葉斯模型有某1項指標(biāo)較高,但綜合指標(biāo)F1只有0.6左右。
利用sklearn.metrics模塊的classification_report功能計算隨機(jī)森林模型對3類盜竊前科人員的分類預(yù)測結(jié)果,如表7所示。
根據(jù)表7,特征歸類后隨機(jī)森林模型預(yù)測3類盜竊前科人員的F1分別為0.66,0.86和0.64,較歸類前提高了0.18,0.33和0.40,說明2.2節(jié)的歸類是合理的。對比發(fā)現(xiàn),模型對累犯的預(yù)測精度明顯高于初犯、慣犯,說明2012—2016年間,盜竊前科人員作案可能具有穩(wěn)定性和明顯的規(guī)律性。
表7 隨機(jī)森林分類預(yù)測結(jié)果Table 7 Classification and prediction results of random forests
根據(jù)表7中歸類后的預(yù)測精度,認(rèn)為測試集中被正確分類的盜竊前科人員(尤其是累犯)的作案規(guī)律具有代表性。篩選出被正確分類的盜竊前科人員,統(tǒng)計其“發(fā)案時間”、“發(fā)案手段”、“地點”中各類型(類型“1”、“2”、“3”、“4”)占比及造成損失的均值,結(jié)果如表8所示。
表8 3類盜竊前科人員發(fā)案規(guī)律統(tǒng)計Table 8 Statistics on the law of three types of larceny ex-convict
注:手段1~4類型見表2;時間1~4類型見表3;地點1~4類型見表4;損失均值為損失金額的平均值。
由表8可知,累犯的作案規(guī)律與初犯、慣犯明顯不同。累犯造成的損失均值為5 885元,比初犯和慣犯都高了2 000多元;“實施手段”方面,累犯很少選擇破壞性的手段(類型“3”)且扒手較多;“發(fā)案地點”方面,累犯幾乎不會選擇大型公共場所和住所(類型“1”、“4”),而初犯的選擇沒有明顯的偏好;“發(fā)案時間”方面,具有多次作案經(jīng)歷的累犯和慣犯幾乎都選擇下午時段(類型“3”)。綜上所述,相比于初犯和慣犯,累犯的作案規(guī)律更為顯著,對前科人員的作案規(guī)律挖掘更具有參考意義。根據(jù)累犯的作案規(guī)律,盜竊前科人員很可能偏好選擇下午時段和人流量大的地區(qū)實施盜竊,另外,扒竊案高發(fā)的地區(qū)也可能是盜竊前科人員作案的熱點地區(qū)。這一規(guī)律可以為雄安新區(qū)的治安巡邏區(qū)域劃分、防控力量布局等社會治安防控工作提供決策支持。
雄安新區(qū)的設(shè)立是我國重大的戰(zhàn)略選擇,需要結(jié)合先進(jìn)的技術(shù)手段保障其長期、穩(wěn)定的安全發(fā)展?!毒V要》中明確提出,“要利用信息智能等技術(shù),構(gòu)建全時全域、多維數(shù)據(jù)融合的城市安全監(jiān)控體系,形成人機(jī)結(jié)合的智能研判決策和響應(yīng)能力”。本文利用多種機(jī)器學(xué)習(xí)算法,使用實際盜竊犯罪數(shù)據(jù),對盜竊前科人員進(jìn)行分類預(yù)測,進(jìn)而根據(jù)預(yù)測結(jié)果進(jìn)行分析,挖掘盜竊前科人員作案的時空熱點。該方法可以根據(jù)數(shù)據(jù)的變化不斷調(diào)整參數(shù),以保證預(yù)測的準(zhǔn)確性和穩(wěn)定性,是數(shù)據(jù)驅(qū)動下社會安全風(fēng)險預(yù)測的一種嘗試。雄安新區(qū)的社會安全防控體系建設(shè)需要較長的迭代周期,其面臨的社會安全風(fēng)險需要大量的人力、物力、財力支撐,警務(wù)資源、應(yīng)急資源的合理化、集約化應(yīng)用具有重要意義,本文的研究提供針對類似社會安全問題的規(guī)律挖掘框架,有助于自動化地發(fā)掘類似社會安全問題的發(fā)生規(guī)律,有助于針對性地部署和調(diào)整警務(wù)與應(yīng)急資源,提高智能研判決策和響應(yīng)能力,符合《綱要》的要求,也對應(yīng)了雄安新區(qū)安全體系發(fā)展建設(shè)的獨特需求。
根據(jù)《綱要》的要求,雄安新區(qū)將要建設(shè)1套基于智能技術(shù)和多維數(shù)據(jù)的社會安全預(yù)測預(yù)警和綜合研判系統(tǒng)(以下簡稱“系統(tǒng)”)。結(jié)合研究過程中遇到的問題,本文針對該“系統(tǒng)”的前期建設(shè)和后期使用提出以下思考和建議。
1)制定統(tǒng)一的數(shù)據(jù)格式,保證數(shù)據(jù)的使用效率。隨著雄安新區(qū)建設(shè)的推進(jìn),“系統(tǒng)”將有大量數(shù)據(jù)接入,如人口數(shù)據(jù)、接警數(shù)據(jù)、天氣數(shù)據(jù)、金融數(shù)據(jù)和通信數(shù)據(jù)等,大規(guī)模的數(shù)據(jù)集可以為社會安全事件的準(zhǔn)確預(yù)測提供基礎(chǔ)保障。但建設(shè)前期如果不注重統(tǒng)一數(shù)據(jù)格式,各類數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)清洗工作會占用大量的時間和人力,嚴(yán)重降低數(shù)據(jù)的使用效率,導(dǎo)致“系統(tǒng)”后期使用的時效性大打折扣。以本文研究為例,本文使用數(shù)據(jù)中,存在著大量的缺失值與不規(guī)范問題,如:數(shù)據(jù)中對損失金額的描述為阿拉伯?dāng)?shù)字與繁體字混用,單位有“元”、“美元”、“美金”,利用正則表達(dá)式提取“損失金額”很難一步到位,需要將1個表格分為近30個表格,嚴(yán)重消耗時間和人力;對作案地點和作案手段進(jìn)行非數(shù)值特征轉(zhuǎn)化時,發(fā)現(xiàn)同一類特征有多種的表示方法(最多可達(dá)8~10種),將多種特征按規(guī)律進(jìn)行分類后,模型對累犯的預(yù)測精度顯著提高。綜上所述,數(shù)據(jù)缺乏統(tǒng)一的格式,將對“系統(tǒng)”的工作效率產(chǎn)生較大的影響。因此,雄安新區(qū)在“系統(tǒng)”的前期建設(shè)時,應(yīng)注重數(shù)據(jù)格式的統(tǒng)一(即數(shù)據(jù)類型、錄入格式等進(jìn)行統(tǒng)一規(guī)范),并通過大量訓(xùn)練結(jié)果的反饋不斷地完善這一數(shù)據(jù)格式,將有利于數(shù)據(jù)融合和綜合應(yīng)用,為“系統(tǒng)”的后期使用打下基礎(chǔ)。
2)實現(xiàn)數(shù)據(jù)實時接入,提高社會安全風(fēng)險的動態(tài)感知能力。社會安全風(fēng)險動態(tài)變化特征明顯,“系統(tǒng)”的數(shù)據(jù)接入也具有實時性要求。仍以本文研究為例,對預(yù)測結(jié)果的綜合研判后,發(fā)現(xiàn)累犯作案的時空熱點具有明顯規(guī)律性,這一規(guī)律很可能代表了盜竊前科人員的作案規(guī)律,按這一規(guī)律進(jìn)行巡邏區(qū)域劃分和防控力量部署,將很可能壓縮盜竊前科人員的作案空間,降低其作案風(fēng)險。同時,相關(guān)的防控工作也很可能影響盜竊前科人員的作案選擇,并由此帶來相關(guān)數(shù)據(jù)的變化。若能將相關(guān)數(shù)據(jù)實時輸入,“系統(tǒng)”就可以自動調(diào)整模型參數(shù),并將新形成的規(guī)律反饋至有關(guān)部門,為相關(guān)治安防控策略的改變和部署提供決策支持。因此,雄安新區(qū)“系統(tǒng)”的后期使用時,應(yīng)將新數(shù)據(jù)按一定的時間尺度進(jìn)行接入,交付系統(tǒng)模型進(jìn)行計算和綜合研判,相關(guān)部門可根據(jù)得出的規(guī)律進(jìn)行防控策略的實時調(diào)整,以應(yīng)對各類動態(tài)變化的社會安全風(fēng)險。
1)利用A市2012—2016年實際盜竊數(shù)據(jù),提取“發(fā)案時間”、“發(fā)案地點”、“實施手段”和“損失金額”作為特征,通過特征工程和SMOTE算法對數(shù)據(jù)進(jìn)行預(yù)處理,基于邏輯斯蒂、支持向量機(jī)、決策樹、隨機(jī)森林、K近鄰和樸素貝葉斯共6種機(jī)器學(xué)習(xí)模型,構(gòu)建分類預(yù)測模型,對盜竊人員進(jìn)行分類預(yù)測。結(jié)果顯示,隨機(jī)森林表現(xiàn)最優(yōu),預(yù)測累犯的查準(zhǔn)率、查全率和F1分別達(dá)到了0.86,0.85和0.86。
2)根據(jù)數(shù)據(jù)挖掘的結(jié)果,累犯的盜竊金額明顯高于初犯和慣犯;盜竊前科人員可能傾向于選擇下午時段和人流量大的地區(qū)實施盜竊。
3)提供針對類似社會安全問題的規(guī)律挖掘框架,有助于自動化地發(fā)掘類似社會安全問題的發(fā)生規(guī)律,有助于針對性地部署和調(diào)整警務(wù)與應(yīng)急資源,為雄安新區(qū)基于智能技術(shù)和多維數(shù)據(jù)的社會安全預(yù)測預(yù)警和綜合研判系統(tǒng)建設(shè)提供方法支撐,同時,根據(jù)本文研究過程和研究結(jié)果,對該系統(tǒng)的建設(shè)提出“制定統(tǒng)一的數(shù)據(jù)格式”和“實現(xiàn)數(shù)據(jù)實時接入”2方面的思考及建議,為雄安新區(qū)的“現(xiàn)代化城市安全體系”建設(shè)提供參考借鑒。