□鐘 政
(中國(guó)人民公安大學(xué),北京 100038))
(一)大數(shù)據(jù)的概念和特點(diǎn)。隨著物聯(lián)網(wǎng)、云計(jì)算以及社交網(wǎng)絡(luò)的迅速興起,大數(shù)據(jù)時(shí)代正式到來(lái)。目前學(xué)界對(duì)于大數(shù)據(jù)還沒(méi)有統(tǒng)一的定義。全球知名的咨詢公司麥肯錫在2011年6月份發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告《Big data:The next frontier for innovation,competition,and productivity》,[1]報(bào)告對(duì)大數(shù)據(jù)的應(yīng)用領(lǐng)域和發(fā)展前景都進(jìn)行了詳細(xì)的分析。維基百科對(duì)大數(shù)據(jù)的定義為:巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工在合理時(shí)間內(nèi)截取、管理、處理并整理成為人類所能解讀的信息。
對(duì)于大數(shù)據(jù)的特征,目前學(xué)界常用4 個(gè)V 來(lái)表示。首先是數(shù)據(jù)體量巨大(volume)。據(jù)IDC 報(bào)告顯示,過(guò)去幾年全球數(shù)據(jù)量以每年58%的速度增長(zhǎng),預(yù)計(jì)到2020年,全球數(shù)據(jù)總量將為2011年的22 倍,達(dá)到40ZB 之多(1ZB=4 萬(wàn)億GB)。其次是數(shù)據(jù)類型繁多(variety)。伴隨著數(shù)據(jù)量的增長(zhǎng),數(shù)據(jù)的類型也發(fā)生了變化,除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)正逐漸成為數(shù)據(jù)的主要類型。數(shù)據(jù)類型的豐富也給后期的分析處理帶來(lái)了全新的挑戰(zhàn)。再者是數(shù)據(jù)處理速度快(velocity)。完善的設(shè)備和科學(xué)的算法使得數(shù)據(jù)的處理更加迅速,亞馬遜基于大數(shù)據(jù)所推薦的用戶偏好商品,在用戶點(diǎn)擊鼠標(biāo)的瞬間就能傳達(dá)給消費(fèi)者。最后是數(shù)據(jù)價(jià)值密度低(value)。大數(shù)據(jù)已突破了傳統(tǒng)視野下對(duì)數(shù)據(jù)規(guī)模的認(rèn)識(shí),大數(shù)據(jù)處理技術(shù)通過(guò)構(gòu)建算法和模型進(jìn)而從海量的數(shù)據(jù)中發(fā)掘有效信息,如同“大海撈針”一樣。所以,相比數(shù)據(jù)整體的龐大,有效數(shù)據(jù)是微乎其微的,這也構(gòu)成了大數(shù)據(jù)價(jià)值密度低的特點(diǎn)。
(二)大數(shù)據(jù)的核心價(jià)值。大數(shù)據(jù)的核心價(jià)值是預(yù)測(cè)性分析。2009年,互聯(lián)網(wǎng)巨頭谷歌公司利用5000 萬(wàn)條美國(guó)人的檢索數(shù)據(jù)成功預(yù)測(cè)了甲型H1N1流感的爆發(fā)。2013年,Netflix 公司翻拍了《紙牌屋》,利用大數(shù)據(jù)來(lái)預(yù)測(cè)觀眾喜好,以此來(lái)決定拍什么、誰(shuí)來(lái)拍、由誰(shuí)演等,該劇一經(jīng)播出就大獲好評(píng)?!抖Y記·中庸》有云:凡事預(yù)則立,不預(yù)則廢。大數(shù)據(jù)的興起讓預(yù)測(cè)性分析成為現(xiàn)實(shí),使得人們能更好地為未來(lái)做好準(zhǔn)備。
(三)大數(shù)據(jù)的應(yīng)用現(xiàn)狀。目前大數(shù)據(jù)主要運(yùn)用在商業(yè)領(lǐng)域。如亞馬遜基于大數(shù)據(jù),通過(guò)協(xié)同過(guò)濾算法計(jì)算出消費(fèi)者的偏好類型,在消費(fèi)者點(diǎn)擊或者購(gòu)買某件商品后向其推薦類似商品,以此增加產(chǎn)品銷量。傳統(tǒng)零售商沃爾瑪也開(kāi)始將大數(shù)據(jù)運(yùn)用到日常銷售中去,通過(guò)對(duì)商品的銷量進(jìn)行相關(guān)性分析,得出了颶風(fēng)過(guò)后手電筒和蛋撻的銷量呈正相關(guān)關(guān)系的結(jié)論,在擺架的時(shí)候?qū)烧叻旁谝黄疬M(jìn)而增加營(yíng)業(yè)額。
與此同時(shí),大數(shù)據(jù)也開(kāi)始在警務(wù)領(lǐng)域嶄露頭角。如美國(guó)加州桑塔克魯茲市利用大數(shù)據(jù)構(gòu)建了犯罪預(yù)測(cè)系統(tǒng),對(duì)犯罪區(qū)域和犯罪時(shí)段進(jìn)行預(yù)測(cè)并部署警力進(jìn)行巡邏,大幅度降低了犯罪率。同樣,在美國(guó)波士頓馬拉松爆炸案中,警方通過(guò)摸底排隊(duì)搜集私人錄像和照片,并通過(guò)社交網(wǎng)站等向公眾征集相關(guān)信息,最后通過(guò)大數(shù)據(jù)的查詢比對(duì),在獲取犯罪嫌疑人的圖像后成功抓捕了犯罪嫌疑人。隨著情報(bào)主導(dǎo)警務(wù)在世界范圍內(nèi)的普及和運(yùn)用,大數(shù)據(jù)必將在情報(bào)的搜集和處理中發(fā)揮重要作用。目前,國(guó)內(nèi)有關(guān)將大數(shù)據(jù)運(yùn)用于情報(bào)主導(dǎo)警務(wù)的研究還很欠缺,有待更深一步的探索和發(fā)掘。
(一)基于大數(shù)據(jù)的情報(bào)主導(dǎo)警務(wù)發(fā)展趨勢(shì)。隨著全球經(jīng)濟(jì)一體化進(jìn)程的加速,跨國(guó)有組織犯罪、恐怖主義犯罪以及毒品犯罪日益猖獗,傳統(tǒng)反應(yīng)式的以偵查為主的警務(wù)模式,囿于屬地管轄的限制和警力資源不足的問(wèn)題,已經(jīng)很難適應(yīng)新形勢(shì)下打擊違法犯罪的要求。因此,情報(bào)主導(dǎo)警務(wù)應(yīng)運(yùn)而生。杰瑞·萊特克里菲對(duì)情報(bào)主導(dǎo)警務(wù)的定義為:情報(bào)主導(dǎo)警務(wù)是一種業(yè)務(wù)模式和管理理念。[2]有別于傳統(tǒng)的警務(wù)模式,情報(bào)主導(dǎo)警務(wù)模式更強(qiáng)調(diào)情報(bào)研判的重要性,通過(guò)情報(bào)產(chǎn)品來(lái)主動(dòng)出擊,實(shí)現(xiàn)精確打擊,但在實(shí)踐中也發(fā)現(xiàn)了不少問(wèn)題:一是部分情報(bào)人員錯(cuò)誤地將信息采集當(dāng)作情報(bào)主導(dǎo)警務(wù),而忽略了分析研判的核心價(jià)值。二是在分析研判的過(guò)程中,由于過(guò)多地受個(gè)人經(jīng)驗(yàn)的干擾,導(dǎo)致情報(bào)產(chǎn)品缺乏客觀性和科學(xué)性。三是地區(qū)之間、國(guó)家之間,由于文化和地域的隔離,情報(bào)信息之間不能及時(shí)共享,形成信息孤島的現(xiàn)象。而大數(shù)據(jù)的出現(xiàn),無(wú)疑將全面革新情報(bào)主導(dǎo)警務(wù)模式。由于技術(shù)的升級(jí)和設(shè)備的完善,基于大數(shù)據(jù)的情報(bào)主導(dǎo)警務(wù)可以充分挖掘海量數(shù)據(jù)中的情報(bào)信息,一方面通過(guò)構(gòu)建模型和算法來(lái)降低人工干預(yù),另一方面通過(guò)構(gòu)建數(shù)據(jù)分享平臺(tái)來(lái)打破信息壁壘,加速情報(bào)共享。
(二)基于大數(shù)據(jù)的情報(bào)主導(dǎo)警務(wù)模式工作流程。大數(shù)據(jù)時(shí)代的到來(lái),在引起社會(huì)深刻變革的同時(shí),也給公安工作帶來(lái)了全新的機(jī)遇。大數(shù)據(jù)技術(shù)的日趨成熟,使得情報(bào)信息的分析研判更加便捷和精確。對(duì)此,筆者對(duì)大數(shù)據(jù)時(shí)代背景下的情報(bào)主導(dǎo)警務(wù)模式進(jìn)行了構(gòu)思。(如下圖所示)
大數(shù)據(jù)背景下的情報(bào)主導(dǎo)警務(wù)模式圖
1.數(shù)據(jù)采集。數(shù)據(jù)采集是情報(bào)主導(dǎo)警務(wù)開(kāi)展的基礎(chǔ)。傳統(tǒng)的數(shù)據(jù)采集需要情報(bào)人員進(jìn)行初級(jí)篩選,情報(bào)人員在拿到數(shù)據(jù)時(shí)需要預(yù)先判斷其是否為有用信息進(jìn)而決定是否錄入,這種工作方式不僅耗費(fèi)了大量時(shí)間,而且不能避免由于認(rèn)識(shí)缺陷所造成的數(shù)據(jù)樣本不足。而在大數(shù)據(jù)時(shí)代,得益于存儲(chǔ)以及處理設(shè)備的不斷升級(jí),可以擷取總體數(shù)據(jù)來(lái)替代樣本數(shù)據(jù)。因此,公安部門為了得到更為精確的情報(bào)產(chǎn)品,可以擴(kuò)大數(shù)據(jù)的采集范圍。除了傳統(tǒng)的公安數(shù)據(jù)包括旅館住宿人員數(shù)據(jù)、在逃人員數(shù)據(jù)、車輛出入卡口數(shù)據(jù)等,還應(yīng)將社會(huì)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)納入到采集范圍。社會(huì)數(shù)據(jù)包括銀行交易數(shù)據(jù)、通信數(shù)據(jù)、出行數(shù)據(jù)等,而網(wǎng)絡(luò)數(shù)據(jù)則包括社交網(wǎng)絡(luò)數(shù)據(jù)、即時(shí)通訊數(shù)據(jù)、電子郵件數(shù)據(jù)等。
由于部門和區(qū)域之間信息壁壘的存在,公安部門的情報(bào)采集工作往往不夠全面,更不用說(shuō)社會(huì)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)的整合了。然而,大數(shù)據(jù)技術(shù)的出現(xiàn)使得公安部門可以通過(guò)搭建數(shù)據(jù)共享平臺(tái)的方式,及時(shí)采集包括社會(huì)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)等在內(nèi)的多方數(shù)據(jù)。因此,基于大數(shù)據(jù)的情報(bào)采集工作有別于傳統(tǒng)的隨機(jī)樣本法,更加注重?cái)?shù)據(jù)的全面性。
2.數(shù)據(jù)處理。隨著經(jīng)濟(jì)社會(huì)的不斷發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)迅速增長(zhǎng),并取代結(jié)構(gòu)化數(shù)據(jù)成為主要的數(shù)據(jù)類型。據(jù)統(tǒng)計(jì),只有5%的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),而剩下的95%則為非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)包括了文本、圖片以及視頻信息等,難以用二維邏輯表來(lái)表現(xiàn)。由于前期數(shù)據(jù)采集規(guī)模龐大,數(shù)據(jù)的來(lái)源多種多樣,不可避免地會(huì)出現(xiàn)數(shù)據(jù)重復(fù)、數(shù)據(jù)錯(cuò)誤或數(shù)據(jù)沖突的現(xiàn)象。因此,對(duì)數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析之前,需要對(duì)數(shù)據(jù)進(jìn)行清洗、過(guò)濾和轉(zhuǎn)換等過(guò)程。
3.數(shù)據(jù)發(fā)掘。作為大數(shù)據(jù)的最初使用者和受益者,國(guó)際互聯(lián)網(wǎng)巨頭諸如甲殼蟲(chóng)、微軟、亞馬遜等都相繼研發(fā)出了大數(shù)據(jù)分析工具?;贖adoop 這一分布式系統(tǒng)基礎(chǔ)構(gòu)架,公安部門同樣可以開(kāi)發(fā)出符合情報(bào)主導(dǎo)警務(wù)需求的大數(shù)據(jù)分析工具。在數(shù)據(jù)處理的基礎(chǔ)上,通過(guò)各種算法的計(jì)算得到所要預(yù)測(cè)的結(jié)果。這一過(guò)程的挑戰(zhàn)在于,由于數(shù)據(jù)挖掘的算法非常復(fù)雜,再加上所涉及的數(shù)據(jù)體量極其龐大,因此,需要專業(yè)的技術(shù)人員進(jìn)行操作。
4.模型預(yù)測(cè)。通過(guò)以上大數(shù)據(jù)的分析處理過(guò)程,進(jìn)而得出情報(bào)主導(dǎo)警務(wù)所需要的情報(bào)產(chǎn)品。從性質(zhì)上來(lái)說(shuō),模型預(yù)測(cè)結(jié)果可以分為犯罪預(yù)測(cè)、治安防控以及反恐預(yù)警等方面。一是在犯罪預(yù)測(cè)方面,通過(guò)數(shù)據(jù)分析犯罪嫌疑人行為的規(guī)律性和關(guān)聯(lián)性等,進(jìn)而發(fā)出預(yù)警。二是在治安防控方面,通過(guò)對(duì)人流、車輛以及住宿人員等數(shù)據(jù)的聯(lián)機(jī)分析,對(duì)治安問(wèn)題實(shí)施有效預(yù)警。三是在反恐預(yù)警方面,借助大數(shù)據(jù)分析工具可以共享各國(guó)的情報(bào)并加以分析,進(jìn)而有針對(duì)性地預(yù)警,以此來(lái)保障國(guó)家和社會(huì)安全。
從類型上來(lái)看,模型預(yù)測(cè)結(jié)果又可以分為時(shí)段預(yù)測(cè)和地域預(yù)測(cè)。時(shí)段預(yù)測(cè)通過(guò)歷史數(shù)據(jù)建模,再結(jié)合現(xiàn)有數(shù)據(jù)分析比對(duì),預(yù)測(cè)出犯罪的高發(fā)時(shí)段。地域預(yù)測(cè)同樣通過(guò)大數(shù)據(jù)的運(yùn)算,將犯罪區(qū)域的分布進(jìn)行可視化,從而更好地協(xié)助警方進(jìn)行警力部署,提前防范。
5.評(píng)估反饋。大數(shù)據(jù)建模是一個(gè)不斷矯正和完善的過(guò)程,這是因?yàn)榇髷?shù)據(jù)分析工具與人的關(guān)系是相輔相成的。一方面,分析系統(tǒng)需要排除人工經(jīng)驗(yàn)的干擾,實(shí)現(xiàn)數(shù)據(jù)的客觀分析;另一方面,分析系統(tǒng)又需要人工交互來(lái)實(shí)現(xiàn)算法和模型的不斷調(diào)整,以適應(yīng)不斷變化的社會(huì)治安形勢(shì)。
前期的數(shù)據(jù)建模是建立在歷史數(shù)據(jù)和復(fù)雜算法的基礎(chǔ)之上的,在后期實(shí)施情報(bào)預(yù)警的過(guò)程中,一旦發(fā)現(xiàn)情報(bào)出現(xiàn)錯(cuò)誤,需要立即矯正數(shù)據(jù)模型和算法。這對(duì)情報(bào)工作人員提出了挑戰(zhàn),他們需要不間斷跟蹤記錄情報(bào)預(yù)警,發(fā)現(xiàn)錯(cuò)誤后又要及時(shí)反饋給系統(tǒng)設(shè)計(jì)人員,從而進(jìn)行調(diào)試和矯正。基于大數(shù)據(jù)的情報(bào)主導(dǎo)警務(wù)系統(tǒng),就是通過(guò)這樣不斷循環(huán)往復(fù)的評(píng)估反饋過(guò)程逐漸完善,從而實(shí)現(xiàn)對(duì)情報(bào)的精確分析的。
大數(shù)據(jù)作為新興技術(shù),其在公安工作上的應(yīng)用還剛起步。因此,為了更好地發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì),需要從以下幾個(gè)方面進(jìn)行完善。
(一)樹(shù)立大數(shù)據(jù)工作意識(shí)。《關(guān)于全面深化公安改革若干重大問(wèn)題的框架意見(jiàn)》中,全面深化公安改革共有七個(gè)方面的主要任務(wù)。其中一個(gè)重要的任務(wù)就是要?jiǎng)?chuàng)新社會(huì)治安治理機(jī)制,并提出了健全情報(bào)信息主導(dǎo)警務(wù)機(jī)制等方面的要求。而大數(shù)據(jù)時(shí)代的帶來(lái),為情報(bào)主導(dǎo)警務(wù)機(jī)制的完善帶來(lái)了新的契機(jī)。因此,公安人員在今后的工作中,要轉(zhuǎn)變傳統(tǒng)的情報(bào)思維方式,樹(shù)立大數(shù)據(jù)工作意識(shí)。首先,要注重培養(yǎng)“樣本≠總體”的意識(shí)。傳統(tǒng)的隨機(jī)抽樣會(huì)因?yàn)闃颖具x取的多少而影響最終結(jié)果的精確性,而大數(shù)據(jù)時(shí)代的到來(lái)使得數(shù)據(jù)的整體分析成為可能。其次,要注重培養(yǎng)“相關(guān)關(guān)系”的意識(shí)。通過(guò)相關(guān)關(guān)系的分析可能使兩者看似無(wú)關(guān)的信息之間確立相關(guān)關(guān)系。因此,要摒棄對(duì)于因果關(guān)系的偏執(zhí),培養(yǎng)相關(guān)關(guān)系的意識(shí)。最后,要注重培養(yǎng)評(píng)估反饋意識(shí)。大數(shù)據(jù)分析工具的算法和模型都是人工搭建的,情報(bào)預(yù)測(cè)失準(zhǔn)不可避免。因此,要培養(yǎng)評(píng)估反饋意識(shí),根據(jù)實(shí)時(shí)預(yù)測(cè)結(jié)果不斷矯正系統(tǒng),以實(shí)現(xiàn)精確預(yù)警。
(二)完善大數(shù)據(jù)警務(wù)平臺(tái)。以大數(shù)據(jù)為依托構(gòu)建的警務(wù)平臺(tái),需要不斷更新完善來(lái)適應(yīng)社會(huì)治安形勢(shì)的變化。一方面,要確保數(shù)據(jù)來(lái)源速度快、范圍廣。這就要求情報(bào)收集人員在收集數(shù)據(jù)時(shí),盡可能地將更多的社會(huì)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)囊括進(jìn)來(lái),并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)傳輸和實(shí)時(shí)分析,確保情報(bào)產(chǎn)品的及時(shí)性。另一方面,基于大數(shù)據(jù)的警務(wù)平臺(tái)要破除信息壁壘,實(shí)現(xiàn)不同部門、區(qū)域之間的情報(bào)信息的無(wú)障礙共享,以應(yīng)對(duì)新形勢(shì)下情報(bào)主導(dǎo)警務(wù)的需求。
(三)培養(yǎng)大數(shù)據(jù)應(yīng)用人才。一是要培養(yǎng)一批大數(shù)據(jù)應(yīng)用方面的公安人才。這些人既能準(zhǔn)確收集所需要的數(shù)據(jù),又能在情報(bào)產(chǎn)品輸出后給予正確的評(píng)估反饋。同時(shí),這些人還要負(fù)責(zé)預(yù)警后的處理工作,確保預(yù)警信息及時(shí)傳送到相關(guān)部門。二是要培養(yǎng)一批大數(shù)據(jù)方面的技術(shù)人才。這些人在熟悉公安業(yè)務(wù)的同時(shí),還要有統(tǒng)計(jì)學(xué)、高等數(shù)學(xué)、計(jì)算機(jī)科學(xué)等方面的相關(guān)背景,除了構(gòu)建大數(shù)據(jù)警務(wù)平臺(tái)外,還要負(fù)責(zé)平臺(tái)的日常維護(hù)和安全保障。
(四)規(guī)范大數(shù)據(jù)使用方式。隨著大數(shù)據(jù)技術(shù)的運(yùn)用,公民越來(lái)越多的個(gè)人數(shù)據(jù)被采集,而相關(guān)的法律法規(guī)卻還是一片空白。對(duì)此,公安人員在運(yùn)用大數(shù)據(jù)實(shí)現(xiàn)情報(bào)預(yù)警的同時(shí),需要逐步規(guī)范使用方式。首先,情報(bào)的檢索和查閱需要按照級(jí)別來(lái)分類,只有達(dá)到一定級(jí)別的公安人員才有權(quán)限查看。對(duì)于一些涉及公民個(gè)人隱私和國(guó)家安全的數(shù)據(jù),更要注重?cái)?shù)據(jù)的安全保護(hù)。其次,在數(shù)據(jù)收集的過(guò)程中,對(duì)于法律未規(guī)定而又涉及個(gè)人隱私的數(shù)據(jù),要及時(shí)向上級(jí)領(lǐng)導(dǎo)報(bào)告,在獲得批準(zhǔn)后才能錄入系統(tǒng)進(jìn)行聯(lián)機(jī)分析。最后,系統(tǒng)輸出的情報(bào)預(yù)警信息也要加密處理,防止情報(bào)預(yù)警信息泄露或者被不法分子竊取利用。
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(1):146-169.
[2]杰瑞·萊特克里菲[英].情報(bào)主導(dǎo)警務(wù)[M].崔嵩譯.北京:中國(guó)人民公安大學(xué)出版社,2010:74-77.
浙江警察學(xué)院學(xué)報(bào)2015年3期