林強 林金山
摘要:不斷增長的犯罪率一直是每個國家發(fā)展過程中的最大障礙之一。近年來隨著大數(shù)據(jù)技術(shù)不斷地發(fā)展,能有效幫助解決刑事調(diào)查中出現(xiàn)的各類問題。文章描述了使用大數(shù)據(jù)技術(shù)分析呼叫數(shù)據(jù)記錄方案的需求,通過對嫌疑人的呼叫數(shù)據(jù)記錄進行分析和處理,找出嫌疑人之間的各種聯(lián)系,并產(chǎn)生其分析結(jié)論作為輸出,有效地促進了公安部門的辦案效率。經(jīng)理論分析可得該方案具有很好的效果和推廣價值。
關(guān)鍵詞:呼叫數(shù)據(jù)記錄;大數(shù)據(jù)技術(shù);刑事調(diào)查;犯罪率;信息安全
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-3044(2018)20-0003-02
1 背景
呼叫數(shù)據(jù)記錄CDR (Call data record)由各個電信公司通過使用各種呼叫監(jiān)控應(yīng)用程序產(chǎn)生非常大量的信息,CDR記錄了各個用戶的通信(如短信、通話時間、通話內(nèi)容等)中的細節(jié)而產(chǎn)生的數(shù)據(jù)記錄。一般來說,它是具有4V(Volume容量,Variety多樣,Velocity速度,Value價值)特性的數(shù)據(jù)[1]。CDR不僅數(shù)據(jù)量龐大,而且數(shù)據(jù)和結(jié)構(gòu)多樣化,還實時生成的速度超出任何計算。值得注意的是CDR包含了巨大的信息價值,常見的CDR主要由以下幾部分組成,見表1。
當一件案件發(fā)生后,在警方記錄和案件證據(jù)不足情況下,嫌犯的CDR對案件突破有很大的促進作用。本文中是利用這些數(shù)據(jù)來分析犯罪嫌疑人的CDR利用一定的算法,來發(fā)現(xiàn)罪犯。
2 研究內(nèi)容
利用犯罪嫌疑人的呼叫數(shù)據(jù)記錄(CDR),以便產(chǎn)生解決犯罪的線索。該方案不僅分析CDR,而且還利用各種CDR之間的各種模式,從而在犯罪解決方面產(chǎn)生顯著結(jié)果。在實施階段和部署階段之前需要解決許多挑戰(zhàn)。其中一個主要挑戰(zhàn)是數(shù)據(jù)機密性問題,本方案采用了基于用戶數(shù)據(jù)加密和隱私保護的基礎(chǔ)下進行分析和處理的。
傳統(tǒng)的獲取和分析CDR的一般程序包括:向服務(wù)提供商請求CDR,然后將這樣獲得的CDR移交給進行分析的受過培訓(xùn)的專業(yè)人員,最后經(jīng)過人工分析后,結(jié)果可能會得出一些有意義的結(jié)論,有助于警方向前邁進。在解決此種方法中存在的問題以及主要缺點,其目標是確保整體過程在時間、效率、努力、可擴展性和準確性等方面取得重大進展,通過使用大數(shù)據(jù)和數(shù)據(jù)挖掘的概念來實現(xiàn)這一目標,以重新組織呼叫記錄并提取重要的信息,這些信息可以作為案例破解者使用。
3 方案框架
設(shè)計方案在以實際分析需求為依據(jù)[2],設(shè)計一款CDR方案,主要包括兩個階段:
在第一階段,反犯罪要求上級機關(guān)處理各嫌疑人手機號碼的CDR。 這些請求經(jīng)過處理后從全局CDR中提取所需數(shù)據(jù)。公安部門根據(jù)實際需求向通信部門發(fā)出嫌疑人CDR數(shù)據(jù),即為Request階段;Process階段主要是通信部門在接到公安部門的數(shù)據(jù)請求后進行身份核實和授權(quán)的工作;Extract階段主要是指通信部門根據(jù)公安部門的需求從用戶CDR數(shù)據(jù)中提取出所需的CDR數(shù)據(jù);Generate階段主要內(nèi)容為將普通的CDR數(shù)據(jù)進行加密處理,設(shè)置陷門;Send階段主要工作為將Generate階段生成的特殊格式數(shù)據(jù)通過專屬通道傳輸該公安部門。
在第二階段中,根據(jù)反犯罪團隊輸入的標準和疑問,方案及時處理提取的CDR。 在此之后,各種算法以多種方式工作,以便生成可能指示更真實的正確方向的挖掘輸出。
此階段的工作主要是針對數(shù)據(jù)使用者(公安部門)。當公安部門(反犯罪部門)獲取到所請求的數(shù)據(jù)后,通過私有密鑰進行對該CDR數(shù)據(jù)解密操作。即Decryption階段;Cleaning階段主要是對第1步驟解密的CDR數(shù)據(jù)進行清洗和格式化,對一下不需要的指標進行刪除操作;Establishment階段的主要工作內(nèi)容為建立統(tǒng)一格式的CDR專用數(shù)據(jù)庫,建立數(shù)據(jù)庫的作用主要是為了提高數(shù)據(jù)分析的準確性;Multi-analysis階段主要內(nèi)容為對第4步驟的數(shù)據(jù)從專屬數(shù)據(jù)庫中讀取后進行多維分析和模型分析,其該對階段還包括對數(shù)據(jù)訓(xùn)練,從第4步中讀取的數(shù)據(jù)進行模型的訓(xùn)練;Result階段指分析結(jié)果得出。該方案不僅節(jié)省了大量的時間和人力,而且還提供了準確和適當?shù)慕Y(jié)論或推論的保證。
4 理論分析
上述方案的整體處理流程從CDR數(shù)據(jù)的請求,數(shù)據(jù)處理到最后的分析,并得出結(jié)果。參考圖3可以更好地理解這一點。全局CDR通過使用MapReduce技術(shù)進行存儲,該技術(shù)將文件分割成大塊并將其分布到群集中的節(jié)點上。數(shù)據(jù)存儲在鍵值對中,可以用數(shù)學方式表示如下:
步驟1:從全局CDR中提取信息,全局CDR存儲在HDFS中,HDFS是一個分布式,可擴展且可移植的文件方案,用Java編寫,用于Hadoop框架。所請求的手機號碼從該文件方案中提取,并存儲在一個單獨的CDR文件中,該文件包含僅限于這些號碼的CDR。
步驟2:將日志格式的CDR文件轉(zhuǎn)換為數(shù)據(jù)庫格式CDR文件為日志格式,因此需要轉(zhuǎn)換為數(shù)據(jù)庫格式以提供數(shù)據(jù)匯總,查詢和分析。 因此,使用Java API提取關(guān)鍵數(shù)據(jù)并將其存儲在Apache Hive數(shù)據(jù)倉庫中新創(chuàng)建的Hive表中。這可以通過使用MapReduce算法輕松實現(xiàn),其中MapReduce算法的輸入是鍵值對
步驟3:對此數(shù)據(jù)執(zhí)行分析并生成結(jié)果數(shù)據(jù)由Apache Hive支持進行分析。 根據(jù)受害者和嫌疑人之間的通話時間,在單個IMEI號碼上使用兩張SIM卡,事件發(fā)生前后嫌疑人的最后位置進行分析,以及事件的當前位置。這種分析可以通過嵌入在Apache Hadoop中的Java API來實現(xiàn),該API將基于所需標準觸發(fā)查詢并且涉及基于作為輸入給出的移動號碼的數(shù)量以及它們之間的通信的計算。 然后將最可疑的個人的最終結(jié)果作為輸出。[3]
通過與現(xiàn)有方案進行性能分析和對比,檢驗本文提出的方案的有效性。在本次分析中主要是從技術(shù)、經(jīng)濟、管理角度進行分析比對。Raj Kumar Vishwakarma提出的方案中分析各個CDR,通過利用聯(lián)系人之間的人際關(guān)系的密切程度,從而幫助防止恐怖主義[3]。Huiqi Zhang提出方案中通過使用親和力模型分析他們各自的數(shù)字的CDR,預(yù)測兩個電話號碼之間的社會聯(lián)系。 這些方案已根據(jù)以下參數(shù)進行了比較。[4]
(1)技術(shù)效率,即給定方案產(chǎn)出的有效性。通過時間復(fù)雜度(Time Complexity)和空間復(fù)雜度(space complexity)進行比較。
(2)資源效率,考慮到實施該方案所需的成本(cost)以及在多大程度上將效率降至最低的經(jīng)濟效率。
(3)管理效率,即方案可以輕松處理或維護。
5 結(jié)論與展望
大數(shù)據(jù)以得到各個領(lǐng)域的高度重視,包括安全,醫(yī)療保健,改善科學研究以及了解客戶行為。本文主要是以信息安全角度出發(fā),從呼叫數(shù)據(jù)記錄(CDR)提出一種可行的方案。分析和挖掘出CDR的重要價值,使其最大化其利用率。旨在通過使用大數(shù)據(jù)技術(shù)來應(yīng)對各種各樣的犯罪。為公安部門提供一種辦案有力的工具。同時也促進了整個社會安全穩(wěn)定的發(fā)展。經(jīng)過理論分析和與現(xiàn)有的方案進行對比得出本方案具有良好的效果,具有實際可行的效果。在未來的研究中將不斷地加大實驗為主,加快方案實施。為整個社會的平安做巨大貢獻。
參考文獻:
[1] Gabi Kedma. Analyzing users' web surfing patterns to trace terrorists and criminals, Intelligence and Security Informatics (ISI), pp. 143-145, June 2013.
[2] Shams Zawoad; Ragib Hasan, Digital Forensics in the Age of Big Data:Challenges, Approaches, and Opportunities, HPCC-CSS-ICESS, pp.1320-1325, August 2015.
[3] 吳威.公安內(nèi)網(wǎng)敏感信息安全監(jiān)管的實現(xiàn)方法[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(2):116-117.
[4] 韓欣毅. 特大型城市網(wǎng)絡(luò)信息安全監(jiān)管研究[D].上海交通大學,2013.
[5] 繆金祥.大數(shù)據(jù)時代公安機關(guān)網(wǎng)絡(luò)輿情的管控[J].新疆警察學院學報,2016,36(2):20-23.