徐耀勇 陳建逢
(廣州市公安局荔灣區(qū)分局指揮中心,廣東 廣州510100)
隨著信息海量化、多元化時(shí)代的到來,傳統(tǒng)方式的治安防控體系和偵察破案體系已逐漸被以大數(shù)據(jù)為核心的信息化新技術(shù)所取代。大數(shù)據(jù)已經(jīng)成為公安警務(wù)工作中各類業(yè)務(wù)數(shù)據(jù)、案件線索、電子證據(jù)的重要來源之一。分析大數(shù)據(jù)應(yīng)用的特點(diǎn),拓展大數(shù)據(jù)應(yīng)用領(lǐng)域可以進(jìn)一步從效率、質(zhì)量、動(dòng)力等方面推進(jìn)公安警務(wù)工作的變革。
國(guó)務(wù)院2015年印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》指出,大數(shù)據(jù)(Big Data)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)整合,對(duì)應(yīng)4V特性,即規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和價(jià)值性(value)。大數(shù)據(jù)是傳統(tǒng)數(shù)據(jù)資源的擴(kuò)展,是不同來源的基礎(chǔ)數(shù)據(jù)積累發(fā)展到一定的程度,形成的海量數(shù)據(jù),并利用現(xiàn)有的技術(shù)和手段實(shí)現(xiàn)數(shù)據(jù)的快速分析和處理。大數(shù)據(jù)是數(shù)據(jù)、技術(shù)與應(yīng)用三者的結(jié)合,通過采集匯聚更新海量數(shù)據(jù),建立數(shù)據(jù)資源庫(kù),進(jìn)一步應(yīng)用各種數(shù)據(jù)庫(kù)和程序分析處理技術(shù),關(guān)聯(lián)查詢、分析、統(tǒng)計(jì),深入挖掘數(shù)據(jù)潛在價(jià)值。
近幾年,大數(shù)據(jù)的發(fā)展和應(yīng)用在逐步推動(dòng)公安機(jī)關(guān)重新構(gòu)建立體化現(xiàn)代化社會(huì)治安防控體系,為現(xiàn)代警務(wù)機(jī)制的轉(zhuǎn)型升級(jí)帶來新的契機(jī),其深度應(yīng)用也將給公安工作帶來前所未有的機(jī)遇。利用大數(shù)據(jù),能夠轉(zhuǎn)變傳統(tǒng)的數(shù)據(jù)決策模式,推動(dòng)公安管理模式越趨智能化,能夠支撐事后被動(dòng)處置到事先主動(dòng)管理、靜態(tài)管理到動(dòng)態(tài)管理方式、從簡(jiǎn)單決定到科學(xué)決策的根本轉(zhuǎn)變,能夠促進(jìn)社會(huì)治理體制從碎片化到集成化轉(zhuǎn)變。
Z-Suite技術(shù)具有高性能的大數(shù)據(jù)分析能力,完全摒棄了向上升級(jí)(Scale-Up),全面支持橫向擴(kuò)展(Scale-Out)。Z-Suite主要通過以下核心技術(shù)來支撐PB級(jí)的大數(shù)據(jù):
(1) 跨粒度計(jì)算(In-Database Computing)。Z-Suite支持各種常見的匯總,還支持幾乎全部的專業(yè)統(tǒng)計(jì)函數(shù)。得益于跨粒度計(jì)算技術(shù),Z-Suite數(shù)據(jù)分析引擎將找尋出最優(yōu)化的計(jì)算方案,繼而把所有開銷較大的、昂貴的計(jì)算都移動(dòng)到數(shù)據(jù)存儲(chǔ)的地方直接計(jì)算。這一技術(shù)大大減少了數(shù)據(jù)移動(dòng),降低了通訊負(fù)擔(dān),保證了高性能數(shù)據(jù)分析。
(2)并行計(jì)算(MPP Computing)。Z-Suite是基于MPP架構(gòu)的商業(yè)智能平臺(tái),能夠把計(jì)算分布到多個(gè)計(jì)算節(jié)點(diǎn),再在指定節(jié)點(diǎn)將計(jì)算結(jié)果匯總輸出。Z-Suite能夠充分利用各種計(jì)算和存儲(chǔ)資源,充分發(fā)揮各個(gè)節(jié)點(diǎn)的計(jì)算能力,輕松實(shí)現(xiàn)針對(duì)TB/PB級(jí)數(shù)據(jù)分析的秒級(jí)響應(yīng)。
(3)列存儲(chǔ)(Column-Based)。Z-Suite是列存儲(chǔ)的。不讀取無關(guān)數(shù)據(jù),降低讀寫開銷,同時(shí)提高I/O的效率,從而大大提高查詢性能。另外,壓縮數(shù)據(jù),一般壓縮比在5~10倍之間,數(shù)據(jù)占有空間降低到傳統(tǒng)存儲(chǔ)的1/5到1/10。良好的數(shù)據(jù)壓縮技術(shù),節(jié)省了存儲(chǔ)設(shè)備和內(nèi)存的開銷,卻大大提升了計(jì)算性能。
(4)內(nèi)存計(jì)算。得益于列存儲(chǔ)技術(shù)和并行計(jì)算技術(shù),Z-Suite能夠大大壓縮數(shù)據(jù),并同時(shí)利用多個(gè)節(jié)點(diǎn)的計(jì)算能力和內(nèi)存容量。內(nèi)存計(jì)算是對(duì)傳統(tǒng)數(shù)據(jù)處理方式的一種加速。
大數(shù)據(jù)本質(zhì)是應(yīng)用多種現(xiàn)代信息化技術(shù)手段,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)資源的采集、存儲(chǔ)、分析和應(yīng)用管理,主要采用以下幾種技術(shù)手段:
(1)云技術(shù)。大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要分布式處理框架來向數(shù)十、數(shù)百或甚至數(shù)萬的電腦分配工作。如今出現(xiàn)了一種行之有效的模式:云計(jì)算提供基礎(chǔ)架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用運(yùn)行在這個(gè)平臺(tái)上。云計(jì)算技術(shù)包括:虛擬化技術(shù)、布式處理技術(shù)、海量數(shù)據(jù)的存儲(chǔ)和管理技術(shù)、NoSQL、實(shí)時(shí)流數(shù)據(jù)處理、智能分析技術(shù)(類似模式識(shí)別以及自然語言理解)等等。
(2)分布式處理技術(shù)。分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁有不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)用通信網(wǎng)絡(luò)連接起來,在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)調(diào)地完成信息處理任務(wù)。例如淘寶的海量數(shù)據(jù)產(chǎn)品技術(shù)架構(gòu)分為五個(gè)層次:數(shù)據(jù)源、計(jì)算層、存儲(chǔ)層、詢層和產(chǎn)品層,這五個(gè)層次擁有不同數(shù)據(jù),具有不同功能,在控制系統(tǒng)指令下,統(tǒng)一、協(xié)調(diào)完成各項(xiàng)數(shù)據(jù)的處理任務(wù)。
(3)存儲(chǔ)技術(shù)。大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析,這是兩種截然不同的計(jì)算機(jī)技術(shù)領(lǐng)域:大數(shù)據(jù)存儲(chǔ)致力于研發(fā)可以擴(kuò)展至PB甚至EB級(jí)別的數(shù)據(jù)存儲(chǔ)平臺(tái);大數(shù)據(jù)分析關(guān)注在最短時(shí)間內(nèi)處理大量不同類型的數(shù)據(jù)集。
(4)感知技術(shù)。大數(shù)據(jù)的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù)、指紋識(shí)別技術(shù)、RFID技術(shù)、坐標(biāo)定位技術(shù)等為基礎(chǔ)的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。這些感知被逐漸捕獲的過程就是世界被數(shù)據(jù)化的過程,一旦世界被完全數(shù)據(jù)化了,那么世界的本質(zhì)也就是信息了。
當(dāng)前公安大數(shù)據(jù)廣泛應(yīng)用于打擊防范和治安管理等方面,具體涉及查詢分析、案件偵辦以及信息預(yù)警等業(yè)務(wù)。
統(tǒng)計(jì)查詢是公安大數(shù)據(jù)應(yīng)用最傳統(tǒng)和最基礎(chǔ)的應(yīng)用方式。主要利用歷史信息和現(xiàn)實(shí)數(shù)據(jù),了解當(dāng)前某一領(lǐng)域的現(xiàn)實(shí)狀況。
關(guān)聯(lián)分析可以看成是數(shù)據(jù)挖掘的一種,是目前公安大數(shù)據(jù)的重要應(yīng)用方式,其重點(diǎn)不在于發(fā)現(xiàn)因果要素,而是發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而進(jìn)行深度分析應(yīng)用。
預(yù)測(cè)預(yù)判預(yù)警是公安大數(shù)據(jù)應(yīng)用的發(fā)展方向??梢酝ㄟ^數(shù)據(jù)的采集、分析、統(tǒng)計(jì)、挖掘等等,建立起合適的數(shù)據(jù)應(yīng)用模型,從數(shù)據(jù)的關(guān)聯(lián)關(guān)系入手,推導(dǎo)出事件和數(shù)據(jù)的相關(guān)以及因果關(guān)系,從而實(shí)現(xiàn)針對(duì)某項(xiàng)數(shù)據(jù)一定時(shí)期內(nèi)的趨勢(shì)走向做出預(yù)測(cè),對(duì)危險(xiǎn)信號(hào)提前做出預(yù)警,指導(dǎo)預(yù)防工作的走向。
大數(shù)據(jù)應(yīng)用并不局限于原有的基礎(chǔ)信息采集、戶政出入境、單一統(tǒng)計(jì)查詢、聯(lián)網(wǎng)辦公辦案等傳統(tǒng)業(yè)務(wù),同時(shí)也催生了警務(wù)管理和實(shí)戰(zhàn)方式的變革,不斷完善大數(shù)據(jù)架構(gòu)和應(yīng)用體系。
隨著高清視頻監(jiān)控和智能監(jiān)控的應(yīng)用普及,現(xiàn)有的公安大數(shù)據(jù)資源已從傳統(tǒng)的基于人、屋、單位等類別的結(jié)構(gòu)化數(shù)據(jù)到混合了機(jī)構(gòu)化和視頻圖片等非結(jié)構(gòu)化數(shù)據(jù)的海量數(shù)據(jù)轉(zhuǎn)變,數(shù)據(jù)種類越趨多樣化,這對(duì)當(dāng)前公安信息化存儲(chǔ)應(yīng)用體系提出了挑戰(zhàn),原有的大容量存儲(chǔ)技術(shù)方案已經(jīng)不適合海量數(shù)據(jù)高速讀寫的要求。對(duì)這些海量數(shù)據(jù)進(jìn)行全方位的存儲(chǔ)和利用必須要進(jìn)行存儲(chǔ)架構(gòu)的升級(jí),建立應(yīng)用分布式存儲(chǔ)和分布式執(zhí)行引擎等大數(shù)據(jù)技術(shù)的專門的高性能數(shù)據(jù)中心,通過對(duì)物理資源(CPU、存儲(chǔ)、網(wǎng)絡(luò)等)虛擬化和資源池,對(duì)資源進(jìn)行整合利用。當(dāng)前比較流行的Hadoop、MPP數(shù)據(jù)庫(kù)、內(nèi)存計(jì)算、流式計(jì)算、搜索都屬于大數(shù)據(jù)技術(shù)的范疇。
數(shù)據(jù)價(jià)值挖掘首先需要對(duì)現(xiàn)有的信息化業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行技術(shù)重構(gòu),將基于傳統(tǒng)數(shù)據(jù)庫(kù)SQL語句查詢的數(shù)據(jù)分析方式轉(zhuǎn)變?yōu)榛诖髷?shù)據(jù)查詢的方式,并將非結(jié)構(gòu)化數(shù)據(jù)如視頻數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)等方式,解決大數(shù)據(jù)請(qǐng)求服務(wù)響應(yīng)速度慢的問題,確保業(yè)務(wù)系統(tǒng)數(shù)據(jù)的高效流轉(zhuǎn),從而為公安大數(shù)據(jù)的數(shù)據(jù)價(jià)值發(fā)現(xiàn)和挖掘奠定基礎(chǔ)。深化數(shù)據(jù)挖掘一方面是針對(duì)結(jié)構(gòu)化的公安業(yè)務(wù)類數(shù)據(jù)進(jìn)行綜合利用,通過深度挖掘關(guān)聯(lián)數(shù)據(jù)模型,如同類案件發(fā)案時(shí)間段出入人員車輛軌跡,數(shù)據(jù)上升下降趨勢(shì)預(yù)測(cè)發(fā)展方向等,從而發(fā)現(xiàn)數(shù)據(jù)的潛在價(jià)值。另一方面是針對(duì)非結(jié)構(gòu)化數(shù)據(jù)如視頻、圖片等,在轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后進(jìn)行數(shù)據(jù)的碰撞和比對(duì),發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)等。
傳統(tǒng)的公安業(yè)務(wù)數(shù)據(jù)資源加上社會(huì)資源數(shù)據(jù),構(gòu)成了多種相互關(guān)聯(lián)的數(shù)據(jù)資源,為數(shù)據(jù)創(chuàng)新應(yīng)用打下了基礎(chǔ)。大數(shù)據(jù)的一個(gè)重要特點(diǎn)就是價(jià)值密度低,單一類型的數(shù)據(jù)是無法發(fā)揮出其應(yīng)有的潛在價(jià)值的,只有將不同的數(shù)據(jù)放在一起相互碰撞,才能體現(xiàn)其數(shù)據(jù)價(jià)值。如在管控工作領(lǐng)域,利用某類重點(diǎn)人員居住登記地,分析人員關(guān)系發(fā)現(xiàn)潛在人員;利用金融銀行數(shù)據(jù)發(fā)現(xiàn)頻繁開戶和注銷的異常的人員數(shù)據(jù)發(fā)現(xiàn)犯罪線索;利用供電用電數(shù)據(jù)發(fā)現(xiàn)用電異常的場(chǎng)所;利用通信運(yùn)營(yíng)商數(shù)據(jù)和公安業(yè)務(wù)數(shù)據(jù)碰撞發(fā)現(xiàn)非實(shí)名登記人員情況;利用實(shí)有人口數(shù)據(jù)協(xié)助城市管理規(guī)劃等。