許 鋒 單大國
(中國刑事警察學院聲像資料檢驗技術系 遼寧 沈陽 110035)
目前監(jiān)控視頻向著網(wǎng)絡化、高清化、數(shù)字化、智能化快速發(fā)展,監(jiān)控質(zhì)量的提高、線路和存儲時間的增加,使得涉案視頻資料和勘查信息海量增長,非結(jié)構(gòu)化數(shù)據(jù)的存儲需求日益突出,傳統(tǒng)存儲方式已無法滿足其爆炸性需求增長[1]。同時由于影像資料取證、管理不規(guī)范,使得影像資料無法形成完整統(tǒng)一證據(jù)鏈條,只能作為偵查線索使用,極大影響了對犯罪分子的有力打擊[2-3]。 上述情況使得規(guī)范、科學、合理的管理這些海量、復雜、異構(gòu)的涉案視頻影像資料成為公安部門沉重的負擔,是當下視頻偵查部門亟待解決的關鍵性問題。
隨著目前信息技術從“互聯(lián)網(wǎng)時代”進入“大數(shù)據(jù)時代”,存儲技術發(fā)生了翻天覆地的改變,云存儲技術應運而生,其自身的優(yōu)勢克服了傳統(tǒng)存儲設備容量有限、擴展難、異構(gòu)數(shù)據(jù)存儲、管理難及訪問效率低等缺陷[4]。本研究基于Linux集群技術,利用Hadoop構(gòu)建底層云存儲,設計并開發(fā)了涉案視頻資料存儲云平臺,深入研究了平臺的使用需求、總體框架模型及各功能模塊,從而滿足海量涉案視頻影像資料合理、科學、高效存儲和管理的需要。
云存儲是大數(shù)據(jù)時代中的新型存儲模式,可以將不同位置、不同種類的存儲器通過網(wǎng)絡連通,在分布式計算、集群應用及網(wǎng)格技術的支撐下,為相關用戶提供數(shù)據(jù)存儲和業(yè)務訪問[5-6]。本文針對規(guī)模化視頻監(jiān)控存儲模式,實現(xiàn)了集中式存儲,提供空間的統(tǒng)一命名,異構(gòu)環(huán)境下集中存儲,分布式集群并發(fā)功能,相對于傳統(tǒng)存儲模式,其優(yōu)勢有:用戶前期無需購買大量高性能的服務器設備,后期也無需專業(yè)人員對設備進行管理和維護,降低用戶成本;各種存儲器被集中管理,依據(jù)帶寬及剩余空間統(tǒng)一分配存儲空間,極大的提高了存儲器的利用率和存儲效率;系統(tǒng)利用自適應算法添加硬件及節(jié)點,在不影響現(xiàn)有用戶使用的前提下,快速便捷地擴充存儲空間和用戶數(shù)量;系統(tǒng)中數(shù)據(jù)的完整性及可靠性是首要前提,利用數(shù)據(jù)自動備份機制,避免各種特殊原因造成的數(shù)據(jù)丟失,從而提高容災能力;利用手機、電腦及平板等智能終端,用戶通過認證登錄云存儲系統(tǒng),可不受地域束縛、便捷的獲取相關數(shù)據(jù)。
由Apache基金會組織開發(fā)的Hadoop系統(tǒng)具有良好的可擴展性、穩(wěn)定性和容錯性,其充分借鑒了Google 公司大規(guī)模分布式數(shù)據(jù)存儲、MapReduce計算框架、可擴展的文件分布系統(tǒng)技術,是目前最為流行的開源云平臺。Hadoop充分利用并行計算、網(wǎng)格技術等軟件處理方式,將海量數(shù)據(jù)保存在大量廉價存儲器上[7-8]。
2.2.1 HDFS
HDFS(Hadoop Distributed File System)是分布式計算中數(shù)據(jù)存儲管理的基礎,專門針對流數(shù)據(jù)訪問方式和超大文件處理需求而研發(fā),并且可運行于廉價存儲器之上。其自身的高容錯性、可擴展性、高吞吐率等特點保障了超大數(shù)據(jù)存儲過程中數(shù)據(jù)的完整性和可靠性,為使用者提供了更多的便利。HDFS采用Master/Slave的架構(gòu)存儲數(shù)據(jù),由Client、NameNode、DataNode和Secondary NameNode4個部分組成。在文件上傳過程中一個一個的Block被Client切分,進而存儲;HDFS 的名稱空間、數(shù)據(jù)信息、副本的配置策略及客戶端讀寫請求由NameNode負責管理;DataNode執(zhí)行數(shù)據(jù)塊的讀/寫操作;Secondary NameNode輔助NameNode,分擔其工作量,定期合并fsimage和fsedits,并推送給NameNode。
2.2.2 MapReduce
MapReduce是一個離線計算框架,主要思想是移動計算,在有數(shù)據(jù)存儲的機器上運行編寫完成的程序,從而達到各個任務端進行分析計算,數(shù)據(jù)不發(fā)生移動的效果。MapReduce的主導設計理念是一主多從,Jobtracker被布置于主節(jié)點之上,主要職責是調(diào)度及分配相應的子任務使之運行于TaskTracker上。而TaskTracker則被布置于從節(jié)點上,其職責為接收并執(zhí)行map task或reduce task任務。MapReduce通常包括split、map、fetch和reduce4個執(zhí)行過程。
2.2.3 HBase數(shù)據(jù)庫
HBase(Hadoop Database)是分布式的、開源的、非關系型、面向列的數(shù)據(jù)庫,具有稀疏性、可伸縮、高可靠性和高性能等特點。HBase中以行鍵為唯一標識,類似于關系型數(shù)據(jù)庫中的主鍵。HBase中的列以列族為單化,列可以在使用時動態(tài)添加,列名由列族名和修飾符組成。HBase數(shù)據(jù)模型主要支持Get、Put、Scan和Delete這4個操作。
隨著警用及社會類監(jiān)控網(wǎng)絡的不斷發(fā)展,產(chǎn)生了大量視頻電子數(shù)據(jù),既有結(jié)構(gòu)化數(shù)據(jù),更包含大量非機構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)。針對目前的實際情況,利用Hadoop分布式技術,對海量的涉案影像資料數(shù)據(jù)進行高效處理、存儲至可擴展的分布式數(shù)據(jù)庫中,進而搭建易擴展、高效能的存儲管理系統(tǒng),使影像資料形成完整統(tǒng)一證據(jù)鏈條,為后續(xù)司法訴訟提供支持。
刑事案件視頻現(xiàn)場勘查采集的相關資料種類繁多、文件格式多樣,主要包括涉案視頻影像及MD5校驗碼、監(jiān)控點信息(位置、朝向、歸屬、格式、時差等)、現(xiàn)場勘查及詢問筆錄、視頻現(xiàn)場分布圖、提取證據(jù)通知單、相關證據(jù)的檢驗鑒定、涉案手機基站信息、手機通訊錄及話單詳情、網(wǎng)絡數(shù)據(jù)、賓館登記信息、高速公路通行數(shù)據(jù)信息、公共交通卡信息、銀行卡及取款機交易記錄信息等。平臺主要面向公安一線干警,可將需求細化成本平臺的總體目標和性能要求:解決現(xiàn)場勘查得到的大量視頻、文檔、音頻、照片等各類格式訴訟證據(jù)存儲與備份問題;支持廉價PC做為服務器,提供橫向擴展存儲空間功能,節(jié)省硬件費用;基于數(shù)據(jù)分塊冗余和在線備份技術,管理海量的涉案影像及勘查信息數(shù)據(jù),為基層干警提供可靠、安全的數(shù)據(jù)存儲服務;為用戶提供多維度的資源管理、搜索、分類、共享等功能,支持圖片在線瀏覽、文檔在線編輯等功能;具有數(shù)據(jù)備份、數(shù)據(jù)同步、數(shù)據(jù)加密、數(shù)據(jù)恢復、數(shù)據(jù)共享、日志查看、案件資源及人員管理等功能。
涉案視頻資料存儲云平臺根據(jù)存儲數(shù)據(jù)自身特點,其邏輯架構(gòu)分為4層,如圖1所示。
圖1 涉案視頻資料云存儲邏輯架構(gòu)圖
3.2.1 資源層
本文中指的資源主要為物理資源(機房、數(shù)據(jù)中心及災難備援設備等),在分布式文件系統(tǒng)、網(wǎng)格技術及數(shù)據(jù)庫集群的支撐下,提供涉案視頻資料存儲云平臺的基礎資源。
3.2.2 服務層
控制服務層應用的訪問權限,為第三方開發(fā)者及用戶提供資源封裝和服務接口,通過service對資源層實現(xiàn)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲及管理、用戶數(shù)據(jù)同步、備份及恢復、數(shù)據(jù)格式轉(zhuǎn)換等功能。
3.2.3 應用層
應用層是涉案視頻資料存儲云平臺的核心部分,完成資源存儲、管理及業(yè)務操作。面向公安視頻偵查實戰(zhàn)部門用戶。通過各功能模塊,提供涉案視頻影像、現(xiàn)場勘查信息及涉案影像資料卷的在線操作。
3.2.4 接入層
用戶可以通過網(wǎng)絡(內(nèi)網(wǎng)或外網(wǎng)),使用電腦、平板、手機及其他系統(tǒng)等方式接入平臺,實現(xiàn)數(shù)據(jù)共享。
本涉案視頻資料云存儲平臺采用5臺PC電腦組建Hadoop集群,各電腦配置均為CPU雙核Intel(R)Core(TM) i5-3470 @ 3.20GH Z;內(nèi)存4.0GB;硬盤1TB。其中1臺電腦作為集群的主節(jié)點,其他4臺作為從節(jié)點,主機的IP設置為192.168.0.1,網(wǎng)關為255.255.255.0。
涉案視頻資料云存儲平臺的主要功能:案件目錄管理、平臺用戶管理、影像資料及文件管理、菜單標簽管理、卷宗生成功能、案件串并管理、數(shù)據(jù)管理和共享管理等功能模塊,如圖2所示。
圖2 涉案視頻資料云存儲平臺功能模塊圖
其核心功能如下:
影像資料及文件管理:針對涉案視頻影像及視頻現(xiàn)場勘查所涉及的數(shù)據(jù),提供上傳、下載及編輯功能,可完成word、excel及常見圖片格式的在線預覽,.mp4及.h264格式視頻在線播放,其中視頻現(xiàn)場勘查信息上傳頁面,如圖3所示,可完成涉案監(jiān)控點位的設備信息采集,包括所屬案件、分布圖上攝像頭編號、采集文件名、MD5碼、時間校正、視頻格式、GPS坐標、所屬單位、朝向及盲區(qū)、見證人、提取物證通知單及嫌疑目標等相關信息。
圖3 勘查信息上傳界面
數(shù)據(jù)管理:提供整個視頻證據(jù)云存儲平臺相關數(shù)據(jù)的處理,提供資料編輯、數(shù)據(jù)備份、數(shù)據(jù)恢復及數(shù)據(jù)同步等功能,其中數(shù)據(jù)備份頁面,如圖4所示,現(xiàn)實正在執(zhí)行的備份任務,包括文件大小、備份時間、備份類型、進度、狀態(tài)等實時信息。
圖4 數(shù)據(jù)備份界面
案件串并管理:實現(xiàn)相關案件串并的涉案信息及偵查人員的新增、刪除、修改及數(shù)據(jù)編輯等功能,串并案依據(jù)頁面,如圖5所示,選擇需要串并偵查的案件,根據(jù)案件偵破的實際需要提供常見的8種(技術檢驗、盜搶財務、作案手段、作案時間、作案工具、遺留物、痕跡附著物及DNA數(shù)據(jù))案件串并偵查功能,并提供案件串并資料匯總功能。
系統(tǒng)管理:利用管理員權限可實現(xiàn)人員信息管理、權限設置、存儲空間及運行日志查詢功能。其中人員信息管理,如圖6所示,包括對用戶名、姓名、單位、年齡、職務、最近訪問時間等信息的新建、編輯及刪除。存儲空間管理,如圖7所示,實時顯示云存儲平臺內(nèi)各個存儲器的使用狀況(包括硬盤空間、使用空間、剩余空間、存儲速率及最近訪問情況等),根據(jù)實時狀況合理分配存儲任務。
圖6 人員信息管理界面
圖7 存儲空間管理界面
本文基于Hadoop相關技術和系統(tǒng)架構(gòu)理論,整合了視頻偵查工作中采集的案件資源,通過改變傳統(tǒng)的存儲與檢索方式,利用綜合平臺的人性化界面功能,提高了視頻案件資源的存儲與檢索效率,激發(fā)了辦案人員對于案件數(shù)據(jù)和資料進行精細化梳理的積極性,增強了實戰(zhàn)辦案能力。在此基礎上,平臺實現(xiàn)了對離散數(shù)據(jù)和碎片化資源的結(jié)構(gòu)化整合,為案件后期的卷宗整理和證據(jù)鏈形成,提供了具體的方案設計和模型框架參照,在資源類型和網(wǎng)絡化模式等方面保證了平臺功能擴展的可行性。本平臺的核心功能針對視頻偵查資料的多樣性和豐富性,提供了安全可靠、高效率的處理和管理方案,平臺的研究作為公安工作信息化的有力補充,為視頻偵查工作節(jié)省了諸多的人力、物力和財力資源。