周安宏
(1.中通服咨詢設計研究院有限公司,江蘇 南京210000;2.重慶郵電大學,重慶400065)
基于hadoop的分布式架構包括:
(1)數(shù)據(jù)采集總線
負責數(shù)據(jù)的采集、整合、交互,實時、歷史結構化數(shù)據(jù)通過數(shù)據(jù)采集總線進入分布式數(shù)據(jù)庫,同時通過數(shù)據(jù)采集總線能實現(xiàn)關系型數(shù)據(jù)庫和大數(shù)據(jù)平臺的分布式數(shù)據(jù)庫之間的數(shù)據(jù)遷移。
(2)HDFS分布式文件系統(tǒng)
是一個運行在通用硬件上的可擴展、高容錯的大文件存儲系統(tǒng),能利用多臺存儲服務器分擔存儲負荷,適用于有著超大數(shù)據(jù)集的應用程序。
(3)Hbase分布式數(shù)據(jù)庫
Hbase是一種構建在HDFS之上的分布式、面向列的存儲系統(tǒng),它具有高可靠、高性能、面向列和可伸縮的特性,適用于存儲大表數(shù)據(jù)(表的規(guī)??梢赃_到數(shù)百億行以及數(shù)百萬列),并且對大表數(shù)據(jù)的讀、寫訪問可以達到實時級別。
(4)ElasticSearch全文搜索引擎
是一個基于Lucene的搜索引擎,能夠提供億級規(guī)模數(shù)據(jù)穩(wěn)定、可靠、快速、實時的搜索能力。
(5)YARN分布式資源管理
負責計算、存儲資源的管理,用以提高分布式集群環(huán)境下的資源利用率,例如內(nèi)存、IO、網(wǎng)絡、磁盤等資源,能為上層應用提供統(tǒng)一的資源管理、調(diào)度和監(jiān)督。
(6)Spark內(nèi)存計算框架
Spark是一套分布式計算框架,其核心是彈性分布式數(shù)據(jù)集,即在對同一個數(shù)據(jù)集反復運算時,能夠?qū)㈩l繁使用的中間數(shù)據(jù)存儲在內(nèi)存中,提升數(shù)據(jù)計算性能。
(7)Spark Streaming流式計算引擎
負責將流式任務轉(zhuǎn)換成一段一段的批處理作業(yè),即轉(zhuǎn)換成適用于內(nèi)存計算的彈性分布式數(shù)據(jù)集,以便在內(nèi)存中進行數(shù)據(jù)計算。
(8)SQL接口
是一套基于Spark SQL支持多種數(shù)據(jù)存儲、多種索引方式,具有良好資源分配與管理的OLAP(online analytical processing,在線聯(lián)機分析處理)系統(tǒng),可以為上層應用提供對數(shù)據(jù)的各項操作。
(9)分布式協(xié)作服務ZooKeeper
分布式協(xié)作是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),能提供集群節(jié)點間的事物協(xié)調(diào)服務,保證HDFS、HBase、Spark、Map/Reduce等分布式系統(tǒng)的安全可靠運行。
(10)HDH Manager平臺管理
負責為大數(shù)據(jù)平臺提供高可靠、安全、容錯、易用的集群管理服務,包括集群部署、集群管理、服務管理、任務管理、狀態(tài)監(jiān)控、用戶管理、告警管理、日志管理等。
云分析系統(tǒng)對前端采集的人臉圖片進行結構化分析處理,實現(xiàn)人臉結構化和人臉模型建設。
前端提取是指通過新建的人像感知網(wǎng),部署人臉抓拍單元,實時采集現(xiàn)場行人過往畫面,并對畫面中的人臉特征進行結構化描述,實現(xiàn)前端智能化分析;云端解析是指中心部署云解析系統(tǒng),通過人臉識別、分布式計算、CPU+GPU混合處理等技術方式,實現(xiàn)視頻流人臉云分析、人臉圖片云分析兩大功能,突破傳統(tǒng)技術在人臉數(shù)據(jù)分析、信息挖掘等方面的性能瓶頸。其中視頻流人臉云分析負責對前端推送的視頻進行智能化分析,通過視頻觸發(fā)方式對每一幀圖像中的過往行人的人臉進行檢測、抓拍,提取出視頻監(jiān)控中人臉圖片;人臉圖片云分析負責對人臉圖片進行特征識別和人臉模型建模,深度挖掘圖片中有用的人臉信息,系統(tǒng)示意圖如圖1所示。
圖1 人臉圖片云分析系統(tǒng)
采用大數(shù)據(jù)、云存儲技術,在中心設計人像資源庫,實現(xiàn)對海量人臉圖片類非結構化數(shù)據(jù)、人臉模型類半結構化數(shù)據(jù),以及人臉特征屬性、索引等結構化數(shù)據(jù)的集中存儲,提供快速的數(shù)據(jù)比對分析,挖掘更多地數(shù)據(jù)關聯(lián)信息,為公安業(yè)務處理和決策提供信息化技術支撐。
人臉大數(shù)據(jù)要求是面向海量人臉結構化數(shù)據(jù)存儲、檢索、分析,通過數(shù)據(jù)分析挖掘,可以提供人臉屬性快速查詢、以臉搜臉、身份確認、人臉查重、人員行為軌跡分析等功能。
(1)人臉查詢:支持通過時間段、監(jiān)控點、人臉屬性等條件進行模糊查詢;
(2)以臉搜臉:支持通過單個或多個人臉模型進行相似度的匹配檢索;
(3)身份確認:支持通過人臉大庫模型比對確認目標人臉身份;
(4)人臉查重:支持在同一人臉庫或兩個不同人臉庫中查詢相似人臉;
(5)分析模塊:支持靜態(tài)庫、抓拍庫碰撞(刑嫌人員、涉黑惡人員庫),支持一人多證分析、串并案分析、軌跡分析等多種應用。
人臉圖像云分析系統(tǒng)平臺架構如圖2所示。
人臉大數(shù)據(jù)中心通過視圖庫網(wǎng)關級聯(lián)上下級人臉數(shù)據(jù)。
如圖3所示,下級人臉系統(tǒng)通過私有接口把本級人臉數(shù)據(jù)推送至本級視頻圖像信息數(shù)據(jù)庫網(wǎng)關中,由視頻圖像信息數(shù)據(jù)庫網(wǎng)關統(tǒng)一轉(zhuǎn)換成數(shù)據(jù)流,上傳至上級視頻圖像信息數(shù)據(jù)庫網(wǎng)關;上級視頻圖像信息數(shù)據(jù)庫網(wǎng)關接收標準轉(zhuǎn)換人臉數(shù)據(jù),按照私有接口推送至本級人臉平臺。其中私有接口規(guī)范:公安部GA/T1400.4-2017。
圖2 人臉圖像云分析系統(tǒng)平臺架構
圖3 人臉大數(shù)據(jù)中心共享接口
本文主要介紹了基于hadoop的人臉大數(shù)據(jù)技術,借助大數(shù)據(jù)分析,可有效補齊當前行業(yè)場所管理短板,對于刑嫌、涉黑惡人員做到事先預警,事后取證,在數(shù)據(jù)采集的深度與廣度、數(shù)據(jù)傳輸?shù)男?、?shù)據(jù)的挖掘與利用等方面得到全方位的擴展提升。