郝天然
(中國聯(lián)合網(wǎng)絡(luò)通信有限公司徐州市分公司,江蘇 徐州 221002)
視頻監(jiān)控系統(tǒng)是我國智慧公安系統(tǒng)的重要組成部分,傳統(tǒng)的監(jiān)測場景下需要辦公人員長時間目視監(jiān)控視頻,過程非常耗時且很大程度上存在漏檢;并且,隨著監(jiān)測攝像機的大范圍使用,監(jiān)測數(shù)據(jù)量也呈幾何倍率增加,人工監(jiān)測方法無法滿足在海量視頻數(shù)據(jù)中搜索某一線索的公安需求。人臉識別是通過計算機程序?qū)θ藛T進行身份驗證的方法,由于該技術(shù)的實時性和準確性,在安全監(jiān)測領(lǐng)域得到了廣泛研究和應(yīng)用。人臉識別技術(shù)是基于人類面部生理特點進行識別的一種手段,通過電腦或者計算機程序直接提取圖像中的人的面部特征,并根據(jù)這些特征對其進行身份認定,從而達到對相關(guān)人員進行監(jiān)督、監(jiān)測以及控制的目的[1]。隨著深度學習方法的不斷進步,基于深度學習的人臉識別技術(shù)得到了快速發(fā)展,嵌入人臉識別技術(shù)的視頻監(jiān)控系統(tǒng)已成為公安系統(tǒng)安防監(jiān)控的重要組成。
在深度學習得到廣泛應(yīng)用前,研究人員主要通過設(shè)計面部特征提取方法來識別人臉,如最早由Bledsoe[2]等提出利用面部 器官間距離、比率等參 數(shù)作為特征,構(gòu)建了一個半自動人臉識別系統(tǒng);而后,麻省理工學院的Turk等提出了特征臉[3](Eigenface),該方法成為后來多數(shù)特征表征算法的基準;另外,還有基于子空間分析的人臉識別算法Fisherface[4],首先通過主成分分析PCA(Principal Component Analysis)降低臉部尺寸,然后使用線性判別分析LDA(Linear Discriminant Analysis)以期望獲得類間差異大而類內(nèi)差異小的線性子空間,但這種方法也因此無法對復雜的非線性模型進行表征。
基于模型的方法如主動外觀模型AAMs(Active Appearance Models)[5]通過統(tǒng)計方法描述人類面部圖像的形狀及紋理,然后利用PCA綜合兩類特征對面部進行統(tǒng)計建模;另外,還包括SVD分解[6]、基于面部輪廓分析和匹配[7]以及隱馬爾可夫模型(Hidden Markov Model)[8]等方法。
近年來,深度學習在人臉識別領(lǐng)域的應(yīng)用越來越廣泛,卷積網(wǎng)絡(luò)已經(jīng)能夠提取更高級、更豐富、更易于識別的人臉特征,突破了傳統(tǒng)特征如顏色、灰度能表示的極限。2014年,F(xiàn)aceBook科研團隊提出的DeepFace算法[9]和香港中文大學團隊提出的DeepID算法[10]在LFW上分別實現(xiàn)了97.35%和97.45%的平均分類精度;隨后,牛津大學視覺組的VGGFace[11]將該精度提升到98.95%;但隨后Google團隊的FaceNet[12]將這一精度提高到了驚人的99.63%,這也標志著在LFW數(shù)據(jù)集上長達8年的性能競賽的終結(jié)。目前,研究人員將研究重點放在了如何將網(wǎng)絡(luò)訓練得更好,因此損失函數(shù)優(yōu)化的重要性不斷提高,除了FaceNet提出的triplet loss,還提出了sphere loss[13]、cosine loss[14]和arc loss[15]等不同的損失函數(shù)。
人臉識別的主要途徑是從人物面部圖像中獲取豐富、易識別的特征,來表征不同的人臉。而傳統(tǒng)方法一般使用人工設(shè)計的特征,不能適應(yīng)如今的大數(shù)據(jù)環(huán)境,尤其是在各種復雜的環(huán)境以及多樣的人臉姿態(tài)條件下,用人工特征識別人臉的難度相當高。但隨著深度學習算法的不斷突破,研究者開發(fā)出了各種功能不一的網(wǎng)絡(luò),將合適的網(wǎng)絡(luò)結(jié)合在一起,往往可以取得可觀的成效。但只是一味的疊加網(wǎng)絡(luò),使得網(wǎng)絡(luò)計算參數(shù)暴增,且容易出現(xiàn)難以收斂的情況,不僅使網(wǎng)絡(luò)變慢,還使得識別和驗證準確率下降,所以如何選擇合適的網(wǎng)絡(luò)融合是研究的重要方向。本文基于人臉識別技術(shù),針對公安環(huán)境及人員姿態(tài)影響條件,將人臉識別與跟蹤融合,實現(xiàn)對可疑人員的行蹤溯源。
本文通過計算機對視頻監(jiān)控序列進行人臉檢測與跟蹤,選擇姿態(tài)最優(yōu)的人臉特征與特定人員臉部特征進行識別,綜合多方位攝像機視頻信息,獲得人員的行蹤軌跡。如圖1所示。
圖1 多攝像機聯(lián)動人臉識別跟蹤系統(tǒng)
針對公安局室內(nèi)復雜光照背景下算法易出現(xiàn)誤檢率較高的問題,本文利用人臉圖像的色彩和灰度信息,采用膚色分割預(yù)選人臉區(qū)域?qū)崿F(xiàn)人臉檢測的前端優(yōu)化。膚色是由生物特性決定的皮膚物理屬性的一種外在表現(xiàn),因此,膚色是人臉最為顯著的特征。通過膚色信息可將人臉與環(huán)境背景區(qū)分開來。研究表明,盡管不同種族、年齡、性別的人臉膚色不同,但這種不同主要集中在亮度上,不同人臉的膚色分布在色度空間中具有聚類性。
HSV膚色分割首先利用采集到的圖片數(shù)據(jù)庫在HSV彩色空間建立初始的前期皮膚和背景直方圖,求出各類的概率值,然后根據(jù)Bayes(貝葉斯)分類器對圖像中的每個像素進行前景和背景判別,分割出人體膚色區(qū)域;然后通過形態(tài)學操作,對圖像數(shù)據(jù)進行簡化,保持圖像數(shù)據(jù)的基本形狀特征,去除不相干結(jié)構(gòu)后利用圖像區(qū)域劃分方法的先驗知識從分割區(qū)域中篩選出感興趣區(qū)域;最后利用AdaBoost方法對人臉進行檢測。
人臉姿態(tài)優(yōu)選是指根據(jù)一幅二維圖像計算出此人在三維空間中的面部朝向。在計算機視覺中,物體姿態(tài)是指其相對于相機的取向和位置,一般用旋轉(zhuǎn)矩陣、旋轉(zhuǎn)向量、四元數(shù)或歐拉角表示。通常來說,歐拉角可讀性更好一些,所以常用歐拉角表示物體姿態(tài)。歐拉角包含3個角度:pitch、yaw、roll,這三個角度也稱為姿態(tài)角。通過對三個姿態(tài)角的計算可確定一張人臉姿態(tài)是否為正向面對,以此選出同一人在一段時間內(nèi)的相對最佳姿態(tài)。
由于姿態(tài)評估非常復雜,一般會占用大量的計算資源,若系統(tǒng)采用嚴格姿態(tài)估計來推斷出人臉方向,則會影響系統(tǒng)整體運行效率。因此,本文采用一種不嚴格姿態(tài)估計方法,通過簡單判斷人臉左右旋轉(zhuǎn)程度,對比人臉中心線與對稱線之間的距離而實現(xiàn),通過這種方法可有效簡化姿態(tài)評估過程,減少評估過程中資源占用問題。通過對人臉圖像姿態(tài)優(yōu)選,選出人臉的相對最佳姿態(tài)圖像,用于后續(xù)人臉識別,可以有效提升系統(tǒng)整體效率。
本文使用camshift算法對連續(xù)幀的中人臉位置進行跟蹤,并針對公安局內(nèi)特有環(huán)境中的干擾(遮擋、光照)以及多種人臉狀 態(tài)條件等因素進行優(yōu)化,通過設(shè)置連續(xù)幀中圖像的邊緣和背景產(chǎn)生的大面積改變作為對跟蹤者目標條件的更新;利用一個目標跟蹤框的表面積和大小等因素,來判斷一個跟蹤框在未來有無可能會出現(xiàn)發(fā)散作為其他一個可以更新跟蹤目標的條件,當符合某個特殊更新的條件即立刻開始對人臉進行檢測,利用這個更新的結(jié)果對其進行校正。
卷積神經(jīng)網(wǎng)絡(luò)不同的層次所關(guān)注的信息是不同的,Alex深度學習模型一共有96層卷積層(如圖2所示),其可視化的特征圖如圖3所示??梢钥闯?,卷積神經(jīng)網(wǎng)絡(luò)在前幾層提取的是圖像邊緣等低級信息,不能很好地綜合各層次信息,所以需要增強網(wǎng)絡(luò)感受野。而Gabor小波變換與人眼視覺皮層細胞的感受野類似,具有尺度選擇性、空間頻率及方向選擇性等,經(jīng)常用于紋理識別方面。Gabor濾波器可以在頻域中以不同尺度、不同方向提取相關(guān)的特征,將圖像從空域轉(zhuǎn)換到頻域可以捕捉到空域上不易提取的特征,并且可提供良好的方向選擇和尺度選擇特性,用于提取輸入圖像的點、線等簡單特征。因此,本文擬將Gabor濾波器引入卷積神經(jīng)網(wǎng)絡(luò)中以實現(xiàn)人臉識別。相比于其他網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)簡單清晰,同時不失準確度,更適應(yīng)本公安系統(tǒng)對視頻監(jiān)控人臉識別實時性的要求。
圖2 Alex深度學習模型
圖3 Alex深度學習模型可視化的特征圖
本文研究內(nèi)容針對真實視頻中人臉圖像易受環(huán)境及姿態(tài)等因素影響的問題,研究面部圖像特征的提取、分類方法,完成公安系統(tǒng)中可疑人員的智能搜尋;利用多攝像機協(xié)同、聯(lián)動,按時間及方位追溯可疑人員的行蹤軌跡。通過對現(xiàn)場采集的公安系統(tǒng)視頻監(jiān)控錄像進行人臉識別測試,本研究方法取得了較好的識別效果,并能夠確定所識別可疑人員的行蹤,對于智慧公安的安防監(jiān)控具有重要意義。