許鯤
摘要:隨著公安立體化防控體系建設的逐步深入,視頻監(jiān)控系統(tǒng)以其數(shù)據(jù)量大、實時等特點已經(jīng)成為社會治安綜合治理防控體系中的重要組成部分。在視頻大數(shù)據(jù)技術(shù)成熟應用發(fā)展的背景下,圖偵工作相關(guān)的涉案人、車的特征信息較之以前單純利用原始視頻圖片更能滿足快速檢索、高效研判的需要。其中人臉深度研判全新的圖偵業(yè)務系統(tǒng)需具備人臉圖片結(jié)構(gòu)化管理與結(jié)構(gòu)化信息檢索應用能力,要做人臉圖片的深度應用,首先要解決的就是人臉圖片的采集工作,人臉采集的全面準確與否直接影響后續(xù)的人臉應用。在人臉采集過程中,一方面需要最大限度地覆蓋需要的場景,另一方面需要從根本上提升人臉檢測算法,提升在高分辨率圖像及高密度人群下的適應性。通過人臉檢測算法的研究,把控人臉采集數(shù)據(jù)源,以適應攝像機分辨率不斷提升導致的圖像尺寸變化及適應諸如三場一站等高密度人群、遮擋人群的人像采集,為人臉布控、人臉比對、人臉檢索以及基于人臉的分析研判提供高可用的人臉圖片數(shù)據(jù)。
關(guān)鍵詞:人臉深度研判;人臉檢測;尺度變化
中圖分類號:TP3? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)30-0198-04
1 背景
隨著公安立體化防控體系建設的逐步深入,視頻監(jiān)控系統(tǒng)以其數(shù)據(jù)量大、實時等特點已經(jīng)成為社會治安綜合治理防控體系中的重要組成部分。至今,天津市在全市視頻監(jiān)控建設聯(lián)網(wǎng)工作上取得了長足的進展,已經(jīng)建成了11萬路一類高清視頻監(jiān)控點位,初步實現(xiàn)了視頻監(jiān)控的全域覆蓋。在應用方面已經(jīng)初步構(gòu)建了人臉與車輛的輔助辦案系統(tǒng),實現(xiàn)了1.168億車輛分析能力與2000路人臉分析能力。
在視頻大數(shù)據(jù)技術(shù)成熟應用發(fā)展的背景下,圖偵工作相關(guān)的涉案人、車的特征信息較之以前單純利用原始視頻圖片更能滿足快速檢索、高效研判的需要。因此圖偵工作信息化需求因全市公共安全視頻監(jiān)控網(wǎng)建設規(guī)模化而成為下列一種可能甚至是現(xiàn)實,即創(chuàng)建街頭路面視頻捕獲的人、車特征大數(shù)據(jù)庫,實現(xiàn)圖偵視頻圖像大數(shù)據(jù)的深度應用。其中人臉深度研判全新的圖偵業(yè)務系統(tǒng)需具備人臉圖片結(jié)構(gòu)化管理與結(jié)構(gòu)化信息檢索應用能力,要做人臉圖片的深度應用,首先要解決的就是人臉圖片的采集工作,人臉采集的全面準確與否直接影響后續(xù)的人臉應用。在人臉采集過程中,一方面需要最大限度地覆蓋需要的場景,另一方面需要從根本上提升人臉檢測算法,提升在高分辨率圖像及高密度人群下的適應性。
2 概述
本次論文的主題是人臉檢測(Face Detection),人臉檢測是人臉識別的第一站,尤其針對公安遇到的比如由于逐步采用超高清攝像機(如400萬、800萬、1600萬等像素)帶來的人臉尺度變動。以及高密度人群或故意遮擋等實際場景問題,通過針對性的算法模型設計實現(xiàn)速度與精度的雙重提升。
人臉檢測的目的是,給定任意圖像,返回其中每張人臉的邊界框(Bounding Box)坐標,由于人臉檢測是所有人臉分析算法的前置任務,諸如人臉對齊、人臉建模、人臉識別、人臉驗證/認證、頭部姿態(tài)跟蹤、面部表情跟蹤/識別、性別/年齡識別等等技術(shù)皆以人臉檢測為先導,它的好壞直接影響著人臉分析的技術(shù)走向和落地,也同時影響著人臉識別技術(shù)在公安實戰(zhàn)應用效果。
尺度變化是人臉檢測不同于通用物體檢測的一大問題。通用物體的尺度變化范圍一般在十幾倍之內(nèi);與之相比,人臉的尺度變化范圍由于攝像頭不斷升級,在 4K 甚至更高分辨率場景中可達數(shù)十倍甚至上百倍,針對高分辨率場景我們不能采用圖像壓縮(如壓縮到200萬像素),這樣就失去了高分辨率攝像機建設的意義,也起不到實戰(zhàn)效果。面對這一問題,已有學者已嘗試通過尋找最優(yōu)尺度多次采樣原圖或者利用不同深度的特征圖適應不同尺度的人臉解決這一問題;而此論文從另外一個角度切入更好地解決這個問題。
和尺度變化一樣,遮擋也是人臉檢測面臨的常見挑戰(zhàn)之一。實際場景中的高密度人群、眼鏡、口罩、衣帽、頭盔、首飾以及肢體等皆會遮擋人臉,拉低人臉檢測的精度。對此,已有學者嘗試通過提升神經(jīng)網(wǎng)絡適應遮擋情況的能力,或者將問題轉(zhuǎn)化為遮擋與非遮擋人臉在向量空間中的距離這一度量學習問題來解決。而此論文針對人臉遮擋問題創(chuàng)立一套全新算法針對性地解決這個問題。
3 尺度變化圖像人臉檢測算法
目前的人臉檢測方法仍無法很好地應對大范圍尺度變述,基于圖像金字塔的方法理論上可覆蓋所有尺度,但必須多次采樣原圖,導致大量重復計算;而基于特征金字塔的方法,特征層數(shù)不宜加過多,從而限制了模型處理尺度范圍的上限。是否存在一種方法,圖像只通過模型一次,同時又覆蓋到足夠大的尺度范圍呢?
目前,單步檢測方法大致可分為兩類:(1)Anchor-based 方法。(2)Anchor-free 方法。Anchor-based 方法處理的尺度范圍雖小,但更精準;Anchor-free 方法覆蓋的尺度范圍較大,但檢測微小尺度的能力低下。一個非常自然的想法就是,兩種方法可以融合進一個模型嗎?理想很豐滿,現(xiàn)實很骨感,Anchor-based 和 Anchor-free 方法的輸出在定位方式和置信度得分方面差異顯著,直接合并兩個輸出困難很大,具體原因如下:
其一,對于 Anchor-based 方法,ground truth IoU ≥ 0.5 的錨點將被視為正訓練樣本。可以發(fā)現(xiàn),正負樣本的定義與邊界框回歸結(jié)果無關(guān),這就導致 Anchor-based 分支每個錨點輸出的分類置信度實質(zhì)上表示的是“錨點框住的區(qū)域是人臉”的置信度,而不是“網(wǎng)絡預測的回歸框內(nèi)是人臉”的置信度。故而分類置信度很難評估網(wǎng)絡實際的定位精度。對于在業(yè)務層將 Classfication Subnet 和 Regression Subnet 分開的網(wǎng)絡,情況將變得更為嚴重。
其二,對于 Anchor-free 方法,網(wǎng)絡訓練方式類似于目標分割任務。輸出的特征圖以邊界框中心為圓心,半徑與邊界框尺度成比例的橢圓區(qū)域被定義為正樣本區(qū)域,特征圖其他位置(像素)被視為背景。通過這種方式,Anchor-free 分支的分類置信度得分實質(zhì)為“該像素落在人臉上”的置信度,而且該分類置信度與定位的準確度的關(guān)聯(lián)同樣很弱。
總而言之,Anchor-based 方法和 Anchor-free 方法的分類置信度都與回歸定位精度關(guān)聯(lián)甚微,其置信度得分也分別代表著不同的含義。因此通過分類結(jié)果直接合并兩個分支輸出的邊界框是不合理的,并且可能導致檢測性能的急劇下降。
因此,可以將回歸的邊界框和 groundtruth 邊界框之間的 IoU 當作 Classfication Subnet 的 groundtruth,這正是 SFace 所做的事情。
具體而言,SFace 設計了Anchor-based 和 Anchor-free 兩個分支,前者基于RetinaNet,后者基于 UnitBox;兩個分支都在訓練第一步通過 Regression Subnet 生成邊界框;接著計算邊界框和 groundtruth 邊界框之間的 IoU;(Anchor-based 分支的)錨點和(Anchor-free 分支的)像素中 IoU≥0.5 的結(jié)果將視為Classfication Subnet 的正樣本,其他則視為負樣本,Classfication Loss 采用 Focal Loss。我們還嘗試過直接回歸 IoU,然而實驗結(jié)果表明,相較于采用 Sigmoid Cross Entropy 或 Focal Loss,直接回歸 IoU 所得結(jié)果方差較大,實際效果欠佳。
Anchor-based 分支和 Anchor-free 分支都使用 IoU Loss 作為 Regression Loss。這種調(diào)整有助于統(tǒng)一兩個分支的輸出方式,優(yōu)化組合結(jié)果。通過以上修正,兩個分支的分類子網(wǎng)絡的實質(zhì)含義得到統(tǒng)一,分類置信度的分布得到一定程度的彌合,從而 SFace 可有效融合兩個分支的結(jié)果。
此外,SFace 必須運行很快才有實際意義,否則大可以選擇做圖像金字塔。為此,基于Xception,SFace 采用了一個 FLOPs 僅有 39M 的 Backbone,稱之為 Xception-39M,每個 Block 包括 3 個 SeparableConv 的 Residual Block。Xception-39M 運算量非常小,感受野卻高達 1600+,十分適合處理更高分辨率圖像。
4 遮擋圖像人臉檢測算法
遮擋問題是公安動態(tài)人臉應用中最為常見的問題,尤其現(xiàn)如今犯罪嫌疑人的反偵察能力越來越強,偽裝遮擋是基本手段,因而如何有效解決因遮擋帶來的人臉識別精度問題,是擺在公安用戶以及學者專家面前的一道難題。針對該問題,我們在此提出一種專門針對人臉遮擋的算法模型。
我們可以從另一個角度考慮遮擋問題。一個物體在清晰可見、無遮擋之時,其特征圖對應區(qū)域的響應值較高;如果物體有(部分)遮擋,理想情況應是只有遮擋區(qū)域響應值下降,其余部分不受影響;但實際情況卻是整個物體所在區(qū)域的響應值都會降低,進而導致模型 Recall 下降。
解決這個問題大概有兩種思路:1)盡可能保持住未遮擋區(qū)域的響應值;2)把無遮擋區(qū)域降低的響應值彌補回來;前者較難,后者則相對容易。一個簡單的做法是讓檢測器學習一個 Spatial-wise Attention,它應在無遮擋區(qū)域有更高的響應,然后借助它以某種方式增強原始的特征圖。
那么,如何設計這個 Spatial-wise Attention。最簡單考慮,它應當是一個 Segmentation Mask 或者 Saliency Map?;?RetinaNet,F(xiàn)AN 選擇增加一個Segmentation 分支,對于學到的 Score Map,做一個 exp 把取值范圍從 [0, 1] 放縮到[1, e],然后乘以原有的特征圖。為簡單起見,Segmentation 分支只是疊加 2 個 Conv3x3,Loss 采用 Sigmoid Cross Entropy。
這里將面對的一個問題是,Segmentation 分支的groundtruth 是什么,畢竟不存在精細的 Pixel-level 標注。由于人臉圖像近似橢圓,一個先驗信息是邊界框區(qū)域內(nèi)幾乎被人臉填滿,背景區(qū)域很小;常見的遮擋也不會改變「人臉占據(jù)邊界框絕大部分區(qū)域」這一先驗?;谶@一先驗可以直接輸出一個以邊界框矩形區(qū)域為正樣本、其余區(qū)域為負樣本的 Mask,并將其視為一個「有 Noise 的 Segmentation Label」作為實際網(wǎng)絡的 groundtruth。我們也嘗試根據(jù)該矩形截取一個橢圓作為 Mask,但實驗結(jié)果表明基本沒有區(qū)別。
這樣的groundtruth真能達到效果嗎?通過可視化已學到的 Attention Map,發(fā)現(xiàn)它確實可以規(guī)避開部分遮擋區(qū)域,比如一個人拿著話筒講話,Attention Map 會高亮人臉區(qū)域,繞開話筒區(qū)域。我們相信,如果采用更復雜的手段去清洗 Segmentation Label,實際效果將有更多提高。
5 結(jié)語
本論文旨在通過人臉檢測算法的研究,把控人臉采集數(shù)據(jù)源,以適應攝像機分辨率不斷提升導致的圖像尺寸變化,及適應諸如三場一站等高密度人群、遮擋人群的人像采集,為人臉布控、人臉比對、人臉檢索以及基于人臉的分析研判提供高可用的人臉圖片數(shù)據(jù)。
參考文獻:
[1] 趙昕晨,楊楠.基于頭部姿態(tài)分析的攝像頭視線追蹤系統(tǒng)優(yōu)化技術(shù)[J].計算機應用,2020(7).
[2] 楊思燕,苗凱彬,王鋒,等.視頻圖像中人臉自動檢測與統(tǒng)計算法[J].電子科技,2020,33(8):1-9.
【通聯(lián)編輯:代影】