国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

具有遮擋魯棒性的監(jiān)控視頻人臉再識別算法

2022-07-22 13:36段鵬松
信號處理 2022年6期
關(guān)鍵詞:探針畫廊人臉

張 博 趙 巍 段鵬松 武 琦

(1.鄭州大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,河南鄭州 450002;2.鄭州大學(xué)漢威物聯(lián)網(wǎng)研究院,河南鄭州 450002)

1 引言

隨著監(jiān)控系統(tǒng)應(yīng)用場景數(shù)量和種類的快速攀升,利用多個(gè)攝像機(jī)對相同個(gè)體進(jìn)行跨時(shí)空身份識別的需求愈發(fā)強(qiáng)烈,并在公共安全、執(zhí)法等領(lǐng)域展現(xiàn)出巨大潛力[1]?,F(xiàn)有身份識別技術(shù)一般依賴于外觀特征(如衣服、裝飾等)或生物特征(如面容、步態(tài)等)。外觀特征的波動(dòng)性較大,導(dǎo)致基于其的身份識別技術(shù)穩(wěn)定性較差[2]。生物特征的復(fù)雜性較高,但穩(wěn)定性更好,利用其進(jìn)行身份識別更為可靠[3]。在生物特征中,面部特征作為便捷的非侵入性視覺特征,可以更有效的進(jìn)行人體跟蹤與識別[4]。

近些年來,隨著基準(zhǔn)數(shù)據(jù)庫的增大、高級網(wǎng)絡(luò)結(jié)構(gòu)[5-6]和各種損失函數(shù)[7-8]的廣泛使用,基于深度學(xué)習(xí)的人臉識別技術(shù)取得了顯著的進(jìn)步,在某些基準(zhǔn)數(shù)據(jù)庫上的識別能力已經(jīng)超越了人類。雖然基于深度學(xué)習(xí)的識別模型在無限制的人臉識別場景下取得了巨大的成功,但是仍然無法滿足監(jiān)控視頻的人臉再識別任務(wù)。主要原因是監(jiān)控?cái)z像機(jī)捕獲的面部圖像存在分辨率和角度的差異、信息冗余以及面部遮擋等問題。此外,監(jiān)控?cái)z像機(jī)拍攝的目標(biāo)對象往往沒有在數(shù)據(jù)庫中記錄其完整特征,因此需在首次發(fā)現(xiàn)目標(biāo)時(shí)快速提取有效特征,這給傳統(tǒng)面部識別技術(shù)帶來巨大挑戰(zhàn)。

為解決上述問題,需對現(xiàn)有面部識別方法進(jìn)行改進(jìn),以滿足在監(jiān)控視頻下再識別的現(xiàn)實(shí)需求。首先,由于監(jiān)控視頻幀中目標(biāo)面部存在姿勢、表情、光照和遮擋等諸多不同,相同目標(biāo)面部在不同幀中的特征存在較大差異。因此,可以使用注意力機(jī)制對質(zhì)量好的圖片分配更多權(quán)重,得到更完善的面部特征,以解決各幀圖像分辨率和角度存在差異的問題。其次,監(jiān)控視頻相鄰幀之間的面部圖像往往非常接近,存在較大的信息冗余,直接使用連續(xù)的幀提取特征會導(dǎo)致識別方法效率低下。本文采取等距隨機(jī)取樣的方法選取合適的視頻幀進(jìn)行特征提取,不僅保留視頻整體的面部特征,還減少了數(shù)據(jù)冗余,提升了算法的整體效率。最后,對于監(jiān)控視頻中存在的面部遮擋問題,本文使用了PDSN 網(wǎng)絡(luò)[9]來訓(xùn)練人臉各區(qū)塊遮擋的掩碼來弱化遮擋對特征的影響,并通過分區(qū)域匹配的方法減少識別誤差。本文的主要貢獻(xiàn)總結(jié)如下:

通過注意力機(jī)制與掩碼字典的聯(lián)合使用,先將視頻幀中受遮擋影響的特征元素舍棄,再對剩余的特征動(dòng)態(tài)分配權(quán)重,降低了監(jiān)控視頻下人臉遮擋對再識別的影響。

針對掩碼字典在再識別場景下準(zhǔn)確度下降的問題,提出了分區(qū)域匹配的方法,降低了掩碼字典的誤差,提高了再識別的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明,本文的方法在COX 監(jiān)控視頻數(shù)據(jù)上rank-1 準(zhǔn)確度達(dá)到了95.2%,并在合成面部遮擋的監(jiān)控視頻數(shù)據(jù)上rank-1準(zhǔn)確度達(dá)到了73.0%。

本文章節(jié)安排如下:第1 節(jié)為緒論。第2 節(jié)分析了目前人臉識別及再識別的研究現(xiàn)狀。第3節(jié)介紹了本文算法的技術(shù)細(xì)節(jié)。第4節(jié)展示并分析了本文算法的實(shí)驗(yàn)結(jié)果。第5 節(jié)是本文總結(jié)和未來展望。

2 研究現(xiàn)狀

2.1 基于圖像的人臉識別

早期的人臉識別方法沒有足夠的數(shù)據(jù)來進(jìn)行強(qiáng)大的模型訓(xùn)練,也沒有可靠的測試基準(zhǔn),集中應(yīng)用在小規(guī)模的受限場景。直LFW[10]數(shù)據(jù)集的出現(xiàn),研究人員開始轉(zhuǎn)向無限制的人臉識別。隨著CASIA[11]、CelebFaces[12]、MS-Celeb-1M[13]、Mega?Face[14]等數(shù)據(jù)集的創(chuàng)建,人臉識別技術(shù)得到了快速的發(fā)展,如SCHROFF 等人的研究[7]在LFW 基準(zhǔn)上的識別準(zhǔn)確率超越了人類。

傳統(tǒng)人臉識別算法在較為清晰的圖像數(shù)據(jù)集上已經(jīng)取得了很大成功。然而監(jiān)控視頻數(shù)據(jù)集展現(xiàn)出光照、傾角以及遮擋等不利因素,使得這些算法難以獲得令人滿意的效果。鑒于此,一些研究人員開始考慮通過對特征進(jìn)行選擇來去除多余嘈雜的特征,保留對識別有用的特征,如LI 等人在[15]提出了一種半監(jiān)督的局部特征選擇方法,通過學(xué)習(xí)每類特征的重要性來篩選出針對不同類別的特征子集,以此來選擇最具鑒別力的特征。

一些文獻(xiàn)針對面部遮擋問題進(jìn)行了研究。WAN 等人[16]提出了在CNN 模型的中間層增加一個(gè)MaskNet 分支,為被遮擋的面部區(qū)域激活的隱藏單元分配較低的權(quán)重。Trigueros 等人[17]通過用合成遮擋的人臉圖片來增加訓(xùn)練數(shù)據(jù)以此解決遮擋問題。YU 等人[18]使用SIFT 和SVM 算法來進(jìn)行遮擋的面部識別,它將圖像劃分為四個(gè)局部區(qū)域,使用加權(quán)平均方法來確定最終的分類結(jié)果。DUAN 等人[19]提出了用GAN 來生成無遮擋的正面人臉來降低遮擋的影響。

這些方法雖然對面部的遮擋有著不同程度的魯棒性,但需要一個(gè)較好的正面圖像作為基準(zhǔn)用于識別,并且無法利用視頻中的時(shí)間信息,無法完成監(jiān)控視頻下的人臉再識別任務(wù)。

2.2 監(jiān)控視頻下的人臉再識別

目前,雖然基于監(jiān)控視頻的人臉再識別研究處于起步階段,但也出現(xiàn)一些研究成果。DANTCHEVA 等人[20]通過結(jié)合頭發(fā)、皮膚和裝飾等特征,進(jìn)行視頻監(jiān)控系統(tǒng)中正面到側(cè)面的人臉匹配。FARINELLA 等人[21]對人臉進(jìn)行預(yù)處理,去除幾何和光度的變化,并表示為三元模式的空間直方圖,以此進(jìn)行人臉的再識別。QIU 等人[22]構(gòu)建了一個(gè)領(lǐng)域自適應(yīng)字典來處理兩張人臉圖像的匹配。LI 等人[23]探討了面部信息在人員再識別中的作用,證明面部是一種更可靠的生物識別特征,可以作為長期跟蹤目標(biāo)的依據(jù)。LI 等人[24]構(gòu)建了一個(gè)人臉再識別數(shù)據(jù)集,并采用改進(jìn)的DNN 架構(gòu)和區(qū)塊匹配技術(shù),并使用完全卷積結(jié)構(gòu)和空間金字塔池化(SPP)來進(jìn)一步提高性能。WANG 等人[25]則采用了深度模型進(jìn)行特征學(xué)習(xí)和聚類來識別身份。WANG 等人[26]針對實(shí)際監(jiān)控場景中經(jīng)常遇到的人臉圖像分辨率較低的問題,提出了一種利用松弛耦合非負(fù)矩陣分解的低分辨率人臉識別算法。CHENG 等人[4]為了解決真實(shí)監(jiān)控視頻場景下的再識別問題,制作了一個(gè)大規(guī)模的人臉再識別的數(shù)據(jù)集,并對監(jiān)控面部圖像固有的低分辨率問題進(jìn)行了研究。

整體來說,對監(jiān)控視頻下人臉再識別的研究仍然存在諸多不足。雖然這些方法嘗試解決監(jiān)控?cái)z像頭下的人臉再識別問題,但它們未考慮監(jiān)控視頻中容易出現(xiàn)的遮擋問題,尤其無法滿足當(dāng)前疫情防控中的人臉再識別需求。

2.3 注意力機(jī)制

注意力機(jī)制已經(jīng)成為深度學(xué)習(xí)領(lǐng)域一個(gè)重要的概念,被廣泛應(yīng)用于不同領(lǐng)域。LI 等人[27]通過空間注意力解決了圖像之間的對齊問題,有效解決了特征被遮擋區(qū)域破壞的問題,并使神經(jīng)網(wǎng)絡(luò)關(guān)注更有鑒別力的物體特征。LI 等人[28]提出了一個(gè)自注意力模型,通過探索像素和類別之間的相關(guān)性來建立全局空間依賴性模型,以在保證性能的同時(shí)降低計(jì)算復(fù)雜性。但是,空間注意力機(jī)制主要關(guān)注單一圖像上的特定信息,不能完成視頻中連續(xù)圖像的信息捕獲。在本文中,我們將使用時(shí)序注意力模型,為信息更豐富的視頻幀分配更高的權(quán)重以提高識別準(zhǔn)確率。

3 具有遮擋魯棒性的人臉再識別算法

人臉再識別需要在監(jiān)控?cái)z像頭首次拍攝到一個(gè)的人面部時(shí),迅速記錄下其有效特征,之后可在多個(gè)攝像機(jī)下跨空間與時(shí)間進(jìn)行匹配。根據(jù)文獻(xiàn)[29],再識別任務(wù)可以分為兩類:開集再識別問題和閉集再識別問題。這兩類問題的區(qū)別主要在于畫廊集的不同,畫廊集(gallery set)是被查詢的集合,而探針集(probe set)是查詢集合。每個(gè)需要識別的對象都是一個(gè)探針,需要在畫廊集中檢索出與其最相似的目標(biāo)。開集再識別問題沒有預(yù)先固定的畫廊集,畫廊集隨著時(shí)間變化。閉集再識別問題畫廊集的大小是固定的,是一個(gè)一對多的匹配問題。

本文提出了一個(gè)具有遮擋魯棒性的人臉再識別算法,其整體結(jié)構(gòu)如圖1所示。首先,需要對探針視頻中的人臉進(jìn)行檢測與對齊,并通過選取合適的視頻幀來進(jìn)行特征提??;其次,通過特征提取網(wǎng)絡(luò)提取不受遮擋影響的特征元素;最后,根據(jù)所提取的特征在畫廊集中進(jìn)行匹配以實(shí)現(xiàn)再識別。如果匹配失敗,則將探針擴(kuò)充入畫廊集。

3.1 預(yù)處理

在預(yù)處理階段,我們把所有的視頻幀圖片經(jīng)過RetinaFace 網(wǎng)絡(luò)[30]進(jìn)行檢測。在檢測出人臉框與5 個(gè)面部關(guān)鍵點(diǎn)后,使用仿射變換對視頻幀中人臉進(jìn)行對齊并調(diào)整為固定大小。通過這種方式,人臉圖片的五個(gè)關(guān)鍵點(diǎn)會出現(xiàn)在圖片的固定位置上。同時(shí),由于監(jiān)控視頻相鄰幀之間的人臉圖片十分相似,存在信息的冗余。為了能夠充分利用整個(gè)視頻的視覺信息,避免連續(xù)視頻幀的特征冗余,本文采取了一個(gè)等距隨機(jī)取樣方法:對于一個(gè)輸入視頻,我們把它分成T個(gè)時(shí)間相等的片段,并從每個(gè)片段中隨機(jī)抽取一幀圖像。后續(xù)的操作將對抽取的T幀圖片進(jìn)行特征提取,以代表整段視頻的特征。

3.2 特征提取

本文設(shè)計(jì)的特征提取網(wǎng)絡(luò)由四部分構(gòu)成,分別為PSPNet[31]、掩碼字典、主干網(wǎng)絡(luò)和時(shí)間注意力機(jī)制,如圖2所示。首先,對預(yù)處理后的視頻圖片使用PSPNet 判斷遮擋的區(qū)塊集合;其次,按照遮擋區(qū)塊集合從掩碼字典中選取掩碼,并將掩碼和主干網(wǎng)絡(luò)提取的特征圖相乘;最后,通過注意力機(jī)制對各幀提取的特征圖分配權(quán)重,并通過FC 層得到最終的特征向量。

3.2.1 遮擋位置檢測

本文使用了PSPNet 語義分割模型對面部的遮擋區(qū)域進(jìn)行分割。在對面部遮擋數(shù)據(jù)集MAFA[32]的圖片進(jìn)行處理和標(biāo)注后,我們對PSPNet 進(jìn)行了訓(xùn)練,訓(xùn)練效果如圖3所示。

分割出遮擋區(qū)域后,把人臉圖片劃分為5×5 個(gè)等大小的區(qū)塊,以使眼睛、鼻子和嘴巴等面部器官可以被某一區(qū)塊所覆蓋。之后,通過計(jì)算遮擋的面部區(qū)域與各個(gè)區(qū)塊的交并比來確定哪些區(qū)塊存在遮擋。當(dāng)該交并比大于預(yù)設(shè)閾值時(shí),則判定該區(qū)塊存在遮擋。

3.2.2 主干網(wǎng)絡(luò)

本文使用改良的Resnet50 模型[33]作為主干網(wǎng)絡(luò)提取圖片的特征,并使用大邊緣余弦損失函數(shù)[34]在CASIA-WebFace[11]數(shù)據(jù)集上進(jìn)行訓(xùn)練,在LFW[10]測試基準(zhǔn)上的準(zhǔn)確率達(dá)到了99.0%。

3.2.3 掩碼訓(xùn)練

對于面部的遮擋問題,最直接的方法是用受遮擋影響較小的面部特征進(jìn)行比較,以降低遮擋物體對特征的影響。而PDSN 網(wǎng)絡(luò)[9]可以學(xué)習(xí)遮擋的面部區(qū)塊和被破壞的圖像特征之間的關(guān)系,能夠準(zhǔn)確地定位損壞的特征元素,其結(jié)構(gòu)如圖4所示。

PDSN 網(wǎng)絡(luò)由主干卷積神經(jīng)網(wǎng)絡(luò)和掩碼生成器分支組成,主干網(wǎng)絡(luò)負(fù)責(zé)提取成對的人臉圖片特征,掩碼生成器則生成一個(gè)掩碼并與主干網(wǎng)絡(luò)提取的特征圖相乘,從而降低遮擋對特征圖的影響。該網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)為成對圖片,分別為無遮擋的原圖以及該圖某區(qū)塊被遮擋的副本。它的損失Lθ由Locc、Lclean、Ldiff組合而成,如公式(1)所示。

其中,F(xiàn)表示全連接層的輸出為L1范式。

訓(xùn)練完成后,從每個(gè)遮擋小塊的掩碼生成器中提取一個(gè)固定的掩碼,并進(jìn)行二值化的操作,用來拋棄受遮擋嚴(yán)重影響的元素。二值化操作如公式(5)所示,其中m為求均值后的掩碼,K]}表示m中μ×K個(gè)最小元素,μ為丟棄閾值(本文中設(shè)置為0.25),K=C×W×H,為特征圖中元素總量。

完成二值化的操作后,將各個(gè)區(qū)塊的掩碼構(gòu)建一個(gè)字典。當(dāng)兩個(gè)人臉圖像進(jìn)行匹配時(shí),對PSPNet檢測出的遮擋區(qū)塊進(jìn)行字典匹配和掩碼操作(遮擋區(qū)塊求并集),即可去除相應(yīng)區(qū)塊所影響的特征元素。另外,多個(gè)區(qū)塊遮擋時(shí)只需同時(shí)乘以多個(gè)區(qū)塊對應(yīng)的掩碼。

3.2.4 時(shí)序注意力機(jī)制

由于監(jiān)控視頻不同幀的面部圖像存在姿勢、表情、光照和遮擋的差異,因此視頻幀之間可提取的特征不盡相同。因此,應(yīng)該考慮為不同視頻幀的圖片分配不同的權(quán)重。然而基本的時(shí)間聚合技術(shù),如平均池化或最大池化,通常會削弱或過度強(qiáng)調(diào)有代表性特征的貢獻(xiàn)[27]。

與基本的時(shí)間聚合技術(shù)不同,注意力機(jī)制可以輕松建立長時(shí)間的依賴關(guān)系,因此被廣泛地應(yīng)用于計(jì)算機(jī)視覺中[28]。本文使用改進(jìn)的時(shí)間注意力機(jī)制,判斷不同幀特征重要性并賦予相應(yīng)特征權(quán)重值。注意力機(jī)制把乘以掩碼后的特征作為輸入,輸出T個(gè)注意力分?jǐn)?shù),并與T幀圖像的特征計(jì)算加權(quán)平均。如公式(6)所示,其中t∈[1,T],at為對應(yīng)的注意力分?jǐn)?shù),f t為對應(yīng)的視頻幀特征。

在本文的實(shí)驗(yàn)中,我們將時(shí)間注意機(jī)制與多幀特征向量求均值、平均池化和最大池化的方法進(jìn)行了比較,發(fā)現(xiàn)時(shí)間注意模型可以得到最高的準(zhǔn)確度。

3.3 分區(qū)域匹配

由于我們對掩碼執(zhí)行了二值化操作,因此掩碼與特征圖相乘后,受遮擋影響嚴(yán)重的元素將會被設(shè)置為零。當(dāng)兩個(gè)目標(biāo)使用相同的掩碼時(shí),它們特征圖中對應(yīng)位置的零元素會增加,導(dǎo)致二者特征向量相似度增大。對于一個(gè)無遮擋的探針視頻,它與畫廊集中無遮擋的視頻計(jì)算相似度時(shí)(二者ID相同),因?yàn)槎卟淮嬖谡趽酰琍SPNet 檢測的遮擋區(qū)塊的數(shù)量為零,則二者在提取特征過程中不使用掩碼。而該探針在與畫廊集中面部存在遮擋的視頻計(jì)算相似度時(shí)(二者ID 不同),PSPNet 會檢測出遮擋的區(qū)塊,并得到相應(yīng)區(qū)塊的掩碼。雖然使用掩碼可以排除部分受遮擋影響的特征元素,但也會造成二者相似度的提升,使后者計(jì)算出的相似度超越前者,最終造成匹配的錯(cuò)誤。

為此,我們提出了一種分區(qū)域匹配的方法。當(dāng)一個(gè)探針在與畫廊集中各個(gè)目標(biāo)進(jìn)行匹配時(shí),首先,通過PSPNet 檢測匹配雙方的遮擋區(qū)塊,并根據(jù)遮擋區(qū)塊選擇掩碼計(jì)算雙方特征向量的相似度;其次,根據(jù)遮擋的區(qū)塊進(jìn)行區(qū)域類別匹配,即相同區(qū)塊遮擋而計(jì)算出的相似度放進(jìn)同一區(qū)域類別;最后,對各個(gè)區(qū)域內(nèi)的相似度進(jìn)行區(qū)域內(nèi)排序,并對排序后的結(jié)果進(jìn)行區(qū)域間比較。區(qū)域間比較時(shí),首先選取各個(gè)區(qū)域相同排名的相似度,再檢索這些相似度所代表的畫廊集視頻,最后對這些畫廊集視頻進(jìn)行兩兩比較,比較的雙方再次與探針視頻計(jì)算相似度。此時(shí),需要選擇相同的掩碼(對比較雙方的遮擋區(qū)塊求并集),相似度小的舍棄,直至剩余一個(gè)。

例如,當(dāng)探針視頻面部圖像中區(qū)塊{1}存在遮擋時(shí),將其在畫廊集中進(jìn)行匹配。假設(shè)畫廊集有墨鏡和口罩兩類遮擋區(qū)域以及無遮擋區(qū)域;其中墨鏡遮擋的區(qū)塊為{3,5};口罩遮擋的區(qū)塊為{7,8}。此時(shí),結(jié)合探針視頻,可以劃分出三類區(qū)域:{1}、{1,3,5}以及{1,7,8}。對于每一類區(qū)域選擇對應(yīng)掩碼,并計(jì)算探針與畫廊集中該類目標(biāo)的相似度,再進(jìn)行類內(nèi)縱向排序與跨類區(qū)域橫向比較:首先,對{1,3,5}區(qū)域以及{1,7,8}區(qū)域中排名最高的相似度所代表的畫廊集視頻進(jìn)行比較,遮擋區(qū)塊設(shè)置為{1,3,5,7,8};其次,查找字典選擇掩碼后再次與探針計(jì)算相似度,相似度高的留下與{1}區(qū)域進(jìn)行相同步驟的比較,得到最相似的畫廊集視頻;最后,對區(qū)域內(nèi)排序結(jié)果第二的目標(biāo)進(jìn)行相同步驟的跨類區(qū)域橫向排序。

3.4 網(wǎng)絡(luò)訓(xùn)練及再識別

本文所提出的監(jiān)控視頻人臉再識別算法的完整訓(xùn)練過程包括以下三步:

1)使用CASIA-WebFace[11]數(shù)據(jù)集訓(xùn)練主干網(wǎng)絡(luò),損失函數(shù)采用大邊緣余弦損失函數(shù)[34];

2)構(gòu)建PDSN 網(wǎng)絡(luò),載入主干網(wǎng)絡(luò)的模型的權(quán)重,并用成對圖片進(jìn)行訓(xùn)練并構(gòu)建掩碼字典;

3)固定主干網(wǎng)絡(luò)權(quán)重,用視頻幀圖像序列訓(xùn)練時(shí)間注意力機(jī)制網(wǎng)絡(luò)。

在大多數(shù)再識別應(yīng)用場景中,用戶的ID無法事先獲得。因此畫廊集需要隨著攝像頭拍攝時(shí)間而不斷擴(kuò)充,即為再識別問題中的開集再識別。當(dāng)目標(biāo)出現(xiàn)在攝像頭下時(shí),應(yīng)首先判斷是否為新目標(biāo)。我們用G={G1,G2,…,GN}表示畫廊集,用P={P1,P2,…,PN}表示探針集。對于一個(gè)探針Px∈P,其采取分區(qū)域匹配策略得到的最終排序結(jié)果可用公式(7)進(jìn)行判斷是否為新目標(biāo)。

其中,dist 是Px和Gi的距離,Y是閾值。當(dāng)最大的余弦距離低于閾值,則判斷探針不在畫廊集中,需要為其注冊一個(gè)新的ID 并添加到畫廊集。若超過閾值,則用公式(8)獲得與Px?P相匹配的ID。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)置

4.1.1 數(shù)據(jù)集

COX 人臉監(jiān)控視頻數(shù)據(jù)集[35]是一個(gè)由3 臺攝像機(jī)拍攝,擁有1000 個(gè)不同的ID 以及3000 段視頻序列的數(shù)據(jù)集。和傳統(tǒng)人臉視頻數(shù)據(jù)集相比,COX包含更多在姿勢、表情、光照、模糊和面部分辨率等方面有自然變化的幀。由于COX 數(shù)據(jù)集中人的面部沒有遮擋,為了驗(yàn)證本文算法,我們在此數(shù)據(jù)集基礎(chǔ)上使用文獻(xiàn)[36]的方法補(bǔ)充了常見的面部遮擋。

4.1.2 場景設(shè)置

實(shí)驗(yàn)中,我們共選取了三種不同場景,如下:

(1)畫廊集與探針集均不存在遮擋。

(2)畫廊集不存在遮擋,探針集均存在遮擋。

(3)探針集與畫廊集同時(shí)存在遮擋與非遮擋的視頻。

4.2 實(shí)驗(yàn)結(jié)果

4.2.1 時(shí)間聚合技術(shù)方法的對比

在本文實(shí)驗(yàn)中,Baseline 對應(yīng)的是文獻(xiàn)[33]提出的改良的Resnet50 模型,并在基于圖像的人臉數(shù)據(jù)集CASIA-WebFace 上用大邊緣余弦損失函數(shù)進(jìn)行訓(xùn)練。Baseline 會在匹配的兩段視頻中隨機(jī)抽取一幀圖像計(jì)算相似度。為驗(yàn)證不同時(shí)間聚合方式的識別效果,我們將Baseline 與多幀特征向量求均值(Avg)、平均池化(AvgPool)、最大池化(MaxPool)和時(shí)間注意力機(jī)制(TA)動(dòng)態(tài)分配權(quán)重等不同時(shí)間聚合方法分別結(jié)合測試效果。為了評估實(shí)驗(yàn)結(jié)果,我們使用了rank-n和mAP作為評價(jià)指標(biāo)。rank-n表示的是搜索結(jié)果中前n項(xiàng)里存在正確結(jié)果的概率。mAP 表示平均準(zhǔn)確率,用于衡量算法的搜索能力,測試結(jié)果如表1 所示。從表1 中可以發(fā)現(xiàn):通過注意力機(jī)制(TA)動(dòng)態(tài)分配權(quán)重有著最好的效果;而平均池化(AvgPool)或最大池化(MaxPool)操作會削弱或過度強(qiáng)調(diào)有代表性特征的貢獻(xiàn),導(dǎo)致準(zhǔn)確度不如TA。

表1 畫廊集與探針集人臉均無遮擋情況下準(zhǔn)確率(%)Tab.1 Accuracy(%)with unobstructed faces in both gallery set and probe set

4.2.2 掩碼字典的有效性驗(yàn)證

我們在畫廊集無遮擋而探針集均有遮擋的情況下測試了掩碼字典(MD)的效果,實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯?,“TA+MD”的組合方式對再識別的準(zhǔn)確度有明顯提升。這是因?yàn)檠诖a字典方法會在識別中對遮擋元素進(jìn)行定位并排除影響。然而實(shí)際情況中,監(jiān)控?cái)z像頭首次拍入的面部圖像就可能帶有遮擋,從而造成畫廊集中的數(shù)據(jù)特征缺失。

我們進(jìn)一步測試了畫廊集與探針集同時(shí)存在遮擋與非遮擋情況下的人臉再識別,測試結(jié)果如表3 所示??梢钥闯?,相比于表2,隨著暴露的面部特征變多,不使用掩碼字典的準(zhǔn)確度有所提升,但使用掩碼字典后的準(zhǔn)確度卻顯著的下降,特別是在“Baseline+MD”的情況下,準(zhǔn)確率甚至低于只使用Baseline的情況。

表2 畫廊集人臉無遮擋,探針集人臉均存在遮擋情況下準(zhǔn)確率(%)Tab.2 Accuracy(%)of gallery set with unobstructed faces and probe set with obscured faces

表3 畫廊集、探針集人臉同時(shí)存在遮擋與非遮擋情況下準(zhǔn)確率(%)Tab.3 Accuracy(%)in the presence of both occlusion and non-occlusion for gallery set and probe set faces

此種異常情況的可能原因是由于掩碼會把遮擋的元素設(shè)置為零,隨著丟棄的元素越多,最終得到的特征向量間的相似度越高(即使是不同ID)。這就會導(dǎo)致遮擋視頻間的相似度(不同ID)高于未遮擋視頻間的相似度(相同ID),且隨著丟棄閾值μ的提高,這個(gè)問題會愈發(fā)嚴(yán)重。為了驗(yàn)證猜測,本文設(shè)置了不同的丟棄閾值來測量rank-1 的準(zhǔn)確率,測試結(jié)果驗(yàn)證了我們的猜想,結(jié)果如表4 所示??梢钥闯?,隨著丟棄閾值的增大,匹配的準(zhǔn)確率越低。在畫廊集中全是清晰無遮擋的視頻幀時(shí),這個(gè)現(xiàn)象并不會造成匹配準(zhǔn)確度大幅度下降。這是因?yàn)樘结樑c畫廊集進(jìn)行匹配時(shí)丟棄了相同區(qū)域的特征,探針視頻與畫廊集每段視頻相似度都會提高但不會改變排序,但在畫廊集與探針集都存在遮擋與非遮擋時(shí),會改變相似度的排序?qū)е略僮R別出現(xiàn)誤差。

表4 不同丟棄閾值μ對再識別rank-1準(zhǔn)確率(%)的影響Tab.4 The effect of feature discarding threshold to rank-1 accuracy(%)

4.2.3 分區(qū)域匹配的有效性驗(yàn)證

為了解決掩碼字典在再識別中出現(xiàn)的問題(即隨著遮擋區(qū)塊的增多,丟棄的特征會越多,兩段視頻的相似度也會越高),我們提出了分區(qū)域匹配(SRM)的方法來降低掩碼字典造成的誤差。測試的結(jié)果如表5 所示,可以看出依靠分區(qū)域匹配的方法可以顯著降低掩碼字典在再識別下的誤差。特別是當(dāng)丟棄閾值越大、或遮擋越嚴(yán)重時(shí),該方法的準(zhǔn)確率越高。這是由于我們的匹配方法在進(jìn)行相似度排序時(shí),考慮到了特征元素丟棄后造成的誤差,并額外使用相同掩碼進(jìn)行了一次判斷。當(dāng)丟棄閾值達(dá)到0.25時(shí),分區(qū)域匹配方法達(dá)到了73.0%的準(zhǔn)確率,而原方法準(zhǔn)確率只能達(dá)到62.2%。

表5 不同的丟棄閾值μ在畫廊集、探針集人臉同時(shí)存在遮擋與非遮擋情況下rank-1準(zhǔn)確率(%)Tab.5 Different discard thresholds μ in gallery set,probe set faces with both occlusion and non-occlusion case rank-1 accuracy(%)

4.2.4 與經(jīng)典方法的對比

本文的方法與傳統(tǒng)的人臉識別方法在各個(gè)數(shù)據(jù)集上進(jìn)行了對比,我們復(fù)現(xiàn)了幾個(gè)經(jīng)典的人臉識別模型,并使用相同的數(shù)據(jù)集CASIA-WebFace 進(jìn)行了訓(xùn)練,最后在3種不同的數(shù)據(jù)集上進(jìn)行了測試,測試結(jié)果如表6 所示。其中LFW[10]是一個(gè)標(biāo)準(zhǔn)的人臉測試基準(zhǔn)數(shù)據(jù)集,擁有6000 對測試圖像。COXMasked 為探針集與畫廊集同時(shí)存在遮擋與非遮擋面部圖像的視頻數(shù)據(jù)集。對于COX 與COX-Masked數(shù)據(jù)集,我們的方法使用時(shí)序注意力機(jī)制為多張圖片分配不同權(quán)重;其他幾種方法則選取相同的圖片,并對得到的特征向量求取均值,以此代表整段視頻的特征。

表6 不同方法在各個(gè)數(shù)據(jù)集上的準(zhǔn)確率(%)Tab.6 Accuracy(%)of different methods on each dataset

可以看出,本文方法在三個(gè)不同的數(shù)據(jù)集上均展現(xiàn)出較好的識別結(jié)果。另外,雖然在LFW 上未能有最好效果,但在監(jiān)控視頻數(shù)據(jù)集下,特別是當(dāng)面部出現(xiàn)嚴(yán)重的遮擋時(shí),傳統(tǒng)方法的準(zhǔn)確率大幅度下降,而我們的方法依然能保持較好的識別效果。

5 結(jié)論

本文提出了一種基于深度學(xué)習(xí)的人臉再識別算法,該方法通過結(jié)合注意力機(jī)制和掩碼字典,并依靠提出的分區(qū)域匹配方法,降低了掩碼字典在再識別場景下的誤差,有效提升了監(jiān)控視頻下人臉再識別的準(zhǔn)確率。該方法解決了基于全身特征的再識別方法無法長期進(jìn)行再識別的缺陷,并通過對面部遮擋進(jìn)行處理,提高了面部存在遮擋時(shí)的再識別準(zhǔn)確率。在合成遮擋的COX 數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,本文所提方法可以充分利用面部的有效特征提升深度模型的面部遮擋魯棒性,進(jìn)而實(shí)現(xiàn)長期可靠的再識別。

本文研究專注于監(jiān)控視頻中面部特征的再識別。實(shí)際應(yīng)用中,監(jiān)控視頻的清晰度、分辨率、光照等因素難免對識別準(zhǔn)確率造成影響。下一步,我們將研究對衣著服飾及姿態(tài)等信息的可靠性評估,并將上述特征與面部特征融合匹配,以進(jìn)一步提高再識別準(zhǔn)確率。

猜你喜歡
探針畫廊人臉
有特點(diǎn)的人臉
一起學(xué)畫人臉
Xpert MTB/RIF對結(jié)核菌利福平耐藥的診斷價(jià)值及rpoB基因突變特點(diǎn)的分析
三國漫——人臉解鎖
氣液鼓泡床反應(yīng)器中氣泡行為光纖探針測量方法
畫廊
畫廊
畫廊
通過接觸測試來提高探針痕跡的一致性
長得象人臉的十種動(dòng)物