文佳敏,沈永良
(黑龍江大學(xué) 電子工程學(xué)院,哈爾濱 150080)
生物識別技術(shù)是利用人體生物特征實(shí)現(xiàn)身份認(rèn)證的一種現(xiàn)代技術(shù),廣泛應(yīng)用于身份鑒別、信息保護(hù)等領(lǐng)域。人臉識別、指紋識別和虹膜識別等生物特征識別技術(shù)已日漸成熟,在人體身份信息認(rèn)證中取得了良好表現(xiàn)[1]。但在案件偵破、安全監(jiān)控、市場營銷等領(lǐng)域表現(xiàn)出能力不足。步態(tài)識別技術(shù)作為生物特征識別領(lǐng)域的另外一個(gè)重要分支,克服了人臉識別、指紋識別和虹膜識別等識別技術(shù)的局限性,僅使用攝像機(jī)就能在遠(yuǎn)距離捕獲目標(biāo)并采集特征信息。通過對監(jiān)控視頻中人物的步態(tài)分析可快速鎖定目標(biāo),經(jīng)過相關(guān)數(shù)據(jù)庫的信息比對獲取目標(biāo)的相關(guān)信息。步態(tài)識別技術(shù)優(yōu)良特性在案件偵破、安全監(jiān)控、市場營銷等領(lǐng)域具有巨大的潛力和研究價(jià)值[2-3]。
李超[4]利用深度卷積神經(jīng)網(wǎng)絡(luò)求解SMPL人體模型參數(shù)與相機(jī)參數(shù)以實(shí)現(xiàn)人體三維姿態(tài)感知,針對角度因素的影響提出結(jié)合深度卷積特征與聯(lián)合貝葉斯的解決方法,并在OULP數(shù)據(jù)集和CASIA-B數(shù)據(jù)集上進(jìn)行驗(yàn)證。于凱強(qiáng)[5]利用卷積神經(jīng)網(wǎng)絡(luò)和類能量圖的步態(tài)識別方法,完成了多組單種能量圖和多種能量圖信息融合的跨視角和跨形態(tài)的步態(tài)識別研究,并驗(yàn)證其有效性。Zhang X等[6]基于視頻傳感器建立DeepGait網(wǎng)絡(luò)模型,與其他傳統(tǒng)的識別網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)不需要手動調(diào)整,在不同數(shù)據(jù)集的不同狀態(tài)下均能獲得較好的識別效果。Shiraga K等[7]基于卷積神經(jīng)網(wǎng)絡(luò)建立GEINet模型,該模型以步態(tài)能量圖作為輸入,在OUISIR數(shù)據(jù)集有良好的識別效果。Wu Z等[8]提出通過深度卷積神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)步態(tài)圖之間的相似度,通過卷積神經(jīng)網(wǎng)絡(luò)提取步態(tài)圖的特征。Yu S等[9]利用自動編碼器去除大衣、手持包等因素對模型識別效果的影響。Choi Y等[10]提出使用StarGAN網(wǎng)絡(luò)實(shí)現(xiàn)多個(gè)領(lǐng)域圖像到圖像的轉(zhuǎn)換。Yoo D等[11]在傳統(tǒng)生成對抗網(wǎng)絡(luò)的基礎(chǔ)上引入了新的域鑒別器,確保生成的圖像與輸入圖像之間的相關(guān)性。
人的行走方向是隨機(jī)的,視角、服裝等因素的變化會使人的外觀產(chǎn)生變化,影響模型的識別效果??赏ㄟ^構(gòu)建視圖轉(zhuǎn)換模型解決跨視角識別問題。He Y等[12]建立了Multi-Task GANs生成對抗網(wǎng)絡(luò), 并提出了周期能量圖PEI(Period Energy Image),實(shí)現(xiàn)了跨視角的步態(tài)識別。瞿斌杰等[13]基于視角轉(zhuǎn)換的多視角步態(tài)識別,使用VTM-GAN網(wǎng)絡(luò)將不同視角下的步態(tài)能量圖映射到保留步態(tài)信息最豐富的側(cè)面視角,打破了步態(tài)識別中多視角的限制。翟宇飛等[14]提出了一種多視角的生成對抗網(wǎng)絡(luò)模型,能夠?qū)⒉煌瑺顟B(tài)、不同角度的步態(tài)圖轉(zhuǎn)化為正常狀態(tài)的步態(tài)圖集合,盡可能多地保留原始的特征信息,使識別精度有了很大的提升。Makihara Y等[15]使用奇異值分解的方法對步態(tài)能量圖視角的不變特征進(jìn)行計(jì)算,實(shí)現(xiàn)了視圖之間的轉(zhuǎn)換。Zheng S等[16]提出了一種基于魯棒的視圖轉(zhuǎn)換模型,該方法與現(xiàn)有方法相比找到了一個(gè)共享的線性相關(guān)低秩子空間,使視圖轉(zhuǎn)換模型對視角變化、服裝和攜帶條件變化具有魯棒性。大多數(shù)與VTM相關(guān)的方法,只能實(shí)現(xiàn)視圖在特定視角下的轉(zhuǎn)換,對所估計(jì)的視角精度具有較強(qiáng)的依賴性。
為克服外界因素對模型的影響,提高步態(tài)識別準(zhǔn)確率,本文提出了一種基于生成對抗網(wǎng)絡(luò)的步態(tài)識別算法。該算法首先通過編碼器將真實(shí)的步態(tài)圖像抽象到另一個(gè)空間,以便于捕獲真實(shí)步態(tài)圖像的個(gè)體特征屬性;然后將捕獲的步態(tài)特征饋送到解碼器中進(jìn)行反卷積,得到生成的步態(tài)圖像。此外,為提高生成步態(tài)圖的真實(shí)性,使生成圖包含較多的語義信息,在編碼-解碼網(wǎng)絡(luò)之后增加真假判別器與身份判別器。網(wǎng)絡(luò)訓(xùn)練時(shí)將編碼-解碼損失、真假判別損失、語義損失3種損失相結(jié)合,多次迭代逐漸降低損失,以使網(wǎng)絡(luò)達(dá)到最好的識別效果。
步態(tài)特征涵蓋整個(gè)步態(tài)周期,在人行走過程中呈現(xiàn)周期性變化。識別時(shí)僅使用單個(gè)步態(tài)輪廓圖像無法對步態(tài)特征進(jìn)行完整表達(dá)。GEI魯棒性強(qiáng)、計(jì)算效率高,是一種被廣泛使用的步態(tài)特征,可以保留行走過程中的特征信息,因此本研究使用步態(tài)周期合成的步態(tài)能量圖(GEI)[17]作為輸入的步態(tài)模板,通過對步態(tài)序列中一個(gè)步態(tài)周期的輪廓進(jìn)行平均,可獲得該序列的GEI。GEI的形成過程見圖1。
圖1 步態(tài)能量圖生成過程Fig.1 Gait energy image generation process
生成對抗網(wǎng)絡(luò)(GAN)主要包含生成器和判別器兩個(gè)主要部分。生成器通過將圖像從小維空間映射到像素級圖像空間,最小化隨機(jī)噪聲生成逼真的圖像。判別器對生成器所生成的圖像進(jìn)行判別,當(dāng)輸入為真實(shí)圖像時(shí),判別器輸出為1;當(dāng)輸入為生成圖像時(shí),判別器輸出為0。
網(wǎng)絡(luò)訓(xùn)練時(shí)分別以從訓(xùn)練集中抽取的n個(gè)樣本為真實(shí)樣本,以生成器根據(jù)隨機(jī)噪聲生成的n個(gè)噪聲樣本為假樣本訓(xùn)練判別器D,使其盡可能分辨樣本真假。固定判別器的參數(shù),使用真假樣本訓(xùn)練生成器G,使生成的圖像逐漸趨近于真實(shí)圖像,從而擾亂判別器的判別。經(jīng)過多次迭代訓(xùn)練,生成器所生成的圖像與真實(shí)圖像的差距越來越小,使得判別器無法辨別輸入是來自真實(shí)的訓(xùn)練樣本還是來自生成器生成的圖像,此時(shí)認(rèn)為生成模型的能力已足夠強(qiáng)大,訓(xùn)練停止。生成器與判別器目標(biāo)函數(shù)可以表示為極大極小化目標(biāo)函數(shù)
(1)
(2)
生成對抗網(wǎng)絡(luò)能夠?qū)⒉煌瑺顟B(tài)、不同視角的步態(tài)特征圖轉(zhuǎn)換為正常服飾、不攜帶物體的90°側(cè)視圖,同時(shí)保留了受試者的身份信息,消除了不同視角、不同狀態(tài)對生成對抗網(wǎng)絡(luò)模型識別效果的影響。視角轉(zhuǎn)換見圖2。
圖2 視角轉(zhuǎn)換Fig.2 View angle conversion
轉(zhuǎn)換器是端到端的可訓(xùn)練的網(wǎng)絡(luò),主要由編碼器和解碼器組成。轉(zhuǎn)換器能夠?qū)⒃磮D像(所有視角、衣服和攜帶物變化的GEI)轉(zhuǎn)換為90°正常行走的GEI目標(biāo)圖像,具體結(jié)構(gòu)見表1。
表1 轉(zhuǎn)換器結(jié)構(gòu)
真假判別器可以對輸入圖像是生成圖像還是源圖像進(jìn)行判斷,使生成的圖像更加真實(shí)。若真假判別器的輸入為3種正常行走狀態(tài)90°的真實(shí)步態(tài)能量圖,真假判別器輸出為1;若真假判別器的輸入為通過生成器生成的步態(tài)能量圖,真假判別器輸出為0。身份判別器被訓(xùn)練生成的圖像中包含源圖像的語義信息。若身份判別器的輸入為相同的個(gè)體,身份判別器輸出為1;若身份判別器的輸入為不同個(gè)體,則身份判別器輸出為0。真假判別器和身份判別器的結(jié)構(gòu)見表2和表3。
表2 真假判別器結(jié)構(gòu)
表3 身份判別器結(jié)構(gòu)
基于CASIA-B步態(tài)數(shù)據(jù)集對建立的模型進(jìn)行評估。CASIA-B步態(tài)數(shù)據(jù)庫是中科院自動化所2005年采集的大規(guī)模、多視角的步態(tài)庫,共包含124名受試者(31名女性和93名男性)與11個(gè)不同的視角(0°,18°,36°,54°,72°,90°,108°,126°,144°,162°,180°)。每個(gè)受試者包含6個(gè)正常行走序列(nm-01,nm-02,nm-03,nm-04,nm-05,nm-06)、2個(gè)帶包行走序列(bg-01,bg-02)、2個(gè)穿大衣行走序列(cl-01,cl-02)共10個(gè)序列。正常行走受試者在11個(gè)不同視角下的樣本圖像見圖3。
圖3 CASIA-B數(shù)據(jù)集11個(gè)視圖的行走序列Fig.3 Walking sequence of 11 views in CASIA-B dataset
設(shè)置網(wǎng)絡(luò)的學(xué)習(xí)率為2×10-4,使用訓(xùn)練集的步態(tài)數(shù)據(jù)訓(xùn)練所建立的生成對抗網(wǎng)絡(luò),2 300次迭代之后模型性能逐漸趨于穩(wěn)定。將訓(xùn)練完保存的權(quán)重信息加載到測試集中進(jìn)行模型性能的評估。實(shí)驗(yàn)基于Intel i7-9750H處理器,NVIDIA GeForce GTX 1660Ti,內(nèi)存8 G,并采用Pytorch深度學(xué)習(xí)框架。CASIA-B訓(xùn)練集、驗(yàn)證集和測試集的劃分見表4。
表4 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證網(wǎng)絡(luò)模型的有效性,在不同視角、不同衣著和不同手持物3種狀態(tài)下測試網(wǎng)絡(luò)模型的識別準(zhǔn)確率。對識別結(jié)果進(jìn)行分析后發(fā)現(xiàn):正常行走情況下,模型的識別效果優(yōu)于背包狀態(tài)與穿大衣狀態(tài),整體識別效果較好;背包狀態(tài)下,模型的識別準(zhǔn)確率受視角影響小,在72°時(shí)識別準(zhǔn)確率最高;在穿大衣情況下,模型的識別效果較低。網(wǎng)絡(luò)模型在3種行走狀態(tài)下的平均rank-1準(zhǔn)確率見表5。
表5 3種行走狀態(tài)下的平均rank-1準(zhǔn)確率
選取了54°,90°,126° 3個(gè)典型角度在測試集進(jìn)行分析。生成對抗網(wǎng)絡(luò)在3個(gè)典型角度的識別準(zhǔn)確率見圖4。由圖4可見,當(dāng)驗(yàn)證集角度與測試集角度相同時(shí),模型的識別準(zhǔn)確率最高,90°時(shí)模型的識別效果最好,正常狀態(tài)下的最高識別率可達(dá)99.18%。由于90°時(shí),模型所提取的腿部信息最多, 隨著兩腿間的跨度逐漸增大, 網(wǎng)絡(luò)模型可以提取的有效信息逐漸減少, 導(dǎo)致不同視角下的識別率存在較大的差異。
圖4 3種典型測試集角度的識別率Fig.4 Recognition rate of three typical test set angles
為了體現(xiàn)提出算法的有效性,分別與GEI+PCA[17]、baseline[18]進(jìn)行了比較,對比結(jié)果見圖5。由圖5可見,提出的算法在正常狀態(tài)下的識別效果與baseline和GEI+PCA相似;背包狀態(tài)下的識別準(zhǔn)確率與baseline相等并優(yōu)于GEI+PCA模型;穿大衣狀態(tài)下的識別效果優(yōu)于baseline與GEI+PCA模型。結(jié)果表明,該算法能有效提取步態(tài)特征,并取得了較好的結(jié)果。
圖5 CASIA-B數(shù)據(jù)集上無視角變化時(shí)的平均識別率Fig.5 Average recognition rate without perspective change on the CASIA-B dataset
從圖像生成效果的角度對生成對抗網(wǎng)絡(luò)的性能進(jìn)行分析。將網(wǎng)絡(luò)生成的步態(tài)圖像與數(shù)據(jù)集中的真實(shí)步態(tài)圖像進(jìn)行對比,將不同視角、不同狀態(tài)的GEI通過轉(zhuǎn)換器網(wǎng)絡(luò)轉(zhuǎn)換成正常服飾、不攜帶物體的90°(側(cè)視圖)GEI,對比效果見圖6。圖6中僅展示了一組示例,每一組分別包含生成器生成的步態(tài)圖像、實(shí)際步態(tài)的90°圖像和非90°步態(tài)圖像。由圖6可見,生成對抗網(wǎng)絡(luò)的性能較好,可根據(jù)源圖像生成較逼真的GEI圖像。
圖6 模型生成效果Fig.6 Model generation effect
本文提出了一種基于生成對抗網(wǎng)絡(luò)的步態(tài)特征提取與識別算法,通過將不同視角的步態(tài)特征轉(zhuǎn)換到步態(tài)信息最豐富的90°狀態(tài),能夠有效緩解不同視角、不同衣著和不同手持物等因素對識別效果的影響?;贑ASIA-B數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,提出的算法具有較高的識別準(zhǔn)確率,與其他算法相比,該算法綜合性能最高,魯棒性更強(qiáng),對大數(shù)據(jù)集和復(fù)雜背景有較強(qiáng)的泛化能力。