趙煦華 胡海根
摘 ?要:文章對(duì)步態(tài)識(shí)別的應(yīng)用進(jìn)行研究,基于深度學(xué)習(xí)技術(shù)研究開(kāi)發(fā)了移動(dòng)端步態(tài)識(shí)別系統(tǒng)。手機(jī)客戶端主要完成步態(tài)數(shù)據(jù)的采集、上傳以及結(jié)果顯示,服務(wù)器端負(fù)責(zé)對(duì)步態(tài)數(shù)據(jù)進(jìn)行輪廓提取、步態(tài)匹配與識(shí)別等功能。其中步態(tài)輪廓提取采用DeepLabV3+語(yǔ)義分割模型,實(shí)現(xiàn)像素級(jí)別的輪廓分割;步態(tài)識(shí)別采用GaitSet模型,實(shí)現(xiàn)人體步態(tài)匹配。系統(tǒng)分別經(jīng)CASIA-B數(shù)據(jù)集和真實(shí)場(chǎng)景進(jìn)行測(cè)試,顯示系統(tǒng)能夠獲得較好的性能,準(zhǔn)確率達(dá)到77.5%。
關(guān)鍵詞:步態(tài)識(shí)別;深度學(xué)習(xí);輪廓提取;語(yǔ)義分割;手機(jī)攝像頭
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)13-0063-06
Research on Gait Recognition Algorithm Based on Deep Learning and
Its Application
ZHAO Xuhua1, HU Haigen2
(1. College of Information, Zhejiang Guangsha Vocational and Technical University of Construction, Dongyang ?322100, China;
2. College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou ?310024, China)
Abstract: This paper studies the application of gait recognition, and develops a mobile terminal gait recognition system based on deep learning technology. The mobile client mainly completes the gait data collection, uploading and result displaying, while the server side is responsible for contour extraction, gait matching and recognition of gait data. The gait contour extraction adopts DeepLabV3+ semantic segmentation model to realize pixel level contour segmentation; Gaitset model is used for gait recognition to realize human gait matching. The system has been tested by CASIA-B data set and real scenarios respectively. It shows that the system can obtain good performance, and the accuracy rate can reach 77.5%.
Keywords: gait recognition; deep learning; contour extraction; semantic segmentation; phone camera
0 ?引 ?言
步態(tài)識(shí)別是一種新興的生物特征識(shí)別技術(shù),旨在通過(guò)人們走路的姿態(tài)進(jìn)行身份識(shí)別。與虹膜、指紋等其他的生物識(shí)別技術(shù)相比,步態(tài)識(shí)別具有非接觸、遠(yuǎn)距離和不易偽裝等優(yōu)點(diǎn),在智能視頻監(jiān)控領(lǐng)域,是遠(yuǎn)距離情況下最具潛力的生物特征,比面相識(shí)別更具優(yōu)勢(shì)[1],因而引起了國(guó)內(nèi)外廣大研究者們的濃厚興趣。作為一種可以遠(yuǎn)距離識(shí)別的獨(dú)特生物識(shí)別功能,步態(tài)將在預(yù)防犯罪、法醫(yī)鑒定和社會(huì)保障方面具有廣泛的應(yīng)用前景。而深度學(xué)習(xí)作為一種新型的機(jī)器學(xué)習(xí)方法,能夠?qū)Τ橄蟮奶卣餍畔⑦M(jìn)行多層次的提取和學(xué)習(xí),在圖像分類、目標(biāo)檢測(cè)與跟蹤、自然語(yǔ)言處理等領(lǐng)域取得了突破性進(jìn)展。在深度學(xué)習(xí)的大框架下,步態(tài)識(shí)別亦取得了重要進(jìn)展,步態(tài)信息的表現(xiàn)形式與處理方式呈現(xiàn)出多元化的特點(diǎn),一些步態(tài)識(shí)別方法相繼涌現(xiàn)出來(lái),主要通過(guò)步態(tài)采集、步態(tài)分割、特征提取、特征比對(duì)等四個(gè)階段[2]來(lái)完成對(duì)個(gè)人的識(shí)別。目前有兩種基于視覺(jué)特征的主流方法:一是將步態(tài)視為靜態(tài)圖像進(jìn)行處理,最為典型代表是基于步態(tài)能量圖(GEI)的識(shí)別方法[3],例如,馮世靈等人[4]提出了結(jié)合非局部與分塊特征的跨視角步態(tài)識(shí)別,通過(guò)隨機(jī)生成正負(fù)GEI樣本對(duì),提取各自的非局部特征和樣本間的相對(duì)非局部特征,又將特征圖水平切分為靜態(tài)、弱動(dòng)態(tài)和強(qiáng)動(dòng)態(tài)三塊,分別訓(xùn)練,而胡靖雯等人[5]將GEI輸入多層CNN,利用四元損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;二是將步態(tài)視為動(dòng)態(tài)的視頻序列進(jìn)行處理,由于整合了前后幀的上下文信息,識(shí)別效果較為顯著,最為典型的步態(tài)識(shí)別算法以GaitSet[6]等為代表,例如,GaitSet在CASIA-B步態(tài)數(shù)據(jù)集上實(shí)現(xiàn)了平均95.0%的一次命中準(zhǔn)確度,在OU-MVLP步態(tài)數(shù)據(jù)集上達(dá)到了87.1%的準(zhǔn)確度。早在2012年,賁晛燁等人就從人體測(cè)量學(xué)數(shù)據(jù)、空間時(shí)間數(shù)據(jù)、運(yùn)動(dòng)學(xué)數(shù)據(jù)、動(dòng)力學(xué)數(shù)據(jù)和視頻流數(shù)據(jù)的特有方法角度總結(jié)步態(tài)識(shí)別的各種方法,較為深入全面地闡述了步態(tài)識(shí)別傳統(tǒng)方法的研究現(xiàn)狀[7]。除了視覺(jué)特征之外,在可穿戴設(shè)備日益盛行的今天,可穿戴傳感器作為人體信息采集的重要工具,促使可穿戴設(shè)備也日益作為步態(tài)識(shí)別信息的采集工具。例如,汪濤等人[8]將注意力機(jī)制融入CNN,實(shí)現(xiàn)對(duì)步態(tài)特征的加強(qiáng);張馨心等人[9]對(duì)傳感器系統(tǒng)進(jìn)行特征值篩選,并用粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。此外,還有不少學(xué)者[10-14]把目光聚焦于WiFi信號(hào)無(wú)線傳感技術(shù),現(xiàn)在這項(xiàng)技術(shù)在步態(tài)識(shí)別上已經(jīng)得到了較好的應(yīng)用。
隨著智能手機(jī)和移動(dòng)通信網(wǎng)絡(luò)特別是5G技術(shù)的高速發(fā)展,使移動(dòng)端與服務(wù)器端之間大容量、低時(shí)延的圖像視頻數(shù)據(jù)實(shí)時(shí)傳輸成為可能,以手機(jī)作為步態(tài)視覺(jué)信息的采集與顯示工具,通過(guò)在后端服務(wù)器端進(jìn)行步態(tài)識(shí)別處理成為一種可行的應(yīng)用解決方案。本文基于步態(tài)識(shí)別領(lǐng)域最新的研究進(jìn)展,提出了基于深度學(xué)習(xí)的輪廓提取與步態(tài)識(shí)別整合方案,亦即先通過(guò)DeepLabV3+[15]算法在真實(shí)環(huán)境下提取人體步態(tài)輪廓,再利用GaitSet步態(tài)識(shí)別算法進(jìn)行有效識(shí)別的應(yīng)用解決方案。本文的主要工作及創(chuàng)新在于:(1)在服務(wù)器端,通過(guò)使用Socket通信實(shí)現(xiàn)了從客戶端接收?qǐng)D片/視頻并返回識(shí)別結(jié)果給客戶端的功能;(2)在手機(jī)客戶端,基于Android Studio的APP編程,實(shí)現(xiàn)了連續(xù)拍照,將照片發(fā)送給客戶端并接收返回結(jié)果的功能;(3)通過(guò)DeepLabV3+語(yǔ)義分割模型進(jìn)行像素級(jí)的輪廓提取,實(shí)現(xiàn)了將普通照片轉(zhuǎn)化為步態(tài)輪廓圖的功能;(4)基于GaitSet算法對(duì)步態(tài)輪廓圖進(jìn)行特征提取,通過(guò)與數(shù)據(jù)庫(kù)信息進(jìn)行比對(duì),實(shí)現(xiàn)了身份識(shí)別的功能。經(jīng)實(shí)驗(yàn)測(cè)試,通過(guò)手機(jī)所拍攝的一段人的步態(tài)視頻,即可辨別其身份,操作簡(jiǎn)單便捷。
1 ?相關(guān)工作
1.1 ?DeepLabV3+
DeepLabV3+是結(jié)合空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊和encode-decode結(jié)構(gòu)的優(yōu)點(diǎn)提出的新的語(yǔ)義分割結(jié)構(gòu)。其特點(diǎn)在于:基于DeepLabV3[15]提出了新的encode-decode的語(yǔ)義分割結(jié)構(gòu)和一個(gè)簡(jiǎn)單但有效的decode模塊;并通過(guò)設(shè)置空洞卷積調(diào)整encode模塊輸出的特征圖大小以調(diào)節(jié)精度和運(yùn)行時(shí)間之間的平衡,實(shí)現(xiàn)了多尺度信息的融合;為語(yǔ)義分割任務(wù)調(diào)整了Xception模塊,同時(shí)對(duì)于ASPP和decode模塊運(yùn)用深度分離卷積結(jié)構(gòu),使得整個(gè)網(wǎng)絡(luò)更強(qiáng)更快,提高了語(yǔ)義分割的健壯性和運(yùn)行速率,在Pascal VOC上達(dá)到了89.0%的mIoU,而在Cityscape上也取得了82.1%的好成績(jī)。
1.2 ?GaitSet
GaitSet步態(tài)算法[6]主要思想來(lái)自人類對(duì)步態(tài)的視覺(jué)感知上,作者發(fā)現(xiàn),步態(tài)中的silhouette從視覺(jué)上看前后關(guān)系很容易辨認(rèn)。受此啟發(fā),作者不再刻意建模步態(tài)silhouette的時(shí)序關(guān)系,而將步態(tài)silhouette當(dāng)作沒(méi)有時(shí)序關(guān)系的圖像集,讓深度神經(jīng)網(wǎng)絡(luò)自身優(yōu)化去提取并利用這種關(guān)系。該算法在具體實(shí)現(xiàn)上具有如下特點(diǎn):CNN用于獨(dú)立地從每個(gè)輪廓中提取幀級(jí)特征,并池化為集級(jí)特征;Set Pooling操作用于將幀級(jí)特征聚合成獨(dú)立序列級(jí)特征;使用水平金字塔映射(HPM)的結(jié)構(gòu)將這個(gè)序列級(jí)特征,就是包含了時(shí)間和空間的特征壓縮成一維特征便于最后全連接做分類。而Set Pooling采用了注意力機(jī)制,首先由三種統(tǒng)計(jì)函數(shù)收集全局信息,然后將其與原始特征圖一起送入1×1卷積層計(jì)算注意力以精煉特征信息,再通過(guò)在所設(shè)置的幀級(jí)特征映射的集合上使用MAX來(lái)提取最終的序列級(jí)特征z,再將其應(yīng)用于序列維度,殘余結(jié)構(gòu)可以加速并穩(wěn)定收斂。
2 ?系統(tǒng)方法
2.1 ?總體設(shè)計(jì)
系統(tǒng)采用C/S架構(gòu),總體流程分為步態(tài)注冊(cè)和步態(tài)識(shí)別兩階段,總體設(shè)計(jì)示意圖如圖1所示。
注冊(cè)階段:首先在客戶端通過(guò)現(xiàn)場(chǎng)錄制上傳或本地上傳的方式,將步態(tài)序列發(fā)送至服務(wù)器端,用DeepLabV3+語(yǔ)義分割模型加工產(chǎn)生步態(tài)輪廓序列,再通過(guò)GaitSet進(jìn)行步態(tài)特征提取,最終將步態(tài)特征與個(gè)人身份信息一同存入數(shù)據(jù)庫(kù)。
識(shí)別階段:采用同樣的方式將步態(tài)序列發(fā)送至服務(wù)器端并獲得步態(tài)特征,將該特征與數(shù)據(jù)庫(kù)中已注冊(cè)的信息進(jìn)行相似度比對(duì),以識(shí)別身份,最終將結(jié)果返回客戶端。
2.2 ?C/S架構(gòu)
整個(gè)步態(tài)識(shí)別系統(tǒng)采用C/S架構(gòu),分為手機(jī)APP客戶端和服務(wù)器端,而手機(jī)APP則是基于Android手機(jī)開(kāi)發(fā)的。根據(jù)系統(tǒng)的需求分析,要實(shí)現(xiàn)安卓手機(jī)通過(guò)WiFi對(duì)服務(wù)器進(jìn)行指令的發(fā)送與接收,需要將指令通過(guò)指定IP地址和8080端口發(fā)送給服務(wù)器,安卓手機(jī)作為客戶端連入該WiFi網(wǎng)絡(luò)服務(wù)器,通過(guò)手機(jī)端采集的步態(tài)視頻序列數(shù)據(jù)在服務(wù)器處理后將數(shù)據(jù)發(fā)送給手機(jī)。其中,由手機(jī)客戶端輸入IP地址、端口號(hào)和要發(fā)送的數(shù)據(jù)信息,以及采集到的步態(tài)視頻。Socket通訊將數(shù)據(jù)發(fā)送至同一個(gè)網(wǎng)絡(luò)下的服務(wù)器,服務(wù)器接收到這些步態(tài)視頻數(shù)據(jù)后,對(duì)其進(jìn)行輪廓提取、格式轉(zhuǎn)換以及步態(tài)識(shí)別,系統(tǒng)C/S架構(gòu)如圖2所示。
2.2.1 ?服務(wù)器端
服務(wù)器采用高性能的工作站,依托NVDIA GPU的性能,能加快整個(gè)步態(tài)識(shí)別的速度。服務(wù)器上搭建了DeepLabV3+和GaitSet等深度學(xué)習(xí)網(wǎng)絡(luò)平臺(tái),前者用于人體輪廓提取,后者用于步態(tài)識(shí)別。平臺(tái)上配置了numpy、PIL、OpenCV等常用的python模塊,使其能夠完成步態(tài)輪廓提取和步態(tài)識(shí)別功能。
服務(wù)器端響應(yīng)Android手機(jī)客戶端請(qǐng)求過(guò)程為:(1)首先對(duì)請(qǐng)求上傳的視頻幀圖片進(jìn)行必要的校驗(yàn),包括圖片的大小、類型、格式等;(2)再以函數(shù)調(diào)用系統(tǒng)命令的方式,調(diào)用deeplabv3模型并對(duì)視頻幀圖片進(jìn)行輪廓提取;(3)提取到的輪廓序列圖片經(jīng)訓(xùn)練好的GaitSet步態(tài)模型識(shí)別處理,得到識(shí)別結(jié)果;(4)最后將識(shí)別結(jié)果封裝成相應(yīng)數(shù)據(jù)格式,通過(guò)Socket通訊請(qǐng)求返回給Android手機(jī)客戶端,完成服務(wù)器端的響應(yīng)過(guò)程,其業(yè)務(wù)邏輯如圖3所示。
2.2.2 ?手機(jī)客戶端
Android手機(jī)客戶端采用Android Studio開(kāi)發(fā)平臺(tái)搭建,主要目的在于為用戶提供友好的可視化操作界面??蛻舳酥饕瓿刹綉B(tài)視頻采集、傳輸圖片、識(shí)別檢測(cè)等功能。具體操作流程為:(1)通過(guò)手機(jī)拍攝一段步態(tài)視頻,或者通過(guò)手機(jī)連拍功能拍攝一段步態(tài)圖像序列;(2)設(shè)定上傳圖片的數(shù)量,再通過(guò)Socket傳輸序列幀圖像,收到服務(wù)器確認(rèn)后表示傳輸結(jié)束;(3)服務(wù)器將接收到的圖片經(jīng)輪廓提取并進(jìn)行識(shí)別匹配后,將識(shí)別結(jié)果返回給客戶端,并顯示在彈窗上,Android手機(jī)客戶端的功能如圖4所示。
2.3 ?DeepLabV3+步態(tài)輪廓提取
步態(tài)輪廓常采用幀間差分法[16]、光流法[17]、背景差分法[18]。幀間差分法實(shí)現(xiàn)簡(jiǎn)單,但是當(dāng)前后兩幀變化很小時(shí),檢測(cè)目標(biāo)會(huì)不完整;光流法計(jì)算復(fù)雜,對(duì)光線非常敏感;背景差分法需要事先建立良好的背景模型,在應(yīng)用的過(guò)程中也需要實(shí)時(shí)更新背景??紤]到語(yǔ)義分割模型在經(jīng)過(guò)充分訓(xùn)練后能夠?qū)ξ矬w進(jìn)行像素級(jí)別的分割,能取得較好的分割效果,本文將DeepLabV3+運(yùn)用于步態(tài)輪廓的分割。對(duì)于單幀信息,首先選一個(gè)低層級(jí)的feature用的卷積進(jìn)行通道壓縮(原本為256通道,或者512通道),目的是減少低層級(jí)的比重。我們認(rèn)為編碼器得到的feature具有更豐富的信息,所以編碼器的feature應(yīng)該配置更高的比重,以便于有效訓(xùn)練。而對(duì)于解碼器部分,直接將編碼器的輸出上采樣4倍,使其分辨率和低層級(jí)的feature保持一致。例如,若采用ResNet Conv2輸出的feature,則進(jìn)行上采樣,再將兩種feature連接后,進(jìn)行一次的卷積操作(細(xì)化作用),最后再次采樣就得到了像素級(jí)的預(yù)測(cè)。
值得注意的是,在進(jìn)行步態(tài)輪廓采集過(guò)程中,由于鏡頭與人的距離是一個(gè)動(dòng)態(tài)過(guò)程,輪廓會(huì)因距離鏡頭的遠(yuǎn)近而大小不一如圖5 所示,將會(huì)嚴(yán)重影響到后續(xù)步態(tài)識(shí)別的精度。因此,本文采用OpenCV-Python的方法,通過(guò)中心線原則把步態(tài)輪廓統(tǒng)一裁剪成的大小,如圖6所示。
2.4 ?步態(tài)特征提取
GaitSet[6]有別于template-based和sequence-based當(dāng)前主流的步態(tài)識(shí)別方法,template-based方法會(huì)導(dǎo)致時(shí)序信息得不到利用,sequence-based方法則會(huì)由于引入了時(shí)序約束從而丟失了靈活性。而GaitSet[6]是一種將步態(tài)序列視為一組無(wú)序集合來(lái)處理的方法,將步態(tài)特征視為一組步態(tài)輪廓圖,即使這些輪廓是亂序的,也只要通過(guò)觀察它們的外觀就能將它們重新排列成正確的順序。因而它能有效且高效地提取空間和時(shí)間特征,從而獲得了優(yōu)秀的性能。GaitSet的實(shí)用性也很強(qiáng),其寬松的輸入限制可以使其獲得更廣泛的應(yīng)用場(chǎng)景,模型可以直接計(jì)算步態(tài)特征而非計(jì)算步態(tài)間的相似度。因此,本文采用GaitSet模型來(lái)實(shí)現(xiàn)步態(tài)的識(shí)別。
對(duì)于模型訓(xùn)練,GaitSet的輸出是具有d個(gè)維度的特征。不同樣本對(duì)應(yīng)的特征將被用于計(jì)算損失,訓(xùn)練網(wǎng)絡(luò)采用Batch All(BA+)Triplet Loss函數(shù)。從訓(xùn)練集中拿出一個(gè)大小為p×k的batch,其中p表示人數(shù),k表示每個(gè)人拿k個(gè)樣本,這樣總共會(huì)有pk(pk-k)(k-1)種組合,計(jì)算loss時(shí)就依照此組合數(shù)統(tǒng)計(jì)全部可能。人和除人之外的東西分開(kāi),那么人就是所謂正樣本,除人之外的東西就是負(fù)樣本。
3 ?方法驗(yàn)證
步態(tài)識(shí)別分為注冊(cè)和識(shí)別兩個(gè)階段:(1)注冊(cè)階段,即Android手機(jī)端從不同角度采集不同人的步態(tài)數(shù)據(jù),并進(jìn)行輪廓分割等預(yù)處理操作,再使用步態(tài)識(shí)別模型提取每個(gè)人的特征向量,將這些得到的特征向量存儲(chǔ)在數(shù)據(jù)庫(kù)中;(2)識(shí)別階段,輸入任意視頻序列圖片,對(duì)這些圖片進(jìn)行預(yù)處理后,輸入網(wǎng)絡(luò),得到一個(gè)特征向量,將該特征向量與數(shù)據(jù)庫(kù)中個(gè)體的特征向量進(jìn)行比對(duì),計(jì)算歐式距離,距離最小的歐式距離所對(duì)應(yīng)的個(gè)體ID即為輸入圖片對(duì)應(yīng)的ID,系統(tǒng)流程如圖7所示。
3.1 ?注冊(cè)算法
客戶端采集注冊(cè)數(shù)據(jù)集,預(yù)處理之后使用Android手機(jī)采集數(shù)據(jù)并傳輸至服務(wù)器進(jìn)行注冊(cè),具體步驟為:
(1)使用Android手機(jī)攝像頭進(jìn)行步態(tài)圖像序列的采集。
(2)使用Socket在Android手機(jī)客戶端上將圖像序列和對(duì)應(yīng)的標(biāo)簽傳輸給高性能服務(wù)器。
(3)服務(wù)器對(duì)得到的圖像進(jìn)行批量操作,使用DeepLabv3+ 深度學(xué)習(xí)模型提取人體目標(biāo)輪廓,并使用中心線原則切割得到圖像。
(4)更換Android手機(jī)拍攝角度,重復(fù)(1)~(3),共進(jìn)行5次。
(5)保存m個(gè)圖像序列與對(duì)應(yīng)的標(biāo)簽,分別記為Q ={Ii∣i =1,2,…,m}和T ={Li∣i =1,2,…,m},其中,Ii ={Ok∣k =1,2,…,5}表示第i個(gè)圖像序列,共有5組圖像,Li表示第i個(gè)圖像序列對(duì)應(yīng)的標(biāo)簽。
(6)使用訓(xùn)練好的GaitSet步態(tài)識(shí)別模型對(duì)注冊(cè)集圖像序列Q進(jìn)行特征提取,共有5×m個(gè)特征,得到注冊(cè)集特征X ={Fi∣i=1,2,…,5m},并保存X。
3.2 ?識(shí)別算法
客戶端采集測(cè)試數(shù)據(jù),提取特征,比對(duì)注冊(cè)集特征X和檢測(cè)集特征Y的相似度,判斷測(cè)試圖像序列的身份并計(jì)算置信度,下面是具體的步驟:
(1)使用與注冊(cè)階段(1)~(3)相同的方法傳輸并預(yù)處理測(cè)試圖像序列,得到n個(gè)測(cè)試集圖像序列P={Oj∣j=1,2,…,n}。
(2)使用訓(xùn)練好的GaitSet步態(tài)識(shí)別模型對(duì)測(cè)試集圖像序列P進(jìn)行特征提取,得到檢測(cè)集特征Y ={Fj∣j =1,2,…,n},并保存Y。
(3)對(duì)維度為m的每個(gè)單獨(dú)特征序列,計(jì)算各個(gè)維度上的注冊(cè)序列特征與檢測(cè)圖像序列特征的相似性,通過(guò)歐式距離來(lái)表達(dá)它們之間的相似性。
(1)
其中,Dij表示檢測(cè)集Y中的第j個(gè)特征與注冊(cè)集X第i個(gè)特征的歐氏距離,得到距離數(shù)組Dis={Dij∣i=1,2,…,5n}。
(4)對(duì)Dis數(shù)組按照距離從小到大的順序排列。
(5)取Dis數(shù)組中距離最小的前5個(gè)距離,記錄其對(duì)應(yīng)特征的對(duì)應(yīng)標(biāo)簽LT={Li∣i=1,2,…,5}。
(6)如果LT存在眾數(shù),取標(biāo)簽I為眾數(shù)對(duì)應(yīng)的Li,num表示眾數(shù)出現(xiàn)的次數(shù),計(jì)算置信度c,計(jì)算公式為c=num/5×100%;如果LT中不存在眾數(shù),則判斷最小的Dis是否大于閾值δ,若大于閾值,說(shuō)明測(cè)試個(gè)體的步態(tài)特征與注冊(cè)數(shù)據(jù)庫(kù)中個(gè)體匹配特征相差較大,即測(cè)試個(gè)體從未注冊(cè)過(guò),返回匹配失敗,否則,則令l為L(zhǎng)1,c為20%。
(7)使用Socket將標(biāo)簽l和置信度c(或匹配失敗信息)傳回手機(jī),完成識(shí)別。
(8)重復(fù)(3)~(7),直至遍歷完Y。
4 ?實(shí)驗(yàn)結(jié)果與分析
4.1 ?數(shù)據(jù)集
本文使用CASIA-B數(shù)據(jù)集,該數(shù)據(jù)集由中國(guó)科學(xué)院提供,涵蓋11個(gè)視角(0°,18°,36°,…,180°),124個(gè)人,分為普通、攜帶包裹、穿外套或夾克三種情況,主要用于訓(xùn)練步態(tài)識(shí)別模型。
4.2 ?輪廓提取
為了充分展現(xiàn)語(yǔ)義分割的效果,實(shí)驗(yàn)者被置于比較復(fù)雜的環(huán)境中,如圖8所示。
11張圖片組成的視頻幀序列中,實(shí)驗(yàn)者從遠(yuǎn)到近地以自然步態(tài)行走,背景較為復(fù)雜,有門、窗、消防栓、天花板、光影等干擾因素存在,照片通過(guò)DeepLabV3+提取到的步態(tài)特征輪廓都十分清晰,效果比較理想。
4.3 ?步態(tài)識(shí)別
GaitSet模型訓(xùn)練階段設(shè)置為:優(yōu)化器使用Adam,學(xué)習(xí)率為1e-4,總迭代次數(shù)為80K,batchsize為(8,8)。表1記錄了步態(tài)識(shí)別系統(tǒng)在不同角度下,行走狀態(tài)為正常(NM)、攜帶包裹(BG)和穿外套或夾克衫(CL)時(shí)的識(shí)別準(zhǔn)確率,可以看出,本文的模型在步態(tài)身份識(shí)別上是比較精準(zhǔn)的。
在實(shí)際環(huán)境下,服務(wù)器端采用E5-494 2620 2.0 GHz 6核處理器、32 GB RAM和1080Ti GPU的工作站,而客戶端則采用華為Honor 20 Pro手機(jī),通過(guò)手機(jī)拍攝一段4~5秒的步態(tài)視頻序列作為一個(gè)固定角度的步態(tài)樣本?;谟?xùn)練得到的GaitSet模型,對(duì)上述提取到的輪廓進(jìn)行步態(tài)特征識(shí)別與匹配。在實(shí)際測(cè)試中,考慮到采集步態(tài)數(shù)據(jù)的限制,我們分別對(duì)8個(gè)人進(jìn)行采樣測(cè)試,準(zhǔn)確率能夠達(dá)到77.5%。輪廓提取所花的時(shí)間較大,約3秒鐘,而識(shí)別時(shí)間則為0.8秒。為測(cè)試數(shù)據(jù)匹配容量與識(shí)別速度的關(guān)系,我們把數(shù)據(jù)集(不需要提取輪廓)中的數(shù)據(jù)匹配容量增加至1 000人,則識(shí)別速度約為4.3秒,總體上識(shí)別速度尚可。
5 ?結(jié) ?論
步態(tài)識(shí)別是一種新興的生物特征識(shí)別技術(shù),具有非接觸、遠(yuǎn)距離和不易偽裝等優(yōu)點(diǎn),近年來(lái)日益受到國(guó)內(nèi)外研究者的廣泛關(guān)注。本文基于現(xiàn)實(shí)的應(yīng)用需求,基于深度學(xué)習(xí)技術(shù)研究開(kāi)發(fā)了面向Android智能手機(jī)的步態(tài)識(shí)別系統(tǒng)。系統(tǒng)采用C/S架構(gòu),手機(jī)客戶端主要完成步態(tài)數(shù)據(jù)的采集、上傳以及識(shí)別結(jié)果的顯示等功能,而服務(wù)器端則主要負(fù)責(zé)對(duì)客戶端采集的步態(tài)數(shù)據(jù)進(jìn)行輪廓提取、步態(tài)匹配與識(shí)別等功能。為達(dá)到此目的,步態(tài)輪廓提取采用了DeepLabV3+語(yǔ)義分割模型,能實(shí)現(xiàn)像素級(jí)別的輪廓分割;而步態(tài)識(shí)別則采用了當(dāng)前最先進(jìn)的GainSet模型,能夠達(dá)到較高的識(shí)別率。系統(tǒng)方案充分利用了Android手機(jī)的便捷性和服務(wù)器的強(qiáng)大算力,同時(shí)彌補(bǔ)了固定設(shè)備進(jìn)行識(shí)別時(shí)的靈活性欠缺等不足,只要有網(wǎng)絡(luò),便可隨時(shí)隨地通過(guò)Android手機(jī)客戶端迅速獲取對(duì)象身份,非常簡(jiǎn)潔實(shí)用。
最后,系統(tǒng)分別經(jīng)CASIA-B數(shù)據(jù)集和真實(shí)場(chǎng)景進(jìn)行測(cè)試,結(jié)果顯示系統(tǒng)能夠獲得較好的性能,在真實(shí)場(chǎng)景下,系統(tǒng)的準(zhǔn)確率能夠達(dá)到77.5%。下一步將考慮向預(yù)處理中加多線程服務(wù)器,以縮短服務(wù)器反應(yīng)時(shí)間,改善用戶體驗(yàn)感。
參考文獻(xiàn):
[1] CONNOR P,ROSS A. Biometric recognition by gait:A survey of modalities and features [J].Computer Vision and Image Understanding,2018,167:1-27.
[2] 朱應(yīng)釗,李嫚.步態(tài)識(shí)別現(xiàn)狀及發(fā)展趨勢(shì) [J].電信科學(xué),2020,36(8):130-138.
[3] JU H,BIR B. Individual recognition using gait energy image [J].IEEE transactions on pattern analysis and machine intelligence,2006,28(2):316-322.
[4] 馮世靈,王修暉.結(jié)合非局部與分塊特征的跨視角步態(tài)識(shí)別 [J].模式識(shí)別與人工智能,2019,32(9):821-827.
[5] 胡靖雯,李曉坤,陳虹旭,等.基于深度學(xué)習(xí)的步態(tài)識(shí)別方法 [J].計(jì)算機(jī)應(yīng)用,2020,40(S1):69-73.
[6] CHAO H,HE Y,ZHANG J,et al. GaitSet:Regarding gait as a set for cross-view gait recognition [C]//Proceedings of the 33th AAAI Conference on Artificial Intelligence,2019:8126-8133.
[7] 賁晛燁,徐森,王科俊.行人步態(tài)的特征表達(dá)及識(shí)別綜述 [J].模式識(shí)別與人工智能,2012,25(1):71-81.
[8] 汪濤,汪泓章,夏懿,等.基于卷積神經(jīng)網(wǎng)絡(luò)與注意力模型的人體步態(tài)識(shí)別 [J].傳感技術(shù)學(xué)報(bào),2019,32(7):1027-1033.
[9] 張馨心,姚愛(ài)琴,孫運(yùn)強(qiáng),等.基于深度學(xué)習(xí)的步態(tài)識(shí)別算法優(yōu)化研究 [J].自動(dòng)化儀表,2020,35(4):70-74.
[10] 周志一,宋冰,段鵬松,等.基于WiFi信號(hào)的輕量級(jí)步態(tài)識(shí)別模型LWID [J].計(jì)算機(jī)科學(xué),2020,47(11):25-31.
[11] SHI C,LIU J,LIU H,et al. Smart user authentication through actuation of daily activities leveraging WiFi-enabled IoT [C]//Proceedings of the 18th ACM international symposium on Mobile Ad Hoc Networking and Computing. Chennai,India:Association for Computing Machinery,2017:1–10.
[12] WANG W,LIU A X L,SHAHZAD M. Gait recognition using WiFi signals [C]//Proceedings of the 18th ACM International Symposium on Mobile Ad Hoc Networking and Computing. Heidelberg Germany:Association for Computing Machinery,2016:363–373.
[13] ZENG Y,PATHAK P H,MOHAPATRA P. WiWho:wifi-based person identification in smart spaces [C]//Proceedings of the 15th International Conference on Information Processing in Sensor Networks. Vienna Austria:IEEE Press,2016:1-12.
[14] ZHANG J,WEI B,HU W,et al. Wifi-id:human identifica-tion using wifi signal [C]//Proceedings of the International Conference on Distributed Computing in Sensor Systems. Washington,DC,USA:2016 International Conference on Distributed Computing in Sensor Systems (DCOSS),2016:75-82.
[15] CHEN L C,ZHU Y,PAPANDREOU G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]//Proceedings of the European conference on computer vision (ECCV). Munich,Germany:Computer Vision – ECCV 2018,2018:833-851.
[16] CHEN L C,PAPANDREOU G,SCHROFF F,et al. Re-thinking atrous convolution for semantic image segmenta-tion [J/OL].arXiv.org,2017,3(2017-06-17).https://arxiv.org/abs/1706.05587v1.
[17] LIPTON A J,F(xiàn)UJIYOSHI H,PATIL R S. Moving target classification and tracking from real-time video [C]//Proceeding of Fourth IEEE Workshop on Applications of Computer Vision. Princeton,NJ,USA:IEEE,1998:8-14.
[18] 商磊,張宇,李平.基于密集光流的步態(tài)識(shí)別 [J].大連理工大學(xué)學(xué)報(bào),2016,56(2):214-220.
作者簡(jiǎn)介:趙煦華(1973.12—),男,漢族,浙江東陽(yáng)人,中級(jí)工程師,碩士研究生,研究方向:嵌入式系統(tǒng)、大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)。