MMRGait-1.0：多視角多穿著條件下的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集

2023-09-15 01:37:48陳曉陽薛世鯤

雷達(dá)學(xué)報(bào) 2023年4期

杜蘭陳曉陽石鈺薛世鯤解蒙

(西安電子科技大學(xué)雷達(dá)信號(hào)處理國(guó)家重點(diǎn)實(shí)驗(yàn)室西安 710071)

1 引言

步態(tài)識(shí)別是一種新興的生物識(shí)別技術(shù)，旨在通過人體行走特點(diǎn)的不同對(duì)人體的身份進(jìn)行識(shí)別[1]。相比于指紋識(shí)別、虹膜識(shí)別等傳統(tǒng)的生物識(shí)別技術(shù)，步態(tài)識(shí)別具有非合作、遠(yuǎn)距離、不易偽裝等優(yōu)點(diǎn)，可用于智能門禁、安防監(jiān)控、刑偵監(jiān)測(cè)等領(lǐng)域，具有十分廣闊的應(yīng)用前景[2]。

近年來，由于深度學(xué)習(xí)的成熟發(fā)展和大量光學(xué)步態(tài)識(shí)別數(shù)據(jù)集的支撐，基于光學(xué)傳感器的步態(tài)識(shí)別方法相關(guān)研究取得了有效的進(jìn)展。然而，光學(xué)傳感器易受天氣和光線條件影響，且采集的圖像或視頻存在隱私泄露的風(fēng)險(xiǎn)。與光學(xué)傳感器相比，雷達(dá)通過發(fā)射電磁波的方式來探測(cè)和感知目標(biāo)，可以有效防止隱私泄露，同時(shí)雷達(dá)可以在不同的天氣和光線條件下工作，具有較強(qiáng)的環(huán)境魯棒性[3]。因此，基于雷達(dá)的步態(tài)識(shí)別方法具有非常高的實(shí)際應(yīng)用價(jià)值，目前已受到廣泛關(guān)注[4-8]。

人在行走時(shí)，人體各個(gè)部位的微運(yùn)動(dòng)會(huì)在雷達(dá)回波信號(hào)上引起頻率調(diào)制產(chǎn)生微多普勒信號(hào)[9]。由于每個(gè)人行走的姿態(tài)、方式不同，微多普勒信號(hào)中包含的步態(tài)信息也會(huì)有所差異。對(duì)微多普勒信號(hào)進(jìn)行時(shí)頻分析得到的時(shí)頻譜圖能夠反映人體豐富的步態(tài)微多普勒信息，因此利用時(shí)頻譜圖進(jìn)行步態(tài)識(shí)別是一種十分有前景的處理方法。傳統(tǒng)的基于雷達(dá)的步態(tài)識(shí)別方法通常使用手動(dòng)提取特征的方式進(jìn)行識(shí)別，識(shí)別過程一般分為兩步：(1)從時(shí)頻譜圖中提取軀干和四肢運(yùn)動(dòng)周期、多普勒展寬等特征；(2)將提取到的特征輸入到支持向量機(jī)、決策樹等傳統(tǒng)分類器完成識(shí)別。然而，此類方法非常依賴先驗(yàn)知識(shí)，計(jì)算復(fù)雜度較高且泛化性較差，通常難以獲得滿意的識(shí)別效果[10]。

近年來，深度學(xué)習(xí)技術(shù)在基于雷達(dá)的步態(tài)識(shí)別領(lǐng)域逐漸興起，與傳統(tǒng)的基于手動(dòng)提取特征的方法相比，基于深度學(xué)習(xí)的方法可以自動(dòng)地從時(shí)頻譜圖中提取具有鑒別力的步態(tài)特征，識(shí)別性能得到了極大的提升[11,12]。目前已有許多學(xué)者對(duì)基于時(shí)頻譜圖的步態(tài)識(shí)別問題展開了相關(guān)研究，南京航空航天大學(xué)的Cao等人[4]首次提出了一種基于AlexNet卷積神經(jīng)網(wǎng)絡(luò)的步態(tài)識(shí)別方法，在采集的20人數(shù)據(jù)集上達(dá)到了較好的識(shí)別效果。意大利貝內(nèi)文托大學(xué)的Addabbo等人[11]利用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)對(duì)步態(tài)時(shí)序信息進(jìn)行建模，并在采集的5人數(shù)據(jù)集上驗(yàn)證了所提方法的有效性。Doherty等人[12]使用空間注意力和通道注意力機(jī)制增強(qiáng)特征表示以獲取更具判別力的步態(tài)特征，所提方法在39人數(shù)據(jù)集上達(dá)到了較高的識(shí)別性能。天津大學(xué)的Lang等人[5]設(shè)計(jì)了一種動(dòng)作分類與步態(tài)識(shí)別的多任務(wù)模型，并在采集的15人數(shù)據(jù)集上驗(yàn)證了模型的有效性。Yang等人[13]使用多尺度特征融合策略融合了網(wǎng)絡(luò)不同層提取到的步態(tài)信息，在15人的數(shù)據(jù)集上達(dá)到了較高的識(shí)別準(zhǔn)確率。復(fù)旦大學(xué)的Xia等人[14]使用Inception模塊以及殘差模塊搭建了識(shí)別網(wǎng)絡(luò)，并取得了較好的識(shí)別效果。上述工作證明了深度學(xué)習(xí)技術(shù)應(yīng)用于雷達(dá)步態(tài)識(shí)別領(lǐng)域的可行性，推動(dòng)了雷達(dá)在步態(tài)識(shí)別領(lǐng)域的發(fā)展。然而，上述研究?jī)H局限于分類任務(wù)，即訓(xùn)練集和測(cè)試集中人的身份必須一致，無法對(duì)訓(xùn)練集中未出現(xiàn)的身份進(jìn)行有效識(shí)別，這限制了基于雷達(dá)的步態(tài)識(shí)別在真實(shí)世界中的應(yīng)用。

在真實(shí)世界中，步態(tài)識(shí)別通常被認(rèn)為是一項(xiàng)檢索任務(wù)[15]，即給定一個(gè)查詢樣本，步態(tài)識(shí)別模型需要從步態(tài)樣本庫(kù)中檢索出與查詢樣本匹配度最高的樣本并賦予身份標(biāo)簽。與基于分類任務(wù)的步態(tài)識(shí)別方法相比，基于檢索任務(wù)的步態(tài)識(shí)別方法具有以下特點(diǎn)：(1)檢索任務(wù)不要求訓(xùn)練集和測(cè)試集中人員的身份相同，因此離線訓(xùn)練的步態(tài)識(shí)別系統(tǒng)可以直接部署到新場(chǎng)景中；(2)當(dāng)新身份的人出現(xiàn)時(shí)，只需要更新樣本庫(kù)而無需重新訓(xùn)練模型。

基于檢索任務(wù)的步態(tài)識(shí)別模型通過對(duì)比不同樣本在特征空間中距離的遠(yuǎn)近來衡量樣本之間的匹配度，距離越近則樣本之間的匹配度越高。檢索任務(wù)模型的訓(xùn)練需要足夠多身份數(shù)目的樣本支撐，以保證模型能夠?qū)W習(xí)到將相同身份樣本之間的距離拉近、不同身份樣本之間的距離拉遠(yuǎn)的能力，使相同身份樣本之間的匹配度最高。同時(shí)，在基于檢索任務(wù)的步態(tài)識(shí)別中，訓(xùn)練集和測(cè)試集中人的身份通常是不相同的，這對(duì)數(shù)據(jù)集中人的身份數(shù)目提出了更高的要求。然而，現(xiàn)有基于雷達(dá)的步態(tài)識(shí)別研究大多使用私有時(shí)頻譜圖數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，這些數(shù)據(jù)集中人員的數(shù)目通常較少，無法滿足檢索任務(wù)對(duì)數(shù)據(jù)量的需求。由于數(shù)據(jù)采集的時(shí)間成本和人力成本較大，目前暫時(shí)沒有人員數(shù)目充足的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集公開，因此基于檢索任務(wù)的雷達(dá)步態(tài)識(shí)別仍然是一個(gè)亟待研究的領(lǐng)域。

為了填補(bǔ)基于檢索任務(wù)的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集的空缺，并為相關(guān)研究提供數(shù)據(jù)支撐，本文公開了一個(gè)121人的大型雷達(dá)步態(tài)識(shí)別時(shí)頻譜圖數(shù)據(jù)集?？紤]到毫米波雷達(dá)具有較高的分辨率以及較低的功耗，且容易在實(shí)際應(yīng)用中部署，本文選擇毫米波雷達(dá)作為傳感器來獲取步態(tài)數(shù)據(jù)。同時(shí)考慮到在真實(shí)世界中，不同的行走視角[16]以及不同的穿著條件[17]會(huì)導(dǎo)致人體微多普勒特征的變化繼而影響到步態(tài)識(shí)別模型的性能，因此，我們采集的數(shù)據(jù)包含了受試者在多種穿著條件下沿雷達(dá)不同視角行走的情況。此外，本文提出一種基于檢索任務(wù)的雷達(dá)步態(tài)識(shí)別方法，并在公布數(shù)據(jù)集上評(píng)估了在多視角、跨視角以及相同穿著條件、跨穿著條件下的識(shí)別性能，實(shí)驗(yàn)結(jié)果可以作為基準(zhǔn)性能指標(biāo)，該數(shù)據(jù)集已可通過《雷達(dá)學(xué)報(bào)》官網(wǎng)的相關(guān)鏈接(https://radars.ac.cn/web/data/getData?newsColumnId=c 2cae1d9-521f-444e-ad1e-f009bf7b9acc)免費(fèi)下載使用，供更多學(xué)者在此數(shù)據(jù)集上開展進(jìn)一步研究。

2 MMRGait-1.0數(shù)據(jù)集信息

2.1 毫米波雷達(dá)簡(jiǎn)介

本文使用德州儀器(Texas Instruments,TI)開發(fā)的77 GHz調(diào)頻連續(xù)波(Frequency-Modulated Continuous-Wave,FMCW)雷達(dá)AWR 1843[18]采集原始的人體雷達(dá)回波數(shù)據(jù)。該雷達(dá)采用低功耗的COMS工藝，以較小的尺寸實(shí)現(xiàn)了極高的集成度，同時(shí)該雷達(dá)擁有3個(gè)發(fā)射天線和4個(gè)接收天線，在方位維和俯仰維上具有一定的角度分辨率，雷達(dá)天線陣列分布如圖1所示。

圖1 毫米波雷達(dá)天線陣列分布圖Fig.1 Antenna array distribution of millimeter-wave radar

毫米波雷達(dá)的天線配置為1發(fā)4收，雷達(dá)發(fā)射波形為線性調(diào)頻連續(xù)波，其中單個(gè)線性調(diào)頻信號(hào)又被稱為Chirp信號(hào)。發(fā)射波形的具體參數(shù)配置如表1所示。在此配置下，該雷達(dá)可以達(dá)到0.097 m/s的速度分辨率，較高的速度分辨率容易獲取豐富的人體步態(tài)信息。

表1 雷達(dá)發(fā)射波形參數(shù)配置Tab.1 Parameter configurations of the radar transmitting waveform

2.2 數(shù)據(jù)采集設(shè)置

步態(tài)數(shù)據(jù)的采集平臺(tái)和室內(nèi)采集場(chǎng)景如圖2所示，圖2(a)所示毫米波雷達(dá)用于采集步態(tài)數(shù)據(jù)，光學(xué)相機(jī)用于記錄采集場(chǎng)景。本數(shù)據(jù)集中共包含121位受試者的步態(tài)數(shù)據(jù)，其中，男性72人，年齡21～26歲，身高163～187 cm，體重55～100 kg；女性49人，年齡21～27歲，身高在155～176 cm，體重在40～67 kg。本文采集了受試者在3種穿著條件下沿8個(gè)不同視角行走的數(shù)據(jù)，行走視角示意圖如圖3所示。我們規(guī)定行走軌跡與雷達(dá)法線方向的夾角為行走視角，8個(gè)視角分別為0o,30o,45o,60o,90o,300o,315o,330o。圖4展示了3種穿著條件的示例，3種穿著條件分別為正常穿著、穿大衣和挎包。正常穿著行走時(shí)，人體的各個(gè)部位正常運(yùn)動(dòng)且沒有被物體遮擋；挎包行走時(shí)，一只手需要扶包，有一條胳膊無法正常擺動(dòng)；穿大衣行走時(shí)，大腿上半部分被遮擋，且大衣的下擺有無規(guī)則擺動(dòng)。

圖2 數(shù)據(jù)采集平臺(tái)和室內(nèi)采集場(chǎng)景Fig.2 Data collection platform and indoor collection scene

圖3 行走視角示意圖Fig.3 The view of walking

圖4 3種穿著條件示例Fig.4 Examples of three wearing conditions

本數(shù)據(jù)集中每位受試者共采集80組數(shù)據(jù)，每組數(shù)據(jù)時(shí)長(zhǎng)為2.4 s。具體來說，8個(gè)行走視角每個(gè)視角各采集10組，其中，6組為正常穿著，2組為穿大衣，2組為挎包。121位受試者共采集9680組數(shù)據(jù)。

2.3 信號(hào)處理流程

本文使用1發(fā)4收的天線配置采集數(shù)據(jù)，因此每組數(shù)據(jù)包含4個(gè)通道的原始雷達(dá)回波信號(hào)，對(duì)雷達(dá)回波信號(hào)進(jìn)行信號(hào)處理可以得到時(shí)頻譜圖，具體的信號(hào)處理流程如圖5所示。首先我們將4個(gè)通道的雷達(dá)回波信號(hào)進(jìn)行非相干積累，其次對(duì)積累后的信號(hào)進(jìn)行距離維快速傅里葉變換(Fast Fourier Transform,FFT)得到時(shí)間-距離圖，然后使用高通濾波器濾除靜止雜波，最后選取時(shí)間-距離圖中人體行走時(shí)所在的距離單元(0～9.375 m)，對(duì)每個(gè)距離單元的信號(hào)進(jìn)行短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)并求和得到最終的時(shí)頻譜圖，時(shí)頻譜圖可以反映人體目標(biāo)各個(gè)散射點(diǎn)能量強(qiáng)度和頻率隨時(shí)間變化的過程[19]。

圖5 信號(hào)處理流程Fig.5 Signal processing flow

短時(shí)傅里葉變換是一種常用的時(shí)頻分析方法，其通過滑動(dòng)窗口的方式對(duì)時(shí)間窗內(nèi)的信號(hào)做FFT得到時(shí)頻譜圖，對(duì)信號(hào)s(t)做短時(shí)傅里葉變換的表達(dá)式如下：

其中，h(·)表示信號(hào)的漢明窗(Hamming)窗函數(shù)，t表示時(shí)間維，ω表示頻率維。根據(jù)經(jīng)驗(yàn)，本文將短時(shí)傅里葉變換的采樣點(diǎn)數(shù)設(shè)置為512，漢明窗窗長(zhǎng)設(shè)置為0.047 s，滑窗的重疊率設(shè)置為80%。圖6展示了同一人在3種穿著條件下沿8個(gè)視角行走的2.4 s時(shí)頻譜圖，橫坐標(biāo)表示時(shí)間，為直觀展示人體的行走速度，將縱坐標(biāo)的頻率轉(zhuǎn)換為速度，速度范圍為-6.23～3.12 m/s。當(dāng)穿著條件相同時(shí)，不同行走視角的時(shí)頻譜圖反映的微多普勒信息有所差異，視角從0o變換到90o的過程中，時(shí)頻譜圖中速度維的延展逐漸變小，微多普勒信息逐漸變少。當(dāng)行走視角相同時(shí)，不相同穿著條件下的時(shí)頻譜圖也有所不同：挎包行走時(shí)，由于一條胳膊無法正常擺動(dòng)，其時(shí)頻譜圖相較于正常穿著的時(shí)頻譜圖缺失了部分微多普勒信息。穿大衣時(shí)，由于大腿上半部分被遮擋，且大衣下擺的不規(guī)則擺動(dòng)會(huì)對(duì)回波信號(hào)產(chǎn)生額外的頻率調(diào)制，因此穿大衣行走的時(shí)頻譜圖相較于正常穿著行走的時(shí)頻譜圖也會(huì)有所差異。

圖6 8種行走視角、3種穿著條件下的時(shí)頻譜圖Fig.6 Time-frequency spectrograms for eight walking views and three wearing conditions

2.4 數(shù)據(jù)集格式

本數(shù)據(jù)集包含時(shí)頻譜圖的矩陣和圖片兩種格式的數(shù)據(jù)，為方便數(shù)據(jù)集的使用，我們對(duì)數(shù)據(jù)進(jìn)行了統(tǒng)一的命名，格式為AAA-BB-CC-DDD，其中，AAA表示受試者的ID，取值范圍為001～121；BB表示3種穿著條件，分別為NM(正常)、BG(挎包)、CT(穿大衣)；CC表示在BB穿著條件下采集的第CC組數(shù)據(jù)。在NM條件下采集6組數(shù)據(jù)，因此CC取值范圍為01～06，在BG條件下采集2組數(shù)據(jù)，CC取值為01,02，在CT條件下采集2組數(shù)據(jù)，CC取值為01,02；DDD表示行走的視角，分別為000,030,045,060,090,300,315,330。矩陣數(shù)據(jù)的后綴為“.mat”，每個(gè)矩陣的大小為192×246，總樣本數(shù)為9680。圖片數(shù)據(jù)的后綴為“.jpg”，每張圖片的尺寸為477像素×429像素，總樣本數(shù)為9680。以矩陣格式的數(shù)據(jù)為例，具體的數(shù)據(jù)集結(jié)構(gòu)如圖7所示。

圖7 具體數(shù)據(jù)集結(jié)構(gòu)示意圖Fig.7 Structure of the dataset

3 基于檢索任務(wù)的雷達(dá)步態(tài)識(shí)別方法

現(xiàn)有的大多數(shù)雷達(dá)步態(tài)識(shí)別方法僅局限于分類任務(wù)，只能對(duì)訓(xùn)練集中出現(xiàn)過的身份進(jìn)行識(shí)別，新身份的樣本會(huì)被錯(cuò)誤判斷為訓(xùn)練集中的某一個(gè)身份，因此這種基于分類任務(wù)的雷達(dá)步態(tài)識(shí)別方法在實(shí)際應(yīng)用場(chǎng)景中十分受限。相較于基于分類任務(wù)的雷達(dá)步態(tài)識(shí)別方法，基于檢索任務(wù)的雷達(dá)步態(tài)識(shí)別方法更適用于實(shí)際應(yīng)用場(chǎng)景，其流程如圖8所示，檢索任務(wù)遵循“受試者獨(dú)立”準(zhǔn)則，即測(cè)試集中人員身份未在訓(xùn)練集中出現(xiàn)，測(cè)試集中樣本的身份均為“新身份”[2]。在特征提取模型的訓(xùn)練階段，需要身份數(shù)目足夠多的樣本支撐，使模型能夠?qū)W習(xí)到將相同身份樣本之間的距離拉近、不同身份樣本之間的距離推遠(yuǎn)的能力。在測(cè)試階段，測(cè)試集被進(jìn)一步分為查詢樣本與樣本庫(kù)，其中，查詢樣本為待識(shí)別身份的樣本，樣本庫(kù)中的樣本為身份已知的模板樣本。將給定查詢樣本與樣本庫(kù)中所有樣本分別輸入到特征提取模型中得到各自的特征，計(jì)算該查詢樣本特征與樣本庫(kù)中所有樣本特征之間的距離，將樣本庫(kù)中與查詢樣本特征距離最近的樣本的身份賦予該查詢樣本，不同樣本在特征空間中距離的遠(yuǎn)近可以衡量樣本之間的匹配度，距離越近則樣本之間的匹配度越高。

基于檢索任務(wù)的步態(tài)識(shí)別方法可以應(yīng)用到門禁系統(tǒng)、犯罪追蹤等領(lǐng)域，以公司的門禁系統(tǒng)為例，步態(tài)識(shí)別系統(tǒng)需要事先采集該公司所有員工的步態(tài)數(shù)據(jù)作為樣本庫(kù)，每當(dāng)員工進(jìn)入公司時(shí)，步態(tài)識(shí)別系統(tǒng)會(huì)采集員工此時(shí)的步態(tài)數(shù)據(jù)作為查詢樣本，只有從樣本庫(kù)中檢索出該查詢樣本的身份時(shí)，門禁才會(huì)放行。本文提出一種基于檢索任務(wù)的雷達(dá)步態(tài)識(shí)別網(wǎng)絡(luò)模型。此外，為充分挖掘時(shí)頻譜圖中不同時(shí)間尺度的微多普勒信息，本文提出了一種長(zhǎng)短時(shí)特征提取模塊。下面將詳細(xì)介紹本文提出的步態(tài)識(shí)別網(wǎng)絡(luò)模型。

3.1 總體框架

本文提出的步態(tài)識(shí)別網(wǎng)絡(luò)模型總體框架如圖9所示，該模型以ResNet18[20]為主干特征提取網(wǎng)絡(luò)，為獲得更大尺寸的特征圖，本文去掉了原始Res-Net18網(wǎng)絡(luò)中第一個(gè)殘差模塊之前的最大池化層。此外，使用空間注意力模塊、長(zhǎng)短時(shí)特征提取模塊以及多尺度特征融合模塊獲取具有判別力的步態(tài)特征，最后使用度量學(xué)習(xí)中的三元損失[21]對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。該網(wǎng)絡(luò)以時(shí)頻譜圖作為輸入，時(shí)頻譜圖表示為x ∈RB×C×D×T，其中，B表示網(wǎng)絡(luò)訓(xùn)練一次所用的時(shí)頻譜圖數(shù)量；C表示時(shí)頻譜圖的通道數(shù)，其大小取決于輸入格式，當(dāng)時(shí)頻譜圖的輸入格式為RGB圖片時(shí)，通道數(shù)為3，當(dāng)輸入格式為矩陣時(shí)，通道數(shù)為1；D表示時(shí)頻譜圖的頻率維；T表示時(shí)頻譜圖的時(shí)間維。輸入時(shí)頻譜圖首先經(jīng)過一層卷積核大小為7 ×7的卷積層得到特征圖然后再經(jīng)過4個(gè)殘差模塊Conv Block得到4個(gè)不同尺度的特征圖其中，C0,C1,C2,C3和C4分別表示不同尺度的特征圖的通道數(shù)，每個(gè)特征圖中不同的通道代表不同的特征。接下來使用空間注意力模塊對(duì)不同尺度的特征圖進(jìn)行空間位置加權(quán)，然后使用長(zhǎng)短時(shí)特征提取模塊提取特征圖中不同時(shí)間尺度的步態(tài)特征，最后使用多尺度特征融合模塊將不同尺度的特征進(jìn)行融合，并使用融合后的特征計(jì)算三元損失來優(yōu)化網(wǎng)絡(luò)。下面將詳細(xì)介紹各個(gè)模塊。

圖9 基于檢索任務(wù)的特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)框圖Fig.9 Framework for feature extraction network model based on retrieval task

3.2 模塊介紹

3.2.1 空間注意力模塊

時(shí)頻譜圖中除了存在人體運(yùn)動(dòng)產(chǎn)生的微多普勒信息之外，通常還存在背景噪聲以及未濾除干凈的靜止雜波，對(duì)于步態(tài)識(shí)別任務(wù)來說，我們希望網(wǎng)絡(luò)能夠充分地提取人體的微多普勒特征，并且抑制背景噪聲和靜止雜波等無關(guān)特征的提取。此外，人體不同部位的微多普勒特征對(duì)最終識(shí)別的貢獻(xiàn)程度也有所差異，因此我們也希望網(wǎng)絡(luò)能夠關(guān)注更具判別力的微多普勒特征。注意力機(jī)制的目的是按照特征的重要程度對(duì)特征進(jìn)行加權(quán)，使網(wǎng)絡(luò)重點(diǎn)關(guān)注重要特征而抑制無關(guān)特征。本文使用CBAM[22]中的空間注意力模塊對(duì)時(shí)頻譜圖中不同空間位置的特征按重要程度進(jìn)行加權(quán)。空間注意力圖的計(jì)算流程如圖10所示。

圖10 空間注意力圖計(jì)算流程Fig.10 Spatial attention map calculation process

其中，σ表示Sigmoid激活函數(shù)，GMP表示全局最大池化，GAP表示全局平均池化，f7×7表示卷積核大小為7 ×7的卷積層。

最后，將空間注意力圖A(Fi)與輸入特征圖Fi相乘即可得到空間位置加權(quán)的特征圖

3.2.2 長(zhǎng)短時(shí)特征提取模塊

步態(tài)時(shí)頻譜圖能夠反映人行走時(shí)各個(gè)身體部位散射點(diǎn)的能量強(qiáng)度以及多普勒頻率隨時(shí)間變化的過程。從時(shí)頻譜圖不同長(zhǎng)度的時(shí)間段中提取的特征反映的步態(tài)信息有所差異，對(duì)于一張具有完整步態(tài)周期的2.4 s時(shí)頻譜圖來說，對(duì)整個(gè)2.4 s的時(shí)頻譜圖進(jìn)行特征提取，得到的是長(zhǎng)時(shí)的“全局”特征；而對(duì)時(shí)頻譜圖某一時(shí)間段(例如0～0.3 s)進(jìn)行特征提取，得到的則是短時(shí)的“局部”特征。“全局”特征能夠反映整個(gè)步態(tài)周期內(nèi)的信息，“局部”特征則反映了某一時(shí)間段內(nèi)細(xì)粒度的步態(tài)信息，充分利用“局部”特征和“全局”特征能夠提高步態(tài)特征的豐富性。

圖11 長(zhǎng)短時(shí)特征提取模塊計(jì)算流程Fig.11 Long-short time feature extraction module calculation process

圖12 同一人不同起始狀態(tài)下行走的兩組時(shí)頻譜圖數(shù)據(jù)Fig.12 Two sets of time-spectrogram data of walking in different starting states

3.2.3 多尺度特征融合模塊

將4個(gè)殘差模塊提取到的特征圖依次輸入到空間注意力模塊、長(zhǎng)短時(shí)特征提取模塊中，得到4組不同尺度的步態(tài)特征由于卷積神經(jīng)網(wǎng)絡(luò)中不同層的感受野大小不同，網(wǎng)絡(luò)不同層提取的步態(tài)特征中包含的信息也有所差異。淺層網(wǎng)絡(luò)的感受野較小，提取到的步態(tài)特征中蘊(yùn)含更多細(xì)粒度的信息，如時(shí)頻譜圖的輪廓、紋理、邊緣信息等。深層網(wǎng)絡(luò)的感受野較大，提取到的步態(tài)特征中蘊(yùn)含豐富的語義信息。為充分利用網(wǎng)絡(luò)不同層提取到的有價(jià)值信息，本文使用拼接操作將4組不同尺度的步態(tài)特征進(jìn)行融合，拼接過程如下所示：

3.3 訓(xùn)練與測(cè)試

3.3.1 訓(xùn)練

本文使用度量學(xué)習(xí)中的三元損失訓(xùn)練網(wǎng)絡(luò)，該損失的目的是在特征空間中將相同身份樣本之間的距離拉近，不同身份樣本之間的距離拉遠(yuǎn)。對(duì)每批訓(xùn)練樣本計(jì)算三元損失，具體計(jì)算公式如下：

其中，H表示一批訓(xùn)練樣本中身份的數(shù)目，K表示每個(gè)身份擁有的訓(xùn)練樣本數(shù)目，D(·)表示歐氏距離，Dp表示第i個(gè)身份的樣本a與相同身份的樣本p構(gòu)成的正樣本對(duì)在特征空間中的歐氏距離，Dn表示第i個(gè)身份的樣本a與第j個(gè)身份的樣本n構(gòu)成的負(fù)樣本對(duì)在特征空間中的歐氏距離，m為控制正樣本對(duì)與負(fù)樣本對(duì)之間距離的閾值參數(shù)。

3.3.2 測(cè)試

測(cè)試時(shí)，給定查詢樣本q，目的是從樣本庫(kù)G={gi|i=1,2,...,N}(gi為樣本庫(kù)中的樣本，N為樣本數(shù))中檢索出與該查詢樣本相同身份的樣本。具體測(cè)試過程為：

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)設(shè)置

本文使用圖片格式的時(shí)頻譜圖數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，我們將采集的121人中前74人的數(shù)據(jù)作為訓(xùn)練集，其余47人的數(shù)據(jù)作為測(cè)試集。輸入網(wǎng)絡(luò)的時(shí)頻譜圖時(shí)長(zhǎng)為2.4 s，尺寸大小為224像素×224像素。網(wǎng)絡(luò)第1個(gè)卷積層以及后續(xù)4個(gè)殘差模塊輸出特征圖的通道數(shù)C0,C1,C2,C3,C4分別為32,64,128,256,512。長(zhǎng)短時(shí)特征提取模塊中使用3種分割方式將特征圖分成1,2,7份，全連接層FC輸出特征向量的維度Hid為512。一批訓(xùn)練樣本中身份的數(shù)目P為2，每個(gè)身份擁有的訓(xùn)練樣本數(shù)目K為4，三元損失中閾值參數(shù)m設(shè)置為0.2。使用AdamW優(yōu)化算法訓(xùn)練網(wǎng)絡(luò)，其中初始學(xué)習(xí)率lr設(shè)置為0.0005，權(quán)重衰減項(xiàng)weight_decay設(shè)置為0.0001。訓(xùn)練迭代次數(shù)為400000次，每次迭代后使用OneCycleLR策略對(duì)學(xué)習(xí)率進(jìn)行調(diào)整。我們?cè)赑ytorch框架上完成網(wǎng)絡(luò)的搭建，并使用NVIDIA GeForce GTX 2080Ti顯卡對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

4.2 評(píng)價(jià)準(zhǔn)則

在測(cè)試階段，我們將測(cè)試集劃分成查詢樣本和樣本庫(kù)，以評(píng)估模型在多視角、跨視角以及多穿著條件、跨穿著條件下的識(shí)別性能。本文將多視角、跨視角、相同穿著條件、跨穿著條件下的識(shí)別準(zhǔn)確度作為評(píng)價(jià)準(zhǔn)則，4種準(zhǔn)則的具體定義如下：

(1) 多視角條件下的識(shí)別準(zhǔn)確度

給定某個(gè)視角的查詢樣本，樣本庫(kù)中包含查詢樣本視角在內(nèi)的8個(gè)視角，計(jì)算給定視角的查詢樣本在多視角樣本庫(kù)中進(jìn)行身份檢索的Rank-1準(zhǔn)確度。例如當(dāng)查詢樣本的視角為0o時(shí)，樣本庫(kù)中樣本的視角為0o,30o,45o,60o,90o,300o,315o,330o，計(jì)算0o查詢樣本在多視角樣本庫(kù)中進(jìn)行身份檢索的Rank-1準(zhǔn)確度，該Rank-1準(zhǔn)確度即為0o查詢樣本在多視角條件下的識(shí)別準(zhǔn)確度。

(2) 跨視角條件下的識(shí)別準(zhǔn)確度

給定某個(gè)視角的查詢樣本，共有7個(gè)單視角樣本庫(kù)，每個(gè)樣本庫(kù)中包含除查詢樣本視角之外的某個(gè)單一視角，分別計(jì)算給定視角的查詢樣本在單視角樣本庫(kù)中進(jìn)行身份檢索的Rank-1準(zhǔn)確度，將計(jì)算得到的7個(gè)Rank-1準(zhǔn)確度取平均作為給定視角的查詢樣本在跨視角條件下的識(shí)別準(zhǔn)確度。例如當(dāng)查詢樣本的視角為0o時(shí)，分別計(jì)算0o查詢樣本在單視角樣本庫(kù)中進(jìn)行身份檢索的Rank-1準(zhǔn)確度，并將7個(gè)單視角Rank-1準(zhǔn)確度取平均作為0o查詢樣本在跨視角條件下的識(shí)別準(zhǔn)確度。

(3) 相同穿著條件下的識(shí)別準(zhǔn)確度

給定某個(gè)穿著條件的查詢樣本，樣本庫(kù)中樣本的穿著條件與查詢樣本的相同，計(jì)算給定穿著條件的查詢樣本在相同穿著條件的樣本庫(kù)中進(jìn)行身份檢索的Rank-1準(zhǔn)確度，該Rank-1準(zhǔn)確度即為相同穿著條件下的識(shí)別準(zhǔn)確度。

(4) 跨穿著條件下的識(shí)別準(zhǔn)確度

給定某個(gè)穿著條件的查詢樣本，樣本庫(kù)中樣本的穿著條件與查詢樣本的不同，計(jì)算給定穿著條件的查詢樣本在不同穿著條件的樣本庫(kù)中進(jìn)行身份檢索的Rank-1準(zhǔn)確度，該Rank-1準(zhǔn)確度即為跨穿著條件下的識(shí)別準(zhǔn)確度。

4.3 實(shí)驗(yàn)結(jié)果與分析

由于目前沒有針對(duì)雷達(dá)時(shí)頻譜圖的基于檢索任務(wù)的步態(tài)識(shí)別方法，我們對(duì)比了幾種基于分類任務(wù)的步態(tài)識(shí)別方法，并將這些方法中的分類損失替換為三元損失以完成檢索任務(wù)。也就是說可以認(rèn)為這些方法都是已有的針對(duì)雷達(dá)時(shí)頻譜圖的基于分類任務(wù)的步態(tài)識(shí)別方法的變形，我們已經(jīng)將這些方法的分類網(wǎng)絡(luò)改成了檢索網(wǎng)絡(luò)，做的是檢索任務(wù)的識(shí)別實(shí)驗(yàn)。其中，方法1[12]在VGG-16網(wǎng)絡(luò)[25]中嵌入了注意力機(jī)制以獲取更具判別力的步態(tài)特征，方法2[5]在自建網(wǎng)絡(luò)中嵌入了殘差模塊以及密集模塊，方法3[13]使用了多尺度特征融合策略以融合網(wǎng)絡(luò)不同層提取的信息，方法4[14]使用Inception模塊以及殘差模塊搭建了一個(gè)輕量級(jí)網(wǎng)絡(luò)，方法5[11]使用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)頻譜圖中的時(shí)序信息進(jìn)行建模。

如2.5節(jié)所述，每位受試者共采集了10組數(shù)據(jù)，其中正常穿著的6組數(shù)據(jù)表示為NM01-06，挎包的2組數(shù)據(jù)表示為BG01-02，穿大衣的2組數(shù)據(jù)表示為CT01-02。本文實(shí)驗(yàn)中將NM05-06、BG01-02以及CT01-02分別作為查詢樣本，將NM01-04作為樣本庫(kù)。查詢樣本NM05-06在樣本庫(kù)NM01-04中進(jìn)行身份檢索可以評(píng)估相同穿著條件下的識(shí)別性能，查詢樣本BG01-02和CT01-02在樣本庫(kù)NM01-04中進(jìn)行身份檢索可以評(píng)估跨穿著條件下的識(shí)別性能。

表2給出了不同方法在多視角、相同穿著條件下和多視角、跨穿著條件下的識(shí)別結(jié)果，從表2可以看出，當(dāng)查詢樣本為正常穿著NM(相同穿著條件)以及挎包BG、穿大衣CT(跨穿著條件)時(shí)，本文方法的識(shí)別性能均優(yōu)于其他方法，這是因?yàn)榉椒?到方法4沒有利用到時(shí)頻譜圖中的時(shí)序信息，方法5對(duì)全局時(shí)序信息進(jìn)行了建模，但對(duì)局部時(shí)序特征的挖掘不足，而本文方法針對(duì)時(shí)頻譜圖的時(shí)序特性設(shè)計(jì)了長(zhǎng)短時(shí)特征提取模塊，該模塊首先將時(shí)頻譜圖的特征圖沿時(shí)間維分割成不同的份數(shù)，以提取不同時(shí)間尺度的步態(tài)特征，最后將從整張?zhí)卣鲌D中提取到的全局時(shí)序特征與從分割后的特征圖中提取到的多粒度局部時(shí)序特征進(jìn)行融合，以獲得更加豐富的步態(tài)特征表示。同時(shí)，本文使用了多尺度特征融合策略，可以充分利用淺層特征圖中的局部、細(xì)粒度信息以及深層特征圖中的全局、粗粒度信息。雖然本文方法取得了不錯(cuò)的識(shí)別效果，但是在跨穿著條件下的識(shí)別準(zhǔn)確度相較于相同穿著條件仍然有一定程度的下降，從表2可以看出，查詢樣本為BG時(shí)的準(zhǔn)確度相較于NM時(shí)下降13.23%，查詢樣本為CT時(shí)的準(zhǔn)確度相較于NM時(shí)下降15.27%。這是因?yàn)榭姘痛┐笠滦凶邥r(shí)人體的步態(tài)微多普勒特征與正常行走時(shí)相比有所差異，因此在跨穿著條件下網(wǎng)絡(luò)的識(shí)別性能會(huì)有所下降。

表2 不同步態(tài)識(shí)別方法在多視角條件下的識(shí)別準(zhǔn)確度(%)Tab.2 Recognition accuracy of different gait recognition methods in multi-view conditions (%)

表3給出了不同方法在跨視角、相同穿著條件下和跨視角、跨穿著條件下的識(shí)別結(jié)果，從表3可以看出，所有方法在跨視角條件下的識(shí)別準(zhǔn)確度相較于多視角條件下的識(shí)別準(zhǔn)確度均有大幅下降。這是因?yàn)槔走_(dá)獲取的是向視線方向投影的微多普勒信息，具有較強(qiáng)的方位敏感性，當(dāng)一個(gè)人的行走視角發(fā)生變化時(shí)，時(shí)頻譜圖反映的微多普勒信息也會(huì)隨之變化，因此在跨視角條件下的識(shí)別性能較差。但本文方法較這些方法在跨視角條件下還是能夠在一定程度上提升識(shí)別性能的。

表3 不同步態(tài)識(shí)別方法在跨視角條件下的識(shí)別準(zhǔn)確度(%)Tab.3 Recognition accuracy of different gait recognition methods in cross-view conditions (%)

此外，我們計(jì)算了不同方法的模型復(fù)雜度，其中輸入時(shí)頻譜圖的格式為224像素×224像素的3通道RGB圖片。表4展示了不同方法的模型復(fù)雜度，由表4可知，本文方法的計(jì)算量大于其他方法，參數(shù)量比方法1小，比其他方法大。說明我們針對(duì)檢索任務(wù)設(shè)計(jì)合適的模塊來提升模型識(shí)別率的同時(shí)，也在一定程度上增加了模型的復(fù)雜度，因此后續(xù)需要進(jìn)一步研究一些輕量級(jí)架構(gòu)以提高模型的識(shí)別效率。

表4 不同步態(tài)識(shí)別方法的模型復(fù)雜度Tab.4 Model complexity of different gait recognition methods

4.4 消融實(shí)驗(yàn)

我們進(jìn)行了一系列消融實(shí)驗(yàn)以評(píng)估所提網(wǎng)絡(luò)模型中空間注意力模塊、長(zhǎng)短時(shí)特征提取模塊以及多尺度特征融合模塊的有效性。表5給出了在多視角條件下進(jìn)行消融實(shí)驗(yàn)的結(jié)果。

表5 消融實(shí)驗(yàn)識(shí)別準(zhǔn)確度(%)Tab.5 Recognition accuracy of ablation studies (%)

表5中Base表示ResNet18主干特征提取網(wǎng)絡(luò)，LST表示長(zhǎng)短時(shí)特征提取模塊，HPM表示文獻(xiàn)[26]提出的水平金字塔映射模塊，與本文所提的LST相比，HPM缺少向量取平均的操作，MSF表示多尺度特征融合模塊，SA表示空間注意力模塊。相較于Base+HPM，Base+LST的識(shí)別準(zhǔn)確度提高了11.87%，這是因?yàn)長(zhǎng)ST中向量取平均操作聚合了分割后各個(gè)部分的特征，有效緩解了時(shí)頻譜圖中起始狀態(tài)不對(duì)齊對(duì)識(shí)別性能的影響。與Base+LST相比，Base+LST+MSF的識(shí)別準(zhǔn)確率提高了10.51%，證明了多尺度特征融合模塊可以聚合網(wǎng)絡(luò)不同層提取到的有價(jià)值步態(tài)信息。Base+LST+MS+SA為本文方法，其在Base+LST+MSF的基礎(chǔ)上增加了空間注意力模塊，識(shí)別準(zhǔn)確率提高了4.07%，證明了對(duì)時(shí)頻譜圖中空間位置進(jìn)行加權(quán)可以提高步態(tài)特征的鑒別性。上述消融實(shí)驗(yàn)證明了本文方法中各個(gè)模塊的合理性與有效性。

5 結(jié)語

本文公開了一個(gè)大型的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集，填補(bǔ)了基于檢索任務(wù)的雷達(dá)步態(tài)識(shí)別數(shù)據(jù)集的空缺，同時(shí)為相關(guān)研究提供了數(shù)據(jù)支撐。本文使用毫米波雷達(dá)采集了121位受試者在3種穿著條件下沿雷達(dá)8個(gè)不同視角行走的時(shí)頻譜圖數(shù)據(jù)，每位受試者在每個(gè)行走視角下各采集10組，其中6組為正常穿著，2組為穿大衣，2組為挎包。同時(shí)，本文提出了一種基于檢索任務(wù)的毫米波雷達(dá)步態(tài)識(shí)別網(wǎng)絡(luò)模型，并在公布數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明了所提模型的有效性。此外，跨視角和跨穿著條件下的步態(tài)識(shí)別是一項(xiàng)非常有挑戰(zhàn)性的工作，本文所提模型的實(shí)驗(yàn)結(jié)果可以作為基準(zhǔn)性能指標(biāo)，方便后續(xù)相關(guān)工作者在此基礎(chǔ)上開展進(jìn)一步研究。

本文公布的數(shù)據(jù)集仍然存在一些不足需要改進(jìn)，由于本文使用1發(fā)4收的毫米波雷達(dá)天線配置采集數(shù)據(jù)，雷達(dá)的方位維分辨率較低并且沒有俯仰維分辨能力，在步態(tài)識(shí)別時(shí)無法利用人體的空間位置信息以及形狀信息。后續(xù)考慮使用具有較高方位維和俯仰維分辨率的雷達(dá)采集人體步態(tài)數(shù)據(jù)，生成時(shí)頻譜圖、點(diǎn)云等形式的數(shù)據(jù)，以充分利用人體的微多普勒信息、形狀信息和空間位置信息等進(jìn)行步態(tài)識(shí)別。此外，本數(shù)據(jù)集的采集場(chǎng)景較為單一、背景較為干凈，后續(xù)我們會(huì)進(jìn)一步開展復(fù)雜場(chǎng)景中的步態(tài)識(shí)別研究。

附錄

MMRGait-1.0：多視角多穿著條件下的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集(MMRGait-1.0)依托《雷達(dá)學(xué)報(bào)》官方網(wǎng)站發(fā)布，數(shù)據(jù)及使用說明已上傳至學(xué)報(bào)網(wǎng)站“MMRGait-1.0：多視角多穿著條件下的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集”頁面(附圖1)，網(wǎng)址: https://radars.ac.cn/web/data/getData?newsColumnId=c2cae1d9-521f-444e-ad1e-f009bf7b9acc.

附圖1 MMRGait-1.0：多視角多穿著條件下的雷達(dá)時(shí)頻譜圖步態(tài)識(shí)別數(shù)據(jù)集發(fā)布網(wǎng)頁App.Fig.1 Release webpage of MMRGait-1.0: A radar time-frequency spectrogram dataset for gait recognition under multi-view and multi-wearing conditions dataset

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡