基于步態(tài)與聲紋特征融合的人物身份識(shí)別

2023-05-11 08:58熊經(jīng)文岳文靜

軟件導(dǎo)刊 2023年4期

熊經(jīng)文，陳志，倪康，岳文靜

（南京郵電大學(xué) 計(jì)算機(jī)學(xué)院，江蘇南京 210023）

0 引言

步態(tài)與聲紋作為典型的生物特征，具有非配合性等特點(diǎn)，廣泛應(yīng)用于門禁控制、法醫(yī)鑒定和安保系統(tǒng)等領(lǐng)域，但其單一模態(tài)的生物特征仍存在不足，如步態(tài)識(shí)別會(huì)受到復(fù)雜背景下難以提取步態(tài)輪廓圖、人物衣著覆蓋人體輪廓等因素影響，造成識(shí)別率不佳；聲紋識(shí)別中的環(huán)境噪聲可能對(duì)說(shuō)話人聲紋特征造成干擾，導(dǎo)致系統(tǒng)無(wú)法準(zhǔn)確學(xué)習(xí)說(shuō)話人特征，從而產(chǎn)生誤判。多模態(tài)的生物特征識(shí)別使用不同的生物特征，將不同層面的互補(bǔ)身份信息相結(jié)合，能從多層面表征人物的身份信息，相比于單一模態(tài)的識(shí)別系統(tǒng)能夠更好地增強(qiáng)生物識(shí)別系統(tǒng)的魯棒性與準(zhǔn)確性。因此，采用多種模態(tài)聯(lián)合進(jìn)行生物身份識(shí)別是未來(lái)的研究趨勢(shì)，并且在科研和實(shí)際應(yīng)用領(lǐng)域都受到廣泛關(guān)注。

國(guó)內(nèi)外學(xué)者在該領(lǐng)域已開(kāi)展了許多研究工作。文獻(xiàn)［1］提出將說(shuō)話人聲紋與唇部相結(jié)合進(jìn)行身份識(shí)別的方法，在特征層將兩種特征進(jìn)行拼接，證明了聲紋與嘴唇特征的互補(bǔ)性，取得了不錯(cuò)的效果；文獻(xiàn)［2］將視頻中的人臉與語(yǔ)音模態(tài)融合以進(jìn)行維度情感識(shí)別，該方法使用注意力機(jī)制融合人臉與語(yǔ)音特征，為解決數(shù)據(jù)集中語(yǔ)音干擾較大的問(wèn)題，將人臉特征與融合后的特征相加，增加人臉的權(quán)重，針對(duì)特定場(chǎng)景提升了模型的魯棒性；文獻(xiàn)［3］提出一種將虹膜與眼周特征融合的方法，通過(guò)共同注意力機(jī)制進(jìn)行特征融合，取得了較好效果。目前的研究主要集中于人臉與語(yǔ)音、模態(tài)等方面，而基于步態(tài)與聲紋融合的研究較少。

針對(duì)上述情況，本文提出一種融合步態(tài)與聲紋的身份識(shí)別方法，使用GaitSet 網(wǎng)絡(luò)提取步態(tài)特征，通過(guò)提取聲音的MFCC 頻譜圖，將MFCC 特征輸入ResNet 網(wǎng)絡(luò)，使用CBAM 注意力機(jī)制關(guān)注頻譜圖的有用信息，提取聲音的高級(jí)語(yǔ)義特征，并將提取的特征通過(guò)門控注意力機(jī)制進(jìn)行融合，設(shè)計(jì)與實(shí)現(xiàn)一個(gè)身份識(shí)別系統(tǒng)。

1 基于多模態(tài)融合的身份識(shí)別網(wǎng)絡(luò)

本文所提出的步態(tài)—聲紋多模態(tài)融合身份識(shí)別網(wǎng)絡(luò)模型框架如圖1 所示。該網(wǎng)絡(luò)使用預(yù)處理的提取的步態(tài)輪廓序列和音頻的MFCC 特征作為步態(tài)輸入及聲音輸入，分別通過(guò)步態(tài)、聲音模型提取各自的高級(jí)特征，之后進(jìn)行特征融合。

Fig.1 Gait-voiceprint joint recognition network architecture圖1 步態(tài)聲紋聯(lián)合識(shí)別網(wǎng)絡(luò)架構(gòu)

1.1 步態(tài)特征提取

本文使用步態(tài)識(shí)別中的經(jīng)典網(wǎng)絡(luò)GaitSet 提取步態(tài)特征，該網(wǎng)絡(luò)模型在步態(tài)識(shí)別任務(wù)中取得了良好效果，能夠有效提取步態(tài)輪廓序列的高級(jí)特征［4］。模型中以二值化的步態(tài)輪廓序列作為輸入，使用多個(gè)共享權(quán)重的CNN 卷積提取初步特征，通過(guò)集合池化的思想將幀級(jí)特征聚合成獨(dú)立序列級(jí)特征，很好地保留了空間和時(shí)間信息。經(jīng)過(guò)驗(yàn)證，當(dāng)Gaitset 網(wǎng)絡(luò)輸入30 張步態(tài)序列圖片時(shí)，模型的準(zhǔn)確率達(dá)到相對(duì)穩(wěn)定，繼續(xù)增加步態(tài)序列數(shù)量，準(zhǔn)確率提升不多，但計(jì)算量相對(duì)增加。因此，本文從一段視頻中抽取30幀作為模型的輸入，進(jìn)而提取步態(tài)特征。

1.2 聲紋特征提取

在聲紋識(shí)別領(lǐng)域已進(jìn)行了許多研究，如基于傳統(tǒng)方法的GMM-UBM［5］，該方法采用高階高斯模型對(duì)說(shuō)話人進(jìn)行建模，適合于文本無(wú)關(guān)說(shuō)話人識(shí)別；i-vector 方法描述說(shuō)話人信息時(shí)，將語(yǔ)音映射到一個(gè)固定的低維向量，該方法有效降低了參數(shù)量，在與文本無(wú)關(guān)的聲紋識(shí)別中有較好表現(xiàn)［6］；x-vector 利用時(shí)延神經(jīng)網(wǎng)絡(luò)提取幀級(jí)特征，使用統(tǒng)計(jì)池化將幀級(jí)特征聚合為段級(jí)特征，在短語(yǔ)音情形下有著更強(qiáng)的魯棒性［7］。

本文采用基于ResNet34 的網(wǎng)絡(luò)進(jìn)行聲音特征提?。?］，ResNet 網(wǎng)絡(luò)在各種任務(wù)中都取得了較好效果，模型中使用殘差連接增強(qiáng)模型訓(xùn)練的魯棒性，可有效解決梯度爆炸問(wèn)題。本文網(wǎng)絡(luò)中使用自注意池化層［9］將幀級(jí)特征聚合為語(yǔ)句級(jí)特征，并在每個(gè)網(wǎng)絡(luò)塊的末端加入CBAM［10］注意力機(jī)制。通過(guò)結(jié)合通道注意力與空間注意力機(jī)制，CBAM 能增強(qiáng)聲音頻譜圖像的特征表達(dá)，關(guān)注其中的重要特征并抑制非重要特征。網(wǎng)絡(luò)模型具體參數(shù)如表1所示。

Table 1 Voiceprint model parameters表1 聲紋模型參數(shù)

1.3 融合模塊

生物特征具有多樣性，不同的生物特征相對(duì)于其他生物特征都具有獨(dú)特優(yōu)勢(shì)，同時(shí)也有其不足，沒(méi)有一種生物特征能同時(shí)滿足所有需求，因此多特征識(shí)別則顯得尤為重要。在眾多生物特征中，人物的步態(tài)信息和聲紋信息相較于其他生物特征信息更易于獲取，且具有一定的非配合性，適用于非配合場(chǎng)景下的身份識(shí)別。但在實(shí)際的室內(nèi)場(chǎng)景中，目標(biāo)人物的步態(tài)視角可能會(huì)發(fā)生變化，或者受到遮擋等因素影響，一定程度上影響了步態(tài)識(shí)別的識(shí)別率。對(duì)于聲紋識(shí)別，在目標(biāo)距離較遠(yuǎn)的遠(yuǎn)場(chǎng)景下，其聲音信息易受到噪聲干擾，而其步態(tài)受干擾較?。辉诮鼒?chǎng)景下且有遮擋的環(huán)境中，步態(tài)信息容易缺失，卻可以較好地采集聲音信息，兩者之間具有一定互補(bǔ)性。同時(shí)，人物的步態(tài)與聲音信息都包含了目標(biāo)對(duì)象的性別［11］、年齡［12］等信息，具有一定的相關(guān)性，所以選擇將兩者進(jìn)行融合。

在多模態(tài)融合中，不同模態(tài)的特征所分布的語(yǔ)義空間相差較大，要進(jìn)行特征融合，必須使不同的模態(tài)特征映射到相同的語(yǔ)義空間中，才能對(duì)特征進(jìn)行有效融合。由于步態(tài)與聲紋是兩種不同的生物模態(tài)，兩者差異較大，為了更有效地融合多源信息，分別將聲紋特征fs通過(guò)全連接層映射到256 維空間中，將步態(tài)特征fg映射到256 維空間中［13］。具體操作如下式所示：

在語(yǔ)音識(shí)別等時(shí)序任務(wù)中，GRU 和LSTM 將門控機(jī)制應(yīng)用于模態(tài)融合［14］，該結(jié)構(gòu)可根據(jù)來(lái)自不同模態(tài)的數(shù)據(jù)組合找到中間表示，每個(gè)模態(tài)的輸入通過(guò)tanh 激活函數(shù)編碼，得到一個(gè)模態(tài)內(nèi)部的表示特征。對(duì)于每個(gè)輸入的模態(tài)，通過(guò)門神經(jīng)元σ 計(jì)算特征對(duì)單元整體的輸出貢獻(xiàn)度。本文使用門控注意力機(jī)制的方法［15］將輸入的特征進(jìn)行拼接，通過(guò)注意力層關(guān)注兩個(gè)模態(tài)之間的交互。通過(guò)門神經(jīng)元σ 得到不同模態(tài)的貢獻(xiàn)度，分別將每個(gè)模態(tài)的貢獻(xiàn)度與對(duì)應(yīng)的模態(tài)特征相乘，計(jì)算出加權(quán)特征，將加權(quán)后的步態(tài)特征與聲紋特征相加作為最后的融合特征。公式如下：

式中，σ 為sigmod 激活函數(shù)，用來(lái)計(jì)算融合后的注意力分?jǐn)?shù)，最終的融合特征為。經(jīng)過(guò)tanh 激活函數(shù)，增加非線性變化，分別乘以注意力權(quán)重z與1-z，計(jì)算得到不同模態(tài)加權(quán)和ep，即融合特征。

2 身份識(shí)別系統(tǒng)設(shè)計(jì)

基于多模態(tài)的步態(tài)與聲紋身份識(shí)別網(wǎng)絡(luò)設(shè)計(jì)身份識(shí)別系統(tǒng)，主要框架如圖2 所示，分為行人檢測(cè)、數(shù)據(jù)預(yù)處理、融合身份識(shí)別幾個(gè)模塊。

2.1 行人檢測(cè)

身份識(shí)別系統(tǒng)使用YOLO 算法［16］檢測(cè)并提取行人圖像框。YOLO 算法是目標(biāo)檢測(cè)的經(jīng)典算法，研究者們已經(jīng)提出了多個(gè)版本，比較經(jīng)典的有YOLOv3、YOLOv4、YOLOv4-tiny、YOLOv5 等。經(jīng)過(guò)比較，綜合層面YOLOv4 算法的性能最優(yōu)，YOLOv5 算法模型較小，速度最快，但識(shí)別精度較低。綜合考慮計(jì)算力和實(shí)時(shí)性的要求，選擇使用YOLOv5 算法進(jìn)行行人檢測(cè)，當(dāng)檢測(cè)到行人時(shí)再進(jìn)行聲音檢測(cè)。

Fig.2 Main framework of the system圖2 系統(tǒng)主要框架

2.2 數(shù)據(jù)預(yù)處理

在實(shí)際場(chǎng)景中，圖像幀可能出現(xiàn)復(fù)雜背景，受到地面反光或者光照產(chǎn)生倒影等因素影響，使用傳統(tǒng)的背景減除法、幀差法雖然效率高、運(yùn)行速度快，但會(huì)產(chǎn)生噪點(diǎn)。在極端情況下，步態(tài)輪廓信息會(huì)被破壞。本文選擇使Mask RCNN 算法［17］進(jìn)行分割，并對(duì)圖像進(jìn)行二值化處理，得到步態(tài)輪廓圖。

對(duì)采集的聲音信號(hào)進(jìn)行靜音檢測(cè)，保留聲紋音量大于閾值的聲音信息。本系統(tǒng)僅針對(duì)單人情況下進(jìn)行身份識(shí)別，即每次只識(shí)別一名人員，同時(shí)目標(biāo)人員需要正常走動(dòng)與說(shuō)話，以確保獲取步態(tài)與聲紋信息。

對(duì)采集的所有音頻進(jìn)行預(yù)加重處理，避免聲音在低頻的強(qiáng)度大于高頻，采樣率為16KHz。以25ms 每幀進(jìn)行分幀，為避免兩幀間變化過(guò)大，在幀與幀之間加入10ms 幀移，并采用漢明窗進(jìn)行加窗，然后進(jìn)行傅里葉變換，得到語(yǔ)譜圖，對(duì)每幀語(yǔ)譜圖進(jìn)行均值和歸一化處理。

2.3 身份識(shí)別

身份識(shí)別模型使用上述提出的步態(tài)—聲紋聯(lián)合識(shí)別網(wǎng)絡(luò)。由于實(shí)驗(yàn)采集的數(shù)據(jù)量有限，為防止小數(shù)據(jù)的過(guò)擬合，步態(tài)、聲紋特征提取模型分別使用CASIA-B 和VoxCeleb1［18］公開(kāi)數(shù)據(jù)集上的預(yù)訓(xùn)練模型。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)代碼采用的語(yǔ)言為Python3.8，使用深度學(xué)習(xí)框架Pytorch1.7 實(shí)現(xiàn)。實(shí)驗(yàn)環(huán)境如下：操作系統(tǒng)為Ubuntu20.04，硬件設(shè)備為英特爾i9-10090K 處理器，顯卡為英偉達(dá)3090。實(shí)驗(yàn)使用反向傳播與交叉熵?fù)p失函數(shù)訓(xùn)練模型，并采用五折交叉驗(yàn)證法對(duì)數(shù)據(jù)集分開(kāi)進(jìn)行訓(xùn)練測(cè)試。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文使用在實(shí)際場(chǎng)景中自采的步態(tài)—聲紋數(shù)據(jù)集，數(shù)據(jù)集中包括10 人的步態(tài)與聲紋數(shù)據(jù)。其中，步態(tài)使用英特爾D435i攝像頭，分為與攝像頭夾角成90°與270°的兩個(gè)行走方向進(jìn)行采集。主要考慮人員衣著正常的情況，每位人員一共采集20 段行走視頻，每段視頻約120 幀，然后提取出人物輪廓圖，并手動(dòng)剔除人員進(jìn)入與走出畫(huà)面的無(wú)效幀，最后每段視頻得到約90 幀。聲音數(shù)據(jù)使用NX 開(kāi)發(fā)板外接的麥克風(fēng)采集，聲音數(shù)據(jù)與步態(tài)數(shù)據(jù)在相同角度下采集，每位人員一共采集20 段音頻，手動(dòng)去除開(kāi)始與結(jié)束的靜音片段。

3.2 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證所提出的多模態(tài)步態(tài)和聲紋身份識(shí)別網(wǎng)絡(luò)的有效性，首先對(duì)融合特征與聲紋特征以及步態(tài)特征進(jìn)行比較。由于聲音數(shù)據(jù)是在實(shí)際場(chǎng)景中進(jìn)行采集的，包含風(fēng)扇、空調(diào)等環(huán)境噪音，所以對(duì)音頻進(jìn)行降噪處理，降低噪聲對(duì)識(shí)別結(jié)果的影響。處理后的單模態(tài)與融合模態(tài)在測(cè)試集上的性能如表2 所示。根據(jù)表2 的實(shí)驗(yàn)結(jié)果可見(jiàn)，聲音數(shù)據(jù)經(jīng)過(guò)降噪處理后，在5 個(gè)子集上都取得了較高的準(zhǔn)確率，平均準(zhǔn)確率可達(dá)到81.95%，高于步態(tài)識(shí)別方法。使用步態(tài)加聲紋融合特征的方法，在數(shù)據(jù)集上的平均識(shí)別率可達(dá)到83.64%，并且在所有子集上都取得了比聲紋、步態(tài)識(shí)別更好的實(shí)驗(yàn)結(jié)果。由此可見(jiàn)，步態(tài)與聲紋融合識(shí)別方法相比兩個(gè)單模態(tài)識(shí)別方法具有更好的性能。

Table 2 Experimental results after data set noise reduction表2 數(shù)據(jù)集降噪后實(shí)驗(yàn)結(jié)果

為進(jìn)一步驗(yàn)證融合模態(tài)系統(tǒng)的魯棒性，使用步態(tài)與聲音未進(jìn)行降噪的原始數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，同時(shí)采用拼接的方法，將1*256 維步態(tài)特征與1*256 維聲紋特征拼接成1*512維融合特征，并與本文方法進(jìn)行了對(duì)比，實(shí)驗(yàn)結(jié)果如表3所示。

Table 3 Original dataset experimental results表3 原始數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

從表3 的實(shí)驗(yàn)結(jié)果可以看出，當(dāng)聲音信息源被噪音干擾時(shí)，聲紋識(shí)別的準(zhǔn)確率受到了較大影響，平均識(shí)別準(zhǔn)確率為78.89%，相比降噪后的識(shí)別率有所下降。而將兩種特征直接拼接的方法取得了81.95%的準(zhǔn)確率，高于聲紋識(shí)別方法，說(shuō)明該方法受到干擾較小，具有一定的魯棒性。本文方法的識(shí)別率均高于前兩種方法，獲得了最好的識(shí)別效果，因?yàn)樵摲椒〞?huì)根據(jù)單模態(tài)對(duì)系統(tǒng)所作的貢獻(xiàn)進(jìn)行權(quán)值分配，對(duì)于信息干擾較大的模態(tài)分配較小的權(quán)值，減弱其對(duì)系統(tǒng)的影響。因此，進(jìn)一步驗(yàn)證了多模態(tài)聯(lián)合模型對(duì)單模態(tài)噪音干擾具有一定的魯棒性，效果優(yōu)于單模態(tài)方法。

4 結(jié)語(yǔ)

本文在實(shí)際場(chǎng)景下采集了注冊(cè)人員的步態(tài)—聲紋數(shù)據(jù)集，設(shè)計(jì)了聯(lián)合步態(tài)聲紋多模態(tài)身份識(shí)別系統(tǒng)，并在自采數(shù)據(jù)集上對(duì)所提出的步態(tài)—聲紋聯(lián)合模型進(jìn)行驗(yàn)證。使用經(jīng)過(guò)降噪處理的音頻數(shù)據(jù)，模型取得了83.64%的準(zhǔn)確率，證明了所提出模型的有效性，并進(jìn)一步在具有噪音干擾的原始音頻數(shù)據(jù)集上進(jìn)行驗(yàn)證，模型取得了80.27%的準(zhǔn)確率，兩種情況都優(yōu)于單模態(tài)系統(tǒng)與簡(jiǎn)單拼接的多模態(tài)系統(tǒng)，進(jìn)一步證明了模型的抗干擾性與魯棒性。

在未來(lái)的研究中，以下方面需要作進(jìn)一步改進(jìn)：步態(tài)聲紋數(shù)據(jù)集數(shù)據(jù)量仍需進(jìn)行擴(kuò)充，后續(xù)研究將采集更多的行走視角以及行走狀態(tài)的數(shù)據(jù)，進(jìn)一步驗(yàn)證模型的魯棒性；在監(jiān)控視頻中，人臉信息也可能會(huì)被捕捉到，將來(lái)可考慮使用決策層融合的方式實(shí)現(xiàn)步態(tài)、人臉和聲音三模態(tài)聯(lián)合系統(tǒng)，進(jìn)一步提高系統(tǒng)的準(zhǔn)確率與魯棒性；此外，本文只針對(duì)視頻中單人出現(xiàn)的場(chǎng)景進(jìn)行識(shí)別，對(duì)于多人場(chǎng)景下的身份識(shí)別，還需要作進(jìn)一步探索。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡