熊經(jīng)文,陳 志,倪 康,岳文靜
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023)
步態(tài)與聲紋作為典型的生物特征,具有非配合性等特點(diǎn),廣泛應(yīng)用于門禁控制、法醫(yī)鑒定和安保系統(tǒng)等領(lǐng)域,但其單一模態(tài)的生物特征仍存在不足,如步態(tài)識(shí)別會(huì)受到復(fù)雜背景下難以提取步態(tài)輪廓圖、人物衣著覆蓋人體輪廓等因素影響,造成識(shí)別率不佳;聲紋識(shí)別中的環(huán)境噪聲可能對(duì)說(shuō)話人聲紋特征造成干擾,導(dǎo)致系統(tǒng)無(wú)法準(zhǔn)確學(xué)習(xí)說(shuō)話人特征,從而產(chǎn)生誤判。多模態(tài)的生物特征識(shí)別使用不同的生物特征,將不同層面的互補(bǔ)身份信息相結(jié)合,能從多層面表征人物的身份信息,相比于單一模態(tài)的識(shí)別系統(tǒng)能夠更好地增強(qiáng)生物識(shí)別系統(tǒng)的魯棒性與準(zhǔn)確性。因此,采用多種模態(tài)聯(lián)合進(jìn)行生物身份識(shí)別是未來(lái)的研究趨勢(shì),并且在科研和實(shí)際應(yīng)用領(lǐng)域都受到廣泛關(guān)注。
國(guó)內(nèi)外學(xué)者在該領(lǐng)域已開(kāi)展了許多研究工作。文獻(xiàn)[1]提出將說(shuō)話人聲紋與唇部相結(jié)合進(jìn)行身份識(shí)別的方法,在特征層將兩種特征進(jìn)行拼接,證明了聲紋與嘴唇特征的互補(bǔ)性,取得了不錯(cuò)的效果;文獻(xiàn)[2]將視頻中的人臉與語(yǔ)音模態(tài)融合以進(jìn)行維度情感識(shí)別,該方法使用注意力機(jī)制融合人臉與語(yǔ)音特征,為解決數(shù)據(jù)集中語(yǔ)音干擾較大的問(wèn)題,將人臉特征與融合后的特征相加,增加人臉的權(quán)重,針對(duì)特定場(chǎng)景提升了模型的魯棒性;文獻(xiàn)[3]提出一種將虹膜與眼周特征融合的方法,通過(guò)共同注意力機(jī)制進(jìn)行特征融合,取得了較好效果。目前的研究主要集中于人臉與語(yǔ)音、模態(tài)等方面,而基于步態(tài)與聲紋融合的研究較少。
針對(duì)上述情況,本文提出一種融合步態(tài)與聲紋的身份識(shí)別方法,使用GaitSet 網(wǎng)絡(luò)提取步態(tài)特征,通過(guò)提取聲音的MFCC 頻譜圖,將MFCC 特征輸入ResNet 網(wǎng)絡(luò),使用CBAM 注意力機(jī)制關(guān)注頻譜圖的有用信息,提取聲音的高級(jí)語(yǔ)義特征,并將提取的特征通過(guò)門控注意力機(jī)制進(jìn)行融合,設(shè)計(jì)與實(shí)現(xiàn)一個(gè)身份識(shí)別系統(tǒng)。
本文所提出的步態(tài)—聲紋多模態(tài)融合身份識(shí)別網(wǎng)絡(luò)模型框架如圖1 所示。該網(wǎng)絡(luò)使用預(yù)處理的提取的步態(tài)輪廓序列和音頻的MFCC 特征作為步態(tài)輸入及聲音輸入,分別通過(guò)步態(tài)、聲音模型提取各自的高級(jí)特征,之后進(jìn)行特征融合。
Fig.1 Gait-voiceprint joint recognition network architecture圖1 步態(tài)聲紋聯(lián)合識(shí)別網(wǎng)絡(luò)架構(gòu)
本文使用步態(tài)識(shí)別中的經(jīng)典網(wǎng)絡(luò)GaitSet 提取步態(tài)特征,該網(wǎng)絡(luò)模型在步態(tài)識(shí)別任務(wù)中取得了良好效果,能夠有效提取步態(tài)輪廓序列的高級(jí)特征[4]。模型中以二值化的步態(tài)輪廓序列作為輸入,使用多個(gè)共享權(quán)重的CNN 卷積提取初步特征,通過(guò)集合池化的思想將幀級(jí)特征聚合成獨(dú)立序列級(jí)特征,很好地保留了空間和時(shí)間信息。經(jīng)過(guò)驗(yàn)證,當(dāng)Gaitset 網(wǎng)絡(luò)輸入30 張步態(tài)序列圖片時(shí),模型的準(zhǔn)確率達(dá)到相對(duì)穩(wěn)定,繼續(xù)增加步態(tài)序列數(shù)量,準(zhǔn)確率提升不多,但計(jì)算量相對(duì)增加。因此,本文從一段視頻中抽取30幀作為模型的輸入,進(jìn)而提取步態(tài)特征。
在聲紋識(shí)別領(lǐng)域已進(jìn)行了許多研究,如基于傳統(tǒng)方法的GMM-UBM[5],該方法采用高階高斯模型對(duì)說(shuō)話人進(jìn)行建模,適合于文本無(wú)關(guān)說(shuō)話人識(shí)別;i-vector 方法描述說(shuō)話人信息時(shí),將語(yǔ)音映射到一個(gè)固定的低維向量,該方法有效降低了參數(shù)量,在與文本無(wú)關(guān)的聲紋識(shí)別中有較好表現(xiàn)[6];x-vector 利用時(shí)延神經(jīng)網(wǎng)絡(luò)提取幀級(jí)特征,使用統(tǒng)計(jì)池化將幀級(jí)特征聚合為段級(jí)特征,在短語(yǔ)音情形下有著更強(qiáng)的魯棒性[7]。
本文采用基于ResNet34 的網(wǎng)絡(luò)進(jìn)行聲音特征提?。?],ResNet 網(wǎng)絡(luò)在各種任務(wù)中都取得了較好效果,模型中使用殘差連接增強(qiáng)模型訓(xùn)練的魯棒性,可有效解決梯度爆炸問(wèn)題。本文網(wǎng)絡(luò)中使用自注意池化層[9]將幀級(jí)特征聚合為語(yǔ)句級(jí)特征,并在每個(gè)網(wǎng)絡(luò)塊的末端加入CBAM[10]注意力機(jī)制。通過(guò)結(jié)合通道注意力與空間注意力機(jī)制,CBAM 能增強(qiáng)聲音頻譜圖像的特征表達(dá),關(guān)注其中的重要特征并抑制非重要特征。網(wǎng)絡(luò)模型具體參數(shù)如表1所示。
Table 1 Voiceprint model parameters表1 聲紋模型參數(shù)
生物特征具有多樣性,不同的生物特征相對(duì)于其他生物特征都具有獨(dú)特優(yōu)勢(shì),同時(shí)也有其不足,沒(méi)有一種生物特征能同時(shí)滿足所有需求,因此多特征識(shí)別則顯得尤為重要。在眾多生物特征中,人物的步態(tài)信息和聲紋信息相較于其他生物特征信息更易于獲取,且具有一定的非配合性,適用于非配合場(chǎng)景下的身份識(shí)別。但在實(shí)際的室內(nèi)場(chǎng)景中,目標(biāo)人物的步態(tài)視角可能會(huì)發(fā)生變化,或者受到遮擋等因素影響,一定程度上影響了步態(tài)識(shí)別的識(shí)別率。對(duì)于聲紋識(shí)別,在目標(biāo)距離較遠(yuǎn)的遠(yuǎn)場(chǎng)景下,其聲音信息易受到噪聲干擾,而其步態(tài)受干擾較?。辉诮鼒?chǎng)景下且有遮擋的環(huán)境中,步態(tài)信息容易缺失,卻可以較好地采集聲音信息,兩者之間具有一定互補(bǔ)性。同時(shí),人物的步態(tài)與聲音信息都包含了目標(biāo)對(duì)象的性別[11]、年齡[12]等信息,具有一定的相關(guān)性,所以選擇將兩者進(jìn)行融合。
在多模態(tài)融合中,不同模態(tài)的特征所分布的語(yǔ)義空間相差較大,要進(jìn)行特征融合,必須使不同的模態(tài)特征映射到相同的語(yǔ)義空間中,才能對(duì)特征進(jìn)行有效融合。由于步態(tài)與聲紋是兩種不同的生物模態(tài),兩者差異較大,為了更有效地融合多源信息,分別將聲紋特征fs通過(guò)全連接層映射到256 維空間中,將步態(tài)特征fg映射到256 維空間中[13]。具體操作如下式所示:
在語(yǔ)音識(shí)別等時(shí)序任務(wù)中,GRU 和LSTM 將門控機(jī)制應(yīng)用于模態(tài)融合[14],該結(jié)構(gòu)可根據(jù)來(lái)自不同模態(tài)的數(shù)據(jù)組合找到中間表示,每個(gè)模態(tài)的輸入通過(guò)tanh 激活函數(shù)編碼,得到一個(gè)模態(tài)內(nèi)部的表示特征。對(duì)于每個(gè)輸入的模態(tài),通過(guò)門神經(jīng)元σ 計(jì)算特征對(duì)單元整體的輸出貢獻(xiàn)度。本文使用門控注意力機(jī)制的方法[15]將輸入的特征進(jìn)行拼接,通過(guò)注意力層關(guān)注兩個(gè)模態(tài)之間的交互。通過(guò)門神經(jīng)元σ 得到不同模態(tài)的貢獻(xiàn)度,分別將每個(gè)模態(tài)的貢獻(xiàn)度與對(duì)應(yīng)的模態(tài)特征相乘,計(jì)算出加權(quán)特征,將加權(quán)后的步態(tài)特征與聲紋特征相加作為最后的融合特征。公式如下:
式中,σ 為sigmod 激活函數(shù),用來(lái)計(jì)算融合后的注意力分?jǐn)?shù),最終的融合特征為。經(jīng)過(guò)tanh 激活函數(shù),增加非線性變化,分別乘以注意力權(quán)重z與1-z,計(jì)算得到不同模態(tài)加權(quán)和ep,即融合特征。
基于多模態(tài)的步態(tài)與聲紋身份識(shí)別網(wǎng)絡(luò)設(shè)計(jì)身份識(shí)別系統(tǒng),主要框架如圖2 所示,分為行人檢測(cè)、數(shù)據(jù)預(yù)處理、融合身份識(shí)別幾個(gè)模塊。
身份識(shí)別系統(tǒng)使用YOLO 算法[16]檢測(cè)并提取行人圖像框。YOLO 算法是目標(biāo)檢測(cè)的經(jīng)典算法,研究者們已經(jīng)提出了多個(gè)版本,比較經(jīng)典的有YOLOv3、YOLOv4、YOLOv4-tiny、YOLOv5 等。經(jīng)過(guò)比較,綜合層面YOLOv4 算法的性能最優(yōu),YOLOv5 算法模型較小,速度最快,但識(shí)別精度較低。綜合考慮計(jì)算力和實(shí)時(shí)性的要求,選擇使用YOLOv5 算法進(jìn)行行人檢測(cè),當(dāng)檢測(cè)到行人時(shí)再進(jìn)行聲音檢測(cè)。
Fig.2 Main framework of the system圖2 系統(tǒng)主要框架
在實(shí)際場(chǎng)景中,圖像幀可能出現(xiàn)復(fù)雜背景,受到地面反光或者光照產(chǎn)生倒影等因素影響,使用傳統(tǒng)的背景減除法、幀差法雖然效率高、運(yùn)行速度快,但會(huì)產(chǎn)生噪點(diǎn)。在極端情況下,步態(tài)輪廓信息會(huì)被破壞。本文選擇使Mask RCNN 算法[17]進(jìn)行分割,并對(duì)圖像進(jìn)行二值化處理,得到步態(tài)輪廓圖。
對(duì)采集的聲音信號(hào)進(jìn)行靜音檢測(cè),保留聲紋音量大于閾值的聲音信息。本系統(tǒng)僅針對(duì)單人情況下進(jìn)行身份識(shí)別,即每次只識(shí)別一名人員,同時(shí)目標(biāo)人員需要正常走動(dòng)與說(shuō)話,以確保獲取步態(tài)與聲紋信息。
對(duì)采集的所有音頻進(jìn)行預(yù)加重處理,避免聲音在低頻的強(qiáng)度大于高頻,采樣率為16KHz。以25ms 每幀進(jìn)行分幀,為避免兩幀間變化過(guò)大,在幀與幀之間加入10ms 幀移,并采用漢明窗進(jìn)行加窗,然后進(jìn)行傅里葉變換,得到語(yǔ)譜圖,對(duì)每幀語(yǔ)譜圖進(jìn)行均值和歸一化處理。
身份識(shí)別模型使用上述提出的步態(tài)—聲紋聯(lián)合識(shí)別網(wǎng)絡(luò)。由于實(shí)驗(yàn)采集的數(shù)據(jù)量有限,為防止小數(shù)據(jù)的過(guò)擬合,步態(tài)、聲紋特征提取模型分別使用CASIA-B 和VoxCeleb1[18]公開(kāi)數(shù)據(jù)集上的預(yù)訓(xùn)練模型。
實(shí)驗(yàn)代碼采用的語(yǔ)言為Python3.8,使用深度學(xué)習(xí)框架Pytorch1.7 實(shí)現(xiàn)。實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Ubuntu20.04,硬件設(shè)備為英特爾i9-10090K 處理器,顯卡為英偉達(dá)3090。實(shí)驗(yàn)使用反向傳播與交叉熵?fù)p失函數(shù)訓(xùn)練模型,并采用五折交叉驗(yàn)證法對(duì)數(shù)據(jù)集分開(kāi)進(jìn)行訓(xùn)練測(cè)試。
本文使用在實(shí)際場(chǎng)景中自采的步態(tài)—聲紋數(shù)據(jù)集,數(shù)據(jù)集中包括10 人的步態(tài)與聲紋數(shù)據(jù)。其中,步態(tài)使用英特爾D435i攝像頭,分為與攝像頭夾角成90°與270°的兩個(gè)行走方向進(jìn)行采集。主要考慮人員衣著正常的情況,每位人員一共采集20 段行走視頻,每段視頻約120 幀,然后提取出人物輪廓圖,并手動(dòng)剔除人員進(jìn)入與走出畫(huà)面的無(wú)效幀,最后每段視頻得到約90 幀。聲音數(shù)據(jù)使用NX 開(kāi)發(fā)板外接的麥克風(fēng)采集,聲音數(shù)據(jù)與步態(tài)數(shù)據(jù)在相同角度下采集,每位人員一共采集20 段音頻,手動(dòng)去除開(kāi)始與結(jié)束的靜音片段。
為了驗(yàn)證所提出的多模態(tài)步態(tài)和聲紋身份識(shí)別網(wǎng)絡(luò)的有效性,首先對(duì)融合特征與聲紋特征以及步態(tài)特征進(jìn)行比較。由于聲音數(shù)據(jù)是在實(shí)際場(chǎng)景中進(jìn)行采集的,包含風(fēng)扇、空調(diào)等環(huán)境噪音,所以對(duì)音頻進(jìn)行降噪處理,降低噪聲對(duì)識(shí)別結(jié)果的影響。處理后的單模態(tài)與融合模態(tài)在測(cè)試集上的性能如表2 所示。根據(jù)表2 的實(shí)驗(yàn)結(jié)果可見(jiàn),聲音數(shù)據(jù)經(jīng)過(guò)降噪處理后,在5 個(gè)子集上都取得了較高的準(zhǔn)確率,平均準(zhǔn)確率可達(dá)到81.95%,高于步態(tài)識(shí)別方法。使用步態(tài)加聲紋融合特征的方法,在數(shù)據(jù)集上的平均識(shí)別率可達(dá)到83.64%,并且在所有子集上都取得了比聲紋、步態(tài)識(shí)別更好的實(shí)驗(yàn)結(jié)果。由此可見(jiàn),步態(tài)與聲紋融合識(shí)別方法相比兩個(gè)單模態(tài)識(shí)別方法具有更好的性能。
Table 2 Experimental results after data set noise reduction表2 數(shù)據(jù)集降噪后實(shí)驗(yàn)結(jié)果
為進(jìn)一步驗(yàn)證融合模態(tài)系統(tǒng)的魯棒性,使用步態(tài)與聲音未進(jìn)行降噪的原始數(shù)據(jù)進(jìn)行實(shí)驗(yàn),同時(shí)采用拼接的方法,將1*256 維步態(tài)特征與1*256 維聲紋特征拼接成1*512維融合特征,并與本文方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
Table 3 Original dataset experimental results表3 原始數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
從表3 的實(shí)驗(yàn)結(jié)果可以看出,當(dāng)聲音信息源被噪音干擾時(shí),聲紋識(shí)別的準(zhǔn)確率受到了較大影響,平均識(shí)別準(zhǔn)確率為78.89%,相比降噪后的識(shí)別率有所下降。而將兩種特征直接拼接的方法取得了81.95%的準(zhǔn)確率,高于聲紋識(shí)別方法,說(shuō)明該方法受到干擾較小,具有一定的魯棒性。本文方法的識(shí)別率均高于前兩種方法,獲得了最好的識(shí)別效果,因?yàn)樵摲椒〞?huì)根據(jù)單模態(tài)對(duì)系統(tǒng)所作的貢獻(xiàn)進(jìn)行權(quán)值分配,對(duì)于信息干擾較大的模態(tài)分配較小的權(quán)值,減弱其對(duì)系統(tǒng)的影響。因此,進(jìn)一步驗(yàn)證了多模態(tài)聯(lián)合模型對(duì)單模態(tài)噪音干擾具有一定的魯棒性,效果優(yōu)于單模態(tài)方法。
本文在實(shí)際場(chǎng)景下采集了注冊(cè)人員的步態(tài)—聲紋數(shù)據(jù)集,設(shè)計(jì)了聯(lián)合步態(tài)聲紋多模態(tài)身份識(shí)別系統(tǒng),并在自采數(shù)據(jù)集上對(duì)所提出的步態(tài)—聲紋聯(lián)合模型進(jìn)行驗(yàn)證。使用經(jīng)過(guò)降噪處理的音頻數(shù)據(jù),模型取得了83.64%的準(zhǔn)確率,證明了所提出模型的有效性,并進(jìn)一步在具有噪音干擾的原始音頻數(shù)據(jù)集上進(jìn)行驗(yàn)證,模型取得了80.27%的準(zhǔn)確率,兩種情況都優(yōu)于單模態(tài)系統(tǒng)與簡(jiǎn)單拼接的多模態(tài)系統(tǒng),進(jìn)一步證明了模型的抗干擾性與魯棒性。
在未來(lái)的研究中,以下方面需要作進(jìn)一步改進(jìn):步態(tài)聲紋數(shù)據(jù)集數(shù)據(jù)量仍需進(jìn)行擴(kuò)充,后續(xù)研究將采集更多的行走視角以及行走狀態(tài)的數(shù)據(jù),進(jìn)一步驗(yàn)證模型的魯棒性;在監(jiān)控視頻中,人臉信息也可能會(huì)被捕捉到,將來(lái)可考慮使用決策層融合的方式實(shí)現(xiàn)步態(tài)、人臉和聲音三模態(tài)聯(lián)合系統(tǒng),進(jìn)一步提高系統(tǒng)的準(zhǔn)確率與魯棒性;此外,本文只針對(duì)視頻中單人出現(xiàn)的場(chǎng)景進(jìn)行識(shí)別,對(duì)于多人場(chǎng)景下的身份識(shí)別,還需要作進(jìn)一步探索。