金益鋒,于霄雪,王 麗,李岱熹,蔣雪梅,程 堅(jiān),謝 敏,歐陽巍嘉
(1. 中國人民公安大學(xué),北京 100038;2. 公安部鑒定中心,北京 100038;3. 大連恒銳科技股份有限公司,遼寧 大連 116023;4. 江西省公安廳刑事科學(xué)技術(shù)研究所,南昌 330006;5. 31056部隊(duì),北京 100036)
隨著社會(huì)信息化的日益發(fā)展,生物特征識(shí)別技術(shù)在金融、司法、國家安全等重要領(lǐng)域受到越來越廣泛的重視。當(dāng)前人體生物特征識(shí)別方面已經(jīng)有很多技術(shù)突破,包括利用人體固有的生理特征來對人體進(jìn)行識(shí)別的技術(shù),比如指紋、人臉、虹膜識(shí)別等;利用人體的行為特征進(jìn)行人身鑒定的技術(shù),比如筆跡、聲音、步態(tài)識(shí)別等。其中,赤足足跡作為一種獨(dú)特的生物特征,同指紋一樣反映了人體固有的生理特點(diǎn),同時(shí)又因其非刻意、無感知、普遍性等遺留特點(diǎn),在醫(yī)療和刑偵等領(lǐng)域都體現(xiàn)出了巨大的應(yīng)用潛力。
隨著近些年人工智能技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)對傳統(tǒng)技術(shù)的顛覆性突破,圖像識(shí)別領(lǐng)域迎來了新的發(fā)展。對于赤足足跡識(shí)別,目前的主流研究方向是利用深度學(xué)習(xí)技術(shù)來取代傳統(tǒng)的人工特征提取,直接從赤足足跡圖像中提取更為有效的人身特征,從而實(shí)現(xiàn)更為精準(zhǔn)的人身識(shí)別。
本文中,使用ResNet50作為基礎(chǔ)網(wǎng)絡(luò),結(jié)合水平金字塔匹配(horizontal pyramid matching, HPM)技術(shù),利用分離式三元組損失函數(shù)(separate triplet loss)進(jìn)行度量學(xué)習(xí),在6 433人的數(shù)據(jù)上進(jìn)行訓(xùn)練,最終達(dá)到在11 028人的開集數(shù)據(jù)集上首位度識(shí)別率為96.2%的識(shí)別準(zhǔn)確率。為了進(jìn)行效果比較,采用了其他兩種深度學(xué)習(xí)算法作對比:對比算法的基本網(wǎng)絡(luò)都采用ResNet50,損失函數(shù)分別采用交叉熵?fù)p失函數(shù)(cross- entropy loss)和ArcFace損失函數(shù)(ArcFace loss)進(jìn)行分類學(xué)習(xí)。
傳統(tǒng)的赤足足跡的人身識(shí)別大多基于足跡學(xué)[1]領(lǐng)域中提出的各種足跡特征,比如足跡結(jié)構(gòu)、動(dòng)力形態(tài)等特征,通過特征分析和融合并結(jié)合分類器等方法來進(jìn)行特征比對和識(shí)別。
童麗[2]基于人工設(shè)計(jì)的多種足跡區(qū)域特征和邊緣輪廓特征,采用最優(yōu)評(píng)價(jià)函數(shù)及特征選擇搜索算法找到最優(yōu)特征組合,并利用貝葉斯決策理論來建立概率模型,實(shí)現(xiàn)特征分類識(shí)別。高毅等[3]采用三維重構(gòu)技術(shù)建立立體足跡,利用圖像處理算法與傳統(tǒng)的足跡檢驗(yàn)法相結(jié)合,提取足跡的區(qū)域關(guān)系特征和形狀長度特征,并利用主成分分析(principal component analysis, PCA)模式識(shí)別方法對提取的特征進(jìn)行立體足跡身份識(shí)別。Khokher等[4]根據(jù)足跡輪廓提取足長等特征,分析了赤足特征與人身的強(qiáng)相關(guān)性。Nakajima等[5]根據(jù)成對的左右腳站立圖像,提取各部位的相互距離、位置、方向等信息并進(jìn)行歸一化,并結(jié)合各部位的壓力傳感信息來進(jìn)行足跡識(shí)別。
近年來,隨著技術(shù)的發(fā)展,深度學(xué)習(xí)在指紋識(shí)別、人臉識(shí)別等生物特征識(shí)別領(lǐng)域得到了廣泛應(yīng)用。在圖像識(shí)別領(lǐng)域,通過深度網(wǎng)絡(luò)提取的特征在很多領(lǐng)域取代了傳統(tǒng)的人工特征,取得了更好的識(shí)別效果。
VGG[6]、LeNeT[7]、ResNet[8]等基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型在圖像識(shí)別等領(lǐng)域得到了大量應(yīng)用,實(shí)現(xiàn)了圖像識(shí)別領(lǐng)域的技術(shù)突破。大量基于深度網(wǎng)絡(luò)的人臉識(shí)別[9]、行人重識(shí)別[10]等技術(shù)大大提升了各種生物特征在人身識(shí)別應(yīng)用方面的可行性和可靠性。在足跡識(shí)別領(lǐng)域,深度學(xué)習(xí)也逐漸被加以應(yīng)用。如王喬[11]從足底壓力圖像中通過簡單的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)提取了圖像卷積特征,結(jié)合傳統(tǒng)的足型與足跡形態(tài)特征,通過支持向量機(jī)(support vector machines, SVM)確定了特征最優(yōu)子集及組合權(quán)重,實(shí)現(xiàn)了小范圍內(nèi)的人身識(shí)別。
為了解決赤足足跡識(shí)別問題,需要構(gòu)建一個(gè)大型赤足足跡數(shù)據(jù)庫。為此,本文使用專業(yè)的單枚足跡采集儀構(gòu)建了包括人體左、右腳赤足足跡的大型數(shù)據(jù)庫。共采集了18 380人共計(jì)213 252枚單枚足跡,每人3~54枚足跡不等。采集的足跡圖像如圖1所示。
圖1 赤足足跡圖像Fig.1 Exampling barefoot footprint images
對足跡采集儀采集的赤足足跡進(jìn)行了如下方式的預(yù)處理:
1)將赤足足跡按照腳尖朝上、腳跟在下的方式進(jìn)行了方向歸一化。
2)在保持圖像無縮放的狀態(tài)下,以足跡中心為基準(zhǔn),裁剪出399×886像素大小的圖像,并統(tǒng)一歸一化至300×660像素大小。
3)對圖像灰度進(jìn)行歸一化。
為了進(jìn)行網(wǎng)絡(luò)訓(xùn)練和研究,將數(shù)據(jù)集進(jìn)行了如表1所示的訓(xùn)練集、驗(yàn)證集和測試集的隨機(jī)劃分。
表1 數(shù)據(jù)集劃分Table 1 Partitioned dataset
網(wǎng)絡(luò)的總體框架如圖2所示。
圖2 網(wǎng)絡(luò)總體框架Fig.2 Overall framework of the network for operation into deep learning
網(wǎng)絡(luò)采用ResNet50為基礎(chǔ)網(wǎng)絡(luò)模型。在訓(xùn)練階段,基礎(chǔ)網(wǎng)絡(luò)對赤足圖像進(jìn)行特征提取,隨后使用HPM對特征進(jìn)行分離和重組,最后對重組的分離特征進(jìn)行度量學(xué)習(xí);在測試階段,同樣先通過基礎(chǔ)網(wǎng)絡(luò)對赤足圖像進(jìn)行特征提取并使用HPM進(jìn)行多尺度特征提取和特征重組,之后將特征合成4 608維的特征向量,并使用該特征向量進(jìn)行特征檢索。
網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)及特征圖大小參見表2。
表2 網(wǎng)絡(luò)層級(jí)結(jié)構(gòu)及特征圖大小Table 2 Network hierarchical structures and the sizes of feature map
為了提升網(wǎng)絡(luò)的泛化性,在輸入圖像上進(jìn)行了如下多種形式的數(shù)據(jù)增強(qiáng),以擴(kuò)大樣本多樣性:
1)上下隨機(jī)翻轉(zhuǎn)。
2)左右隨機(jī)翻轉(zhuǎn)。
3)0°~10°隨機(jī)角度旋轉(zhuǎn)。
4)0.8~1.1倍的灰度隨機(jī)變換。
HPM是行人重識(shí)別領(lǐng)域中提出的一種識(shí)別技術(shù),其核心思想是將基礎(chǔ)網(wǎng)絡(luò)提取的特征在高度上進(jìn)行不同比例的劃分,并基于劃分出的特征進(jìn)行變換和學(xué)習(xí),能夠提取圖像的多尺度特征,提升識(shí)別效果和網(wǎng)絡(luò)泛化性。
HPM證實(shí)了將圖像在高度上進(jìn)行不同比例的劃分,能夠在學(xué)習(xí)全局特征的同時(shí),兼顧圖像不同高度上的不同尺度的局部特征。相比僅使用傳統(tǒng)的全局特征而言,HPM更便于捕獲包括局部特征在內(nèi)的多尺度特征,而人體赤足足跡的差異在赤足不同部位上的體現(xiàn)更加明顯:人體赤足足跡從腳趾到腳跟大體上分為足趾區(qū)、足跖區(qū)、足弓區(qū)、足跟區(qū)四個(gè)主要區(qū)域,每個(gè)人的赤足足跡差別就體現(xiàn)在各個(gè)局部區(qū)域及它們的組合特征上。
HPM的主體為HPP(horizontal pyramid pooling)和Separate FC兩部分,其中HPP主要包括特征金字塔及GAP(global average pooling)+GMP(global max pooling)。首先將ResNet網(wǎng)絡(luò)提取出來的H×W×D維的特征在高度H的維度上進(jìn)行不同比例的劃分。這樣做的原因在于,一方面,抽取從全局到局部的不同比例的特征能夠讓參與人身比對的特征更加豐富;另一方面,從一定程度上緩解了足跡因上下位置錯(cuò)動(dòng)導(dǎo)致的同一水平線上的特征無法對齊的問題。
在應(yīng)用中,將高度為21的特征圖分別進(jìn)行1、2、5、10等分,得到共計(jì)1+2+5+10=18個(gè)局部特征。由于在高度上進(jìn)行劃分后的每個(gè)特征塊的大小不同,記為h×W×D, 其中h ∈﹛1, 2, 5, 10﹜,因此,使用GAP和GMP對每個(gè)特征塊的h和W維度計(jì)算均值和最大值,并將兩者相加,最終統(tǒng)一得到18個(gè)D維的特征向量,至此,每個(gè)樣本得到18×D的特征。其中,使用均值池化GAP和最大池化GMP的原因在于,均值池化更多體現(xiàn)的是全局特征,而最大池化能夠突出細(xì)節(jié),因此將兩者結(jié)合可進(jìn)一步提升特征保留度。
在HPP提取的特征基礎(chǔ)上,對18個(gè)特征向量分別進(jìn)行全連接變換(separate fully connection)。經(jīng)上述方式提取的18個(gè)特征向量分別對應(yīng)了圖像中不同的感受野,即足跡的不同區(qū)域,因此每個(gè)特征使用獨(dú)立的全連接變換,將每個(gè)2 048維的特征縮減為256維。
在訓(xùn)練過程中,將每人18個(gè)256維特征中的每一個(gè)特征都作為一個(gè)單獨(dú)的人身特征,與其他人的對應(yīng)特征進(jìn)行度量學(xué)習(xí);在測試過程中,將所有18個(gè)256維特征連接在一起作為完整的人身特征進(jìn)行人身識(shí)別。
本文使用batch all triplet loss作為損失函數(shù)對特征進(jìn)行度量學(xué)習(xí)。每個(gè)batch中隨機(jī)抽取P個(gè)人,每個(gè)人抽取K個(gè)足跡圖像。損失函數(shù)公式為:
其中,m為距離容許間隙。該損失函數(shù)分別計(jì)算每一對同一人足跡間的距離以及不同人足跡間的距離,目標(biāo)是同一人足跡的間距足夠小,不同人足跡的間距足夠大。在實(shí)驗(yàn)中,P=32,K=16(不足時(shí)采用重復(fù)策略),m=0.2。
采用圖像檢索的方式來實(shí)現(xiàn)人身識(shí)別,將驗(yàn)證集和測試集中每個(gè)人的所有足跡圖像隨機(jī)分為兩部分,一部分作為檢索庫gallery,一部分為待檢索圖像probe。
將probe中的足跡圖像提取的特征與gallery中足跡圖像的特征進(jìn)行一一比對,使用L2距離判斷兩枚足跡間的人身特征距離,距離值越小則圖像歸屬同一人的概率越大,從而得到每個(gè)待檢索足跡對應(yīng)庫中所有足跡的距離排名。然后使用圖像檢索中常用的CMC曲線和mAP指標(biāo)來評(píng)判識(shí)別效果。
計(jì)算機(jī)網(wǎng)絡(luò)是知識(shí)內(nèi)容非常抽象的理論課程。為使教學(xué)內(nèi)容更加直觀,便于學(xué)生理解和掌握,采用了基于NS-3仿真的計(jì)算機(jī)網(wǎng)絡(luò)教學(xué)方法。一方面運(yùn)用在理論課堂,另一方面運(yùn)用到實(shí)驗(yàn)課堂。該教學(xué)方法首先從大量網(wǎng)絡(luò)知識(shí)點(diǎn)中選擇重要且難以理解的知識(shí)點(diǎn),然后用NS-3仿真工具實(shí)現(xiàn),在講授時(shí)結(jié)合仿真的動(dòng)態(tài)效果,既開闊了學(xué)生視野,也增強(qiáng)了學(xué)生興趣,使得枯燥的理論變得生動(dòng)。學(xué)校不斷豐富和完善NS-3的仿真教學(xué),以構(gòu)建完備的仿真教學(xué)資源。
1)累計(jì)匹配特性曲線
累計(jì)匹配特性曲線(cumulative matching characteristic, CMC),一般用Rank-1, Rank-5,…等代替,反映檢索準(zhǔn)確度。其中Rank-N代表計(jì)算查詢結(jié)果內(nèi)排序前N個(gè)結(jié)果中存在正確標(biāo)簽的比率。本文分別采用Rank-1,Rank-5,Rank-10來進(jìn)行評(píng)測。
2)mAP指標(biāo)
由于CMC曲線中Rank-N指標(biāo)只考慮了查詢結(jié)果中正確標(biāo)簽的比例,而未考慮正確標(biāo)簽在排名中的順序,因此需要使用圖像檢索領(lǐng)域中常用的mAP(mean average precision)指標(biāo)作為評(píng)價(jià)指標(biāo)的補(bǔ)充。
為了對比本文赤足圖像人身識(shí)別的效果,除了使用本文論述的方法外,在基礎(chǔ)網(wǎng)絡(luò)ResNet50不變的情況下,分別在全局特征上采用Softmax Cross Entropy Loss(基于Softmax的交叉熵?fù)p失函數(shù))和ArcFace Loss[9]進(jìn)行了對比試驗(yàn)。
1)Softmax Cross Entropy Loss
Softmax Cross Entropy Loss是深度學(xué)習(xí)中針對多標(biāo)簽圖像分類問題提出的一種常用的交叉熵?fù)p失函數(shù),其計(jì)算公式如下:
公式(4)就是交叉熵函數(shù)。N表示mini-batch的樣本數(shù),ln代表類別標(biāo)簽。將公式(4)中的Pnk代入公式(4),替換其中的Pnln,就得到了一個(gè)mini-batch中所有樣本對應(yīng)的總的交叉熵?fù)p失。
2)ArcFace Loss
ArcFace Loss是人臉識(shí)別方向提出的一種用于提高類間可分性同時(shí)加強(qiáng)類內(nèi)聚度的分類損失函數(shù),在圖像識(shí)別領(lǐng)域得到了廣泛應(yīng)用。其公式如下:
其中,N表示mini-batch的樣本數(shù),s表示特征是分布在一個(gè)半徑為s的超球體上,m是附加的邊界懲罰,K代表類別總數(shù)。
本文實(shí)驗(yàn)硬件方面采用了2個(gè)GTX 2080Ti顯卡,軟件方面采用pytorch1.7+Cuda10。深度學(xué)習(xí)訓(xùn)練時(shí)的mini-batch采用(P,K)=(32, 16),即每次抽取32人的足跡圖像進(jìn)行比對,每人16張足跡圖片(圖片不足時(shí)重復(fù)抽?。策M(jìn)行150 000次迭代并最終收斂。訓(xùn)練采用固定學(xué)習(xí)率0.000 1。
將本文方法與兩種對比算法進(jìn)行比較,得到的對比實(shí)驗(yàn)結(jié)果見表3。
表3 實(shí)驗(yàn)對比結(jié)果Table 3 Comparison among the results of experiment
從三者的對比結(jié)果可見,本文介紹的HPM+Separate Triplet Loss在赤足足跡的人身識(shí)別準(zhǔn)確率上遠(yuǎn)超其他兩種算法。從Rank-1到Rank-10指標(biāo)均高于其他兩種算法,其中Rank-1有10%左右的提升,且mAP指標(biāo)也體現(xiàn)出了絕對的算法優(yōu)勢,從而進(jìn)一步證明了本文方法在赤足識(shí)別上的有效性。
本文實(shí)現(xiàn)了深度學(xué)習(xí)技術(shù)在赤足足跡人身識(shí)別方面的成功應(yīng)用,通過提取赤足足跡的多尺度特征提升了網(wǎng)絡(luò)的泛化能力,從而最終達(dá)到了萬人級(jí)別數(shù)據(jù)上96.2%的高識(shí)別率。相較于傳統(tǒng)的特征識(shí)別方法,利用深度網(wǎng)絡(luò)自動(dòng)提取足跡與人身相關(guān)的核心特征,既解決了人工特征提取困難的問題,又大大提升了識(shí)別準(zhǔn)確率;而本文結(jié)合HPM技術(shù)得到的赤足足跡多尺度特征增強(qiáng)了網(wǎng)絡(luò)識(shí)別的泛化能力,從而進(jìn)一步提升了識(shí)別效果。
未來可在更多方面提升算法性能,比如在網(wǎng)絡(luò)模型上可采用更優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)、添加注意力機(jī)制、優(yōu)化損失函數(shù)、對檢索結(jié)果采用更好的重排序方法等等。同時(shí),如何克服足跡殘缺、承痕體變化、行走狀態(tài)變化等因素對赤足足跡的影響,這將是未來將赤足足跡識(shí)別技術(shù)推向現(xiàn)實(shí)應(yīng)用過程中面臨的更大挑戰(zhàn)。