黃葉玨
摘 要: 人臉識別由于采集便利、設(shè)備成本低廉以及準(zhǔn)確率高等優(yōu)點,在各行各業(yè)得到了越來越廣泛的應(yīng)用。在人臉數(shù)據(jù)大量累積的基礎(chǔ)上,提出進(jìn)一步對數(shù)據(jù)應(yīng)用挖掘的需求。文章提出一種時效相關(guān)的在線人臉聚類方法,通過對后臺大量人臉數(shù)據(jù)進(jìn)行聚類,并根據(jù)時效相關(guān)的原則對人臉數(shù)據(jù)進(jìn)行篩選,實現(xiàn)對可疑人員人臉數(shù)據(jù)挖掘。
關(guān)鍵詞: 人臉識別; 深度卷積網(wǎng)絡(luò); 人臉聚類; 應(yīng)用挖掘
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2018)11-76-02
Abstract: Face recognition is widely used in all fields in our life due to its convenient acquisition, low cost and high accuracy. On the basis of accumulating a large number of face data, the needs for further data application mining are proposed. In this paper, an online face clustering method is proposed, which realizes the face data mining of suspicious people by clustering a large number of background face data and screening the face data according to the temporal principle.
Key words: face recognition; deep convolution network; face clustering; application mining
0 引言
隨著人臉識別技術(shù)的不斷進(jìn)步,人臉識別在各個行業(yè)的應(yīng)用也越來越廣泛,同時人臉識別的相關(guān)技術(shù)也通過不斷與行業(yè)具體業(yè)務(wù)進(jìn)行緊密的結(jié)合,并產(chǎn)生了新的應(yīng)用方式。在許多行業(yè)應(yīng)用中,需要對一些異常的行為或者事件進(jìn)行進(jìn)一步的分析,比如對銀行ATM機(jī)前未成功取款的人臉進(jìn)行分析;比如對醫(yī)院、診所或藥店中非本人刷卡的人臉進(jìn)行分析等。通過對特定業(yè)務(wù)場景中出現(xiàn)的人臉進(jìn)行聚類分析,挖掘出多次出現(xiàn)且具有共性的人臉,可以檢測是否需要重點關(guān)注的可疑人員,以便采取進(jìn)一步措施。同時,上述可疑人員檢測應(yīng)用與時效性非常相關(guān),在具體的某一時間段的檢測結(jié)果才有實際意義。
自2012年深度卷積網(wǎng)絡(luò)在ImageNet競賽中取得巨大成功之后[1],深度學(xué)習(xí)技術(shù)受到了廣泛的關(guān)注。Facebook的科學(xué)家[2]首次把深度學(xué)習(xí)技術(shù)引入到人臉識別領(lǐng)域,隨后香港中文大學(xué)提出了DeepID等系列[3]基于深度卷積網(wǎng)絡(luò)的人臉識別論文。Google科學(xué)家提出了一種簡單有效的基于深度卷積網(wǎng)絡(luò)的人臉識別訓(xùn)練方法[4],這是一種高效的純粹的深度卷積網(wǎng)絡(luò)的人臉識別方法,從此深度學(xué)習(xí)成為人臉識別領(lǐng)域的主流技術(shù)。最近人臉聚類[5-7]成為研究的熱點問題。
本文根據(jù)可疑人員的出現(xiàn)具有時序性的特點,提出一種在線人臉聚類的方法實現(xiàn)快速挖掘多次出現(xiàn)在某個特定業(yè)務(wù)場景中并且具有共性的人臉。通過深度卷積網(wǎng)絡(luò)提取人臉特征值,把深度特征值之間的人臉相似度作為人臉聚類的度量,利用時效性相關(guān)的在線人臉聚類,對新增人臉和過期人臉的快速增加和刪除,當(dāng)相似人臉數(shù)目達(dá)到一定的閾值時,就認(rèn)為是可疑人員,給應(yīng)用系統(tǒng)報警。
1 基于深度卷積網(wǎng)絡(luò)的人臉特征提取
基于深度學(xué)習(xí)技術(shù)的人臉識別是目前人臉識別主流方法,而人臉特征值的提取是整個人臉識別相關(guān)應(yīng)用的關(guān)鍵部分。在以深度學(xué)習(xí)技術(shù)為基礎(chǔ)的人臉識別相關(guān)應(yīng)用中,不管是1:1的人臉證還是1:N的人臉?biāo)阉鞑捎玫幕痉绞绞翘崛∪四樚卣骱瓦M(jìn)行人臉相似度度量。在目前主流的方式中,一般提取人臉特征的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)很深,所以有一定的計算量;而人臉相似度度量一般采用對兩個人臉特征向量進(jìn)行計算歐氏距離或者COS距離,計算量非常小,并且針對大規(guī)模的人臉識別應(yīng)用還可以并行計算,所以速度非常快。正是由于當(dāng)前基于深度卷積網(wǎng)絡(luò)技術(shù)的人臉特征向量計算完成之后,計算人臉相似非??斓奶攸c,才使得在線人臉聚類方法可以真正落地應(yīng)用。
人臉特征提取網(wǎng)絡(luò)由兩部分組成,如圖1中虛線框所示,第一部分是一個STN網(wǎng)絡(luò),它根據(jù)人臉檢測器所得到的人臉位置,根據(jù)訓(xùn)練所得的參數(shù)把人臉歸一化成128×128的矩陣。第二部分是一個深度卷積網(wǎng)絡(luò),這里采用64層的RESNET網(wǎng)絡(luò)結(jié)構(gòu),其中最后一層為全連接層,輸出512維的人臉特征向量。
為了保證相同人的人臉特征向量歐氏距離小,而不同人之間的特征向量歐氏距離大,我們這里引入三元組損失函數(shù)作為度量學(xué)習(xí)的約束條件:
其中表示向量的模運算符,分別表示當(dāng)前人臉特征向量,與當(dāng)前人臉相同的人臉特征向量,與當(dāng)前人臉不同的人臉特征向量。
假定兩張人臉的通過上述人臉特征值提取網(wǎng)絡(luò)提取的特征向量分別為和,那么評價兩張人臉的相似度可以用COS距離表示:
2 時效相關(guān)的人臉聚類
由于人臉特征向量可以使用COS距離來表示兩個人臉之間的相似度,而且COS距離計算對于現(xiàn)在的主流計算機(jī)來說計算量不大,可以非??焖俚赝瓿捎嬎恪T谌四樉垲愡^程中,為每一個類維護(hù)一個聚類中心點,即:
判斷一個新的人臉特征向量f(xk)是否屬于該類別時,可以使用式⑵計算下式是否成立,如果成立則說明該人臉屬于該類別;否則不屬于該類別
其中T表示兩個人臉的相似度閾值,此處取0.8,表示兩個人臉的相似度為80%及以上為同一人。當(dāng)式⑷成立時,該人臉特征向量屬于該類別,那么需要對該類別的聚類中心點進(jìn)行更新。為了使得人臉聚類具有時效相關(guān)性,在更新過程中加入遺忘系數(shù),從而使新的中心點以一定的速率遺忘舊類別數(shù)據(jù)的影響,增加新加入數(shù)據(jù)的影響力
其中ρ為遺忘系數(shù),此處為0.9。
對于每個人臉類別中,還引入了一個活躍系數(shù),用于記錄每一個類別的活動生命周期。每當(dāng)一天的新數(shù)據(jù)需要在線聚類時,所有類別的活躍系數(shù)都會作減1操作。當(dāng)該某個類別有數(shù)據(jù)更新時,它的活躍系數(shù)就會作增1操作。當(dāng)時,則刪除該類別;當(dāng)時,則向系統(tǒng)提醒該類別。
3 醫(yī)保監(jiān)管藥販子人臉挖掘系統(tǒng)
目前各地藥店醫(yī)??ㄟ`規(guī)購藥以及民營醫(yī)院診所冒名就診發(fā)生的情況比較多,時常有媒體時行報道。人臉識別技術(shù)引入到購藥和就診環(huán)節(jié)可以比較好的解決上述問題,同時在已有的人臉識別系統(tǒng)上引入藥販子人臉挖掘技術(shù)可以進(jìn)一步加強(qiáng)監(jiān)管力度。在藥店購藥或者民營醫(yī)院診所就醫(yī)過程中,人臉識別醫(yī)保監(jiān)控會對所有病人進(jìn)行抓拍,并與后臺的人臉庫進(jìn)行比對,識別是否為本人或者授權(quán)家屬購藥或者就診。
對于有些交易是非本人刷卡買藥的情況,通過對非本人刷卡的人臉照片進(jìn)行在線人臉聚類,再對一段時間內(nèi)同一類照片出現(xiàn)的次數(shù)進(jìn)行檢測,就可以判斷出某些人是否在非本人刷卡的交易中經(jīng)常出現(xiàn),從而鎖定為藥販子嫌疑人,在后臺系統(tǒng)中對這些結(jié)果進(jìn)行展示,提醒監(jiān)管部門進(jìn)一步處理。
4 結(jié)論
基于深度卷積網(wǎng)絡(luò)提取人臉特征值作為人臉相似度在線人臉聚類方法,采用鏈隊列方式實現(xiàn)一定有效期內(nèi)的人臉快速增加和刪除的在線人臉聚類方式,通過統(tǒng)計鏈表隊列節(jié)點數(shù)目實現(xiàn)可疑人員檢測,并應(yīng)用于醫(yī)保卡實名購藥系統(tǒng)中,取得了比較好的效果。
對于大規(guī)模醫(yī)??▽嵜O(jiān)管系統(tǒng)來說,每一個月累積的人臉數(shù)目可達(dá)千萬級別的量級,如何采用并行化的方法對人臉進(jìn)行時效相關(guān)的聚類是值得進(jìn)一步研究的問題。
參考文獻(xiàn)(References):
[1] Krizhevsky A, Sutskever I, Hinton G.E., ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 NIPS,2012.
[2] Yaniv T, Ming Y, Marc A.R, Lior W.,DeepFace: Closing the Gap to Human-Level Performance in Face Verification. 2014 IEEE Conference on Computer Vision and Pattern Recognition,2014.
[3] Sun Y, Wang X, Tang X. Deep Learning Face Representa-tion by Joint Identification-Verification. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015.
[4] Florian S, Dmitry K, James P.,F(xiàn)aceNet: A Unified Embedding for Face Recognition and Clustering.n Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015.
[5] Shi Y, Otto C, Jain A K. Face Clustering: Representation and Pairwise Constraints. IEEE Transactions on Information Forensics and Security,2018.13(7):68-74
[6] Shi X, Guo Z, Xing F, Cai J, Yang L. Self-learning for face clustering. Pattern Recognition,2018.79:279-289
[7] Otto C, Wang D, Jain A K.Clustering Millions of Faces by Identity. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018.40(2):289-303