王戈,鐘如意,黃浩,胡永明
(湖北大學(xué)物理與電子科學(xué)學(xué)院, 鐵電壓電材料與器件湖北省重點實驗室, 湖北 武漢 430062)
目前人工智能已輻射到各行各業(yè),就整體框架而言,人工智能包括兩大模塊:一是機器學(xué)習(xí),另一個是大數(shù)據(jù).人工智能領(lǐng)域的快速發(fā)展,驅(qū)使像人臉、虹膜以及靜脈識別等一批生物特征識別的技術(shù)悄然進(jìn)入生活圈,而這些技術(shù)中人臉識別的應(yīng)用拓展最為廣闊,其逐漸應(yīng)用于諸如零售、餐飲、醫(yī)療等大型消費環(huán)境試點,遺憾的是,當(dāng)前我國在地鐵領(lǐng)域刷臉支付商用化的城市只有鄭州,這對于大力發(fā)展地鐵的中國,顯然存在技術(shù)加持跟不上的現(xiàn)象.在“互聯(lián)網(wǎng)+”模式的背景下,針對“互聯(lián)網(wǎng)”+“公共交通”[1]刷臉支付模式應(yīng)用的研究是十分必要且實用的,這也是人工智能在機器學(xué)習(xí)與圖像識別方向結(jié)合公共交通領(lǐng)域的最佳實踐之一.
以武漢市的地鐵為例,傳統(tǒng)的支付方式存在許多痛點.一是在各站臺雖然有擺放購買次票的窗口機,但存在機位少且購票效率不高等問題,尤其是在人流眾多地方,造成外地乘客來漢乘車有極其不友好的體驗.二是對于倡導(dǎo)低碳生活,無紙無卡化大背景下,傳統(tǒng)的武漢通顯得過于大,容易造成卡片丟失,且暫不支持掛失服務(wù).三是在2020年新冠肺炎大背景下,如何減少鈔票的使用和人員的積聚是武漢需要解決的難點問題.
通過開發(fā)一套基于輕量級人臉識別的智慧地鐵云支付系統(tǒng)[2],不僅能夠解決因機位不足而造成的效率不高、分散人流、提升外地人來漢的乘車體驗滿意度外,還能減少卡片及塑料幣的使用,更為重要的是能夠展現(xiàn)城市現(xiàn)代化水平,對剛獲批建設(shè)國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)的武漢,智慧城市的建設(shè)顯然與本系統(tǒng)的搭建不謀而合.
在人臉識別過程中,需要對數(shù)據(jù)庫進(jìn)行圖像預(yù)處理,包括圖像裁剪,光歸一化和變灰,MTCNN算法進(jìn)行人臉檢測,SVM分類器對處理后的人臉圖像進(jìn)行分類,比對系統(tǒng)由經(jīng)過訓(xùn)練和優(yōu)化后的分類器對在地鐵人臉識別設(shè)備前端捕獲的上傳圖像進(jìn)行分類,分出的結(jié)果就是臉部姿勢評估結(jié)果[3-4].輕量級人臉識別運行流程圖如圖1所示.
圖1 輕量級人臉識別運行流程圖
1.1 人臉識別數(shù)據(jù)現(xiàn)有的人臉識別大多忽略了人臉的姿態(tài)特征,數(shù)據(jù)庫僅有正臉照,導(dǎo)致識別精度不夠高,對于地鐵系統(tǒng)來說無疑是不達(dá)標(biāo)的,為了提高精度,本研究提出搭建一個包括正臉、左側(cè)臉、右側(cè)臉、抬頭、低頭5個角度的多姿態(tài)人臉庫[5-7].此外,為了保證系統(tǒng)數(shù)據(jù)集的泛性,本數(shù)據(jù)集樣本涵蓋:男、女、戴眼鏡、不戴眼鏡以及胖瘦各類臉型.人臉庫如圖2所示.
(a)正臉,(b)左側(cè)臉,(c)右側(cè)臉,(d)抬頭,(e)低頭圖2 多姿態(tài)人臉數(shù)據(jù)集
1.2 人臉檢測常見的人臉檢測算法[7]基本是由“瀏覽”和“判斷”兩部分組成,即算法將圖像中的信息進(jìn)行瀏覽,篩選出候選框后判斷框內(nèi)是否有人臉.本研究采用MTCNN算法用于人臉檢測任務(wù),其包含3個級聯(lián)的網(wǎng)絡(luò),分別是Proposal Network (P-Net)、Refine Network (R-Net)和Output Network (O-Net),如圖3所示.P-Net:主要獲取人臉區(qū)域的候選窗口和邊界框的回歸向量.并用該邊界框做回歸,對候選窗口進(jìn)行校準(zhǔn),然后通過非極大值抑制(NMS)來合并高度重疊的候選框.R-Net:通過邊框回歸和NMS來去掉那些false-positive區(qū)域O-Net:同R-Net層作用一樣,但是該層對人臉區(qū)域進(jìn)行了更多的監(jiān)督,同時還會輸出5個地標(biāo)(landmark)[8-9].
圖3 MTCNN級聯(lián)網(wǎng)絡(luò)分層示意圖(由上至下分別為P-Net、R-Net、O-Net)
1.3 人臉姿態(tài)識別MTCNN算法檢測原圖和原理展示圖如圖4所示.本研究使用人臉的5個關(guān)鍵點來判斷人臉姿態(tài)方向.
圖4 人臉姿態(tài)關(guān)鍵(左右眼、鼻子和左右嘴角)
通過上述人臉檢測、人臉識別算法,對采集的樣本進(jìn)行了大量實驗分析.表1給出了精準(zhǔn)率和召回率評判的4個參數(shù):TP(True Positive)代表正確人臉,FP(False Positive)代表錯誤人臉,FN(False Negative)代表識別出人臉和TN(True Negative)代表為識別出人臉.精準(zhǔn)率P(Precision)和召回率R(Recall)的計算公式如式(1)和式(2)所示[10-11].
表1 評判參數(shù)
(1)
(2)
為了驗證MTCNN的優(yōu)越性,實驗同時記錄了相同條件下(本實驗使用服務(wù)器配有64位的CentOS系統(tǒng),配備了Inter Xeon E5 2620 v4處理器,64 GB內(nèi)存,8張32 GB的Tesla V100顯卡),使用MTCNN網(wǎng)絡(luò)以及其他主流的輕量級網(wǎng)絡(luò)(ResNet、Fishercaces、LBP、Eigenfaces)得到的結(jié)果,實驗結(jié)果如表2所.在2 000個樣本中,通過實驗測試以及數(shù)據(jù)結(jié)合公式(1)、(2)計算后,采用MTCNN算法識別正確數(shù)為1 975個,識別精準(zhǔn)率為 99.74%, 召回率達(dá) 98.75%,該結(jié)果說明了本研究的人臉識別算法具有較高的識別精度.由于存在部分人臉嚴(yán)重遮擋,及人臉庫錄入光照因素,造成某些未能正確識別的現(xiàn)象,而單幀圖像識別平均耗時達(dá)0.081 s,檢測識別的速度較快.相較于其他算法網(wǎng)絡(luò),MTCNN算法無論是在識別正確數(shù)和精準(zhǔn)率,還是在保證識別正確數(shù)和精準(zhǔn)率下的速度上都優(yōu)于其他網(wǎng)絡(luò).
表2 人臉識別算法評判結(jié)果
Hadoop[12]擁有擴容能力強、效率高、可靠性高、成本低等優(yōu)點,考慮到隨著交通流量的日益增加,將當(dāng)前大數(shù)據(jù)技術(shù)中主流框架Hadoop與MTCNN算法相結(jié)合[13],從而提出一種輕量化分布式人臉識別.圖5所示為Hadoop架構(gòu)圖.
圖5 Hadoop架構(gòu)圖
具體的系統(tǒng)設(shè)計思想如下:①用戶按要求上傳人臉照片后,經(jīng)過處理將人臉數(shù)據(jù)存儲到 HDFS 中;②對Hadoop 框架的人臉數(shù)據(jù)類型接口和輸入/輸出格式接口進(jìn)行擴展實現(xiàn)數(shù)據(jù)高效傳輸、處理;③將MTCNN算法融入Hadoop,對人臉數(shù)據(jù)進(jìn)行分布式計算處理,將辨認(rèn)出的人臉和環(huán)境信息保存于數(shù)據(jù)庫,實現(xiàn)系統(tǒng)的人臉識別功能.結(jié)合Hadoop的輕量化分布式人臉識別在性能上可通過4個方向進(jìn)行優(yōu)化:首先,通過將人臉的數(shù)據(jù)劃分到集群里的各個節(jié)點中,并存儲于HDFS內(nèi),這樣可以實現(xiàn)高并發(fā)來提高效率從而提升人臉識別的速度.同時,為了提高人臉庫的檢索效率,還可以采取將人臉庫縮小的辦法.其次,擴展Hadoop框架內(nèi)人臉數(shù)據(jù)類型接口以及輸入/輸出格式接口,將數(shù)據(jù)信息串轉(zhuǎn)變成二進(jìn)制來進(jìn)行節(jié)點之間的傳輸,使得Map和Reduce階段的數(shù)據(jù)可以高效傳輸及處理.此外,將MTCNN算法和Hadoop框架結(jié)合,對通過人臉識別評估的結(jié)果進(jìn)行分布式計算處理,從而比對到對應(yīng)的人臉和環(huán)境信息.最后運用緩存技術(shù)將辨認(rèn)出的人臉和環(huán)境信息進(jìn)行緩存,并根據(jù)乘客乘坐地鐵出行的次數(shù),將該乘客標(biāo)記為???使用緩存技術(shù)后,極大地減輕了服務(wù)器的工作量,在緩存中處理和檢索的效率會更快.
武漢智慧地鐵云支付實施方案系統(tǒng)總架構(gòu)圖如圖6所示.系統(tǒng)總共分為人臉支付功能、人臉抓拍、人臉比對以及支付扣款等4大模塊.本系統(tǒng)搭建的關(guān)鍵點為人臉比對,因此本研究主要介紹人臉比對模塊.
圖6 系統(tǒng)總架構(gòu)圖
3.1 開通人臉支付功能乘客首先通過移動端開通人臉識別功能,移動端APP會要求乘客按要求拍攝人臉照片,并進(jìn)行實名認(rèn)證,并在移動端APP支付界面中的人臉識別支付模塊顯示為:已開通狀態(tài).
3.2 人臉抓拍前端抓拍的好壞關(guān)系到整個人臉的檢測與識別,為了保證人臉識別的準(zhǔn)確性和可靠性,需要對一些硬件的必要環(huán)境進(jìn)行規(guī)定匹配,如紅外補光、同畫面多人像連續(xù)抓取、80 cm 有效識別距離等,這樣才能在乘客順暢乘車的同時,前端能抓拍到高質(zhì)量的人臉圖像,并傳送到前端系統(tǒng).
3.3 人臉比對在開通人臉支付功能時,移動端APP會要求乘客拍攝5張照片,分別是上文提到的正臉、左側(cè)臉、右側(cè)臉、抬頭、低5五個角度的照片,并將其存入到人臉庫中,乘車進(jìn)閘前,前端連續(xù)抓拍到人臉圖像,經(jīng)過算法篩選后,將質(zhì)量最優(yōu)圖像與比對系統(tǒng)進(jìn)行對比.人臉識別比對系統(tǒng)采用一種基于MTCNN算法進(jìn)行多姿態(tài)人臉檢測與識別,同時結(jié)合Hadoop框架進(jìn)行大數(shù)據(jù)下的分布式人臉識別和數(shù)據(jù)存儲.MTCNN算法將人臉5個關(guān)鍵點的信息捕捉精準(zhǔn),而比對部分,常見的方法有兩種,分別是歐氏距離和余弦距離.歐氏距離衡量的是多維空間中各個點之間的絕對距離,而余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個體間差異的大小,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度.兩種方法的數(shù)學(xué)公式分別如式(3)和式(4)所示.
(3)
(4)
根據(jù)公式(3)可知歐式距離的取值范圍為[0,+∞),公式(4)可知余弦距離的取值范圍為[0,2].相較于歐氏距離,余弦距離使用兩個向量夾角的余弦值衡量兩個個體間差異的大小,后者更加注重兩個向量在方向上的差異,余弦距離能讓人臉特征區(qū)分度更高,因此,人臉特征比對采用的度量方法是計算余弦距離遠(yuǎn)近,距離越近(相似度越大)表示兩張人臉越相似(本次實驗設(shè)置閾值設(shè)為 0.6).比對過程依次是,首先通過MTCNN獲取要檢測的實時圖片中的每一張人臉特征后,將每一張人臉特征和人臉庫中所有的人臉特征進(jìn)行比較,計算距離,然后通過比對距離與閾值的大小,若得出的距離大于所設(shè)定的閾值,則表示這張圖像匹配到了人臉庫中對應(yīng)的人,如果存在多張人臉與當(dāng)前人臉的余弦相似度大于閾值的情況,取相似度最高的為匹配結(jié)果.
3.4 支付扣款前端系統(tǒng)收到人臉識別系統(tǒng)反饋信息后將乘客的ID告知支付系統(tǒng)進(jìn)行相應(yīng)的扣款操作,然后支付系統(tǒng)再將扣款必要信息告知前端系統(tǒng),前端系統(tǒng)通知閘機開閘.此時自助售賣票窗口原先的工作人員可安排在閘機口,避免逃票現(xiàn)象的發(fā)生,有效提升了乘車的秩序和管理水平.相反,假設(shè)支付失敗,則返回錯誤信息代碼及錯誤原因給到前端系統(tǒng).此時人工窗口可根據(jù)乘客入站站點查詢來判斷乘車區(qū)間進(jìn)行補票.
經(jīng)實驗結(jié)果反饋,在2 000分樣本測試中,人臉識別精準(zhǔn)率為99.74%、召回率為98.75%,單幀平均耗時為0.081 s,有效保證識別效率和準(zhǔn)確性.為人臉識別地鐵商用化提供一套解決思路.對于“刷臉支付”模式,我們暫且不能指望它能替代其他的支付方式,理由有兩點:第一,“刷臉支付”的成功率是必須考量的一點,若在地鐵早晚高峰期少數(shù)人長時間的刷臉支付失敗,會造成通道堵塞,人員擁擠,產(chǎn)生安全隱患;其二,對于有關(guān)人民財產(chǎn)安全的問題,必須慎之又慎,如何避免漏刷、誤刷,是系統(tǒng)必須也一定要解決的硬任務(wù)[14].但無論如何,“刷臉支付”在公共交通領(lǐng)域的應(yīng)用可能是未來的趨勢,這也是人工智能技術(shù)在公共交通領(lǐng)域的最佳實踐之一.智慧交通的發(fā)展必然會推動智慧城市的建設(shè)而后又反哺智慧于交通.