邱文龍
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
目前,人臉識別技術(shù)在公安系統(tǒng)的嫌犯身份識別、車站機場等公共監(jiān)控場景中廣泛應(yīng)用。傳統(tǒng)的人臉識別算法通常有局部二值模式[1](LBP)和幾何特征[2]方法、隱馬爾可夫模型[3]、特征臉方法[4]等,但實際應(yīng)用中由于上述方法提取特征單一,容易受到光照、尺度、旋轉(zhuǎn)等因素影響,導(dǎo)致人臉識別準(zhǔn)確率降低。卷積神經(jīng)網(wǎng)絡(luò)因具有權(quán)值共享、局部感知等優(yōu)點被廣泛用于人臉識別領(lǐng)域。Taigman等[5]提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)(DeepFace)的人臉驗證方法,用4000個人,每個人超過1000張人臉圖像的大數(shù)據(jù)進(jìn)行訓(xùn)練。Schroff等[6]提出了FaceNet算法利用三元組損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,將不同層級的特征進(jìn)行融合來減少人臉識別網(wǎng)絡(luò)訓(xùn)練時間。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)通常采用深層次的網(wǎng)絡(luò)結(jié)構(gòu)以獲取更多的人臉局部特征,但是其網(wǎng)絡(luò)結(jié)構(gòu)計算量大,對硬件要求高,訓(xùn)練耗時長。本文建立了一種簡化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含三個卷積層和三個最大池化層,采用一個全連接層和串聯(lián)的Softmax-SVM分類器,有效降低了網(wǎng)絡(luò)結(jié)構(gòu)的深度,減少了訓(xùn)練時長;串聯(lián)分類器相比Softmax分類器,明顯提高了人臉識別的準(zhǔn)確率。
人臉識別卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要包括卷積層、池化層、全連接層和分類層,通過逐層處理的方式有效提取輸入圖像的特征。本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)包含三個卷積層、三個最大池化層和一個全連接層,分類層采用串聯(lián)Softmax-SVM分類器,如圖1所示。其中輸入圖像尺寸大小歸一化為224×224,卷積層1包括96個尺寸大小為7×7的卷積核,移動步長為2,經(jīng)過初次卷積獲得96個尺寸為60×60的特征圖。池化層采用最大池化方法,池化尺寸為2×2。經(jīng)過池化層1處理后的特征圖大小變?yōu)樵瓉淼?/4;卷積層2包括256個尺寸為5×5的卷積核,移動步長為1;卷積層3包括256個尺寸為3×3卷積核,移動步長為1;全連接層是將所有的二維特征映射轉(zhuǎn)化為全連接的一維向量;第8層采用改進(jìn)的串聯(lián)Softmax-SVM分類器,進(jìn)行特征分類。
卷積層通過卷積操作對輸入圖像進(jìn)行特征提取,圖1中卷積層1設(shè)置了96個尺寸大小為7×7的卷積核,卷積計算如式(1)。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
式中:xl-1i代表l-1層神經(jīng)元i的輸出,wlij是第l層神經(jīng)元的第j個輸入對應(yīng)的權(quán)值,Mj表示神經(jīng)元j對應(yīng)的卷積核,Bl是第l層的偏置。f是激活函數(shù)本文中采用修正線性單元(ReLU)進(jìn)行非線性處理。每一卷積核卷積得到一個特征圖,結(jié)果輸出96個特征圖,尺寸大小為60×60。卷積層1提取的特征可視化輸出結(jié)果如圖2所示。
池化層主要將圖像中不同位置的特征進(jìn)行聚合,利用圖像某區(qū)域的特定值表示該區(qū)域的整體特征以達(dá)到數(shù)據(jù)降維。本文采取最大池化,池化尺寸為2×2,移動步長為2,即在2×2大小的池化區(qū)域取其中最大值,其原理如式(2)所示:
經(jīng)過池化操作后的圖像大小變?yōu)樵瓉淼?/4,池化層1的可視化結(jié)果如圖3所示。
圖2 卷積層1的可視化結(jié)果
圖3 池化層1的可視化結(jié)果
Softmax分類器是邏輯回歸二分類器泛化到多分類的分類器,其作用是使用互熵?fù)p失函數(shù)將得分映射到概率域其作用是最小化預(yù)測類別的概率分布。Soft?max分類器計算出了屬于每一類的概率,假設(shè)規(guī)定輸入數(shù)據(jù)x,輸出的類別y∈{1,2,…,k},總共有k類,其類標(biāo)y=i的概率分布如式(3):
其中e表示自然對數(shù)的底數(shù),表示待擬合的參θj數(shù),上標(biāo)T表示轉(zhuǎn)置P(y=i|x,θ)表示輸入數(shù)據(jù)x對應(yīng)每一個標(biāo)類i的概率,i可取1,2,…,k。對于k維輸出數(shù)據(jù),其概率P(y=i|x,θ)的假設(shè)函數(shù)h0(x)的定義如式(4):
從上式可以看出假設(shè)函數(shù)h0(x)計算了給定輸入數(shù)據(jù)x的每一個對應(yīng)的i=k的概率估計。參數(shù)θi是通過最大似然估計來確定的,對于有m個訓(xùn)練輸入數(shù)據(jù){x(i),y(i);i=1,…,m},其對數(shù)形式的似然函數(shù)為:
通過最大化函數(shù)L,可確定參數(shù)θi。
SVM分類器中定義一個多分類的支持向量機損失函數(shù)其思想是如果正確分類的得分應(yīng)該比錯誤分類的得分高,而且至少應(yīng)該高Δ。多分類的支持向量機損失函數(shù)的表達(dá)式如式(7):
神經(jīng)網(wǎng)絡(luò)中的評分函數(shù)如式(8):
多分類的支持向量機損失函數(shù)可改寫式(9):
最后得出分類結(jié)果,本文結(jié)合Softmax分類器與SVM分類器的優(yōu)點將二者串聯(lián),提高人臉識別的效率和準(zhǔn)確率。
為了驗證分類器對人臉識別準(zhǔn)確率的影響,實驗中用單一Softmax分類器和SVM分類器分別進(jìn)行試驗對比。實驗結(jié)果如圖(4)所示。圖中縱軸表示人臉識別中的錯誤率,橫軸表示訓(xùn)練過程中的迭代次數(shù)。圖中abc分別是Softmax、SVM和Softmax-SVM分類器的錯誤率隨著迭代次數(shù)的變化曲線,Softmax最終錯誤率在3.4%,SVM最終錯誤率在2.0%,Softmax-SVM的最終錯誤率在1.2%。
本文算法描述如下:
(1)構(gòu)建如圖1所示的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
(2)對人臉數(shù)據(jù)庫進(jìn)行統(tǒng)一處理將圖像尺寸大小統(tǒng)一為224×224,同一人臉進(jìn)行類別標(biāo)定再進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練;
(3)輸入卷積神經(jīng)網(wǎng)絡(luò),通過卷積層與池化層的交替處理提取人臉圖像的深層特征;
(4)在全連接層將所有特征圖像轉(zhuǎn)化成矩陣向量,并輸入Softmax-SVM分類層通過計算深度特征的余弦距離進(jìn)行特征分類。
為了驗證本文算法的有效性,實驗在MATLAB 2015b環(huán)境下進(jìn)行,計算機配置為2.5 GHz CPU和4 GB內(nèi)存。實驗中選取CAS-PEAL人臉數(shù)據(jù)庫進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練,CAS-PEAL人臉數(shù)據(jù)庫包含了1040位志愿者共99450幅人臉圖片,平均每人95幅圖片,涵蓋了姿態(tài)、表情、裝飾、光照、背景、距離和時間等特征變化。實驗中隨機選取數(shù)據(jù)庫中70%的的圖片作為訓(xùn)練集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,30%作為測試集來對網(wǎng)絡(luò)模型的識別準(zhǔn)確率進(jìn)行測試。
為了進(jìn)一步驗證本文所提的卷積神經(jīng)網(wǎng)絡(luò)的有效性和優(yōu)越性,將該結(jié)構(gòu)的實驗結(jié)果與其他識別方法在CAS-PEAL和LFW人臉數(shù)據(jù)庫上的實驗結(jié)果進(jìn)行對比實驗結(jié)果如表(2)所示。從表中可以看出本文算法PCA算法與Facebook公司的DeepFace網(wǎng)絡(luò)識別準(zhǔn)確率高,比FaceNet的網(wǎng)絡(luò)略低但是本文算法的網(wǎng)絡(luò)深度較淺,訓(xùn)練耗時短。
表1 不同方法實驗結(jié)果對比
針對經(jīng)典人臉識別卷積神經(jīng)網(wǎng)絡(luò)中因網(wǎng)絡(luò)層次過深,導(dǎo)致訓(xùn)練時間過長問題,設(shè)計了一種由三個卷積層、三個池化層、一個全連接層和一個分類層組成的網(wǎng)絡(luò),大大降低了網(wǎng)絡(luò)的深度,減少了計算量。實驗中對Softmax類器和SVM進(jìn)行了對比最后選擇將兩種分類器串聯(lián),結(jié)果表明本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地提取人臉特征,與經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)相比大大降低了網(wǎng)絡(luò)的深度,并在特征分類過程中用Softmax-SVM分類器代替單一Softmax分類器降低了人臉識別的錯誤率。在CAS-PEAL人臉庫上測試,識別準(zhǔn)確率達(dá)到98.80%。
圖4 不同分類器人臉識別錯誤率比較