崔 凱, 才 華, 陳廣秋, 谷欣超, 孫俊喜
(1. 長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院, 長(zhǎng)春 130022; 2. 長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 長(zhǎng)春 130022; 3. 東北師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130117)
人臉檢測(cè)在人機(jī)交互、 身份驗(yàn)證等領(lǐng)域應(yīng)用廣泛[1]. 人臉特征的提取是人臉檢測(cè)的基礎(chǔ), 特征模型可表示人臉的主要特征, 在實(shí)際應(yīng)用中, 由于復(fù)雜背景、 人的豐富表情、 光照明暗變化等條件的干擾, 給特征的提取帶來了諸多困難, 為了保證人臉檢測(cè)的有效性, 用于人臉檢測(cè)的特征必須有較強(qiáng)的魯棒性.
紋理特征是內(nèi)容圖像檢索技術(shù)(CBIR)研究的重點(diǎn)[2]. 局部二值模式(LBP)特征[3]是一種常用的有效紋理特征, LBP特征可提取圖像局部區(qū)域的紋理信息, 但其存在一定的局限性, 如所得數(shù)據(jù)維數(shù)過高、 對(duì)紋理區(qū)域不魯棒等; 文獻(xiàn)[4]提出了中心對(duì)稱局部區(qū)域二值模式(CS-LBP)描述符, 該特征可很好地描述紋理圖像的局部特征, 但其不具有旋轉(zhuǎn)不變性, 易導(dǎo)致圖像中心鄰域點(diǎn)局部信息的丟失. 基于此, 本文借鑒二進(jìn)制Haar特征的積分圖求累積強(qiáng)度[5], 并考慮到特征的旋轉(zhuǎn)不變性, 提出一種多紋理CS-LBP特征算子. 多紋理CS-LBP特征繼承了二進(jìn)制Haar特征和LBP特征的所有優(yōu)點(diǎn), 特征數(shù)量少, 但可有效地捕獲圖像的局部強(qiáng)度結(jié)構(gòu), 具有更強(qiáng)的辨別能力, 且在檢測(cè)過程中不需要特殊的光照校正, 節(jié)省計(jì)算成本[6].
目前, 主要有3種不同類型的人臉探測(cè)器: 1) 改進(jìn)自Viola和Jones的級(jí)聯(lián)框架[7]; 2) 可變形模型(DPM)[8]; 3) 基于神經(jīng)網(wǎng)絡(luò)的探測(cè)器, 如卷積神經(jīng)網(wǎng)絡(luò)(CNN)等[9-10].
本文綜合考慮人臉檢測(cè)精度和時(shí)間, 采用一種針對(duì)多視角人臉檢測(cè)級(jí)聯(lián)結(jié)構(gòu)人臉檢測(cè)框架, 通過引入由精到粗的設(shè)計(jì)理念[11], 針對(duì)人臉圖像中的不同視角進(jìn)行分區(qū), 分別進(jìn)行多紋理特征的提取, 并采用并行計(jì)算方式的獨(dú)立分類器, 逐漸去除非人臉窗口. 采用多層感知器MLP綜合各視角的檢測(cè)效果, 最終實(shí)現(xiàn)快速準(zhǔn)確的人臉檢測(cè). 最后, 在人臉檢測(cè)測(cè)試集FDDB[12]和CMU PIE[13]上對(duì)本文檢測(cè)方法進(jìn)行驗(yàn)證, 測(cè)試效果較理想.
LBP主要用于獲取圖像的局部紋理特征, 該特征通過提取度量圖像的局部對(duì)比度獲得. 先將中心像素周圍8個(gè)像素的灰度值減去中心像素灰度值, 如果差值大于0, 則標(biāo)記為1, 反之該像素所在的位置記為0; 然后與相應(yīng)的權(quán)重相乘, 乘積的累加和即為該8鄰域的LBP值[14], 如圖1所示.
圖1 原始LBP特征Fig.1 Original LBP features
LBP特征值定義為
圖2 CS-LBP特征Fig.2 CS-LBP features
CS-LBP特征如圖2所示, 其對(duì)灰度圖像的方向變化進(jìn)行編碼, 該特征結(jié)合了SIFT特征[16]和LBP特征的優(yōu)點(diǎn).
CS-LBP特征值定義為
其中, 閾值t反映了紋理的平坦性特點(diǎn). CS-LBP特征有效地將圖像維數(shù)降為16維[17].
人臉局部特征具有不同的方向性, 本文對(duì)CS-LBP特征進(jìn)行改進(jìn), 得到4個(gè)部分特征: 水平紋理、 垂直紋理、 +45°紋理和-45°紋理, 該方法一方面保留了CS-LBP的優(yōu)點(diǎn), 另一方面引進(jìn)了方向, 在保證對(duì)光照的魯棒性外, 還具有一定的旋轉(zhuǎn)不變性.
為了加強(qiáng)特征的辨別能力, 本文借鑒Haar特征, 通過積分圖進(jìn)行運(yùn)算, 即合并8個(gè)局部相鄰的大小相同的2-矩形二進(jìn)制Haar特征, 它們擁有同一個(gè)中心矩形. 用于組合的8個(gè)二進(jìn)制Haar特征如圖3所示.圖4為組合特征, 其中黑色區(qū)域表示共享.
圖3 用于組合的8個(gè)二值Haar特征Fig.3 Eight binary Haar features for combination
圖4 組合特征Fig.4 Combination features
組合特征用I(X,Y,S,L)表示, 其中:X和Y表示圖像特征左頂位置的坐標(biāo); (S,L)表示矩形的寬度和高度. 特征組合完成后, 即可進(jìn)行多紋理CS-LBP特征的計(jì)算.圖5為多紋理CS-LBP特征的模型.
莫言認(rèn)為:“長(zhǎng)篇小說的結(jié)構(gòu)是長(zhǎng)篇小說藝術(shù)的重要組成部分,是作家豐沛想象力的表現(xiàn)。好的結(jié)構(gòu),能夠凸顯故事的意義,也能夠改變故事的單一意義”[13]。在他看來,結(jié)構(gòu)從來不僅僅是小說的外在形式,它有時(shí)候就是故事的內(nèi)容,是作家思想情感的展示方式,包孕著作家的胸懷氣象和話語(yǔ)寄托,傳達(dá)著作家的藝術(shù)才華和審美意圖。只有好的故事結(jié)構(gòu)才能承擔(dān)起故事的豐富內(nèi)蘊(yùn),呈現(xiàn)文本的多義多解。在諸多長(zhǎng)篇小說敘事結(jié)構(gòu)中,“復(fù)調(diào)型的民間敘事結(jié)構(gòu)是莫言小說的最基本的敘事形態(tài)”[14](P29),成為莫言文學(xué)作品深厚內(nèi)蘊(yùn)的有力承載者。
多紋理CS-LBP特征模型計(jì)算公式如下:
(10)
(11)
圖5 多紋理CS-LBP特征模型Fig.5 Multi-texture CS-LBP feature model
其中:Ti表示第i個(gè)像素區(qū)域的灰度值之和;t表示閾值;ω表示各方向紋理特征的權(quán)重. 多紋理CS-LBP特征繼承了二進(jìn)制Haar特征和LBP的所有優(yōu)點(diǎn), 數(shù)量較少, 卻可有效地捕獲圖像的局部強(qiáng)度結(jié)構(gòu), 具有較強(qiáng)的辨別能力, 并在檢測(cè)過程中不需要特殊的光照校正. 該特征對(duì)人臉紋理具有代表性, 同時(shí)還可以減少特征的數(shù)量.
圖6 人臉檢測(cè)器的整體結(jié)構(gòu)框架Fig.6 Overall framework of face detector
采用級(jí)聯(lián)結(jié)構(gòu)多視角人臉檢測(cè)器, 在檢測(cè)框架中, 根分類器進(jìn)行二值分類. 根據(jù)視角的不同, 人臉被分成多個(gè)子類, 每個(gè)子類都由相應(yīng)的模型進(jìn)行處理. 級(jí)聯(lián)結(jié)構(gòu)采取并行模式, 在精度和速度方面效果較好.圖6為檢測(cè)器的整體結(jié)構(gòu)框架. 首先針對(duì)不同視角, 多個(gè)分類器并行運(yùn)行, 進(jìn)行多紋理特征的提取, 迅速剔除多數(shù)的非人臉候選窗口. 每個(gè)分類器針對(duì)不同視角進(jìn)行專門訓(xùn)練, 以確保具有較高的召回率. 其次, 采用多層感知器MLP級(jí)聯(lián)(multilayer perceptron)[18]驗(yàn)證剩余候選窗口, 此時(shí)分類器的數(shù)目較前面有所減少, 雖然更耗時(shí), 但判決能力更強(qiáng). 最后, 通過統(tǒng)一的MLP處理余下的各視角的候選窗口, 實(shí)現(xiàn)最終的人臉檢測(cè)輸出.
首先, 將復(fù)雜的多視角人臉檢測(cè)劃分成多個(gè)簡(jiǎn)單的單視角人臉檢測(cè)問題. 根據(jù)提取的多紋理特征, 采用多個(gè)快速級(jí)聯(lián)分類器進(jìn)行分類, 每個(gè)獨(dú)立視角的分類都是并行的, 當(dāng)且僅當(dāng)所有的快速級(jí)聯(lián)分類器分類為非人臉時(shí), 窗口才被去除. 所有模型共享用于特征提取的特征圖, 運(yùn)行速度快, 召回率高. 此外, 并行結(jié)構(gòu)允許視角分區(qū), 靈活性更強(qiáng), 不會(huì)像樹形結(jié)構(gòu)因?yàn)椴徽_的分支而導(dǎo)致漏檢.
其次, 完成上述操作后, 多數(shù)的非人臉窗口被排除, 余下的候選窗口需要進(jìn)一步驗(yàn)證. 引入多層感知器MLP級(jí)聯(lián), MLP是一種由輸入層、 輸出層和隱藏層三部分組成的神經(jīng)網(wǎng)絡(luò).N層多層感知器F(x)可表示為
F(x)=fN-1(fN-2(…f1(x))),
(12)
fi(x)=σ(Wix+bi),
(13)
(14)
其中:xi表示第i個(gè)訓(xùn)練樣本的特征向量;yi相應(yīng)的標(biāo)記為1或0, 表示樣本是否為人臉.
最后, 采用統(tǒng)一的MLP處理前兩個(gè)階段保留下來的少數(shù)窗口. 綜合各視角的檢測(cè)結(jié)果, 最終實(shí)現(xiàn)人臉與非人臉區(qū)域的準(zhǔn)確區(qū)分.
為了驗(yàn)證多紋理CS-LBP特征和檢測(cè)器的有效性, 本文在FDDB和CMU PIE兩個(gè)驗(yàn)證數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).
共采用150個(gè)多紋理CS-LBP特征, 這些特征是從圖像的局部片段中提取的, 如果它們之間有較大的重疊, 則多余的部分會(huì)被覆蓋, MLP級(jí)聯(lián)階段有一個(gè)隱藏層, 分別包含10,15,20個(gè)隱藏單元, 最后的統(tǒng)一MLP包含60個(gè)隱藏單元的隱藏層結(jié)構(gòu).
為了分析多紋理CS-LBP特征的檢索效果, 統(tǒng)計(jì)一般情況下標(biāo)準(zhǔn)圖像庫(kù)中512個(gè)結(jié)果的平均查準(zhǔn)率和查全率[19]作為檢索效果評(píng)價(jià)標(biāo)準(zhǔn). 設(shè)在圖像庫(kù)R中,Qi表示第i類圖像的集合, ‖Qi‖表示R中與Qi在視覺上相似的圖像數(shù)目, 一次查詢中返回的結(jié)果記為(Y1,Y2,…,Yn),N表示查完某個(gè)圖像庫(kù)所需的次數(shù),X表示實(shí)驗(yàn)圖像庫(kù)(X∈R). 則平均查全率定義為
(15)
平均查準(zhǔn)率定義為
(16)
其中
(17)
隨機(jī)選擇8個(gè)小型圖像庫(kù), 再分別從每個(gè)小型庫(kù)中隨機(jī)選出8幅圖像作為實(shí)驗(yàn)圖像庫(kù), 在檢索過程中, 再選擇與每個(gè)圖像視覺上最接近的前25幅圖像作為關(guān)聯(lián)圖像, 則對(duì)每個(gè)算子, 總共檢測(cè)64次. 分別計(jì)算每個(gè)亞小型圖像庫(kù)的平均查準(zhǔn)率與平均查全率.
圖7為不同特征的平均查全率與查準(zhǔn)率對(duì)比曲線. 由圖7可見, 在相同的測(cè)試圖像集下, 多紋理CS-LBP特征的查全率和查準(zhǔn)率均比原始的LBP特征和改進(jìn)的CS-LBP特征高, 因此多紋理CS-LBP特征檢測(cè)性能更好.
圖7 不同特征的平均查全率與查準(zhǔn)率對(duì)比曲線Fig.7 Contrast curves of average recall and precision of different features
將本文采用的級(jí)聯(lián)結(jié)構(gòu)與CNN進(jìn)行比較, 主要對(duì)比兩種常見的CNN模型LeNet[20-21]和AlexNet[22-23]. LeNet和AlexNet的輸出層被調(diào)整為二值分類, 即人臉和非人臉. CNN的兩個(gè)模型與本文級(jí)聯(lián)結(jié)構(gòu)采用相同的訓(xùn)練集, 包含9 204個(gè)多視角人臉的樣本和10 000個(gè)非人臉樣本. 在FDDB和CMU PIE數(shù)據(jù)集上的測(cè)試結(jié)果分別列于表1和表2. 由表1和表2可見, 隨著檢測(cè)誤報(bào)數(shù)的增加, 3種檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率越來越高, 級(jí)聯(lián)結(jié)構(gòu)人臉檢測(cè)器的性能比LeNet好很多, 性能也優(yōu)于8層的AlexNet.
表1 FDDB數(shù)據(jù)集測(cè)試準(zhǔn)確率
表2 CMU PIE數(shù)據(jù)集測(cè)試準(zhǔn)確率
綜上所述, 本文提出了一種多紋理CS-LBP特征, 結(jié)合了Haar特征積分圖和LBP的優(yōu)點(diǎn), 根據(jù)人臉圖像的模型特征, 從水平紋理、 垂直紋理、 +45°紋理和-45°紋理4個(gè)方向進(jìn)行特征提取, 保證了在不同方向、 光照、 旋轉(zhuǎn)情況下人臉檢測(cè)的魯棒性. 此外, 本文算法采用一種級(jí)聯(lián)結(jié)構(gòu)的多視角人臉檢測(cè)框架, 用由粗到細(xì)的設(shè)計(jì)理念, 逐層篩選候選人臉窗口, 有效提高了人臉檢測(cè)的準(zhǔn)確性, 且縮短了并行計(jì)算時(shí)間. 最后, 在人臉檢測(cè)數(shù)據(jù)集FDDB和CMU PIE上進(jìn)行評(píng)估, 驗(yàn)證了本文方法對(duì)復(fù)雜環(huán)境下的多視角人臉檢測(cè)十分有效, 與傳統(tǒng)的CNN方法相比, 具有更高的精度.