李荔 瞿洪桂 孫家樂(lè)
(1.國(guó)家信息中心軟件評(píng)測(cè)中心 北京市 100000 2.北京中電興發(fā)科技有限公司 北京市 100095)
人臉識(shí)別是公共安全物聯(lián)網(wǎng)應(yīng)用最為廣泛的場(chǎng)景之一,識(shí)別效果的好壞取決于待識(shí)別人臉圖像質(zhì)量的高低。即,低質(zhì)量的人臉圖像會(huì)大大降低人臉識(shí)別的準(zhǔn)確率。在連續(xù)視頻幀中,人臉圖像的質(zhì)量會(huì)隨著光照、姿態(tài)、表情、運(yùn)動(dòng)等因素變化。如何使得圖像傳感器能夠正確評(píng)判連續(xù)視頻幀中人臉圖像質(zhì)量的高低,成為很多學(xué)者研究的內(nèi)容。針對(duì)姿態(tài)和非對(duì)稱光照對(duì)人臉的干擾,鄒[1]提出基于子區(qū)域直方圖距離的人臉對(duì)稱度評(píng)價(jià),進(jìn)而評(píng)估人臉質(zhì)量的方法。黃[2]提出基于CNN 的人臉圖像亮度和清晰度的質(zhì)量評(píng)價(jià)方法,利用人臉識(shí)別匹配器的相似性分?jǐn)?shù)與人類視覺(jué)系統(tǒng)清晰度等級(jí)分類方法,結(jié)合傳統(tǒng)亮度分級(jí)方法,將人臉圖像分成9 類并建立相應(yīng)的數(shù)據(jù)標(biāo)簽,基于數(shù)據(jù)標(biāo)簽和數(shù)據(jù)集訓(xùn)練CNN 模型用于人臉質(zhì)量評(píng)估。在眾多的研究中也有學(xué)者探索利用遷移學(xué)習(xí)基于輕型網(wǎng)絡(luò)去實(shí)現(xiàn)人臉圖像質(zhì)量評(píng)估,如基于MobileNet 網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)實(shí)現(xiàn)圖像質(zhì)量分類評(píng)估[3]。物聯(lián)網(wǎng)信息系統(tǒng)中,數(shù)據(jù)采集過(guò)程中對(duì)圖像數(shù)據(jù)進(jìn)行過(guò)濾,可大大減少網(wǎng)絡(luò)傳輸壓力,節(jié)省存儲(chǔ)資源。故而,在視頻采集器中實(shí)現(xiàn)可靠的人臉圖像質(zhì)量評(píng)價(jià)尤為重要。本文致力于利用輕量型網(wǎng)絡(luò)ShuffleNet 實(shí)現(xiàn)人臉質(zhì)量評(píng)價(jià)在視頻采集器中的應(yīng)用。
由于光照強(qiáng)度、光照方向、目標(biāo)距離、焦距、采樣率、曝光時(shí)間和增益、暗漏電流、分辨率等因素的影響,攝像機(jī)采集的圖片質(zhì)量或高或低。此外,作為一般圖像的特例,人臉圖像質(zhì)量還會(huì)受頭部姿態(tài)、面部表情、遮擋、妝容、飾物等因素的影響。
圖像質(zhì)量評(píng)估(Image Quality Assessment, IQA)可分為主觀評(píng)估和客觀評(píng)估兩種方法。主觀評(píng)估就是從人的主觀感知來(lái)評(píng)價(jià)圖像的質(zhì)量,首先給出原始參考圖像和失真圖像,讓標(biāo)注者給失真圖像評(píng)分,一般采用平均主觀得分(Mean Opinion Score, MOS)或平均主觀得分差異(Differential Mean Opinion Score, DMOS)表示。主觀評(píng)估費(fèi)時(shí)費(fèi)力,且評(píng)分受觀看距離、顯示設(shè)備、照明條件、觀測(cè)者的視覺(jué)能力、情緒等諸多因素影響,可操作性差??陀^評(píng)估使用數(shù)學(xué)模型給出量化值,操作簡(jiǎn)單,已經(jīng)成為IQA 研究的重點(diǎn)。
圖1:ShuffleNet 網(wǎng)絡(luò)結(jié)構(gòu)的基本單元
圖2:樣本標(biāo)注流程圖
圖3:fa 子集圖像置信度
圖4:數(shù)據(jù)集中不同光照,姿態(tài)的人臉圖像標(biāo)注結(jié)果樣例
圖5:數(shù)據(jù)增強(qiáng)后標(biāo)注結(jié)果樣例
人臉圖像質(zhì)量評(píng)估作為圖像質(zhì)量評(píng)估的一個(gè)分支,既要考慮傳統(tǒng)圖像質(zhì)量評(píng)估中關(guān)注的因素,又要考慮人臉特有的因素。2009年,國(guó)際標(biāo)準(zhǔn)化組織制定了關(guān)于人臉圖像質(zhì)量的ISO/IEC 標(biāo)準(zhǔn),對(duì)多種參數(shù)做出了規(guī)定[4]?;谠摌?biāo)準(zhǔn),出現(xiàn)了很多質(zhì)量評(píng)估方法。有基于多因素的人臉圖像質(zhì)量評(píng)估方法[5],該類方法對(duì)人臉圖像大小、位置、角度、對(duì)比度、明亮度、清晰度等分別進(jìn)行評(píng)價(jià),再對(duì)每個(gè)評(píng)價(jià)結(jié)果選擇合適的權(quán)重,進(jìn)而得到整體質(zhì)量得分。該類方法中,如何確定每個(gè)評(píng)價(jià)結(jié)果的權(quán)重是一個(gè)難題。不同方法中選擇的評(píng)價(jià)因素也不同[6],各種影響因素很難全面考慮到。有學(xué)者提出基于全局特征人臉特征聚類對(duì)人臉質(zhì)量進(jìn)行標(biāo)注,并使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)人臉圖像質(zhì)量進(jìn)行回歸的方法[7],也有學(xué)者提出基于特征聚類的分類方法[8]。這類方法考慮人臉圖像的全局質(zhì)量,能兼顧不同因素對(duì)人臉圖片質(zhì)量的影響。在評(píng)估測(cè)度上,除上述的分類輸出、回歸輸出,還有基于秩的評(píng)估方法[9]。
在基于深度學(xué)習(xí)的人臉質(zhì)量評(píng)估算法中,不同的網(wǎng)絡(luò)結(jié)構(gòu)被提出以應(yīng)用于人臉質(zhì)量評(píng)估[10]。但是大多網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,性能有限。自ShuffleNet 提出以來(lái),基于ShuffleNet 的網(wǎng)絡(luò)結(jié)構(gòu)被廣泛的應(yīng)用于人臉識(shí)別系統(tǒng)中[11-12]。
ShuffleNet 是曠視科技最近提出的一種計(jì)算高效的CNN 模型,ShuffleNet 的核心是采用了兩種操作:pointwise group convolution和channel shuffle,這兩種操作在保持精度的同時(shí)大大降低了模型的計(jì)算量。目前最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)是ShuffleNetV2。本文基于ShuffleNetV2 實(shí)現(xiàn)人臉圖像質(zhì)量分?jǐn)?shù)的回歸。
ShuffleNetV2 網(wǎng)絡(luò)的基本結(jié)構(gòu)是基于殘差網(wǎng)絡(luò)的殘差結(jié)構(gòu)。如圖1 所示。
網(wǎng)絡(luò)采用3 個(gè)基本單元構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)主體,兩個(gè)全連接層FC1 輸出維度為200,F(xiàn)C2 輸出1 維質(zhì)量分?jǐn)?shù),loss 層選用EuclideanLoss 對(duì)人臉圖像質(zhì)量分?jǐn)?shù)進(jìn)行回歸。
基于人工進(jìn)行人臉圖像質(zhì)量標(biāo)注, 不僅工作量巨大,還易受主觀因素影響。標(biāo)注結(jié)果與人的視覺(jué)感受一致,但未必符合人臉識(shí)別系統(tǒng)的需要。本文使用基于人臉識(shí)別算法的樣本標(biāo)注方法,為人臉識(shí)別算法量身定做質(zhì)量評(píng)估方法。人臉檢測(cè)目標(biāo)分類置信度體現(xiàn)了目標(biāo)分類的正確概率,也是衡量人臉圖像質(zhì)量的一個(gè)參考指標(biāo)。本文采人臉檢測(cè)置信度對(duì)人臉圖像質(zhì)量分?jǐn)?shù)進(jìn)行微調(diào)。首先選定一張人臉位置合適,光照合適,正臉,無(wú)遮擋等質(zhì)量?jī)?yōu)的圖片作為基準(zhǔn)圖像,圖片質(zhì)量分?jǐn)?shù)標(biāo)注為1,其他人臉圖像通過(guò)人臉識(shí)別算法提取特征,計(jì)算圖像特征與基準(zhǔn)圖像特征的余弦相似度作為圖像質(zhì)量分?jǐn)?shù),再利用人臉檢測(cè)置信度對(duì)最終質(zhì)量分?jǐn)?shù)進(jìn)行微調(diào)。
圖6:模型在監(jiān)控場(chǎng)景中的應(yīng)用效果
余弦相似度通過(guò)計(jì)算兩個(gè)向量的夾角的余弦值來(lái)度量它們之間的相似性。向量A,B 的余弦相似度similarity 的計(jì)算公式為:
similarity 取值為-1 到1:-1 意味著兩個(gè)向量指向的方向正好截然相反,1 表示它們的指向是完全相同的,0 通常表示它們之間是獨(dú)立的,而在這之間的值則表示中間的相似性或相異性。
其中confidence 是人臉目標(biāo)檢測(cè)的置信度。
樣本質(zhì)量分?jǐn)?shù)標(biāo)注流程如圖2 所示。
本文使用Color FERET 和CAS_PEAL_R1 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。Color FERET 數(shù)據(jù)集是由美國(guó)Feret 項(xiàng)目組收集的人臉數(shù)據(jù)庫(kù),包含994 個(gè)類別共11338 張圖像,其中每個(gè)類別中的fa 子集是統(tǒng)一光照的正臉圖像,fb 子集是與fa 表情不同的統(tǒng)一光照正臉圖像,其它為包含15,22.5,45,67.5 頭部姿態(tài)水平旋轉(zhuǎn)的人臉圖像。CAS_PEAL_R1 是由中科院技術(shù)研究所收集的人臉數(shù)據(jù)庫(kù),包含姿態(tài)變化,飾物變化,光照變化,背景變化,距離變化,時(shí)間跨度變化等7 種變化模式子庫(kù)。
表1:模型在數(shù)據(jù)集合上的表現(xiàn)
表2:測(cè)試集上模型標(biāo)注結(jié)果和推理結(jié)果對(duì)比
基準(zhǔn)圖片的選擇是訓(xùn)練樣本標(biāo)注的關(guān)鍵,Color FERET 數(shù)據(jù)集中fa 為正常表情,正常光照的人臉圖像,但部分目標(biāo)fa 子集包含多張圖片,為了更好的選擇基準(zhǔn)圖片,我們對(duì)每張人臉圖像進(jìn)行人臉檢測(cè)得到人臉目標(biāo)置信度,選擇fa 子集中人臉目標(biāo)置信度最高的圖像作為該目標(biāo)的基準(zhǔn)圖像。如圖3 所示。
本文所述實(shí)驗(yàn)使用了基于Resnet 網(wǎng)絡(luò)的SSH 人臉檢測(cè)算法和基于Mobilefacenet 網(wǎng)絡(luò)的Arcface 深度特征提取算法。標(biāo)注結(jié)果樣例如圖4 所示。
人臉圖像質(zhì)量受多種因素的影響,但實(shí)驗(yàn)所用數(shù)據(jù)集包含的情況遠(yuǎn)遠(yuǎn)不足,需要對(duì)樣本進(jìn)行擴(kuò)充,以增加樣本的多樣性。擴(kuò)充方式包括:
(1)人臉檢測(cè)框水平和垂直方向偏移±2、±4、±8;
(2)圖像左右旋轉(zhuǎn)±10°、±20°、±30°;
(3)角度為45°的運(yùn)動(dòng)模糊;
(4)高斯模糊;
(5)人臉完整程度0.7、0.9、1.1 的裁剪。
在樣本擴(kuò)充中考慮到實(shí)際的監(jiān)控場(chǎng)景中,運(yùn)動(dòng)模糊是常見(jiàn)的一種影響因素[13],樣本中的圖像盡可能的貼近實(shí)際場(chǎng)景中可能出現(xiàn)的情況,能提高模型在實(shí)際應(yīng)用中的效果。如圖5 所示。
將數(shù)據(jù)集分為訓(xùn)練、驗(yàn)證、測(cè)試三個(gè)數(shù)據(jù)集,圖像歸一化到112*112 與模型的輸入一致。選用ShufflenetV2_0.5x,初始學(xué)習(xí)率設(shè)置為0.01,學(xué)習(xí)率更新策略為poly,power 設(shè)置為0.9,momentum 設(shè)置為0.9,迭代了30000 次,大約3 個(gè)epoch,模型達(dá)到收斂。
訓(xùn)練好的模型在劃分的測(cè)試集上進(jìn)行評(píng)測(cè),評(píng)測(cè)指標(biāo)選用LCC (線性相關(guān)系數(shù))和MSE(均方誤差),既評(píng)測(cè)標(biāo)注質(zhì)量分?jǐn)?shù)與預(yù)測(cè)質(zhì)量分?jǐn)?shù)兩者的相關(guān)性又度量?jī)烧叩慕^對(duì)差異。如表1 所示。
表2 列舉了測(cè)試集部分樣本標(biāo)注質(zhì)量分?jǐn)?shù)和預(yù)測(cè)質(zhì)量分?jǐn)?shù)的差異,通過(guò)對(duì)比可以看到兩者差異較小,模型很好的實(shí)現(xiàn)了質(zhì)量分?jǐn)?shù)的回歸。
模型在實(shí)際監(jiān)控場(chǎng)景中的效果圖如圖6 所示。
本文提出了一種基于輕量級(jí)網(wǎng)絡(luò)ShuffleNet 人臉圖像質(zhì)量評(píng)估方法。主要有兩點(diǎn):
(1)基于ShuffleNetV2 網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)質(zhì)量分?jǐn)?shù)回歸網(wǎng)絡(luò),對(duì)標(biāo)準(zhǔn)的ShuffleNetV2 網(wǎng)絡(luò)進(jìn)行了剪裁,并使用ShufflenetV2_0.5x,減少了網(wǎng)絡(luò)推理階段的資源消耗,使網(wǎng)絡(luò)能夠部署在智能前端采集設(shè)備中,數(shù)據(jù)在前端被過(guò)濾,節(jié)省了物聯(lián)網(wǎng)平臺(tái)的網(wǎng)絡(luò)和存儲(chǔ)資源;
(2)提出了一種基于人臉目標(biāo)檢測(cè)置信度與人臉特征提取算法相結(jié)合的人臉圖像質(zhì)量樣本標(biāo)注方法,減少了因人工標(biāo)注樣本帶來(lái)的巨大工作量,提高了標(biāo)注精度,這種標(biāo)注方法兼顧不同因素對(duì)人臉圖像的影響,評(píng)價(jià)結(jié)果更全面,更貼合人臉識(shí)別系統(tǒng)最終的需求。
實(shí)驗(yàn)證明,本文方法能夠針對(duì)不同因素引起的圖像質(zhì)量變化給予準(zhǔn)確的評(píng)估, 篩選出高質(zhì)量的人臉圖像。