王俊秀,路旭鵬,郁曉慶
(1 太原工業(yè)學院 計算機工程系,太原 030008;2 中北大學 大數據學院,太原 030051)
口罩佩戴識別是人臉識別的延伸應用。人臉識別是模式識別范疇的主要研究問題,早在20 世紀90年代,就已作為獨立課題受到廣泛關注。人臉識別方法是多種方法的融合,其中,包括知識、模板匹配和統(tǒng)計學等。對于復雜條件下的人臉檢測問題,張志偉研究了可變光照條件下的人臉識別技術。蘇岑等人根據主成分分析算法系統(tǒng)設計了人臉表情的識別方法,識別率達到89.52%。人臉識別主要分為靜態(tài)人臉識別和動態(tài)人臉識別兩大類。近年來隨著深度學習的發(fā)展,將人臉識別與深度學習相結合成為一種趨勢。深度神經網絡中,最普遍的應用是卷積神經網絡(Convolutional Neural Network,CNN)。卷積神經網絡能夠直接將圖像的每個像素數據均作為輸入,而且通過使用包括局部感受野、參數共享、稀疏連接、以及下采樣的技術方法,充分挖掘輸入數據的特征并實現自主學習,同時證明也對圖像的所有其它形態(tài)的變換都有健壯性。卷積神經網絡在人臉識別的有關研究中,已經取得了非常好的識別效果。近年來,研究學界一直致力于提高卷積神經網絡在人臉識別應用中的準確度。為了進一步提高深度網絡在人臉識別上的準確率,Kim 等人采取了初始化權重、重構網絡結構等多種學習策略。李江等人也指出了在深度網絡模型的全連接層采用技術,來減少由于訓練樣本不足所產生的過擬合問題。Wen 等人使用構造與聯合的損失函數,來減少類內距離、并增大類間特征分散程度。Wang等人采用了Face R-CNN 框架進行人臉檢測。
目前,已經有學者研究人臉口罩佩戴檢測算法。肖俊杰基于YOLOv3 框架和YCrCb 橢圓膚色模型,實現了人臉是否佩戴口罩和口罩佩戴是否規(guī)范的檢測。鄧黃瀟基于RetinaNet 網絡和遷移學習方法,對人們是否佩戴口罩進行檢測。牛作東等人通過增加自注意力機制和改進RetinaFace 人臉識別算法,實現了人臉口罩檢測。目前,卷積神經網絡模型在進行人臉口罩佩戴識別時,因提取關鍵特征信息時聚焦性不夠,影響了識別的準確率。針對此問題,本文采用聚焦機制的兩渠道卷積神經網絡方法,對口罩佩戴情況進行識別,并在自建數據集上進行實驗分析。實驗表明,結果識別準確率已達到99.4%。
卷積神經網絡是深度學習神經網絡的一種,由輸入層、卷積層、池化層和激活函數構成,卷積網絡模型如圖1 所示。其特殊之處在于,卷積神經網絡同時擁有卷積層和池化層。卷積層和池化層作為特征向量提取器,解決了特征向量選擇的難題,并且能夠減少網絡模型的相關參數和復雜程度。這里,對卷積神經網絡各組成部分的功能原理可給出闡釋分述如下。
圖1 卷積神經網絡模型Fig.1 Convolutional neural network model
(1)卷積層。在神經網絡模型訓練過程中,網絡中的參數數量過多,是訓練困難的一個重要原因。卷積神經網絡通過隨機初始化權重、權值共享的形式,減少了網絡中的參數,增加了網絡的泛化功能。在網絡模型的訓練中,可以訓練成能夠檢測形狀和邊緣的濾波器。
(2)池化層。為減少模型中參數數量以及網絡模型的訓練時間,池化層將卷積層的輸出進行特征組合。池化層通過計算卷積層輸出的局部區(qū)域值,達到減少特征向量、防止過擬合和降低圖像表達維度的目的。
常用的池化層計算方法有:最大池化和平均池化。其中,最大池化矩陣是選定區(qū)域內的最大值,認為該值可以代表區(qū)域特征;平均池化則選取整個區(qū)域特征的平均值,作為該區(qū)域的特征。
(3)激活函數。卷積神經網絡中激活函數的主要作用,是使網絡模型可以逼近任意分類函數。例如,函數、函數和函數等,都是卷積神經網絡常用的激活函數。函數和函數的優(yōu)勢是能解決非線性問題,缺點是計算較為復雜,易出現梯度消失等問題。函數的優(yōu)點是梯度穩(wěn)定,計算相對節(jié)省時間。
為挖掘出不同形象的人物佩戴口罩的特征,本方法采用不同人物佩戴口罩的圖像作為模型的輸入,進行口罩佩戴的識別。選取合適的數據集,進行統(tǒng)一規(guī)格的預處理,使其大小符合卷積神經網絡模型的輸入。對每張圖像取眼部特征和口罩特征。具體模型如圖2 所示。由圖2 可知,各部分的研究設計可做剖析論述如下。
圖2 兩渠道卷積神經網絡模型Fig.2 Two-channel convolutional neural network model
(1)眼部區(qū)域特征提取。將去除無關背景的固定寬和高的區(qū)域,定義眼部所在的區(qū)域。其中,眼部區(qū)域所在范圍的比例因子見表1。表1 中,x、y表示眼睛左上角坐標,w、h表示眼睛的寬和高,w、h表示臉部區(qū)域的寬和高。
表1 眼部Region of Interest 比例因子Tab.1 Proportion factor of Region of Interest related to the eyes
(2)口罩區(qū)域特征提取。由于口罩區(qū)域范圍較大,口罩形狀較為規(guī)整,能夠提取更多有效信息。同樣,去除無關干擾背景后,用固定寬和高來獲取口罩所在區(qū)域。其中,口罩的比例因子見表2。表2 中,x、y是口罩的左上角坐標, w是口罩的寬度,h是口罩的高度。
表2 口罩Region of Interest 比例因子Tab.2 Proportion factor of Region of Interest related to the mask
(3)兩渠道決策層卷積神經網絡。卷積神經網絡在進行模型訓練時,特征向量被壓縮后會忽略部分圖像信息,造成部分關鍵信息的丟失。但若只對關鍵區(qū)域進行圖像數據特征提取,就有可能產生過擬合的問題,對特征信息提取不夠充分。為解決上述問題,本文采用不同焦點的圖像作為輸入,即聚焦眼部區(qū)域和聚焦口罩區(qū)域或嘴部區(qū)域。通過2 個渠道分別進行網絡模型的訓練,并對2 個網絡模型的識別結果進行融合,作為最后的識別結果。兩渠道融合方法屬于決策層融合,采用多數投票法作為最后判別結果。
多數投票法是指將多個模型識別結果作為最終模型的輸入,通過決策融合得到最終的識別結果。假設將個模型{,,…,c} 作為基學習器進行投票,具體表示形式如下:
實驗所用自建的數據集,訓練集、驗證集和測試集各總量分別是900、300、300,數據中口罩佩戴分布均衡。訓練集、驗證集和測試集口罩佩戴分布如圖3 所示。
圖3 實驗數據集分布情況Fig.3 Distribution of experimental data sets
采用灰度化及高斯濾波法消除圖像中無關的信息,保留有用信息,縮減無關信息的干擾。同時采用伽馬變換,減少光纖對輸入圖像的影響。預處理前后圖像對比如圖4 所示。
圖4 圖像預處理前、后對比Fig.4 Comparison of images before and after preprocessing
為消除無關信息對口罩佩戴的識別影響,對無效背景區(qū)域進行消除。采用級聯檢測技術,從原始圖像中獲取眼部數據和口罩部分數據,對得到的數據進行歸一化處理,并將訓練集輸入到網絡模型中。圖5 為原始圖像和獲取的眼部區(qū)域及口罩區(qū)域圖像的示例。
圖5 原始圖像以及獲取的眼部區(qū)域和口罩區(qū)域圖像Fig.5 Original images and the corresponding images of the eye area and mask area
在模型訓練過程中,分別將聚焦人眼圖像和聚焦口罩圖像輸入到卷積神經網絡模型中。同時采用隨機梯度下降的方法進行優(yōu)化處理,用均勻初始化,激活函數使用梯度穩(wěn)定的,并把學習率和學習率衰減分別設為le-4 和(le-4)/。采用2 個輸入,分別輸入到該卷積神經網絡模型中,訓練得到2 個模型,。模型評價指標是準確率(),記正確識別到戴口罩為,正確識別到沒戴口罩為,錯誤識別到戴口罩為,錯誤識別到沒戴口罩為,則計算公式可寫為:
表3、表4 分別是在訓練集上的測試結果。其中,模型對于口罩佩戴的識別準確率為71%,模型對于口罩佩戴的識別準確率為87%。采用聚焦口罩圖像作為輸入建立的模型,對于口罩佩戴的識別準確率,要高于。
表3 訓練集在c1 模型的結果Tab.3 Results of c1 model in the training set
表4 訓練集在c2 模型的結果Tab.4 Results of c2 model in the training set
根據模型,、即不同焦點訓練得到的卷積神經網絡模型,結合兩渠道神經網絡融合技術,對,在決策層采用“少數服從多數”的方法進行判別,得到最終用于識別口罩佩戴的兩渠道卷積神經網絡。其融合公式如下:
改進后的卷積神經網絡模型,對于口罩佩戴的識別準確率見表5,平均識別準確率為99.4%,識別環(huán)境為白天常規(guī)環(huán)境。其識別準確率優(yōu)于任意一種單輸入的卷積神經網絡模型,分類效果得到明顯提高。
表5 改進后卷積神經網絡模型識別準確率Tab.5 Recognition accuracy of improved convolutional neural network model
為檢驗基于兩渠道融合技術的深度卷積神經網絡模型對人臉佩戴口罩識別效果的抗干擾能力,實驗分別在白天環(huán)境、夜晚環(huán)境、常規(guī)無遮擋環(huán)境和佩戴復雜有遮擋環(huán)境中進行。表6 給出了模型在多種環(huán)境下的識別效果。實驗結果表明,本文提出的口罩識別模型在不同環(huán)境下,具有較高的識別準確率,能夠滿足防疫控制檢驗口罩佩戴情況的要求。
表6 改進后卷積神經網絡模型在不同環(huán)境下識別準確率Tab.6 Recognition accuracy of improved convolutional neural network model in different environments
疫情期間佩戴口罩,能有效預防病毒的傳播,保護好自己和身邊的人。本文提出的基于深度神經網絡的兩渠道模型,分別訓練不同焦點作為輸入的卷積神經網絡,進行特征提取,并用融合技術進行最后的識別判別,平均識別準確率達到了98.8%。在未來的工作中,將著重研究如下方向內容:
(1)盡可能多地收集樣本,包含不同發(fā)型、不同裝扮、不同外部環(huán)境的人群。
(2)由于靜態(tài)圖片作為輸入,容易出現誤判。
因此,在公共場所攝像頭的協(xié)助下,可以利用前、后幀之間的連續(xù)性,對輸入進行多次判別,提高識別準確率。