叢帥,楊磊,華征豪,楊曉暉
(1.河北大學 工商學院,河北 保定 071000;2.河北大學 教務處,河北 保定 071002;3.河北大學 網絡空間安全與計算機學院,河北 保定 071000)
近年來,隨著國家對教育進行智能重構的不斷重視[1],人工智能在教育中擁有著巨大的研究空間和發(fā)展?jié)摿?其中,教室的使用和分配問題影響著教育場地資源規(guī)劃和建設等諸多方面.利用現有資源得到一個精準量化參考的方法,能夠在節(jié)約人力物力的情況下合理布局,高效地進行教育建設.教室的使用和分配通常需要對教室內的人員進行目標檢測,相比開放場合下的應用場景,教室內人員的目標檢測有環(huán)境變化小、人員位置固定時間長的優(yōu)勢,但是也存在著人-人、人-物遮擋,不同教室的光照量差異和由于各種物品存在而導致的教室背景復雜多變,干擾較多的問題.同時,由于不同教室和不同學校之間視頻捕獲設備存在的圖像壓縮損耗、噪點等問題,數據來源差異性較大,因此很難單獨采用基于運動的目標檢測方法對教室人員進行識別和統(tǒng)計.為了更好地進行教室人員目標檢測,本文在YOLO算法的基礎上進行了改進.
一般將目標檢測過程分為2個階段:目標分類和目標位置坐標確定.在深度學習流行并擁有硬件支撐之前,常用的目標檢測方法有如文獻[2]使用的方向梯度直方圖算法(histogram of oriented gradient,HOG)、文獻[3]使用的可變形組件模型(deformable part model,DPM)、文獻[4]使用的Haar算法等,其中HOG利用圖像的梯度數據反映目標邊緣,并通過梯度大小提取圖像的特征,此算法中的不同尺度參數、梯度方向等均會對目標檢測結果產生較大影響,抗干擾能力欠佳.DPM算法通過使用不同分辨率的濾波器進行特征提取,相比單一HOG效率有所提高,但其參數設計極為復雜且應對抖動、傾斜等穩(wěn)定性較差.Haar提出了積分圖的概念,并將圖像經過積分計算得到的結構劃分為不同種類的基本形態(tài)進行識別,但由于其對明暗的敏感性,對于非正面人臉的識別效果較差.
隨著深度學習算法的不斷發(fā)展,基于深度學習的行人檢測算法取得了極大的進展.該類算法主要可以分為有先驗框的兩階段方法和沒有先驗框的單階段方法.兩階段方法中經典的算法有:文獻[5]提出的Mask-RCNN算法和文獻[6]使用的Faster R-CNN算法等.單階段方法中最流行的則是由文獻[7]所提出的YOLO算法,其中,單階段算法由于其效率高、準確率高、便于訓練的特點而處于主流地位.為了克服單階段方法中不同尺度和不同難度樣本偏差的問題,文獻[8]在YOLO算法思想的基礎上提出了使用特征金字塔(feature pyramid network,FPN)的多尺度特征提取的改良方案.雖然經過多尺度圖像特征融合后該算法明顯提升了目標識別的準確率,但是其在處理帶有時間序列的數據時忽略了流式數據的時間連續(xù)性.于是,本文結合現有的圖像處理算法,利用對教室視頻捕捉設備能夠獲取到的流式數據進行時間序列的遷移,改進連續(xù)識別的算法規(guī)則,針對以監(jiān)控設備為主的邊緣端提出了基于目標檢測的高性能教室人員目標檢測算法.
本文提出的算法由生成對抗網絡(super resolution GAN,SRGAN)、YOLO、NMS和TSM組成,算法的框架圖如圖1所示.
圖1 基于目標檢測和TSM的教室人員檢測框架Fig.1 Diagram of classroom personnel detection algorithm based on object detection and TSM
設在i時刻輸入具有不同長寬的圖像A,經過目標檢測后得到人員位置數據.由圖1可知算法的流程如下:
首先,對輸入圖像A進行LetterBox放縮至模型使用的傳入圖像尺寸,獲得相應的放縮圖像A′.當圖像在放縮時長寬比不滿足要求時將空出部分進行純色填充以便于識別適配.
其次,使用SRGAN進行圖像清晰化處理得到高清圖像A″用于進行后續(xù)處理.
再次,利用改進后的YOLO模型進行多尺度特征提取和分類回歸,得到3種尺度下的檢測結果,合并為W.
然后,通過NMS方法對數據進行清洗,得到當前源人數Ci.
最終,通過TSM方法,使用之前的時間序列參考值得到修正人數CRi,并將其存儲于內存中,供下一幀使用.
下面對所提算法的各個部分進行詳細介紹.
由于在進行教室人員目標識別時,所采集的圖像往往會受到光照和燈光等因素的印象,尤其是晚上采集的視頻分辨率有所下降,因此本文采用文獻[9]提出的SRGAN算法對視頻數據進行超分辨重建.SRGAN通過GAN來從低分辨率的圖像(low resolution,LR)生成高分辨率的圖像(high resolution,HR),其總體效果如圖2所示.
a.模糊圖片;b.高清圖片;c.SRGAN結果圖2 SRGAN超分辨率效果Fig.2 Visualization of SRGAN
GAN由生成器(generator,G)和判別器(discriminator,D)2個部分組成.本文將訓練GAN網絡,從而獲得一個最優(yōu)的生成器用以生成高清圖像.由于神經網絡可抽象為通過輸入得到輸出的結構,可以將問題轉化為得到一個最優(yōu)的生成函數得以最好地使超分辨率結果接近真實情況,同時訓練過程中需要得到一個最優(yōu)的判別函數以最好地鑒別出生成的圖片質量.
(1)
在D部分,本文定義了鑒別器神經網絡DθD用以完成最大最小博弈過程,如式(2).
(2)
其中,ptrain為圖片數據的分布.神經網絡DθD為文獻[10]中給出的VGG網絡,其卷積核大小為3×3,使用全連接網絡和LeakyReLU激活函數得到樣本的真實概率.
基于卷積神經網絡的YOLO算法核心原理是將目標檢測的問題轉化為回歸和分類的問題.不同于滑動窗口和區(qū)域劃分類型的算法和模型,YOLO算法使用整張圖進行訓練和預測,因此能夠通過更大的視野更好地區(qū)分整體和局部,從而避免因為背景(如墻、桌椅等)帶來的影響,具有非常高的泛化性能.同時,其單階段特征提取和識別的結構相比RCNN等兩階段算法省去了第一階段生成預選框的操作,在效率上有大幅度地提升.模型的核心過程為:模型首先將圖像切分為S×S(不足使用純色填充)的正方形圖像,為每個小正方形預測B個預測框、置信度和C種分類可能性數值,最終得到S×S×(B*5+C)個張量數據[7].
YOLOv5是YOLO系列算法經過多次改進和迭代后的結果,本文在此基礎上添加了注意力塊,在目標識別上能夠較好地確定目標.本文改進后的YOLO模型結構如圖3所示.
圖3 改進YOLO網絡模型Fig.3 Model of improved YOLO
本文算法的骨干網絡采用的是Focus+BottleneckCSP卷積層,降低卷積維數,有效減少了重復的梯度學習,提升了YOLO網絡的學習能力和學習效果.同時為了兼顧復雜背景下識別的準確率和效率問題,本文選用的注意力機制為擠壓和激發(fā)網絡[11](squeeze and excitation network,SE),其結構如圖4所示.
圖4 SE網絡結構Fig.4 Architecture of SE
由圖4可知,SE網絡將輸入通過1次平均池化后進行全連接,然后經過ReLU函數進行激活后再次使用Sigmoid函數進行激活.
改進的YOLO算法多層次特征提取層部分使用特征金字塔網絡[8](feature pyramid network,FPN),生成特征金字塔,從而獲得高級語義特征圖,便于小目標檢測的同時保證大目標的檢測準度;同時使用路徑聚合網絡[12](path aggregation network,PAN)進行定位信息的補償避免特征和定位的模糊.該算法預測層(head)使用3個檢測器,利用基于網格的錨點在不同尺度的特征圖上進行目標檢測過程,最終獲取結果.YOLO模型中的激活函數使用帶有負值的線性激活函數以保留部分特征,其公式為
(3)
本文設置模型傳入圖像的大小為640×640,步長S為8.利用YOLO算法,能夠快速獲得目標檢測的結果.在模型的訓練過程中,本文標記有候選框的位置為正例,沒有候選框的位置為負例.由此定義預測中正例被預測為正例為TP,正例被預測為負例為FN,負例被預測為負例為TN,負例被預測為正例為FP.由此可以得到2個指標:精確度(Precision,P)和召回率(Recall,R),其計算公式如式(4)和式(5).
(4)
(5)
對教室人員的計數由于其識別類型單一、基于時間而變化的特點和人員變動行為相對于捕獲設備緩慢的特點,當因人員進出而出現運動目標時算法的檢測人數會圍繞真實值上下波動,然而在人員運動開始前和結束后均能得出準確值.由此可見,能夠通過一定區(qū)間內的時間序列進行合并遷移從而得出精確的目標檢測值.
本文基于遷移時間序列概念提出一種TSM算法,通過計算一定時間區(qū)間內的統(tǒng)計平均值忽略不必要的上下文信息,做到不消耗額外時間,并且能夠有效進一步改善遮擋、運動情況下帶來的統(tǒng)計精度不高的情況.TSM算法其計算公式最終的遞推公式如式(6),賦值公式為在計算出RCi后的公式(7).
(6)
Ci=RCi,
(7)
其中,RCi為i時刻經過TSM方法計算得出的修正值,Ck(k1.4 NMS算法
采用改進的YOLO算法對采集到的視頻流進行逐幀識別檢測,由于模型可接受的圖像尺寸常常與實際輸入圖像不同,且傳統(tǒng)放縮將會造成圖像畸變,本文采用如文獻[13]提出的LetterBox放縮.計算總體縮放比例r和長寬各自縮放比例的公式如下:
(8)
非極大抑制[14](non maximum suppression,NMS)是常用的過濾無效值的方法,其使用基于交并比(intersection over union,IoU)閾值進行判斷并去除低于閾值的候選項,IoU公式如式(9),其值為A、B交集的空間大小與A、B并集的空間大小之比.
(9)
本實驗在操作系統(tǒng)為Windows11的工作站上運行,其核心配置為Intel Core i7-10700 * 1, Nvidia RTX 2080Ti * 1以及32G的DDR4運行內存.深度學習框架為Python3.7.8和Pytorch1.7.訓練周期設置為70,批量訓練大小為32,超分辨率部分的輸出圖像大小設置為640×640,目標檢測部分設置檢測輸入大小設置為640×640,測試過程中置信度閾值設置為60%,IoU閾值設置為10%.
實驗所用的數據來自公開數據集Brainwash.實驗數據來自Brainwash數據集,拍攝內容為標注完成的咖啡館中出現的人群.該數據集包含3個部分,訓練集共10 769張圖像81 975個人頭;驗證集為500張圖像3 318個人頭;測試集共500張圖像5 007個人頭.
為了有效地評估該算法在不同質量數據源中識別的性能,客觀評價指標采用5種不同的方法,如交并比(intersection over union,IoU)、精確度(Precision,P)、召回率(Recall,R)、平均準確率(mean Average Precision,mAP)、F1指標,并通過可視化對比展示結果的差異性.這5種指標中,精確度、召回率、平均準確率和F1指標越高且交并比越低表明頭部目標識別的效果越好,識別結果的數量和位置越準確,識別模型越穩(wěn)定.
本文同時對訓練時的上述參數進行計算以比較不同模型間的收斂速度和識別性能偏差.其中,mAP的計算公式如式(10),F1指標計算公式如式(11).
(10)
(11)
其中,Pinter為P-R構成的曲線通過計算每個R值對應的P值.mAP用于計算在不同IoU置信度區(qū)間下模型的準確率特性,F1指標由調和級數導出,用于計算模型的穩(wěn)定程度.兩者越大說明算法的性能越好.
首先對超分辨率部分進行采樣前后清晰度比較測試,圖5a-b為經典的人像識別數據集BrainWash中選取的人群密集和稀疏時的典型圖像.所得超清圖像見圖5c-d,吊燈、人物部分能夠發(fā)現本文的算法能夠更清晰地表現圖像,更符合人眼特性,進一步提升目標檢測輸入質量.具體細節(jié)舉例見圖5e-h.
圖5 Brainwash原始圖像和超清處理比較Fig.5 Comparison of super resolution method and Brainwash original image
然后對超清前后圖像傳入本文的YOLO模型進行比較.圖6a-b為原始密集和稀疏人群圖像識別結果,圖6c-d為超清后密集和稀疏人群圖像識別結果.
圖6 Brainwash原始圖像和超清識別結果比較Fig.6 Comparison of detection results of super resolution method and Brainwash original image
從實驗結果中可以發(fā)現,融合結果中人員頭部位置均定位準確,而在目標置信度上超清處理后的圖像普遍高于原始圖像.
通過訓練文獻[7]提出的YOLO算法、文獻[15]提出的RetinaNet算法、文獻[16]提出的SSD算法,并和本文方法進行比較,原始圖像和識別結果依次對應圖7a-e,圖片選用Brainwash數據集中不同于圖6中的另一圖片.
圖7 Brainwash圖像和各算法識別的識別效果Fig.7 Detection effects of each method and Brainwash original image
在實驗結果中可以發(fā)現,各種算法經過相同數據集訓練后識別效果類似,能夠發(fā)現本文的算法在平均置信度上結果更佳,并且在定位框位置上更精準,克服了置信度偏差較大導致的潛在漏檢或錯檢,對于處于移動狀態(tài)的人員目標檢測也能夠取得較高準確率.
同樣,表1給出了各種目標檢測算法的客觀評價指標.由表1可知,本算法具有良好的客觀評價標準.這也說明本算法不僅能夠發(fā)掘源圖像中潛在的目標細節(jié)信息,很好地避免環(huán)境光、復雜背景等的干擾,并且對于不同復雜程度和人員的圖像識別具有魯棒性.
表1 圖7中各個算法效果基于Brainwash數據集的客觀評價指標
最后在連續(xù)的視頻數據流應用場景中,為了比較TSM算法對于誤差的有效修正,以及相比于文獻[17]提出的Deep-sort算法的優(yōu)越性,本文通過錄制教室人員從5人減少到1人時的視頻數據,并通過使用不同方法進行修正和不進行修正的結果分析和比較.由表2中實驗結果統(tǒng)計數據可見,由于TSM算法不額外增加時間復雜度的特性,相比于基于圖像本身內容的Deep-sort算法能夠更有效率且準確率相近.因此TSM算法能夠在更短時間內得到較為準確的值,在教室環(huán)境下是一種比較好的高效修正算法.
表2 修正算法的客觀評價指標
綜合上述實驗可見,本文所述教室人員目標檢測方法各部分在實驗中都具有最好的綜合客觀評價標準,所以綜合看來本文所提出的目標檢測規(guī)則是一種較好且值得推廣的應用于教室人員識別檢測中的方法.
提出了一種基于目標檢測和遷移時間序列的教室環(huán)境下人員檢測方法.該方法有效地利用了超分辨率技術對于圖像細節(jié)的補充以及單階段方法對于特征提取和分類回歸的高效性.同時,通過加入注意力機制網絡增加了原目標檢測模型的準確度,又基于教室簡單環(huán)境和人員行為的特點提出TSM方法,進而彌補了由于人員移動和模糊、重疊導致的識別不準確問題,使得檢測能力進一步增強,優(yōu)于文中單獨使用的目標檢測和效率相對較低的Deep-sort算法.綜合上述實驗表明,該方法具有更好的精準性和高效性,在教室環(huán)境下進行人員目標檢測更優(yōu)于目前比較流行的目標檢測算法.