謝斌紅,栗寧君,陳立潮,張英俊
(太原科技大學(xué)計算機(jī)與技術(shù)學(xué)院,太原 030024)
人員在崗狀態(tài)的智能化監(jiān)測和管理已經(jīng)成為許多服務(wù)型行業(yè)亟待解決的問題,而現(xiàn)階段的方法和手段還停留在人工監(jiān)督和傳統(tǒng)檢測算法階段,存在著檢測結(jié)果不夠客觀,檢測精度不高和實(shí)時性較差等問題。因此,有效解決上述問題成為人員在崗狀態(tài)智能化檢測的一個重要研究方向。
隨著深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域的不斷發(fā)展和應(yīng)用,基于深度學(xué)習(xí)的目標(biāo)檢測算法逐漸進(jìn)入大眾的視線。該類算法主要分為兩類:第一類是two-stage模型,首先預(yù)選出候選區(qū)域,再通過卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征。此類算法精度較高,發(fā)展成熟,但速度較慢,無法滿足實(shí)時性檢測要求。典型的特征提取網(wǎng)絡(luò)有AlexNet[1]、OverFeat[2]、GoogleNet[3]、VGG[4]和ResNet[5];2014年在ILSVRC上又提出了R-CNN[6]算法,之后在該算法基礎(chǔ)上,又提出了Fast R-CNN[7]、DeepID-Net[8]和Faster R-CNN[9]等基于two-stage 的R-CNN系列目標(biāo)檢測算法。第二類算法為one-stage模型,該類方法是基于回歸思想的端到端的模型算法,其網(wǎng)絡(luò)結(jié)構(gòu)簡單,實(shí)時性更強(qiáng)。2016年,Redmon等人相繼了提出了YOLO[10]和YOLOv2[11]網(wǎng)絡(luò)模型;2018年,在YOLOv2的基礎(chǔ)上Redmon等人又提出YOLO-v3[12]算法,該算法是時下在檢測的精度和訓(xùn)練的速度上最均衡的目標(biāo)檢測算法,并已應(yīng)用于各行業(yè)領(lǐng)域中[13-15]。
綜上所述,針對目前在崗人員狀態(tài)檢測方法存在人力資源浪費(fèi)、檢測環(huán)境復(fù)雜和檢測結(jié)果不客觀等問題,本文以YOLOv3為檢測模型的骨干網(wǎng)絡(luò),通過改進(jìn)其目標(biāo)定位與目標(biāo)置信度的損失函數(shù),并在其多尺度特征提取的基礎(chǔ)上增加不同尺度間的特征融合密度,得到新的算法ILF-YOLOv3來檢測人員在崗狀態(tài)。經(jīng)實(shí)驗驗證,該算法不僅有效緩解了隨深度加深而出現(xiàn)的梯度不穩(wěn)定情況,而且算法的檢測精度也得到了顯著提升。另外,本文將采集回的數(shù)據(jù)篩選并使用對抗網(wǎng)絡(luò)作定向增強(qiáng),模擬可能出現(xiàn)的復(fù)雜背景,設(shè)計出一套針對在崗人員狀態(tài)的樣本數(shù)據(jù)集StaffSData-Strong(Staff status Data-Strong).
YOLOv3模型的特征提取網(wǎng)絡(luò)主要由Conv和Res兩種模塊組成。其中,Conv模塊由卷積層Conv2d、批標(biāo)準(zhǔn)化BN(Batch Normalization)層和正則化LeakyReLU層組成,主要實(shí)現(xiàn)目標(biāo)圖像的特征提取。Res表示一個殘差模塊,主要功能是為了減小梯度爆炸的風(fēng)險,加強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。
YOLOv3模型的輸入是一副416×416的圖像;經(jīng)過特征提取網(wǎng)絡(luò)提取3種不同尺度的特征;生成大小為N的特征向量:
N=S×S×B×(C+score+tx+ty+th+tw)
(1)
其中,S表示特征尺度大小,B表示邊界框個數(shù),C表示目標(biāo)類別數(shù)量,score表示預(yù)測框置信度,(tx+ty+th+tw)表示邊界框的坐標(biāo)及尺寸,預(yù)測邊界框的轉(zhuǎn)換公式圖如圖1所示。
圖1 bounding box prior公式圖Fig.1 Formula of bounding box prior
將3種不同尺度的預(yù)測結(jié)果拼接;過濾掉score小于閾值的特征向量;然后通過掩碼和類別C篩選出目標(biāo)候選框并通過IOU(公式2)與非極大抑制操作,每類最多檢測出20個框;作為最終的預(yù)測向量;最后計算預(yù)測量與真實(shí)框的損失并反向傳播。
(2)
本文提出的ILF-YOLOv3(Improve Loss and Feature -YOLOv3)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 ILF-YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 ILF-YOLOv3 network structure
ILF-YOLOv3網(wǎng)絡(luò)以YOLOv3模型為骨干網(wǎng)絡(luò),并在基礎(chǔ)上增加了特征融合的密度,改進(jìn)了反向傳播的損失函數(shù)和更新了數(shù)據(jù)集目標(biāo)分類,并且通過實(shí)驗確定了適合新?lián)p失函數(shù)的最佳IOU閾值。
在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,由于梯度下降法的特性,隨著網(wǎng)絡(luò)層數(shù)的不斷加深,梯度不穩(wěn)的現(xiàn)象會更加明顯,這將會導(dǎo)致梯度的彌散或爆炸,從而影響網(wǎng)絡(luò)模型的收斂速度和檢測精度。通過對損失函數(shù)的分析,該類問題同樣存在YOLOv3算法中。
YOLOv3的損失函數(shù)由以下3部分組成:
1)目標(biāo)置信度損失函數(shù)
(3)
2)目標(biāo)分類損失函數(shù)
Lcla=
(4)
3)目標(biāo)定位的兩個損失函數(shù)
Lloc=
(5)
(6)
(7)
(8)
(9)
圖3 sigmoid函數(shù)及導(dǎo)函數(shù)圖像Fig.3 Sigmoid function and derivative function
2.2.1 目標(biāo)定位損失函數(shù)的改進(jìn)
通過2.1對目標(biāo)定位損失函數(shù)的分析,原平方損失函數(shù)容易出現(xiàn)梯度彌散現(xiàn)象,所以本文使用了交叉熵?fù)p失函數(shù)來代替原損失函數(shù)。
LI-locx=
(10)
圖時的函數(shù)圖像Fig.4 The graph of the function when
圖時的函數(shù)圖像Fig.5 The graph of the function when
(11)
綜上所述,交叉函數(shù)不但符合預(yù)測輸出值與實(shí)際樣本之間的差距越大,損失函數(shù)值越大的特性,并且還能有效避免梯度消失,加速模型的收斂速度。所以,將二分交叉熵函數(shù)作為ILF-YOLOv3算法的目標(biāo)定位損失函數(shù),具體如公式式12所示。
(12)
2.2.2 置信度損失函數(shù)的改進(jìn)
YOLOv3檢測算法是基于回歸思想的one-stage模型,該類模型由于前景背景類別不均衡導(dǎo)致與基于two-stage的檢測模型在檢測精度上存在一定差距[16]。且在人員在崗檢測中,給類型問題更加突出,即待檢測目標(biāo)的特征多以員工在崗狀態(tài)特征信息為基礎(chǔ),打手機(jī)、睡覺等狀態(tài)的特征都以人員在崗特征為背景,所以導(dǎo)致在崗狀態(tài)成為易檢測目標(biāo),而打手機(jī)、睡覺樣本的檢測變的困難。從而造成在檢測中經(jīng)常出現(xiàn)打手機(jī)、睡覺等異常狀態(tài)的漏檢的現(xiàn)象。
(13)
(14)
本文還通過調(diào)整無目標(biāo)預(yù)測函數(shù)項的權(quán)重系數(shù)λnoobj=0.5來降低無目標(biāo)部分損失計算的貢獻(xiàn)比重,使網(wǎng)絡(luò)更加側(cè)重有目標(biāo)物體出現(xiàn)的邊界框部分的損失計算。有效降低了one-stage模型中存在的大量背景對目標(biāo)檢測效果的影響。
最后,在2.2.1目標(biāo)定位損失函數(shù)改進(jìn)和調(diào)整IOU閾值的基礎(chǔ)上對自制數(shù)據(jù)集進(jìn)行實(shí)驗得到最佳的β值,當(dāng)β=0.5時達(dá)到最佳效果。在目標(biāo)損失函數(shù)改進(jìn)的基礎(chǔ)上召回率提高了5%,精確度提高了1.3%.如表1所示。
表1 不同IOU閾值與β值對比
基于對目標(biāo)分類損失和目標(biāo)定位損失改進(jìn)后,得到的ILF-YOLOv3模型的總損失函數(shù)如公式15所示。
(15)
YOLOv3網(wǎng)絡(luò)中的多尺度特征提取是通過對底層的特征上采樣后獲得,存在特征信息單一、不完整的問題。因此,本文通過采用卷積與反卷積操作來增加多尺度特征間的融合密度,保證提取特征信息包含更多的上下文特征信息。改進(jìn)后的多尺度特征提取網(wǎng)絡(luò)的結(jié)構(gòu)如圖6所示。
圖6 改進(jìn)后的多尺度檢測網(wǎng)絡(luò)Fig.6 The improved multi-scale detection network
圖6中,實(shí)線表示原多尺度檢測網(wǎng)絡(luò)的結(jié)構(gòu)聯(lián)接,虛線表示本文添加的多尺度間融合。
如圖7所示,該模塊為本文提出的用來融合不同尺度間特征的卷積操作。該模塊包含3項卷積操作:
圖7 不同尺度特征間融合的卷積操作Fig.7 Convolution operation of fusion among features of different scales
2)通過設(shè)定Stride參數(shù),利用反卷積技術(shù)來實(shí)現(xiàn)特征圖像的上采樣。尺度1313到2626和尺度2626到5252設(shè)定Stride參數(shù)為2,利用22的卷積核反卷積來實(shí)現(xiàn)上采樣;尺度1313到5252,設(shè)定Stride參數(shù)為4,利用44的卷積核反卷積實(shí)現(xiàn)上采樣。
3)對拼接后獲得的新特征圖像進(jìn)行一系列Stride步長為1的卷積操作,減少拼接特征圖像融合后出現(xiàn)的混疊效應(yīng),同時也減少了不必要的特征偏移。該系列卷積操作中包括1個11的卷積模塊和1個33的卷積模塊。
通過改進(jìn)后的多尺度檢測模塊,最終提取的特征圖像將會融合更多層級的特征信息,相比原網(wǎng)絡(luò)模型包含了更加完整的特征信息,更值得信任。
通過實(shí)驗驗證,改進(jìn)后模型在睡崗和打手機(jī)狀態(tài)的檢測精度分別提高了2.9%和5.7%,平均精度提升了2.3%.如表2所示。
表2 增加多尺度目標(biāo)融合后的精度對比
本文的樣本數(shù)據(jù)是對員工在崗狀態(tài)監(jiān)控視頻加工處理后獲得。首先運(yùn)用圖像工具對采集的視頻生成7 800張有效的特征圖像,然后用labelImg工具標(biāo)注出所需目標(biāo)特征的區(qū)域,最后將標(biāo)注過后的圖像按6∶4比例生成對應(yīng)的訓(xùn)練集和交叉驗證集,其中交叉驗證集又根據(jù)3∶2劃分測試集和驗證集,最終構(gòu)建了StaffSData數(shù)據(jù)集,包含4 680張的訓(xùn)練集、1 872張的測試集和1 248張驗證集。
采用ILF-YOLOv3模型訓(xùn)練自制的樣本數(shù)據(jù)集,取得理想的效果,但在實(shí)際檢測場景出現(xiàn)了錯、漏檢的現(xiàn)象,通過分析發(fā)現(xiàn),特征圖像中的復(fù)雜環(huán)境的噪點(diǎn)(光照強(qiáng)度 、視頻角度等)對實(shí)際檢測結(jié)果影響較大,因此本文采用了DCGAN[17](Deep Convolutional GAN)來定向增強(qiáng)樣本數(shù)據(jù)集,最終得到針對在崗異常狀態(tài)檢測的樣本數(shù)據(jù)集StaffSData-Strong.數(shù)據(jù)集包含12 300張圖像,其中訓(xùn)練集7 376張、測試集2 959張,驗證集1 965張。
本文實(shí)驗的硬件環(huán)境配置如表3所示。
表3 實(shí)驗硬件配置表
本文分別對YOLOv3模型和改進(jìn)后的ILF-YOLOv3模型從mAP值和召回率上進(jìn)行實(shí)驗對比,總計迭代10 000epoch.
圖8表示對比兩次改進(jìn)損失函數(shù)模型與原YOLOv3模型的損失值變化曲線。(YOLOv3-L1表示改進(jìn)目標(biāo)定位損失函數(shù);YOLOv3-L2表示同時改進(jìn)目標(biāo)定位及置信度損失函數(shù);YOLOv3表示原損失函數(shù))。
圖8 損失函數(shù)對比曲線圖Fig.8 The comparison curves of loss functions
由圖8分析可知,改進(jìn)后的YOLOv3-L1模型相比原模型的損失值有更快的下降速度,且最終收斂效果明顯比原模型效果好;而改進(jìn)后的YOLOv3-L2由于均衡了易分類與難分類的樣本權(quán)重,導(dǎo)致收斂速度變慢,但是最終的收斂值較YOLOv3-L1又有提升。
圖9是ILF-YOLOv3在增強(qiáng)后數(shù)據(jù)集StaffSData-Strong上測試的mAP值曲線圖。
圖9 ILF-YOLOv3的mAP曲線圖Fig.9 The mAP graph of ILF-YOLOv3
為更好地驗證新模型和增強(qiáng)數(shù)據(jù)集在人員在崗檢測領(lǐng)域的性能,本文將新模型與多種不同的目標(biāo)檢測模型進(jìn)行對比實(shí)驗。其中新模型分別在數(shù)據(jù)集StaffSData和增強(qiáng)數(shù)據(jù)集StaffSData-Strong上進(jìn)行實(shí)驗,其余檢測模型在數(shù)據(jù)集StaffSData進(jìn)行實(shí)驗。
實(shí)驗結(jié)果如表4、表5所示。
表4 實(shí)驗結(jié)果對比
表5 各模型檢測速度對比
分析表4得,(1)改進(jìn)損失函數(shù)的IL-YOLOv3模型在未增強(qiáng)的數(shù)據(jù)集上測試比YOLOv3,在召回率提高了7%,精度提高了5.4%.(2)改進(jìn)損失函數(shù)和多尺度融合的ILF-YOLOv3在未增強(qiáng)的數(shù)據(jù)集上測試對比YOLOv3模型,召回率提高了9%,精度提高了7.7%.(3)ILF-YOLOv3在增強(qiáng)后的數(shù)據(jù)集上StaffSData-Strong測試比YOLOv3網(wǎng)絡(luò),召回率提高了14%,精度提高了7.9%.
綜合表4、表5可知,ILF-YOLOv3模型在增強(qiáng)后的數(shù)據(jù)集上與RetinaNet、Faster R-cnn在未增強(qiáng)數(shù)據(jù)集上的檢測精度相近的情況下,不僅檢測速度分別提高了68 ms和160 ms;召回率也分別提升了10%和12%.綜合來看,本文提出的ILF-YOLOv3模型不僅同時兼顧精度與速度,且對人員在崗檢測環(huán)境有較高的魯棒性,能滿足人員在崗狀態(tài)實(shí)時檢測的需求。
最終的檢測效果如圖10所示,其中包含人員的在崗、脫崗、睡覺、打手機(jī)的狀態(tài)檢測。
圖10 人員在崗狀態(tài)檢測效果展示(在崗、脫崗、睡崗、打手機(jī))Fig.10 Display of on-duty status detection effect(on-duty,off-duty,sleeping,cell phone)
本文基于對YOLOv3兩項損失函數(shù)和多尺度檢測模塊的改進(jìn),提出了一種對員工在崗狀態(tài)的實(shí)時檢測算法ILF-YOLOv3,并且采用深度卷積對抗網(wǎng)絡(luò)(DCGAN)對真實(shí)視頻數(shù)據(jù)集進(jìn)行處理,構(gòu)造了一套員工在崗狀態(tài)實(shí)時檢測的樣本數(shù)據(jù)集StaffSData-Strong.實(shí)驗結(jié)果表明,本文提出的ILF- YOLOv3模型在檢測速度與原YOLOv3模型檢測速度相近的條件下,mAP值提高了7.9%,召回率也達(dá)到了97%.已具備員工在崗狀態(tài)的實(shí)時檢測與監(jiān)督管理。
在之后的工作中,作者會繼續(xù)加強(qiáng)樣本數(shù)據(jù)集的多樣性,提取更多有效影響因子(客戶的行為狀態(tài)、表情等);對模型結(jié)構(gòu)作優(yōu)化,通過合理的壓縮參數(shù)量來進(jìn)一步提升檢測性能。