基于ILF-YOLOv3的人員在崗狀態(tài)檢測算法研究

2021-12-31 00:28謝斌紅栗寧君陳立潮張英俊

太原科技大學(xué)學(xué)報 2021年6期

謝斌紅，栗寧君，陳立潮，張英俊

(太原科技大學(xué)計算機(jī)與技術(shù)學(xué)院，太原 030024)

人員在崗狀態(tài)的智能化監(jiān)測和管理已經(jīng)成為許多服務(wù)型行業(yè)亟待解決的問題，而現(xiàn)階段的方法和手段還停留在人工監(jiān)督和傳統(tǒng)檢測算法階段，存在著檢測結(jié)果不夠客觀，檢測精度不高和實(shí)時性較差等問題。因此，有效解決上述問題成為人員在崗狀態(tài)智能化檢測的一個重要研究方向。

隨著深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域的不斷發(fā)展和應(yīng)用，基于深度學(xué)習(xí)的目標(biāo)檢測算法逐漸進(jìn)入大眾的視線。該類算法主要分為兩類：第一類是two-stage模型，首先預(yù)選出候選區(qū)域，再通過卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征。此類算法精度較高，發(fā)展成熟，但速度較慢，無法滿足實(shí)時性檢測要求。典型的特征提取網(wǎng)絡(luò)有AlexNet[1]、OverFeat[2]、GoogleNet[3]、VGG[4]和ResNet[5]；2014年在ILSVRC上又提出了R-CNN[6]算法，之后在該算法基礎(chǔ)上，又提出了Fast R-CNN[7]、DeepID-Net[8]和Faster R-CNN[9]等基于two-stage 的R-CNN系列目標(biāo)檢測算法。第二類算法為one-stage模型，該類方法是基于回歸思想的端到端的模型算法，其網(wǎng)絡(luò)結(jié)構(gòu)簡單，實(shí)時性更強(qiáng)。2016年，Redmon等人相繼了提出了YOLO[10]和YOLOv2[11]網(wǎng)絡(luò)模型；2018年，在YOLOv2的基礎(chǔ)上Redmon等人又提出YOLO-v3[12]算法，該算法是時下在檢測的精度和訓(xùn)練的速度上最均衡的目標(biāo)檢測算法，并已應(yīng)用于各行業(yè)領(lǐng)域中[13-15]。

綜上所述，針對目前在崗人員狀態(tài)檢測方法存在人力資源浪費(fèi)、檢測環(huán)境復(fù)雜和檢測結(jié)果不客觀等問題，本文以YOLOv3為檢測模型的骨干網(wǎng)絡(luò)，通過改進(jìn)其目標(biāo)定位與目標(biāo)置信度的損失函數(shù)，并在其多尺度特征提取的基礎(chǔ)上增加不同尺度間的特征融合密度，得到新的算法ILF-YOLOv3來檢測人員在崗狀態(tài)。經(jīng)實(shí)驗驗證，該算法不僅有效緩解了隨深度加深而出現(xiàn)的梯度不穩(wěn)定情況，而且算法的檢測精度也得到了顯著提升。另外，本文將采集回的數(shù)據(jù)篩選并使用對抗網(wǎng)絡(luò)作定向增強(qiáng)，模擬可能出現(xiàn)的復(fù)雜背景，設(shè)計出一套針對在崗人員狀態(tài)的樣本數(shù)據(jù)集StaffSData-Strong(Staff status Data-Strong).

1 YOLOv3網(wǎng)絡(luò)

YOLOv3模型的特征提取網(wǎng)絡(luò)主要由Conv和Res兩種模塊組成。其中，Conv模塊由卷積層Conv2d、批標(biāo)準(zhǔn)化BN(Batch Normalization)層和正則化LeakyReLU層組成，主要實(shí)現(xiàn)目標(biāo)圖像的特征提取。Res表示一個殘差模塊，主要功能是為了減小梯度爆炸的風(fēng)險，加強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。

YOLOv3模型的輸入是一副416×416的圖像；經(jīng)過特征提取網(wǎng)絡(luò)提取3種不同尺度的特征；生成大小為N的特征向量：

N=S×S×B×(C+score+tx+ty+th+tw)

(1)

其中，S表示特征尺度大小，B表示邊界框個數(shù)，C表示目標(biāo)類別數(shù)量，score表示預(yù)測框置信度，(tx+ty+th+tw)表示邊界框的坐標(biāo)及尺寸，預(yù)測邊界框的轉(zhuǎn)換公式圖如圖1所示。

圖1 bounding box prior公式圖Fig.1 Formula of bounding box prior

將3種不同尺度的預(yù)測結(jié)果拼接；過濾掉score小于閾值的特征向量；然后通過掩碼和類別C篩選出目標(biāo)候選框并通過IOU(公式2)與非極大抑制操作，每類最多檢測出20個框；作為最終的預(yù)測向量；最后計算預(yù)測量與真實(shí)框的損失并反向傳播。

(2)

2 ILF-YOLOv3網(wǎng)絡(luò)的研究

本文提出的ILF-YOLOv3(Improve Loss and Feature -YOLOv3)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 ILF-YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 ILF-YOLOv3 network structure

ILF-YOLOv3網(wǎng)絡(luò)以YOLOv3模型為骨干網(wǎng)絡(luò)，并在基礎(chǔ)上增加了特征融合的密度，改進(jìn)了反向傳播的損失函數(shù)和更新了數(shù)據(jù)集目標(biāo)分類，并且通過實(shí)驗確定了適合新?lián)p失函數(shù)的最佳IOU閾值。

2.1 YOLOv3損失函數(shù)的分析

在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中，由于梯度下降法的特性，隨著網(wǎng)絡(luò)層數(shù)的不斷加深，梯度不穩(wěn)的現(xiàn)象會更加明顯，這將會導(dǎo)致梯度的彌散或爆炸，從而影響網(wǎng)絡(luò)模型的收斂速度和檢測精度。通過對損失函數(shù)的分析，該類問題同樣存在YOLOv3算法中。

YOLOv3的損失函數(shù)由以下3部分組成：

1)目標(biāo)置信度損失函數(shù)

(3)

2)目標(biāo)分類損失函數(shù)

Lcla=

(4)

3)目標(biāo)定位的兩個損失函數(shù)

Lloc=

(5)

(6)

(7)

(8)

(9)

圖3 sigmoid函數(shù)及導(dǎo)函數(shù)圖像Fig.3 Sigmoid function and derivative function

2.2 ILF-YOLOv3損失函數(shù)的調(diào)整

2.2.1 目標(biāo)定位損失函數(shù)的改進(jìn)

通過2.1對目標(biāo)定位損失函數(shù)的分析，原平方損失函數(shù)容易出現(xiàn)梯度彌散現(xiàn)象，所以本文使用了交叉熵?fù)p失函數(shù)來代替原損失函數(shù)。

LI-locx=

(10)

圖時的函數(shù)圖像Fig.4 The graph of the function when

圖時的函數(shù)圖像Fig.5 The graph of the function when

(11)

綜上所述，交叉函數(shù)不但符合預(yù)測輸出值與實(shí)際樣本之間的差距越大，損失函數(shù)值越大的特性，并且還能有效避免梯度消失，加速模型的收斂速度。所以，將二分交叉熵函數(shù)作為ILF-YOLOv3算法的目標(biāo)定位損失函數(shù)，具體如公式式12所示。

(12)

2.2.2 置信度損失函數(shù)的改進(jìn)

YOLOv3檢測算法是基于回歸思想的one-stage模型，該類模型由于前景背景類別不均衡導(dǎo)致與基于two-stage的檢測模型在檢測精度上存在一定差距[16]。且在人員在崗檢測中，給類型問題更加突出，即待檢測目標(biāo)的特征多以員工在崗狀態(tài)特征信息為基礎(chǔ)，打手機(jī)、睡覺等狀態(tài)的特征都以人員在崗特征為背景，所以導(dǎo)致在崗狀態(tài)成為易檢測目標(biāo)，而打手機(jī)、睡覺樣本的檢測變的困難。從而造成在檢測中經(jīng)常出現(xiàn)打手機(jī)、睡覺等異常狀態(tài)的漏檢的現(xiàn)象。

(13)

(14)

本文還通過調(diào)整無目標(biāo)預(yù)測函數(shù)項的權(quán)重系數(shù)λnoobj=0.5來降低無目標(biāo)部分損失計算的貢獻(xiàn)比重，使網(wǎng)絡(luò)更加側(cè)重有目標(biāo)物體出現(xiàn)的邊界框部分的損失計算。有效降低了one-stage模型中存在的大量背景對目標(biāo)檢測效果的影響。

最后，在2.2.1目標(biāo)定位損失函數(shù)改進(jìn)和調(diào)整IOU閾值的基礎(chǔ)上對自制數(shù)據(jù)集進(jìn)行實(shí)驗得到最佳的β值，當(dāng)β=0.5時達(dá)到最佳效果。在目標(biāo)損失函數(shù)改進(jìn)的基礎(chǔ)上召回率提高了5%，精確度提高了1.3%.如表1所示。

表1 不同IOU閾值與β值對比

基于對目標(biāo)分類損失和目標(biāo)定位損失改進(jìn)后，得到的ILF-YOLOv3模型的總損失函數(shù)如公式15所示。

(15)

2.3 尺度特征模塊的改進(jìn)

YOLOv3網(wǎng)絡(luò)中的多尺度特征提取是通過對底層的特征上采樣后獲得，存在特征信息單一、不完整的問題。因此，本文通過采用卷積與反卷積操作來增加多尺度特征間的融合密度，保證提取特征信息包含更多的上下文特征信息。改進(jìn)后的多尺度特征提取網(wǎng)絡(luò)的結(jié)構(gòu)如圖6所示。

圖6 改進(jìn)后的多尺度檢測網(wǎng)絡(luò)Fig.6 The improved multi-scale detection network

圖6中，實(shí)線表示原多尺度檢測網(wǎng)絡(luò)的結(jié)構(gòu)聯(lián)接，虛線表示本文添加的多尺度間融合。

如圖7所示，該模塊為本文提出的用來融合不同尺度間特征的卷積操作。該模塊包含3項卷積操作：

圖7 不同尺度特征間融合的卷積操作Fig.7 Convolution operation of fusion among features of different scales

2)通過設(shè)定Stride參數(shù)，利用反卷積技術(shù)來實(shí)現(xiàn)特征圖像的上采樣。尺度1313到2626和尺度2626到5252設(shè)定Stride參數(shù)為2，利用22的卷積核反卷積來實(shí)現(xiàn)上采樣；尺度1313到5252，設(shè)定Stride參數(shù)為4，利用44的卷積核反卷積實(shí)現(xiàn)上采樣。

3)對拼接后獲得的新特征圖像進(jìn)行一系列Stride步長為1的卷積操作，減少拼接特征圖像融合后出現(xiàn)的混疊效應(yīng)，同時也減少了不必要的特征偏移。該系列卷積操作中包括1個11的卷積模塊和1個33的卷積模塊。

通過改進(jìn)后的多尺度檢測模塊，最終提取的特征圖像將會融合更多層級的特征信息，相比原網(wǎng)絡(luò)模型包含了更加完整的特征信息，更值得信任。

通過實(shí)驗驗證，改進(jìn)后模型在睡崗和打手機(jī)狀態(tài)的檢測精度分別提高了2.9%和5.7%，平均精度提升了2.3%.如表2所示。

表2 增加多尺度目標(biāo)融合后的精度對比

3 實(shí)驗結(jié)果與分析

3.1 StaffSData-Strong數(shù)據(jù)集的制作

本文的樣本數(shù)據(jù)是對員工在崗狀態(tài)監(jiān)控視頻加工處理后獲得。首先運(yùn)用圖像工具對采集的視頻生成7 800張有效的特征圖像，然后用labelImg工具標(biāo)注出所需目標(biāo)特征的區(qū)域，最后將標(biāo)注過后的圖像按6∶4比例生成對應(yīng)的訓(xùn)練集和交叉驗證集，其中交叉驗證集又根據(jù)3∶2劃分測試集和驗證集，最終構(gòu)建了StaffSData數(shù)據(jù)集，包含4 680張的訓(xùn)練集、1 872張的測試集和1 248張驗證集。

采用ILF-YOLOv3模型訓(xùn)練自制的樣本數(shù)據(jù)集，取得理想的效果，但在實(shí)際檢測場景出現(xiàn)了錯、漏檢的現(xiàn)象，通過分析發(fā)現(xiàn)，特征圖像中的復(fù)雜環(huán)境的噪點(diǎn)(光照強(qiáng)度、視頻角度等)對實(shí)際檢測結(jié)果影響較大，因此本文采用了DCGAN[17](Deep Convolutional GAN)來定向增強(qiáng)樣本數(shù)據(jù)集，最終得到針對在崗異常狀態(tài)檢測的樣本數(shù)據(jù)集StaffSData-Strong.數(shù)據(jù)集包含12 300張圖像，其中訓(xùn)練集7 376張、測試集2 959張，驗證集1 965張。

3.2 實(shí)驗結(jié)果

本文實(shí)驗的硬件環(huán)境配置如表3所示。

表3 實(shí)驗硬件配置表

本文分別對YOLOv3模型和改進(jìn)后的ILF-YOLOv3模型從mAP值和召回率上進(jìn)行實(shí)驗對比，總計迭代10 000epoch.

圖8表示對比兩次改進(jìn)損失函數(shù)模型與原YOLOv3模型的損失值變化曲線。(YOLOv3-L1表示改進(jìn)目標(biāo)定位損失函數(shù)；YOLOv3-L2表示同時改進(jìn)目標(biāo)定位及置信度損失函數(shù)；YOLOv3表示原損失函數(shù))。

圖8 損失函數(shù)對比曲線圖Fig.8 The comparison curves of loss functions

由圖8分析可知，改進(jìn)后的YOLOv3-L1模型相比原模型的損失值有更快的下降速度，且最終收斂效果明顯比原模型效果好；而改進(jìn)后的YOLOv3-L2由于均衡了易分類與難分類的樣本權(quán)重，導(dǎo)致收斂速度變慢，但是最終的收斂值較YOLOv3-L1又有提升。

圖9是ILF-YOLOv3在增強(qiáng)后數(shù)據(jù)集StaffSData-Strong上測試的mAP值曲線圖。

圖9 ILF-YOLOv3的mAP曲線圖Fig.9 The mAP graph of ILF-YOLOv3

為更好地驗證新模型和增強(qiáng)數(shù)據(jù)集在人員在崗檢測領(lǐng)域的性能，本文將新模型與多種不同的目標(biāo)檢測模型進(jìn)行對比實(shí)驗。其中新模型分別在數(shù)據(jù)集StaffSData和增強(qiáng)數(shù)據(jù)集StaffSData-Strong上進(jìn)行實(shí)驗，其余檢測模型在數(shù)據(jù)集StaffSData進(jìn)行實(shí)驗。

實(shí)驗結(jié)果如表4、表5所示。

表4 實(shí)驗結(jié)果對比

表5 各模型檢測速度對比

分析表4得，(1)改進(jìn)損失函數(shù)的IL-YOLOv3模型在未增強(qiáng)的數(shù)據(jù)集上測試比YOLOv3，在召回率提高了7%，精度提高了5.4%.(2)改進(jìn)損失函數(shù)和多尺度融合的ILF-YOLOv3在未增強(qiáng)的數(shù)據(jù)集上測試對比YOLOv3模型，召回率提高了9%，精度提高了7.7%.(3)ILF-YOLOv3在增強(qiáng)后的數(shù)據(jù)集上StaffSData-Strong測試比YOLOv3網(wǎng)絡(luò)，召回率提高了14%，精度提高了7.9%.

綜合表4、表5可知，ILF-YOLOv3模型在增強(qiáng)后的數(shù)據(jù)集上與RetinaNet、Faster R-cnn在未增強(qiáng)數(shù)據(jù)集上的檢測精度相近的情況下，不僅檢測速度分別提高了68 ms和160 ms；召回率也分別提升了10%和12%.綜合來看，本文提出的ILF-YOLOv3模型不僅同時兼顧精度與速度，且對人員在崗檢測環(huán)境有較高的魯棒性，能滿足人員在崗狀態(tài)實(shí)時檢測的需求。

最終的檢測效果如圖10所示，其中包含人員的在崗、脫崗、睡覺、打手機(jī)的狀態(tài)檢測。

圖10 人員在崗狀態(tài)檢測效果展示(在崗、脫崗、睡崗、打手機(jī))Fig.10 Display of on-duty status detection effect(on-duty，off-duty，sleeping，cell phone)

4 結(jié)束語

本文基于對YOLOv3兩項損失函數(shù)和多尺度檢測模塊的改進(jìn)，提出了一種對員工在崗狀態(tài)的實(shí)時檢測算法ILF-YOLOv3，并且采用深度卷積對抗網(wǎng)絡(luò)(DCGAN)對真實(shí)視頻數(shù)據(jù)集進(jìn)行處理，構(gòu)造了一套員工在崗狀態(tài)實(shí)時檢測的樣本數(shù)據(jù)集StaffSData-Strong.實(shí)驗結(jié)果表明，本文提出的ILF- YOLOv3模型在檢測速度與原YOLOv3模型檢測速度相近的條件下，mAP值提高了7.9%，召回率也達(dá)到了97%.已具備員工在崗狀態(tài)的實(shí)時檢測與監(jiān)督管理。

在之后的工作中，作者會繼續(xù)加強(qiáng)樣本數(shù)據(jù)集的多樣性，提取更多有效影響因子(客戶的行為狀態(tài)、表情等)；對模型結(jié)構(gòu)作優(yōu)化，通過合理的壓縮參數(shù)量來進(jìn)一步提升檢測性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡