国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多路特征融合的Faster R-CNN與遷移學(xué)習(xí)的學(xué)生課堂行為檢測(cè)

2020-10-13 01:25:50高海力王永眾楊來(lái)邦項(xiàng)曉航樓雄偉
關(guān)鍵詞:卷積特征融合

白 捷,高海力,王永眾,楊來(lái)邦,項(xiàng)曉航,樓雄偉,5*

(1.浙江農(nóng)林大學(xué) 信息工程學(xué)院,浙江 杭州 311300;2.浙江省林業(yè)智能監(jiān)測(cè)與信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 311300;3.浙江省林業(yè)局,浙江 杭州 311300;4.杭州感知科技有限公司,浙江 杭州 311300;5.林業(yè)感知技術(shù)與智能裝備國(guó)家林業(yè)和草原局重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 311300)

近年來(lái),普通高校學(xué)生上課的主動(dòng)接受能力呈下降趨勢(shì),學(xué)生的學(xué)習(xí)積極性低,在課堂中聊天、睡覺(jué)、玩手機(jī)等情況普遍存在。如何科學(xué)地提升學(xué)生上課狀態(tài),對(duì)學(xué)校全面提高教學(xué)質(zhì)量具有重要的意義[1]。

傳統(tǒng)的課堂行為分析主要以人工觀察監(jiān)控視頻為主[2],主流方法包括S-T教學(xué)分析[3]、弗蘭德斯互動(dòng)分析系統(tǒng)[4]等。由于監(jiān)控視頻數(shù)量龐大,通過(guò)人工方式進(jìn)行處理,易出現(xiàn)疲勞、效率較低等問(wèn)題,同時(shí)耗費(fèi)大量的人力成本。隨著人工智能的發(fā)展,利用機(jī)器學(xué)習(xí)和圖像視頻處理等對(duì)監(jiān)控視頻智能化識(shí)別與分析,能夠較好地減少傳統(tǒng)課堂行為分析對(duì)人力的依賴性[5]。

在機(jī)器學(xué)習(xí)領(lǐng)域中,學(xué)生課堂行為檢測(cè)的研究主要利用人體骨架向量、流光特征、全局運(yùn)動(dòng)方向特征等方法進(jìn)行特征提取,并結(jié)合樸素貝葉斯或支持向量機(jī)等分類器進(jìn)行人體行為識(shí)別[6]。例如:張鴻宇等[7]通過(guò)選用人體骨骼向量,采用SVM分類器對(duì)姿態(tài)向量特征進(jìn)行分類,有效地識(shí)別出多個(gè)學(xué)習(xí)者的舉手、正坐和低頭等課堂行為;黨冬利[8]通過(guò)提取運(yùn)動(dòng)歷史圖的Zernike矩特征[9]、流光特征及全局運(yùn)動(dòng)方向等特征,利用樸素貝葉斯分類器對(duì)在背景復(fù)雜的教室環(huán)境下的學(xué)生舉手、站立和坐下3種動(dòng)作進(jìn)行了有效識(shí)別。傳統(tǒng)的目標(biāo)檢測(cè)常用手工提取局部特征方式表示,局部特征[10]相比全局特征[11]對(duì)遮擋、扭曲、噪音等不敏感方面具有優(yōu)勢(shì)。如:尺度不變特征變換(scale-invariant feature transform,SIFT)算子[12]利用構(gòu)建高斯差分金字塔,找出關(guān)鍵點(diǎn)定位,構(gòu)建關(guān)鍵點(diǎn)描述等過(guò)程獲取局部特征,提取出的特征具有一定的平移縮放穩(wěn)定性和抗干擾性等優(yōu)點(diǎn);方向梯度直方圖[13]能夠較好地提取圖像邊緣信息。然而這些傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要依賴大量的人工提取特征并且準(zhǔn)確率較低。

相比于傳統(tǒng)方法,深度學(xué)習(xí)能夠從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征數(shù)據(jù),克服了人工提取特征的局限性,以VGGNet[14]、GoogLeNet[15]、ResNet[16]等為代表的卷積網(wǎng)絡(luò)模型在分類方面都取得較好的識(shí)別效果。另外,在目標(biāo)檢測(cè)領(lǐng)域還將特征提取過(guò)程和分類器統(tǒng)一在一個(gè)框架中,能夠快速適應(yīng)不同的分析任務(wù)[17]。近年來(lái),深度學(xué)習(xí)也被應(yīng)用于行為識(shí)別,如廖鵬等[18]利用背景差分法提取目標(biāo)區(qū)域,通過(guò)VGG網(wǎng)絡(luò)模型提取特征,實(shí)現(xiàn)了對(duì)正常上課、睡覺(jué)、玩手機(jī)3種課堂行為的檢測(cè)??梢娚疃葘W(xué)習(xí)應(yīng)用于課堂行為檢測(cè)具有一定的理論可行性。

目標(biāo)檢測(cè)是圖像處理研究的核心之一,利用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法來(lái)實(shí)現(xiàn)對(duì)學(xué)生課堂表現(xiàn)的行為檢測(cè),對(duì)提高教學(xué)質(zhì)量具有重要的意義。針對(duì)目標(biāo)檢測(cè)的研究,基于深度學(xué)習(xí)的方法正在不斷的普及。如今,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)框架主要分為兩大類[19]:一類是以YOLO(you only look once)[20]和SSD(single shot multibox detector)[21]為代表的一階段方法的目標(biāo)識(shí)別算法,這些檢測(cè)系統(tǒng)同時(shí)計(jì)算類別概率和位置信息;另一類是以Faster R-CNN系列[22-26]為代表的兩階段方法,通過(guò)區(qū)域建議網(wǎng)絡(luò)RPN生成候選區(qū)域再精細(xì)計(jì)算類別概率,檢測(cè)的準(zhǔn)確率也更高。因此,本文選擇Faster R-CNN進(jìn)行課堂行為檢測(cè)研究。

考慮到訓(xùn)練深度網(wǎng)絡(luò)需要大量樣本集的支持,而本文建立的學(xué)生課堂行為數(shù)據(jù)集較小,易導(dǎo)致模型準(zhǔn)確率低、泛化能力差等問(wèn)題,因此,本文基于遷移學(xué)習(xí)的思想,選用在ImageNet訓(xùn)練好的Inception-ResNet-v2-Faster R-CNN作為預(yù)訓(xùn)練模型,將模型參數(shù)遷移[27]到課堂檢測(cè)模型中,調(diào)整最后的輸出通道數(shù),以期實(shí)現(xiàn)對(duì)學(xué)生常見課堂行為即正常學(xué)習(xí)、睡覺(jué)、低頭(低頭、玩手機(jī)等)的檢測(cè)。

為了進(jìn)一步提升檢測(cè)的準(zhǔn)確率,以接近實(shí)際應(yīng)用,考慮到主干網(wǎng)絡(luò)Inception-ResNet-v2[28]模型的深層網(wǎng)絡(luò)的特征圖,經(jīng)多次的特征提取后,在細(xì)節(jié)信息上有所丟失,而低層網(wǎng)絡(luò)特征圖的視覺(jué)信息明顯,因此,本文在主干網(wǎng)絡(luò)Inception-ResNet-v2模型基礎(chǔ)上,增加了連接淺層網(wǎng)絡(luò)到深層網(wǎng)絡(luò)的通路,以增強(qiáng)特征信息,以期達(dá)到提高目標(biāo)檢測(cè)效果的目的。

1 Faster R-CNN與遷移學(xué)習(xí)模型構(gòu)建

1.1 Faster R-CNN模型

Faster R-CNN算法總體結(jié)構(gòu)如圖1所示,其總體主要結(jié)構(gòu)大致分為3個(gè)部分:用于提取特征數(shù)據(jù)的卷積網(wǎng)絡(luò)部分、生成候選框的區(qū)域建議網(wǎng)絡(luò)(RPN)部分和檢測(cè)子網(wǎng)絡(luò)部分。

圖1 Faster R-CNN總體結(jié)構(gòu)Fig.1 Overall structure of Faster R-CNN

待檢測(cè)課堂圖片經(jīng)由卷積網(wǎng)絡(luò)層提取卷積特征圖,在卷積網(wǎng)絡(luò)的最后一個(gè)卷積層獲取特征圖,分別用于輸入到后面的RPN網(wǎng)絡(luò)和檢測(cè)子網(wǎng)絡(luò),以適應(yīng)不同輸入尺寸。本文的基礎(chǔ)主干網(wǎng)絡(luò)選擇Inception-ResNet-v2模型,該模型引入了Inception模型結(jié)構(gòu),可使同一層特征圖能夠使用多個(gè)尺寸不同的卷積核,以獲得不同尺度的特征,使得網(wǎng)絡(luò)的寬度能夠提高。同時(shí)引入了正則化和ResNet模型的殘差網(wǎng)絡(luò)結(jié)構(gòu),有利于減緩網(wǎng)絡(luò)性能退化和梯度消散問(wèn)題,使得網(wǎng)絡(luò)的層數(shù)可以加深。

提取候選區(qū)域的任務(wù)通過(guò)RPN實(shí)現(xiàn),核心思想在于使用卷積神經(jīng)網(wǎng)絡(luò)CNN產(chǎn)生區(qū)域建議框,通過(guò)使用9個(gè)不同尺度比例的anchor boxes在卷積層上滑動(dòng),而這9個(gè)anchor boxes和邊框回歸可以得到多尺度比例的候選區(qū)域,然后將候選框輸入Faster R-CNN中做更精細(xì)的分類和位置修正。

為了訓(xùn)練RPN,對(duì)每個(gè)錨點(diǎn)anchor進(jìn)行二分類,分為對(duì)象類和非對(duì)象類。其損失函數(shù)由分類誤差和回歸模型產(chǎn)生的誤差組成,其中分類誤差和回歸模型比重為1∶2。其定義為

(1)

tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log (w/wa),th=log(h/ha),

(2)

式中:變量x、y、w、h表示預(yù)測(cè)框的中心坐標(biāo)及其寬度和高度;下標(biāo)為a的xa、ya、wa、ha表示錨框的中心坐標(biāo)及其寬度和高度;上標(biāo)為*的x*、y*、w*、h*表示真實(shí)坐標(biāo)框的中心坐標(biāo)及其寬度和高度。smoothL1函數(shù)為:

(3)

區(qū)域建議網(wǎng)絡(luò)RPN生成300個(gè)區(qū)域建議框,每個(gè)建議框帶有該框是對(duì)象的概率信息,經(jīng)卷積網(wǎng)絡(luò)得到的最末卷積層的特征圖,使用3×3的卷積核卷積特征,得到256維特征向量,將256維特征向量分別經(jīng)由1×1的卷積核進(jìn)行降維后送入Softmax和回歸器,生成k組建議框的偏移量和k組表示物體的概率。本文anchor個(gè)數(shù)k=9,其尺度大小分別為1282、2562、5122,取3個(gè)尺度長(zhǎng)寬比為1∶1、1∶2、2∶1。每個(gè)像素點(diǎn)共9個(gè)尺度不同的候選框。

檢測(cè)子網(wǎng)絡(luò)部分包括興趣區(qū)域池化(region of interest pooling,ROI pooling)層和全連接層。待檢測(cè)的課堂圖片經(jīng)卷積網(wǎng)絡(luò)提取特征圖后,再經(jīng)RPN網(wǎng)絡(luò)生成候選框,按比例在該特征圖中找到對(duì)應(yīng)區(qū)域,利用ROI最大池化將不同尺寸的特征映射到固定長(zhǎng)度的向量。將ROI池化后的輸出結(jié)果,分別輸入到用于全連接網(wǎng)絡(luò)組成的回歸層和分類層?;貧w層對(duì)RPN區(qū)域建議框中的目標(biāo)位置進(jìn)行回歸和分類層通過(guò)Softmax分類,最后由非極大值抑制輸出檢測(cè)結(jié)果。

1.2 遷移學(xué)習(xí)模型

遷移學(xué)習(xí)可定義為:給定一源域DS和學(xué)習(xí)任務(wù)TS,一個(gè)目標(biāo)域DT和學(xué)習(xí)任務(wù)TT,則目的是使用DS和TS中的知識(shí)幫助提高DT中的目標(biāo)預(yù)測(cè)函數(shù)fT(x)的學(xué)習(xí),其中DS≠DT或TS≠TT[29]。針對(duì)樣本數(shù)據(jù)不足的情況,利用經(jīng)預(yù)訓(xùn)練的成熟神經(jīng)網(wǎng)絡(luò)模型進(jìn)行遷移,通過(guò)共享卷積池化層的權(quán)值參數(shù),對(duì)僅采集了少量數(shù)據(jù)的問(wèn)題進(jìn)行求解。這不僅有利于減少對(duì)數(shù)據(jù)樣本數(shù)量的要求,而且縮短了訓(xùn)練所需的時(shí)間。本文采用的遷移學(xué)習(xí)模型結(jié)構(gòu)如圖2所示。

圖2 Inception-ResNet-v2-Faster R-CNN遷移學(xué)習(xí)模型結(jié)構(gòu)Fig.2 Inception-ResNet-v2-Faster R-CNN transfer learning model structure

本文學(xué)生課堂行為檢測(cè)模型的構(gòu)建思路為:首先,選用在ImageNet預(yù)訓(xùn)練的Inception-ResNet-v2-Faster R-CNN模型,將參數(shù)遷移到本文的課堂行為檢測(cè)模型中;然后,調(diào)整最后一層全連接層的輸出通道數(shù)為本文數(shù)據(jù)集的類別數(shù),即類別數(shù)為3;最后,在本文建立的數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí),并利用測(cè)試集測(cè)試訓(xùn)練后的結(jié)果。

2 特征融合的卷積網(wǎng)絡(luò)

在目標(biāo)檢測(cè)算法Faster R-CNN中,卷積網(wǎng)絡(luò)一般使用VGG16或ZF網(wǎng)絡(luò)進(jìn)行特征提取。為了更好地提取特征數(shù)據(jù),本文采用網(wǎng)絡(luò)層數(shù)更多的Inception-ResNet-v2模型作為骨干卷積網(wǎng)絡(luò)模型。在深度卷積網(wǎng)絡(luò)提取深層特征圖過(guò)程中,距離網(wǎng)絡(luò)輸入部分越近的網(wǎng)絡(luò)層,其提取到的特征圖分辨率越大,目標(biāo)位置準(zhǔn)確;距離網(wǎng)絡(luò)輸出部分越近的網(wǎng)絡(luò)層,其特征圖的分辨率越小,提取到的特征語(yǔ)義信息越豐富,但細(xì)節(jié)信息有所丟失,而丟失的細(xì)節(jié)信息可以在淺層的特征圖中進(jìn)行獲取[30]?;谠撍枷?,本文將采用深層特征通過(guò)融合淺層特征的方式來(lái)提高對(duì)學(xué)生課堂表現(xiàn)的檢測(cè)效果。

本文的骨干卷積網(wǎng)絡(luò)Inception-ResNet-v2經(jīng)前人的大量研究和實(shí)驗(yàn),具有較強(qiáng)的借鑒性。同時(shí),本文通過(guò)融合淺層特征網(wǎng)絡(luò)思想在該模型基礎(chǔ)上進(jìn)行了適當(dāng)改進(jìn)。在網(wǎng)絡(luò)設(shè)計(jì)思路方面,本文借鑒文獻(xiàn)[31]提出的多路融合網(wǎng)絡(luò)的思想來(lái)實(shí)現(xiàn)深層特征融合淺層特征,該模型融合了淺層和深層特征后,通過(guò)上采樣將特征還原到一定大小,而本文并不需要通過(guò)上采樣操作,僅采用了該模型的多路特征融合的思想。

本文根據(jù)Inception-ResNet-v2的實(shí)際網(wǎng)絡(luò)結(jié)構(gòu),在Inception-ResNet-v2模型基礎(chǔ)上增加了2條通路,用于融合淺層特征圖和深層特征圖。Inception-ResNet-v2網(wǎng)絡(luò)的PreAuxLogits層所提取出的特征圖用于特征輸出前,先將精心選取Inception-ResNet-v2的淺層特征圖與PreAuxLogits層提取的深層特征圖進(jìn)行特征融合處理后,再作為網(wǎng)絡(luò)的特征輸出。該模型結(jié)構(gòu)的框架見圖3,以輸入圖片大小為299×299的彩色圖片為例。

圖3 改進(jìn)的Inception-ResNet-v2模型結(jié)構(gòu)Fig.3 Improved Inception-ResNet-v2 model structure

圖3左側(cè)自上而下的網(wǎng)絡(luò)路線,即從輸入圖片到卷積層PreAuxLogits的網(wǎng)絡(luò)路線,是文獻(xiàn)[28]提出的 Inception-ResNet-v2網(wǎng)絡(luò)結(jié)構(gòu)。而圖中右側(cè)支線網(wǎng)絡(luò)對(duì)應(yīng)著本文改進(jìn)的融合網(wǎng)絡(luò),Conv代表卷積操作;BN代表BatchNorm正規(guī)化;addition代表融合特征;ReLU是特征激活函數(shù)。

該卷積網(wǎng)絡(luò)模型對(duì)輸入的圖片按自上而下的網(wǎng)絡(luò)路線進(jìn)行特征提取。在Conv2d_2b_3×3網(wǎng)絡(luò)層提取的特征圖經(jīng)1×1大小、stride為2的卷積后,再經(jīng)過(guò)BatchNorm正規(guī)化,而后與Conv2d_4a_3×3提取的特征圖特征融合,經(jīng)由ReLU激活,實(shí)現(xiàn)了淺層Conv2d_2b、Conv2d_4a層的特征融合。然后,將該特征融合的輸出值經(jīng)1×1大小、stride為2的卷積核處理后,經(jīng)BatchNorm正規(guī)化,再與PreAuxLogits網(wǎng)絡(luò)層提取的特征圖融合,并經(jīng)由ReLU激活輸出,實(shí)現(xiàn)了融合PreAuxLogits層的深層特征。最后將該層的輸出取代原先的PreAuxLogits層輸出。

3 實(shí)驗(yàn)及分析

3.1 數(shù)據(jù)集設(shè)置

目前現(xiàn)有的目標(biāo)檢測(cè)公開數(shù)據(jù)集如PASCAL VOC、MS coco等,是專用于檢測(cè)類別的,并不適合本研究,因此,本文將利用真實(shí)的浙江農(nóng)林大學(xué)監(jiān)控?cái)?shù)據(jù)自行制作。選取數(shù)據(jù)集圖片共300張,每張圖片對(duì)象個(gè)數(shù)為20~40,總共超8 000個(gè)目標(biāo)對(duì)象。其中200張圖片以上課睡覺(jué)、趴著或玩手機(jī)的人為主,100張圖片以正常上課的人為主。這200張和100張圖片分別采樣于2個(gè)不同教室的視頻數(shù)據(jù),每秒采樣1幀圖片。隨機(jī)采取60%的數(shù)據(jù)用于訓(xùn)練集,剩下的40%數(shù)據(jù)用于測(cè)試集。生成的數(shù)據(jù)集詳細(xì)信息如表1。數(shù)據(jù)集的圖片中包含多名學(xué)生對(duì)象,姿態(tài)也是多樣的,本文將抬頭注視講臺(tái)、身體坐姿端正或看書等狀態(tài)的學(xué)生標(biāo)注為正常上課狀態(tài);將趴在桌上、靠著頭等狀態(tài)的學(xué)生標(biāo)注為上課睡覺(jué)狀態(tài);將低頭、玩手機(jī)等狀態(tài)的學(xué)生標(biāo)注為低頭狀態(tài)。數(shù)據(jù)集樣本如圖4所示。

表1 標(biāo)注圖片信息Tab.1 Label picture information

圖4 數(shù)據(jù)集樣本Fig.4 Dataset sample

3.2 數(shù)據(jù)增強(qiáng)

由于制作的數(shù)據(jù)集中,睡覺(jué)的學(xué)生樣本數(shù)與低頭和正常上課的學(xué)生樣本數(shù)相差過(guò)大,容易導(dǎo)致模型出現(xiàn)過(guò)擬合問(wèn)題,然而在實(shí)際情況下,睡覺(jué)樣本的數(shù)據(jù)集是不易采集的。因此本文采用數(shù)據(jù)增強(qiáng)技術(shù)來(lái)增加睡覺(jué)類別的圖片數(shù)量,以避免過(guò)擬合問(wèn)題,從而提高網(wǎng)絡(luò)性能。本文選取部分圖片,將圖中的睡覺(jué)學(xué)生進(jìn)行裁剪選出并進(jìn)行增強(qiáng):對(duì)裁剪圖片進(jìn)行左右對(duì)稱鏡像變換;向裁剪出的圖片加入高斯噪音;對(duì)裁剪出的圖片進(jìn)行亮度變換,提高圖片亮度。增強(qiáng)效果如圖5所示。

圖5 數(shù)據(jù)增強(qiáng)效果Fig.5 Data enhancement effect

3.3 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)過(guò)程中使用操作系統(tǒng)為Ubuntu 16.04 的PC機(jī),處理器為Intel Core(TM) i7-6700 @3.40GHz,16GiB RAM,顯卡為NVIDIA GeForce GTX 745。其中訓(xùn)練過(guò)程基于開源的Python語(yǔ)言和TensorFlow實(shí)現(xiàn),預(yù)訓(xùn)練模型Inception-ResNet-v2源于Google公開的TensorFlow Object Detection API下的模型。

3.4 訓(xùn)練參數(shù)設(shè)置

本文采用mini-batch方式下的momentum梯度下降法,可以在一定程度上加快收斂,減少震蕩,設(shè)置0.9的動(dòng)量參數(shù),考慮到本實(shí)驗(yàn)的運(yùn)行環(huán)境,本文設(shè)置BatchSize大小為1。本文的網(wǎng)絡(luò)設(shè)置調(diào)整圖片的最大維度為512,最小維度為300。設(shè)置6 000為最大迭代次數(shù),其中,前1 800次設(shè)置學(xué)習(xí)率為0.003,之后的迭代設(shè)置學(xué)習(xí)率為0.000 3。在RPN的卷積網(wǎng)絡(luò)層則以0為均值、0.01為標(biāo)準(zhǔn)差的截?cái)嗟母咚狗植茧S機(jī)初始化。對(duì)共享的卷積層通過(guò)Xavier方法進(jìn)行初始化。

4 結(jié)果與分析

為了評(píng)估目標(biāo)檢測(cè)的結(jié)果性能,本文采用查準(zhǔn)率均值(mean average precision,mAP)作為標(biāo)準(zhǔn)。mAP是用于衡量多個(gè)類的檢測(cè)結(jié)果,為平均精確度(average precision,AP)的平均值。而AP用于衡量單個(gè)類別的檢測(cè)結(jié)果,為精確率-召回率曲線與坐標(biāo)軸所圍成的面積。其中精確率(Precision)、召回率(Recall)定義為:

(4)

(5)

式中:NTP表示正確檢測(cè)的框的個(gè)數(shù);NFP表示錯(cuò)誤檢測(cè)的框的個(gè)數(shù);NFN表示漏檢的框的個(gè)數(shù)。

4.1 多路特征融合對(duì)查準(zhǔn)率均值的影響

通過(guò)Faster R-CNN和多路特征融合改進(jìn)的Faster R-CNN在測(cè)試集上進(jìn)行實(shí)驗(yàn),檢測(cè)結(jié)果如表2所示。

表2 各組實(shí)驗(yàn)在測(cè)試集上檢測(cè)的AP結(jié)果表Tab.2 AP results tested on test set for each group of experiments %

從表2結(jié)果可以看出,多路特征融合改進(jìn)的Faster R-CNN實(shí)驗(yàn)結(jié)果AP值均高于Faster R-CNN模型,同時(shí)在mAP值上提高了12.22個(gè)百分點(diǎn)。通過(guò)融合淺層特征的方式,將更多細(xì)節(jié)信息的淺層特征融入了具有高度語(yǔ)義信息的深層特征圖中,使得在處理學(xué)生課堂監(jiān)控視頻圖片的數(shù)據(jù)集上,具有更好的檢測(cè)結(jié)果。其對(duì)應(yīng)的檢測(cè)結(jié)果樣例圖如圖6所示。圖6中,多路特征融合的Faster R-CNN在檢測(cè)正常上課學(xué)習(xí)、睡覺(jué)和低頭的學(xué)生行為上,其檢測(cè)框更準(zhǔn)確并且漏檢數(shù)量更少。通過(guò)多路特征融合方式,增強(qiáng)了細(xì)節(jié)特征信息,提高了檢測(cè)的結(jié)果。

(a)~(c)是Faster R-CNN檢測(cè)出的課堂行為結(jié)果,對(duì)應(yīng)的行為分別是正常上課、睡覺(jué)、低頭;(d)~(f)是多路特征融合改進(jìn)的Faster R-CNN檢測(cè)出的課堂行為結(jié)果,對(duì)應(yīng)的行為分別是正常上課、睡覺(jué)、低頭。圖6 有無(wú)融合多路特征的Faster R-CNN部分樣例檢測(cè)結(jié)果對(duì)比Fig.6 Comparison of partial sample detection results of Faster R-CNN with or without fused multi-path features

將模型數(shù)據(jù)導(dǎo)出后,隨機(jī)檢測(cè)100張圖片,計(jì)算出檢測(cè)每張圖片所需要的平均時(shí)間,檢測(cè)結(jié)果如表3所示。

表3 各組檢測(cè)1張圖片的平均時(shí)間Tab.3 Average time for each group to test one picture s

從表3可以看出,在本文的硬件條件下,本文算法模型的檢測(cè)速度略慢于Faster R-CNN,平均每張圖片的檢測(cè)時(shí)間需要多花0.075 s。這表明融合淺層特征方式需要消耗更多的運(yùn)算時(shí)間從而提升精度。

4.2 與已有檢測(cè)算法的對(duì)比

為了驗(yàn)證本文算法的適應(yīng)性,將本文算法在VOC2007數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,與其他算法在該數(shù)據(jù)集上進(jìn)行結(jié)果對(duì)比,結(jié)果如表4所示。

表4 不同算法在VOC2007數(shù)據(jù)集上mAP結(jié)果對(duì)比Tab.4 Comparison of mAP results of different algorithms on VOC2007 dataset %

從表4可以看出,與YOLO算法相比,本文算法的mAP值較高,這是由于YOLO采用了單個(gè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練和檢測(cè),即通過(guò)一個(gè)卷積網(wǎng)絡(luò)實(shí)現(xiàn)邊框回歸和分類的任務(wù);而本文算法是基于Faster R-CNN,經(jīng)RPN網(wǎng)絡(luò)生成候選區(qū)域的基礎(chǔ)上再進(jìn)一步進(jìn)行檢測(cè)。與SSD算法相比,本文算法的mAP值與其相近,且略高于SSD算法。因?yàn)镾SD算法采用了多尺度特征融合的方式,通過(guò)抽取網(wǎng)絡(luò)的不同層不同尺度的特征做預(yù)測(cè),故mAP值與本文算法相近;同時(shí),SSD算法是基于回歸的檢測(cè)方式,因此查準(zhǔn)率均值相比較低。與Faster R-CNN相比,本文算法在mAP值上提高了近1.62個(gè)百分點(diǎn),說(shuō)明本文算法具有一定的適應(yīng)性。

4.3 與已有課堂姿態(tài)檢測(cè)方法的對(duì)比

在已有的課堂姿態(tài)檢測(cè)方法中,文獻(xiàn)[7]、文獻(xiàn)[8]、文獻(xiàn)[18]和文獻(xiàn)[32]分別進(jìn)行了SVM分類器、樸素貝葉斯分類、VGG網(wǎng)絡(luò)模型與遷移學(xué)習(xí)和回歸森林法的課堂姿態(tài)檢測(cè)研究,本文提出的基于多路特征融合的Faster R-CNN與遷移學(xué)習(xí)的檢測(cè)方法與已有課堂學(xué)生姿態(tài)檢測(cè)方法比較結(jié)果如表5所示。

表5 本文方法與已有課堂姿態(tài)檢測(cè)方法比較Tab.5 Our method compared with existing methods for behavioral detection of students’ classroom performance

從表5可以看出,本文與文獻(xiàn)[7]、文獻(xiàn)[8]、文獻(xiàn)[18]和文獻(xiàn)[32]的課堂學(xué)生姿態(tài)檢測(cè)方法相比的改進(jìn)在于:

① 本文構(gòu)建的圖像數(shù)據(jù)集來(lái)源于真實(shí)情況下的學(xué)生課堂監(jiān)控視頻,相比于模擬學(xué)生上課的課堂視頻,本文數(shù)據(jù)更符合應(yīng)用實(shí)際中的學(xué)生課堂表現(xiàn)常見情況,可在本文建立的真實(shí)課堂數(shù)據(jù)集中增加更多高校的課堂圖像,有利于進(jìn)一步開展課堂學(xué)生行為檢測(cè)研究。

② 文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[32]采用的方法都需要人工手動(dòng)的方式選取特征,如紋理特征、幾何特征等,整體檢測(cè)結(jié)果依賴于手工提取的特征數(shù)據(jù)的優(yōu)劣。而本文利用深度網(wǎng)絡(luò)自動(dòng)提取課堂姿態(tài)特征,充分發(fā)揮了卷積網(wǎng)絡(luò)對(duì)數(shù)據(jù)本質(zhì)的刻畫能力的優(yōu)勢(shì)。

③ 本文將數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)技術(shù)應(yīng)用到基于Faster R-CNN的學(xué)生課堂行為檢測(cè)模型中,改善了過(guò)擬合問(wèn)題,提高了模型性能。在Inception-ResNet-v2主干網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)融合淺層特征的結(jié)構(gòu),得到多路特征融合的Faster R-CNN檢測(cè)模型,提高了該模型的精確度。

5 結(jié)語(yǔ)

為提高課堂教學(xué)質(zhì)量,保證課堂紀(jì)律,本文提出了基于遷移學(xué)習(xí)和多路融合改進(jìn)的Faster R-CNN的學(xué)生課堂行為檢測(cè)方法。利用浙江農(nóng)林大學(xué)的真實(shí)課堂監(jiān)控視頻建立新的數(shù)據(jù)集,通過(guò)手工標(biāo)注的方式生成超8 000個(gè)目標(biāo)對(duì)象的實(shí)驗(yàn)數(shù)據(jù);通過(guò)Inception-ResNet-v2網(wǎng)絡(luò)自動(dòng)特征提取,減少對(duì)手工特征提取的依賴;通過(guò)Faster R-CNN檢測(cè)學(xué)生上課的3種狀態(tài);通過(guò)數(shù)據(jù)增強(qiáng),擴(kuò)充睡覺(jué)類別的數(shù)據(jù),減輕過(guò)擬合;通過(guò)遷移學(xué)習(xí)加快訓(xùn)練速度,提高模型性能;進(jìn)一步,將網(wǎng)絡(luò)的深層特征多路融合淺層特征,增強(qiáng)特征信息,提高檢測(cè)效果。實(shí)驗(yàn)結(jié)果表明:本文提出的多路特征融合的Faster R-CNN在課堂行為測(cè)試集上可提升mAP值12.22個(gè)百分點(diǎn),且具有一定的適應(yīng)性,對(duì)提高課堂教學(xué)質(zhì)量具有重要意義。

本文未來(lái)的工作主要為:一是繼續(xù)擴(kuò)充數(shù)據(jù)集,增加各個(gè)學(xué)校的課堂圖片來(lái)源及識(shí)別的類型;二是考慮到本文采用圖片的形式進(jìn)行檢測(cè),而在實(shí)際應(yīng)用中需要處理視頻流,因此后續(xù)將對(duì)相應(yīng)的預(yù)處理技術(shù)進(jìn)行研究,為更好地應(yīng)用于實(shí)際做準(zhǔn)備;三是研究如何進(jìn)一步優(yōu)化模型的結(jié)構(gòu)和參數(shù),提升模型檢測(cè)速度。

猜你喜歡
卷積特征融合
村企黨建聯(lián)建融合共贏
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
不忠誠(chéng)的四個(gè)特征
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
抓住特征巧觀察
怀远县| 沂南县| 铜鼓县| 封丘县| 衡东县| 南平市| 民乐县| 昭通市| 连平县| 甘南县| 嘉黎县| 高阳县| 宁国市| 阳江市| 石嘴山市| 舟曲县| 怀柔区| 图片| 喀喇| 九龙城区| 华亭县| 柳州市| 巧家县| 那坡县| 永泰县| 陈巴尔虎旗| 郓城县| 安新县| 中卫市| 庆元县| 神木县| 永春县| 旬邑县| 闸北区| 青川县| 托克逊县| 松江区| 绥德县| 元氏县| 阜城县| 高邑县|