国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于殘差網(wǎng)絡(luò)的學(xué)生課堂行為識別

2019-08-20 07:26蔣沁沂張譯文譚思琪楊耀祖
現(xiàn)代計算機(jī) 2019年20期
關(guān)鍵詞:步長殘差準(zhǔn)確率

蔣沁沂,張譯文,譚思琪,楊耀祖

(四川農(nóng)業(yè)大學(xué)理學(xué)院,雅安625000)

0 引言

課堂是學(xué)生學(xué)習(xí)知識、接受教育的重要場所。隨著社會技術(shù)的不斷發(fā)展,教育改革的不斷深入,對課堂教學(xué)質(zhì)量進(jìn)行信息化、智能化分析的要求越來越急迫。用信息化手段對課堂中學(xué)生的行為進(jìn)行實時的觀測、處理和分析,不僅可以提醒學(xué)生注意規(guī)范自己在課堂上的行為,幫助教師管理課堂,也可以反映出課堂氛圍好壞,幫助教師改進(jìn)教學(xué)方式。

目前專門研究學(xué)生課堂行為識別的論文較少。周鵬霄等人[1]通過人臉檢測、輪廓檢測、主體動作幅度檢測得到數(shù)據(jù)集,將貝葉斯因果網(wǎng)作為判定主體行為特征的推理模型對課堂教學(xué)行為進(jìn)行識別。黨冬利[2]則通過提取動作的Zernike 矩特征、光流特征、全局運動方向特征并結(jié)合樸素貝葉斯分類器[3]來對動作進(jìn)行描述和判斷。張鴻宇[4]通過對人體骨骼向量進(jìn)行特征提取,再用SVM 分類器[5]對動作向量進(jìn)行分類和識別。上述方法主要運用的是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,需要大量的人工操作步驟并且準(zhǔn)確率較低。廖鵬等人[6]通過攝像頭采集學(xué)生課堂行為,并通過背景差分提取目標(biāo)區(qū)域輸入VGG 網(wǎng)絡(luò)[7],成功識別了睡覺、玩手機(jī)、正常三種課堂行為。該研究通過將深度學(xué)習(xí)技術(shù)運用在課堂教學(xué)的圖像識別上,為課堂行為識別的研究提供了新的思路和方法,但是其識別學(xué)生數(shù)量較少,識別學(xué)生在課堂中的動作也較為簡單并且準(zhǔn)確率仍然較低。

近年來,深度卷積神經(jīng)網(wǎng)絡(luò)飛速發(fā)展,AlexNet[8]、VGGNet[7]、GoogLeNet[9]等深度神經(jīng)網(wǎng)絡(luò)模型相繼被提出。但是,當(dāng)網(wǎng)絡(luò)層數(shù)不斷加深,深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中的梯度爆炸或梯度消失問題會變得越來越明顯。為了解決這種問題,何愷明等人提出了深度殘差網(wǎng)絡(luò)ResNet[10]。該網(wǎng)絡(luò)很重要的特征之一就是加入了殘差模塊,通過在卷積層之間加入Shortcut 結(jié)構(gòu),成功地緩解了當(dāng)網(wǎng)絡(luò)層數(shù)過深時帶來的網(wǎng)絡(luò)退化問題。

為了能識別更多學(xué)生在課堂中表現(xiàn)出來的行為,同時提高識別的準(zhǔn)確率,本文將深度殘差網(wǎng)絡(luò)用于課堂行為識別。通過實地采集大量學(xué)生課堂行為的圖片,搭建課堂行為識別數(shù)據(jù)集,并根據(jù)殘差模塊的特點,搭建出適用于該數(shù)據(jù)集的深度殘差網(wǎng)絡(luò),為識別學(xué)生課堂行為提供了新的技術(shù)方法。

1 殘差結(jié)構(gòu)

殘差網(wǎng)絡(luò)是一種深層次卷積神經(jīng)網(wǎng)絡(luò)。對于卷積神經(jīng)網(wǎng)絡(luò)而言,加深網(wǎng)絡(luò)層數(shù)可以增強(qiáng)其擬合能力。但隨著網(wǎng)絡(luò)層數(shù)的加深,卷積神經(jīng)網(wǎng)絡(luò)會變得非常難以訓(xùn)練,當(dāng)網(wǎng)絡(luò)層數(shù)超過某個值后,網(wǎng)絡(luò)的識別能力反而會呈現(xiàn)下降趨勢[11]。在梯度反向傳播的過程中,由于網(wǎng)絡(luò)層數(shù)過深,靠近輸出層的網(wǎng)絡(luò)參數(shù)會很快收斂,而靠近輸入層的參數(shù)則收斂得很慢。為了避免當(dāng)網(wǎng)絡(luò)層數(shù)過深引起的識別準(zhǔn)確率下降的問題,殘差網(wǎng)絡(luò)引入了殘差單元,即通過在卷積層之間加入Shortcut 結(jié)構(gòu),這種結(jié)構(gòu)使網(wǎng)絡(luò)要訓(xùn)練的目標(biāo)函數(shù)變?yōu)榱藴p去輸入函數(shù)后的殘差,該結(jié)構(gòu)如圖1 所示。設(shè)f(x)為原始網(wǎng)絡(luò)輸出,在引入Shortcut 結(jié)構(gòu)后實際輸出設(shè)為h(x),有h(x)=f(x)+x,即實際輸出為原始輸出與原始輸入相加,從而將網(wǎng)絡(luò)對f(x)的擬合轉(zhuǎn)變?yōu)閷(x)的擬合。這種結(jié)構(gòu)沒有增加新的參數(shù)與額外的計算量,同時也解決了網(wǎng)絡(luò)反向傳播過程中梯度彌散的問題。

圖1 殘差單元

圖2 殘差網(wǎng)絡(luò)結(jié)構(gòu)圖

2 深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)

本文用于識別學(xué)生課堂行為的深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)如圖2 所示。包括1 個卷積層、2 個ReLU 層、3 個池化層、1 個卷積模塊、2 個恒等模塊、2 個全連接層以及最后的分類層,該網(wǎng)絡(luò)中卷積層的填充方式均為“same”。輸入圖像首先經(jīng)過卷積層,該卷積層含有64個大小為2×2 卷積核,操作步長為2,由ReLU 激活函數(shù)激活從而進(jìn)行初步特征提取,之后經(jīng)過一個卷積模塊、兩個恒等模塊進(jìn)行深度特征提取,再用兩個大小不同的全連接層依次進(jìn)行特征降維,后一個全連接層的輸出神經(jīng)元個數(shù)為6,分別對應(yīng)學(xué)生在課堂中表現(xiàn)出來的6 種行為,最后通過分類層輸出分類結(jié)果。

恒等模塊的結(jié)構(gòu)如圖3 所示,卷積模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

圖3 恒等模塊

圖4 卷積模塊

恒等模塊包括3 個卷積層、3 個ReLU 層和一個Shortcut 連接操作。其中,卷積層1 含有64 個大小為1×1 卷積核,操作步長為1;卷積層2 含有64 個大小為3×3 卷積核,操作步長為1;卷積層3 含有256 個大小為1×1 卷積核,操作步長為1。Shortcut 連接操作用于將恒等模塊的輸入與經(jīng)過三次卷積操作后的輸出相加,該操作體現(xiàn)了殘差網(wǎng)絡(luò)的基本思想。

卷積模塊包括4 個卷積層、3 個ReLU 層和一個Shortcut 連接操作。其中,卷積層1 含有64 個大小為1×1 卷積核,操作步長為2;卷積層2 含有64 個大小為3×3 卷積核,操作步長為1;卷積層3 含有256 個大小為1×1 卷積核,操作步長為1;卷積層4 含有256 個大小為1×1 卷積核,操作步長為2。相比于恒等模塊,其在Shortcut 連接操作之前先對網(wǎng)絡(luò)輸入x 先進(jìn)行了一次卷積操作。

3 數(shù)據(jù)庫搭建與網(wǎng)絡(luò)訓(xùn)練

3.1 搭建課堂行為識別數(shù)據(jù)庫

對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量已標(biāo)記的訓(xùn)練數(shù)據(jù),由于網(wǎng)絡(luò)上沒有公開的課堂行為識別數(shù)據(jù),故本文通過實地收集數(shù)據(jù)構(gòu)建了一套專門的課堂行為識別數(shù)據(jù)集。

視頻通過安裝在教室中的攝像設(shè)備采集,分辨率為2560×1536。收集包括上課、睡覺、玩手機(jī)、做筆記、東張西望、看書等學(xué)生在課堂中出現(xiàn)頻率較高的6 個動作。在視頻收集好后,首先對視頻進(jìn)行均勻幀采樣,將視頻轉(zhuǎn)換成圖像,再將圖像裁剪成含有單個學(xué)生的圖片并重塑成128×128 的分辨率大小,對每個圖像里的學(xué)生課堂行為進(jìn)行標(biāo)記后,總共得到1020 張帶有標(biāo)簽的課堂行為圖片。通過鏡像對稱的數(shù)據(jù)增強(qiáng)方式對原始數(shù)據(jù)集進(jìn)行擴(kuò)充,最終得到包含2040 張圖片的課堂行為識別數(shù)據(jù)集。數(shù)據(jù)集中的部分圖片如圖5 所示,其中每個行為的圖片數(shù)量都相同。隨機(jī)抽取其中的1560 張圖片作為訓(xùn)練集,剩下的480 張圖片作為測試集。

圖5 課堂行為識別數(shù)據(jù)集圖片示例

3.2 訓(xùn)練殘差網(wǎng)絡(luò)

本文實驗在開源深度學(xué)習(xí)框架TensorFlow 上進(jìn)行,搭載平臺為Anaconda3。實驗所用CPU 為Intel Core i5-8300H,主頻為2.30GHz,可睿頻至3.96GHz,內(nèi)存為8GB,操作系統(tǒng)為Windows 操作系統(tǒng),顯卡為GTX 1050Ti,顯存4G。

卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的擬合能力,能夠?qū)W習(xí)從輸入到輸出的復(fù)雜映射關(guān)系。即使不知道從輸入到輸出的精確數(shù)學(xué)表達(dá)式,卷積神經(jīng)網(wǎng)絡(luò)也能通過對從輸入到輸出之間的特定模式的學(xué)習(xí),較為準(zhǔn)確地建立兩者間的映射關(guān)系。對卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般采用監(jiān)督訓(xùn)練的方法。其訓(xùn)練過程主要分為兩個階段,即前向傳播階段和反向傳播階段。

在前向傳播階段中,為了提高模型準(zhǔn)確率,同時使網(wǎng)絡(luò)迅速收斂,本文先將訓(xùn)練集隨機(jī)打亂,再結(jié)合機(jī)器情況在每一次迭代過程中選擇固定數(shù)量的小批量圖片作為網(wǎng)絡(luò)輸入。輸入經(jīng)過構(gòu)造好的網(wǎng)絡(luò)架構(gòu)逐層向前傳播,最后通過Softmax 分類層輸出對每個行為的識別概率。

在反向傳播階段,首先以交叉熵作為損失函數(shù)計算出誤差值,然后通過Adam 優(yōu)化器[12]使誤差反向傳播,更新網(wǎng)絡(luò)權(quán)重,逐步使得損失函數(shù)接近最優(yōu)值,以優(yōu)化整個網(wǎng)絡(luò)。

另外,本文在對標(biāo)簽類別進(jìn)行編碼時采用One-hot編碼方式,網(wǎng)絡(luò)學(xué)習(xí)率為0.001,在全連接層使用Dropout 技術(shù)[8],即每次訓(xùn)練時使神經(jīng)元隨機(jī)失活,從而緩解網(wǎng)絡(luò)過擬合,達(dá)到正則化效果。

4 實驗結(jié)果分析

實驗對比了帶有殘差單元的深度殘差網(wǎng)絡(luò)(ResNet)和不帶殘差單元的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在課堂行為識別數(shù)據(jù)集下的表現(xiàn)情況。其中不帶殘差單元的深度神經(jīng)網(wǎng)絡(luò)是指將原殘差網(wǎng)絡(luò)中的Shortcut 連接去掉以后,由其余部分組成的神經(jīng)網(wǎng)絡(luò)。

深度殘差網(wǎng)絡(luò)和深度卷積神經(jīng)網(wǎng)絡(luò)的最終準(zhǔn)確率如圖6 所示。從圖中可以看到,深度殘差網(wǎng)絡(luò)與深度卷積神經(jīng)網(wǎng)絡(luò)相比,泛化準(zhǔn)確率較高,前者的泛化準(zhǔn)確率為89.46%,而后者為91.91%,說明在加入了殘差結(jié)構(gòu)后,網(wǎng)絡(luò)能取得更好的性能。其中,深度殘差網(wǎng)絡(luò)識別準(zhǔn)確率迭代更新細(xì)節(jié)如圖7 所示。

圖6 不同網(wǎng)絡(luò)結(jié)構(gòu)識別準(zhǔn)確率對比

圖7 深度殘差網(wǎng)絡(luò)訓(xùn)練迭代圖

深度殘差網(wǎng)絡(luò)識別出的各個行為的準(zhǔn)確率如表1所示,其中睡覺和看書分別達(dá)到了97.06%、94.12%的較高識別準(zhǔn)確率,而玩手機(jī)、做筆記、上課、東張西望的識別準(zhǔn)確率分別為92.65%、89.71%、91.18%、86.76%。東張西望和上課的識別準(zhǔn)確率都相對較低,經(jīng)分析可能是由于學(xué)生分散坐在教室的各個位置,上課時其頭部會有一定的偏向,導(dǎo)致在數(shù)據(jù)集中,學(xué)生上課的行為與東張西望的行為有一定的相似度,從而致使網(wǎng)絡(luò)誤識別,降低了其識別準(zhǔn)確率。

表1 深度殘差網(wǎng)絡(luò)識別各個行為的準(zhǔn)確率

5 結(jié)語

傳統(tǒng)的機(jī)器學(xué)習(xí)方法識別課堂行為需要復(fù)雜的操作對圖像進(jìn)行特征提取,并且其分類準(zhǔn)確率較低。相比于傳統(tǒng)方法,卷積神經(jīng)網(wǎng)絡(luò)能自動提取圖像特征,根據(jù)從輸入當(dāng)輸出的端到端訓(xùn)練完成網(wǎng)絡(luò)的訓(xùn)練,使網(wǎng)絡(luò)具有識別課堂行為的能力,在提升了準(zhǔn)確率的同時降低了操作復(fù)雜度。然而,隨著網(wǎng)絡(luò)層數(shù)增加,對網(wǎng)絡(luò)的訓(xùn)練會變得更加困難,甚至帶來網(wǎng)絡(luò)性能退化的問題。本文將殘差結(jié)構(gòu)引入卷積神經(jīng)網(wǎng)絡(luò),提出了一種適用于課堂行為識別的深度殘差網(wǎng)絡(luò)模型,實驗結(jié)果證明了該網(wǎng)絡(luò)相比于深度卷積神經(jīng)網(wǎng)絡(luò)在性能上有更好的表現(xiàn),但仍存在需要進(jìn)一步研究的地方。首先,本文中收集的課堂行為數(shù)據(jù)還不夠豐富,識別的行為還不夠多,研究成果到實際應(yīng)用還存在一定的距離。其次,網(wǎng)絡(luò)在識別具有細(xì)微差異的行為時準(zhǔn)確率還有待提高。對于這些問題,將在后續(xù)的研究中做進(jìn)一步探討和解決。

猜你喜歡
步長殘差準(zhǔn)確率
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
融合上下文的殘差門卷積實體抽取
基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
一種改進(jìn)的變步長LMS自適應(yīng)濾波算法
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
基于變步長梯形求積法的Volterra積分方程數(shù)值解
星子县| 保亭| 郎溪县| 昌都县| 临泉县| 始兴县| 文山县| 资中县| 凤城市| 高雄县| 沾益县| 滨海县| 荔浦县| 台东县| 辽阳县| 闽清县| 岑溪市| 皋兰县| 晴隆县| 托克逊县| 德化县| 闵行区| 读书| 江达县| 礼泉县| 宜城市| 咸丰县| 闵行区| 青铜峡市| 吴堡县| 定远县| 高陵县| 凤城市| 靖西县| 房产| 贵溪市| 德格县| 海宁市| 怀远县| 宣恩县| 许昌县|