趙衍 魯力立
摘要:到課率作為宏觀教學(xué)管理數(shù)據(jù),對(duì)高校教學(xué)管理具有重要作用。雖然近年來出現(xiàn)了一些課率統(tǒng)計(jì)的數(shù)字化方法,解決了傳統(tǒng)到課率統(tǒng)計(jì)費(fèi)時(shí)、費(fèi)力、滯后等問題,但由于成本高、使用不方便、準(zhǔn)確率不高等原因,導(dǎo)致其無法推廣。隨著技術(shù)的發(fā)展,深度學(xué)習(xí)在多目標(biāo)檢測(cè)中的準(zhǔn)確率越來越高,有助于解決此類問題。為此,文章利用深度學(xué)習(xí)技術(shù),設(shè)計(jì)了一種基于教室攝像頭RTSP視頻流的到課學(xué)生頭部識(shí)別的模型1MB-Plus,并將其應(yīng)用于某高校的一百余間教室的到課率統(tǒng)計(jì)中,取得了97.3%的準(zhǔn)確率。研究表明,該模型有助于解決到課率統(tǒng)計(jì)存在的問題。文章通過研究,旨在以最小的成本為高校教務(wù)管理部門提供較為準(zhǔn)確的宏觀到課率數(shù)據(jù),輔助學(xué)校的教學(xué)管理工作。
關(guān)鍵詞:到課率統(tǒng)計(jì);機(jī)器學(xué)習(xí);模式識(shí)別;擁擠人群計(jì)數(shù);頭部檢測(cè)
【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2024)02—0108—10 【DOI】10.3969/j.issn.1009-8097.2024.02.012
在高校教學(xué)管理中,到課率是一個(gè)能綜合反映教學(xué)管理水平、學(xué)風(fēng)和教學(xué)質(zhì)量的重要指標(biāo),根據(jù)到課率數(shù)據(jù),院系和學(xué)校教務(wù)管理部門可以整體把握教學(xué)情況,以進(jìn)行更好的教學(xué)管理。傳統(tǒng)的到課率統(tǒng)計(jì)方法主要包括課堂點(diǎn)名和課后統(tǒng)計(jì),然而這兩種方法的效率都非常低下,雖然近年來業(yè)內(nèi)先后出現(xiàn)了通過紅外、藍(lán)牙、無線射頻標(biāo)簽、二維碼、WiFi、指紋識(shí)別、人臉識(shí)別等多種到課率統(tǒng)計(jì)的方法,但都存在各種各樣的問題,導(dǎo)致其無法得到大規(guī)模推廣。因此,在大學(xué)教學(xué)管理中,迫切需要一種能夠基于現(xiàn)有條件,便捷、高效、低成本、準(zhǔn)確地統(tǒng)計(jì)到課率的方法。當(dāng)前,深度學(xué)習(xí)在多目標(biāo)檢測(cè)中的準(zhǔn)確率越來越高,而隨著我國各高校標(biāo)準(zhǔn)化考場(chǎng)和智慧教室建設(shè)進(jìn)程的加快,很多大學(xué)教室中都安裝了能夠覆蓋整個(gè)教室場(chǎng)景的攝像頭,如果能夠利用這些攝像頭,結(jié)合深度學(xué)習(xí)技術(shù)構(gòu)建到課人數(shù)統(tǒng)計(jì)模型,或許有助于提升到課率的統(tǒng)計(jì)效率和精確度。為此,本研究嘗試基于深度學(xué)習(xí)框架試構(gòu)建到課人數(shù)統(tǒng)計(jì)模型,并用標(biāo)注過的教室照片對(duì)模型進(jìn)行深度學(xué)習(xí),將訓(xùn)練好的模型部署在生產(chǎn)環(huán)境中,通過對(duì)接課表、教師基本信息等數(shù)據(jù),生成不同維度的到課率統(tǒng)計(jì)數(shù)據(jù)。
一 研究現(xiàn)狀
到課人數(shù)統(tǒng)計(jì)模型主要是利用教室中的攝像頭所采集到的視頻幀進(jìn)行人頭部檢測(cè),從而識(shí)別教室中的人數(shù)。而教室內(nèi)的人頭部檢測(cè)是一個(gè)典型的擁擠場(chǎng)景下的人群計(jì)數(shù)(Crowd Counting)問題。擁擠場(chǎng)景下的人群計(jì)數(shù)是計(jì)算機(jī)視覺研究領(lǐng)域的一個(gè)經(jīng)典問題,主要實(shí)現(xiàn)手段有基于熱力圖的人群密度檢測(cè)(DenseCrowd Counting)和基于頭部檢測(cè)(Head Counting)的人數(shù)統(tǒng)計(jì)兩種,其中基于頭部檢測(cè)的人數(shù)統(tǒng)計(jì)方法具有更好的參考價(jià)值和應(yīng)用場(chǎng)景[1]。早期的人群計(jì)數(shù)研究主要基于檢測(cè)的方法和回歸的方法來實(shí)現(xiàn),而從2015年開始,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被引入人群計(jì)數(shù)研究。鑒于CNN在機(jī)器學(xué)習(xí)領(lǐng)域的良好表現(xiàn)[2],現(xiàn)有的人頭部檢測(cè)方面的研究大部分基于CNN開展,如陳久紅等[3]對(duì)基于區(qū)域的全卷積神經(jīng)網(wǎng)絡(luò)(R-FCN)目標(biāo)檢測(cè)算法進(jìn)行改進(jìn),提高了R-FCN算法對(duì)小目標(biāo)的識(shí)別能力,使其在自制的數(shù)據(jù)集上達(dá)到89.4%的準(zhǔn)確率;張曉強(qiáng)等[4]利用教室現(xiàn)有的視頻監(jiān)控系統(tǒng)獲取教室實(shí)時(shí)圖像,結(jié)合教室內(nèi)人員分布特點(diǎn)及教室建筑風(fēng)格,通過檢測(cè)學(xué)生頭部特征,并使用AdaBoost級(jí)聯(lián)分類器對(duì)提取的視頻幀HOG樣本特征進(jìn)行訓(xùn)練,構(gòu)建頭部檢測(cè)模型用于檢測(cè)人數(shù),取得了80%的準(zhǔn)確率。
然而,很多人群計(jì)數(shù)算法雖然在實(shí)驗(yàn)條件下具有很好的表現(xiàn),但到了生產(chǎn)環(huán)境下,由于受到光照、遮蓋、相似物體等噪聲干擾,識(shí)別準(zhǔn)確性會(huì)大大降低。因此,生產(chǎn)環(huán)境中的人頭檢測(cè)模型除保證較高的檢全率和檢準(zhǔn)率外,還需要有較強(qiáng)的魯棒性。在教室環(huán)境下,由于存在學(xué)生之間相互遮擋、低頭、轉(zhuǎn)頭、佩戴帽子、有相似物體、弱光線及光線分布不均、噪聲干擾等問題,導(dǎo)致目標(biāo)檢測(cè)的準(zhǔn)確性難以得到保證。針對(duì)這種情況,Yudin等[5]利用標(biāo)注的1000張教室照片,訓(xùn)練了FCN、Faster R-CNN和Mask R-CNN三種卷積神經(jīng)網(wǎng)絡(luò),結(jié)果表明:Mask R-CNN的速度雖不及FCN的十分之一,但準(zhǔn)確率卻很高;Faster R-CNN的精度雖不如Mask R-CNN,但比FCN更穩(wěn)定。Monti等[6]提出了一種基于攝像頭和Raspberry Pi平臺(tái)的人數(shù)統(tǒng)計(jì)方法,得益于邊緣計(jì)算的遷移學(xué)習(xí)框架,該系統(tǒng)在教室人數(shù)統(tǒng)計(jì)中的最大平均絕對(duì)誤差小于1.23。Yi等[7]標(biāo)注了3070張課堂照片,并通過改進(jìn)YOLO V4算法構(gòu)建了教室人數(shù)統(tǒng)計(jì)系統(tǒng),結(jié)果表明其準(zhǔn)確率在測(cè)試集上獲得明顯提升。劉媛等[8]構(gòu)建了真實(shí)教室場(chǎng)景的圖像數(shù)據(jù)集,并基于RetinaFace人臉檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)RetinaStudent人頭檢測(cè)網(wǎng)絡(luò)模型,提升了學(xué)生臉部被遮擋情況下的模型性能,在自制數(shù)據(jù)集上達(dá)到99.1%的識(shí)別率。何強(qiáng)等[9]通過改進(jìn)YOLO V3模型,增強(qiáng)了模型對(duì)模糊或者較小目標(biāo)的檢測(cè)能力。Niu等[10]則提出一種基于YOLO V5的增強(qiáng)型骨骼識(shí)別系統(tǒng),用于檢測(cè)課堂行為。這些方法對(duì)提高人頭檢測(cè)模型的檢全率、檢準(zhǔn)率和魯棒性都起到了一定的作用。
為了提高準(zhǔn)確率,還有研究者嘗試采用兩種或兩種以上的方法分別對(duì)教室內(nèi)的人頭數(shù)進(jìn)行統(tǒng)計(jì),通過比較和綜合,以獲得更準(zhǔn)確的結(jié)果。例如,F(xiàn)u等[11]將多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)人臉檢測(cè)和中心人臉識(shí)別兩種深度學(xué)習(xí)算法進(jìn)行結(jié)合,開發(fā)了一套大學(xué)課堂自動(dòng)考勤系統(tǒng),該系統(tǒng)在實(shí)驗(yàn)環(huán)境下能達(dá)到98.87%的準(zhǔn)確率;單華標(biāo)等[12]綜合使用藍(lán)牙傳輸和人臉識(shí)別技術(shù)設(shè)計(jì)了一套點(diǎn)名系統(tǒng),可有效防止出勤作弊問題;胡青松等[13]開發(fā)了一種融合WiFi數(shù)據(jù)與人臉識(shí)別的課堂點(diǎn)名方法,利用教室WiFi接入數(shù)據(jù)和人臉識(shí)別數(shù)據(jù)進(jìn)行交叉比對(duì),實(shí)現(xiàn)精準(zhǔn)點(diǎn)名。
總的來看,現(xiàn)有教室場(chǎng)景下的人群計(jì)數(shù)研究雖然在一定程度上提高了人頭部識(shí)別的準(zhǔn)確率,但都缺乏生產(chǎn)環(huán)境下大規(guī)模部署的實(shí)驗(yàn)數(shù)據(jù)。而當(dāng)前已投入實(shí)際使用的模型精度都不超過90%,在學(xué)校課堂到課人數(shù)統(tǒng)計(jì)應(yīng)用場(chǎng)景下,這樣的準(zhǔn)確率明顯滿足不了學(xué)校管理的實(shí)際需求。因此,本研究旨在構(gòu)建一套在生產(chǎn)環(huán)境下能快速、準(zhǔn)確統(tǒng)計(jì)到課率的系統(tǒng),以滿足學(xué)校教學(xué)管理需求。
二 基于深度學(xué)習(xí)的到課人數(shù)統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)
近年來,很多高校建設(shè)了大量的智慧教室、標(biāo)準(zhǔn)化考場(chǎng)和直錄播教室,這些教室都安裝了標(biāo)清或高清攝像頭;還有些學(xué)校從安全角度考慮,在教室內(nèi)安裝了安防攝像頭。利用這些攝像頭的視頻幀,結(jié)合深度學(xué)習(xí)技術(shù)進(jìn)行到課人數(shù)統(tǒng)計(jì),既可以最大限度地利用現(xiàn)有資源,又能給學(xué)校教學(xué)管理部門提供亟須的到課率統(tǒng)計(jì)數(shù)據(jù)。為此,本研究在通過可行性驗(yàn)證的基礎(chǔ)上設(shè)計(jì)了一套完整的基于深度學(xué)習(xí)的到課率統(tǒng)計(jì)系統(tǒng),具體設(shè)計(jì)思想如下:
1 可行性分析
首先,教室中的攝像頭從像素上分為標(biāo)清和高清兩類,其中標(biāo)清攝像頭的像素在30萬左右,高清攝像頭的像素在100萬左右。標(biāo)清攝像頭雖然無法用于教室環(huán)境下的人臉識(shí)別,但對(duì)于“頭部識(shí)別”卻沒有太大的影響。其次,這些攝像頭都支持標(biāo)準(zhǔn)的實(shí)時(shí)流傳輸協(xié)議(RTSP),可以較為方便地獲得不同廠商的攝像頭視頻流。最后,近年來基于多層神經(jīng)的深度學(xué)習(xí)技術(shù)日趨成熟,特別是在模式識(shí)別領(lǐng)域表現(xiàn)優(yōu)異,業(yè)界也開發(fā)出Caffe、PyTorch等成熟的深度學(xué)習(xí)框架。因此,從技術(shù)角度來看,本研究方法是可行的。
2 系統(tǒng)實(shí)現(xiàn)流程
到課人數(shù)統(tǒng)計(jì)是典型的模式識(shí)別問題,主要思想是通過識(shí)別人的頭部特征,來判斷在課堂環(huán)境下,哪些是“人”,哪些不是。因此,本研究基于深度學(xué)習(xí)框架設(shè)計(jì)的到課率統(tǒng)計(jì)系統(tǒng)的實(shí)現(xiàn)流程是:①采集教室上課照片,對(duì)人的頭部進(jìn)行標(biāo)注;②基于PyTorch深度學(xué)習(xí)框架,搭建到課人數(shù)統(tǒng)計(jì)模型;③利用標(biāo)注好的照片,對(duì)到課人數(shù)統(tǒng)計(jì)模型進(jìn)行訓(xùn)練(監(jiān)督學(xué)習(xí)),經(jīng)過多輪調(diào)整、優(yōu)化、迭代,得到成熟的到課人數(shù)統(tǒng)計(jì)模型;④在服務(wù)器上部署模型;⑤通過對(duì)教室攝像頭RTSP視頻流進(jìn)行抽幀,將視頻幀輸入模型,計(jì)算每幀中的到課人數(shù);⑥通過與課表數(shù)據(jù)對(duì)接,在上課時(shí)間準(zhǔn)點(diǎn)、上課開始后若干分鐘、課程結(jié)束前若干分鐘分別抽幀并統(tǒng)計(jì)人頭數(shù),生成到課率、遲到率、早退率等數(shù)據(jù);⑦通過對(duì)接課表、院系、教師等數(shù)據(jù),生成不同維度的到課率統(tǒng)計(jì)報(bào)告,供院系管理者和學(xué)校教學(xué)管理部門參考。具體的實(shí)現(xiàn)流程如圖1所示。
3 機(jī)器學(xué)習(xí)框架的選擇
目前已有多種成熟的深度學(xué)習(xí)框架,其中由Facebook人工智能研究院基于Torch開發(fā)的PyTorch開源深度學(xué)習(xí)框架廣受科研人員的青睞。PyTorch底層由C++實(shí)現(xiàn),簡(jiǎn)潔、高效、快速、功能強(qiáng)大,并且可以部署于CPU服務(wù)器,在科研和工程領(lǐng)域都很適用。因此,本研究選擇基于PyTorch機(jī)器學(xué)習(xí)框架搭建課堂學(xué)生頭部識(shí)別模型。
4 模型訓(xùn)練
剛搭建好的到課人數(shù)統(tǒng)計(jì)模型未經(jīng)過深度學(xué)習(xí)訓(xùn)練,準(zhǔn)確率不高,因此還需要標(biāo)注一定數(shù)量的課堂照片用于模型訓(xùn)練、調(diào)優(yōu)和迭代。為了提高模型識(shí)別的準(zhǔn)確度,在系統(tǒng)運(yùn)行后,還需要將識(shí)別錯(cuò)誤的照片進(jìn)行重新標(biāo)注,再對(duì)模型進(jìn)行新一輪的訓(xùn)練,如此反復(fù)迭代多次,不斷調(diào)整和優(yōu)化模型參數(shù),最終得到令人滿意的結(jié)果。
5 模型的部署
與所有深度學(xué)習(xí)模型部署過程類似,在公開數(shù)據(jù)集上預(yù)訓(xùn)練好的頭部檢測(cè)模型需要在教室場(chǎng)景下進(jìn)行定制化微調(diào),這就需要采集教室場(chǎng)景下的數(shù)據(jù)對(duì)模型進(jìn)行定制化訓(xùn)練。該系統(tǒng)的場(chǎng)景是課堂教學(xué)環(huán)境,移動(dòng)干擾較少,場(chǎng)景固定,定制化訓(xùn)練后的到課人數(shù)統(tǒng)計(jì)模型會(huì)有比較高的性能。同時(shí),各個(gè)攝像頭采集到的課堂場(chǎng)景比較類似,因此定制化訓(xùn)練后的模型在課堂場(chǎng)景下會(huì)有比較好的泛化能力,可以較為容易地推廣到其他教室。
三 系統(tǒng)的實(shí)現(xiàn)與實(shí)踐
研究團(tuán)隊(duì)基于上述的設(shè)計(jì)思想,在上海市A大學(xué)的數(shù)據(jù)中心部署了一臺(tái)業(yè)務(wù)處理服務(wù)器和一臺(tái)到課人數(shù)統(tǒng)計(jì)服務(wù)器。其中,業(yè)務(wù)處理服務(wù)器通過同步教務(wù)系統(tǒng)數(shù)據(jù),按照事先設(shè)定的業(yè)務(wù)邏輯,發(fā)送采集指令給到課人數(shù)統(tǒng)計(jì)服務(wù)器,采集指令包括采集時(shí)間和攝像頭的IP地址。到課人數(shù)統(tǒng)計(jì)服務(wù)器按照指定的時(shí)間和IP地址從攝像頭上采集視頻幀并計(jì)算人數(shù),將結(jié)果以Json格式發(fā)回給業(yè)務(wù)處理服務(wù)器。業(yè)務(wù)處理服務(wù)器再結(jié)合教務(wù)系統(tǒng)、人事系統(tǒng)和學(xué)工系統(tǒng)數(shù)據(jù),從各個(gè)維度統(tǒng)計(jì)到課率。
1 到課人數(shù)統(tǒng)計(jì)模型的構(gòu)建
在課堂人數(shù)統(tǒng)計(jì)的應(yīng)用場(chǎng)景下,需要識(shí)別的目標(biāo)實(shí)例較多,實(shí)例密度較大,且各實(shí)例在圖像上的占比較小,對(duì)算力的要求也較高,但考慮到系統(tǒng)的可推廣性,到課人數(shù)統(tǒng)計(jì)模塊又不能占用太大的算力資源。這些場(chǎng)景特點(diǎn)和約束條件要求算法模型的參數(shù)量不宜過大,但推理速度又必須足夠快。針對(duì)這樣密集的人頭部檢測(cè)任務(wù),研究團(tuán)隊(duì)在輕量級(jí)的小目標(biāo)檢測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)1MB-RFB的基礎(chǔ)上,設(shè)計(jì)了一個(gè)1MB的輕量級(jí)到課人數(shù)統(tǒng)計(jì)模型,并對(duì)模型結(jié)構(gòu)進(jìn)行了改進(jìn),使其在保持現(xiàn)有推理性能的前提下進(jìn)一步提升識(shí)別性能。
1MB小目標(biāo)檢測(cè)項(xiàng)目是業(yè)界影響力較高的開源項(xiàng)目,其模型結(jié)構(gòu)1MB-RFB(如圖2所示)主要針對(duì)邊端低算力設(shè)備進(jìn)行設(shè)計(jì),在檢測(cè)任務(wù)上以較低算力獲取較好的識(shí)別性能。原始的1MB-RFB采用單步多框目標(biāo)檢測(cè)(Single Shot MultiBox Detector,SSD)的基礎(chǔ)結(jié)構(gòu),改進(jìn)了初始特征學(xué)習(xí)部分和中間層不同尺度特征學(xué)習(xí)部分的網(wǎng)絡(luò)(改進(jìn)后的結(jié)構(gòu)分別對(duì)應(yīng)如圖2左側(cè)和中間部分),初始特征學(xué)習(xí)部分采用DepthwiseConv在端側(cè)提升模型的運(yùn)行速度,中間層采用Inception結(jié)構(gòu)加強(qiáng)多尺度特征的融合。同時(shí),網(wǎng)絡(luò)根據(jù)檢測(cè)任務(wù)減少了各個(gè)特征圖的特征維度,進(jìn)一步提升了模型的推理性能。
在實(shí)驗(yàn)過程中,研究團(tuán)隊(duì)發(fā)現(xiàn),1MB-RFB初始特征學(xué)習(xí)部分特征圖的尺度下降速度過快會(huì)影響模型底層特征的表達(dá),進(jìn)而影響模型的推理性能,需要找到一種在快速降低特征尺度的同時(shí)又能保持底層特征表達(dá)能力的結(jié)構(gòu)。為此,研究團(tuán)隊(duì)嘗試不同的網(wǎng)絡(luò)結(jié)構(gòu)及其參數(shù)的排列組合,結(jié)合人頭檢測(cè)任務(wù)平衡特征檢測(cè)性能和推理速度,最終選取Depthwise+CReLU的組合。
在網(wǎng)絡(luò)中間層不同尺度特征學(xué)習(xí)部分,原始的1MB模型采用Inception結(jié)構(gòu),此結(jié)構(gòu)會(huì)計(jì)算多種維度特征并在最后進(jìn)行融合,因而會(huì)消耗較多的算力。同時(shí),多層特征的存儲(chǔ)和訪問也會(huì)帶來更多的I/O操作,降低網(wǎng)絡(luò)的推理速度。如果能找到一個(gè)統(tǒng)一的Block結(jié)構(gòu)來進(jìn)行中間層部分的特征學(xué)習(xí),將會(huì)明顯改善模型性能,加快模型的推理速度。為此,研究團(tuán)隊(duì)先后嘗試了ShuffleBlock、CGBlock、MBBlock等多種結(jié)構(gòu),并根據(jù)參數(shù)量和計(jì)算量定義這些模塊的維度參數(shù)。通過比較,最終選取MBBlock作為中間部分特征學(xué)習(xí)的基礎(chǔ)模塊。綜合上述兩部分的改進(jìn),本研究團(tuán)隊(duì)構(gòu)建了如圖3所示的輕量模型結(jié)構(gòu),將其命名為1MB-Plus。
2 模型對(duì)比結(jié)果
為了測(cè)試1MB-Plus到課人數(shù)統(tǒng)計(jì)模型的性能,本研究團(tuán)隊(duì)使用了開放數(shù)據(jù)集WIDER FACE進(jìn)行驗(yàn)證。該數(shù)據(jù)集包含393703張標(biāo)注人臉,這些人臉在尺度、姿勢(shì)、標(biāo)準(zhǔn)、表達(dá)、裝扮和光照方面都有不同的體現(xiàn),是業(yè)界較為常用的人臉檢測(cè)數(shù)據(jù)集。
研究團(tuán)隊(duì)使用數(shù)據(jù)集提供的切分方式進(jìn)行模型訓(xùn)練測(cè)試,為了更貼近真實(shí)使用場(chǎng)景,在測(cè)試時(shí)對(duì)圖像進(jìn)行統(tǒng)一的尺度操作——將測(cè)試圖像進(jìn)行等比例縮放,分別保持圖像不超過320×240和640×480。本研究將1MB-Plus與1MB的另外兩個(gè)版本1MB-slim、1MB-RFB進(jìn)行了對(duì)照,得到Wider-face檢測(cè)性能測(cè)試的對(duì)照結(jié)果如表1所示??梢钥闯觯?MB-Plus模型各方面的性能均優(yōu)于1MB模型所提供的slim模型和RFB模型。
在推理速度方面,研究團(tuán)隊(duì)使用聯(lián)想Thinkpad T450筆記本電腦、邊端設(shè)備RK3399以及云上設(shè)備P40分別進(jìn)行推理速度測(cè)試,得到的數(shù)據(jù)如表2所示??梢钥闯觯?MB-Plus模型比1MB-RFB模型推理速度更快。
3 訓(xùn)練數(shù)據(jù)采集與標(biāo)注
整個(gè)模型采用“預(yù)標(biāo)注-人工修正-模型訓(xùn)練-系統(tǒng)部署”的方式進(jìn)行多次迭代,以不斷提高性能。為了獲得真實(shí)場(chǎng)景照片以對(duì)模型進(jìn)行持續(xù)訓(xùn)練,研究團(tuán)隊(duì)將系統(tǒng)部署在上海市A大學(xué)的數(shù)據(jù)中心。該校有120間教室安裝了攝像頭,系統(tǒng)對(duì)部分教室隨機(jī)采集500張左右的上課照片,每張照片均為30~60萬像素,共獲得5000張課堂照片。
對(duì)采集到的照片進(jìn)行人工分析,可以發(fā)現(xiàn)由于每間教室攝像頭安裝的位置、角度和高度都不盡不同,學(xué)生上課時(shí)坐座位也有相當(dāng)?shù)碾S意性,因此教室照片中的學(xué)生頭部會(huì)出現(xiàn)多種情況,影響識(shí)別效果。圖4展示的就是其中一節(jié)課的課堂場(chǎng)景。
在圖4中,位置1的學(xué)生頭部被手遮擋;位置2的學(xué)生低下頭,看不見面部;位置3的學(xué)生也低下頭,只能看見黑色頭發(fā),且被前面的同學(xué)遮擋了一部分頭部;位置4的學(xué)生戴了白色的帽子,且面部被帽檐遮擋。
為了在降低標(biāo)注成本的同時(shí)提高標(biāo)注效率,研究團(tuán)隊(duì)先使用基于開源數(shù)據(jù)集訓(xùn)練好的1MB-Plus模型對(duì)采集的圖片進(jìn)行預(yù)標(biāo)注,然后利用Labelme工具對(duì)預(yù)標(biāo)注的結(jié)果進(jìn)行人工校正。通過對(duì)預(yù)標(biāo)注結(jié)果進(jìn)行抽樣檢查,發(fā)現(xiàn)預(yù)標(biāo)注錯(cuò)誤主要有三種類型:漏標(biāo)、錯(cuò)標(biāo)、重復(fù)標(biāo)注。圖5為預(yù)標(biāo)注結(jié)果示例,圖中位置1~7為漏標(biāo),位置8和9為誤標(biāo),位置10為重復(fù)標(biāo)注。
在預(yù)標(biāo)注結(jié)果中隨機(jī)抽取500張照片進(jìn)行人工統(tǒng)計(jì),發(fā)現(xiàn)預(yù)標(biāo)注準(zhǔn)確率在70%~80%之間,并不理想;采用人工手段修正錯(cuò)誤標(biāo)注,并進(jìn)行新一輪機(jī)器學(xué)習(xí)后,再隨機(jī)抽樣500張照片進(jìn)行人工統(tǒng)計(jì),發(fā)現(xiàn)預(yù)標(biāo)注準(zhǔn)確率已接近90%,有明顯提升;采用人工手段對(duì)錯(cuò)誤的標(biāo)注繼續(xù)進(jìn)行修正,再重新進(jìn)行第三輪機(jī)器學(xué)習(xí),隨機(jī)抽取500張照片進(jìn)行人工統(tǒng)計(jì),發(fā)現(xiàn)預(yù)標(biāo)注準(zhǔn)確率為97.3%,說明模型已經(jīng)收斂,準(zhǔn)確度能滿足學(xué)校教學(xué)管理部門對(duì)到課率統(tǒng)計(jì)數(shù)據(jù)的要求。
4 系統(tǒng)架構(gòu)
整個(gè)系統(tǒng)除自身的數(shù)據(jù)處理和業(yè)務(wù)邏輯外,還涉及與多個(gè)外部系統(tǒng)進(jìn)行通信和信息交換。系統(tǒng)的復(fù)雜性和對(duì)處理能力的要求決定了該系統(tǒng)架構(gòu)是一個(gè)分布式的異步系統(tǒng),不同的任務(wù)和功能需要分別運(yùn)行在不同的計(jì)算節(jié)點(diǎn)上。同時(shí),考慮到系統(tǒng)的迭代升級(jí),系統(tǒng)的架構(gòu)設(shè)計(jì)需要滿足可擴(kuò)展性要求。按照功能劃分,系統(tǒng)整體架構(gòu)包括四個(gè)模塊,分別為視頻幀采集模塊、到課人數(shù)統(tǒng)計(jì)模塊、業(yè)務(wù)系統(tǒng)對(duì)接及數(shù)據(jù)交換模塊、數(shù)據(jù)存儲(chǔ)模塊。
(1)各模塊功能
①視頻幀采集模塊。本系統(tǒng)采用攝像頭生產(chǎn)廠商提供的SDK與視頻監(jiān)控服務(wù)器通訊來獲得視頻幀。視頻幀獲取是一個(gè)異步的過程,需要編寫和配置正確的回調(diào)函數(shù)。而每獲取一個(gè)視頻幀,系統(tǒng)需要與監(jiān)控服務(wù)器進(jìn)行三次異步通訊。該模塊的主要難點(diǎn)在于管理120余個(gè)視頻源的異步通訊,并正確處理通訊過程中可能出現(xiàn)的各種異常,如超時(shí)、抖動(dòng)等。
②到課人數(shù)統(tǒng)計(jì)模塊。該模塊是純計(jì)算模塊,對(duì)算力要求比較高,同時(shí)在功能上獨(dú)立性比較強(qiáng),因此在進(jìn)行架構(gòu)設(shè)計(jì)時(shí),需要將其作為獨(dú)立的模塊運(yùn)行在一個(gè)單獨(dú)的計(jì)算節(jié)點(diǎn)上。為了增強(qiáng)系統(tǒng)的可擴(kuò)展性,整個(gè)模塊被打包成一個(gè)Docker鏡像,并通過容器的方式進(jìn)行部署。同時(shí),模塊會(huì)對(duì)外提供一個(gè)RESTful服務(wù)接口,視頻幀采集模塊將采集到的視頻圖片通過HTTP請(qǐng)求發(fā)送給該服務(wù)接口,檢測(cè)模塊完成頭部檢測(cè)后,將結(jié)果以HTTP Response形式返回。
③業(yè)務(wù)系統(tǒng)對(duì)接及數(shù)據(jù)交換模塊。該模塊需要對(duì)接兩個(gè)外部業(yè)務(wù)系統(tǒng)和一個(gè)數(shù)據(jù)存儲(chǔ)模塊。其中,對(duì)接的外部業(yè)務(wù)系統(tǒng)包括教務(wù)處的課表系統(tǒng)和到課率統(tǒng)計(jì)系統(tǒng)的上層應(yīng)用。課表信息存儲(chǔ)在Oracle數(shù)據(jù)庫中,業(yè)務(wù)系統(tǒng)對(duì)接模塊需要定時(shí)從該數(shù)據(jù)庫中讀取課表信息,并且根據(jù)當(dāng)日的課表信息,自動(dòng)創(chuàng)建視頻抓拍任務(wù)。到課人數(shù)統(tǒng)計(jì)模塊會(huì)在每日凌晨2點(diǎn)觸發(fā)一個(gè)定時(shí)任務(wù),該定時(shí)任務(wù)從課表系統(tǒng)拉取當(dāng)日的課表信息進(jìn)行解析,然后生成一系列的定時(shí)抓拍任務(wù)。每個(gè)抓拍任務(wù)對(duì)應(yīng)一個(gè)定時(shí)器,當(dāng)定時(shí)器到期的時(shí)候,系統(tǒng)自動(dòng)觸發(fā)抓拍任務(wù),調(diào)用視頻幀采集模塊向抓拍任務(wù)指定的攝像頭發(fā)送抓拍指令,并將抓拍的圖片發(fā)送給到課人數(shù)統(tǒng)計(jì)模塊進(jìn)行處理,返回的結(jié)果則發(fā)送給上層應(yīng)用進(jìn)行統(tǒng)計(jì)和展示,同時(shí)發(fā)送給數(shù)據(jù)存貯模塊進(jìn)行持久化。為了充分解耦前端業(yè)務(wù)系統(tǒng)(業(yè)務(wù)處理服務(wù)器)和后端計(jì)算系統(tǒng)(到課人數(shù)統(tǒng)計(jì)服務(wù)器)之間的關(guān)聯(lián),人數(shù)統(tǒng)計(jì)模塊中生成的到課人數(shù)結(jié)果通過RESTful接口向外部發(fā)布。上層的應(yīng)用處理模塊和數(shù)據(jù)存儲(chǔ)模塊均打開一個(gè)監(jiān)聽接口,接收到課人數(shù)統(tǒng)計(jì)系統(tǒng)發(fā)來的數(shù)據(jù)。
④數(shù)據(jù)存儲(chǔ)模塊。本模塊存儲(chǔ)課程唯一記錄號(hào)、抓拍到的圖片和圖片中的到課人數(shù)統(tǒng)計(jì)結(jié)果。數(shù)據(jù)存儲(chǔ)模塊不僅存數(shù)據(jù),還需要滿足簡(jiǎn)單、輕量級(jí)的查詢?nèi)蝿?wù)。考慮到需要存儲(chǔ)的數(shù)據(jù)較為簡(jiǎn)單,查詢要求不高,本系統(tǒng)采用了基于文件的MySQL存儲(chǔ)方案,以簡(jiǎn)化系統(tǒng)復(fù)雜度。為了留有擴(kuò)展余地,數(shù)據(jù)存儲(chǔ)模塊作為獨(dú)立的服務(wù)可部署在不同的節(jié)點(diǎn)上,其對(duì)外的數(shù)據(jù)通信通過RESTful接口實(shí)現(xiàn)。因此,如果將來由于業(yè)務(wù)發(fā)展需要升級(jí)數(shù)據(jù)存儲(chǔ)模塊,可在不影響系統(tǒng)中其他模塊正常運(yùn)行的前提下單獨(dú)進(jìn)行。
(2)數(shù)據(jù)生成與使用
到課人數(shù)統(tǒng)計(jì)模塊通過同步課表數(shù)據(jù),從每節(jié)課的上課時(shí)間點(diǎn)開始,在課程開始后的前5分鐘、中間5分鐘和最后5分鐘,每分鐘從攝像頭視頻流采集一幀圖像用于計(jì)算到課人數(shù),然后將人數(shù)、課程號(hào)、課堂照片等數(shù)據(jù)以Json格式編碼作為HTTP的Body發(fā)送給前端業(yè)務(wù)模塊。
對(duì)于每一節(jié)課,前端業(yè)務(wù)模塊會(huì)收到多個(gè)推送過來的到課人數(shù)統(tǒng)計(jì)結(jié)果。受抓拍條件、人員流動(dòng)及算法自身的影響,對(duì)于同一節(jié)課,后端每次推送過來的到課人數(shù)是存在差異的,因此前端應(yīng)用通過計(jì)算平均值從多次到課人數(shù)統(tǒng)計(jì)結(jié)果中得到一個(gè)更為可靠的最終結(jié)果。具體算法是:課程開始后的前5分鐘計(jì)算到課人數(shù)平均值,作為按時(shí)到課人數(shù),用于計(jì)算準(zhǔn)時(shí)出勤率和遲到率;課程中間5分鐘計(jì)算到課人數(shù)平均值,作為課堂到課人數(shù),用于統(tǒng)計(jì)到課率;課程最后5分鐘計(jì)算到課人數(shù)平均值,用于計(jì)算早退率。
將到課人數(shù)數(shù)據(jù)與課程信息表、選課信息表、學(xué)生基本信息表等數(shù)據(jù)表進(jìn)行關(guān)聯(lián)計(jì)算,在院長和系主任端顯示各學(xué)院和各專業(yè)的到課率情況,并可按教師、班級(jí)、教學(xué)周、學(xué)期等不同維度進(jìn)行查詢;在教務(wù)處及分管教學(xué)校領(lǐng)導(dǎo)端可按專業(yè)、學(xué)院、年級(jí)、教學(xué)周、學(xué)期等不同維度進(jìn)行查詢,為學(xué)校各級(jí)教學(xué)管理者提供參考數(shù)據(jù)。圖6所示為到課率數(shù)據(jù)在用戶端的展示。
本系統(tǒng)的前端基于HTML5設(shè)計(jì),具有自適應(yīng)性,可以方便地在PC端和移動(dòng)端使用。基于學(xué)校的統(tǒng)一組織架構(gòu)圖和統(tǒng)一身份認(rèn)證,可以為不同角色的用戶提供相應(yīng)的授權(quán),以保障數(shù)據(jù)安全。為穩(wěn)妥推進(jìn)系統(tǒng)應(yīng)用,教務(wù)管理部門選擇兩個(gè)學(xué)院進(jìn)行試點(diǎn),每個(gè)月給學(xué)院分管教學(xué)副院長發(fā)送本月到課率統(tǒng)計(jì)報(bào)告,報(bào)告內(nèi)容不僅包括本學(xué)院到課率情況,也提供橫向?qū)Ρ葦?shù)據(jù)(全校平均到課率、各學(xué)院平均到課率等),分管教學(xué)副院長也可以自行登錄平臺(tái)查詢具體到課率情況和現(xiàn)場(chǎng)照片。每月發(fā)送的到課率統(tǒng)計(jì)數(shù)據(jù)提高了試點(diǎn)學(xué)院對(duì)到課率的重視,也給學(xué)院教學(xué)管理工作提供了數(shù)據(jù)支持,經(jīng)2023年3月~7月一個(gè)學(xué)期的試用,兩個(gè)學(xué)院的平均到課率均有8%以上的提升,說明本系統(tǒng)對(duì)于學(xué)校的教學(xué)管理和督導(dǎo)具有一定的作用。
四 結(jié)論與展望
本研究設(shè)計(jì)的基于深度學(xué)習(xí)的到課率統(tǒng)計(jì)系統(tǒng)在生產(chǎn)環(huán)境下獲得了97.3%的準(zhǔn)確率,且具有較好的魯棒性,已經(jīng)可以滿足學(xué)校宏觀教學(xué)管理對(duì)到課率統(tǒng)計(jì)的要求,充分說明本系統(tǒng)設(shè)計(jì)的科學(xué)性和有效性。同時(shí),本系統(tǒng)最大程度地利用了高?,F(xiàn)有的IT硬件資源,且基于開源框架和開源系統(tǒng)進(jìn)行開發(fā)與部署,具有良好的經(jīng)濟(jì)性和可復(fù)制性。但是,由于深度學(xué)習(xí)原理和機(jī)制的限制,當(dāng)有新教室接入本系統(tǒng)的時(shí)候,需要拍攝一定量的課堂照片進(jìn)行新一輪的機(jī)器學(xué)習(xí)才能保證識(shí)別的準(zhǔn)確率;而且攝像頭的安裝位置、角度對(duì)本系統(tǒng)的識(shí)別準(zhǔn)確率都有一定的影響。在后續(xù)的系統(tǒng)迭代和升級(jí)中,可以考慮對(duì)深度學(xué)習(xí)模型做進(jìn)一步優(yōu)化,以提升性能。優(yōu)化的方向主要有兩條:一是獲取更多的線上數(shù)據(jù),并通過人工標(biāo)注后反哺給模型,以提升模型性能。這種方法可以最大程度地挖掘現(xiàn)有模型的潛力,將其性能充分發(fā)揮出來。二是采用新的深度學(xué)習(xí)模型,通過檢測(cè)整個(gè)人體(考慮到教室場(chǎng)景,主要是坐姿下的人體檢測(cè))來達(dá)到識(shí)別到課人數(shù)的目的。這種方法可以突破現(xiàn)有模型的性能瓶頸,有望帶來更好的識(shí)別效果,但需要更大的投入,且結(jié)果有一定的不確定性。
參考文獻(xiàn)
[1]Sam D B, Surya S, Babu R V. Switching convolutional neural network for crowd counting[A]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Honolulu: IEEE Computer Society, 2017:4031-4039.
[2]Damale R C, Pathak B V. Face recognition based attendance system using machine learning algorithms[A]. 2018 Second International Conference on Intelligent Computing and Control Systems (ICICCS)[C]. Madurai: IEEE, 2018:414-419.
[3]陳久紅,張海玉.基于深度學(xué)習(xí)的教室人數(shù)統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)[J].軟件導(dǎo)刊,2019,(10):27-29、35.
[4]張曉強(qiáng),王迅,楊航,等.基于智能視覺物聯(lián)網(wǎng)的教室人數(shù)跟蹤系統(tǒng)[J].圖像與信號(hào)處理,2019,(2):8.
[5]Yudin D, Ivanov A, Shchendrygin M. Detection of a human head on a low-quality image and its software implementation[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2019,42:237-241.
[6]Monti L, Tse R, Tang S K, et al. Edge-based transfer learning for classroom occupancy detection in a smart campus context[J]. Sensors, 2022,(10):3692.
[7]Yi K, Yan S, Liu L, et al. CCSS: An effective object detection system for classroom crowd statistics[A]. 2022 IEEE 46th Annual Computers, Software, and Applications Conference(COMPSAC)[C]. Los Alamitos: IEEE, 2022:111-116.
[8]劉媛,陳小麗,屠增輝,等.基于改進(jìn)RetinaFace算法的教室人數(shù)統(tǒng)計(jì)方法[J].計(jì)算機(jī)與數(shù)字工程,2022,(9):1887-1890、1916.
[9]何強(qiáng),李靜,陳琳琳.基于改進(jìn)YOLO V3算法的室內(nèi)人數(shù)統(tǒng)計(jì)模型[J]. Hans Journal of Data Mining, 2023,(1):10-22.
[10]Niu W, Sun X, Yi K. Improved YOLOv5 for skeleton-based classroom behavior recognition[A]. Third International Conference on Intelligent Computing and Human-Computer Interaction(ICHCI 2022)[C]. Guangzhou: SPIE, 2023:107-112.
[11]Fu R, Wang D, Li D, et al. University classroom attendance based on deep learning[A]. 2017 10th International Conference on Intelligent Computation Technology and Automation(ICICTA)[C]. Changsha: IEEE, 2017:128-131.
[12]單華標(biāo),龍華偉.高校點(diǎn)名方法和系統(tǒng)[P].中國專利:CN113256834A,2021-8-13.
[13]胡青松,張淳一,陳艷.一種融合WiFi數(shù)據(jù)與人臉識(shí)別的課堂點(diǎn)名方法[P].中國專利: CN112734966A,2021-04-30.
Design and Implementation of a Class Attendance Statistics System Based on Deep Learning
Abstract: As a macro teaching management data, class attendance rate plays an important role in the teaching management of colleges and universities. Although some digital methods of class attendance rate statistics methods have emerged in recent years to solve the problems of time, effort and lag in traditional class attendance statistics, they cannot be popularized due to high cost, inconvenient use and low accuracy. With the development of technology, the accuracy of deep learning in multi-target detection is increasingly higher, helping to solve such problems. Therefore, this paper used deep learning technology to design a 1MB-Plus model based on classroom camera RTSP video stream to recognize arriving students heads, and applied it to the class attendance statistics in more than 100 classrooms of a university, and obtained the accuracy of 97.3%. The experiment also showed that the model was helpful to solve the problems of class attendance statistics. Through research, this paper was aimed to provide more accurate macroscopic attendance data for the educational administration departments of colleges and universities at the lowest cost, so as to assist the school teaching management.
KeyWords: class attendance statistics; machine learning; pattern recognition; crowd counting; head detection