戴海云 張 明
(江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 鎮(zhèn)江 212003)
目前將人臉表情識(shí)別作為課堂質(zhì)量分析的研究還不夠廣泛。而且在現(xiàn)實(shí)中,課堂中往往缺乏老師與學(xué)生的溝通交流,只重視老師對(duì)課堂所教學(xué)的內(nèi)容的同時(shí),會(huì)忽視對(duì)課堂能給出直觀感受的學(xué)生的反饋信息。雖然也有傳統(tǒng)的課堂質(zhì)量分析,比如專(zhuān)業(yè)人員進(jìn)行人工記錄或者學(xué)生課后問(wèn)卷打分[1],這些都帶有主觀因素和滯后性。全國(guó)都在推行素質(zhì)教育,而課堂作為教學(xué)最關(guān)鍵且最主要的方式,所以老師對(duì)學(xué)生的臉部表情的反饋更能夠知道該學(xué)生對(duì)自己的教學(xué)是否適用。比如,老師在課堂上看見(jiàn)學(xué)生是眼睛張開(kāi),嘴角上揚(yáng),愉悅地望向自己,他應(yīng)該就會(huì)知道這個(gè)學(xué)生對(duì)自己的教學(xué)內(nèi)容有了理解,那么此刻老師就可以適時(shí)地進(jìn)入下一個(gè)講解,但若是看見(jiàn)學(xué)生眉毛緊皺,嘴角下拉,甚至是疲憊的狀態(tài),那么老師可以結(jié)合自己的多年教學(xué)經(jīng)驗(yàn)得出此刻學(xué)生有疑惑或未理解,那么老師即可作調(diào)整。但是老師不會(huì)一直將注意力放在學(xué)生的表情和對(duì)其的分析上,也不能全面兼顧到全班所有同學(xué)的表情變化,用計(jì)算機(jī)技術(shù)來(lái)作為輔助老師對(duì)自己的學(xué)生的表情識(shí)別和記錄,對(duì)課堂質(zhì)量做出分析,從而調(diào)整教學(xué)進(jìn)度和改善教學(xué)方法,那么是非常實(shí)時(shí)、客觀且有意義的事情。
在基于深度學(xué)習(xí)方法的靜態(tài)表情識(shí)別[2]學(xué)習(xí)研究中,雖然取得了良好的識(shí)別效果,但是在課堂中學(xué)生的表情的發(fā)生是一個(gè)持續(xù)的過(guò)程,所以基于靜態(tài)圖像的表情識(shí)別忽略了表情的動(dòng)態(tài)信息。為解決這一問(wèn)題,本文提出了一種特征融合-BiLSTM模型用于視頻序列人臉表情識(shí)別。該網(wǎng)絡(luò)模型是融合了提取的空間信息和時(shí)序信息,再結(jié)合使用BiLSTM。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[3]兩種模型對(duì)結(jié)果的預(yù)測(cè)僅僅是依賴當(dāng)前狀態(tài)的若干個(gè)前序狀態(tài),是沒(méi)有辦法做到對(duì)后序信息的編碼操作。但是,由前序若干狀態(tài)和后序若干狀態(tài)共同作為輸入對(duì)結(jié)果的預(yù)測(cè)會(huì)更好。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Short-Term Memory,BiLSTM)[4]可滿足以上敘述的要求。
前序LSTM 和后序LSTM 共同組合成BiLSTM,其神經(jīng)元狀態(tài)不僅和上一刻的本身狀態(tài)有關(guān),而且和下一刻的自身狀態(tài)也相關(guān)。能夠從前序LSTM提取到過(guò)去的特征,從后序LSTM 提取到未來(lái)的特征。結(jié)構(gòu)如圖1 所示。圖中圓圈為逐點(diǎn)運(yùn)作;藍(lán)線為后向傳播;綠線為前向傳播。從雙向?qū)涌?,它從垂直向和水平向獲得信息,最終再將上層的處理信息輸出出來(lái)。
圖1 BiLSTM結(jié)構(gòu)
人臉表情的特征是由表情圖像的空間特征提供的。為了能提取出更多的更有效的表情特征,本文使用的空間特征提取網(wǎng)絡(luò)是靜態(tài)表情識(shí)別網(wǎng)絡(luò),如圖2 所示。此網(wǎng)絡(luò)提供了卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的一個(gè)關(guān)鍵點(diǎn)——深度。同時(shí)將此網(wǎng)絡(luò)結(jié)合Inception 結(jié)構(gòu),再進(jìn)行分解卷積和維度,能較大程度地減少計(jì)算成本。實(shí)驗(yàn)證明此模型在提取靜態(tài)表情特征中提供了良好的效果。
圖2 靜態(tài)表情識(shí)別網(wǎng)絡(luò)
提取表情動(dòng)態(tài)的特征是由時(shí)序信息提取網(wǎng)絡(luò)完成的,如圖3所示。圖3的說(shuō)明如下:輸入兩張表情序列圖片,這種方式的輸入可以使用網(wǎng)絡(luò)提取到短期記憶的帶臺(tái)信息,與上一節(jié)所說(shuō)的空間信息提取不同的是,空間特征提取是給出詳細(xì)的空間表情特征,此節(jié)所說(shuō)的網(wǎng)絡(luò)是將表情的時(shí)序性放于重心處。所以在時(shí)序信息網(wǎng)絡(luò)的挑選中本文優(yōu)先使用有最好識(shí)別效果的較淺的卷積神經(jīng)網(wǎng)絡(luò)。這個(gè)結(jié)構(gòu)包含兩層Conv,兩層最大Pooling,而且在每個(gè)卷積層后都使用了批量正則化層(Batch Normalization,BN)[5],批量正則化的優(yōu)點(diǎn)在于能更快收斂到局部最優(yōu)。模型的最后是一個(gè)全連接層,即FC。
圖3 提取表情動(dòng)態(tài)特征
前兩節(jié)提取到的表情空間特征和短期時(shí)序信息有相同的維度,就可以將兩種特征進(jìn)行融合。融合方法有三種,最大融合、連接融合和相加融合。經(jīng)過(guò)在CK+數(shù)據(jù)集上進(jìn)行十字交叉驗(yàn)證法,并重復(fù)3次,不同融合方法的識(shí)別效果如表1所示,根據(jù)結(jié)果最終采用連接融合特征。設(shè)PA和PB表示提取的空間特征的特征向量和提取的時(shí)序信息的特征向量,用L,W和D代表特征向量長(zhǎng)、寬和通道數(shù),Q則代表融合后的特征。在式(1)中,pA,PB∈RL×W×D,qcat∈RL×W×2D且1 ≤i≤W,1 ≤j≤W。
表1 不同融合方式的準(zhǔn)確率
上述融合特征之后,兩個(gè)網(wǎng)絡(luò)的特征向量就被轉(zhuǎn)換成時(shí)間序列。然而。這個(gè)是短期的時(shí)序信息,我們需要的是整個(gè)表情緒里的疊加時(shí)序信息,需要采用BiLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)。整個(gè)過(guò)程表示如下:
在以上三個(gè)公式中,xt表示經(jīng)過(guò)融合特征之后的向量,yt表示輸出向量,代表前向傳播隱含層和后向傳播隱含層,?表示sigmoid 激活函數(shù),e是偏置向量,A、B、C表示權(quán)重向量。
本文模型與其他模型分別在CK+數(shù)據(jù)集上進(jìn)行對(duì)比試驗(yàn),結(jié)果如表2 所示,從表中可看出本文提出的模型比最新的模型的精確度提高了,說(shuō)明特征融合-BiLSTM使得識(shí)別效果得到了提升。
表2 不同模型在CK+數(shù)據(jù)集上的識(shí)別效果
表3 表示本文的特征融合-BiLSTM 模型在數(shù)據(jù)集CK+上的混淆矩陣??梢钥闯?,可能由于happy 和angry 兩個(gè)表情特征比較明顯,這兩種的識(shí)別表現(xiàn)良好,而其他的就會(huì)較容易出現(xiàn)FN 類(lèi)型的錯(cuò)誤。
表3 特征融合-BiLSTM模型-數(shù)據(jù)集CK+混淆矩陣
課堂質(zhì)量分析直接反映學(xué)生課堂聽(tīng)講狀態(tài)和教師教學(xué)的適用性程度。實(shí)現(xiàn)課堂質(zhì)量分析劃分為兩個(gè)部分,首先通過(guò)學(xué)生的課堂表情識(shí)別結(jié)果設(shè)計(jì)出學(xué)生表情分?jǐn)?shù),此表情分?jǐn)?shù)決定聽(tīng)課狀態(tài)分類(lèi),其次能給出一節(jié)課中全部學(xué)生的聽(tīng)課狀態(tài),最終通過(guò)與教師評(píng)分對(duì)比作驗(yàn)證。
經(jīng)查閱大量表情識(shí)別與教學(xué)相關(guān)的研究[11~15],得知表情體現(xiàn)的表情特征能反映處該表情的情緒,再結(jié)合真實(shí)的課堂環(huán)境,所以得出以下的學(xué)生表情-學(xué)習(xí)情緒的分類(lèi),見(jiàn)表4。
表4 學(xué)生表情-學(xué)習(xí)情緒
對(duì)照學(xué)生表情及表情特征,本文將學(xué)習(xí)情緒分為7 類(lèi),表情識(shí)別模型可以為每類(lèi)學(xué)習(xí)情緒輸出一個(gè)置信度,作為這個(gè)表情的的可能性,這一可能性作為學(xué)生聽(tīng)課狀態(tài)評(píng)分的標(biāo)準(zhǔn)。結(jié)合上面表格,去除與課堂無(wú)關(guān)的表情,將害怕權(quán)值設(shè)為零;將蔑視作為對(duì)聽(tīng)課狀態(tài)很不好的判斷,權(quán)值設(shè)置為-3;厭惡作為對(duì)聽(tīng)課狀態(tài)不好的判斷,權(quán)值設(shè)為-2;悲傷作為對(duì)聽(tīng)課狀態(tài)較不好的判斷,權(quán)值設(shè)為-1;聽(tīng)課狀態(tài)較好、好、非常好依次對(duì)應(yīng)生氣、驚訝、開(kāi)心,權(quán)值分別為1,2,3。最后得分取值在-3~3 之間,再進(jìn)行歸一化,就可以得到學(xué)生a 在時(shí)刻t 時(shí)的表情分?jǐn)?shù),見(jiàn)式(5)。
為得到全班所有學(xué)生一幀圖片的表情分?jǐn)?shù),進(jìn)行下一操作:累加所有學(xué)生的表情權(quán)重并求其平均值,見(jiàn)式(8),snt表示學(xué)生一幀畫(huà)面識(shí)別到的學(xué)生數(shù)量。
根據(jù)一節(jié)課的總時(shí)間,將所有時(shí)刻的分?jǐn)?shù)累計(jì)取平均值,就可以得到一整節(jié)課的學(xué)生表情分?jǐn)?shù),因分布在-1~1之間,為了保證分?jǐn)?shù)在0~10之間,將權(quán)值乘上5再加上基礎(chǔ)分5分,見(jiàn)式(9)。
本文通過(guò)計(jì)算出一整節(jié)課中識(shí)別到的學(xué)生表情分?jǐn)?shù)進(jìn)而對(duì)課堂質(zhì)量作劃分,課堂質(zhì)量分為四個(gè)層次,Very Good、Good、Not bad、Bad,見(jiàn)表5。
表5 課堂質(zhì)量劃分
為了驗(yàn)證本文提出的基于人臉表情識(shí)別的課堂質(zhì)量分析是否合理,作者選擇了高中學(xué)校的一節(jié)課進(jìn)行分析,取其中20min 的時(shí)長(zhǎng),一幀為間隔將視視頻分為14400張圖片,獲取10000有效圖片,并選擇其中五名學(xué)生進(jìn)行跟蹤,將本文設(shè)計(jì)評(píng)分與教師評(píng)分作對(duì)比并分析,結(jié)果見(jiàn)表6。
表6 教師評(píng)分-本文設(shè)計(jì)評(píng)分
使用皮爾遜積矩相關(guān)系數(shù)來(lái)驗(yàn)證教師評(píng)分與本文設(shè)計(jì)評(píng)分的相關(guān)性。式(14)是皮爾遜積矩相關(guān)系數(shù)公式,式(10)和式(11)是教師評(píng)分和本文設(shè)計(jì)評(píng)分的平均值,式(12)和式(13)是教師評(píng)分和本文設(shè)計(jì)評(píng)分的標(biāo)準(zhǔn)差,sn為學(xué)生總數(shù),ti是教師評(píng)分集合,si是本文設(shè)計(jì)評(píng)分的集合。
據(jù)計(jì)算,兩者相關(guān)系數(shù)大于零,說(shuō)明本文設(shè)計(jì)評(píng)分和教師評(píng)分是存在相關(guān)性的,即本文針對(duì)基于人臉表情識(shí)別的課堂質(zhì)量設(shè)計(jì)評(píng)分是合理的。
針對(duì)目前的課堂質(zhì)量分析不多的情況,本文將智能視頻技術(shù)以及人臉表情識(shí)別技術(shù)應(yīng)用到課堂質(zhì)量分析中,為現(xiàn)在的不足提供一個(gè)相對(duì)可靠的分析依據(jù)。第一部分的工作落于對(duì)人臉表情識(shí)別算法的研究,提出了特征融合-BiLSTM 模型,提高了識(shí)別準(zhǔn)確率,也為課堂注量分析打下夯實(shí)基礎(chǔ);第二部分工作體現(xiàn)在本文提出的課堂質(zhì)量評(píng)分,依據(jù)皮爾遜積矩相關(guān)系數(shù),驗(yàn)證了其合理性。文中把較好的表情識(shí)別作為課堂質(zhì)量分析的因素是相對(duì)可靠的,但是在課堂質(zhì)量分析中,但還有一些問(wèn)題需要深挖,比如人體姿態(tài)因素、評(píng)分應(yīng)該分學(xué)科等。