于 博,陳 浩,胡東輝
(1.合肥工業(yè)大學(xué) 信息化建設(shè)與發(fā)展中心;2.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
近年來,在新冠疫情防控背景下,越來越多課程采用線上教學(xué)方式。線上教學(xué)與傳統(tǒng)課堂教學(xué)不同,教師無法在授課過程中與學(xué)生面對面進(jìn)行交流,因此不能及時(shí)了解學(xué)生的學(xué)習(xí)效果。目前線上教學(xué)效果不盡如人意,其主要原因在于師生之間的情感交互效果差,即使在課上要求學(xué)生打開攝像頭,也很難直觀地從畫面中判斷出學(xué)生的聽課狀態(tài)和對講授內(nèi)容的情感反應(yīng)。Chen[1]對線上教學(xué)效果進(jìn)行研究,發(fā)現(xiàn)由于缺乏與教師之間的情感交互,僅有48.5%的學(xué)生認(rèn)為目前線上視頻教學(xué)效果“很好”或者“好”,有67.0%的學(xué)生認(rèn)為教師應(yīng)該關(guān)注學(xué)生在線上課堂中的聽課狀態(tài)。此外,如果教師要求學(xué)生在線上課堂中打開攝像頭,學(xué)生的面部隱私存在泄露風(fēng)險(xiǎn)。因此,亟需提出一種既能加強(qiáng)師生情感交互,又能兼顧學(xué)生面容隱私保護(hù)的線上視頻教學(xué)可行方案。
現(xiàn)有的線上教學(xué)情感分析和隱私保護(hù)研究工作存在較大局限性。針對線上教學(xué)情感分析,Wang 等[2]提出基于大數(shù)據(jù)的情感挖掘和情感共詞分析算法,根據(jù)學(xué)生在線上課堂中文字形式的發(fā)言與評論分析學(xué)生對課堂講授內(nèi)容的接受程度;Fang[3]提出線上教學(xué)討論社區(qū)模型,通過學(xué)生和教師在討論社區(qū)的互動(dòng)以加強(qiáng)師生的情感交互。然而,這些方法都沒有解決視頻教學(xué)實(shí)時(shí)場景中的師生情感交互問題。因此,在實(shí)際的線上教學(xué)中,師生情感交互效果仍然難以得到提升。對于線上教學(xué)的隱私保護(hù)問題,目前的研究僅局限于網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中的風(fēng)險(xiǎn)和互聯(lián)網(wǎng)架構(gòu)本身的缺陷,關(guān)注和解決的隱私泄露風(fēng)險(xiǎn)包括ARP緩存中毒、MITM 攻擊、跨站點(diǎn)請求偽造、跨腳本攻擊、SQL注入、會(huì)話劫持等問題。這些研究成果雖然能在一定程度上解決由網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu)缺陷造成的線上視頻教學(xué)數(shù)據(jù)泄露問題,但是并沒有關(guān)注到線上視頻教學(xué)中學(xué)生面部信息的隱私保護(hù)問題。
YouTube[4]和微軟Azure[5]分別開發(fā)了離線自動(dòng)像素化工具,以保護(hù)主播或上傳者無意中拍攝的人的面部隱私。離線自動(dòng)像素化工具采用檢測跟蹤結(jié)構(gòu),由隱私敏感目標(biāo)檢測器和多目標(biāo)跟蹤器組成,其像素化的性能取決于檢測器與跟蹤器的性能。遺憾的是,由于缺乏訓(xùn)練樣本和對視頻上下文的理解,檢測器的準(zhǔn)確性并不令人滿意。針對離線像素化工具存在的問題,Zhou 等[6]提出一種隱私敏感對象像素化(PsOP)框架,用于自動(dòng)過濾實(shí)時(shí)視頻流中的人臉隱私。該框架解決了視頻流識別的準(zhǔn)確度、精細(xì)度和過像素化問題,但其只能實(shí)現(xiàn)在線教育過程中的面部信息隱私保護(hù),無法實(shí)現(xiàn)面部情緒分析與反饋。
傳統(tǒng)面部情感識別方法基于面部特征提取,將其作為判別面部情感的依據(jù)。面部特征提取是指從輸入的人臉圖像中提取有用信息,主要包括圖像的紋理特征或五官特征。該方法的準(zhǔn)確性和有效性很大程度上取決于特征提取方法,其大致分為4 類:①基于紋理信息的特征提取方法,如小波變換、局部二值模式等;②基于邊緣信息的特征提取方法,如線性邊緣圖、梯度方向直方圖等;③基于全局和局部信息的特征提取方法,如主成分分析法、獨(dú)立成分分析法等;④基于幾何信息的特征提取方法,如局部曲線波變換等。
傳統(tǒng)面部情感識別方法通過提取人臉顯著特征來判別其面部情感,具有一定的準(zhǔn)確率和有效性,但其魯棒性較差。當(dāng)人臉由于光照、角度等原因出現(xiàn)信息丟失時(shí),傳統(tǒng)面部情感識別方法的識別效能會(huì)大幅下降。
近年來,隨著深度學(xué)習(xí)的發(fā)展,許多研究者提出基于神經(jīng)網(wǎng)絡(luò)的面部情感識別模型,極大地提高了面部情感識別的準(zhǔn)確率和魯棒性。Simonyan 等[7]提出VGGNet,通過增加卷積網(wǎng)絡(luò)的深度來研究卷積網(wǎng)絡(luò)對圖像識別精度的影響。在VGGNet 中,首先使用1 個(gè)7×7 的卷積核和1 個(gè)5×5的卷積核進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),然后用3個(gè)3×3的卷積核和2 個(gè)3×3 的卷積核替代原始結(jié)構(gòu),由此保證了感知域相同,并且提升了神經(jīng)網(wǎng)絡(luò)性能。Krizhevsky 等[8]提出深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet。AlexNet、VGGNet 等結(jié)構(gòu)都是通過增加網(wǎng)絡(luò)深度來達(dá)到更好的訓(xùn)練效果,但層數(shù)的增加會(huì)帶來過擬合、梯度消失和梯度爆炸等負(fù)面影響。GoogleNet 是由Szegedy 等[9]在2014 年提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)通過優(yōu)化計(jì)算資源,在相同的計(jì)算量下提取更多特征,從而提升訓(xùn)練效果。He 等[10]提出ResNet 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)將殘差表示概念應(yīng)用于CNN 模型構(gòu)建,從而創(chuàng)建一個(gè)基本的殘差學(xué)習(xí)塊。實(shí)驗(yàn)結(jié)果表明,與一般意義上參數(shù)層的輸入輸出映射相比,直接學(xué)習(xí)殘差收斂速度更快,也可獲得更高的分類精度。
面部表情識別相關(guān)研究與應(yīng)用主要基于下列常用的面部表情識別數(shù)據(jù)庫:
(1)FER2013。FER2013 由Goodfellow 等[11]使用谷歌圖像搜索API 收集,該數(shù)據(jù)集包含大約35 887 張不同表情的面部RGB 圖像,大小限制為48×48。此數(shù)據(jù)集的主要標(biāo)簽可分為憤怒、厭惡、恐懼、快樂、悲傷、驚訝和中性7 種類型。
(2)AffectNet。AffectNet 由Mollahosseini 等[12]創(chuàng)建,該數(shù)據(jù)庫通過3 大搜索引擎收集了超過100 萬張人臉圖像,是目前最大的面部表情和維度模型數(shù)據(jù)庫。
(3)RAF-DB。真實(shí)情感人臉數(shù)據(jù)庫(RAF-DB)[13]是一個(gè)人臉表情數(shù)據(jù)集,該數(shù)據(jù)集包含了29 672 張人臉表情。這些表情經(jīng)過40 個(gè)獨(dú)立標(biāo)簽,被標(biāo)記為基本表情或復(fù)合表情。該數(shù)據(jù)集的圖像在受試者年齡、性別、種族、頭部姿勢、光照條件、遮擋(眼鏡、面部毛發(fā)或自遮擋)、后處理操作(各種濾鏡、特效)等方面有很大的可變性。
(4)JAFFE。JAFFE 數(shù)據(jù)集包含10 名日本女性的213張面部表情圖像,每人做出7 種表情,包括:憤怒、厭惡、恐懼、高興、悲傷、驚訝、中性,并由60 個(gè)注釋者對每個(gè)面部表情進(jìn)行平均語義評分[14]。
(5)CK+。擴(kuò)展Cohn-Kanade[15](CK+)數(shù)據(jù)集包含123個(gè)不同受試者的593 個(gè)視頻序列,受試者來自不同性別、不同年齡的人群。每個(gè)視頻以30 幀/s 的速度記錄了受試者表情的轉(zhuǎn)變,分辨率為640×490 或640×480 像素,其中327 個(gè)視頻被標(biāo)記為憤怒、蔑視、厭惡、恐懼、快樂、悲傷和驚訝7 種表情類型。該數(shù)據(jù)集是目前使用最廣泛的實(shí)驗(yàn)室控制面部表情分類數(shù)據(jù)集之一。
針對目前線上教學(xué)情感識別研究領(lǐng)域存在的不足,結(jié)合不同教學(xué)場景下隱私保護(hù)的需求,本文基于情感識別神經(jīng)網(wǎng)絡(luò)、圖像編輯、三維動(dòng)畫模型綁定的理論與技術(shù),提出在視頻教學(xué)中對學(xué)生面容進(jìn)行替換與優(yōu)化的方案,分別是emoji 表情替換方案、融合臉方案和三維動(dòng)畫模型方案。這3 種方案在隱私保護(hù)安全性和情感交互可用性方面的側(cè)重點(diǎn)各不相同,適用于不同的線上教學(xué)場景。
emoji 表情替換方案整體架構(gòu)如圖1 所示,利用攝像頭采集學(xué)生面部圖像,經(jīng)過預(yù)處理后分析學(xué)生面部情感,最后使用emoji 表情符號代替學(xué)生的真實(shí)臉。該方案的核心模塊是一個(gè)預(yù)先訓(xùn)練好的面部情感識別神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)輸出學(xué)生面部情感的分析結(jié)果。emoji 表情以此為映射依據(jù),代替學(xué)生在視頻中的真實(shí)臉。emoji 表情表達(dá)了學(xué)生的情緒狀態(tài),可以幫助教師及時(shí)掌握學(xué)生在線上課堂中的情緒反應(yīng),從而增強(qiáng)師生之間的情感交互。學(xué)生屏幕上的真實(shí)臉被表情符號覆蓋,因此學(xué)生的面部信息也得到了保護(hù)。
Fig.1 Overall architecture of emoticon substitution scheme圖1 emoji表情替換方案整體架構(gòu)
2.1.1 面部情感識別神經(jīng)網(wǎng)絡(luò)
emoji 表情替換方案的核心模塊是一個(gè)預(yù)先訓(xùn)練好的面部情感識別神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)約有60 000 個(gè)參數(shù)。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,包括3 個(gè)模塊:第1 個(gè)模塊由兩個(gè)普通卷積組成,卷積后進(jìn)行批標(biāo)準(zhǔn)化操作和ReLU激活函數(shù)處理;第2 個(gè)模塊包含4 個(gè)深度可分離卷積,每個(gè)卷積之后進(jìn)行批標(biāo)準(zhǔn)化和ReLU 激活函數(shù)處理;第3 個(gè)模塊包含一個(gè)常規(guī)卷積,最后使用全局平均池化和softmax 激活函數(shù)生成預(yù)測。
Fig.2 Structure of neural network for emotion recognition圖2 情感識別神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
使用BatchNorm 是因?yàn)樵诜蔷€性變換之前,深度神經(jīng)網(wǎng)絡(luò)的激活輸入值會(huì)隨著網(wǎng)絡(luò)深度的加深或在訓(xùn)練過程中逐漸偏離或改變,而BatchNorm 可以強(qiáng)制神經(jīng)網(wǎng)絡(luò)每一層任意神經(jīng)元輸入值的分布回到標(biāo)準(zhǔn)正態(tài)分布,一方面可以避免梯度消失問題,另一方面,梯度越大,學(xué)習(xí)收斂速度越快,從而可以加快訓(xùn)練速度。
2.1.2 深度可分離卷積
本方案采用深度可分離卷積Sep-Conv2D 進(jìn)行特征提取,相比常規(guī)卷積操作,其參數(shù)量與運(yùn)算成本較低,適用于輕量級網(wǎng)絡(luò)。具體實(shí)現(xiàn)分為兩步:逐通道(Depthwise,DW)卷積與逐點(diǎn)(Pointwise,PW)卷積。
(1)DW 卷積。在DW 卷積中,一個(gè)卷積核負(fù)責(zé)一個(gè)通道,一個(gè)通道只被一個(gè)卷積核卷積。由于DW 卷積完成后的特征圖數(shù)量與輸入層的通道數(shù)相同,因此在DW 卷積之后,特征圖無法得到擴(kuò)展。此外,DW 卷積運(yùn)算是對每個(gè)顏色通道進(jìn)行獨(dú)立卷積,無法有效利用相同位置中不同顏色通道上的特征信息。因此在DW 卷積之后,需要PW 卷積將上一步的特征圖進(jìn)行組合,生成新的特征圖。
(2)PW 卷積。在PW 卷積中,卷積核尺寸為1 × 1 ×M(M為上一層通道數(shù))。該卷積核會(huì)將DW 卷積生成的特征圖在深度方向上進(jìn)行加權(quán)組合,生成新的特征圖。
融合臉方案整體架構(gòu)如圖3 所示。利用攝像頭采集學(xué)生的人臉圖像并進(jìn)行預(yù)處理,將學(xué)生的真實(shí)人臉與styleGAN 神經(jīng)網(wǎng)絡(luò)生成的假臉(生成臉)進(jìn)行融合,利用泊松融合算法生成融合臉,最后使用融合臉替換視頻中學(xué)生的真實(shí)人臉。需要說明的是,學(xué)生可以自由選擇自己喜歡的生成臉風(fēng)格與樣式,然后將其與自己的人臉進(jìn)行融合。與emoji 表情替換方案將學(xué)生的面部完全用emoji 表情覆蓋不同,該方案的融合面孔可以保留學(xué)生面部的某些特征,同時(shí)實(shí)現(xiàn)一定程度的面部隱私保護(hù)。因此,融合臉替代方案在保證學(xué)生面部信息安全與保留面部可識別性之間取得了較好平衡。
Fig.3 Overall architecture of facial blending scheme圖3 融合臉方案整體架構(gòu)
2.2.1 人臉生成神經(jīng)網(wǎng)絡(luò)
本方案采用的人臉生成神經(jīng)網(wǎng)絡(luò)是Karras 等[16]提出的styleGAN 神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖4所示。
Fig.4 Structure of styleGAN neural network圖4 styleGAN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
該結(jié)構(gòu)中的生成器G_style 由兩個(gè)子網(wǎng)絡(luò)構(gòu)成,分別是映射網(wǎng)絡(luò)和合成網(wǎng)絡(luò)。生成器G_style 的具體結(jié)構(gòu)為:參數(shù)驗(yàn)證、設(shè)置子網(wǎng)絡(luò)、設(shè)置變量、計(jì)算映射網(wǎng)絡(luò)輸出、更新移動(dòng)平均值、執(zhí)行樣式混合正則化、截?cái)嗨惴?、?jì)算合成網(wǎng)絡(luò)輸出。映射網(wǎng)絡(luò)G_mapping 的具體結(jié)構(gòu)為:輸入?yún)?shù)、連接標(biāo)簽、歸一化潛碼、映射層、廣播、輸出。合成網(wǎng)絡(luò)G_synthesis 的具體結(jié)構(gòu)為:預(yù)處理、輸入?yún)?shù)、輸入噪音、層末調(diào)制、早期層、剩余層、網(wǎng)絡(luò)增長變換、輸出。判別器D_basic 的具體結(jié)構(gòu)為:預(yù)處理、構(gòu)建 block 塊、網(wǎng)絡(luò)增長變換、標(biāo)簽計(jì)算、輸出。styleGAN 損失函數(shù)定義如式(1)所示:
訓(xùn)練該網(wǎng)絡(luò)時(shí),通過初始化dnnlib 和TensorFlow、載入訓(xùn)練集、構(gòu)建網(wǎng)絡(luò)、構(gòu)建計(jì)算圖與優(yōu)化器、設(shè)置快照圖像網(wǎng)格、建立運(yùn)行目錄、訓(xùn)練、保存最終結(jié)果,可以生成高質(zhì)量的生成臉,然后通過人臉融合算法將生成臉與學(xué)生的真實(shí)臉進(jìn)行融合,得到融合臉。
2.2.2 生成臉與真實(shí)臉融合
將系統(tǒng)的生成臉與學(xué)生的真實(shí)臉進(jìn)行融合,人臉融合主要分為特征點(diǎn)檢測、凸包檢測、多邊形填充、三角剖分、仿射變換、泊松融合幾個(gè)步驟。首先對攝像頭捕捉到的人臉進(jìn)行人臉關(guān)鍵點(diǎn)檢測,然后對68 個(gè)人臉關(guān)鍵點(diǎn)信息進(jìn)行凸包檢測和多邊形填充,接著使用三角剖分算法完成人臉剖分,最后經(jīng)過仿射變換和泊松融合算法實(shí)現(xiàn)兩張人臉融合。
2.2.3 泊松融合算法
泊松融合[17]基于人眼天生對“突變”敏感,而對連續(xù)平滑的變化不敏感這一原理。要實(shí)現(xiàn)兩張圖片融合后不顯得突兀,就需要保證圖片邊界平滑過渡。二階偏導(dǎo)數(shù)有助于解決圖像融合問題,可使兩張圖片融合為平滑的圖像。這種使用二階偏導(dǎo)數(shù)進(jìn)行圖像融合的方法就是泊松融合算法,即借助泊松方程,使其滿足在所選區(qū)域的拉普拉斯條件和Dirichlct 邊界條件下,方程的解唯一。經(jīng)過泊松處理后合成的人臉非常自然,接近于真實(shí)人臉。
泊松方程如式(2)所示。其中,Δ 表示拉普拉斯算子,f和φ是流形上的實(shí)數(shù)或復(fù)數(shù)方程。當(dāng)流形屬于歐幾里得空間時(shí),拉氏算子通常表示為?2,因此泊松方程通常如式(3)所示。在三維直角坐標(biāo)系中,如式(4)所示,若f(x,y,z)恒等于0,式(4)可以變?yōu)辇R次方程,即“拉普拉斯方程”。
設(shè)圖像域S是R2上的閉子集,Ω 是S的閉子集,S的邊界是?Ω。設(shè)f*是定義在S上的已知標(biāo)量函數(shù),設(shè)v是定義在Ω 上的向量域。設(shè)f是f*在Ω 上滿足最小化問題的插值函數(shù)。當(dāng)二階偏導(dǎo)數(shù)為0 時(shí),梯度有一個(gè)極值,如式(5)所示,其中為梯度運(yùn)算。最小值必須滿足在Ω上的拉格朗日方程,如式(6)所示,其中為拉普拉斯算子。
由于引導(dǎo)向量域是向量域v在式(5)最小化問題上的擴(kuò)展形式,因此式(5)可以表示為式(7)。式(7)的解是Dirichlet 邊界條件下泊松方程在Ω 上的唯一解,如式(8)所示,其中divv=是v的散度。
因此在Ω 內(nèi),添加的修正函數(shù)即為邊界?Ω 上源圖像與目標(biāo)圖像錯(cuò)誤匹配(f*-g)的一個(gè)插值。
三維動(dòng)畫模型方案整體架構(gòu)如圖5 所示,利用攝像頭采集學(xué)生面部圖像并進(jìn)行預(yù)處理,經(jīng)過人臉關(guān)鍵點(diǎn)標(biāo)定、三維動(dòng)畫模型綁定和人臉三維位姿估計(jì)后,生成學(xué)生面部三維動(dòng)畫替代視頻中學(xué)生的真實(shí)臉。綁定的動(dòng)畫模型可以捕捉并跟隨學(xué)生面部和頭部的每一個(gè)細(xì)微動(dòng)作,如皺眉、搖頭、抬頭、張嘴等。動(dòng)畫模型對學(xué)生的面部動(dòng)作有放大效果,可以將學(xué)生的面部情緒更直觀地呈現(xiàn)給教師,從而增強(qiáng)師生交互。由于學(xué)生的形象被三維動(dòng)畫模型所替代,因此不存在面部隱私泄露問題。此外,動(dòng)畫模型生動(dòng)、形象,有助于活躍課堂學(xué)習(xí)氣氛。
Fig.5 Overall architecture of 3D animated model scheme圖5 三維動(dòng)畫模型方案整體架構(gòu)
2.3.1 三維動(dòng)畫模型綁定
三維動(dòng)畫模型綁定是一種使三維動(dòng)畫模型能夠跟蹤被綁定臉部的每個(gè)細(xì)微面部動(dòng)作的方法。三維動(dòng)畫模型方案采用的三維動(dòng)畫模型綁定流程如圖6 所示,包括人臉檢測、人臉關(guān)鍵點(diǎn)定義、模型綁定和三維姿態(tài)估計(jì)。使用Python 環(huán)境下CV2 庫提供的LBF 算法,通過人臉檢測器檢測學(xué)生的真實(shí)人臉。為了在真實(shí)人臉上捕捉面部運(yùn)動(dòng),需要在三維模型的人臉上定義面部關(guān)鍵點(diǎn)。本方案采用的3D 動(dòng)畫模型是Blender 提供的開源動(dòng)畫模型Vincent,使用Blender 中的Python 腳本,可以實(shí)現(xiàn)三維模型的人臉標(biāo)記定義和真實(shí)人臉的人臉檢測,從而建立三維模型與真實(shí)人臉之間的綁定關(guān)系。
Fig.6 Workflow of 3D animated model binding圖6 三維動(dòng)畫模型綁定流程
2.3.2 三維位姿估算
現(xiàn)實(shí)場景中臉部的運(yùn)動(dòng)和動(dòng)作是三維的(如搖頭、抬頭等),為了準(zhǔn)確捕捉真實(shí)人臉動(dòng)作,需要解決PnP 問題。典型的PnP 問題是借助N 個(gè)空間點(diǎn)的實(shí)坐標(biāo)和這些空間點(diǎn)在圖像上的投影計(jì)算攝像機(jī)在給定坐標(biāo)系中的位置與姿態(tài),已知量為空間點(diǎn)與圖像坐標(biāo)的實(shí)坐標(biāo),未知量(求解量)為攝像機(jī)姿態(tài)。本文采用LM 優(yōu)化算法[14]求解PnP 問題,通過迭代算法求出重投影誤差最小的解作為問題的最優(yōu)解,經(jīng)過羅德里格斯變換得到旋轉(zhuǎn)矩陣和平移矩陣,從而解出旋轉(zhuǎn)向量和平移向量。結(jié)合初始的參考坐標(biāo)系,便可實(shí)現(xiàn)人臉的三維位姿估算。該算法可以在攝像機(jī)捕捉到的視頻流中實(shí)現(xiàn)人臉的運(yùn)動(dòng)捕捉,并將其與Blender 三維動(dòng)畫模型綁定,獲得具有面部運(yùn)動(dòng)跟隨的三維動(dòng)畫人臉。
本文所述實(shí)驗(yàn)工作的計(jì)算機(jī)環(huán)境如下:CPU 為Intel(R)Core(TM)i7-7500U CPU @ 2.70GHz 2.90 GHz,Python 3.7,TensorFlow2.0,OpenCV4.1.2。實(shí)驗(yàn)采用的數(shù)據(jù)集為:FER2013、AffectNet、CK+數(shù)據(jù)集。
對emoji 表情替換方案的驗(yàn)證分別在FER2013、CK+和AffectNet 3 個(gè)面部情感識別數(shù)據(jù)集上進(jìn)行,該方案采用的神經(jīng)網(wǎng)絡(luò)算法為“Sep-Cov2D”?;贔ER2013 數(shù)據(jù)集,Sep-Cov2D算法與VGG19[18]、DL-LSTM[19]和 SESResNet18[20]進(jìn)行情感識別準(zhǔn)確率對比如圖7(a)所示;基于CK+數(shù)據(jù)集,Sep-Conv2D 算法與AlexNet[21]、CSPL[22]和SE-SResNet18 進(jìn)行情感識別準(zhǔn)確率對比如圖7(b)所示;基于AffectNet數(shù)據(jù)集,Sep-Conv2D 算法與AlexNet、gACNN[23]和DenseSANet121[24]進(jìn)行情感識別準(zhǔn)確率對比如圖7(c)所示。
圖7(a)表明,在FER2013 數(shù)據(jù)集上,Sep-Covn2D 的準(zhǔn)確率在4 種神經(jīng)網(wǎng)絡(luò)中僅次于SE-SResNet18,達(dá)到了71.52%;圖7(b)表明,在CK+數(shù)據(jù)集上,Sep-Conv2D 的性能表現(xiàn)不佳,僅高于CSPL 神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率為89.93%;圖7(c)表明,在AffectNet 數(shù)據(jù)集上,Sep-Conv2D 的準(zhǔn)確率僅次于DenseSANet12,達(dá)到了59.32%。綜合來看,雖然Seo-Conv2D 在面部表情識別準(zhǔn)確率上并沒有達(dá)到目前情感識別神經(jīng)網(wǎng)絡(luò)的最高水平,但其容錯(cuò)率處于可接受范圍內(nèi),其綜合性能可支持被應(yīng)用到實(shí)際線上教學(xué)場景中。此外,雖然SE-SResNet18 在數(shù)據(jù)集上的測試取得了很好的結(jié)果,但因其網(wǎng)絡(luò)結(jié)構(gòu)過于龐大(參數(shù)過多),并不適合線上教學(xué)這種對實(shí)時(shí)性要求很高的應(yīng)用場景。而Sep-Conv2D的另一個(gè)優(yōu)勢在于其參數(shù)規(guī)模很小,其特有的輕量性以及對計(jì)算性能要求不高的特點(diǎn),在實(shí)時(shí)應(yīng)用場景中可以降低情感分析延遲,適合投入到實(shí)際應(yīng)用中并被廣泛推廣。Sep-Conv2D 與其他常用的面部情感識別神經(jīng)網(wǎng)絡(luò)參數(shù)數(shù)量對比如表1所示。
利用OBS 軟件設(shè)置運(yùn)行結(jié)果錄屏、安裝虛擬攝像頭插件,并在騰訊會(huì)議中將攝像頭選項(xiàng)設(shè)置為OBS virtual camera,便可實(shí)現(xiàn)將emoji 表情替換方案的運(yùn)行結(jié)果作為學(xué)生攝像頭畫面的顯示。實(shí)際運(yùn)行效果如圖8所示。
在實(shí)時(shí)開啟攝像頭的情況下,emoji 表情替換方案實(shí)現(xiàn)了學(xué)生的情感識別,并使用emoji 表情替代學(xué)生人臉。在學(xué)生端,學(xué)生面部被對應(yīng)情緒的emoji 表情替代,因此可確保其面部隱私不被泄露;在教師端,教師可通過觀察學(xué)生的emoji 表情直觀地獲知學(xué)生的聽課情緒,而不再需要通過視頻圖像判斷學(xué)生情緒,從而加強(qiáng)了師生之間的情感交互。此外,當(dāng)有學(xué)生離座時(shí),圖像中顯著的錯(cuò)誤標(biāo)志可及時(shí)提醒教師,避免因?qū)W生視頻圖像過多導(dǎo)致教師無法及時(shí)察覺到學(xué)生離開課堂的情況,提高教師對課堂紀(jì)律的掌控力。
Fig.7 Accuracy of different emotion recognition algorithm圖7 不同算法的情感識別準(zhǔn)確率
Table 1 Comparison of parameters amount of different neural network models表1 不同神經(jīng)網(wǎng)絡(luò)模型參數(shù)數(shù)量對比
與emoji 表情替換方案相同,在騰訊會(huì)議中將融合臉方案的運(yùn)行結(jié)果作為學(xué)生攝像頭畫面的顯示,實(shí)際運(yùn)行效果如圖9 所示。學(xué)生的真實(shí)臉與生成臉進(jìn)行人臉融合之后,雖然保有一部分原來的特征,如臉型、膚色、發(fā)型等,但其五官與面部的一些特征有了部分改變,因此保護(hù)了學(xué)生真實(shí)臉的面部特征,從而實(shí)現(xiàn)了對學(xué)生面部信息的隱私保護(hù)。
Fig.8 Performance of 3D animation model scheme圖8 三維動(dòng)畫模型方案運(yùn)行情況
Fig.9 Performance of facial blending scheme圖9 融合臉方案運(yùn)行情況
雖然該方案不能像emoji 表情替換方案實(shí)時(shí)地將學(xué)生面部表情以emoji 表情的形式進(jìn)行放大,但與emoji 表情替換方案中學(xué)生面部完全被emoji 表情遮擋不同,融合臉方案仍保留學(xué)生面部的一部分特征,因此該方案適合應(yīng)用在需要學(xué)生面部身份認(rèn)證的場景中(如線上考試等)。
三維動(dòng)畫模型方案為了呈現(xiàn)出3D 動(dòng)畫模型對人臉動(dòng)作的捕捉效果,測試給出動(dòng)畫模型實(shí)時(shí)捕捉人臉動(dòng)作的部分截圖。實(shí)際運(yùn)行效果如圖10所示。
完成人臉綁定的3D 動(dòng)畫模型可以捕捉并跟隨學(xué)生面部和頭部的每一個(gè)細(xì)微動(dòng)作,如搖頭、抬頭、張嘴等。一方面,學(xué)生在線上教學(xué)視頻中的真實(shí)臉被動(dòng)畫模型替代,從而完成了對學(xué)生面部隱私的保護(hù);另一方面,綁定的動(dòng)畫模型對學(xué)生面部動(dòng)作進(jìn)行放大,因此教師可以更直觀地觀察出學(xué)生的聽課情緒,如驚訝、疑惑等。3D 動(dòng)畫模型生動(dòng)、形象,有助于活躍課堂氣氛,適合應(yīng)用于線上小組討論場景中。
Fig.10 Performance of 3D animated model scheme圖10 3D動(dòng)畫模型方案運(yùn)行情況
為了更好地了解學(xué)生群體對3 個(gè)方案的接受程度以及3 個(gè)方案適合應(yīng)用的場景,以在線問卷調(diào)查方式收集部分學(xué)生的意見。有針對性地邀請具有線上視頻教學(xué)、線上考試、線上答辯3 種經(jīng)歷的學(xué)生參與問卷調(diào)查,被調(diào)查的學(xué)生根據(jù)自己的線上學(xué)習(xí)經(jīng)歷對本文提出的3 種情感互動(dòng)方案進(jìn)行評價(jià)。調(diào)查問題如下:
方案一:emoji 表情替換方案;方案二:融合臉方案;方案三:三維動(dòng)畫模型方案。
(1)Q1:您最希望哪一個(gè)方案被應(yīng)用到在線視頻教學(xué)中?
(2)Q2:您認(rèn)為哪一個(gè)方案的情感識別效果最好?
(3)Q3:您認(rèn)為哪一個(gè)方案的面部隱私保護(hù)效果最好?
(4)Q4:在線上考試場景中(教師要求學(xué)生打開攝像頭),您認(rèn)為哪一個(gè)方案最合適?
(5)Q5:在日常線上教學(xué)活動(dòng)中(如講座、日常授課),您認(rèn)為哪一個(gè)方案最合適?
(6)Q6:在線上小組討論場景中,您認(rèn)為哪一個(gè)方案最合適?
調(diào)查問卷結(jié)果如圖11 所示。62.3%的學(xué)生希望方案一能夠被應(yīng)用于線上視頻教學(xué)中;66.5%的學(xué)生認(rèn)為方案一的情感識別效果最好;44.8%的學(xué)生認(rèn)為方案二的隱私保護(hù)效果最好。對于線上考試的應(yīng)用場景(教師要求學(xué)生打開攝像頭),54.7%的學(xué)生希望使用方案二;對于日常線上教學(xué)活動(dòng)的應(yīng)用場景(如講座、日常授課),61.8%的學(xué)生希望使用方案一;對于線上小組討論場景,58.5%的學(xué)生希望使用方案三。
通過進(jìn)一步分析可以得知,對于線上教學(xué)中的面部情感識別與面部隱私保護(hù)兩個(gè)方面,學(xué)生更加重視能夠加強(qiáng)與教師情感交互的面部情感識別,因此方案一的接受度最高。在線上考試場景中,學(xué)生更傾向于選擇方案二,該方案可以保留學(xué)生的部分原始面部特征,同時(shí)保護(hù)學(xué)生的面部隱私,從而實(shí)現(xiàn)身份認(rèn)證和在線考試中學(xué)生的面部信息保護(hù);在在線小組討論場景中,學(xué)生更傾向于選擇方案三。方案三使用生動(dòng)的3D 動(dòng)畫模型取代學(xué)生的真實(shí)臉,該模型可以捕捉學(xué)生的頭部動(dòng)作和面部動(dòng)作,從而活躍課堂討論氛圍,因此適合線上教學(xué)中的小組討論場景。
Fig.11 Result of questionnaire圖11 調(diào)查問卷結(jié)果
表2 總結(jié)了3 種方案的情感交互效果、隱私保護(hù)程度、面部信息可用性和適用場景。
Table 2 Applicable scenarios of three schemes表2 3種方案的適用場景
在線上視頻教學(xué)中,教師很難了解學(xué)生的情緒反應(yīng),師生情感交互效果差,同時(shí)學(xué)生面部信息面臨泄露風(fēng)險(xiǎn)。針對以上問題,本文提出在視頻教學(xué)中加入情感識別及隱私保護(hù)的3 個(gè)方案,能夠在一定程度上滿足在線上視頻教學(xué)中加強(qiáng)師生情感交互和隱私保護(hù)的需求。然而,這些方案也存在一些缺陷。在emoji 表情替換方案中,面部情感識別網(wǎng)絡(luò)的準(zhǔn)確率不太理想,在實(shí)際應(yīng)用場景中可能會(huì)導(dǎo)致學(xué)生面部情感識別出現(xiàn)錯(cuò)誤,影響情感交互效果。產(chǎn)生這一結(jié)果的原因可能是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的缺陷,因此未來的研究目標(biāo)是優(yōu)化面部情感識別神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)保持網(wǎng)絡(luò)的輕量化,進(jìn)一步提高師生情感交互效果。融合臉方案中的融合臉相對比較僵硬,影響視頻中學(xué)生面容的真實(shí)性與美觀性,可能與人臉融合算法的不足有關(guān),因此在未來對人臉融合算法的有效性需要進(jìn)行更多研究。由于目前開源三維動(dòng)畫模型數(shù)量有限,導(dǎo)致三維動(dòng)畫模型方案中的學(xué)生形象與表情比較單調(diào),因此三維動(dòng)畫模型方案中三維動(dòng)畫模型的多樣性還有很大的拓展空間。
受人臉數(shù)據(jù)隱私安全方面有關(guān)政策約束以及真實(shí)教學(xué)環(huán)境中軟硬件設(shè)施的限制,本文提出的3 種方案主要基于開放數(shù)據(jù)集進(jìn)行研究,或在很小規(guī)模的線上會(huì)議場景中進(jìn)行了驗(yàn)證測試,還沒有在真實(shí)、復(fù)雜的線上教學(xué)環(huán)境中進(jìn)行大規(guī)模系統(tǒng)測試。若將方案應(yīng)用于實(shí)際線上教學(xué)環(huán)境中,軟硬件如何調(diào)優(yōu)?系統(tǒng)的實(shí)時(shí)性、魯棒性如何保證?這些都是今后可繼續(xù)深入研究的方向。本文對于情感交互的研究也僅限于在線教育中學(xué)生面部表情的呈現(xiàn)和放大,如何在教師與學(xué)生之間實(shí)現(xiàn)虛擬空間中相互反饋的情感互動(dòng),同時(shí)解決面部隱私泄露問題,還有待進(jìn)一步研究。