線上教學(xué)中基于隱私保護(hù)的情感交互模型研究

2023-02-18 05:35胡東輝

軟件導(dǎo)刊 2023年1期

于博，陳浩，胡東輝

（1.合肥工業(yè)大學(xué) 信息化建設(shè)與發(fā)展中心；2.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院，安徽合肥 230009）

0 引言

近年來，在新冠疫情防控背景下，越來越多課程采用線上教學(xué)方式。線上教學(xué)與傳統(tǒng)課堂教學(xué)不同，教師無法在授課過程中與學(xué)生面對面進(jìn)行交流，因此不能及時(shí)了解學(xué)生的學(xué)習(xí)效果。目前線上教學(xué)效果不盡如人意，其主要原因在于師生之間的情感交互效果差，即使在課上要求學(xué)生打開攝像頭，也很難直觀地從畫面中判斷出學(xué)生的聽課狀態(tài)和對講授內(nèi)容的情感反應(yīng)。Chen［1］對線上教學(xué)效果進(jìn)行研究，發(fā)現(xiàn)由于缺乏與教師之間的情感交互，僅有48.5%的學(xué)生認(rèn)為目前線上視頻教學(xué)效果“很好”或者“好”，有67.0%的學(xué)生認(rèn)為教師應(yīng)該關(guān)注學(xué)生在線上課堂中的聽課狀態(tài)。此外，如果教師要求學(xué)生在線上課堂中打開攝像頭，學(xué)生的面部隱私存在泄露風(fēng)險(xiǎn)。因此，亟需提出一種既能加強(qiáng)師生情感交互，又能兼顧學(xué)生面容隱私保護(hù)的線上視頻教學(xué)可行方案。

1 研究現(xiàn)狀

現(xiàn)有的線上教學(xué)情感分析和隱私保護(hù)研究工作存在較大局限性。針對線上教學(xué)情感分析，Wang 等［2］提出基于大數(shù)據(jù)的情感挖掘和情感共詞分析算法，根據(jù)學(xué)生在線上課堂中文字形式的發(fā)言與評論分析學(xué)生對課堂講授內(nèi)容的接受程度；Fang［3］提出線上教學(xué)討論社區(qū)模型，通過學(xué)生和教師在討論社區(qū)的互動(dòng)以加強(qiáng)師生的情感交互。然而，這些方法都沒有解決視頻教學(xué)實(shí)時(shí)場景中的師生情感交互問題。因此，在實(shí)際的線上教學(xué)中，師生情感交互效果仍然難以得到提升。對于線上教學(xué)的隱私保護(hù)問題，目前的研究僅局限于網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中的風(fēng)險(xiǎn)和互聯(lián)網(wǎng)架構(gòu)本身的缺陷，關(guān)注和解決的隱私泄露風(fēng)險(xiǎn)包括ARP緩存中毒、MITM 攻擊、跨站點(diǎn)請求偽造、跨腳本攻擊、SQL注入、會(huì)話劫持等問題。這些研究成果雖然能在一定程度上解決由網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu)缺陷造成的線上視頻教學(xué)數(shù)據(jù)泄露問題，但是并沒有關(guān)注到線上視頻教學(xué)中學(xué)生面部信息的隱私保護(hù)問題。

YouTube［4］和微軟Azure［5］分別開發(fā)了離線自動(dòng)像素化工具，以保護(hù)主播或上傳者無意中拍攝的人的面部隱私。離線自動(dòng)像素化工具采用檢測跟蹤結(jié)構(gòu)，由隱私敏感目標(biāo)檢測器和多目標(biāo)跟蹤器組成，其像素化的性能取決于檢測器與跟蹤器的性能。遺憾的是，由于缺乏訓(xùn)練樣本和對視頻上下文的理解，檢測器的準(zhǔn)確性并不令人滿意。針對離線像素化工具存在的問題，Zhou 等［6］提出一種隱私敏感對象像素化（PsOP）框架，用于自動(dòng)過濾實(shí)時(shí)視頻流中的人臉隱私。該框架解決了視頻流識別的準(zhǔn)確度、精細(xì)度和過像素化問題，但其只能實(shí)現(xiàn)在線教育過程中的面部信息隱私保護(hù)，無法實(shí)現(xiàn)面部情緒分析與反饋。

1.1 面部情感識別方法

傳統(tǒng)面部情感識別方法基于面部特征提取，將其作為判別面部情感的依據(jù)。面部特征提取是指從輸入的人臉圖像中提取有用信息，主要包括圖像的紋理特征或五官特征。該方法的準(zhǔn)確性和有效性很大程度上取決于特征提取方法，其大致分為4 類：①基于紋理信息的特征提取方法，如小波變換、局部二值模式等；②基于邊緣信息的特征提取方法，如線性邊緣圖、梯度方向直方圖等；③基于全局和局部信息的特征提取方法，如主成分分析法、獨(dú)立成分分析法等；④基于幾何信息的特征提取方法，如局部曲線波變換等。

傳統(tǒng)面部情感識別方法通過提取人臉顯著特征來判別其面部情感，具有一定的準(zhǔn)確率和有效性，但其魯棒性較差。當(dāng)人臉由于光照、角度等原因出現(xiàn)信息丟失時(shí)，傳統(tǒng)面部情感識別方法的識別效能會(huì)大幅下降。

1.2 情感識別神經(jīng)網(wǎng)絡(luò)

近年來，隨著深度學(xué)習(xí)的發(fā)展，許多研究者提出基于神經(jīng)網(wǎng)絡(luò)的面部情感識別模型，極大地提高了面部情感識別的準(zhǔn)確率和魯棒性。Simonyan 等［7］提出VGGNet，通過增加卷積網(wǎng)絡(luò)的深度來研究卷積網(wǎng)絡(luò)對圖像識別精度的影響。在VGGNet 中，首先使用1 個(gè)7×7 的卷積核和1 個(gè)5×5的卷積核進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，然后用3個(gè)3×3的卷積核和2 個(gè)3×3 的卷積核替代原始結(jié)構(gòu)，由此保證了感知域相同，并且提升了神經(jīng)網(wǎng)絡(luò)性能。Krizhevsky 等［8］提出深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet。AlexNet、VGGNet 等結(jié)構(gòu)都是通過增加網(wǎng)絡(luò)深度來達(dá)到更好的訓(xùn)練效果，但層數(shù)的增加會(huì)帶來過擬合、梯度消失和梯度爆炸等負(fù)面影響。GoogleNet 是由Szegedy 等［9］在2014 年提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)通過優(yōu)化計(jì)算資源，在相同的計(jì)算量下提取更多特征，從而提升訓(xùn)練效果。He 等［10］提出ResNet 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)將殘差表示概念應(yīng)用于CNN 模型構(gòu)建，從而創(chuàng)建一個(gè)基本的殘差學(xué)習(xí)塊。實(shí)驗(yàn)結(jié)果表明，與一般意義上參數(shù)層的輸入輸出映射相比，直接學(xué)習(xí)殘差收斂速度更快，也可獲得更高的分類精度。

1.3 情感識別數(shù)據(jù)集

面部表情識別相關(guān)研究與應(yīng)用主要基于下列常用的面部表情識別數(shù)據(jù)庫：

（1）FER2013。FER2013 由Goodfellow 等［11］使用谷歌圖像搜索API 收集，該數(shù)據(jù)集包含大約35 887 張不同表情的面部RGB 圖像，大小限制為48×48。此數(shù)據(jù)集的主要標(biāo)簽可分為憤怒、厭惡、恐懼、快樂、悲傷、驚訝和中性7 種類型。

（2）AffectNet。AffectNet 由Mollahosseini 等［12］創(chuàng)建，該數(shù)據(jù)庫通過3 大搜索引擎收集了超過100 萬張人臉圖像，是目前最大的面部表情和維度模型數(shù)據(jù)庫。

（3）RAF-DB。真實(shí)情感人臉數(shù)據(jù)庫（RAF-DB）［13］是一個(gè)人臉表情數(shù)據(jù)集，該數(shù)據(jù)集包含了29 672 張人臉表情。這些表情經(jīng)過40 個(gè)獨(dú)立標(biāo)簽，被標(biāo)記為基本表情或復(fù)合表情。該數(shù)據(jù)集的圖像在受試者年齡、性別、種族、頭部姿勢、光照條件、遮擋（眼鏡、面部毛發(fā)或自遮擋）、后處理操作（各種濾鏡、特效）等方面有很大的可變性。

（4）JAFFE。JAFFE 數(shù)據(jù)集包含10 名日本女性的213張面部表情圖像，每人做出7 種表情，包括：憤怒、厭惡、恐懼、高興、悲傷、驚訝、中性，并由60 個(gè)注釋者對每個(gè)面部表情進(jìn)行平均語義評分［14］。

（5）CK+。擴(kuò)展Cohn-Kanade［15］（CK+）數(shù)據(jù)集包含123個(gè)不同受試者的593 個(gè)視頻序列，受試者來自不同性別、不同年齡的人群。每個(gè)視頻以30 幀/s 的速度記錄了受試者表情的轉(zhuǎn)變，分辨率為640×490 或640×480 像素，其中327 個(gè)視頻被標(biāo)記為憤怒、蔑視、厭惡、恐懼、快樂、悲傷和驚訝7 種表情類型。該數(shù)據(jù)集是目前使用最廣泛的實(shí)驗(yàn)室控制面部表情分類數(shù)據(jù)集之一。

2 方案設(shè)計(jì)

針對目前線上教學(xué)情感識別研究領(lǐng)域存在的不足，結(jié)合不同教學(xué)場景下隱私保護(hù)的需求，本文基于情感識別神經(jīng)網(wǎng)絡(luò)、圖像編輯、三維動(dòng)畫模型綁定的理論與技術(shù)，提出在視頻教學(xué)中對學(xué)生面容進(jìn)行替換與優(yōu)化的方案，分別是emoji 表情替換方案、融合臉方案和三維動(dòng)畫模型方案。這3 種方案在隱私保護(hù)安全性和情感交互可用性方面的側(cè)重點(diǎn)各不相同，適用于不同的線上教學(xué)場景。

2.1 emoji表情替換方案

emoji 表情替換方案整體架構(gòu)如圖1 所示，利用攝像頭采集學(xué)生面部圖像，經(jīng)過預(yù)處理后分析學(xué)生面部情感，最后使用emoji 表情符號代替學(xué)生的真實(shí)臉。該方案的核心模塊是一個(gè)預(yù)先訓(xùn)練好的面部情感識別神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)輸出學(xué)生面部情感的分析結(jié)果。emoji 表情以此為映射依據(jù)，代替學(xué)生在視頻中的真實(shí)臉。emoji 表情表達(dá)了學(xué)生的情緒狀態(tài)，可以幫助教師及時(shí)掌握學(xué)生在線上課堂中的情緒反應(yīng)，從而增強(qiáng)師生之間的情感交互。學(xué)生屏幕上的真實(shí)臉被表情符號覆蓋，因此學(xué)生的面部信息也得到了保護(hù)。

Fig.1 Overall architecture of emoticon substitution scheme圖1 emoji表情替換方案整體架構(gòu)

2.1.1 面部情感識別神經(jīng)網(wǎng)絡(luò)

emoji 表情替換方案的核心模塊是一個(gè)預(yù)先訓(xùn)練好的面部情感識別神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)約有60 000 個(gè)參數(shù)。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示，包括3 個(gè)模塊：第1 個(gè)模塊由兩個(gè)普通卷積組成，卷積后進(jìn)行批標(biāo)準(zhǔn)化操作和ReLU激活函數(shù)處理；第2 個(gè)模塊包含4 個(gè)深度可分離卷積，每個(gè)卷積之后進(jìn)行批標(biāo)準(zhǔn)化和ReLU 激活函數(shù)處理；第3 個(gè)模塊包含一個(gè)常規(guī)卷積，最后使用全局平均池化和softmax 激活函數(shù)生成預(yù)測。

Fig.2 Structure of neural network for emotion recognition圖2 情感識別神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

使用BatchNorm 是因?yàn)樵诜蔷€性變換之前，深度神經(jīng)網(wǎng)絡(luò)的激活輸入值會(huì)隨著網(wǎng)絡(luò)深度的加深或在訓(xùn)練過程中逐漸偏離或改變，而BatchNorm 可以強(qiáng)制神經(jīng)網(wǎng)絡(luò)每一層任意神經(jīng)元輸入值的分布回到標(biāo)準(zhǔn)正態(tài)分布，一方面可以避免梯度消失問題，另一方面，梯度越大，學(xué)習(xí)收斂速度越快，從而可以加快訓(xùn)練速度。

2.1.2 深度可分離卷積

本方案采用深度可分離卷積Sep-Conv2D 進(jìn)行特征提取，相比常規(guī)卷積操作，其參數(shù)量與運(yùn)算成本較低，適用于輕量級網(wǎng)絡(luò)。具體實(shí)現(xiàn)分為兩步：逐通道（Depthwise，DW）卷積與逐點(diǎn)（Pointwise，PW）卷積。

（1）DW 卷積。在DW 卷積中，一個(gè)卷積核負(fù)責(zé)一個(gè)通道，一個(gè)通道只被一個(gè)卷積核卷積。由于DW 卷積完成后的特征圖數(shù)量與輸入層的通道數(shù)相同，因此在DW 卷積之后，特征圖無法得到擴(kuò)展。此外，DW 卷積運(yùn)算是對每個(gè)顏色通道進(jìn)行獨(dú)立卷積，無法有效利用相同位置中不同顏色通道上的特征信息。因此在DW 卷積之后，需要PW 卷積將上一步的特征圖進(jìn)行組合，生成新的特征圖。

（2）PW 卷積。在PW 卷積中，卷積核尺寸為1 × 1 ×M（M為上一層通道數(shù)）。該卷積核會(huì)將DW 卷積生成的特征圖在深度方向上進(jìn)行加權(quán)組合，生成新的特征圖。

2.2 融合臉方案

融合臉方案整體架構(gòu)如圖3 所示。利用攝像頭采集學(xué)生的人臉圖像并進(jìn)行預(yù)處理，將學(xué)生的真實(shí)人臉與styleGAN 神經(jīng)網(wǎng)絡(luò)生成的假臉（生成臉）進(jìn)行融合，利用泊松融合算法生成融合臉，最后使用融合臉替換視頻中學(xué)生的真實(shí)人臉。需要說明的是，學(xué)生可以自由選擇自己喜歡的生成臉風(fēng)格與樣式，然后將其與自己的人臉進(jìn)行融合。與emoji 表情替換方案將學(xué)生的面部完全用emoji 表情覆蓋不同，該方案的融合面孔可以保留學(xué)生面部的某些特征，同時(shí)實(shí)現(xiàn)一定程度的面部隱私保護(hù)。因此，融合臉替代方案在保證學(xué)生面部信息安全與保留面部可識別性之間取得了較好平衡。

Fig.3 Overall architecture of facial blending scheme圖3 融合臉方案整體架構(gòu)

2.2.1 人臉生成神經(jīng)網(wǎng)絡(luò)

本方案采用的人臉生成神經(jīng)網(wǎng)絡(luò)是Karras 等［16］提出的styleGAN 神經(jīng)網(wǎng)絡(luò)，其結(jié)構(gòu)如圖4所示。

Fig.4 Structure of styleGAN neural network圖4 styleGAN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

該結(jié)構(gòu)中的生成器G_style 由兩個(gè)子網(wǎng)絡(luò)構(gòu)成，分別是映射網(wǎng)絡(luò)和合成網(wǎng)絡(luò)。生成器G_style 的具體結(jié)構(gòu)為：參數(shù)驗(yàn)證、設(shè)置子網(wǎng)絡(luò)、設(shè)置變量、計(jì)算映射網(wǎng)絡(luò)輸出、更新移動(dòng)平均值、執(zhí)行樣式混合正則化、截?cái)嗨惴?、?jì)算合成網(wǎng)絡(luò)輸出。映射網(wǎng)絡(luò)G_mapping 的具體結(jié)構(gòu)為：輸入?yún)?shù)、連接標(biāo)簽、歸一化潛碼、映射層、廣播、輸出。合成網(wǎng)絡(luò)G_synthesis 的具體結(jié)構(gòu)為：預(yù)處理、輸入?yún)?shù)、輸入噪音、層末調(diào)制、早期層、剩余層、網(wǎng)絡(luò)增長變換、輸出。判別器D_basic 的具體結(jié)構(gòu)為：預(yù)處理、構(gòu)建 block 塊、網(wǎng)絡(luò)增長變換、標(biāo)簽計(jì)算、輸出。styleGAN 損失函數(shù)定義如式（1）所示：

訓(xùn)練該網(wǎng)絡(luò)時(shí)，通過初始化dnnlib 和TensorFlow、載入訓(xùn)練集、構(gòu)建網(wǎng)絡(luò)、構(gòu)建計(jì)算圖與優(yōu)化器、設(shè)置快照圖像網(wǎng)格、建立運(yùn)行目錄、訓(xùn)練、保存最終結(jié)果，可以生成高質(zhì)量的生成臉，然后通過人臉融合算法將生成臉與學(xué)生的真實(shí)臉進(jìn)行融合，得到融合臉。

2.2.2 生成臉與真實(shí)臉融合

將系統(tǒng)的生成臉與學(xué)生的真實(shí)臉進(jìn)行融合，人臉融合主要分為特征點(diǎn)檢測、凸包檢測、多邊形填充、三角剖分、仿射變換、泊松融合幾個(gè)步驟。首先對攝像頭捕捉到的人臉進(jìn)行人臉關(guān)鍵點(diǎn)檢測，然后對68 個(gè)人臉關(guān)鍵點(diǎn)信息進(jìn)行凸包檢測和多邊形填充，接著使用三角剖分算法完成人臉剖分，最后經(jīng)過仿射變換和泊松融合算法實(shí)現(xiàn)兩張人臉融合。

2.2.3 泊松融合算法

泊松融合［17］基于人眼天生對“突變”敏感，而對連續(xù)平滑的變化不敏感這一原理。要實(shí)現(xiàn)兩張圖片融合后不顯得突兀，就需要保證圖片邊界平滑過渡。二階偏導(dǎo)數(shù)有助于解決圖像融合問題，可使兩張圖片融合為平滑的圖像。這種使用二階偏導(dǎo)數(shù)進(jìn)行圖像融合的方法就是泊松融合算法，即借助泊松方程，使其滿足在所選區(qū)域的拉普拉斯條件和Dirichlct 邊界條件下，方程的解唯一。經(jīng)過泊松處理后合成的人臉非常自然，接近于真實(shí)人臉。

泊松方程如式（2）所示。其中，Δ 表示拉普拉斯算子，f和φ是流形上的實(shí)數(shù)或復(fù)數(shù)方程。當(dāng)流形屬于歐幾里得空間時(shí)，拉氏算子通常表示為?2，因此泊松方程通常如式（3）所示。在三維直角坐標(biāo)系中，如式（4）所示，若f(x，y，z)恒等于0，式（4）可以變?yōu)辇R次方程，即“拉普拉斯方程”。

設(shè)圖像域S是R2上的閉子集，Ω 是S的閉子集，S的邊界是?Ω。設(shè)f*是定義在S上的已知標(biāo)量函數(shù)，設(shè)v是定義在Ω 上的向量域。設(shè)f是f*在Ω 上滿足最小化問題的插值函數(shù)。當(dāng)二階偏導(dǎo)數(shù)為0 時(shí)，梯度有一個(gè)極值，如式（5）所示，其中為梯度運(yùn)算。最小值必須滿足在Ω上的拉格朗日方程，如式（6）所示，其中為拉普拉斯算子。

由于引導(dǎo)向量域是向量域v在式（5）最小化問題上的擴(kuò)展形式，因此式（5）可以表示為式（7）。式（7）的解是Dirichlet 邊界條件下泊松方程在Ω 上的唯一解，如式（8）所示，其中divv=是v的散度。

因此在Ω 內(nèi)，添加的修正函數(shù)即為邊界?Ω 上源圖像與目標(biāo)圖像錯(cuò)誤匹配(f*-g)的一個(gè)插值。

2.3 三維動(dòng)畫模型方案

三維動(dòng)畫模型方案整體架構(gòu)如圖5 所示，利用攝像頭采集學(xué)生面部圖像并進(jìn)行預(yù)處理，經(jīng)過人臉關(guān)鍵點(diǎn)標(biāo)定、三維動(dòng)畫模型綁定和人臉三維位姿估計(jì)后，生成學(xué)生面部三維動(dòng)畫替代視頻中學(xué)生的真實(shí)臉。綁定的動(dòng)畫模型可以捕捉并跟隨學(xué)生面部和頭部的每一個(gè)細(xì)微動(dòng)作，如皺眉、搖頭、抬頭、張嘴等。動(dòng)畫模型對學(xué)生的面部動(dòng)作有放大效果，可以將學(xué)生的面部情緒更直觀地呈現(xiàn)給教師，從而增強(qiáng)師生交互。由于學(xué)生的形象被三維動(dòng)畫模型所替代，因此不存在面部隱私泄露問題。此外，動(dòng)畫模型生動(dòng)、形象，有助于活躍課堂學(xué)習(xí)氣氛。

Fig.5 Overall architecture of 3D animated model scheme圖5 三維動(dòng)畫模型方案整體架構(gòu)

2.3.1 三維動(dòng)畫模型綁定

三維動(dòng)畫模型綁定是一種使三維動(dòng)畫模型能夠跟蹤被綁定臉部的每個(gè)細(xì)微面部動(dòng)作的方法。三維動(dòng)畫模型方案采用的三維動(dòng)畫模型綁定流程如圖6 所示，包括人臉檢測、人臉關(guān)鍵點(diǎn)定義、模型綁定和三維姿態(tài)估計(jì)。使用Python 環(huán)境下CV2 庫提供的LBF 算法，通過人臉檢測器檢測學(xué)生的真實(shí)人臉。為了在真實(shí)人臉上捕捉面部運(yùn)動(dòng)，需要在三維模型的人臉上定義面部關(guān)鍵點(diǎn)。本方案采用的3D 動(dòng)畫模型是Blender 提供的開源動(dòng)畫模型Vincent，使用Blender 中的Python 腳本，可以實(shí)現(xiàn)三維模型的人臉標(biāo)記定義和真實(shí)人臉的人臉檢測，從而建立三維模型與真實(shí)人臉之間的綁定關(guān)系。

Fig.6 Workflow of 3D animated model binding圖6 三維動(dòng)畫模型綁定流程

2.3.2 三維位姿估算

現(xiàn)實(shí)場景中臉部的運(yùn)動(dòng)和動(dòng)作是三維的（如搖頭、抬頭等），為了準(zhǔn)確捕捉真實(shí)人臉動(dòng)作，需要解決PnP 問題。典型的PnP 問題是借助N 個(gè)空間點(diǎn)的實(shí)坐標(biāo)和這些空間點(diǎn)在圖像上的投影計(jì)算攝像機(jī)在給定坐標(biāo)系中的位置與姿態(tài)，已知量為空間點(diǎn)與圖像坐標(biāo)的實(shí)坐標(biāo)，未知量（求解量）為攝像機(jī)姿態(tài)。本文采用LM 優(yōu)化算法［14］求解PnP 問題，通過迭代算法求出重投影誤差最小的解作為問題的最優(yōu)解，經(jīng)過羅德里格斯變換得到旋轉(zhuǎn)矩陣和平移矩陣，從而解出旋轉(zhuǎn)向量和平移向量。結(jié)合初始的參考坐標(biāo)系，便可實(shí)現(xiàn)人臉的三維位姿估算。該算法可以在攝像機(jī)捕捉到的視頻流中實(shí)現(xiàn)人臉的運(yùn)動(dòng)捕捉，并將其與Blender 三維動(dòng)畫模型綁定，獲得具有面部運(yùn)動(dòng)跟隨的三維動(dòng)畫人臉。

3 實(shí)驗(yàn)與對比

3.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)

本文所述實(shí)驗(yàn)工作的計(jì)算機(jī)環(huán)境如下：CPU 為Intel（R）Core（TM）i7-7500U CPU @ 2.70GHz 2.90 GHz，Python 3.7，TensorFlow2.0，OpenCV4.1.2。實(shí)驗(yàn)采用的數(shù)據(jù)集為：FER2013、AffectNet、CK+數(shù)據(jù)集。

3.2 emoji表情替換方案實(shí)現(xiàn)

對emoji 表情替換方案的驗(yàn)證分別在FER2013、CK+和AffectNet 3 個(gè)面部情感識別數(shù)據(jù)集上進(jìn)行，該方案采用的神經(jīng)網(wǎng)絡(luò)算法為“Sep-Cov2D”?；贔ER2013 數(shù)據(jù)集，Sep-Cov2D算法與VGG19［18］、DL-LSTM［19］和 SESResNet18［20］進(jìn)行情感識別準(zhǔn)確率對比如圖7（a）所示；基于CK+數(shù)據(jù)集，Sep-Conv2D 算法與AlexNet［21］、CSPL［22］和SE-SResNet18 進(jìn)行情感識別準(zhǔn)確率對比如圖7（b）所示；基于AffectNet數(shù)據(jù)集，Sep-Conv2D 算法與AlexNet、gACNN［23］和DenseSANet121［24］進(jìn)行情感識別準(zhǔn)確率對比如圖7（c）所示。

圖7（a）表明，在FER2013 數(shù)據(jù)集上，Sep-Covn2D 的準(zhǔn)確率在4 種神經(jīng)網(wǎng)絡(luò)中僅次于SE-SResNet18，達(dá)到了71.52%；圖7（b）表明，在CK+數(shù)據(jù)集上，Sep-Conv2D 的性能表現(xiàn)不佳，僅高于CSPL 神經(jīng)網(wǎng)絡(luò)，準(zhǔn)確率為89.93%；圖7（c）表明，在AffectNet 數(shù)據(jù)集上，Sep-Conv2D 的準(zhǔn)確率僅次于DenseSANet12，達(dá)到了59.32%。綜合來看，雖然Seo-Conv2D 在面部表情識別準(zhǔn)確率上并沒有達(dá)到目前情感識別神經(jīng)網(wǎng)絡(luò)的最高水平，但其容錯(cuò)率處于可接受范圍內(nèi)，其綜合性能可支持被應(yīng)用到實(shí)際線上教學(xué)場景中。此外，雖然SE-SResNet18 在數(shù)據(jù)集上的測試取得了很好的結(jié)果，但因其網(wǎng)絡(luò)結(jié)構(gòu)過于龐大（參數(shù)過多），并不適合線上教學(xué)這種對實(shí)時(shí)性要求很高的應(yīng)用場景。而Sep-Conv2D的另一個(gè)優(yōu)勢在于其參數(shù)規(guī)模很小，其特有的輕量性以及對計(jì)算性能要求不高的特點(diǎn)，在實(shí)時(shí)應(yīng)用場景中可以降低情感分析延遲，適合投入到實(shí)際應(yīng)用中并被廣泛推廣。Sep-Conv2D 與其他常用的面部情感識別神經(jīng)網(wǎng)絡(luò)參數(shù)數(shù)量對比如表1所示。

利用OBS 軟件設(shè)置運(yùn)行結(jié)果錄屏、安裝虛擬攝像頭插件，并在騰訊會(huì)議中將攝像頭選項(xiàng)設(shè)置為OBS virtual camera，便可實(shí)現(xiàn)將emoji 表情替換方案的運(yùn)行結(jié)果作為學(xué)生攝像頭畫面的顯示。實(shí)際運(yùn)行效果如圖8所示。

在實(shí)時(shí)開啟攝像頭的情況下，emoji 表情替換方案實(shí)現(xiàn)了學(xué)生的情感識別，并使用emoji 表情替代學(xué)生人臉。在學(xué)生端，學(xué)生面部被對應(yīng)情緒的emoji 表情替代，因此可確保其面部隱私不被泄露；在教師端，教師可通過觀察學(xué)生的emoji 表情直觀地獲知學(xué)生的聽課情緒，而不再需要通過視頻圖像判斷學(xué)生情緒，從而加強(qiáng)了師生之間的情感交互。此外，當(dāng)有學(xué)生離座時(shí)，圖像中顯著的錯(cuò)誤標(biāo)志可及時(shí)提醒教師，避免因?qū)W生視頻圖像過多導(dǎo)致教師無法及時(shí)察覺到學(xué)生離開課堂的情況，提高教師對課堂紀(jì)律的掌控力。

Fig.7 Accuracy of different emotion recognition algorithm圖7 不同算法的情感識別準(zhǔn)確率

Table 1 Comparison of parameters amount of different neural network models表1 不同神經(jīng)網(wǎng)絡(luò)模型參數(shù)數(shù)量對比

3.3 融合臉方案實(shí)現(xiàn)

與emoji 表情替換方案相同，在騰訊會(huì)議中將融合臉方案的運(yùn)行結(jié)果作為學(xué)生攝像頭畫面的顯示，實(shí)際運(yùn)行效果如圖9 所示。學(xué)生的真實(shí)臉與生成臉進(jìn)行人臉融合之后，雖然保有一部分原來的特征，如臉型、膚色、發(fā)型等，但其五官與面部的一些特征有了部分改變，因此保護(hù)了學(xué)生真實(shí)臉的面部特征，從而實(shí)現(xiàn)了對學(xué)生面部信息的隱私保護(hù)。

Fig.8 Performance of 3D animation model scheme圖8 三維動(dòng)畫模型方案運(yùn)行情況

Fig.9 Performance of facial blending scheme圖9 融合臉方案運(yùn)行情況

雖然該方案不能像emoji 表情替換方案實(shí)時(shí)地將學(xué)生面部表情以emoji 表情的形式進(jìn)行放大，但與emoji 表情替換方案中學(xué)生面部完全被emoji 表情遮擋不同，融合臉方案仍保留學(xué)生面部的一部分特征，因此該方案適合應(yīng)用在需要學(xué)生面部身份認(rèn)證的場景中（如線上考試等）。

3.4 三維動(dòng)畫模型方案實(shí)現(xiàn)

三維動(dòng)畫模型方案為了呈現(xiàn)出3D 動(dòng)畫模型對人臉動(dòng)作的捕捉效果，測試給出動(dòng)畫模型實(shí)時(shí)捕捉人臉動(dòng)作的部分截圖。實(shí)際運(yùn)行效果如圖10所示。

完成人臉綁定的3D 動(dòng)畫模型可以捕捉并跟隨學(xué)生面部和頭部的每一個(gè)細(xì)微動(dòng)作，如搖頭、抬頭、張嘴等。一方面，學(xué)生在線上教學(xué)視頻中的真實(shí)臉被動(dòng)畫模型替代，從而完成了對學(xué)生面部隱私的保護(hù)；另一方面，綁定的動(dòng)畫模型對學(xué)生面部動(dòng)作進(jìn)行放大，因此教師可以更直觀地觀察出學(xué)生的聽課情緒，如驚訝、疑惑等。3D 動(dòng)畫模型生動(dòng)、形象，有助于活躍課堂氣氛，適合應(yīng)用于線上小組討論場景中。

Fig.10 Performance of 3D animated model scheme圖10 3D動(dòng)畫模型方案運(yùn)行情況

3.5 3種方案調(diào)查問卷與結(jié)果分析

為了更好地了解學(xué)生群體對3 個(gè)方案的接受程度以及3 個(gè)方案適合應(yīng)用的場景，以在線問卷調(diào)查方式收集部分學(xué)生的意見。有針對性地邀請具有線上視頻教學(xué)、線上考試、線上答辯3 種經(jīng)歷的學(xué)生參與問卷調(diào)查，被調(diào)查的學(xué)生根據(jù)自己的線上學(xué)習(xí)經(jīng)歷對本文提出的3 種情感互動(dòng)方案進(jìn)行評價(jià)。調(diào)查問題如下：

方案一：emoji 表情替換方案；方案二：融合臉方案；方案三：三維動(dòng)畫模型方案。

（1）Q1：您最希望哪一個(gè)方案被應(yīng)用到在線視頻教學(xué)中？

（2）Q2：您認(rèn)為哪一個(gè)方案的情感識別效果最好？

（3）Q3：您認(rèn)為哪一個(gè)方案的面部隱私保護(hù)效果最好？

（4）Q4：在線上考試場景中（教師要求學(xué)生打開攝像頭），您認(rèn)為哪一個(gè)方案最合適？

（5）Q5：在日常線上教學(xué)活動(dòng)中（如講座、日常授課），您認(rèn)為哪一個(gè)方案最合適？

（6）Q6：在線上小組討論場景中，您認(rèn)為哪一個(gè)方案最合適？

調(diào)查問卷結(jié)果如圖11 所示。62.3%的學(xué)生希望方案一能夠被應(yīng)用于線上視頻教學(xué)中；66.5%的學(xué)生認(rèn)為方案一的情感識別效果最好；44.8%的學(xué)生認(rèn)為方案二的隱私保護(hù)效果最好。對于線上考試的應(yīng)用場景（教師要求學(xué)生打開攝像頭），54.7%的學(xué)生希望使用方案二；對于日常線上教學(xué)活動(dòng)的應(yīng)用場景（如講座、日常授課），61.8%的學(xué)生希望使用方案一；對于線上小組討論場景，58.5%的學(xué)生希望使用方案三。

通過進(jìn)一步分析可以得知，對于線上教學(xué)中的面部情感識別與面部隱私保護(hù)兩個(gè)方面，學(xué)生更加重視能夠加強(qiáng)與教師情感交互的面部情感識別，因此方案一的接受度最高。在線上考試場景中，學(xué)生更傾向于選擇方案二，該方案可以保留學(xué)生的部分原始面部特征，同時(shí)保護(hù)學(xué)生的面部隱私，從而實(shí)現(xiàn)身份認(rèn)證和在線考試中學(xué)生的面部信息保護(hù)；在在線小組討論場景中，學(xué)生更傾向于選擇方案三。方案三使用生動(dòng)的3D 動(dòng)畫模型取代學(xué)生的真實(shí)臉，該模型可以捕捉學(xué)生的頭部動(dòng)作和面部動(dòng)作，從而活躍課堂討論氛圍，因此適合線上教學(xué)中的小組討論場景。

Fig.11 Result of questionnaire圖11 調(diào)查問卷結(jié)果

表2 總結(jié)了3 種方案的情感交互效果、隱私保護(hù)程度、面部信息可用性和適用場景。

Table 2 Applicable scenarios of three schemes表2 3種方案的適用場景

4 總結(jié)展望

在線上視頻教學(xué)中，教師很難了解學(xué)生的情緒反應(yīng)，師生情感交互效果差，同時(shí)學(xué)生面部信息面臨泄露風(fēng)險(xiǎn)。針對以上問題，本文提出在視頻教學(xué)中加入情感識別及隱私保護(hù)的3 個(gè)方案，能夠在一定程度上滿足在線上視頻教學(xué)中加強(qiáng)師生情感交互和隱私保護(hù)的需求。然而，這些方案也存在一些缺陷。在emoji 表情替換方案中，面部情感識別網(wǎng)絡(luò)的準(zhǔn)確率不太理想，在實(shí)際應(yīng)用場景中可能會(huì)導(dǎo)致學(xué)生面部情感識別出現(xiàn)錯(cuò)誤，影響情感交互效果。產(chǎn)生這一結(jié)果的原因可能是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的缺陷，因此未來的研究目標(biāo)是優(yōu)化面部情感識別神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，同時(shí)保持網(wǎng)絡(luò)的輕量化，進(jìn)一步提高師生情感交互效果。融合臉方案中的融合臉相對比較僵硬，影響視頻中學(xué)生面容的真實(shí)性與美觀性，可能與人臉融合算法的不足有關(guān)，因此在未來對人臉融合算法的有效性需要進(jìn)行更多研究。由于目前開源三維動(dòng)畫模型數(shù)量有限，導(dǎo)致三維動(dòng)畫模型方案中的學(xué)生形象與表情比較單調(diào)，因此三維動(dòng)畫模型方案中三維動(dòng)畫模型的多樣性還有很大的拓展空間。

受人臉數(shù)據(jù)隱私安全方面有關(guān)政策約束以及真實(shí)教學(xué)環(huán)境中軟硬件設(shè)施的限制，本文提出的3 種方案主要基于開放數(shù)據(jù)集進(jìn)行研究，或在很小規(guī)模的線上會(huì)議場景中進(jìn)行了驗(yàn)證測試，還沒有在真實(shí)、復(fù)雜的線上教學(xué)環(huán)境中進(jìn)行大規(guī)模系統(tǒng)測試。若將方案應(yīng)用于實(shí)際線上教學(xué)環(huán)境中，軟硬件如何調(diào)優(yōu)？系統(tǒng)的實(shí)時(shí)性、魯棒性如何保證？這些都是今后可繼續(xù)深入研究的方向。本文對于情感交互的研究也僅限于在線教育中學(xué)生面部表情的呈現(xiàn)和放大，如何在教師與學(xué)生之間實(shí)現(xiàn)虛擬空間中相互反饋的情感互動(dòng)，同時(shí)解決面部隱私泄露問題，還有待進(jìn)一步研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡