費 騰,付康鈺,卞 萌,楊妙玲
(1. 武漢大學資源與環(huán)境科學學院,湖北 武漢 430079;2. 武漢大學遙感信息工程學院,湖北 武漢 430079)
近年來,我國普通高校中地理信息科學(geographic information science,GIS)相關專業(yè)人才培養(yǎng)的規(guī)模不斷擴大,為適應地理信息行業(yè)發(fā)展需求,對GIS 人才培養(yǎng)方法進行創(chuàng)新具有重要意義。GIS 專業(yè)研究生選拔除了考查學生的專業(yè)基礎知識,更重要的是考查學生是否具有科學研究的綜合素質(zhì)[1-2]。相對筆試而言,面試可以彌補筆試的不足,即在較短的時間內(nèi)考查學生的語言組織能力,應變能力,表達能力等研究素質(zhì)。傳統(tǒng)面試需要多名經(jīng)驗豐富的考官在現(xiàn)場考核,人力資源與時間成本大。隨著信息技術的發(fā)展,信息技術和學習管理系統(tǒng)在教學和評估中的興起,為GIS人才面試的快速評估提供了一種選擇[3]。
“價值-控制”理論認為學業(yè)成就情緒會影響學業(yè)行為與表現(xiàn)[4],國內(nèi)外學者對情緒與學生成績表現(xiàn)的相關性進行了研究,結果表明情緒是有效學習和解決問題的一個關鍵組成部分,對學生成績和表現(xiàn)是重要的影響因素[5]。此外,面試中的情緒表達可能對面試評分存在重要影響。研究表明,對求職者面試表現(xiàn)的主觀印象是決定面試官評價的一個重要因素[6],情緒的自我調(diào)節(jié)和表現(xiàn)會影響面試的結果,具有更高社交能力的個體善于傳遞情感和社交信息,從而在結構化面試中獲得更好的評價[7]。因此在教學與面試中進行情緒的挖掘和成績預測研究具有實踐價值。
從目前的研究中發(fā)現(xiàn)機器學習算法在教學領域多用于學習成績預測與考核任務的自動評分,但對于面試的評估研究較少。此外,在心理學、教育、醫(yī)學等各個領域中,機器學習的方法已被證明能從教育數(shù)據(jù)中尋找規(guī)律以達到良好的預測效果[8]。因此,本文聚焦GIS 領域人才選拔方法的創(chuàng)新,基于GIS 專業(yè)碩士面試過程的視頻數(shù)據(jù),擬從受試者面部表情出發(fā),訓練并使用卷積神經(jīng)網(wǎng)絡實時識別人臉情緒,建立基于時間序列的情緒特征,進而采用4 種機器學習模型分析情緒特征與面試成績的關系,并通過比較模型精度指標,選擇最優(yōu)模型,了解在多大程度上面試者的面部情緒信息可被用來預測面試成績,旨在推動GIS 人才培養(yǎng)方法的改革創(chuàng)新。
某雙一流大學的某年的46 名大四學生參與了本研究,有效被試為44名,其中女生23名,男生11名。學生中最大年齡為23歲,最小年齡為20歲,平均年齡為21.5歲,他們分別來自地理科學類專業(yè)、土地資源管理專業(yè)。
本實驗為選拔性綜合面試,考核內(nèi)容為英語能力與專業(yè)知識掌握情況。每位面試者面試時長為10~15 min。獲取每位面試者固定時長的視頻數(shù)據(jù),在該時間內(nèi)面試者將完成2 項任務,分別是英語自我介紹、第一個GIS專業(yè)問題回答。
為了避免不相關因素的干擾,面試視頻數(shù)據(jù)采集經(jīng)過嚴格控制,錄制視頻時在光線充足,明亮的環(huán)境,固定攝像頭角度進行正面拍攝,為了有效捕捉受試者情緒變化,采集幀率設置為30 幀/s[9],采集時長為面試開始的前200 s,后續(xù)人臉識別將無法識別情緒或人臉的視頻幀進行剔除。
為了評估面試表現(xiàn),聘請5 名行業(yè)專家、研究生導師根據(jù)英語能力、專業(yè)知識回答、心理素質(zhì)3 項指標以百分制的方式對學生進行打分,評分表如表1所示,每個學生的最終得分為5 位專家評分的均值,英語能力、專業(yè)知識、心理素質(zhì)分別占總分的30%、50%和20%。
表1 專家評分表
mini_Xception架構是一個全卷積神經(jīng)網(wǎng)絡,它由3 個普通卷積層和4 個殘差模塊以及3 個池化層組成,如圖1 所示,作為全卷積神經(jīng)網(wǎng)絡的主流框架,與其他模型相比,有更好的性能[10]。該架構使用Dlib 庫進行人臉檢測,其預訓練模型在FER-2013 數(shù)據(jù)集上測試情感分類任務獲得了的65.9%的準確率。本研究對Fer-2013 數(shù)據(jù)集進行一系列的擴充,將圖像進行旋轉、變形、歸一化等圖像增強操作,然后利用擴充后的數(shù)據(jù)集進行訓練并保存為HDF5 文件,最終其精度達到70.00%。除了“中立”情緒外,6 種情緒可從面部表情中識別并量化:“開心”、“悲傷”、“厭惡”、“驚訝”、“恐懼”和“生氣”。本研究使用訓練后的mini_Xception 模型對視頻中面試者的情緒進行提取,使用Harr分類器[11]獲取人臉區(qū)域坐標從而提取人臉圖片,進行人臉面部特征的識別和人臉表情的分類,得到每一張人臉對應的每一種表情的概率值預測的集合,并將分類結果記錄在數(shù)據(jù)庫中。
圖1 mini_Xception架構
通過機器學習模型提取的情緒參數(shù)為時域上的數(shù)據(jù)集,該數(shù)據(jù)集為44×200×9 的矩陣。其中,44 為面試者人數(shù),200 為采樣數(shù)(1 Hz×200 s);9 列數(shù)據(jù)中除了第1 列和第2 列為樣本ID 和采集時間,其他7 列為不同情緒的預測概率值。Tsfresh是基于Python的開源時序數(shù)據(jù)特征提取工具包,內(nèi)置了眾多統(tǒng)計學的特征計算函數(shù),例如計算均值、標準差等常規(guī)統(tǒng)計量,與傳統(tǒng)特征提取方法比,其提取效率高和范圍廣,能自動計算出大量的時間序列特征[12],部分特征如表2所示。情緒特征工程的流程如圖2 所示,最終對情緒時序數(shù)據(jù)提取了5509×44維時序特征。
圖2 Tsfresh特征提取流程
表2 Tsfresh特征工程包含的部分特征
本研究對提取的眾多時序特征進行初步篩選,先剔除對面試分數(shù)預測無關的特征,包括單一取值的特征、低相關性的特征。研究設置了情緒特征與面試綜合分數(shù)的相關性閾值,對其絕對值大于0.45,并且通過P<0.05 顯著性檢驗的情緒特征進行保留。為了避免多重共線性造成模型失真,在進行模型回歸前對特征進行多重共線性檢驗,篩選合適的特征,保證回歸模型的可靠性。通過計算方差膨脹因子(variance inflation factor,VIF)進行共線性檢驗[13],VIF評估當預測因子相關時,回歸系數(shù)的方差會增加多少,該值越大意味著共線性越強,回歸系數(shù)難以估計準確。本研究對VIF大于10的特征進行剔除,確定特征數(shù)據(jù)集,最終得到滿足要求的12個情緒特征,進行模型回歸。
偏最小二乘回歸(partial least square regression,PLSR)以及支持向量回歸(support vector regression,SVR)是傳統(tǒng)典型的統(tǒng)計方法和機器學習模型。隨機森林回歸模型(random forest regression,RFR)、梯度提升回歸樹(gradient boosting regression tree,GBRT)作為經(jīng)典的集成模型,對于小樣本的回歸具有較強的泛化能力。為了比較不同機器學習模型在情緒評分上應用的效果,本文采用PLSR、SVR、RFR、GBRT 進行回歸模型的構建與預測分析。
2.4.1 模型評價指標
本文采用均方根誤差(root mean square error,RMSE)、決定系數(shù)R2來衡量模型的預測精度。均方根誤差取值越小,模型的擬合性能越好。決定系數(shù)R2越接近1,因變量的方差可以被獨立變量所解釋的部分越多,模型的效果越好。決定系數(shù)和均方根誤差的公式如式(1)、(2)所示:
式中,yi為真實預測值;ypi為模型預測值;ym為真實預測值的平均值。
在調(diào)整模型的參數(shù)時,常用的方法是交叉驗證(cross validation,CV)。為了解決數(shù)據(jù)集數(shù)據(jù)量不夠大的問題,本文采用留一交叉驗證(least one out cross validation,loocv)計算模型的評價指標的平均結果,更好地反映模型的預測精度。
2.4.2 排列重要性
排列重要性(permutation importance,PI)是與模型無關的衡量特征重要性的有效方法[14],能夠研究不同特征對模型預測結果的影響,排列重要度越高說明特征對模型預測的準確度影響越大。排列重要性的原理是改變數(shù)據(jù)集中某一個特征數(shù)據(jù)的排列順序,其他特征保持不變,對比變化前后模型預測精度的變化大小,就認定為該特征的排列重要度。本文計算模型的PI值,繪制影響因素的排列重要性圖,分析影響表現(xiàn)的情緒特征。
在AMDRyzen74800 HCPU、RTX2060 GPU 上,基于Python3.7完成人臉情緒識別與模型構建,主要采用的算法包為Keras 2.3.1、 TensorFlow 2.2.0、 TSfresh0.18.0和Scikit-learn 0.24.2。
對44 名被試進行了面試專家評分和人臉情緒識別,評分分數(shù)分布在[75,92] ,平均分為86.3 分,方差為4.11,前200 s 內(nèi)統(tǒng)計的情緒結果如圖3 所示,其中虛線為平均值,空心圓為離群值。由圖可知,面試過程中的中性情緒為學生表現(xiàn)的主體情緒,高興和中性情緒表現(xiàn)占比超過50%。通過計算面試過程的平均情緒,其結果顯示情緒為中性的占比為43.94%,其次是高興情緒19.94%,悲傷、恐懼和憤怒情緒的占比分別為10.34%、10.43%、10.6%。本研究將驚訝和高興定義為積極情緒,憤怒、厭惡、悲傷、恐懼定義為消極情緒。通過計算面試成績與7 種情緒平均值的Pearson 相關系數(shù),發(fā)現(xiàn)中性情緒、積極情緒和面試成績呈現(xiàn)正相關,并且是顯著的(P<0.01) ,憤怒、悲傷、恐懼與面試成績呈現(xiàn)負相關,且也是顯著的(P<0.01)。
圖3 7種情緒箱型圖
經(jīng)過特征選擇確定了12個情緒特征,每個特征由不同的特征計算器函數(shù)得來。此外,在進行回歸模型構建之前對12個特征計算方差膨脹因子,進行多重共線性檢驗,結果如下表3 所示,所有特征對應的方差膨脹因子的值在[1.00,2.00] 之間,均小于5,這表明特征選擇出來的12個特征數(shù)據(jù)不存在嚴重多重共線性問題,如果只存在相對較為輕微的多重共線性,可保留作為模型構建的特征集。
采用支持向量回歸、偏最小二乘回歸、隨機森林回歸、梯度提升回歸樹以特征集作為輸入,面試分數(shù)作為輸出,構建回歸模型。基于模型精度評價指標,對4 種回歸模型進行留一驗證,表4 列出了采用留一驗證后的模型精度評價指標的平均值,圖4是PLSR 模型擬合效果圖。由驗證結果可知,RFR 模型和GBRT 模型的表現(xiàn)相似,其擬合能力較弱,RMSE 和R2的值非常接近,SVR 模型的擬合能力和模型效果均優(yōu)于RFR 模型和GBRT 模型。整體來看,PLSR 模型的擬合能力、穩(wěn)定性和精度表現(xiàn)最好,其R2值為0.486,RMSE 值為0.172,均高于前3 個模型的預測精度。
圖4 PLSR模型預測效果
表4 模型評價指標
通過模型的訓練與預測,本研究選擇擬合效果更好的偏最小二乘回歸模型,計算不同特征的PI并繪制影響特征的排列重要性圖,如圖4 所示。排列重要性可以增加對模型的解釋性,特征的重要性值越大,對模型的預測結果影響越大。從圖中可以看出,憤怒情緒相關特征的排列重要性最高為0.123,意味著將該特征列進行隨機打亂,會使模型的預測精度下降12.3%,影響相對較大。圖4中權重的正值意味著該特征對預測結果有貢獻,負值則表明該特征對預測結果貢獻度不大,重要性接近于0。在重要性值排名前8位的情緒特征中,比例最高的是與負面情緒相關的特征(憤怒、悲傷、恐懼、厭惡)占62.5%,其次是中性情緒相關特征占25%,最后是積極情緒相關特征(高興)占百分之12.5%。
根據(jù)上述分析,我們的研究發(fā)現(xiàn)通過分析面試視頻前200 s 的表情數(shù)據(jù),可以預測出面試成績,可解釋占比為48.6%。研究比較了PLSR、SVR、RFR 和GBRT 4種模型在成績預測中的應用,其中PLSR模型的預測精度與穩(wěn)定性高于其他模型。
特征重要性排序結果表明,占比更高的消極情緒和中性情緒對面試成績預測準確性的影響更大。結合情緒與面試成績的相關系數(shù),消極情緒與面試成績呈顯著負相關,可能是因為學生在面對專家提出的問題,出現(xiàn)無法解答的情況下,容易呈現(xiàn)負面情緒的表情如焦慮,憤怒;而中性情緒與成績呈現(xiàn)正相關,這體現(xiàn)了穩(wěn)定的情緒表達更容易得到專家的肯定。
本研究對GIS 研究生面試過程中的情緒與面試成績的關系進行了探索,研究表明受試者面部表情時間序列數(shù)據(jù)可以作為面試成績表現(xiàn)的重要預測變量,特征挖掘進一步提高模型預測精度,采用深度學習分析情緒可以作為面試官打分的輔助依據(jù)。然而本文僅基于GIS 專業(yè)碩士面試數(shù)據(jù),結果未必具有跨專業(yè)的普適性,因此在后續(xù)的研究中,我們將擴大專業(yè)范圍,測試本研究的普適性以及情緒識別模型精度的優(yōu)化。