楊秋芬,桂衛(wèi)華,胡豁生,陽若寧
YANG Qiufen1,2,GUI Weihua1,HU Huosheng1,YANG Ruoning2
1.中南大學(xué)信息科學(xué)與工程學(xué)院,長沙410083
2.湖南廣播電視大學(xué)理工教學(xué)部,長沙410004
1.School of Information Science and Engineering,Central South University,Changsha 410083,China
2.Science&Engineering Department,Hunan Radio&TV University,Changsha 410004,China
網(wǎng)絡(luò)教育是一種日益普遍的現(xiàn)代遠(yuǎn)程教育。但是,這種教育方式存在著一個極大的缺點(diǎn),即學(xué)習(xí)者與教師分處兩地,非直接面對面交流,學(xué)習(xí)者的學(xué)習(xí)情緒狀態(tài)通常得不到關(guān)注[1-2],情感交互缺失。這種教育方式和全日制教育方式不同,缺乏學(xué)習(xí)氛圍,缺乏老師的監(jiān)督和提醒,而且學(xué)習(xí)時間較長,這些因素容易導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)者出現(xiàn)“學(xué)習(xí)疲勞”。因此,網(wǎng)絡(luò)遠(yuǎn)程學(xué)習(xí)過程中及時檢測學(xué)習(xí)者是否“學(xué)習(xí)疲勞”并在網(wǎng)絡(luò)教育學(xué)習(xí)系統(tǒng)中做出相應(yīng)的警示措施,有著極其重要的現(xiàn)實(shí)意義和應(yīng)用價值。
由于目前對教育領(lǐng)域的疲勞檢測技術(shù)研究比較少,關(guān)于網(wǎng)絡(luò)學(xué)習(xí)疲勞檢測的檢測方法,成熟的駕駛員疲勞技術(shù)對于網(wǎng)絡(luò)學(xué)習(xí)者的學(xué)習(xí)疲勞進(jìn)行預(yù)警研究有一定的借鑒意義。已有的人臉識別研究表明,網(wǎng)絡(luò)學(xué)習(xí)者在學(xué)習(xí)疲勞時的眼睛和嘴巴的狀態(tài)是反應(yīng)學(xué)習(xí)者是否疲勞的重要因素[1-2]。劉瑾奕教授[3]做了智能教室圖像處理和模糊邏輯的睡意檢測的研究及其實(shí)現(xiàn),他首先分析了教室的瞌睡場景和檢測方案的實(shí)際需求,然后確定選用模糊邏輯以及數(shù)字圖像處理基礎(chǔ)來展開研究,并最終使其在MATLAB仿真平臺下得以實(shí)現(xiàn),但是他所選擇的標(biāo)準(zhǔn)過于單一,即眼睛閉合為瞌睡,眼睛睜開為清醒狀態(tài)[3]。文獻(xiàn)[1]提出基于膚色分割和模版匹配相結(jié)合的學(xué)習(xí)疲勞識別算法,并對中性、疲勞和專注三種網(wǎng)絡(luò)學(xué)習(xí)表情檢測相應(yīng)的人臉區(qū)域,對眼睛、嘴巴區(qū)域進(jìn)行特征提取,采用基于規(guī)則的表情分類方法,識別出學(xué)習(xí)者的學(xué)習(xí)狀態(tài),并作出實(shí)時提醒,提高網(wǎng)絡(luò)學(xué)習(xí)者的學(xué)習(xí)效率。文獻(xiàn)[4]采用VC++實(shí)現(xiàn)了學(xué)習(xí)者疲勞檢測的人臉特征定位,他在YCbCr空間運(yùn)用膚色高斯模型對圖像進(jìn)行灰度處理,先對眼部區(qū)域、嘴部區(qū)域進(jìn)行粗定位接著進(jìn)行精確定位,并將眼睛開合狀態(tài)、眼睛張開與閉合時間、嘴巴開合狀態(tài)以及打哈欠所用時間作為檢測標(biāo)準(zhǔn),以此判斷網(wǎng)絡(luò)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)。
本文提出一種基于Gabor小波和HMM的學(xué)習(xí)疲勞眼部狀態(tài)識別算法,并嵌套在遠(yuǎn)程智能教學(xué)系統(tǒng)中。該方法在YCbCr顏色空間用拉普拉斯算子對眼部圖像進(jìn)行灰度差的處理;接著構(gòu)造選擇二維Gabor核函數(shù),構(gòu)造48個最優(yōu)濾波器,獲取48個特征值,這48個特征值生成48個特征向量,用HMM對觀測序列O進(jìn)行狀態(tài)識別,該序列是由眼部圖像的特征向量構(gòu)成。
在本文的方法中,使用下列方程式從RGB顏色空間中獲得了YCbCr的顏色空間,其中R,G和B分別是彩色圖像的紅,綠,藍(lán)部分。Y,Cr和Cb的標(biāo)準(zhǔn)范圍為[0,255]。
眼部區(qū)域與面部前額區(qū)對比,具有低強(qiáng)度Y,低紅色度(Cr)和高藍(lán)色度(Cb)。通過這一事實(shí),可將該輸入圖像預(yù)處理成灰度圖像。鄰近像素之間灰度差異的PDF,可通過廣義的拉普拉斯算子近似模擬?;叶确椒ㄈ鐖D1所示。
圖1 邊緣輪廓定義
其中ΔI是灰度差,λ取決于兩個采樣圖像位置之間的距離,β是約等于0.5的參數(shù),ZL是歸一化常數(shù)。下文中,假定β=0.5,這意味著ZL=4λ。
圖2顯示了眼睛圖像中灰度差的分布。在不同皮膚尺度上計(jì)算出的灰度差如圖2所示??蓮膱D中看到,眼睛圖像的灰度差分布可通過YCbCr近似模擬出。此外,還能看到分布的寬度k隨著尺度增加。
圖2 眼睛圖像中不同尺度上的灰度差分布
圖2顯示了眼睛圖像中灰度差的分布。在不同Δν尺度上計(jì)算出的灰度差,如圖2所示。從圖中看到,眼睛圖像灰度差的分布通過廣義的拉普拉斯算子近似模擬出,定義見等式(2)。此外,還能看到分布的寬度λ隨著尺度增加。造成這種現(xiàn)象的原因是,隨著Δν增加,像素值的相關(guān)性變?nèi)酢?/p>
可以說,自曼海姆《意識形態(tài)與烏托邦》一書問世后,科學(xué)技術(shù)與意識形態(tài)的關(guān)系討論進(jìn)入到了白熱化階段,馬克思與阿爾都塞沿著科學(xué)技術(shù)與意識形態(tài)對立的道路前進(jìn),而法蘭克福學(xué)派卻走向了相反的道路,認(rèn)為在后資本主義時代,科學(xué)技術(shù)已經(jīng)具有了意識形態(tài)職能,科學(xué)技術(shù)即是一種意識形態(tài)。因此,意識形態(tài)與科學(xué)對立論為哈貝馬斯的理論創(chuàng)建提供了寶貴的學(xué)理材料,而法蘭克福學(xué)派第一代學(xué)者的科學(xué)技術(shù)即意識形態(tài)論卻直接為其理論奠定了基礎(chǔ),正如哈貝馬斯自己所言:“科學(xué)技術(shù)執(zhí)行意識形態(tài)的職能的發(fā)明權(quán)并不屬于我,而是屬于霍克海默和馬爾庫塞”。
然后,使用閾值T通過簡單的全局閾值將灰度圖像二進(jìn)制為“二值圖像”。線性化后,下一個任務(wù)就是獲取4連通的組件,貼上標(biāo)簽,然后找出各組塊的中心。對兩只眼睛,嘴巴,耳朵等貼上了標(biāo)簽。連通組件的詳細(xì)結(jié)果見文獻(xiàn)[5-8]。
處理后眼區(qū)的圖像如圖3所示。
圖3 眼區(qū)圖像處理
二維Gabor小波變換是時頻域進(jìn)行信號分析和處理的一個重要工具,其變換系數(shù)具有良好的視覺特征和生物背景。不同參數(shù)的Gabor濾波器能捕捉圖像中的局部特征信息,與不同的空間頻率,空間位置和方向?qū)?yīng)。由于Gabor濾波器的特征。它對亮度和面部表情變化并不敏感,因此,Gabor濾波器被廣泛用于圖像編碼,手寫數(shù)字辨識,人臉識別和邊緣檢測等[9-10]。
對圖像預(yù)處理后的灰度圖像進(jìn)行二維Gabor小波變換,從而獲得駕駛員臉部區(qū)域的疲勞特征。二維Gabor小波核函數(shù)是:
kj構(gòu)成了不同小波(其邊的值不同),本文采用了4個尺寸和6個方向的變化。
其中,g(kj,x)是振幅。因此,Gabor濾波的值是48,這構(gòu)成了一組代表目標(biāo)特征的最佳濾波。這些濾波構(gòu)成了小波子空間,將圖像投射到小波子空間上從而獲得小波系數(shù),提取平均值和方差來表示駕駛員面部表情圖像的統(tǒng)計(jì)特征。48個特征點(diǎn)的分布圖如圖4所示。
圖4 48個特征點(diǎn)的分布圖
HMM是一種比較成熟的隨機(jī)過程統(tǒng)計(jì)匹配模型,該模型是參數(shù)來描述的。隱馬爾可夫模型(HMM)包括隱含層和觀測層,其中隱含層是隱含的馬爾可夫鏈,觀測層則是實(shí)際的觀測量,也就是要識別的實(shí)例。
一個HMM可以記為式(6):
A代表的是狀態(tài)轉(zhuǎn)移概率矩陣,B代表的是觀測值概率矩陣,M代表的是觀測序列的長度,N代表的是隱含狀態(tài)數(shù),π代表的是初始狀態(tài)概率。
為了優(yōu)化HMM參數(shù)[11-12],根據(jù)具體情況有的采用單幅圖像進(jìn)行訓(xùn)練,有的采用多幅圖像進(jìn)行訓(xùn)練。訓(xùn)練步驟為:
(1)對分類的眼部狀態(tài)圖像進(jìn)行Gabor濾波值的計(jì)算,找到特征值生成觀測序列Oi,并將Oi作為觀測圖像的特征向量。
(2)通用模型λ=(N,M,π,A,B),確定模型允許的高斯混合概率成分的個數(shù)、狀態(tài)數(shù)和狀態(tài)轉(zhuǎn)移。
(3)計(jì)算模型的初始參數(shù),注意與Nt(t時刻)個狀態(tài)對應(yīng),然后將訓(xùn)練數(shù)據(jù)均勻分割。狀態(tài)轉(zhuǎn)移矩陣A=(aij),取aij=0,當(dāng)j<i或j>j-1。初始概率分布π=(π1,π2,…,πN),假設(shè)第一個狀態(tài)π1=1。如果πi=1(i≠1),B={bj(Oi)}用高斯概率密度函數(shù),B={bj(Oi)}可依據(jù)式(7)進(jìn)行計(jì)算:
其中Σj和μj分別為高斯概率密度函數(shù)的協(xié)方差矩陣和均值。
(4)HMM的最優(yōu)狀態(tài)序列的求出。高斯混合模型的參數(shù)采用Viterbi分割[13],結(jié)合分段K均值聚類方法。
(5)借助Baum-Welch算法[13]再次估計(jì)參數(shù)。確定λ=(N,M,π,A,B),并依據(jù)模型優(yōu)化參數(shù),使P(O|λ)的值達(dá)到最大,P(O|λ)為眼疲勞狀態(tài)中的某個類別。
先對YCbCr顏色空間用拉普拉斯算子對眼部圖像進(jìn)行灰度差的處理,再用Gabor濾波器對人眼圖像進(jìn)行處理,借助前向-后向算法分組訓(xùn)練觀測序列O,該觀測序列由特征向量構(gòu)成,訓(xùn)練所用模型為λi(1≤i≤3),依次求取概率P(O|λi)。miax P(O|λi)所對應(yīng)的模型即為待識別眼部狀態(tài)所屬的類別。
本研究試圖從網(wǎng)絡(luò)學(xué)習(xí)的角度來分析網(wǎng)絡(luò)學(xué)習(xí)的基本過程和原理[13-14]。網(wǎng)絡(luò)學(xué)習(xí)者的對象以成人為主,取樣人臉識別數(shù)據(jù)庫CAS-Peal-R1,網(wǎng)絡(luò)學(xué)習(xí)平臺是校級精品課程《工程力學(xué)》,借助認(rèn)知心理學(xué)的研究方法和研究手段,開展相關(guān)的網(wǎng)絡(luò)疲勞學(xué)習(xí)的實(shí)驗(yàn)。通過從網(wǎng)絡(luò)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)的分析,提高網(wǎng)絡(luò)課程設(shè)計(jì)的質(zhì)量,提高遠(yuǎn)程教育的服務(wù)水平,對網(wǎng)絡(luò)學(xué)習(xí)支持提供支撐,使得網(wǎng)絡(luò)學(xué)習(xí)平臺得到更加積極的利用。
CAS-PEAL-R1是大型中國人臉庫,其中總共包括1 040人,99 450幅人臉圖像,圖片大小為360像素×480像素,包括表情、姿態(tài)、光照和飾物4種變化。本文算法在CAS-Peal-R1,取樣數(shù)量分別為20 000、10 000和5 000進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表1。
表1 Gabor+HMM算法和其他+HMM的眼部狀態(tài)算法的速度比較s
從表1可以看出,當(dāng)實(shí)驗(yàn)圖像的數(shù)目較大時(20 000和10 000),Gabor+HMM算法在識別速度上比其他+HMM算法(包括PCA+HMM、ICA+HMM、DCT+HMM)更高效,而當(dāng)數(shù)目較小時(5 000),Gabor+HMM算法比其他+HMM算法的速度要慢些,因?yàn)槭褂肎abor+HMM算法在識別面部圖像前進(jìn)行的面部圖像歸類耗時比較多。因此,可以得出結(jié)論,該算法適合大規(guī)模的人臉庫,一般大于10 000。
其結(jié)果見圖5和圖6中。
圖5 Gabor+HMM算法的識別效果
圖6 其他+HMM算法的識別效果
圖7對本文的Gabor+HMM、PCA+HMM、ICA+HMM和DCT+HMM的識別率進(jìn)行了對比,得出下列的結(jié)論:Gabor+HMM維數(shù)越低識別率越低,其中當(dāng)維數(shù)為1時,識別率均不超過75%;識別率隨著維數(shù)的增加有明顯地提高(當(dāng)維數(shù)等于48時,達(dá)到最大值97.68%,這和前面的Gabor濾波值的設(shè)定相一致),對PCA+HMM、ICA+HMM、DCT+HMM三種方法,當(dāng)對應(yīng)的特征維數(shù)分別達(dá)到20、7、22時,對應(yīng)的識別率分別基本穩(wěn)定在93.29%、90.89%、92.8%。
圖7 Gabor、PCA、ICA和DCT不同觀察矢量維數(shù)下的識別率
本文中N和M的選擇依照實(shí)驗(yàn)結(jié)果確定,N的值域?yàn)?~8,M的值域?yàn)?~21。從圖8中能夠看出,當(dāng)M=12,N=4時,疑惑與疲勞的識別率均處于最大值。在保持不變高斯概率混合成分個數(shù)的前提下,當(dāng)N<4時,識別率隨著N的增大而提高;N≥4后,識別率反而逐漸下降。觀測值概率分布矩陣B={bj(Oi)}的計(jì)算是公式(7),公式(7)中的μj用公式(8)進(jìn)行計(jì)算,Σj表示用公式(9)進(jìn)行計(jì)算。
圖8 高斯概率混合成分個數(shù)和狀態(tài)數(shù)對識別率的影響
三種狀態(tài)中,正常學(xué)習(xí)的識別率比較低,這是由于專注和疲勞比正常學(xué)習(xí)的表情特征要更加明顯。在遠(yuǎn)程智能教育系統(tǒng)中,通過兩種方法提高識別率:第一,要求攝像機(jī)拍攝彩色圖像,根據(jù)Y分量的變化及時更新Gaussian模型參數(shù);第二,把學(xué)習(xí)疲勞的分類更加細(xì)化,睜眼、合眼狀態(tài)界定更加明確,從而提高了識別跟蹤的準(zhǔn)確率和穩(wěn)定性。本文的識別結(jié)果作為反饋信息傳送到遠(yuǎn)程智能教學(xué)系統(tǒng)中,讓教師及時調(diào)整教學(xué)進(jìn)度、重新安排教學(xué)內(nèi)容、為改正教學(xué)方法提供依據(jù),為網(wǎng)絡(luò)學(xué)習(xí)者提供個別化的學(xué)習(xí)環(huán)境,以彌補(bǔ)網(wǎng)絡(luò)學(xué)習(xí)者情感缺失的問題。
[1] Wang Tingting,Wu Yanwen,Ai Xueyi.Learning fatigue recognition and intervention based on facial expression recognition[J].Computer Engineering and Design,2010,31(8):1764-1767.
[2] Zhang Jiahua.Research on the information processing model of web based learning and its application[D].Chongqing:Southwest University,2010.
[3] 劉瑾奕.智能教室中基于圖像處理和模糊邏輯的睡意檢測研究與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2007.
[4] 彭慧玲.網(wǎng)絡(luò)學(xué)習(xí)疲勞檢測中的人臉特征定位研究[D].武漢:華中師范大學(xué),2008.
[5] 楊秋芬,桂衛(wèi)華,胡豁生,等.基于ICA和HMM的疲勞駕駛眼部狀態(tài)識別算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(27):5-7.
[6] 周書仁,梁昔明,朱燦,等.基于ICA與HMM的表情識別[J].中國圖象圖形學(xué)報(bào),2008(12):2321-2327.
[7] 周書仁.人臉表情識別算法分析與研究[D].長沙:中南大學(xué),2009.
[8] 郭克友,儲江偉,王榮本.駕駛員眼部狀態(tài)識別方法的研究[J].系統(tǒng)工程與電子技術(shù),2003,25(10):1186-1188.
[9] 曹林,王東峰,鄒謀炎.基于小波變換和隱馬爾可夫模型的人臉識別方法[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(7):18-23.
[10] 張偉,黃煒,羅大庸.基于多特征量貝葉斯融合的駕駛疲勞識別[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(33):244-248.
[11] Azman A,Qinggang M,Eran A E,et al.Non-intrusive physiological measurement for driver cognitive distraction detection:eye and mouth movements[J].International Journal of Advanced Computer Science,2011,1(3):92-99.
[12] Huang Wei,Zhang Wei.Driver fatigue recognition based on supervised LPP and MKSVM[C]//Zhang Ting.Proceedings of the SPIE,Third International Conference on Digital Image Processing,Chengdu,China,2011.USA:SPIE,2011.
[13] Ma C X,Li Y Z,He R C,et al.Latent ring-like road traffic control system based on compound mechanism particle swarm optimisation algorithm[J].Int J of Modelling,Identification and Control,2013,18(1):47-53.
[14] Zhang L,Zhou W D,Chang P C,et al.Kernel sparse representation-based classifier[J].IEEE Transactions on Signal Processing,2012,60(4):1684-1695.