尹鐘 劉麗 陳瑋
摘 要:針對(duì)智能科學(xué)與技術(shù)專(zhuān)業(yè)數(shù)據(jù)挖掘課程中的知識(shí)難點(diǎn),引入智能科學(xué)的重要問(wèn)題——使機(jī)器理解人類(lèi)情感,提出基于情感計(jì)算的數(shù)據(jù)挖掘課程教學(xué)案例。筆者利用倫敦瑪麗女王大學(xué)研究者建立的情感識(shí)別數(shù)據(jù)集,由淺入深地設(shè)計(jì)了針對(duì)數(shù)據(jù)預(yù)處理、聚類(lèi)分析、關(guān)聯(lián)性分析、分類(lèi)、回歸分析知識(shí)點(diǎn)的5個(gè)課堂和上機(jī)實(shí)驗(yàn)教學(xué)案例;規(guī)劃了一項(xiàng)基于腦電信號(hào)識(shí)別情緒狀態(tài)的課程作業(yè),培養(yǎng)學(xué)生的綜合知識(shí)運(yùn)用能力和團(tuán)隊(duì)協(xié)作能力。這些教學(xué)案例引導(dǎo)學(xué)生分析與人類(lèi)情緒密切相關(guān)的認(rèn)知數(shù)據(jù),形象展示不同數(shù)據(jù)分析算法的功能特點(diǎn),在提高教學(xué)效果的同時(shí)幫助學(xué)生了解智能人機(jī)交互技術(shù)的前沿動(dòng)態(tài)。
關(guān)鍵詞:數(shù)據(jù)挖掘;情感計(jì)算;智能科學(xué)技術(shù)
0 引 言
隨著信息科學(xué)和計(jì)算機(jī)技術(shù)的進(jìn)步,數(shù)據(jù)的存儲(chǔ)規(guī)模和傳輸速度不斷提高。為了使這些歷史信息更好地為各行各業(yè)服務(wù),數(shù)據(jù)挖掘(data mining)技術(shù)發(fā)揮了重要作用,其旨在發(fā)現(xiàn)隱藏在表層數(shù)據(jù)信息中的內(nèi)在規(guī)律和知識(shí)。數(shù)據(jù)挖掘課程是智能科學(xué)與技術(shù)本科專(zhuān)業(yè)的特色課程之一。該課程指導(dǎo)學(xué)生在實(shí)踐中理解機(jī)器學(xué)習(xí)原理,運(yùn)用所學(xué)的統(tǒng)計(jì)學(xué)和模式識(shí)別算法分析數(shù)據(jù),為學(xué)生從事相關(guān)工作或繼續(xù)深造提供必要的知識(shí)基礎(chǔ)[1]。
值得指出的是,數(shù)據(jù)挖掘課程中涉及的具體案例,多與該學(xué)科起源領(lǐng)域——商務(wù)、金融、顧客關(guān)系管理——密切相關(guān)[2],而工科專(zhuān)業(yè)學(xué)生對(duì)上述問(wèn)題的重要性缺乏直觀感受。因此,筆者期望通過(guò)智能人機(jī)交互技術(shù)中的前沿問(wèn)題——情感計(jì)算(affective computing)[3]——設(shè)計(jì)基于智能、認(rèn)知科學(xué)交叉的數(shù)據(jù)挖掘教學(xué)案例,幫助學(xué)生循序漸進(jìn)地掌握不同數(shù)據(jù)挖掘方法的原理。
智能人機(jī)交互技術(shù)的研究重點(diǎn)之一是提高機(jī)器(計(jì)算機(jī))理解人類(lèi)意圖的效率和精度。由于語(yǔ)言、表情形成的人類(lèi)指令通常伴隨著情緒信息,情感計(jì)算的目的是賦予機(jī)器理解此類(lèi)人特有心理活動(dòng)的能力。而數(shù)據(jù)挖掘技術(shù)通過(guò)分析來(lái)自人的認(rèn)知狀態(tài)數(shù)據(jù),利用算法實(shí)現(xiàn)對(duì)人情感狀態(tài)的評(píng)估。筆者在以往研究工作[4]的啟發(fā)下,于數(shù)據(jù)挖掘課程教學(xué)中引入情感計(jì)算問(wèn)題,將部分基礎(chǔ)內(nèi)容用以設(shè)計(jì)教學(xué)案例。通過(guò)以智能科學(xué)發(fā)展的前沿動(dòng)態(tài)為背景,這些案例很好地調(diào)動(dòng)了學(xué)生的學(xué)習(xí)積極性。
1 情感計(jì)算數(shù)據(jù)集概述
為了直觀展示不同數(shù)據(jù)挖掘方法分析人類(lèi)情緒信息的功能特點(diǎn),筆者采用倫敦瑪麗女王大學(xué)研究者建立的DEAP數(shù)據(jù)集作為設(shè)計(jì)教學(xué)案例的基礎(chǔ)[5]。該數(shù)據(jù)集于互聯(lián)網(wǎng)上公開(kāi)可用,其收集了32名志愿者對(duì)40條音樂(lè)視頻的情緒反饋,共計(jì)32×40=1 280條樣例。為了便于學(xué)生理解,教學(xué)案例部分僅使用志愿者對(duì)視頻的主觀評(píng)價(jià)信息。其中,每名志愿者對(duì)每條視頻分別給出 “覺(jué)醒(arousal)”和“效價(jià)(valence)”水平2個(gè)分?jǐn)?shù),分?jǐn)?shù)值為1—9之間的實(shí)數(shù)。覺(jué)醒水平區(qū)分視頻誘發(fā)冷靜(1分)或興奮(9分)的情緒,而效價(jià)水平則判別情緒的消極(1分)或積極(9分)程度。如圖1所示,覺(jué)醒和效價(jià)水平可構(gòu)成一個(gè)2維坐標(biāo)平面,描述了喜悅、舒適、沮喪、憤怒4種不同情緒。
2 教學(xué)案例設(shè)計(jì)
以DEAP數(shù)據(jù)集為基礎(chǔ),筆者設(shè)計(jì)了3個(gè)課堂教學(xué)案例和2個(gè)上機(jī)實(shí)驗(yàn)案例(見(jiàn)表1)。這些案例不僅涵蓋了數(shù)據(jù)挖掘問(wèn)題的主要任務(wù),同時(shí)能系統(tǒng)解析覺(jué)醒、效價(jià)數(shù)據(jù)的分布特性和潛在規(guī)律。
表1 基于情感計(jì)算的教學(xué)案例及對(duì)應(yīng)數(shù)據(jù)挖掘任務(wù)案例序號(hào) 案例類(lèi)型 案例內(nèi)容 數(shù)據(jù)挖掘方法
1 課堂教學(xué) 覺(jué)醒、效價(jià)得分的標(biāo)準(zhǔn)化和歸一化 數(shù)據(jù)預(yù)處理
2 課堂教學(xué) 情緒類(lèi)別的無(wú)監(jiān)督學(xué)習(xí) 聚類(lèi)分析
3 課堂教學(xué) 不同志愿者覺(jué)醒、效價(jià)得分的相關(guān)性計(jì)算 關(guān)聯(lián)性分析
4 上機(jī)實(shí)驗(yàn) 特定志愿者情緒類(lèi)別判定 分類(lèi)
5 上機(jī)實(shí)驗(yàn) 特定志愿者覺(jué)醒、效價(jià)得分估計(jì) 回歸分析
2.1 課堂教學(xué)案例
課堂教學(xué)案例圍繞數(shù)據(jù)預(yù)處理、聚類(lèi)分析和關(guān)聯(lián)性分析3個(gè)知識(shí)點(diǎn)進(jìn)行設(shè)計(jì)。
案例1:覺(jué)醒、效價(jià)得分的標(biāo)準(zhǔn)化和歸一化
該案例旨在向?qū)W生強(qiáng)調(diào)預(yù)處理是數(shù)據(jù)挖掘任務(wù)的首要環(huán)節(jié)。針對(duì)DEAP數(shù)據(jù)集,不同志愿者對(duì)相同音樂(lè)視頻的主觀評(píng)分存在個(gè)性化差異。為了消除上述差異,引導(dǎo)學(xué)生學(xué)習(xí)兩項(xiàng)數(shù)據(jù)預(yù)處理方法:①0-1標(biāo)準(zhǔn)化;②最大—最小歸一化。
方法①將每名志愿者的覺(jué)醒、效價(jià)得分線性映射至均值為0、標(biāo)準(zhǔn)差為1的兩個(gè)數(shù)組,而方法②利用線性映射將數(shù)據(jù)規(guī)范至最小、最大值分別為0、1的兩個(gè)數(shù)組。方法①、②的過(guò)程和結(jié)果可通過(guò)MATLAB軟件在課堂上為學(xué)生演示。以方法①為例:先分別計(jì)算每名志愿者覺(jué)醒、效價(jià)評(píng)分的均值和標(biāo)準(zhǔn)差;再將得分?jǐn)?shù)據(jù)減去均值后除以標(biāo)準(zhǔn)差即可獲得標(biāo)準(zhǔn)化后的數(shù)據(jù)。接下來(lái),使用“plot”指令在相同坐標(biāo)平面上繪制標(biāo)準(zhǔn)化前、后的數(shù)據(jù),向?qū)W生直觀展示標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)值域的影響。最后,向?qū)W生講解MATLAB中標(biāo)準(zhǔn)化函數(shù)的參數(shù)設(shè)置和使用方法。
案例2:情緒類(lèi)別的無(wú)監(jiān)督學(xué)習(xí)
該案例先引導(dǎo)學(xué)生思考如何利用標(biāo)準(zhǔn)化后的評(píng)分?jǐn)?shù)據(jù),在缺乏先驗(yàn)知識(shí)的條件下獲得每名志愿者評(píng)分對(duì)應(yīng)的情感類(lèi)型;繼而向?qū)W生引入無(wú)監(jiān)督學(xué)習(xí)方法的定義及相應(yīng)的數(shù)據(jù)聚類(lèi)算法。案例可基于經(jīng)典聚類(lèi)算法——K均值聚類(lèi)——向?qū)W生展示評(píng)分?jǐn)?shù)據(jù)的聚類(lèi)流程和結(jié)果。
首先,先逐一分析算法的每個(gè)步驟,再由圖2繪制1名志愿者對(duì)40條音樂(lè)視頻評(píng)分的散點(diǎn)圖和K均值聚類(lèi)結(jié)果。依據(jù)此圖分析聚類(lèi)算法如何評(píng)價(jià)類(lèi)內(nèi)相似度與類(lèi)間分散度,最后引入數(shù)據(jù)點(diǎn)隸屬于特定聚類(lèi)的判定條件。為了更好地展示案例中K均值聚類(lèi)算法與情感計(jì)算問(wèn)題的聯(lián)系,引導(dǎo)學(xué)生觀察發(fā)現(xiàn)圖1中覺(jué)醒—效價(jià)平面上的4種情緒可分別與圖2中的4個(gè)聚類(lèi)一一對(duì)應(yīng)。
案例3:不同志愿者覺(jué)醒、效價(jià)得分的相關(guān)性計(jì)算
不同志愿者對(duì)相同音樂(lè)視頻評(píng)分的差異體現(xiàn)了情緒數(shù)據(jù)的個(gè)性化特質(zhì)。本案例向?qū)W生提出疑問(wèn)——志愿者們的個(gè)性是否存在相互關(guān)聯(lián)?繼而引入數(shù)據(jù)挖掘中關(guān)聯(lián)性分析的概念和方法,并基于線性相關(guān)性系數(shù)講解該知識(shí)點(diǎn)。endprint
首先,向?qū)W生講解線性相關(guān)系數(shù)的計(jì)算公式。再以志愿者#1的效價(jià)數(shù)據(jù)為例,尋找與其評(píng)分值正相關(guān)度最高的另一位志愿者。課堂上,可逐一分配每名學(xué)生計(jì)算志愿者#1與另一位編號(hào)不重復(fù)志愿者數(shù)據(jù)的線性相關(guān)系數(shù),匯總后可得志愿者#26與志愿者#1效價(jià)正相關(guān)性最高。最后,利用圖3向?qū)W生可視化志愿者#1、#26效價(jià)評(píng)分的分布情況。學(xué)生可發(fā)現(xiàn)兩組數(shù)據(jù)的變化趨勢(shì)存在一定相似性,即這兩位志愿者由相同音樂(lè)視頻引發(fā)的情緒存在關(guān)聯(lián)性。
2.2 上機(jī)實(shí)驗(yàn)案例
上機(jī)實(shí)驗(yàn)案例圍繞分類(lèi)、回歸分析兩個(gè)知識(shí)點(diǎn)設(shè)計(jì),并利用MATLAB軟件幫助學(xué)生深入理解經(jīng)典有監(jiān)督機(jī)器學(xué)習(xí)方法的機(jī)理,同時(shí)鞏固前3個(gè)案例中的教學(xué)內(nèi)容。
案例4:特定志愿者情緒類(lèi)別判定
該案例需與課堂教學(xué)中講解的有監(jiān)督學(xué)習(xí)、分類(lèi)、訓(xùn)練集、測(cè)試集、線性可分等概念緊密聯(lián)系,引導(dǎo)學(xué)生使用開(kāi)源工具箱實(shí)現(xiàn)分類(lèi)器的訓(xùn)練、測(cè)試。以支持向量機(jī)方法為例,學(xué)生首先選擇一名志愿者的評(píng)分?jǐn)?shù)據(jù),并依照課堂教學(xué)案例1中的內(nèi)容對(duì)其標(biāo)準(zhǔn)化。下一步,學(xué)生利用案例2中的聚類(lèi)算法和聚類(lèi)解釋方法,獲得若干離散的情緒類(lèi)別。從中選擇“沮喪”“喜悅”情緒對(duì)應(yīng)的數(shù)據(jù)樣例構(gòu)建訓(xùn)練集。接下來(lái),指導(dǎo)學(xué)生設(shè)定合適的正則化參數(shù)和線性核函數(shù),繪制如圖4所示的喜悅—沮喪情緒分類(lèi)器訓(xùn)練結(jié)果。此圖形象展示了分類(lèi)邊界、分類(lèi)面、支持向量3個(gè)重要概念。以此為例,學(xué)生依次引入“平和”“憤怒”情緒數(shù)據(jù),設(shè)計(jì)不同的分類(lèi)器,并利用另一名志愿者的評(píng)分?jǐn)?shù)據(jù)測(cè)試分類(lèi)器性能。
案例5:特定志愿者覺(jué)醒、效價(jià)得分估計(jì)
由于音樂(lè)視頻按照固定時(shí)間順序呈現(xiàn),可將志愿者對(duì)每條視頻的覺(jué)醒、效價(jià)評(píng)分看作兩個(gè)時(shí)間序列。在此基礎(chǔ)上,本案例引導(dǎo)學(xué)生先依據(jù)一名志愿者的評(píng)分?jǐn)?shù)據(jù)建立回歸模型,再利用另一志愿者的數(shù)據(jù)驗(yàn)證模型性能。案例3中志愿者#1、#26的評(píng)分?jǐn)?shù)據(jù)相關(guān)性最高,可將其分別作為訓(xùn)練、測(cè)試集。圖5中,筆者采用超限學(xué)習(xí)機(jī)方法對(duì)志愿者#1效價(jià)評(píng)分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。該圖引導(dǎo)學(xué)生發(fā)現(xiàn)模型輸出與訓(xùn)練目標(biāo)并非完全相同,從而幫助學(xué)生進(jìn)一步深入理解過(guò)擬合、正則化、均方誤差等回歸建模問(wèn)題中的重要概念。以此為例,學(xué)生可繪制超限學(xué)習(xí)機(jī)對(duì)志愿者#26效價(jià)、覺(jué)醒評(píng)分的估計(jì)結(jié)果作為實(shí)驗(yàn)報(bào)告內(nèi)容。
3 課程作業(yè)題目設(shè)計(jì)
通過(guò)系統(tǒng)學(xué)習(xí)上述5個(gè)案例,學(xué)生可全面掌握關(guān)于數(shù)據(jù)預(yù)處理、聚類(lèi)分析、關(guān)聯(lián)性分析、分類(lèi)、回歸分析的相關(guān)概念和備選算法。為了進(jìn)一步鞏固學(xué)生對(duì)數(shù)據(jù)挖掘知識(shí)的綜合運(yùn)用能力,筆者基于DEAP數(shù)據(jù)集的生理數(shù)據(jù)部分設(shè)計(jì)了一項(xiàng)課程作業(yè),作為評(píng)價(jià)學(xué)生平時(shí)成績(jī)的依據(jù)。課程作業(yè)按每組2~3位學(xué)生于教學(xué)進(jìn)程的最后2周內(nèi)完成。
課程作業(yè)題目:基于腦電信號(hào)特征識(shí)別每條音樂(lè)視頻誘發(fā)的情緒狀態(tài)
志愿者在觀看每條音樂(lè)視頻的同時(shí),其一分鐘的腦電圖信號(hào)被同步記錄于DEAP數(shù)據(jù)集。課程作業(yè)要求學(xué)生依據(jù)相關(guān)腦電特征完成覺(jué)醒、效價(jià)水平的二類(lèi)分類(lèi)任務(wù)。為了保證課程作業(yè)進(jìn)度,腦電特征提取環(huán)節(jié)由教師完成。學(xué)生在課程作業(yè)中需要完成的任務(wù)包括:
(1)腦電特征的預(yù)處理。采用0-1標(biāo)準(zhǔn)化或最大—最小歸一化方法實(shí)現(xiàn)。
(2)目標(biāo)情緒類(lèi)別確定。通過(guò)K均值聚類(lèi)分析覺(jué)醒、效價(jià)評(píng)分實(shí)現(xiàn)。
(3)特征選擇。利用線性相關(guān)性系數(shù)確定與目標(biāo)類(lèi)別最相關(guān)的腦電特征。
(4)覺(jué)醒、效價(jià)水平二類(lèi)分類(lèi)。以選擇的腦電特征為輸入,以聚類(lèi)獲得的目標(biāo)類(lèi)別為輸出,基于支持向量機(jī)方法設(shè)計(jì)分類(lèi)器識(shí)別覺(jué)醒、效價(jià)的高、低兩種狀態(tài)。
該課程作業(yè)串行連接了不同數(shù)據(jù)挖掘知識(shí)點(diǎn),小組中每名學(xué)生可分工完成其中的一個(gè)或多個(gè)子任務(wù),培養(yǎng)綜合知識(shí)運(yùn)用能力和團(tuán)隊(duì)協(xié)作能力。
4 結(jié) 語(yǔ)
筆者通過(guò)引入情感計(jì)算問(wèn)題補(bǔ)充完善了現(xiàn)有的教學(xué)案例類(lèi)型,幫助智能專(zhuān)業(yè)學(xué)生更好地理解數(shù)據(jù)挖掘技術(shù)在人機(jī)交互等領(lǐng)域發(fā)揮的重要作用。通過(guò)利用開(kāi)放的互聯(lián)網(wǎng)數(shù)據(jù)庫(kù)資源,筆者設(shè)計(jì)了5個(gè)由淺入深的課堂教學(xué)、上機(jī)實(shí)驗(yàn)案例和一項(xiàng)綜合課堂作業(yè)。這些案例涵蓋了數(shù)據(jù)挖掘的所有主要任務(wù),循序漸進(jìn)地引導(dǎo)學(xué)生掌握數(shù)據(jù)挖掘技術(shù)的知識(shí)結(jié)構(gòu),調(diào)動(dòng)了學(xué)生的學(xué)習(xí)積極性和興趣。在此基礎(chǔ)上,筆者在課后指導(dǎo)學(xué)生參與相關(guān)創(chuàng)新訓(xùn)練項(xiàng)目,相關(guān)研究成果已在2017年舉行的20屆國(guó)際自動(dòng)控制聯(lián)合會(huì)世界大會(huì)上宣讀。未來(lái)工作中,筆者期望結(jié)合自身研究特長(zhǎng),進(jìn)一步引入前沿的人機(jī)交互問(wèn)題于智能科學(xué)與技術(shù)專(zhuān)業(yè)相關(guān)課程的教學(xué)中,豐富教學(xué)案例,提高教學(xué)效果。
參考文獻(xiàn):
[1] 蔣盛益, 李霞, 鄭琪. 研究性學(xué)習(xí)和研究性教學(xué)的實(shí)證研究: 以數(shù)據(jù)挖掘課程為例[J]. 計(jì)算機(jī)教育, 2014(24): 97-101.
[2] 譚征, 孫紅霞, 王立宏, 等. 基于實(shí)例的本科數(shù)據(jù)挖掘課程教學(xué)探索[J]. 計(jì)算機(jī)教育, 2013(9): 67-70.
[3] Kim J, Andre E. Emotion recognition based on physiological changes in music listening[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008(30):2067-2083.
[4] Yin Z, Zhao M, Wang Y, et al. Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods and Programs in Biomedicine, 2017(3): 93-110.
[5] Koelstra S, Muehl C, Soleymani M, et al. DEAP: A database for emotion analysis using physiological signals[J]. IEEE Transaction Affective Computing, 2012(3): 18-31.
(編輯:彭遠(yuǎn)紅)endprint