葉龍,段丹婷,鐘微,胡飛,張勤
(1.中國傳媒大學(xué)媒體融合與傳播國家重點實驗室,北京 100024;2.中國傳媒大學(xué)媒介音視頻教育部重點實驗室,北京 100024)
在經(jīng)過幾十年發(fā)展而逐步健全的人工智能技術(shù)體系支持下,針對文本、音頻、視頻等數(shù)據(jù)的分析與處理技術(shù)有效地解決了人類在體力勞動過程中的諸多問題:工業(yè)生產(chǎn)中的操作問題、醫(yī)療手術(shù)中的控制問題、駕駛與航行中的導(dǎo)航問題、圖像識別與知識搜索問題等等。然而,在信息技術(shù)飛速發(fā)展的今天,我們不能將目光停留在僅通過人工智能技術(shù)來實現(xiàn)對人類體力的解放上,如何將其應(yīng)用于服務(wù)人類智力發(fā)展的新型媒體上將是未來信息技術(shù)領(lǐng)域研究的核心問題之一。
信息技術(shù)如何促進(jìn)智力水平的提高對人類社會的發(fā)展具有重要的意義。從情感與智力關(guān)聯(lián)性角度的研究發(fā)展來看,人類智力是以腦活動為基礎(chǔ)的,而智商的高低取決于皮層神經(jīng)元的工作效率與相關(guān)信息的存儲。早在1937年,Kluver和Bucy就曾通過實驗發(fā)現(xiàn)[1],猴子邊緣性區(qū)域(尤其是顳葉內(nèi)側(cè)杏仁核區(qū)域)的損傷會帶來“精神失明”——盡管動物保留了正常視力,但是視覺刺激失去了它們的情感意義,影響對外界事物的認(rèn)知。此后的大量研究也證實了大腦邊緣區(qū)域在刺激信息加工過程中的主觀作用[2-5]。Hanying通過實驗驗證[6]注意力對視覺刺激誘發(fā)響應(yīng)具有調(diào)制作用,在不同背景腦電與刺激強(qiáng)度條件下注意力的調(diào)制作用是不同的。在特定腦電節(jié)律振蕩與初始相位及視覺刺激對比度高時,注意力對視覺刺激響應(yīng)有顯著調(diào)節(jié)作用。因此,在視聽刺激下,人體的生理信號(主要包括外周生理信號和腦信號等)會產(chǎn)生一系列的變化,對應(yīng)不同的情感狀態(tài)。良好的情境會使人產(chǎn)生愉悅的情感,有助于集中注意力,進(jìn)而提高大腦的活動效率,由情感變化導(dǎo)致的注意力改變會直接影響大腦對視聽刺激的接收。情感與智力表現(xiàn)之間存在一定的相互影響作用,智力是情感的基礎(chǔ),并引導(dǎo)情感的發(fā)展。只有通過對客觀事物的反映,主體才能確定客觀事物是否滿足自身的需求,從而產(chǎn)生相應(yīng)的態(tài)度體驗,進(jìn)而引發(fā)不同的情感,而情感反過來對認(rèn)知過程也起調(diào)節(jié)作用。
從音視頻等信息與情感關(guān)聯(lián)性角度的研究發(fā)展來看,情感與音樂有著緊密的關(guān)系,情感對人的思維與行為一直存在著重要的調(diào)控作用,情感是音樂影響智力表現(xiàn)的重要橋梁[7]。心理學(xué)實驗表明[8],當(dāng)一個人欣賞喜愛的音樂時,更容易激發(fā)積極的情感,從而有效地促進(jìn)其智力水平的正常發(fā)揮。音樂認(rèn)知可以在很大程度上活化腦力,鍛煉、提高大腦的工作效率,從而起到促進(jìn)智力正?;蛘叱0l(fā)揮的作用。雖然音樂和智力之間的關(guān)聯(lián)為人所知,但還是處于知其然不知其所以然的階段,對這種關(guān)聯(lián)的模型和關(guān)聯(lián)的度量都缺少科學(xué)的研究與本質(zhì)的認(rèn)知。因此,本文從情感角度出發(fā),針對信息、情感與智力發(fā)展的耦合問題進(jìn)行研究,給出了情智模型的定義及其研究范疇,提出了六覺(聽覺、視覺、味覺、嗅覺、觸覺和意境知覺)交叉感知模型以建立起情感與智力互通的橋梁,并在此基礎(chǔ)之上構(gòu)建了服務(wù)于人類智力發(fā)展的情智模型。此外,在構(gòu)建的情智模型指導(dǎo)下,實現(xiàn)了腦波信號驅(qū)動的情感音樂生成系統(tǒng),從而達(dá)到促進(jìn)人類智力水平提升的目的。
情感與智力是人類進(jìn)化的結(jié)晶,情感是人類各種機(jī)械能力之上的核心抽象概念,提供了人類行為和思維管理與調(diào)制的機(jī)能。智力被認(rèn)為與一系列認(rèn)知任務(wù)的表現(xiàn)有密切聯(lián)系,智力發(fā)展意為在這些認(rèn)知任務(wù)中智力的表現(xiàn)情況[9]。人的信息接收、情感生成與智力表現(xiàn)是一個相互耦合的過程。如果把用于影響人的智力表現(xiàn)的情感信息稱為情智信息的話,對人類自我認(rèn)知的主要科學(xué)問題之一就是信息、情感與智力發(fā)展的關(guān)系與機(jī)理,本文將其定義為情智模型。如圖1所示,未來的智能是具有完善類人功能的智能,我們認(rèn)為,在類人方面,“信息+情感”的非理性調(diào)節(jié)與“訓(xùn)練+記憶”的理性調(diào)節(jié)同樣重要。情智模型的研究目的是要通過實現(xiàn)理性調(diào)節(jié)與非理性調(diào)節(jié)的耦合,從而達(dá)到完善的類人智能。
圖1 情智模型的研究目的
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的特定機(jī)器學(xué)習(xí)方法在人工智能領(lǐng)域占據(jù)了主流,從而使得計算機(jī)視覺、人機(jī)交互等技術(shù)能夠更好地體現(xiàn)出服務(wù)于人類體力發(fā)展的價值。然而,針對服務(wù)于人類智力發(fā)展的情感表征方式與處理方法的研究,目前國內(nèi)外還基本處于空白階段。因此,本節(jié)主要從以下兩個方面體現(xiàn)情智模型與現(xiàn)有研究的關(guān)聯(lián)。
(1)情感與智力表現(xiàn)的交互作用
情感是人類一種重要的本能,在人們的日常生活、工作、交流、處理事務(wù)和決策中扮演著重要的角色[10]。從美國哲學(xué)家James提出“情感是什么?”[11]這個問題到現(xiàn)在,“情感”始終是心理學(xué)及哲學(xué)領(lǐng)域里引人注目的研究對象。一百三十年后的今天,“情感”已經(jīng)變成了神經(jīng)科學(xué)、生物學(xué)、工學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的重要研究對象。在已有的研究中,離散表示和連續(xù)(維度)表示是兩種最基本的情感描述形式。以Ekman為代表的基本情感模型[12]將情感狀態(tài)分類成離散的情感類別,根據(jù)情感的純度和原始度,可以將情感劃分為基本情感(主要情感或原始情感)和復(fù)合情感(次要情感)兩大類。Ekman提出的六種基本情感:生氣、害怕、難過、驚訝、高興和厭惡在情感計算領(lǐng)域認(rèn)可程度較高[13]。與此類似的理論還有“調(diào)色板理論”[14]。Buck從生理情感、認(rèn)知狀態(tài)情感、社會情感和精神狀態(tài)情感等方面分別給出了基于不同角度的基本情感類型[15]。
近年來,隨著交叉領(lǐng)域研究的興起,對于“情感”的研究正朝著一個通過跨領(lǐng)域的研究來探索的新方向前進(jìn)。情感影響智力表現(xiàn)的研究往往聚焦于情感對認(rèn)知能力的影響,尤其是注意力和情感的相互作用過程。考慮到事件流進(jìn)入認(rèn)知系統(tǒng)的過程及認(rèn)知系統(tǒng)處理能力的限制,情感和注意力的產(chǎn)生均包含一個關(guān)鍵過程——相對于中性或一般事件,會優(yōu)先處理相關(guān)事件,這就導(dǎo)致了知覺分析的增強(qiáng)、記憶和運(yùn)動行為的激活。因此,面部表情和聲音中社會信號的情感處理可能與注意力相關(guān)機(jī)制密切關(guān)聯(lián)。有結(jié)果表明[16-19],具有特定情感相關(guān)性的視覺事件,如面部表情或情感圖片,也能比中性事件更容易吸引人們的注意力。Sander等人通過功能磁共振實驗探究了聲音情感刺激與個體注意之間的關(guān)系,根據(jù)實驗中受試者呈現(xiàn)出的憤怒和中性聽力范式下的表現(xiàn),確定了人類情感的產(chǎn)生受個體內(nèi)部注意力的調(diào)節(jié),以及聽覺區(qū)域存在對情感信號加工的調(diào)節(jié)機(jī)制[16]。Blair等人用情感Stroop范式進(jìn)行實驗,指出至少在一些患者中,額葉外側(cè)及中間皮層的能力下降,會導(dǎo)致情感和焦慮障礙患者抑制情感對目標(biāo)產(chǎn)生注意力的能力受損[17]。
另外,情感與記憶之間也存在一定的聯(lián)系。早在1981年2月,美國斯坦福大學(xué)心理學(xué)家Pourtois在《美國心理學(xué)家》雜志上介紹了他的一項研究成果[18],記憶力與人的情感狀態(tài)密切相關(guān)并提出了記憶與情感相關(guān)效應(yīng)假說。Phelps研究發(fā)現(xiàn)[19],在不同的情感狀態(tài)中,杏仁核可以調(diào)節(jié)依賴于海馬體的記憶編碼和存儲功能,而海馬復(fù)合物通過形成情感意義和事件解釋的情節(jié)表征,可以影響遇到情感刺激時的杏仁核響應(yīng),這進(jìn)一步說明了情感會對人的記憶產(chǎn)生一定的影響。
目前大多數(shù)關(guān)于情感與智力表現(xiàn)相互作用的研究都是基于單一感覺刺激的。然而已有研究表明,大多的情感都是多種刺激疊加誘發(fā)而成的,即聽覺、視覺、味覺、觸覺、嗅覺等多感覺刺激下所產(chǎn)生的復(fù)雜的情智信息。因此需要開展基于多種感覺刺激下的情感影響智力表現(xiàn)的基礎(chǔ)理論研究,分析多感覺刺激下不同感知系統(tǒng)的信息交互和作用、系統(tǒng)之間信息的不同表示形式和信息傳遞的方式。通過研究多感覺刺激下情感對包含感覺、知覺、注意力、記憶等在內(nèi)的認(rèn)知的影響,構(gòu)建多感覺刺激下情感促進(jìn)智力表現(xiàn)的多媒體模型,才能夠進(jìn)一步地開發(fā)人的大腦,豐富精神世界、培養(yǎng)創(chuàng)新意識,從而促進(jìn)人的智力發(fā)展。
(2)情感模型
情感分析被證明是一個融合心理學(xué)、社會學(xué)、神經(jīng)科學(xué)、計算機(jī)科學(xué)等多學(xué)科高度交叉融合的研究領(lǐng)域。2012年,Koelstra等人[20]提出了一個用于分析人類情感狀態(tài)的多模態(tài)數(shù)據(jù)庫,并研究了各個生理信號與主觀情感分析之間的相關(guān)性。這些生理反應(yīng)信號包括心率變異性(Heart Rate Variability,HRV)、腦電圖(Electroencephalogram,EEG)、皮膚電導(dǎo)(Skin Conductance,SC)、血容量脈搏(Blood Volume Pulse,BVP)和呼吸率(Respiration Rate,RR)。悉尼大學(xué)的Daniel等人[21]收集了65名志愿者休息狀態(tài)下的HRV,實驗表明HRV能夠為識別人類情感提供新的標(biāo)記。Fabien等人[22]通過提取RECOLA數(shù)據(jù)庫中包括HRV在內(nèi)的生理信號以及音視頻特征,采用時序神經(jīng)網(wǎng)絡(luò)預(yù)測回歸模型,并對比特征級融合與決策級融合的結(jié)果,確定每段音視頻的最優(yōu)喚醒度——效價值。Anuharshini等人[23]通過受試者的HRV和RR這兩個生理參數(shù)的有效變化以及行為反應(yīng)來研究兩種印度古典音樂的情感反應(yīng)。Cabredo等人[24]通過提取音樂切片的特征以及聽眾對應(yīng)的BVP指數(shù),采用生物學(xué)的motif發(fā)現(xiàn)算法構(gòu)建出音樂特征和生理特征的映射關(guān)系。Takahashi等人[25]使用音頻內(nèi)容進(jìn)行心理學(xué)實驗以激發(fā)受試者的情感,來收集生物電位信號。測量實驗采集了兩種生命體征BVP和SC以評估三種情感:積極情感(放松和愉悅),消極情感(壓力和不愉快)和中性情感,并采用支持向量機(jī)(Support Vector Machines,SVM)設(shè)計情感識別系統(tǒng),對于三種情感實現(xiàn)了41.2%的識別率。
EEG信號是一種非侵入性的腦機(jī)接口,它允許外部機(jī)器在沒有手術(shù)的情況下感知來自大腦的神經(jīng)生理信號。從中樞神經(jīng)系統(tǒng)捕獲的非侵入性EEG信號已被用于探索情感,這種與個性化差異關(guān)聯(lián)性較小的特征能更好地用于情感分析的研究。Tanu Sharma等人通過實時提取各個參與者在不同情感下的生理信號包括HRV、BR、BVP、EEG,探究各種生理信號與情感之間的關(guān)聯(lián)性[2]。日本大阪大學(xué)產(chǎn)業(yè)科學(xué)研究所的Cabredo等人針對個人的音樂感受獨立性,提出了基于EEG信號的音樂模型,通過記錄多人聽取音樂的EEG信號以及相應(yīng)的個人情感標(biāo)簽,對EEG信號的譜特征和情感標(biāo)簽做了關(guān)聯(lián)性分析[3]。新北市輔仁天主教大學(xué)的Hsu等人提取音樂特征和個人EEG信號特征,通過人工神經(jīng)網(wǎng)絡(luò)融合兩種特征完成了相應(yīng)的情感分類任務(wù)[4]。Park等人通過生理信號識別主體的負(fù)面情感,其中皮膚電活動(Electrodermal Activity,EDA)、皮膚溫度(Skin Temperature,SKT)、心電圖(Electrocardiogram,ECG)和體積描記(photoplethysmography,PPG)被記錄為情感的生理信號,使用機(jī)器學(xué)習(xí)算法分析提取28個特征用于情感識別,并通過比較每個算法的識別結(jié)果來確定優(yōu)選算法,結(jié)果顯示支持向量機(jī)(SVM)取得了最高的訓(xùn)練精度,而線性判斷分析(Linear Discriminant Analysis,LDA)獲得了最高的測試精度[5]。
從上面的分析可知,現(xiàn)有的情感模型,無論是特征訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,還是基于生理反應(yīng)信號處理的模型,都沒有明確地揭示出激勵信號與人類情感之間的關(guān)系。因此,如何構(gòu)建能夠真正反映出激勵與人類情感之間關(guān)系的模型,仍然是情感計算領(lǐng)域的基礎(chǔ)問題和難點問題之一。
目前,關(guān)于情智模型的研究工作主要集中在情感計算階段。關(guān)于情感的產(chǎn)生,至今還沒有一個合理的模型解釋。詹姆斯—朗格學(xué)說、丘腦情感學(xué)說、激活學(xué)說是目前主要的三種學(xué)說[26],而現(xiàn)有的關(guān)于腦科學(xué)的一些研究已經(jīng)逐步驗證了激活學(xué)說的正確性,即情感的來源是對情景的評估,情景向腦提供感覺信息,引起皮層皮下的整合活動,產(chǎn)生情感體驗,整個過程是一種“場景—評價—情感”的激活過程。由這個模型導(dǎo)出的情感計算方式已經(jīng)成為目前情智模型問題研究的基礎(chǔ),但是無論在定性與定量的研究上,現(xiàn)有方式都存在很多不足,導(dǎo)致情感計算只有在特定的數(shù)據(jù)庫中準(zhǔn)確率較高(作為一個數(shù)據(jù)處理問題),距離實際應(yīng)用還有一定的差距。其主要原因是在研究復(fù)雜的情感問題時,采用了過于簡化的情感模型,缺少各種影響情感反應(yīng)的調(diào)制因子,比如文化水平、經(jīng)濟(jì)基礎(chǔ)、社會地位等。
眾多不同場景因素的人群會有不同的情感反應(yīng)。另一方面,目前情智模型的研究也缺少各場景類型(聽覺、視覺、嗅覺等)交叉感知的橋梁。在情感產(chǎn)生的過程中,皮層下神經(jīng)過程的作用處于情感形成的顯著地位,大腦皮層神經(jīng)中樞、腦垂體、下丘腦、腎上腺等部位和腺體對情感起著調(diào)節(jié)作用。為了建立起情感智力互通的橋梁,本文把人的感覺場景按照聽覺、視覺、味覺、嗅覺、觸覺和意境知覺分別表述,提出了基于上述六覺的交叉感知模型,如圖2所示。該模型將情感產(chǎn)生過程中的神經(jīng)類別分為感知神經(jīng)和處理神經(jīng)兩種神經(jīng)元,各種感覺在情感層面耦合形成聯(lián)覺。
圖2 情感聯(lián)覺模型
在上述六覺情感聯(lián)覺模型的基礎(chǔ)之上,圖3給出了情智模型的構(gòu)建過程。如圖3所示,情智模型是融合腦科學(xué)、生物學(xué)、心理學(xué)、人工智能、數(shù)字媒體等的交叉領(lǐng)域的研究,其以腦科學(xué)中情感影響智力的神經(jīng)反應(yīng)機(jī)理為基礎(chǔ),通過采集多模態(tài)生理信號,在心理學(xué)領(lǐng)域?qū)で笄楦新?lián)覺模型,使用人工智能領(lǐng)域的模型計算方法,結(jié)合數(shù)字媒體領(lǐng)域的數(shù)據(jù)生成手段,力求建立情感與智力耦合的橋梁。這里,情智模型是一個復(fù)雜的變參數(shù)的概率問題,可以表示為式(1):
圖3 情智模型
其中,A表示智力反應(yīng),E表示情感聯(lián)覺,I表示信息,θ1、θ2分別表示附加因素。
從科學(xué)領(lǐng)域的層面來看,隨著信息科學(xué)的發(fā)展和人工智能研究的不斷深入,科學(xué)家們對人類智能的認(rèn)識也不斷深入,由人腦表現(xiàn)出來的心智現(xiàn)象不僅體現(xiàn)在單純智的方面,還體現(xiàn)在知覺、情感方面。智能并不是一個單獨或者割裂的人腦功能,智能和感知、情感等有著密切的聯(lián)系。在情感影響智力表現(xiàn)的研究中,情感對人腦認(rèn)知能力、記憶能力的影響已經(jīng)有了很多的測試數(shù)據(jù)作為佐證[27],因此人的信息接收、情感生成與智力表現(xiàn)是一個相互耦合的過程。情智模型的研究突破了以往人工智能研究單純從智能出發(fā)實現(xiàn)智能計算,在激發(fā)情感影響智能方向上獨樹一幟,使機(jī)器智能與情智模型相結(jié)合,真正朝著類人智能、類腦智能的方向開展原創(chuàng)性工作。已有的腦認(rèn)知和心理學(xué)的模型可以作為情智模型研究的基石,但還遠(yuǎn)遠(yuǎn)不夠,通過多種方式進(jìn)行情智模型建模,能夠推動情感和智力耦合的腦認(rèn)知研究,促進(jìn)大腦神經(jīng)認(rèn)知學(xué)和心理學(xué)的發(fā)展。
音樂是人類傳遞情感的一種載體,也是抒發(fā)和表達(dá)人類情感的最佳工具,聽眾渴望從音樂中產(chǎn)生情感的共鳴[28]。因此,為聽眾生成符合心境的個性化音樂成為藝術(shù)創(chuàng)作領(lǐng)域的關(guān)鍵問題之一。然而,傳統(tǒng)的人工作曲方法不僅要求創(chuàng)作者具備扎實的樂理知識,而且創(chuàng)作過程耗時耗力。近年來,隨著人工智能與藝術(shù)融合技術(shù)的迅猛發(fā)展,如何借助計算機(jī)實現(xiàn)音樂生成已成為一個炙手可熱的課題[29]。
腦波音樂是將EEG信號按照特定的規(guī)則轉(zhuǎn)化而成的樂曲,它是一種兼具音樂性與生理性的新穎的音樂形式。EEG信號自1924年首次被發(fā)現(xiàn)并記錄以來,各個領(lǐng)域的學(xué)者圍繞EEG信號開展了大量的研究[30]。1934年,Andian和Mattews實現(xiàn)了人類腦波的發(fā)聲,從而開創(chuàng)了腦波音樂的先河[31]。遺憾的是,由于早期的研究局限于單一的EEG信號處理方式,腦波音樂效果并不理想。經(jīng)過幾十年的發(fā)展,尤其是20世紀(jì)90年代以來,對腦波音樂的探索逐步深入,腦波音樂的實用價值受到越來越多學(xué)者的青睞[32]?,F(xiàn)今,大量的腦波音樂涌入音樂市場,極大程度地提高了音樂創(chuàng)作的工作效率[33]。然而,在以往的腦波音樂生成研究中,大多忽視了對其情感表達(dá)的分析。對音樂作品的評價標(biāo)準(zhǔn)不應(yīng)該僅停留在提升可聽性這個層面,一首好的音樂作品必定是會打動人心的。音樂作品的精髓就是情感產(chǎn)生共鳴進(jìn)而激發(fā)人腦智力的其他表現(xiàn)。我們認(rèn)為,在人工智能技術(shù)的加持下,對情智模型的探索將加速服務(wù)于智力發(fā)展的新媒體系統(tǒng)的開發(fā),從而達(dá)到真正的類人智能。為了探索情智模型在音樂生成中的應(yīng)用,本文設(shè)計并實現(xiàn)了一個EEG信號驅(qū)動的情感音樂生成系統(tǒng),我們將此系統(tǒng)取名為“人人都是貝多芬”。顧名思義,通過使用此系統(tǒng),任何人都可以像著名音樂家貝多芬一樣創(chuàng)作出優(yōu)美動聽又情感飽滿的音樂。
“人人都是貝多芬”系統(tǒng)如圖4所示,該系統(tǒng)主要包括三個模塊,即EEG信號采集及預(yù)處理、EEG信號情感識別模塊和情感音樂生成模塊。首先,被試佩戴腦電帽觀看誘發(fā)情感的短視頻(短視頻時長24-177s,分為積極、中性、消極三種情感類型),采集被試觀看短視頻時的EEG信號。然后,對EEG信號進(jìn)行預(yù)處理、提取差分熵特征。接著,將提取到的特征輸入分類器進(jìn)行實時情感識別,得到情感分類結(jié)果。而后,由計算得到的情感類型驅(qū)動音樂生成網(wǎng)絡(luò),生成帶有情感的個人專屬音樂。最后,將生成的情感腦波音樂作為新的情感誘發(fā)材料刺激被試產(chǎn)生情感,不斷循環(huán)上述步驟直到評價模型的評價指標(biāo)收斂,從而得到最終反映被試真實情感變化的音樂。
圖4 “人人都是貝多芬”系統(tǒng)流程圖
實驗環(huán)境由被試室和主試室組成。如圖5所示,EEG信號采集實驗在安靜、明亮的被試室進(jìn)行,通過一臺24.5寸、刷新率為165 Hz的顯示屏呈現(xiàn)刺激。EEG信號數(shù)據(jù)通過無線便攜式腦電儀Emotiv EPOC X設(shè)備進(jìn)行采集而得,其主要參數(shù)為14導(dǎo)(包括國際通用10-20系統(tǒng)中的AF3、F7、F3、FC5、T7、P7、O1、O2、P8、T8、FC6、F4、F8、AF4,共14個通道),0.2-43 Hz帶寬,256 Hz采樣頻率。被試的EEG信號數(shù)據(jù)通過EmotivPRO軟件記錄。同時,本系統(tǒng)還可使用MER-502-79U3C工業(yè)相機(jī)、Tobiipro眼動儀、GSR皮膚電傳感器采集被試的微表情、眼動、皮膚電阻等多種生理信號。為了避免電磁設(shè)備對EEG信號質(zhì)量的干擾,被試室顯示屏與主機(jī)采用有線的方式連接。主機(jī)放置于主試室,主試通過主試室顯示器實時監(jiān)控設(shè)備連接情況及被試狀態(tài)。
圖5 實驗環(huán)境示意圖
實驗開始前由1名主試向被試詳細(xì)說明實驗流程。當(dāng)了解實驗流程后,被試被帶進(jìn)被試室,由2名主試幫助他佩戴腦電帽,并提醒被試調(diào)整座椅至觀看舒適位置。正式采集數(shù)據(jù)前,被試先進(jìn)行一次練習(xí)來熟悉這個系統(tǒng)。在15s基線記錄后,播放一段短視頻,然后被試填寫主觀評價。接下來,確保被試完全理解實驗流程、音量調(diào)整至合適大小后,主試提醒被試EEG信號采集實驗正式開始并離開房間,之后被試點擊屏幕上的“開始”鍵開始實驗。被試參與EEG信號采集實驗如圖6所示。
圖6 腦電信號采集情景圖
EEG信號預(yù)處理包括人工去除偽跡、濾波、特征提取。人工去除偽跡是為了避免實驗過程中由于補(bǔ)充腦電液而產(chǎn)生的干擾信號,以及由于被試頭部肌肉收縮、眨眼或眼球移動產(chǎn)生的明顯的肌電、眼電信號。濾波過程使用帶通濾波器保留了0.1-50 Hz頻率的EEG數(shù)據(jù),陷波濾波器去噪50 Hz,采樣頻率設(shè)置為256 Hz。特征提取過程以2秒為一個片段進(jìn)行切分,提取EEG信號在δ(1-4 Hz)、θ(4-8 Hz)、α(8-12 Hz)、β(13-30 Hz)、γ(31-45 Hz)五個頻段的差分熵特征[34]。
實驗共收集了40名被試(男性20人、女性20人,平均年齡27.6歲、標(biāo)準(zhǔn)差為3.92)的EEG信號數(shù)據(jù)用于情感識別的分類器選擇。分類器性能的優(yōu)劣直接影響了腦波音樂生成過程中輸入情感音樂生成網(wǎng)絡(luò)的情感類型是否準(zhǔn)確。本文比較了機(jī)器學(xué)習(xí)方法中常用的11種分類器在EEG信號情感識別中的分類性能。這些分類器使用前面提到的差分熵特征作為輸入,將采集到的EEG信號數(shù)據(jù)按照8∶2的比例劃分訓(xùn)練集和測試集,輸出為情感三分類結(jié)果(積極、中性、消極)。
圖7給出了不同分類器對EEG信號的情感識別結(jié)果。實驗結(jié)果表明,Gradient Boosting算法在分類準(zhǔn)確率和泛化能力上表現(xiàn)最好,準(zhǔn)確率達(dá)到了95%。因此,本系統(tǒng)選用Gradient Boosting算法作為EEG信號情感識別模塊的分類器。
圖7 11種常見的機(jī)器學(xué)習(xí)算法情感識別結(jié)果
在情感音樂生成模塊,將嵌入情感標(biāo)簽和音樂結(jié)構(gòu)特征作為條件輸入生成網(wǎng)絡(luò),同時添加感知優(yōu)化的情感分類損失函數(shù),生成帶有情感的腦波音樂。該網(wǎng)絡(luò)模型包括情感音樂生成器和情感音樂分類器兩部分,如圖8所示。具體來說,情感音樂生成器采用自監(jiān)督訓(xùn)練模式來構(gòu)建模型,將EEG信號的情感識別結(jié)果和音樂結(jié)構(gòu)特征作為條件輸入,輸出為MIDI事件序列。在情感音樂分類器中,為了縮短生成的特征分布與真實特征分布之間的距離,對情感音樂分類模型進(jìn)行預(yù)訓(xùn)練。網(wǎng)絡(luò)的輸入是MIDI序列,輸出是情感分類的結(jié)果。
圖8 腦波音樂生成網(wǎng)絡(luò)
在系統(tǒng)中,使用VGMIDI數(shù)據(jù)集[35]進(jìn)行模型訓(xùn)練。VGMIDI的原始標(biāo)簽分為積極和消極兩類,經(jīng)主觀評價可將情感不突出的音樂片段標(biāo)注為中性,得到情感標(biāo)簽為積極、中性和消極三類的數(shù)據(jù)集。隨后,將EEG實時情感識別的結(jié)果輸入訓(xùn)練好的音樂生成網(wǎng)絡(luò),以控制網(wǎng)絡(luò)生成相應(yīng)情感的音樂。
本文創(chuàng)新性地提出了“信息、情感與智力的耦合模型構(gòu)建”這一科學(xué)前沿問題,創(chuàng)建了情智模型理論體系,并在此理論研究的基礎(chǔ)上,提出并實現(xiàn)了基于情智模型的腦波情感音樂生成系統(tǒng),從而在“情智信息的感知、建模與生成”研究中邁出了堅實的一步。
情智模型問題涉及到未來信息技術(shù)、工業(yè)技術(shù)、國防科學(xué)、社會科學(xué)、醫(yī)療健康等多個關(guān)乎國計民生的重大領(lǐng)域,在現(xiàn)實應(yīng)用中也將服務(wù)于我國新舊動能轉(zhuǎn)換、社會安全、城鄉(xiāng)均衡發(fā)展、“一帶一路”等國家戰(zhàn)略需求,具有很強(qiáng)的研究意義與應(yīng)用價值。情智模型的研究突破了以往人工智能單純研究機(jī)器智能的局限,在激發(fā)情感影響智能方向上獨樹一幟,使機(jī)器智能與情智模型相結(jié)合,有助于真正實現(xiàn)類人智能、類腦智能。未來工作中,將針對“信息、情感與智力的耦合模型構(gòu)建”這一重大科學(xué)前沿問題,圍繞情智信息的感知提取、建模表征、生成驗證三個層面,開展相關(guān)研究工作以創(chuàng)建情智信息理論體系,并在此理論研究的基礎(chǔ)上,探索基于情智耦合模型的音頻、視頻與場景的生成技術(shù),構(gòu)建情智信息理論驗證的音頻、視頻與場景數(shù)據(jù)測試平臺,從而建立服務(wù)于智力發(fā)展的新媒體理解架構(gòu)。