蔣偉,王爽,蔣玉暕,劉京宇
(1.中國傳媒大學(xué)現(xiàn)代演藝技術(shù)北京市重點實驗室,北京 100024;2.中國傳媒大學(xué)視聽技術(shù)與智能控制系統(tǒng)文化和旅游部重點實驗室,北京 100024;3.中國傳媒大學(xué)信息與通信工程學(xué)院,北京 100024)
眾所周知,人們都有這樣一種感受:當(dāng)置身于或者觀賞一處遼闊的場景(一幅平靜的畫面),比如優(yōu)美的草原景色或者寧靜的湖泊風(fēng)光,人們會自然陶醉其中,耳邊仿佛響起了一段舒緩優(yōu)美的曲子;反之,當(dāng)人們正在欣賞一段舒緩優(yōu)美的曲子時,若向其播放一段展現(xiàn)驚濤駭浪的視頻,人們會感到不適,甚至?xí)@種不和諧產(chǎn)生抵觸。以上現(xiàn)象說明,人對于外界信息的感知過程并不都是獨立存在的,人腦是一個優(yōu)化的多感官信息融合系統(tǒng),它能自動關(guān)聯(lián)來自不同感官通道(眼、耳等)的不同模態(tài)信息(圖像、聲音等),并對外界事物進行統(tǒng)一感知,聯(lián)想,表達和評價。這種現(xiàn)象廣泛存在于人們的生產(chǎn)與生活中,具有普遍性。本文將這種視覺信息和聽覺信息相互影響并共同作用于人的現(xiàn)象稱為視聽覺融合效應(yīng)。顯然,這種現(xiàn)象以人的心理過程為基本前提。
本文將視聽覺融合效應(yīng)中視覺信息與聽覺信息的相互關(guān)系總結(jié)為以下四種:和諧、沖突、忽略以及博弈。由上文可知,優(yōu)美草原景色、寧靜湖泊風(fēng)光與舒緩優(yōu)美的曲子之間的關(guān)系為“和諧”;驚濤駭浪的視頻與舒緩優(yōu)美的曲子之間的關(guān)系為“沖突”。區(qū)別于“和諧”與“沖突”,“忽略”與“博弈”反映的是視覺信息與聽覺信息的主次關(guān)系。例如,在與某人談話時,人的注意力會集中在談話之中而忽略背景中其他人以及他們的對話,這就是“雞尾酒會效應(yīng)”(cocktail party effect)[1]。視覺信息與聽覺信息之間同樣會產(chǎn)生競爭機制,這種視覺信息與聽覺信息相互競爭并有一方占據(jù)主導(dǎo)的關(guān)系即為“忽略”;在日常的生產(chǎn)與生活中,更多見的是視覺信息與聽覺信息的交織混合,若無法分清視覺信息與聽覺信息的主次關(guān)系,即為“博弈”。
在心理學(xué)領(lǐng)域,視覺與聽覺感官之間的相互關(guān)系已得到論證。1976年,McGurk[21]等人驗證了人類對外界信息的認(rèn)知是基于不同感官信息而形成的整體性理解,任何感官信息的缺乏或不準(zhǔn)確,都將導(dǎo)致大腦對外界信息的理解產(chǎn)生偏差,這個現(xiàn)象被稱為“McGurk現(xiàn)象”。2008年,Olivier等人用自我報告和對比反應(yīng)時間的方法證明視聽內(nèi)容情緒一致性的情況下,可提高圖片情緒感受性,當(dāng)不一致時視聽內(nèi)容的表達將會產(chǎn)生相互抑制的效果[25][26]。心理學(xué)家[18]將人抽象化成信息加工系統(tǒng),包括感覺輸入的編碼、貯存和提取的全過程。由于人內(nèi)部心理過程的不可見性,受限于現(xiàn)有技術(shù)水平,研究者只能通過觀察輸入和輸出的結(jié)果構(gòu)建信息加工的大致輪廓,信息加工過程中如何對信息進行階段性操作,每一階段如何產(chǎn)生輸出以及產(chǎn)生何種輸出,各階段如何進行協(xié)同工作等細(xì)節(jié)問題均未形成統(tǒng)一認(rèn)識。
在藝術(shù)學(xué)領(lǐng)域,藝術(shù)家以音樂、舞蹈、電影、美術(shù)、攝影等多種藝術(shù)表現(xiàn)形式為切入點,探討了視聽覺融合多模態(tài)作用下的審美及情感體驗并且進行了實踐,取得了一定成果[3]。例如,電影中的聲畫匹配理論,將聲音與畫面在呈現(xiàn)內(nèi)容上相呼應(yīng),或是現(xiàn)實與心理相呼應(yīng),可表達出深刻內(nèi)涵[27]。再例如,中國作曲家譚盾也曾于2005年4月在上海滬申畫廊舉辦譚盾音樂視覺展。譚盾說,視聽藝術(shù)本來就是一家人,作曲家的作品雖然最后落實在樂譜上,但在創(chuàng)作過程中是非常形象的[28]。但是,這些理論多以感性經(jīng)驗為基礎(chǔ),雖然逐步進行了一些定量化研究,其結(jié)果缺少實驗數(shù)據(jù)支撐,并且未考慮個性化差異,為后期工程化應(yīng)用帶來不便。
在腦科學(xué)與神經(jīng)科學(xué)領(lǐng)域,科學(xué)家們嘗試從細(xì)胞生物學(xué)和分子生物學(xué)角度理解神經(jīng)回路是如何感受周圍世界并實施行為的,并且進一步研究了人類情感生活的生物學(xué)基礎(chǔ)[12]。但是,人腦由百億級神經(jīng)細(xì)胞組成,這些神經(jīng)細(xì)胞通過樹突和軸突組成一個龐大的神經(jīng)網(wǎng)絡(luò),試圖以分子、突觸、神經(jīng)元等為研究對象,從微觀水平上揭開大腦與心靈之謎變得異常困難。人腦是一個極為復(fù)雜的系統(tǒng),其整體行為具有非線性相關(guān)性和動態(tài)不確定性的特點。雖然腦成像技術(shù)和腦電波技術(shù)[13]為腦科學(xué)研究打開了一條研究思路,試圖從系統(tǒng)、全腦、行為等宏觀水平上全面闡述人和動物在感知客體、形成表象、推理決策時信息加工過程及其神經(jīng)機制,但是受限于現(xiàn)有技術(shù)水平,神經(jīng)元的連接模式尚未完全描繪清楚。
在信息科學(xué)領(lǐng)域,對視覺信息和聽覺信息的研究最早始于視覺信號處理和聽覺信號處理這兩個獨立領(lǐng)域。視覺方面已有許多研究成果,如圖像檢索、多媒體數(shù)據(jù)分類、運動跟蹤、人臉識別、表情識別等[7][8]。隨著人工智能的興起,在大數(shù)據(jù)背景下,研究者通過訓(xùn)練學(xué)習(xí)模型對圖像進行識別,大大提高了識別準(zhǔn)確率[9],并在自動駕駛[10]等領(lǐng)域得到了廣泛應(yīng)用。聽覺方面主要集中在對音樂、語音的研究,例如音樂檢索、流派分類、語音識別、語音情緒檢測等眾多領(lǐng)域。其研究方法主要從三個角度展開:通過自我報告、行為表達、生理測量的主觀評價方法;基于音頻底層特征提取的語義分析方法;基于樂理(如旋律、節(jié)奏、曲式)的語義分析方法。近年來,跨模態(tài)研究逐漸成為研究熱點,主要包括image-text研究、audio-text研究和image-audio研究。研究者們采用不同方法為不同模態(tài)數(shù)據(jù)建立跨模態(tài)映射模型,主要方法為:利用深度學(xué)習(xí)算法構(gòu)建不同模態(tài)數(shù)據(jù)共享層或者將不同模態(tài)數(shù)據(jù)經(jīng)過高度抽象后映射到一個公共表示空間,如典型關(guān)聯(lián)分析(Canonical Correlatoin Analysis,CCA)技術(shù),從而建立不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)。這類技術(shù)可以為研究視聽覺融合效應(yīng)提供技術(shù)支持。
綜上所述,對視聽覺融合效應(yīng)的研究涉及多個學(xué)科,研究者需充分認(rèn)識到其與各個學(xué)科的區(qū)別與聯(lián)系,在充分學(xué)習(xí)和理解各個學(xué)科理論與方法的基礎(chǔ)上,建立具有針對視聽覺融合效應(yīng)的、科學(xué)可行的研究思路與方法,避免產(chǎn)生研究誤區(qū)。涉及學(xué)科如表1所示:
表1 視聽覺融合效應(yīng)研究涉及學(xué)科分類
由于人內(nèi)部心理過程的不可見性,本文將人腦視作“黑箱模型”(black box)[22],即不考慮內(nèi)部物理單元完整拓?fù)浣Y(jié)構(gòu)的情況下,通過研究模型輸入與輸出之間的關(guān)系建立視覺信息與聽覺信息之間的關(guān)聯(lián)。因此,本文將視聽覺融合效應(yīng)的研究對象轉(zhuǎn)化為視覺信息和聽覺信息的融合過程,即研究人在不同模態(tài)信息作用下,運用視覺、聽覺意象的生成和融合規(guī)律以及信息技術(shù)手段,探索視覺信息和聽覺信息的相互關(guān)系。其研究目的是使人進一步認(rèn)知視覺信息與聽覺信息的融合機制,建立視聽覺關(guān)聯(lián)模型,并將其應(yīng)用在眾多視聽交互領(lǐng)域。
其中,“人”需要進一步明確其所屬區(qū)域、民族、年齡等可能引起差異化結(jié)果的因素?!拜斎搿敝敢曈X信息與聽覺信息的數(shù)據(jù)表征,包括底層特征,中層特征和高層特征。底層特征指物理特征,視覺特征如顏色、形狀、紋理等[17],聽覺特征如音高、音長、響度等;中層特征指感知特征,例如顏色的冷暖感、脹縮感、動靜感等,構(gòu)圖中的平衡感、動態(tài)張力等[29],音色中的豐滿度、粗糙度、協(xié)和度等;高層特征指語義特征,是人們對視聽內(nèi)容的抽象概念的反映,例如情感、和諧感與美感。視覺信息與聽覺信息可實現(xiàn)高層語義特征的一致性?!拜敵觥敝敢曈X信息與聽覺信息的四種融合關(guān)系:和諧、博弈、忽略以及博弈;“信息融合處理”指通過信息技術(shù)手段,以人的心理過程為基本前提,通過計算機智能模擬人腦對視覺信息與聽覺信息的融合處理機制。
隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)上充斥著大量的多媒體數(shù)據(jù),不同模態(tài)數(shù)據(jù)之間的檢索與匹配需要通過機器學(xué)習(xí)的方法對跨模態(tài)數(shù)據(jù)進行關(guān)聯(lián)映射[4][5][6]。機器學(xué)習(xí)[16]是關(guān)于理解與研究人類學(xué)習(xí)的內(nèi)在機制建立能夠通過學(xué)習(xí)自動提高自身水平的計算機程序的理論方法的學(xué)科。近年來,機器學(xué)習(xí)理論在諸多應(yīng)用領(lǐng)域得到成功的應(yīng)用與發(fā)展,已成為計算機科學(xué)的基礎(chǔ)及熱點之一。機器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對人類學(xué)習(xí)機理的了解,建立人類學(xué)習(xí)過程的計算模型或認(rèn)識模型,其理論的發(fā)展與成熟為研究視聽覺融合效應(yīng)提供了可行的方法與路徑。
主觀評價實驗是從人的主觀角度出發(fā),對實驗對象進行描述或評價的實驗[11]。視聽覺融合效應(yīng)以人的心理過程為基本前提,心理學(xué)實驗是其必要的研究方法。因此,需要設(shè)計科學(xué)有效的主觀評價實驗方法,根據(jù)特定場景需求,為以人的心理過程為基本前提的特征提取提供準(zhǔn)確的針對性強的實驗數(shù)據(jù),再通過一系列統(tǒng)計分析方法進行特征量化。
綜上所述,本文主要采取機器學(xué)習(xí)算法與主觀評價實驗相結(jié)合的方法進行研究,結(jié)合心理學(xué)、藝術(shù)學(xué)、腦科學(xué)與神經(jīng)科學(xué)、信息科學(xué)等學(xué)科現(xiàn)有理論成果挖掘中高層特征,尋找異構(gòu)數(shù)據(jù)公共映射空間,建立視聽關(guān)聯(lián)模型,深入理解視覺信息與聽覺信息之間的融合關(guān)系。本文給出以下三種研究思路:
如圖1所示,思路一在建立大規(guī)模視聽覺融合數(shù)據(jù)庫的基礎(chǔ)上,運用機器學(xué)習(xí)算法,對視覺信息與聽覺信息進行直接匹配。輸入特征為底層特征。該思路適用于有特定場景需求的應(yīng)用型研究。
圖1 視覺信息與聽覺信息的直接關(guān)聯(lián)
如圖2所示,思路二通過將視覺特征與聽覺特征映射到公共的高層特征空間來建立兩者的關(guān)聯(lián)模型,例如情感語義空間、美感語義空間、和諧性語義空間等。輸入特征為底層特征或者中層特征。
圖2 視覺信息與聽覺信息通過公共空間關(guān)聯(lián)
如圖3所示,思路三通過主觀評價實驗研究視聽覺底層特征和中層特征之間的直接映射關(guān)系,從而建立各特征之間的關(guān)聯(lián)模型。這種映射關(guān)系可以是一對一映射,也可以是一對多、多對一映射,并且可以跨越層級約束。該思路適用于針對視覺信息與聽覺信息的融合處理機制的基礎(chǔ)型研究,是具有開創(chuàng)性和延續(xù)性的研究思路。
圖3 視覺信息與聽覺信息通過中底層特征關(guān)聯(lián)
目前已有較多單模態(tài)標(biāo)準(zhǔn)數(shù)據(jù)庫,如國際情緒圖片系統(tǒng)(IAPS),國際情感數(shù)碼聲音系統(tǒng)(IADS)等。主要存在以下問題:(1)未說明建庫過程及素材篩選原則;(2)未驗證數(shù)據(jù)庫中素材標(biāo)注特征的完備性;(3)未建立基于視聽覺融合素材的標(biāo)準(zhǔn)數(shù)據(jù)庫;(4)由于時間、地域的不同,素材標(biāo)注標(biāo)簽具有差異性,無法直接使用。因此,有必要建立一個基于視聽覺融合素材的標(biāo)準(zhǔn)數(shù)據(jù)庫,為后續(xù)研究提供數(shù)據(jù)支持。
該數(shù)據(jù)庫內(nèi)容力求完備,其中包含視覺、聽覺兩個單模態(tài)數(shù)據(jù)庫以及一個視聽覺融合的多模態(tài)數(shù)據(jù)庫。視覺數(shù)據(jù)庫包括圖像、視頻、文本等內(nèi)容,聽覺數(shù)據(jù)庫包括環(huán)境聲、語音、音樂、音效等內(nèi)容,視聽覺融合數(shù)據(jù)庫包括影視、MV、廣告等內(nèi)容。
在信息科學(xué)領(lǐng)域,視覺信息與聽覺信息隸屬于不同模態(tài),這里的不同模態(tài)指不同的多媒體數(shù)據(jù),研究視聽覺融合效應(yīng)的過程即研究不同模態(tài)映射關(guān)系的過程。不同模態(tài)的數(shù)據(jù)表征不同,物理層特征也存在較大差異,且一般來說特征維數(shù)較高,存在“語義鴻溝”的問題。目前,這類研究往往選取物理層特征進行關(guān)聯(lián),其關(guān)聯(lián)機制無法做進一步挖掘,關(guān)聯(lián)效果也受到限制。另一方面,對于視聽一致性的研究聚焦在心理物理特性方面。視聽一致性應(yīng)該遵循物理特性與心理過程的一致。但是,目前的一些研究只針對物理特征分析上的主觀感知的變化,當(dāng)務(wù)之急是視覺信息與聽覺信息融合內(nèi)容的心理感受量化關(guān)系以及關(guān)聯(lián)結(jié)構(gòu)一致性的研究。
人可以通過簡單的看和聽就能深刻體會到視聽覺融合信息所傳遞出的情感。例如,在觀賞兩部電影時,一個有配樂一個沒有配樂,人能明確感受到兩個電影表達的情感區(qū)別;還有,人在欣賞音樂電影(Movie Video,MV)時也能比單獨欣賞音樂獲得更多的情感體驗。以上現(xiàn)象表明,人的情感體驗機制能很好的解決不同語義信息之間的“語義鴻溝”問題。需要注意的是,“和諧”與“沖突”對應(yīng)于不同信息刺激下情感反射的匹配情況,但“忽略”與“博弈”反映的是視覺信息與聽覺信息的主次關(guān)系,其中不涉及或者只部分涉及情感反射。因此,以符合人的心理過程為前提條件,挖掘視覺信息與聽覺信息在高層特征上的語義一致性是一條可行路徑。本文將高層特征按作用過程分為直接作用特征和間接作用特征。直接作用特征[19][20]指信息直接作用于人所產(chǎn)生的生理反射,如冷暖感、輕重感、明暗感、粗糙感等;間接作用特征指在信息作用于人產(chǎn)生生理反射的基礎(chǔ)上,加入人的記憶與聯(lián)想等所產(chǎn)生的心理反射,如情感。此外,可以結(jié)合藝術(shù)領(lǐng)域挖掘?qū)I(yè)特征,如美學(xué)特征[2]:構(gòu)圖,重心,張力等。如何挖掘中高層特征,并制定中高層特征的參數(shù)提取與量化方法,完善系統(tǒng)權(quán)重,行為初值及量化邊界,使其符合視覺信息與聽覺信息的作用規(guī)律是本問題的研究重點與難點。
本文中的非直接觀測數(shù)據(jù)指主觀評價實驗數(shù)據(jù)[23],例如人的情感特征為非直接觀測數(shù)據(jù)。對于非直接觀測數(shù)據(jù),需要尋找可能的同態(tài)擬合關(guān)系,將非直接觀測數(shù)據(jù)轉(zhuǎn)化為可測量的數(shù)據(jù)、量化關(guān)系或不同支路系統(tǒng)的權(quán)重系數(shù)。人腦的視聽覺情感融合過程具有典型的復(fù)雜系統(tǒng)特征。在這一過程中,對信息的傳遞和處理具有明顯的非線性相關(guān)性和動態(tài)不確定性的特點,其并不是幾種生理信號的簡單疊加,各組成部分之間,不同層次的組成部分之間相互關(guān)聯(lián)、相互制約,并有復(fù)雜的相互作用。此外,人的視聽覺情感的產(chǎn)生也并不只是來自于外部的信息刺激,同時還有記憶、聯(lián)想等其他因素作用[24]。并且,人針對同一刺激的情感反射隨著時間的推移并不是一成不變的。因此,如何挖掘共性因素與差異化因素,并將兩者有機結(jié)合完備非直接觀測數(shù)據(jù)模型是其研究難點。
由于視覺信息與聽覺信息具有底層特征異構(gòu)及高層語義相關(guān)的特點[30],可分別將底層特征映射至高層語義空間,例如情感語義空間,以此建立視聽關(guān)聯(lián)?;蛘哚槍Φ讓涌臻g特征異構(gòu)性問題,利用跨模態(tài)學(xué)習(xí)方法挖掘跨媒體數(shù)據(jù)間的潛在關(guān)聯(lián),例如協(xié)同訓(xùn)練(Co-traing)方法、多核學(xué)習(xí)(Multiple Kernel Learning)方法和共享子空間學(xué)習(xí)(Subspace Learning)方法[14]。
信息融合處理的最后環(huán)節(jié)是將量化特征數(shù)據(jù)與標(biāo)注數(shù)據(jù)通過學(xué)習(xí)模型進行關(guān)聯(lián),并根據(jù)一定的匹配原則建立視覺信息與聽覺信息的融合模型。匹配原則指視聽覺融合效應(yīng)中視覺信息與聽覺信息之間關(guān)系的評判標(biāo)準(zhǔn)。由上文可知,“和諧”與“沖突”對應(yīng)于不同信息刺激下情感反射的匹配情況,但“忽略”與“博弈”反映的是視覺信息與聽覺信息的主次關(guān)系,其中不涉及或者只部分涉及情感反射。因此,需要借助心理學(xué)現(xiàn)有理論成果及實驗方法,針對本文提出的視覺信息與聽覺信息的四種關(guān)系,制定視覺信息與聽覺信息的匹配原則。
首先,通過對人視聽覺融合效應(yīng)形成機制的研究,不僅能夠促進計算機科學(xué)技術(shù)在人工智領(lǐng)域的發(fā)展,同時還能產(chǎn)生實際的社會效益。例如,發(fā)掘人的行為傾向,行為傾向可反映分享者對某個事件、某個公眾人物、某個產(chǎn)品、某個企業(yè)的態(tài)度,通過對這些媒介承載行為的分析,可獲得重要的商情、輿情資料,并進一步應(yīng)用在生產(chǎn)實踐和輿論引導(dǎo)中。其次,研究視聽覺融合機制還有助于科學(xué)的縱深發(fā)展,具有極強的現(xiàn)實意義。視聽覺融合可廣泛應(yīng)用于影視、廣告、劇場演出等方面,有利于推動商業(yè)、文化及科技產(chǎn)業(yè)的發(fā)展。再次,視聽覺融合的研究還有助于推動人工智能技術(shù)在不同領(lǐng)域的應(yīng)用和發(fā)展,尤其是機器人、醫(yī)療和教育等領(lǐng)域,并展望其能夠提供更加和諧的人機交互能力,從而徹底改變?nèi)藗兊墓ぷ魃罘绞健?/p>
綜上所述,研究視聽覺融合效應(yīng)的信息融合處理具有相當(dāng)廣闊的應(yīng)用前景。在藝術(shù)領(lǐng)域中的主要應(yīng)用有:影視配樂、造型設(shè)計、建筑設(shè)計、服裝設(shè)計等;在工業(yè)工程領(lǐng)域[15]中的主要應(yīng)用有:聲景設(shè)計、工程建筑中的室內(nèi)照明設(shè)計等;在廣告商業(yè)領(lǐng)域中的應(yīng)用主要有:包裝設(shè)計、研究文化消費行為傾向設(shè)計營銷手段等;在醫(yī)療領(lǐng)域的應(yīng)用主要有:視覺障礙、聽力損傷治療與康復(fù)等;在教育領(lǐng)域的應(yīng)用主要有:視聽交互輔助教學(xué)等。
本文將視覺信息和聽覺信息相互影響并共同作用于人的現(xiàn)象稱為視聽覺融合效應(yīng),并且針對該效應(yīng)提出了以信息融合處理為核心的研究思路、技術(shù)路線以及研究重點與難點,為該領(lǐng)域的研究提供理論依據(jù)以及方法指導(dǎo)。