摘要:媒體認(rèn)知實驗課程是清華大學(xué)電子信息學(xué)科在課程體系改革過程中提出的一門創(chuàng)新性前沿必修課程。文章闡述全面覆蓋人機(jī)感知交互、媒體信息處理、虛擬現(xiàn)實及信號處理領(lǐng)域的一套基于英特爾RealSense設(shè)備的探索前沿型實驗教學(xué)課程內(nèi)容及平臺特點,分別介紹三維手勢識別實驗項目和三維虛擬交互行為分析實驗項目,旨在培養(yǎng)學(xué)生的智能感知技術(shù)開發(fā)能力,掌握成為感知技術(shù)前沿領(lǐng)域高層次專業(yè)人才必需的各項基本技能和專業(yè)知識,采用集體創(chuàng)新培養(yǎng)和個人研究探索相結(jié)合,最終達(dá)到理工與人文、技術(shù)與藝術(shù)、感知與思考的高度融合。
關(guān)鍵詞:ReaISense;媒體認(rèn)知;智能感知;機(jī)器學(xué)習(xí);人機(jī)交互
1 媒體與認(rèn)知實驗課程建設(shè)概況
電子信息科學(xué)與技術(shù)是以物理和數(shù)學(xué)為基礎(chǔ),研究通過電學(xué)形式表達(dá)和操控信息的基本規(guī)律以及運用這些基本規(guī)律實現(xiàn)各種電子系統(tǒng)的方法。在進(jìn)入電子時代和信息社會的今天,電子信息科學(xué)技術(shù)已滲透到各個領(lǐng)域。隨著電子信息技術(shù)日新月異,電子信息教學(xué)領(lǐng)域也面臨著全新的挑戰(zhàn),需要培養(yǎng)具有全方位視野和超強(qiáng)能力的新一代工程師及領(lǐng)導(dǎo)者。本著這一目標(biāo),清華大學(xué)電子系自2008年開始著手進(jìn)行課程改革,通過改革課程體系將原有課程重新整合,從學(xué)科范式的角度整理出電子工程本科教育的知識體系結(jié)構(gòu),從而梳理出新的本科課程體系,形成了電子信息領(lǐng)域?qū)W科地圖。
媒體與認(rèn)知是電子系在課程改革中提出的一門全新的核心必修課程,位于電子信息領(lǐng)域?qū)W科地圖的最上層,通過對媒體信息、認(rèn)知科學(xué)及信號處理領(lǐng)域開展具體、深入的研究及實踐,在學(xué)乍充分了解領(lǐng)域知識的前提下,用文、理、工相融合的眼光看待該學(xué)科發(fā)展歷史、研究現(xiàn)狀、最新研究進(jìn)展以及未來課題,為今后開展高水平、創(chuàng)新性的研究鋪平道路。該課程結(jié)合清華大學(xué)電子系已經(jīng)落實的本科教學(xué)改革以及在教學(xué)、科研、學(xué)科建設(shè)等方面的實踐成果,通過培養(yǎng)學(xué)生的創(chuàng)新性思維推動工程學(xué)和管理學(xué)、社會科學(xué)和人文科學(xué)的結(jié)合,培養(yǎng)素質(zhì)全面的人才。
媒體與認(rèn)知實驗課程借鑒國際頂尖高校及清華大學(xué)電子工程系的前沿科研項目內(nèi)容,實現(xiàn)智能感知和機(jī)器學(xué)習(xí)領(lǐng)域的科研成果向?qū)嶒灱夹g(shù)和實驗教學(xué)轉(zhuǎn)化。該實驗課程基于電子系梳理出新的本科課程體系,通過設(shè)計開發(fā)一套完整的以實時智能感知技術(shù)為基礎(chǔ)的前沿探索型實驗教學(xué)課程內(nèi)容及平臺,涵蓋三維人機(jī)感知交互、媒體信息處理、虛擬現(xiàn)實等領(lǐng)域;建立具有未來探索性的智能感知技術(shù)實驗教學(xué)方法,實施跨學(xué)科、多層面、綜合性的學(xué)習(xí)與實踐,在課程量不變的同時提高教學(xué)效果和拓寬知識層面;突破傳統(tǒng)驗證性實驗課程及平臺因采取基于目標(biāo)或任務(wù)導(dǎo)向而導(dǎo)致高素質(zhì)人才培養(yǎng)與國際化培養(yǎng)方式存在較大差異的瓶頸,解決了知識量膨脹和學(xué)時有限之間的矛盾,實現(xiàn)了培養(yǎng)智能感知領(lǐng)域未來領(lǐng)軍人才的目標(biāo),充分體現(xiàn)了實驗教學(xué)科研工作在學(xué)校人才培養(yǎng)方面的重要意義。
2 媒體與認(rèn)知實驗課程特點
媒體與認(rèn)知實驗構(gòu)建了一套以實時智能感知技術(shù)為基礎(chǔ)的探索前沿型實驗教學(xué)課程及平臺,在設(shè)備和設(shè)計內(nèi)容方面均與國際水平接軌,具有如下特點。
1)教學(xué)互促。
該課程采用教學(xué)互促的設(shè)計模式,通過設(shè)計實現(xiàn)一整套進(jìn)階互動的實驗教學(xué)方法和步驟,將教學(xué)互動的理念貫穿于全部課程設(shè)計、平臺實施、項目更新等階段,充分實現(xiàn)教學(xué)互動的作用。
2)知識延伸。
該課程設(shè)計上著重強(qiáng)調(diào)通識教育和學(xué)科交叉,提高學(xué)生的綜合素質(zhì)和適應(yīng)能力。通識教育有利于培養(yǎng)知識面寬的復(fù)合型人才,確保學(xué)生全面發(fā)展,提高學(xué)生的綜合素質(zhì);文、理、工知識交叉滲透使學(xué)生可以從多角度和多學(xué)科運用知識處理實際問題。
3)技能拓展。
在對該平臺進(jìn)行學(xué)習(xí)和研發(fā)的過程中,學(xué)生的理論課程知識不斷鞏固加深,同時學(xué)生需要自主提出多個學(xué)科和研究方向上的全局及局部解決方案,拓展包括項目規(guī)劃、知識交叉、三維感知設(shè)計、跨平臺編程等多方面技能。
4)設(shè)備復(fù)用。
利用全新的英特爾三維智能感知設(shè)備ReaISense可以實現(xiàn)手勢識別、人臉識別、語音識別、場景識別等智能感知功能。英特爾的ReaISense設(shè)備是一種能通過采集視覺、深度、音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設(shè)備,可以廣泛應(yīng)用于自然互動、沉浸式協(xié)作與創(chuàng)作等創(chuàng)新應(yīng)用,能夠幫助開發(fā)人員在游戲、娛樂和內(nèi)容創(chuàng)建交互方面實現(xiàn)新的突破。
3 三維手勢識別實驗項目
肢體語言是人類傳遞信息的一種重要方法,利用人體的姿態(tài)實現(xiàn)自然、高效的人機(jī)交互已經(jīng)成為熱門的研究方向。在以人為中心的環(huán)境中如何對人以及人的意圖進(jìn)行正確認(rèn)知,是提高人機(jī)交互水平的關(guān)鍵因素,而基于手勢識別的人機(jī)接口能夠保證人機(jī)交互更加自然和有效。手勢功能主要分為圖l中的幾種。
近年來,基于機(jī)器視覺的手勢識別技術(shù)正逐步成為人機(jī)交互研究的熱點。美國Stanford大學(xué)提出一種基于Kinect的手勢識別方法,通過Kinect獲取RGB圖像信息和深度數(shù)據(jù),采用SURF變換算法實現(xiàn)高準(zhǔn)確度的手勢識別。瑞士蘇黎世聯(lián)邦理工大學(xué)計算機(jī)視覺實驗室提出一種基于Haarlet的手勢識別系統(tǒng),根據(jù)微軟Kinect設(shè)備獲取深度信息,檢測手勢的三維指向,將手勢轉(zhuǎn)換為交互命令,提高人與機(jī)器人交互的自然性。
該實驗項目首先通過ReaISense的3D攝像頭捕捉多個手關(guān)節(jié)的運動圖像,從圖像中提取多個手關(guān)節(jié)的特征和位置,通過基于多個手關(guān)節(jié)的目標(biāo)檢測跟蹤算法對多個手關(guān)節(jié)目標(biāo)進(jìn)行檢測和跟蹤,最后根據(jù)多個手關(guān)節(jié)的運動軌跡進(jìn)行手勢識別。手勢分割階段需要將手勢從復(fù)雜的環(huán)境背景中分離出來,同時由于不同手勢之間會有一定的相似性,導(dǎo)致系統(tǒng)將非手勢空間誤識為手勢空間或者將手勢空間誤識為非手勢空間,因此降低環(huán)境噪聲是正確分割的前提。在特征提取與選擇方面,我們需要選擇具有一定代表性的、具有很強(qiáng)區(qū)分度的三維手勢特征向量,同時要求計算量較低,提高識別的魯棒性。最后,在三維手勢識別算法方面要提高算法的執(zhí)行效率,提高系統(tǒng)的實時處理能力。
4 三維虛擬交互行為分析實驗項目
虛擬交互現(xiàn)實技術(shù)包括利用人類的感官功能如聲音、觸覺等實現(xiàn)虛擬世界和真實世界交互。虛擬現(xiàn)實技術(shù)將實現(xiàn)“虛物實化”和“實物虛化”,洲涂物理對象和抽象對象、輸入裝置和輸出裝置在交互窄問中的差別,為人提供多感覺通道的自然臨境體驗。目前,大多數(shù)虛擬現(xiàn)實技術(shù)只是最為初級的虛擬體驗,通過簡單的屏幕顯示或者立體顯示完成。
美國UC Berkeley大學(xué)通訊實驗室與美國Johns Hopkins大學(xué)圖像科學(xué)中心共同開發(fā)了一套名為Berkeley MHAD的三維可理解多模式人類行為數(shù)據(jù)庫,利用多基線雙聲道攝像機(jī)從多個視角進(jìn)行錄制,利用景深傳感器、加速計和多個麥克風(fēng)進(jìn)行信號采集,利用光學(xué)動作捕捉系統(tǒng)獲得時間司步且空間幾何校準(zhǔn)的數(shù)據(jù),該三維虛擬交互行為數(shù)據(jù)集為研究人員提供了一個包容性的測試平臺進(jìn)行技術(shù)開發(fā)和標(biāo)準(zhǔn)制訂。瑞士聯(lián)邦技術(shù)研究所信號處理實驗室P.Besson提出的基于多模式說話人探測的信息理論框架利用視頻信息提取優(yōu)化后的語音特征,利用語音和視頻特征之問的互信息目標(biāo)函數(shù)(mutual informationobj ective function)對多個候選目標(biāo)說話人進(jìn)行識別,一般場景下的識別正確率在85%左右。
該實驗項目結(jié)合ReaISense的語音識別模塊,通過定義統(tǒng)一的算法融合語義框架和語法規(guī)則,將來自語音和其他不同模式的語義進(jìn)行融合,最終通過多模式語法進(jìn)行打分得到最佳候選結(jié)果由于虛擬交互行為通常以語音為首選,岡此將其他人機(jī)對話方式與語音交互方式的關(guān)系定義為互補關(guān)系和獨立關(guān)系?;パa關(guān)系中的語音內(nèi)容必須和其他人機(jī)對話方式一起存在,才能構(gòu)成完整的語義,如當(dāng)用戶說“請告訴我那個設(shè)備的川途”時,需要用戶同時提供該設(shè)備的具體位置或其他補充信息,才能做出下一步的反應(yīng)。在獨立關(guān)系下,其他人機(jī)對話方式與語音交互方式彼此獨立,它們之間沒有很強(qiáng)的約束關(guān)系,但有時可以提高彼此的表達(dá)效果,如當(dāng)人說話時一手勢可以起到增強(qiáng)情感表達(dá)的作用,但語音通道仍起主要作用,通過這種不同層次上的分別處理能有效提高人機(jī)虛擬交互行為的自然度。
5 結(jié)語
媒體與認(rèn)知實驗課程的建直使得學(xué)生能夠了解國際科學(xué)界及工業(yè)界最前沿的媒體認(rèn)知及智能感知技術(shù)熱點和難點問題,利用平臺的基礎(chǔ)設(shè)施和設(shè)備構(gòu)建并實施多種解決方案。媒體認(rèn)知及智能感知類前沿綜合實驗課程作為在清華大學(xué)首度實現(xiàn)的跨行業(yè)、跨領(lǐng)域、跨學(xué)科課程,通過借助智能感知及人機(jī)交互知識作為工具和手段解決媒體信息處理、虛擬現(xiàn)實及人機(jī)交互的問題,可以充分挖掘和激發(fā)理工科學(xué)生在交叉學(xué)科和前沿技術(shù)方面的實力和潛力。