車娜 趙劍 史麗娟 王柳 范秦寅
摘 要:文章提出一種基于Kinect和Faceshift技術(shù)的聽(tīng)障兒童言語(yǔ)康復(fù)訓(xùn)練方法。通過(guò)Kinect和Faceshift技術(shù)實(shí)時(shí)采集說(shuō)話人面部信息,在利用視頻驅(qū)動(dòng)方式與面部三維模型相融合生成面部三維模型動(dòng)畫(huà),實(shí)現(xiàn)能夠?qū)崟r(shí)顯示說(shuō)話人面部動(dòng)畫(huà)的面部表情、唇部動(dòng)作,舌頭運(yùn)動(dòng)狀態(tài)的面部三維動(dòng)畫(huà)效果。本方法將面部三維模型動(dòng)畫(huà)和語(yǔ)音反饋結(jié)合起來(lái)從而真正意義上達(dá)到音視聽(tīng)結(jié)合的言語(yǔ)康復(fù)訓(xùn)練方法。試驗(yàn)結(jié)果表明,使用本言語(yǔ)康復(fù)訓(xùn)練系統(tǒng)對(duì)提高聽(tīng)障兒童言語(yǔ)康復(fù)訓(xùn)練的效率,縮短康復(fù)訓(xùn)練時(shí)間有顯著效果。
關(guān)鍵詞:Kinect;Faceshift;言語(yǔ)康復(fù)訓(xùn)練;面部三維模型;語(yǔ)音識(shí)別反饋
據(jù)中國(guó)殘疾人聯(lián)合會(huì)抽樣調(diào)查統(tǒng)計(jì)數(shù)字表明,中國(guó)擁有聽(tīng)力及言語(yǔ)殘疾人口數(shù)目約為2 057萬(wàn),7歲以下聾兒近百萬(wàn),每年新產(chǎn)生聾兒3萬(wàn)余名[1]。在聾兒7歲以前,尤其是在3歲左右時(shí),如果能及時(shí)地進(jìn)行康復(fù)治療,極有可能幫助他們走出無(wú)聲世界融入社會(huì)。因此,如何通過(guò)科學(xué)技術(shù)幫助聾兒縮短言語(yǔ)康復(fù)訓(xùn)練時(shí)間,提高效率尤為重要。
隨著時(shí)代的進(jìn)步和科學(xué)技術(shù)的發(fā)展,聾兒語(yǔ)言康復(fù)訓(xùn)練設(shè)備及方法已被廣泛應(yīng)用到聾兒語(yǔ)言功能康復(fù)訓(xùn)練中。如IBM Speech Viewer系統(tǒng)[2],是一種高性能的實(shí)時(shí)語(yǔ)音治療設(shè)備,但它要求使用者的語(yǔ)音學(xué)和傳統(tǒng)臨床療法理解程度有很高的要求。在國(guó)內(nèi),影響力較大的是天津市聾兒語(yǔ)言康復(fù)中心開(kāi)發(fā)的《聰聰學(xué)話》多媒體聾兒語(yǔ)訓(xùn)系統(tǒng)[3],但該系統(tǒng)無(wú)法直接顯示說(shuō)話人面部表情狀態(tài)。針對(duì)現(xiàn)有的系統(tǒng)缺陷,本文提出基于Kinect和Faceshift的語(yǔ)言康復(fù)訓(xùn)練方法,根據(jù)Kincet和Faceshift技術(shù)實(shí)時(shí)捕捉說(shuō)話時(shí)人的面部表情、唇部動(dòng)作、舌頭的狀態(tài)等,在將捕捉到的動(dòng)態(tài)人臉與三維人物頭像模型相融合,從而解決動(dòng)態(tài)三維頭像的驅(qū)動(dòng)問(wèn)題。
1 基于Kinect和Faceshft的語(yǔ)言康復(fù)訓(xùn)練方法
該方法利用特殊人機(jī)交互技術(shù)、傳感器技術(shù)建立聽(tīng)障兒童語(yǔ)言康復(fù)訓(xùn)練系統(tǒng),通過(guò)音頻數(shù)據(jù)和視頻數(shù)據(jù)采集裝置獲取聽(tīng)障兒童發(fā)聲訓(xùn)練中的音頻視頻數(shù)據(jù)信息,在顯示器上根據(jù)獲取的信息反饋出音頻圖像對(duì)比結(jié)果以及語(yǔ)音識(shí)別反饋信息,從而指導(dǎo)受訓(xùn)者正確發(fā)聲。
1.1 系統(tǒng)總體方案
其具體流程為:利用Kinect和Faceshft技術(shù)將音、視頻數(shù)據(jù)采集器采集到的面部運(yùn)動(dòng)特征和發(fā)音信息,與三維人物頭像模型相互融合,形成實(shí)時(shí)說(shuō)話人三維人物頭像模型,并將融合后的三維人物頭像模型存入數(shù)據(jù)存儲(chǔ)和處理設(shè)備。數(shù)據(jù)存儲(chǔ)和處理設(shè)備對(duì)數(shù)據(jù)同步處理后,將數(shù)據(jù)與標(biāo)準(zhǔn)信息比對(duì)做語(yǔ)音識(shí)別反饋。最后由視頻顯示裝置將面部三維人物頭像、語(yǔ)音識(shí)別反饋結(jié)果、音頻圖像對(duì)比反饋結(jié)果同步顯示。系統(tǒng)總體方案如圖1所示。
1.2 面部三維頭像模型
在使用Kinect和Faceshft技術(shù)實(shí)時(shí)捕捉人臉數(shù)據(jù)后,還需要建立人面部三維頭像模型,本系統(tǒng)采用的是Autodesk公司開(kāi)發(fā)的3DS Max軟件創(chuàng)建頭像基本模型,再利用zbrush進(jìn)行仿真建模,對(duì)面部三維頭像模型進(jìn)行相似性調(diào)整和細(xì)節(jié)刻畫(huà),并調(diào)整顏色貼圖以及調(diào)整高光。
1.3 Kinect和Faceshft技術(shù)與面部三維頭像模型的動(dòng)畫(huà)合成
本文采用Kinect和Faceshft技術(shù)提取言語(yǔ)康復(fù)訓(xùn)練中聽(tīng)障兒童的音視頻信息,捕捉說(shuō)話人的面部動(dòng)作、表情和語(yǔ)音信息,然后套入建好的人物面部三維頭像模型,從而生成動(dòng)畫(huà)序列[4]。其框圖如圖2所示。
2 系統(tǒng)評(píng)價(jià)及分析
為驗(yàn)證基于Kinect和Faceshft的語(yǔ)言康復(fù)訓(xùn)練方法的實(shí)用性,我們對(duì)該方法進(jìn)行了試驗(yàn)。試驗(yàn)過(guò)程為:選取20名3~7歲康復(fù)訓(xùn)練學(xué)生,實(shí)驗(yàn)組10人為5名男生,5名女生,使用本方法進(jìn)行康復(fù)訓(xùn)練,對(duì)照組10人為5名男生,5名女生使用傳統(tǒng)的訓(xùn)練模式進(jìn)行康復(fù)訓(xùn)練。對(duì)實(shí)驗(yàn)組和對(duì)照組分別進(jìn)行言語(yǔ)康復(fù)訓(xùn)練的單字、詞語(yǔ)、語(yǔ)句發(fā)音,在相同的言語(yǔ)康復(fù)訓(xùn)練內(nèi)容下,對(duì)比實(shí)驗(yàn)組、對(duì)照組的康復(fù)訓(xùn)練時(shí)間。試驗(yàn)嚴(yán)格控制其他無(wú)關(guān)變量,保證實(shí)驗(yàn)組和對(duì)照組的發(fā)音準(zhǔn)確性[5]。
圖3為言語(yǔ)康復(fù)訓(xùn)練對(duì)比實(shí)驗(yàn)結(jié)果,從對(duì)比曲線上,我們能夠看出使用基于Kinect和Faceshft的語(yǔ)言康復(fù)訓(xùn)練方法進(jìn)行康復(fù)訓(xùn)練的時(shí)間基本上都能夠小于傳統(tǒng)康復(fù)訓(xùn)練所需時(shí)間,能夠提高聽(tīng)障兒童言語(yǔ)康復(fù)訓(xùn)練效率[6]。
3 結(jié)語(yǔ)
本文提出一種基于Kinect和Faceshft的語(yǔ)言康復(fù)訓(xùn)練方法。根據(jù)Kincet和Faceshift技術(shù)的特點(diǎn)實(shí)時(shí)捕捉說(shuō)話時(shí)人的面部表情、唇部動(dòng)作,舌頭運(yùn)動(dòng)狀態(tài),并將視頻驅(qū)動(dòng)面部三維頭像動(dòng)畫(huà),生成發(fā)音的面部三維動(dòng)畫(huà)。在對(duì)20名聽(tīng)障兒童的系統(tǒng)測(cè)試結(jié)果表明,本語(yǔ)言康復(fù)訓(xùn)練方法能夠幫助聽(tīng)障兒童更好地完成言語(yǔ)康復(fù)訓(xùn)練,縮短訓(xùn)練時(shí)間。
[參考文獻(xiàn)]
[1]黃昭鳴.我國(guó)言語(yǔ)—語(yǔ)言障礙康復(fù)現(xiàn)狀及發(fā)展策略[J].中國(guó)聽(tīng)力語(yǔ)言康復(fù)科學(xué)雜志,2016(2):84-87.
[2]DESTOMBES F.The development and application of the IBM speech viewer[J].Journal of Medical Sciences,1994(2):187-196.
[3]王慧芳,朱思俞,張立安,等.《聰聰學(xué)話》—多媒體聾兒語(yǔ)訓(xùn)系統(tǒng)[C].大連:全國(guó)計(jì)算機(jī)輔助教育學(xué)會(huì)學(xué)術(shù)會(huì)議,2001.
[4]張金成.基于Kinect的健身游戲的設(shè)計(jì)與實(shí)現(xiàn)[D].武漢:華中師范大學(xué),2017.
[5]陳思.基于視頻驅(qū)動(dòng)的面部表情實(shí)時(shí)模擬研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2017.
[6]普波.基于視頻的三維人臉動(dòng)畫(huà)驅(qū)動(dòng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2010.