陶京京,王麗榮
(1.長春理工大學(xué) 電子信息工程學(xué)院,長春 130022;2.長春大學(xué) 電子信息工程學(xué)院,長春 130022)
從人類現(xiàn)代語音感知學(xué)的相關(guān)研究來看,聽覺存在障礙的人或正常人在噪聲環(huán)境下對于語音信息并不能完全獲取,這樣就需要通過表情信息來有效獲取對方所表達的信息。對于語言障礙人群來說,文本驅(qū)動的可視語音技術(shù)無疑給他們的生活帶來了一道新的曙光。
首先,對于聽覺障礙患者而言,其不能完整接收另一方傳遞的語音信息。而人臉語音動畫是將人類的語音信息與唇形、表情信息同步傳輸?shù)模軌驅(qū)ζ浣邮招畔⒑妥R別信息起到極大的輔助作用,在很大程度上增強其對語音信息的識別效果。
其次,對于發(fā)聲存在障礙的人而言,人臉語音動畫系統(tǒng)能夠通過生成與語音同步的信息來規(guī)范口型,并對唇部各種器官發(fā)生過程中的動作變化進行調(diào)整,從而起到矯正發(fā)音障礙患者的發(fā)音的作用。
雖然國內(nèi)外學(xué)者在人臉特征獲取方面取得很多成果,但將其直接應(yīng)用于聾兒語言康復(fù)訓(xùn)練當中仍存在一些問題,上述方法中大多采用二維進行特征提取,在此過程中人臉圖像受到很多因素的干擾:人臉表情的多樣性,外在成像過程中的光照,圖像尺寸,旋轉(zhuǎn),以及姿態(tài)變化等,導(dǎo)致即使同一個人,不同環(huán)境下拍攝的人臉圖像也不相同,甚至?xí)泻艽蟮牟町悺榇?,國?nèi)外學(xué)者已開始采用三維深度圖像研究具有不變性的人臉識別系統(tǒng),提出了一些方法,獲得了一定成果,但目前針對該方法在聾兒康復(fù)方面的研究還很不充分。
本文主要針對聾兒康復(fù)方面對三維唇部特征點進行采集和處理,得到的數(shù)據(jù)是整個文本驅(qū)動的可視語音合成系統(tǒng)中重要部分。在這些數(shù)據(jù)基礎(chǔ)上,對唇部發(fā)音動作類型進行分類和整合,從而建立文本驅(qū)動的可視語音合成系統(tǒng)。本文的研究對聾兒康復(fù)和發(fā)音校正奠定了基礎(chǔ)。
圖1 實驗場景
采集過程利用美國魔神三維動態(tài)捕捉系統(tǒng),本研究采用6個攝像頭,其余兩臺Angle鏡頭高度為1.6m,在中間作為主鏡頭,四臺Hawk鏡頭高度為1.8m在兩側(cè)作為輔助鏡頭,在數(shù)據(jù)采集場地長寬各為2m。將攝像頭按弧形位置排列,攝像頭面向圓內(nèi),待測點在圓心附近為最佳。如圖1所示。
選取在室內(nèi)自然光照下,實驗者不進行任何特別的化裝,唇部和臉部粘貼上Marker點,端正地做在無反光背景前,頭部自然地面對三維動態(tài)捕捉系統(tǒng),在發(fā)音過程中頭部運動限制在一個較小的范圍內(nèi)基礎(chǔ)上,旋轉(zhuǎn)角度小于5度,本實驗人臉標記點(marker)直徑為3mm。
圖2 特征點分布圖
特征點的選取結(jié)合了MPEG-4對于人臉特征點的定義[4],標注過程根據(jù)實際情況對特征點進行了適當刪除,由于本文主要研究唇部信息,因此刪除了眼部以及面頰部位的特征點。主要選取了12個點作為特征點,其中眉部一個特征點作為參考點H,用于校準數(shù)據(jù),其他參考點大多數(shù)位于唇部及唇部周圍。具體分布如圖2所示。
該系統(tǒng)采集的是說話人的連續(xù)發(fā)音動作,以每秒60幀的速率獲取說話人發(fā)音時面部特征點坐標數(shù)據(jù),通過輸出為對應(yīng)特征點運動軌跡坐標,確定特征點的運動軌跡。圖3為采集過程中系統(tǒng)運行窗口。
圖3 動作捕捉窗口
采集到的數(shù)據(jù)是60幀/秒的離散值。每個音素發(fā)聲時間約為2s,系統(tǒng)將記錄下這2s內(nèi)所有特征點的運動坐標。圖4為截取音素 /a/在發(fā)聲時系統(tǒng)所顯示的特征點運動情況。
圖4 /a/發(fā)音時特征點運動情況
運動捕捉的數(shù)據(jù)形式
幀為單位的運動序列,每一幀數(shù)據(jù)為離散的三維坐標點集.
其中FRAMEn表示為第n幀數(shù)據(jù);MKm表示第m個特征標記點,三個浮點數(shù)分別表示其x,y,z坐標,單位為毫米。
在唇部取19個特征點,為了更加精細和逼真地得到不同發(fā)音時的口型,可以基于這19個特征點再向其外圍自動擴充13個特征點,如圖5所示。在得到這些特征點之后,進一步將嘴部圖像區(qū)域做三角化,如圖6所示。做三角化可以更加方便地通過移動特征點獲得變形和控制局部變形的幅度[5]。
圖5 嘴部19個原始特征點
圖6 擴展過的嘴部特征點
運用仿射變換方法,可以合成16組中文可視音素的圖像作為人臉動畫的關(guān)鍵幀,部分中文可視音素如圖5所示。但由于該合成方法僅根據(jù)發(fā)音時視覺口型經(jīng)驗得來,并且目前只能應(yīng)用于二維模型,因此真實感不強,實用性較差,本文未采用。
通過三維動態(tài)捕捉系統(tǒng)得到的實時運動數(shù)據(jù),在采集過程中由于人臉頭部在發(fā)聲時會產(chǎn)生輕微晃動,對唇部特征點的運動軌跡坐標會產(chǎn)生一定影響。因此在設(shè)定特征點時,采用在眉處設(shè)定一個參考特征點H:(hx,hy,hz)。這點由于離唇部距離較遠,無表情發(fā)聲時可近似看做在該點坐標不變。通過H點運動軌跡的分析與校準,達到使其余特征點得到校準的目的。以參考特征點的第1幀作為基準幀,運用空間坐標變換法求得第K幀到基準幀的坐標變換向量,從而得到第K幀其余特征點在基準幀坐標系下的坐標。由于只考慮第K幀各特征點坐標,H點從第一幀到第K幀的運動軌跡可近似看作一條直線。則第K幀時H點在基準幀坐標系下的坐標可以表示為:
設(shè)根據(jù)系統(tǒng)直接測得的第i個特征點在第K幀的坐標為:
校準后的坐標可以表示為
在后續(xù)的單個音素合成時,120幀數(shù)據(jù)運算量較大,因此需要提取最能代表該因素特點的一幀作為關(guān)鍵幀,并在后續(xù)運動軌跡合成中作為終止點。因此我們通過對單音素每一幀與靜止幀(首幀)的歐式距離[6]大小來定義該音素的關(guān)鍵幀,即歐氏距離越大,變化幅度最大,最能體現(xiàn)該音素特點的就定義為關(guān)鍵幀。
歐氏距離計算方法如下:
設(shè)第i個特征點靜止幀和第K幀的坐標分別為:
則可求出這兩點之間的歐氏距離,
將各特征點每一幀的歐式距離做方差,可以作為從靜止幀到第K幀口型的變化的程度,
通過計算可以得到單音素的關(guān)鍵幀,如圖5所示為/u/的關(guān)鍵幀與靜態(tài)幀。
圖5 /u/的關(guān)鍵幀與靜態(tài)幀
運用該方法能夠得到較為理想的唇部三維運動坐標,在后期合成軌跡運動時提高了真實感,因此在實際研究中采用了坐標變換方法對三維數(shù)據(jù)進行處理。
本文研究了在三維可視語音系統(tǒng)中唇部特征點的數(shù)據(jù)采集和處理方法,該方法真實感強,計算量小,為后續(xù)的可視語音系統(tǒng)合成奠定了基礎(chǔ)。使通過可視語音技術(shù)幫助聾兒康復(fù),校正發(fā)音成為可能。對未來聽障患者的生活和學(xué)習(xí)起到了一定的幫助作用。
[1]徐琳,袁寶宗,龍濤,等.真實感人臉建模研究的進展與展望[J].軟件學(xué)報,2003,23(1):90-92.
[2]董蘭芳,王洵,陳意云.真實感虛擬人臉的實現(xiàn)和應(yīng)用[J].小型微型計算機系統(tǒng),2002,14(4):804-809.
[3]晏潔.文本驅(qū)動的唇動合成系統(tǒng)[J].1998,19(1):31-34.
[4]尹寶才,王愷,王立春.基于MPEG-4的融合多元素的三維人臉動畫合成方法[J].北京工業(yè)大學(xué)學(xué)報,2011,37(2):266-271.
[5]杜鵬,房寧,趙群飛.基于漢語文本驅(qū)動的人臉語音同步動畫系統(tǒng)[J].計算機工程,2012:261-264.
[6]鄭紅娜,白靜,王嵐,朱云.基于發(fā)音軌跡的可視語音合[J]成.計算機應(yīng)用與軟件,2013,30(6):253-261.