姚登峰,江銘虎,阿布都克力木·阿布力孜,李晗靜,哈里旦木·阿布都克里木
(1. 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室(北京聯(lián)合大學(xué)),北京 100101;2. 清華大學(xué) 人文學(xué)院 計(jì)算語言學(xué)實(shí)驗(yàn)室、心理學(xué)與認(rèn)知科學(xué)研究中心,北京100084;3. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京100084)
正如語音識(shí)別需要語言計(jì)算理論一樣,手語識(shí)別也需要手語計(jì)算的知識(shí),因此它是手勢(shì)動(dòng)作識(shí)別和手語含義識(shí)別理解的綜合。長期以來,手語識(shí)別理解缺乏手語語言學(xué)家的參與,并未取得較大的進(jìn)展。本文深入研究了手語理解的問題,從語言學(xué)的角度,提出在音系學(xué)層面上進(jìn)行手語理解,基于此提出了基于音系學(xué)模型的手語理解算法。
目前手勢(shì)識(shí)別研究基本都參考了Stokoe理論。1960年Stokoe提出手勢(shì)(同時(shí))由三個(gè)部分(參數(shù))組成,包括手勢(shì)位置、手形,及運(yùn)動(dòng)[1]。20世紀(jì)70年代初期語言學(xué)家給這三個(gè)參數(shù)增加了一個(gè)要素: 方向,之后語言學(xué)者大都采用這四個(gè)參數(shù)的說法。
Vogler與Metaxas在Stokoe模型的基礎(chǔ)上提出了PaHMMs[2]。此后手語識(shí)別文獻(xiàn)使用Stokoe提出的語言學(xué)特征,主要是基于少量樣本來學(xué)習(xí)新手勢(shì)。Lichtenauer等人為未登錄手勢(shì)提出一種自動(dòng)構(gòu)建分類器的方法[3],通過收集很多手勢(shì)者的手勢(shì)特征,與新手勢(shì)的特征進(jìn)行比較,從而為目標(biāo)新手勢(shì)構(gòu)建分類器模型。這種方法依賴于大量的基礎(chǔ)特征訓(xùn)練集(75人打出的120個(gè)手勢(shì)),并允許使用一次性學(xué)習(xí)來訓(xùn)練一個(gè)新手勢(shì)分類器。Bowden等人還提出使用一個(gè)訓(xùn)練樣本就能正確分類新手勢(shì)的手語識(shí)別系統(tǒng)[4],并給出了一個(gè)單一的訓(xùn)練例子。他們的方法使用了二級(jí)分類器,其中一級(jí)使用硬編碼分類器來檢測(cè)手形、布局、運(yùn)動(dòng)和位置。在應(yīng)用動(dòng)態(tài)分類手勢(shì)前,二級(jí)使用了ICA(independent component analysis)從一級(jí)得到的34維特征向量消除噪聲,在少量訓(xùn)練實(shí)例和缺乏語法知識(shí)的情況下獲得了很好的效果。Kadir等人擴(kuò)展了前述工作,并基于Boosting級(jí)聯(lián)弱分類器以軀干為中心的描述特征(將運(yùn)動(dòng)規(guī)格化為二維空間)來檢測(cè)頭部和手部,然后使用二級(jí)分類器,其中一級(jí)分類器生成語言學(xué)特征向量,二級(jí)分類器在馬爾可夫鏈上使用Viterbi算法來獲取最高識(shí)別概率[5]。Cooper 與Bowden延續(xù)了這項(xiàng)工作,使用了分類器集合來檢測(cè)訓(xùn)練樣本和分類樣本的手勢(shì)特征[6],將這些特征組合作為二級(jí)分類器的輸入,使用了一階馬爾可夫假設(shè)。
這些文獻(xiàn)表明: 基于Stokoe的語言學(xué)特征,其手語識(shí)別率等同于基于圖形學(xué)特征的識(shí)別率。這顯然有違于引進(jìn)語言學(xué)特征的初衷,其根本原因在于Stokoe模型認(rèn)為包括手形、運(yùn)動(dòng)、位置等在內(nèi)的音系參數(shù)是同時(shí)出現(xiàn)的。也就是說手形、移動(dòng)、位置、方向和非手動(dòng)特征是同時(shí)表達(dá)出來的,這樣一個(gè)手勢(shì)就可以立即表征出來。然而在有聲語言中聲音是線性連續(xù)的,因此手語也應(yīng)與有聲語言一樣,是手勢(shì)的序列性表達(dá)(sequential presentation)。我們認(rèn)為手勢(shì)可同時(shí)結(jié)合序列性和同時(shí)性,這就需要一個(gè)合適的音系學(xué)模型來表達(dá)手語的序列性和同時(shí)性。大量跨手語語言的語料證明手語中存在音節(jié)結(jié)構(gòu)[7]。為此,我們先進(jìn)行音韻參數(shù)感知加工,在此基礎(chǔ)上提出改進(jìn)的音系學(xué)模型,即增強(qiáng)運(yùn)動(dòng)—保持模型。
最近涌現(xiàn)出的3D體感設(shè)備為手勢(shì)感知?jiǎng)?chuàng)造了可能,這種設(shè)備是利用3D體感攝像頭來獲取目標(biāo)的圖像信息,通常是目標(biāo)的深度和紅外圖像信息。它借鑒了人眼的認(rèn)知原理,將傳統(tǒng)的2D物體轉(zhuǎn)換到3D空間。通過這種3D體感設(shè)備可以計(jì)算出位置、手形、方向、運(yùn)動(dòng)、非手動(dòng)特征五個(gè)參數(shù),這五個(gè)參數(shù)本身就是手語語言學(xué)里的音韻特征,相比較口語的語音識(shí)別,這些物理特征可憑視覺直觀感受到。感知階段,體感設(shè)備在計(jì)算音韻特征時(shí),可先計(jì)算手部位置、方向、運(yùn)動(dòng)等手動(dòng)特征,再計(jì)算眉毛、眼睛、嘴部、頭部等非手動(dòng)特征,這是一個(gè)從粗粒度音韻特征到細(xì)粒度特征的計(jì)算過程,符合人腦對(duì)圖像特征加工的認(rèn)知機(jī)理。
手勢(shì)的手形音韻參數(shù),則由Leap Motion給出的每個(gè)手掌關(guān)節(jié)點(diǎn)的3D坐標(biāo)值計(jì)算得到,這里總共統(tǒng)計(jì)了69個(gè)手形。粗粒度的音韻參數(shù)如位置、方向、運(yùn)動(dòng)三個(gè)特征可由Kinect或Leap Motion計(jì)算得到,以Kinect為例,位置是根據(jù)Kinect給出的深度信息和3D坐標(biāo)返回的兩個(gè)參數(shù)確定的,第一個(gè)參數(shù)是判斷手部是否與身體接觸,分別有接觸、正常位置、遠(yuǎn)離身體三個(gè)值;第二個(gè)參數(shù)是判斷手部在身體的位置,通常有頭頂、太陽穴、耳部、頭額等28個(gè)值。其中眉毛是根據(jù)Kinect給出的深度信息和3D坐標(biāo)來判斷眉毛是否上揚(yáng),分別有三個(gè)值,以此來判斷手勢(shì)者的情緒,由于眉毛變化通常伴隨著眼睛、嘴部、頭部和肢體的變化,為減少計(jì)算工作量,我們只將眉毛作為主要特征,其他作為次要特征。在判斷主要特征眉毛上揚(yáng)時(shí),還需要驗(yàn)證次要特征,如眼睛是否變寬變大,頭部和身體是否前傾,亦或肩部是否提起,在確認(rèn)為疑問句后,再判斷是否有雙眼斜視(反問句沒有雙眼斜視)、頭部是否擺動(dòng)(一般疑問句沒有頭部擺動(dòng))等特征。
為了減少計(jì)算工作量,以Leap Motion為例,實(shí)際每秒只計(jì)算三個(gè)幀,即編號(hào)為1、145、289的幀,以幀為單位返回原始數(shù)據(jù),以這些原始數(shù)據(jù)計(jì)算每一幀的返回參數(shù)為(LA,LB,LC,LD,RA,RB,RC,RD,T),其中具體參數(shù)值見圖1,這樣手勢(shì)“你”某一時(shí)刻返回的幀參數(shù)為(0,0,0,0,1,7,1,4,64320),即某一時(shí)刻該右手手勢(shì)位于中性空間(不與胸部接觸的空間),為數(shù)字1手形,正從后向前運(yùn)動(dòng),手掌方向從左到右,該幀的時(shí)刻為00:01:43:20,其中四個(gè)0表示Leap Motion未檢測(cè)到左手,返回左手的四個(gè)音韻參數(shù)均為0。為了切分方便,M音段的第一個(gè)音韻參數(shù)位置以中間幀的位置為準(zhǔn),第二個(gè)音韻參數(shù)手形以最后一幀的手形為準(zhǔn),第三個(gè)音韻參數(shù)運(yùn)動(dòng)可用當(dāng)前幀(F)與上一幀(F-1)的差值表示當(dāng)前幀的變化量,具體以手掌中心坐標(biāo)(Palm Position)的變化來表示,第四個(gè)音韻參數(shù)是手掌方向,需計(jì)算M音段最后幀的手掌,由六個(gè)點(diǎn)組成的平面垂直向量(Palm Normal)來表示。
圖1 感知階段音韻特征的具體值
上個(gè)階段得到的標(biāo)注文本就是手語的音韻信息,本階段任務(wù)是從這些音韻信息得到手語文本(以中文作為編碼系統(tǒng),按照手語語法得到的文本)。根據(jù)這五個(gè)參數(shù)得到手勢(shì)文本,本質(zhì)上屬于從拼音到漢字、從英語音標(biāo)到英語單詞的轉(zhuǎn)換。因此從第一階段自動(dòng)標(biāo)注好的音韻信息推斷出手語文本類似于從連續(xù)的漢語拼音推斷出漢語句子文本,或者從連續(xù)的英語音標(biāo)推斷出英語文本。手語音韻信息到文本轉(zhuǎn)換的流程,與有聲語言的傳統(tǒng)標(biāo)注技術(shù)相反,有聲語言標(biāo)注是先得到文本,再對(duì)文本進(jìn)行拼音、詞性等標(biāo)注工作。
有聲語言的同音字現(xiàn)象很常見,以漢語為例,若不考慮聲調(diào),新華字典里有7 536個(gè)同音字,大約占10%,平均每個(gè)讀音就有18.29個(gè)漢字,如此高的比例給漢字消歧帶來了很大的困難[8]。關(guān)于同音手勢(shì),目前未看到有關(guān)報(bào)道。本文對(duì)自建的中國手語語料庫做了統(tǒng)計(jì),手語的同音手勢(shì)占所有手勢(shì)的46.86%,幾乎占了一半。其中以詞頻統(tǒng)計(jì),常用的同音手勢(shì)占了41.37%,不常見的同音手勢(shì)占了5.23%。因此手語與有聲語言相比,同音情況更多、更復(fù)雜,其同音手勢(shì)識(shí)別問題是音韻標(biāo)注到文本轉(zhuǎn)換問題的關(guān)鍵。
手語文本采用的中文編碼是普通話的書寫系統(tǒng),具有表音和表意兩方面的特點(diǎn)。而漢語拼音本身就是語音的書面符號(hào),具有表音的作用,因此從漢語拼音得到漢字序列,雖然需要分析形、音、義等多方面信息,以及這些信息的綜合判斷,但畢竟存在著音的關(guān)系。而手勢(shì)音韻信息是以手部為發(fā)音器官,從音系學(xué)角度得到的發(fā)音特征,它畢竟不同于國際音標(biāo)或者西文的拼音文字,從手語音韻特征到口語的書面系統(tǒng)轉(zhuǎn)換完全不存在任何關(guān)系。尤其是手語中分類詞謂語(手語獨(dú)有的語言學(xué)現(xiàn)象,有聲語言里沒有)不是一個(gè)真正的手勢(shì),不受手語音系學(xué)里對(duì)稱性和支配性等這些限制條件的影響[9]。這樣,包括分類詞謂語在內(nèi)的很多手勢(shì),其音韻結(jié)構(gòu)較為復(fù)雜,沒法用1~2個(gè)中文單詞來標(biāo)注。因此相對(duì)漢語口語,我們要完成的從手語音韻信息到手語文本的轉(zhuǎn)換任務(wù)是一個(gè)難度更大的消歧任務(wù)。把手語的音韻信息轉(zhuǎn)化為口語文本,要弄清楚手語音韻學(xué)、句法學(xué)和形態(tài)學(xué)等獨(dú)有的規(guī)律和特征。漢語是聾人的第二語言,與漢語語法相比,手語句子并不規(guī)范,其手語語法尚未規(guī)范化,再加上手語本身形態(tài)變化更為復(fù)雜,且每個(gè)手勢(shì)的復(fù)雜程度分布很不均勻,根據(jù)自建手語語料庫統(tǒng)計(jì),平均每個(gè)手勢(shì)需要2~6個(gè)漢字來表述,但有些手勢(shì)最多需要62個(gè)漢字才能表述其完整的意義。如前所述,在手語中同音手勢(shì)的情況比有聲語言更為常見,但是每個(gè)手勢(shì)對(duì)應(yīng)的候選詞匯一般為4~8個(gè),與漢語拼音基本相同。形態(tài)變化再加上候選詞匯眾多,將兩者綜合,使消歧難度比單純的從拼音到漢字轉(zhuǎn)換更大,因此手語本身的形態(tài)、語法是影響手語音韻信息到手語文本的轉(zhuǎn)換準(zhǔn)確率的重要因素,也是實(shí)現(xiàn)從手勢(shì)音韻信息到漢字文本轉(zhuǎn)換的根本問題所在。
Liddell 等人提出了運(yùn)動(dòng)-保持模型(movement-hold model)[10],該模型認(rèn)為手勢(shì)由保持(hold)音段和運(yùn)動(dòng)(movement)音段(phonological segments)構(gòu)成,它們按序列生成。關(guān)于手形、位置、方向和非手動(dòng)特征的信息通過每個(gè)單元一系列發(fā)音特征表現(xiàn)出來。這些特征類似于口語發(fā)聲。保持音段定義為所有發(fā)音以穩(wěn)定狀態(tài)呈現(xiàn)的時(shí)間,而運(yùn)動(dòng)音段則定義為多個(gè)發(fā)音變換的時(shí)間,即一次至少一個(gè)參數(shù)發(fā)生變化,可能只有一個(gè)手形或位置參數(shù)的變化,也有可能是手形和位置兩個(gè)參數(shù)同時(shí)變化,這些變化就在運(yùn)動(dòng)音段內(nèi)發(fā)生。這種說法與Stokoe認(rèn)為手勢(shì)參數(shù)同時(shí)生成的說法完全不同,但是與口語音段結(jié)構(gòu)的說法一致。運(yùn)動(dòng)-保持模型解決了Stokoe模型的描述性問題。這套系統(tǒng)能夠有效描述序列,還能提供足夠多的手語描述細(xì)節(jié),并清楚地描述和解釋無數(shù)個(gè)發(fā)生在手語中的手勢(shì)過程。
本文為了音節(jié)切分方便,對(duì)運(yùn)動(dòng)-保持模型(movement-hold model)進(jìn)行了改進(jìn),命名為增強(qiáng)運(yùn)動(dòng)-保持模型(enhanced movement-hold model),不考慮運(yùn)動(dòng)和保持兩個(gè)音位音段約各占一半時(shí)間的劃分,只考慮手勢(shì)者在打出手勢(shì)時(shí),最開始手部是置于軀干兩側(cè)或者放平靜止不動(dòng),手勢(shì)的四個(gè)音韻參數(shù)(手形、運(yùn)動(dòng)、位置和方向)均沒有變化,這時(shí)以H音段開始,接著手部到達(dá)手勢(shì)初始位置時(shí),為M音段+H音段,即任何手勢(shì)句子開始時(shí),都是以HMH音段為開始,此后手勢(shì)只要有一個(gè)參數(shù)發(fā)生變化,即可定義為M音段,運(yùn)動(dòng)停止時(shí),即可定義為H音段。根據(jù)這種改進(jìn)的增強(qiáng)運(yùn)動(dòng)-保持模型(nhanced movement-hold model),在中國手語中單個(gè)手勢(shì)的保持和運(yùn)動(dòng)組合可能有: HMH、MMH、HMHMMH、HMH、MHMMH、MMHH、HMHMHMHMH等28種組合。若不考慮書空(指在空氣中書寫漢字,是中國手語的一種構(gòu)詞方式)等復(fù)雜情況,可能的組合可下降到12種。由此可見,并非所有手勢(shì)都是保持-運(yùn)動(dòng)-保持(HMHMH)結(jié)構(gòu)。在大多數(shù)情況下,HMHMH型音節(jié)在中國手語中的分布非常廣泛。不同音段結(jié)構(gòu)反映了意義上的差異,如快(HMHMH)和速度(HMHMMMMH)之間的音段結(jié)構(gòu)差異。我們?cè)诜治鲋袊终Z音段切分時(shí),發(fā)現(xiàn)中國手語與漢語口語一樣,連續(xù)手勢(shì)序列并不是單個(gè)音節(jié)的簡單組合,手語句子里每個(gè)手勢(shì)組成部分以不同順序組織,而且相互影響。因?yàn)槭軈f(xié)同發(fā)音、韻律等因素的影響,手語也存在音變現(xiàn)象,從而導(dǎo)致連續(xù)手勢(shì)序列與單獨(dú)的手勢(shì)音節(jié)有很大的不同。流暢手語是每秒2~3個(gè)手勢(shì),比較慢,每句最長不超過12個(gè)手勢(shì)音節(jié)。此外,手勢(shì)者的表達(dá)手語的風(fēng)格不同,并且手勢(shì)者之間也存在音變的個(gè)體差異。本文以文獻(xiàn)[9]為依據(jù),目前已發(fā)現(xiàn)中國手語有四個(gè)音變,分別是運(yùn)動(dòng)增音(movement epenthesis)、保持缺失(hold deletion)、音位轉(zhuǎn)換(metathesis)和同化(assimilation)。我們發(fā)現(xiàn)中國手語音節(jié)切分比漢語口語音節(jié)切分更為簡單,至少某個(gè)手勢(shì)過渡到下一個(gè)手勢(shì)發(fā)生音變時(shí),只是MH的前后序列發(fā)生了變化,并且這些變化仍能被體感設(shè)備感應(yīng)到,沒有超出運(yùn)動(dòng)-保持模型的范圍。根據(jù)以上理論,我們可以根據(jù)圖2得到以下例子。
漢語句子: 我自從出生以來,沒去過天安門。
手語句子: 成長(指從小到大)天-安-門沒。
音韻特征序列: HMHMH M HMMMMH M HMH M HMH M HMH
實(shí)際數(shù)據(jù)序列: H(0,0,0,0,26,25,21,5)M(0,0,0,0,26,25,5,2)H(0,0,0,0,24,25,21,2)M(0,0,0,0,24,25,27,2)H(0,0,0,0,4,25,49,2) M(0,0,0,0,4,25,19,5)H(0,0,0,0,5,7,21,5)M(0,0,0,0,5,7,11,5)M(0,0,0,0,5,7,11,5)M(0,0,0,0,5,7,11,5)M(0,0,0,0,5,7,11,5)H(0,0,0,0,5,7,21,5)M(0,0,0,0,16,49,19,2)H(0,0,0,0,2,49,21,2)M(0,0,0,0,26,49,26,2)H(0,0,0,0,18,49,21,2)M(18,49,21,3,18,49,21,3)H(4,49,21,3,4,49,21,3)M(2,49,10,3,2,49,10,3)H(2,49,21,3,2,49,21,3)M(2,12,21,6,2,12,21,5)H(2,12,21,6,2,12,21,5)M(26,25,26,6,26,25,26,5) H(26,25,21,6,26,25,21,5)
圖2 手勢(shì)句子“成長天安門沒”
消歧的重點(diǎn)在于手勢(shì)音韻信息及手語語法、語用信息的特征提取,我們考慮使用深層網(wǎng)絡(luò)結(jié)構(gòu),深層結(jié)構(gòu)具有較強(qiáng)的學(xué)習(xí)能力來獲取特征,在圖像識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用。很多文獻(xiàn)表明構(gòu)造深層神經(jīng)網(wǎng)絡(luò)時(shí)需要注重模型的混合搭配,這樣才能實(shí)現(xiàn)模擬大腦的工作機(jī)理,即在輸入原始數(shù)據(jù)時(shí),每處理一層,提取的概念特征便抽象一些[11]。為此,在構(gòu)建底層網(wǎng)絡(luò)時(shí),我們采用了帶噪聲的自動(dòng)編碼器(denoise auto-encoder,DAE) ,目的是通過非線性組合高維底層特征,學(xué)習(xí)到低維抽象特征。我們希望利用DAE來提取未發(fā)現(xiàn)的特征,完成手勢(shì)音韻信息和語法語用信息的特征提取。接著使用受限玻爾茲曼機(jī)(restricted boltzmann machines,RBM),進(jìn)一步自動(dòng)學(xué)習(xí)更抽象、更有效的高層特征,繼而采用BP算法更新整個(gè)網(wǎng)絡(luò)的權(quán)重,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。最終用多元Logistic分類模型(multi-class logistic classifier, MLC) 進(jìn)行分類,這是因?yàn)榻?jīng)過前兩個(gè)網(wǎng)絡(luò)構(gòu)建后數(shù)據(jù)訓(xùn)練已基本完成。該混合神經(jīng)網(wǎng)絡(luò)以每個(gè)待處理的手語音韻信息序列作為輸入,依靠深度學(xué)習(xí)強(qiáng)大的無監(jiān)督學(xué)習(xí)特征的能力[12-15],在多層隱層中進(jìn)行逐層訓(xùn)練學(xué)習(xí),以獲取音韻信息的抽象表示,最后將產(chǎn)生的特征通過分類器得到可能性最高的手語文本,從而完成音韻信息到手語文本的轉(zhuǎn)換工作。因此我們提出的模型如圖3所示。
圖3 智能認(rèn)知的基礎(chǔ)——混合深層神經(jīng)網(wǎng)絡(luò)
只要設(shè)計(jì)的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)合理,便可從感知階段得到的音韻信息中提取出對(duì)手語文本分類幫助較大的特征,從而解決手語音韻參數(shù)到手語文本的轉(zhuǎn)換問題。圖3中輸入層X輸入感知階段得到的手勢(shì)音韻特征序列,將手語文本作為這種混合深層神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)。基礎(chǔ)模塊第一層和第二層均采用了常規(guī)DAE模型[16],其原型是自編碼神經(jīng)網(wǎng)絡(luò)(auto-encoder,AE),該網(wǎng)絡(luò)通過一種盡可能復(fù)現(xiàn)輸入信號(hào)的無監(jiān)督學(xué)習(xí)算法完成網(wǎng)絡(luò)的預(yù)訓(xùn)練。
(1)
與此DAE模型不同的是,本文采取的方法除了選取部分?jǐn)?shù)據(jù)強(qiáng)制變?yōu)?以外,也隨機(jī)挑選了一定比例的數(shù)據(jù)強(qiáng)制變?yōu)?,目的是保證模型免受無關(guān)輸入或者個(gè)性化音韻信息的影響,消除音韻信息的不規(guī)范性。
在獲取特征后,我們使用了深度信念網(wǎng)絡(luò)(deep belief network,DBN)實(shí)現(xiàn)去噪自編碼器的輸出數(shù)據(jù)的降維[17]。這里采用了兩層RBM,RBM是一個(gè)基于統(tǒng)計(jì)力學(xué)的概率圖生成模型,可以自動(dòng)從訓(xùn)練集里提取高階抽象的特征,并且提供較好的神經(jīng)網(wǎng)絡(luò)初始權(quán)值,這樣就可以把權(quán)值控制在對(duì)全局訓(xùn)練最有利的范圍內(nèi),從而降低對(duì)學(xué)習(xí)目標(biāo)過擬合的風(fēng)險(xiǎn)。預(yù)訓(xùn)練時(shí),可采取對(duì)比散度算法變形進(jìn)行近似求解,即通過最小化兩個(gè)散度的不同來進(jìn)行預(yù)訓(xùn)練[18],以得到模型參數(shù)。具體是運(yùn)行若干次Gibbs采樣,得到足夠多的樣本,然后通過計(jì)算平均值來求出歸一化常數(shù)。由于RBM訓(xùn)練過程與維度無關(guān),所以可以利用RBM對(duì)數(shù)據(jù)進(jìn)行有效的投影,之后在最頂層加上邏輯斯蒂克模型作為分類器,對(duì)輸出層的結(jié)果做排序,排序靠前的手語文本即為該深層混合神經(jīng)網(wǎng)絡(luò)對(duì)手語音韻信息轉(zhuǎn)換的預(yù)測(cè)結(jié)果。
最后是模型的微調(diào),這里使用BP算法更新整個(gè)網(wǎng)絡(luò)的權(quán)值,對(duì)混合神經(jīng)網(wǎng)絡(luò)的性能做調(diào)整。由于BP算法本身的缺陷,使用時(shí)需要注意訓(xùn)練過程,要找到合理的初始值,否則容易陷入局部極小值。
為了驗(yàn)證以上基于音系學(xué)模型的手語理解算法,我們使用體感設(shè)備LeapMotion做了先行驗(yàn)證,本文硬件實(shí)驗(yàn)環(huán)境為:Intel酷睿i7-4770s@3.7GHz四核CPU,16GB內(nèi)存,IntelHDGraphics4600顯卡。首先基于LeapMotion,選擇Unity3D4.10作為實(shí)現(xiàn)平臺(tái),開發(fā)了一個(gè)中國手語手勢(shì)音韻特征采集系統(tǒng),可實(shí)現(xiàn)簡單的手勢(shì)識(shí)別功能,重點(diǎn)是采集手形、運(yùn)動(dòng)、位置、方向這四個(gè)參數(shù),不采集非手動(dòng)特征。
請(qǐng)三名聾生作為被試,以人民郵電出版社出版的《成語故事》(陳敏編)和人民文學(xué)出版社出版的《中國現(xiàn)代寓言故事》(安武林編)這兩本書為故事來源,要求聾生閱讀后,用自己的手語語言表達(dá)一遍,并要求盡量在水平方向打出手勢(shì),盡量減少握拳或垂直方向手勢(shì)識(shí)別出現(xiàn)的誤差。因此得到的龜兔賽跑、守株待兔、草木皆兵等故事視頻,雖然其意思大致相同,但采集到的音韻特征序列大不相同。拍攝視頻時(shí),對(duì)于每個(gè)手勢(shì)者,要求打出手勢(shì)的速度為2~3個(gè)手勢(shì)/秒,盡量在5min之內(nèi)表達(dá)完整的句子或段落意思。這樣后期就可以切割成每段5min的視頻文件,每兩段視頻文件之間沒有交集。經(jīng)LeapMotion同步采集后,經(jīng)過整理可得到400個(gè)音韻特征標(biāo)注語料。為了完成實(shí)驗(yàn),我們將這些標(biāo)注后的音韻特征文件分為三部分:300個(gè)語料文件作為訓(xùn)練集,50個(gè)語料文件作為驗(yàn)證集,剩下50個(gè)語料文件作為測(cè)試集。音韻特征覆蓋常用的手勢(shì)音節(jié)結(jié)構(gòu),從手語句子過渡到下一個(gè)句子的短暫停用“X”表示。由于對(duì)于視頻而言,成語或寓言故事是相對(duì)獨(dú)立的單元,因此我們?cè)趧澐秩齻€(gè)語料集合時(shí)保證不同集合的數(shù)據(jù)來自于不同的故事。
預(yù)訓(xùn)練RBM時(shí)每次更新參數(shù)都運(yùn)行一次Gibbs采樣,每一層迭代次數(shù)為30次,微調(diào)時(shí)反向傳播算法迭代的次數(shù)上限為250次,同時(shí)權(quán)值約束系數(shù)均為0.1。DAE層數(shù)設(shè)置為兩層,且第二層維數(shù)設(shè)為500,以便壓縮數(shù)據(jù),同時(shí)傳送到第三層RBM網(wǎng)絡(luò),最后用邏輯斯特層輸出手語句子的最大個(gè)數(shù)要求12個(gè)。對(duì)此,模型的參數(shù)定義如表1所示,其中L1和L2正則化權(quán)重為0.1。
表1 模型參數(shù)列表
模型正確率對(duì)比的結(jié)果如表2所示。
從結(jié)果上看,與預(yù)想差異不大,因?yàn)锽P神經(jīng)網(wǎng)絡(luò)對(duì)語言關(guān)聯(lián)模式的處理能力 不 強(qiáng),因 此 效 果最差。同時(shí)與其他模型相比,條件隨機(jī)場(chǎng)識(shí)別效果不明顯,這說明提取的音韻特征對(duì)提升效果幫助不大,不是一個(gè)有效的特征。隨著特征維數(shù)的增大,HMM和條件隨機(jī)場(chǎng)的識(shí)別正確率隨之上升,說明這兩種模型對(duì)近距離的音韻參數(shù)處理得較好?;谝粝祵W(xué)模型的手語理解算法通過模仿人腦認(rèn)知,能夠提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的手語視頻等豐富結(jié)構(gòu)數(shù)據(jù)的本質(zhì)特征,并且用到了混合深度神經(jīng)網(wǎng)絡(luò),綜合了組成神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),效果優(yōu)于其他模型。圖4分別顯示了第一層隱節(jié)點(diǎn)數(shù)量為2 016、2 688、3 360時(shí)的預(yù)測(cè)誤差曲線,可以看到,隨著節(jié)點(diǎn)數(shù)的增大,過擬合現(xiàn)象較嚴(yán)重。
表2 各模型正確率對(duì)比
圖4 誤差預(yù)測(cè)曲線
訓(xùn)練好 DAE 后,用其各層之間的權(quán)值來初始化上一節(jié)中的深度網(wǎng)絡(luò),然后傳到RBM時(shí),再利用BP反向傳播算法訓(xùn)練該深度網(wǎng)絡(luò)。由此得到每個(gè)epoch對(duì)應(yīng)的訓(xùn)練時(shí)間如圖5(a)所示,最終得到的分類效果如圖5(b)所示。
圖5 epoch訓(xùn)練時(shí)間及分類效果
網(wǎng)絡(luò)各層之間的參數(shù)對(duì)應(yīng)的參數(shù)更新平均值隨 epoch 變化趨勢(shì)如圖6所示,由此可以看出權(quán)值更新率也是個(gè)重要的參數(shù),不能太小,否則會(huì)導(dǎo)致收斂過慢;也不能太大,否則會(huì)造成網(wǎng)絡(luò)不穩(wěn)定。
圖6 權(quán)值更新率變化曲線
由圖可見,深度神經(jīng)網(wǎng)絡(luò)的梯度擴(kuò)散問題有一定的改善。這說明把混合神經(jīng)網(wǎng)絡(luò)采用去噪自編碼器的無監(jiān)督學(xué)習(xí)得到的各層參數(shù)作為深度網(wǎng)絡(luò)的初始值,能夠很好地迭代收斂,從而獲得很好的分類效果。在訓(xùn)練和測(cè)試時(shí),記錄隨著混合神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間的增加正確率的變化規(guī)律。從圖5(b)可以看出,隨著訓(xùn)練迭代次數(shù)的增長,訓(xùn)練樣本和測(cè)試樣本的識(shí)別率都會(huì)增長,最后趨于穩(wěn)定,到達(dá)80次的時(shí)候,訓(xùn)練樣本的正確率還會(huì)繼續(xù)輕微的提高;由于訓(xùn)練過擬合的原因,測(cè)試集正確率開始輕微下降,這也是混合神經(jīng)網(wǎng)絡(luò),包括去噪自編碼器模型的一個(gè)特點(diǎn),不是訓(xùn)練時(shí)間越長,測(cè)試結(jié)果就越好。
根據(jù)以上分析,我們認(rèn)為這種基于音系學(xué)模型的手語理解算法還有改進(jìn)的空間,雖然效果優(yōu)于其他對(duì)比的模型,但可能是因?yàn)槭终Z相比口語,語法相對(duì)簡單,很少見到長難句。手語與有聲語言不同,漢語拼音轉(zhuǎn)化為漢字時(shí),存在著很多同音字,導(dǎo)致消歧困難,需要利用語境和各類知識(shí)。而手語也存在著同音現(xiàn)象,但手語可通過非手動(dòng)特征來幫助消歧,并不需要過多的利用語境和世界知識(shí)。我們推測(cè),手形、運(yùn)動(dòng)、位置這些參數(shù)在識(shí)別同音手勢(shì)時(shí)并不起主要作用,而起決定作用的是非手動(dòng)特征,它也恰恰是最復(fù)雜的特征。因?yàn)榉鞘謩?dòng)特征包括面部表情和肢體動(dòng)作,而面部表情又包括眉毛、嘴巴、臉頰等表情,當(dāng)然引入非手動(dòng)特征后,在這種情況下,中國手語理論上可組成無限個(gè)音韻特征,計(jì)算代價(jià)龐大,下一步需要解決這個(gè)問題。此外,手勢(shì)的復(fù)雜程度分布不均勻,若能將音韻信息的頻率引入到監(jiān)督信息中,可提高模型的識(shí)別準(zhǔn)確率。因此,改進(jìn)神經(jīng)網(wǎng)絡(luò)的損失函數(shù),使每一維的監(jiān)督信息不再平等區(qū)分,這也是下一步要解決的問題。
本文提出的先標(biāo)注后文本的思路,是直接從語言學(xué)的角度得出手語文本,因此無論是靜態(tài)手勢(shì),還是動(dòng)態(tài)手勢(shì),其識(shí)別率都明顯高于基于計(jì)算機(jī)視覺的識(shí)別率。我們提出的技術(shù)驗(yàn)證了手語智能認(rèn)知的可行性與準(zhǔn)確性,下一步的研究目標(biāo)是提高識(shí)別速度,縮短響應(yīng)時(shí)間。今后將繼續(xù)進(jìn)行手勢(shì)識(shí)別訓(xùn)練的樣本獲取工作,擴(kuò)充手語語料庫的樣本數(shù),并將面部表情等非手動(dòng)特征與手部動(dòng)作結(jié)合起來,從而進(jìn)行多感知機(jī)的語言認(rèn)知計(jì)算領(lǐng)域深層次問題的研究。
[1]Stokoe W C. Sign language structure: An outline of the visual communication systems of the American deaf [J]. Studies in Linguistics: Occasional Papers, 1960, 8: 3-37.
[2]Vogler C, Metaxas D. Parallel hidden Markov models for American Sign Language recognition[C]//Proceedings of the IEEE International Conference on Computer Vision , Corfu, Greece: IEEE press. 1999, 1:116-122.
[3]Lichtenauer J, Hendriks E, Reinders M. Learning to recognize a sign from a single example [C]//Proceedings of 2008 the 8th IEEE International Conference on Automatic Face & Gesture Recognition (FG’08). Amsterdam, Netherlands: IEEE Press, 2008: 1-6.
[4]Bowden R, Windridge D, Kadir T, et al. A linguistic feature vector for the visual interpretation of sign language [C]//Proceedings of the European Conference on Computer Vision, 2004. Springer Berlin Heidelberg, 2004: 390-401.
[5]Kadir T, Bowden R, Ong E J, et al. Minimal Training, Large Lexicon, Unconstrained Sign Language Recognition [C]//Proceedings of the British Machine Vision Conference, London, UK. 2004: 1-10.
[6]Cooper H, Bowden R. Large lexicon detection of sign language[M]. Human-Computer Interaction. Springer Berlin Heidelberg, 2007: 88-97.
[7]Jantunen T, Takkinen R. Syllable structure in sign language phonology[M]. Brentari(ed.). Sign Languages. Cambridge: Cambridge University Press, 2010: 312-331.
[8]吳軍,王作英. 一種基于語言理解的輸入方法--智能拼音輸入方法 [J]. 中文信息學(xué)報(bào), 1996, 10(2): 56-61.
[9]Valli C, Lucas C. Linguistics of American Sign Language: An introduction [M]. Gallaudet University Press. 2000.
[10]Liddell S K, Johnson R E. American Sign Language compound formation processes, lexicalization, and phonological remnants [J]. Natural Language & Linguistic Theory, 1986, 4(4): 445-513.
[11]Bengio Y. Learning deep architectures for AI[J]. Foundations and trends in Machine Learning, 2009, 2(1): 1-127.
[12]Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances in neural information processing systems, 2007, 19: 153.
[13]Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion [J]. The Journal of Machine Learning Research, 2010, 11: 3371-3408.
[14]Bengio Y, Yao L, Alain G, et al. Generalized denoising auto-encoders as generative models [M]. Advances in Neural Information Processing Systems. 2013: 899-907.
[15]Salakhutdinov R, Hinton G. Semantic hashing [J]. International Journal of Approximate Reasoning, 2009, 50(7): 969-978.
[16]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]//Proceedings of the 25th international conference on Machine learning. Helsink: ACM Press, 2008: 1096-1103.
[17]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.
[18]Tieleman T. Training restricted Boltzmann machines using approximations to the likelihood gradient [C]//Proceedings of the 25th international conference on Machine learning. Helsink: ACM Press, 2008: 1064-1071.