基于音系學(xué)模型的手語理解

2018-04-04 01:12姚登峰江銘虎阿布都克力木阿布力孜李晗靜哈里旦木阿布都克里木

中文信息學(xué)報(bào) 2018年1期

姚登峰，江銘虎，阿布都克力木·阿布力孜，李晗靜，哈里旦木·阿布都克里木

(1. 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室(北京聯(lián)合大學(xué))，北京 100101；2. 清華大學(xué) 人文學(xué)院計(jì)算語言學(xué)實(shí)驗(yàn)室、心理學(xué)與認(rèn)知科學(xué)研究中心，北京100084；3. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室，北京100084)

正如語音識(shí)別需要語言計(jì)算理論一樣，手語識(shí)別也需要手語計(jì)算的知識(shí)，因此它是手勢(shì)動(dòng)作識(shí)別和手語含義識(shí)別理解的綜合。長期以來，手語識(shí)別理解缺乏手語語言學(xué)家的參與，并未取得較大的進(jìn)展。本文深入研究了手語理解的問題，從語言學(xué)的角度，提出在音系學(xué)層面上進(jìn)行手語理解，基于此提出了基于音系學(xué)模型的手語理解算法。

1　基于語言學(xué)特征的手勢(shì)理解綜述

目前手勢(shì)識(shí)別研究基本都參考了Stokoe理論。1960年Stokoe提出手勢(shì)(同時(shí))由三個(gè)部分(參數(shù))組成，包括手勢(shì)位置、手形，及運(yùn)動(dòng)[1]。20世紀(jì)70年代初期語言學(xué)家給這三個(gè)參數(shù)增加了一個(gè)要素：方向，之后語言學(xué)者大都采用這四個(gè)參數(shù)的說法。

Vogler與Metaxas在Stokoe模型的基礎(chǔ)上提出了PaHMMs[2]。此后手語識(shí)別文獻(xiàn)使用Stokoe提出的語言學(xué)特征，主要是基于少量樣本來學(xué)習(xí)新手勢(shì)。Lichtenauer等人為未登錄手勢(shì)提出一種自動(dòng)構(gòu)建分類器的方法[3]，通過收集很多手勢(shì)者的手勢(shì)特征，與新手勢(shì)的特征進(jìn)行比較，從而為目標(biāo)新手勢(shì)構(gòu)建分類器模型。這種方法依賴于大量的基礎(chǔ)特征訓(xùn)練集(75人打出的120個(gè)手勢(shì))，并允許使用一次性學(xué)習(xí)來訓(xùn)練一個(gè)新手勢(shì)分類器。Bowden等人還提出使用一個(gè)訓(xùn)練樣本就能正確分類新手勢(shì)的手語識(shí)別系統(tǒng)[4]，并給出了一個(gè)單一的訓(xùn)練例子。他們的方法使用了二級(jí)分類器，其中一級(jí)使用硬編碼分類器來檢測(cè)手形、布局、運(yùn)動(dòng)和位置。在應(yīng)用動(dòng)態(tài)分類手勢(shì)前，二級(jí)使用了ICA(independent component analysis)從一級(jí)得到的34維特征向量消除噪聲，在少量訓(xùn)練實(shí)例和缺乏語法知識(shí)的情況下獲得了很好的效果。Kadir等人擴(kuò)展了前述工作，并基于Boosting級(jí)聯(lián)弱分類器以軀干為中心的描述特征(將運(yùn)動(dòng)規(guī)格化為二維空間)來檢測(cè)頭部和手部，然后使用二級(jí)分類器，其中一級(jí)分類器生成語言學(xué)特征向量，二級(jí)分類器在馬爾可夫鏈上使用Viterbi算法來獲取最高識(shí)別概率[5]。Cooper 與Bowden延續(xù)了這項(xiàng)工作，使用了分類器集合來檢測(cè)訓(xùn)練樣本和分類樣本的手勢(shì)特征[6]，將這些特征組合作為二級(jí)分類器的輸入，使用了一階馬爾可夫假設(shè)。

這些文獻(xiàn)表明：基于Stokoe的語言學(xué)特征，其手語識(shí)別率等同于基于圖形學(xué)特征的識(shí)別率。這顯然有違于引進(jìn)語言學(xué)特征的初衷，其根本原因在于Stokoe模型認(rèn)為包括手形、運(yùn)動(dòng)、位置等在內(nèi)的音系參數(shù)是同時(shí)出現(xiàn)的。也就是說手形、移動(dòng)、位置、方向和非手動(dòng)特征是同時(shí)表達(dá)出來的，這樣一個(gè)手勢(shì)就可以立即表征出來。然而在有聲語言中聲音是線性連續(xù)的，因此手語也應(yīng)與有聲語言一樣，是手勢(shì)的序列性表達(dá)(sequential presentation)。我們認(rèn)為手勢(shì)可同時(shí)結(jié)合序列性和同時(shí)性，這就需要一個(gè)合適的音系學(xué)模型來表達(dá)手語的序列性和同時(shí)性。大量跨手語語言的語料證明手語中存在音節(jié)結(jié)構(gòu)[7]。為此，我們先進(jìn)行音韻參數(shù)感知加工，在此基礎(chǔ)上提出改進(jìn)的音系學(xué)模型，即增強(qiáng)運(yùn)動(dòng)—保持模型。

2　音韻參數(shù)感知加工

最近涌現(xiàn)出的3D體感設(shè)備為手勢(shì)感知?jiǎng)?chuàng)造了可能，這種設(shè)備是利用3D體感攝像頭來獲取目標(biāo)的圖像信息，通常是目標(biāo)的深度和紅外圖像信息。它借鑒了人眼的認(rèn)知原理，將傳統(tǒng)的2D物體轉(zhuǎn)換到3D空間。通過這種3D體感設(shè)備可以計(jì)算出位置、手形、方向、運(yùn)動(dòng)、非手動(dòng)特征五個(gè)參數(shù)，這五個(gè)參數(shù)本身就是手語語言學(xué)里的音韻特征，相比較口語的語音識(shí)別，這些物理特征可憑視覺直觀感受到。感知階段，體感設(shè)備在計(jì)算音韻特征時(shí)，可先計(jì)算手部位置、方向、運(yùn)動(dòng)等手動(dòng)特征，再計(jì)算眉毛、眼睛、嘴部、頭部等非手動(dòng)特征，這是一個(gè)從粗粒度音韻特征到細(xì)粒度特征的計(jì)算過程，符合人腦對(duì)圖像特征加工的認(rèn)知機(jī)理。

手勢(shì)的手形音韻參數(shù)，則由Leap Motion給出的每個(gè)手掌關(guān)節(jié)點(diǎn)的3D坐標(biāo)值計(jì)算得到，這里總共統(tǒng)計(jì)了69個(gè)手形。粗粒度的音韻參數(shù)如位置、方向、運(yùn)動(dòng)三個(gè)特征可由Kinect或Leap Motion計(jì)算得到，以Kinect為例，位置是根據(jù)Kinect給出的深度信息和3D坐標(biāo)返回的兩個(gè)參數(shù)確定的，第一個(gè)參數(shù)是判斷手部是否與身體接觸，分別有接觸、正常位置、遠(yuǎn)離身體三個(gè)值；第二個(gè)參數(shù)是判斷手部在身體的位置，通常有頭頂、太陽穴、耳部、頭額等28個(gè)值。其中眉毛是根據(jù)Kinect給出的深度信息和3D坐標(biāo)來判斷眉毛是否上揚(yáng)，分別有三個(gè)值，以此來判斷手勢(shì)者的情緒，由于眉毛變化通常伴隨著眼睛、嘴部、頭部和肢體的變化，為減少計(jì)算工作量，我們只將眉毛作為主要特征，其他作為次要特征。在判斷主要特征眉毛上揚(yáng)時(shí)，還需要驗(yàn)證次要特征，如眼睛是否變寬變大，頭部和身體是否前傾，亦或肩部是否提起，在確認(rèn)為疑問句后，再判斷是否有雙眼斜視(反問句沒有雙眼斜視)、頭部是否擺動(dòng)(一般疑問句沒有頭部擺動(dòng))等特征。

為了減少計(jì)算工作量，以Leap Motion為例，實(shí)際每秒只計(jì)算三個(gè)幀，即編號(hào)為1、145、289的幀，以幀為單位返回原始數(shù)據(jù)，以這些原始數(shù)據(jù)計(jì)算每一幀的返回參數(shù)為(LA，LB，LC，LD，RA，RB，RC，RD，T)，其中具體參數(shù)值見圖1，這樣手勢(shì)“你”某一時(shí)刻返回的幀參數(shù)為(0,0,0,0,1,7,1,4,64320)，即某一時(shí)刻該右手手勢(shì)位于中性空間(不與胸部接觸的空間)，為數(shù)字1手形，正從后向前運(yùn)動(dòng)，手掌方向從左到右，該幀的時(shí)刻為00:01:43:20，其中四個(gè)0表示Leap Motion未檢測(cè)到左手，返回左手的四個(gè)音韻參數(shù)均為0。為了切分方便，M音段的第一個(gè)音韻參數(shù)位置以中間幀的位置為準(zhǔn)，第二個(gè)音韻參數(shù)手形以最后一幀的手形為準(zhǔn)，第三個(gè)音韻參數(shù)運(yùn)動(dòng)可用當(dāng)前幀(F)與上一幀(F-1)的差值表示當(dāng)前幀的變化量，具體以手掌中心坐標(biāo)(Palm Position)的變化來表示，第四個(gè)音韻參數(shù)是手掌方向，需計(jì)算M音段最后幀的手掌，由六個(gè)點(diǎn)組成的平面垂直向量(Palm Normal)來表示。

圖1　感知階段音韻特征的具體值

3　基于音韻參數(shù)的手勢(shì)理解算法

上個(gè)階段得到的標(biāo)注文本就是手語的音韻信息，本階段任務(wù)是從這些音韻信息得到手語文本(以中文作為編碼系統(tǒng)，按照手語語法得到的文本)。根據(jù)這五個(gè)參數(shù)得到手勢(shì)文本，本質(zhì)上屬于從拼音到漢字、從英語音標(biāo)到英語單詞的轉(zhuǎn)換。因此從第一階段自動(dòng)標(biāo)注好的音韻信息推斷出手語文本類似于從連續(xù)的漢語拼音推斷出漢語句子文本，或者從連續(xù)的英語音標(biāo)推斷出英語文本。手語音韻信息到文本轉(zhuǎn)換的流程，與有聲語言的傳統(tǒng)標(biāo)注技術(shù)相反，有聲語言標(biāo)注是先得到文本，再對(duì)文本進(jìn)行拼音、詞性等標(biāo)注工作。

3.1　手勢(shì)音韻信息——手語文本轉(zhuǎn)換的難點(diǎn)

有聲語言的同音字現(xiàn)象很常見，以漢語為例，若不考慮聲調(diào)，新華字典里有7 536個(gè)同音字，大約占10%，平均每個(gè)讀音就有18.29個(gè)漢字，如此高的比例給漢字消歧帶來了很大的困難[8]。關(guān)于同音手勢(shì)，目前未看到有關(guān)報(bào)道。本文對(duì)自建的中國手語語料庫做了統(tǒng)計(jì)，手語的同音手勢(shì)占所有手勢(shì)的46.86%，幾乎占了一半。其中以詞頻統(tǒng)計(jì)，常用的同音手勢(shì)占了41.37%，不常見的同音手勢(shì)占了5.23%。因此手語與有聲語言相比，同音情況更多、更復(fù)雜，其同音手勢(shì)識(shí)別問題是音韻標(biāo)注到文本轉(zhuǎn)換問題的關(guān)鍵。

手語文本采用的中文編碼是普通話的書寫系統(tǒng)，具有表音和表意兩方面的特點(diǎn)。而漢語拼音本身就是語音的書面符號(hào)，具有表音的作用，因此從漢語拼音得到漢字序列，雖然需要分析形、音、義等多方面信息，以及這些信息的綜合判斷，但畢竟存在著音的關(guān)系。而手勢(shì)音韻信息是以手部為發(fā)音器官，從音系學(xué)角度得到的發(fā)音特征，它畢竟不同于國際音標(biāo)或者西文的拼音文字，從手語音韻特征到口語的書面系統(tǒng)轉(zhuǎn)換完全不存在任何關(guān)系。尤其是手語中分類詞謂語(手語獨(dú)有的語言學(xué)現(xiàn)象，有聲語言里沒有)不是一個(gè)真正的手勢(shì)，不受手語音系學(xué)里對(duì)稱性和支配性等這些限制條件的影響[9]。這樣，包括分類詞謂語在內(nèi)的很多手勢(shì)，其音韻結(jié)構(gòu)較為復(fù)雜，沒法用1～2個(gè)中文單詞來標(biāo)注。因此相對(duì)漢語口語，我們要完成的從手語音韻信息到手語文本的轉(zhuǎn)換任務(wù)是一個(gè)難度更大的消歧任務(wù)。把手語的音韻信息轉(zhuǎn)化為口語文本，要弄清楚手語音韻學(xué)、句法學(xué)和形態(tài)學(xué)等獨(dú)有的規(guī)律和特征。漢語是聾人的第二語言，與漢語語法相比，手語句子并不規(guī)范，其手語語法尚未規(guī)范化，再加上手語本身形態(tài)變化更為復(fù)雜，且每個(gè)手勢(shì)的復(fù)雜程度分布很不均勻，根據(jù)自建手語語料庫統(tǒng)計(jì)，平均每個(gè)手勢(shì)需要2～6個(gè)漢字來表述，但有些手勢(shì)最多需要62個(gè)漢字才能表述其完整的意義。如前所述，在手語中同音手勢(shì)的情況比有聲語言更為常見，但是每個(gè)手勢(shì)對(duì)應(yīng)的候選詞匯一般為4～8個(gè)，與漢語拼音基本相同。形態(tài)變化再加上候選詞匯眾多，將兩者綜合，使消歧難度比單純的從拼音到漢字轉(zhuǎn)換更大，因此手語本身的形態(tài)、語法是影響手語音韻信息到手語文本的轉(zhuǎn)換準(zhǔn)確率的重要因素，也是實(shí)現(xiàn)從手勢(shì)音韻信息到漢字文本轉(zhuǎn)換的根本問題所在。

3.2　手語音系學(xué)的改進(jìn)模型

Liddell 等人提出了運(yùn)動(dòng)-保持模型(movement-hold model)[10]，該模型認(rèn)為手勢(shì)由保持(hold)音段和運(yùn)動(dòng)(movement)音段(phonological segments)構(gòu)成，它們按序列生成。關(guān)于手形、位置、方向和非手動(dòng)特征的信息通過每個(gè)單元一系列發(fā)音特征表現(xiàn)出來。這些特征類似于口語發(fā)聲。保持音段定義為所有發(fā)音以穩(wěn)定狀態(tài)呈現(xiàn)的時(shí)間，而運(yùn)動(dòng)音段則定義為多個(gè)發(fā)音變換的時(shí)間，即一次至少一個(gè)參數(shù)發(fā)生變化，可能只有一個(gè)手形或位置參數(shù)的變化，也有可能是手形和位置兩個(gè)參數(shù)同時(shí)變化，這些變化就在運(yùn)動(dòng)音段內(nèi)發(fā)生。這種說法與Stokoe認(rèn)為手勢(shì)參數(shù)同時(shí)生成的說法完全不同，但是與口語音段結(jié)構(gòu)的說法一致。運(yùn)動(dòng)-保持模型解決了Stokoe模型的描述性問題。這套系統(tǒng)能夠有效描述序列，還能提供足夠多的手語描述細(xì)節(jié)，并清楚地描述和解釋無數(shù)個(gè)發(fā)生在手語中的手勢(shì)過程。

本文為了音節(jié)切分方便，對(duì)運(yùn)動(dòng)-保持模型(movement-hold model)進(jìn)行了改進(jìn)，命名為增強(qiáng)運(yùn)動(dòng)-保持模型(enhanced movement-hold model)，不考慮運(yùn)動(dòng)和保持兩個(gè)音位音段約各占一半時(shí)間的劃分，只考慮手勢(shì)者在打出手勢(shì)時(shí)，最開始手部是置于軀干兩側(cè)或者放平靜止不動(dòng)，手勢(shì)的四個(gè)音韻參數(shù)(手形、運(yùn)動(dòng)、位置和方向)均沒有變化，這時(shí)以H音段開始，接著手部到達(dá)手勢(shì)初始位置時(shí)，為M音段+H音段，即任何手勢(shì)句子開始時(shí)，都是以HMH音段為開始，此后手勢(shì)只要有一個(gè)參數(shù)發(fā)生變化，即可定義為M音段，運(yùn)動(dòng)停止時(shí)，即可定義為H音段。根據(jù)這種改進(jìn)的增強(qiáng)運(yùn)動(dòng)-保持模型(nhanced movement-hold model)，在中國手語中單個(gè)手勢(shì)的保持和運(yùn)動(dòng)組合可能有： HMH、MMH、HMHMMH、HMH、MHMMH、MMHH、HMHMHMHMH等28種組合。若不考慮書空(指在空氣中書寫漢字，是中國手語的一種構(gòu)詞方式)等復(fù)雜情況，可能的組合可下降到12種。由此可見，并非所有手勢(shì)都是保持-運(yùn)動(dòng)-保持(HMHMH)結(jié)構(gòu)。在大多數(shù)情況下，HMHMH型音節(jié)在中國手語中的分布非常廣泛。不同音段結(jié)構(gòu)反映了意義上的差異，如快(HMHMH)和速度(HMHMMMMH)之間的音段結(jié)構(gòu)差異。我們?cè)诜治鲋袊终Z音段切分時(shí)，發(fā)現(xiàn)中國手語與漢語口語一樣，連續(xù)手勢(shì)序列并不是單個(gè)音節(jié)的簡單組合，手語句子里每個(gè)手勢(shì)組成部分以不同順序組織，而且相互影響。因?yàn)槭軈f(xié)同發(fā)音、韻律等因素的影響，手語也存在音變現(xiàn)象，從而導(dǎo)致連續(xù)手勢(shì)序列與單獨(dú)的手勢(shì)音節(jié)有很大的不同。流暢手語是每秒2～3個(gè)手勢(shì)，比較慢，每句最長不超過12個(gè)手勢(shì)音節(jié)。此外，手勢(shì)者的表達(dá)手語的風(fēng)格不同，并且手勢(shì)者之間也存在音變的個(gè)體差異。本文以文獻(xiàn)[9]為依據(jù)，目前已發(fā)現(xiàn)中國手語有四個(gè)音變，分別是運(yùn)動(dòng)增音(movement epenthesis)、保持缺失(hold deletion)、音位轉(zhuǎn)換(metathesis)和同化(assimilation)。我們發(fā)現(xiàn)中國手語音節(jié)切分比漢語口語音節(jié)切分更為簡單，至少某個(gè)手勢(shì)過渡到下一個(gè)手勢(shì)發(fā)生音變時(shí)，只是MH的前后序列發(fā)生了變化，并且這些變化仍能被體感設(shè)備感應(yīng)到，沒有超出運(yùn)動(dòng)-保持模型的范圍。根據(jù)以上理論，我們可以根據(jù)圖2得到以下例子。

漢語句子：我自從出生以來，沒去過天安門。

手語句子：成長(指從小到大)天-安-門沒。

音韻特征序列： HMHMH M HMMMMH M HMH M HMH M HMH

實(shí)際數(shù)據(jù)序列： H(0,0,0,0,26,25,21,5)M(0,0,0,0,26,25,5,2)H(0,0,0,0,24,25,21,2)M(0,0,0,0,24,25,27,2)H(0,0,0,0,4,25,49,2) M(0,0,0,0,4,25,19,5)H(0,0,0,0,5,7,21,5)M(0,0,0,0,5,7,11,5)M(0,0,0,0,5,7,11,5)M(0,0,0,0,5,7,11,5)M(0,0,0,0,5,7,11,5)H(0,0,0,0,5,7,21,5)M(0,0,0,0,16,49,19,2)H(0,0,0,0,2,49,21,2)M(0,0,0,0,26,49,26,2)H(0,0,0,0,18,49,21,2)M(18,49,21,3,18,49,21,3)H(4,49,21,3,4,49,21,3)M(2,49,10,3,2,49,10,3)H(2,49,21,3,2,49,21,3)M(2,12,21,6,2,12,21,5)H(2,12,21,6,2,12,21,5)M(26,25,26,6,26,25,26,5) H(26,25,21,6,26,25,21,5)

圖2　手勢(shì)句子“成長天安門沒”

3.3　手勢(shì)理解與消歧

消歧的重點(diǎn)在于手勢(shì)音韻信息及手語語法、語用信息的特征提取，我們考慮使用深層網(wǎng)絡(luò)結(jié)構(gòu)，深層結(jié)構(gòu)具有較強(qiáng)的學(xué)習(xí)能力來獲取特征，在圖像識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用。很多文獻(xiàn)表明構(gòu)造深層神經(jīng)網(wǎng)絡(luò)時(shí)需要注重模型的混合搭配，這樣才能實(shí)現(xiàn)模擬大腦的工作機(jī)理，即在輸入原始數(shù)據(jù)時(shí)，每處理一層，提取的概念特征便抽象一些[11]。為此，在構(gòu)建底層網(wǎng)絡(luò)時(shí)，我們采用了帶噪聲的自動(dòng)編碼器(denoise auto-encoder，DAE) ，目的是通過非線性組合高維底層特征，學(xué)習(xí)到低維抽象特征。我們希望利用DAE來提取未發(fā)現(xiàn)的特征，完成手勢(shì)音韻信息和語法語用信息的特征提取。接著使用受限玻爾茲曼機(jī)(restricted boltzmann machines，RBM),進(jìn)一步自動(dòng)學(xué)習(xí)更抽象、更有效的高層特征，繼而采用BP算法更新整個(gè)網(wǎng)絡(luò)的權(quán)重，對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。最終用多元Logistic分類模型(multi-class logistic classifier, MLC) 進(jìn)行分類，這是因?yàn)榻?jīng)過前兩個(gè)網(wǎng)絡(luò)構(gòu)建后數(shù)據(jù)訓(xùn)練已基本完成。該混合神經(jīng)網(wǎng)絡(luò)以每個(gè)待處理的手語音韻信息序列作為輸入，依靠深度學(xué)習(xí)強(qiáng)大的無監(jiān)督學(xué)習(xí)特征的能力[12-15]，在多層隱層中進(jìn)行逐層訓(xùn)練學(xué)習(xí)，以獲取音韻信息的抽象表示，最后將產(chǎn)生的特征通過分類器得到可能性最高的手語文本，從而完成音韻信息到手語文本的轉(zhuǎn)換工作。因此我們提出的模型如圖3所示。

圖3　智能認(rèn)知的基礎(chǔ)——混合深層神經(jīng)網(wǎng)絡(luò)

只要設(shè)計(jì)的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)合理，便可從感知階段得到的音韻信息中提取出對(duì)手語文本分類幫助較大的特征，從而解決手語音韻參數(shù)到手語文本的轉(zhuǎn)換問題。圖3中輸入層X輸入感知階段得到的手勢(shì)音韻特征序列，將手語文本作為這種混合深層神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)。基礎(chǔ)模塊第一層和第二層均采用了常規(guī)DAE模型[16]，其原型是自編碼神經(jīng)網(wǎng)絡(luò)(auto-encoder，AE)，該網(wǎng)絡(luò)通過一種盡可能復(fù)現(xiàn)輸入信號(hào)的無監(jiān)督學(xué)習(xí)算法完成網(wǎng)絡(luò)的預(yù)訓(xùn)練。

(1)

與此DAE模型不同的是，本文采取的方法除了選取部分?jǐn)?shù)據(jù)強(qiáng)制變?yōu)?以外，也隨機(jī)挑選了一定比例的數(shù)據(jù)強(qiáng)制變?yōu)?，目的是保證模型免受無關(guān)輸入或者個(gè)性化音韻信息的影響，消除音韻信息的不規(guī)范性。

在獲取特征后，我們使用了深度信念網(wǎng)絡(luò)(deep belief network，DBN)實(shí)現(xiàn)去噪自編碼器的輸出數(shù)據(jù)的降維[17]。這里采用了兩層RBM，RBM是一個(gè)基于統(tǒng)計(jì)力學(xué)的概率圖生成模型，可以自動(dòng)從訓(xùn)練集里提取高階抽象的特征，并且提供較好的神經(jīng)網(wǎng)絡(luò)初始權(quán)值，這樣就可以把權(quán)值控制在對(duì)全局訓(xùn)練最有利的范圍內(nèi)，從而降低對(duì)學(xué)習(xí)目標(biāo)過擬合的風(fēng)險(xiǎn)。預(yù)訓(xùn)練時(shí)，可采取對(duì)比散度算法變形進(jìn)行近似求解，即通過最小化兩個(gè)散度的不同來進(jìn)行預(yù)訓(xùn)練[18]，以得到模型參數(shù)。具體是運(yùn)行若干次Gibbs采樣，得到足夠多的樣本，然后通過計(jì)算平均值來求出歸一化常數(shù)。由于RBM訓(xùn)練過程與維度無關(guān)，所以可以利用RBM對(duì)數(shù)據(jù)進(jìn)行有效的投影，之后在最頂層加上邏輯斯蒂克模型作為分類器，對(duì)輸出層的結(jié)果做排序，排序靠前的手語文本即為該深層混合神經(jīng)網(wǎng)絡(luò)對(duì)手語音韻信息轉(zhuǎn)換的預(yù)測(cè)結(jié)果。

最后是模型的微調(diào)，這里使用BP算法更新整個(gè)網(wǎng)絡(luò)的權(quán)值，對(duì)混合神經(jīng)網(wǎng)絡(luò)的性能做調(diào)整。由于BP算法本身的缺陷，使用時(shí)需要注意訓(xùn)練過程，要找到合理的初始值，否則容易陷入局部極小值。

4　實(shí)驗(yàn)

4.1　實(shí)驗(yàn)準(zhǔn)備

為了驗(yàn)證以上基于音系學(xué)模型的手語理解算法，我們使用體感設(shè)備LeapMotion做了先行驗(yàn)證，本文硬件實(shí)驗(yàn)環(huán)境為：Intel酷睿i7-4770s@3.7GHz四核CPU，16GB內(nèi)存，IntelHDGraphics4600顯卡。首先基于LeapMotion，選擇Unity3D4.10作為實(shí)現(xiàn)平臺(tái)，開發(fā)了一個(gè)中國手語手勢(shì)音韻特征采集系統(tǒng)，可實(shí)現(xiàn)簡單的手勢(shì)識(shí)別功能，重點(diǎn)是采集手形、運(yùn)動(dòng)、位置、方向這四個(gè)參數(shù)，不采集非手動(dòng)特征。

請(qǐng)三名聾生作為被試，以人民郵電出版社出版的《成語故事》(陳敏編)和人民文學(xué)出版社出版的《中國現(xiàn)代寓言故事》(安武林編)這兩本書為故事來源，要求聾生閱讀后，用自己的手語語言表達(dá)一遍，并要求盡量在水平方向打出手勢(shì)，盡量減少握拳或垂直方向手勢(shì)識(shí)別出現(xiàn)的誤差。因此得到的龜兔賽跑、守株待兔、草木皆兵等故事視頻，雖然其意思大致相同，但采集到的音韻特征序列大不相同。拍攝視頻時(shí)，對(duì)于每個(gè)手勢(shì)者，要求打出手勢(shì)的速度為2～3個(gè)手勢(shì)/秒，盡量在5min之內(nèi)表達(dá)完整的句子或段落意思。這樣后期就可以切割成每段5min的視頻文件，每兩段視頻文件之間沒有交集。經(jīng)LeapMotion同步采集后，經(jīng)過整理可得到400個(gè)音韻特征標(biāo)注語料。為了完成實(shí)驗(yàn)，我們將這些標(biāo)注后的音韻特征文件分為三部分：300個(gè)語料文件作為訓(xùn)練集，50個(gè)語料文件作為驗(yàn)證集，剩下50個(gè)語料文件作為測(cè)試集。音韻特征覆蓋常用的手勢(shì)音節(jié)結(jié)構(gòu)，從手語句子過渡到下一個(gè)句子的短暫停用“X”表示。由于對(duì)于視頻而言，成語或寓言故事是相對(duì)獨(dú)立的單元，因此我們?cè)趧澐秩齻€(gè)語料集合時(shí)保證不同集合的數(shù)據(jù)來自于不同的故事。

4.2　實(shí)驗(yàn)設(shè)置

預(yù)訓(xùn)練RBM時(shí)每次更新參數(shù)都運(yùn)行一次Gibbs采樣，每一層迭代次數(shù)為30次，微調(diào)時(shí)反向傳播算法迭代的次數(shù)上限為250次，同時(shí)權(quán)值約束系數(shù)均為0.1。DAE層數(shù)設(shè)置為兩層，且第二層維數(shù)設(shè)為500，以便壓縮數(shù)據(jù)，同時(shí)傳送到第三層RBM網(wǎng)絡(luò)，最后用邏輯斯特層輸出手語句子的最大個(gè)數(shù)要求12個(gè)。對(duì)此，模型的參數(shù)定義如表1所示，其中L1和L2正則化權(quán)重為0.1。

表1　模型參數(shù)列表

4.3　實(shí)驗(yàn)結(jié)果

模型正確率對(duì)比的結(jié)果如表2所示。

從結(jié)果上看，與預(yù)想差異不大，因?yàn)锽P神經(jīng)網(wǎng)絡(luò)對(duì)語言關(guān)聯(lián)模式的處理能力不強(qiáng)，因此效果最差。同時(shí)與其他模型相比，條件隨機(jī)場(chǎng)識(shí)別效果不明顯，這說明提取的音韻特征對(duì)提升效果幫助不大，不是一個(gè)有效的特征。隨著特征維數(shù)的增大，HMM和條件隨機(jī)場(chǎng)的識(shí)別正確率隨之上升，說明這兩種模型對(duì)近距離的音韻參數(shù)處理得較好?；谝粝祵W(xué)模型的手語理解算法通過模仿人腦認(rèn)知，能夠提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的手語視頻等豐富結(jié)構(gòu)數(shù)據(jù)的本質(zhì)特征，并且用到了混合深度神經(jīng)網(wǎng)絡(luò)，綜合了組成神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)，效果優(yōu)于其他模型。圖4分別顯示了第一層隱節(jié)點(diǎn)數(shù)量為2 016、2 688、3 360時(shí)的預(yù)測(cè)誤差曲線，可以看到，隨著節(jié)點(diǎn)數(shù)的增大，過擬合現(xiàn)象較嚴(yán)重。

表2　各模型正確率對(duì)比

圖4　誤差預(yù)測(cè)曲線

4.4　參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

訓(xùn)練好 DAE 后，用其各層之間的權(quán)值來初始化上一節(jié)中的深度網(wǎng)絡(luò)，然后傳到RBM時(shí)，再利用BP反向傳播算法訓(xùn)練該深度網(wǎng)絡(luò)。由此得到每個(gè)epoch對(duì)應(yīng)的訓(xùn)練時(shí)間如圖5(a)所示，最終得到的分類效果如圖5(b)所示。

圖5　epoch訓(xùn)練時(shí)間及分類效果

網(wǎng)絡(luò)各層之間的參數(shù)對(duì)應(yīng)的參數(shù)更新平均值隨 epoch 變化趨勢(shì)如圖6所示，由此可以看出權(quán)值更新率也是個(gè)重要的參數(shù)，不能太小，否則會(huì)導(dǎo)致收斂過慢；也不能太大，否則會(huì)造成網(wǎng)絡(luò)不穩(wěn)定。

圖6　權(quán)值更新率變化曲線

由圖可見，深度神經(jīng)網(wǎng)絡(luò)的梯度擴(kuò)散問題有一定的改善。這說明把混合神經(jīng)網(wǎng)絡(luò)采用去噪自編碼器的無監(jiān)督學(xué)習(xí)得到的各層參數(shù)作為深度網(wǎng)絡(luò)的初始值，能夠很好地迭代收斂，從而獲得很好的分類效果。在訓(xùn)練和測(cè)試時(shí)，記錄隨著混合神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間的增加正確率的變化規(guī)律。從圖5(b)可以看出，隨著訓(xùn)練迭代次數(shù)的增長，訓(xùn)練樣本和測(cè)試樣本的識(shí)別率都會(huì)增長，最后趨于穩(wěn)定，到達(dá)80次的時(shí)候，訓(xùn)練樣本的正確率還會(huì)繼續(xù)輕微的提高；由于訓(xùn)練過擬合的原因，測(cè)試集正確率開始輕微下降，這也是混合神經(jīng)網(wǎng)絡(luò)，包括去噪自編碼器模型的一個(gè)特點(diǎn)，不是訓(xùn)練時(shí)間越長，測(cè)試結(jié)果就越好。

根據(jù)以上分析，我們認(rèn)為這種基于音系學(xué)模型的手語理解算法還有改進(jìn)的空間，雖然效果優(yōu)于其他對(duì)比的模型，但可能是因?yàn)槭终Z相比口語，語法相對(duì)簡單，很少見到長難句。手語與有聲語言不同，漢語拼音轉(zhuǎn)化為漢字時(shí)，存在著很多同音字，導(dǎo)致消歧困難，需要利用語境和各類知識(shí)。而手語也存在著同音現(xiàn)象，但手語可通過非手動(dòng)特征來幫助消歧，并不需要過多的利用語境和世界知識(shí)。我們推測(cè)，手形、運(yùn)動(dòng)、位置這些參數(shù)在識(shí)別同音手勢(shì)時(shí)并不起主要作用，而起決定作用的是非手動(dòng)特征，它也恰恰是最復(fù)雜的特征。因?yàn)榉鞘謩?dòng)特征包括面部表情和肢體動(dòng)作，而面部表情又包括眉毛、嘴巴、臉頰等表情，當(dāng)然引入非手動(dòng)特征后，在這種情況下，中國手語理論上可組成無限個(gè)音韻特征，計(jì)算代價(jià)龐大，下一步需要解決這個(gè)問題。此外，手勢(shì)的復(fù)雜程度分布不均勻，若能將音韻信息的頻率引入到監(jiān)督信息中，可提高模型的識(shí)別準(zhǔn)確率。因此，改進(jìn)神經(jīng)網(wǎng)絡(luò)的損失函數(shù)，使每一維的監(jiān)督信息不再平等區(qū)分，這也是下一步要解決的問題。

5　小結(jié)

本文提出的先標(biāo)注后文本的思路，是直接從語言學(xué)的角度得出手語文本，因此無論是靜態(tài)手勢(shì)，還是動(dòng)態(tài)手勢(shì)，其識(shí)別率都明顯高于基于計(jì)算機(jī)視覺的識(shí)別率。我們提出的技術(shù)驗(yàn)證了手語智能認(rèn)知的可行性與準(zhǔn)確性，下一步的研究目標(biāo)是提高識(shí)別速度，縮短響應(yīng)時(shí)間。今后將繼續(xù)進(jìn)行手勢(shì)識(shí)別訓(xùn)練的樣本獲取工作，擴(kuò)充手語語料庫的樣本數(shù)，并將面部表情等非手動(dòng)特征與手部動(dòng)作結(jié)合起來，從而進(jìn)行多感知機(jī)的語言認(rèn)知計(jì)算領(lǐng)域深層次問題的研究。

[1]Stokoe W C. Sign language structure: An outline of the visual communication systems of the American deaf [J]. Studies in Linguistics: Occasional Papers, 1960, 8: 3-37.

[2]Vogler C, Metaxas D. Parallel hidden Markov models for American Sign Language recognition[C]//Proceedings of the IEEE International Conference on Computer Vision , Corfu, Greece: IEEE press. 1999, 1:116-122.

[3]Lichtenauer J, Hendriks E, Reinders M. Learning to recognize a sign from a single example [C]//Proceedings of 2008 the 8th IEEE International Conference on Automatic Face & Gesture Recognition (FG’08). Amsterdam, Netherlands: IEEE Press, 2008: 1-6.

[4]Bowden R, Windridge D, Kadir T, et al. A linguistic feature vector for the visual interpretation of sign language [C]//Proceedings of the European Conference on Computer Vision, 2004. Springer Berlin Heidelberg, 2004: 390-401.

[5]Kadir T, Bowden R, Ong E J, et al. Minimal Training, Large Lexicon, Unconstrained Sign Language Recognition [C]//Proceedings of the British Machine Vision Conference, London, UK. 2004: 1-10.

[6]Cooper H, Bowden R. Large lexicon detection of sign language[M]. Human-Computer Interaction. Springer Berlin Heidelberg, 2007: 88-97.

[7]Jantunen T, Takkinen R. Syllable structure in sign language phonology[M]. Brentari(ed.). Sign Languages. Cambridge: Cambridge University Press, 2010: 312-331.

[8]吳軍，王作英. 一種基于語言理解的輸入方法--智能拼音輸入方法 [J]. 中文信息學(xué)報(bào), 1996, 10(2): 56-61.

[9]Valli C, Lucas C. Linguistics of American Sign Language: An introduction [M]. Gallaudet University Press. 2000.

[10]Liddell S K, Johnson R E. American Sign Language compound formation processes, lexicalization, and phonological remnants [J]. Natural Language & Linguistic Theory, 1986, 4(4): 445-513.

[11]Bengio Y. Learning deep architectures for AI[J]. Foundations and trends in Machine Learning, 2009, 2(1): 1-127.

[12]Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances in neural information processing systems, 2007, 19: 153.

[13]Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion [J]. The Journal of Machine Learning Research, 2010, 11: 3371-3408.

[14]Bengio Y, Yao L, Alain G, et al. Generalized denoising auto-encoders as generative models [M]. Advances in Neural Information Processing Systems. 2013: 899-907.

[15]Salakhutdinov R, Hinton G. Semantic hashing [J]. International Journal of Approximate Reasoning, 2009, 50(7): 969-978.

[16]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]//Proceedings of the 25th international conference on Machine learning. Helsink: ACM Press, 2008: 1096-1103.

[17]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.

[18]Tieleman T. Training restricted Boltzmann machines using approximations to the likelihood gradient [C]//Proceedings of the 25th international conference on Machine learning. Helsink: ACM Press, 2008: 1064-1071.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于音系學(xué)模型的手語理解

1 基于語言學(xué)特征的手勢(shì)理解綜述

2 音韻參數(shù)感知加工

3 基于音韻參數(shù)的手勢(shì)理解算法

3.1 手勢(shì)音韻信息——手語文本轉(zhuǎn)換的難點(diǎn)

3.2 手語音系學(xué)的改進(jìn)模型

3.3 手勢(shì)理解與消歧

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)準(zhǔn)備

4.2 實(shí)驗(yàn)設(shè)置

4.3 實(shí)驗(yàn)結(jié)果

4.4 參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

5 小結(jié)