国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

有限樣本條件下欠規(guī)范手語識別容錯特征擴充

2022-03-09 05:49孔樂毅張金藝樓亮亮
計算機研究與發(fā)展 2022年3期
關(guān)鍵詞:編碼器手語語義

孔樂毅 張金藝 樓亮亮

1(特種光纖與光接入網(wǎng)重點實驗室(上海大學) 上海 200444)

2(特種光纖與先進通信國際合作聯(lián)合實驗室(上海大學) 上海 200444)

3(中國科學院上海微系統(tǒng)與信息技術(shù)研究所無線傳感網(wǎng)與通信重點實驗室 上海 200050)

借助深度學習的手語識別是一種將底層物理特征映射為語義表征的自然語言處理過程,其不僅能幫助健聽人理解聾啞人的肢體語言表達,還可以擴展到交警指揮、軍事旗語、智能家電控制等手勢指令領(lǐng)域.生活中存在各種隨機的欠規(guī)范手語表達,如日常交流的動作簡化、課堂中的拙劣練習、類似“口音”的地區(qū)特色等,部分手語表達語義表征相同,但持續(xù)時間、運動軌跡、速率變化等底層物理特征差異明顯.深度學習模型需要訓練集和測試集的樣本結(jié)構(gòu)服從同分布,有限樣本作為訓練集難以覆蓋上述實際情況,模型容易過擬合導致識別準確率難以提高.

手語識別最初是在手勢識別的基礎(chǔ)上進行研究,但需要用到時序分割算法,存在過程復(fù)雜、誤判率高等問題,目前采用深度學習從整體時序角度進行手語識別的研究正逐漸增多[1].多數(shù)方法在取得不錯效果的同時也存在著一些不足之處,文獻[2]表明,采用深度學習的手語識別方法大多忽略了音韻特征、語義單元這樣的中間步驟,直接從底層特征得到語義概念,這樣的分析不是很合適.部分深度模型容易在結(jié)構(gòu)復(fù)雜、樣本不足時出現(xiàn)過擬合現(xiàn)象,在測試集上效果良好,但較難滿足欠規(guī)范手語容錯識別的實際需求.因此,為避免手語表達因個體習慣不同而導致的語義表征模糊,滿足生活中手語識別的容錯需求,在標準特征集中還需額外擴充容錯特征.

針對生活中手語表達的欠規(guī)范現(xiàn)象,本文提出一種有限樣本條件下手語識別的容錯特征擴充方法.該方法利用自編碼器與生成對抗網(wǎng)絡(luò),將復(fù)雜的深度學習模型劃分為內(nèi)部關(guān)系更為緊密的表示學習模型與特征分類器模型,自動學習并擴充有用的特征用于后續(xù)手語識別的具體任務(wù),從而降低模型的復(fù)雜度,避免因樣本有限而出現(xiàn)過擬合現(xiàn)象.首先利用人體姿態(tài)估計技術(shù)提取骨架信息,降低光照、背景、身材等無關(guān)因素的干擾,面向手語的時空關(guān)聯(lián)性構(gòu)建自編碼器,從少量原始樣本中提取標準特征;再利用生成對抗網(wǎng)絡(luò)從標準特征產(chǎn)生大量欠規(guī)范樣本,通過自編碼器在標準特征中擴充容錯特征,構(gòu)建新的容錯特征集用于后續(xù)的手語識別任務(wù);最后通過實驗證明該方法生成的樣本語義清晰,構(gòu)建的容錯特征集結(jié)構(gòu)合理,有利于提高手語識別準確率,具有廣泛的應(yīng)用前景.

本文工作的主要貢獻有4個方面:

1) 提出了一種基于自編碼器與生成對抗網(wǎng)絡(luò)的手語容錯特征擴充方法,該方法能夠在標準手語樣本數(shù)量有限的條件下,不斷生成欠規(guī)范的新樣本并擴充帶有容錯信息的樣本特征;

2) 針對手語存在的時空關(guān)聯(lián)現(xiàn)象,設(shè)計時空圖卷積與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的自編碼器,該模型使用樣本的全局特征與時隙特征表示原始樣本;

3) 針對手語樣本的全局特征與時隙特征設(shè)計生成對抗網(wǎng)絡(luò)模型,該模型結(jié)合樣本重構(gòu)誤差和判決器的判決誤差,能夠定制生成樣本的欠規(guī)范程度;

4) 在CSL(Chinese sign language)[3]數(shù)據(jù)集上構(gòu)建原始樣本標準特征與欠規(guī)范樣本容錯特征組合而成新特征集,利用該特征集訓練手語識別模型證明該方法的應(yīng)用價值.

1 相關(guān)工作

手語識別模型依據(jù)樣本的不同可分為基于骨架信息、視頻RGB信息和前兩者的混合模型.2016年起便出現(xiàn)了一系列基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的手語識別研究[4-5],2018年Huang等人[6]在此基礎(chǔ)上進行了一系列改進,逐步將人體軌跡數(shù)據(jù)、骨架關(guān)節(jié)點數(shù)據(jù)輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中進行分類,這些基于骨架信息的模型在相對簡單的基礎(chǔ)上獲得了不錯的效果;2018年Huang等人[7]提出基于隱空間的分層注意力網(wǎng)絡(luò)(hierarchical attention network with latent space, LS-HAN)并于2019年進一步改進[8],通過引入音韻特征、語義單元等中間步驟提高模型的識別準確率;2018年Wang等人[9]則提出基于時域卷積模塊的雙向遞歸神經(jīng)網(wǎng)絡(luò),采用3維卷積神經(jīng)網(wǎng)絡(luò)從視頻數(shù)據(jù)中提取時空相關(guān)特征進行處理,但基于視頻的模型相對復(fù)雜,對硬件以及時間的要求比較高;2019年Cui等人[10]提出的雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory, BLSTM)的手語識別框架,該方法同時融入光流、RGB-D等數(shù)據(jù);2019年Liao等人[11]基于BLSTM網(wǎng)絡(luò),使用檢測網(wǎng)絡(luò)對手部進行分割,將分割后的手部特征與原始RGB數(shù)據(jù)一起進行手語識別.這些混合模型充分利用了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力和循環(huán)神經(jīng)網(wǎng)絡(luò)時序分類優(yōu)勢,但因模型過于復(fù)雜需要的樣本較多.

綜上所述采用人體骨架信息的模型相較于視頻RGB信息的模型對硬件以及時間的要求比較低,更有利于手語識別在生活中的應(yīng)用與普及,本文以骨架信息為基礎(chǔ)展開研究.由骨架信息表示的手語樣本的多元時間序列,由人體骨架中多個關(guān)鍵點的運動軌跡組合而成:

(1)

其中,L為手語樣本的持續(xù)時間長度,K為人體骨架與語義相關(guān)的關(guān)鍵點個數(shù).獲得該多元時間序列需要對視頻樣本預(yù)處理,其過程如圖1所示.首先手語視頻中提取人體骨架信息,篩選與語義高度相關(guān)的部位.然后在x,y,z三個維度上對各關(guān)鍵點運動軌跡的相對位置進行歸一化,獲得與背景、身材等無關(guān)的人體時空圖結(jié)構(gòu)數(shù)據(jù),進而整理樣本為多元時間序列.

Fig. 1 Pretreatment of video samples圖1 視頻樣本預(yù)處理

解讀手語不僅需要時間維度中各關(guān)鍵點運動軌跡的上下文信息,還涉及空間維度中各關(guān)鍵點相對位置的空間結(jié)構(gòu)信息.手語識別需要額外考慮特征間在整體時空上的動態(tài)關(guān)系,2種側(cè)重不同時空關(guān)聯(lián)現(xiàn)象,即關(guān)鍵點運動軌跡的上下文聯(lián)系和空間內(nèi)的相互影響:

(2)

(3)

對比目前圖像分類數(shù)據(jù)集的規(guī)模,手語語料庫規(guī)模普遍較小.深度學習根據(jù)標簽Y和樣本X直接構(gòu)建概率分布,設(shè)計復(fù)雜的神經(jīng)網(wǎng)絡(luò)擬合條件概率函數(shù)p(Y|X,θ),學習模型中的權(quán)重θ.但是手語樣本存在上述復(fù)雜的時空關(guān)聯(lián)性,與之相對應(yīng)的深度學習模型往往結(jié)構(gòu)復(fù)雜,在樣本不足情況下,復(fù)雜的端到端神經(jīng)網(wǎng)絡(luò)容易過擬合.

以雙向生成對抗網(wǎng)絡(luò)(bidirectional GAN, BiGAN)[12]為代表的表示學習通過融合自編碼器與生成對抗網(wǎng)絡(luò),能夠在生成新樣本的同時學習樣本的高層特征,這種特征提取方法為解決樣本不足的問題提供新的思路.大規(guī)模雙向生成對抗網(wǎng)絡(luò)(big bidirectional GAN, BigbiGAN)[13]通過對BiGAN的判決器結(jié)構(gòu)改進,提出了更穩(wěn)定的聯(lián)合判別器,增強了無監(jiān)督學習方面的能力,在表示學習和圖像生成方面取得優(yōu)異成績.此外信息最大化生成對抗網(wǎng)絡(luò)(information maximizing GAN, infoGAN)[14]通過將特征分為動態(tài)和靜態(tài),給按類別條件生成樣本提供了新的方法.本文在上述GAN方法的基礎(chǔ)上,針對多元時間序列樣本改進相關(guān)模型結(jié)構(gòu),將表示學習方法應(yīng)用于手語容錯特征擴充,解決手語識別因模型復(fù)雜樣本不足而出現(xiàn)的過擬合問題.

2 特征集構(gòu)建流程與特征提取方法

手語由多個順序固定的基本手勢動作組合而成,其排列組合可視為手語的樣本特征.但是識別分割動作片段的過程繁瑣復(fù)雜,利用表示學習可以自動學習相關(guān)特征用于表示樣本,有助于簡化手語樣本特征集的構(gòu)建.為保證特征集能夠真實反映手語樣本的特點,需要針對手語的時空關(guān)聯(lián)性設(shè)計特征提取方法,用更有實際意義的特征表示原始樣本.

2.1 手語樣本容錯特征集構(gòu)建流程

本文圍繞深度學習中因模型復(fù)雜、樣本不足而出現(xiàn)的過擬合問題,一方面針對模型復(fù)雜,通過自編碼器將樣本X表示為高層特征Z,構(gòu)建特征分類器預(yù)測結(jié)果Y,相對簡單的自編碼器與特征分類器替代復(fù)雜的深度學習模型:

p(Y/X)=p(Y/Z)×p(Z/X).

(4)

另一方面針對樣本不足,采用如圖2所示的流程,產(chǎn)生更多新的欠規(guī)范樣本并從中提取帶有容錯信息的樣本特征,構(gòu)建新特征集以提高手語識別的準確率.其中編碼器提取有意義的高層特征表示原始樣本,生成器(解碼器)擬合樣本的分布情況,產(chǎn)生與原始樣本類似的新樣本,判決器衡量新樣本語義表征是否清晰可辨.

通過編碼器P(Z|X)將手語樣本X合理映射在隱空間(latent space)[12]中,其結(jié)果可視為標準特征Z.利用標準特征生成欠規(guī)范樣本X′,選擇語義清晰能夠欺騙判決器的欠規(guī)范樣本再次通過編碼器提取樣本特征,重復(fù)該過程實現(xiàn)欠規(guī)范樣本生成與容錯特征擴充,構(gòu)建新特征集用于后續(xù)的手語識別任務(wù).為保證特征集構(gòu)建的合理性,生成器P(X′|Z)從標準特征生成新的樣本,衡量生成樣本與原始樣本間的重構(gòu)誤差保證該特征具有真實含義.判決器衡量新樣本的擬真程度,確保新樣本的語義表征清晰可辨.

Fig. 2 Construction process of sign language sample feature set圖2 手語樣本特征集構(gòu)建流程

2.2 針對時空關(guān)聯(lián)性的特征提取方法

本文根據(jù)手語2種側(cè)重不同的時空關(guān)聯(lián)性,將樣本特征Z劃分為全局特征ZG和時隙特征ZT.全局特征ZG不受時間變化影響,對應(yīng)空間內(nèi)不同關(guān)鍵點間的相互影響,從全局時空角度出發(fā)考慮人體關(guān)鍵點間整體運動軌跡與相對位置條件,保留樣本整體的靜態(tài)輪廓.時隙特征ZT逐幀考慮時序條件,對應(yīng)關(guān)鍵點運動軌跡隨時間的變化,在不同時刻捕捉手語表達時復(fù)雜的上下文關(guān)系,覆蓋隨時間變化的動態(tài)細節(jié).針對全局特征ZG和時隙特征ZT對全局輪廓和時隙細節(jié)的不同追求,分別選擇時空圖卷積網(wǎng)絡(luò)(spatial temporal graph convolutional networks, STGCN)[15]和RNN構(gòu)成編碼器,提取樣本特征的過程,其中對動態(tài)細節(jié)的刻畫離不開靜態(tài)輪廓的先驗知識:

p(Z/X)=pSTGCN(ZG/X)+pRNN(ZT/X,ZG).

(5)

全局特征ZG由STGCN通過手語樣本的時空圖結(jié)構(gòu)獲得,時空圖結(jié)構(gòu)能有效反映人體動作在時空中的運動輪廓,其由圖1所示的骨架信息獲取.一個時長為L且包含K個骨骼關(guān)鍵點的手語樣本可由時空圖G=(V,E)表示,其中節(jié)點集合V={vlk},其中l(wèi)=1,2,…,L,k=1,2,…,K,圖結(jié)構(gòu)E={ES,ET},該結(jié)構(gòu)每一幀中人體關(guān)鍵點相對位置的空間結(jié)構(gòu)ES和連續(xù)相鄰時間節(jié)點上相同關(guān)鍵點的時間結(jié)構(gòu)ET:

ES={(vli,vlj)/(i,j)∈H,l=1,2,…,L},

(6)

ET={(vli,v(l+1)i)/i∈K,l=1,2,…,L}.

(7)

Fig. 3 Spatiotemporal graph convolution for global feature圖3 提取全局特征的時空圖卷積模型

式(6)中H是需要考慮相對位置關(guān)系的關(guān)鍵點對的集合,如人的雙手、手腕與指尖等與語義關(guān)系緊密的人體關(guān)鍵點信息.將手語樣本X更改為時空圖G表示后,如圖3所示通過STGCN網(wǎng)絡(luò)提取特征結(jié)構(gòu)維度為10的全局特征ZG,圖3中時空圖卷積層主要由3部分組合而成,分別是調(diào)整時空圖G中節(jié)點權(quán)重的注意力模型(attention model, ATT)、面向空間結(jié)構(gòu)ES的圖卷積網(wǎng)絡(luò)(graph convolution network, GCN)和面向時間結(jié)構(gòu)ET的時間卷積網(wǎng)絡(luò)(time convolution network, TCN).GCN可以很好地學習不同信道間的相互影響.TCN從整體時間的角度出發(fā),有利于整合不同時刻關(guān)鍵點空間特征的整體時間關(guān)系.

Fig. 4 Recurrent neural network for timeslot feature圖4 提取時隙特征的循環(huán)神經(jīng)網(wǎng)絡(luò)

圖3中時空圖樣本G所包含的節(jié)點集合V可整理為4維矩陣N×D×L×C后送入該模型.其中,N是樣本數(shù)量;D代表關(guān)鍵點的維度特征,通常一個關(guān)鍵點包含x,y,z三個維度;L代表樣本的持續(xù)時長,將其歸一化為200個時間單位,方便卷積層完成時間卷積操作;C代表人體關(guān)鍵點的數(shù)量,選擇與手語信息相關(guān)的18個骨架關(guān)節(jié)點.訓練前首先對語料庫在時間和空間維度下進行歸一化,然后通過5層時空圖卷積層,最后利用池化層與全連接層提取人體全局特征ZG.

時隙特征ZT的提取由RNN網(wǎng)絡(luò)完成,其由2層門控循環(huán)單元(gated recurrent unit, GRU)組成,如圖4所示.RNN通過神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的迭代更替,可以捕獲各種隨時間變化的動態(tài)細節(jié),逐幀建立不同時刻的上下文關(guān)系.

RNN在保留時間維度信息的條件下,每一幀的通道維度逐漸減少到10,樣本時隙特征為L×10的矩陣.其中每幀時隙特征zl同時受上一幀時隙特征zl-1、全局特征ZG、本幀樣本xl共同影響:

ZT={z1,z2,…,zl}={pRNN(x1,ZG),
pRNN(zl-1,xl,ZG)|l=2,3,…,L}.

(8)

自編碼器獲得標準特征雖然能夠有效表示原始樣本,不過樣本有限的問題依然存在,但是有效的特征提取方法是重構(gòu)樣本的基石.下文通過手語樣本標準特征和生成對抗網(wǎng)絡(luò),解決樣本有限帶來的過擬合問題.

3 欠規(guī)范樣本的容錯特征擴充

生活中欠規(guī)范的手語表達語義表征模糊,使用有限樣本訓練手語識別模型較難滿足實際需求.其原因是從有限樣本中提取的樣本特征數(shù)目有限,用于訓練的特征太少進而出現(xiàn)過擬合現(xiàn)象.生成對抗網(wǎng)絡(luò)產(chǎn)生的新樣本與原始樣本間不可避免會出現(xiàn)偏差,利用該特點并對偏差加以控制,可以不斷產(chǎn)生欠規(guī)范程度不同的新樣本.然后通過自編碼器提取帶有不同程度容錯信息的樣本特征,解決上述情況導致的欠規(guī)范手語識別準確率較低問題.

Fig. 5 Joint error calculation process圖5 聯(lián)合誤差計算流程

3.1 欠規(guī)范樣本生成與偏差控制

用于擴充容錯特征的欠規(guī)范樣本X′由生成器產(chǎn)生,該過程由具有前后向隱藏層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network, BRNN)[16]實現(xiàn).生成器綜合考慮向前、向后2個不同的循環(huán)神經(jīng)網(wǎng)絡(luò)的信息,為時序序列的生成提供了強大的建模能力:

(9)

其中,d為全連接層,ul表示前向和后向隱藏狀態(tài)的序列,其分別由2個不同的前向、后向循環(huán)神經(jīng)函數(shù)生成,該過程將全局特征ZG作為背景條件,嵌入到時隙特征ZT中.

欠規(guī)范樣本在與原始標準樣本語義清晰一致的同時,需要在底層細節(jié)上保持一定的偏差用于引入容錯信息.生成對抗網(wǎng)絡(luò)構(gòu)建判決器進行樣本的擬真程度判斷,衡量生成樣本的語義表征是否清晰.而自編碼器比較原始樣本與生成樣本間的重構(gòu)誤差,更偏重于底層物理細節(jié)一致.結(jié)合兩者的優(yōu)勢,以樣本具有真實語義表征為門限,控制重構(gòu)誤差可以生成欠規(guī)范程度不同的新樣本.

在生成欠規(guī)范樣本時要評估引入的具體偏差,并決定什么程度的欠規(guī)范是可接受的.可以通過對設(shè)置不同的門限以滿足不同精度條件下的容錯需求,實現(xiàn)對欠規(guī)范程度的定量刻畫.逐幀比較兩者之間的樣本偏差,利用重構(gòu)誤差衡量欠規(guī)范程度:

(10)

(11)

通過在模型的訓練過程中融入了重構(gòu)誤差,可以滿足對不同欠規(guī)范程度的具體需求,圖5是訓練模型時使用的聯(lián)合誤差計算流程圖.該訓練方法將原始樣本與樣本特征為一組作為正樣本,樣本特征與新生成的欠規(guī)范樣本為一組作為負樣本,一方面計算原始樣本與生成樣本間的均方差作為重構(gòu)誤差,另一方面通過式(11)判斷這對數(shù)據(jù)來自編碼過程還是解碼過程.判決器模型與圖3主體架構(gòu)一致,僅在最后一層將經(jīng)過多層時空圖卷積的樣本X與特征Z一起進入全連接層,降低維度到1維即獲得判決結(jié)果.如果判決認為這對數(shù)據(jù)對來自編碼器,則判決為真輸出1;若是來自生成器,則判決為假輸出為0.

聯(lián)合誤差由重構(gòu)誤差與判決誤差加權(quán)相加而來,重構(gòu)誤差權(quán)重越低,生成樣本的欠規(guī)范程度越大.通過調(diào)節(jié)兩者間比重,可以訓練出滿足不同容錯需求的生成器模型.從而控制新樣本的欠規(guī)范程度,作為后文擴充容錯特征的基礎(chǔ).

3.2 容錯特征迭代擴充

原始樣本的標準特征在隱空間中分布稀疏,存在不同語義間邊界不清晰、容易相互混淆等問題.容錯特征由欠規(guī)范樣本通過自編碼器生成,散布在原始樣本標準特征周圍,可以有效填補隱空間中標準特征間的空隙.隨著隱空間中的特征覆蓋度提升,不同類別的特征間邊界逐漸清晰,彼此不易混淆.

但是大量高度相似的冗余特征缺乏實際價值,例如對標準特征做適當擾動變化產(chǎn)生的新特征等,反而可能增加模型的過擬合程度.因此在標準特征與容錯特征組合的新特征集中,特征分布應(yīng)該具有一定的空間結(jié)構(gòu),比如特征間應(yīng)留有一定的間隔.這種復(fù)雜的結(jié)構(gòu)需要特殊設(shè)計,特征分布卻無法直接控制,本文通過合理的欠規(guī)范樣本生成流程間接實現(xiàn)該目標.

擴充容錯特征需要編碼器、生成器、判決器相互配合進行訓練,本文提出的容錯特征迭代擴充算法重點關(guān)注模型的訓練方法與應(yīng)用過程,模型結(jié)構(gòu)與算法本身相對獨立,該算法的具體步驟為:

步驟1.針對需求設(shè)計深度學習模型,有選擇地將其中一層隱變量作為特征,本文以手語識別為例,如式(4)所示劃分為編碼器與特征分類器.

步驟2.首先串聯(lián)編碼器與特征分類器,因涉及語義分類任務(wù),故利用分類結(jié)果與原始標簽間的交叉熵作為損失函數(shù)進行預(yù)訓練.然后串聯(lián)編碼器與生成器,利用重構(gòu)誤差進行預(yù)訓練.最后聯(lián)合交叉熵與重構(gòu)誤差進行訓練,直到模型出現(xiàn)過擬合,編碼器訓練完畢.

步驟3.保持編碼器權(quán)重不變,初始化生成器權(quán)重.依據(jù)容錯需求不斷調(diào)節(jié)重構(gòu)誤差與判決誤差間的比重,利用聯(lián)合誤差交替訓練生成器與判決器,保留不同的模型權(quán)重用于生成欠規(guī)范程度不同的樣本.

步驟4.模型訓練完畢后,利用自編碼器構(gòu)建原始樣本的標準特征集,作為初始特征集在其中擴充欠規(guī)范樣本的容錯特征.

步驟5.從當前特征集中隨機采樣,通過生成器產(chǎn)生新的欠規(guī)范樣本.清洗無法通過判決器檢驗的欠規(guī)范樣本,再利用自編碼器提取容錯特征加入特征集.

步驟6.改變生成樣本的欠規(guī)范程度,在將特征送入生成器前添加隨機噪聲或更換不同的生成器權(quán)重,重復(fù)步驟5直到滿足實際容錯需求

步驟7.導出包含欠規(guī)范樣本信息的容錯特征集.初始化特征分類器的權(quán)重,利用該特征集訓練特征分類器,完成步驟1中提出的需求.

欠規(guī)范樣本是擴充容錯特征的保障,為衡量生成器的有效性,選擇欠規(guī)范手語樣本的語義分類結(jié)果評價其質(zhì)量.該指標反映樣本間的語義表征是否容易分辨,當識別準確率較高時,表明生成器模型產(chǎn)生的新樣本語義表征清晰易辯.

通過計算容錯特征集與標準特征間的平均距離,衡量擴充的容錯特征是否圍繞在標準特征周圍,不同類別特征間邊界是否清晰.為衡量容錯特征擴充后特征集空間結(jié)構(gòu)的合理性,本文改進FID(frechet inception distance)指標[17],記為FID.將距離用矢量計算保留的空間位置信息作為真實樣本特征Z與生成樣本特征Z′間距離的度量:

(12)

其中,N為標準特征個數(shù),M為擴充容錯特征個數(shù),若擴充的欠規(guī)范特征在標準特征周圍均勻圍繞,FID趨近0.在容錯特征集迭代擴充過程中,評估每輪擴充后的容錯特征集FID指標,若該指標大幅增加可進行回滾.通過在容錯特征擴充方法引入控制流程與評估方法,可以針對不同的欠規(guī)范需求定制合適的容錯特征集.

4 實驗與結(jié)果

4.1 數(shù)據(jù)集與實驗步驟

為驗證有限樣本下連續(xù)語句手語識別的效果,本文使用CSL數(shù)據(jù)集進行實驗.CSL連續(xù)手語語句數(shù)據(jù)集包含100種不同類別的樣本,每種類別包含250個語義相同的手語樣本(分別由50位志愿者各演示5次),共包含25 000個樣本.本文選取前45位志愿者的樣本作為訓練集,后5位志愿者的樣本作為測試集.實驗過程分為模型訓練、特征擴充、應(yīng)用驗證3個環(huán)節(jié).在模型訓練階段利用圖5的方式訓練編碼器、生成器和判決器模型,實現(xiàn)手語樣本特征提取與欠規(guī)范樣本的生成.在特征擴充階段利用容錯特征的迭代擴充方法,將原始樣本標準特征與欠規(guī)范樣本容錯特征共同構(gòu)建為新特征集.在應(yīng)用驗證階段利用該特征集訓練特征分類器進行手語容錯識別工作,評估特征分類器在測試集上的識別準確率.

除上述在CSL數(shù)據(jù)集上的工作外,為對生成器模型與容錯特征擴充方法進行多角度評價,本文提出如下評價方法.使用生成樣本的識別準確率衡量生成器模型,該指標用于評估生成樣本的語義表征是否清晰易分辨;使用特征集的FID指標衡量特征集中的特征分布是否具有一定的結(jié)構(gòu),評估容錯特征擴充方法構(gòu)建的特征集結(jié)構(gòu)是否合理.

4.2 結(jié)果驗證與分析

4.2.1 標準特征集構(gòu)建與欠規(guī)范樣本生成

原始樣本由式(5)所示的編碼器進行特征提取后,可構(gòu)建為原始樣本的標準特征集.但此時標準特征的維度依然較高,為方便展示與理解,將該特征集通過主成分分析(principal components analysis, PCA)降低維度到3維空間,然后在各維度上歸一化并展示其特征分布情況.本文從測試集的前20種類別、5位志愿者中每位隨機抽取一個樣本共計100例,用于展示該過程,模型本身可滿足全部類別的欠規(guī)范樣本生成和容錯特征擴充.相關(guān)案例如圖6所示,其展示了由原始樣本到標準特征集的映射過程,此時樣本復(fù)雜的高維物理信息被映射為3維空間中的一個特征點,其中類別相同的樣本特征點顏色一致.由圖6中可知此時由有限樣本構(gòu)建的標準特征集在3維空間中分布稀疏,不同類別的特征間相互混疊難以劃分邊界,生成更多欠規(guī)范樣本并擴充容錯特征能夠解決此問題.

Fig. 6 Original sample and standard feature set圖6 原始樣本與標準特征集

欠規(guī)范樣本由標準特征通過式(9)所示的生成器模型產(chǎn)生,生成樣本與原始樣本間高度相似,表明標準特征蘊含了重構(gòu)不同類別樣本所需的各種信息,間接表明利用自編碼器提取的特征具有實際意義.生成器模型可由其生成樣本的類別是否易于區(qū)分衡量,串聯(lián)自編碼器與特征分類器可完成手語樣本的類別識別工作.圖7展示了由標準特征集生成的欠規(guī)范樣本與欠規(guī)范樣本的識別混淆矩陣,雖然手語樣本包含18個關(guān)鍵點在3維空間中共計54條運動軌跡,但為了方便觀察,結(jié)果驗證中僅展示其中與語義相關(guān)度較高的4條運動軌跡曲線.

由圖7中識別混淆矩陣可知該組欠規(guī)范樣本的平均識別準確率高,證明生成的欠規(guī)范樣本語義表征清晰易分辨,特征集中不同語義的特征間保留了各自類別的特點,有助于后續(xù)特征分類器的訓練工作.

Fig. 7 Generating substandard sample and identifying confusion matrix圖7 生成的欠規(guī)范樣本與對應(yīng)的識別混淆矩陣

4.2.2 容錯特征的迭代擴充與應(yīng)用驗證

在驗證編碼器與生成器模型的有效性后,利用欠規(guī)范手語容錯特征擴充方法構(gòu)建手語容錯特征集.該方法主要由生產(chǎn)欠規(guī)范樣本和擴充容錯特征2個步驟交替進行,由圖8展示的是語義類別為“他的同學是警察”的欠規(guī)范樣本迭代生成過程.通過控制重構(gòu)誤差門限生成欠規(guī)范程度不斷加大的樣本,然后利用判決器篩選語義表征清晰的樣本用于擴充容錯特征.圖8中第2代、第5代、第10代欠規(guī)范樣本與原始樣本間的均方根差分別為0.027,0.039,0.07.對比可知每代樣本在欠規(guī)范程度不斷加大的同時保持了原有輪廓,該算法生成欠規(guī)范樣本的流程合理.

Fig. 9 Tolerance feature extension diagram圖9 容錯特征擴充示意圖

圖9是有限樣本條件下的容錯特征擴充過程,在擴充完每代容錯特征后,展示特征集經(jīng)PCA降維后在3維空間中的分布情況.對比圖6中標準特征的分布情況,容錯特征填充了標準特征集中的空隙,不同類別的特征間邊界更加清晰.隨著樣本的欠規(guī)范程度提高FID上升趨勢保存穩(wěn)定,第2代、第5代、第10代的FID分別為0.17,4.50,6.57.可知擴充的容錯特征雖然距離標準特征更遠,但都較為均勻地環(huán)繞在標準特征四周,表明經(jīng)擴充后的容錯特征集空間結(jié)構(gòu)合理.最后驗證本文方法的實際應(yīng)用價值,利用CSL數(shù)據(jù)集中的訓練集構(gòu)建容錯特征集,訓練特征分類器模型在測試集上進行驗證,與其他主流算法對比如表1所示:

Table 1 Recognition Accuracy Rate of Different Methods on CSL Dataset

由表1可知本文相較其他基于骨架信息的手語識別方法[18-19]提高13.1%的識別準確率,在僅采用骨架信息的情況下,依然優(yōu)于基于RGB與骨架信息的混合模型方法[20-21],滿足生活場中欠規(guī)范手語識別的容錯需求.綜上所述,本文方法在CSL數(shù)據(jù)集和實際場景中都取得了不錯的效果,其優(yōu)勢體現(xiàn)在不僅可以無限生成新樣本,而且能夠提供欠規(guī)范樣本擴充容錯信息,使手語識別模型擺脫樣本有限的枷鎖進而得到充足的訓練.在目前人體姿態(tài)估計技術(shù)快速普及、成本降低的趨勢下,節(jié)省RGB信息可以簡化模型的復(fù)雜度,降低硬件資源開銷.可見該方法不僅有助于欠規(guī)范手語識別在實際生活中普及,在有容錯需求的交警手勢識別、智能家電控制、人體動作理解等相關(guān)生活領(lǐng)域中,同樣具有廣泛的應(yīng)用前景.

5 結(jié) 論

本文提出了一種在有限樣本條件下欠規(guī)范手語識別的容錯特征擴充方法.該方法針對手語存在的時空關(guān)聯(lián)現(xiàn)象,設(shè)計結(jié)合時空圖卷積與循環(huán)網(wǎng)絡(luò)的自編碼器,分別提取手語樣本的全局特征與時隙特征.然后同時從重構(gòu)誤差和判決器的判決誤差入手,控制生成樣本的欠規(guī)范程度,完成容錯特征的迭代擴充.最后通過實驗證明,生成樣本擬真程度高,容錯特征集結(jié)構(gòu)合理,有利于后續(xù)任務(wù)的開展.

作者貢獻聲明:孔樂毅負責完成實驗并撰寫論文;張金藝提出了算法思路和實驗方案,并與樓亮亮一起提出指導意見并修改論文.

猜你喜歡
編碼器手語語義
基于ResNet18特征編碼器的水稻病蟲害圖像描述生成
真實場景水下語義分割方法及數(shù)據(jù)集
基于Beaglebone Black 的絕對式編碼器接口電路設(shè)計*
無聲的世界里,怎樣唱一首歌?
基于TMS320F28335的絕對式光電編碼器驅(qū)動設(shè)計
奇怪的手語圖
漢語依憑介詞的語義范疇