陶唐飛 劉天宇
①(現代設計及轉子軸承系統教育部重點實驗室 西安 710049)
②(西安交通大學機械工程學院 西安 710049)
世界聽障聯盟[1]的數據顯示,目前全球有超過7×107人使用超過300種手語溝通交流。據相關媒體數據,我國語言障礙、聽力障礙人數超過3×107人[2,3]。聽障與語障人士是主要的手語使用者。手語識別技術能夠幫助手語使用者在社會生活中打破與普通人群的交流障礙。手語識別(Sign Language Recognition, SLR)可被定義為利用計算設備將手語轉換成文本或語音信息[4]。手語識別技術的研究內容主要包括手語采集方法與手語識別方法:(1)在手語采集方面有數據手套[5,6]、顏色手套[7]、K inect[8,9]設備、體感控制系統(leap motion)[10]等豐富的信息采集設備。采集設備的多樣性也使得手語數據集的數據形式多樣化。(2)手語識別方法的研究從手語表達內容可分為孤立詞的識別研究[11,12]及連續(xù)語句手語識別[13,14];從識別方法所用的特征種類可以分為僅依靠手部特征方法以及多特征融合方法,多特征融合方法能夠有效提高模型準確率與魯棒性[15]。在深度學習未得到大規(guī)模應用前,基于機器學習的手語識別方法[16,17]比較普遍。然而傳統機器學習方法泛化能力弱,無法構造完整的語言識別體系;處理大規(guī)模數據的能力不足,無法構建高精度手語識別模型;特征學習能力不強,無法構建精細化、魯棒性高的識別方法。深度學習方法能夠解決傳統機器學習的限制。
在手語識別方面已有一些綜述性工作,張淑軍等人[18]總結了基于深度學習方法手語識別技術,但對遷移學習、零樣本學習等解決數據標注瓶頸的方法缺少闡述。米娜瓦爾·阿不拉等人[19]從靜態(tài)手語、孤立詞和連續(xù)語句識別3個分支出發(fā)總結手語識別方法,但未關注多特征融合的手語識別方法。郭丹等人[20]回顧了手語識別、翻譯和生成任務的典型方法和前沿研究,并總結了常用數據集,但其在總結手語數據集時未給出數據集發(fā)展建議。基于此,本文系統梳理了手語識別的相關技術,包括手語數據集及其發(fā)展趨勢、手語識別方法評價指標、手語識別方法及其發(fā)展趨勢,總結了注意力機制以及多特征融合的手語識別方法。為緩解手語數據限制,強調了遷移學習以及零樣本學習在手語識別中的應用。文章結構如下:第2節(jié)闡述手語數據集,并總結其發(fā)展方向;第3節(jié)介紹手語識別方法的評價指標;為便于對比評價手語識別方法,在總結了手語數據集及手語識別方法評價指標后,第4節(jié)總結手語識別方法;最后探討手語識別技術現階段存在問題及未來發(fā)展趨勢。
手語識別技術的發(fā)展離不開大規(guī)模數據集的建立,現階段很多國家已經開啟了手語識別技術的研究。表1、表2分別總結了具有代表性的孤立詞與連續(xù)語句手語數據集。在手語識別研究方面,中國、德國、美國以及伊朗等國家已建立起手語數據集[21,22]、手語識別的研究已初具規(guī)模。本節(jié)按照中國、德國、美國以及其他國家的先后順序分別介紹孤立詞與連續(xù)語句手語數據集并總結現階段數據集的發(fā)展趨勢。
表1 孤立詞手語數據集
表2 連續(xù)語句手語數據集
表1總結了孤立詞手語數據集的相關信息。在孤立詞的數據集方面,3維手語識別評估數據集(Dataset and Eva luation for 3D SLR, DEV ISIGN)[23]是中國第1個樣本數量達到萬級的大型孤立詞手語數據集。中國孤立詞手語識別數據集(Chinese isolated SLR500 dataset, CSL-500)[9]擁有500個詞語標簽,數據形式多樣,具有骨架信息、深度視頻信息以及RGB視頻信息,是中國手語孤立詞識別領域頗具重量級的數據集。近年來手語領域研究隊伍逐漸壯大。2021年,東北大學王斐團隊[24]建立的NCSL數據集關注在手語演示過程中的個體差異以及演示差異問題。同年,中國科學技術大學團隊提出了非手控特征中國孤立詞手語數據集(Non-Manual-Feature-aware isolated Chinese Sign Language dataset, NMFs-CSL)[25],該數據集關注非手控特征,例如:面部表情、嘴型等。非手控特征對于模型的魯棒性及準確率的提升具有關鍵作用。
德國是大型孤立詞手語數據集發(fā)展最早的國家之一。最初的SIGNUM[38]數據集,由33 210個樣本組成,該數據集開啟了德國手語孤立詞大規(guī)模數據的時代。隨后有德國手語(German Sign Language,DGS) Kinect40[29]數據集,包括骨架信息、深度信息以及RGB視頻信息。
英語手語數據集的發(fā)展也相對較早且影響廣泛,美國手語詞典視頻數據集(Am erican Sign Language Lexicon Video Dataset, ASLLVD)[28]由6人錄制完成,具有3 000多詞匯、字母等。英語在國際交流中占有非常重要的位置,因此對ASLLVD的研究頗多。例如:美國3維骨架手語數據集(Am erican Sign Language SKELETON 3D,ASL-SKELETON 3D)[21]將ASLLVD多角度下的視頻轉換成3D數據,保留9 747條視頻;美國手語研究項目手勢庫(American Sign Language Linguistic Research P ro ject Sign Bank, ASLLRP Sign Bank)[37]增強了語言的注釋性,在網頁端展示了手語的動作及相關含義,并且大幅提升了樣本數量。除ASLLVD系列數據集外,英語手語另有影響力廣泛的數據集:ChaLearn[31]數據集具有深度視頻信息,由7人錄制完成,具有50 000條視頻;美國手語詞匯數據集(W ord-Level Am erican Sign Language, W LASL2000)[34]在多種背景下錄制,更注重數據集的真實場景,一定程度解決了詞匯量少、錄制人數少等問題,且數據集已在Github上開放。
其他數據集另有希臘手語孤立詞(G reek isolated Sing Language, GSL isol.)[27]數據集,是最早的大型孤立詞手語數據集之一。伊朗的RKS-PERSIANSIGN[35]數據集,錄入時更換多場景,數據集開放。韓國手語數據集(Korean Sign Language,KSL)[36]由20位聽障人士錄制而成,能夠表達出真實的手語細節(jié)特征及使用姿態(tài),數據的真實性與應用性更強。
表2總結了連續(xù)語句手語數據集的相關信息。中國連續(xù)手語數據集(Chinese continuous SLR100 dataset, CSL-100)[9]是中國連續(xù)語句大型數據集,采用M icroso ft K inect錄制,共有100條語句,25 000條視頻。此數據集在國際上具有影響力,其數據龐大,填補了我國連續(xù)語句的大型手語數據集的空白。
影響廣泛的RW TH-PHOENIX-W eather[39]德國手語天氣數據集系列包括2014年發(fā)布的PHOENIXW eather 2014,以及2018年發(fā)布的PHOEN IXW eather 2014T[41]。此數據集來自德國電視臺的天氣播報場景,雖然背景單一,但更偏向于真實應用。德國的MSR[22]數據集屬于連續(xù)語句大型數據集,樣本數量達30 000。
美國的How2Sign[42]數據集具有RGB信息、深度信息、關節(jié)點信息以及語音信息等多輸入模態(tài),是擁有16 000個詞匯量的大型手語數據集,錄入時長達80 h。
其他代表性連續(xù)手語數據集有希臘手語數據集GSL[33], GSL SI[27]和西班牙手語數據集(a Lexical database for Spanish Sign language, LSE-Sign)[40]等。
手語數據集是手語識別技術的基礎,手語識別方法本質上依靠數據驅動。本節(jié)指明手語數據的發(fā)展方向,使手語數據集的創(chuàng)建更符合手語識別技術的研發(fā)需求。
(1)更接近真實環(huán)境。真實應用環(huán)境包括:(a)手語錄入者為真實的聽障人士,更能表現出真實表情與手語姿態(tài);(b)真實場景;實驗室環(huán)境過于單一,訓練后的模型應用到真實環(huán)境中識別表現不佳。
(2)多信息模態(tài),多角度視頻數據集。多信息模態(tài)結合能夠增強手語識別方法在復雜環(huán)境下的魯棒性,使用多角度視頻訓練的方法能夠有效改善視角變化、手部遮擋等識別難題。多模態(tài)信息的手語采集與識別設備多樣且復雜。開發(fā)多模態(tài)聯合手語采集識別設備是多模態(tài)融合手語識別方法的應用推廣前提。
(3)加強數據的注釋性。部分數據集[37]在網頁端展示手語的動作及釋義,能夠讓實驗人員深入理解動作、詞匯的含義,應用到模型中可增強泛化能力,同時手語動作圖解數據集是零樣本學習方法的基礎。
(4)多特征標注。手型固然是手語最重要的傳遞語義信息的特征,但臉部、肢體同樣在手語表達中發(fā)揮關鍵性作用,因此手語數據集應錄入標注唇形、面部表情等多特征。
(5)多語手語數據集?,F階段手語識別方法缺乏不同語言的比較研究,同時基于此類數據集的手語翻譯方法能夠有效促進手語使用者的國際化交流。
手語識別方法評價指標用來衡量手語識別方法的識別效果。手語識別方法的評價指標包含自然語言處理領域使用的錯詞率、杰卡德系數等以及機器學習通用的準確率、精度等。手語識別方法常用評價指標包括:(1)錯詞率(W ord Error Rate, WER)[43]是目前使用較為廣泛的評價指標,借鑒了自然語言處理中語音識別的指標。W ER是計算翻譯語句轉化為標簽語句中的刪除、插入和替換操作的最小數量,W ER越小,模型識別性能越好。除錯詞率外,外文手語識別中還有字符錯誤率(Character Error Rate, CER);(2)杰卡德系數(Jaccard index)[31]用于比較兩個樣本之間的相似性與差異性。指標數值越高,相似性越高,證明模型識別效果更好;(3)準確率(Accuracy, Acc)是指被正確劃分的樣本數占所有樣本數的比例。模型的準確率越高,識別性能越好;(4)ROC曲線下方面積(A rea Under roc Curve, AUC)[44]是為了解決模型識別準確率與模型實際作用效果不匹配的問題。該指標通常用于手語識別中的手部跟蹤以及手部姿態(tài)檢測;(5)平均精度均值(mean Average Precision, m AP)[45]是在目標檢測中常用的評價標準,即各類別的關節(jié)平均檢測率的均值。通常情況下,m AP數值越高,識別效果越好。該指標常用于手部關節(jié)點信息檢測;(6)另有一些工作采用運行時間[46]、精度[47]等作為評價指標。
在連續(xù)手語識別中錯詞率是使用最廣泛的評價指標,其能夠允許識別句子中詞匯的位置變化,符合語言規(guī)則。在孤立詞手語識別中,當準確率作為評價指標時簡潔干脆,無論外文中的字母錯誤還是中文的漢字錯誤都會影響詞匯含義,但準確率會產生與模型實際作用效果不匹配的問題。而AUC指標能夠避免產生少數樣本準確率高而被認為識別效果更好的問題。平均精度方法適用于手部檢測、關節(jié)點檢測等基于目標檢測的手語識別方法。杰卡德系數描述兩個樣本間的相似程度,適用于高稀疏度的數據中,評判手語模型的容錯性高。運行時間評判模型的訓練效率,但評判內容單一,實際應用性不足。
根據手語的表達內容,手語識別可分為孤立詞手語識別和連續(xù)語句手語識別。孤立詞手語識別可以看作視頻的分類問題,而連續(xù)語句數據集中只給出了視頻標簽,所以屬于不確切監(jiān)督問題,但隨著近年來數據集注釋性的增強,有利于不確切監(jiān)督問題的處理。手部特征與非手控特征結合的手語識別模型能夠一定程度提升模型的準確性以及魯棒性。本節(jié)基于手語表達內容(孤立詞與連續(xù)語句識別)以及手語識別方法所采用的特征(僅依靠手部特征、多特征融合)分別介紹手語識別方法。
針對手語識別方法使用的數據集可以分為孤立詞手語識別與連續(xù)語句手語識別方法,本節(jié)介紹孤立詞與連續(xù)語句的手語識別方法。
4.1.1 孤立詞手語識別方法
孤立詞手語識別也稱為離散手語識別,是指識別單個詞或字節(jié)。孤立詞的研究著重于模型準確率、輕量化與推理速度的提升。表3分類總結了孤立詞的研究方法,涉及經典神經網絡模型、基于注意力機制模型等。為解決手語數據標注瓶頸,又介紹了遷移學習方法以及零樣本學習方法。
表3 孤立詞手語識別方法
(1) 傳統模型方法。傳統模型可將整個手語識別方法流程劃分為圖像預處理、特征提取以及分類識別。圖像預處理方法包括視頻處理、減少噪聲干擾、增強識別效果;特征提取方法用來提取圖像特征,為識別建模做準備;最后在分類識別環(huán)節(jié)中對處理后的視頻、圖像分類識別。
(a)圖像預處理方法。視頻要轉化成幀圖像來搭建訓練手語識別模型,對幀圖像的處理效果影響著模型的識別性能。手語識別圖像預處理方法可以分為兩類:①去除噪聲及背景干擾。直方圖均衡化[50]、顏色檢測[49]及膚色的背景減除[76]方法可以有效避免背景信息對手語表達的干擾;利用濾波器[77]去除圖像噪聲。②減少數據計算量。比如使用邊緣檢測[48]、灰度化方法[49]、分割閾值[78]等方法減輕模型訓練的計算負擔。
直方圖均衡化可去除冗余干擾信息,顏色檢測減少背景干擾,結合小波變換、傅里葉變換等方法構造濾波器去除噪聲干擾,但上述方法處理后的圖像計算量依然頗高。邊緣檢測、分割閾值方法能夠減少數據量,但手語表達的關鍵信息也可能會被省略?;叶然椒▽GB圖片轉化為灰度圖片,通道數量減少,無法去除圖片中影響手語表達的干擾信息。手語識別工作結合兩類預處理方法后處理效果更佳,例如文獻[76]在預處理階段運用背景減除方法排除接近膚色干擾,通過高斯模型檢測膚色區(qū)域并轉化為二值化圖像。
(b)特征提取方法。主成分分析[50](Principal Com ponent Analysis, PCA)、K-近鄰方法[49]對圖像信息進行降維處理,精簡并保留顯著性特征,減輕計算負擔,利于模型訓練。尺度不變特征變換匹配(Scale Invariant Feature T ransform, SIFT)[51]具有尺度不變性,對光線、噪聲等影響因素的容忍度高,但在手語識別特征提取方面表現效果不佳,且需要較多內存空間。加速魯棒特征(Speeded Up Robust Features, SURF)[49,51]是以2D離散小波作為描述子,在圖像變換中具有穩(wěn)健性,比SIFT具有更快的特征提取速度,但對圖片質量、環(huán)境要求高,實用性弱。
(c)分類識別方法。分類識別方法包括兩部分:①規(guī)劃分類方法。該類方法主要包括支持向量機[50](Support Vector M achine, SVM)。SVM通過改變核函數來完成不同的識別任務,比如2次支持向量機[49](Quadratic SVM)及3次支持向量機[49](Cubic SVM)在手語識別中均有使用。②時序分類方法。此類方法主要包含動態(tài)時間規(guī)整[52](Dynam ic Time W arping, DTW)、隱馬爾可夫模型[52](Hidden M arkov M odel, HMM)以及連接時序分類[53](Connectionist Tem poral Classification, CTC)方法。
SVM算法簡單,魯棒性強,但訓練速度慢,核函數選擇敏感,易產生錯分、不可分現象,無法處理序列關系,通常適用于靜態(tài)手語識別方法。DTW基于動態(tài)規(guī)劃思想,根據最小路徑(即比較手語序列間相似性)匹配識別目標,此方法需要構建模板庫,泛化能力弱,上下文關系處理能力差,限制手語數據集規(guī)模。HMM作為統計分析模型,訓練學習到的是狀態(tài)和觀察序列的聯合分布,但其依然無法利用手語表達過程的上下文信息。CTC方法擴展標簽集合,無需數據對齊處理,通常與卷積神經網絡等深度學習方法結合,表征時序關系,在手語識別任務中的識別效果較好。
(2) 經典神經網絡方法。與傳統機器學習方法相比,神經網絡方法在大數據、大樣本下處理效果強悍,泛化能力強,具有非線性映射能力,能夠實現多任務集成,開發(fā)綜合系統。其中主要的神經網絡方法包括卷積神經網絡方法[54]、循環(huán)神經網絡方法[79,80]、圖神經網絡方法[64]等。
(a)卷積神經網絡(Convolutional Neural Network, CNN)方法。卷積神經網絡具有強大的局部特征提取能力。由于手語識別多涉及時序關系,在卷積網絡中只依靠1維卷積難以達到要求,通常應用多流2維卷積以及3維卷積網絡表征手語數據的模態(tài)信息、特征融合以及時序關系。文獻[56,57,81]分別提出了結合多尺度空間信息,圖像關節(jié)點位置、深度視頻等模態(tài)信息,手部、面部表情等特征信息的多流卷積手語識別模型。識別模型通常隨著網絡深度增加而提升識別效果,但深層網絡需要更多的手語數據。由此文獻[54,81]將卷積網絡與數據增強技術結合,避免出現過擬合問題。2維卷積網絡適合單幀圖像的特征提取,3維卷積網絡(3D Convolutional neural network, C3D)[55,56,81]則可以處理視頻上下文關系,提取手語視頻時空特征。C3D的網絡結構淺,難以實現高準確率,在大型數據集中尤甚,由此膨脹3維卷積網絡(Inflated-3D, I3D)便應運而生。Maruyama等人[57]提出多流框架搭建I3D模型,結合手型、面部表情、骨架信息等,最終在W LASL 2000數據集中最高的識別準確率達到87.47%。此外,偽3維殘差網絡(Pseudol-3D residual network, P3D)[82]可以緩解參數數量以及運行內存的限制難題。手語冗余信息與時空關系復雜,因此將3D卷積核優(yōu)化為R(2+1)D[58],減少訓練時長,并提高分類精度。
多流卷積網絡可以結合豐富的手語表達相關信息,提高模型的識別性能。2DCNNs網絡即使配備了TConvs等時序建模模塊,在表達短期時序關系方面仍然不如3DCNN的效果更佳。I3D網絡具有更深的網絡結構,在孤立詞數據集中的識別準確率更高,同時在復雜背景(非實驗室環(huán)境)下依然能夠參數收斂。
(b)循環(huán)神經網絡(Recurrent Neural Network,RNN)方法。循環(huán)神經網絡具有強大的序列信息處理能力,通常用于時序建模。傳統時序模型很難適應手勢在不同的詞匯中的巨大變化[59],循環(huán)神經網絡通過隱藏層節(jié)點周期性連接來捕捉序列化數據中動態(tài)信息。RNN在模型訓練時參數較多,網絡結構復雜,訓練困難,雙向循環(huán)神經網絡(B idirectional RNN, Bi-RNN)和長短期記憶網絡(Long Short-Term M em ory networks, LSTM)的發(fā)展改善了循環(huán)神經網絡所面臨的問題。文獻[60,61]利用Bi-RNN與LSTM模型緩解了由于長期依賴問題而導致的RNN梯度消失和梯度爆炸的問題,但其不能夠并行計算,計算耗時長,在更長序列中梯度問題仍然棘手。由于RNN網絡的復雜性,文獻[60,62]以循環(huán)神經網絡為基礎,采用預訓練數據的方式降低模型的訓練難度。文獻[61,62,83]利用循環(huán)神經網絡提取手語表達的時空特征,解決輸出與預測之間的依賴關系,在視頻序列與動作標簽間建立有效對齊關系。Abdu llahi等人[63]利用快速費舍爾向量,將生成模型用于判別式分類器中,表示高維特征,與雙向長短時記憶網絡結合,利用體感系統中3維手的骨骼運動、方向及角度信息,并將視頻中的身體特征信息融合訓練模型。
(c) 圖神經網絡(G raph Neu ra l Netw ork,GNN)方法。圖神經網絡方法將信息分布存儲于網絡內神經元中,大幅提高模型魯棒性與容錯性,文獻[64]利用圖神經網絡模型增強了手語背景變化的魯棒性。圖神經網絡能夠適應復雜的結構性先驗,比如定義多個概念之間關系,描述復雜的非線性結構。文獻[84]利用圖卷積模型定義相似領域或同一領域不同數據之間的關系,有效傳遞了先驗知識。Yan等人[84]將動作識別的先驗知識通過圖卷積模型傳遞到手語識別領域中。Vázquez-Enríquez等人[65]提出了多級時空圖卷積網絡模型(Multi-scale Spatialtem poral G raph convolu tional netw orks, M SG 3D),并且探討了基于圖卷積網絡的不同數據集間的遷移學習能力。MS-G3D模型在AUTSL dataset 進行預訓練后,W LASL2000上的識別率準確為95.24%,在LSE_Lex40預訓練后的W LASL2000上的識別準確率為93.91%。
(d)生成對抗神經網絡(Generative Adversarial Networks, GAN)方法。手語識別視頻信息與標簽信息沒有嚴格對應的關系,因此屬于典型的弱監(jiān)督問題。GAN網絡能夠完成半監(jiān)督學習以及無監(jiān)督學習任務,且文獻[66,85]將GAN網絡應用于語義分割與手語識別的弱監(jiān)督問題中,證明其同樣適用于弱監(jiān)督問題。GAN網絡可以跨模態(tài)組合、多特征融合訓練,利用生成器與判別器組合的形式不斷提高模型的判別性能。Elakkiya等人[66]提出的超參數生成對抗神經網絡H-GANs模型將手型、手掌形狀、頭型、臉型、唇形、眼睛等20個特征融合,利用LSTM網絡作為生成器,從真實幀序列中生成帶有噪聲的隨機序列。L S T M 網絡與3 D-C N N網絡結合作為鑒別器,檢測并分類符號手勢的真實幀。該網絡在ASLLVD數據集中的字符錯誤率為1.4%。
手語識別是弱監(jiān)督、多分類、跨模態(tài)以及多特征融合問題。GAN網絡不僅是無監(jiān)督學習與半監(jiān)督學習的典范,在弱監(jiān)督學習中同樣適用。其在分類領域也有一席之地,將判別器替換成分類器即可實現多分類任務,生成器仍然可以輔助分類器訓練,適用于跨模態(tài)、多特征融合任務。但目前尚未發(fā)現GAN網絡達到納什平衡的快速有效方法,訓練不穩(wěn)定,且存在模式崩潰風險。
(3) 注意力機制方法。注意力機制是指對輸入信息權重分配的關注,能夠有效解決編碼容量瓶頸以及長距離依賴問題。相比CNN,該方法計算手語輸入信息之間關聯性的操作次數不隨距離而改變。手語識別是一個視覺與語言結合的計算機視覺任務。T ransform er更適合連接視覺與語言,其能夠解決視覺與語言的網絡結構不同時使得優(yōu)化器不適配的問題,達到更好的建模效果。其中自注意力機制通過矩陣運算可以一步提取全局特征,卷積操作則適合提取局部特征,因此文獻[67,69,71]將卷積神經網絡搭配注意力機制形成互補,將全局特征與局部特征結合訓練,利用3維卷積模型提取時空特征,注意力機制用于特征映射或關注重要特征。黃杰等人[67,68]提出基于注意力機制的3維卷積網絡方法以及分層注意力網絡,從結合空間與時間注意力到利用分層注意力關注關鍵片段的重要視頻特征,在CSL-500數據集中不斷提高準確率。Zhang等人[69]構建了全局-局部特征結合描述的手語識別框架,提出帶有注意力層的3維殘差全局網絡模型和基于目標檢測的局部網絡模型。全局特征描述基于整個視頻行為進行時間序列建模。在局部模塊中,通過目標檢測網絡定位主導手,突出手部行為的關鍵作用,從而增強類別差異,并補償全局網絡。T ransformer模型可以并行計算,提高計算效率,可為手語識別在手持設備中推廣提供更高可能性[70]。
T ransformer在處理手語識別序列問題中突破了RNN模型不能并行計算的限制,促進了手語數據的批量化處理。其使用的自注意力機制具有可解釋性,多頭注意力機制可以將注意頭分散學習關注不同手語表達特征信息。但T ransform er需要更明確的表示序列中元素的相對或絕對位置關系,其提出的位置編碼在手語信息特征空間中并不具備可變換性,因此無法高效地表征手語位置信息。
(4) 遷移學習方法。遷移學習是指將一個已在大規(guī)模數據集中訓練好的模型特征遷移到另外一個模型中,特征提取不變,再次訓練分類器,即只需訓練圖像分類的小規(guī)模數據就能達到相對滿意的識別效果。遷移學習可分為同構遷移學習與異構遷移學習,在手語識別的研究中以同構遷移學習中的領域適配以及數據集偏移為主。手勢識別與動作識別的工作[86—88]對手語識別技術發(fā)展具有重要的借鑒意義。Sarhan等人[72]搭建了膨脹3維卷積模型用于大規(guī)模手語訓練,采用基于特征的遷移學習方式,將大規(guī)模動作識別模型的時空特征遷移到手語識別模型中,結合RGB和光流信息。文獻[73,74]利用官方提供的大規(guī)模數據集預訓練權重,將學習到的特征遷移至自制的小規(guī)模手語數據集中。Vázquez-Enríquez等人[65]則在多個不同語言的大型手語數據集中進行預訓練,遷移手語表達特征,利用目標手語數據集進行訓練,在W LASL等數據集識別性能顯著。
在遷移學習方法應用于該領域前,手語識別方法受到硬件設備、數據集規(guī)模限制。手語識別領域的應用性、商業(yè)化隨著遷移學習的發(fā)展大幅增強。遷移學習可將數據集從手語識別擴展到手勢識別甚至動作識別,擴充模型知識儲備,目前最有效的遷移方式是在手語同類數據集中遷移特征。但遷移方式的選擇、遷移有效性目前缺乏可靠的理論支撐。
(5) 零樣本(Zero-Shot)學習。零樣本學習需要在未知類與已知類之間引入耦合關系,建立二者間的語義關系,從已知類中抽取相關信息預測未知類。如圖1所示,手語零樣本學習簡單而言是指利用訓練好的手語識別模型來識別未包含在訓練集中的手語。零樣本學習推廣的重難點在于手語知識的理解,缺乏大型手語動作圖解數據集。文獻[71,75]建立了手語視頻附帶動作描述性文本信息的數據集,在其零樣本學習模型框架下實現了非數據集手語的識別功能。目前的零樣本學習框架以3DCNN網絡結合注意力機制做特征提取,LSTM網絡表征時序關系為主。Bilge 等人[75]利用手語詞典中的描述作為知識轉移的過渡語義表示,結合手語視頻信息,在零樣本學習框架內利用描述性文本以及時空特征,完成零樣本識別。Rastgoo等人[71]利用深度特征與骨架特征融合互補,提出一種多模態(tài)零樣本手語識別(ZS-SLR)模型。其將T ransform er模型和C3D模型分別用于手部檢測和深度特征提取,LSTM表征時序關系,最后利用BERT將視覺特征映射到手語標簽。
圖1 手語零樣本學習示意圖
零樣本學習能夠克服手語數據的標注瓶頸,解決遮擋、光線變化等帶來的識別難題。但其目前處于起步階段,識別準確率不足以支撐其實際應用。該方法的研究重難點在于:(a)測試數據來自訓練數據分布以外的未知類造成域偏移情況,即要識別的未知手語詞語表達所需要的動作視頻或動作的文本描述未在訓練數據中出現;(b)手語識別模型在訓練過程中出現的語義損失;(c)手語視覺信息特征與文本語義特征之間的映射關系的表達。(d)缺乏專業(yè)手語視頻動作圖解數據集,數據集需要精確描述視頻動作,理解相關動作含義。手語識別零樣本學習是機會與挑戰(zhàn)并存的研究方向。
4.1.2 連續(xù)語句手語識別方法
連續(xù)手語識別是指利用計算設備對通過手語表達的連續(xù)性句子的視頻等轉化為文本、語音等信息,連續(xù)手語的訓練數據只給出了粗粒度標簽,屬于弱監(jiān)督問題中的不確切監(jiān)督問題。連續(xù)手語識別的難點在于句子種類豐富多樣,視頻時長大大增加,幀序列特征提取以及上下文關系處理難度增加,表達詞匯間的間隔難以捕捉,因此單一的網絡模型較難實現高性能的連續(xù)手語識別任務,許多工作將多種網絡結構結合,本節(jié)將總結連續(xù)語句手語識別領域中常見的方法及網絡結合方法,各模型方法見表4。
表4 連續(xù)語句手語識別方法
(1)傳統模型方法。在神經網絡模型盛行以前,隱馬爾可夫模型(HMM)在手語識別領域表現最好,通過隱藏層刻畫序列間的依賴關系。Bauer等人[89]利用隱馬爾可夫模型結合束搜索降低識別任務中的計算復雜度。Gweth等人[90]在SIGNUM數據庫上建立一個基于高斯隱馬爾可夫模型(GHMM)結合神經網絡的模型,將多層感知器(M u ltiLayer Perceptron, MLP)特征首次用于手語識別系統。HMM本質是統計分析模型,無法考慮長序列信息,時序表征能力與RNN網絡相比遜色很多,且無法處理上下文信息。
(2)卷積神經網絡與循環(huán)神經網絡混合方法。文獻[91,92,94—99]的工作表明,3維卷積網絡與2維卷積網絡相比,其優(yōu)點在于其初始層具有將全連接層以及嵌入層中的連續(xù)手語多通道時空特征投影的能力,這使得網絡具有更豐富的語義表達信息。然而3維卷積網絡無法精確劃分詞匯邊界,2維卷積網絡不表征視頻幀間的依賴關系,而其往往可以提供較為精確的詞匯間隔,因此其在連續(xù)手語識別中的效果較好。卷積網絡優(yōu)勢在于特征提取,需要結合長短時記憶網絡表征詞匯間的長時依賴關系,然而對詞匯內的時序關系建模能力不足,此時通常需要結合連接時序分類(Connectionist Tem poral C lassification, CTC)完成連續(xù)手語識別任務,CTC在連續(xù)手語識別任務中能夠使得詞匯間隔更明確,表征詞匯內的依賴關系。很多工作[91,92,94—99]結合上述3種模型優(yōu)點完成連續(xù)手語識別任務。遷移學習在連續(xù)手語識別大規(guī)模數據模型中的作用至關重要,Sharm a等人[94]在孤立詞數據集上預訓練模型用于連續(xù)手語識別任務。Han等人[99]在K inetics數據集上預訓練,使其模型為識別視頻特征做準備。另有工作利用多級長短時記憶網絡完成連續(xù)語句任務。Gao等人[83]利用多個BiLSTM s表征幀序列信息、詞匯序列信息以及短語序列信息,利用預測網絡表征語句上下文信息,最后利用RNN-T ransducer模型學習視頻與語句間的最佳對齊策略。
在連續(xù)手語識別方法中,2維卷積網絡提供較為精確的詞匯間隔,建立詞匯與視頻動作間的對齊關系,因此其在連續(xù)手語識別中的效果相比3DCNN更好。CNN網絡需要與LSTM網絡結合表達長序依賴關系,最后通過結合CTC網絡對齊幀序列與詞匯信息,表征詞匯內的序列關系。
(3)基于注意力機制的混合方法。RNN固有的順序屬性阻礙了訓練樣本間的并行化,對于長序列信息,計算設備的內存限制會阻礙訓練樣本的批量處理,而連續(xù)手語信息的序列長度對RNN模型并不友好。T ransform er在處理手語識別序列問題中突破了RNN模型不能并行計算的限制,且具有長時序信息的表征能力,與卷積網絡互補,表征全局特征信息。常見的混合方法包括:(a)CNN+Transform er+CTC方法。卷積網絡做特征提取,T ransformer表征時序關系,CTC對齊幀序列與詞匯信息的結合方式[93,97,98]已成為一個主流研究方向。X ie等人[98]利用內容感知鄰域聚合方法選擇手語相關特征,將特征整合至位置感知的時間卷積層來增強手語的特征表達,利用T ransformer模型表征長時序關系,并引入相對位置編碼的概念解決T ransformer中絕對位置編碼方向與距離的未知性,通過卷積層的特征提取策略解決T ransform er采用視頻幀聚合手語特征從而忽略手語的時間與語義的結構對齊問題,最后利用CTC完成連續(xù)手語識別。Cam goz等人[93]提出了利用CNN網絡做特征提取,將T ransformer與CTC結合實現端到端的訓練,其在RWTH-PHOENIX-W eather-2014T(PHOENIX14T)數據集上達到了24.59%的錯詞率,并且將手語識別和語句翻譯任務集成到統一網絡結構中進行聯合優(yōu)化。Ban Slim ane等人[97]利用2DCNN與T ransformer分別對空間與時間信息建模,聯合多條獨立數據流表征多模態(tài)信息,并共享同一時間序列結構。(b)圖卷積網絡+圖T ransform er+CTC方法。Kan等人[95]利用圖卷積網絡以及圖T ransform er作為編碼器提取手語信息的局部與全局特征信息,圖T ransformer表征手語序列中的上下文信息,最后利用CTC網絡關聯詞匯與視頻幀中的對齊關系,在PHOENIX-2014-T數據集上的錯詞率達到19.5%,在CSL-100的錯詞率達到27.6%。(c)GAN+T ransform er方法。Papastratis等人[96]利用GAN網絡識別連續(xù)手語中的詞匯信息,T ransform er將手語詞匯轉換為自然語言文本。生成器使用時序CNN網絡與BLSTM網絡提取時空特征識別手語詞匯,判別器則通過對句子與詞匯中的文本信息建模判別生成器的手語識別效果。該項工作還研究了手語對話中語境信息對聽障人士與健聽人群不同組合的重要性。
LSTM記憶網絡不能夠并行化,計算設備的限制阻礙訓練樣本的批量處理,連續(xù)手語的序列長度對其不友好。T ransform er既能夠突破LSTM并行化限制,又能夠與卷積互補,提取局部、全局特征,更好地連接視覺與語言,因此運用T ransform er表征連續(xù)手語的長時序依賴關系已成為主流方向之一。
手部動作是手語信息最主要的特征,如圖2手部特征區(qū)域所示,僅依靠手部特征的手語識別方法涉及手部檢測、手部追蹤以及手部姿態(tài)估計等方面。面部特征及肢體特征同樣是手語表達的重要部分。圖2表明手部特征可以和面部、肢體等非手控特征融合訓練。多特征結合能夠提升模型準確率和魯棒性,尤其是在遇到光線、形態(tài)變化等情況下。除訓練多特征融合模型外,人體參數化建模也能有效融合手語多特征。本節(jié)分別介紹僅依靠手部特征手語識別方法與多特征融合手語識別方法,各方法總結如表5所示。
(1)僅依靠手部特征手語識別方法。手部特征是手語最關鍵的語義傳達特征,僅依靠手部特征的識別方法主要包括手部姿態(tài)估計、手部追蹤以及手部檢測等。(a)在手部姿態(tài)估計中具有代表性的模型是MPH (MediaPipe Hands)方法。該模型已有訓練基礎,能夠省去訓練花費的大量精力。文獻[100,101]均利用MPH模型檢測手部關鍵點,并在其使用數據集中表現優(yōu)異。MPH模型可與SVM,GBM方法結合[101]完成手部姿態(tài)估計。該方法所使用的采集識別設備精簡,便于推廣,能夠有效解決手部被遮擋的識別難題。此外,文獻[102]利用CNN結合奇異值分解實現低復雜度,高準確度的手部估計方法。(b)手部檢測的代表性框架包括R-CNN系列以及YOLO系列,手語檢測識別通常情況下有兩個難點,一是要處理大量候選的手語表達位置框,二是需要表征弱監(jiān)督問題中的細粒度特征以及精細化候選框位置。文獻[73,103]分別采用R-CNN框架以及YOLOv5完成實時手語識別。R-CNN使用的VGG-16參數量大,耗費大量計算時間與空間,每個候選區(qū)域要執(zhí)行卷積網絡前向傳播且需要多階段訓練。其改進版Fast R-CNN以及Faster R-CNN優(yōu)化訓練階段并縮短檢測框生成速度。YOLOv5對小目標的敏感度更高,而手語識別需要利用手指關節(jié)等部位的精細化特征。文獻[73,74]將遷移學習應用到目標檢測中,Srivastava等人[74]利用TensorFlow Object Detection API框架,利用遷移學習實現了手語實時檢測識別。該框架部署訊速,預訓練權重豐富。(c)在手部追蹤方面,文獻[44,104]均使用CNN網絡實現手部追蹤,將手部運動學3維模型與卷積神經網絡結合實現手部追蹤[44],增強模型魯棒性以應對遇到遮擋及視角變化等問題。Roy[105]利用Cam shift T racker實現了手部跟蹤,結合HMM模型實現了能夠區(qū)分單雙手的手語識別。
在僅依靠手部特征信息的手語識別方法中,多模態(tài)信息輸入能夠幫助識別模型提高魯棒性與準確率。Rastgoo等人[106]分別在2018年與2021年實現了多模態(tài)手語識別,有效提升識別準確率。另有學者致力于模型參數的簡化[107],期待利用圖像處理[48]的方法提升模型的識別準確率等。
(2)多特征融合手語識別方法。手語的語義傳達離不開面部表情以及肢體等非手控特征,以手部特征為基礎融合面部、肢體等特征能有效提高模型的識別性能。融合方法可以大致分為神經網絡融合方法及3維姿態(tài)恢復方法。(a)多特征神經網絡融合方法。在手語識別任務中既需要細粒度特征,探索手語動作的關鍵信息,同時需要粗粒度手語動作特征把控序列進程。卷積神經網絡的淺層網絡能夠提取圖片的高分辨率低層特征,包含手語表達中的手部關節(jié)位置、面部表情、眼型等細節(jié)信息。深層網絡提取的高層特征雖然分辨率低,細節(jié)感知能力弱,但能有效表征動作語義信息。因此,許多工作[25,48,111]采用CNN網絡融合手語表達所采用的多特征信息。多特征融合根據方法結構可分為前端融合、中間融合以及后端融合。Elakkiya等人[66]運用前端融合方式,在輸入層通過HMM模型提取手部特征及非手控特征,利用VAE融合手型、唇形及眼睛等20個特征降維后輸入至GAN網絡中。文獻[48,111]采用后端融合按照特征權重等方式融合預測結果。文獻[48]將CNN提取的面部、口型的不同特征輸入至HMM模型融合預測。G?k?e等人[111]利用3DCNN將手、面部以及肢體按照相應權重融合特征,完成手語識別任務。Hu等人[25]利用3DCNN網絡通過結合上下文關系與細粒度線索兩條數據流表征了面部表情、眼睛等非手控信息。(b)3D身體姿態(tài)恢復方法。姿態(tài)恢復是將RGB圖像轉化為3維姿態(tài),獲取身體各部位的坐標、圖像等細節(jié)信息以融合手語表達特征。SMPL是其中代表性模型,可以精準的刻畫人肌肉伸縮等細節(jié)性特征。K ratimenos等人[112]提出了SMPL-X模型利用單個圖像生成3D身體姿態(tài)模型,利用3D模型融合手語特征,完成手語識別任務。該方向有效地解決亮度、形態(tài)、視角變化等手語識別領域的難題,是多特征融合手語識別發(fā)展的重要方向之一。
目前多特征融合方法能夠有效提高手語識別方法的魯棒性與精細度,緩解手部遮擋、視角變化等問題帶來的預測難題。但其仍然面臨如下問題:(a)如何充分利用手語表達特征之間互異性、互補性與冗余度以提升模型的訓練效率與效果。(b)不同手語特征融合時引入的噪聲以及語義鴻溝可能對識別模型產生負影響。(c)在后端融合時缺少分配手語特征權重的標準。
圖3分別總結了在孤立詞最具權威性的CSL-500數據集與ASLLVD數據集下模型準確率,以及在連續(xù)語句應用最廣泛的CSL-100, PHOENIX-2014以及PHOENIX-2014T數據集下的模型錯詞率。其中文獻[58,66,95,96,98]在以上數據集中識別效果最佳,總結以上模型可發(fā)現:(1)注意力機制有效解決長時序依賴關系[58,95,98],學習手語序列的上下文關系;(2)GAN網絡在手語識別弱監(jiān)督、多分類問題中表現強勢[66,96];(3)多特征、多線索融合[66,96]有效提升手語識別方法的準確性與魯棒性。圖3表明手語識別研究重點并未局限于準確率的提升,遮擋、復雜環(huán)境、數據擴展等問題同樣是當前研究重難點。
圖3 本文所收錄的手語識別模型在幾種典型數據集下的識別表現
手語識別技術的研究要考慮使用人群的需求,在識別方法上尋求應用性、普及性以及可拓展性。該領域發(fā)展迅速,但在發(fā)展過程中仍存在很多挑戰(zhàn)。本節(jié)總結了手語識別技術所面臨的技術難題與挑戰(zhàn)。
(1)手語精細化特征與粗粒度動作語義序列建模。手語除依靠手部動作外,非手控特征也影響語義傳輸。手部細節(jié)特征以及唇形、眼睛等非手控特征均需要精細化建模,同時要考慮表征手語動作序列與語義單元的關聯銜接性。手語多特征精細化建模兼顧粗粒度動作序列建模以提升模型魯棒性與準確率仍是一個挑戰(zhàn)。
(2)不確切監(jiān)督序列識別。目前的連續(xù)手語識別技術是典型的不確切監(jiān)督問題,這是由于連續(xù)手語數據集大多只有句子級標簽,無法構造動作與詞匯的序列對齊關系,通常需要劃分精確的詞匯間隔,將幀序列信息與詞匯語義信息關聯對齊訓練,對模型的上下文關聯及時空特征聚合能力要求很高。
(3)手語數據匱乏與模型訓練數據限制。多樣化、真實性、大規(guī)模數據集十分稀缺,手語數據標注困難,且現實應用場景中數據量龐大,無法逐一訓練。如何高效利用鄰域與跨域數據特征,以及實際應用中如何拓展模型以準確識別未訓練詞匯仍是巨大挑戰(zhàn)。
(4)復雜環(huán)境實時識別。現階段很多手語識別技術研究停留在實驗室背景下的視頻理解。而真正能夠將手語識別技術推廣的研究要在實時的情況下解決光線、視角變化、手部遮擋等復雜環(huán)境的識別難題。
手語識別技術的研發(fā)目標是實現實時精準識別方法落地,服務于大眾。面對上述手語識別技術難題,該領域應從識別方法的簡便性與拓展性、數據集的發(fā)展、識別系統應用性等取得突破性進展,推動人機交互。
(1)輕量化、高速推理與魯棒性模型研發(fā)。大眾更期待在手機等便攜式設備上使用手語識別功能,因此開發(fā)兼顧輕量化、高速推理與多模態(tài)多特征融合的快速部署、實時識別、具有魯棒性的實用模型迫在眉睫。
(2)大規(guī)模、真實性、多樣化、注釋性手語數據集需求。首先,手語識別技術落地必然離不開大規(guī)模的聽障人士在真實環(huán)境下錄制的數據集。其次,需要數據形式、錄制人員、標注特征及場景多樣化的手語數據以提升識別方法的魯棒性。最后,亟需建立專業(yè)的手語動作注釋性圖解數據集用于語義理解與模型拓展。
(3)手語知識可擴充性模型研究?,F實應用中的龐大手語數據無法在模型中逐一訓練,這要求模型具有強大的拓展能力。在此方面有如下展望:(a)完善近域、跨域遷移學習方法拓展訓練數據范圍,緩解手語標注瓶頸。(b)強化零樣本學習模型的識別準確率以達到應用性要求,在連續(xù)手語識別領域開展零樣本學習研究。(c)探索手語識別終身學習機制,在模型部署應用的同時不斷擴充模型知識儲備。
(4)在線手語識別綜合系統功能開發(fā)。實時識別是系統應用性前提,除此還可拓展如下功能:(a)多人手語識別,并要解決其余手部及特征干擾識別對象問題。(b)手語識別后的文本翻譯。目前手語識別缺乏多語種比較研究。手語識別后的語言翻譯能夠有效促進使用者國際化交流。(c)多模態(tài)聯合手語采集識別設備開發(fā)。多模態(tài)手語識別方法面臨著采集與識別設備復雜的應用難題,開發(fā)輕便化采集識別設備迫在眉睫。