蔣賢維 孫計領(lǐng) 張艷瓊 王立平 蔣小艷 韓雪
【摘要】 中國手語具有自己獨特的文化內(nèi)涵和復雜表達,是近3000萬聽障人士融入社會的重要手段。手語識別技術(shù)能幫助聽障人士走出信息孤島,和健聽人建立有效溝通。中國手語識別方法大致經(jīng)歷了傳統(tǒng)技術(shù)識別和現(xiàn)代智能識別兩個時期。前者主要包含數(shù)據(jù)收集、預處理、特征提取和分類識別四個主要階段,主流技術(shù)有HMMs、SVM和DTW等,基于手語手形數(shù)據(jù)完成識別,不依賴海量樣本數(shù)據(jù);后者主要利用深度神經(jīng)網(wǎng)絡(luò)和人工智能技術(shù),強調(diào)深度學習,遷移學習和技術(shù)融合,模型對樣本數(shù)據(jù)量的依賴程度較高。我國已經(jīng)開始廣泛建設(shè)各類手語語料庫,但需要進一步規(guī)范和推廣。
【關(guān)鍵詞】 手語識別技術(shù);語料庫;深度神經(jīng)網(wǎng)絡(luò);遷移學習
【中圖分類號】 G760
【作者簡介】 蔣賢維,副教授,南京特殊教育師范學院數(shù)學與信息科學學院(南京,210038),jxw@njts.edu.cn;孫計領(lǐng)、張艷瓊、蔣小艷,副教授,南京特殊教育師范學院數(shù)學與信息科學學院(南京,210038);王立平,教授,南京特殊教育師范學院數(shù)學與信息科學學院(南京,210038);韓雪,講師,南京特殊教育師范學院數(shù)學與信息科學學院(南京,210038)。
一、引言
調(diào)查數(shù)據(jù)表明,作為我國殘疾人群體中占比最大的聽障人士,其數(shù)量約近3000萬,聽障人士能進行有效溝通,才能打破信息孤島,融入社會[1]。手語是聽障人士用于交流的重要手段。作為一種結(jié)構(gòu)化的手勢形式,它通過手形、運動、位置、運動方向和非手控特征等組合來傳遞信息。中國手語更是一種特殊的表達方式,具有自己獨特的文化意義和審美意義,既結(jié)合了漢語的音、義來傳遞和表達語義,又以手勢張揚漢語的特色,體現(xiàn)文化審美。手語識別指利用計算機技術(shù)將手語轉(zhuǎn)換成其他可理解的信息,如自然語言、文本、音頻、圖像、視頻等。目標是自動將手語表達翻譯成相應(yīng)的手語注釋。由于手語詞匯量大,語義豐富,表達方式多樣,語法結(jié)構(gòu)復雜,因此手語識別困難較多,是復合的跨學科挑戰(zhàn)。但手語識別可廣泛應(yīng)用于日常交流、工作學習、翻譯研究等,尤其是有益于各類特殊教育學校、有殘疾學生就讀的普通學校、殘疾人康復機構(gòu)的從業(yè)人員,特殊教育行政管理、科研人員和師生,以及熱心特殊教育的社會各界人士,甚至還可以擴展到臨近及相似的其他領(lǐng)域。因此,手語識別方法及技術(shù)研究具有深遠的意義,它有助于特殊教育事業(yè)發(fā)展,有助于特殊兒童少年群體成長和特殊教育教師業(yè)務(wù)提升。本文基于近20年的中國手語識別方法及技術(shù)相關(guān)論文及數(shù)據(jù),分別從傳統(tǒng)手語識別方法和現(xiàn)代手語識別方法兩條主線,探討了手語識別的數(shù)據(jù)集及語料庫建設(shè)、數(shù)據(jù)采集、預處理、特征提取、分類識別以及不同類型的深度神經(jīng)網(wǎng)絡(luò)和遷移學習等內(nèi)容,分析了中國手語識別方法及技術(shù)的特點,并與國外主流手語識別方法和技術(shù)作對比。
二、數(shù)據(jù)集及語料庫
語料庫被認為是自然語言處理任務(wù)的數(shù)據(jù)集,手語識別技術(shù)的研究首先要有合適的手語語料庫。世界各國都開展了本國手語語料庫的建設(shè)。澳大利亞手語語料庫AuslanSignbank是目前較為成熟型的手語語料庫,主要用于手語的傳承保護和詞典編纂[2]。德國孤立詞語料庫有SIGNUM和DGS Kinect 40[3-4],連續(xù)語句語料庫則以天氣預報手語平行語料庫PHOENIX Weather 2014為代表[5]。美國手語語料庫有ASLLVD、ASLSKELETON3D、ASLLRP SignBank、WLASL2000和How2Sign[5-10]等。此外,典型代表還有英國手語語料庫、希臘手語語料庫、荷蘭手語語料庫等[11-14]。
我國《國家手語和盲文規(guī)范化行動計劃(2015—2020年)》和《第二期國家手語和盲文規(guī)范化行動計劃(2021—2025年)》提出,要加強國家手語語料庫規(guī)劃布局,加快手語語料庫技術(shù)規(guī)范建設(shè),為建成能貼近聾人手語語言生活、聾人教育,具有服務(wù)生活交流、服務(wù)教學、服務(wù)研究功能,權(quán)威的國家手語語料庫提供有力支撐。目前我國的手語語料庫處于建設(shè)和提升階段,具代表性的有復旦大學龔群虎的通用手語語料庫項目“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”[15];南京特殊教育師范學院丁勇等人主持的國家語委重大項目“國家手語詞匯語料庫建設(shè)”[16]。此外,一些研究者和團隊也自建了專用的手語語料庫,如中國科學院計算研究所與微軟亞洲研究院合作的基于Kinect的手語識別和翻譯項目拍攝的DEVISIGN數(shù)據(jù)集[17];東北大學王斐等人創(chuàng)建的NCSL數(shù)據(jù)集[18];黃杰團隊建立的連續(xù)手語數(shù)據(jù)集CSL-100[19];陳曉燕研究中國電視手語傳譯的非手部策略時建立的樣本語料庫[20];吳蕊珠等人提出的構(gòu)建手語漢語平行語料庫的方案[21];劉學達基于上海手語高頻詞建立的上海手語語料庫[22];國家手語和盲文研究中心顧定倩教授團隊主持修訂了《國家通用手語詞典》,收錄了聽力殘疾人語言生活和教育中使用頻率較高、比較穩(wěn)定的手語常用詞8214個[23];倪蘭篩選出2500個左右的中國手語常用手勢,編撰了《中國手語教程》[24]。這些語料庫各有特色,肩負各自的創(chuàng)建使命,即目前的手語語料庫資源建設(shè)大多出于某項研究需求,自定義規(guī)范較多。因此,它們沒有相對統(tǒng)一的標準,無法較好地泛化和推廣,只能局限在某個局部領(lǐng)域應(yīng)用。由于缺乏合適的語料庫和數(shù)據(jù)集,阻礙了手語研究的進一步深度挖掘。
三、傳統(tǒng)手語識別方法及技術(shù)
傳統(tǒng)手語識別方法主要通過捕獲手部參數(shù)然后轉(zhuǎn)換為相應(yīng)的釋義,機器學習相關(guān)技術(shù)是主流,一般不涉及大模型,對樣本數(shù)據(jù)量的要求相對不高。它最常見的兩種方式是基于傳感器和基于視覺的手語識別。這兩種識別也可以稱為接觸式和非接觸式手語識別。從功能性、精度、舒適度和價格等方面來看,接觸式手語識別通常精度高、功能強大,但價格較高;非接觸式手語識別一般更舒適、方便,價格較低,但精度相對較低,所獲得的圖像很容易受到背景的影響,但可以包含面部表情,幫助增強意義識別。
由于手語識別方法及技術(shù)研究中涉及較多專業(yè)術(shù)語和英文縮寫,為了更準確地理解這些關(guān)鍵詞,聯(lián)通上下文,表1列出了主要識別方法及技術(shù)的中英文全名及其縮寫詞(按字母排序)。
接觸式裝備較早應(yīng)用于手勢識別,典型代表有數(shù)據(jù)手套、肌電信號臂環(huán)、慣性測量單元(IMU)、WiFi、雷達、智能手機、Leap Motion控制器和Kinect等。裝備可以直接檢測人手和各個關(guān)節(jié)的空間信息,并處理成輸入數(shù)據(jù)。此外,在基于視覺的識別模型中,相機是獲取輸入數(shù)據(jù)的主要工具,用于獲取手語圖像和視頻?;谝曈X的方法采集成本低、設(shè)備依賴性弱,采集方便,但從視頻流和關(guān)鍵幀中提取特征可能會帶來額外的計算開銷;同時,由于膚色、角度、光線等因素,基于視覺的識別準確率會降低。一般可以通過引入高性能計算機來解決這些問題。
如圖1所示,傳統(tǒng)的手語識別方法大致可以分為數(shù)據(jù)收集、預處理、特征提取和分類識別四個主要階段。每個階段都引入了不同的技術(shù),構(gòu)成了不同的手語識別模型和系統(tǒng)。
(一)數(shù)據(jù)收集
數(shù)據(jù)手套等設(shè)備是早期手語數(shù)據(jù)收集常用手段,采集的手語特征參數(shù)有手形、運動軌跡和位置信息,后來一些研究人員開始簡化或減除設(shè)備上復雜的傳感器以降低成本。基于視覺的手語識別中,輸入數(shù)據(jù)大多是預處理后的表征手語圖像或視頻。此外,體感相機等可以同時獲得視覺圖像信息、深度信息和骨骼信息,考慮了多模態(tài)手語信息的獲取。
(二)預處理
為了減少無用信息并捕獲最具代表性的信息,在提取特征或訓練模型之前需要執(zhí)行預處理。常用的預處理操作包括圖像調(diào)整、形態(tài)變換、灰度轉(zhuǎn)換、過濾、降噪、增強和歸一化等。在手語識別研究中,膚色檢測和過濾、RGB- HSV轉(zhuǎn)換、灰度轉(zhuǎn)換、手部分割和檢測等方法常常被用來減少計算量、提高計算效率和獲得ROI。
(三)特征提取
特征提取是指獲取輸入數(shù)據(jù)中需要的部分并轉(zhuǎn)化為特征集。常用的特征提取方法有:灰度共生矩陣(GLCM),定向梯度直方圖(HOG),小波熵(WE),主成分分析(PCA),Hu矩不變量(HMI),尺度不變特征變換(SIFT),傅立葉描述符(FD),加速魯棒特征(SURF),潛在狄利克雷分配(LDA)等。
其中,灰度共生矩陣(GLCM)是一種基于灰度空間相關(guān)特性來表示紋理的方法。如圖2所示,由于紋理是由空間位置上灰度反復變化形成,因此,圖像空間中任意兩個像素之間必然有灰度關(guān)系,這種關(guān)系稱為圖像中灰度的空間相關(guān)特性。1973年,Haralick等人首次提出使用灰度共生矩陣來描述紋理特征[25]。國內(nèi)高亞嵐等人使用灰度共生矩陣和模糊支持向量機進行中國手語手指語識別,準確率達到86.7%[26]。
方向梯度直方圖特征是一種能夠快速描述物體局部梯度特征的描述符[27]。定向梯度直方圖(HOG)是密集網(wǎng)格中局部方向梯度的歸一化直方圖,它是一種廣泛應(yīng)用于計算機視覺和圖像處理中的特征描述方法。包括物體方向在內(nèi),HOG對于幾何變換和光度轉(zhuǎn)換來說具有不變性[28]。此外,HOG還可以將樣本數(shù)據(jù)轉(zhuǎn)換到稀疏空間。因此,它特別適合圖像中的目標檢測。如圖3所示,給出了HOG算法實現(xiàn)的主要流程。Mou等人提出了一種基于HOG特征的稀疏編碼手語識別方法[29]。其中,手語識別通過監(jiān)督、區(qū)分和基于學習加權(quán)局部特征的面向事件的字典被表述為稀疏表示問題。提取出每類手語樣本的HOG特征,然后使用LC-KSVD算法學習面向事件和面向判別的詞典。
小波熵(WE)是離散小波變換(DWT)和熵計算的組合方法,常用于處理復雜信號的時間特征。由于使用離散小波變換會增加計算量和存儲量,因此引入熵來提高性能,熵表示圖像紋理和信息不確定性的隨機度量。小波熵可以定量地衡量信息分布的有序性和無序性,定性地反映一些有用的信息。圖4描述了一個二階二維離散小波變換的過程。朱兆松等人提出了一種結(jié)合小波熵和支持向量機(WE-SVM)的中國手語識別方法,總體精度達到85.69±0.59%[30]。
圖像匹配是計算機視覺領(lǐng)域的重要研究內(nèi)容,在圖像處理中普遍采用尺度不變特征變換(SIFT),它可以對圖像中的關(guān)鍵點進行檢測,具有尺度不變性。SIFT的不變性主要體現(xiàn)在圖像旋轉(zhuǎn)和縮放上,對光照和拍攝角度僅保持部分不變。尺度不變特征變換算法生成圖像特征集主要有四個階段:尺度空間極值檢測;關(guān)鍵點定位;方向分配;關(guān)鍵點描述。該算法的本質(zhì)是關(guān)鍵點檢測和描述符生成。Tharwat等人提出了基于尺度不變特征變換的方法構(gòu)建阿拉伯手語識別系統(tǒng)[31]。
此外,主成分分析(PCA)作為一種使用正交變換將相關(guān)變量觀測值更改為不相關(guān)變量值的數(shù)學運算,其變換本質(zhì)是一種利用低維子空間來近似某個向量或圖像。其優(yōu)點是能夠在充分保留有用信息的基礎(chǔ)上有效降低原始特征向量維數(shù),降低內(nèi)存,減少計算量。Lowe提出了一種集成主成分分析、線性判別分析和支持向量機的新型層次分類方案,取得了更高的準確率[32]。Hu矩不變(HMI)可以用于不復雜的紋理特征,能較好描述目標形狀。傅里葉描述符(FD)被定義為描述物體邊界曲線信號的頻域分析。這些曲線與原始運動和旋轉(zhuǎn)無關(guān)。FD通常需要進行歸一化,通過低頻分量來計算手勢圖像的相似度差異。加速魯棒特征(SURF)的穩(wěn)健性在圖像變換中表現(xiàn)較好,特征提取速度也比尺度不變特征變換(SIFT)更快,但需要高品質(zhì)的圖像,受環(huán)境影響較大,因此并不實用。
(四)分類識別
分類本質(zhì)是找到一個函數(shù)來確定輸入數(shù)據(jù)所屬的類別。分類的準確率與構(gòu)建方法、待分類數(shù)據(jù)特征以及訓練樣本數(shù)量等因素密切相關(guān)。機器學習模型中常見分類器有隱式馬爾可夫模型(HMMs),支持向量機(SVM),動態(tài)時間規(guī)整(DTW),長短期記憶(LSTM),隨機森林(RF),k近鄰(k-NN),貝葉斯分類器(NBC),相關(guān)向量機(RVM),AdaBoost多標簽多類分類器等。
其中,隱式馬爾可夫模型(HMMs)是用概率表示變量的傳統(tǒng)馬爾可夫模型改進版本,通常被引入統(tǒng)計模式分析中[33]。當HMMs應(yīng)用于手勢識別系統(tǒng)構(gòu)建分類器時,主要涉及學習和評估兩個過程。學習應(yīng)用于手勢建模過程,可以理解為隱馬爾可夫模型的訓練問題;評估應(yīng)用于手勢識別過程,分類器建立后,采用前向算法計算先驗概率,并對輸入的觀察序列進行判別。HMMs在一定程度上對時間軸上的局部變形(壓縮和擴展)具有不變性,因此被廣泛應(yīng)用于自然語言建模、在線手寫識別和生物序列分析等領(lǐng)域。陳梯等人基于快速魯棒性特征和隱馬爾可夫模型對手語視頻中的8種手勢進行識別,平均識別率達到93%,能有效克服光照、角度和復雜背景的影響[34]。
支持向量機(SVM)是一種監(jiān)督學習方法,擁有優(yōu)越的泛化能力、更高的精度和精細的數(shù)學易處理性等優(yōu)點,但不能處理序列關(guān)系,不適用動態(tài)手語識別[35]。劉小建等人選擇非線性徑向基函數(shù)(RBF),利用網(wǎng)格搜索方法調(diào)整確定SVM參數(shù),實現(xiàn)了高效、準確的手勢識別[36]。
動態(tài)時間規(guī)整(DTW)可以將一個復雜的全局優(yōu)化問題逐步轉(zhuǎn)化為多個局部優(yōu)化問題,因此被廣泛應(yīng)用于語音識別、動作識別、數(shù)據(jù)挖掘和信息檢索等領(lǐng)域。由于手語基于時間序列表達,只需要計算兩條手語表達數(shù)據(jù)之間的距離即可計算相似度。識別時,將待識別與參考手語特征序列依次進行匹配,選擇輸出的結(jié)果必須是最小總失真且不大于識別閾值的。該算法識別精度高、系統(tǒng)復雜度低,但匹配計算開銷較大。張露提出了基于DTW單個手語識別算法,對數(shù)字0—9進行檢測并取得良好識別效果[37]。魏秋月等人采用一種改進的DTW算法對特征數(shù)據(jù)進行模板訓練,實現(xiàn)了基于軌跡匹配的動態(tài)手勢識別,在14種手勢上獲得了98.7%的平均識別率[38]。
長短期記憶(LSTM)網(wǎng)絡(luò)本質(zhì)上是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),通過增加一個處理器解決了傳統(tǒng)RNN中存在的梯度消失問題[39]。其對間隙長度相對不敏感,通過為RNN提供可以持續(xù)數(shù)千個時間步的短期記憶,從而實現(xiàn)“長短期記憶”。LSTM不僅可以檢測手語的時間變化,還可以學習手勢變化之間的對應(yīng)關(guān)系,從而增強手語的分類識別能力。毛晨思提出了基于卷積網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)的中國手語詞識別,識別率達到了98.2%[40]。
隨機森林(RF)由LeoBreiman于2001年提出,該算法在許多實際任務(wù)中表現(xiàn)出很強的性能。隨機森林分類是由多種決策樹分類模型組成復合分類模型。其基本思想是首先通過自舉采樣從原始訓練集中提取m個樣本集,每個樣本集的樣本量保持不變;其次,對這m個樣本集建構(gòu)對應(yīng)m個決策樹模型,并得到m個分類結(jié)果;然后基于m個分類結(jié)果對每條記錄進行投票并確定其最終分類。隨機森林可以為一些先驗知識模糊、規(guī)則不明確、約束不完全、數(shù)據(jù)不完整的應(yīng)用問題提供更好的解決方案。其缺點是會因決策樹增加帶來泛化誤差。如Su等人提出了基于ACC和sEMG的非視覺手語識別方法,運用隨機森林進行分析,識別率為98.25%,效果良好[41]。
四、現(xiàn)代手語識別方法及模型
傳統(tǒng)手語識別方法提供了實用的解決方案,隨著人工智能的崛起和大模型的推廣,新技術(shù)和新方法成為研究者新的追求目標。尤其是近年來,深度學習、遷移學習以及基于深度神經(jīng)網(wǎng)絡(luò)的混合網(wǎng)絡(luò)模型等,為手語識別提供了更好的解決方案。
(一)卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種具有卷積計算功能和深層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。它利用多層疊加的方式從低層特征提取到高層特征,模擬了人腦的層次結(jié)構(gòu)功能。由于其強大的特征提取能力和對圖像信息有效、準確的分類能力,被認為是識別和分類領(lǐng)域最具代表性的深度神經(jīng)網(wǎng)絡(luò)。典型的卷積神經(jīng)網(wǎng)絡(luò)(如圖5所示)由多個層組成,包括輸入層、卷積層、池化層、全連接層和輸出層。其中,卷積層通過卷積運算進行特征提??;池化層可以不斷減小數(shù)據(jù)的空間大小,從而減少參數(shù)和計算的數(shù)量;全連接層扮演了“分類器”的角色。
大數(shù)據(jù)驅(qū)動的深度學習模型性能隨著樣本數(shù)量增加而提高,同樣對樣本量和網(wǎng)絡(luò)訓練提出了更高的要求。簡單的CNN并不能獲得更好的性能,因此,各種優(yōu)化算法被融入卷積神經(jīng)網(wǎng)絡(luò)模型中。例如,批量歸一化(BN)技術(shù)可以使層的輸入保持更均勻分布。Dropout技術(shù)可以細化網(wǎng)絡(luò),有效減少過擬合,并實現(xiàn)一定程度的正則化。ReLU函數(shù)可以加速隨機梯度下降的收斂速度[42]。數(shù)據(jù)增強(DA)技術(shù)可以有效擴展數(shù)據(jù)集并有助于緩解過度擬合[43]。趙一丹提出將CNN和LSTM相結(jié)合識別特定手語視頻,實驗識別準確率為99.256%[44]。
盡管CNN具有強大的特征提取能力,但其僅適用于處理單幀圖像數(shù)據(jù)。手語運動過程表達涉及幀間的相關(guān)信息,3D卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)提供了解決方案。3D-CNN主要解決圖片之間的相關(guān)性,增加了新的維度信息。3D-CNN可以捕獲空間和時間維度的判別特征。楊光義等人提出一種基于注意力機制的復雜背景連續(xù)手語識別算法,并在大規(guī)模連續(xù)手語數(shù)據(jù)集CSL100上取得優(yōu)異表現(xiàn)[45]。
(二)YOLO
YOLO(You Only Look Once)是計算機視覺領(lǐng)域著名的模型之一。該方法將任務(wù)合并為回歸問題,無需將檢測結(jié)果分為分類和回歸,適用于實時物體檢測任務(wù)。YOLO的發(fā)展經(jīng)歷了YOLO V1到Y(jié)OLO V8。其中,YOLO V1算法將目標檢測定義為單一回歸問題,速度比傳統(tǒng)算法要快得多。YOLO V1的優(yōu)點是可以高速實時檢測物體,理解廣義物體表示,并且模型不會過于復雜,其缺點是當小物體出現(xiàn)在簇或組中時,模型的效果較差;YOLO V2在速度、精度和檢測大量物體等方面都做出了較大改進;YOLO V3添加了邏輯回歸來預測每個邊界框的得分,還引入了Faster R-CNN方法;YOLO V4通過添加和組合一些新功能(加權(quán)殘差連接、跨階段部分連接、跨小批量歸一化、自對抗訓練等),實現(xiàn)了更優(yōu)越和更高效性能;YOLO V5是一種單階段目標檢測算法,框架結(jié)構(gòu)人性化,集成了大量計算機視覺技術(shù),提高了訓練速度和物體識別速度[46]。張曉晨等人提出了一種基于YOLO V5的中國傳統(tǒng)手語拼音數(shù)據(jù)庫模型[47];張強提出了一種基于改進的YOLO V3的靜態(tài)手勢實時識別方法,該方法對流視頻靜態(tài)手勢的平均識別準確率為99.1%,對4個自定義連續(xù)動態(tài)手勢的識別率為94%[48]。
(三)膠囊網(wǎng)絡(luò)
膠囊網(wǎng)絡(luò)(CapsNet)是一種新的深度神經(jīng)網(wǎng)絡(luò)模型,目前主要應(yīng)用于圖像識別領(lǐng)域。與傳統(tǒng)神經(jīng)元不同,膠囊的輸入和輸出都是向量。向量長度可以理解為傳統(tǒng)神經(jīng)元中的概率,而向量的方向代表其他信息。膠囊網(wǎng)絡(luò)利用基于協(xié)議的動態(tài)路由來替代傳統(tǒng)CNN中的最大池化(Max-Pooling)。膠囊將特征檢測的概率定義為其輸出向量長度,特征狀態(tài)描述為向量方向。
膠囊網(wǎng)絡(luò)(如圖6所示)由六個神經(jīng)網(wǎng)絡(luò)層組成,包括卷積層、PrimaryCaps層、DigitCaps層、第一全連接層、第二全連接層和第三全連接層。前三層是編碼器,后三層是解碼器。
CapsNet對噪聲數(shù)據(jù)更具彈性,并且還可以適應(yīng)輸入數(shù)據(jù)的仿射變換。同時,膠囊網(wǎng)絡(luò)也被證明可以減少訓練時間并最大限度地減少參數(shù)數(shù)量。它可以用來承擔機器翻譯、自動駕駛、手寫字符和文本識別、目標檢測、情感檢測等任務(wù)。郝子煜等人設(shè)計了基于CapsNet的中國手指語識別算法,并獲得了較好的識別效果[49]。
(四)遷移學習及融合網(wǎng)絡(luò)
遷移學習(transfer learning)主要有兩種策略,一是使用特定任務(wù)的標注語料,用監(jiān)督學習的方式對預訓練模型參數(shù)進行微調(diào)(fine-tune),取得更好性能。因為從頭訓練一個預訓練語言模型,尤其是大模型,需要海量的數(shù)據(jù),時間和計算成本非常高。因此,共享語言模型非常重要,只要在預訓練好的模型權(quán)重上構(gòu)建模型,就可以大幅地降低計算成本。二是凍結(jié)并重新訓練,這涉及凍結(jié)除最后一層之外的所有層(權(quán)重不更新)并僅訓練最后一層。如圖7所示,遷移學習的好處是預訓練模型很可能已有類似的數(shù)據(jù)集,通過激發(fā)在預訓練過程中獲得的知識,從海量數(shù)據(jù)中獲得統(tǒng)計理解能力。由于模型已經(jīng)在大量數(shù)據(jù)上進行過預訓練,后續(xù)只需要很少的數(shù)據(jù)量就可以達到不錯性能。此外,隨著人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,各種先進的網(wǎng)絡(luò)模型和技術(shù)不斷涌現(xiàn)。集成了多種機器學習技術(shù)的融合網(wǎng)絡(luò),可以更有效地實現(xiàn)中國手語的識別和翻譯。大多數(shù)情況下,往往也會結(jié)合多種主流技術(shù)和先進方法來實現(xiàn)更高效的網(wǎng)絡(luò)模型建構(gòu)。
五、國內(nèi)外發(fā)展對比
中國手語泛指中國聾人使用的手語,理論上匯集了少數(shù)民族、港澳臺地區(qū)和各類地方手語。但由于目前中國通用手語的標準化僅針對中國大陸,因此“中國手語”一詞又僅指大陸聽障人使用的手語。手語識別可以分為靜態(tài)手語識別和動態(tài)手語識別兩大類,對應(yīng)的還可以細分為手指語識別、孤立詞識別和連續(xù)手語識別,因此,研究者們提出了各種不同的識別方法和技術(shù),并取得了不同的成效。如手指語識別由于內(nèi)容組成有限,屬于靜態(tài)圖像識別,背景環(huán)境相對可控,識別準確率幾乎都在90%以上;孤立詞識別介于手指語和連續(xù)手語識別之間,傳統(tǒng)方法和現(xiàn)代智能方法都有提及,識別性能也相對較高;連續(xù)手語識別由于涉及時間動態(tài)和上下文信息,因此更具挑戰(zhàn)。卷積神經(jīng)網(wǎng)絡(luò)、3DCNN、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體(LSTM、GRU等)、Transformer模型等帶來了解決之道,但同時也面臨海量數(shù)據(jù)量級和強大算法負載的考驗。
基于2003至2023年的中國手語識別方法及技術(shù)相關(guān)論文及數(shù)據(jù)調(diào)研發(fā)現(xiàn)(如圖8所示),中國手語識別的研究論文數(shù)量呈穩(wěn)步增長趨勢。其中,2012年前處于緩慢增長階段,從2013年開始,手語識別的研究論文呈現(xiàn)高增長趨勢。尤其從2014年開始,文獻發(fā)表數(shù)明顯增長,這主要得益于計算機視覺和人工智能技術(shù)的迅猛發(fā)展。同期,中國手語識別也從傳統(tǒng)的研究方法轉(zhuǎn)向基于視覺,尤其是深度神經(jīng)網(wǎng)絡(luò)等新方法、新技術(shù)。2019年以來這一趨勢得到了更明確的印證。
傳統(tǒng)技術(shù)的手語識別階段(時間大約為2000年至2011年),HMMs、SVM和DTW等是主流技術(shù)。特別是將HMMs技術(shù)引入到手語識別領(lǐng)域,對手語的時序建模取得了較好效果。這一階段,手語識別的研究主要集中在手指語和孤立靜態(tài)手語(手勢)識別,利用數(shù)據(jù)手套獲取數(shù)據(jù)集。現(xiàn)代人工智能技術(shù)階段(時間大約從2012至今),CNN、3D-CNN、YOLO和各類深度神經(jīng)網(wǎng)絡(luò)及其變型(如ResNet、VGG-Nets、Faster R-CNN、CapsNet等)出現(xiàn)。這一階段,手語識別的研究主要集中在大規(guī)模手語和實時、連續(xù)手語識別,利用數(shù)據(jù)傳感器(如Kinect、Leap Motin等)和高清攝影攝像獲取更高質(zhì)量的數(shù)據(jù)集。同時,面部表情識別、復雜背景處理和3D手語識別等也引起了學者的研究興趣。另外,前期運用廣泛的HMMs、SVM等技術(shù)也被嫁接應(yīng)用到一些混合模型。總體而言,手語識別從傳統(tǒng)技術(shù)向基于計算機視覺和人工智能轉(zhuǎn)變,從單一模型向混合模型轉(zhuǎn)變。
在橫向?qū)Ρ壬?,中國手語識別與其他手語識別技術(shù)研究典型代表(如美國手語、印度手語和阿拉伯手語等)相比,處于伯仲之間。如表2所示,其他國家的手語識別也采用了豐富的識別方法和技術(shù),機器學習中的支持向量機和隱式馬爾科夫模型在前期也應(yīng)用頻繁,近年來各國也更偏向于各類深度神經(jīng)網(wǎng)絡(luò)和多模型融合。英美手語有典型的主題和注解型結(jié)構(gòu),英國手語里普遍采用“賓語—主語—動詞”語序句式,美國手語的簡單句多采用“主語—動詞—賓語”語序。美國手語更多的是一種視覺性語言,不是口頭語言,它用一只或兩只手來打手勢,依靠手部形狀、手勢的空間擺放、打手勢時手部的方向以及手部運動等視覺成分來表達意義,使用美國手勢語不用說話,也不用擴聲。相比而言,中國手語表達蘊含了中文的復雜內(nèi)涵,涉及句型、語法和語義等多個方面,不像英語系的表達簡潔明了,僅這點而言,中國手語識別的難度明顯較大,對識別方法和技術(shù)提出了更高的要求。此外,從時間線上看,國內(nèi)在一些熱點技術(shù)研究上略微滯后。一方面說明我們的創(chuàng)新性還有待提升,同時也說明中國手語識別的轉(zhuǎn)化和本土化需要過程。因此,我們需要挖掘一些更好更合適的中國手語識別方法和技術(shù),反向來引領(lǐng)和指導普遍的手語識別。
六、總結(jié)及展望
本文對近20年來的中國手語識別方法和技術(shù)進行了回顧和總結(jié),探討了手語識別的各個方面,包括手語數(shù)據(jù)集、數(shù)據(jù)采集技術(shù)、特征提取、分類和識別方法以及不同類型的深度神經(jīng)網(wǎng)絡(luò)、遷移學習模型等。研究發(fā)現(xiàn),前期中國手語識別方法遵循傳統(tǒng)理念,劃分若干主要階段,以捕獲手部參數(shù)為主進行分類識別,不需要海量的研究樣本,主流技術(shù)包括HMMs、SVM、DTW等。后期隨著現(xiàn)代人工智能技術(shù)的快速發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的各種識別方法發(fā)揮著越來越重要的作用。以2012年為分水嶺,中國手語識別已從傳統(tǒng)研究方法轉(zhuǎn)向基于視覺并融入深度學習和遷移學習,強調(diào)技術(shù)交叉和模型融合。
雖然目前中國手語識別整體上取得了良好的綜合評價指標,但由于手語本身和手語數(shù)據(jù)集的獨特性和復雜性,仍然存在以下值得研究的問題。
第一,優(yōu)質(zhì)的數(shù)據(jù)集。多數(shù)中國手語數(shù)據(jù)集規(guī)模過小、樣本過少、不規(guī)范、無法泛化和橫向比較,實驗性質(zhì)的研究占比高,無法應(yīng)用推廣。因此,需要擴充樣本,建設(shè)標準化的合適數(shù)據(jù)集。
第二,高效識別、精準識別。即需要解決手語識別中實時性、魯棒性、高精度和用戶獨立性問題。同時,為了更準確地轉(zhuǎn)換釋義,一些手語識別需要補充連續(xù)手語特征的融合信息以及嘴唇和面部表情的協(xié)調(diào)信息,還需要妥善解決手語行為受背景干擾,光線、角度和操作標準化的影響問題。
第三,新模型、新算法的使用。算法和模型的迭代更新非常迅速,因此要與時俱進,嘗試更好的識別方法和模型,同時要注意協(xié)調(diào)模型精度和計算負荷的矛盾問題。
未來,新技術(shù)的不斷發(fā)展和科學領(lǐng)域的交叉融合必將催化中國手語識別的進步和提升?;旌暇W(wǎng)絡(luò)模型、深度學習及人工智能技術(shù)等將進一步推動手語識別相關(guān)的理論研究和算法創(chuàng)新,中國手語識別必將取得更大更高質(zhì)量的發(fā)展。
【參考文獻】
[1]閆思伊,薛萬利,袁甜甜.手語識別與翻譯綜述[J].計算機科學與探索,2022(16):2415-2429.
[2]Johnston T,Schembri A.Australian sign language(Auslan):An introduction to sign language linguistics[M].New York:Cambridge University Press,2007:1-10.
[3]Von Aaris U,Kraiss K F.Towards a video corpus for signer-independent continuous sign language recognition[C]. Lisbon:Springer,2007:2-10.
[4]Cooper H,Ong E J,Pugeault N,et al.Sign language recognition using sub-units[J].The Journal of Machine Learning Research,2012(13):2205-2231.
[5]Camgoz N C,Hadfield S,Koller O,et al.Neural sign language translation[C]. Salt Lake City:IEEE,2018:7784-7793.
[6]Neidle C,Thangali A,Sclaroff S.Challenges indevelopment of the American sign language lexicon video dataset(ASLLVD) corpus[C]. Paris:ELRA,2012:1-8.
[7]De Amorim C C,Zanchettin C.ASLS-keleton 3D and ASL-phono:two novel datasets for the American sign language[J]. ArXiv,2022(3):2-65.
[8]Neidle C,Oooku A,Metaxas D.ASL video corpora & sign bank:resources available through the American sign language linguistic research project(ASLLRP)[J]. ArXiv,2022(8):78-99.
[9]Li D,Opazo C R,Yu X,et al.Word-level deep sign language recognition from video:a new large-scale dataset and methods comparison[C]. Snowmass,2020:1459-1469.
[10]Duarte A,Palaskar S,Ventura L,et al.How 2sign:a large-scale multimodal dataset for continuous Ame-rican sign language[C]. Nashville:IEEE,2021:2735-2744.
[11]Fenlon J,Cormier K,Rentelis R,et al.BSL sign bank:a lexical database of British sign language[DB/OL].(2022-11-26)[2023-12-15].http://bslsig-nbank.ucl.ac.uk.
[12]Schembri A,F(xiàn)enlon J,Rentelis R,et al.British sign language corpus project:a corpus of digital video data and annotations of British sign language[DB/OL].(2022-11-26)[2023-12-15].http://www.bslco-rpusproject.org.
[13]Adaloglou N,Chatzis T,Papastratic I,et al.A comprehensive study on deep learning-based methods for sign language recognition[J].IEEE Transactions on Multimedia,2022(24):1750-1762.
[14]Radboud Universiteit. NGT corpus[DB/OL].(2022-11-26)[2023-12-15].http://www.ru.nl/cor-pusngt/.
[15]全國哲學社會科學工作辦公室.基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究[R/OL].(2022-11-26)[2023-12-15].http://www.nopss.gov.cn/GB/352519/355466/.
[16]趙曉馳,任媛媛,丁勇.國家手語詞匯語料庫的建設(shè)與使用[J].中國特殊教育,2017(1):43-47.
[17]Chai X,Wang H,Chen X.The DEVISIGN Large vocabulary of Chinese sign language database and baseline evaluations[R]. Beijing:Technical Report VIPL-TR-14-SLR-001,2014.
[18]Wang F,Du Y X,Wang G R,et al.(2+1)DSLR:an efficient network for video sign language recognition[J].Neural Computing and Applications,2022(34):2413-2423.
[19]Huang J,Zhou W H,Zhang Q L,et al.Video based sign language recognition without temporal segmenta-tion[C]. Louisiana:AAAI,2018:275.
[20]陳曉燕.中國電視手語傳譯中的非手部策略[D].廈門:廈門大學,2014.
[21]吳蕊珠,李晗靜,呂會華,等.面向ELAN軟件的手語漢語平行語料庫構(gòu)建[J].中文信息學報,2019(33):43-50.
[22]劉學達.中國手語語料庫高頻詞初步分析及標注探討[D].上海:上海外國語大學,2022.
[23]北京師范大學國家手語和盲文研究中心.國家手語和盲文研究中心主持制定的《國家通用手語常用詞表》發(fā)布[J].教育學報,2018(3):54-54.
[24]倪蘭,和子晴.上海手語翻譯服務(wù)需求與現(xiàn)狀調(diào)查[J].中國翻譯,2022(43):113-119.
[25]Haralick R M,Shanmugam K,Dinstein I H.Textural features for image classification[J].IEEE Transactions on Systems,Man,and Cybernetics,1973(6):610-621.
[26]Gao Y,Xue C,Wang R,et al.Chinese fingerspelling recognition via gray-level co-occurrence matrix and fuzzy support vector machine[J]. ICST Transactions on e-Education and e-Learning,2020(20):166554.
[27]Silanon K. Thai finger-spelling recognition using a cascaded classifier based on histogram of orientation gradient features[J].Computational Intelligence and Neuroscience,2017(8):1-11.
[28]Ming H.A new facial expression recognition method for deep autoencoder[J].Journal of Southwest Normal University:Natural Science Edition,2019(7):81-86.
[29]Mou Y,Guo Y.Research on sparse coding sign language recognition method based on HOG features[J].Microprocessor,2020(5):50-57.
[30]Jiang X,Zhu Z.Chinese sign language identifica-tion via wavelet entropy and support vector machine[C]. Dalian:Spinger,2019:726-736.
[31]Tharwat A,Gaber T,Hassanien A E,et al. Sift-based Arabic sign language recognition system[C].Cham:Springer,2015:359-370.
[32]Lowe D.Distinctiveimage features from scale-invariant keypoints[J]. International Journal of Com-puter Vision,2004(2):91-110.
[33]Alexandre L,Salvador S J,Rodrigues J. Pattern vecognition and image analysis[C]. Cham:Springer,2017:419-426.
[34]陳梯,孫杳如.基于快速魯棒性特征和隱馬爾可夫模型的手語識別[J].現(xiàn)代計算機(專業(yè)版),2018(3):15-18+25.
[35]Zhang Y,Wang S,Dong Z.Classi-cation of alzh-eimer disease based on structural magnetic resonance imaging by kernel support vector machine decision tree[J]. Progress in Electromagnetics Research,2014(144):171-184.
[36]劉小建,張元.基于多特征提取和SVM分類的手勢識別[J].計算機工程與設(shè)計,2017(4):953-958.
[37]張露.基于DTW的單個手語識別算法[J].現(xiàn)代計算機(專業(yè)版),2016(8):77-80.
[38]魏秋月,劉雨帆.基于Kinect和改進DTW算法的動態(tài)手勢識別[J].傳感器與微系統(tǒng),2021(11):127-130.
[39]Sepp H,Jürgen S.Long shortterm memory[J].Neural Computation,1997(8):1735-1780.
[40]毛晨思.基于卷積網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)的中國手語詞識別方法研究[D].合肥:中國科學技術(shù)大學,2018.
[41]Su R,Chen X,Cao S,et al.Random forest-based recognition of isolated sign language subwords using data from accelerometers and surface electromyographic sensors[J].Sensors,2016(1):100-105.
[42]Jiang X,Zhang Y D. Chinese sign language fing-erspelling via six-layer convolutional neural network with leaky rectified linear units for therapy and rehabilitation[J]. Journal of Medical Imaging and Health Informatics,2019(9):2031-2090.
[43]Jiang X,Lu M,Wang S H. An eight-layer convolutional neural network with stochastic pooling,batch normalization and dropout for fingerspelling recognition of Chinese sign language[J]. Multimedia Tools and Applications,2019(79):5697-15715.
[44]趙一丹.基于深度學習的手語識別算法研究[D].西安:西安工業(yè)大學,2019.
[45]楊光義,丁星宇,高毅,等.基于注意力機制的復雜背景連續(xù)手語識別[J].武漢大學學報(理學版),2023(1):97-105.
[46]Daniels,Steve,Nanik S,et al.Indonesian sign language recognition using YOLO method[C]. London:IOP Publishing,2021:12-29.
[47]Zhang X,Lei A,Su X.A Chinese traditional sign language pinyin database model based on YOLOv5[J].Television Technology,2023(4):38-42.
[48]張強.基于改進YOLOv3的手勢識別方法研究[D].合肥:合肥工業(yè)大學,2019.
[49]郝子煜,阿里甫·庫爾班,李曉紅,等.基于CapsNet的中國手指語識別[J].計算機應(yīng)用研究,2019(10):3157-3159.
[50]Fatmi R,Rashad S,Integlia R.Comparing ANN,SVM,and HMM based machine learning methods for American sign language recognition using wearable motion sensors[C]. Las Vegas:IEEE,2019:290-297.
[51]Xie M,Ma X.End-to-end residual neural network with data augmentation for sign language recognition[C].Chengdu:IEEE,2019:1629-1633.
[52]Plouffe G,Cretu A M. Static and dynamic hand gesture recognition in depth data using dynamic time warping[J].IEEE Trans Instrum Meas,2015(2):305-316.
[53]Abhishek K S,Qubeley L C K,Ho D.Glove-based hand gesture recognition sign language translator using capacitive touch sensor[C]. Hong Kong:IEEE,2016:334-337.
[54]Pan T Y,Lo L Y,Yeh C W,et al.Realtime sign language recognition in complex background scene based on a hierarchical clustering classification method[C].Chengdu:IEEE,2016:64-67.
[55]Susa J A B,Macalisang J R,Sevilla R V,et al. Implementation of security access control using American sign language recognition via deep learning approach[C]. Jamshoro:ICETELL,2022:1-5.
[56]Amin M S,Rizvi S T H,Mazzei A,et al.Assistive data glove for isolated static postures recognition in American sign language using neural network[J].Electronics,2023(8):1904.
[57]Wadhawan A,Kumar P.Deeplearning-based sign language recognition system for static signs[J].Neural Computing and Applications,2020(5):7957-7968.
[58]Raheja J,Mishra A,Chaudhary A.Indian sign language recognition using SVM[J].Pattern Recog-nition and Image Analysis,2016(2):434-441.
[59]Sajanraj T D,Beena M.Indian sign language numeral recognition using region of interest convoluti-onal neural network[C]. Coimbatore:ICICCT,2018:636-640.
[60]Suri K,Gupta R.Convolutional neural network array for sign language recognition using wearable IMUs[C]. Noida:SPIN,2019:483-488.
[61]Vkishore P V,Prasad M V D,Prasad C R,et al.4-camera model for sign language recognition using elliptical fourier descriptors and ANN[C]. Guntur:IEEE,2015:34-38.
[62] De Castro G Z,Guerra R R,Guimar?es F G.Automatic translation of sign language with multi-stream 3D CNN and generation of artificial depth maps[J].Expert Systems with Applications,2023(2):119394.
[63]Sidig A A I,Luqman H,Mahmoud S A.Arabic sign language recognition using vision and hand tracking features with HMM[J].International Journal of Intelligent Systems Technologies and Applications,2019(5):430-447.
[64]Tubaiz N,Shanableh T,Assaleh K.Glove-based continuous Arabic sign language recognition in user-dependent mode[J].IEEE Transactions on Human-Machine Systems,2015(4):526-533.
[65]Mohandes M,Aliyu S,Deriche M.Arabic sign language recognition using the leap motion controller[C].Cham:Springer,2014:960-965.
[66]Saleh Y,Issa G.Arabic sign language recognition through deep neural networks fine-tuning[J].iJOE,2020(5):71-83.
[67]Deriche M,Aliyu S O,Mohandes M. An intelligent Arabic sign language recognition system using a pair of LMCS with GMM based classification[J].IEEE Sensors Journal,2019(18):8067-8078.
[68]Alawwad R A,Bchir O,Ismail M M B.Arabic sign language recognition using faster R-CNN[J].International Journal of Advanced Computer Science and Applications,2021(3):1-10.
[69]Latif G,Mohammad N,Khalaf R A l,et al.An automatic Arabic sign language recognition system based on Deep CNN:an assistive system for the deaf and hard of hearing[J].International Journal of Computing and Digital Systems,2020(4):715-724.
Review of Chinese Sign Language Recognition Methods and Technologies
JIANG Xianwei ? SUN Jiling ? ZHANG Yanqiong ? WANG Liping ? JIANG Xiaoyan ? HAN Xue
Abstract:Chinese Sign Language has its own unique cultural connotations and complex expressions,and it is an important means for more than 30 million hearing-impaired people to integrate into society.Sign language recognition technology can assist individuals with hearing impairments in bridging communication gaps and establishing effective communication with those who can hear.Chinese sign language recognition methods have gone through roughly two stages of traditional technology recognition and modern intelligent recognition.The former mainly includes four stages of data collection,preprocessing,feature extraction,and classification recognition.Hidden Markov Models(HMMs),Support Vector Machines(SVM),and Dynamic Time Warping(DTW)are mainstream technologies.It achieves recognition based on hand data without relying on extensive sample data.The latter mainly combines deep neural network and artificial intelligence technology,emphasizing deep learning,transfer learning,and technology integration.The model is highly dependent on the amount of sample data.China has started to extensively develop various sign language corpora,but it requires further standardization and promotion.
Key words:sign language recognition technologies;corpus,deep neural network,transfer learning
Authors:JIANG Xianwei,associate professor,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038),jxw@njts.edu.cn;SUN Jiling,ZHANG Yanqiong,JIANG Xiaoyan,associate professor,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038);WANG Liping,professor,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038);HAN Xue,lecturer,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038).
(特約編校:張居曉)