国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

手語(yǔ)識(shí)別與翻譯綜述

2022-11-15 16:17閆思伊薛萬(wàn)利袁甜甜
計(jì)算機(jī)與生活 2022年11期
關(guān)鍵詞:手語(yǔ)卷積特征

閆思伊,薛萬(wàn)利+,袁甜甜

1.天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津300384

2.天津理工大學(xué) 聾人工學(xué)院,天津300384

根據(jù)全國(guó)第二次殘疾人抽樣調(diào)查,目前我國(guó)聽(tīng)障人數(shù)接近3 000 萬(wàn),是國(guó)內(nèi)最大數(shù)量的殘障群體,手語(yǔ)是聽(tīng)障人士交流表達(dá)的主要手段。無(wú)障礙溝通是廣大聽(tīng)障人群打破信息孤島、進(jìn)行平等社會(huì)交流的重要途徑[1]。實(shí)現(xiàn)聽(tīng)障人士無(wú)障礙溝通的主要需求是健聽(tīng)人士能夠知曉聽(tīng)障人的手語(yǔ)表達(dá)。隨著人工智能技術(shù)的發(fā)展特別是計(jì)算機(jī)視覺(jué)研究與自然語(yǔ)言處理研究的進(jìn)步,使得這一需求的實(shí)現(xiàn)成為可能。手語(yǔ)識(shí)別與翻譯研究正是為實(shí)現(xiàn)上述需求的具體研究任務(wù)。如圖1所示,手語(yǔ)識(shí)別是指將手語(yǔ)視頻中所做手語(yǔ)動(dòng)作對(duì)應(yīng)的文字注釋(Gloss)順序地識(shí)別出來(lái),而手語(yǔ)翻譯是指將對(duì)應(yīng)的手語(yǔ)視頻直接翻譯為健聽(tīng)人交流時(shí)所用的自然口語(yǔ)語(yǔ)句。

圖1 手語(yǔ)識(shí)別和翻譯流程Fig.1 Pipeline of sign language recognition and translation

手語(yǔ)識(shí)別和翻譯研究主要包括視覺(jué)感知和語(yǔ)言理解兩部分:基于計(jì)算機(jī)視覺(jué)技術(shù)感知手語(yǔ)視頻圖像對(duì)應(yīng)深層特征;基于自然語(yǔ)言處理理解手語(yǔ)視頻對(duì)應(yīng)文本信息。這種基于感知和理解的研究思路,更接近人的思考過(guò)程。

當(dāng)前,對(duì)于手語(yǔ)識(shí)別與翻譯的研究主要集中在手語(yǔ)識(shí)別任務(wù)。手語(yǔ)識(shí)別的目標(biāo)是將手語(yǔ)視頻自動(dòng)翻譯成相應(yīng)的手語(yǔ)注釋。根據(jù)所使用的數(shù)據(jù)集不同,手語(yǔ)識(shí)別可以細(xì)分為孤立詞手語(yǔ)識(shí)別和連續(xù)手語(yǔ)詞識(shí)別[2]。

孤立詞手語(yǔ)識(shí)別是一種細(xì)粒度的動(dòng)作識(shí)別,每個(gè)視頻只對(duì)應(yīng)一個(gè)手語(yǔ)的注釋[3-8]。孤立詞手語(yǔ)識(shí)別的主流方案是將整個(gè)句子分割成若干手勢(shì)片段,再進(jìn)行單獨(dú)識(shí)別[9]。孤立詞手語(yǔ)識(shí)別主要關(guān)注對(duì)注釋場(chǎng)景的分割,方法上更類似于動(dòng)作識(shí)別研究。為了避免像孤立詞手語(yǔ)識(shí)別一樣,需要大量人力對(duì)手語(yǔ)視頻中的手語(yǔ)手勢(shì)進(jìn)行分割,因此,引入連續(xù)手語(yǔ)識(shí)別研究。

連續(xù)手語(yǔ)識(shí)別是指將一個(gè)手語(yǔ)視頻,在弱監(jiān)督的情況下(只進(jìn)行句子級(jí)別的標(biāo)注而非幀級(jí)標(biāo)注),映射為一個(gè)注釋序列(gloss sequence),且該注釋序列中Gloss順序與視頻中對(duì)應(yīng)的手勢(shì)片段的順序一致,即符合手語(yǔ)語(yǔ)法的文本序列。相較于孤立詞手語(yǔ)識(shí)別,連續(xù)手語(yǔ)識(shí)別不再需要對(duì)手語(yǔ)視頻中的手勢(shì)片段進(jìn)行繁重的人為分割。

基于自然語(yǔ)言發(fā)展而來(lái)的手語(yǔ),其目的是快速便捷地利用肢體動(dòng)作、面部表情等進(jìn)行交流,因而形成一套獨(dú)特的語(yǔ)法規(guī)則。通常,一段手語(yǔ)視頻對(duì)應(yīng)聽(tīng)障人士表達(dá)的文本序列會(huì)和對(duì)應(yīng)的聽(tīng)障人士理解的自然語(yǔ)言序列存在差異性。為了便于健聽(tīng)人群對(duì)手語(yǔ)的理解,需要對(duì)手語(yǔ)視頻進(jìn)行翻譯研究以得到對(duì)應(yīng)的呈現(xiàn)口語(yǔ)化的自然語(yǔ)言文本序列,這一過(guò)程就是手語(yǔ)翻譯研究。手語(yǔ)翻譯研究的目標(biāo)是從連續(xù)手語(yǔ)視頻中提取對(duì)應(yīng)的符合自然語(yǔ)言語(yǔ)法規(guī)則的文本表達(dá)。因此,手語(yǔ)翻譯研究任務(wù)需要結(jié)合計(jì)算機(jī)視覺(jué)感知和自然語(yǔ)言處理理解。根據(jù)不同研究范式,手語(yǔ)翻譯框架可分為:手語(yǔ)視頻到文本(sign2-text,S2T)和手語(yǔ)視頻到注釋到文本(sign2gloss2text,S2G2T)。S2T是將連續(xù)的手語(yǔ)視頻直接翻譯成口語(yǔ)句子,而S2G2T 利用連續(xù)手語(yǔ)識(shí)別模型從手語(yǔ)視頻中提取注釋序列,然后通過(guò)一個(gè)預(yù)訓(xùn)練的Gloss2Text網(wǎng)絡(luò)來(lái)解決手語(yǔ)序列(sign sequence)到自然語(yǔ)言文本的翻譯[10]。

當(dāng)前,在手語(yǔ)識(shí)別與翻譯方面的綜述,國(guó)外具有代表性的工作,如2020年Koller[11]對(duì)使用德國(guó)手語(yǔ)數(shù)據(jù)集的相關(guān)研究工作進(jìn)行綜述報(bào)告,該綜述涵蓋從1983 年至2020 年約300 項(xiàng)工作,并對(duì)其中約25 項(xiàng)研究進(jìn)行了深入分析。但報(bào)告僅對(duì)RWTH-PHOENIXWEATHER-2014[12]數(shù)據(jù)集上的研究工作進(jìn)行總結(jié),缺乏基于其他數(shù)據(jù)集的研究工作介紹。國(guó)內(nèi)相關(guān)手語(yǔ)識(shí)別與研究方面的綜述則更多關(guān)注手語(yǔ)識(shí)別方面[13-15]。為了便于研究者對(duì)手語(yǔ)識(shí)別與翻譯、主流手語(yǔ)數(shù)據(jù)集及評(píng)測(cè)指標(biāo)等方面進(jìn)行快速全面的了解,本文對(duì)當(dāng)前主流手語(yǔ)識(shí)別和翻譯研究進(jìn)行了詳細(xì)的概括和總結(jié)。

1 手語(yǔ)識(shí)別和翻譯研究工作總結(jié)

本章將分別從手語(yǔ)識(shí)別研究和手語(yǔ)翻譯研究?jī)煞矫孢M(jìn)行相關(guān)工作總結(jié)。其中,手語(yǔ)識(shí)別研究將進(jìn)一步細(xì)分為孤立詞手語(yǔ)識(shí)別和連續(xù)手語(yǔ)識(shí)別;手語(yǔ)翻譯研究將從手語(yǔ)視頻到文本和手語(yǔ)視頻到注釋到文本兩個(gè)分支進(jìn)行簡(jiǎn)單介紹。

1.1 手語(yǔ)識(shí)別研究任務(wù)

手語(yǔ)識(shí)別框架通常包括視覺(jué)特征提取、識(shí)別模型兩部分。前者用于手語(yǔ)視頻的高維特征描述,后者則通過(guò)對(duì)齊約束提升模型的泛化能力。下面將分別從孤立詞手語(yǔ)識(shí)別和連續(xù)手語(yǔ)識(shí)別兩方面對(duì)當(dāng)前主流研究方法進(jìn)行總結(jié)。

1.1.1 孤立詞手語(yǔ)識(shí)別

(1)基于非深度學(xué)習(xí)的視覺(jué)特征的孤立詞手語(yǔ)識(shí)別

視覺(jué)特征提取是手語(yǔ)識(shí)別研究的關(guān)鍵。早期的孤立詞手語(yǔ)識(shí)別研究,在視覺(jué)特征提取時(shí)以非深度學(xué)習(xí)的手工特征為主。例如,以手部形狀特征作為視覺(jué)特征[16]?;谑中蔚姆椒梢苑从诚鄬?duì)簡(jiǎn)單的手勢(shì)的含義,但無(wú)法應(yīng)對(duì)復(fù)雜連貫手語(yǔ)視頻下的手語(yǔ)識(shí)別任務(wù)。

為了解決具有連貫動(dòng)作的孤立詞手語(yǔ)識(shí)別,一些研究諸如,尺度不變特征轉(zhuǎn)換(scale-invariant feature transform,SIFT)[17]、方向梯度直方圖(histogram of oriented gradient,HOG)[18]、時(shí)空關(guān)鍵點(diǎn)(spatial temporal interesting points,STIPs)[19]和內(nèi)核描述符[20]等二維特征描述子進(jìn)行視覺(jué)特征提取。但特征僅在目標(biāo)單一且清晰的情況下才能表現(xiàn)出良好的識(shí)別性能。為了解決手語(yǔ)視頻中的手勢(shì)遮擋挑戰(zhàn),研究者們提出了3D/4D 時(shí)間空間特征[21]和隨機(jī)占用模式特征[22]。進(jìn)一步,為了解決深度圖中存在的噪聲和遮擋問(wèn)題,Miranda等人[23]使用時(shí)空占用模式[24]來(lái)表征人類手勢(shì)的四維時(shí)空模式,以充分利用空間和時(shí)間的背景信息,同時(shí)允許類內(nèi)多樣性。Zhang等人[25]提出了一種基于隱馬爾可夫模型軌跡建模的孤立詞手語(yǔ)識(shí)別方法,重點(diǎn)設(shè)計(jì)了一種新的基于形狀上下文的曲線特征描述符。

為了提升孤立詞手語(yǔ)識(shí)別的魯棒性,Yin 等人[26]設(shè)置了包含一組手語(yǔ)引用和相應(yīng)的距離度量的魯棒性模型。Zheng 等人[27]提出一種基于三維運(yùn)動(dòng)圖的面向梯度金字塔直方圖的描述子來(lái)識(shí)別人體手勢(shì)的深度圖,該描述子能夠在不同空間網(wǎng)格大小下刻畫局部信息。

在基于非深度學(xué)習(xí)的特征的孤立詞手語(yǔ)識(shí)別研究中,在識(shí)別方案部分,通常采用的方法有模板匹配、字典學(xué)習(xí)、視覺(jué)詞袋[28-29]、條件隨機(jī)場(chǎng)[30]、隨機(jī)森林[31]、支持向量機(jī)[32]和隱馬爾可夫模型[33]等。支持向量機(jī)[34]由于具備較好的預(yù)測(cè)泛化能力而受到研究者的關(guān)注[35]。Pu 等人[36]將兩種模態(tài)的手語(yǔ)視覺(jué)特征融合并輸入到支持向量機(jī)分類器中進(jìn)行訓(xùn)練。Kumar[37]通過(guò)離散小波變換提取手工特征經(jīng)過(guò)處理后采用支持向量機(jī)進(jìn)行分類。隱馬爾可夫模型其變體在手語(yǔ)識(shí)別研究中同樣得到廣泛的應(yīng)用。例如,Guo等人[38]利用隱馬爾可夫模型狀態(tài)自適應(yīng)方法,建立每個(gè)手語(yǔ)詞的學(xué)習(xí)模型。

(2)基于深度學(xué)習(xí)的視覺(jué)特征的孤立詞手語(yǔ)識(shí)別

由于非深度學(xué)習(xí)的特征不能很好地適應(yīng)手語(yǔ)復(fù)雜動(dòng)態(tài)的手勢(shì)及其他關(guān)鍵身體部位的變化,一些研究者采用深度學(xué)習(xí)的視覺(jué)特征進(jìn)行孤立詞手語(yǔ)識(shí)別中的視覺(jué)特征建模??紤]到長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)能夠很好地對(duì)時(shí)間序列的上下文信息進(jìn)行建模,Liu 等人[39]提出了一種端到端的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)孤立詞手語(yǔ)識(shí)別方案。Hu 等人[40]利用深度殘差網(wǎng)絡(luò)(deep residual network,ResNet)提取視覺(jué)特征信息,并進(jìn)行全局與局部增強(qiáng)。Huang等人[2]提出一種基于注意力模型的三維卷積神經(jīng)網(wǎng)絡(luò)用于刻畫手語(yǔ)視頻的時(shí)空特征。Wang等人[41]融合二維和一維深度學(xué)習(xí)模型提取視頻幀中的時(shí)空特征。Hu等人[42]在手部深度學(xué)習(xí)的特征模型中引入手部先驗(yàn)信息,提供從語(yǔ)義特征到緊湊手部姿態(tài)表示的映射。特別的,Wu 等人[43]提出一種通用的半監(jiān)督分層動(dòng)態(tài)框架用于手勢(shì)分割和識(shí)別,將骨架特征和深度圖像作為輸入,利用學(xué)習(xí)后的隱馬爾可夫模型進(jìn)行推斷。

1.1.2 連續(xù)手語(yǔ)識(shí)別

與孤立詞手語(yǔ)識(shí)別相比,連續(xù)手語(yǔ)識(shí)別由于更復(fù)雜的手勢(shì)動(dòng)作、更長(zhǎng)的視頻序列表達(dá)而更具挑戰(zhàn)性。早期的連續(xù)手語(yǔ)識(shí)別方法,主要基于孤立詞手語(yǔ)識(shí)別展開(kāi)研究[44]。例如,部分研究利用視頻分割算法,將連續(xù)視頻序列分割成若干視頻片段,然后采用孤立詞手語(yǔ)識(shí)別方法進(jìn)行識(shí)別并整合[45]。

(1)基于卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)手語(yǔ)識(shí)別

受益于深度神經(jīng)網(wǎng)絡(luò)在視頻表示學(xué)習(xí)中的發(fā)展,基于深度學(xué)習(xí)的視覺(jué)特征的連續(xù)手語(yǔ)識(shí)別逐漸成為主流[46]。Wei等人[46]提出了一種基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)框架的多尺度感知策略,用于學(xué)習(xí)手語(yǔ)視頻的高維特征表示。針對(duì)連續(xù)手語(yǔ)識(shí)別研究中的弱監(jiān)督問(wèn)題,Koller等人[47]通過(guò)在迭代算法中嵌入卷積神經(jīng)網(wǎng)絡(luò),利用其更好的描述能力輔助細(xì)化幀級(jí)標(biāo)注進(jìn)而提升模型訓(xùn)練精度。文獻(xiàn)[48]則將卷積神經(jīng)網(wǎng)絡(luò)嵌入到隱馬爾可夫模型框架中。Li 等人[49]使用一個(gè)去除最后的全連通層的ResNet-152 網(wǎng)絡(luò)來(lái)提取任意長(zhǎng)度視頻的高維視覺(jué)特征。Cheng 等人[50]提出了一種用于在線手語(yǔ)識(shí)別的全卷積網(wǎng)絡(luò)用于學(xué)習(xí)視頻序列的時(shí)空特征。隨著三維卷積神經(jīng)網(wǎng)絡(luò)在動(dòng)作識(shí)別任務(wù)中的廣泛應(yīng)用[51-54],Zhao等人[55]提出了一種結(jié)合光流處理的三維卷積神經(jīng)網(wǎng)絡(luò)方法來(lái)提升識(shí)別精度。Liao等人[56]基于B3D-ResNet執(zhí)行長(zhǎng)期時(shí)空特征提取的任務(wù)。Yang等人[57]提出了一種結(jié)構(gòu)化特征網(wǎng)絡(luò)(structured feature network,SF-Net),通過(guò)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與三維卷積神經(jīng)網(wǎng)絡(luò)在幀級(jí)的組合創(chuàng)建一個(gè)有效的時(shí)間建模架構(gòu)。為了更好地對(duì)齊視頻片段和文本注釋,Pu等人[58]引入軟動(dòng)態(tài)時(shí)間翹曲(soft dynamic time warpping,soft-DTW)算法,提出了一種新的基于3D-ResNet 和編碼-解碼器的網(wǎng)絡(luò)結(jié)構(gòu),在soft-DTW的作用下,3D-ResNet特征提取器和編碼器-解碼器序列建模網(wǎng)絡(luò)逐步交替優(yōu)化。

(2)基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)手語(yǔ)識(shí)別

循環(huán)卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于處理序列建模問(wèn)題,如長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[59]、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM)[60]、門控循環(huán)單元網(wǎng)絡(luò)[61]等。在連續(xù)手語(yǔ)識(shí)別中,通常結(jié)合循環(huán)卷積神經(jīng)網(wǎng)絡(luò)與隱馬爾可夫模型,由于隱馬爾可夫模型需要計(jì)算先驗(yàn)估計(jì),文獻(xiàn)[62-64]嘗試用連接主義時(shí)態(tài)分類(connectionist temporal classification,CTC)方法[64-65]把路徑選擇的問(wèn)題歸納為最大后驗(yàn)估計(jì)問(wèn)題,通過(guò)引入空白類和映射法則模擬了動(dòng)態(tài)規(guī)劃的過(guò)程,從而緩解輸入序列和輸出序列的對(duì)應(yīng)難的問(wèn)題。Wang等人[66]提出了一種由時(shí)域卷積模塊、雙向門控循環(huán)單元模塊和融合層模塊組成的混合深度學(xué)習(xí)結(jié)構(gòu)進(jìn)行特征的連接融合。Xiao 等人[67]將長(zhǎng)短期記憶網(wǎng)絡(luò)與注意力網(wǎng)絡(luò)融合進(jìn)行連續(xù)手語(yǔ)識(shí)別。

(3)基于Transformer的連續(xù)手語(yǔ)識(shí)別

Transformer[68]作為一種領(lǐng)先的深層級(jí)網(wǎng)絡(luò)特征提取模型被廣泛應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音處理等領(lǐng)域。在連續(xù)手語(yǔ)識(shí)別研究中,Tunga等人[69]利用圖卷積網(wǎng)絡(luò)對(duì)手語(yǔ)演示者身體部位的關(guān)鍵點(diǎn)之間的空間關(guān)系進(jìn)行編碼,進(jìn)而挖掘幀間的時(shí)間依賴關(guān)系。Niu等人[70]使用二維卷積神經(jīng)網(wǎng)絡(luò)提取視頻序列的空間特征,用Transformer 編碼器來(lái)提取時(shí)序特征。Varol 等人[71]利用預(yù)訓(xùn)練的I3D 模型通過(guò)滑動(dòng)窗口提取時(shí)空視覺(jué)特征。然后訓(xùn)練一個(gè)2 層Transformer模型進(jìn)行手語(yǔ)識(shí)別。Zhang等人[72]將Transformer與強(qiáng)化學(xué)習(xí)相結(jié)合進(jìn)行連續(xù)手語(yǔ)識(shí)別。Yin等人[73]提出了一種基于編碼器-解碼器架構(gòu)的輕量級(jí)手語(yǔ)翻譯模型SF-Transformer用來(lái)識(shí)別手語(yǔ)。

(4)基于多線索協(xié)同的連續(xù)手語(yǔ)識(shí)別

手語(yǔ)在傳遞信息、表達(dá)思想時(shí),通常以手勢(shì)動(dòng)作配合臉部表情及身體姿勢(shì)進(jìn)行綜合表達(dá)。因此,可以簡(jiǎn)單地認(rèn)為,在手語(yǔ)識(shí)別研究中,其所表達(dá)的含義可以由多種線索共同作用[74]。Zhou 等人[74]結(jié)合基于視頻的手語(yǔ)理解與多線索學(xué)習(xí),提出一種時(shí)空多線索網(wǎng)絡(luò)來(lái)解決基于視覺(jué)的序列學(xué)習(xí)問(wèn)題,其中空間多線索通過(guò)姿態(tài)估計(jì)分支學(xué)習(xí)不同線索的空間表示,時(shí)間多線索則分別從線索內(nèi)及線索外兩個(gè)角度對(duì)時(shí)間相關(guān)性進(jìn)行建模獲得線索間的協(xié)作關(guān)系。

在手語(yǔ)識(shí)別研究中,一般將不同的信息來(lái)源定義為不同模態(tài),例如圖像特征、文本特征和利用圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)提取的骨架特征就是不同種模態(tài)。從多模態(tài)中學(xué)習(xí)各個(gè)模態(tài)的信息,并且實(shí)現(xiàn)各個(gè)模態(tài)的信息的交流和轉(zhuǎn)換。Papastratis等人[75]提出利用文本信息來(lái)改進(jìn)視覺(jué)特征進(jìn)行連續(xù)手語(yǔ)的跨模態(tài)學(xué)習(xí),模型最初使用兩個(gè)強(qiáng)大的編碼網(wǎng)絡(luò)來(lái)生成視頻和文本的特征,再將它們映射和對(duì)齊到聯(lián)合潛在特征中,最后使用聯(lián)合訓(xùn)練的解碼器對(duì)處理后的視頻特征進(jìn)行分類。Gao等人[76]設(shè)計(jì)了一種視頻序列特征和語(yǔ)言特征多模態(tài)融合的手語(yǔ)識(shí)別系統(tǒng)。Huang等人[5]基于雙流結(jié)構(gòu)從視頻中提取時(shí)空特征,其中高層流用于提取全局的信息,低層流更關(guān)注局部的手勢(shì)。

1.2 手語(yǔ)翻譯研究任務(wù)

手語(yǔ)作為一門特殊的語(yǔ)言體系,擁有一套區(qū)別于其他語(yǔ)言的語(yǔ)法規(guī)則。為了讓健聽(tīng)人士能夠高效、準(zhǔn)確地理解聽(tīng)障人士演示的手語(yǔ),則需要利用手語(yǔ)翻譯研究將手語(yǔ)視頻翻譯成口語(yǔ)化的句子。

1.2.1 手語(yǔ)視頻到文本的手語(yǔ)翻譯

手語(yǔ)翻譯的目的是從執(zhí)行連續(xù)手語(yǔ)的人的視頻中提取等效的口語(yǔ)句子。因此,一種研究方案是直接將手語(yǔ)視頻翻譯成文本,即S2T[77]。Camgoz等人[77]提出Sign2Text模型,使用基于注意力的編碼器-解碼器模型來(lái)學(xué)習(xí)如何從空間表征或手語(yǔ)注釋中進(jìn)行翻譯。Guo 等人[78]建立了一種面向手語(yǔ)翻譯的高級(jí)視覺(jué)語(yǔ)義嵌入模型。Li 等人[79]提出一種考慮多粒度的時(shí)間標(biāo)識(shí)視頻片段表示方法,減輕了對(duì)精確視頻分割的需求。雖然Sign2Text 結(jié)構(gòu)簡(jiǎn)化了手語(yǔ)翻譯模型,但容易出現(xiàn)模型的長(zhǎng)期依賴問(wèn)題。且受制于當(dāng)前技術(shù)及數(shù)據(jù)的制約,當(dāng)前手語(yǔ)視頻到文本的翻譯在沒(méi)有任何明確的中間監(jiān)督的情況下很難獲得較好的效果??紤]到手語(yǔ)注釋的數(shù)量遠(yuǎn)低于其所代表的視頻幀的數(shù)量,另一些研究者開(kāi)始引入手語(yǔ)注釋作為中間標(biāo)記,設(shè)計(jì)了手語(yǔ)到注釋到文本的手語(yǔ)翻譯(S2G2T)。

1.2.2 手語(yǔ)視頻到注釋到文本的手語(yǔ)翻譯

在基于手語(yǔ)視頻到注釋到文本的手語(yǔ)翻譯范式中,手語(yǔ)翻譯過(guò)程被分為兩個(gè)階段[80]:第一階段將手語(yǔ)識(shí)別視為一個(gè)中間標(biāo)記化組件,該組件從視頻中提取手語(yǔ)注釋;第二階段是語(yǔ)言翻譯任務(wù),將手語(yǔ)注釋映射為口語(yǔ)文本。

在Sign2Gloss2Text 的手語(yǔ)翻譯研究中,典型的工作包括:受手語(yǔ)翻譯數(shù)據(jù)集規(guī)模限制,Chen等人[80]將手語(yǔ)翻譯過(guò)程分解為視覺(jué)任務(wù)和語(yǔ)言任務(wù),提出一種視覺(jué)-語(yǔ)言映射器來(lái)連接兩者,這種解耦使得視覺(jué)網(wǎng)絡(luò)和語(yǔ)言網(wǎng)絡(luò)在聯(lián)合訓(xùn)練前能進(jìn)行獨(dú)立的預(yù)訓(xùn)練。Camgoz 等人[81]通過(guò)在手語(yǔ)翻譯中利用Transformer 融合手工和非手工特征進(jìn)行手語(yǔ)翻譯。Fang等人[82]將手語(yǔ)翻譯模型嵌入可穿戴設(shè)備。Yin等人[83]基于文獻(xiàn)[74]將預(yù)訓(xùn)練的詞表達(dá)嵌入至解碼器用于手語(yǔ)翻譯。Zhou等人[84]使用文本到注釋翻譯模型將大量的口語(yǔ)文本整合到手語(yǔ)翻譯訓(xùn)練中。Camgoz等人[10]將手語(yǔ)識(shí)別和口語(yǔ)翻譯的任務(wù)整合成一個(gè)統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行聯(lián)合優(yōu)化。為了實(shí)現(xiàn)實(shí)時(shí)手語(yǔ)翻譯,Yin等人[85]基于Transformer設(shè)計(jì)了一個(gè)端到端的手語(yǔ)同步翻譯模型,并且提出一種新的重編碼方法來(lái)增強(qiáng)編碼器的特征表達(dá)能力。

基于手語(yǔ)視頻到注釋到文本的手語(yǔ)翻譯是目前使用較多的手語(yǔ)翻譯范式。但是,一方面手語(yǔ)注釋是語(yǔ)言模態(tài)的離散表示,若注釋遺漏、誤譯部分信息,很大程度上會(huì)影響翻譯結(jié)果;另一方面,如何確保兩個(gè)階段在翻譯過(guò)程中的高效配合也是手語(yǔ)翻譯的難點(diǎn)之一。

2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)介紹

2.1 數(shù)據(jù)集介紹

2.1.1 數(shù)據(jù)采集方式簡(jiǎn)介

早期手語(yǔ)數(shù)據(jù)采集主要使用手部建模設(shè)備,如數(shù)據(jù)手套等,來(lái)進(jìn)行數(shù)據(jù)收集。利用手語(yǔ)演示者的手型、手部運(yùn)動(dòng)的軌跡和手部的三維空間位置信息來(lái)描述手勢(shì)變化的過(guò)程。Gao 等人[86]利用數(shù)據(jù)手套將采集到的手勢(shì)數(shù)據(jù)輸入到特征提取模塊,模塊輸出的特征向量輸入到快速匹配模塊生成候選單詞列表。

然而,手部建模設(shè)備不僅價(jià)格昂貴并且不易攜帶,因此一些研究人員開(kāi)始簡(jiǎn)化或消除設(shè)備上復(fù)雜傳感器,并在不同的設(shè)備部位使用不同的顏色標(biāo)記進(jìn)行數(shù)據(jù)采集。如Iwai 等人[87]利用顏色手套獲取手部實(shí)時(shí)位置和形狀。但是,使用顏色手套進(jìn)行數(shù)據(jù)采集時(shí)對(duì)手語(yǔ)演示者的著裝、環(huán)境等要求較高,否則容易引起數(shù)據(jù)偏差。

為了更好地方便手語(yǔ)者演示手語(yǔ),一些研究者通過(guò)采用非接觸式傳感設(shè)備來(lái)獲取手部的運(yùn)動(dòng)軌跡信息。如文獻(xiàn)[88]使用RealSense技術(shù)將手掌方向和手指關(guān)節(jié)的數(shù)據(jù)作為識(shí)別模型的輸入。但是,手語(yǔ)是一種結(jié)合手勢(shì)變換、臉部表情、身體姿態(tài)等多因素綜合作用的語(yǔ)言體系,僅只關(guān)注手部信息是不夠的。因此,研究者們開(kāi)始轉(zhuǎn)向基于視覺(jué)特征的手語(yǔ)識(shí)別與翻譯研究。

在采用視覺(jué)特征的手語(yǔ)識(shí)別與翻譯研究方法中,由攝像機(jī)得到手語(yǔ)演示者的彩色圖像并做相應(yīng)的圖像處理,將其用作手語(yǔ)識(shí)別模擬的輸入數(shù)據(jù)。不僅如此,一些其他模態(tài)的手語(yǔ)信息也受到關(guān)注[89],例如體感攝像機(jī),以便同時(shí)獲取視覺(jué)圖像信息、深度信息、骨架信息等??偟膩?lái)說(shuō),相較于基于非視覺(jué)的采集方式而言,基于視覺(jué)的采集方式,具備成本低、采集方便、設(shè)備依賴度低等優(yōu)勢(shì),同時(shí)在特征處理、算法模型上更具挑戰(zhàn)性。

2.1.2 公共數(shù)據(jù)集簡(jiǎn)要分析

手語(yǔ)數(shù)據(jù)集可以大致分為孤立詞手語(yǔ)數(shù)據(jù)集和連續(xù)手語(yǔ)數(shù)據(jù)集。孤立詞手語(yǔ)數(shù)據(jù)集主要用于孤立詞手語(yǔ)識(shí)別研究,由較短的手語(yǔ)單詞視頻構(gòu)成。而連續(xù)手語(yǔ)數(shù)據(jù)集主要用于連續(xù)手語(yǔ)識(shí)別與手語(yǔ)翻譯研究任務(wù),由較長(zhǎng)的手語(yǔ)句子視頻組成。表1列舉了部分手語(yǔ)數(shù)據(jù)集。

表1 手語(yǔ)數(shù)據(jù)集總結(jié)Table 1 Summary of sign language datasets

其中,目前使用較多的公共手語(yǔ)數(shù)據(jù)主要包括:RWTH-PHOENIX-WEATHER-2014[12]數(shù)據(jù)集、RWTHPHOENIX-WEATHER-2014-T[76]數(shù)據(jù)集、USTC-CCSL[5]數(shù)據(jù)集和CSL-Daily[83]數(shù)據(jù)集。

RWTH-PHOENIX-WEATHER-2014[12]是用于連續(xù)手語(yǔ)識(shí)別的德國(guó)手語(yǔ)數(shù)據(jù)集,其素材來(lái)源于9位手語(yǔ)主持人播報(bào)的天氣預(yù)報(bào)視頻。數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含5 672、540和629個(gè)數(shù)據(jù)樣本。

RWTH-PHOENIX-WEATHER-2014-T 數(shù)據(jù)集[76]可以同時(shí)用于手語(yǔ)翻譯任務(wù)和識(shí)別任務(wù),該數(shù)據(jù)集同樣來(lái)自于德國(guó)手語(yǔ)的天氣播報(bào)。數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含7 096、519 和642 個(gè)樣本。與RWTH-PHOENIX-WEATHER-2014數(shù)據(jù)集類似,同樣擁有9個(gè)手語(yǔ)演示者。

USTC-CCSL數(shù)據(jù)集[5]是目前使用最廣的中國(guó)手語(yǔ)[113]數(shù)據(jù)集,該數(shù)據(jù)集包含約25 000 段已標(biāo)記的手語(yǔ)視頻,由50 名手語(yǔ)演示者進(jìn)行手語(yǔ)演示。數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含約17 000、2 000及6 000 個(gè)樣本。特別的,該數(shù)據(jù)集采用Kinect 攝像機(jī)[114]采集數(shù)據(jù),可提供RGB視覺(jué)信息、深度信息及骨架信息。

CSL-Daily數(shù)據(jù)集[83]可用于連續(xù)手語(yǔ)識(shí)別及翻譯任務(wù),相較于USTC-CCSL,CSL-Daily 更側(cè)重于日常生活場(chǎng)景,包括家庭生活、醫(yī)療保健和學(xué)校生活等多個(gè)主題。CSL-Daily的訓(xùn)練、驗(yàn)證和測(cè)試集分別包含18 401、1 077和1 176段視頻樣本。

在連續(xù)手語(yǔ)語(yǔ)句數(shù)據(jù)集中,一部分?jǐn)?shù)據(jù)集有注釋與正常口語(yǔ)語(yǔ)序的文本對(duì)照,可用作手語(yǔ)翻譯,主要包括Boston-104[106]、RWTH-PHOENIX-WEATHER-2014-T[77]、KETI[109]、GSL[110]、MEDIAPI-SKEL corpus[111]和CSL-Daily[83]數(shù)據(jù)集。

2.2 評(píng)價(jià)指標(biāo)介紹

對(duì)于孤立詞手語(yǔ)識(shí)別,常采用準(zhǔn)確率和召回率進(jìn)行評(píng)價(jià)[115]。準(zhǔn)確率(Acc)又叫查準(zhǔn)率,表示在所有的樣本數(shù)中得到正確分類的樣本數(shù)所占據(jù)的比例。通常采用Top-1準(zhǔn)確率和Top-5準(zhǔn)確率進(jìn)行評(píng)價(jià)。前者用于預(yù)測(cè)結(jié)果中取最大的概率向量,若正確則分類結(jié)果正確,反之則錯(cuò)誤;后者預(yù)測(cè)結(jié)果中取最大的前五個(gè)概率向量評(píng)判正確性,若五個(gè)全部預(yù)測(cè)錯(cuò)誤時(shí)則預(yù)測(cè)分類結(jié)果錯(cuò)誤,反之則正確。召回率(Recall)又叫查全率,表示的是樣本中的正例有多少被預(yù)測(cè)正確。

對(duì)于連續(xù)手語(yǔ)識(shí)別,常采用誤字率和準(zhǔn)確率。誤字率(word error rate,WER)[116]作為手語(yǔ)識(shí)別研究中衡量?jī)删渲g相似度的指標(biāo)。其是指將已識(shí)別句子轉(zhuǎn)換為相應(yīng)參考句子所進(jìn)行的替換、插入和刪除操作的最小總和。

其中,S、I和D表示將假設(shè)句轉(zhuǎn)換為標(biāo)注序列所需的替換、插入和刪除操作的最小數(shù)量。N是標(biāo)注序列的單詞數(shù)。一些文章中使用準(zhǔn)確率表示手語(yǔ)識(shí)別的性能,具體公式為:

對(duì)于手語(yǔ)翻譯,評(píng)價(jià)體系參考自然語(yǔ)言翻譯研究,包括評(píng)價(jià)指標(biāo):BLEU(bilingual evaluation understudy)[117]、CIDEr(consensus-based image description evaluation)[118]、ROUGE(recall-oriented understanding for gisting evaluation)[119]和METEOR[120]。BLEU 得分是手語(yǔ)翻譯常用的評(píng)估指標(biāo)。假設(shè)一個(gè)文本由機(jī)器和人工各翻譯一次,BLEU的值為n個(gè)連續(xù)的單詞序列(n-gram)同時(shí)出現(xiàn)在機(jī)器翻譯和人工翻譯中的比例。根據(jù)n-gram可以劃分成多種評(píng)價(jià)指標(biāo),如BLEU-1、BLEU-2、BLEU-3、BLEU-4。CIDEr 是BLEU 和向量空間模型的結(jié)合。通過(guò)計(jì)算其TF-IDF向量[121]的余弦?jiàn)A角,得到各個(gè)n-gram 的權(quán)重來(lái)度量得到候選句子和參考句子的相似度。ROUGE 是通過(guò)統(tǒng)計(jì)系統(tǒng)生成的機(jī)器翻譯與人工生成的標(biāo)準(zhǔn)翻譯之間重疊的基本單元(n元語(yǔ)法、詞序列和詞對(duì))的數(shù)目,來(lái)評(píng)價(jià)翻譯的質(zhì)量。與BLEU 得分不同,METEOR 考慮到了語(yǔ)言的變化性。METEOR不僅雙向比較了機(jī)器翻譯和人工翻譯,而且還考慮到了語(yǔ)言語(yǔ)法等因素。例如在英語(yǔ)中,ride 或riding 在BLEU 方法中算作不同的詞,在METEOR中由于詞根相同,兩者算作同一個(gè)單詞。

3 手語(yǔ)識(shí)別與翻譯研究面臨的挑戰(zhàn)

3.1 手語(yǔ)視頻幀有效信息獲取

首先,手語(yǔ)視頻冗余性會(huì)導(dǎo)致關(guān)鍵幀提取困難。手語(yǔ)視頻普遍較長(zhǎng),并且有的視頻會(huì)有大量空白幀,有的任務(wù)背景過(guò)于復(fù)雜,系統(tǒng)在識(shí)別提取關(guān)鍵手勢(shì)時(shí)會(huì)遭遇困難。其次,針對(duì)連續(xù)手語(yǔ)識(shí)別,其本質(zhì)上是一種弱監(jiān)督的學(xué)習(xí)任務(wù)[122]。連續(xù)手語(yǔ)視頻中語(yǔ)義邊界是未知的,由于手語(yǔ)詞匯豐富,許多術(shù)語(yǔ)都有非常相似的手勢(shì)和動(dòng)作。而且,因?yàn)椴煌娜擞胁煌膭?dòng)作速度,同樣的手語(yǔ)注釋可能有不同的長(zhǎng)度。如何精確分割每個(gè)手勢(shì)是困難所在。如果對(duì)視頻進(jìn)行時(shí)間分割時(shí)出現(xiàn)錯(cuò)誤,會(huì)不可避免地將錯(cuò)誤傳播到后續(xù)步驟中,從而影響結(jié)果的準(zhǔn)確度。這些因素都會(huì)給手語(yǔ)視頻幀處理及特征提取帶來(lái)挑戰(zhàn)。表2 列舉了一些近年來(lái)代表性的在手語(yǔ)視頻特征處理上的研究工作。

表2 特征提取代表性工作Table 2 Representative work of feature extraction

3.2 多線索權(quán)重分配

為了有效地進(jìn)行手語(yǔ)識(shí)別與翻譯,需要從不同線索進(jìn)行融合共同指導(dǎo)模型預(yù)測(cè),因此如何綜合利用這些線索進(jìn)行多角度的手語(yǔ)特征表達(dá)也是難點(diǎn)之一。首先,簡(jiǎn)單的特征融合組合不一定比單個(gè)特征更好。其次,對(duì)于多線索而言,自適應(yīng)地為不同線索設(shè)置模型參數(shù)并非易事,每個(gè)模型中所涉及到的關(guān)鍵動(dòng)作的變化都可能會(huì)對(duì)參數(shù)造成影響。針對(duì)多線索融合問(wèn)題,需要關(guān)注的重點(diǎn)是選擇哪些線索以及如何融合這些線索。一種可行的方案是通過(guò)大量的對(duì)比實(shí)驗(yàn),找出最優(yōu)的特征融合方式,例如設(shè)置線索優(yōu)先級(jí)、動(dòng)態(tài)分配各個(gè)線索權(quán)重、設(shè)置多步融合模塊等。

3.3 手語(yǔ)語(yǔ)法和自然語(yǔ)言語(yǔ)法的對(duì)應(yīng)

根據(jù)手語(yǔ)語(yǔ)言學(xué)研究,通常一些國(guó)家的手語(yǔ)可分為自然手語(yǔ)和規(guī)約手語(yǔ)(或稱手勢(shì)手語(yǔ))。以中國(guó)手語(yǔ)舉例,中國(guó)手語(yǔ)可以分為自然手語(yǔ)和手勢(shì)漢語(yǔ)。自然手語(yǔ)主要由聽(tīng)障人士使用,具備一套體系化的語(yǔ)法規(guī)則,而手勢(shì)漢語(yǔ)是一種在口語(yǔ)語(yǔ)法的基礎(chǔ)上直接進(jìn)行手勢(shì)演練操作的人工語(yǔ)言,其和漢字具有一一對(duì)應(yīng)的關(guān)系,因此又稱書面手語(yǔ)。如何將自然手語(yǔ)和規(guī)約手語(yǔ)進(jìn)行映射是手語(yǔ)翻譯研究的挑戰(zhàn)之一?,F(xiàn)有手語(yǔ)翻譯研究大多是在連續(xù)手語(yǔ)識(shí)別的基礎(chǔ)上,結(jié)合語(yǔ)言模型得到符合口語(yǔ)化描述的自然語(yǔ)言翻譯。未來(lái)可以考慮構(gòu)建大型的文本對(duì)數(shù)據(jù)集,即自然手語(yǔ)注釋集及對(duì)應(yīng)的規(guī)約手語(yǔ)注釋集,將語(yǔ)言模型在文本對(duì)數(shù)據(jù)集上先進(jìn)行預(yù)訓(xùn)練,然后遷移至手語(yǔ)翻譯的語(yǔ)言模型中。

3.4 數(shù)據(jù)集資源

相對(duì)于手語(yǔ)識(shí)別及翻譯研究模型所需的數(shù)據(jù)規(guī)模而言,目前的手語(yǔ)數(shù)據(jù)集還遠(yuǎn)不能滿足模型需求,而基于數(shù)據(jù)驅(qū)動(dòng)的識(shí)別及翻譯方案,很容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)過(guò)擬合。且大部分?jǐn)?shù)據(jù)是在實(shí)驗(yàn)室環(huán)境下拍攝收集,而在現(xiàn)實(shí)場(chǎng)景中,存在背景多變、陰影、遮擋等眾多干擾,這更容易導(dǎo)致模型無(wú)法較好地捕捉到手部、臉部及肢體等部位的變化,從而影響識(shí)別和翻譯結(jié)果。未來(lái)研究者們可以考慮構(gòu)建規(guī)模更大、場(chǎng)景更復(fù)雜的通用手語(yǔ)數(shù)據(jù)集。

4 結(jié)束語(yǔ)

手語(yǔ)識(shí)別與翻譯是一個(gè)典型的多領(lǐng)域交叉研究方向,具備重要的研究及社會(huì)意義。由于手語(yǔ)的復(fù)雜性及當(dāng)前客觀的技術(shù)及數(shù)據(jù)方面的制約,手語(yǔ)識(shí)別與翻譯研究充滿挑戰(zhàn)性,尤其是數(shù)據(jù)量不夠造成的模型過(guò)擬合問(wèn)題以及模型過(guò)于復(fù)雜導(dǎo)致的實(shí)時(shí)性不夠的問(wèn)題。文章對(duì)近年來(lái)手語(yǔ)識(shí)別與翻譯相關(guān)研究進(jìn)行綜述,簡(jiǎn)單介紹了主流方法情況及特點(diǎn),同時(shí)介紹了手語(yǔ)識(shí)別與翻譯研究所涉及的數(shù)據(jù)集及評(píng)價(jià)方式,為研究者快速全面地了解手語(yǔ)識(shí)別與翻譯研究提供了有效的途徑。

猜你喜歡
手語(yǔ)卷積特征
離散型隨機(jī)變量的分布列與數(shù)字特征
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
自然手語(yǔ)在聾人大學(xué)生手語(yǔ)中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
從濾波器理解卷積
抓特征解方程組
不忠誠(chéng)的四個(gè)特征
無(wú)聲的世界里,怎樣唱一首歌?
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
奇怪的手語(yǔ)圖