張艷瓊 周 奕
(南京特殊教育師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院 南京 210038)
手語是一種視覺語言,其借助手的手形、運(yùn)動、位置、朝向,配合面部表情和身體姿態(tài),按照一定的語法規(guī)則來表達(dá)特定含義[1],是聽障人群生活、工作、交流的重要語言。根據(jù)世界聾人聯(lián)合會和世界衛(wèi)生組織的統(tǒng)計數(shù)據(jù),目前全球大約有4.66億聽力損失的人,已經(jīng)占到世界總?cè)丝诘?%以上。到2050年,預(yù)計將有近25億人患有一定程度的聽力損失[2]。手語識別通過利用算法和技術(shù)來識別所產(chǎn)生的手勢序列,并以文本或語音的形式闡述其意義[3],為聽障人群更好地融入社會架起了一座橋梁。手語識別涉及視頻數(shù)據(jù)的采集、特征提取、模式識別、自然語言處理等多個研究領(lǐng)域,是一項具有極大挑戰(zhàn)性的研究任務(wù)。手語識別研究可以追溯到20世紀(jì)90年代。隨著計算機(jī)視覺、人工智能等技術(shù)的發(fā)展,手語識別得到了極大的發(fā)展,成為社會各界關(guān)注的焦點。鑒于此,本文將利用信息可視化工具CiteSpace軟件,對2000—2021年手語識別研究相關(guān)的國際文獻(xiàn)進(jìn)行系統(tǒng)而全面的梳理,探究國際手語識別領(lǐng)域的現(xiàn)狀、研究熱點及發(fā)展趨勢,進(jìn)而為相關(guān)研究者提供更加直觀、有效的參考依據(jù)。
本文選用信息可視化軟件CiteSpace對文獻(xiàn)進(jìn)行分析。該軟件是美國Drexel大學(xué)陳超美教授基于JAVA平臺開發(fā)的,適用于多元、分時、動態(tài)的復(fù)雜網(wǎng)絡(luò)分析的可視化軟件[4]。此軟件通過可視化手段來呈現(xiàn)科學(xué)知識的分布、結(jié)構(gòu)和規(guī)律,其得到的可視化圖形稱為“科學(xué)知識圖譜”,擁有圖和譜的雙重特性。CiteSpace的突出特征體現(xiàn)在:(1)采用時間切片技術(shù),對連續(xù)的每個時間片進(jìn)行“抓拍”,構(gòu)建一個時序型網(wǎng)絡(luò)模型,并將這些單獨(dú)網(wǎng)絡(luò)連接成一個綜合的、全景的網(wǎng)絡(luò)圖譜,以此展現(xiàn)出該知識領(lǐng)域的演化歷程[5];(2)能自動識別出圖譜上作為知識基礎(chǔ)的引文節(jié)點文獻(xiàn)和共引聚類所表征的研究前沿。劉則淵教授將CiteSpace知識圖譜概括為“一圖展春秋,一覽無余;一圖勝萬言,一目了然”[6]。
Web of science是全球最大、覆蓋學(xué)科最多的綜合性數(shù)據(jù)庫之一。本文以Web of science核心合集為檢索數(shù)據(jù)庫,以“sign Language recognition”“the recognition of sign language”“sign Language identification”“the identification of sign language”“sign Language interpretation system”“finger Language recognition”“finger Language Identification”“finger spelling recognition”等為主題詞,文獻(xiàn)類型為article 或 Proceedings Paper,檢索時間跨度選擇2000-01-01至2021-12-31,語種選擇英文。通過人工剔除與本研究不相關(guān)的文獻(xiàn)及重復(fù)文獻(xiàn),共得到有效文獻(xiàn)1564篇。
發(fā)文量可以從側(cè)面反映出某一領(lǐng)域的研究熱度,并在一定程度上反映該領(lǐng)域?qū)W術(shù)研究的發(fā)展?fàn)顩r。通過對國際上手語識別領(lǐng)域各年度發(fā)文量進(jìn)行統(tǒng)計并以折線圖的形式對這部分?jǐn)?shù)據(jù)加以呈現(xiàn),見圖 1。
圖1 年度發(fā)文量及發(fā)文趨勢圖
根據(jù)圖1可以看出,手語識別研究發(fā)文量總體呈現(xiàn)出穩(wěn)步增長的趨勢,但是各年度的增長幅度各異。2000—2011年發(fā)文量總體增長比較緩慢,呈現(xiàn)低增長的態(tài)勢,每年的發(fā)文量均在50篇以內(nèi),12年間共發(fā)表文獻(xiàn)325篇,占總體發(fā)文量的20.78%,處于手語識別發(fā)展的第一個階段,也就是緩慢增長的初始階段。而2012—2021年手語識別領(lǐng)域的發(fā)文量呈現(xiàn)高增長的趨勢,處于發(fā)展的第二個階段,即指數(shù)增長階段。其中2014—2015年文獻(xiàn)發(fā)表量呈直線增長,這主要與計算機(jī)視覺、人工智能的快速發(fā)展有很大關(guān)系,學(xué)者們逐漸向計算機(jī)視覺、人工智能方向等最新出現(xiàn)的新方法、新技術(shù)尋求新的思路。
關(guān)鍵詞代表的是一篇文章的核心。通過關(guān)鍵詞分析,可以了解某一領(lǐng)域的研究熱點與重要研究主題。利用CiteSpace軟件,Node Type(節(jié)點)選擇“Keyword(關(guān)鍵詞)”,時間切片選擇1,選擇適當(dāng)閾值,計算方式選擇Minimum Spanning Tree與Pruning Sliced networks,對切片網(wǎng)絡(luò)進(jìn)行精剪合并。為了解決關(guān)鍵詞中含義相近及表述相近詞等問題,如Convolution neturalnetwork與Convolution natural network,需要在Project文件夾中以文本格式打開citespace.a(chǎn)lias,在其中輸入內(nèi)容@PHRASE1#@PHRASE2,表示將兩者合并。同時隱藏相關(guān)度不大的關(guān)鍵詞如“recognition”“system”等,得到手語識別關(guān)鍵詞共現(xiàn)圖譜,見圖 2。
圖2 關(guān)鍵詞共現(xiàn)圖譜
對國際手語識別領(lǐng)域的關(guān)鍵詞數(shù)據(jù)進(jìn)一步統(tǒng)計分析,可以發(fā)現(xiàn)2000—2021年國際手語識別領(lǐng)域關(guān)鍵詞頻次大于20的主題詞有26個。提取頻次排名前10的關(guān)鍵詞相關(guān)信息(排除檢索詞及相關(guān)性小的關(guān)鍵詞,如手語識別、手語、手勢識別、手勢、美國手語等),見表1。
通過分析關(guān)鍵詞共現(xiàn)圖譜圖2和表1可以看出,Deep learning(深度學(xué)習(xí))、Convolution neural network(卷積神經(jīng)網(wǎng)絡(luò),以下簡稱CNN)、Netural network(神經(jīng)網(wǎng)絡(luò))、Feature extraction(特征提取)、HMM(隱馬爾科夫模型)等節(jié)點較大,也就是說這部分主題出現(xiàn)的頻次比較高,即這些主題詞代表了國際手語識別領(lǐng)域采用的熱點技術(shù)和方式。Freeman于1977年提出中介中心性(Betweenness Centrality)的概念,用于衡量網(wǎng)絡(luò)圖譜中每個關(guān)鍵詞的地位,在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜中,關(guān)鍵詞聯(lián)系緊密程度越高則中介中心性越大[7]。由表1可知,HMM(隱馬爾科夫模型)、Netural network(神經(jīng)網(wǎng)絡(luò))、Support vector machine(支持向量機(jī))、Machinelearning(機(jī)器學(xué)習(xí))等主題詞節(jié)點的中心性相對比較高,說明這部分主題在國際手語識別領(lǐng)域中處于重要地位,起到了橋梁的作用,為之后許許多多的研究起到了支撐的作用。從圖2可以發(fā)現(xiàn),Deep learning(深度學(xué)習(xí))、Machine learning(機(jī)器學(xué)習(xí))等節(jié)點呈深色環(huán)狀,說明這兩個主題在某個時間段出現(xiàn)激增現(xiàn)象。
表1 高頻關(guān)鍵詞統(tǒng)計表(TOP10)
文獻(xiàn)共被引是指兩篇(或多篇)文獻(xiàn)同時被另一篇文獻(xiàn)所引用,則這兩篇論文構(gòu)成共被引關(guān)系。被引頻次和中心性高低可在一定程度上反映文獻(xiàn)的學(xué)術(shù)影響力和經(jīng)典程度,相關(guān)研究者往往將這些高被引文獻(xiàn)內(nèi)所包含的觀點、知識作為開展下一步研究的知識基礎(chǔ)[8]。在科學(xué)知識圖譜中,共引文獻(xiàn)包含了大量的科學(xué)知識。通過這部分文獻(xiàn),可以有效展開對國際手語識別研究領(lǐng)域知識結(jié)構(gòu)等方面的研究。文獻(xiàn)被引數(shù)量是衡量學(xué)術(shù)影響力的一個重要指標(biāo),能夠通過文獻(xiàn)追溯學(xué)科領(lǐng)域的研究演變進(jìn)程[9]。如果一篇文獻(xiàn)同時被多篇文章引用,那么就說明這幾篇文章之間有著比較大的相關(guān)性。為了更好地對這部分參考文獻(xiàn)進(jìn)行分析,本文運(yùn)用CiteSpace 中的Cited-Reference功能對之前檢索所得到的文獻(xiàn)數(shù)據(jù)進(jìn)行共被引分析,g-index中K值設(shè)置為5,計算方式選擇Minimum Spanning Tree(最小生成樹)與Pruning Sliced networks(修建切片網(wǎng)絡(luò))以減少計算量,其他參數(shù)保持默認(rèn)值,得到國際手語識別領(lǐng)域文獻(xiàn)共被引圖譜,見圖 3。
圖3 文獻(xiàn)共被引知識圖譜
在圖譜中,網(wǎng)絡(luò)中的連線代表了文獻(xiàn)之間的共同引用關(guān)系,節(jié)點半徑越大代表該文獻(xiàn)被引用得越多,即為該知識領(lǐng)域的重要文獻(xiàn)。圖3下方,半徑最大的節(jié)點是Ong SCW等人在IEEE T Pattern Anal期刊上發(fā)表的文獻(xiàn)AutomaticSignLanguageAnalysis:ASurveyandtheFutureBeyondLexicalMeaning。該文對自動手語識別技術(shù)進(jìn)行分析與總結(jié),為不同的研究提供了理論和技術(shù)的支撐[10]。通過對CiteSpace中得到的共被引文獻(xiàn)的數(shù)據(jù)進(jìn)行進(jìn)一步統(tǒng)計,得到2000—2021年與手語識別相關(guān)的10篇最高引用文章,見表 2。
從圖 3和表 2中可以看到,核心被引文獻(xiàn)發(fā)表時間主要集中于2011—2019年,這10篇高被引文獻(xiàn)基本都發(fā)表于2014年之后,可以說明2014之后手語識別技術(shù)有了新的突破,出現(xiàn)了新的研究方向和技術(shù)。其中,被引頻次最高的是Koller O等人發(fā)表在ComputVisImageUnd上的文章。該文提出了一種統(tǒng)計識別方法,針對不同的手語者進(jìn)行大詞匯量的連續(xù)手語識別,為許多新加入該領(lǐng)域的研究者提供了一個新的起點[11]。被引頻次排第二的是Pigou L等人發(fā)表在LectNotesComputSc上的文章。該文章提出了使用Kinect、CNN和CPU加速器的識別系統(tǒng),能夠高度準(zhǔn)確地識別20種意大利手勢,在交叉驗證中的準(zhǔn)確率達(dá)到了91.7%[12]。排名第四的文章是Cheok M J等人在IntJMachLearnCyb上發(fā)表的文獻(xiàn)。該文對手勢和手語研究中使用的最新技術(shù)進(jìn)行了全面的回顧[13],可以為后續(xù)研究者提供新的思路和方向。排名第五的文章是Koller O等人于2016年在ProcCvprIEEE上發(fā)表的文獻(xiàn)。該文提出了一種新的方法,通過在迭代EM算法中嵌入CNN,在弱標(biāo)記的序列數(shù)據(jù)上學(xué)習(xí)基于幀的分類器[14]。
表2 文獻(xiàn)共被引頻次(Top10)
通過對表中這部分高被引文獻(xiàn)的閱讀,發(fā)現(xiàn)這些文獻(xiàn)的主要研究對象為基于視覺的連續(xù)手語,且多篇文章對傳感器如3D運(yùn)動傳感器、Leap motion、 Kinect等進(jìn)行了研究,彌補(bǔ)了Cyblerglove(數(shù)據(jù)手套)的不足。也有作者提出了多傳感器融合的框架,這些傳感器和框架的出現(xiàn)無疑為人機(jī)交互這一領(lǐng)域提供了新的機(jī)會。近年來手語識別采用的主要研究方法為CNN以及多種混合的模型,這些新的方法成為了許多學(xué)者探索的研究方向,這也就奠定了它們高被引的基礎(chǔ)。因此,手語識別在未來一段時間的研究方向是基于深度學(xué)習(xí)技術(shù)、人機(jī)交互技術(shù)、計算機(jī)視覺的連續(xù)手語識別方面的研究與探索。
1.2000—2011年(緩慢增長階段)時序圖分析
對第一階段2000—2011年數(shù)據(jù)進(jìn)行Timezone分析,得到2000—2011年國際手語識別領(lǐng)域研究的熱點時區(qū)圖譜,隱藏比較明顯且相關(guān)度不大的節(jié)點,見圖 4。
圖4 2000—2011年關(guān)鍵詞時序圖
第一階段(2000—2011年)研究主要集中在基于傳統(tǒng)技術(shù)的手語識別,如HMM(隱馬爾科夫模型)、Support vector machine(支持向量機(jī))、Netural network(神經(jīng)網(wǎng)絡(luò))、DTW(動態(tài)時間歸整算法)等。其中HMM最早被應(yīng)用于語音識別和手寫字體的識別,識別效果良好。由于這兩者與手語識別具有一定的共通性,所以在較早的時候便有學(xué)者將它應(yīng)用于手語識別領(lǐng)域,主要用于對手語進(jìn)行時序建模。識別對象主要是針對手指語識別、孤立靜態(tài)手語識別方向,數(shù)據(jù)提取方面主要采用1990年興起的Cyblerglove(數(shù)據(jù)手套),其主要用于手部3D運(yùn)動捕捉,這一技術(shù)有助于實現(xiàn)用戶在虛擬現(xiàn)實環(huán)境中與數(shù)字物體的互動,因而在虛擬現(xiàn)實領(lǐng)域應(yīng)用較多。同時,在這一階段,人機(jī)交互領(lǐng)域得到了一定的發(fā)展,越來越多手語識別領(lǐng)域研究者的研究方向朝著人機(jī)交互的方向發(fā)展。
2.2012—2021年(指數(shù)增長階段)時序圖分析
以同樣方法對第二階段2012—2021年數(shù)據(jù)進(jìn)行Timeline分析,得到2012—2021年國際手語識別領(lǐng)域研究的熱點時區(qū)圖譜,隱藏部分比較明顯且相關(guān)度不大的節(jié)點,見圖 5。
圖5 2012—2021年關(guān)鍵詞時序圖
從圖 5中我們可以發(fā)現(xiàn),相比第一個階段(緩慢增長階段),第二個階段(指數(shù)增長階段)的主題詞的數(shù)量有了大幅的增長。在這一階段,多種數(shù)據(jù)傳感器的出現(xiàn),逐漸代替了數(shù)據(jù)手套,提高了數(shù)據(jù)采集的質(zhì)量。2010年出現(xiàn)Kinect傳感器之后,便有學(xué)者基于該傳感器進(jìn)行數(shù)據(jù)集的開發(fā),如中國手語數(shù)據(jù)集CSL[20]就是由Kinect采集的。在之后出現(xiàn)的Deep learning(深度學(xué)習(xí)),在手語識別領(lǐng)域產(chǎn)生了較大的影響,使得手語識別正確率得到極大提升,受到相關(guān)專家的追捧。CNN依托于其強(qiáng)大的特征提取能力,目前許多算法都是利用其來進(jìn)行特征提取。早期運(yùn)用廣泛的HMM、SVM等,在之后大多被應(yīng)用于混合模型進(jìn)行識別。如,Koller等人進(jìn)行了德國連續(xù)手語識別的研究,并在2016提出了一種基于CNN和HMM的混合模型,在兩個公開的大規(guī)?;鶞?zhǔn)手語數(shù)據(jù)集上取得了很好的識別效果[21]。同時,在這一階段,更多研究是基于實時、連續(xù)、大規(guī)模手語識別進(jìn)行的,同時3D手語識別、復(fù)雜背景的引入以及其他非手性特征的識別如面部識別受到部分學(xué)者青睞。
通過分析手語識別時序圖發(fā)現(xiàn),手語識別的研究從早期的靜態(tài)手語識別逐漸轉(zhuǎn)向動態(tài)實時的識別,由傳統(tǒng)的識別方式逐漸轉(zhuǎn)向基于計算機(jī)視覺的深度學(xué)習(xí)方向,從單一模型逐漸轉(zhuǎn)向混合模型。
研究前沿的演進(jìn)趨勢常常依據(jù)突現(xiàn)詞來進(jìn)行判定。Burst Term(突現(xiàn)詞)是指頻次出現(xiàn)突增。由于突現(xiàn)詞的詞頻時間分布和動態(tài)變化特征,突現(xiàn)詞比關(guān)鍵詞更能準(zhǔn)確地揭示研究前沿領(lǐng)域[22]。在CiteSpace中通過對主題詞進(jìn)行突現(xiàn)分析,共檢測出14個主題詞發(fā)生了突現(xiàn),見圖 6。
圖6 國際手語識別研究前沿
在圖 6中,“Strength”表示的是突現(xiàn)的強(qiáng)度,它的數(shù)值越大代表突現(xiàn)強(qiáng)度越高,那么該關(guān)鍵詞就有更大的可能性成為該領(lǐng)域的研究前沿。灰色線段部分對應(yīng)的是該關(guān)鍵詞發(fā)生突現(xiàn)的持續(xù)時間,黑色線段則為不發(fā)生突現(xiàn)的時間段。通過對關(guān)鍵詞突現(xiàn)率進(jìn)行進(jìn)一步排序,刪除與檢索詞相關(guān)的和沒有實際意義的關(guān)鍵詞如“hand gesture”“system”“motion”等,對剩余突現(xiàn)詞進(jìn)行排序,取突現(xiàn)詞排名前四的關(guān)鍵詞,見表 3。
表3 高突現(xiàn)率關(guān)鍵詞(Top4)
從表3中的信息可以看出,突現(xiàn)率排名前四的關(guān)鍵詞均屬于高頻關(guān)鍵詞,突現(xiàn)強(qiáng)度最高的主題詞可以代表手語識別領(lǐng)域內(nèi)較新的研究方向,即研究前沿。表3中,突現(xiàn)率最高的關(guān)鍵詞是CNN,其突現(xiàn)強(qiáng)度達(dá)到13.87。CNN是常用的深度學(xué)習(xí)模型之一,結(jié)合之前的分析可知,與CNN相關(guān)的手語識別研究自2015年起就有人開始涉足,但其突現(xiàn)時間體現(xiàn)在2019—2021年。也就是說,自2019年起突然出現(xiàn)很多學(xué)者運(yùn)用CNN來進(jìn)行手語識別的相關(guān)研究。
其次為Deep learning(深度學(xué)習(xí))和Machine learning(機(jī)器學(xué)習(xí)),它們的突現(xiàn)時間均為2018—2021年,突現(xiàn)強(qiáng)度分別是13.71和6.28。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,未來將成為國際手語識別領(lǐng)域未來很長一段時間的研究熱點。2006年Hinton等人首次提出了深度學(xué)習(xí)的方法,它的提出與發(fā)展無疑為手語識別的發(fā)展注入了新的血液。
突現(xiàn)率排名第四的是Leap Motion(體感傳感器),其突現(xiàn)率為5.00,突現(xiàn)范圍為2015—2017年。Leap motion是由2013年發(fā)布的一種深度傳感器,它將信號轉(zhuǎn)換成計算機(jī)指令。作為一種基于手勢的人機(jī)交互輸入設(shè)備,它能夠準(zhǔn)確地檢測手和手指,使用紅外線成像技術(shù)實時確定有限空間內(nèi)預(yù)定義目標(biāo)的位置[23]。正是因為這一優(yōu)勢,它得到了不少學(xué)者的關(guān)注,并將其應(yīng)用于手語識別研究中關(guān)鍵特征的提取上。雖然Leap motion有能力捕捉手和手指的三維位置,但是必須在靠近被試的地方操作。同時,由于這種基于體感設(shè)備進(jìn)行手語識別的方式,需要利用輔助設(shè)備進(jìn)行捕捉,精度容易受環(huán)境影響。所以僅在兩年內(nèi)突現(xiàn),之后則逐漸削弱。
本文通過對Web of science 核心合集中2000—2021年手語識別領(lǐng)域相關(guān)文獻(xiàn)數(shù)據(jù),從發(fā)文量、研究熱點及研究前沿等各項指標(biāo)進(jìn)行分析與總結(jié),得出以下結(jié)論。
從發(fā)文量方面來看,國際上手語識別領(lǐng)域相關(guān)研究載文量總體呈現(xiàn)出一個穩(wěn)步增長的趨勢,但是各年度的增長態(tài)勢并不平均。2000—2011年處于研究的第一個階段,即緩慢增長的初始階段;2012—2021年處于該研究的第二個階段,即呈指數(shù)型增長的階段。
從研究熱點、研究趨勢以及技術(shù)手段方面來看,研究早期主要是基于非視覺的識別系統(tǒng)來對手語特征進(jìn)行采集,如數(shù)據(jù)手套等,運(yùn)用較多的是HMM,SVM、DTW等算法。隨著技術(shù)的不斷迭代更新,機(jī)器學(xué)習(xí)、人機(jī)交互、計算視覺領(lǐng)域得到了發(fā)展,近幾年來的研究更多的是基于視覺(圖像)的識別系統(tǒng)。由于基于深度學(xué)習(xí)的手語識別利用深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和擬合能力獲取更全面、更抽象的特征,突破了傳統(tǒng)手語識別方法的局限性[24],成為手語識別領(lǐng)域的研究熱點和研究前沿。
深度學(xué)習(xí)技術(shù)極大地提高了手語識別的精度和速度,但是距離走出實驗室,達(dá)到在實時、精準(zhǔn)的真實場景下進(jìn)行手語識別的應(yīng)用目標(biāo),還有很長的一段路要走。隨著不同領(lǐng)域的交叉融合,未來手語識別將得到更大的發(fā)展,期待更多的專家學(xué)者加入手語識別研究工作中來,共同促進(jìn)手語識別水平的提高。