陶建華,楊明浩,王志良,班曉娟,解 侖,汪云海,曾 瓊, 王 飛, 王紅遷, 劉 斌,韓志帥, 潘 航, 陳文拯
1(模式識別國家重點實驗室(中國科學(xué)院 自動化研究所),北京 100190)
2(北京科技大學(xué) 計算機與通信工程學(xué)院,北京 100083)
3(山東大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 青島 266237)
4(陸軍軍醫(yī)大學(xué) 重慶西南醫(yī)院 信息科,重慶 400038)
醫(yī)療衛(wèi)生信息化建設(shè)進程使得外科手術(shù)向微創(chuàng)及精準(zhǔn)化發(fā)展,同時,對手術(shù)的安全性和舒適性提出了更高的要求.下一代手術(shù)室功能不但要滿足手術(shù)需求,還要體現(xiàn)現(xiàn)代化醫(yī)院的設(shè)施水平、醫(yī)療水平和管理水平,同時還需要將潔凈化、數(shù)字化和人性化融為一體.現(xiàn)代化手術(shù)室建設(shè)涉及室內(nèi)環(huán)境整合及控制、手術(shù)視音頻信號采集分配管理、手術(shù)及相關(guān)設(shè)備控制、醫(yī)療影像診斷資料的采集傳輸存儲、醫(yī)院信息系統(tǒng)集成及遠(yuǎn)程交互等多方面的內(nèi)容,是涵蓋醫(yī)院多科室聯(lián)合的綜合系統(tǒng)工程[1],歷史上的國內(nèi)外手術(shù)室的發(fā)展歷程可大概分為4 個階段.第1 階段:傳統(tǒng)手術(shù)室,一般是僅能對病人實施局部麻醉的小手術(shù),不需要太多的儀器設(shè)備的接入,信息基本都是人工采集記錄.第2 階段:現(xiàn)代手術(shù)室,一般都可實現(xiàn)對病人的復(fù)蘇照顧,部分信息化設(shè)備已經(jīng)逐步加以應(yīng)用,可做的手術(shù)越來越多且相對復(fù)雜.第3 階段:數(shù)字化手術(shù)室,起源于20 世紀(jì)90 年代,一般就是在目前潔凈手術(shù)室的基礎(chǔ)上,綜合應(yīng)用各種信息化設(shè)備和軟件技術(shù),實現(xiàn)通過設(shè)備來采集數(shù)據(jù)、監(jiān)控病人狀態(tài),部分遠(yuǎn)程示教,實現(xiàn)部分信息的共享[2].第4 階段:智能數(shù)字化手術(shù)室,實現(xiàn)手術(shù)室內(nèi)部的非接觸式手術(shù)識別,遠(yuǎn)程示教、手術(shù)全過程信息的管理,達(dá)到手術(shù)醫(yī)生可不離開手術(shù)臺即可精準(zhǔn)、實時地獲取病人的一切相關(guān)信息,醫(yī)生可通過信息實時、動態(tài)地掌握每一個手術(shù)詳細(xì)的細(xì)節(jié),病人家屬也可相對更加詳細(xì)地獲得手術(shù)進度,下一步實現(xiàn)人與機器更加緊密的結(jié)合,共同完成手術(shù)[3].
在上述建設(shè)條件中,無菌和非接觸環(huán)境是構(gòu)建醫(yī)療手術(shù)室的基本要求,這樣的要求使得計算機操作室和手術(shù)室通常在大多數(shù)情況下距離很近,但會在物理上隔離開.在手術(shù)中,主治醫(yī)生通常需要查看病灶圖像,如患者手術(shù)前圖像細(xì)節(jié),如血管、神經(jīng)、周圍臨近器官的空間位置等.結(jié)構(gòu)越復(fù)雜的手術(shù),主治醫(yī)生會在查看病灶上花的時間越多,以乳腺癌腫瘤手術(shù)切除為例,目前每臺手術(shù)在上述環(huán)節(jié)總體需要耗時20 分鐘~1 小時不等,患者手術(shù)時間延長會導(dǎo)致術(shù)中失血增多,臟器暴露時間長會增加感染,不利于患者的術(shù)后恢復(fù),另外還會增加手術(shù)后并發(fā)癥的風(fēng)險[4].傳統(tǒng)手術(shù)中,主治手術(shù)醫(yī)師通常是通過授意護士或者手術(shù)助理到計算機操作室操作病灶圖像.因為手術(shù)室和計算機操作室間的距離,以及手術(shù)室主治醫(yī)生和助理間不熟悉程度可能存在的意圖理解錯誤風(fēng)險,容易導(dǎo)致患者手術(shù)時間延長、失血增多、臟器暴露時間長等風(fēng)險,因此,盡量減少定位到病灶圖像的時間對于醫(yī)生和病人都很重要.
近年來,隨著人工智能技術(shù)的發(fā)展,如語音識別技術(shù)[5,6]、姿態(tài)跟蹤與理解[7-9]、手勢理解[10-13]、多模態(tài)信息融合技術(shù)等[14-19],這些技術(shù)與方法使得用戶可以通過非接觸式的方式與計算機交互,為建立新型無菌條件的非接觸式自然交互手術(shù)室提供了方法與技術(shù)上的可能.然而,在手術(shù)室環(huán)境中利用上述技術(shù)仍然存在許多挑戰(zhàn):(1)手術(shù)室環(huán)境要求醫(yī)生的穿戴盡量簡潔;(2)手術(shù)臺面以及護士及助理使得主治醫(yī)生的姿態(tài)處于遮擋環(huán)境,為準(zhǔn)確地進行姿態(tài)跟蹤帶來了挑戰(zhàn);(3)因為手術(shù)環(huán)境血液污染等,為手勢跟蹤及手勢的準(zhǔn)確理解帶了困難.盡管最新的人工智能技術(shù)取得了很大進展,但要很好地將這些技術(shù)應(yīng)用到新型無菌條件的非接觸式自然交互手術(shù)室仍然存在諸多困難.有研究認(rèn)為,恰當(dāng)?shù)亩嗤ǖ廊诤系慕换シ绞皆诒磉_(dá)效率和完整性上都要優(yōu)于單一模式[20],因此,如何在上述交互通道上,通過多通道信息融合的模式建立非接觸交互的智能手術(shù)室,提高手術(shù)環(huán)境下計算機對主治醫(yī)師的交互意圖理解,實現(xiàn)無菌狀態(tài)下手術(shù)器械及材料的準(zhǔn)確傳遞與自然、高效率的病灶圖像查閱,在減少傳統(tǒng)手術(shù)室的過多人環(huán)節(jié)的同時合理縮短手術(shù)時間,提高各個環(huán)節(jié)的效率和質(zhì)量,最大程度地消除無菌手術(shù)人員和非手術(shù)人員的交流障礙,實現(xiàn)手術(shù)室內(nèi)部的非接觸式手術(shù)識別,達(dá)到手術(shù)醫(yī)生可不離開手術(shù)臺即可精準(zhǔn)、實時地獲取病人相關(guān)信息,是下一代智能手術(shù)室的重要需求[1-4].針對上述需求,本文通過融合遮擋環(huán)境下的深度圖像人體骨架提取、手勢跟蹤與理解、手術(shù)室環(huán)境遠(yuǎn)場語音識別,多模態(tài)信息處理與融合技術(shù),構(gòu)建了無菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境,使得主治醫(yī)生在手術(shù)中可通過語音命令、手勢及上述幾種交互方式相結(jié)合快速定位到需要觀察的病灶成像.在接近實際的實驗環(huán)境中,本文建立的無菌條件的非接觸式多通道自然交互手術(shù)環(huán)境在保證精度的情況下,可顯著縮短病灶圖像的定位時間.
本文第2 節(jié)介紹相關(guān)工作.第3 節(jié)介紹無菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境的技術(shù)總體框架.第4 節(jié)和第5 節(jié)分別介紹面向無菌自然交互手術(shù)室各單一通道技術(shù)、多通道信息融合相關(guān)理論與方法.第6 節(jié)介紹相關(guān)實驗、結(jié)果及分析.第7 節(jié)給出本文的總結(jié)及展望.
無菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境主要基于遮擋環(huán)境下的深度圖像人體骨架提取、交互手勢理解、手術(shù)室環(huán)境遠(yuǎn)場語音識別,多模態(tài)信息處理與融合技術(shù)等技術(shù)構(gòu)建.本節(jié)介紹相關(guān)技術(shù)工作,并分析目前相關(guān)技術(shù)用于自然交互手術(shù)環(huán)境所存在的挑戰(zhàn).
人體骨架提取算法主要依賴于光學(xué)相機所采集的圖像或視頻信息,利用圖像或視頻特征算子[21,22]獲取人體二維骨架.然而,此類算法所提取的骨架精度受限于特征算子應(yīng)用假設(shè)的約束,且不可避免具有二維信息場所具備的空間局限性,無法表達(dá)三維相關(guān)的信息(比如遮擋),因此,難以滿足實際應(yīng)用需求[23].近年來,隨著三維掃描技術(shù)的日益成熟,愈來愈多的算法利用三維深度信息提取三維人體骨架,通過融合激光掃描儀、深度相機等設(shè)備采集的三維信息,采用幾何處理的辦法提取人體三維骨架.目前,人體骨架提取的研究正逐步由靜態(tài)的簡單結(jié)構(gòu)化場景向動態(tài)的非結(jié)構(gòu)化群體遮擋復(fù)雜場景轉(zhuǎn)化,由二維骨架提取發(fā)展為三維骨架提取.然而,這類方法存在的問題在于:激光掃描儀不僅造價過高,而且所獲取的點云存在較多噪聲,難以與圖像信息匹配,不適合于復(fù)雜場景;深度相機由于其硬件的限制,僅能夠獲取一定范圍內(nèi)的深度信息,且無法精細(xì)化處理遠(yuǎn)距離場景下手勢等細(xì)粒度應(yīng)用[24,25].
為了從無標(biāo)記運動采集數(shù)據(jù)中提取精確的三維人體骨架,深度學(xué)習(xí)理論與技術(shù)的發(fā)展為解決這一問題提供了重要思路[26-28].Belagiannis 等人[29]基于手術(shù)室場景中布置的多個光學(xué)相機提取人體三維骨架,該方法首先構(gòu)造手術(shù)室場景下的二維人體姿態(tài)庫,利用卷積神經(jīng)網(wǎng)絡(luò),根據(jù)目標(biāo)檢測所獲取的人體提取相應(yīng)二維骨架,然后基于條件隨機場(conditional random field)以結(jié)構(gòu)化支持向量機(structure SVM)及將不同視角獲取的二維姿態(tài)對應(yīng)到三維人體骨架.然而,該方法依賴于目標(biāo)檢測算法,其分階段式的三維姿態(tài)估計(先估計二維姿態(tài),再轉(zhuǎn)換成三維姿態(tài))易造成不同階段的累積誤差.Kadkhodamohammadi 等人[30]探索了手術(shù)室場景下基于單視角RGB-D 提取人體三維骨架的算法,該方法拓展了傳統(tǒng)骨架提取圖結(jié)構(gòu)(pictorial structure)[31]框架,利用RGB 信息構(gòu)建表面模型以及三維深度約束構(gòu)建形變模型,并提出了差分直方圖作為深度圖像的特征.同年,Kadkhodamohammadi 等人[32]通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提取特征表達(dá)、基于隨機森林的姿態(tài)及位置先驗估計以及多視角優(yōu)化,更進一步地將該算法拓展應(yīng)用至基于多視角RGB-D 的手術(shù)室場景.然而,此類算法受限于深度相機的數(shù)據(jù)精度以及深度學(xué)習(xí)所需要的標(biāo)記數(shù)據(jù).相比深度相機采樣尺度限制,二維圖像數(shù)據(jù)具備高精度、高清晰度等特性,能夠從多尺度適應(yīng)手術(shù)室的復(fù)雜環(huán)境.盡管相關(guān)算法取得了一定進展,但要準(zhǔn)確地從無標(biāo)記運動采集數(shù)據(jù)中提取精確的三維人體骨架,依然是一個極具挑戰(zhàn)性的問題.
手勢交互首先需要識別人體手勢,常用的手勢識別算法可以是非模板匹配算法,也可以基于模板匹配.模板匹配算法不易混淆手勢,并且在訓(xùn)練數(shù)據(jù)很少的情況下也能夠達(dá)到較高的準(zhǔn)確率.Ruan 等人[33]從動態(tài)時間規(guī)整(dynamic time warping,簡稱DTW)算法的約束條件出發(fā)提出了放寬端點對齊和全局路徑限制的方案,針對DTW算法,其速度和準(zhǔn)確率都有較大的提升.Chao 等人[34]在傳統(tǒng)DTW 算法的基礎(chǔ)上根據(jù)每個骨骼節(jié)點對手勢貢獻(xiàn)的不同分別推算了加權(quán)距離,提升了識別準(zhǔn)確率,在復(fù)雜背景和光照方面有很好的魯棒性.Wu 等人基于DTW 和K-means 進行人體動作匹配和評估,完成了病人康復(fù)訓(xùn)練系統(tǒng).Pan 等人[35]利用改進的DTW 算法實現(xiàn)了在線人體動作識別,Hiyadi 等人[36]使用自適應(yīng)滑動窗口與DTW 結(jié)合的方式,能夠識別出混合手勢動作中的所有簡單手勢.由此可見,DTW 算法無需過多樣本進行訓(xùn)練,只需要確定好手勢模板,便能夠達(dá)到較好的性能,在手勢識別結(jié)果的混淆程度上也低于一般的非模板匹配算法,但是它無法識別連續(xù)的重復(fù)手勢,這將導(dǎo)致用戶無法對同一張圖片進行連續(xù)的放大、移動等操作.
在非模板匹配算法方面,Zhang 等人[37]通過支持向量機(support vector machine,簡稱SVM)對Kinect 產(chǎn)生的骨骼數(shù)據(jù)進行分類,目前已經(jīng)實現(xiàn)了22 種姿勢的識別.Chen 等人[38]使用SVM 實現(xiàn)了實時識別人手畫出的0~9等數(shù)字以及26 個英文字母,Zhang 等人[39]使用隱馬爾可夫模型(hidden Markov model,簡稱HMM)[40]實現(xiàn)了手勢軌跡的識別,Song 等人[41]使用高斯混合模型(Gaussian mixture model,簡稱GMM)和HMM 完成了全身姿勢的實時識別,Wang 等人[42]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡稱CNN)實現(xiàn)了大規(guī)模的連續(xù)手勢識別,Li 等人[43]使用主成分分析法(principal components analysis,簡稱PCA)結(jié)合CNN 實現(xiàn)了對中國人表達(dá)數(shù)字的相關(guān)手勢的識別,Chavan 等人[44]使用“隨機森林(random forest,簡稱RF)”對印度的手語手勢進行分類,在連續(xù)手勢中能夠提取表達(dá)手語意義的片段并顯示結(jié)果.這些非模板匹配算法在進行手勢識別之前都需要進行訓(xùn)練,在識別過程中容易對連續(xù)手勢動作產(chǎn)生混淆,若手勢樣本過少,將對非模板匹配相關(guān)算法的性能產(chǎn)生很大影響.
遠(yuǎn)場環(huán)境下錄制的語音會面臨非平穩(wěn)噪聲和高混響的干擾,從而導(dǎo)致話音質(zhì)量的下降,直接影響到語音識別的性能.在算法方面,基于麥克風(fēng)陣列的波束形成技術(shù)已得到很多年的發(fā)展,需要解決的核心問題是協(xié)方差矩陣的計算和導(dǎo)向矢量的估計,比較經(jīng)典的方法包括加權(quán)延時求和法[45]、最小方差失真響應(yīng)法[46]、廣義旁瓣濾波法[47]、多通道維納濾波法[48]等.隨著深度學(xué)習(xí)在語音領(lǐng)域的廣泛應(yīng)用,相繼有一些基于深層神經(jīng)網(wǎng)絡(luò)的多通道語音增強算法[49,50]被提了出來,以實現(xiàn)對非平穩(wěn)噪聲和非目標(biāo)方向干擾源的抑制,但上述方法大多受限于硬件結(jié)構(gòu),其性能仍有較大的提升空間;遠(yuǎn)場語音處理中的另一難點是混響抑制,不同房間對應(yīng)不同的混響函數(shù),仿真生成的混響數(shù)據(jù)和真實混響數(shù)據(jù)存在較大的差異,使得混響比噪聲更難處理,主流的混響抑制方法包括譜減法[51]、加權(quán)預(yù)測誤差法[52]、深層神經(jīng)網(wǎng)絡(luò)法[53]等,上述方法雖然能夠抑制混響干擾,但當(dāng)噪聲和混響同時存在時,算法性能明顯下降.通過前端和后端聯(lián)合優(yōu)化建模是提高遠(yuǎn)場語音識別性能的有效途徑[54,55].前端的信號處理技術(shù)一般只用到當(dāng)前狀態(tài)下的語音的信號信息,這些信息的利用主要依靠對聲學(xué)物理規(guī)律的把握,并基于一定的假設(shè),而機器學(xué)習(xí)的方法能夠利用很多的訓(xùn)練集里學(xué)到的信息來建模,但是它一般不是基于物理原理的,對當(dāng)前幀信息的使用比較弱.所以,把這兩種方法比較好地融合在一起是目前很多研究機構(gòu)發(fā)力的一個方向.一種典型的方式是把前端的信號處理與后端的語音識別引擎進行更好的聯(lián)合優(yōu)化[56],前端信號處理有可能丟失信息且不可在后端恢復(fù),而分別優(yōu)化的策略可能對于前端來說是最優(yōu)的,但對于整個系統(tǒng)未必是最優(yōu)選項.因此需要一種有效的建模方法,以使前端可以有效提升信號質(zhì)量但同時比較少地丟失信息,而把一些剩余的噪聲留給更強大的后端來處理,從而提升整體性能[57,58].
多通道信息融合方法按照發(fā)生的時間順序,可以分為前期融合和后期融合;按照信息融合的層次來分,融合可以分別發(fā)生在數(shù)據(jù)(特征)層、模型層及決策層;如果按照處理方法來分,可分為基于規(guī)則的融合,或者基于統(tǒng)計(機器學(xué)習(xí)方法)的融合.也有文獻(xiàn)根據(jù)多通道信息的相關(guān)性,把它們的關(guān)系分為信息互補、信息互斥、信息冗余這樣幾個特點,然后根據(jù)其信息特點分別加以融合.
數(shù)據(jù)層、特征層、決策層的融合方法偏重于模型的設(shè)計,同時,在多模態(tài)信息融合的計算方法中大都通過采用基于統(tǒng)計和機器學(xué)習(xí)的方法進行模型的構(gòu)建,如貝葉斯決策模型、神經(jīng)網(wǎng)絡(luò)模型、圖模型等等.貝葉斯決策模型的特點在于其能夠根據(jù)不完全情報,對部分未知的狀態(tài)采用主觀概率估計,然后用貝葉斯公式對發(fā)生概率進行修正,最后利用期望值和修正概率做出最優(yōu)決策[59].在多種通道信號聯(lián)合分布概率部分已知的情況下,貝葉斯決策模型可以根據(jù)歷史經(jīng)驗反演得到某些缺失的信號,從而得到整個多通道信號融合整體最優(yōu)評估.傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在非線性函數(shù)擬合方面表現(xiàn)出很好的性能,并在單一通道的信息處理上,深度神經(jīng)網(wǎng)絡(luò)模型取得了很好的效果,因此,很多研究者希望綜合不同的神經(jīng)網(wǎng)絡(luò)模型,如LSTM、CNN、RNN 結(jié)構(gòu),構(gòu)建面向多通道信息融合的大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型,力圖在融合階段無差別地處理多通道信息.圖模型將概率計算和圖論結(jié)合在一起,提供較好的不確定性計算工具,其構(gòu)成上的節(jié)點以及節(jié)點之間的連線,使其在計算變量與周圍相連變量的關(guān)系上具有一定優(yōu)勢.相對于無向圖模型,有向圖模型節(jié)點之間的連線不僅記憶了數(shù)據(jù)流向,還記錄有學(xué)習(xí)過程中的狀態(tài)跳轉(zhuǎn)概率,有向圖模型除了可以用于不確定性計算外,還可用于面向時序問題的決策推理,如基于動態(tài)貝葉斯模型模仿產(chǎn)生人類對文字的書寫過程[60]等.除了以上多通道信息融合計算模型外,還有很多其他模型也用于多通道信息融合,如多層支持向量機、決策回歸樹、隨機森林等方法.
整個算法框架如圖1 所示,輸入部分主要為包含姿態(tài)、手勢、語音的3 個主治醫(yī)師交互通道信息.姿態(tài)模塊用于在遮擋條件下準(zhǔn)確地提取人體的框架,進而識別出醫(yī)生的姿態(tài);手勢模塊用于獲取醫(yī)生的手部動作并識別出特定的手勢;語音模塊完成基于麥克風(fēng)陣列的遠(yuǎn)場語音識別,并轉(zhuǎn)化成指令.3 個輸入模塊的信息進行多通道的信息融合,實現(xiàn)醫(yī)生的意圖分類和理解,將分類結(jié)果通過交互界面反饋給醫(yī)生,下面分別介紹各單一模態(tài)信息處理技術(shù)及信息融合方法.
Fig.1 The framwwork of non contact multi-channel natural interactive surgical environment under eterile condition圖1 無菌條件非接觸式多通道自然交互手術(shù)環(huán)境整體研究框架
手術(shù)室場景存在較多的環(huán)境干擾(比如非自然燈光、復(fù)雜手術(shù)設(shè)備以及缺乏紋理信息的手術(shù)服),且場景中醫(yī)生、護士、病人等人員彼此之間存在大量復(fù)雜的遮擋及自遮擋關(guān)系,是動態(tài)的非結(jié)構(gòu)化群體復(fù)雜場景.因此,如何在手術(shù)室群體復(fù)雜場景下高精度地提取人體骨架是一個極具挑戰(zhàn)性的問題.另外,手術(shù)室場景具有環(huán)境多樣、遮擋復(fù)雜等特性,除此以外,由于手術(shù)情況下應(yīng)該盡可能地減少“侵入性”設(shè)備的使用,手術(shù)場景下的數(shù)據(jù)采集系統(tǒng)通常都是無標(biāo)記的運動采集系統(tǒng)(比如光學(xué)相機、深度相機),給手術(shù)場景下提取人體三維骨架提出了更高要求.因此,我們認(rèn)為手術(shù)室場景應(yīng)該充分利用光學(xué)相機采集的二維圖像信息.然而,由二維圖像估計三維人體骨架是一個病態(tài)問題,盡管深度學(xué)習(xí)為解決該問題提供了有利工具,但卻面臨著三維姿態(tài)訓(xùn)練數(shù)據(jù)缺失的問題.為此,我們提出了一種全自動的、大規(guī)模人體姿勢空間采樣并生成人體三維姿勢訓(xùn)練集合的算法,基于深度學(xué)習(xí)端對端特性從單張二維圖像中全自動地提取三維人體骨架.該算法主要涉及人體三維姿態(tài)數(shù)據(jù)集合成、人體三維姿態(tài)回歸以及人體三維骨架提取這三大步驟.
(1)人體三維姿態(tài)數(shù)據(jù)集合成
針對三維人體骨架訓(xùn)練數(shù)據(jù)極難標(biāo)注的問題,我們在三維模型集合上大規(guī)模地渲染人體圖片及相應(yīng)骨架標(biāo)簽.我們認(rèn)為,合成數(shù)據(jù)集中的人體姿態(tài)分布應(yīng)當(dāng)與真實圖像中的人體姿態(tài)分布相一致.為了更為完整地覆蓋整個人體空間,需要根據(jù)已有動作推斷自然連續(xù)的未知動作.我們發(fā)現(xiàn),自然動作往往與聯(lián)合變化的人體部位相關(guān)(比如胳膊的前臂和后臂),可通過組合人體部位生成新的姿態(tài).因此,我們利用基于運動捕捉設(shè)備捕獲的姿態(tài)以及二維圖像中恢復(fù)的姿態(tài)為樣本,學(xué)習(xí)了一個稀疏的、非參數(shù)化的貝葉斯模型[61]以分解人體姿態(tài)表達(dá),通過組合人體子關(guān)節(jié)結(jié)構(gòu)生成新的姿態(tài),從而生成更為豐富的模型表達(dá).由此獲取的人體三維姿態(tài)利用現(xiàn)有算法(如SCAPE 模型[62])生成三維模型,通過添加不同的紋理貼圖能夠生成豐富的人體姿態(tài)圖像.經(jīng)過人體姿態(tài)采樣與紋理遷移后,我們能夠合成不同姿態(tài)、不同紋理的人體模型,通過改變渲染視角、渲染背景燈,能夠合成與真實圖片高度一致的二維圖像.多樣化二維圖像與人體三維姿態(tài)的對應(yīng),為基于深度學(xué)習(xí)的單幅圖像三維人體骨架的提取提供了數(shù)據(jù)基礎(chǔ).
(2)人體三維姿態(tài)回歸域遷移網(wǎng)絡(luò)
為了避免由于真實圖像與合成圖像的差異所帶來的過擬合、最大優(yōu)化訓(xùn)練性能,我們提出一種域遷移網(wǎng)絡(luò)回歸真實圖像中的人體三維姿態(tài),其核心思想在于將渲染圖像與真實圖像投影到相同特征空間,從而縮小渲染圖像與真實圖像集之間的分布差異.如圖2 藍(lán)色虛線部分所示,該域遷移網(wǎng)絡(luò)主要包括3 部分結(jié)構(gòu):特征提取器、姿態(tài)回歸器以及域間分類器.特征提取器主要負(fù)責(zé)提取圖像特征,采用了AlexNet[63]的conv1 到pool5 層作為特征提取網(wǎng)絡(luò)(這里可用其他卷積神經(jīng)網(wǎng)絡(luò)代替).該特征被同時輸入至姿態(tài)回歸器及域間分類器,其中,姿態(tài)回歸器用于判別三維姿態(tài).域間分類器用于判別高維特征的真實性,以促使特征提取器提取與真實圖像一致的特征.
域遷移網(wǎng)絡(luò)采用對抗網(wǎng)絡(luò)分階段訓(xùn)練思想訓(xùn)練模型,輸入包含具有三維姿態(tài)標(biāo)簽的渲染圖像以及沒有三維姿態(tài)標(biāo)簽的真實圖像.訓(xùn)練分為兩個階段:第1 個階段(圖2 上半部分所示),我們固定特征提取器,輸出特定的特征用于訓(xùn)練姿態(tài)回歸器和域間分類器.姿態(tài)回歸器用于回歸三維姿態(tài),域間分類器用于判別圖像類別(即真實圖像還是合成圖像).第2 個階段(圖2 下半部分所示),我們固定域間分類器,訓(xùn)練特征提取器和姿態(tài)回歸器.這里,要求特征提取器輸出一種新的特征,該特征能夠保持下述約束:(1)可用于姿態(tài)回歸器回歸三維姿態(tài);(2)域間分類器能夠依據(jù)該特征輸出(0.5,0.5)的類別判斷,該約束的目的在于“迷惑”域間分類器,使其無法判別出圖片類別.訓(xùn)練域遷移網(wǎng)絡(luò)至域間分類器無法判別圖像類別,則說明真實圖像和合成圖像的特征屬于同一特征空間,縮小了合成圖像與真實圖像特征之間的差異.該過程域遷移網(wǎng)絡(luò)整體損失函數(shù)如公式(1)所示,Lreg為回歸損失(即所估計的三維姿態(tài)與真實三維姿態(tài)之間的距離),Ldomain為域遷移損失(分兩階段訓(xùn)練,其中,第1 階段固定特征提取器參數(shù),目標(biāo)是獲得不錯的姿態(tài)回歸,并能夠區(qū)分渲染圖像與真實圖像;第2 階段固定域間分類器的參數(shù),目標(biāo)是獲取新特征,混淆域間分類器).
(3)人體三維骨架提取
對于人體三維骨架提取,我們采取AlexNet[35]網(wǎng)絡(luò)結(jié)構(gòu),利用生成的渲染數(shù)據(jù)及人體三維姿態(tài)坐標(biāo)去訓(xùn)練新的模型.為了使現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)適應(yīng)于人體三維姿態(tài)估計任務(wù),我們修改了這些網(wǎng)絡(luò)的最后一層,使其能夠直接輸出三維坐標(biāo),并在推斷的三維骨架和真實三維姿態(tài)中間添加一層歐幾里德?lián)p失函數(shù)(見公式(5)),在訓(xùn)練過程中對全連接層進行微調(diào)以使得參數(shù)從一個良好的初始值去適應(yīng)新的面向手術(shù)室的人體三維骨架提取任務(wù).
Fig.2 Occlusion-oriented skeleton extraction domain migration network圖2 面向遮擋添加下骨架提取的域遷移網(wǎng)絡(luò)
為了準(zhǔn)確理解無菌條件下的醫(yī)生交互的手勢,本文在一般改進的DTW 算法的基礎(chǔ)上,采用基于后驗處理的優(yōu)化方式,該方式通過參數(shù)調(diào)控、無效區(qū)域判定以及靜止手勢處理對DTW 的輸出結(jié)果進行修正,加快DTW的執(zhí)行速度,將混淆手勢作為無效手勢處理,提升了手勢識別率,并能夠?qū)崿F(xiàn)DTW 算法無法處理的連續(xù)重復(fù)手勢的識別,在實時性方面亦有較好的表現(xiàn).
(1)手勢特征提取
Kinect 骨骼系統(tǒng)提供了20 個關(guān)節(jié)點的三維坐標(biāo)信息,如果將所有關(guān)節(jié)點都作為特征點,計算會過于復(fù)雜,關(guān)節(jié)點之間也會相互干擾.因此,本方法舍去了一些在手勢序列中作用不明顯的骨骼關(guān)節(jié)點,降低了計算的復(fù)雜度,提高了識別速度.定義了7 個常用操作手勢,分別為右手向右滑動、右手向左滑動、右手向上滑動、右手向下滑動、雙手向外擴張、雙手向內(nèi)收攏、左手向左滑動.在這7 種手勢中,最重要的參考節(jié)點為右手關(guān)節(jié)、右肘關(guān)節(jié)、左手關(guān)節(jié)、左肘關(guān)節(jié)、雙肩中心以及脊柱中央這6 個節(jié)點.記第t幀編號為i的關(guān)節(jié)點的坐標(biāo)為分別表示第t幀編號為i的關(guān)節(jié)點在以Kinect 為原點的三維坐標(biāo)系下的x,y,z的值.
由于在手勢操作過程中變化的點僅為右手關(guān)節(jié)、右肘關(guān)節(jié)、左手關(guān)節(jié)、左肘關(guān)節(jié),因此以這4 個節(jié)點作為特征向量,雙肩中心及脊柱中央節(jié)點作為參考節(jié)點,第t幀的特征向量S可表示為
式(8)中,xsc,t,ysc,t,zsc,t將節(jié)點坐標(biāo)進行歸一化,記歸一化后第t幀編號為i的節(jié)點坐標(biāo)為
則第t幀進行中心化和歸一化的特征向量V可表示為
(2)手勢模板序列的訓(xùn)練
本文采用DTW 進行手勢模板序列的訓(xùn)練.DTW 算法的核心是將測試序列與模板序列進行匹配,因此,手勢模板的選擇將會很大程度上影響匹配的結(jié)果.本文用如下方法來確定手勢模板序列,每個模板序列長度均為20幀.設(shè)樣本序列k=(V1,V2,V3,…,V20),根據(jù)已經(jīng)定義的7 種手勢動作,每種手勢采集n個樣本K=(V1,V2,V3,…,Vm,…,Vn).對于每個樣本km,依次與其余n–1 個樣本使用DTW 進行匹配.記待測樣本km與樣本k1,k2,k3,…之間的DTW距離為d1,…,dm,則待測樣本km的累計規(guī)整距離為然后對每個手勢類別下的樣本進行計算,便可確定所有類別手勢的模板序列.
將每一個樣本均使用式(11)計算其累計規(guī)整距離D1,D2,D3,…,Dn,累計規(guī)整距離越小,說明樣本的代表性就越強,并以此作為確定所有類別手勢的模板依據(jù).
針對手術(shù)室環(huán)境這一特殊的應(yīng)用場景,因為醫(yī)生難以通過手持麥克風(fēng)直接進行語音交互,同時,頭戴式麥克風(fēng)目前也不是國內(nèi)外手術(shù)室的基本配置,因此需要選擇麥克風(fēng)陣列作為拾音設(shè)備,采集不同方位的語音進行增強處理,在此基礎(chǔ)上識別音頻中的內(nèi)容.本文采用這種端到端的建模方法以提高手術(shù)室這種復(fù)雜環(huán)境下語音識別的性能,從而實現(xiàn)在手術(shù)室環(huán)境下,醫(yī)生能夠釋放雙手進行語音交互.
(1)語音前端處理
語音前端處理模塊的順序是回聲消除、混響消除、波束形成、增益控制,然后在此基礎(chǔ)上進行后端處理,接下來介紹采用這種順序的原因:回聲消除模塊有參考信號源(比如遠(yuǎn)端喇叭播放的手術(shù)控制指令)可以參考,通過回聲消除模塊可以剔除遠(yuǎn)端信號的干擾,遠(yuǎn)端信號的干擾(比如播放手術(shù)控制指令)會影響到混響消除和波束形成算法的性能,因此,對于每一路麥克風(fēng),首先進行回聲消除以消除其中一個干擾源的影響.在此基礎(chǔ)上進行混響消除,混響消除放到波束形成之前的原因是混響與房間的特性相關(guān),不同麥克風(fēng)之間的關(guān)系可以反映出這種空間特性,因此,采用多通道混響消除方法;然后對多通道信號進行波束形成,生成單通道的信號;再對波束形成后生成的單通道信號進行后置濾波,消除殘留噪聲的干擾.聲音在傳輸過程中可能會存在能量的衰減和溢出,通過增益控制算法對能量進行控制,生成最終經(jīng)前端處理后輸出的語音,用于后端語音識別或指令詞識別的處理.語音前端處理流程如圖3 所示.
(2)語音后端建模
面向手術(shù)室環(huán)境的語音識別系統(tǒng)由聲學(xué)模型訓(xùn)練模塊、語言模型訓(xùn)練模塊和超大空間解碼3 個相互制約的部分組成;聲學(xué)模型訓(xùn)練模塊通過深度學(xué)習(xí)方法提升語音識別器的聲學(xué)模型的泛化能力;語言模型訓(xùn)練模塊通過融合Grammer 和N-gram 信息的方法在大規(guī)模數(shù)據(jù)集下訓(xùn)練魯棒的語言模型.超大空間解碼子系統(tǒng)針對戰(zhàn)場環(huán)境的特點,通過高效約簡的解碼算法,快速、有效地從復(fù)雜搜索空間中確定最優(yōu)路徑,保證語音識別器的準(zhǔn)確率和運行速度.語音識別系統(tǒng)能夠支持在線對聲學(xué)模型和語言模型更新,從而提高對特定環(huán)境的適應(yīng)能力.多通道語音識別流程如圖3 所示,聯(lián)合通用領(lǐng)域的聲學(xué)模型和面向手術(shù)室環(huán)境的解碼網(wǎng)絡(luò)進行語音識別,通過并行訓(xùn)練方法訓(xùn)練基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過遷移學(xué)習(xí)機制,實現(xiàn)對領(lǐng)域知識的更新,快速構(gòu)建面向手術(shù)室環(huán)境的解碼網(wǎng)絡(luò),面向手術(shù)室環(huán)境域的語音識別解碼方案如圖4 所示.
Fig.3 Far-field speech recognition front-end flow operating圖3 遠(yuǎn)場語音識別前端處理流程
Fig.4 Speech recognition decoding for processing room environment domain圖4 面向手術(shù)室環(huán)境域的語音識別解碼
無菌手術(shù)環(huán)境中,在非接觸式的自然交互情況下,由于語音識別的錯誤、姿態(tài)、手勢受到遮擋,因此,交互系統(tǒng)難以統(tǒng)一單一模態(tài)信息,精確地判斷醫(yī)生的操作意圖.為了提高交互系統(tǒng)中對醫(yī)生意圖識別的準(zhǔn)確率,我們將多模態(tài)信息融合的不同策略引入神經(jīng)網(wǎng)絡(luò)模型.隨著計算機技術(shù)和深度學(xué)習(xí)的快速發(fā)展,結(jié)構(gòu)更深的神經(jīng)網(wǎng)絡(luò)模型在語音識別、人機對話、機器翻譯、語義理解、目標(biāo)識別、手勢檢測與跟蹤、人體檢測與跟蹤等領(lǐng)域得到廣泛應(yīng)用.如在情感識別領(lǐng)域,采用相似度評估,目前采用深度長短時記憶神經(jīng)網(wǎng)絡(luò)模型(long short-term memory neural network,簡稱LSTM)由計算機運行后得到的最好結(jié)果與專業(yè)人士識別相差10%左右[64,65];在語音識別領(lǐng)域,目前針對方言口音的語音識別,深度遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,簡稱RNN)在字識別準(zhǔn)確度上可以達(dá)到95%[66],接近人類水平;在圖像目標(biāo)識別領(lǐng)域,超大規(guī)模深度卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,簡稱CNN)已經(jīng)超過普通人類辨識水平[67,68].深度神經(jīng)網(wǎng)絡(luò)模型技術(shù)在單一通道的數(shù)據(jù)處理上已經(jīng)取得很好的成效,但是,如何構(gòu)建面向多通道信息融合的大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型,在融合階段無差別地處理多通道信息仍然是目前研究的熱點問題.
為了更為精準(zhǔn)地實現(xiàn)交互系統(tǒng)在手術(shù)室環(huán)境中對醫(yī)生意圖的識別,將多模態(tài)信息應(yīng)用于深度神經(jīng)網(wǎng)絡(luò),考慮到不同通道圖像、語音、手勢、生理信息的差異性,因此,在融合結(jié)構(gòu)上,通過在特征層進行融合,具體的融合策略的抽象表示如圖5 所示.
Fig.5 Multi-modal information fusion for operating room environment圖5 面向手術(shù)室環(huán)境的多模態(tài)信息融合
圖像數(shù)據(jù)主要是用于手術(shù)室復(fù)雜場景下人體的骨架提取,采用深度學(xué)習(xí)端對端特性從單張二維圖像中全自動地提取三維人體骨架特征,該特征包含了54 維參數(shù)的人體骨架特征;手勢數(shù)據(jù)對應(yīng)為Kinect 獲取的手勢信息,由于手勢操作主要是通過觀察人手的右手關(guān)節(jié)、右肘關(guān)節(jié)、左手關(guān)節(jié)、左肘關(guān)節(jié)而實現(xiàn),故我們將這4 個節(jié)點作為特征向量,雙肩中心及脊柱中央節(jié)點作為參考節(jié)點,構(gòu)建20 維特征向量作為手勢特征;將采用麥克風(fēng)陣列進行遠(yuǎn)場語音識別獲取的數(shù)據(jù)作為音頻數(shù)據(jù),通過構(gòu)建端到端的建模方法在每幀的音頻數(shù)據(jù)中提取64 維的音頻特征.在多通道信息特征提取的過程中,由于不同通道信息數(shù)據(jù)采集的頻率并不相同,因此需要對不同通道的數(shù)據(jù)進行不同的采樣,并加以特征融合,構(gòu)建融合特征向量,然后采用深度學(xué)習(xí)的方法對特征向量進行分類,以判斷當(dāng)前狀態(tài)下醫(yī)生的意圖.
6.1.1 定量結(jié)果分析
(1)人體三維骨架提取結(jié)果分析
如前文所述,訓(xùn)練數(shù)據(jù)集的好壞直接影響到卷積神經(jīng)網(wǎng)絡(luò)提取人體三維骨架的性能,該算法的核心貢獻(xiàn)在于提出了一個大規(guī)模人體三維骨架數(shù)據(jù)集.為此,我們用不同的標(biāo)準(zhǔn)化卷積神經(jīng)網(wǎng)絡(luò)模型(Li14[28]、AlexNet 以及VGG[69]),分別在經(jīng)典Human3.6M 數(shù)據(jù)集[70]、我們的數(shù)據(jù)集以及二者混合這3 個數(shù)據(jù)集上對人體三維骨架網(wǎng)絡(luò)進行訓(xùn)練,并在Human3.6D+測試集評估各種方法及數(shù)據(jù)對應(yīng)的人體三維骨架提取性能.如圖6 中左圖所示結(jié)果,用本文數(shù)據(jù)集訓(xùn)練的模型要優(yōu)于用Human 3.6M 數(shù)據(jù)集訓(xùn)練的模型;Human3.6D+數(shù)據(jù)測試集合中圖像的變化更為豐富,表明本文所合成的數(shù)據(jù)集能夠更好地訓(xùn)練模型學(xué)習(xí)這些變化.
Fig.6 Quantitative results analysis圖6 定量結(jié)果分析
圖6 的左圖分析了在運用不同卷積神經(jīng)網(wǎng)絡(luò)模型的情況下,本文方法與Human3.6M 數(shù)據(jù)集在Human3D+測試集上生成的人體三維骨架測試結(jié)果;右圖為域遷移網(wǎng)絡(luò)結(jié)果分析,通過對不同方法使用混合數(shù)據(jù)(合成數(shù)據(jù)以及/或者真實數(shù)據(jù))分析域遷移網(wǎng)絡(luò)性能.可以看到,本文提出的域遷移網(wǎng)絡(luò)不需要真實圖像的三維人體姿態(tài)標(biāo)簽,因此,在訓(xùn)練過程中可通過添加大量真實圖像抑制過擬合現(xiàn)象.如圖6 中右圖所示,經(jīng)過域遷移網(wǎng)絡(luò)訓(xùn)練的合成圖像及三維姿態(tài),其模型在基準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)模型上有著極大的提升,僅次于使用真實圖像及真實三維姿態(tài)的結(jié)果,并且,網(wǎng)絡(luò)結(jié)構(gòu)明顯優(yōu)于經(jīng)典域遷移網(wǎng)絡(luò)[71].其原因在于,域遷移網(wǎng)絡(luò)能夠訓(xùn)練出更好的特征提取器,從真實圖像和合成圖像中提取出更為有意義的特征.
6.1.2 定性結(jié)果分析
利用深度學(xué)習(xí)由二維圖像生成三維人體骨架,核心在于構(gòu)建大規(guī)模二維圖像與相對應(yīng)的三維人體姿態(tài)標(biāo)注數(shù)據(jù)集.因此,我們構(gòu)建了Human3D+數(shù)據(jù)庫,該數(shù)據(jù)庫包含1 574 幅豐富的人體運動動作二維圖像及三維人體姿態(tài)坐標(biāo),能夠較好地描述真實圖像的分布.除此以外,我們根據(jù)現(xiàn)有人體三維骨架數(shù)據(jù)庫中的姿態(tài)數(shù)據(jù),合成了10 556 個具有獨特紋理及姿態(tài)的人體模型,經(jīng)過背景與光照渲染,合成5 099 405 幅訓(xùn)練圖像用于網(wǎng)絡(luò)訓(xùn)練.
對于單幅二維圖像,可利用本文提出的算法獲取三維人體骨架.圖7 展現(xiàn)了一組從單幅圖像生成三維人體骨架的實驗室結(jié)果,其中第1 列和第3 列為輸入圖像疊加了人體骨架的圖像(圓球為人體主要關(guān)節(jié)點),第2 列和第4 列為利用現(xiàn)有算法(如SCAPE 模型)匹配并重建的三維模型.
Fig.7 Extraction effect of multi-human skeleton with partly occlusion圖7 遮擋條件下的多人骨架提取效果圖
6.2.1 正確性驗證
為了驗證本文基于后驗處理的DTW 優(yōu)化方法仍具有較高的可行性,首先對孤立手勢識別的正確率進行驗證.本系統(tǒng)定義了7 種操作手勢,圖8 展示了實驗所用手勢的示意圖.每幅圖片右上方顯示出對應(yīng)的手勢動作,“NoGesture”表示手勢落在無效區(qū)域內(nèi).
Fig.8 Gesture schematics and invalid areas圖8 手勢示意圖及其無效區(qū)域
使用傳統(tǒng)DTW 算法、文獻(xiàn)[42]提出的改進DTW 算法和本文基于后驗處理的DTW 優(yōu)化方法分別進行實驗,按照識別出來的獨立手勢名稱進行統(tǒng)計,其混淆矩陣對比情況見表1.
由混淆矩陣對比可以看出,傳統(tǒng)DTW 算法在進行連續(xù)重復(fù)手勢處理時,無法區(qū)分正確手勢與無關(guān)手勢,從而導(dǎo)致系統(tǒng)執(zhí)行了非常多的錯誤指令,其指令正確率幾乎都低于50%,對于雙手動作的指令正確率更是低至42%.文獻(xiàn)[42]提出的改進DTW 方法對連續(xù)重復(fù)手勢的處理效果比傳統(tǒng)DTW 略有提升,基于后驗處理的DTW優(yōu)化方法對于連續(xù)重復(fù)手勢的處理效果則要好得多,指令正確率普遍高于96%.使用G-Mean 指標(biāo)作為識別結(jié)果好壞的評價標(biāo)準(zhǔn),分別用指令正確率IA 和識別率RR 代替式(24)中的召回率REC,則可以得到“指令正確率”和“識別率”的G-Mean 值,以此作為綜合指令正確率和綜合識別率.經(jīng)計算后,傳統(tǒng)DTW 算法的綜合指令正確率、綜合識別率分別為51.18%和87.14%,文獻(xiàn)[42]提出的改進DTW 方法的綜合指令正確率、綜合識別率分別為56.75%和89.04%,基于后驗處理優(yōu)化的DTW 算法綜合指令正確率、綜合識別率分別為98.56%和97.12%.實驗結(jié)果表明,本文提出的后驗處理優(yōu)化方法能夠有效識別用戶的連續(xù)重復(fù)手勢,在指令正確率和識別率上都優(yōu)于傳統(tǒng)DTW 算法.
Table 1 Comparison of confusion matrices for continuous gesture recognition based on two methods表1 兩種方法的連續(xù)手勢識別混淆矩陣對比
6.2.2 實時性檢測
5 名志愿者依次做一組由7 個手勢隨機組合的動作,編號為序列1、序列2、序列3、序列4、序列5.記錄每個手勢開始和首次識別成功時刻對應(yīng)的幀編號,求其差值便可計算出識別每個手勢所用的時間.表2 記錄了5個序列進行測試時每個手勢從開始到成功識別經(jīng)過的幀數(shù)及估計時間.
Table 2 The timeliness of real-time gesture recognition based on posterior processing DTW optimization method表2 本文基于后驗處理的DTW 優(yōu)化方法進行實時手勢識別的時效性
實驗結(jié)果表明,本文提出的基于后驗處理的DTW 優(yōu)化方法可在大約200ms~300ms 的時間延遲內(nèi)給出識別結(jié)果并控制系統(tǒng)進行相關(guān)操作,能夠滿足識別實時性的要求.
(1)實驗數(shù)據(jù)
本文采用實測數(shù)據(jù)集進行實驗結(jié)果評估,該數(shù)據(jù)集在手術(shù)室環(huán)境下實際錄制,測試集中共包括2 000 句樣本,包括100 個說話人,平均信噪比為5dB,平均混響時間為300ms;訓(xùn)練集采用仿真生成的遠(yuǎn)場數(shù)據(jù)進行訓(xùn)練,包括2 000 小時的訓(xùn)練數(shù)據(jù),信噪比覆蓋0dB、5dB、10dB、15dB,混響時間涉及100ms、200ms、300ms、400ms 和500ms.麥克風(fēng)陣列設(shè)備采用6+1 的環(huán)形陣列.測試樣本主要包括醫(yī)院手術(shù)相關(guān)命令詞匯,如“開始手術(shù)”“打開設(shè)備”“到第8 頁”“監(jiān)控心電圖”“準(zhǔn)備麻醉”等.
(2)實驗設(shè)置
本文在語音識別工具Kaldi 的基礎(chǔ)上進行開發(fā)和實驗,實驗共采用兩種特征:mel 頻率倒譜系數(shù)(MFCC)和mel 標(biāo)度濾波器組特征(FBANK).提取特征的窗長為25ms,幀移為10ms.MFCC 特征為13 維,加上其一階和二階差分統(tǒng)計量,共39 維.FBANK 特征為40 維,加上其一階和二階差分統(tǒng)計量,共120 維.特征的均值方差歸一化以說話人為單位進行.所有GMM-HMM 的輸入為MFCC,所有神經(jīng)網(wǎng)絡(luò)模型的輸入為FBANK.就本文所涉及到的神經(jīng)網(wǎng)絡(luò)模型而言,其損失函數(shù)為交叉熵,優(yōu)化準(zhǔn)則為隨機梯度下降(SGD).DNN 模型采用反向傳播(BP)算法進行訓(xùn)練.BLSTM 模型采用隨時間反向傳播(BPTT)算法進行訓(xùn)練.LSTM 模型采用截斷的隨時間反向傳播(truncatedBPTT)算法進行訓(xùn)練.本文實驗所用語言模型為三元文法語言模型,詞表大小為100G;解碼的搜索空間基于加權(quán)有限狀態(tài)轉(zhuǎn)換器(WFST)進行構(gòu)建,搜索策略為束搜索(beam-search)算法.
(3)基線方法
基線方法中前端采用加權(quán)延時求和方法進行增強處理,后端分別采用DNN和LSTM-RNN進行聲學(xué)模型訓(xùn)練;所有DNN 模型均含有7 個隱層,每個隱層含有2 048 個節(jié)點.LSTM-RNN 模型含有5 個隱層,每個隱層包含640 個單元.DNN 模型的初始學(xué)習(xí)速率為0.008,LSTM-RNN 的初始學(xué)習(xí)速率為0.000 01,沖量值均設(shè)為0.9.
(4)實驗結(jié)果對比
本文前端波束形成采用廣義旁瓣濾波方法,去混響采用加權(quán)預(yù)測誤差方法,采用深層神經(jīng)網(wǎng)絡(luò)進行單通道語音增強處理.本文采用的方法將DNN 和LSTM-RNN 兩種聲學(xué)模型輸出的后驗概率進行融合,通過聯(lián)合建模的方式提高語音識別的性能.實驗結(jié)果見表3.
Table 3 Comparison of speech recognition experiments表3 語音識別實驗結(jié)果對比
針對“本文前端+模型融合”的模型,在不同距離下進行了語音識別實驗,實驗結(jié)果見表4.
Table 4 Comparison of speech recognition under different distances表4 不同距離條件下語音識別實驗結(jié)果對比
(5)實驗結(jié)果分析
通過對比表3、表4 中的實驗結(jié)果可知,語音前端處理對于提升語音識別的性能起著非常關(guān)鍵的作用,本文采用的廣義旁瓣濾波方法通過自適應(yīng)波束形成可以有效地增強目標(biāo)方向的聲音,同時,通過加權(quán)預(yù)測誤差消除了遠(yuǎn)場語音的干擾,在此基礎(chǔ)上,通過深層神經(jīng)網(wǎng)絡(luò)模型有效地消除了非平穩(wěn)噪聲的干擾,因此,相比于延時求和這種固定波束形成方法,有效地提升了語音識別的性能.同時,本文采用的模型融合策略,可以有效提升聲學(xué)模型的建模精度,融合后的模型結(jié)合了DNN 和LSTM-RNN 兩種模型的優(yōu)勢,從而提升了語音識別在真實環(huán)境下的魯棒性.
根據(jù)各單一通道技術(shù)與融合的要求,本文設(shè)計并接近真實地構(gòu)建了整個無菌條件非接觸式多通道自然交互手術(shù)環(huán)境,設(shè)計時,要充分考慮各單一模態(tài)和融合計算的需求.系統(tǒng)的各個組成部件選用標(biāo)準(zhǔn)的硬件和軟件,采用模塊化設(shè)計,使系統(tǒng)可以通過增加模塊的方式進行擴容.無菌條件非接觸式多通道自然交互手術(shù)環(huán)境整體布局的要求如下:(1)節(jié)約手術(shù)室空間,使手術(shù)室更為簡潔,便于遠(yuǎn)場語音信息采集及姿態(tài)和手勢獲取;(2)采用四分屏50 吋顯示器可實現(xiàn)閱片,顯示監(jiān)護儀、內(nèi)窺鏡等設(shè)備的圖像,方便獲取手術(shù)信息;(3)全景攝像方便手術(shù)室內(nèi)場景實時監(jiān)控;(4)嵌入式一體化工作站節(jié)約空間,雙屏設(shè)計,便于操作;(5)雙26 吋內(nèi)窺顯示器,可用于內(nèi)窺鏡手術(shù)場景.圖9 給出了無菌條件非接觸式多通道自然交互手術(shù)環(huán)境設(shè)計與真實場景圖.
Fig.9 Aseptic sonditional contactless multichannel natural interaction durgery environment design (left)and real scene map (right)圖9 無菌條件非接觸式多通道自然交互手術(shù)環(huán)境設(shè)計(左)與真實場景圖(右)
在醫(yī)院手術(shù)環(huán)境的交互過程中,交互系統(tǒng)對醫(yī)生的意圖識別的準(zhǔn)確度和速度十分重要.根據(jù)無菌條件非接觸式多通道自然交互手術(shù)的設(shè)計及搭建的真實場,本文設(shè)置了10 種自然的醫(yī)生手勢動作,根據(jù)在不同操作視框的定義,可以實現(xiàn)呈線性倍數(shù)數(shù)量的指令,完全滿足系統(tǒng)的交互模式.本實驗通過對比姿態(tài)、手勢、語音等單一通道信息和多通道信息融合條件下系統(tǒng)對醫(yī)生意圖識別的準(zhǔn)確度和速度,并分析在不同單一通道和多通道融合對醫(yī)生意圖識別的影響,發(fā)現(xiàn)在交互過程中,雖然基于單一通道的手勢、語音信息能夠使得系統(tǒng)在對醫(yī)生意圖識別時取得較好的準(zhǔn)確度和速度,但是相對而言,基于多通道信息融合的效果會更好.實驗結(jié)果見表5 和表6.
Table 5 Accuracy of doctor intention recognition based on single channel information and multi-channel information fusion (%)表5 單一通道信息和多通道信息融合對醫(yī)生意圖識別準(zhǔn)確率(%)
從實驗結(jié)果可以看出,單一通道條件下,由于手勢信息較為復(fù)雜,但手術(shù)室環(huán)境噪聲較小,所以系統(tǒng)在基于手勢交互的基礎(chǔ)上對醫(yī)生意圖的識別率比語音較低,但在某些較為簡單的手勢動作上,如“確定”“上一張”“下一張”的準(zhǔn)確度并不比語音信息差.而在識別的時間方面,較為復(fù)雜的手勢動作同樣不占優(yōu)勢,但是對簡單手勢動作而言,它們的識別速度仍然比語音來得更快.在此基礎(chǔ)上,將不同通道的信息進行融合后,系統(tǒng)無論是在時間性能上,還是在意圖理解的準(zhǔn)確度上都會有比較明顯的提升.并且,相較于通過授意護士或者手術(shù)助理到計算機操作室操作的方式(以乳腺癌腫瘤手術(shù)為例,護士或者手術(shù)助理到計算機操作室定位到病灶圖像平均約1 分鐘),本文的定位方法平均不超過2s,可以看到,采用多通道信息融合方式來識別醫(yī)生的意圖,可以更快地定位到病灶圖像.
由于在手術(shù)室的操作環(huán)境中,多通道信息的融合處理的結(jié)果主要是為醫(yī)生在手術(shù)時提供便捷的交互環(huán)境,因此在交互過程中,醫(yī)生對多通道信息融合結(jié)果的滿意程度也很重要.因此,我們邀請了4 位醫(yī)生以及32 位助理人員對多通道信息融合交互系統(tǒng)的結(jié)果進行體驗和評測,每人至少進行3 輪以上的有效操作,最后在其他評測結(jié)束后,要求每個體驗醫(yī)生對結(jié)果進行滿意度投票,總共5 個選項,分別是很滿意、滿意、一般、不太滿意和很不滿意,其統(tǒng)計分布如圖10 所示.
由圖10 所示評測結(jié)果可知,66.67%的測試人員對多通道信息融合的結(jié)果體驗感覺滿意或者很滿意,而只有16.67%的醫(yī)生對體驗不太滿意或者很不滿意.從用戶的主觀評測角度來看,醫(yī)生對多通道信息融合的交互體驗比較不錯,能夠獲得大多數(shù)體驗醫(yī)生的認(rèn)可.
Table 6 Speed of doctor intention recognition based on single channel information and multi-channel information fusion表6 單一通道信息和多通道信息融合對醫(yī)生意圖識別的速度
Fig.10 Evaluation of doctors for multimodal information fusion experience圖10 醫(yī)生對多模態(tài)信息融合體驗滿意度評測
實驗結(jié)果表明,在接近實際的實驗環(huán)境中,通過融合遮擋環(huán)境下的深度圖像人體骨架提取、手勢跟蹤與理解、手術(shù)室環(huán)境遠(yuǎn)場語音識別,多模態(tài)信息處理與融合技術(shù),無菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境相對于傳統(tǒng)的通過護士或者手術(shù)助理到計算機操作室操作病灶圖像的方式,能夠明顯地節(jié)省時間,使得主治醫(yī)生在手術(shù)中可通過語音命令、手勢及上述交互相結(jié)合的方式快速定位到需要觀察的病灶成像.本文建立的無菌條件的非接觸式多通道自然交互手術(shù)環(huán)境在保證精度的情況下,為建立下一代未來高效的手術(shù)室提供了技術(shù)與方法驗證,可極大地方便醫(yī)生的手術(shù)過程,縮短平均手術(shù)時間.但無菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境距離把人機交互技術(shù)魯棒地應(yīng)用到臨床還有一定距離,未來進一步的工作主要包括:(1)進一步優(yōu)化語音識別技術(shù),更加準(zhǔn)確地融合手勢,更加準(zhǔn)確地識別手術(shù)醫(yī)師的意圖;(2)進一步引入三維手術(shù)影像導(dǎo)航技術(shù),與多模態(tài)交互手段相融合,做到面向交互的更逼真的臨床展示.