李 暢,晁建剛,2?,何 寧,2,陳 煒,2,許振瑛
航天員在軌空間操作及地面訓(xùn)練時(shí),可以通過混合現(xiàn)實(shí)系統(tǒng)為其提供實(shí)時(shí)可視化的作業(yè)引導(dǎo)。當(dāng)前的混合現(xiàn)實(shí)系統(tǒng)(Mixed Reality,MR)實(shí)現(xiàn)方法是工作人員在操作環(huán)境對(duì)虛擬物體放置位置進(jìn)行人工標(biāo)注,然后部署引導(dǎo)程序,通過系統(tǒng)空間實(shí)時(shí)定位技術(shù)[1]獲取當(dāng)前定位信息,依據(jù)此信息將虛擬對(duì)象混合疊加在真實(shí)環(huán)境中。
目前航天員混合現(xiàn)實(shí)系統(tǒng)都是事先設(shè)置好的“以計(jì)算機(jī)為中心”的程序化引導(dǎo)系統(tǒng),當(dāng)艙內(nèi)場(chǎng)景發(fā)生變化時(shí),混合現(xiàn)實(shí)系統(tǒng)無法自動(dòng)對(duì)變化情況做出判斷,并自動(dòng)進(jìn)入合適的引導(dǎo)流程,此時(shí)需要航天員進(jìn)行人工干預(yù)操作實(shí)現(xiàn)程序引導(dǎo)。此局限性原因在于目前系統(tǒng)尚未實(shí)現(xiàn)對(duì)物理空間的場(chǎng)景理解功能。而對(duì)于復(fù)雜模式、未知模式以及應(yīng)急模式,系統(tǒng)自主識(shí)別場(chǎng)景變化,并針對(duì)性對(duì)變化進(jìn)行引導(dǎo)非常必要。
航天員混合現(xiàn)實(shí)輔助系統(tǒng)在國內(nèi)外均有相應(yīng)研究。NASA與微軟聯(lián)合開發(fā)的SideKick項(xiàng)目[3]使用Hololens眼鏡為航天員提供輔助空間定位支持;DSH(Deep Space Habitat)深空棲息硬件定位器[4]以“X射線視覺”形式輔助空間設(shè)備目標(biāo)定位,幫助工作人員找到特定設(shè)備;StowageApp[5]通過對(duì)于三維環(huán)境測(cè)量感知,獲取貨物定位信息與裝載信息,動(dòng)態(tài)指導(dǎo)航天員完成裝載任務(wù),打包和打開貨物。上述研究仍是程序化流程系統(tǒng),沒有形成主動(dòng)引導(dǎo)機(jī)制,普適能力差,無法做到自主識(shí)別與實(shí)時(shí)誘導(dǎo)反饋。
中國航天員科研訓(xùn)練中心研制了基于增強(qiáng)現(xiàn)實(shí)的航天員遠(yuǎn)程專家輔助系統(tǒng),該系統(tǒng)為航天員復(fù)雜操作訓(xùn)練提供實(shí)時(shí)遠(yuǎn)程專家多模式支持,并在空間實(shí)驗(yàn)室任務(wù)組合體訓(xùn)練模擬器內(nèi)進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,采用遠(yuǎn)程專家模式與傳統(tǒng)電子手冊(cè)模式相比,總時(shí)長減少48%,可以提高航天員執(zhí)行復(fù)雜工作的效率,但仍無法實(shí)現(xiàn)對(duì)物理場(chǎng)景變化的自主識(shí)別。
場(chǎng)景理解的關(guān)鍵是圖像識(shí)別技術(shù),主要分為傳統(tǒng)的圖像識(shí)別及基于深度學(xué)習(xí)的圖像識(shí)別兩種實(shí)現(xiàn)方式。傳統(tǒng)圖像識(shí)別通過人工設(shè)計(jì)局部特征描述子,如 FAST算子[6],Harris角點(diǎn)[7]等,主要通過選取圖像中特征比較明顯的點(diǎn)進(jìn)行比較識(shí)別,對(duì)于紋理信息較弱的圖像很難提取足夠的信息。 SURF(Speeded Up Robust Features)[8]、SIFT(Sorting Intolerant From Tolerant)算子[9]是基于密集提取方式,信息更加豐富;Canny算子[10]、Sobel算子[11]、Hough變換[12]等更擅長提取輪廓邊緣信息。但是這些都是通過人工設(shè)計(jì)方式,無法充分提取圖像特征。隨著人工智能和深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)可以利用自身架構(gòu)特點(diǎn)充分學(xué)習(xí)提取圖像信息,僅輸入圖像和深度信息即可對(duì)操作對(duì)象完成識(shí)別,且效果優(yōu)于基于計(jì)算機(jī)視覺的方法。比較典型的方法有基于候選區(qū)域方法如R-CNN[13]、fast R-CNN[14]、faster R-CNN[15]、RFCN[16]等,這些方法需要先劃分候選區(qū)域,然后對(duì)每個(gè)候選區(qū)域分別進(jìn)行目標(biāo)識(shí)別,識(shí)別速度較慢。另有基于回歸方法如 Multi-Box[17]、YOLO(You Only Look Once)[18]、SSD(Single Shot multibox Detector)[19]等,采用統(tǒng)一框架直接實(shí)現(xiàn)最終結(jié)果(類別和位置),可以有效提高識(shí)別速度。如 SSD其識(shí)別速度為 46 fps,同時(shí)在VOC2007[20]數(shù)據(jù)集上可以達(dá)到77.2%的準(zhǔn)確率。
目前,計(jì)算機(jī)視覺方法較適合處理二維特征(色彩,紋理等)較為豐富的圖像,由于計(jì)算量較大,更適合離線識(shí)別,且魯棒性較差,在實(shí)踐中識(shí)別準(zhǔn)確率較低,難以滿足航天復(fù)雜環(huán)境。深度學(xué)習(xí)方法在前期就通過大量數(shù)據(jù)集訓(xùn)練生成模型,后期直接利用模型進(jìn)行識(shí)別,效率較高,且深度學(xué)習(xí)方法通過多層神經(jīng)網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)更復(fù)雜的特征信息表達(dá)方式,更適合在復(fù)雜空間環(huán)境中進(jìn)行圖像識(shí)別,且可以通過一些策略,在保證高識(shí)別率的同時(shí),實(shí)現(xiàn)實(shí)時(shí)識(shí)別。因此深度學(xué)習(xí)方法更適用于航天環(huán)境。
在航天員混合現(xiàn)實(shí)訓(xùn)練環(huán)境中,場(chǎng)景理解可以實(shí)現(xiàn)在艙內(nèi)物理環(huán)境發(fā)生變化時(shí),對(duì)其進(jìn)行快速識(shí)別,做出判斷并自動(dòng)導(dǎo)入正確引導(dǎo)流程,實(shí)現(xiàn)航天員混合現(xiàn)實(shí)系統(tǒng)的自主智能誘導(dǎo)能力。本文針對(duì)航天員混合現(xiàn)實(shí)系統(tǒng)艙內(nèi)環(huán)境智能理解任務(wù)需求,建立原型系統(tǒng),研究空間場(chǎng)景目標(biāo)識(shí)別方法,重點(diǎn)通過深度學(xué)習(xí)方法訓(xùn)練設(shè)備識(shí)別模型,并通過混合現(xiàn)實(shí)技術(shù),在航天員訓(xùn)練時(shí)為其提供設(shè)備識(shí)別信息,以提高航天員混合現(xiàn)實(shí)操作輔助系統(tǒng)智能性和可用性。
混合現(xiàn)實(shí)系統(tǒng)框架如圖1中實(shí)線標(biāo)識(shí)所示,佩戴MR設(shè)備的航天員通過手勢(shì)或語音傳遞指令信息,視覺場(chǎng)景捕捉模塊獲取指令信息,并對(duì)當(dāng)前環(huán)境進(jìn)行信息獲取。同時(shí)利用 SLAM(Simultaneous Localization and Mapping)技術(shù),獲取當(dāng)前定位信息,傳遞給混合現(xiàn)實(shí)場(chǎng)景渲染模塊。場(chǎng)景渲染模塊再依據(jù)當(dāng)前定位信息,從虛擬場(chǎng)景模型庫和信息引導(dǎo)數(shù)據(jù)庫中提取相關(guān)內(nèi)容。
本文設(shè)計(jì)在已有混合現(xiàn)實(shí)系統(tǒng)框架中添加場(chǎng)景理解模塊,如圖1中虛線所示。在航天員通過手勢(shì)或語音交互指令傳達(dá)場(chǎng)景識(shí)別意圖后,場(chǎng)景視覺捕捉模塊獲取當(dāng)前場(chǎng)景信息,并將信息傳遞給場(chǎng)景理解模塊,場(chǎng)景理解模塊識(shí)別出內(nèi)容,結(jié)合場(chǎng)景同步定位信息獲取當(dāng)前預(yù)知定位的配置信息,傳遞給混合現(xiàn)實(shí)場(chǎng)景渲染模塊,結(jié)合信息引導(dǎo)數(shù)據(jù)庫與虛擬場(chǎng)景模型庫進(jìn)行混合現(xiàn)實(shí)引導(dǎo)場(chǎng)景渲染。
圖1 混合現(xiàn)實(shí)系統(tǒng)框架圖Fig.1 Block diagram of mixed reality system
場(chǎng)景理解模塊框架如圖2所示,場(chǎng)景理解模塊對(duì)場(chǎng)景視覺捕捉模塊獲取的場(chǎng)景圖像進(jìn)行理解分析,得到識(shí)別結(jié)果和對(duì)應(yīng)的引導(dǎo)信息,然后發(fā)送給混合現(xiàn)實(shí)場(chǎng)景渲染模塊,生成混合現(xiàn)實(shí)引導(dǎo)場(chǎng)景。
圖2 場(chǎng)景理解模塊框架圖Fig.2 Block diagram of scene understanding
視覺場(chǎng)景捕捉模塊主要為場(chǎng)景理解模塊提供當(dāng)前場(chǎng)景圖像信息。場(chǎng)景理解模塊在獲取圖像信息后,將信息傳入深度學(xué)習(xí)模塊,通過已訓(xùn)練好模型快速識(shí)別出場(chǎng)景中待識(shí)別目標(biāo),并將結(jié)果傳遞給自主引導(dǎo)模塊,同時(shí)為混合現(xiàn)實(shí)場(chǎng)景渲染模塊提供場(chǎng)景同步定位信息。
場(chǎng)景理解模塊主要包括圖像采集模塊、深度學(xué)習(xí)模塊、自主引導(dǎo)模塊。其中自主引導(dǎo)模塊與引導(dǎo)模型庫、引導(dǎo)指令庫相關(guān)聯(lián),當(dāng)深度學(xué)習(xí)模塊識(shí)別出結(jié)果后,自主引導(dǎo)模塊依據(jù)深度學(xué)習(xí)識(shí)別結(jié)果從候選模型集中提取識(shí)別結(jié)果模型,從信息導(dǎo)引數(shù)據(jù)庫提取模型導(dǎo)引數(shù)據(jù)和對(duì)應(yīng)的導(dǎo)引指令,生成可視化引導(dǎo)數(shù)據(jù),并傳遞給混合現(xiàn)實(shí)場(chǎng)景渲染模塊進(jìn)行渲染。
混合現(xiàn)實(shí)場(chǎng)景渲染模塊收到可視化引導(dǎo)數(shù)據(jù),利用當(dāng)前場(chǎng)景同步定位信息,將可視化引導(dǎo)數(shù)據(jù)疊加到真實(shí)場(chǎng)景中,生成混合現(xiàn)實(shí)引導(dǎo)場(chǎng)景。
場(chǎng)景理解的核心是視覺圖像的識(shí)別。如前所述,傳統(tǒng)圖像理解方法在實(shí)踐中準(zhǔn)確率較低,深度學(xué)習(xí)圖像識(shí)別方法可以在保證高質(zhì)量識(shí)別的同時(shí)滿足實(shí)時(shí)性要求,故本文重點(diǎn)研究基于深度學(xué)習(xí)的場(chǎng)景理解。
航天器艙內(nèi)環(huán)境具有以下特點(diǎn):
1)空間狹小。目標(biāo)會(huì)存在遮擋現(xiàn)象;
2)設(shè)備外觀風(fēng)格一致。材料相同,紋理相似且大部分為弱紋理;
3)大部分設(shè)備數(shù)量單一且基本固定。難以通過圖像采集方式有效獲取一定規(guī)模的數(shù)據(jù)集。
對(duì)于場(chǎng)景理解模塊,艙內(nèi)環(huán)境帶來的限制有:艙內(nèi)設(shè)備為專有設(shè)備,無法通過使用通用數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練;艙內(nèi)場(chǎng)景限制,本身設(shè)備所能獲取的樣本量有限。
對(duì)于深度學(xué)習(xí)方法,由于深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)較多,使得深度學(xué)習(xí)分類器對(duì)應(yīng)參數(shù)較多,為確定這些參數(shù)的取值,需要大量的訓(xùn)練樣本,因此,如何生成大規(guī)模的有效數(shù)據(jù)集是深度學(xué)習(xí)方法主要需要克服的難點(diǎn)。
艙內(nèi)設(shè)備大多為專有設(shè)備,且紋理較弱、色彩較為單一,故無法采用通用數(shù)據(jù)集進(jìn)行模型訓(xùn)練。因此,為滿足深度學(xué)習(xí)數(shù)據(jù)集對(duì)于信息豐富性和規(guī)模性的需求,本文采用一種合成的方法對(duì)艙內(nèi)專有設(shè)備建立數(shù)據(jù)集。
在艙內(nèi)進(jìn)行數(shù)據(jù)集采集,選取結(jié)構(gòu)信息較為明顯的設(shè)備模型,提取其不同方位,不同角度的二維圖像,并疊加在通用數(shù)據(jù)集VOC2007[20]上。如圖3所示,(a)圖為艙內(nèi)閥門真實(shí)圖像,(b)圖為利用閥門的3D模型生成的合成圖片,并將其隨機(jī)疊加在VOC2007數(shù)據(jù)集上。
對(duì)樣本進(jìn)行標(biāo)注,也就是在數(shù)據(jù)集中增加真實(shí)值信息。通過對(duì)樣本數(shù)據(jù)提取真實(shí)目標(biāo)信息,并存儲(chǔ)于數(shù)據(jù)集中,從而豐富數(shù)據(jù)集信息,有效提升深度學(xué)習(xí)效率。
圖3 艙內(nèi)樣本集Fig.3 In-cabin sample set
具體方法為首先將原始圖片壓縮為同等大小的圖片,然后建立對(duì)應(yīng)的真實(shí)值標(biāo)記數(shù)據(jù),其中包含每張圖片中目標(biāo)類別信息和對(duì)應(yīng)包圍框位置信息,并存儲(chǔ)為與圖片相對(duì)應(yīng)的XML文件。
參考 ImageNet[22]和 VOC2007數(shù)據(jù)集,設(shè)計(jì)本文的訓(xùn)練與測(cè)試集,步驟如下:
1)將圖片按順序進(jìn)行編號(hào);
2)獲取圖片的真實(shí)樣本標(biāo)注信息,將其以XML文件格式存儲(chǔ),并與圖片名稱相對(duì)應(yīng);
3)將數(shù)據(jù)集劃分為訓(xùn)練驗(yàn)證集與測(cè)試集,其中訓(xùn)練驗(yàn)證集占數(shù)據(jù)集的80%,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,測(cè)試集占數(shù)據(jù)集的20%,用于測(cè)試檢驗(yàn)?zāi)P偷臏?zhǔn)確度。訓(xùn)練驗(yàn)證集又按4∶1比例劃分為訓(xùn)練集與驗(yàn)證集,訓(xùn)練集用于神經(jīng)網(wǎng)絡(luò)模型參數(shù)學(xué)習(xí),驗(yàn)證集用于在訓(xùn)練過程中驗(yàn)證訓(xùn)練是否過擬合、以及用來調(diào)節(jié)訓(xùn)練參數(shù)。
利用深度學(xué)習(xí)方法進(jìn)行圖像識(shí)別主要分為兩種,基于候選區(qū)域方法和基于回歸的方法。表1為當(dāng)前較為經(jīng)典的深度學(xué)習(xí)方法在通用數(shù)據(jù)集VOC2007上的識(shí)別結(jié)果對(duì)比。在采用相同VGG網(wǎng)絡(luò)架構(gòu)前提下,基于回歸方法的如YOLO和SSD的識(shí)別速度可以達(dá)到比較良好的實(shí)時(shí)效果,而基于候選框模式的如R-CNN和R-FCN只能達(dá)到幀率為10 fps的速度,甚至更慢。而且,基于回歸模式的方法,如SSD,也可以在保證識(shí)別速度的同時(shí),達(dá)到與候選框模式相同水平的準(zhǔn)確率。
混合現(xiàn)實(shí)系統(tǒng)對(duì)于場(chǎng)景理解模塊具有較強(qiáng)的實(shí)時(shí)性要求,所以選取當(dāng)前在圖像識(shí)別方面實(shí)時(shí)性和準(zhǔn)確性都比較突出的SSD深度學(xué)習(xí)架構(gòu)。其主要通過回歸的方法同時(shí)將目標(biāo)位置與目標(biāo)類別檢測(cè)出來,也就是在深度學(xué)習(xí)過程中,同時(shí)考慮兩者的可能概率。目前已有比較成熟的深度學(xué)習(xí)架構(gòu)可以準(zhǔn)確實(shí)現(xiàn)對(duì)于圖像內(nèi)的目標(biāo)識(shí)別,如VGG-16[21]。但是VGG網(wǎng)絡(luò)架構(gòu)主要是實(shí)現(xiàn)圖像特征提取,并不具備在識(shí)別物體的同時(shí)確定目標(biāo)邊界的能力。一種解決方案就是在VGG架構(gòu)之后增加多層網(wǎng)絡(luò),實(shí)現(xiàn)目標(biāo)邊界確定與目標(biāo)識(shí)別同時(shí)進(jìn)行。主要網(wǎng)絡(luò)設(shè)計(jì)架構(gòu)圖如圖4所示。
表1 深度學(xué)習(xí)方法對(duì)比Table 1 Comparison of deep learning methods
圖4 網(wǎng)絡(luò)架構(gòu)圖Fig.4 Diagram of network architecture
二維匹配架構(gòu)在VGG架構(gòu)中5層卷積基礎(chǔ)上再增加數(shù)個(gè)特征提取卷積層,用于預(yù)測(cè)邊界框和置信度。其中提取特征卷積層采用基于Multi-Box[17]的邊界回歸算法,這是一種通過多層不同尺寸的卷積網(wǎng)絡(luò)實(shí)現(xiàn)金字塔式多尺寸圖像邊界確定方法。不同卷積層的網(wǎng)格尺寸不同,通過將上一層傳遞的特征圖進(jìn)行更細(xì)尺度的網(wǎng)格劃分,并在每個(gè)網(wǎng)格中心設(shè)立目標(biāo)檢測(cè)器,如圖5所示。通過將圖像細(xì)化分為網(wǎng)格子區(qū)域,并在每個(gè)子區(qū)域上適當(dāng)擴(kuò)大范圍,然后在此范圍內(nèi)進(jìn)行目標(biāo)識(shí)別,最終輸出此范圍大小和目標(biāo)識(shí)別的置信度。
考慮到目標(biāo)除了尺寸之外,還有形狀、方向的不確定性,所以對(duì)每個(gè)目標(biāo)檢測(cè)器都增加不同大小的檢測(cè)邊界框,如圖5所示。通過設(shè)立潛在邊界框規(guī)則,見式(1),在檢測(cè)邊界框的大小時(shí),可以包括以目標(biāo)檢測(cè)器所在網(wǎng)格為中心橫向延伸和縱向延伸的潛在目標(biāo)。
圖5 Multi-box回歸算法[17]示意圖Fig.5 Schematic diagram of Multi-box regression[17]
其中,k∈ 1,m[ ],m為潛在邊界框數(shù)量,k為某層卷積網(wǎng)絡(luò)中的邊界框,smin和smax為人為設(shè)置參數(shù),分別為0.1和0.9,及候選邊界框大小從0.1到0.9的圖片比例平均分布。檢測(cè)策略是在卷積層對(duì)應(yīng)的檢測(cè)邊界框中進(jìn)行邊界回歸,同時(shí)計(jì)算邊界框內(nèi)圖像屬于某一物體的可能性,見式(2)。
其中,loss為檢測(cè)回歸中的損失函數(shù),包含對(duì)于邊界框的回歸定位和對(duì)目標(biāo)識(shí)別結(jié)果的最優(yōu)提取。boxp是檢測(cè)出來的邊界框位置,通過SL1函數(shù)進(jìn)行平滑優(yōu)化,cp是判斷目標(biāo)屬于某一類別的可能性,并通過Softmax函數(shù)提取最佳值。P(Ci)?IOUtp為最終輸出的結(jié)合置信度,見式(3),當(dāng)P(O)>0時(shí)表示在檢測(cè)框內(nèi)存在物體,IOUtp表示其包圍框置信度,P(Ci|O)代表檢測(cè)物體屬于類別 i的概率。IOU(Intersection Over Union)[13]通常用于描述兩個(gè)樣本集間相似度,表達(dá)形式見式(4),當(dāng)IOU大于一個(gè)閾值時(shí),則認(rèn)為兩者之間是匹配的。
本文將場(chǎng)景配置模塊部署于Hololens混合現(xiàn)實(shí)設(shè)備中,將視覺分析模塊部署于遠(yuǎn)程計(jì)算機(jī)中。HoloLens作為當(dāng)前比較成熟的便攜式混合現(xiàn)實(shí)設(shè)備,其可佩帶性決定了其體積小和重量輕的特點(diǎn),在相當(dāng)程度上限制了其計(jì)算能力和功耗,因此無法將需要大量計(jì)算的視覺分析模塊也部署于Hololens中。
1)實(shí)驗(yàn)設(shè)備:Hololens混合現(xiàn)實(shí)設(shè)備,Surface book筆記本,Intel i7 CPU,內(nèi)存32G,配備Nvidia GeForce 1060顯卡,顯存6G;
2)運(yùn)行環(huán)境:Ubuntu16.04系統(tǒng),CUDA8.0,python3.6,tensorflow-gpu1.4;
3)目標(biāo)場(chǎng)景:航天器艙內(nèi)以其他室內(nèi)場(chǎng)景。
針對(duì)艙內(nèi)環(huán)境特殊性,通過對(duì)真實(shí)環(huán)境采樣的形式建立的真實(shí)數(shù)據(jù)集具有真實(shí)性,但是樣本量有限;通過設(shè)備3D模型與真實(shí)圖片相結(jié)合的合成數(shù)據(jù),可以擴(kuò)大樣本量,但不可避免帶來非真實(shí)數(shù)據(jù),影響實(shí)際識(shí)別效果。因此,本文對(duì)合成數(shù)據(jù)集和真實(shí)采樣數(shù)據(jù)集分別進(jìn)行訓(xùn)練,并對(duì)結(jié)果進(jìn)行比較。
合成數(shù)據(jù)集的生成方法是選取艙內(nèi)環(huán)境中三維結(jié)構(gòu)較為豐富的閥門模型,提取其不同方位,不同角度的二維圖像,并疊加在已有圖像數(shù)據(jù)集中。在VOC2007數(shù)據(jù)集隨機(jī)選取3000張圖片,并隨機(jī)在其圖片上疊加不同姿態(tài)的模型,最終形成數(shù)據(jù)集,同時(shí)生成對(duì)應(yīng)XML文件。
為驗(yàn)證合成數(shù)據(jù)集的合理性,建立真實(shí)數(shù)據(jù)集進(jìn)行對(duì)比,方式為通過相機(jī)在實(shí)際艙內(nèi)場(chǎng)景中對(duì)目標(biāo)物體通過不同角度,不同距離和不同方位分別進(jìn)行拍照采樣,圖片存儲(chǔ)為JPEG格式,同時(shí)通過人工標(biāo)定方法記錄圖片中目標(biāo)物體的類別與位置,存儲(chǔ)為XML格式文件。
4.3.1 合成數(shù)據(jù)集訓(xùn)練結(jié)果
圖6為Tensorboard軟件依據(jù)網(wǎng)絡(luò)訓(xùn)練過程中數(shù)據(jù)生成的損失函數(shù)趨勢(shì)變化圖,其橫坐標(biāo)為迭代(訓(xùn)練)次數(shù),縱坐標(biāo)為損失函數(shù)值。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)成果可用合成數(shù)據(jù)集,包含3000張圖片,其中2403張作為訓(xùn)練驗(yàn)證集,597張作為測(cè)試集。在訓(xùn)練時(shí)分為2個(gè)階段:第一階段只訓(xùn)練特征,提取卷積層,不調(diào)整VGG-16網(wǎng)絡(luò)的默認(rèn)參數(shù),訓(xùn)練5000次;第二階段對(duì)于整個(gè)網(wǎng)絡(luò)架構(gòu)進(jìn)行參數(shù)微調(diào),訓(xùn)練5000次。共進(jìn)行10 000次。在第一階段,學(xué)習(xí)率為0.001,學(xué)習(xí)率損失參數(shù)為0.94,權(quán)重?fù)p失率為0.0005。在第二階段,學(xué)習(xí)率在0.00001,權(quán)重?fù)p失率為0.00005,學(xué)習(xí)率損失參數(shù)為0.94。訓(xùn)練中損失函數(shù)值趨于穩(wěn)定,對(duì)597張測(cè)試集圖片進(jìn)行檢測(cè),并與真實(shí)標(biāo)定結(jié)果進(jìn)行比對(duì),所得mAP為79.8%。
圖6 合成數(shù)據(jù)集損失函數(shù)趨勢(shì)變化Fig.6 Trends of synthetic data-set loss function
圖7 合成數(shù)據(jù)集識(shí)別結(jié)果Fig.7 Results of synthetic data-set recognition
在本地計(jì)算機(jī)進(jìn)行圖像識(shí)別,所得結(jié)果如圖7所示。圖中標(biāo)識(shí)出的細(xì)邊框?yàn)樽R(shí)別出的邊界框位置,[1|0.953]和[2|0.739]為識(shí)別出的目標(biāo)物體的類別和概率值。
4.3.2 真實(shí)數(shù)據(jù)集訓(xùn)練結(jié)果
真實(shí)數(shù)據(jù)集包含403張圖片,其中362張圖片作為訓(xùn)練驗(yàn)證集,41張作為測(cè)試集。訓(xùn)練過程趨勢(shì)圖如圖8所示。
圖8 真實(shí)數(shù)據(jù)集損失函數(shù)趨勢(shì)變化Fig.8 Trends of real data-set loss function
整個(gè)訓(xùn)練過程參數(shù)與合成數(shù)據(jù)集相同。第一階段訓(xùn)練500次,第二階段訓(xùn)練次數(shù)為1500次。訓(xùn)練中損失函數(shù)值趨于穩(wěn)定,測(cè)試集共包含41張圖片,格式與訓(xùn)練驗(yàn)證集相同。對(duì)所有測(cè)試集圖片進(jìn)行檢測(cè),并與真實(shí)標(biāo)定結(jié)果進(jìn)行比對(duì),所得mAP為72.88%。
視覺分析模塊進(jìn)行本地圖像識(shí)別所得結(jié)果如圖9所示。圖中標(biāo)識(shí)出的細(xì)邊框?yàn)樽R(shí)別出的邊界框位置,[1|0.825]和[2|0.570]為識(shí)別出的目標(biāo)物體的類別和概率值。
4.3.3 訓(xùn)練結(jié)果對(duì)比
共在3個(gè)不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)訓(xùn)練,結(jié)果如表2所示。結(jié)果表明,2種數(shù)據(jù)集的訓(xùn)練結(jié)果基本可以達(dá)到SSD在通用數(shù)據(jù)集上經(jīng)過大量訓(xùn)練后達(dá)到的識(shí)別準(zhǔn)確率,且識(shí)別速度為46 fps,與通用數(shù)據(jù)集識(shí)別速度相同,可實(shí)現(xiàn)實(shí)時(shí)識(shí)別。由于數(shù)據(jù)量較少,在真實(shí)數(shù)據(jù)集上的模型訓(xùn)練僅經(jīng)過2000次后就趨于收斂,但精度較低。合成數(shù)據(jù)集的訓(xùn)練次數(shù)與通用數(shù)據(jù)集VOC相似,數(shù)據(jù)量較為豐富,故mAP值較優(yōu),驗(yàn)證了采用合成數(shù)據(jù)集在SSD網(wǎng)絡(luò)架構(gòu)上進(jìn)行學(xué)習(xí)的方法優(yōu)于真實(shí)數(shù)據(jù)集方法,更適用于艙內(nèi)環(huán)境。
圖9 真實(shí)數(shù)據(jù)集識(shí)別結(jié)果Fig.9 Recognition results of real data-set
表2 訓(xùn)練結(jié)果對(duì)比Table 2 Comparison of training results
航天員混合現(xiàn)實(shí)訓(xùn)練環(huán)境如圖10所示。航天員佩戴便攜式混合現(xiàn)實(shí)眼鏡,通過語音或手勢(shì)指令與混合現(xiàn)實(shí)系統(tǒng)進(jìn)行交互?;旌犀F(xiàn)實(shí)系統(tǒng)對(duì)環(huán)境信息進(jìn)行分析,得到可視化語義指導(dǎo)信息,疊加到現(xiàn)實(shí)環(huán)境中。航天員可通過透射式眼鏡獲取混合現(xiàn)實(shí)引導(dǎo)場(chǎng)景。
圖10 混合現(xiàn)實(shí)訓(xùn)練環(huán)境Fig.10 Mixed reality training environment
經(jīng)測(cè)試,通過Hololens混合現(xiàn)實(shí)設(shè)備捕捉場(chǎng)景圖像,通過4G網(wǎng)絡(luò)傳至配有場(chǎng)景理解模塊的電腦,平均時(shí)延為150 ms,場(chǎng)景理解模塊對(duì)一張圖片進(jìn)行分析平均耗時(shí)約為10 ms,分析結(jié)果通過4G網(wǎng)絡(luò)傳回Hololens端約耗時(shí)30 ms,渲染處理大概10 ms,共耗時(shí)約200 ms,滿足實(shí)時(shí)性要求,證明系統(tǒng)原型架構(gòu)設(shè)計(jì)合理。
在本地運(yùn)行場(chǎng)景理解,識(shí)別結(jié)果示意圖如圖11所示,可識(shí)別出目標(biāo)在圖片中的位置(邊界框)、類別(3)以及對(duì)應(yīng)的概率(0.905)。航天員混合現(xiàn)實(shí)系統(tǒng)根據(jù)場(chǎng)景理解模塊識(shí)別結(jié)果,和場(chǎng)景定位信息,記錄采集圖片在真實(shí)環(huán)境中的位置,調(diào)用引導(dǎo)信息庫和引導(dǎo)模型庫中相關(guān)設(shè)備的操作引導(dǎo)流程,在采集圖片位置上進(jìn)行疊加。具體方式為依據(jù)識(shí)別出的模型類型,從引導(dǎo)信息庫和模型庫中提取相關(guān)虛擬模型,然后將虛擬模型放置在識(shí)別出的邊界框中,并投射至采集圖片的位置上。如圖12所示,虛擬模型在混合現(xiàn)實(shí)場(chǎng)景中疊加在真實(shí)設(shè)備上,并顯示虛擬箭頭,提示航天員需對(duì)該設(shè)備進(jìn)行操作。實(shí)驗(yàn)結(jié)果表明文中選擇的深度學(xué)習(xí)方法識(shí)別有效。
圖11 場(chǎng)景理解本地識(shí)別示意圖Fig.11 Local recognition diagram of scene understanding
圖12 航天員混合現(xiàn)實(shí)系統(tǒng)引導(dǎo)場(chǎng)景Fig.12 Guidance scene of astronaut mixed reality system
1)研究航天員混合現(xiàn)實(shí)系統(tǒng)原型架構(gòu)設(shè)計(jì)、場(chǎng)景理解應(yīng)用設(shè)計(jì),通過深度學(xué)習(xí)方法訓(xùn)練設(shè)備識(shí)別模型,并使用混合現(xiàn)實(shí)技術(shù),在航天員在軌操作及訓(xùn)練時(shí)為其提供設(shè)備識(shí)別信息。
2)研究結(jié)果驗(yàn)證了系統(tǒng)原型架構(gòu)設(shè)計(jì)和采用SSD深度學(xué)習(xí)方法以及遠(yuǎn)程終端的方式,可以滿足混合現(xiàn)實(shí)空間場(chǎng)景理解原型系統(tǒng)的實(shí)時(shí)性需求,采用合成數(shù)據(jù)集方法可以克服艙內(nèi)環(huán)境特殊性帶來的對(duì)數(shù)據(jù)集建立的限制。
3)本文提出的原型架構(gòu)和場(chǎng)景理解方法可以有效解決航天員在艙內(nèi)訓(xùn)練時(shí)對(duì)于設(shè)備操作狀態(tài)變化的自然識(shí)別需求,并通過自主引導(dǎo)模式在混合現(xiàn)實(shí)系統(tǒng)中實(shí)現(xiàn)實(shí)時(shí)引導(dǎo)。