呂健榮 陸 旻 樂 陽
(深圳大學(xué)建筑與城市規(guī)劃學(xué)院 深圳 518060)
隨著智慧城市概念的提出,智慧校園的建設(shè)也逐漸得到重視[1]。日益進(jìn)步的物聯(lián)網(wǎng)、云計(jì)算等技術(shù),使智能化、信息化、物聯(lián)化的智慧校園成為了可能。20 世紀(jì) 70 年代,美國麻省理工學(xué)院提出的 E-campus 計(jì)劃最早引出“數(shù)字校園”的概念,隨后數(shù)字化的概念在全球得到傳播,“數(shù)字城市”“數(shù)字校園”逐漸得到關(guān)注[2]。近年來,涵蓋從感知層、網(wǎng)絡(luò)層、數(shù)據(jù)層、應(yīng)用層到服務(wù)層的自上而下的智慧校園總體架構(gòu)模型[3]的構(gòu)造,使眾多校園管理事務(wù)得以實(shí)現(xiàn)和優(yōu)化,如照明管理、圖書借還管理、課堂簽到、院系資源共享等[4-6]。
數(shù)字沙盤投影系統(tǒng),簡稱數(shù)字沙盤,是一種直觀展示數(shù)據(jù)與信息的技術(shù)。其在傳統(tǒng)沙盤的基礎(chǔ)上,結(jié)合了仿真技術(shù)、虛擬技術(shù),達(dá)到更好的視覺效果和虛實(shí)結(jié)合的交互能力,提高演示和分析的效率,從而更好地達(dá)到?jīng)Q策目的。近年來,國內(nèi)外有諸多關(guān)于數(shù)字沙盤的研究和應(yīng)用。在國內(nèi),故宮數(shù)字沙盤借助大數(shù)據(jù)和計(jì)算機(jī)科學(xué)技術(shù),搭建集方案演示、規(guī)劃評估等多功能于一體的可視化平臺[7];結(jié)合地形、影像等數(shù)據(jù)構(gòu)建的黃河北干流交互沙盤系統(tǒng),為水利樞紐工程建設(shè)起到重要的支撐作用[8];結(jié)合高校信息傳播及圖形化技術(shù)構(gòu)建的交互式電子沙盤,可用于探究在新媒體環(huán)境下高校信息呈現(xiàn)的新方式[9];借助基于 Leap Motion(一種體感控制器)設(shè)計(jì)的手勢識別方案對基于 Unity3D 構(gòu)建的三維電子沙盤進(jìn)行控制,實(shí)現(xiàn)人手對沙盤系統(tǒng)的操作[10];結(jié)合增強(qiáng)現(xiàn)實(shí)技術(shù)構(gòu)建的校園規(guī)劃沙盤,在保持交互性的基礎(chǔ)上提高了真實(shí)感[11]。在國外,Piper 等[12]通過改變黏土制作的沙盤模型的造型,利用激光掃描儀實(shí)時(shí)捕捉不斷變化的幾何形狀,完成水流和土地侵蝕等情況的模擬分析,并對結(jié)果進(jìn)行了直觀展示;Mitasova 等[13]在有形用戶界面和地形分析研究的基礎(chǔ)上,通過改變 3D 物理模型的地形表面,來探索不同地形之間的關(guān)系及地形改變時(shí)發(fā)生的景觀變化過程;Petrasova 等[14]結(jié)合物理三維景觀模型和地理空間建模進(jìn)行分析,基于分析結(jié)果進(jìn)行水文模擬和野火建模等;同樣,國外也有團(tuán)隊(duì)基于沉浸式技術(shù)結(jié)合增強(qiáng)現(xiàn)實(shí)設(shè)備,使用戶沉浸在數(shù)據(jù)中,流暢地進(jìn)行分析與合作[15];Zhang[16]提出城市矩陣的方法,以樂高積木作為實(shí)體模型,首先構(gòu)建光學(xué)標(biāo)簽,然后利用計(jì)算機(jī)視覺算法識別計(jì)算,最后將結(jié)果投影到積木上。
有別于傳統(tǒng)的“鼠標(biāo)-鍵盤”(簡稱“鍵鼠”)人機(jī)交互方式,數(shù)字沙盤提供了更為自然的人機(jī)交互技術(shù),如觸摸屏,該技術(shù)已被證明可以極大地提高人機(jī)交互效率。有關(guān)數(shù)字沙盤的研究主要分為兩種思路,一種是基于可穿戴設(shè)備的自然人機(jī)交互,如國內(nèi)外均有團(tuán)隊(duì)為了幫助聾啞人,將無線藍(lán)牙模塊和數(shù)據(jù)手套結(jié)合,完成了從手勢到語音轉(zhuǎn)換系統(tǒng)的開發(fā)[17-18]。另一種是無需佩戴交互設(shè)備的人機(jī)交互方式,如翟雅芳[19]將Kinect 技術(shù)應(yīng)用到教學(xué)中,設(shè)計(jì)具有娛樂性的虛擬教學(xué)系統(tǒng);Manghisi 等[20]基于 Kinect v2 深度相機(jī),對不同工作場所的人群進(jìn)行骨骼捕捉,結(jié)合人體工學(xué)對工作場所的風(fēng)險(xiǎn)因素進(jìn)行評估。隨著深度學(xué)習(xí)的不斷發(fā)展[21-22],基于圖像識別的交互技術(shù)實(shí)現(xiàn)成本越來越低。孫博文等[23]利用圖像分割、圖像去噪等技術(shù),結(jié)合神經(jīng)網(wǎng)絡(luò)構(gòu)建的模型,在單目攝像頭下也能達(dá)到很高的識別精度,完成手勢的交互操作;肖志勇等[24]利用攝像頭采集的用戶圖像,對人眼和手指進(jìn)行定位,實(shí)現(xiàn)了基于視線跟蹤和手勢識別的交互方式。
本文在建設(shè)智慧校園的背景下,提出支持多人協(xié)作的智慧校園活動熱力模擬交互式數(shù)字沙盤。具體地,首先利用傳感器、智能計(jì)算終端等設(shè)備構(gòu)建基于深度學(xué)習(xí)驅(qū)動的數(shù)字沙盤計(jì)算模型;然后采用 3D 打印技術(shù)制作交互道具,結(jié)合圖像彩色信息和深度信息,將道具與手勢置于以深度學(xué)習(xí)為基礎(chǔ)的檢測識別模型中,實(shí)現(xiàn)從鍵鼠交互的數(shù)字沙盤到以手勢/道具為交互介質(zhì)的三維數(shù)字沙盤的轉(zhuǎn)變;最后構(gòu)建交互式的智慧校園沙盤原型系統(tǒng),并以校園活動熱力模擬為應(yīng)用場景,驗(yàn)證該系統(tǒng)的可行性。
交互式校園活動熱力數(shù)字沙盤是在校園活動發(fā)生時(shí),模擬校園內(nèi)部道路的途經(jīng)熱度(簡稱校園活動熱力),并支持實(shí)時(shí)可視化及交互的多人決策平臺。該系統(tǒng)脫離傳統(tǒng)的鍵鼠交互方式,以更為靈活多變的手勢及道具進(jìn)行操作。利用智能計(jì)算終端對 Kinect 相機(jī)傳感器捕獲的每一幀圖像進(jìn)行手勢和道具的檢測,將檢測到的目標(biāo)與定義好的計(jì)算進(jìn)行關(guān)聯(lián),觸發(fā)交互事件。通過對沙盤上手勢和道具的連續(xù)感知,對道路、建筑等進(jìn)行相應(yīng)調(diào)整,完成不同條件下校園活動熱力的模擬計(jì)算,并通過投影儀進(jìn)行可視化輸出,便于用戶進(jìn)行前后對比以輔助決策(圖 1)。
圖1 平臺搭建及現(xiàn)場操作Fig. 1 Platform infrastructure and operation
交互式校園活動熱力數(shù)字沙盤采用客戶端和服務(wù)器(Client-Server)架構(gòu)。模型的客戶端使用Kinect 攝像頭作為輸入設(shè)備,投影儀作為輸出設(shè)備,完成手勢/道具圖像捕捉(輸入)、可視化渲染(輸出)等交互界面相關(guān)的任務(wù);服務(wù)器端負(fù)責(zé)數(shù)據(jù)存儲及訪問、校園活動熱力模擬計(jì)算、交互判別及響應(yīng)等核心計(jì)算任務(wù)。
系統(tǒng)基本運(yùn)作流程如圖 2 所示。首先,Kinect 攝像頭對操作平臺進(jìn)行連續(xù)圖像獲取,智能計(jì)算終端對輸入圖像進(jìn)行目標(biāo)檢測,識別其中手勢/道具的具體位置并進(jìn)行透視變換,實(shí)現(xiàn)向客戶端可視界面的坐標(biāo)轉(zhuǎn)換;然后,根據(jù)識別的目標(biāo)類別、數(shù)量、位置等信息,對校園活動熱力模擬模型設(shè)置不同的計(jì)算條件,通過服務(wù)器端訪問數(shù)據(jù)庫調(diào)用相應(yīng)數(shù)據(jù)完成熱力計(jì)算,并將計(jì)算結(jié)果傳至客戶端;最后,客戶端根據(jù)接收的信息渲染更新可視化結(jié)果,并借助投影設(shè)備完成可視化界面的輸出。該技術(shù)架構(gòu)擺脫了傳統(tǒng)的單人鍵鼠交互方式,通過預(yù)定義的手勢/道具語義信息,支持多人多道具的自然人機(jī)交互,從而提高團(tuán)隊(duì)的協(xié)作效率。
圖2 系統(tǒng)運(yùn)作流程圖Fig. 2 Flow chart of system operation
本文根據(jù)道路熱力值進(jìn)行建模,完成校園活動熱力模擬模型的搭建。對于本文涉及的個(gè)別名詞及相互關(guān)系,定義如下:
校園活動:以校園內(nèi)某一處或多處建筑為主要活動地點(diǎn)舉辦的聚集性活動,如新生軍訓(xùn)、迎新晚會、校園宣講會等,是校園學(xué)習(xí)和生活中的常見形式;
道路熱力:校園道路承載著連接校園各個(gè)建筑的功能,道路熱力用于評估道路的擁擠程度,人流量越大,該道路表現(xiàn)越擁擠,熱力值越高;人流量越小,該道路表現(xiàn)越通暢,熱力值越低。
當(dāng)校園活動發(fā)生時(shí),不同個(gè)體選擇不同道路去往活動地點(diǎn),造成不同道路的人流量存在差異,此時(shí)的道路途經(jīng)熱度即道路人流量的相對大小,人流量越大則熱力值越高。提前預(yù)測道路熱力值,有利于對熱力值高的道路提前做好預(yù)防工作,防止踩踏等安全事故發(fā)生,是管理校園安全保障的一個(gè)重要方面。
通常情況下,行人在前往目的地的過程中往往會選擇最短路徑,因此在模擬行人對路徑的選擇時(shí),本文采用 Dijkstra 算法構(gòu)建校園道路有向圖。有向圖中的邊代表道路路段,每條邊的代價(jià)值由道路的長度決定,即長度越長,行人在其上花費(fèi)的時(shí)間越多,其代價(jià)值越高。節(jié)點(diǎn)作為各道路的相交點(diǎn)也具有代價(jià)值,該值代表從起點(diǎn)到該點(diǎn)的最短路徑所花費(fèi)的代價(jià),由所經(jīng)道路所在邊的代價(jià)值之和決定。最后根據(jù) Dijkstra 算法計(jì)算過程中每條道路的使用頻數(shù),對每條道路所在邊賦予權(quán)重值,作為道路熱力值。
在確定起點(diǎn)和終點(diǎn)建筑后,根據(jù)就近原則確定對應(yīng)的有向圖節(jié)點(diǎn)。利用 Dijkstra 算法計(jì)算各個(gè)起點(diǎn)到終點(diǎn)的路徑并結(jié)合起點(diǎn)建筑出發(fā)人數(shù),根據(jù)起點(diǎn)建筑與起點(diǎn)道路節(jié)點(diǎn)及起點(diǎn)道路節(jié)點(diǎn)與最短路徑的一一對應(yīng)關(guān)系,將起點(diǎn)建筑出發(fā)的人數(shù)累加到最短路徑所經(jīng)的路段上,以最終的累加值作為路段的熱力值,用于反映道路的人流量大小。最后利用顏色漸變的映射關(guān)系將道路熱力值進(jìn)行結(jié)果顯示(圖 3)。熱力值越高代表路段擁擠度越高,越需要加以重視或者通過人工干預(yù)進(jìn)行人流分流,以降低事故發(fā)生的概率。
圖3 道路熱力賦值Fig. 3 Road thermal assignment
本文基于圖像的深度學(xué)習(xí)方法,利用被廣泛使用的 YOLO 算法[25]對手勢/道具進(jìn)行訓(xùn)練識別,實(shí)現(xiàn)人機(jī)交互。不同于基于骨架開發(fā)的手勢交互模型,本文采用基于圖像的方法,將手勢和道具交互置于統(tǒng)一的識別模型中,在交互道具種類和數(shù)量上具有更好的可擴(kuò)展性。
構(gòu)建 YOLOv4 目標(biāo)檢測模型需要大量的訓(xùn)練圖像數(shù)據(jù),如果每張圖像都通過拍攝獲取后進(jìn)行逐張標(biāo)注,那么人力和時(shí)間成本會非常高。因此,本文設(shè)計(jì)了半人工標(biāo)注的訓(xùn)練集生成方法。
如圖 4 所示,首先利用 Canny 算子[26]對手勢和道具圖像進(jìn)行邊緣自動檢測與提取,通過圖像增強(qiáng)的方式增加手勢與道具的姿態(tài)信息,提高數(shù)據(jù)的多樣性;然后以 7∶3 的比例將目標(biāo)影像和背景圖進(jìn)行加權(quán)融合,模擬投影效果。在融合過程中記錄標(biāo)注信息,以節(jié)省后續(xù)人工標(biāo)注目標(biāo)對象的時(shí)間。
圖4 訓(xùn)練圖像生成流程Fig. 4 Automatic generation of training dataset
本系統(tǒng)采用 YOLOv4 的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合YOLO 官網(wǎng)提供的權(quán)重?cái)?shù)據(jù),輸入上述合成的訓(xùn)練集進(jìn)行訓(xùn)練。該權(quán)重?cái)?shù)據(jù)在 COCO[27]數(shù)據(jù)集(包括人、自行車、汽車、飛機(jī)等常見對象)上進(jìn)行預(yù)訓(xùn)練,使算法從一開始就能提取目標(biāo)輪廓、形態(tài)等基本信息,并對物體有一定的識別能力。利用該權(quán)重?cái)?shù)據(jù)能夠更快地使計(jì)算結(jié)果收斂,降低訓(xùn)練所需時(shí)間。識別效果如圖 5 所示。
如圖 5(a)所示,當(dāng)訓(xùn)練次數(shù)迭代至 2 000 次左右時(shí),模型損失值(Loss)趨于平緩,平均精度均值(mAP)接近 95%,該結(jié)果表明,模型此時(shí)接近最優(yōu)解。若再進(jìn)行迭代訓(xùn)練,結(jié)果可能會產(chǎn)生過擬合現(xiàn)象,故采用迭代 2 000 次獲得的模型參數(shù)作為實(shí)驗(yàn)參數(shù)。從實(shí)際識別結(jié)果來看,該模型參數(shù)的平均識別準(zhǔn)確度達(dá)到 85% 以上,所有手勢和道具都能被準(zhǔn)確地檢測。即使當(dāng)?shù)谰呤艿綇?qiáng)光影響產(chǎn)生較強(qiáng)的鏡面反射時(shí),該模型也能被準(zhǔn)確識別,如圖 5(b)所示。
圖5 Loss,mAP 圖以及目標(biāo)檢測識別效果Fig. 5 Loss, mAP diagram and the eあect of target detection and recognition
在圖像輸入、手勢/道具位置檢測、位置信息傳輸以及網(wǎng)頁渲染的過程中,由于位置信息所在的坐標(biāo)系發(fā)生了變化,所以需要進(jìn)行坐標(biāo)轉(zhuǎn)換,在此過程中涉及的坐標(biāo)系有兩種:Kinect 攝取圖像所在的圖像坐標(biāo)系以及網(wǎng)頁渲染的屏幕坐標(biāo)系(圖 6)。
圖6 坐標(biāo)轉(zhuǎn)換過程Fig. 6 Coordinate transformation process
坐標(biāo)系轉(zhuǎn)換實(shí)際上是基于圖像坐標(biāo)系中的網(wǎng)頁投影區(qū)域和屏幕坐標(biāo)系中整個(gè)網(wǎng)頁部分之間的透視變換完成的,因此需要利用 Canny 算子[26]提取網(wǎng)頁部分在透視變換前后的 4 組映射點(diǎn)坐標(biāo)。詳細(xì)步驟如下:
(1) 對圖像坐標(biāo)系的圖像進(jìn)行網(wǎng)頁部分的邊緣提取,通過邊緣包圍面積過濾小邊緣,僅保留包圍網(wǎng)頁投影區(qū)域的大邊緣;
(2)通過多邊形近似算法將邊緣信息簡化為4 個(gè)角點(diǎn)坐標(biāo),記作原始角點(diǎn)坐標(biāo);
(3)提取網(wǎng)頁在屏幕坐標(biāo)系下 4 個(gè)角點(diǎn)的坐標(biāo),記作變換角點(diǎn)坐標(biāo);
(4)通過透視變換求解變換矩陣,進(jìn)行坐標(biāo)轉(zhuǎn)換。
上述操作是在系統(tǒng)初始化計(jì)算時(shí)對交互行為中的位置完成坐標(biāo)轉(zhuǎn)換,極大地降低了 Kinect 相機(jī)與投影儀相對位置的安裝精度要求。
基于 YOLO 算法識別目標(biāo)對象位置并進(jìn)行坐標(biāo)轉(zhuǎn)換的流程實(shí)現(xiàn),本文設(shè)計(jì)了多種手勢/道具的交互方式,包括手勢驅(qū)動的地圖平移和縮放及各種道具支持的地圖語義交互等,具體見表 1。
表1 手勢/道具定義Table 1 Definition of gestures/props
當(dāng)學(xué)校舉行大型活動時(shí),人流的控制是其中比較重要的部分,需要校園管理者合理規(guī)劃師生前往活動會場的路徑,將人流較為均勻地分布到各路段,更大效率地使用現(xiàn)有道路,避免某些路段人流過多帶來安全隱患。
假設(shè)學(xué)校舉辦校運(yùn)動會,學(xué)生們分別從不同建筑前往田徑場進(jìn)行集合,利用校園活動熱力模擬模型得到道路熱力圖。如圖 7(a)所示,圖中標(biāo)記路段(黑色橢圓區(qū)域)沒有人流量,該區(qū)域道路沒有得到利用,可通過人工干預(yù),將西南區(qū)宿舍的人流引導(dǎo)至該路段,以減少其他路段的人流壓力。如圖 7(b)所示,利用“建筑選擇”道具選中西南區(qū)宿舍,通過“箭頭”道具引導(dǎo)人流,使校園路段得到更充分的利用,有利于降低安全事故的發(fā)生概率。
圖7 人流疏導(dǎo)前后對比圖Fig. 7 Comparison before and after flow diversion
由于道路施工等緣故,校園某些路段禁止通行,所以在進(jìn)行校園活動熱力模擬時(shí),需要將某些路段禁止通行的條件納入計(jì)算。
假設(shè)學(xué)生活動中心需要舉辦活動,在所有道路均能通行的情況下,使用校園熱力模擬模型計(jì)算得到的道路熱力圖如圖 8(a)所示。此時(shí),若某路段正在進(jìn)行施工操作需要將路段暫時(shí)封閉(如圖 8(b)“禁止通行”道具處),利用“禁止通行”道具向計(jì)算終端發(fā)送路段禁行的信號,終端根據(jù)新的計(jì)算條件對校園活動熱力模擬模型進(jìn)行重新計(jì)算并反饋計(jì)算結(jié)果。該操作對校園路段狀況進(jìn)行了及時(shí)的模擬更新,有助于校園管理者提前預(yù)知師生活動軌跡的變化,為校園安防工作做好準(zhǔn)備。
圖8 道路障礙布設(shè)前后對比圖Fig. 8 Comparison before and after road obstacle layout
本系統(tǒng)將傳統(tǒng)的“屏幕-鼠標(biāo)-鍵盤”二維的交互方式拓展至三維,直接利用手勢/道具對系統(tǒng)進(jìn)行操作。為測試系統(tǒng)的有效性和收集用戶體驗(yàn)數(shù)據(jù),特邀請 20 名受試人員(18 名學(xué)生,2 名教師),分別就單獨(dú)交互及多人交互進(jìn)行系統(tǒng)的使用并評價(jià)。
與傳統(tǒng)的“鍵鼠”交互方式相比,所有體驗(yàn)者認(rèn)為本文系統(tǒng)的交互空間更大,更加新穎,更適合多人協(xié)作討論;90% 的體驗(yàn)者(18 名受試人員)表示該系統(tǒng)入門門檻低;75% 的體驗(yàn)者(15名受試人員)表示,該系統(tǒng)使用的實(shí)體道具增加了場景模擬的真實(shí)感,認(rèn)為手勢/道具的設(shè)計(jì)和定義很好地貼近了使用者的思維及生活常識;40% 的體驗(yàn)者(8 名受試人員)對系統(tǒng)將道具交互與即時(shí)的計(jì)算分析反饋相結(jié)合的方式印象深刻,系統(tǒng)具有與傳統(tǒng)交互系統(tǒng)相當(dāng)?shù)挠?jì)算效率,同時(shí)該系統(tǒng)的實(shí)體道具讓他們對計(jì)算結(jié)果的理解更加深刻;25% 的體驗(yàn)者(5 名受試人員)表示,通過形象的道具便能大致了解用途,再結(jié)合系統(tǒng)設(shè)計(jì)的道具功能識別模塊進(jìn)行準(zhǔn)確解讀,能輕松上手系統(tǒng)操作。
但是,5 名受試人員反映,該系統(tǒng)在使用過程中存在道具誤識別和漏識別的情況,影響用戶體驗(yàn)。同時(shí),12 名受試人員表示,目前所提供的實(shí)體道具功能相對有限,希望系統(tǒng)增加實(shí)體道具的種類。本實(shí)驗(yàn)提出的自動批量生成虛擬訓(xùn)練數(shù)據(jù)的方法,雖然解決了獲取訓(xùn)練樣本成本高的問題,但在模型訓(xùn)練方面還需要耗費(fèi)大量時(shí)間,且在添加新手勢或道具方面仍需進(jìn)一步優(yōu)化以降低系統(tǒng)的擴(kuò)展成本。
在建設(shè)智慧校園的背景下,本文設(shè)計(jì)并實(shí)現(xiàn)了交互式校園活動熱力數(shù)字沙盤,重點(diǎn)探究了如何結(jié)合深度學(xué)習(xí)、傳感器和智能計(jì)算終端構(gòu)建可交互的數(shù)字沙盤模型。首先,在模型構(gòu)建過程中,提出通過人工合成數(shù)據(jù)集的方法降低生產(chǎn)數(shù)據(jù)集的時(shí)間成本;其次,利用基于透視變換的坐標(biāo)轉(zhuǎn)換降低傳感器安裝的精度要求;再次,結(jié)合 Dijkstra 最短路徑算法搭建校園活動熱力模擬模型,完成以深度學(xué)習(xí)驅(qū)動的“傳感器輸入-智能計(jì)算終端-可視化輸出”的數(shù)字沙盤模型的構(gòu)建,實(shí)現(xiàn)交互式智慧校園沙盤原型系統(tǒng);最后,基于該原型系統(tǒng),結(jié)合手勢和其他交互道具檢驗(yàn)系統(tǒng)的可交互性和實(shí)用性。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)可以準(zhǔn)確地識別手勢和道具信息,通過智能計(jì)算終端輸出結(jié)果,將結(jié)果更新到沙盤可視化界面反饋給用戶。用戶調(diào)查結(jié)果顯示,該系統(tǒng)具有上手快、交互空間大、適合多人協(xié)作、真實(shí)感強(qiáng)、計(jì)算分析反饋及時(shí)等優(yōu)點(diǎn)。
在識別方面,基于樂高積木底部的光學(xué)標(biāo)簽識別方法,在語義類別定義上,受限于底部積木的排列組合數(shù),不利于定義數(shù)量較大的實(shí)體道具;而基于圖像目標(biāo)識別的方法,在增加實(shí)體道具、豐富語義信息方面具有更好的拓展性。且與樂高積木[16]相比,本文采用的 3D 打印技術(shù)制作的道具更加逼近真實(shí)物體,在展示上更加形象細(xì)致。但是,目前基于 YOLO 算法實(shí)現(xiàn)的手勢和道具的檢測方法雖然通過人工合成數(shù)據(jù)集的方式大幅度地降低模型構(gòu)建的時(shí)間開銷,但在模型訓(xùn)練過程中仍需耗費(fèi)大量時(shí)間,且每次更新手勢或道具的類別都需要重新訓(xùn)練,不利于交互方式的更新。而在手機(jī)支付、手機(jī)屏幕解鎖中常用的人臉識別功能,則可以在短時(shí)間內(nèi)拍攝人像進(jìn)行訓(xùn)練進(jìn)而完成人臉判別的工作。因此,在之后的研究中,將對 YOLO 算法進(jìn)行改造優(yōu)化,探究 YOLO算法與人臉識別的算法的結(jié)合,實(shí)現(xiàn)手勢/道具影像錄入到投入系統(tǒng)使用的即時(shí)應(yīng)用。
在傳感器應(yīng)用方面,目前以使用相機(jī)獲取彩色圖像和深度圖像為主,主要通過計(jì)算機(jī)視覺完成人機(jī)交互。在之后的開發(fā)過程中,嘗試將Kinect 相機(jī)攜帶的麥克風(fēng)傳感器加入交互,在手勢/道具交互的基礎(chǔ)上結(jié)合語音識別技術(shù)實(shí)現(xiàn)更多樣化的交互方式,即用戶通過簡單的語句就能命令操控系統(tǒng),使人機(jī)交互更加簡單方便。