劉長喜, 付少鋒
(西安電子科技大學 計算機科學與技術學院, 西安710126)
隨著國家經(jīng)濟的發(fā)展,人民生活水平的提高,政策的鼓勵[1],健身在人們生活中的地位越來越重要。 然而,傳統(tǒng)的健身房或者家用健身產(chǎn)品都存在一些缺點。 例如,教練的指導取決于主觀因素,動作校正不夠具體直觀,健身器材無法貼合學員需要并且很難獨立學習。 由此出現(xiàn)了許多依托于互聯(lián)網(wǎng)+的智能健身設施[2]。 如:英派斯,舒華等,但隨之產(chǎn)生了許多問題。
侵入式設備對人體感覺不友好,而且設備價格昂貴[3];非侵入設備,如光學運動式捕捉[4]對人體運動無影響,但精度低。 針對這些問題,本文使用Microsoft 的Kinect2.0 體感器,結合特征匹配算法實現(xiàn)了一套健身運動訓練系統(tǒng)。 Kinect 提供了一系列可供開發(fā)者使用的API,可以方便的獲取人體的深度數(shù)據(jù)和關節(jié)姿態(tài)信息,在匹配完成后,得到一組評價數(shù)據(jù),用來指導學員的動作。 本文將Kinect 體感器及模式識別技術與傳統(tǒng)的健身學習模式相結合,為健身行業(yè)注入了新的活力。
Kinect2.0,即微軟第二代Kinect for Windows,發(fā)布于2014 年。 Kinect2.0 有3 個鏡頭,分別為彩色攝像頭、深度(紅外)攝像頭和紅外線發(fā)射器[5],如圖1所示。
圖1 Kinect 外表及內部結構Fig.1 Kinect appearance and internal structure
在獲取深度信息方面,Kinect 使用光編碼技術。編碼具有高度的隨機性和唯一性。 深度攝像頭可以接收這些信息,進而讀取物體的深度信息[6]。
Kinect2.0 定義了25 個人體關節(jié),如SpineBase、HandLeft、HandRight 等。 人體部位明確定義了左右,使分類算法具有區(qū)分人體左右側的能力。 人體部位的定義可以根據(jù)實際場景做出調整。
Kinect 定義了描述身體部位的特征,其在不同部位有不同的響應。 單個特征可以提供像素所屬于身體部位的微弱信號,在隨機森林中組合后,就可以準確區(qū)分所有人體部位[7],即確定每個像素的部位信息。 將所有可能的像素匯聚起來,就可以形成人體骨架關節(jié)推測結果。
Kinect 定義的關節(jié)名稱及序號如圖2 所示。 使用Kinect 可獲得骨骼關節(jié)的旋轉信息。
首先,利用Kinect 捕捉人體運動,獲得一系列關節(jié)旋轉數(shù)據(jù),這些數(shù)據(jù)在Kinect 中以四元組的形式存儲。 有關提取特征的方法較多,如:考慮關節(jié)自由度的角度特征[8]、關注距離和角度的組合特征[9]等。 為方便后續(xù)處理,本文將其轉為以歐拉角形式存儲。
在此,本文舍棄了一些對動作匹配沒有影響的關節(jié)點,保留的關節(jié)點如表1 所示。
2.1.1 四元數(shù)與歐拉角
在圖形學中,四元數(shù)和歐拉角是最常用的旋轉表示方式,與矩陣相比具有節(jié)省存儲空間和方便插值的優(yōu)點[10]。
表1 保留關節(jié)編號及名稱Tab.1 Joint number and name
四元數(shù):在三維建模中,四元數(shù)占有非常重要的地位。 因它不僅有著明確的幾何意義,且表征方式簡單,只用到了四個數(shù)。 Kinect 中關節(jié)點的位置即采用此方式。 其定義如下:
歐拉角:使用繞三維空間中相關垂直的坐標軸的三個旋轉組成的序列,來表示一個角位移,使用Roll、Yaw 、Pitch 分別表示物體繞x、y,、z 的旋轉角度,記為a、b、c。
2.1.2 四元數(shù)到歐拉角的轉換
四元數(shù)轉換為歐拉角的公式如下:
對采集到的數(shù)據(jù)進行處理,去突變、去邊緣得三個通道角度變化。 圖3(a)~3(c)為HandLeft 三通道線條圖:
由此,動作序列的對比轉化為線條圖特征的匹配。 相比直接對比圖像,可以大大減少計算量。 本文采用的Harris 特征檢測和MOPS(Multi-scale oriented patches)特征匹配方法,與其它特征點檢測和匹配方法,如DoG[11],OGB[12],SIFT[13]等相比,對于線條圖來說,在保證準確率的基礎上有高效的運算。
2.2.1 Harris 角點檢測
采用Harris 尋找不變的局部特征。 Harris 角點檢測尋找到的特征點在局部范圍內具有較大的灰度變化,同時具有平移、旋轉不變形[14]。 Harris 算子定義為:
圖3 HandLeft 三通道線條圖Fig.3 HandLeft three-channel line drawing
其中,Ix、Iy為圖片沿x、y 方向的梯度,k 為常數(shù)(通常取值為0.04 ~0.06),當C 的值大于閾值時,認為該點為特征點[15]。
角點檢測核心步驟包括[16]:
(1)計算圖像x 方向與y 方向導數(shù);
(2)計算導數(shù)的平方;
(3)高斯濾波器平滑;
(4)尋找角點;
(5)非最大抑制[16]。
2.2.2 MOPS 描述符
MOPS 是簡單且高效的特征描述符,它采集特征點周圍的像素特征,存儲為64 維向量。 計算MOPS 描述符的核心步驟包括[17]:
(1)選取所檢出特征周圍40×40 的方形窗口;
(2)由2.2.1 可得特征點的梯度方向,將該窗口旋轉到水平;
(3)在以特征點為中心的8x8 方形窗口內采樣;
(4)規(guī)格化[17]。
計算兩特征向量間的歐式距離,計算最優(yōu)與次優(yōu)匹配的比值,通過指定合適的閾值過濾掉錯誤匹配。
考慮到學員動作與標準動作頻率不一,在此定義等特征點比例分段方法[18]。
等特征點比例分段,即兩組動作對應分段特征點,占總特征點數(shù)量的比例相同。 具體步驟為:將標準動作序列等間隔分為N 段。 動作越復雜,分段數(shù)量越高。 學員動作分段需先計算標準動作段特征點占總特征點的比例,再在學員動作中選取相同比例的特征點作為對應段。
完成分段后,就可以對動作進行全面的對比。對比指標如下:
(1)動作總體匹配比例
標準動作與學員動作匹配的特征點數(shù)量Num0/標準動作特征點的總數(shù)量Sum0。
(2)局部動作匹配比例
標準動作中第i 段與學員動作第i 段匹配的特征點數(shù)量Numi/ 標準動作中第i 段特征點的總數(shù)量Sumi。
由此,可得動作評分:
(3)動作復雜程度:檢測到的特征點數(shù)量在一定程度上可以體現(xiàn)動作的復雜程度。
(4)動作提前與延后:通過特征點匹配圖像,可以觀察到學員動作相對于標準動作的提前與延后,從而對學員動作進行指導。
本實驗測試總流程如圖4 所示。
圖4 系統(tǒng)總流程Fig.4 System overall process
本文采集了兩組動作,第一組作為標準動作,第二組作為學員動作,在捕捉過程中截取連續(xù)兩幀圖像,如圖5(a)、5(b) 所示。 特征檢測結果如圖6(a)、6(b)所示。 綜合3 個通道的匹配關系,按照特征點比例分段方法,得到分段結果如表2 所示。
圖5 動作捕捉示意圖Fig.5 Schematic of motion capture
圖6 特征檢測結果Fig.6 Feature detection results
表2 分段結果表Tab.2 Segmentation table
在本次實驗中,選取N =5。 各段匹配結果如表3 所示。
其中,每一行為標準動作的段,每一列為學員動作的段。 如:學員動作第一段與標準動作第二段匹配數(shù)據(jù)位于第一列第二行,有5 個特征點匹配。 由此可得:
表3 各段匹配結果Tab.3 Matching results
(1)動作總體匹配比例。Num0/Sum0=118/357 =33.05%,即學員動作與標準動作的整體匹配程度為33.05%。
(2)局部動作匹配比例。 由指標可知,各段局部匹配比例依次為:13.04%、11.76%、27.41%、17.64%、8.84%。 總得分為:0.258 852。
(3)動作復雜程度。 由表2 可知,標準動作有357 個特征點,而學員動作有302 個特征點,即標準動作比學員動作要復雜、多變。
(4)動作提前與延后。 由式(2)可知,學員動作與標準動作匹配最好的為第三段,其次為第四段,最差的為第五段。 可見該學員對復雜動作的掌握不到位,而較簡單動作,如第一段、第二段有沒有做好,所以得分較低。 觀察表3(5,4)和(4,5)可知,學員動作第四段有12 個特征落在了第五段,即第四段動作落后于標準動作,同理,第五段動作稍提前于標準動作。
本系統(tǒng)將Kinect 和特征匹配相結合,實現(xiàn)了對連續(xù)動作的對比和評價。 首先利用Kinect 獲取骨骼的旋轉信息,再將其轉換為歐拉角的形式存儲,在特征匹配方面,選用Harris 與MOPS 相結合,準確而又高效。 在后面的實驗中,對兩段動作進行了比較,看到了許多憑肉眼看不到的細節(jié),為動作的比較與評價提供了科學客觀的數(shù)據(jù)。