李淑芳,曾憲華,馮蕭
(1.重慶郵電大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065;2.重慶郵電大學(xué)計算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
隨著監(jiān)控技術(shù)的發(fā)展,視頻采集設(shè)備越來越方便和普及,視頻具有時空信息豐富、存儲量大、處理時間長等特點(diǎn),使得視頻目標(biāo)識別成為機(jī)器學(xué)習(xí)、模式識別、計算機(jī)視覺、智能監(jiān)控等領(lǐng)域的研究熱點(diǎn)。豐富的視頻數(shù)據(jù)使得子空間成為一種有效的特征表示方法,使用子空間集描述視頻集具有如下優(yōu)點(diǎn):①由多幅視頻幀張成的子空間比單幀圖像包含更多的信息;②采集的視頻可能長短不一,可使用子空間描述每段視頻的共性,這是一種粗粒度描述方式,由視頻組成的數(shù)據(jù)集合的學(xué)習(xí)問題就可轉(zhuǎn)化為在Grassmann流形上的子空間學(xué)習(xí)問題;③當(dāng)視頻數(shù)據(jù)集非常大時,利用2個子空間進(jìn)行比較,與直接比較2段視頻相比,更簡單、更有效;④由于子空間可以“填補(bǔ)”視頻中丟失的信息,故對于有部分信息丟失的數(shù)據(jù)這種方法有更強(qiáng)的魯棒性。利用子空間的主角度有利于提高目標(biāo)識別模型的準(zhǔn)確性、效率、魯棒性[1-2]。
空間組成的數(shù)據(jù)可看成采樣自Grassmann流形上點(diǎn)的集合(由子空間組成),一個子空間就是Grassmann流形上的一個點(diǎn)[1],Grassmann流形框架下的子空間學(xué)習(xí)問題是一個研究熱點(diǎn),這些研究方法主要是采用線性方法將視頻集對應(yīng)子空間集合進(jìn)行相似性度量,廣泛應(yīng)用于目標(biāo)識別、形狀不變性識別、聚類等[3-15]。目前通過子空間的主角度實(shí)現(xiàn)目標(biāo)識別最為典型的方法是由O.Yamaguchi和K.Fukui等提出的互子空間方法(mutual subspace method,MSM)[8],該方法直接通過子空間的相似度(主角度或相關(guān)關(guān)系來計算)進(jìn)行最近鄰分類,實(shí)現(xiàn)數(shù)據(jù)集合之間的分類,如圖像集、視頻等問題的分類;后來,K.Fukui和 O.Yamaguchi進(jìn)一步將表示每一個描述數(shù)據(jù)集合的子空間都投影到一個差異子空間,從而提出了約束互子空間方法(constrained mutual subspacemethod,CMSM)[9],該方法將每個子空間投影到這個差異子空間獲得新的子空間集表示,然后再實(shí)施MSM步驟,性能有所提高;最近,T.K.Kim等在PAMI上發(fā)表研究成果,他們將線性判別分析應(yīng)用到訓(xùn)練有標(biāo)記的子空間集合,發(fā)現(xiàn)子空間的投影變換矩陣,從而提出了相關(guān)關(guān)系鑒別分析(discriminant-analysis of canonical correlations,DCC)及其擴(kuò)展[10-11],通過求變換關(guān)系,子空間的基構(gòu)成的列正交矩陣進(jìn)行投影變換后,將子空間的類內(nèi)的相關(guān)關(guān)系最大化,同時最小化子空間的類間相關(guān)關(guān)系;并且他們還進(jìn)一步擴(kuò)展應(yīng)用典型相關(guān)關(guān)系度量視頻之間相似性,并在動作識別應(yīng)用方面取得了很好的效果。這些方法基本上是對子空間的相似性直接度量或是經(jīng)過某種線性變換后再度量,從而實(shí)現(xiàn)識別的方法。實(shí)際上子空間集合可能并不分布在一個線性Grassmann流形上,非線性的變換方法可能更為合理。本文采用半監(jiān)督的拉普拉斯特征映射融合了Grassmann流形上子空間集合之間幾何分布性質(zhì)、子空間中心之間的相似度關(guān)系以及有標(biāo)記子空間的類別信息,提出了一種新的非線性方法,即基于Grassmann流形的半監(jiān)督特征映射算法(grassmann manifold-based semi-supervised feature mapping algorithm,GMSFM)。該方法融合視頻集合的幾何分布、中心位置以及標(biāo)記信息,通過將Grassmann流形上子空間轉(zhuǎn)化為低維歐氏空間中低維流形上的坐標(biāo)點(diǎn),使得每個視頻序列對應(yīng)歐氏空間中的一個低維坐標(biāo)點(diǎn)。然后,把對應(yīng)的低維坐標(biāo)點(diǎn)作為相關(guān)分類器的輸入,這樣可以降低訓(xùn)練分類器的復(fù)雜度,保持視頻集幾何分布的基礎(chǔ)上融入部分視頻序列的標(biāo)記信息可以提高識別性能。在著名的步態(tài)視頻數(shù)據(jù)庫、人手姿勢視頻數(shù)據(jù)庫和物體姿勢視頻數(shù)據(jù)庫上作了較豐富的比較實(shí)驗(yàn),實(shí)驗(yàn)表明了本文方法的優(yōu)越性能。
視頻集合的每一個視頻可以對應(yīng)Grassmann流形上一個點(diǎn)(即一個子空間),針對傳統(tǒng)的子空間集合上學(xué)習(xí)方法是直接度量或通過某種線性變換后計算子空間之間的主角度來度量視頻間的距離關(guān)系。實(shí)際上子空間集合可能并不分布在一個線性Grassmann流形上,所以子空間集合非線性地映射成歐氏坐標(biāo)點(diǎn)集是一個合理方式,本文采用改進(jìn)的拉普拉斯特征映射,融合了Grassmann流形上子空間集合之間幾何分布性質(zhì)、子空間中心的相似度關(guān)系以及有標(biāo)記子空間的類別信息,提出了一種針對子空間集的非線性特征映射方法,即Grassmann流形上的半監(jiān)督特征映射算法并應(yīng)用于視頻目標(biāo)識別?;贕rassmann流形上的半監(jiān)督特征映射算法的視頻目標(biāo)識別流程如圖1所示。首先采用主成分分析法(principal component analysis,PCA)提取每個視頻序列的子空間特征(如果一個視頻序列形成一個非線性流形可以通過局部曲率閾值分割成子視頻序列,再應(yīng)用PCA進(jìn)行處理),每個視頻序列對應(yīng)保存子空間的基和該序列的均值圖像;其次,計算2個視頻序列的度量,包括3個部分的融合,即子空間之間的度量使用性能好且計算方便的Projection度量、序列間均值圖像的度量采用余弦度量、有標(biāo)記序列的標(biāo)記信息α的強(qiáng)化。同時,約束同類視頻序列之間相似度大于0.5,不同類之間相似度小于0. 5;然后,采用具有聚類特性的局部近鄰度量保持的拉普拉斯特征映射算法;最后,利用低維歐氏坐標(biāo)及其標(biāo)記訓(xùn)練分類器做識別。
2.3.1 推薦對于消化道出血風(fēng)險高危的患者DAPT治療聯(lián)用PPI(Ⅰ,B)[9]:雖然使用PPI不增加心血管事件風(fēng)險的證據(jù)是有奧美拉唑研究獲得,基于藥物與藥物相互作用研究,奧美拉唑和艾美拉唑似乎具有最高傾向的臨床藥物相互作用,而泮托拉唑和雷貝拉唑的藥物相互作用傾向最低。
二是支持農(nóng)民用水戶協(xié)會發(fā)展。省財政、水利等部門聯(lián)合出臺《關(guān)于加強(qiáng)農(nóng)民用水戶協(xié)會建設(shè)的指導(dǎo)意見》,加強(qiáng)農(nóng)民用水戶協(xié)會的運(yùn)作和能力建設(shè),共建立農(nóng)民用水戶協(xié)會2 299個,實(shí)現(xiàn)了農(nóng)民用水戶協(xié)會“政府指導(dǎo)、自主管理、互利互惠”的建設(shè)成效。
GMSFM的詳細(xì)步驟如下。
實(shí)驗(yàn)1是在步態(tài)視頻數(shù)據(jù)庫上完成,實(shí)驗(yàn)數(shù)據(jù)來自于著名的CASIA步態(tài)視頻數(shù)據(jù)庫A[15],由于該數(shù)據(jù)庫中目標(biāo)行走路徑差異大,實(shí)驗(yàn)中對20人在水平行走方向(如圖3a)采集到的80個視頻序列進(jìn)行實(shí)驗(yàn),每個視頻序列的幀數(shù)分布在37-127幀之間。實(shí)驗(yàn)中根據(jù)對稱性將每人步態(tài)視頻都處理成從右到左行走的4個視頻序列,采用留一法交叉驗(yàn)證,每類的3個序列作為有標(biāo)記的訓(xùn)練集(共60個視頻序列),每類剩下的1個序列為無標(biāo)記的測試集(共20個視頻序列)。為了節(jié)約存儲每幀縮放為30×44且像素值轉(zhuǎn)化為[0,1]區(qū)間的灰度值,每個不同長度的視頻序列通過PCA獲得20維的線性子空間并保存每個視頻序列的均值圖像,采用最簡單的最近鄰分類器。在本文的GMSFM算法中子空間相似度與中心相似度的平衡因子β=0.8,最近鄰數(shù)k=7,主角度個數(shù)為5時,圖3b是一次實(shí)驗(yàn)在類別信息強(qiáng)化指數(shù)α∈(0,1)的不同取值及不同嵌入維數(shù)時的識別率曲面(單次最高識別率達(dá)到90%)。為了和MSM,CMSM,DCC等相關(guān)算法進(jìn)行比較,采用簡單的最近鄰分類器,多次實(shí)驗(yàn)獲取5個主角度最優(yōu),采用留一法交叉驗(yàn)證進(jìn)行4次實(shí)驗(yàn),最好識別率平均分別為65%,67.5%,73.75%(如表1所示),本文算法在主角度個數(shù)為5,β=0.8,k=7時的平均最佳識別率81.25%,優(yōu)于其他3種算法。
圖2 類別信息強(qiáng)化前后的相似度Fig.2 Similarity of category information and enhanced category information
實(shí)驗(yàn)2是在劍橋人手姿勢視頻數(shù)據(jù)庫的Set1視頻集合上完成,實(shí)驗(yàn)數(shù)據(jù)集包括由9種人手姿勢變化(如圖4a所示)采集到的180個視頻序列,每種姿勢變化為一類,每類20個視頻序列。實(shí)驗(yàn)中每一個序列40幀,每幀尺寸為30×40像素,每個像素轉(zhuǎn)化為[0,1]區(qū)間的灰度值,為了便于實(shí)驗(yàn)重現(xiàn),每類前10個序列作為有標(biāo)記的訓(xùn)練集(90個視頻序列),另10個序列為無標(biāo)記的測試集(90個視頻序列)。每個視頻序列通過PCA獲得20維的線性子空間來描述,這樣每段視頻對應(yīng)的子空間就可以看成Grassman流形上的一點(diǎn)。在本文算法中子空間相似度與中心相似度的平衡因子β=0.8,最近鄰數(shù)k=10,主角度個數(shù)為5時,圖4b是實(shí)驗(yàn)在類別信息強(qiáng)化指數(shù)α∈(0,1)的不同取值及不同嵌入維數(shù)時的識別率曲面。為了和MSM,CMSM,DCC等相關(guān)算法比較,采用最近鄰分類器,多次實(shí)驗(yàn)取5個主角度最優(yōu),本文算法在主角度個數(shù)為5,β=0.8,k=7,α=0.05,歐氏嵌入空間維數(shù)為7時獲得了4種算法中的最高識別率76.667%,而MSM算法的識別率只有60%,CMSM要求投影到450維子空間才獲得最好識別率64.44%,DCC算法要投影到80維子空間才獲得最好識別率73.33%,本文算法只需投影到7維歐氏嵌入空間就能獲得4種算法中最好識別性能(識別率達(dá)到76.667%)。
低維嵌入坐標(biāo)由LE算法中拉普拉斯矩陣L=D-M的特征方程Lu=λDu的最小d個非零特征值對應(yīng)的特征向量計算,等價于特征方程Mu=λDu的第2到第d+1個最大特征值對應(yīng)的特征向量(穩(wěn)定的求解方法),其中M是前面計算的半監(jiān)督相似度矩陣,對角矩陣D的對角線元素為Dii=∑jMij。
實(shí)驗(yàn)3是在著名的ETH-80視頻數(shù)據(jù)庫上完成,實(shí)驗(yàn)數(shù)據(jù)集由8種對象的不同姿勢變化采集到的80個視頻序列,每種對象為一類由10個視頻序列組成,每一個視頻序列是在同一光線條件下從41個視角采集到41幀。圖5顯示了每類一個序列的2種視角。
圖3 本文算法在CASIA步態(tài)視頻數(shù)據(jù)庫A的實(shí)驗(yàn)Fig.3 Experimental by using GMSFMalgorithm on CASIA gait database A
本節(jié)將在常用的中科院步態(tài)視頻數(shù)據(jù)庫[16](institute of automation,Chinese academy of sciences,CASIA)、劍橋人手姿勢視頻數(shù)據(jù)庫[17]和 ETH-80 物體姿勢視頻數(shù)據(jù)庫[18]上驗(yàn)證本文算法性能,和幾種典型的基于子空間相似性的分類算法(包括MSM,CMSM,DCC)作了比較實(shí)驗(yàn),結(jié)果如表1所示。
圖4 本文算法在劍橋人手姿勢視頻數(shù)據(jù)庫的實(shí)驗(yàn)Fig.4 Recognition rate surface by using GMSFMalgorithm on Cambridge hand gesture database
如今,鄌郚鎮(zhèn)的電聲樂器生產(chǎn)水準(zhǔn)已經(jīng)居于國際領(lǐng)先地位。經(jīng)過幾十年的發(fā)展,到目前鄌郚鎮(zhèn)已擁有樂器及其配件生產(chǎn)企業(yè)超過80家,從業(yè)人員四千多人,產(chǎn)品包括電吉他、電貝司、木吉他、木貝司、音箱和樂器配件等6大系列,近400個花色品種,年產(chǎn)樂器300萬把,產(chǎn)值達(dá)15億元,產(chǎn)品主要銷往韓國、日本、美國、澳大利亞等30多個國家和地區(qū)。全鎮(zhèn)樂器企業(yè)擁有“雅特”、“仙樂”、“feeling”、“大樹”等近40個品牌。其中“feeling”、“仙樂”電吉他被評為“山東名牌產(chǎn)品”和“山東著名商標(biāo)”。鄌郚鎮(zhèn)已成為山東大學(xué)、山東師范大學(xué)、山東藝術(shù)學(xué)院等高校的實(shí)踐教學(xué)基地,也是中國電聲樂器產(chǎn)業(yè)基地。
圖5 每類一個序列的2個視角對應(yīng)幀F(xiàn)ig.5 Two images of one image sequence from each class
實(shí)驗(yàn)中每一個序列的41幀圖像的尺寸為32×32像素,每個像素轉(zhuǎn)化為[0,1]區(qū)間的灰度值,為了便于實(shí)驗(yàn)重現(xiàn),每類4個序列作為有標(biāo)記的訓(xùn)練集(32個視頻序列),每類剩下的6個序列為無標(biāo)記的測試集(48個視頻序列)。每個序列通過PCA獲得20-維的線性子空間來描述,這樣每段視頻對應(yīng)的子空間就可以看成Grassman流形上的一點(diǎn)。在本文算法中子空間相似度與中心相似度的平衡因子β=0.8,最近鄰數(shù)k=10,主角度個數(shù)為5時,圖6是在類別信息強(qiáng)化指數(shù)α∈(0,1)的不同取值及不同嵌入維數(shù)時的識別率曲面。
圖6 本文算法在ETH-80上的識別率曲面Fig.6 Recognition rate surface by using GMSFMalgorithm on ETH-80 database
為了和MSM,CMSM,DCC等相關(guān)算法比較,分類器采用的都是簡單的最近鄰分類器,實(shí)驗(yàn)中都取5個主角度,本文算法在主角度個數(shù)為5,β=0.8,k=10,α=0.1,歐氏嵌入空間維數(shù)為8時的最佳識別率達(dá)87.5%,而MSM算法的識別率只有79.92%,CMSM要求投影到130維子空間和DCC算法要投影到55維子空間才均獲得最好識別率83.33%,本文算法只需投影到8維歐氏嵌入空間能獲得4種算法中最好性能(識別率達(dá)到87.5%)。
本文采用半監(jiān)督特征映射將視頻集非線性地映射到低維歐氏空間,提出了基于Grassmann流形的半監(jiān)督特征映射算法(GMSFM),綜合了視頻集合的幾何分布、中心位置以及標(biāo)記信息,獲得的低維歐氏低維表示有利于分類識別。在步態(tài)視頻數(shù)據(jù)庫、人手姿態(tài)數(shù)據(jù)庫和ETH-80進(jìn)行實(shí)驗(yàn),識別結(jié)果分別達(dá)到了81.25%,76.667%和87.5%,結(jié)果證實(shí)該算法比著名的MSM,CMSM和DCC算法有更好的識別性能。但是相似度的計算融入了子空間的幾何分布信息、視頻序列中心距離信息、視頻標(biāo)記信息,對相關(guān)參數(shù)的選取還沒有理論依據(jù),下一步工作是探索它們的自適應(yīng)選取方法。另外,分布在非線性流形上的視頻分割成線性的子視頻序列集也是將來要做的工作。
根據(jù)表1和表2的數(shù)據(jù),能夠得出這樣的結(jié)論:在該測區(qū)里,全部的檢查點(diǎn)中誤差以及基本定向點(diǎn)殘差都是合乎要求的,其絕對定向精度已經(jīng)合乎生產(chǎn)1∶2000 DOM的要求。
[1]HAMM J.Subspace-based learning with Grassmannmanifolds[D].Philadelphia:University of Pennsylvania,2008.
[2]KIM T K.Discriminant Analysis of Patterns in Images,Image Ensembles,and Videos[D].British:University of Cambridge,2007.
[3]LU Jiwen,YANG Gao,TAN Y P.Robust gait recognition via discriminative set matching[J].Journal of Visual Communication and Image Representation,2013,24(4):439-447.
[4]TURAGA Pavan,VEERARAGHAVAN Ashok,SRIVASTAVA Anuj,etal.Statistical Computations on Grassmann and Stiefelmanifolds for Image and Video-Based Recognition[J].IEEE Trans Pattern Analysis and Machine Intelligence,2011,33(11):2273-2286.
[5]SI Si,TAO Dacheng,GENG Bo.Bregman Divergence-Based Regularization for Transfer Subspace Learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(7):929-942.
[6]ZENG Xianhua,ZHONG Jingjing.Semi-supervised Discirminative Mutual Subspace Method[EB/OL].(2011-10-08)[2013-02-11].http://www.researchgate.net/publication/224257971_Semi-Supervised_Discriminative_Mutual_Subspace_Method.
[7]WANG Ruiping,SHAN Shiguang,et al.Manifold-Manifold Distance with Application to Face Recognition based on Image Set[C]//Computer Vision and Pattern Recognition.USA:Anchorage,AK,IEEE Conference,2008:2940-2947.
[8]YAMAGUCHIO,F(xiàn)UKUIK.Face recognition using temporal image sequence[C]//Automatic Face and Gesture Recognition.Florida USA:Third IEEE International Conference on IEEE,1998:318-323.
[9]FUKUIK,YAMAGUCHIO.Face recognition usingmultiviewpoint patterns for robot vision[M]//Springer Berlin Heidelberg:Robotics Research,2005:192-201.
[10]KIM TaeKyun,KITTLER J,CIPOLLA R.Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations.IEEE Trans[J].Pattern Analysis and Machine Intelligence,2007,29(6):1005-1018.
[11]KIM TK,CIPOLLA R.Canonical Correlation Analysis of Video Volume Tensors for Action Categorization and Detection[J].IEEE Trans Pattern Analysis and Machine Intelligence,2009,31(8):1415-1428.
[12]劉云鵬,李廣偉,史澤林.基于Grassmann流形的仿射不變形狀識別[J].自動化學(xué)報,2012,38(2):248-258.
LIU Yunpeng,LIGuangwei,SHI Zelin.Affine-invariant Shape Recognition Using Grassmann Manifold[J].Acta Automatica Sinica,2012,38(2):248-258.
[13]藺廣逢,朱虹,范彩霞,等.基于Grassmann流形的多聚類特征選擇[J].計算機(jī)工程,2012,38(16):178-181.
LIN Guangfeng,ZHU Hong,F(xiàn)AN Caixia,et al.Multicluster Feature Selection Based on Grassmann Manifold[J].Computer Engineering.2012,38(16):178-181.
[14]曾憲華.流形學(xué)習(xí)的譜方法相關(guān)問題研究[D].北京:北京交通大學(xué),2009.
ZENG Xianhua.Study on Several Issues of Spectral Method for Manifold Learning[D].Beijing:Beijing Jiaotong University,2009.
[15]MAO Yu,ZHOU Yanquan,LIRuifan,etal.Semi-supervised learning via manifold regularization[J].The Journal of China Universities of Posts and Telecommunications,2012,19(6):79-88.
[16]中國科學(xué)院自動化研究所.CASIA步態(tài)數(shù)據(jù)庫[EB/OL].(2005-07-08)[2013-01-12].http://www.cbsr.ia.ac.cn/china/Gait%20Databases%20CH.asp.
Institute of Automation,Chinese Academy of sciences.CASIA gait database[EB/OL].(2005-07-08)[2013-01-12].http://www.cbsr.ia.ac.cn/china/Gait%20Databases%20CH.asp.
[17]KIM T K,WONG S F.Tensor Canonical Correlation A-nalysis for Action Classification,In Proc.of IEEE Conference on Computer Vision and Pattern Recognition[EB/OL].(2007-10-12)[2013-01-21].http://www.iis.ee.ic.ac.uk/~tkkim/ges_db.htm.
[18]LEIBE Bastian,SCHIELE Bernt.Analyzing Appearance and Contour Based Methods for Object Categorization.In International Conference on Computer Vision and Pattern Recognition[EB/OL].(2003-12-12)[2013-01-21].http://people.csail.mit.edu/jjl/libpmk/samples/eth.html.
(編輯:田海江)