武俊, 郭捷, 邱衛(wèi)東, 徐鵬, 郭曼, 張菡
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海200240)
圖像匹配在眾多視覺應(yīng)用中是一個關(guān)鍵技術(shù),本文通過攝像頭監(jiān)控的視頻流進行對特定目標(biāo)的管控,最終也需要進行關(guān)鍵幀的圖像匹配,而匹配的效果直接影響到后續(xù)的分析處理的效果。特定目標(biāo)的識別屬于靜態(tài)的圖像匹配,以圖像的特征點提取以及最小距離計算作為主要方法,尋找特定目標(biāo)和給定場景的兩幅圖像中,同一場景點投影到特定目標(biāo)圖像中的像素間的對應(yīng)關(guān)系。Moravec采用角點算子來進行立體視覺匹配的實現(xiàn),以此為基礎(chǔ),Harris等人對這種角點算子進行了改進,其角點檢測算法具有旋轉(zhuǎn)不變和縮放不變等多種優(yōu)良特征,因此廣泛被應(yīng)用于多種圖像匹配算法中,然而它對視角、照明、尺度變化較為敏感,沒有較強的抗噪聲能力[1]。之后David Lowe等人提出了具有尺度、視角、仿射、旋轉(zhuǎn)、光照不變性,且更加穩(wěn)定的SIFT(Scale invariant Feature Transform)特征算子[2],其匹配點多而且穩(wěn)定的特點對于復(fù)雜環(huán)境下目標(biāo)的識別也較為有利,該算子已經(jīng)廣泛應(yīng)用于三維目標(biāo)識別[3]、地圖生成[4]和末制導(dǎo)圖像匹配[5]等領(lǐng)域。針對不同應(yīng)用和場景,SIFT算法也被不斷的優(yōu)化和改進且衍生出多種不同的改進算法[6-12]。本文利用SIFT算法對監(jiān)控視頻中的特定目標(biāo)進行識別和管控,不但降低了人工成本和人工檢測的不確定性,極大解放了人力勞動,而且提高了對攝像頭的利用率,可以真正做到對安全關(guān)鍵區(qū)域的特定目標(biāo)進行24小時的實時監(jiān)控和管理。
本文首先使用混合高斯背景建模進行場景識別,當(dāng)場景中的情況滿足了需要匹配的條件,如場景中目標(biāo)無管控人員在周圍管控之后,采用SIFT算法提取特定目標(biāo)的特征點,然后進行特征點篩選及匹配,最后完成對特定目標(biāo)的識別,并實現(xiàn)聯(lián)動報警,以此對特定目標(biāo)達(dá)到實時管控保護的目的。該方法在大量實驗中證明了在特定場景下的可行性,且達(dá)到了較好的識別效果。
SIFT算法通過在尺度空間進行特征檢測,并確定關(guān)鍵點的位置以及關(guān)鍵點所處的尺度,之后使用關(guān)鍵點鄰域梯度的主方向作為該點的方向特征,以實現(xiàn)算子對方向和尺度的無關(guān)性。從而得到具有多種優(yōu)良特質(zhì)的SIFT算子[2]。
尺度空間的生成是為了模擬圖像數(shù)據(jù)的多尺度特征,高斯卷積核是尺度變換的唯一線性核實現(xiàn),以下公式(1)為一副二維圖像的尺度空間定義:
式(1)中,G(X,Y,σ)為尺度可變高斯函數(shù),(x,y)是空間坐標(biāo),σ是尺度坐標(biāo)。圖像的平滑程度由σ的大小決定,圖像的概貌特征由大尺度來對應(yīng),而圖像的細(xì)節(jié)特征由小尺度對應(yīng)[2]。
具有尺度無關(guān)性的穩(wěn)定特征點的提取,需要在圖像的DoG(Difference of Gaussian)尺度空間和二維平面空間中同時檢測出局部極值點。DoG算子的定義如下:
其中,用k個高斯卷積核分別與二維圖像I(x,y)卷積,得到k幅具有不同尺度的圖像L(x,y,kσ)。最后將這k幅圖像中相鄰的兩幅兩兩相減,得到具有不同尺度的高斯差分圖像D(x,y,σ)。
圖1 高斯模糊圖像和差分圖像
在實際計算時,使用每組中相鄰上下兩層圖像相減,得到高斯差分圖像,如圖1所示,進行極值檢測。
如圖2所示,所有的采樣點都要與其相鄰的3層差分圖像中所有的相鄰點比較,來找到尺度空間的極值點,中間的檢測點和它同尺度的8個相鄰點以及上下9x2個總共26個點都要進行比較,若其在DoG尺度空間的三層(本層以及相鄰兩層)都是極值時,就定為圖像在該尺度下的一個特征點。
由于DoG算子會產(chǎn)生較強的邊緣效應(yīng),為了提高其抗噪聲能力、增強其匹配穩(wěn)定性,需要對三維二次函數(shù)進行擬合從而精準(zhǔn)地對關(guān)鍵點的位置和尺度進行確定以達(dá)到亞像素的精度,并且同時將穩(wěn)定度不高的邊緣響應(yīng)點以及對比度低的關(guān)鍵點進行排除。
圖2 相鄰3層差分圖像的極值點檢測
特征算子的旋轉(zhuǎn)不變性來源于關(guān)鍵點的方向參數(shù),這些方向參數(shù)通過關(guān)鍵點鄰域像素的梯度方向的分布特性來指定。
式(3)和式(4)分別為(x,y)梯度的模值公式和方向公式。每個關(guān)鍵點所在的尺度為公式中L的尺度。
選擇以關(guān)鍵點為核心的鄰域窗口,對這些窗口內(nèi)進行采樣,并采用直方圖統(tǒng)計的方法計算其中像素的梯度方向,以10°為一柱,共有36柱,從而梯度直方圖的范圍是0°~360°。離中心點越近的鄰域?qū)χ狈綀D的貢獻(xiàn)也相應(yīng)增加,反之則減少。Lowe論文[1]中還提到將直方圖利用高斯函數(shù)進行平滑處理的方式,來減少由于突變而造成的影響。
為了確保生成描述符的旋轉(zhuǎn)不變性和縮放不變性,將關(guān)鍵點鄰域繞著關(guān)鍵點的方向旋轉(zhuǎn),且按關(guān)鍵的尺度進行縮放。再以關(guān)鍵點為中心取16x16的區(qū)域,并再分割為4x4個子區(qū)域,在所有子區(qū)域上對8個方向的梯度直方圖進行計算,繪制出每個梯度方向上的累加值,就能獲得一個種子點。由此一共生成了16個種子點,每個關(guān)鍵點就形成了一個128維的SIFT特征向量。為了進一步去除光照變化造成的影響,則可進一步歸一化特征向量的長度。使生成的描述符具有光照不變性。
特定目標(biāo)識別管控算法的流程如下圖3所示。
圖3 特定目標(biāo)識別管控算法流程圖
要對設(shè)定的特定目標(biāo)進行管控,首先要對受到攝像頭監(jiān)控的環(huán)境區(qū)域進行分析,判斷需要管控的目標(biāo)是否處于無人監(jiān)管的場景。之后再進行對關(guān)鍵幀的下一步目標(biāo)識別匹配處理。
目前背景建模主要的研究方法是對背景進行統(tǒng)計更新,常用的方法包括單高斯模型、混合高斯模型以及對他們的改進算法[13-15]。混合高斯背景建模是背景建模領(lǐng)域最常用的構(gòu)建算法。它是步態(tài)識別、視頻壓縮、行為分析等領(lǐng)域的重要研究內(nèi)容[16-19]。
在本文中,通過對視頻流中的監(jiān)控區(qū)域場景進行混合高斯背景建模,即背景圖像的每一個像素分別用K個高斯分布構(gòu)成的混合高斯模型來建模:
式(5)~(9)中,K的取值在3~5,在混合高斯模型中作為該高斯分布的個數(shù)?Xt表示在t時刻的像素值,本文中取其灰度值,一般情況下由RGB三色分量組成?ωi,t表示混合高斯模型中第i個高斯分布的權(quán)系數(shù)在t時刻的估計值?mi,t表示混合高斯模型中的第i個高斯分布在時刻t的均值向量?Σi,t表示在時刻t混合高斯模型中的第i個高斯分布的協(xié)方差矩陣?h表示高斯分布中的概率密度函數(shù)。
建模之后對混合高斯模型的參數(shù)進行更新。將混合高斯模型中的高斯分布的均值向量和權(quán)系數(shù)初始化為0,將一個較大初始值V0賦予協(xié)方差。對視頻監(jiān)控區(qū)域在t時刻的圖像幀中的每個像素值Xt以及其所對應(yīng)的混合高斯模型進行匹配檢驗,若像素值Xt與混合高斯模型中第i個高斯分布Gi均值的距離低于其標(biāo)準(zhǔn)差的2.5倍,則定義該高斯分布Gi與像素值Xt匹配。
若檢驗出至少有一個高斯分布與像素值Xt在該像素混合高斯模型中匹配,則混合高斯模型的參數(shù)按以下規(guī)則進行更新:
1)對不匹配的高斯分布,其均值m和協(xié)方差矩陣Σ保持不變?
2)匹配的高斯分布Gi的均值m和協(xié)方差矩陣Σ按公式(10)(11)(12)更新:
其中:
a為參數(shù)估計的學(xué)習(xí)速率。
K個高斯混合分布根據(jù)w/|?|的值從大到小進行排序,一般采用前B個高斯分布建立背景模型,作為背景像素的最佳描述。式(13)中,T為預(yù)定的閾值(0.5≤ T≤1)?
從t時刻開始檢驗每一個像素值Xt與式(13)得到的B個高斯分布的匹配關(guān)系,如果與其中之一匹配,則該像素點為背景點,否則為前景。
計算監(jiān)控區(qū)域圖像幀中關(guān)鍵區(qū)域中的前景背景比例,來判斷場景中是否存在需要進行管控的情況。
如下圖4所示:
圖4 判定場景情況流程圖
其中判定的閾值根據(jù)實際監(jiān)控場景情況設(shè)定。
判定場景內(nèi)情況后進行下一步識別。
本文的特定目標(biāo)識別方法使用的是圖像匹配的方法,因此首先需要對識別的特定目標(biāo)物體進行圖像提取,獲得目標(biāo)的圖像后進行SIFT特征提取。并在之后的特征匹配和識別處理中使用該目標(biāo)的SIFT特征。以U盤為例,對于圖中的特定目標(biāo)進行了SIFT特征提取,如下圖5所示。
圖5 特定目標(biāo)的SIFT特征提取
在每一個SIFT特征位置上,會有一個確定的特征尺度和方向。在提取獲得SIFT特征后采用FLANN(Fast Library for Approximate Nearest Neighbors)方法進行匹配[20],F(xiàn)LANN是一個能在高維空間中進行快速的最近鄰域搜索的算法。使用該算法能有效提高搜索速率。
通過RANSAC(Random Sample Consensus)算法[21]減少錯誤匹配,該算法的基本假設(shè)是:數(shù)據(jù)由“局內(nèi)點”組成,數(shù)據(jù)的分布可以用一些模型參數(shù)來解釋。不能適應(yīng)該模型的數(shù)據(jù)為“局外點”。除此之外的數(shù)據(jù)屬于噪聲。利用該算法去除明顯錯誤的匹配點,從而確定準(zhǔn)確的仿射模型。流程如圖6所示。
圖6 特定目標(biāo)匹配及識別流程圖
在余下匹配的關(guān)鍵點對中,當(dāng)匹配對的數(shù)量大于一個根據(jù)實際情況圖像情況定義的閾值之后,就可以認(rèn)為找到了需要匹配的特定目標(biāo)。
通過使用上章所述的特定物品識別管控方法,對一些特定重要物品如平板電腦、手機、移動硬盤、U盤等進行了實驗。實驗使用python 2.7.3、opencv 2.4.8、numpy 1.8.2等開發(fā)軟件在windows7系統(tǒng)環(huán)境下對算法進行了實現(xiàn)。
實驗環(huán)境對監(jiān)控攝像頭的清晰度有一定的要求,本文中的攝像頭使用的是HIKVISION??低暤谋O(jiān)控攝像頭,型號為DS-2CD2032D-I,幀率25fps(1920 × 1080)。
實驗中利用混合高斯背景建模對場景中是否存在運動目標(biāo)進行檢測,如圖7~圖8所示:
圖7 場景中檢測到運動目標(biāo)
圖8 場景中未檢測到運動目標(biāo)
在實際實驗過程中,不同特定物體由于大小,幾何形狀,視頻流中的截圖和原目標(biāo)圖像目標(biāo)的差異,所獲得的SIFT特征點數(shù)量有所不同,如表1所示:
表1 部分特定目標(biāo)平均特征點及識別率
SIFT特征及部分匹配識別效果如下圖9-圖12所示:
圖9 平板電腦識別效果圖
圖10 手機識別效果圖
圖11 移動硬盤識別效果圖
圖12 U盤識別效果圖
由上述實驗可以得知,本文中提出的特定目標(biāo)識別管控方法對于類似小型移動存儲設(shè)備的識別效果較好,能有效的在攝像頭監(jiān)控區(qū)域中識別出特定目標(biāo)。
本文將圖像匹配領(lǐng)域的目標(biāo)匹配識別技術(shù)應(yīng)用于通過視頻監(jiān)控來進行特定物品的安全識別管控上,采用混合高斯背景建模的方法來判斷場景能人物監(jiān)管情況,并在各類小型存儲設(shè)備圖像中應(yīng)用了SIFT算法,有效提取到了設(shè)備的圖像特征,為這些特定小型目標(biāo)的識別管理提供了一種方法。對于不同的目標(biāo)物體,這種基于SIFT應(yīng)用的識別匹配方法所匹配的特征點數(shù)量有一定差異,識別效果一定程度上受到目標(biāo)本身的形狀特征影響,如何降低目標(biāo)本身的特征對于匹配算法的影響,進一步提高識別率是下一步的研究重點。
[1] LOWE D G.Distinctive Image Features from Scale-Invariant Keypoints[J].Int′l J.Computer Vision,2004,2(60):91-110.
[2] LOWE D G.Object Recognition from Local Scale-Invariant Features[C]//International Conference on Computer Vision,1999:1150-1157.
[3] HELMER S,LOWE D G.Object Recognition with Many Local Feature[C]//Workshop on Generative Model Based Vision 2004(GMBV),2004.
[4] STEPHEN S, LOWE D G,LITTLE J J.Vision-based Global Localization and Mapping for Mobile Robots[J].IEEE Transactions on Robotics, 2005,21(3):364-375.
[5] 邸男,李桂菊,魏雅娟.采用SIFT的末制導(dǎo)圖像匹配技術(shù)[J].紅外與激光工程,2011,40(8):1590-1593
[6] 楊新鋒,滕書華,夏東.基于空間迭代的SIFT特征圖像匹配算法[J].紅外與激光工程.2013,42(12):3497-3501.
[7] 紀(jì)華,吳元昊,孫宏海,等.結(jié)合全局信息的SIFT特征匹配算法[J].光學(xué) 精密工程,2009,17(2):440-444.
[8] 鄭永斌,黃新生,豐松江.SIFT和旋轉(zhuǎn)不變LBP相結(jié)合的圖像匹配算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2010,22(2):287-292.
[9] BASTANLAR Y,TEMIZEL A,YARDIMCIY.Improved SIFT Matching for Image Pairswith Scale Difference[J].Electronics Letters, 2010, 46(5):346-U4867.
[10] 張靜,桑紅石.基于初始尺度變換的SIFT匹配算法[J].紅外與毫米波學(xué)報,2014,40(8):178-182
[11] 張潔玉,朱近,夏德深.基于SIFT特征點匹配的應(yīng)刷品圖像檢測方法[J].江南大學(xué)學(xué)報,2007,12(6):850-854.
[12] 湯井田,王凱,肖嘉瑩.基于SIFT特征檢測的醫(yī)學(xué)顯微圖像自動拼接[J].計算機工程與應(yīng)用,2007,43(35):243-244.
[13] STAUFFER C,GRIMSONW E L.Adaptive Background Mixture Models for Real-Time Tracking[C]//Proceedings of 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(Cat.No PR00149),IEEE Comput Soc,1999.
[14] HAN Yan-xiang, ZHANG Zhi-sheng, CHEN fang, etal.An Efficient Approach for Shadow Detection Based on Gaussian Mixture Model[J].Journal of Central South University of Technology,2014,21(4):1385-1395.
[15] ELGAMMAL A, HARWOOD D, Davis L S.Non-parametric Model for Background Subtraction[J].European Conf Computer Vision,2000,2:751-767.
[16] 王永中,梁顏,潘泉,等.基于自適應(yīng)混合高斯背景模型的時空背景建模[J].自動化學(xué)報,2009,35(4):371-378.
[17] APEWOKIN S,VALENTINE B,CHOIJ,etal.Real-Time A-daptive Background Modeling for Multicore Embedded Systems.Springer Journal of Signal Processing Systems, 2011,62(1):65-76
[18] ZHANG Jing, GAOWei, LIU An-an, etal.Modeling Approach of the Video Semantic Events Based on Motion Trajectories[J].Electronic Measurement Technology,2013,36(9):31-40.
[19] STAUFFER C,GRIMSONW E L.Learning Patterns of Activity Using Real-Time Tracking[J].IEEE Transactions 0n Pattern Analysis&Machine Intelligence,2000,22(8):747-757.
[20] HuangSONG-ling, HAO Kuan-sheng, ZHAOWei.New Improved FLANN Approach for Dynamic Modeling of Sensors[C].//International Conference on Modelling,Identification and Control,2008.
[21] XU M,LU J.Distributed RANSAC for the Robust Estimation of Three-dimensional Reconstruction[J].IET Comput Vis,2012,4(6):324-333.