初 玲,郭三華,謝紹霞
(1.煙臺汽車工程職業(yè)學院 電子工程系,山東 煙臺 265500;2.煙臺汽車工程職業(yè)學院 汽車工程系,山東 煙臺 265500)
視頻序列拼接是由多幀視頻序列拼接而成的完整全景圖像,在視頻監(jiān)控、醫(yī)學圖像處理,遙感圖像處理等方面得到廣泛應用[1]。在視頻序列的拼接中,相鄰幀間重疊部分較大,若每相鄰幀都做一次拼接,不僅耗費了大量時間,而且隨著所需拼接幀數量增多,匹配誤差會增大,造成拼接效果不佳。利用關鍵幀拼接表示整個視頻序列拼接成為有效的方法,文獻[2]提出利用分層式自適應幀采樣的視頻拼接,算法限制條件較多,對獲取的視頻有嚴格的限制,容易導致拼接失敗。文獻[3]提出SIFT結合Kalman跟蹤算法進行關鍵幀的提取及拼接的實現(xiàn),由于視頻序列本身幀數量較大,關鍵幀的選取數量較大再加上SIFT算法本身的復雜性,累積造成運算時間比較長,累積匹配誤差較大。
針對于此,提出了一種基于自適應關鍵幀的視頻序列拼接方法,首先,將固定間隔采樣的視頻幀作為關鍵幀,并對其進行特征點提取;其次,利用特征點匹配結合RANSAC魯棒估計算法得到相鄰、非相鄰關鍵幀間的單映矩陣,依此計算關鍵幀間的重疊區(qū)域,按照重疊區(qū)域的比例結合折半排序方法重新定位關鍵幀,將此關鍵幀作為基準幀,重復固定幀采樣、重疊區(qū)域確定,定位后續(xù)滿足條件關鍵幀過程,直至滿足條件關鍵幀提取完畢,最后,利用特征點匹配矩陣和單映矩陣的級聯(lián)性,并通過融合實現(xiàn)了關鍵幀所表示的視頻無縫拼接,取得比較理想的效果。
單映矩陣變換是一種常用的幀間變換模型,主要適用于任意場景空間攝像機為旋轉或者縮放運動,或者空間為平面場景和任意攝像機的運動[4]。單映矩陣變換表示為:
對于相鄰的關鍵幀,可以直接采用上述幀間變換模型,但是對于非相鄰的關鍵幀,考慮利用單映矩陣的級聯(lián)性質,得到非相鄰關鍵幀之間的單映變換矩陣。
假設第k幀 、第h幀為非相鄰的關鍵幀,以第h幀作為基準幀,第幀為目標幀,利用單映矩陣的級聯(lián)性質,可以得到兩非相鄰關鍵幀的單映變換矩陣。
其中,Hh,tHt,n…Hm,lHl,k分別是第 k 幀、 第 h 幀之間的相鄰關鍵幀的單映變換矩陣。示意圖如圖1所示。
圖1 單映矩陣的級聯(lián)示意圖Fig.1 The cascades skeleton map of homograph matrixes
在進行視頻序列拼接時,相鄰幀間的冗余量是比較大,重疊區(qū)域范圍較大,但場景變換不是很大,這樣考慮利用重疊區(qū)域的范圍來尋找關鍵幀,在文獻[5]中認為視頻序列拼接時,一般將重疊區(qū)域限定在25%-50%范圍內為佳,在減少所選關鍵幀的同時,能夠滿足拼接的需要,故文中的方法是:
1)將固定間隔采樣的視頻幀作為關鍵幀,考慮到拼接場景范圍需要,設定第一幀和最后一幀為必須的關鍵幀;
2)對上述關鍵幀進行特征點提取,并完成基準幀與后續(xù)相鄰目標關鍵幀特征點匹配和單映矩陣的求解,后續(xù)相鄰目標關鍵幀經過單映矩陣變換之后,與基準幀重疊區(qū)域進行確定,分兩種情況來重新定位關鍵幀:
①若當前關鍵幀與基準幀的重疊區(qū)域大于設定閾值,則要考慮當前關鍵幀后續(xù)的目標關鍵幀,計算目標關鍵幀與基準幀之間的重疊區(qū)域,直至后續(xù)目標關鍵幀與基準幀的重疊區(qū)域大于設定閾值,而目標關鍵幀后續(xù)相鄰關鍵幀與基準幀的重疊區(qū)域小于設定閾值時,在兩關鍵幀之間重新定位所需關鍵幀,采用折半排序方法找到適合條件的關鍵幀,流程如圖2所示。
圖2 折半排序尋找適合條件關鍵幀流程圖Fig.2 The flow chart of finding keyframes by binary search
②若當前關鍵幀與基準幀的重疊區(qū)域小于設定閾值,則須在當前關鍵幀和基準幀之間重新采用折半查找方法定位關鍵幀,流程如圖3所示。
圖3 折半排序尋找關鍵幀流程圖Fig.3 The flow chart of extracting keyframes by binary search
3)再以重新定位的關鍵幀為基準幀,對后續(xù)視頻幀進行1)、2)步驟操作,這樣獲取最終滿足條件的視頻關鍵幀序列。
SURF算子是Bay等人發(fā)明[6]的,其使用了積分圖像和均值濾波器來提高檢測速度并減少局部圖像描述器的維數,更適用于實時圖像處理和視頻幀間處理,SURF算法利用快速Hessian檢測算法提取特征點,Hessian矩陣具有良好的計算時間和精度表現(xiàn)。其行列式用來判定其特征點的尺度和位置。
1)Hessian特征提取器 對于圖像 I中的任意一點X(x,y)T,在 X 點處以尺度 σ 定義 Hessian 矩陣 H(X,σ)為:
2)積分圖像的使用 使用積分圖像可以迅速計算出箱式濾波器的圖像卷積,積分圖像定義為:
其中 II(X)表示以圖像原點和圖像上某點 X=(x,y)為頂點的矩形區(qū)域內所有像素之和。
3)極值點的判定 通過計算H矩陣行列式的決定值,并利用這個值進行特征點的判別。特征點提取時首先構建圖像的高斯金字塔,然后在不同的尺度空間下尋找極值,在每一個尺度下收集一定量的最值點作為候選特征點。
4)SURF特征描述子 SURF特征描述子的提取可以分為兩步:第一步根據特征點周圍的一個圓形區(qū)域找到特征點的主方向;第二步 在選定的主方向上構建一個矩形區(qū)域,并提取所有的特征描述點信息。按主方向構建一個大小為20σ的窗口,σ表示尺度,并將該窗口區(qū)域分為4×4的子區(qū)域,對于每一個子區(qū)域,分別計算相對于主方向的水平和垂直方向Haar小波響應,每個子區(qū)域得到四維向量,因此4×4的子區(qū)域得到64維特征點描述子,它可以擴展到128維的特征點描述子,一般采用128維特征點描述子。
按照上述所述,拼接的具體實現(xiàn)步驟如下:
1)為了選取關鍵幀子序列,使全景圖內容豐富,第一幀和最后一幀為必選關鍵幀,選取第一幀視頻序列關鍵幀為基準幀,提取基準幀的特征點。
2)利用SURF算法對關鍵幀提取特征點,采用最近鄰距離比進行特征點匹配,并利用幀間單映矩陣模型和關鍵幀選取過程進行自適應關鍵幀選擇。
①利用SURF特征點提取算法對間隔選定的關鍵幀特征提?。?/p>
②對相鄰關鍵幀利用幀間單映矩陣模型進行匹配計算;為了使單映矩陣H的估計準確,利用RANSAC魯棒估計方法得到相鄰關鍵幀之間單映矩陣H的估計[7],具體步驟為:
Step 1隨機抽取n≥4對匹配特征點來估計矩陣H的參數;
Step 2對于②中的每一對匹配點,計算對單映矩陣H的擬合誤差;
Step 3設定一個門限值,若擬合誤差小于此門限值,表示匹配點對是一致點,并統(tǒng)計一致點的數目;
Step 4重復上述 Step 1、Step 2、Step 3步驟,直到所有的一致點集中至少有一個有效表征集的概率大于一定的數值為止;
Step 5選擇具有最大一致點集的單映矩陣H;
③對非相鄰關鍵幀利用單映矩陣的級聯(lián)性進行計算;
④利用SURF算法結合關鍵幀的選取過程步驟實現(xiàn)自適應關鍵幀的選取。
3)將2)選定關鍵幀作為最終拼接的關鍵幀,利用單映矩陣級聯(lián)和加權融合算法完成自適應關鍵幀表示的視頻序列拼接。
圖4 最終獲取的關鍵幀F(xiàn)ig.4 The final keyframes of this video
圖5 關鍵幀所表示的視頻序列的拼接效果圖Fig.5 The final video mosaic by adaptive keyframes
圖6 獲取的最終關鍵幀F(xiàn)ig.6 The final keyframes of this video
實驗采用手持數碼相機拍攝的兩組視頻序列圖像,利用上述方法進行了視頻序列的拼接,取得比較好的效果。
1)手持數碼相機拍攝的一組80幀視頻序列,利用上述方法獲取的的關鍵這如圖4(a-d)所示,最終獲取的拼接效果圖如圖5(a-b)所示。
(2)手持數碼相機拍攝的125幀的視頻序列,利用本文方法獲取的關鍵幀如圖6(a-f)所示,其拼接效果圖如圖7(ab)所示。
圖7 關鍵幀所表示的視頻序列的拼接效果圖Fig.7 The final video mosaic by adaptive keyframes
利用自適應關鍵幀進行視頻序列的拼接,取得比較理想的效果,將固定間隔采樣幀作為關鍵幀并對利用SURF算法對其特征點提?。焕锰卣鼽c匹配結合RANSAC魯棒估計算法得到關鍵幀間單映矩陣,進而獲取關鍵幀間重疊區(qū)域,結合重疊區(qū)域比例及折半排序方法重新定位關鍵幀,將此關鍵幀作為基準幀,重復幀采樣、重疊區(qū)域確定、定位后續(xù)所需關鍵幀過程,直至關鍵幀提取完畢,結合級聯(lián)單映矩陣和加權融合實現(xiàn)視頻序列無縫拼接。
[1]Kim D H,Yoon Y I,Choi J S.An efficient method to build panoramic image mosaics[J].Pattern Recognition Letters,2003,24 (1):2421-2429.
[2]劉永,王貴錦,姚安邦,等.基于自適應幀采樣的視頻拼接[J].清華大學學報:自然科學版,2010,50(1):108-112.
LIUYong,WANGGui-jin,YAOAn-bang,etal.Videomosaicking based on adaptive sampling[J].Journal of Tsinghua University:sci&Tech,2010,50(1):108-112.
[3]Fadaeieslam M J,F(xiàn)athy M,Soryani M.Key frames selections into panoramic mosaics[C]//Proceedings of the 7th International Joint Conference on Information,Communication and signal,Macau,2009.
[4]Man S,Picard R W.Video orbits of the projective group:A simple approach to featureless estimation of parameters[J].IEEE Transactions on Image Processing,1997,6 (9):1281-1295.
[5]Steedly D,Pal C,Szeliski R.Efficiently registering video into panoramic mosaics[C]//The 10th IEEE InternationalConference on Computer Vision,Beijing,2005.
[6]Bay H,ESS A,Tuytelaars T,et al.SURF:Speeded up robust features[J].Computer Vision and Image Understanding,2008,110(3):346-359.
[7]Hartley R,Aissenrman A.Multiple view geometry in computer version[M].Cambridge,UK:Cambridge University Press,2000.