石力
摘要:近些年來,圖像識別技術(shù)發(fā)展迅速,識別精度越來越高,應(yīng)用領(lǐng)域也越來越廣。但是傳統(tǒng)算法在大規(guī)模復(fù)雜場景的識別效率和準確度不高,尤其當場景中有大型建筑物時,由于建筑物復(fù)雜的結(jié)構(gòu)以及戶外環(huán)境如天氣、光照、遮擋等因素,特征點多而雜,分布不均勻,難以獲取正確的特征信息。文章應(yīng)用了AKAZE算法來進行戶外場景識別,并構(gòu)建了基于詞匯樹的海量圖像識別框架。實驗證明,該識別框架在戶外建筑場景中識別準確度和識別效率較高。
關(guān)鍵詞:AKAZE;戶外建筑場景識別;詞匯樹算法
1 AKAZE特征提取算法
傳統(tǒng)的SIFT,SURF及ORB算法等都是犧牲了局部精度,使用線性高斯金字塔構(gòu)建圖像尺度空間來提取穩(wěn)定的特征點,造成的精度損失會影響圖像的魯棒性。2012年,Alcantarilla等[1]提出了 KAZE算法,采用非線性尺度分解來提取特征。2013年9月,該作者提出了改進的AKAZE算法[2],該算法使用FED算法代替KAZE的AOS算法求解非線性擴散濾波,并且基于新的M-LDB描述符,相比KAZE算法計算速度有了很大提高。
1.1 非線性擴散濾波
基于線性高斯金字塔進行尺度分解會發(fā)生高斯模糊,高斯模糊在過濾圖像噪聲的同時過濾掉了邊緣紋理信息,造成邊界模糊和圖像細節(jié)缺失。相較而言,非線性擴散濾波算法能夠在過濾圖像噪聲的同時,保留相對重要的邊界細節(jié)信息。而AKAZE算法就是通過非線性擴散濾波算法構(gòu)建非線性尺度空間,保證了算法的準確性。
FED算法的核心思想是對n個顯示擴散過程采用改變步長τj的方式進行M步的循環(huán),求解擴散方程。如式(1):
FED算法是將非線性擴散方程的數(shù)值迭代分成了若干循環(huán)進行計算,替代了每步的求逆運算。相較于AOS算法,提高了計算效率,同時使算法結(jié)果更加穩(wěn)定。
1.2 構(gòu)建非線性尺度空間
AKAZE算法構(gòu)建的非線性尺度空間,所有共有O組,每組S層,其尺度層級按對數(shù)增長呈三角狀,與SIFT和SURF算法構(gòu)建的線性尺度空間類似。不同的是,AKAZE構(gòu)造的尺度空間,每層圖像的分辨率等同于原始圖像。每層的尺度參數(shù)計算公式如式(3):
將σi轉(zhuǎn)化為時間單位,以表示尺度參數(shù),可得映射公式如式(4):
FED算法將利用得到的進化時間、對比度參數(shù)以及時間步長構(gòu)建非線性尺度空間。
1.3 特征點檢測及描述
AKAZE算法在傳統(tǒng)二值描述子的基礎(chǔ)上,提出了改進的局部差分二值描述子,即M-LDB描述子。M-LDB把圖像劃分成n×n個網(wǎng)格單元,計算每個網(wǎng)格單元的一階梯度和灰度,獲取網(wǎng)格單元內(nèi)部如邊緣大小和方向等信息,然后進行二值化處理構(gòu)建出二值描述向量。
AKAZE算法尋找各個尺度下Hessian局部極大值點來獲取穩(wěn)定的興趣點。當前尺度下Li利用Hessian矩陣檢測方法如式(5):
LDB描述子需要通過中心像素點其鄰域的灰度值來確定主方向,重新計算積分圖像,這增加了計算復(fù)雜度和時間消耗。而M-LDB描述子不再計算網(wǎng)格內(nèi)所有像素的平均值,而是以尺度σ進行采樣,以部分點進行近似的二值描述,使描述子具有尺度變化的穩(wěn)健性。同時將特征點檢測過程中計算的方向?qū)?shù)用于描述階段的計算,大大減少了計算量。
2 戶外建筑場景識別
傳統(tǒng)的暴力識別法是在線下提取訓(xùn)練集圖像特征并存儲,當進行實時識別時,首先獲取真實場景的實時圖像幀,在線提取特征,與訓(xùn)練集圖像特征進行逐一匹配,選取匹配度最高的圖像返回為識別結(jié)果。實時幀提取的特征需要與訓(xùn)練集所有特征進行匹配,耗時較長。本文選取AKAZE算法對訓(xùn)練集和實時幀進行特征提取,使用基于詞匯樹的圖像檢索技術(shù)[3]代替暴力圖像特征匹配,構(gòu)成適用于海量戶外建筑場景識別模塊的關(guān)鍵技術(shù)框架。
2.1 離線訓(xùn)練
2.1.1 詞匯樹構(gòu)建
訓(xùn)練集中所有圖像的特征向量構(gòu)成特征向量集合F={fi},特征向量集合中每一個特征向量對應(yīng)圖像ID的集合為imageld={pi},表示特征向量fi屬于ID為pi的圖像。
繼而對特征向量集合F進行分層聚類,本文采用K-Means聚類算法,設(shè)定分支因子A:,首先將原始特征集合進行第一層K-Means聚類,得到k個簇,每一個特征向量分別被劃分到聚類最近的簇中,每一個簇是第一層的個節(jié)點,將該k個簇分別再進行K-Means聚類,可以得到k×k個新簇。按照上述規(guī)則,對每一個簇不斷的進行K-Means聚類,直到樹的深度達到預(yù)先規(guī)定的L層。每個新簇中特征向量個數(shù)小于時便不再進行聚類。此時整棵詞匯樹的節(jié)點總數(shù)為式(6):
2.1.2 圖像向量
詞頻-逆文件頻率(Termfre Quency-Inverse DocumentFrequency, TF-IDF)[4]是一種常用的加權(quán)計算方法,TF的基本思想是:若某詞匯在一篇文檔中出現(xiàn)頻率高,同時在其他文檔中出現(xiàn)頻率較低,則能夠較好地表征該篇文檔的內(nèi)容,同時具有很好的分類功能;逆文檔頻率(Inverse Document Frequency,IDF)思想主要是若某詞匯在少數(shù)文檔中出現(xiàn),則表明該詞匯有較好的分類能力。
詞頻(Term Frequency,TF)為給定詞匯ti在文檔dj中出現(xiàn)的頻率,表示為式(7):
其中,ni,j是給定詞匯在查詢文檔中出現(xiàn)的次數(shù),分母為查詢文檔中所有詞匯出現(xiàn)的頻率之和,因此若給定詞匯在查詢文檔中出現(xiàn)的次數(shù)越多,貝瞭示它在文檔中的重要性就越高。
另一個重要的參數(shù)——IDF表示給定詞匯ti在整個查詢文檔集中的重要程度,可表示為式(8):
利用詞頻向量表示文檔,向量的不同分量代表詞匯,分量數(shù)值為該詞匯在文檔中出現(xiàn)的頻率,由于不同詞匯在文檔中權(quán)重不同,表現(xiàn)在向量中即權(quán)值詞頻向量。因此,對于給定的詞匯ti,在當前查詢文檔dj中的權(quán)重可以量化。
2.2 在線識別
將帶查詢圖像q和訓(xùn)練集中圖像d用權(quán)值詞頻向量表示,則二者的相似度可以歸一化表示為式(9):
假設(shè)參數(shù)服從高斯分布,為了防止模型迎合訓(xùn)練集而過于復(fù)雜造成過擬合的情況,提高模型的泛化能力,采用L-2范數(shù)簡化為式(10):
式(10)將圖像間的相似性度量轉(zhuǎn)化為特征向量上對應(yīng)維度上非零元素的累計求和,加快了計算速度。在詞匯樹中表現(xiàn)為比較兩幅圖像自上而下的相似程度。
最后對西安建筑科技大學(xué)南門的識別結(jié)果,訓(xùn)練集圖像規(guī)模為300張,輸入了30張對南門從不同角度、尺度、光照下拍攝的圖像。其中一張測試圖像的結(jié)果集返回了前4個匹配結(jié)果,當前圖像匹配度從高到低分別為98.56%,95.88%,52.41%,51.71%,成功返回了匹配到的結(jié)果集,識別時間平均約為123.7 ms,成功識別到28張,成功率約為93.3%。
3 結(jié)語
本文介紹了AKAZE特征提取算法,提出使用AKAZE算法完成戶外建筑場景識別中圖像特征的提取和描述。并基于詞匯樹算法提出了適應(yīng)于海量圖像識別的算法技術(shù)框架,包括服務(wù)器端離線訓(xùn)練工作和在線圖像識別方法。實驗部分,利用該識別框架進行了戶外建筑場景識別實驗,取得了較為理想的實驗效果。
[參考文獻]
[1]ALCANTARILLA P F, BARTOLIA, DAVISON A J.KAZE features[C].Berlin:European Conference on Computer Vision, 2012:214-227.
[2]ALCANTARILLA P, NUEVO J, BARTOLI A.Fast explicit diffusion for accelerated features in nonlinear scale spaces[C].Bristol:British Machine Vision Conference, 2013.
[3]佘曼桂.基于詞匯樹檢索的智能手機圖書感知系統(tǒng)[D].北京:北京郵電大學(xué),2013.
[4]趙小華.KNN文本分類中特征詞權(quán)重算法的研究[D].太原:太原理工大學(xué),2010.