梁 楠
(安徽工程大學(xué) 建筑工程學(xué)院, 安徽 蕪湖 241000)
隨著經(jīng)濟(jì)的發(fā)展,建筑成為一個城市的代表,更是城市文化的空間載體[1]。從形態(tài)上看,古代建筑的肌理形態(tài)出現(xiàn)各種修補(bǔ),而且在城市快速發(fā)展的過程中,古代建筑分布呈現(xiàn)高度碎片化現(xiàn)象[2],很多歷史建筑漸漸消失,只有少部分被保存。因此,研究地域建筑肌理的內(nèi)容和規(guī)律,展示地域建筑肌理的作用,對研究歷史地域文化的發(fā)展前景有很大的幫助。曹艷玲等研究基于特征分布的特征識別方法[3],通過顏色特征識別,運(yùn)用像素比值法對建筑肌理圖像識別,但此方法在光照條件不好的情況下識別精度極低。劉亞沖等研究基于Softmax(Softmax regression)回歸的特征識別方法[4],在提取建筑肌理圖像特征時采用SITF(Scale-invariant Feature Transform)算法,運(yùn)用GPS和SITF匹配特征相連接的方法識別建筑肌理圖像,但是此算法需要考慮GPS的限制,圖像識別的時間會比較長。
視覺注意機(jī)制是所有生物的一個重要特性,有助于人類在眾多視覺信息中快速地搜索到有用顯著物體,減少處理信息的計算量和時間。因此,選取建筑物圖像為研究對象,研究基于視覺顯著性的地域建筑肌理特征識別優(yōu)化方法,提高識別效率[5-7]。
1.1.1 直方圖基礎(chǔ)
直方圖增強(qiáng)技術(shù)是一種通過更改原始圖像直方圖的方法對圖像進(jìn)行處理和變換,選擇的直方圖決定圖像增強(qiáng)的程度[8]。圖像增強(qiáng)前像素灰度級用變量α表示,增強(qiáng)后用變量β表示,Qα(α)和Qβ(β)各自表示與灰度級分布對應(yīng)的概率密度。若像素灰度值在區(qū)間[0,1],α=0代表黑,α=1代表白。區(qū)間[0,1]里α值的函數(shù)表示為:
β=T(α)
(1)
T(α)符合兩個要求:(1)0≤T(α)≤1;(2)單值單調(diào)添加函數(shù)。要求(1)確保調(diào)換后像素灰度值在給定的區(qū)域里,要求(2)讓灰度級穩(wěn)定在從黑至白的順序。而β到α反變化是:
α=T-1(β),0≤β≤1
(2)
變量β也要符合上述要求,通過概率理論可知,如果已經(jīng)給出變換函數(shù)β=T(α)和Qα(α),單值單調(diào)函數(shù)值是T-1(β),所以可得:
(3)
因此直方圖增強(qiáng)技術(shù)在更改圖像的外部特征時主要利用改變函數(shù)操縱圖像灰度級的概率密度函數(shù)。
1.1.2 直方圖均衡化
對于連續(xù)圖像,變換函數(shù)是:
(4)
其中:α是積分變量;等號的右側(cè)是累計分布函數(shù),可以幫助圖像實現(xiàn)灰度級分布均勻化。通過兩邊求導(dǎo)可得:
(5)
將式(5)代入式(3)可以得出:
(6)
由式(6)可知,經(jīng)過變換后,變量β在定義域內(nèi),均勻概率密度是Qβ(β),相當(dāng)于像素的動態(tài)區(qū)域增多。
關(guān)于離散圖像,灰度級αk的概率值
(7)
式中:η是圖像像素的總數(shù),ηk是圖像里灰度級的顯示次數(shù),L是灰度級的數(shù)量,Qα(αk)是第k級灰度級的概率。與(4)式對應(yīng)的離散函數(shù)是:
(8)
其反向變換形式為:
αk=T-1(βk),0≤βk≤1
(9)
綜上,可對所給的圖像運(yùn)用式(8)進(jìn)行計算變換函數(shù)T(βk)。
對于直方圖圖像增強(qiáng)技術(shù)的算法,可通過3個步驟對原始圖像直方圖重新排列像素:(1) 進(jìn)行k簇還原時采用k-means法(k均值聚類算法),遞推求出簇,然后求得兩個閾值;(2)通過數(shù)學(xué)形態(tài)法把分離的3個子圖聯(lián)系起來;(3)采用直方圖均衡法得出子圖的圖像增強(qiáng)[9]。
采用基于圖論的顯著性分析(Graph-based Visual Saliency,GBVS)算法提取地域建筑機(jī)理特征的視覺顯著性[10]。GBVS算法通過馬爾科夫鏈提取視覺顯著性,馬爾科夫鏈的性質(zhì)是:
P(X(n+1)=x|X0,X1,X2,…,Xn)=P(Xn+1=x|Xn)
(10)
其中,x設(shè)為一個狀態(tài)的過程,Xn是時間n的狀態(tài)。
馬爾科夫鏈被用于圖論顯著性提取,圖片特征可以寫成M:[n]2→R,定義M(i,j)和M(p,q)為特征向量,而兩個向量值之間的區(qū)別用d((i,j)‖(p,q))來代表,得到:
(11)
因此,圖像能夠作為像素互相連接的有向圖,由于圖像的節(jié)點用像素點代表,而圖中的兩個鄰近節(jié)點是M(i,j)和M(p,q)。設(shè)定M(i,j)至M(p,q)兩個節(jié)點為權(quán)重ω1,可表示為:
ω1((i,j),(p,q))△d((i,j)‖(p,q))·F(i-p,j-p)
(12)
(13)
在式(13)中,σ是算法里的自由參數(shù)。因此,節(jié)點M(i,j)至M(p,q)的距離同節(jié)點M(i,j)至M(p,q)權(quán)重ω1與二者之間的差異性成正比。初始圖像用每個節(jié)點的像素值表示,使用節(jié)點方式來表示每個節(jié)點像素,把全部的加權(quán)值和原始顯著性值分別加在一起,統(tǒng)計出轉(zhuǎn)移的概率,節(jié)點的原始顯著性圖用新得到的顯著性值進(jìn)行表示,把馬爾科夫鏈里所有節(jié)點歸一化處理[11]。獲得的激發(fā)信息匯聚到很多個主要地方,創(chuàng)建一個圖GN(包括n2個節(jié)點),設(shè)定圖中臨近的兩個節(jié)點為新的權(quán)重ω2,可表示為:
ω2((i,j),(p,q))ΔA(p,q).F(i-p,j-p)
(14)
其中,A(p,q)是原始顯著圖。
馬爾科夫鏈的節(jié)點與狀態(tài)相對應(yīng),具有局限特性;馬爾科夫鏈也會被較高激發(fā)節(jié)點約束,最終能夠獲得的顯著圖,將A(p,q)更深一步地歸一化處理。
圖像會有一些阻擾特征目標(biāo)的屬性,且內(nèi)容復(fù)雜,而GBVS算法只能得到待識別目標(biāo)的圖像范圍,無法得到精確的識別目標(biāo)。如果想要迅速且精準(zhǔn)地識別目標(biāo),需要采取圖像分割方法把目標(biāo)部分分割處理。本文采用閾值分割方法來實現(xiàn)圖像分割[12]。閾值分割方法通常解決的是灰度圖像,經(jīng)過收集和整理灰度圖像的像素值得到灰度閾值,然后對比所有的像素值和閾值,依據(jù)對比要求,把符合條件的像素值歸到對應(yīng)的類型[13]。
在圖像I(x,y)里,u是全部像素點的平均灰度,g是兩種像素的類間方差,H是分割閾值,N1是大于閾值H的像素數(shù)個數(shù),N0是小于H的像素數(shù)個數(shù),w0是目標(biāo)像素在所有像素數(shù)中的比例,u0是平均灰度,w1是背景像素在所有像素數(shù)中比例,u1是平均灰度,S*N是分辨率。計算公式如下:
w0=N0/(S×N)
(15)
w1=N1/(S×N)
(16)
N0+N1=(S×N)
(17)
w0+w1=1
(18)
u=w0×u0+w1×u1
(19)
g=w0×(u0-u)2+w1×(u1-u)2
(20)
結(jié)合式(19)、式(20)可知:
g=w0×w1×(u0-u1)2
(21)
經(jīng)過上述方法,得到最大類間方差閾值,得到的閾值進(jìn)行閾值化,即可得到分割結(jié)果。
本文應(yīng)用閾值分割的最大類間差法分割視覺顯著性圖像,方法簡單,速率高,算法容易完成。
最近幾年,關(guān)于局部特征的圖像代表方法有了飛快的發(fā)展,關(guān)于視覺模型顯著性識別方法中,視覺單詞(bag of visual words,BoVW)模型得到了很大的關(guān)注。起初,通過特征描述算子的方法對圖像準(zhǔn)備檢測的特征點或區(qū)域進(jìn)行提取,選取支持向量機(jī)(Support Vector Machines,SVM)對提取的地域建筑機(jī)理特征算子實施提煉,得到的視覺單詞用特征概率表示,構(gòu)成視覺詞典,實現(xiàn)地域建筑機(jī)理特征識別。
1.4.1 BoVW模型
本文選取地域建筑機(jī)理的特征描述算子(Speeded Up Robust Features,SURF)。因為地域建筑機(jī)理的SURF特征維數(shù)很高,如果提煉的圖像樣本較多時,形成的特征向量會有成千上萬種,所以要采取恰當(dāng)?shù)奶幚磙k法將特征向量實施降維[14]。采用k-means聚類算法,主要根據(jù)類內(nèi)辦法和最小的原則把向量里的n個特征點歸為特定的k類,詳細(xì)步驟如下:
(2)計算樣本集Xi的樣本點和聚類中心cj的距離,公式如下:
(22)
(3)計算k個聚類中心
(23)
重復(fù)步驟(2)和(3)至最大迭代次數(shù)。
視覺顯著性模型包含有很多的視覺特征,由于k-means聚類迭代完善對迅速收斂有幫助,采取多次迭代完善的方法來處理。
1.4.2 支持向量機(jī)(SVM)模型
支持向量機(jī)(SVM)模型是核函數(shù)區(qū)域里單鏈型分類器,用于解決非線性分類問題,而且包括廣泛和最完善性能,是一個匯總模式識別辦法[15]。
SVM是一個交叉學(xué)習(xí)模型,用作分析數(shù)據(jù)的分類與回歸。采用SVM分類方法,依據(jù)線性函數(shù)是否將樣本分開的原理,判別樣本能否線性可分。已知線性數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xn,yn)},因此,判斷線性函數(shù)在D維空間里的一般方程式為:
yn(x)=ωxn+b
(24)
其中:xn是度量樣本中的特征向量,yn是特征種類。經(jīng)過函數(shù)可以把yn映照在某個高維的領(lǐng)域中,依據(jù)判別函數(shù)尋找最完美的超平面來分類,實現(xiàn)最終地域建筑機(jī)理特征識別。
以某地域建筑機(jī)理圖像數(shù)據(jù)庫為研究對象,從中隨機(jī)選取圖像,采用本文研究方法進(jìn)行地域建筑肌理特征識別,并從圖像增強(qiáng)、分割以及特征識別3個角度驗證本文方法的優(yōu)勢。
隨機(jī)選取一幅歷史建筑物的肌理圖像,其原始圖像和原始圖像直方圖如1所示。采用本文方法對原始圖像進(jìn)行灰度級為30級的均衡化處理,圖像增強(qiáng)后的均衡化圖像及其直方圖的亮度變化情況如圖2所示。
(a)原始圖像 (b)原始圖像的直方圖
(a)原始圖像均衡化 (b)均衡化的直方圖
從實驗結(jié)果可以看出:經(jīng)過均衡化處理的圖像亮度值基本穩(wěn)定,灰度的動態(tài)和對比度差都有了很大的增強(qiáng),圖片變得清楚;未經(jīng)過處理的原始圖像和直方圖圖像亮度較暗,視覺效果差而且動態(tài)范圍小。實驗結(jié)果表明,本文方法圖像增強(qiáng)處理后可顯著增強(qiáng)圖像亮度,提升圖像視覺效果。
隨機(jī)選取數(shù)據(jù)庫中一幅建筑肌理圖像,其原始圖像如圖3(a)所示。進(jìn)行分割實驗,選取文獻(xiàn)[3]提出的基于特征分布的建筑圖像識別方法和文獻(xiàn)[4]提出的基于Softmax回歸的特征分類識別方法為對比方法,統(tǒng)計3種方法的圖像分割效果。本文方法與文獻(xiàn)[3]和文獻(xiàn)[4]方法的分割實驗結(jié)果如圖3(b)、圖3(c)和圖3(d)所示,圖中建筑物部分用白色像素,背景部分域用黑色表示。
(a)原始圖片 (b)本文方法
(c)文獻(xiàn)[3]方法 (d)文獻(xiàn)[4]方法
從以上分割結(jié)果可以看出:本文方法分割結(jié)果明顯好于文獻(xiàn)[3]和文獻(xiàn)[4]的分割結(jié)果,文獻(xiàn)[3]和文獻(xiàn)[4]方法分割后的建筑物邊界有裂紋和縫隙,有很多的分割斑點;而采用本文方法得到建筑物邊界輪廓清楚,沒有空洞存在,僅有特別少的分割斑點,視覺顯著性效果非常好。實驗結(jié)果表明本文方法的圖像分割效果更好。
根據(jù)上述初始分割結(jié)果,統(tǒng)計應(yīng)用本文方法后建筑物和背景部分像素數(shù)目應(yīng)用迭代求解時的變化曲線圖,結(jié)果如圖4和圖5所示。
從圖4可以看出:本文方法作用下建筑物像素數(shù)目迭代次數(shù)為4時開始穩(wěn)定;而文獻(xiàn)[3]方法在迭代次數(shù)為6時趨于穩(wěn)定;文獻(xiàn)[4]方法在迭代次數(shù)為6時基本穩(wěn)定。實驗結(jié)果表明,本文方法的收斂要好于其他兩種。
從圖5分析可知:背景部分應(yīng)用本文方法在迭代次數(shù)為4時原始分割像素數(shù)目趨于穩(wěn)定,文獻(xiàn)[3]方法和文獻(xiàn)[4]方法在均在迭代次數(shù)為7左右時原始分割像素數(shù)目趨于穩(wěn)定:同時,本文方法的迭代次數(shù)最少,而文獻(xiàn)[4]方法的迭代次數(shù)最多,因此本文方法分割效果最好。
圖4 建筑物部分
圖5 背景部分
為了證明本文方法識別特征的真實性,現(xiàn)選擇5種建筑場景背景圖像來進(jìn)一步比較,依次是樓房、堤壩、機(jī)場、鐵軌、燈塔,統(tǒng)計3種方法對5種建筑物場景的建筑肌理特征識別效果,結(jié)果如表1所示。
表1 5種建筑物的特征識別對比
從表1能夠清楚地看出,文獻(xiàn)[3]、文獻(xiàn)[4]方法的識別結(jié)果明顯不如本文識別方法,表明本文方法的識別效果好。原因在于本文方法利用視覺顯著性機(jī)制,有效凸顯視覺場景中的感興趣區(qū)域,使得地域建筑圖像中的樓房、堤壩、機(jī)場、鐵軌、燈塔等建筑物可以更好被識別出來。但圖像局部視覺特征和單詞一樣存在不確定的含義,局部特征一樣的含義也許會映射出不同的視覺單詞,局部特征不一樣的含義也許會被相同的視覺單詞來表示,所以在識別的階段還是存在些許誤差,但識別效果依舊優(yōu)于兩種對比方法。為了繼續(xù)驗證本文方法具有更好的識別效果,從建筑物肌理圖像中,選取50幅圖像,進(jìn)行25輪實驗,統(tǒng)計3種方法特征種類的識別數(shù)目。將3種方法在每輪特征種類識別的結(jié)果進(jìn)行比較,如圖6所示。
圖6 特征種類成功識別數(shù)
由圖6可知,本文方法的特征種類識別最穩(wěn)定,特征種類識別數(shù)目較多,識別效果最好。而文獻(xiàn)[3]方法在16輪時出現(xiàn)了錯誤識別,文獻(xiàn)[4]方法分別在11輪和19輪時出現(xiàn)了錯誤識別。文獻(xiàn)[3]和文獻(xiàn)[4]方法在識別過程具有不穩(wěn)定性,本文方法在特征識別時具有優(yōu)勢。
基于視覺顯著性模型的地域建筑肌理特征識別方法,把視覺顯著性模型用于地域建筑肌理特征識別,獲得非常理想的分類識別成果。為了進(jìn)一步提高目標(biāo)特征的識別,利用SUV分類器是否線性可分的特性,提出交叉學(xué)習(xí)模型,通過對選取的建筑物圖像進(jìn)行識別率比較實驗,驗證了本文提出的識別方法在地域建筑肌理特征識別時更方便,識別性能也得到了很大的提高。