林青青+胡勝+鄭靈鳳+郭淑敏+朱蓉
摘要:伴隨著計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人類逐漸積累的數(shù)據(jù)量急劇增多。為了從海量的數(shù)據(jù)中挖掘出有用的信息,為用戶提供決策支持,聚類算法得到了廣泛的關(guān)注,并應(yīng)用于各類數(shù)據(jù)處理與數(shù)據(jù)挖掘之中。本項目在分析圖像視覺特性的基礎(chǔ)之上,通過對圖像顏色、紋理和形狀多種特征信息的有效融合,利用K-均值算法進行聚類。提出的方法在采集的圖像數(shù)據(jù)集上進行實驗,有很好的聚類效果。
關(guān)鍵詞:數(shù)據(jù)處理;數(shù)據(jù)挖掘;特征提取;聚類分析
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)31-0164-04
Abstract:With the rapid development of computer technology and Internet technology, the amount of data accumulated in the human gradually increased dramatically. For the vast amounts of data into useful information for the user to provide decision support, clustering algorithm has been widely attention and applied to all types of data processing and data mining applications. The project based on the analysis of visual features on the image, through the effective integration of color, texture and shape features of the image information, the use of K-Means algorithm to cluster. The proposed method can be carried out experiments on the acquired image data set, and has a good clustering effect .
Key words: data processing; data mining;feature extraction;cluster analysis
現(xiàn)今,互聯(lián)網(wǎng)上的圖像信息數(shù)量如海洋般龐大,我們雖可以通過眼睛獲取十分豐富的信息,然而人類可以接受的范圍是有限的,如何從海量的數(shù)據(jù)之中準確、快速地將圖像進行聚類,最終為人類社會的發(fā)展服務(wù),是當前圖像特征提取領(lǐng)域的一個研究焦點。
圖像聚類就是運用計算機對圖像庫中圖像進行定量分析,再把圖像劃分到某一種特征類別中,以代替人類對圖像的視覺判別。圖像聚類的過程實質(zhì)上就是一個基于知識的圖像理解過程,同時也是人類對圖像的視覺判別的延續(xù)與發(fā)展。
基于視覺特征的圖像聚類研究是解決視覺圖像問題的一條重要途徑,也是一個聚集了計算機視覺、圖像處理、數(shù)據(jù)挖掘等多個研究領(lǐng)域的交叉研究方向?,F(xiàn)如今,基于視覺特征的圖像分類研究已越來越受到國內(nèi)外研究者的關(guān)注,在近幾年舉辦的與該領(lǐng)域研究相關(guān)的一些頂級國際會議,如計算機視覺與圖像處理國際會議CVPR、數(shù)據(jù)挖掘國際會議KDD、ICDM等等,都有相關(guān)文獻發(fā)表。
文獻[2]中,孫君頂?shù)热嗽谛螤钐卣魈崛≈刑岢鲆环N新的圖像分塊形狀特征的描述方法,對圖像采用固定塊的分割方法。文獻[4]中,劉麗等人介紹了關(guān)于紋理特征的所有研究方法。文獻[6]中,趙書蓮在應(yīng)用研究過程中使用Hu不變矩算法進行形狀特征的提取。在博士論文[11]中,朱蓉論述了所有視覺特征的提取方法。
隨著研究者在聚類技術(shù)上的不斷改進和創(chuàng)新,許多新奇且高效的聚類算法層出不窮,針對特定的問題和用戶,許多學者研究出了多種具有代表性的聚類算法,并且廣泛地應(yīng)用于模式識別、生物信息、圖像處理以及數(shù)據(jù)挖掘等領(lǐng)域。
文獻[7]中,臧少杰介紹了所有聚類算法,并且將這些算法進行了比較。文獻[8]中,路晶等人針對非監(jiān)督學習,在基于EM算法啟發(fā)式迭代優(yōu)化算法的框架下,提出了6種多例聚類算法。文獻[9]中,周俊祥對模糊C-均值聚類(FCM,全稱為Fuzzy C-Means Algorithm)算法進行改進,有效地降低了孤立點對圖像數(shù)據(jù)聚類結(jié)果的影響。
1 特征提取
基于視覺特征的網(wǎng)絡(luò)圖像特征有三個,分別為顏色、紋理、形狀。特征提取是將某一模式的一組測量值進行變換,用以表現(xiàn)這一模式具有代表性特征的方法。通過影像分析和變換,以提取所需特征的方法。
1.1 顏色特征的提取
顏色特征的提取主要有四種方法,為顏色直方圖、顏色矩與顏色熵的研究、顏色相關(guān)圖的研究、
顏色聚合向量的研究。在這四種方法中,顏色矩與顏色熵的研究方法的分辨能力比較低,所以通常也必須和其他圖像特征結(jié)合起來進行檢索。顏色相關(guān)圖的研究計算量很大,近些年來對于顏色相關(guān)圖的研究才剛剛起步,主要是結(jié)合其他方法一起來研究,在文獻[3]中作者介紹了一種基于顏色相關(guān)圖和小波變換的算法。顏色聚合向量的研究當前也主要集中于與其他方法結(jié)合來進行效果的改進上,比如該文中作者在顏色直方圖的基礎(chǔ)之上采用了一種基于顏色聚合向量的方法從而提高了檢索的精度。而顏色直方圖具有相似度計算,有特征提取簡潔和不隨圖像尺度、旋轉(zhuǎn)等變化而變化的特點。所以顏色直方圖相較于其他方法更適合于顏色特征的提取。具體方法如下:
1.2紋理特征的提取
紋理是指在圖像中重復出現(xiàn)的局部模式及其排列規(guī)則。紋理特征與顏色特征相似,同樣也是一個整體性的特征。近年來,對紋理分析方法的種種理論或者方法在紋理特征提取中的實踐已然基本成形,Tuceryan和Jain將紋理特征提取的方法歸納為五大類,即結(jié)構(gòu)統(tǒng)計、 模型、信號處理、幾何和結(jié)構(gòu)家族。這種分類方法被大多學者所采納。
模型家族的方法能兼顧紋理局部的隨機性與整體上的規(guī)律性,而且有很強大的靈活性;主要優(yōu)勢是提供了用來表示空間上相關(guān)的隨機變量之間的相互作用的模型。它的不足在于模型系數(shù)的求解有難度,需要相當大的計算量,往往需要迭代了數(shù)百次才能達到收斂。信號處理家族對紋理進行多分辨描述,可以在更精準的尺度之上分析紋理。但有有效性不佳和計算量大的缺陷。
而本文推薦使用的統(tǒng)計家族方法簡便,容易實現(xiàn),特別是灰度共生矩陣(GLCM,全稱為Gray Level Co-occurrence Matrix)方法是世界公認的有效方法,具有比較強的適應(yīng)性。
灰度共生矩陣是被廣泛使用的紋理提取的算法,也是分析圖像的基礎(chǔ),它運用統(tǒng)計學當中的概率來反映圖像灰度的有關(guān)方向和間隔等整體信息。其算法描述如下:
是圖像中任意一點,是圖像中移動后的另一點,因此形成一個點對, 是該點對的灰度值,即m是點的灰度值, n是點的灰度值。然后固定和,通過點的改動,來明確相應(yīng)的值,所以相應(yīng)灰度值的組合為(灰度值的級數(shù)為L)。對于研究的圖像,計算出值出現(xiàn)的頻率,化其積分為1,它的概率為,則灰度共生矩陣(灰度聯(lián)合概率密度)為。
對于有區(qū)別的紋理周期分布,就有不一樣的離差分值,即不一樣的與值。在紋理比較細致的情況下,選?。?,0),(0,1),(1,1),(-1,1)等小的差分值是非常有效果的。若與取值比較小,則表明紋理圖像變化情況遲緩,那么在灰度聯(lián)合概率矩陣對角線上的數(shù)值就相對較大,適合于做對角線分布;若與取值比較大,那么說明紋理變化愈快,則在灰度聯(lián)合概率矩陣對角線上的數(shù)值就愈小,適合于做均勻分布。一系列的紋理特征的統(tǒng)計量能夠通過灰度共生矩陣而得到,其中常用的有以下8個紋理特征值。
(1)角二階矩
(2)對比度其中。
(3)灰度相關(guān)其中分別為與的標準差和準值。
(4)熵
(5)逆差矩其中k為常數(shù)且。
(6)最大概率
(7)相異
(8)反差
1.3 形狀特征的提取
形狀特征提取表示方法有2種,一種是區(qū)域特性,它主要是針對于圖像的整個形狀區(qū)域;另一種是輪廓特性,它主要針對于物體的外邊界。前人關(guān)于形狀特征提取的典型方法有:邊界特征值法、幾何參數(shù)法、形狀不變矩法、傅里葉形狀描述法等。本文采用Hu不變矩算法來提取形狀特征。
Hu不變矩是由Hu在1962年提出來的。不變矩是一種經(jīng)過提取具有平移、旋轉(zhuǎn)與比例不變性的圖像特征,不變矩的中心思想是使用對變換不敏感的基于區(qū)域的幾個矩陣作為形狀特征,從而進行圖像識別的方法。矩不變量因為具有不隨圖像的位置、大小與方向而變化的特點,對于提取圖像中的形狀特征而言,是一個很常用的工具。
2 聚類分析
聚類是依據(jù)事物的某些屬性特性,將事物劃分成為不同類的過程,其目的是使得類間的相似性盡可能小,類內(nèi)的相似性盡可能大。在許多應(yīng)用當中,聚類分析是一種數(shù)據(jù)預(yù)處理的過程,同時也是進一步分析和處理數(shù)據(jù)的基礎(chǔ)。經(jīng)過恰當?shù)木垲愃惴ǎ瑢κ挛锏奶卣鲾?shù)據(jù)進行預(yù)處理,從而事物才便于研究,事物的內(nèi)部規(guī)律才可能被人類所掌握。
聚類算法大致可以分為以下幾種:劃分、層次、基于密度、基于網(wǎng)格和基于模型的聚類。
基于層次的聚類是將既定數(shù)據(jù)對象集合進行層次的分解,雖然適用于任意形狀和任意屬性的數(shù)據(jù)集,但算法執(zhí)行時間長,不能回溯處理;基于密度的聚類是基于發(fā)現(xiàn)所有形狀的聚類結(jié)果,能夠用來過濾“噪聲”孤立點數(shù)據(jù),發(fā)現(xiàn)所有形狀的不同簇,但處理時間與每維空間所劃分的單元數(shù)相關(guān),一定程度上降低了聚類的質(zhì)量和準確性;基于網(wǎng)格的聚類能夠處理所有類型的數(shù)據(jù),但這是以降低聚類的質(zhì)量和準確度為代價的;基于模型的方法對每個簇假設(shè)了一個固定的模型,繼而找到對給定模型最佳擬合的數(shù)據(jù)?;谀P偷乃惴軌蚪?jīng)過搭建反映數(shù)據(jù)點空間分布的密度函數(shù)來確定聚類。
基于劃分的算法首先構(gòu)建一個初始的劃分,確定需要構(gòu)建的劃分數(shù)目k。之后使用一種迭代的重定位技術(shù),通過對象在劃分間變動來改進劃分,使在相同的類中對象之間盡可能接近或相近,相反不同類中的對象盡可能闊別或有差別。為了能夠達到全局的最優(yōu),基于劃分的聚類會需要列舉所有可能的劃分。實際上,大部分應(yīng)用采用了K-均值算法(K-Means)和K-中心點算法這兩種較流行的啟發(fā)式算法。
這兩種啟發(fā)式聚類算法對在中小規(guī)模的數(shù)據(jù)庫中找到球狀簇非常適用。下面主要介紹本文所采用的K-均值算法。
2.1 K-均值算法
K-均值算法的過程:
1.隨機選取k個數(shù)據(jù)點作為初始的種子聚類中心。
2.計算每個數(shù)據(jù)點與各個中資聚類中心之間的距離,把每個數(shù)據(jù)點分配給距離它最近的聚類中心。聚類中心以及分配給它的數(shù)據(jù)點就代表一個聚類。
3.重復以上步驟,直至達到以下任一條件便會終止:
(1)沒有(或最小數(shù)目)數(shù)據(jù)點被重新分配給不同的聚類。
(2)沒有(或最小數(shù)目)聚類中心再發(fā)生變化。
3.2 特征提取實驗
紋理特征提?。簭膱D像庫中選取100幅花朵類圖像,用統(tǒng)計家族的灰度共生矩陣(GLCM)提取其8維紋理特征。
形狀特征提取:從圖像庫中選取100幅花朵類圖像,選擇Hu不變矩方法提取其形狀特征。
3.3 具體分析過程
第一步:從圖像庫中選取兩組不同圖像,使用灰度共生矩陣和Hu不變矩提取各自的紋理和形狀特征;
第二步:利用K均值算法將這兩組圖像分別基于紋理和形狀特征進行聚類,再從中分別選取60幅得到聚類中心的范圍,求出平均值;
第三步:分別從花朵類和美食類圖像中選取40幅圖像,將每幅圖像的紋理和形狀特征數(shù)值與平均值進行歐式距離計算,距離較小時可認為屬于該類,而后計算兩組數(shù)據(jù)的準確率。
1)紋理特征的聚類結(jié)果
測試集中40幅花朵類圖像的紋理特征數(shù)據(jù)與訓練集中花朵類圖像紋理特征數(shù)據(jù)平均值的歐式距離全都小于和訓練集中美食類圖像紋理特征數(shù)據(jù)平均值的歐式距離,故實驗準確率達到100.0%;測試集中40幅美食類圖像的紋理特征數(shù)據(jù)與訓練集中美食類圖像紋理特征數(shù)據(jù)平均值的歐式距離全都小于和訓練集中花朵類圖像紋理特征數(shù)據(jù)平均值的歐式距離,故實驗準確率達到100.0%。紋理特征的比較結(jié)果如表1所示:
2)形狀特征的聚類結(jié)果
測試集中40幅花朵類圖像的形狀特征數(shù)據(jù)與訓練集中花朵類圖像形狀特征數(shù)據(jù)平均值的歐式距離有28幅圖像的數(shù)值小于和訓練集中美食類圖像形狀特征數(shù)據(jù)平均值的歐式距離,故實驗準確率達到70.0%。測試集中40幅美食類圖像的形狀特征數(shù)據(jù)與訓練集中美食類圖像形狀特征數(shù)據(jù)平均值的歐式距離有30幅圖像的數(shù)值小于和訓練集中花朵類圖像形狀特征數(shù)據(jù)平均值的歐式距離,故實驗準確率達到75.0%。形狀特征的比較結(jié)果如表2所示:
綜上所述:
1)花朵類圖像和美食類圖像在紋理上的有很大的相似性,因為花朵類圖像的紋理較細致,其基元較小,因而空間頻率較高,而美食類圖像的紋理較粗糙,其基元較大,空間頻率較低。
2)花朵類圖像和美食類圖像在形狀上的區(qū)別比較小,由于某些花朵的形狀與某些美食的形狀有相似性,如帶有花邊圖案的盤子所盛的美食的圖像和擺盤呈花型的美食圖像與花朵類圖像有很大的相似度,如圖1中的(a)圖與圖2中的(c)圖,會有較低的準確率。而圖2中(a)圖的美食呈長方形,則會與花朵類圖像有很大的區(qū)別。
4 總結(jié)
基于視覺特征的圖像聚類研究中,花朵類圖像和美食類圖像在紋理和形狀上的聚類都有一定的準確率,特別是在紋理的聚類上本次研究有著100.0%的準確率。同時也有不足之處,本次研究并未融入顏色特征,針對特定的圖像也還需要進一步研究具有區(qū)分度的特征。本文所用的K-均值算法只能應(yīng)用于那些均值能夠被定義的數(shù)據(jù)上。因此,它很難應(yīng)用到范疇數(shù)據(jù)上,且對于異常值異常敏感。所以現(xiàn)在所用的聚類算法未來要繼續(xù)改進,比如聚類中心的計算能夠?qū)崿F(xiàn)自適應(yīng)等。
基于視覺特征的圖像聚類方法研究涉及圖像搜索引擎、數(shù)字照片的個性化管理、敏感圖像的識別與過濾、藝術(shù)圖像鑒別等等,具有十分重要的現(xiàn)實意義,相關(guān)研究領(lǐng)域的最新知識與研究成果都可以創(chuàng)新性地應(yīng)用到解決各方面的問題中,以促進圖像聚類技術(shù)的快速發(fā)展。
參考文獻:
[1] 高進樂,康耀紅,伍小芹.基于顏色特征圖像檢索方法的研究[J] .信息技術(shù),2008(11):4-7.
[2] 孫君頂,趙珊.圖像底層特征提取與檢索技術(shù)[M].北京:電子工業(yè)出版社,2009:49-85.
[3] 張篤振.基于顏色特征與LBP的圖像檢索算法研究[J] .微計算機應(yīng)用,2009,30(6):35-38.
[4] 劉麗,匡綱要.圖像紋理特征提取方法綜述[J].中國圖象圖形學報,2009(4).
[5] 王志瑞,閆彩良.圖像特征提取方法的綜述[J].吉首大學學報:自然科學版,2011(6).
[6] 趙書蓮.形狀分類及其在圖像檢索系統(tǒng)中的應(yīng)用研究[D].山東:山東師范大學,2006.
[7] 臧少杰.基于視覺的聚類算法研究及應(yīng)用[D].山東.山東師范大學,2008:1-49.
[8] 路晶等.基于多例學習的WEB圖像聚類[J].計算機研究與發(fā)展,2009,46(9):1462-1470.
[9] 周俊祥.改進FCM的圖像聚類方法[J].計算機系統(tǒng)應(yīng)用,2011,20(7).
[10] 劉康苗.基于視覺與語義融合特征的階段式圖像聚類[J].浙江大學學報:工學版,2008,42(12).
[11] 朱蓉.基于語義的WEB圖像分類研究[D].浙江大學,2011.
[12] 張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用[J].計算機應(yīng)用,2007(5).
[13] 張講社,徐宗本.基于視覺系統(tǒng)的聚類:原理與算法[J].工程數(shù)學學報,2000(5).
[14] Jain A. K. Data Clustering: a Reviewing[J].ACM Comput. Surv., 1999, 31(3):264-323.
[15] Tan S.K. Clustering Analysis: Basic Concepts and Algorithms [J].Data Ming (Chapter 8),2004, 487-568.