基于變化率的子空間聚類算法

2017-03-06 21:04:05趙星輝龍藝璇

軟件導(dǎo)刊 2017年1期

關(guān)鍵詞：變化率

趙星輝+龍藝璇

摘要摘要：針對(duì)低維多流形非相似結(jié)構(gòu)數(shù)據(jù)，提出一種基于變化率聚類的算法。首先觀察數(shù)據(jù)，按結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行分類，然后在同構(gòu)的數(shù)據(jù)點(diǎn)之間按變化率進(jìn)行劃分，最終實(shí)現(xiàn)數(shù)據(jù)聚類。實(shí)驗(yàn)結(jié)果證明，該算法能夠有效對(duì)低維多流形非相似結(jié)構(gòu)數(shù)據(jù)進(jìn)行聚類分析，聚類效果明顯優(yōu)于LRR、SSC等傳統(tǒng)算法，且時(shí)間復(fù)雜度較低，有較強(qiáng)的適用性。

關(guān)鍵詞關(guān)鍵詞：流形學(xué)習(xí)；子空間聚類；低秩表示法（LRR）；稀疏子空間聚類（SSC）；變化率

DOIDOI：10.11907/rjdk.162181

中圖分類號(hào)：TP312文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：16727800（2017）001002903

引言

隨著科學(xué)技術(shù)的發(fā)展，各類數(shù)據(jù)量迅猛增長(zhǎng)。然而，并不是所有數(shù)據(jù)都是精煉且真實(shí)有效的，海量數(shù)據(jù)中存在著冗余與錯(cuò)誤。如何對(duì)這些數(shù)據(jù)進(jìn)行快速、有效的處理，從而找到數(shù)據(jù)之間的內(nèi)在聯(lián)系成為解決很多問(wèn)題的關(guān)鍵。因此對(duì)高維數(shù)據(jù)進(jìn)行相關(guān)性分析、聚類分析、結(jié)構(gòu)分析，挖掘數(shù)據(jù)背后的價(jià)值與意義尤為重要。

對(duì)高維數(shù)據(jù)進(jìn)行分析處理，當(dāng)前應(yīng)用比較廣泛的維數(shù)約減技術(shù)有流形學(xué)習(xí)[1]和子空間聚類[2]。流形學(xué)習(xí)的前提是假設(shè)在一個(gè)高維歐式空間均勻地對(duì)數(shù)據(jù)進(jìn)行采樣，然后將高維數(shù)據(jù)映射到低維，使得數(shù)據(jù)的低維表示能體現(xiàn)高維數(shù)據(jù)的本質(zhì)信息[3]；子空間聚類是假設(shè)一組數(shù)據(jù)屬于多個(gè)線性子空間的并集，將這組數(shù)據(jù)進(jìn)行分類，使得不同的類對(duì)應(yīng)不同的子空間。

高維數(shù)據(jù)的結(jié)構(gòu)一般為低維的，可以用位于相同子空間的低維數(shù)據(jù)對(duì)高維數(shù)據(jù)進(jìn)行稀疏表示，因此設(shè)計(jì)一種能分析低維多流形非相似結(jié)構(gòu)數(shù)據(jù)的算法更具有一般性和適用性。本文針對(duì)低維多流形非相似結(jié)構(gòu)數(shù)據(jù)，提出一種基于變化率聚類的算法，從而更有效進(jìn)行聚類分析。

1基于變化率的子空間聚類算法

1.1算法描述

為更好地對(duì)低維多流行非相似結(jié)構(gòu)的數(shù)據(jù)進(jìn)行聚類分析，本文提出一種基于變化率的子空間聚類算法。該算法的基本思想是：首先觀察數(shù)據(jù)，若數(shù)據(jù)來(lái)源于多個(gè)維數(shù)不等的數(shù)據(jù)結(jié)構(gòu)，則先根據(jù)按屬性重要性篩選出的維對(duì)不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分類；然后在同構(gòu)數(shù)據(jù)點(diǎn)之間按其變化率進(jìn)行劃分，若變化率超過(guò)一定的閾值β，則分到不同的類中，若小于等于β則分到同一類；最終得到各個(gè)不同結(jié)構(gòu)的分類。任意兩點(diǎn)之間的變化率為：RC（X，Y） = Yi + 1 -Xi + 1 Yi -Xi （1）算法描述如下：

輸入：數(shù)據(jù)集D，簇?cái)?shù)k。

輸出：k個(gè)簇。

Step1：按一定的準(zhǔn)則選擇重要屬性。

Step2：根據(jù)重要屬性將不同結(jié)構(gòu)的數(shù)據(jù)劃分開(kāi)，形成m個(gè)中間簇。

Step3：對(duì)中間簇中的數(shù)據(jù)按變化率RC進(jìn)行分類，如果兩點(diǎn)之間的變化率大于β，則劃分為不同的類；否則劃為一類。

Step4：重復(fù)Step3直到中間簇都被劃分完。

Step5：輸出k個(gè)簇。

1.2對(duì)比算法選取

在子空間聚類算法中，應(yīng)用比較多的是基于譜聚類的方法，首先根據(jù)樣本點(diǎn)之間的關(guān)系構(gòu)造圖譜，然后利用NCut[4]等譜聚類方法得到分割結(jié)果?；谧V聚類的子空間分割方法中比較有代表性的是低秩表示法（LRR）[5]和稀疏子空間聚類（SSC）[6]算法。

低秩表示法（LRR）算法是為了從包含錯(cuò)誤的數(shù)據(jù)中恢復(fù)子空間結(jié)構(gòu)而提出的。在給定的一組數(shù)據(jù)樣本中，每一個(gè)都可以被表示為在一個(gè)字典中的一個(gè)基數(shù)線性組合，LRR旨在找到所有共同數(shù)據(jù)的低秩表示。通過(guò)選擇一個(gè)特定的字典，LRR可以很好解決子空間聚類問(wèn)題。對(duì)于被任意錯(cuò)誤污染的數(shù)據(jù)，LRR還可以近似的恢復(fù)行空間，LRR是一個(gè)有效的且具有魯棒性的子空間聚類算法。

稀疏子空間聚類（SSC）可以用來(lái)聚類位于低維子空間的并集的數(shù)據(jù)點(diǎn)。關(guān)鍵思想是，從其它點(diǎn)獲得無(wú)窮多的可以表示的數(shù)據(jù)點(diǎn)，并用一個(gè)稀疏表示來(lái)對(duì)應(yīng)從相同的子空間選擇的點(diǎn)。這促進(jìn)了譜聚類算法框架下用來(lái)推斷數(shù)據(jù)的聚類子空間的稀疏優(yōu)化程序。該算法處理接近于子空間交集的數(shù)據(jù)點(diǎn)是有效的，另一個(gè)關(guān)鍵優(yōu)勢(shì)在于它可以通過(guò)合并數(shù)據(jù)的模型到稀疏優(yōu)化程序來(lái)直接處理數(shù)據(jù)干擾，如噪音、稀疏的無(wú)關(guān)記錄和缺失記錄。在運(yùn)動(dòng)分割和聚類方面，該算法都具有較高的實(shí)用性。

2實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證基于變化率的子空間聚類算法的有效性與實(shí)用性，本文選取三幅變化率較為明顯的低維多流行結(jié)構(gòu)圖進(jìn)行聚類分析實(shí)驗(yàn)。

2.1實(shí)驗(yàn)一結(jié)果與分析

從圖2可以看出，對(duì)分布在獨(dú)立子空間中的兩條直線上的數(shù)據(jù)進(jìn)行聚類，若每條直線上的數(shù)據(jù)為一類，則本文提出方法的聚類結(jié)果明顯要比LRR和SSC好。LRR和SSC算法聚類效果欠佳的原因在于對(duì)數(shù)據(jù)分解處理后用K-means算法[8]進(jìn)行聚類，K-means算法以距離度量為基礎(chǔ)，適合于發(fā)現(xiàn)球狀簇，對(duì)于線性數(shù)據(jù)的聚類效果并不理想。本文算法和LRR算法的主要誤差都在于圖像交叉相似的部分，但LRR算法的聚類誤差部分明顯大于本文算法的聚類誤差部分，而SSC算法基本無(wú)法聚類該圖數(shù)據(jù)。

3結(jié)語(yǔ)

本文提出一種基于變化率聚類的算法，首先觀察數(shù)據(jù)，按屬性重要性篩選出的維對(duì)不同結(jié)構(gòu)數(shù)據(jù)進(jìn)行分類，然后在同構(gòu)數(shù)據(jù)點(diǎn)之間按其變化率進(jìn)行分類，若變化率超過(guò)一定的閾值β，則分到不同的類中；若小于或等于β，則分到同一類，最終得到各個(gè)不同結(jié)構(gòu)的分類。此算法能夠有效對(duì)低維多流形非相似結(jié)構(gòu)的數(shù)據(jù)進(jìn)行聚類分析，聚類效果明顯優(yōu)于LRR、SSC等傳統(tǒng)算法，且時(shí)間復(fù)雜度較低，可以進(jìn)一步應(yīng)用到圖像分類、運(yùn)動(dòng)識(shí)別等領(lǐng)域。

參考文獻(xiàn)：

[1]JB TENENBAUM，VD SILVA，JC LANGFORD.A global geometric framework for nonlinear dimensionality reduction[J].Science，2000，290（5500）：23192323.

圖4實(shí)驗(yàn)三結(jié)果

[2]E ELHAMIFAR，R VIDAL.Sparse subspace clustering[C].IEEE Conference on Computer Vision and Pattern Recognition，2009：27902797.

[3]鄭媛媛.基于非負(fù)矩陣分解的數(shù)據(jù)表示算法研究及其應(yīng)用[D].南京：南京理工大學(xué)，2013.

[4]J SHI，J MALIK.Normalized cuts and image segmentation[J].IEEE Transactions Pattern Analysis Machine Intelligence，2000，22（8）：888905.

[5]G LIU，Z LIN，S YAN，et al.Robust recovery of subspace structures by lowrank representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（1）：171184.

[6]E ELHAMIFAR，R VIDAL.Sparse subspace clustering：algorithm，theory，and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（11）：27652781.

[7]王衛(wèi)衛(wèi)，李小平，馮象初，等.稀疏子空間聚類綜述[J].自動(dòng)化學(xué)報(bào)，2015，41（8）：13731384.

[8]周愛(ài)武，于亞飛.KMeans聚類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展，2011，21（2）：6265.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于變化率的子空間聚類算法