唐新宇
摘要:隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)得到了廣泛的關(guān)注,聚類分析數(shù)據(jù)挖掘是其中一個(gè)重要的研究方向。該文首先對(duì)數(shù)據(jù)挖掘相關(guān)技術(shù)進(jìn)行了簡(jiǎn)要的分析,對(duì)數(shù)據(jù)挖掘中的聚類分析技術(shù)進(jìn)行了介紹,聚類分析的方法主要有層次方法、劃分方法、基于密度的、網(wǎng)格的以及模型的方法,聚類分析已經(jīng)廣泛地應(yīng)用于模式識(shí)別,數(shù)據(jù)分析,圖像處理,以及市場(chǎng)研究等,該文的研究對(duì)聚類分析的應(yīng)用具有一定的參考價(jià)值。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)09-2031-02
1 概述
隨著信息技術(shù)的高速發(fā)展,各種新思想、新技術(shù)不斷涌現(xiàn)。而數(shù)據(jù)挖掘技術(shù)是目前信息技術(shù)領(lǐng)域的公認(rèn)的最為前沿課題,是最具有發(fā)展前景的技術(shù)之一。聚類分析作為數(shù)據(jù)挖掘的重要功能近年來也取得了長(zhǎng)足的進(jìn)步,一系列方法的產(chǎn)生對(duì)于分析準(zhǔn)確性的提供了堅(jiān)實(shí)的基礎(chǔ),從而也使得其應(yīng)用擴(kuò)展到各個(gè)領(lǐng)域,通過本文的研究為聚類分析技術(shù)的應(yīng)用提供一定的借鑒。
2 數(shù)據(jù)挖掘概述
2.1 數(shù)據(jù)挖掘的含義
由于一些數(shù)據(jù)的無規(guī)律性、模型性以及數(shù)量的龐大,需要從中提取有用的信息,數(shù)據(jù)挖掘技術(shù)就是通過計(jì)算機(jī)手段,從上述數(shù)據(jù)中提取不確定的信息相關(guān)企業(yè)所用的一種方法。這里面包含了幾點(diǎn)信息,就是數(shù)據(jù)源應(yīng)該是大量且真實(shí)的,而尋找出的數(shù)據(jù)是對(duì)客戶有用處的,能夠?yàn)榭蛻羲邮艿?,具有一定的較強(qiáng)的實(shí)用價(jià)值。數(shù)據(jù)挖掘是一門交叉學(xué)科,它將對(duì)數(shù)據(jù)簡(jiǎn)單的低層次的應(yīng)用提升到采用較高技術(shù)手段獲取知識(shí)從而提供決策的支持。從商業(yè)角度來看,數(shù)據(jù)挖掘作為一種高效的信息化技術(shù)處理手段,能夠?qū)ι虡I(yè)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行有效的提取,從而輔助決策者做出可靠的判斷,通過數(shù)據(jù)挖掘技術(shù),能夠提高企業(yè)的競(jìng)爭(zhēng)力,為企業(yè)獲得更高的利潤(rùn)。因此,數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用時(shí)也可以定義為按照企業(yè)的相關(guān)要求,對(duì)企業(yè)所擁有的大量數(shù)據(jù)信息進(jìn)行分析,提取其中有用的信息,為企業(yè)提供相應(yīng)的支持的技術(shù)。
2.2 數(shù)據(jù)挖掘的相關(guān)技術(shù)
數(shù)據(jù)挖掘應(yīng)該具備發(fā)現(xiàn)與預(yù)測(cè)、關(guān)聯(lián)規(guī)則挖掘、數(shù)據(jù)聚類、概念描述、偏差分析以及演變分析六個(gè)方面的功能,其過程首先是確定業(yè)務(wù)對(duì)象,然后進(jìn)行數(shù)據(jù)準(zhǔn)備,進(jìn)行數(shù)據(jù)挖掘,最后對(duì)結(jié)果作出解釋評(píng)價(jià)與可視化,常用的數(shù)據(jù)挖掘技術(shù)主要有以下幾種:
(1)統(tǒng)計(jì)類方法
統(tǒng)計(jì)學(xué)方法出現(xiàn)的時(shí)間較早,應(yīng)用的范圍也較廣,主要通過相關(guān)分析法、回歸分析法以及聚類分析法等對(duì)數(shù)據(jù)進(jìn)行處理,方法較為簡(jiǎn)便,容易學(xué)習(xí)。
(2) 決策樹和決策規(guī)則
決策樹和決策規(guī)則方式是人工智能形式的歸納學(xué)習(xí)方法,通過將問題分解為若干個(gè)子集來進(jìn)行分析,該方法是典型的通過邏輯模型進(jìn)行輸入的數(shù)據(jù)挖掘方法,該方法在處理非數(shù)值型的數(shù)據(jù)時(shí)具有很強(qiáng)的優(yōu)越性。
(3)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是通過發(fā)現(xiàn)數(shù)據(jù)項(xiàng)間是否具有如果—那么的因果關(guān)系而對(duì)大量數(shù)據(jù)進(jìn)行區(qū)分、尋找,當(dāng)然,這種關(guān)系有可能是人為定義的而數(shù)據(jù)本身并不具備相應(yīng)的特點(diǎn),選取的數(shù)據(jù)間也不一定具有必須的因果關(guān)系或相關(guān)性,僅僅是為了選擇具有一定的普適性。
(4)遺傳算法
遺傳算法是根據(jù)生物學(xué)中的相關(guān)理論而演變過來的一種數(shù)據(jù)挖掘方式,采用了生物學(xué)中的自然選擇自然選擇、遺傳交叉以及遺傳變異等設(shè)計(jì)方法,在分析過程中將問題假定為染色體,能夠進(jìn)行遺傳,按照適者生存的法則,淘汰掉無法適應(yīng)環(huán)境的染色體,繼續(xù)進(jìn)行交叉、變異,不斷的往復(fù),從而找到最適合環(huán)境的染色體,也即為我們需要的最優(yōu)的數(shù)據(jù)解。遺傳算法目前在圖像處理、工業(yè)優(yōu)化控制方面得到了廣泛的應(yīng)用。
(5)人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是一種基于人體大腦神經(jīng)連接、傳遞而演變的數(shù)學(xué)方法,神經(jīng)網(wǎng)絡(luò)可以看做是一個(gè)大型的運(yùn)算模型,模型之間通過節(jié)點(diǎn)構(gòu)成,每個(gè)節(jié)點(diǎn)代表一種特點(diǎn)的激勵(lì)函數(shù),而節(jié)點(diǎn)間的連接為權(quán)重,數(shù)據(jù)的最終輸出成果與激勵(lì)函數(shù)和權(quán)重有較大關(guān)系,一般通過對(duì)已有數(shù)據(jù)的學(xué)習(xí),建立適合的邏輯表達(dá),即輸入數(shù)據(jù)與結(jié)果間的一種未知聯(lián)系,從而構(gòu)成神經(jīng)網(wǎng)絡(luò)系統(tǒng),對(duì)其他大量的數(shù)據(jù)進(jìn)行分析、預(yù)測(cè),神經(jīng)網(wǎng)絡(luò)應(yīng)用中學(xué)習(xí)樣本數(shù)量越多,則其網(wǎng)絡(luò)結(jié)構(gòu)也越準(zhǔn)確,預(yù)測(cè)結(jié)果也具有更大的可靠性。
(6)模糊邏輯
模糊分析是今年來發(fā)展起來的一種數(shù)據(jù)挖掘技術(shù),以往的分類系統(tǒng)往往是根據(jù)確定的規(guī)則進(jìn)行分類、決策,但實(shí)際中很多概念和數(shù)據(jù)都是不確定的,具有很強(qiáng)的模糊性,因此,在數(shù)學(xué)處理中引入假定的模糊邏輯,從而實(shí)現(xiàn)了對(duì)更高層次內(nèi)容的抽象處理,其在對(duì)數(shù)據(jù)的初步分類中應(yīng)用非常廣泛,且具有較高的可靠性。
3 數(shù)據(jù)挖掘中的聚類分析技術(shù)
聚類分析是將數(shù)據(jù)對(duì)象依據(jù)樣本間的關(guān)聯(lián)的度量標(biāo)準(zhǔn)將數(shù)據(jù)進(jìn)行分組為多個(gè)類或簇的數(shù)據(jù)挖掘技術(shù),同一類中的樣本相似,不同類的樣本相異。將一組樣本和一個(gè)度量?jī)蓚€(gè)樣本間相似度的標(biāo)準(zhǔn)作為參數(shù)輸入到聚類分析系統(tǒng)中,通過分析可以的到具有標(biāo)準(zhǔn)相似度的多個(gè)樣本類,通過對(duì)每個(gè)類所進(jìn)行的綜合描述說明,促進(jìn)了對(duì)數(shù)據(jù)集特征的進(jìn)一步分析。聚類技術(shù)主要應(yīng)用在植物分類、疾病分類、圖像處理、模式識(shí)別、市場(chǎng)研究以及文本檢索等領(lǐng)域。
4 聚類分析方法
聚類技術(shù)的優(yōu)越性主要體現(xiàn)在算法方法,算法的好壞主要通過算法的可伸縮性、處理不同類型屬性的能力、發(fā)現(xiàn)任意形狀的聚類、最少的參數(shù)和確定參數(shù)值的領(lǐng)域知識(shí)、處理噪聲數(shù)據(jù)的能力、對(duì)于輸入記錄的順序不敏感、高維性、基于約束的聚類以及可解釋性和可用性進(jìn)行衡量,目前聚類分析算法可以劃分為以下幾類: 層次方法、劃分方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。
(1)層次方法。通過將數(shù)據(jù)劃分為若干組形成樹形的結(jié)構(gòu)來進(jìn)行聚類分析,根據(jù)構(gòu)建數(shù)方式的不同也可分為自頂向下的分裂算法和自底向上的凝聚算法兩種。
(2)劃分方法。劃分方法是指將給定的大量數(shù)據(jù)通過一定的規(guī)則或不同的劃分方法分成多個(gè)組或簇,每個(gè)組中都應(yīng)該至少包含一組數(shù)據(jù),同時(shí),每個(gè)組之間具有顯著的不同,不同類型的數(shù)據(jù)只能屬于不同的組。通過劃分法形成的每個(gè)組中的數(shù)據(jù)具有很強(qiáng)的相似性,便于進(jìn)行整體分析。
(3)基于密度的方法。該方法是指通過相鄰局域的密度超過某個(gè)閾值而發(fā)生持續(xù)聚類的方法,也就是說,在每個(gè)給定的區(qū)域內(nèi)都將包含一定數(shù)目的點(diǎn),從而通過該方法來過濾掉一些異常點(diǎn),提高數(shù)據(jù)分析的效率。
(4)基于網(wǎng)格的方法。該方法將數(shù)據(jù)對(duì)象劃分為有限數(shù)目的單元型式,從而形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),在網(wǎng)格上進(jìn)行聚類操作,加快了處理速度。
(5)基于模型的方法??梢詫⒚總€(gè)已有的簇假定為一種模型,通過尋找對(duì)該模型的最佳擬合而優(yōu)化給定數(shù)據(jù)與模型間的適應(yīng)性,其數(shù)據(jù)一般是通過潛在的概率分布生成的,算法一般采用統(tǒng)計(jì)學(xué)原理或神經(jīng)網(wǎng)絡(luò)的方法。
此外,隨著不同于傳統(tǒng)存儲(chǔ)的靜態(tài)數(shù)據(jù)的流數(shù)據(jù)的大量產(chǎn)生,也為相應(yīng)的流聚類分析方法研究提供的基礎(chǔ),成為近年來研究的熱點(diǎn)方向。
5 結(jié)束語
聚類分析是數(shù)據(jù)挖掘的重要功能之一,隨著對(duì)數(shù)據(jù)挖掘的重視,使得聚類分析的相關(guān)研究也取得了長(zhǎng)足的發(fā)展,其相應(yīng)的聚類分析方法已經(jīng)應(yīng)用到了人工智能科學(xué)的所有方面,且取得了良好的效果,相信在未來隨著信息技術(shù)的進(jìn)步,聚類分析將會(huì)有更為廣闊的應(yīng)用空間。
參考文獻(xiàn):
[1] 陳京民.數(shù)據(jù)倉(cāng)庫(kù)原理、設(shè)計(jì)與應(yīng)用[M].北京:中國(guó)水利水電出版社,2004.
[2] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003.
[3] 李仁義.數(shù)據(jù)挖掘中聚類分析算法的研究與應(yīng)用[D].成都:電子科技大學(xué),2012.
[4] 傅德勝,周辰.基于密度的改進(jìn)K均值算法及實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2011,31(2):432-434.