賀玉珍 任姚鵬
摘 要: 以運(yùn)城學(xué)院在校大學(xué)生為例,對其消費(fèi)情況進(jìn)行了抽樣調(diào)查,并利用K-means算法對調(diào)查結(jié)果進(jìn)行了聚類和分析。實(shí)驗結(jié)果表明,每一類學(xué)生中影響其消費(fèi)的因素是有差別的,該分析結(jié)果可作為指導(dǎo)各類學(xué)生消費(fèi)的依據(jù)。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 聚類分析; K-means算法; 消費(fèi)調(diào)查
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2013)02-19-03
Application of K-means algorithm in the analysis of consumption status of undergraduates
He Yuzhen, Ren Yaopeng
(Department of Computer Science and technology, Yuncheng University, Yuncheng, Shanxi 044000, China)
Abstract: The consumption of undergraduate students in Yuncheng University is investigated in this paper, and the K-means algorithm is used in the survey to carry out clustering analysis. The results show that the factors affecting consumption in each cluster of students are different. The analysis result may serve as a basic guidance of all kinds of students' consumption.
Key words: data mining; clustering analysis; K-means algorithm
0 引言
正確引導(dǎo)大學(xué)生消費(fèi)是高校素質(zhì)教育不可忽視的一項重要內(nèi)容。影響學(xué)生消費(fèi)的因素很多,因此需要進(jìn)行綜合分析,傳統(tǒng)分析大部分采用統(tǒng)計分析的手段,得到均值、方差等一些簡單的分析結(jié)果[1,2]。其實(shí),還有一些潛在的因素,需要進(jìn)一步分析,從而得出結(jié)論,為學(xué)生提供合理的消費(fèi)意見與建議。許多信息無法從傳統(tǒng)的學(xué)生消費(fèi)分析方法中獲得,而可以通過從20世紀(jì)90年代中期興起的數(shù)據(jù)挖掘技術(shù)獲得,進(jìn)而找到影響學(xué)生消費(fèi)的真實(shí)原因,制定相應(yīng)措施,改善學(xué)生不合理的消費(fèi)狀況。
數(shù)據(jù)挖掘(Data Mining),就是從大量的、不完全的、模糊的、有噪聲的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的人們事先不知的,但又是潛在有用的信息和知識的過程。而聚類分析(Clustering Analysis)是數(shù)據(jù)挖掘的一種技術(shù),它的輸入是一組未標(biāo)定的記錄,此時輸入的記錄還沒有被進(jìn)行任何分類,其目的是根據(jù)一定的規(guī)則,合理劃分記錄集合,是研究“物以類聚”問題的一種多元統(tǒng)計方法。聚類分析實(shí)質(zhì)是一種建立分類的方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)(或變量)按照它們在性質(zhì)上的親疏程度在沒有先驗知識的情況下自動進(jìn)行分類,有效克服了過去人們主要靠經(jīng)驗和專業(yè)知識做定性分類而帶有的主觀性和任意性,特別是對于多因素、多指標(biāo)的分類問題,定性分類更難以客觀準(zhǔn)確分類。本文對學(xué)生的消費(fèi)分類就采用了聚類分析中的K-means算法。
1 K-means算法簡介
1.1 K-means算法思想
K-means算法是J.B.MacQueen在1967年提出的,是聚類方法中一個基本的劃分方法,也是目前諸多聚類算法中極有影響的一種技術(shù)。K-均值算法以k為參數(shù),把N個對象分為k個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進(jìn)行[3]。
首先隨機(jī)地選擇K個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。
K-means算法的準(zhǔn)則函數(shù)定義為:
E是數(shù)據(jù)文件中所有對象的平方誤差的總和。其中k是初始聚類中心個數(shù),x是空間中的點(diǎn),表示給定的數(shù)據(jù)對象,xi是簇Ci的平均值[4]。
1.2 K-means算法流程和操作步驟
K-means算法流程為:
⑴ 輸入:簇的數(shù)目k和包含n個數(shù)據(jù)文件。
⑵ 輸出:k個簇,使平方誤差準(zhǔn)則最小。
操作步驟:
⑴ 為每個聚類確定一個初始聚類中心,這樣就有K個初始聚類中心。
⑵ 將樣本集中的樣本按最小距離原則分配到最鄰近聚類。
⑶ 使用每個聚類中的樣本均值作為新的聚類中心。
⑷ 重復(fù)步驟⑵、⑶直到聚類中心不再變化。
⑸ 結(jié)束,得到K個聚類[5,6]。
2 實(shí)施步驟
2.1 問卷的發(fā)放和統(tǒng)計
本次調(diào)查問卷共發(fā)放100份。發(fā)放時,以運(yùn)城學(xué)院計算機(jī)系、生科系、化學(xué)系、物理系、經(jīng)管系、音樂系、美術(shù)系等學(xué)生為主,所有問卷發(fā)放基本做到文科、理科、工科、藝術(shù)類兼?zhèn)?,男女生?:1的比例。問卷數(shù)據(jù)結(jié)果保存在EXCEL文件中。
2.2 數(shù)據(jù)預(yù)處理
K-means算法只能處理數(shù)值型的屬性,遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值為0和1的屬性。因此對調(diào)查數(shù)據(jù)進(jìn)行統(tǒng)計整理,得到矩陣X,它是一個100*9的矩陣,部分?jǐn)?shù)據(jù)結(jié)果如下。
2.3 算法實(shí)現(xiàn)
K-means算法在Matlab中的主要實(shí)現(xiàn)代碼如下:
function [cid,nr,centers]=kmeans(V1,k,nc)
[n,d]=size(V1);
cid=zeros(1,n); % 設(shè)置cid為分類結(jié)果顯示矩陣
oldcid=ones(1,n);
nr=zeros(1,k);
maxgn=100;
iter=1;
while iter for i=1:n %計算每個數(shù)據(jù)到聚類中心的距離 dist=sum((repmat(V1(i,:),k,1)-nc).^2,2); [m,ind]=min(dist); %將當(dāng)前聚類結(jié)果存入cid中 cid(i)=ind; end for i=1:k %找到每一類的所有數(shù)據(jù),計算它們的平均值,作為下次 計算的平均值 ind=find(cid==i); nc(i,:)=mean(V1(ind,:)); %統(tǒng)計每一類的數(shù)據(jù)個數(shù) nr(i)=length(ind); end iter=iter+1; end maxiter=2; iter=1; move=1; while iter move=0; %對所有的數(shù)據(jù)進(jìn)行再次判斷,需求最佳聚類結(jié)果 for i=1:n dist=sum((repmat(V1(i,:),k,1)-nc).^2,2); r=cid(i); %將當(dāng)前數(shù)據(jù)屬于的類給r dadj=nr./(nr+1).*dist'; %計算調(diào)整后的距離 [m,ind]=min(dadj); %找到該數(shù)據(jù)距離哪個聚類中心最近 if ind~=r %如果不等則聚類中心移動 cid(i)=ind; %將新的聚類結(jié)果送給cid ic=find(cid==ind); %重新計算調(diào)整當(dāng)前類別的聚類中心 nc(ind,:)=mean(V1(ic,:)); move=1; end end iter=iter+1; end centers=nc; if move==0 disp('No points were moved after the initial clustering procedure.') else disp('Some points were moved after the initial clustering procedure.') end 主函數(shù)如下(運(yùn)行時調(diào)用上面函數(shù)即可): k=4; V1=x; [n,d]=size(V1); bn=round(n/k*rand); %第一個隨機(jī)數(shù)在前1/K的范圍內(nèi) nc=[V1(bn,:);V1(2*bn,:);V1(3*bn,:);V1(4*bn,:)] %初始聚類中心 [cid,nr,centers]=kmeans(V1,k,nc) 2.4 聚類結(jié)果 在程序中我們將數(shù)據(jù)結(jié)果聚為四類。聚為四類的學(xué)生所占比例,以及四類學(xué)生最終聚類結(jié)果如圖1所示。 圖1 最終聚類結(jié)果 100名學(xué)生各自歸屬的聚類中心如圖2所示。 圖2 各自歸屬聚類中心 3 聚類結(jié)果分析 根據(jù)上面聚類結(jié)果得到四類學(xué)生的各項消費(fèi)狀況,如表1所示。 表1 聚類結(jié)果分類表 [類別\&月生活費(fèi)支出\&吃飯 支出\&聚會 支出\&購物 支出\&戀愛 支出\&話費(fèi) 支出\&學(xué)習(xí) 支出\&娛樂 支出\&生活費(fèi)節(jié)余\&簇1\&0.7357\&0.2375\&0.1143\&0.2107\&0.0464\&0.0436\&0.0789\&0.0889\&0.0214\&簇2\&0.7786\&0.2464\&0.1429\&0.2786\&0.0643\&0.0471\&0.0771\&0.2643\&0.0250\&簇3\&1.0350\&0.2763\&0.1588\&0.2675\&0.0838\&0.0537\&0.0843\&0.1968\&0.0338\&簇4\&1.4889\&0.2944\&0.1556\&0.2944\&0.0861\&0.0522\&0.0839\&0.1844\&0.0389\&] ⑴ 簇1占總實(shí)例的28%,他們的消費(fèi)總支出在700元左右,該簇中女生相對較多;根據(jù)該簇里面各消費(fèi)支出狀況比較可以看出,吃飯支出和購物支出相對比較高。這部分學(xué)生的戀愛、話費(fèi)支出、娛樂支出最低,基本上做到了在保證正常生活下不鋪張浪費(fèi),生活較節(jié)儉。 ⑵ 簇2占總實(shí)例的14%,他們的消費(fèi)總支出在800元左右,其中男生、女生比例相當(dāng);根據(jù)該簇里面各支出狀況比較可以看出,經(jīng)常購買物品支出占據(jù)的份額最高,甚至超過基本的吃飯支出,說明這部分學(xué)生注重物質(zhì)消費(fèi),而在這個消費(fèi)領(lǐng)域女生支出遠(yuǎn)遠(yuǎn)大于男生,其次是娛樂支出,而在這個消費(fèi)領(lǐng)域里面,男生又遠(yuǎn)遠(yuǎn)大于女生,他們在購物支出和娛樂支出方面的消費(fèi)超過了基本的吃飯支出。 ⑶ 簇3里占總實(shí)例的40%,他們的消費(fèi)總支出在1000元左右,其中男生相對較多,女生較少。根據(jù)該簇中各支出狀況比較可以看出,這部分學(xué)生吃飯支出占總支出比例最高。另外他們在購物方面花費(fèi)也比較高,他們注重品牌,追逐時尚。另外,他們的聚會支出也有增無減。 ⑷ 簇4占總實(shí)例的18%,其中男生相對較多;他們的消費(fèi)總支出在1500元左右,該簇中學(xué)生吃飯和購物支出相等,其次是娛樂和聚會支出,他們各方面的消費(fèi)都非常高,另外他們的戀愛支出超過了學(xué)習(xí)支出。 4 結(jié)束語 本文利用K-means算法對大學(xué)生的消費(fèi)狀況進(jìn)行了分析,從分析結(jié)果中得到一些可以作為指導(dǎo)大學(xué)生理性消費(fèi)依據(jù)的信息,達(dá)到了數(shù)據(jù)挖掘的效果。但對于K-means算法在該問題的應(yīng)用還需進(jìn)一步優(yōu)化。 參考文獻(xiàn): [1] 肖輝贊.高校大學(xué)生消費(fèi)誤區(qū)與思想政治教育的對策略論[J].社科縱橫,2009.4:162-163 [2] 于影.對加強(qiáng)大學(xué)生消費(fèi)文化教育的思考[J].長春工業(yè)大學(xué)學(xué)報,2006.3:48-50 [3] 張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用[J].計算機(jī)應(yīng)用研究,2007.5:166-168 [4] 傅振南.聚類分析技術(shù)在招生宣傳工作中的應(yīng)用研究[J].福建教育學(xué)院學(xué)報,2009.2:113-115 [5] 徐勤鵬,楊志新,曾楊,黃志剛.聚類算法在設(shè)備故障診斷中的研究與應(yīng)用[J].微計算機(jī)信息,2010.3:149-150 [6] 余嘉元.基于GA的K均值聚類分析在消費(fèi)心理學(xué)中的應(yīng)用[J].廣西師范大學(xué)學(xué)報,2009.3:88-89