蔡麗清 黃曉艷
摘要:隨著經(jīng)濟(jì)社會(huì)的發(fā)展,各行各業(yè)產(chǎn)生了大量的數(shù)據(jù),如何應(yīng)對(duì)海量數(shù)據(jù)并挖掘出所需要的有用信息,已經(jīng)成為了當(dāng)前科技社會(huì)的主要趨勢(shì)。通過(guò)利用CART算法建立分類樹來(lái)對(duì)高校超市的銷售數(shù)據(jù)進(jìn)行分析研究,并能為超市提供決策輔助建議,有助于提高超市經(jīng)營(yíng)利潤(rùn)。
關(guān)鍵詞:數(shù)據(jù)挖掘;CART算法;決策樹
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)13-0261-03
Abstract: With the development of society and economy, all walks of life to produce a large amount of data, how to deal with huge amounts of data and dig out the useful information needed to, has become the main trend in the current society of science and technology. By CART algorithm based classification tree is used to research and analyze sales data to the supermarket in the university, and can offer decision aid for supermarket Suggestions, help to improve the supermarket business profits.
Key words: data mining; CART algorithm; the decision tree
目前,我們所處在一個(gè)信息大爆炸的時(shí)代,生活中的時(shí)時(shí)刻刻都產(chǎn)生了大量的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析研究已經(jīng)成為了眾多研究學(xué)者關(guān)注的焦點(diǎn),因此數(shù)據(jù)挖掘應(yīng)運(yùn)而生[1]。觀察我們生活中的環(huán)境,大大小小的超市每天都產(chǎn)生了大量的銷售數(shù)據(jù),因此對(duì)超市銷售數(shù)據(jù)的分析與研究,可以為超市決策人員提供決策意義,有助于超市的發(fā)展。而校園超市是高校管理層面的一個(gè)重要組織部分,除了受不同的季度、不同時(shí)段等各種因素的影響,校園超市受學(xué)生上課時(shí)間段和學(xué)生喜好等因素影響更大,因此針對(duì)校園超市銷售數(shù)據(jù)的特殊化,根據(jù)不同的屬性對(duì)特定商品的銷售數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì),利用CART算法對(duì)校園超市銷售數(shù)據(jù)建立決策樹,分析出何種情況下學(xué)生購(gòu)買某種商品的概率更大,為超市管理人員進(jìn)行庫(kù)存處理和制定營(yíng)銷策略提供可行性建議,有助于提高超市的利潤(rùn)。
1 研究背景與數(shù)據(jù)處理
1.1研究背景
通過(guò)在校園超市拷貝的2015年3月份到2015年6月份以及2015年9月份到11月份的銷售數(shù)據(jù),我們?cè)诖嘶A(chǔ)上建立了商品表,把商品分成飲料類(A類)、休閑食品類(F類)、生活用品類(I類)等幾個(gè)大類,由于飲料類和休閑食品類在學(xué)生群體中較受歡迎,因此我們決定利用CART算法建立飲料類決策樹和休閑食品類決策樹。
1.2校園超市銷售數(shù)據(jù)的預(yù)處理
1.2.1數(shù)據(jù)集合
由于從超市管理系統(tǒng)拷貝出來(lái)的數(shù)據(jù)共有上百萬(wàn)條,對(duì)所有數(shù)據(jù)進(jìn)行分析不大現(xiàn)實(shí),因此我們從中選取了一部分?jǐn)?shù)據(jù)進(jìn)行處理加工。其次,原始銷售數(shù)據(jù)存在太多冗余屬性,在刪除了一些屬性之后剩下流水號(hào)、商品名、銷售日期
1.2.2合并流水號(hào)
由于超市提供的數(shù)據(jù)是一個(gè)商品一條數(shù)據(jù),然而有的學(xué)生購(gòu)買的商品不止一個(gè),因此我們將同一個(gè)流水號(hào)的數(shù)據(jù)合并為一條數(shù)據(jù)。
1.2.3添加屬性
由于超市提供的數(shù)據(jù)中有用的屬性并不多,并且我們發(fā)現(xiàn)學(xué)生購(gòu)買商品受是否為周末、季度、時(shí)間段等屬性影響較大,因此我們將添加是否為周末或小假期、季度、時(shí)段三個(gè)屬性,并且規(guī)定3月、4月為春季(簡(jiǎn)稱spr),5月、6月為夏季(簡(jiǎn)稱sum),9月、10月、11月為秋季(簡(jiǎn)稱aut);另外,時(shí)段分為上午、下午、晚上,三個(gè)時(shí)段的時(shí)間段分別定義為早上7點(diǎn)~11點(diǎn),11點(diǎn)~下午5點(diǎn),下午5點(diǎn)~晚上11點(diǎn),分別簡(jiǎn)稱為m,a,e。至此,數(shù)據(jù)處理完成,最終篩選了1169條數(shù)據(jù)進(jìn)行建樹。
2決策樹的建立
2.1 CART算法
CART算法,最早由美國(guó)斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出。CART決策樹采用的是二元遞歸劃分方法,能夠處理連續(xù)屬性和分類屬性作為預(yù)測(cè)變量和輸出變量(或目標(biāo)變量)下的分類,當(dāng)輸出變量是分類屬性數(shù)據(jù)時(shí),所建立的決策樹稱為分類樹,用于分類的預(yù)測(cè)。當(dāng)輸出變量為數(shù)值型變量時(shí),所建立的決策樹稱為回歸樹,用于數(shù)值的預(yù)測(cè)[2]。
2.1決策樹的建立
2.1.1構(gòu)建飲料決策樹模型
數(shù)據(jù)共有1169條,小數(shù)取小數(shù)點(diǎn)后5位,利用CART算法進(jìn)行建樹。購(gòu)買飲料類:不購(gòu)買飲料類=689:480,Gini(r1)=0.48402接下來(lái)分別計(jì)算在此節(jié)點(diǎn)下三個(gè)屬性(是否為周末、季度、時(shí)段)的差異性損失,以差異性損失最大的屬性作為當(dāng)前節(jié)點(diǎn)的決策屬性。
1)是否為周末或小假期屬性
用SQL2008查詢可知,是否為周末或者小假期=Y的共有248,其中購(gòu)買飲料類商品:不購(gòu)買飲料類商品=122:126是否為周末或者小假期=Y的共有921,其中購(gòu)買飲料類商品:不購(gòu)買飲料類商品=567:354。因此有:
△(Gr1)= 5.11*10-3
2)季度屬性
對(duì)于季度屬性,有三個(gè)不同的輸出類,分別為spr、sum、aut,由于利用CART算法建立的決策樹是二叉樹,因此需要對(duì)不同輸出類型有兩個(gè)以上的屬性需要形成“超類”,然后再分別計(jì)算輸出取值的差異性損失。對(duì)于季度屬性,可分成①{spr/sum,aut},②{sum/spr,aut},③{aut/spr,sum},為了方便計(jì)算,可列出所下表1:
3)時(shí)段屬性
對(duì)于時(shí)段屬性,也是需要形成超類,分別為①{m/a,e},②{a/m,e},③{e/m,a}。同理,可把時(shí)段三個(gè)不同輸出列出下面所示的表2
同理,分別計(jì)算三個(gè)超類的差異性損失:ΔG(①,r1) =6.7*10-4;ΔG(③,r1)= 8*10-5
到此,通過(guò)計(jì)算三個(gè)屬性的差異性損失,可判斷出當(dāng)屬性為是否為周末或小假期的時(shí)候,差異性損失最大,因此可判斷此屬性為根節(jié)點(diǎn),以此類推得出決策樹如圖2所示:
接下來(lái)可用同樣的方式構(gòu)建決策樹的左分支,如下圖所示:
2.1.2預(yù)測(cè)決策樹
對(duì)所建決策樹進(jìn)行檢測(cè),從數(shù)據(jù)庫(kù)中再隨機(jī)抽取1000條數(shù)據(jù)進(jìn)行檢測(cè),下面為各分支下訓(xùn)練集和測(cè)試集購(gòu)買率的部分對(duì)比:
2.1.3飲料類決策樹分析與總結(jié)
從上述的飲料決策樹和預(yù)測(cè)結(jié)果我們可以看出以下幾點(diǎn)結(jié)論:
1)從根節(jié)點(diǎn)的計(jì)算中可以得知,影響校園超市飲料銷量最大的因素是是否為周末或小假期屬性,因?yàn)榇藢傩杂绊懣土髁?。預(yù)測(cè)分析,可能由于周末/假期有大量的學(xué)生外出,另外學(xué)生在周末會(huì)有更充裕的時(shí)間逛外的超市。因此,超市管理員可以在假期期間對(duì)飲料類商品進(jìn)行補(bǔ)貨,避免非假期時(shí)間飲料類商品缺貨。
2)雖然在假期期間,校園超市的客流量會(huì)變少,但是從預(yù)測(cè)表可以看出,在假期期間,在上午和下午的時(shí)段里,學(xué)生購(gòu)買飲料類商品的概率更大,在季度為夏天時(shí)更為顯著。因此,超市管理人員可以假期期間,使用促銷手段,提高飲料類在假期期間的銷售量。
3)而在非假期期間,幾乎不管什么季節(jié)一天中飲料類的被購(gòu)買的概率都很大。因此超市管理人員需要在假期期間對(duì)暢銷飲料進(jìn)行進(jìn)貨工作。另一方面,可以讓飲料和其他商品進(jìn)行捆綁銷售,提高超市利潤(rùn).
2.2休閑食品類決策樹
2.2.1構(gòu)建休閑食品決策樹模型
類似飲料類決策樹的建立,同理也可以完成休閑食品決策樹的構(gòu)建。休閑食品決策樹如下圖所示:
2.2.2休閑食品類決策樹分析與總結(jié)
從上述的休閑食品決策樹和預(yù)測(cè)結(jié)果我們可以看出以下幾點(diǎn)結(jié)論:
1)從根節(jié)點(diǎn)上可以看出,主要影響休閑食品的銷售量是時(shí)段。而從預(yù)測(cè)表可知休閑食品被購(gòu)買概率較高的時(shí)段是早上和晚上。據(jù)了解,學(xué)生在早上會(huì)買休閑食品作為早餐,比如餅干、面包等,而晚上有許多學(xué)生出來(lái)吃宵夜。因此超市可以選擇在晚上對(duì)學(xué)生常購(gòu)買的零食進(jìn)行打折處理比如:面包、蛋糕、泡面、香腸等。
2)影響著休閑食品的第二因素是周末,在是周末會(huì)購(gòu)買零食的可能性會(huì)比不是周末的可能性要高。因?yàn)橹苣W(xué)生們都會(huì)選擇買零食在宿舍度過(guò)周末,所以在周末因該增加休閑食品的種類和數(shù)量以滿足學(xué)生們的需求。
3 結(jié)論
通過(guò)上述實(shí)驗(yàn)數(shù)據(jù)分析,采用CART算法的方法我們可以方便的得出假期、時(shí)段、季度對(duì)商品銷售量的影響,知道學(xué)生購(gòu)買飲料類商品和休閑食品類商品的規(guī)律。而通過(guò)數(shù)據(jù)挖掘的分析可以為校園超市管理人員提供輔助性的建議,以提高校園超市的利潤(rùn)。
參考文獻(xiàn):
[1] 張鈺莎.數(shù)據(jù)挖掘在高校圖書館服務(wù)中的應(yīng)用研究[J].廊坊師范學(xué)院學(xué)報(bào),2015(7).
[2] 蔣盛益.商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析[M].北京.電子工業(yè)出版社,2014.1.