邵濤 何湘竹 張智志
摘要:以XX市煙草公司為例,探討了數(shù)據(jù)挖掘技術(shù)在企業(yè)貨源投放系統(tǒng)中的應(yīng)用。“行政區(qū)劃”作為企業(yè)零售客戶的屬性之一,在以往貨源投放中一直未得到很好利用。本文首先應(yīng)用相關(guān)性分析和回歸分析技術(shù),挖掘出“行政區(qū)劃”對(duì)應(yīng)的人口和經(jīng)濟(jì)與客戶數(shù)量及客戶規(guī)模之間的關(guān)系,之后采用K-Means算法從貨源投放的角度建立新的“行政區(qū)劃”分類模型,聚類后的“行政區(qū)劃”屬性作為貨源投放的一個(gè)重要指標(biāo),可以指導(dǎo)企業(yè)實(shí)現(xiàn)合理貨源投放。
關(guān)鍵詞:數(shù)據(jù)挖掘;相關(guān)性分析;回歸分析;聚類算法;貨源投放
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)27-0182-02
1 引言
合理貨源投放對(duì)于企業(yè)維持市場(chǎng)穩(wěn)定,提高客戶滿意度和服務(wù)水平至關(guān)重要[1]。但某市煙草公司貨源投放系統(tǒng)存在以下問(wèn)題:其一,“棋盤式”貨源投放指標(biāo)龐雜無(wú)法實(shí)現(xiàn)自動(dòng)投放因而實(shí)用性不強(qiáng)。其二,星級(jí)貨源投放方式因指標(biāo)的設(shè)定人為主觀過(guò)多、缺乏科學(xué)依據(jù),投放效果也不理想。
本研究發(fā)現(xiàn),目前“行政區(qū)劃”仍采用區(qū)域劃分方式,在貨源投放系統(tǒng)中未很好利用。采用數(shù)據(jù)挖掘技術(shù)進(jìn)行相關(guān)性和回歸分析后發(fā)現(xiàn),“行政區(qū)劃”對(duì)應(yīng)的人口、經(jīng)濟(jì)和該區(qū)域零售客戶的數(shù)量和規(guī)模十分相關(guān),若能從貨源投放的角度重新分類,會(huì)對(duì)貨源投放有重要指導(dǎo)意義。
因此,本文首先對(duì)該市原有“行政區(qū)劃”過(guò)濾,之后采集鄉(xiāng)鎮(zhèn)一級(jí)的人口、經(jīng)濟(jì)、客戶數(shù)量和客戶規(guī)模數(shù)據(jù),并對(duì)其進(jìn)行相關(guān)性和回歸分析,找到影響該區(qū)域貨源投放的重要屬性,最后采用K-Means聚類算法建立新的“行政區(qū)劃”分類模型。
2 數(shù)據(jù)挖掘技術(shù)
2.1 相關(guān)性分析和回歸分析
相關(guān)性分析是研究?jī)勺兞烤€性相關(guān)程度強(qiáng)弱的常用方法,常通過(guò)計(jì)算Pearson樣本相關(guān)系數(shù)r來(lái)對(duì)連續(xù)變量之間是否存在顯著線性關(guān)系進(jìn)行檢驗(yàn)。Pearson樣本相關(guān)系數(shù)計(jì)算如式所示,其中N為樣本個(gè)數(shù),xi和yi為兩個(gè)檢測(cè)變量的值,r為相關(guān)系數(shù)[2]。
回歸分析是探索變量之間規(guī)律性的數(shù)據(jù)挖掘方法,若變量為數(shù)值型,則回歸模型可有效揭示因變量和自變量之間的變化規(guī)律,首先假定已知函數(shù)擬合樣本數(shù)據(jù),爾后采用誤差分析法選擇與目標(biāo)數(shù)據(jù)擬合最好的函數(shù)。但當(dāng)因變量為分類型變量時(shí),則無(wú)法直接借助回歸模型進(jìn)行研究,常采用Logistic回歸分析法[3]。
2.2 K-Means聚類算法
聚類是數(shù)據(jù)挖掘技術(shù)重要應(yīng)用之一,目的是將數(shù)據(jù)對(duì)象劃分為若干類,使同一類中的對(duì)象相似度較大,而不同類中的對(duì)象盡可能不同[4]。與分類不同,由于聚類前類別的個(gè)數(shù)未知,因此聚類實(shí)際上是通過(guò)度量相似性,使對(duì)象聚成若干簇的過(guò)程,而相似性的度量一般通過(guò)距離來(lái)實(shí)現(xiàn),距離越小說(shuō)明兩個(gè)對(duì)象間越相似,常用距離類型有四種:歐氏距離,曼哈頓距離,切比雪夫距離和馬氏距離[2]。
K-Means是典型的聚類算法,核心思想是:把對(duì)象劃分為X類,使每個(gè)類中的對(duì)象到該類中心點(diǎn)的距離平方和為最小。其中,聚類中心通過(guò)計(jì)算聚類點(diǎn)的均值獲得,類的個(gè)數(shù)X在開始時(shí)未知,可在多次嘗試之后,選一個(gè)使得距離平方和最小的值作為類別數(shù)[5],算法流程見圖1。K-Means算法在對(duì)象密集且對(duì)象簇之間的差異較為顯著的情況下聚類效果較好,且一般適用于連續(xù)變量的聚類分析,鑒于此特點(diǎn)與本文中數(shù)據(jù)對(duì)象特性吻合,因此選擇該算法來(lái)對(duì)“行政區(qū)劃”進(jìn)行聚類分析。
3 基于數(shù)據(jù)挖掘技術(shù)的分類模型研究
3.1 數(shù)據(jù)準(zhǔn)備
XX市現(xiàn)有行政區(qū)劃取值十分離散,對(duì)貨源投放無(wú)任何指導(dǎo)價(jià)值,將其過(guò)濾為76個(gè)鄉(xiāng)鎮(zhèn)。采集到的樣本數(shù)據(jù)包括轄區(qū)面積、人口數(shù)量、工業(yè)總產(chǎn)值、財(cái)政收入、人均總產(chǎn)值、經(jīng)濟(jì)實(shí)力、客戶個(gè)數(shù)等7個(gè)屬性。
3.2 相關(guān)性分析和回歸分析
3.2.1相關(guān)性分析
各指標(biāo)之間的相關(guān)性見表1,分析可知,人口數(shù)量很大程度決定客戶個(gè)數(shù),且人口數(shù)量和經(jīng)濟(jì)實(shí)力相關(guān)性很強(qiáng)。
3.2.2人口數(shù)量和客戶個(gè)數(shù)回歸分析
(1)人口數(shù)量與客戶個(gè)數(shù)的關(guān)系
以人口數(shù)量和客戶個(gè)數(shù)為坐標(biāo)對(duì)其擬合,當(dāng)采用二次函數(shù)可達(dá)到最好效果,擬合方程如式所示。
[y=2.2808x2+16.5648x+0.2321]
以上分析說(shuō)明:某一“行政區(qū)劃”客戶個(gè)數(shù)與人口數(shù)量成正比關(guān)系。由此可從市場(chǎng)角度推斷,人口基數(shù)越大,卷煙需求總量越大。
(3)客戶個(gè)數(shù)與人口及經(jīng)濟(jì)的回歸分析
以人口數(shù)量和經(jīng)濟(jì)實(shí)力為輸入,以客戶個(gè)數(shù)為結(jié)果,建立回歸模型,擬合方程如式所示。
[z=0.3067+9.2899x-0.0136y+0.0376xy]
式中,x代表人口數(shù)量,y代表經(jīng)濟(jì)實(shí)力,z代表客戶個(gè)數(shù)。由回歸方程可知:人口數(shù)量和經(jīng)濟(jì)實(shí)力可以決定客戶個(gè)數(shù)。
4 K-Means聚類算法建立分類模型
4.1 屬性選取
以客戶個(gè)數(shù)為輸出,對(duì)其他各屬性按相關(guān)系數(shù)從大到小排列(表2)。
考慮到聚類變量間不應(yīng)有較強(qiáng)的線性相關(guān)性,最終選取的屬性為“人口數(shù)量”,“工業(yè)生產(chǎn)總值”和“人均面積”。
4.2 聚類結(jié)果
采用SPSS Clementine工具[6],選取K-Means聚類算法,多次嘗試后將聚類數(shù)目設(shè)置為2。
聚類后的兩類“行政區(qū)劃”,其樣本數(shù)量及各變量的均值如表3所示。
分析可知,類別1特點(diǎn)為人口數(shù)量較少且工業(yè)總產(chǎn)值也較小,人均面積較大,屬于人口較少經(jīng)濟(jì)相對(duì)落后的鄉(xiāng)鎮(zhèn)。類別2特點(diǎn)是人口數(shù)量較多,人均面積雖小但工業(yè)總產(chǎn)值較大,屬于人口比較集中,經(jīng)濟(jì)較為發(fā)達(dá)的城鎮(zhèn)。
為了驗(yàn)證聚類效果,將類別2的“行政區(qū)劃”和企業(yè)銷售數(shù)據(jù)比對(duì)后發(fā)現(xiàn)聚類結(jié)果是可行和有意義的。
5 結(jié)論
“行政區(qū)劃”在企業(yè)貨源投放中未得利用,本文應(yīng)用數(shù)據(jù)挖掘技術(shù),首先采用相關(guān)性和回歸分析,挖掘出“行政區(qū)劃”對(duì)應(yīng)的人口和經(jīng)濟(jì)對(duì)于該處貨源需求有直接影響。之后采用K-Means算法,從貨源投放的角度建立了“行政區(qū)劃”分類模型,聚類后的“行政區(qū)劃”作為貨源投放一個(gè)重要指標(biāo),可指導(dǎo)企業(yè)科學(xué)合理地投放貨源。
參考文獻(xiàn):
[1] 彭暉,何剛,魏小波.巴中煙草貨源投放最新探索與實(shí)踐[J].技術(shù)與市場(chǎng),2013,20(12):258-259.
[2] 元昌安等. 數(shù)據(jù)挖掘原理與 SPSS Clementine 應(yīng)用寶典[M].子工業(yè)出版社,2009.
[3] 孟曉東, 袁道華, 施惠豐. 基于回歸模型的數(shù)據(jù)挖掘研究[J].機(jī)與現(xiàn)代化,2010(1):26-28.
[4] 賀玲, 吳玲達(dá), 蔡益朝. 數(shù)據(jù)挖掘中的聚類算法綜述[J].算機(jī)應(yīng)用研究,2007,24(1):10-13.
[5] 張建萍,希玉.于聚類分析的 K-means 算法研究及應(yīng)用 [J].算機(jī)應(yīng)用研究,2007,4(5):166-168.
[6] 薛薇,歡歌.基于 Clementine 的數(shù)據(jù)挖掘[M].國(guó)人民大學(xué)出版社,2012.