涂順林,趙義霞,劉利
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)
分類算法在服裝行業(yè)的挖掘應(yīng)用
涂順林,趙義霞,劉利
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)
數(shù)據(jù)挖掘從理論研究到產(chǎn)品的開發(fā)只用了短短數(shù)年,目前在國內(nèi)外都已經(jīng)進(jìn)入應(yīng)用階段。數(shù)據(jù)挖掘技術(shù)的應(yīng)用十分廣泛,從政府企業(yè)的管理、商業(yè)經(jīng)營、科學(xué)研究到工業(yè)決策等各個(gè)領(lǐng)域都可以找到其用武之地。數(shù)據(jù)挖掘的定義幾經(jīng)變動(dòng),有多種不同的定義方式。其中為大家廣泛采用的是:數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。這些規(guī)則蘊(yùn)含了數(shù)據(jù)庫中一組對(duì)象之間的特定關(guān)系,揭示出一些有用的信息,可以為經(jīng)營決策、市場(chǎng)策劃和金融預(yù)測(cè)等方面提供依據(jù)。數(shù)據(jù)挖掘的模式主要有分類、聚類、關(guān)聯(lián)規(guī)則和時(shí)序模式等[1]。
服裝行業(yè)與國民經(jīng)濟(jì)及人民的生活消費(fèi)密切相關(guān),發(fā)展迅速。隨著企業(yè)信息化的逐步應(yīng)用和完善,企業(yè)已經(jīng)逐漸累積了大量的數(shù)據(jù)。接下來企業(yè)信息化應(yīng)用成熟的企業(yè)會(huì)逐步考慮如何利用這些海量數(shù)據(jù)為企業(yè)做決策支持,由此數(shù)據(jù)挖掘便成了企業(yè)挖掘數(shù)據(jù)中有價(jià)值信息的最好選擇。本文詳細(xì)分析了如何將決策樹和貝葉斯分類算法應(yīng)用到服裝行業(yè),并為決策者提供決策輔助,以此為服裝企業(yè)進(jìn)一步智能化提供參考。
無論是線上還是線下的銷售,客戶的信息都是可以獲取的。根據(jù)客戶的屬性、行為、需求、偏好以及價(jià)值等因素對(duì)客戶進(jìn)行分類。屬于同一客戶群的消費(fèi)者具備一定程度的相似性,反之則存在明顯的差異性。正確的客戶細(xì)分能夠有效地降低成本,有針對(duì)性地改善客戶關(guān)系,方便制定有針對(duì)性的營銷策略,避免客戶流失,提高市場(chǎng)占有率[2-3]。
1.1客戶類別的自動(dòng)劃分
把客戶的年齡、學(xué)歷、職業(yè)、收入等可能影響到其對(duì)于服裝消費(fèi)的數(shù)據(jù)收集起來作為條件屬性,把年消費(fèi)總額大小作為決策屬性,構(gòu)建客戶分類的決策樹。
部分?jǐn)?shù)據(jù)如表1所示,針對(duì)表1構(gòu)造決策樹如圖1所示。根據(jù)需要,本文將年消費(fèi)2000元以上的定為高價(jià)值客戶,1000-2000為中等客戶,500-1000為低價(jià)值客戶,500以下為流失客戶。并將月收入小于1000定為A,1001-2000定為B,2001-3000定為C,3001-4000定為D,4001-5000定位E,以此類推。
通過分類發(fā)現(xiàn)類似 “若客戶年齡為18-30歲,月收入在5000-10000元,學(xué)歷為高中,職業(yè)為工人,性別為女,則為高價(jià)值客戶”這樣的結(jié)論。這樣一來,就可以將所有的客戶都分類,并有針對(duì)性地制定營銷策略。
表1 客戶分類訓(xùn)練集部分?jǐn)?shù)據(jù)示例
圖1 客戶分類決策樹
由此構(gòu)建的決策樹模型便可以為企業(yè)制定相關(guān)策略提供支持。例如,對(duì)于高價(jià)值客戶要加強(qiáng)售后服務(wù)與感情聯(lián)系,對(duì)于流失客戶要制定優(yōu)惠促銷措施。對(duì)于那些由分類模型預(yù)測(cè)為高價(jià)值客戶但實(shí)際并不是的客戶,這意味著他或許已經(jīng)轉(zhuǎn)向于購買其他品牌的服裝了。那樣的話要加強(qiáng)對(duì)這些客戶的服裝推薦與優(yōu)惠措施,爭(zhēng)取將其轉(zhuǎn)化為高價(jià)值客戶。
1.2客戶服裝的偏好模型與服裝推薦系統(tǒng)
通過數(shù)據(jù)采集系統(tǒng)可以容易的得到 “顧客年齡”“職業(yè)”“教育背景”“收入”“購買款式”等信息的交易記錄。因?yàn)轭櫩偷哪挲g、職業(yè)、教育背景等信息都可能影響到對(duì)衣服款式的選擇,所以本文通過構(gòu)建決策樹來找到不同類型的顧客對(duì)衣服款式的選擇[4]。
本文將決策樹應(yīng)用于具體的數(shù)據(jù)表,得到這樣的結(jié)論,年齡小于30的年輕部門經(jīng)理喜歡窄領(lǐng)、開叉的西服;13-18歲的男生喜歡籃球服等。這樣一來,如果有年齡小于30的部門經(jīng)理在選購服裝時(shí),服裝推薦系統(tǒng)就可以為其推薦窄領(lǐng)、開叉的西服。分類如果再繼續(xù)做下去,或許還可以找到年齡小于30的部門經(jīng)理還喜歡淺色的圓領(lǐng)T恤。那么服裝推薦系統(tǒng)就可以根據(jù)該經(jīng)理最近的瀏覽記錄來推薦到底是買T恤還是買西裝。
1.3賬號(hào)的真實(shí)性判斷
對(duì)于電商來說,不真實(shí)帳號(hào)是普遍存在的。如果能檢測(cè)出其中的不真實(shí)帳號(hào),便可以有效地對(duì)真實(shí)用戶進(jìn)行管理,包括商品推送等。這樣可以提高服裝的推薦成功幾率,更節(jié)約了成本。
本文用貝葉斯分類可以預(yù)測(cè)賬號(hào)的真實(shí)性。通過數(shù)據(jù)采集系統(tǒng)可以得到每個(gè)用戶這樣的信息:登錄天數(shù)/注冊(cè)天數(shù);交易數(shù)量/注冊(cè)天數(shù);是否使用真實(shí)頭像等可能與賬戶真實(shí)性有關(guān)的數(shù)據(jù)。
再利用已經(jīng)被檢測(cè)出真實(shí)與否的賬戶構(gòu)建貝葉斯判斷模型。通過模型,我們可以知道每個(gè)類別(真實(shí)/虛假)下各屬性(登錄天數(shù)/注冊(cè)天數(shù);交易數(shù)量/注冊(cè)天數(shù);是否用真實(shí)頭像等)的頻率。得到例如“登錄天數(shù)/注冊(cè)天數(shù)<0.05且賬號(hào)為真的概率是0.32?!边@樣的結(jié)論。
最后就可以利用判斷模型來判斷每一個(gè)用戶的真實(shí)性。例如當(dāng)?shù)玫劫~戶2014001有90%是虛假賬戶時(shí),就可以考慮取消該賬戶的服裝推薦功能以節(jié)約資源。
1.4構(gòu)建線下快速銷售模型
目前,線下營銷基本上都是靠銷售人員的經(jīng)驗(yàn)來實(shí)現(xiàn)服裝的推薦,同樣的也可以用決策樹構(gòu)造推薦模型。從而更加合理、科學(xué)地進(jìn)行服裝營銷。例如,通過數(shù)據(jù)采集系統(tǒng)可以收集服裝城中顧客的性別、年齡、身高、體重、服裝、服飾、發(fā)型、言談、眼神等信息與購買服裝款式的信息。利用這些信息來構(gòu)建線下服裝的推薦模型[5]。
2.1按季度預(yù)測(cè)每一款衣服的銷售情況
收集以往每一季度各款服裝的顏色、布料、袖型、領(lǐng)型、樣式、價(jià)格等所有可能影響到該款服裝的銷量的屬性作為條件屬性,以該款服裝的銷售量為決策變量,構(gòu)建服裝銷售量預(yù)測(cè)的決策樹。部分?jǐn)?shù)據(jù)如表2所示,針對(duì)表2構(gòu)造決策樹如圖2所示。
表2 銷量預(yù)測(cè)訓(xùn)練集部分?jǐn)?shù)據(jù)示例
圖2 銷量預(yù)測(cè)決策樹
最終得到例如“淡黃色、絲光棉、翻領(lǐng)、短袖、條紋T恤是熱銷款式”這樣的結(jié)論。當(dāng)然,怎么樣才叫“熱銷”,月銷量在什么范圍內(nèi)是“一般”,怎么樣叫“滯銷”,這些都是要反復(fù)討論的。一旦模型建立好,就可以通過服裝銷量決策樹去預(yù)測(cè)每一款衣服的銷量,當(dāng)然也包括新款未上市的服裝,也一樣能夠預(yù)測(cè)出該款服裝的銷量。
2.2判斷某款衣服是否適合減價(jià)促銷
根據(jù)以往的減價(jià)銷售的記錄來判斷某款服裝是否適合減價(jià)銷售。具體是收集以往每款服裝的屬性,包括顏色、布料、袖型、領(lǐng)型、樣式、價(jià)格、上市時(shí)間、上市天氣情況等所有可能影響到該款服裝的銷量情況的屬性作為條件屬性,以是否做過減價(jià)促銷,做什么級(jí)別的促銷作為決策屬性來構(gòu)造判斷服裝是否適合促銷的決策樹。
3.1實(shí)體店的選址
目前實(shí)體店的選擇基本都是靠決策者按照多年的經(jīng)驗(yàn)進(jìn)行選址。同樣可以利用決策樹找出店鋪的級(jí)別,營業(yè)面積,店鋪性質(zhì),店鋪地址,人流,員工數(shù)量等與營業(yè)額的關(guān)系。以營業(yè)額大小作為決策屬性,幫助決策者判斷某地是否適合經(jīng)營某種級(jí)別的店鋪。
3.2線上交易成敗預(yù)測(cè)
收集過往每筆交易的交易的記錄 (包括退貨等交易失敗的記錄),服裝信息(包括顏色、布料、袖型、領(lǐng)型、樣式、價(jià)格等信息),發(fā)貨店鋪(或者是倉庫),物流公司等所有可能引發(fā)交易失敗的信息,作為條件屬性,把交易狀態(tài)(成功/失?。┳鳛闆Q策屬性構(gòu)造判斷交易是否成功的決策樹。這樣可以預(yù)測(cè)是否交易成功。同時(shí)也可發(fā)現(xiàn)具體是什么環(huán)節(jié)容易造成交易失敗,方便內(nèi)部管理。
在信息爆炸的時(shí)代,數(shù)據(jù)量的飛速增長已經(jīng)成為一個(gè)不容忽視的問題。利用數(shù)據(jù)挖掘幫助服裝企業(yè)在大量的數(shù)據(jù)中找到有用的數(shù)據(jù)更是大勢(shì)所趨。因?yàn)榭蛻舻馁徺I行為還要從多方面進(jìn)行考慮,所以本文僅從這幾個(gè)方面利用分類算法挖掘出外部環(huán)境與客戶的購買行為之間的關(guān)系。由于具體缺乏確切數(shù)據(jù)可供挖掘,所以很多想法的可行性還有待討論。而且由于很多客戶不填完整信息、不填真實(shí)信息等原因也會(huì)導(dǎo)致挖掘結(jié)果不盡如人意,但隨著多方面大量數(shù)據(jù)的獲得,數(shù)據(jù)挖掘工具可以挖掘出更多有參考價(jià)值、易于理解、并具有很高的分類準(zhǔn)確度的規(guī)則為生產(chǎn)實(shí)踐服務(wù)。因此,分類算法數(shù)據(jù)挖掘技術(shù)在實(shí)際服裝行業(yè)應(yīng)用中有著很廣泛的應(yīng)用前景,值得進(jìn)一步研究。
[1]陳安,陳寧.周龍?bào)J.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006.111-120
[2]吳建源.決策樹ID3算法在客戶信息分類中的應(yīng)用[J].廣東培正學(xué)院學(xué)報(bào).2014,14(1):34-36.
[3]胡蘭蘭.決策樹在淘寶店鋪中的應(yīng)用研究[J].貴州師范學(xué)院學(xué)報(bào).2010,26(6):40-43
[4]齊揚(yáng),朱欣娟.基于數(shù)據(jù)挖掘的服裝推薦系統(tǒng)研究[J].西安工程大學(xué)學(xué)報(bào),2010,24(04):438-443.
[5]張革伕,歐陽浩男,徐琪.決策樹在基于消費(fèi)者外表的服裝營銷中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用.2010,30(07):1999-1921,1929.
Classification Algorithm;Garment;Data Mining
Application of Classification Algorithms in Clothing Industry
TU Shun-lin,ZHAO Yi-xia,LIU Li
(Department of Computer Science,Huizhou University,Huizhou 516007)
1007-1423(2015)20-0052-04
10.3969/j.issn.1007-1423.2015.20.012
涂順林(1994-),男,廣東惠州人,在校本科生,研究方向?yàn)閿?shù)據(jù)挖掘、算法設(shè)計(jì)與分析
趙義霞(1962-),女,山東濟(jì)寧人,本科,研究方向?yàn)閿?shù)據(jù)挖掘、算法設(shè)計(jì)與分析
劉利(1979-),女,四川宜賓人,碩士研究生,研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、圖像檢索
2015-05-07
2015-07-01
隨著信息化進(jìn)程的推進(jìn),服裝企業(yè)同樣也在大力發(fā)展。如何利用好這些數(shù)據(jù)資產(chǎn),如何使其更合理,更科學(xué)地為企業(yè)輔助決策成為一個(gè)熱點(diǎn)議題。詳細(xì)地分析分類算法在客戶、服裝、區(qū)域等信息方面的應(yīng)用,可為服裝企業(yè)建立數(shù)據(jù)挖掘系統(tǒng)做參考。
分類算法;服裝;數(shù)據(jù)挖掘
廣東省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(No.201410577030)
With the advancement of information technology,garment enterprises also develop vigorously.How to make good use of these data assets,how to make it more reasonable,more scientific has become a hot topic for the enterprise decision-making.Analyzes the classification algorithm applied in the customer,clothing,region and etcetera in details which can provide a reference to set up a mathematics mining system for garment enterprises.