(上海海事大學(xué) 上海 201306)
關(guān)聯(lián)規(guī)則挖掘的研究是近幾年研究較多的數(shù)據(jù)挖掘方法,在數(shù)據(jù)挖掘中的各種方法中應(yīng)用的也最為廣泛。2002 年,毛國君等針對傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘的經(jīng)典問題,提出了項目集格的概念,并在項目集格空間上討論了項目集的操作。陳國青,衛(wèi)強把模糊語言修飾詞引入到模糊關(guān)聯(lián)規(guī)則中,并用模擬數(shù)據(jù)和現(xiàn)實數(shù)據(jù)對廣義關(guān)聯(lián)算法(GAR),模糊廣義關(guān)聯(lián)規(guī)則算法(FGAR)和帶有修飾詞的模糊廣義關(guān)聯(lián)規(guī)則算法(HFGAR)進行了比較。鄒力鹍等(2003)從空間數(shù)據(jù)挖掘的定義、過程、特征和任務(wù)等方面對空間數(shù)據(jù)挖掘技術(shù)進行了研究,并介紹了一個空間數(shù)據(jù)挖掘原型 Geo-Miner。皮德常等(2004)基于動態(tài)剪枝的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,討論了如何實施動態(tài)剪枝,給出了一個基于三元組結(jié)構(gòu)的樹式存儲結(jié)構(gòu),在此基礎(chǔ)上描述了交易數(shù)據(jù)庫中知識發(fā)現(xiàn)算法,有助于挖掘迅速更新的數(shù)據(jù)。WEI-MIN MA,ZHU-PING LIU 提出了兩種基于 Apriori的改進算法,引入最小支持度,最小可信度和最小興趣度的約束條件以減少數(shù)據(jù)庫搜索次數(shù)和提高運算效率(2008)。王熙照,趙東壘(2007)擴展了TD-FP-growth 算法,提出了基于規(guī)則興趣度的關(guān)聯(lián)分類(ACIR),使之有效地挖掘訓(xùn)練集,產(chǎn)生滿足最小支持度和最小置信度的有趣的規(guī)則。王樂等(2009)提出一種從事務(wù)項集對應(yīng)的最大頻繁項集求全部屬性項集的最大頻繁項集的新算法 IPA(Intersection Pruning Algorithm)。該算法通過交集剪枝實現(xiàn)自頂向下和自底向上的搜索最大頻繁項集,并使用屬性項的分布數(shù)據(jù)和已生成的交集等多種信息來減少求交集的次數(shù)。2010年,于芳提出了應(yīng)用關(guān)聯(lián)規(guī)則中各個項目的加權(quán)利潤之和的思想評估關(guān)聯(lián)規(guī)則的價值,并設(shè)計了三個超市關(guān)聯(lián)分析模型,即超市捆綁銷售、貨架擺放以及競爭產(chǎn)品分析模型。
自R.Agrawal、R.Srikant等人于1993年在對市場購物籃問題(Market Basket Analysis)進行分析時首次提出關(guān)聯(lián)規(guī)則的定義,奠定了關(guān)聯(lián)規(guī)則的理論基礎(chǔ)。隨后,隨著應(yīng)用的不斷推廣,關(guān)聯(lián)規(guī)則理論不斷改進并日趨成熟。
而目前的研究大多處于僅發(fā)現(xiàn)銷售關(guān)聯(lián)規(guī)則,而對于模式的調(diào)整和后期的再發(fā)現(xiàn)缺少動態(tài)研究,尤其是缺少專業(yè)背景下的調(diào)整和分析。關(guān)聯(lián)規(guī)則和營銷模式的分析現(xiàn)在是一個普遍關(guān)注的問題,在一些地方已經(jīng)有了一些不錯的發(fā)展,因此,本文通過歷史銷售數(shù)據(jù),根據(jù)提取的關(guān)聯(lián)規(guī)則,結(jié)合地區(qū)特點、季節(jié)特點形成一套操作性較強的切實可行的營銷建議,通過在實際運營中的推廣使用和檢測,提高產(chǎn)品的銷量和營業(yè)收入。
1、搜集數(shù)據(jù)及數(shù)據(jù)預(yù)處理
我們通過實地調(diào)研,最終選定鄭州市東大學(xué)城附近的某超市,了解其所處地理環(huán)境和所售商品種類。因為該超市主要客戶群為大學(xué)生,而周五下午及晚上是購物高峰期,所以我們搜集其某周五下午及晚上的1019條購買記錄。
對原始數(shù)據(jù)進行預(yù)處理:
(1)刪除無效及退貨信息。由于售貨員操作失誤,以及有個別顧客出現(xiàn)退貨現(xiàn)象,所以首先對拿到的原始數(shù)據(jù)進行初步篩選。刪除無效信息。
(2)商品歸類及編號。經(jīng)了解,該超市一共銷售195種商品,許多商品屬性相似。所以為了對關(guān)聯(lián)挖掘更加清楚明了,我們對商品進行歸類,并把屬性相似的商品編在一起。
2、結(jié)果分析及銷售建議
該超市位于大學(xué)城附近,主要客戶群為大學(xué)生。通過對數(shù)據(jù)進行初步描述統(tǒng)計,我們發(fā)現(xiàn):大多數(shù)顧客的每次消費都在50元內(nèi),每個人平均購買6.107種商品,如圖一所示,雖然人均購買商品數(shù)較大,但購買1-5件商品的人數(shù)相對較多,購買6-16件商品的人數(shù)在30上下波動,變化不大。
圖一 顧客購買商品數(shù)條形統(tǒng)計圖
通過顧客購買記錄,我們很明顯地了解到:在周五下午及晚上,電器、家居、服裝類銷售記錄為0,除了紙類牙膏等生活用品外,食品銷售占到總銷售量的95.64%。如圖二所示,而在食品類銷售量中,零食類銷售量最大,占食品類銷售量的26.74%,其次是飲料類和熟食類,分別占食品銷售量的18.23%和17.93%。這和大學(xué)生的購買習(xí)慣非常吻合,結(jié)束一周的學(xué)習(xí)生活,首先去超市購買零食飲料犒勞一下自己。所以,該超市在周五下午及晚上可以對食品類商品做些促銷活動,特別是飲料和零食類。
圖二 顧客購買不同商品餅狀圖
另外,由apriori改進算法得出的結(jié)果如表一、表二、表三所示。
表一 頻繁1項集及支持度
表二 頻繁2項集及支持度
表三 頻繁3項集及支持度
設(shè)置置信度水平為60%,我們可得到最后的強關(guān)聯(lián)規(guī)則有:1101 飲料->1307 進口食品->1306 糖果巧克力;1101 飲料->1604 常溫熟食類->1306 糖果巧克力;1101 飲料->1802散裝休閑食品->1306 糖果巧克力;1101 飲料->1802散裝休閑食品->1307 進口食品;1101 飲料->1604 常溫熟食類->1802散裝休閑食品。
所以,超市在貨物擺放方面,可以把飲料擺在顧客最容易注意和取放的位置,我們發(fā)現(xiàn)許多超市就是這樣擺放的,這也證明了我們算法的有效性和準確性。另外,超市可以針對大學(xué)生這一客戶群,在周五下午及晚上,為提升銷售額對飲料和零食做一些捆綁銷售。超市可以進一步分析大學(xué)生群體的口味偏好,多銷售一些接受度較高的食品。其次,大學(xué)生還是對新興事物接受較快的群體,所以超市貨物要緊跟市場潮流,不斷更新。