翟 音
隨著信息技術(shù)的不斷發(fā)展,人們利用信息技術(shù)處理數(shù)據(jù)的能力大幅度提高,越來(lái)越多的數(shù)據(jù)庫(kù)被應(yīng)用于商業(yè)管理、生產(chǎn)控制和工程設(shè)計(jì)等各種領(lǐng)域。但是,面對(duì)不斷增加的各種復(fù)雜數(shù)據(jù),已存在的數(shù)據(jù)庫(kù)的查詢功能已經(jīng)不能滿足人們的需要,能不能從數(shù)據(jù)中提取人們所需要的信息和知識(shí)是大家越來(lái)越關(guān)注的問(wèn)題。傳統(tǒng)的統(tǒng)計(jì)技術(shù)已面臨極大的挑戰(zhàn),集統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、知識(shí)發(fā)現(xiàn)等技術(shù)于一身的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。近幾年來(lái),數(shù)據(jù)挖掘技術(shù)在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等領(lǐng)域應(yīng)用廣泛。
一、數(shù)據(jù)挖掘的基本概念
(一)“啤酒尿布”的典型案例
在了解數(shù)據(jù)挖掘的概念之前,我們先來(lái)看一個(gè)“啤酒尿布”的故事。故事的主角是沃爾瑪這個(gè)世界上最大的零售商,在其遍布美國(guó)數(shù)千家超級(jí)市場(chǎng)中,小孩尿布與啤酒居然并排擺放在鄰近的貨價(jià)上一起銷售,而且兩者銷量都還不錯(cuò)。原來(lái)沃爾瑪通過(guò)建立的數(shù)據(jù)倉(cāng)庫(kù),分析了原始交易數(shù)據(jù),按周期統(tǒng)計(jì)產(chǎn)品的銷售信息,然后利用數(shù)據(jù)挖掘工具進(jìn)行分析和挖掘,結(jié)果發(fā)現(xiàn),每逢周末沃爾瑪連鎖超市啤酒和尿布的銷量很大。進(jìn)一步調(diào)查表明,在美國(guó)有孩子的家庭中,太太經(jīng)常囑咐她們的丈夫下班后要為孩子買(mǎi)尿布,而丈夫們?cè)谫I(mǎi)完尿布后又順手帶回了自己愛(ài)喝的啤酒,因此啤酒和尿布一起購(gòu)買(mǎi)的機(jī)會(huì)是最多的。之后該店打破常規(guī),將啤酒和尿布的貨架放在了一起,使得啤酒和尿布的銷量進(jìn)一步增長(zhǎng)。啤酒和尿布這兩者看似毫無(wú)關(guān)聯(lián),但在特定的條件下,它們之間卻有密切的關(guān)系,這就是數(shù)據(jù)挖掘技術(shù)。
(二)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining)就是從海量的原始數(shù)據(jù)中,找出隱含在其中的、我們事先不知道的、但又是潛在的有意義的知識(shí)和信息,從而利用這些知識(shí)來(lái)指導(dǎo)我們的活動(dòng)。從統(tǒng)計(jì)學(xué)的角度,數(shù)據(jù)挖掘可以看成是通過(guò)計(jì)算機(jī)對(duì)大量的復(fù)雜數(shù)據(jù)的自動(dòng)探索性分析。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長(zhǎng)。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生發(fā)展起來(lái)的數(shù)據(jù)處理技術(shù)。
二、零售業(yè)應(yīng)用數(shù)據(jù)挖掘的背景
零售業(yè)客戶關(guān)系管理(Customer Relationship Management,CRM)是一種以客戶為中心的市場(chǎng)營(yíng)銷理念和策略。 CRM的目標(biāo)是縮減銷售周期和銷售成本、增加收入、尋找擴(kuò)展業(yè)務(wù)所需的新市場(chǎng)和渠道以及提高客戶的價(jià)格、滿意度、盈利性和忠誠(chéng)度。
零售業(yè)客戶關(guān)系管理主要通過(guò)條形碼、銷售管理系統(tǒng)、客戶資料管理系統(tǒng)等各種途徑獲得關(guān)于商品信息、客戶信息、供應(yīng)商信息及店鋪信息等大量的數(shù)據(jù)信息,如何利用這些海量數(shù)據(jù)信息分析出哪些商品好賣(mài)、哪些商品不好賣(mài)、哪些客戶適宜哪些商品、商品之間如何搭配,是令零售商頭疼的問(wèn)題。利用數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析,可以幫助零售商進(jìn)行科學(xué)的決策,分析哪些商品顧客最有希望一起購(gòu)買(mǎi),從而將這些商品擺放在一起;分析商品的銷售趨勢(shì),從而給零售商提供進(jìn)貨建議;分析購(gòu)買(mǎi)商品的人員信息,從而幫助零售商選擇店鋪的所在
地點(diǎn)等。
三、數(shù)據(jù)挖掘技術(shù)的常用算法
數(shù)據(jù)挖掘是零售業(yè)CRM中的核心技術(shù),通過(guò)分析顧客已購(gòu)買(mǎi)商品及這些商品之間的內(nèi)在聯(lián)系,確定顧客的購(gòu)買(mǎi)習(xí)慣和關(guān)聯(lián)購(gòu)買(mǎi)傾向,從而幫助零售商制定營(yíng)銷策略。為了實(shí)現(xiàn)在零售業(yè)CRM中的應(yīng)用,數(shù)據(jù)挖掘技術(shù)中主要涉及以下常用算法:
(一)聚類分析算法
聚類分析算法是根據(jù)事物的特征對(duì)其進(jìn)行聚類或分類,即所謂物以類聚,以期從中發(fā)現(xiàn)規(guī)律和典型模式。在零售業(yè)中,聚類分析可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái),并且概括出每一類消費(fèi)者的消費(fèi)模式或者說(shuō)習(xí)慣。
(二)決策樹(shù)算法
決策樹(shù)算法就是利用訓(xùn)練集生成一個(gè)測(cè)試函數(shù),根據(jù)不同取值建立樹(shù)的分支;在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,這樣便生成一棵決策樹(shù)。然后對(duì)決策樹(shù)進(jìn)行剪枝處理,最后把決策樹(shù)轉(zhuǎn)化為規(guī)則。決策樹(shù)算法常用于預(yù)測(cè)模型,它通過(guò)將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它分類速度快,特別適合大規(guī)模的數(shù)據(jù)分類處理。
(三)神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)算法能夠模擬人的神經(jīng)元功能,經(jīng)過(guò)輸入層、隱藏層、輸出層等,對(duì)數(shù)據(jù)進(jìn)行調(diào)整、計(jì)算,最后得到結(jié)果。神經(jīng)網(wǎng)絡(luò)算法的優(yōu)點(diǎn)是它能精確地對(duì)復(fù)雜問(wèn)題進(jìn)行預(yù)測(cè)。它本身具有良好的魯棒性、自適應(yīng)性和高度容錯(cuò)性。
(四)關(guān)聯(lián)規(guī)則挖掘算法
關(guān)聯(lián)規(guī)則挖掘是用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的相關(guān)聯(lián)系的一種算法。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù)的本質(zhì)是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則,利用這些關(guān)聯(lián)規(guī)則了解客戶的行為,其最典型的例子就是購(gòu)物籃分析。
四、數(shù)據(jù)挖掘技術(shù)在零售業(yè)CRM中的應(yīng)用
隨著日益增長(zhǎng)的Web或電子商務(wù)方式的興起,零售業(yè)CRM是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可有助于識(shí)別客戶購(gòu)買(mǎi)行為,發(fā)現(xiàn)客戶購(gòu)買(mǎi)模式和趨勢(shì),改進(jìn)服務(wù)質(zhì)量,取得更好的客戶保持力和滿意度,提高貨品銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本。數(shù)據(jù)挖掘技術(shù)在零售業(yè)CRM中的應(yīng)用主要體現(xiàn)在以下幾個(gè)方面:
(一)使用多特征數(shù)據(jù)立方體進(jìn)行銷售、客戶、產(chǎn)品、時(shí)間和地區(qū)的多維分析
多維數(shù)據(jù)分析是指通過(guò)多維的方式對(duì)數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表。維是人們觀察數(shù)據(jù)的特定角度。例如,企業(yè)在考慮產(chǎn)品的銷售情況時(shí),通常從客戶、產(chǎn)品、時(shí)間和地區(qū)等不同角度來(lái)深入觀察產(chǎn)品的銷售情況。這里的客戶、產(chǎn)品、時(shí)間和地區(qū)就是維。根據(jù)這些維的不同組合和所考察的度量指標(biāo)從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群,以便決策者根據(jù)主客戶群的特征作相應(yīng)的定貨、銷售、服務(wù)等決策。
(二)利用關(guān)聯(lián)分析挖掘關(guān)聯(lián)信息進(jìn)行購(gòu)買(mǎi)推薦和商品參照
關(guān)聯(lián)分析就是利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘技術(shù),其目的在于挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如“90%的顧客在一次購(gòu)買(mǎi)活動(dòng)中購(gòu)買(mǎi)A商品的同時(shí)也會(huì)購(gòu)買(mǎi)B商品”之類的知識(shí)。通過(guò)從銷售記錄中挖掘關(guān)聯(lián)信息,可以發(fā)現(xiàn)買(mǎi)某一品牌商品的顧客很可能購(gòu)買(mǎi)其他一些商品。這類信息可用于形成一定的購(gòu)買(mǎi)推薦。商家通過(guò)宣傳可改進(jìn)服務(wù),幫助顧客選擇商品,增加銷售額和減少庫(kù)存積壓。
(三)使用多維分析和關(guān)聯(lián)分析進(jìn)行促銷活動(dòng)的有效性分析
利用多維分析和關(guān)聯(lián)分析對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)仔細(xì)研究,以分析顧客的購(gòu)買(mǎi)習(xí)慣、廣告成功率和其他戰(zhàn)略性信息。利用數(shù)據(jù)庫(kù)通過(guò)檢索數(shù)據(jù)庫(kù)中近年來(lái)的銷售數(shù)據(jù),用多維關(guān)聯(lián)分析方法,通過(guò)比較促銷期間的銷售量和交易數(shù)量與促銷活動(dòng)前后的有關(guān)情況,可預(yù)測(cè)出季節(jié)性和月銷售量,對(duì)商品品種和庫(kù)存的趨勢(shì)進(jìn)行分析還可確定降價(jià)商品,并對(duì)數(shù)量和運(yùn)作做出決策。此外,用關(guān)聯(lián)分析可以找出哪些商品可以用于促銷活動(dòng),便于安排商品貨源,提高銷售額。
(四)序列模式挖掘可用于客戶忠誠(chéng)分析
序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。序列模式挖掘可用于分析顧客的消費(fèi)或忠誠(chéng)的變化,據(jù)此對(duì)價(jià)格和商品的品種加以調(diào)整,以留住老顧客,吸引新客戶,保證一定的顧客數(shù)量。商家可以從原客戶后來(lái)卻轉(zhuǎn)成競(jìng)爭(zhēng)對(duì)手的客戶群中,分析其特征,再根據(jù)分析結(jié)果到現(xiàn)有客戶數(shù)據(jù)中找出可能轉(zhuǎn)向的客戶,然后設(shè)計(jì)一些方法預(yù)防客戶流失;也可以根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對(duì)客戶忠誠(chéng)度進(jìn)行排序,根據(jù)流失率的等級(jí)進(jìn)而配合不同的策略。
(五)利用交叉銷售模式向老客戶銷售新的產(chǎn)品或服務(wù)
零售業(yè)和客戶之間的關(guān)系是持續(xù)不斷的、發(fā)展的,交叉銷售是指向老客戶銷售新的產(chǎn)品或服務(wù)的過(guò)程。交叉銷售是建立在買(mǎi)賣(mài)雙方互利原則的基礎(chǔ)之上,客戶因得到更多更好符合他們需求的服務(wù)而獲益,企業(yè)也因銷售增長(zhǎng)而獲益。交叉銷售的優(yōu)勢(shì)在于,商家可以比較容易得到老客戶較為豐富的信息。企業(yè)所掌握的客戶信息特別是以前購(gòu)買(mǎi)行為的信息中,可能正包含著決定這個(gè)客戶下一個(gè)購(gòu)買(mǎi)行為的關(guān)鍵信息。這個(gè)時(shí)候數(shù)據(jù)挖掘的作用就體現(xiàn)為它可以幫助企業(yè)尋找到那些影響顧客購(gòu)買(mǎi)行為的信息和因素。
(作者單位:廊坊師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院)
中國(guó)經(jīng)貿(mào)導(dǎo)刊2009年15期