国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的FP—Growth算法提取客戶關(guān)系圖

2015-09-09 19:00:24汪歡文陸海良單宇翔
電腦知識(shí)與技術(shù) 2015年16期
關(guān)鍵詞:客戶關(guān)系管理數(shù)據(jù)挖掘

汪歡文 陸海良 單宇翔

摘要:利用客戶關(guān)系圖可以很清晰地看出企業(yè)與客戶之間的各類關(guān)系,便于企業(yè)決策者采取針對(duì)性的措施來改善客戶關(guān)系。該文提出了一種基于改進(jìn)的FP-Growth算法進(jìn)行客戶關(guān)系圖提取的方法,通過最小支持度尋找到所有的頻繁項(xiàng)集,然后結(jié)合最小置信度,篩選出所需要的關(guān)聯(lián)規(guī)則來提高算法的效率。本方法已應(yīng)用于浙江中煙CRM系統(tǒng),結(jié)果證明該改進(jìn)算法有比較好的效果。

關(guān)鍵詞:客戶關(guān)系管理;數(shù)據(jù)挖掘;客戶關(guān)系圖;頻繁項(xiàng)集

中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)03-0106-04

A New Method to Extract Customer Relational Graph Based on Modified FP-Growth Algorithm

WANG Huan-wen, LU Hai-liang, SHAN Yu-xiang

(Information Center, China Tobacco Zhejiang Industrial Co., LTD, Hangzhou 310009, China)

Abstract: Customer relationships can be clearly seen in customer relationship graph, thus business decision-makers can take specific measures to facilitate customer relationships. This paper presents an improved algorithm based on FP-Growth algorithm to extract customer relationship graph. We find all frequent itemsets through minimum support, then filter out the desired association rules integrated with the minimum confidence, which can improve the efficiency of the algorithm considerably. This method has been applied to Zhejiang Tobacco CRM system, and the results show that the improved algorithm is very effective.

Key words: custom relationship management; data mining; customer relational graph; frequent etem set

1 客戶關(guān)系圖

客戶關(guān)系圖是企業(yè)用來描述與之相關(guān)客戶的關(guān)系以及企業(yè)能夠?yàn)榭蛻籼峁┠承┓?wù)需求的圖示。通過對(duì)客戶關(guān)系圖的繪制與提取,可以很清晰的看出企業(yè)與客戶之間的各類關(guān)系,使企業(yè)決策者與服務(wù)人員很容易制定出相關(guān)措施來改善客戶關(guān)系,滿足客戶的需求,提高客戶的滿意度,為企業(yè)創(chuàng)造更多的利潤(rùn)。

對(duì)于煙草工業(yè)企業(yè),客戶主要包括了各商業(yè)公司、渠道客戶、重點(diǎn)集團(tuán)客戶等企業(yè)客戶,同時(shí)還包括了零售戶、消費(fèi)者、購(gòu)買決策人、意見領(lǐng)袖等個(gè)人客戶。針對(duì)不同的客戶,企業(yè)需要制定不同的措施,從而滿足客戶的需求。對(duì)于企業(yè)客戶,需要及時(shí)了解各企業(yè)的市場(chǎng)運(yùn)行情況、市場(chǎng)要點(diǎn)以及公司人員的信息,找出他們之間的關(guān)系,分析其優(yōu)勢(shì)和不足,使工業(yè)企業(yè)能夠更好的進(jìn)行決策分析,提高客戶的滿意度。工業(yè)企業(yè)還需要采集零售戶、消費(fèi)者等個(gè)人客戶反饋的信息,采集途徑包括呼叫中心、企業(yè)俱樂部、積分兌換禮品等方式,進(jìn)而分析出各個(gè)客戶的需求,對(duì)客戶進(jìn)行分類,找出與各類型客戶間的關(guān)聯(lián)信息,為采取有針對(duì)性的促銷方案提供支持。

當(dāng)前,通過數(shù)據(jù)挖掘技術(shù)來提取客戶關(guān)系圖一直是一個(gè)難點(diǎn),因?yàn)樗崛〉目蛻絷P(guān)系圖包含的關(guān)系信息量非常有限,這使得企業(yè)很難通過客戶關(guān)系圖找出與客戶之間的問題所在,沒法針對(duì)性的對(duì)客戶進(jìn)行決策分析與服務(wù),從而使企業(yè)與客戶之間的關(guān)系變得很難維護(hù),長(zhǎng)此以往,可能會(huì)造成客戶對(duì)企業(yè)的不信任或者企業(yè)對(duì)客戶的忽視,使得客戶忠誠(chéng)度降低,最終導(dǎo)致客戶流失,降低企業(yè)利潤(rùn)。作為本文課題來源的浙江中煙CRM(Customer Relation Management)系統(tǒng),其目標(biāo)就是要解決這一問題,對(duì)浙江中煙的客戶關(guān)系圖進(jìn)行提取,獲取有效的客戶信息,找出浙江中煙與客戶之間的關(guān)聯(lián)規(guī)則,改善企業(yè)與客戶的關(guān)系,提高企業(yè)的核心競(jìng)爭(zhēng)力。

2 改進(jìn)的FP-Growth算法

眾所周知,Apriori是非常經(jīng)典的關(guān)聯(lián)分析頻繁模式挖掘算法,在產(chǎn)生頻繁模式完全集之前需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次的掃描,使得其算法時(shí)間與空間復(fù)雜度較大。同時(shí),在頻繁項(xiàng)集的長(zhǎng)度很大時(shí),對(duì)數(shù)據(jù)庫(kù)的打描次數(shù)也會(huì)增加,而且在數(shù)據(jù)庫(kù)容量很大的時(shí)候,所需掃描的時(shí)間也會(huì)變長(zhǎng),從而造成龐大的IO開銷。因此Han Jiawei教授提出根據(jù)事務(wù)數(shù)據(jù)庫(kù)構(gòu)建FP-Tree,然后基于FP-Tree生成頻繁模式集。然而傳統(tǒng)的FP-Growth算法還是存在著很多缺陷,如若涉及了龐大的事務(wù)數(shù)據(jù)庫(kù),將需要很大的空間來存放FP-Tree,并且由于算法需要遞歸生成條件數(shù)據(jù)庫(kù)和條件FP-Tree,在挖掘時(shí)需要反復(fù)地搜索FP-Tree,這將需要更多的指針,所以內(nèi)存開銷很大。

本文結(jié)合浙江中煙實(shí)際情況以及煙草業(yè)務(wù)的數(shù)據(jù)特點(diǎn),提出了利用集合來進(jìn)行FP-Tree挖掘的算法,對(duì)FP-Growth算法進(jìn)行改進(jìn)。

2.1 算法描述

首先通過最小支持度尋找到所有的頻繁項(xiàng)集,然后結(jié)合最小置信度,篩選出所需要的關(guān)聯(lián)規(guī)則來提高算法的效率。

第一步為構(gòu)造FP-TREE:

1) 對(duì)事務(wù)數(shù)據(jù)庫(kù)D進(jìn)行掃描,獲取D中包含的所有頻繁項(xiàng)[Ck]以及它們各自的支持度([support])。如表1所示的事務(wù)數(shù)據(jù)庫(kù),進(jìn)行掃描后得到表2。

2) 對(duì)[Ck]中的頻繁項(xiàng)按其支持度的降序排序,結(jié)果設(shè)為項(xiàng)頭表[L]。

3) 創(chuàng)建FP-Tree的根節(jié)點(diǎn),標(biāo)記為“null”。

4) 再次對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行掃描,對(duì)[D]中的每個(gè)事務(wù),創(chuàng)建[T]的頻繁項(xiàng),并按[Ck]中次序排序。結(jié)果如表3所示。

5) 設(shè)排序后的頻繁項(xiàng)表為[[m|M]],其中[m]是第一個(gè)頻繁項(xiàng)目,[M]為剩余的頻繁項(xiàng)目。

6) 調(diào)用[insert-tree([m|M],T)]。其中[insert-tree([m|M],T)]執(zhí)法行走過道程為:若[T]有可能兒子孫女[N],使[N.item-name=m.item-name],則將[N]的計(jì)算結(jié)果數(shù)學(xué)取值增量幅度加減乘除[1];否則可以繼續(xù)。創(chuàng)建設(shè)數(shù)據(jù)庫(kù)一個(gè)新鮮事的本節(jié)信息斷點(diǎn)[N],并設(shè)計(jì)算法其計(jì)數(shù)公式值將來成為[1],鏈接下來求得到達(dá)目的地它的父親一輩節(jié)日快樂斷點(diǎn),并且通??梢赃^于節(jié)日斷點(diǎn)鏈接結(jié)論構(gòu)造將其實(shí)以鏈接到具體有相反不同[item-name]的節(jié)日斷點(diǎn)。如下所示:若[M]非常好空中,遞歸調(diào)用[insert-tree(M,N)]。當(dāng)事情結(jié)束務(wù)數(shù)學(xué)信息依據(jù)庫(kù)存再次打掃地上描完成畢業(yè)后,一個(gè)完成整齊的[FP-TREE]就建設(shè)站立即了,如圖1所示。

圖1 FP-TREE

接下來為挖掘[FP-TREE]:

1) 從前可以架構(gòu)造[FP-TREE]中得出去的項(xiàng)目巨頭上帶有表L的最后一項(xiàng)目方案開始,根據(jù)節(jié)日氣息斷點(diǎn)鏈接得到達(dá)地點(diǎn)其分?jǐn)?shù)支援,若有多倍jio個(gè)分?jǐn)?shù)枝葉,逐漸一分?jǐn)?shù)開始考查過慮。

2) 對(duì)于每件事情個(gè)分?jǐn)?shù)枝,取得到該節(jié)日信息斷點(diǎn)到根本節(jié)日信息點(diǎn)[null]的路上直徑,對(duì)該路上直徑上的所以不行有節(jié)日信息斷點(diǎn)進(jìn)門行分組合(根本節(jié)日斷點(diǎn)除法以外),并對(duì)各分組成合并的計(jì)算量。數(shù)學(xué)取值([count])進(jìn)出行走設(shè)計(jì)步驟放置。

3) 將來所以有組成合并的派送入候車大選頻率繁索項(xiàng)目模型建立式集中處理組合[Sk],若[Sk]中國(guó)發(fā)展已經(jīng)過變化存在相會(huì)不同的組成合,則進(jìn)入行走階段合一個(gè)并列。

4) 合作并列操作中國(guó)信息保留原始持組合合成標(biāo)記識(shí)不應(yīng)該變,計(jì)算的數(shù)學(xué)值為二個(gè)王者之和。當(dāng)該馬路上直徑上所以有的分組合并進(jìn)行入口候車室選頻率繁索模型公式采集[Sk]后,對(duì)該路上直徑點(diǎn)上的節(jié)點(diǎn)進(jìn)入行走修改立正。

5) 使該路徑上的所有節(jié)點(diǎn)的[count]值減去當(dāng)前考慮節(jié)點(diǎn)的[count]值。

6) 上述步伐驟完全成立后再取表[L]頭現(xiàn)的上面六一項(xiàng),重復(fù)上述過時(shí)行程直接到達(dá)表現(xiàn)中國(guó)信息所以有的項(xiàng)目都被考差過慮完畢業(yè)或相應(yīng)該考查過慮的節(jié)日斷點(diǎn)計(jì)算器數(shù)學(xué)值[count=0]為止,此時(shí),對(duì)整齊劃一棵果樹的挖礦發(fā)掘處理科過道程結(jié)束。所得結(jié)果如表4所示:

最后面用給出去的最小支撐把持溫度計(jì)([min_sup])剔骨乘除[Sk]中計(jì)算數(shù)學(xué)等值小于[min_sup]的組成合并。這樣,留在[Sk]中國(guó)發(fā)展的就是所以以將要尋找到的頻率繁索模型情況公式,依然找到此可構(gòu)建造出門所以有的候車室選關(guān)門聯(lián)系規(guī)矩準(zhǔn)則,并可使用給予門的最小安置信任溫度([min_suf])篩選取出門所以需要求到位的開關(guān)系聯(lián)規(guī)矩準(zhǔn)則。

上述步驟中用到的一些概念公式如下:

支持度,用于度量一個(gè)項(xiàng)集出現(xiàn)的頻率,項(xiàng)集[{A,B}]的支持度是由同時(shí)包含[A]和[B]的事務(wù)總個(gè)數(shù)組成的,如公式1所示。

[support({A,B})=NumberOfTransaction(A,B)] (1)

其中最小支持度([min_sup])是一個(gè)閾值參數(shù),在處理關(guān)聯(lián)模型之前根據(jù)事務(wù)類型自行設(shè)置,其主要是對(duì)項(xiàng)集進(jìn)行限制。

置信度,是關(guān)聯(lián)規(guī)則的屬性,按公式2進(jìn)行計(jì)算。

[Confidence(A≥B)=Confidence(B|A)=Support({A,B})Support({A})] (2)

最小置上述步驟中用到的一些概念信任上述步驟中用到的一些概念度([min_suf])同樣是一個(gè)閾值參數(shù),必然須用上述步驟中用到的一些概念在運(yùn)算法之所以前指定該只參加上述步驟中用到的一些概念數(shù)。它表示用上述步驟中用到的一些概念戶只對(duì)某些規(guī)矩正則感嘆上述步驟中用到的一些概念興趣,這些規(guī)矩準(zhǔn)上述步驟中用到的一些概念則擁有同比較量高等的安置不信任溫度,對(duì)項(xiàng)目上述步驟中用到的一些概念集合沒有信任何種人影音響,但會(huì)影響關(guān)聯(lián)規(guī)則。

2.2算法應(yīng)用

對(duì)于浙江中煙的客戶關(guān)系,主要有企業(yè)客戶關(guān)系與個(gè)人客戶關(guān)系兩類,但只要我們選擇了正確的項(xiàng)目集,按照以上所提出的算法進(jìn)行分析,就能得到企業(yè)與客戶之間的關(guān)聯(lián)規(guī)則,從而構(gòu)建出相應(yīng)的客戶關(guān)系圖。

首先建立最外層的事務(wù)數(shù)據(jù)庫(kù),按照上述算法對(duì)于該事務(wù)數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集進(jìn)行分析,找出包含有下一層信息的頻繁項(xiàng),再對(duì)其建立事務(wù)數(shù)據(jù)庫(kù),依次向下尋找,直到最底層為止。然后企業(yè)決策人員再根據(jù)客戶關(guān)系圖從底層依次向上進(jìn)行分析,找出各頻繁項(xiàng)之間的關(guān)聯(lián)規(guī)則,挖掘出企業(yè)與客戶潛在的關(guān)系,制定相應(yīng)的決策行為。

對(duì)于企業(yè)客戶,主要是指各商業(yè)公司客戶,我們首先建立事務(wù)數(shù)據(jù)庫(kù)D,其中包含有項(xiàng)目集{市場(chǎng)分析情況、市場(chǎng)要點(diǎn)、建立業(yè)務(wù)時(shí)間、相關(guān)事件、公司相關(guān)人員等},依照企業(yè)給定的最小置信度和支持度,按照改進(jìn)的FP-Growth算法篩選出所需關(guān)聯(lián)規(guī)則,提取出客戶關(guān)系圖,如圖2所示。該客戶關(guān)系圖為杭州各商業(yè)公司之間的關(guān)系,決策者可以根據(jù)該圖為杭州各商業(yè)公司制定相應(yīng)的決策行為。

圖2 杭州各商業(yè)公司客戶關(guān)系圖

對(duì)上述事務(wù)數(shù)據(jù)庫(kù)D中的某個(gè)頻繁項(xiàng),如市場(chǎng)要點(diǎn)等還可以進(jìn)行細(xì)分,所以可以提取出來再建立事務(wù)數(shù)據(jù)庫(kù)D2,其中包含的項(xiàng)集有(銷量、批發(fā)量、市場(chǎng)份額、同比、庫(kù)存)等項(xiàng)目。同樣可根據(jù)所提出的算法提取出此客戶關(guān)系圖,如圖3所示。

圖3 杭州市商業(yè)公司市場(chǎng)要點(diǎn)情況

上圖中可以看出對(duì)于D2中的頻繁項(xiàng),如卷煙銷量等還可以再進(jìn)行提取,建立事務(wù)數(shù)據(jù)庫(kù)D3,包含的項(xiàng)集有利群一到五類煙以及一些特殊品牌卷煙銷量,通過上述算法,可以分析出各品牌煙之間的關(guān)系(圖4),如哪些品牌的煙一起售出的可能性更高等,哪些品牌所占市場(chǎng)份額更高,從而分析出消費(fèi)者的購(gòu)買行為,為企業(yè)提供更多的信息,改善與客戶的關(guān)系,進(jìn)而提高企業(yè)的利潤(rùn)。

圖4 杭州市利群品牌銷量情況

浙江中煙的個(gè)人客戶同樣可以采用該算法進(jìn)行篩選與提取。如個(gè)人的姓名、性別、籍貫、工作分管、家庭地址、個(gè)人愛好等,對(duì)這些屬性建立事務(wù)數(shù)據(jù)庫(kù),提取出客戶關(guān)系圖,如圖5所示。

圖5 人員信息關(guān)系圖

對(duì)于每個(gè)客戶的來訪、拜訪記錄等信息還可以繼續(xù)建立事務(wù)數(shù)據(jù)庫(kù),提取下一層的客戶關(guān)系圖,如圖6與圖7所示。

通常過去這些客人門戶關(guān)連系圖,可以更加直接遠(yuǎn)觀的看出企業(yè)與客戶之所以間的關(guān)系,分析出客戶的行為,使企業(yè)能更好的為客戶進(jìn)行服務(wù),提高客戶的忠誠(chéng)度和滿意度,通過一個(gè)客戶帶來更多的客戶,使企業(yè)在未來的競(jìng)爭(zhēng)中占有更大優(yōu)勢(shì)。

3 結(jié)論

本文介紹了客戶關(guān)系圖對(duì)于企業(yè)的重要性,并對(duì)基于關(guān)聯(lián)規(guī)則分析的FP-Growth算法進(jìn)行改進(jìn),解決了傳統(tǒng)FP-Growth算法的缺陷,能更有效的篩選出所需的關(guān)聯(lián)規(guī)則。最后利用此算法,對(duì)浙江中煙的客戶關(guān)系圖進(jìn)行提取。

參考文獻(xiàn):

[1] 盧德勇.重慶市農(nóng)業(yè)銀行客戶關(guān)系管理應(yīng)用初探[碩士學(xué)位論文][D].重慶:重慶大學(xué),2004:7-8.

[2] 張奎.面向煙草銷售行業(yè)CRM管理系統(tǒng)[碩士學(xué)位論文][D].濟(jì)南:山東大學(xué),2004:14.

[3] 魏爽. 基于Mobile Agent聚類挖掘算法研究[J].電腦知識(shí)與技術(shù), 2014,10(31):7249-7252.

[4] Huanhuan Chen, Qiang Wang, Yi Shen. Decision tree support vector machine based on genetic algorithm for multi-class classification[J].Journal of Systems Engineering and Electronics,2011(7):322-326.

[5] 楊光.淺析數(shù)據(jù)挖掘在CRM中的應(yīng)用[J].情報(bào)科學(xué),2005,23(2):278-280.

[6] 曾志勇,楊呈智,陶冶.負(fù)載均衡的FP-growth并行算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(4):125-126.

猜你喜歡
客戶關(guān)系管理數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
如何用微信公眾號(hào)做好客戶關(guān)系管理研究
私募基金對(duì)高凈值客戶的客戶關(guān)系管理
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
中小企業(yè)客戶關(guān)系管理實(shí)施策略探討
數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用
客戶關(guān)系管理課程實(shí)踐教學(xué)模式初探
萬科集團(tuán)住宅產(chǎn)品客戶關(guān)系管理探析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
额尔古纳市| 桃园县| 景宁| 玛多县| 凤翔县| 东源县| 婺源县| 平果县| 德兴市| 渭南市| 海安县| 扶绥县| 泸西县| 右玉县| 乌兰浩特市| 曲靖市| 陈巴尔虎旗| 苍溪县| 崇信县| 琼中| 保德县| 江阴市| 许昌县| 禹州市| 东丰县| 德惠市| 延吉市| 金寨县| 平乡县| 萨嘎县| 福安市| 静宁县| 都昌县| 玉树县| 如东县| 沂南县| 扶绥县| 砚山县| 涞源县| 千阳县| 营山县|