王玉珍,王 倩
(蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅蘭州730020)
Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的應(yīng)用
王玉珍,王 倩
(蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅蘭州730020)
在介紹關(guān)聯(lián)規(guī)則的相關(guān)概念后分析了關(guān)聯(lián)規(guī)則經(jīng)典的Apriori算法,探討了Apriori算法在某商務(wù)網(wǎng)站用戶行為分析中的具體應(yīng)用,通過Apriori算法的挖掘結(jié)果分析出用戶行為特征,即用戶在點擊購買不同商品時存在著某種必然或者大概率事件,從而改善網(wǎng)站結(jié)構(gòu),提高用戶滿意度.
關(guān)聯(lián)規(guī)則;Apriori算法;用戶行為
2013年,全球網(wǎng)民總數(shù)量已超過20億,將近全球總?cè)丝诘娜种?在歐美國家,90%以上的企業(yè)都建立了自己的網(wǎng)站,通過網(wǎng)絡(luò)尋找客戶和需要的產(chǎn)品,已經(jīng)成為了新的商業(yè)銷售趨勢.隨著互聯(lián)網(wǎng)用戶數(shù)量的增多,對于網(wǎng)絡(luò)用戶行為的研究越來越重要,而關(guān)聯(lián)規(guī)則挖掘是分析用戶行為特征的重要方法之一.本文以某商務(wù)網(wǎng)站為例,對關(guān)聯(lián)規(guī)則挖掘算法(Apriori算法)在用戶行為分析中的具體應(yīng)用進行了研究.所研究的內(nèi)容對改善網(wǎng)站結(jié)構(gòu),增加網(wǎng)站點擊率等方面有重要意義.
因關(guān)聯(lián)規(guī)則挖掘算法在用戶行為分析中的重用性,近年來不少學(xué)者給予了高度的關(guān)注.如,孫燕花[1]從安全的角度分析了用戶行為,利用CURE算法,建立模型,提供用戶行為的分析框架,區(qū)分用戶的正常行為和異常行為;王振宇[2]利用Hadoop框架,設(shè)計海量日志數(shù)據(jù)處理模型,分析搜索引擎中用戶的行為,從而改進搜索引擎的交互功能;丁青[3]以校園網(wǎng)的用戶為對象,利用K-means算法,進行聚類分析,分析出校園用戶行為特征,從而對校園網(wǎng)進行改進,滿足用戶個性化需求;柴巧葉[4]通過關(guān)聯(lián)規(guī)則分析,利用FrequentAccess算法,發(fā)現(xiàn)用戶的頻繁訪問模式;馬力[5]從檢測和分析的角度,研究Internet的網(wǎng)絡(luò)用戶行為,討論了正常行為的聚類研究方法和異類行為的檢測方法,提供了一種有效解決網(wǎng)絡(luò)用戶行為自主發(fā)現(xiàn)的途徑;杜海濤[6]探討了關(guān)聯(lián)規(guī)則算法在購物籃分析中的應(yīng)用,重點分析了超市消費者的消費行為,通過分析發(fā)現(xiàn)商品之間的關(guān)聯(lián)規(guī)則,從而調(diào)整商品位置,使其更符合消費者的消費習(xí)慣,提高銷售業(yè)績;張忻[7]介紹了關(guān)聯(lián)規(guī)則挖掘的基本原理,利用Apriori算法分析網(wǎng)絡(luò)用戶行為并建立了模型;丁振國[8]根據(jù)SNS用戶行為存在序列性這一特點,利用序列模式挖掘,通過GSP算法對社交網(wǎng)絡(luò)用戶行為進行分析,從而改進網(wǎng)站結(jié)構(gòu)、優(yōu)化社交網(wǎng)絡(luò)等.可見,目前該領(lǐng)域的研究成果還是比較多,從不同角度對用戶行為分析進行了研究,但還未形成系統(tǒng)性,因此本文運用關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法——Apriori算法,對某商務(wù)網(wǎng)站的用戶行為進行分析,發(fā)現(xiàn)用戶行為特征,從而改善網(wǎng)站結(jié)構(gòu),提高用戶滿意度.
1.1 相關(guān)概念
定義1項集:用表示數(shù)據(jù)庫中各項的集合,并且用表示所有事務(wù)的集合.每個事務(wù)ti包含的項集都是I的子集.在關(guān)聯(lián)分析中,項集是項的集合,用X表示,可以包含0個或多個項.如果一個項集包含k個項,則稱它為k-項集.
定義2支持度計數(shù):指在事務(wù)集T中某個項集X出現(xiàn)的次數(shù),即事務(wù)集T包含特定項集的事務(wù)個數(shù).通常,項集X的支持度計數(shù)σ(X)可以表示為:
其中,符號 ||·表示集合中元素的個數(shù).
定義3支持度和置信度:支持度(support)就是該項集的頻繁程度.置信度(confidence)用來確定Y在包含的事務(wù)中出現(xiàn)的頻繁程度,相當(dāng)于Y在X條件下的條件概率.用數(shù)學(xué)公式表示支持度(s)和置信度(c)如下:
定義4頻繁項集:如果一個項集的支持度計數(shù)大于或等于給定的最小支持度閥值,那么就稱它為頻繁項集,否則稱為非頻繁項集.
定義5關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是形如A→B的蘊含表達式,并且A和B沒有交集,即A?B=?.
定義6先驗原理:如果一個項集是頻繁的,則它的所有子集一定也是頻繁的.相反,如果一個項集是非頻繁的,則它的所有超集也一定是非頻繁的.把該規(guī)則稱為先驗原理.
定義7FK-1×FK-1方法:函數(shù)候選k-項集產(chǎn)生的過程,通過合并一對頻繁(k-1)-項集產(chǎn)生,并且僅當(dāng)它們的前k-2個項都相同時,才能合并.用數(shù)學(xué)方式解釋:令和 B=是一對頻繁(k-1)-項集,合并A和 B,如果它們滿足如下條件:
1.2 Apriori算法
Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,它率先利用了基于支持度的剪枝技術(shù),系統(tǒng)的控制候選項集指數(shù)增長.
算法1中給出了Apriori算法產(chǎn)生頻繁項集部分的偽代碼:
算法1 Apriori算法的頻繁項集產(chǎn)生
步驟1:k=1
步驟3:repeat
步驟4: k=k+1
步驟5: Ck=FK-1×FK-1//產(chǎn)生候選項集
步驟6:for每個事務(wù)t∈Tdo
步驟8: for每個候選項集c∈Ctdo
步驟9: σ(c)=σ(c)+1 //支持度計數(shù)增值
步驟10: endfor
步驟11:endfor
步驟13:untilFk=?
步驟14:Result=?Fk
令Ck為候選k-項集集合,而Fk為頻繁k-項集的集合:
第一步:該算法通過單遍掃描事務(wù)數(shù)據(jù)庫,確定每個項的支持度.掃描完后,就得到所有頻繁1-項集的集合F1(步驟1和步驟2).
第二步:使用上一次迭代發(fā)現(xiàn)的頻繁(k-1)-項集,產(chǎn)生新的候選k-項集(步驟5).候選項集的產(chǎn)生使用FK-1×FK-1方法實現(xiàn).
第三步:掃描事務(wù)數(shù)據(jù)集(步驟6-10),對候選項的支持度計數(shù).確定包含在每一個事務(wù)t中的Ck中的所有候選k-項集.
第四步:計算候選項的支持度計數(shù)之后,刪去支持度計數(shù)小于minsup的所有候選項集(步驟12).
第五步:當(dāng)沒有新的頻繁項集產(chǎn)生,即Fk為空集時,算法結(jié)束(步驟13).
利用關(guān)聯(lián)規(guī)則,可分析商務(wù)網(wǎng)站的用戶行為,發(fā)現(xiàn)產(chǎn)品之間的關(guān)聯(lián)關(guān)系,分析影響用戶購買的因素,預(yù)測用戶下一個購買行為.通過關(guān)聯(lián)規(guī)則分析可以全面了解用戶的需求,能夠?qū)崟r處理,分析周期較短,并且能夠形成良性循環(huán).下面以Apriori算法在某商務(wù)網(wǎng)站中的應(yīng)用為例,分析其具體應(yīng)用過程.
2.1 Apriori算法應(yīng)用過程
將Apriori算法應(yīng)用到收集了的某商務(wù)網(wǎng)站數(shù)據(jù)挖掘分析中,可以發(fā)現(xiàn)用戶行為特征.由于源數(shù)據(jù)屬性和記錄都比較多,僅選取一部分數(shù)據(jù)進行關(guān)聯(lián)分析(如表1所示).
表1 某商務(wù)網(wǎng)站商品部分交易記錄
2.1.1 產(chǎn)生頻繁項集
①對事務(wù)數(shù)據(jù)庫進行第一次遍歷,將事務(wù)數(shù)據(jù)庫中的每個項集都作為候選1-項集F1中的元素,并且確定各元素的支持度計數(shù)(如圖1所示).
圖1 搜索候選1-項集和頻繁1-項集
②設(shè)定一個最小支持度計數(shù),假設(shè)為3,則最小支持度閥值就是3/9=33.3%.這樣就可以確定頻繁1-項集C1(如圖1所示)
③運用頻繁1-項集,產(chǎn)生候選2-項集F2.這里采用C1⊕C1方法,產(chǎn)生的F2中包含個2-項集.再次掃描事務(wù)數(shù)據(jù)庫,獲得候選2-項集F2中各元素的支持度計數(shù)(如圖2所示).
④根據(jù)設(shè)定的最小頻繁支持度計數(shù),確定頻繁2-項集C2.
⑤采用FK-1×FK-1方法,利用頻繁2-項集,產(chǎn)生候選3項集,遍歷事務(wù)數(shù)據(jù)庫,計算各項集的支持度計數(shù)(如圖3所示).
⑥根據(jù)設(shè)定的最小頻繁支持度計數(shù),進行剪枝,確定頻繁3-項集C3(如圖4所示).
圖2 搜索候選2-項集和頻繁2項集
圖3 通過合并一對頻繁2-項集生成候選3-項集F3
圖4 通過剪枝生成頻繁3-項集C3
⑦同理,采用FK-1×FK-1方法,利用頻繁3-項集,產(chǎn)生候選4項集F4{A ,B,C,D},游歷事務(wù)數(shù)據(jù)庫得支持度計數(shù)為1,所以沒有頻繁4-項集.
⑧此時找到了所有頻繁項集,即{A,B,D}和{A,C,D}以及它們的非零子集.
2.1.2 產(chǎn)生強關(guān)聯(lián)規(guī)則
(Ⅰ)對于每個頻繁項集C3,產(chǎn)生C3的所有非空子集:{A ,B},{A ,D},{B ,D},{A ,C},{C ,D},{A},{B},{C},{D}.
(Ⅱ)設(shè)最小置信度閥值為70%,根據(jù)置信度公式,求得各關(guān)聯(lián)規(guī)則的置信度:
根據(jù)各關(guān)聯(lián)規(guī)則的置信度可知,第⑴、⑸、⑹、⑽規(guī)則,由于它們的信任度大于最小置信度閥值,屬于強關(guān)聯(lián)規(guī)則被保留下來.
2.2 應(yīng)用關(guān)聯(lián)規(guī)則算法的結(jié)果分析
根據(jù)以上關(guān)聯(lián)規(guī)則分析,可以得出商務(wù)網(wǎng)站用戶行為的某些特征.通過⑴可知,用戶購買了A和B就一定會購買產(chǎn)品D;通過⑸可知,如果用戶購買了A和C,則一定會購買產(chǎn)品D;根據(jù)⑹可知,如果用戶購買了產(chǎn)品C和D,則再購買產(chǎn)品A的概率為75%;根據(jù)⑽分析出如果用戶購買產(chǎn)品C,就有75%的可能性同時購買A和D.由此可以得出以下結(jié)論:
(1)由于某些原因,用戶在購買A和B產(chǎn)品或者A和C產(chǎn)品,就一定會購買D產(chǎn)品.
(2)用戶如果購買了C和D產(chǎn)品,有很大可能購買A產(chǎn)品,但不是百分之百可能.
(3)產(chǎn)品C和產(chǎn)品A、D的銷量有很大的聯(lián)系,用戶如果購買了C產(chǎn)品,就有很大可能購買A和D產(chǎn)品.
通過關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn)的用戶行為特征,可以對網(wǎng)站結(jié)構(gòu)進行改進,使之更充分地滿足用戶需求,從而提高用戶滿意度.根據(jù)各產(chǎn)品之間的關(guān)聯(lián)關(guān)系,該商務(wù)網(wǎng)站可以采取各種促銷手段,調(diào)整銷售方式,提高利潤.
2.3 算法驗證
對Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的有效性進行了驗證.實驗環(huán)境為Windows7、Intel Corei5@3.1GHz、4GB內(nèi)存,用VC++語言實現(xiàn)了Apriori算法.測試數(shù)據(jù)是來自于蘭州市的一家購物網(wǎng)站——三維商城(www.3d100.cn),從該網(wǎng)站的交易數(shù)據(jù)庫中隨機抽取了12000條交易記錄,共涉及300多個商品.首先要對收集到的數(shù)據(jù)進行清洗、凈化、整理,將數(shù)據(jù)整合成能被挖掘算法利用的數(shù)據(jù),保存于事務(wù)數(shù)據(jù)庫中;然后,進行關(guān)聯(lián)規(guī)則挖掘.將最小支持度閾值設(shè)為33%,最小置信度閾值設(shè)為70%,利用Apriori算法對用戶所購買的產(chǎn)品進行相關(guān)性分析.通過算法實驗發(fā)現(xiàn),Apriori算法可以找出商務(wù)網(wǎng)站用戶所購買商品之間的關(guān)聯(lián)規(guī)則,分析影響用戶購買的因素,預(yù)測用戶的下一次購買行為.同時,也可根據(jù)顧客購買商品的相關(guān)性,發(fā)現(xiàn)消費者在消費過程中的喜好,從而可以更好地開發(fā)顧客的購買潛力,實現(xiàn)商務(wù)網(wǎng)站的利益最大化.
Apriori算法是關(guān)聯(lián)規(guī)則分析中的經(jīng)典算法,通過先驗原則找到頻繁項集,并根據(jù)置信度求得強關(guān)聯(lián)規(guī)則.雖然這種算法需要多次掃描數(shù)據(jù)庫,但是其操作簡便、便于理解.將Apriori算法應(yīng)用到商務(wù)網(wǎng)站的用戶行為分析中,是一種非常有意義的嘗試.根據(jù)分析結(jié)果可以了解用戶的行為特征,從而制定相應(yīng)的網(wǎng)絡(luò)營銷策略或調(diào)整商務(wù)網(wǎng)站結(jié)構(gòu),提高用戶的滿意度.
[1]孫燕花,李杰,李建.基于CURE算法的網(wǎng)絡(luò)用戶行為分析[J].計算機技術(shù)與發(fā)展,2011,21(9):35-38.
[2]王振宇,郭力.基于Hadoop的搜索引擎用戶行為分析[J].計算機工程與科學(xué),2011,33(4):115-120.
[3]丁青,周留根,朱愛兵,等.基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計算機應(yīng)用,2010,31(6):74-80.
[4]柴巧葉.基于關(guān)聯(lián)規(guī)則的用戶頻繁訪問模式研究[J].太原師范學(xué)院學(xué)報,2011,10(2):87-89.
[5]馬力,焦李成,董富強.一種Internet的網(wǎng)絡(luò)用戶行為分析方法的研究[J].微電子學(xué)與計算機,2005,22(7):124-126.
[6]杜海濤,陳定方,張波.一種基于關(guān)聯(lián)規(guī)則的超市購物籃分析方法[J].湖北工業(yè)大學(xué)學(xué)報,2008,23(2):53-55.
[7]張忻,李昆侖.基于關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)行為分析系統(tǒng)設(shè)計[J].電腦知識與技術(shù):學(xué)術(shù)交流,2011(4):2333-2334.
[8]丁振國,宋薇,李婧.基于序列模式挖掘的社交網(wǎng)絡(luò)用戶行為分析[J].現(xiàn)代情報,2013,33(3):56-60.
[9]王攀,張順碩,陳雪嬌.基于DBP的Web用戶行為分析關(guān)鍵技術(shù)[J].電信快報:網(wǎng)絡(luò)與通信,2008(8):13-15.
[10]王偉.關(guān)聯(lián)規(guī)則中的Apriori算法的研究與改進[D].青島:中國海洋大學(xué),2012.
[11]李強.數(shù)據(jù)挖掘中關(guān)聯(lián)分析算法研究[D].哈爾濱:哈爾濱工程大學(xué),2010.
[12]畢建欣,張岐山.關(guān)聯(lián)規(guī)則挖掘算法綜述[J].中國工程科學(xué), 2005,7(4):88-94.
[13]劉金勇.WEB數(shù)據(jù)挖掘在電子商務(wù)中的研究應(yīng)用[J].網(wǎng)絡(luò)安全, 2013(9):25-26.
[14]周賀來.Web挖掘中關(guān)聯(lián)規(guī)則的研究與應(yīng)用[D].鄭州:州州大學(xué),2006.
[15]烏文波.應(yīng)用Apriori關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)挖掘技術(shù)挖掘電子商務(wù)潛在客戶[D].杭州:浙江工業(yè)大學(xué),2012.
[16]崔寅舟.關(guān)聯(lián)規(guī)則和時序模式挖掘技術(shù)在服裝專賣店中應(yīng)用的研究[D].上海:上海交通大學(xué),2012.
[17]陳則芝,李冬梅.數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則Apriori算法的優(yōu)化[J].山西大同大學(xué)學(xué)報,2008,24(4):35-37.
【編校:王露】
AprioriAlgorithmApplicationinBusinessWebsite'sUserBehaviorAnalysis
WANGYuzhen,WANGQian
(SchoolofInformationEngineering,LanzhouUniversityofFinanceandEconomics,Lanzhou,Gansu730020,China)
Byintroducingtheconceptsofassociationrules,theassociationrules'classicalApriorialgorithmanditsappli?cationinbusinesswebsite'suserbehaviorwereanalyzed.TheresultsfromApriorialgorithmcanrevealtheuserbehavior feature,thatiswhenusersclickedtobuydifferentcommoditythereisacertaininevitableeventorahighprobability event.Thatimprovesthesitestructureandcustomersatisfaction.
associationrules;Apriorialgorithm;userbehavior
TP301.6;TP393
A
1671-5365(2015)12-0015-04
王玉珍,王倩.Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的應(yīng)用[J].宜賓學(xué)院學(xué)報,2015,15(12):15-18. WANGYZ,WANGQ.AprioriAlgorithmApplicationinBusinessWebsite'sUserBehaviorAnalysis[J].JournalofYibinUniver?sity,2015,15(12):15-18.
2015-08-06修回:2015-09-09
甘肅省教育廳項目(2013B-047);2013年甘肅省高等學(xué)?;究蒲袠I(yè)務(wù)費項目
王玉珍(1970-),女,教授,碩士,研究方向為數(shù)據(jù)挖掘、電子商務(wù)
時間:2015-09-1015:38
http://www.cnki.net/kcms/detail/51.1630.z.20150910.1538.001.html