国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的應(yīng)用

2015-01-18 09:24:47王玉珍
宜賓學(xué)院學(xué)報 2015年12期
關(guān)鍵詞:項集置信度計數(shù)

王玉珍,王 倩

(蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅蘭州730020)

Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的應(yīng)用

王玉珍,王 倩

(蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅蘭州730020)

在介紹關(guān)聯(lián)規(guī)則的相關(guān)概念后分析了關(guān)聯(lián)規(guī)則經(jīng)典的Apriori算法,探討了Apriori算法在某商務(wù)網(wǎng)站用戶行為分析中的具體應(yīng)用,通過Apriori算法的挖掘結(jié)果分析出用戶行為特征,即用戶在點擊購買不同商品時存在著某種必然或者大概率事件,從而改善網(wǎng)站結(jié)構(gòu),提高用戶滿意度.

關(guān)聯(lián)規(guī)則;Apriori算法;用戶行為

2013年,全球網(wǎng)民總數(shù)量已超過20億,將近全球總?cè)丝诘娜种?在歐美國家,90%以上的企業(yè)都建立了自己的網(wǎng)站,通過網(wǎng)絡(luò)尋找客戶和需要的產(chǎn)品,已經(jīng)成為了新的商業(yè)銷售趨勢.隨著互聯(lián)網(wǎng)用戶數(shù)量的增多,對于網(wǎng)絡(luò)用戶行為的研究越來越重要,而關(guān)聯(lián)規(guī)則挖掘是分析用戶行為特征的重要方法之一.本文以某商務(wù)網(wǎng)站為例,對關(guān)聯(lián)規(guī)則挖掘算法(Apriori算法)在用戶行為分析中的具體應(yīng)用進行了研究.所研究的內(nèi)容對改善網(wǎng)站結(jié)構(gòu),增加網(wǎng)站點擊率等方面有重要意義.

因關(guān)聯(lián)規(guī)則挖掘算法在用戶行為分析中的重用性,近年來不少學(xué)者給予了高度的關(guān)注.如,孫燕花[1]從安全的角度分析了用戶行為,利用CURE算法,建立模型,提供用戶行為的分析框架,區(qū)分用戶的正常行為和異常行為;王振宇[2]利用Hadoop框架,設(shè)計海量日志數(shù)據(jù)處理模型,分析搜索引擎中用戶的行為,從而改進搜索引擎的交互功能;丁青[3]以校園網(wǎng)的用戶為對象,利用K-means算法,進行聚類分析,分析出校園用戶行為特征,從而對校園網(wǎng)進行改進,滿足用戶個性化需求;柴巧葉[4]通過關(guān)聯(lián)規(guī)則分析,利用FrequentAccess算法,發(fā)現(xiàn)用戶的頻繁訪問模式;馬力[5]從檢測和分析的角度,研究Internet的網(wǎng)絡(luò)用戶行為,討論了正常行為的聚類研究方法和異類行為的檢測方法,提供了一種有效解決網(wǎng)絡(luò)用戶行為自主發(fā)現(xiàn)的途徑;杜海濤[6]探討了關(guān)聯(lián)規(guī)則算法在購物籃分析中的應(yīng)用,重點分析了超市消費者的消費行為,通過分析發(fā)現(xiàn)商品之間的關(guān)聯(lián)規(guī)則,從而調(diào)整商品位置,使其更符合消費者的消費習(xí)慣,提高銷售業(yè)績;張忻[7]介紹了關(guān)聯(lián)規(guī)則挖掘的基本原理,利用Apriori算法分析網(wǎng)絡(luò)用戶行為并建立了模型;丁振國[8]根據(jù)SNS用戶行為存在序列性這一特點,利用序列模式挖掘,通過GSP算法對社交網(wǎng)絡(luò)用戶行為進行分析,從而改進網(wǎng)站結(jié)構(gòu)、優(yōu)化社交網(wǎng)絡(luò)等.可見,目前該領(lǐng)域的研究成果還是比較多,從不同角度對用戶行為分析進行了研究,但還未形成系統(tǒng)性,因此本文運用關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法——Apriori算法,對某商務(wù)網(wǎng)站的用戶行為進行分析,發(fā)現(xiàn)用戶行為特征,從而改善網(wǎng)站結(jié)構(gòu),提高用戶滿意度.

1 關(guān)聯(lián)規(guī)則挖掘概述

1.1 相關(guān)概念

定義1項集:用表示數(shù)據(jù)庫中各項的集合,并且用表示所有事務(wù)的集合.每個事務(wù)ti包含的項集都是I的子集.在關(guān)聯(lián)分析中,項集是項的集合,用X表示,可以包含0個或多個項.如果一個項集包含k個項,則稱它為k-項集.

定義2支持度計數(shù):指在事務(wù)集T中某個項集X出現(xiàn)的次數(shù),即事務(wù)集T包含特定項集的事務(wù)個數(shù).通常,項集X的支持度計數(shù)σ(X)可以表示為:

其中,符號 ||·表示集合中元素的個數(shù).

定義3支持度和置信度:支持度(support)就是該項集的頻繁程度.置信度(confidence)用來確定Y在包含的事務(wù)中出現(xiàn)的頻繁程度,相當(dāng)于Y在X條件下的條件概率.用數(shù)學(xué)公式表示支持度(s)和置信度(c)如下:

定義4頻繁項集:如果一個項集的支持度計數(shù)大于或等于給定的最小支持度閥值,那么就稱它為頻繁項集,否則稱為非頻繁項集.

定義5關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是形如A→B的蘊含表達式,并且A和B沒有交集,即A?B=?.

定義6先驗原理:如果一個項集是頻繁的,則它的所有子集一定也是頻繁的.相反,如果一個項集是非頻繁的,則它的所有超集也一定是非頻繁的.把該規(guī)則稱為先驗原理.

定義7FK-1×FK-1方法:函數(shù)候選k-項集產(chǎn)生的過程,通過合并一對頻繁(k-1)-項集產(chǎn)生,并且僅當(dāng)它們的前k-2個項都相同時,才能合并.用數(shù)學(xué)方式解釋:令和 B=是一對頻繁(k-1)-項集,合并A和 B,如果它們滿足如下條件:

1.2 Apriori算法

Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,它率先利用了基于支持度的剪枝技術(shù),系統(tǒng)的控制候選項集指數(shù)增長.

算法1中給出了Apriori算法產(chǎn)生頻繁項集部分的偽代碼:

算法1 Apriori算法的頻繁項集產(chǎn)生

步驟1:k=1

步驟3:repeat

步驟4: k=k+1

步驟5: Ck=FK-1×FK-1//產(chǎn)生候選項集

步驟6:for每個事務(wù)t∈Tdo

步驟8: for每個候選項集c∈Ctdo

步驟9: σ(c)=σ(c)+1 //支持度計數(shù)增值

步驟10: endfor

步驟11:endfor

步驟13:untilFk=?

步驟14:Result=?Fk

令Ck為候選k-項集集合,而Fk為頻繁k-項集的集合:

第一步:該算法通過單遍掃描事務(wù)數(shù)據(jù)庫,確定每個項的支持度.掃描完后,就得到所有頻繁1-項集的集合F1(步驟1和步驟2).

第二步:使用上一次迭代發(fā)現(xiàn)的頻繁(k-1)-項集,產(chǎn)生新的候選k-項集(步驟5).候選項集的產(chǎn)生使用FK-1×FK-1方法實現(xiàn).

第三步:掃描事務(wù)數(shù)據(jù)集(步驟6-10),對候選項的支持度計數(shù).確定包含在每一個事務(wù)t中的Ck中的所有候選k-項集.

第四步:計算候選項的支持度計數(shù)之后,刪去支持度計數(shù)小于minsup的所有候選項集(步驟12).

第五步:當(dāng)沒有新的頻繁項集產(chǎn)生,即Fk為空集時,算法結(jié)束(步驟13).

2 Apriori算法在用戶行為分析中的應(yīng)用

利用關(guān)聯(lián)規(guī)則,可分析商務(wù)網(wǎng)站的用戶行為,發(fā)現(xiàn)產(chǎn)品之間的關(guān)聯(lián)關(guān)系,分析影響用戶購買的因素,預(yù)測用戶下一個購買行為.通過關(guān)聯(lián)規(guī)則分析可以全面了解用戶的需求,能夠?qū)崟r處理,分析周期較短,并且能夠形成良性循環(huán).下面以Apriori算法在某商務(wù)網(wǎng)站中的應(yīng)用為例,分析其具體應(yīng)用過程.

2.1 Apriori算法應(yīng)用過程

將Apriori算法應(yīng)用到收集了的某商務(wù)網(wǎng)站數(shù)據(jù)挖掘分析中,可以發(fā)現(xiàn)用戶行為特征.由于源數(shù)據(jù)屬性和記錄都比較多,僅選取一部分數(shù)據(jù)進行關(guān)聯(lián)分析(如表1所示).

表1 某商務(wù)網(wǎng)站商品部分交易記錄

2.1.1 產(chǎn)生頻繁項集

①對事務(wù)數(shù)據(jù)庫進行第一次遍歷,將事務(wù)數(shù)據(jù)庫中的每個項集都作為候選1-項集F1中的元素,并且確定各元素的支持度計數(shù)(如圖1所示).

圖1 搜索候選1-項集和頻繁1-項集

②設(shè)定一個最小支持度計數(shù),假設(shè)為3,則最小支持度閥值就是3/9=33.3%.這樣就可以確定頻繁1-項集C1(如圖1所示)

③運用頻繁1-項集,產(chǎn)生候選2-項集F2.這里采用C1⊕C1方法,產(chǎn)生的F2中包含個2-項集.再次掃描事務(wù)數(shù)據(jù)庫,獲得候選2-項集F2中各元素的支持度計數(shù)(如圖2所示).

④根據(jù)設(shè)定的最小頻繁支持度計數(shù),確定頻繁2-項集C2.

⑤采用FK-1×FK-1方法,利用頻繁2-項集,產(chǎn)生候選3項集,遍歷事務(wù)數(shù)據(jù)庫,計算各項集的支持度計數(shù)(如圖3所示).

⑥根據(jù)設(shè)定的最小頻繁支持度計數(shù),進行剪枝,確定頻繁3-項集C3(如圖4所示).

圖2 搜索候選2-項集和頻繁2項集

圖3 通過合并一對頻繁2-項集生成候選3-項集F3

圖4 通過剪枝生成頻繁3-項集C3

⑦同理,采用FK-1×FK-1方法,利用頻繁3-項集,產(chǎn)生候選4項集F4{A ,B,C,D},游歷事務(wù)數(shù)據(jù)庫得支持度計數(shù)為1,所以沒有頻繁4-項集.

⑧此時找到了所有頻繁項集,即{A,B,D}和{A,C,D}以及它們的非零子集.

2.1.2 產(chǎn)生強關(guān)聯(lián)規(guī)則

(Ⅰ)對于每個頻繁項集C3,產(chǎn)生C3的所有非空子集:{A ,B},{A ,D},{B ,D},{A ,C},{C ,D},{A},{B},{C},{D}.

(Ⅱ)設(shè)最小置信度閥值為70%,根據(jù)置信度公式,求得各關(guān)聯(lián)規(guī)則的置信度:

根據(jù)各關(guān)聯(lián)規(guī)則的置信度可知,第⑴、⑸、⑹、⑽規(guī)則,由于它們的信任度大于最小置信度閥值,屬于強關(guān)聯(lián)規(guī)則被保留下來.

2.2 應(yīng)用關(guān)聯(lián)規(guī)則算法的結(jié)果分析

根據(jù)以上關(guān)聯(lián)規(guī)則分析,可以得出商務(wù)網(wǎng)站用戶行為的某些特征.通過⑴可知,用戶購買了A和B就一定會購買產(chǎn)品D;通過⑸可知,如果用戶購買了A和C,則一定會購買產(chǎn)品D;根據(jù)⑹可知,如果用戶購買了產(chǎn)品C和D,則再購買產(chǎn)品A的概率為75%;根據(jù)⑽分析出如果用戶購買產(chǎn)品C,就有75%的可能性同時購買A和D.由此可以得出以下結(jié)論:

(1)由于某些原因,用戶在購買A和B產(chǎn)品或者A和C產(chǎn)品,就一定會購買D產(chǎn)品.

(2)用戶如果購買了C和D產(chǎn)品,有很大可能購買A產(chǎn)品,但不是百分之百可能.

(3)產(chǎn)品C和產(chǎn)品A、D的銷量有很大的聯(lián)系,用戶如果購買了C產(chǎn)品,就有很大可能購買A和D產(chǎn)品.

通過關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn)的用戶行為特征,可以對網(wǎng)站結(jié)構(gòu)進行改進,使之更充分地滿足用戶需求,從而提高用戶滿意度.根據(jù)各產(chǎn)品之間的關(guān)聯(lián)關(guān)系,該商務(wù)網(wǎng)站可以采取各種促銷手段,調(diào)整銷售方式,提高利潤.

2.3 算法驗證

對Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的有效性進行了驗證.實驗環(huán)境為Windows7、Intel Corei5@3.1GHz、4GB內(nèi)存,用VC++語言實現(xiàn)了Apriori算法.測試數(shù)據(jù)是來自于蘭州市的一家購物網(wǎng)站——三維商城(www.3d100.cn),從該網(wǎng)站的交易數(shù)據(jù)庫中隨機抽取了12000條交易記錄,共涉及300多個商品.首先要對收集到的數(shù)據(jù)進行清洗、凈化、整理,將數(shù)據(jù)整合成能被挖掘算法利用的數(shù)據(jù),保存于事務(wù)數(shù)據(jù)庫中;然后,進行關(guān)聯(lián)規(guī)則挖掘.將最小支持度閾值設(shè)為33%,最小置信度閾值設(shè)為70%,利用Apriori算法對用戶所購買的產(chǎn)品進行相關(guān)性分析.通過算法實驗發(fā)現(xiàn),Apriori算法可以找出商務(wù)網(wǎng)站用戶所購買商品之間的關(guān)聯(lián)規(guī)則,分析影響用戶購買的因素,預(yù)測用戶的下一次購買行為.同時,也可根據(jù)顧客購買商品的相關(guān)性,發(fā)現(xiàn)消費者在消費過程中的喜好,從而可以更好地開發(fā)顧客的購買潛力,實現(xiàn)商務(wù)網(wǎng)站的利益最大化.

3 總結(jié)

Apriori算法是關(guān)聯(lián)規(guī)則分析中的經(jīng)典算法,通過先驗原則找到頻繁項集,并根據(jù)置信度求得強關(guān)聯(lián)規(guī)則.雖然這種算法需要多次掃描數(shù)據(jù)庫,但是其操作簡便、便于理解.將Apriori算法應(yīng)用到商務(wù)網(wǎng)站的用戶行為分析中,是一種非常有意義的嘗試.根據(jù)分析結(jié)果可以了解用戶的行為特征,從而制定相應(yīng)的網(wǎng)絡(luò)營銷策略或調(diào)整商務(wù)網(wǎng)站結(jié)構(gòu),提高用戶的滿意度.

[1]孫燕花,李杰,李建.基于CURE算法的網(wǎng)絡(luò)用戶行為分析[J].計算機技術(shù)與發(fā)展,2011,21(9):35-38.

[2]王振宇,郭力.基于Hadoop的搜索引擎用戶行為分析[J].計算機工程與科學(xué),2011,33(4):115-120.

[3]丁青,周留根,朱愛兵,等.基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計算機應(yīng)用,2010,31(6):74-80.

[4]柴巧葉.基于關(guān)聯(lián)規(guī)則的用戶頻繁訪問模式研究[J].太原師范學(xué)院學(xué)報,2011,10(2):87-89.

[5]馬力,焦李成,董富強.一種Internet的網(wǎng)絡(luò)用戶行為分析方法的研究[J].微電子學(xué)與計算機,2005,22(7):124-126.

[6]杜海濤,陳定方,張波.一種基于關(guān)聯(lián)規(guī)則的超市購物籃分析方法[J].湖北工業(yè)大學(xué)學(xué)報,2008,23(2):53-55.

[7]張忻,李昆侖.基于關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)行為分析系統(tǒng)設(shè)計[J].電腦知識與技術(shù):學(xué)術(shù)交流,2011(4):2333-2334.

[8]丁振國,宋薇,李婧.基于序列模式挖掘的社交網(wǎng)絡(luò)用戶行為分析[J].現(xiàn)代情報,2013,33(3):56-60.

[9]王攀,張順碩,陳雪嬌.基于DBP的Web用戶行為分析關(guān)鍵技術(shù)[J].電信快報:網(wǎng)絡(luò)與通信,2008(8):13-15.

[10]王偉.關(guān)聯(lián)規(guī)則中的Apriori算法的研究與改進[D].青島:中國海洋大學(xué),2012.

[11]李強.數(shù)據(jù)挖掘中關(guān)聯(lián)分析算法研究[D].哈爾濱:哈爾濱工程大學(xué),2010.

[12]畢建欣,張岐山.關(guān)聯(lián)規(guī)則挖掘算法綜述[J].中國工程科學(xué), 2005,7(4):88-94.

[13]劉金勇.WEB數(shù)據(jù)挖掘在電子商務(wù)中的研究應(yīng)用[J].網(wǎng)絡(luò)安全, 2013(9):25-26.

[14]周賀來.Web挖掘中關(guān)聯(lián)規(guī)則的研究與應(yīng)用[D].鄭州:州州大學(xué),2006.

[15]烏文波.應(yīng)用Apriori關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)挖掘技術(shù)挖掘電子商務(wù)潛在客戶[D].杭州:浙江工業(yè)大學(xué),2012.

[16]崔寅舟.關(guān)聯(lián)規(guī)則和時序模式挖掘技術(shù)在服裝專賣店中應(yīng)用的研究[D].上海:上海交通大學(xué),2012.

[17]陳則芝,李冬梅.數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則Apriori算法的優(yōu)化[J].山西大同大學(xué)學(xué)報,2008,24(4):35-37.

【編校:王露】

AprioriAlgorithmApplicationinBusinessWebsite'sUserBehaviorAnalysis

WANGYuzhen,WANGQian
(SchoolofInformationEngineering,LanzhouUniversityofFinanceandEconomics,Lanzhou,Gansu730020,China)

Byintroducingtheconceptsofassociationrules,theassociationrules'classicalApriorialgorithmanditsappli?cationinbusinesswebsite'suserbehaviorwereanalyzed.TheresultsfromApriorialgorithmcanrevealtheuserbehavior feature,thatiswhenusersclickedtobuydifferentcommoditythereisacertaininevitableeventorahighprobability event.Thatimprovesthesitestructureandcustomersatisfaction.

associationrules;Apriorialgorithm;userbehavior

TP301.6;TP393

A

1671-5365(2015)12-0015-04

王玉珍,王倩.Apriori算法在商務(wù)網(wǎng)站用戶行為分析中的應(yīng)用[J].宜賓學(xué)院學(xué)報,2015,15(12):15-18. WANGYZ,WANGQ.AprioriAlgorithmApplicationinBusinessWebsite'sUserBehaviorAnalysis[J].JournalofYibinUniver?sity,2015,15(12):15-18.

2015-08-06修回:2015-09-09

甘肅省教育廳項目(2013B-047);2013年甘肅省高等學(xué)?;究蒲袠I(yè)務(wù)費項目

王玉珍(1970-),女,教授,碩士,研究方向為數(shù)據(jù)挖掘、電子商務(wù)

時間:2015-09-1015:38

http://www.cnki.net/kcms/detail/51.1630.z.20150910.1538.001.html

猜你喜歡
項集置信度計數(shù)
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
古人計數(shù)
遞歸計數(shù)的六種方式
古代的計數(shù)方法
正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
這樣“計數(shù)”不惱人
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
镇远县| 镇安县| 仙游县| 左贡县| 余姚市| 垦利县| 温宿县| 吉林市| 昆明市| 子洲县| 河西区| 沭阳县| 枝江市| 拉萨市| 时尚| 棋牌| 宝兴县| 延安市| 绵阳市| 高唐县| 运城市| 滦平县| 海南省| 突泉县| 长顺县| 壶关县| 西林县| 怀安县| 烟台市| 临沧市| 微博| 清徐县| 保康县| 佛冈县| 尉犁县| 梅河口市| 普定县| 封开县| 沂源县| 依安县| 南汇区|