国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)規(guī)則的電子商務(wù)用戶分析及研究

2016-06-29 22:07楊知玲
電腦知識(shí)與技術(shù) 2016年13期
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù)電子商務(wù)

楊知玲

摘要:數(shù)據(jù)挖掘技術(shù)可以把電子商務(wù)的海量的數(shù)據(jù)和信息進(jìn)行一個(gè)挖掘,使這些數(shù)據(jù)和信息得到最有效的利用,既轉(zhuǎn)化為知識(shí)的過程。幫助電子商務(wù)企業(yè)分析電子商務(wù)客戶的行為,提供更加優(yōu)質(zhì)的,具有針對(duì)性的服務(wù),最終實(shí)現(xiàn)盈利。該文通過Weka完成了對(duì)數(shù)據(jù)的預(yù)處理,然后用了關(guān)聯(lián)規(guī)則中的Apriori算法對(duì)電子商務(wù)網(wǎng)絡(luò)購物用戶進(jìn)行了行為分析,最后對(duì)電子商務(wù)運(yùn)用數(shù)據(jù)挖掘技術(shù)促進(jìn)自身發(fā)展和實(shí)際應(yīng)用提出建議和意見。

關(guān)鍵詞:Weka;數(shù)據(jù)挖掘技術(shù);B2C;電子商務(wù)

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)13-0259-02

1概述

隨著各種有關(guān)數(shù)據(jù)挖掘的新技術(shù)和相關(guān)研究的出現(xiàn),使電子商務(wù)企業(yè)分析客戶行為,對(duì)客戶進(jìn)行分類,從而采取相應(yīng)對(duì)策發(fā)展新客戶,留住老客戶,提高用戶好感度和滿意度,提高自身電子商務(wù)網(wǎng)站的吸引力和影響力成為可能。電子商務(wù)的競(jìng)爭(zhēng)無比的激烈,也有著很多的商機(jī),誰能從這些數(shù)據(jù)中挖掘出可以利用的知識(shí),誰就更能在行業(yè)競(jìng)爭(zhēng)中成為獲勝的那一方。

本文研究的目的是通過運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)數(shù)據(jù)和信息(比如客戶的個(gè)人信息、電子商務(wù)網(wǎng)站用戶行為信息調(diào)查數(shù)據(jù)等)做一個(gè)分析,來挖掘出能夠?qū)﹄娮由虅?wù)企業(yè)的決策和未來的發(fā)展提供幫助的知識(shí)模型。通過數(shù)據(jù)挖掘技術(shù)所挖掘出的模式知識(shí),幫助電子商務(wù)企業(yè)分析客戶的行為,為企業(yè)發(fā)展新客戶,留住老客戶,提高企業(yè)競(jìng)爭(zhēng)力。

2用戶數(shù)據(jù)準(zhǔn)備

2.1原始數(shù)據(jù)收集

本文數(shù)據(jù)來源于淘寶網(wǎng)上商城購物平臺(tái)后臺(tái)數(shù)據(jù)庫中從2013年11月至2014年年底歷史交易信息,包括網(wǎng)購相關(guān)信息以及網(wǎng)購用戶信息等。其數(shù)據(jù)來源于數(shù)據(jù)堂(www.shujutang.com)這個(gè)大型的專題數(shù)據(jù)網(wǎng)站,數(shù)據(jù)是后綴為.xls的格式文件,需要對(duì)其進(jìn)行格式轉(zhuǎn)換為后綴是.csv的格式文件才能導(dǎo)入到Weka中進(jìn)行分析。

經(jīng)過數(shù)據(jù)篩選梳理,最終研究的樣本包括999條網(wǎng)購列表。其中,審核未通過的有248條;209條是網(wǎng)購放棄;542條成功網(wǎng)購,169條已還完網(wǎng)購。成功交易總額達(dá)3090.93萬元。

就整體研究數(shù)據(jù)來看,未通過的網(wǎng)購所占比例達(dá)到24.8%,未購買成功所占比例達(dá)到20.9%,網(wǎng)購成功僅有54.3%,從中可以看出網(wǎng)購成功率亟需提高。

2.2用戶特征分析

通過對(duì)數(shù)據(jù)源中網(wǎng)購用戶信息的整合,得到了B2C購物網(wǎng)站用戶活動(dòng)數(shù)據(jù),包括用戶的網(wǎng)購次數(shù)、成功網(wǎng)購次數(shù)、信用等級(jí)、網(wǎng)購總額等信息,這里的變量數(shù)值均是從2013年7月至2014年底的統(tǒng)計(jì)數(shù)據(jù)。為了了解B2C購物網(wǎng)站平臺(tái)用戶的不同行為模式與特征,這里本文選取網(wǎng)購用戶ID號(hào)、平均網(wǎng)購額度、網(wǎng)購總次數(shù)、網(wǎng)購成功次數(shù)、信用等級(jí)、網(wǎng)購積分(網(wǎng)購用戶作為網(wǎng)購用戶進(jìn)行購物所獲得的網(wǎng)購積分)作為聚類變量。

平均網(wǎng)購金額是指網(wǎng)購用戶在樣本2013年11月至2014年底內(nèi)的網(wǎng)購金額的平均水平。大體上說, 網(wǎng)購用戶信用等級(jí)越高,其網(wǎng)購的金額就越大。

網(wǎng)購總次數(shù),通過統(tǒng)計(jì)網(wǎng)購用戶在樣本2013年11月至2014年底內(nèi)的網(wǎng)購次數(shù),可以看出該網(wǎng)購用戶在B2C購物網(wǎng)站平臺(tái)上的活躍程度,網(wǎng)購次數(shù)越多,活躍程度越高。

網(wǎng)購成功次數(shù),成功次數(shù)越多表明網(wǎng)站越受網(wǎng)購用戶關(guān)注與信任。

信用等級(jí),作為網(wǎng)購用戶重要的信用屬性,也是電子商務(wù)企業(yè)判斷網(wǎng)購用戶購物風(fēng)險(xiǎn)的重要依據(jù)。本文研究的目的就是找出網(wǎng)購用戶信用等級(jí)所不能反映出來的網(wǎng)購用戶信用屬性,所以信用等級(jí)作為對(duì)比,在此引用。

網(wǎng)購積分,B2C網(wǎng)絡(luò)購物平臺(tái)用戶往往有網(wǎng)購用戶與賣家用戶兩個(gè)角色,一方面網(wǎng)購交易,另一方面可以進(jìn)行買賣。B2C購物網(wǎng)站平臺(tái)用戶只要成功網(wǎng)購一定金額就會(huì)獲得相應(yīng)的網(wǎng)購積分,所以,網(wǎng)購積分也是判斷網(wǎng)購用戶信用的重要因素。

2.3數(shù)據(jù)預(yù)處理

數(shù)據(jù)的預(yù)處理是整個(gè)數(shù)據(jù)挖掘過程中工作量最大的一部分,雖然處理起來相當(dāng)?shù)南臅r(shí)間,但是絕對(duì)不可以馬虎對(duì)待。這是因?yàn)闆]有經(jīng)過數(shù)據(jù)預(yù)處理的原始數(shù)據(jù)是很難被有效地利用起來的,也很難從中挖掘出有用的模型,所以進(jìn)行數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的很重要的一個(gè)過程。本文所使用的數(shù)據(jù)挖掘工具Weka就自帶了數(shù)據(jù)預(yù)處理的功能,下面是對(duì)所得數(shù)據(jù)進(jìn)行預(yù)處理的過程。

2.3.1特征選取

本次分析一共選取了17個(gè)特征600個(gè)樣本,分別是:ID號(hào)、平均購物額度、購物總次數(shù)、交易成功次數(shù)、信用等級(jí)、購物積分。

(1)ID號(hào):購物網(wǎng)站上網(wǎng)購客戶的ID ;

(2)平均購物額度:網(wǎng)購客戶平均的網(wǎng)購服務(wù)的金額;

(3)購物總次數(shù):網(wǎng)購客戶的每個(gè)月購物次數(shù);

(4)交易成功次數(shù):網(wǎng)購客戶的交易成功次數(shù);

(5)信用等級(jí):網(wǎng)購客戶的購物信用等級(jí);

(6)購物積分:網(wǎng)購客戶購物的積分;

(7)Pincome:個(gè)人年收入(萬元);

(8)Hincome:家庭年收入(萬元);

(9)Age:年齡;

(10)Gender:性別(0:女;1:男);

(11)Car:家庭擁有汽車的數(shù)量;

(12)Education:教育水平(1初中及以下;2高中;3??疲?本科;5研究生);

(13)Job:工作類型(1公司職員;2工廠工人;3公務(wù)員;4個(gè)體;5事業(yè)單位;6其他);

(14)People:家里人口數(shù)量;

(15)Children:家里未成年人數(shù)量;

(16)Housing:房屋擁有類型(0—租房;1—買房);

(17)Area:房屋居住面積(平方米)。

2.3.2數(shù)據(jù)清理

本次分析的數(shù)據(jù)都是有效的,不存在缺失值。即是說區(qū)域、月服務(wù)、年齡、婚姻狀況、居住時(shí)間、收入、受教育程度、工作時(shí)間、家庭人數(shù)等屬性值都對(duì)本次數(shù)據(jù)挖掘有用的。但是ID號(hào)對(duì)挖掘沒有意義,進(jìn)行刪除。經(jīng)過數(shù)據(jù)審核,個(gè)別特征值出現(xiàn)錯(cuò)誤,如年齡的值域出現(xiàn)“200”的錯(cuò)誤,利用本屬性均值填充。

2.3.3數(shù)據(jù)離散化和分層

Weka識(shí)別的數(shù)據(jù)格式是arff,文件格式通過Weka命令窗口轉(zhuǎn)化。Apriori只能處理離散型數(shù)據(jù),數(shù)據(jù)集中有不少的數(shù)值型數(shù)據(jù),需要將其轉(zhuǎn)化為離散型數(shù)據(jù),如年齡、收入等。概念分層可以將具有多個(gè)值域的低層次的概念劃分為若干個(gè)高層次概念,高層次概念的概括性減少了多個(gè)概念的干擾,更利于對(duì)分層后的用戶進(jìn)行定義,為了避免詳細(xì)信息丟失和挖掘更有價(jià)值的規(guī)則,因此概念層次的劃分可以經(jīng)過多次調(diào)整,如對(duì)擁有家庭汽車數(shù)量值域(0,1,2,3,4)劃分為(有、無)。

3關(guān)聯(lián)規(guī)則分析在電子商務(wù)中的應(yīng)用

本文所采用的關(guān)聯(lián)規(guī)則的挖掘目標(biāo)就是要通過對(duì)一些電子商務(wù)網(wǎng)購用戶的家庭情況、收入情況等特征進(jìn)行分析,從而找出用戶特征與購買行為之間的關(guān)系。

3.1用戶特征與行為關(guān)聯(lián)分析

本文用Apriori算法對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘, 雖然 Apriori 算法可以直接挖掘生成表中的交易事務(wù)數(shù)據(jù)集,但是為了關(guān)聯(lián)挖掘其他算法的需要,先把交易事務(wù)數(shù)據(jù)集轉(zhuǎn)換成關(guān)系數(shù)據(jù)集。

數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換和離散化處理之后,執(zhí)行Apriori算法。設(shè)最低條件支持度為15%,最小規(guī)則置信度為30%,最大前項(xiàng)數(shù)為5,挖掘出10條關(guān)聯(lián)規(guī)則,生成的10條規(guī)則如下圖所示:

關(guān)聯(lián)規(guī)則體現(xiàn)出前后項(xiàng)之間一定的因果關(guān)系,但并不是全部的規(guī)則都具有實(shí)際意義。因此結(jié)合實(shí)際,從以上規(guī)則中選擇若干規(guī)則分析。

通過規(guī)則2、3、4和5,可以看到用戶是否有小孩、是否有房屋對(duì)顧客是否購物成功次數(shù)有強(qiáng)關(guān)聯(lián)。由上述結(jié)果可知,同時(shí)有房屋、購物且成功的用戶占總用戶的90%,有房屋的用戶成功購物分別占總訂單數(shù)的91%,有小孩的人有91%會(huì)網(wǎng)購,房屋面積越大,網(wǎng)購次數(shù)越高。由此可見,房屋、網(wǎng)購、是否有小孩、網(wǎng)購成功次數(shù)這幾個(gè)變量關(guān)聯(lián)度較高,與用戶網(wǎng)絡(luò)購物行為關(guān)系密切。

3.2基于關(guān)聯(lián)規(guī)則的用戶分析應(yīng)用

通過上述分析結(jié)果,可以得知用戶是否有小孩,是否有房屋等信息對(duì)購物的成交率有一定的關(guān)聯(lián)。

利用關(guān)聯(lián)規(guī)則,可以對(duì)網(wǎng)購用戶的行為進(jìn)行分析,從中挖掘出用戶特征和行為的相關(guān)性,向用戶推薦相關(guān)的產(chǎn)品,促成交易的成功率,實(shí)現(xiàn)電子商務(wù)企業(yè)的盈利。比如淘寶等網(wǎng)上商城會(huì)對(duì)客戶的個(gè)人認(rèn)證信息以及所建設(shè)的信用等級(jí)體系等數(shù)據(jù)進(jìn)行分析,來對(duì)不同特征的客戶群體提供個(gè)性化的服務(wù),以及站點(diǎn)版面的安排,頁面的廣告投放側(cè)重點(diǎn)等。

通過利用關(guān)聯(lián)規(guī)則中的Apriori算法對(duì)網(wǎng)購用戶行為進(jìn)行分析,可以挖掘出網(wǎng)購用戶行為之間的相關(guān)性問題,從而向用戶推薦相關(guān)聯(lián)的產(chǎn)品,提高網(wǎng)購成交率。比如,喜歡籃球運(yùn)動(dòng)的網(wǎng)購用戶,他們會(huì)比較多的關(guān)注有關(guān)籃球方面的東西,喜歡化妝品的網(wǎng)購用戶(通常是女性),她們會(huì)對(duì)化妝品的品牌以及一些相關(guān)的商品比較敏感等等。那么電視網(wǎng)站在進(jìn)行Web站點(diǎn)的排版設(shè)計(jì)和廣告投入時(shí),就可以根據(jù)用戶的這些瀏覽行為習(xí)慣向不同的客戶群推薦不用的商品內(nèi)容,提供個(gè)性化的服務(wù)。網(wǎng)購用戶的瀏覽行為和習(xí)慣是無法捉摸的,甚至跨度非常大,網(wǎng)購用戶可以關(guān)注體育類的、食品類的、學(xué)習(xí)類等多種不同類別的商品信息。

利用關(guān)聯(lián)規(guī)則可以對(duì)這些用戶行為的相關(guān)性進(jìn)行分析,進(jìn)而使得網(wǎng)站也能構(gòu)建出類似于大賣場(chǎng)一樣的購物籃模型。比如,當(dāng)網(wǎng)購用戶更多的停留在食品界面的時(shí)候,我們可以在向他/她推薦食品專欄的同時(shí),提供運(yùn)動(dòng)健身用品專欄;再者,當(dāng)網(wǎng)購用戶選購尿布的時(shí)候,我們可以同時(shí)推薦啤酒等商品信息,這其實(shí)和大賣場(chǎng)的經(jīng)典購物籃分析啤酒與尿布的用例是一致的。

根據(jù)網(wǎng)購用戶對(duì)某一商品的購買次數(shù)和在某一頁面的停留時(shí)間等行為,電子商務(wù)企業(yè)可以推出多套組合的商品,并以更加優(yōu)惠的價(jià)格向客戶提供出售。舉個(gè)例子,如果用戶大批量的購買羽毛球,那么我們可以推測(cè)此類客戶為羽毛球愛好者,而羽毛球、羽毛球鞋、運(yùn)動(dòng)衣服則成為相關(guān)聯(lián)的商品,那么電子商務(wù)網(wǎng)站可以將這些進(jìn)行組合以更加優(yōu)惠的價(jià)格銷售。最后,電子商務(wù)企業(yè)為了分析眾多用戶的消費(fèi)變化,以完成對(duì)商品的價(jià)格和商品的種類加以調(diào)整,以留住老顧客,吸引新顧客,提高客戶的滿意度和好感度,最終實(shí)現(xiàn)電子商務(wù)企業(yè)的盈利業(yè)務(wù)目標(biāo),可以將同一用戶不同時(shí)間段購買的產(chǎn)品做一個(gè)分組序列。

參考文獻(xiàn):

[1] 文燦.數(shù)據(jù)挖掘在電子商務(wù)銷售數(shù)據(jù)中的分析和應(yīng)用[D].青島理工大學(xué)計(jì)算機(jī)工程學(xué)院,2010,12(18).

[2] 夏小云.C2C電子商務(wù)數(shù)據(jù)挖掘的研究及應(yīng)用[D].贛州:江西理工大學(xué),2007.

[3] 張澎,王魯達(dá),唐日成.電子商務(wù)中的數(shù)據(jù)挖掘[D].郴州:湘南學(xué)院,2009.

[4] 張冬青.數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用問題研究[D].哈爾濱:黑龍江大學(xué),2005.

猜你喜歡
數(shù)據(jù)挖掘技術(shù)電子商務(wù)
《電子商務(wù)法》如何助力直銷
電子商務(wù)
關(guān)于加快制定電子商務(wù)法的議案
汤阴县| 晴隆县| 贺州市| 阿克陶县| 同仁县| 嘉鱼县| 澎湖县| 江陵县| 普洱| 香港| 五原县| 都兰县| 巴林右旗| 荣成市| 安远县| 遂昌县| 赤峰市| 东丽区| 平罗县| 望都县| 天祝| 仁怀市| 巩留县| 来凤县| 永济市| 桃园县| 百色市| 松滋市| 栾川县| 九龙城区| 广宁县| 女性| 武夷山市| 镇巴县| 罗城| 正镶白旗| 东方市| 剑河县| 长宁县| 灵璧县| 衡水市|