摘 要:本文從東莞電子商務(wù)的現(xiàn)狀出發(fā),對在Web數(shù)據(jù)挖掘技術(shù)影響下,東莞電子商務(wù)企業(yè)產(chǎn)生的大量復雜信息進行了實時和深層次地分析。隨著數(shù)據(jù)倉庫及Web等新型數(shù)據(jù)源的日益普及,在龐大的信息海洋中找到有用的數(shù)據(jù),并對這些數(shù)據(jù)進行分析處理,從而發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性變得越來越重要。在對數(shù)據(jù)進行推理的過程中找到對企業(yè)有用的信息,從而提高企業(yè)在電子商務(wù)中的競爭力,為企業(yè)謀取更多的利潤。
關(guān)鍵詞:東莞電子商務(wù);數(shù)據(jù)挖掘
中圖分類號:TP311.13 文獻標識碼:A 文章編號:2096-4706(2018)04-0021-03
Abstract:In this paper,for the current situation of electronic commerce in Dongguan,the Web data mining technology was employed to deeply analysis the large number of complex information in real time which produced by Dongguan electronic commerce enterprise. With the growing popularity of data warehouses and new data sources such as Web,it is becoming more and more important to find useful data in a huge ocean of information,and to analyze and process these data. In the process of inference to the data,find the useful information to the enterprise,so as to improve the competitiveness of the enterprise in the e-commerce and make more profit for the enterprise.
Keywords:Dongguan e-commerce;data mining technology
0 引 言
東莞是一座工業(yè)大都市,地處廣州與深圳之間。據(jù)不完全統(tǒng)計,東莞本地網(wǎng)民的數(shù)量已超過350萬,且從事互聯(lián)網(wǎng)相關(guān)的企業(yè),包括網(wǎng)站營銷、網(wǎng)站搭建和網(wǎng)絡(luò)推廣等業(yè)務(wù)的電子商務(wù)企業(yè)有近2000家。此外,在全市范圍內(nèi),具備上網(wǎng)條件的企業(yè)達到95%,企業(yè)擁有自己網(wǎng)站的數(shù)目為32萬家,其中具有電子商務(wù)功能的網(wǎng)站,比如能夠進行商品訂購或商品物流信息查詢的網(wǎng)站約有1500家。據(jù)2016年統(tǒng)計,全市的企業(yè)借助自有的B2B網(wǎng)站開展網(wǎng)上貿(mào)易且完成的訂單額達到300億,故東莞擁有發(fā)展電子商務(wù)的天然優(yōu)勢,而且發(fā)展電子商務(wù)有利于促進企業(yè)信息與東莞工業(yè)智造相互融合,進而推動企業(yè)結(jié)構(gòu)調(diào)整和轉(zhuǎn)型升級。東莞目前正全力進行產(chǎn)業(yè)結(jié)構(gòu)升級,傳統(tǒng)的制造業(yè)經(jīng)過幾十年的高速發(fā)展,正面臨轉(zhuǎn)型升級的問題,這也讓電子商務(wù)在東莞擁有更大的發(fā)展空間。2014年東莞獲批創(chuàng)建國家電子商務(wù)示范城市,計劃用3~5年的時間建設(shè)成為一個以“東莞制造”網(wǎng)絡(luò)品牌和跨境貿(mào)易電子商務(wù)為核心的、具有國際影響力的電子商務(wù)名城,這是促進實體經(jīng)濟外貿(mào)轉(zhuǎn)型的戰(zhàn)略性決策。市政府出臺了每年1.5億的《東莞市電子商務(wù)專項資金管理暫行辦法》和《東莞市進一步加快電子商務(wù)發(fā)展實施意見》,為電商發(fā)展保駕護航??梢哉f,東莞電子商務(wù)已經(jīng)由表及里、從虛到實,從宣傳、啟蒙和推廣階段進入了務(wù)實發(fā)展的實施階段。
電子商務(wù)的發(fā)展使企業(yè)積累了大量的數(shù)據(jù),那么多的商業(yè)數(shù)據(jù)正迅速充實著數(shù)據(jù)庫空間,特別是數(shù)據(jù)倉庫及Web等新型數(shù)據(jù)源的日益普及。因此,在龐大的信息海洋中找到需要的或有用的數(shù)據(jù),并將這些數(shù)據(jù)轉(zhuǎn)化為綜合性的信息成為需要解決的問題。通過對這些數(shù)據(jù)進行分析處理,找到數(shù)據(jù)間的關(guān)聯(lián)性,轉(zhuǎn)換成“數(shù)據(jù)資產(chǎn)”為企業(yè)服務(wù),提高企業(yè)的競爭力,從而為企業(yè)謀求更多潛在的利潤。Web數(shù)據(jù)挖掘技術(shù)為這一需求提供了強有力的技術(shù)支持,Web數(shù)據(jù)挖掘?qū)eb頁面內(nèi)容及后臺交易的數(shù)據(jù)庫進行深度挖掘,在大量的數(shù)據(jù)海洋中提取對企業(yè)有用的信息和隱含的信息,有效地幫助企業(yè)進行分析統(tǒng)計和預測,使企業(yè)信息資源的價值得到充分地體現(xiàn)。本文從東莞電子商務(wù)的現(xiàn)狀出發(fā),對在Web數(shù)據(jù)挖掘技術(shù)影響下,東莞電子商務(wù)企業(yè)產(chǎn)生的大量信息進行了實時和深層次地分析,通過分析和探究Web日志記錄的規(guī)律,從中找出真正有用的信息,識別電子商務(wù)潛在的客戶,提高對最終用戶的服務(wù)質(zhì)量。這對企業(yè)的決策支持有很大的幫助,可以促進企業(yè)優(yōu)化資源,開拓市場,通過電子商務(wù)使企業(yè)更加智能化,使客戶服務(wù)更加個性化,在網(wǎng)絡(luò)時代為東莞的電子商務(wù)企業(yè)贏得競爭優(yōu)勢。
1 數(shù)據(jù)挖掘主要方法
數(shù)據(jù)挖掘的技術(shù)是從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價值的信息的非平凡過程,主要的方法有神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計方法、數(shù)據(jù)庫方法和機器學習方法。統(tǒng)計方法又可細分為回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、CBR、貝葉斯信念網(wǎng)絡(luò)、遺傳算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學習等)等。就電子商務(wù)行業(yè)來說,數(shù)據(jù)挖掘職位在企業(yè)內(nèi)部非常重要,營銷管理、客戶管理等環(huán)節(jié)都需要應(yīng)用數(shù)據(jù)挖掘的結(jié)果,利用數(shù)據(jù)分析來發(fā)現(xiàn)企業(yè)內(nèi)部的不足、營銷手段的不足和客戶體驗的不足等,同時還可以利用數(shù)據(jù)挖掘來了解客戶的內(nèi)在需求。為了達到這些效果,在電子商務(wù)行業(yè),大數(shù)據(jù)挖掘主要采用以下算法以及模型。
1.1 RFM模型
RFM模型是衡量客戶價值和客戶創(chuàng)造利潤能力的重要手段,對于有過購買行為的客戶,模型會通過對客戶購買的時間、頻率、金額等幾個方面進行客戶分析,并通過這個模型進行數(shù)據(jù)挖掘,確定該客戶的價值,與客戶建立長期的關(guān)系。對于一些長時間都沒有購買行為的客戶,會對他們做出一些有針對性的營銷活動來刺激消費。使用RFM模型只要根據(jù)三個不同的變量進行分組就可以實現(xiàn)會員區(qū)分。
1.2 Apriori算法
Apriori算法是一種數(shù)據(jù)挖掘工具,屬于關(guān)聯(lián)性分析的一種??梢钥闯瞿膬煞N商品具有關(guān)聯(lián)性。例如衣服和褲子等的搭配穿法,通過Apriori算法,就可以得出兩個商品之間的關(guān)聯(lián)性,確定商品的陳列等因素,也可以對客戶的購買經(jīng)歷進行組套銷售。
1.3 Spss分析
Spss分析主要是針對營銷活動的精細化分析,它使營銷活動對于客戶而言更加有針對性,也可以對數(shù)據(jù)庫中客戶購買過的商品進行分析,例如哪些客戶同時購買過這些商品。尤其現(xiàn)在針對電子商務(wù)的細分越來越精細,做好精細化營銷地分析,對于企業(yè)的營銷效果有很大的好處。
1.4 網(wǎng)站分析
訪問量、頁面停留等數(shù)據(jù)都是重要的流量指標。進行網(wǎng)站數(shù)據(jù)挖掘時,流量以及轉(zhuǎn)化率是衡量工作情況的方式之一,通過這個指標來了解其他數(shù)據(jù)的變化也至關(guān)重要。
2 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用流程
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用流程圖如圖1所示。
圖1 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
2.1 數(shù)據(jù)準備與數(shù)據(jù)預處理
(1)數(shù)據(jù)準備:根據(jù)數(shù)據(jù)挖掘任務(wù)的具體要求,在相關(guān)數(shù)據(jù)源中抽取與挖掘任務(wù)相關(guān)的數(shù)據(jù)集。
(2)數(shù)據(jù)清洗:清除錯誤異常樣本,處理缺失數(shù)據(jù),清除重復樣本。
(3)數(shù)據(jù)審核:數(shù)據(jù)統(tǒng)計錯誤審核、數(shù)據(jù)源錯誤審核和數(shù)據(jù)統(tǒng)計口徑審核。
2.2 數(shù)據(jù)探索和準備
通知輸入的數(shù)據(jù)質(zhì)量決定著模型輸出的結(jié)果,所以我們要先花時間對收集的數(shù)據(jù)進行分析和處理。一般來說,這個階段基本上占據(jù)了整個項目周期70%的時間,主要涉及兩項工作:第一,對數(shù)據(jù)進行單變量分析和雙變量分析,驗證數(shù)據(jù)是否符合相關(guān)的指標;第二,因為缺失的值會削弱模型的擬合能力或者得到的結(jié)果會變成有念頭的模型,故需要對數(shù)據(jù)中的缺失值和異常值進行處理,變量轉(zhuǎn)換后產(chǎn)生新的變量。
2.3 算法選擇
根據(jù)建模場景進行算法選擇。描述類有分類規(guī)則、聚類分析;預測類有神經(jīng)網(wǎng)絡(luò)、決策樹、時間序列、回歸分析、關(guān)聯(lián)分析、貝葉斯網(wǎng)絡(luò)、偏差檢測;評估類有因子分析、主成分分析、數(shù)學公式。結(jié)合數(shù)據(jù)情況(如離散值、連續(xù)值、數(shù)據(jù)量大?。┑冗x擇合適的算法。
2.4 模型及評估優(yōu)化
(1)模型選擇:對于數(shù)據(jù)挖掘任務(wù),可以先采用LR(分類)測試效果,數(shù)據(jù)挖掘3架馬車(分類/回歸),即RF、GBM和XGBOOST。
(2)Baseline設(shè)置:可利用一些簡單規(guī)則,比如global average預測和眾數(shù)預測等。
(3)評估方法:1)留出法(hold-out):直接將數(shù)據(jù)集分為互斥的兩個集合,一個拿來訓練,另一個拿來驗證訓練的模型,注意保持數(shù)據(jù)分布的一致性;2)交叉驗證(cross-validation):將數(shù)據(jù)集隨機分為N份,依次拿一個fold作為測試,剩下的N-1個fold作為訓練,共實驗N次。
(4)分類任務(wù):錯誤率與精度;查全率、查準率與F1;ROC與AUC等。
(5)回歸任務(wù):平均絕對值誤差;均方誤差;方差等。
另外,可根據(jù)實際的業(yè)務(wù)指標設(shè)定自己的度量標準。
3 創(chuàng)新點
利用數(shù)據(jù)挖掘技術(shù)可以節(jié)約企業(yè)的成本。節(jié)約成本是企業(yè)盈利的關(guān)鍵,將電子商務(wù)中產(chǎn)生的數(shù)據(jù)信息,比如交易數(shù)據(jù)、庫存數(shù)據(jù)和財務(wù)數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),找到企業(yè)的投入產(chǎn)出比例,最大限度地利用已有的客戶資源,開發(fā)新的客戶,增加客戶的回頭率,在數(shù)據(jù)挖掘的過程中提取有價值的商業(yè)信息,為企業(yè)的資源優(yōu)化配置提供依據(jù),使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,實現(xiàn)最佳的經(jīng)濟效益。
4 結(jié) 論
數(shù)據(jù)挖掘作為一個新興的技術(shù)手段已經(jīng)表現(xiàn)出巨大的應(yīng)用潛力。目前,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)方面的應(yīng)用已經(jīng)不僅僅是商家掘取和利用數(shù)據(jù),電子商務(wù)行業(yè)競爭越來越大的今天也是一個花錢的時代,花出去的錢能否得到收益是企業(yè)最關(guān)注的,投資回報率是大家都要考慮的,利用數(shù)據(jù)挖掘技術(shù)來分析電子商務(wù)產(chǎn)生的大量數(shù)據(jù),可以充分挖掘客戶的商品消費規(guī)律以及客戶的訪問模式,更有效地幫助企業(yè)制定有針對性的營銷策略,充分發(fā)揮企業(yè)自身的優(yōu)勢,提高企業(yè)的競爭力。因此數(shù)據(jù)挖掘技術(shù)在電子商務(wù)行業(yè)的位置也越來越重要。
參考文獻:
[1] 姜寧,牛永潔.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用——以淘寶網(wǎng)為例 [J].計算機時代,2016(7):49-52.
[2] 程宏水.網(wǎng)絡(luò)數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站設(shè)計的應(yīng)用 [J].中山大學研究生學刊(社會科學版),2007(1):107-114.
[3] 孫銘蔚.面向電子商務(wù)的WEB數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究 [J].中國新通信,2016,18(19):101.
作者簡介:吉珊珊(1985-),女,廣東梅州人,講師,網(wǎng)絡(luò)工程師,研究生。研究方向:計算機教育。