王鑫
(山東商業(yè)職業(yè)技術(shù)學(xué)院,濟南250103)
?
跨行業(yè)數(shù)據(jù)挖掘在農(nóng)產(chǎn)品電子商務(wù)中的應(yīng)用研究
王鑫
(山東商業(yè)職業(yè)技術(shù)學(xué)院,濟南250103)
摘要:利用跨行業(yè)數(shù)據(jù)挖掘方法對農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站搜集的各種信息進行整理和分析,并運用數(shù)據(jù)挖掘模型對數(shù)據(jù)進行運算,可以發(fā)現(xiàn)農(nóng)產(chǎn)品相關(guān)客戶的行為特征、購買習(xí)慣以及商品的特性。通過發(fā)現(xiàn)的這些規(guī)律對農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站進行優(yōu)化可以提高客戶的訪問率和轉(zhuǎn)化率,大大提高農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的運營效果。
關(guān)鍵詞:CRISP-DM;電子商務(wù);網(wǎng)絡(luò)日志;C5.0模型
跨行業(yè)數(shù)據(jù)挖掘過程標準是目前業(yè)界主流的數(shù)據(jù)挖掘流程,簡稱CRISP-DM。1999年由歐盟機構(gòu)聯(lián)合起草,在金融、醫(yī)療保健、市場營銷、零售業(yè)、制造業(yè)、司法、工程和科學(xué)、保險等行業(yè)適用廣泛。據(jù)統(tǒng)計,超過60%的挖掘模型使用跨行業(yè)數(shù)據(jù)挖掘技術(shù)。商業(yè)理解(Business Understanding)、數(shù)據(jù)理解(Data Understanding)、數(shù)據(jù)準備(Data Preparation)、建立模型(Modeling)、模型評估(E鄄valuation)、模型應(yīng)用(Deployment)六個部分完成了數(shù)據(jù)挖掘在各個行業(yè)的應(yīng)用,他們從大量的數(shù)據(jù)中,通過分類、估計、預(yù)測、相關(guān)分析、關(guān)聯(lián)分析等手段,揭示以往未被發(fā)現(xiàn)的、隱含的、有潛在價值的信息。但是,此項技術(shù)在農(nóng)產(chǎn)品電子商務(wù)中鮮有應(yīng)用。
在商業(yè)應(yīng)用上,數(shù)據(jù)挖掘能夠解決以下技術(shù)難關(guān):數(shù)據(jù)庫營銷(Database Marketing)、客戶群劃分(Customer Segmentation Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Anal鄄ysis)、客戶信用分析(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,以上應(yīng)用全部基于Inter鄄net的發(fā)展。[1]由于互聯(lián)網(wǎng)的信息交互,大量的數(shù)據(jù)被記錄在Web頁面或者數(shù)據(jù)庫中,人們通過不同的手段提取這些記錄的價值。農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站同樣有強大的數(shù)據(jù)庫支撐,任何一個客戶在網(wǎng)絡(luò)上的瀏覽軌跡、注冊、登陸、購買信息等都會被忠實的記錄下來。通過特殊的技術(shù)和方法,從Web頁面文檔或者網(wǎng)絡(luò)活動中提取具有潛在價值和隱藏的信息,進而對這些信息進行處理和分析,最后獲得有價值的農(nóng)業(yè)相關(guān)信息。除了強大的數(shù)據(jù)庫之外,農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站同樣有各類不同的客戶群,以及基于經(jīng)紀人、種植戶等交叉銷售的行為,具備使用CRISP-DM的基礎(chǔ)。經(jīng)過跨行業(yè)數(shù)據(jù)挖掘,可以分析農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站客戶流失的原因,以及客戶信用等級評價等問題。[2]以上問題的解決對于農(nóng)產(chǎn)品電子商務(wù)業(yè)務(wù)運營商來說意義重大,他們對了解用戶以及客戶的使用和購買習(xí)慣具有極大興趣,通過對網(wǎng)站結(jié)構(gòu)進行優(yōu)化,使得客戶瀏覽、購買體驗更加舒適。根據(jù)客戶消費習(xí)慣推送有價值的銷售信息,有效實現(xiàn)精準營銷。只有更好的吸引客戶,增加客戶粘性,最終才能提高網(wǎng)站的轉(zhuǎn)化率。結(jié)合數(shù)據(jù)挖掘的各項條件以及農(nóng)產(chǎn)品電子商務(wù)的各項特性,利用數(shù)據(jù)挖掘來提升農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的運營效果,具有廣闊的應(yīng)用空間。
(一)商務(wù)理解下的基礎(chǔ)數(shù)據(jù)來源
電子商務(wù)的屬性是商務(wù)。通常,電子商務(wù)是通過網(wǎng)站這一載體實現(xiàn)的,因此商務(wù)活動要首先從電子商務(wù)網(wǎng)站的數(shù)據(jù)分析開始。一般來說,電子商務(wù)網(wǎng)站運營狀況可查看訪問量和成交量兩類數(shù)據(jù)。訪問量考察這是一個客戶的多次訪問還是不同客戶的一次訪問,每次訪問的時間長短和訪問深度表現(xiàn)如何。[3]成交量是通過購買的產(chǎn)品組合發(fā)現(xiàn)客戶的購買習(xí)慣和產(chǎn)品之間的聯(lián)系,通過多次交易行為提取購買習(xí)慣。農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站與其他網(wǎng)站相同,也是以商業(yè)屬性為主,同樣我們可以通過查看訪問量和成交量兩類數(shù)據(jù)來取得農(nóng)產(chǎn)品商務(wù)的特征。農(nóng)產(chǎn)品的網(wǎng)絡(luò)數(shù)據(jù)分析根據(jù)不同數(shù)據(jù)提取層次,分為以下幾類:
從整體網(wǎng)站進行的數(shù)據(jù)準備。網(wǎng)站級別的數(shù)據(jù)挖掘通常將農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站作為一個整體進行分析,主要內(nèi)容包括:訪問網(wǎng)站的用戶(消費者、瀏覽者、經(jīng)紀人、種植戶等)分析、網(wǎng)站購買情況分析、網(wǎng)站銷售金額分析等情況,以上數(shù)據(jù)可以從網(wǎng)絡(luò)日志中提取并進行挖掘。[4]
從頁面進行的數(shù)據(jù)準備。需要關(guān)注:哪些網(wǎng)頁訪問量最大、訪問者進入與退出網(wǎng)頁分析,同樣通過網(wǎng)絡(luò)日志提取相應(yīng)分析數(shù)據(jù)。
從訪問者個體行為進行的數(shù)據(jù)準備。對于訪問級別的數(shù)據(jù)挖掘通常從訪問者的角度進行數(shù)據(jù)分析,主要涉及以下方面:網(wǎng)站訪問留滯時間分析、網(wǎng)站/網(wǎng)頁訪問順序、網(wǎng)站/網(wǎng)頁訪問導(dǎo)致購買行為分析,訪問級別的數(shù)據(jù)分析。除了依賴于網(wǎng)絡(luò)日志數(shù)據(jù),也需要結(jié)合Cookie數(shù)據(jù)分析。[5]
從訪問者群體進行的數(shù)據(jù)準備。訪問者級別數(shù)據(jù)挖掘除了關(guān)注訪問情況之外,還需要注意不同的訪問是否由同一個訪問者產(chǎn)生和發(fā)起,同時對該訪問者不同時間的訪問行為進行進一步的對比分析與挖掘。訪問者級別的數(shù)據(jù)挖掘除了利用網(wǎng)絡(luò)日志搜集相應(yīng)數(shù)據(jù),還需要網(wǎng)站注冊信息數(shù)據(jù)。
從客戶進行的數(shù)據(jù)準備。客戶級別的網(wǎng)絡(luò)數(shù)據(jù)挖掘關(guān)注已經(jīng)至少產(chǎn)生過一次購買行為的客戶。在進行客戶級別分析的時候,往往利用包括網(wǎng)絡(luò)日志、注冊信息、瀏覽歷史、購買歷史行為數(shù)據(jù)、評價信息等多方面的數(shù)據(jù)。
(二)數(shù)據(jù)采集途徑
數(shù)據(jù)挖掘的對象是通過各種路徑搜集來的各種數(shù)據(jù),電子商務(wù)數(shù)據(jù)主要來源于電子商務(wù)網(wǎng)頁,包括:點擊流數(shù)據(jù)(Click stream)、結(jié)果數(shù)據(jù)(Out鄄comes)、研究數(shù)據(jù)(Research Data)、競爭數(shù)據(jù)(Competitive Data)這四類,他們的來源途徑分別為:
點擊流數(shù)據(jù)。通過農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的Web日志、Web Beacons、JavaScript標記和包嗅探器獲得,點擊流數(shù)據(jù)記錄了用戶訪問網(wǎng)站的全部情況,包括用戶的電腦信息,如用戶瀏覽器類型、各類經(jīng)人員(包括農(nóng)民經(jīng)紀人、種植戶)等訪問歷史、客戶購買的訪問歷史數(shù)據(jù);用戶的請求與相應(yīng)信息,如種植戶查看或者操作的內(nèi)容,以及點擊后的響應(yīng)情況(響應(yīng)時間、數(shù)據(jù)流量等)等。[6]
結(jié)果數(shù)據(jù)。結(jié)果數(shù)據(jù)是各類農(nóng)產(chǎn)品相關(guān)用戶在網(wǎng)站中使用服務(wù)或者購買產(chǎn)品時被記錄的數(shù)據(jù)。對農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站來說,此部分數(shù)據(jù)是數(shù)據(jù)挖掘的主要內(nèi)容。[7]
農(nóng)產(chǎn)品研究數(shù)據(jù)。主要是通過市場調(diào)研手段獲得的數(shù)據(jù),這部分數(shù)據(jù)通常是網(wǎng)站根據(jù)業(yè)務(wù)需要主動獲取。
競爭對手數(shù)據(jù)。來源于競爭對手或者相關(guān)網(wǎng)站的數(shù)據(jù)的收集與整理。
(三)數(shù)據(jù)挖掘內(nèi)容
網(wǎng)絡(luò)日志中包含了眾多的信息,但是對于電子商務(wù)數(shù)據(jù)分析來說這些信息大多不能直接用于數(shù)據(jù)分析,需要對這些信息進行各種復(fù)雜的交換,才能從中提取對數(shù)據(jù)分析有使用價值的變量,同時結(jié)合其他來源的多個數(shù)據(jù)集進行數(shù)據(jù)挖掘。[8]一般在對網(wǎng)絡(luò)數(shù)據(jù)進行整理的時候有以下三個步驟。
首先,厘清訪問數(shù)據(jù),識別不同的訪問及訪問者。在網(wǎng)絡(luò)日志中,IP地址相同、操作間隔不超過30分鐘,并且用戶代理(瀏覽器)未發(fā)生變化則可認為是同一訪問;為了識別同一訪問者對網(wǎng)站的多次訪問,還需要通過Cookie信息以判斷其為同一個人(使用同一臺電腦)。
其次,從網(wǎng)絡(luò)日志中提取農(nóng)產(chǎn)品網(wǎng)站的變量信息。提取用戶的搜索關(guān)鍵詞信息,便于生成反映用戶查詢關(guān)鍵詞信息的數(shù)據(jù)表(包含查詢次數(shù)超過30次的關(guān)鍵詞);提取訪問時間、每頁停留時間、訪問連續(xù)頁面直接的間隔時間、訪問的頂級目錄和從何處(從何種搜索引擎或門戶網(wǎng)站)進入網(wǎng)頁等信息,便于生成用戶網(wǎng)絡(luò)訪問習(xí)慣數(shù)據(jù)表。
最后,清洗并合并數(shù)據(jù)。將網(wǎng)絡(luò)日志中提取的數(shù)據(jù)與其他來源的數(shù)據(jù)進行合并,將注冊信息、登陸信息、產(chǎn)品信息、購買信息等與從網(wǎng)絡(luò)日志中提取的信息進行合并,進而生成比較完整的分析數(shù)據(jù)集。
(一)訪問用戶購買行為預(yù)測模型
用戶購買行為預(yù)測模型所采用的大多是決策樹模型,它可以利用一系列規(guī)則劃分,通過建立樹狀圖用于分類和預(yù)測。當用戶在農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站產(chǎn)生購買行為時,用戶一定會在訂購確認或者付款界面進行訂單確認。此模型的目的即預(yù)測用戶的哪些特征或者其在網(wǎng)頁上的行為導(dǎo)致用戶使用訂購確認或者付款界面。決策樹模型常用的算法有CART、CHAID、ID3、ID4.5.C5.0,在農(nóng)產(chǎn)品數(shù)據(jù)挖掘中,C5.0模型是應(yīng)用較廣泛的一種,其優(yōu)點是適用于處理大數(shù)據(jù)集,采用Boosting方式提高模型準確率。[9]
C5.0模型采用屬性的信息增益率來選擇屬性,根據(jù)帶來最大信息增益的字段拆分樣本,以信息熵的下降速度作為最佳分支變量和分割閥值的依據(jù)。[10]在利用C5.0算法建立模型之前需要對從網(wǎng)絡(luò)日志中搜集到的一次訪問中包含的多條記錄變?yōu)橐淮卧L問只包含一條記錄,并且要將用戶方位網(wǎng)頁、引用網(wǎng)頁、網(wǎng)頁頂級目錄分別作為不同變量來建模。由于用戶使用訂購確認或者付款界面的頻率相對較少,因此在建模過程中需要對變量進行平衡處理。
(二)農(nóng)產(chǎn)品精準推薦模型
農(nóng)產(chǎn)品精準推薦模型的原理是利用聚類分析算法對用戶進行細分,找出每個聚類類別最常購買的若干農(nóng)產(chǎn)品。利用C5.0決策樹模型的聚類功能,將用戶訪問網(wǎng)站的行為數(shù)據(jù)作為模型的信息熵,對用戶進行細分,對訪問用戶根據(jù)其訪問行為歸入到某個聚類類別,并向此類別的客戶推薦該聚類類別中歷史客戶最常購買的產(chǎn)品。模型建立之后可以根據(jù)用戶訪問的頁面想起推薦感興趣的產(chǎn)品,包括消費者購買的水果,或農(nóng)民種植戶購買的化肥,均可以實現(xiàn)精準營銷。
(三)人性化網(wǎng)頁推薦模型
農(nóng)產(chǎn)品網(wǎng)站使用客戶具有其特殊的使用習(xí)慣,通過搜集用戶在網(wǎng)站上的行為,包括訪問用戶最初瀏覽的三個頁面,結(jié)合瀏覽這三個頁面的時間間隔這5個變量,利用C5.0模型對用戶的習(xí)慣進行聚類。模型建立之后,當新的訪問用戶訪問了3個頁面之后,可以應(yīng)用之前已經(jīng)生成的聚類模型將其歸入某個聚類中,并根據(jù)該類別中最常被查看的3個頁面向該訪問用戶推薦頁面,推薦的形式可以體現(xiàn)為第4個頁面的鏈接,也可以在第4個頁面的特定區(qū)域先生這些頁面的概況。
除此之外,還可以利用電子商務(wù)數(shù)據(jù)對訪問者建立模型,包括訪問者細分模型、訪問內(nèi)容預(yù)測模型、訪問內(nèi)容細分模型、基于關(guān)聯(lián)貴州的產(chǎn)品特征模型等等。
利用數(shù)據(jù)挖掘方法對農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站搜集的各種信息進行整理和分析,并運用數(shù)據(jù)挖掘模型對數(shù)據(jù)進行運算,可以發(fā)現(xiàn)農(nóng)產(chǎn)品相關(guān)客戶的行為特征、購買習(xí)慣以及商品的特性。通過發(fā)現(xiàn)的這些規(guī)律對農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站進行優(yōu)化,可以提高客戶的訪問率和轉(zhuǎn)化率,大大提高農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的運營效果。
參考文獻:
[1]藺莉,潘浩.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識與技術(shù),2010(04):816-818.
[2]于小兵,曹杰,張夢男.B2C電子商務(wù)客戶流失原因評估研究[J].模糊系統(tǒng)與數(shù)學(xué),2012(6):167.
[3]王峰.網(wǎng)站訪問量統(tǒng)計應(yīng)用實踐[J].中國傳媒科技,2015(07):79-81.
[4]董莉芬.基于用戶行為分析的精準營銷探討[J].電信技術(shù),2013(04):67-69.
[5]劉曉峰等.基于分布式網(wǎng)絡(luò)爬蟲的移動互聯(lián)網(wǎng)用戶行為分析系統(tǒng)研發(fā)[J].廣西通信技術(shù),2013(4):18-21.
[6]鄒麗新,陳維斌.基于點擊流數(shù)據(jù)倉庫的用戶行為分析[J].微計算機信息,2009(15):151-152.
[7]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D].江蘇大學(xué),2013:2-5.
[8]戴菲.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識與技術(shù),2011(21):5043-5044.
[9]鄭麗琴.基于數(shù)據(jù)挖掘的決策樹算法和原理簡介[J].知識經(jīng)濟,2014(7):87-88.
[10]薛薇等.基于Clementine的數(shù)據(jù)挖掘[M].北京:中國人民大學(xué)出版社,2012:169-178.
編輯:邵西梅
作者簡介:王鑫(1973-),女,山東商業(yè)職業(yè)技術(shù)學(xué)院工商管理學(xué)院院長、副教授,研究方向為電子商務(wù)、項目管理。
收稿日期:2015-07-05
DOI:10.3969/J.ISSN.2095-7238.2016.01.013
中圖分類號:F325.2
文獻標志碼:A
文章編號:2095-7238(2016)01-0074-03