王曦
摘要:為解決傳統(tǒng)數(shù)據(jù)分析方法存在分析準(zhǔn)確率較低的不足,提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析,基于hadoop電商大數(shù)據(jù)分析模型的搭建,依托關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析,實(shí)現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析,試驗(yàn)數(shù)據(jù)表明,提出的數(shù)據(jù)分析方法較傳統(tǒng)數(shù)據(jù)分析方法,分析準(zhǔn)確率提高29.55%,適合電商大數(shù)據(jù)的分析。
關(guān)鍵詞:hadoop技術(shù);分析模型;大數(shù)據(jù);電子商務(wù)
中圖分類號(hào):TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)15-0297-02
近年來,眾多企業(yè)都開始認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)規(guī)?;瘯?huì)給企業(yè)帶來無限的可能性與潛在的價(jià)值,但這些不斷在增長的數(shù)據(jù)資產(chǎn)大概可以分為兩種類型即非結(jié)構(gòu)化與半結(jié)構(gòu)化。如何去利用最低成本并使用最快的效率來對(duì)這些大量的數(shù)據(jù)去進(jìn)行處理和應(yīng)用,成為人們目前需要解決的很大的難題[1]。Google公司第一個(gè)提出了Mapreduce的編程框架(Hadoop框架的基本構(gòu)成單元),而GFS的文件系統(tǒng)與BigTable的存儲(chǔ)系統(tǒng)同時(shí)開始成為大數(shù)據(jù)處理技術(shù)的核心領(lǐng)導(dǎo)者,并且這三種技術(shù)也成了此項(xiàng)目的實(shí)施標(biāo)準(zhǔn),用最快的速度普及到各個(gè)互聯(lián)網(wǎng)企業(yè)當(dāng)中。大數(shù)據(jù)處理模式是一種新興起的新技術(shù)模式,并依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而不斷進(jìn)步,不但能夠有效地處理大批量的數(shù)據(jù)信息,還能保證信息的安全性與可靠性[2]?;趆adoop技術(shù)的大數(shù)據(jù)分析,以大數(shù)據(jù)處理模式,突破了以往的信息搜索和信息存儲(chǔ)形式,無論是從決策力還是洞察力都有了很大提升,從而效率越來越高,信息變得更加多樣化。
1搭建hadoop的電商大數(shù)據(jù)分析模型
Hadoop屬于開源框架,其本質(zhì)為一種能夠應(yīng)用于縮寫于運(yùn)行的分布式處理的大規(guī)模數(shù)據(jù)。Hadoop與其他框架進(jìn)行對(duì)比,自身具有便捷、擴(kuò)展性強(qiáng)、操作方便等特點(diǎn),特別是Hadoop的便捷性使其在編寫程序過程中占有絕大部分的優(yōu)勢(shì)。從而使更多的用戶借助Hadoop能夠在分布式計(jì)算法則中帶來最大程度的優(yōu)勢(shì)[3]。其利用分布式存儲(chǔ)與遷移代碼等技術(shù)、在數(shù)據(jù)處理過程中能夠更好地解決耗費(fèi)時(shí)間數(shù)據(jù)的傳輸問題[4]。為了對(duì)電商大數(shù)據(jù)進(jìn)行分析,搭建基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型。
基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型主要分為四個(gè)部分,即數(shù)據(jù)的收集部分、數(shù)據(jù)的預(yù)處理部分、數(shù)據(jù)的分析(數(shù)據(jù)挖掘分析)、應(yīng)用部分,你設(shè)計(jì)的基于hadoop技術(shù)電商大數(shù)據(jù)分析模型整體框架如圖1所示:
數(shù)據(jù)的收集是依托電商數(shù)據(jù)平臺(tái)、移動(dòng)端數(shù)據(jù)平臺(tái)、社交網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)獲取的大數(shù)據(jù)信息,基于此的大數(shù)據(jù)信息,對(duì)數(shù)據(jù)進(jìn)行預(yù)預(yù)處理,分析模型數(shù)據(jù)的預(yù)處理共分為三個(gè)階段,即數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的轉(zhuǎn)化、數(shù)據(jù)的抽取?;陔娚虜?shù)據(jù)平臺(tái)獲得交易數(shù)據(jù),同理,基于移動(dòng)數(shù)據(jù)平臺(tái)獲取觀測(cè)數(shù)據(jù)(瀏覽該電商網(wǎng)頁、商品等信息),基于社交數(shù)據(jù)平臺(tái)獲取互動(dòng)數(shù)據(jù)(電商商品評(píng)價(jià)、潛在購買欲望等)。利用準(zhǔn)備的數(shù)據(jù),進(jìn)行數(shù)據(jù)轉(zhuǎn)化,利用hadoop框架,將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)結(jié)構(gòu)化的轉(zhuǎn)變,利用數(shù)據(jù)關(guān)聯(lián)融合機(jī)制,根據(jù)數(shù)據(jù)的過濾和映射對(duì)數(shù)據(jù)進(jìn)行提取,將提取的數(shù)據(jù)進(jìn)行挖掘分析,最后顯示分析結(jié)果。
2實(shí)現(xiàn)電商大數(shù)據(jù)分析
Hadoop框架的構(gòu)成涵蓋了分布式文件HDFS以及Mapreduce。Hadoop的主要作用是進(jìn)行對(duì)文件系統(tǒng)的名字的管理,并負(fù)責(zé)文件的訪問。并同時(shí)處理客戶端發(fā)來的文件讀寫請(qǐng)求,并能夠在數(shù)據(jù)模塊下進(jìn)行創(chuàng)建和復(fù)制。此外,Hadoop還能夠同時(shí)完成分布式計(jì)算,將總?cè)蝿?wù)劃分為眾多子任務(wù),并且每個(gè)子任務(wù)都能夠在集群節(jié)點(diǎn)進(jìn)行處理的完成,從而確保各個(gè)子任務(wù)的節(jié)點(diǎn)計(jì)算的準(zhǔn)確性。由于選擇性的分布式文件以及Mapreduce的模型,可以讓Hadoop具有更高的容錯(cuò)率和讀寫吞吐率,從而對(duì)失敗的節(jié)點(diǎn)進(jìn)行處理[5]。
針對(duì)電商大數(shù)據(jù)的分析,主要包括關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析三部分。關(guān)聯(lián)規(guī)則分析是指根據(jù)電商數(shù)據(jù)平臺(tái)、移動(dòng)端數(shù)據(jù)平臺(tái)、社交網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)獲取的數(shù)據(jù),求出參數(shù)變化對(duì)消費(fèi)者與電商平臺(tái)的影響,電商可將此數(shù)據(jù)作為經(jīng)營的有效參考,其電商關(guān)聯(lián)規(guī)則分析函數(shù)可用公式(1)表示:
式中,I代表消費(fèi)者消費(fèi)意愿;P代表消費(fèi)者瀏覽該電商平臺(tái)的時(shí)長;U代表消費(fèi)者瀏覽所有電商平臺(tái)的時(shí)長。
分類與聚類分析是指,對(duì)電商的主要消費(fèi)人群進(jìn)行分類和聚類分析,其分析過程是根據(jù)數(shù)據(jù)的提取再擬合實(shí)現(xiàn)的,針對(duì)用戶的分類信息,電商可有針對(duì)地進(jìn)行廣告的推送、消費(fèi)習(xí)慣的分析以及消費(fèi)的預(yù)判,鎖定消費(fèi)人群進(jìn)行電子商務(wù)營銷。
與分類與聚類分析相類似,變化和偏差分析是根據(jù)電子商務(wù)主要消費(fèi)對(duì)象,最近的瀏覽記錄、歷史記錄、消費(fèi)行為進(jìn)行客戶的變化分析,以及偏差分析,其變化和偏差分析函數(shù)可用公式(2)表示:
式中,PD代表消費(fèi)者的行為能力;R代表消費(fèi)者的瀏覽記錄;I代表環(huán)境變化,如季節(jié)交替等;a代表消費(fèi)者消費(fèi)沖動(dòng)系數(shù);
基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建,以及關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析,實(shí)現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析。
3實(shí)例分析
為了驗(yàn)證提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析的準(zhǔn)確性,進(jìn)行了相關(guān)的仿真實(shí)驗(yàn)。在相同環(huán)境條件下實(shí)驗(yàn),將對(duì)提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析和傳統(tǒng)電商數(shù)據(jù)分析的準(zhǔn)確性進(jìn)行比較。
實(shí)驗(yàn)過程中使用三臺(tái)已安裝win操作系統(tǒng)和Hadoop分布式文件系統(tǒng)的計(jì)算機(jī),其中一臺(tái)計(jì)算機(jī)作為記錄數(shù)據(jù)節(jié)點(diǎn)使用,第二臺(tái)計(jì)算機(jī)作為記錄影子節(jié)點(diǎn)使用,最后一臺(tái)則作為記錄電子商務(wù)物流大數(shù)據(jù)儲(chǔ)存節(jié)點(diǎn)使用。
采取大型網(wǎng)絡(luò)網(wǎng)站的電子商務(wù)物流相關(guān)數(shù)據(jù)進(jìn)行輔助仿真實(shí)驗(yàn),所有采取的仿真實(shí)驗(yàn)數(shù)據(jù)時(shí)間范圍控制在2019年2月1日到2019年4月1日。在該仿真實(shí)驗(yàn)過程中進(jìn)行了五次的子實(shí)驗(yàn)對(duì)比,對(duì)基于Hadoop技術(shù)的電商大數(shù)據(jù)分析方法和傳統(tǒng)電商數(shù)據(jù)分析方法進(jìn)行比較,兩者的數(shù)據(jù)對(duì)比結(jié)果如表1所示。
從仿真實(shí)驗(yàn)結(jié)果表明,基于Hadoop技術(shù)的電商大數(shù)據(jù)分析在所有數(shù)據(jù)整合分析過程中要比傳統(tǒng)電商數(shù)據(jù)分析更為準(zhǔn)確。經(jīng)統(tǒng)計(jì)計(jì)算得出提出的數(shù)據(jù)分析方法,較傳統(tǒng)的數(shù)據(jù)分析方法,分析準(zhǔn)確率提高29.55%,適合電商大數(shù)據(jù)的分析。
4總結(jié)
本文提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析,利用基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建,基于關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析,實(shí)現(xiàn)了本文的研究,為保證大數(shù)據(jù)分析的有效性,進(jìn)行仿真試驗(yàn),試驗(yàn)數(shù)據(jù)表明,提出的數(shù)據(jù)分析方法能夠滿足電商大數(shù)據(jù)的分析。實(shí)現(xiàn)了本文的研究,希望本文的研究能夠?yàn)殡娚檀髷?shù)據(jù)的分析提供理論數(shù)據(jù)。
參考文獻(xiàn):
[1] 吳潤澤, 包正睿, 王文韜, 等. Hadoop架構(gòu)下基于模式匹配的短期電力負(fù)荷預(yù)測(cè)方法[J]. 電工技術(shù)學(xué)報(bào), 2018, 33(7): 1542-1551.
[2] 曾志強(qiáng), 何小東, 王穎,等. 基于Hadoop和Spark的森林火災(zāi)混合大數(shù)據(jù)分析系統(tǒng)研究[J]. 世界林業(yè)研究, 2018, 31(2): 55-59.
[3] 馬躍, 余騁遠(yuǎn), 于碧輝. 基于資源簽名與遺傳算法的Hadoop參數(shù)自動(dòng)調(diào)優(yōu)系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2017(11):24-27+33.
[4] 王雪蓉, 萬年紅. 基于跨境電商可控關(guān)聯(lián)性大數(shù)據(jù)的出口產(chǎn)品銷量動(dòng)態(tài)預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用, 2017(04):130-135+142.
[5] 謝彥祥, 劉天琪, 蘇學(xué)能. Hadoop架構(gòu)下基于分布式粒子群算法的暫態(tài)穩(wěn)定評(píng)估特征量選擇[J]. 電網(wǎng)技術(shù), 2018, 12(12).
【通聯(lián)編輯:光文玲】