基于hadoop技術(shù)的電商大數(shù)據(jù)分析

2019-07-16 03:14王曦

電腦知識(shí)與技術(shù) 2019年15期

王曦

摘要：為解決傳統(tǒng)數(shù)據(jù)分析方法存在分析準(zhǔn)確率較低的不足，提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析，基于hadoop電商大數(shù)據(jù)分析模型的搭建，依托關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析，實(shí)現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析，試驗(yàn)數(shù)據(jù)表明，提出的數(shù)據(jù)分析方法較傳統(tǒng)數(shù)據(jù)分析方法，分析準(zhǔn)確率提高29.55%，適合電商大數(shù)據(jù)的分析。

關(guān)鍵詞：hadoop技術(shù);分析模型;大數(shù)據(jù);電子商務(wù)

中圖分類號(hào)：TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）15-0297-02

近年來，眾多企業(yè)都開始認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)規(guī)?；瘯?huì)給企業(yè)帶來無限的可能性與潛在的價(jià)值，但這些不斷在增長的數(shù)據(jù)資產(chǎn)大概可以分為兩種類型即非結(jié)構(gòu)化與半結(jié)構(gòu)化。如何去利用最低成本并使用最快的效率來對(duì)這些大量的數(shù)據(jù)去進(jìn)行處理和應(yīng)用，成為人們目前需要解決的很大的難題[1]。Google公司第一個(gè)提出了Mapreduce的編程框架（Hadoop框架的基本構(gòu)成單元），而GFS的文件系統(tǒng)與BigTable的存儲(chǔ)系統(tǒng)同時(shí)開始成為大數(shù)據(jù)處理技術(shù)的核心領(lǐng)導(dǎo)者，并且這三種技術(shù)也成了此項(xiàng)目的實(shí)施標(biāo)準(zhǔn)，用最快的速度普及到各個(gè)互聯(lián)網(wǎng)企業(yè)當(dāng)中。大數(shù)據(jù)處理模式是一種新興起的新技術(shù)模式，并依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而不斷進(jìn)步，不但能夠有效地處理大批量的數(shù)據(jù)信息，還能保證信息的安全性與可靠性[2]?；趆adoop技術(shù)的大數(shù)據(jù)分析，以大數(shù)據(jù)處理模式，突破了以往的信息搜索和信息存儲(chǔ)形式，無論是從決策力還是洞察力都有了很大提升，從而效率越來越高，信息變得更加多樣化。

1搭建hadoop的電商大數(shù)據(jù)分析模型

Hadoop屬于開源框架，其本質(zhì)為一種能夠應(yīng)用于縮寫于運(yùn)行的分布式處理的大規(guī)模數(shù)據(jù)。Hadoop與其他框架進(jìn)行對(duì)比，自身具有便捷、擴(kuò)展性強(qiáng)、操作方便等特點(diǎn)，特別是Hadoop的便捷性使其在編寫程序過程中占有絕大部分的優(yōu)勢(shì)。從而使更多的用戶借助Hadoop能夠在分布式計(jì)算法則中帶來最大程度的優(yōu)勢(shì)[3]。其利用分布式存儲(chǔ)與遷移代碼等技術(shù)、在數(shù)據(jù)處理過程中能夠更好地解決耗費(fèi)時(shí)間數(shù)據(jù)的傳輸問題[4]。為了對(duì)電商大數(shù)據(jù)進(jìn)行分析，搭建基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型。

基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型主要分為四個(gè)部分，即數(shù)據(jù)的收集部分、數(shù)據(jù)的預(yù)處理部分、數(shù)據(jù)的分析（數(shù)據(jù)挖掘分析）、應(yīng)用部分，你設(shè)計(jì)的基于hadoop技術(shù)電商大數(shù)據(jù)分析模型整體框架如圖1所示：

數(shù)據(jù)的收集是依托電商數(shù)據(jù)平臺(tái)、移動(dòng)端數(shù)據(jù)平臺(tái)、社交網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)獲取的大數(shù)據(jù)信息，基于此的大數(shù)據(jù)信息，對(duì)數(shù)據(jù)進(jìn)行預(yù)預(yù)處理，分析模型數(shù)據(jù)的預(yù)處理共分為三個(gè)階段，即數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的轉(zhuǎn)化、數(shù)據(jù)的抽取?；陔娚虜?shù)據(jù)平臺(tái)獲得交易數(shù)據(jù)，同理，基于移動(dòng)數(shù)據(jù)平臺(tái)獲取觀測(cè)數(shù)據(jù)（瀏覽該電商網(wǎng)頁、商品等信息），基于社交數(shù)據(jù)平臺(tái)獲取互動(dòng)數(shù)據(jù)（電商商品評(píng)價(jià)、潛在購買欲望等）。利用準(zhǔn)備的數(shù)據(jù)，進(jìn)行數(shù)據(jù)轉(zhuǎn)化，利用hadoop框架，將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)，通過數(shù)據(jù)結(jié)構(gòu)化的轉(zhuǎn)變，利用數(shù)據(jù)關(guān)聯(lián)融合機(jī)制，根據(jù)數(shù)據(jù)的過濾和映射對(duì)數(shù)據(jù)進(jìn)行提取，將提取的數(shù)據(jù)進(jìn)行挖掘分析，最后顯示分析結(jié)果。

2實(shí)現(xiàn)電商大數(shù)據(jù)分析

Hadoop框架的構(gòu)成涵蓋了分布式文件HDFS以及Mapreduce。Hadoop的主要作用是進(jìn)行對(duì)文件系統(tǒng)的名字的管理，并負(fù)責(zé)文件的訪問。并同時(shí)處理客戶端發(fā)來的文件讀寫請(qǐng)求，并能夠在數(shù)據(jù)模塊下進(jìn)行創(chuàng)建和復(fù)制。此外，Hadoop還能夠同時(shí)完成分布式計(jì)算，將總?cè)蝿?wù)劃分為眾多子任務(wù)，并且每個(gè)子任務(wù)都能夠在集群節(jié)點(diǎn)進(jìn)行處理的完成，從而確保各個(gè)子任務(wù)的節(jié)點(diǎn)計(jì)算的準(zhǔn)確性。由于選擇性的分布式文件以及Mapreduce的模型，可以讓Hadoop具有更高的容錯(cuò)率和讀寫吞吐率，從而對(duì)失敗的節(jié)點(diǎn)進(jìn)行處理[5]。

針對(duì)電商大數(shù)據(jù)的分析，主要包括關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析三部分。關(guān)聯(lián)規(guī)則分析是指根據(jù)電商數(shù)據(jù)平臺(tái)、移動(dòng)端數(shù)據(jù)平臺(tái)、社交網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)獲取的數(shù)據(jù)，求出參數(shù)變化對(duì)消費(fèi)者與電商平臺(tái)的影響，電商可將此數(shù)據(jù)作為經(jīng)營的有效參考，其電商關(guān)聯(lián)規(guī)則分析函數(shù)可用公式（1）表示：

式中，I代表消費(fèi)者消費(fèi)意愿;P代表消費(fèi)者瀏覽該電商平臺(tái)的時(shí)長;U代表消費(fèi)者瀏覽所有電商平臺(tái)的時(shí)長。

分類與聚類分析是指，對(duì)電商的主要消費(fèi)人群進(jìn)行分類和聚類分析，其分析過程是根據(jù)數(shù)據(jù)的提取再擬合實(shí)現(xiàn)的，針對(duì)用戶的分類信息，電商可有針對(duì)地進(jìn)行廣告的推送、消費(fèi)習(xí)慣的分析以及消費(fèi)的預(yù)判，鎖定消費(fèi)人群進(jìn)行電子商務(wù)營銷。

與分類與聚類分析相類似，變化和偏差分析是根據(jù)電子商務(wù)主要消費(fèi)對(duì)象，最近的瀏覽記錄、歷史記錄、消費(fèi)行為進(jìn)行客戶的變化分析，以及偏差分析，其變化和偏差分析函數(shù)可用公式（2）表示：

式中，PD代表消費(fèi)者的行為能力;R代表消費(fèi)者的瀏覽記錄;I代表環(huán)境變化，如季節(jié)交替等;a代表消費(fèi)者消費(fèi)沖動(dòng)系數(shù);

基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建，以及關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析，實(shí)現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析。

3實(shí)例分析

為了驗(yàn)證提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析的準(zhǔn)確性，進(jìn)行了相關(guān)的仿真實(shí)驗(yàn)。在相同環(huán)境條件下實(shí)驗(yàn)，將對(duì)提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析和傳統(tǒng)電商數(shù)據(jù)分析的準(zhǔn)確性進(jìn)行比較。

實(shí)驗(yàn)過程中使用三臺(tái)已安裝win操作系統(tǒng)和Hadoop分布式文件系統(tǒng)的計(jì)算機(jī)，其中一臺(tái)計(jì)算機(jī)作為記錄數(shù)據(jù)節(jié)點(diǎn)使用，第二臺(tái)計(jì)算機(jī)作為記錄影子節(jié)點(diǎn)使用，最后一臺(tái)則作為記錄電子商務(wù)物流大數(shù)據(jù)儲(chǔ)存節(jié)點(diǎn)使用。

采取大型網(wǎng)絡(luò)網(wǎng)站的電子商務(wù)物流相關(guān)數(shù)據(jù)進(jìn)行輔助仿真實(shí)驗(yàn)，所有采取的仿真實(shí)驗(yàn)數(shù)據(jù)時(shí)間范圍控制在2019年2月1日到2019年4月1日。在該仿真實(shí)驗(yàn)過程中進(jìn)行了五次的子實(shí)驗(yàn)對(duì)比，對(duì)基于Hadoop技術(shù)的電商大數(shù)據(jù)分析方法和傳統(tǒng)電商數(shù)據(jù)分析方法進(jìn)行比較，兩者的數(shù)據(jù)對(duì)比結(jié)果如表1所示。

從仿真實(shí)驗(yàn)結(jié)果表明，基于Hadoop技術(shù)的電商大數(shù)據(jù)分析在所有數(shù)據(jù)整合分析過程中要比傳統(tǒng)電商數(shù)據(jù)分析更為準(zhǔn)確。經(jīng)統(tǒng)計(jì)計(jì)算得出提出的數(shù)據(jù)分析方法，較傳統(tǒng)的數(shù)據(jù)分析方法，分析準(zhǔn)確率提高29.55%，適合電商大數(shù)據(jù)的分析。

4總結(jié)

本文提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析，利用基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建，基于關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析，實(shí)現(xiàn)了本文的研究，為保證大數(shù)據(jù)分析的有效性，進(jìn)行仿真試驗(yàn)，試驗(yàn)數(shù)據(jù)表明，提出的數(shù)據(jù)分析方法能夠滿足電商大數(shù)據(jù)的分析。實(shí)現(xiàn)了本文的研究，希望本文的研究能夠?yàn)殡娚檀髷?shù)據(jù)的分析提供理論數(shù)據(jù)。

參考文獻(xiàn)：

[1] 吳潤澤，包正睿，王文韜，等. Hadoop架構(gòu)下基于模式匹配的短期電力負(fù)荷預(yù)測(cè)方法[J]. 電工技術(shù)學(xué)報(bào)， 2018， 33（7）： 1542-1551.

[2] 曾志強(qiáng)，何小東，王穎，等. 基于Hadoop和Spark的森林火災(zāi)混合大數(shù)據(jù)分析系統(tǒng)研究[J]. 世界林業(yè)研究， 2018， 31（2）： 55-59.

[3] 馬躍，余騁遠(yuǎn)，于碧輝. 基于資源簽名與遺傳算法的Hadoop參數(shù)自動(dòng)調(diào)優(yōu)系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究， 2017（11）：24-27+33.

[4] 王雪蓉，萬年紅. 基于跨境電商可控關(guān)聯(lián)性大數(shù)據(jù)的出口產(chǎn)品銷量動(dòng)態(tài)預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用， 2017（04）：130-135+142.

[5] 謝彥祥，劉天琪，蘇學(xué)能. Hadoop架構(gòu)下基于分布式粒子群算法的暫態(tài)穩(wěn)定評(píng)估特征量選擇[J]. 電網(wǎng)技術(shù)， 2018， 12（12）.

【通聯(lián)編輯：光文玲】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于hadoop技術(shù)的電商大數(shù)據(jù)分析