摘 要 隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的迅速發(fā)展,我們生活中的許多行為和言語(yǔ)都會(huì)以數(shù)據(jù)的形式被存儲(chǔ),而這些數(shù)據(jù)的背后則蘊(yùn)含著巨大的價(jià)值。大數(shù)據(jù)時(shí)代的到來(lái),使社會(huì)各行各業(yè)都發(fā)生了很大的變化。我國(guó)電子商務(wù)行業(yè)發(fā)展迅速,如何牢牢抓住“大數(shù)據(jù)”這一機(jī)會(huì),是擺在眾多電子商務(wù)企業(yè)面前的挑戰(zhàn)。本文主要通過(guò)分析大數(shù)據(jù)在電商行業(yè)中的應(yīng)用實(shí)例,反映出大數(shù)據(jù)對(duì)電商行業(yè)的發(fā)展影響以及對(duì)社會(huì)發(fā)展的推動(dòng)作用。
【關(guān)鍵詞】大數(shù)據(jù) 電子商務(wù) 京東
1 電商行業(yè)的發(fā)展過(guò)程
電子商務(wù)行業(yè)在我國(guó)沒(méi)有很長(zhǎng)的發(fā)展歷史,因?yàn)榛ヂ?lián)網(wǎng)在我國(guó)也是近些年才迅速發(fā)展的。電子商務(wù)在發(fā)展初期,僅僅是做到將線下的交易過(guò)程轉(zhuǎn)移到線上,人們雖然能夠通過(guò)互聯(lián)網(wǎng)進(jìn)行購(gòu)物等行為,但是沒(méi)有體驗(yàn)到線上交易的便捷性和優(yōu)越性。所以電子商務(wù)行業(yè)一開(kāi)始發(fā)展遲緩。
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的進(jìn)步,用戶(hù)可以通過(guò)電腦或者手機(jī)方便的進(jìn)行線上交易。這個(gè)階段,電子商務(wù)行業(yè)遇到了另一個(gè)問(wèn)題,那就是訂單量過(guò)多,物流速度無(wú)法適配,導(dǎo)致物品要過(guò)一段時(shí)間才能夠到達(dá)目的地。這令用戶(hù)和商家都非??鄲?。
大數(shù)據(jù)時(shí)代到來(lái)后,電商行業(yè)遇到了轉(zhuǎn)機(jī),通過(guò)大數(shù)據(jù)技術(shù),可以為用戶(hù)推送用戶(hù)感興趣的商品以及距離用戶(hù)更近的商品,這樣既提高了用戶(hù)使用的舒適度,也盡可能的減少了在運(yùn)送過(guò)程中消耗的時(shí)間。
2 大數(shù)據(jù)及大數(shù)據(jù)技術(shù)簡(jiǎn)介
2.1 大數(shù)據(jù)簡(jiǎn)介
大數(shù)據(jù)是目前非常火熱的一個(gè)詞匯,本文將大數(shù)據(jù)定義為產(chǎn)生于信息爆炸的時(shí)代背景下,數(shù)量龐大,種類(lèi)豐富的數(shù)據(jù)的集合,并且該數(shù)據(jù)集合蘊(yùn)含著很大的開(kāi)發(fā)和使用價(jià)值。大數(shù)據(jù)具有“4V”特征,分別是Volume(數(shù)據(jù)量龐大),Variety(數(shù)據(jù)類(lèi)型多元化),Velocity(數(shù)據(jù)產(chǎn)生速度快)以及Value(數(shù)據(jù)價(jià)值高)。同時(shí)具備這4個(gè)特征,則可以稱(chēng)之為大數(shù)據(jù)。
大數(shù)據(jù)的計(jì)量單位已經(jīng)不是GB能夠滿(mǎn)足的了,要用TB甚至PB或更大。并且在未來(lái)的幾年內(nèi),還會(huì)有幾十ZB的數(shù)據(jù)源源不斷地產(chǎn)生。這體現(xiàn)了大數(shù)據(jù)數(shù)據(jù)量的龐大。
大數(shù)據(jù)的數(shù)據(jù)類(lèi)型非常豐富,包括大量結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),比如音頻,圖片以及視頻等等,還包括傳感器的數(shù)據(jù),互聯(lián)網(wǎng)搜索的數(shù)據(jù)等。所以大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,并且數(shù)據(jù)類(lèi)型也很繁多。
如果沒(méi)有快速處理數(shù)據(jù)的能力,僅僅擁有龐大的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。通過(guò)云計(jì)算的存儲(chǔ)和計(jì)算,大量的數(shù)據(jù)可以被較快的處理,這樣可以使大數(shù)據(jù)被較快地使用。
在海量的數(shù)據(jù)中,蘊(yùn)藏著無(wú)限的價(jià)值,許多行業(yè)和企業(yè)已經(jīng)嗅到了其中的價(jià)值,本文介紹的就是電商行業(yè)是如何利用大數(shù)據(jù)進(jìn)行變革和發(fā)展的。
2.2 大數(shù)據(jù)技術(shù)簡(jiǎn)介
大數(shù)據(jù)的總量每?jī)赡昃蜁?huì)翻一倍,呈現(xiàn)出爆炸式的增長(zhǎng)趨勢(shì)。如果只存儲(chǔ)大數(shù)據(jù),而不處理和分析大數(shù)據(jù),那么大數(shù)據(jù)是沒(méi)有價(jià)值的,所以大數(shù)據(jù)的出現(xiàn)促進(jìn)了大數(shù)據(jù)技術(shù)的發(fā)展。本文對(duì)大數(shù)據(jù)技術(shù)的定義如下:大數(shù)據(jù)技術(shù)是能夠在海量的各類(lèi)數(shù)據(jù)中,有效地進(jìn)行篩選并且快速找到具有利用價(jià)值的數(shù)據(jù)的技術(shù)。
大數(shù)據(jù)技術(shù)中,使用較廣泛的是Hadoop技術(shù)。Hadoop可以簡(jiǎn)單的理解為是HDFS(Hadoop Distributed File System)和MapReduce技術(shù)的集合。
HDFS是一種分布式文件系統(tǒng),與普通文件系統(tǒng)有所差異。每個(gè)磁盤(pán)上有一個(gè)默認(rèn)的數(shù)據(jù)塊的大小,一般為512字節(jié),是磁盤(pán)對(duì)數(shù)據(jù)進(jìn)行讀寫(xiě)時(shí)要求的最小單位。文件系統(tǒng)也有塊的概念,大小一般是磁盤(pán)塊大小的整數(shù)倍。HDFS塊的大小一般默認(rèn)為64MB,要比普通文件系統(tǒng)的塊大很多(普通文件系統(tǒng)塊大小一般為幾千個(gè)字節(jié))。這樣使得HDFS減小了很多磁盤(pán)尋址的開(kāi)銷(xiāo),提高了讀寫(xiě)速度。HDFS最大的優(yōu)勢(shì)是可以存儲(chǔ)超大文件。原理是HDFS不是將所有文件的塊存儲(chǔ)在一個(gè)磁盤(pán)上,它可以利用磁盤(pán)系統(tǒng)上的任意一個(gè)磁盤(pán)進(jìn)行數(shù)據(jù)的存儲(chǔ)。因此HDFS通常可以存儲(chǔ)TB級(jí)別,PB級(jí)別甚至更大級(jí)別的數(shù)據(jù)。
HDFS讀寫(xiě)原理:
在了解HDFS讀寫(xiě)原理之前必須要了解兩個(gè)分布式節(jié)點(diǎn)概念,一個(gè)是NameNode,另一個(gè)是DataNode。NameNode在HDFS中扮演者“調(diào)度員”的角色,其中存儲(chǔ)了HDFS的元數(shù)據(jù),比如集群中的節(jié)點(diǎn)信息,每個(gè)數(shù)據(jù)有幾分副本數(shù)據(jù)等。DataNode就是集群中數(shù)據(jù)的存儲(chǔ)節(jié)點(diǎn)。每個(gè)文件會(huì)有多個(gè)副本存儲(chǔ)在不同的DataNode中以保證數(shù)據(jù)不會(huì)丟失。
HDFS寫(xiě)原理:
(1)客戶(hù)端將消息發(fā)送至NameNode,如圖1①。
(2)NameNode給客戶(hù)端發(fā)送消息,指引客戶(hù)端將文件寫(xiě)入Data A,B,D中。并且先向B節(jié)點(diǎn)發(fā)送請(qǐng)求,如圖1②。
(3)客戶(hù)端給B節(jié)點(diǎn)發(fā)送消息,希望它保存一份副本,并且希望B向A,D發(fā)送消息,讓A,D都保存一份副本,如圖1③。
(4)B節(jié)點(diǎn)發(fā)送消息給A節(jié)點(diǎn),告訴它保存副本文件,并且希望它給D節(jié)點(diǎn)發(fā)送消息,讓D節(jié)點(diǎn)保存一份副本,如圖1④。
(5)A節(jié)點(diǎn)向D節(jié)點(diǎn)發(fā)送消息,希望D節(jié)點(diǎn)保存一份副本,如圖1⑤。
(6)D節(jié)點(diǎn)向A節(jié)點(diǎn)發(fā)送消息,確認(rèn)已經(jīng)保存副本,如圖1⑥。
(7)A節(jié)點(diǎn)向B節(jié)點(diǎn)發(fā)送消息,確認(rèn)D節(jié)點(diǎn)已經(jīng)保存副本,A節(jié)點(diǎn)已經(jīng)保存副本,如圖1⑦。
(8)B節(jié)點(diǎn)向客戶(hù)端發(fā)送消息,確認(rèn)已經(jīng)將文件寫(xiě)入HDFS,如圖1⑧。
HDFS將文件寫(xiě)入系統(tǒng),保證在系統(tǒng)集群中保留多份副本,才返回給客戶(hù)端寫(xiě)入完成,這樣在某個(gè)節(jié)點(diǎn)死亡的情況下,依然能夠讀出數(shù)據(jù),下面就是HDFS讀文件的原理:
(1)客戶(hù)端向NameNode發(fā)送消息詢(xún)問(wèn)從哪里讀取數(shù)據(jù),如圖2①。
(2)NameNode向客戶(hù)端返回信息,告訴客戶(hù)端副本存在的DataNode的ip,如圖2②。
(3)客戶(hù)端聯(lián)系相關(guān)DataNode,請(qǐng)求其中的數(shù)據(jù),如圖2③。
(4)相關(guān)DataNode返回文件給客戶(hù)端,并且關(guān)閉連接,完成讀文件操作,如圖2④。
MapReduce可以拆分為Map+Reduce。
Map的思想是將海量的各類(lèi)型的數(shù)據(jù)按照某一標(biāo)準(zhǔn),將數(shù)據(jù)轉(zhuǎn)換為鍵-值的形式,這樣會(huì)提高數(shù)據(jù)的讀寫(xiě)速度,是一種大而化小的思想。
Reduce的思想是將Map后的數(shù)據(jù)按照鍵的類(lèi)型進(jìn)行歸約,整合數(shù)據(jù)。最終是海量復(fù)雜的數(shù)據(jù)標(biāo)準(zhǔn)化,簡(jiǎn)單化,是一種異而化同的思想。
MapReduce技術(shù)恰好應(yīng)對(duì)了大數(shù)據(jù)的數(shù)量龐大(Volume)和種類(lèi)繁多(Variety)的挑戰(zhàn),是大數(shù)據(jù)技術(shù)中非常重要和基礎(chǔ)的技術(shù)。
3 大數(shù)據(jù)技術(shù)在京東中的應(yīng)用
3.1 京東簡(jiǎn)介
京東是目前中國(guó)最大的自營(yíng)式電商企業(yè),占中國(guó)自營(yíng)式電商市場(chǎng)份額一半以上。京東商城有很多種類(lèi)的商品,比如手機(jī),電腦,日用品,化妝品等,也有手機(jī)繳費(fèi),酒店預(yù)訂等虛擬產(chǎn)品。是目前唯一能與淘寶(天貓)一爭(zhēng)高下的網(wǎng)上商城。京東商城的迅速發(fā)展得益于其強(qiáng)大的倉(cāng)庫(kù)設(shè)施,京東的倉(cāng)庫(kù)覆蓋全國(guó)所有大區(qū),基本輻射所有省,運(yùn)營(yíng)數(shù)百個(gè)大型倉(cāng)庫(kù)。加上快速的配送服務(wù),基本實(shí)現(xiàn)早上下單,當(dāng)日送達(dá),下午下單次日送達(dá)的承諾。
京東能夠做到如此快速優(yōu)質(zhì)的配送服務(wù),除了有強(qiáng)大的倉(cāng)庫(kù)系統(tǒng)支持外,更是少不了大數(shù)據(jù)技術(shù)的支持。京東商城會(huì)從不同地區(qū)和不同年齡的消費(fèi)者的購(gòu)買(mǎi)數(shù)據(jù)中分析出各類(lèi)商品的供需情況,根據(jù)該供需情況調(diào)配商品和管理倉(cāng)庫(kù),減少跨區(qū)域的貨物調(diào)度。
3.2 京東大數(shù)據(jù)平臺(tái)簡(jiǎn)介
在2013年年初,京東將大數(shù)據(jù)戰(zhàn)略規(guī)劃為公司下一個(gè)十年的重點(diǎn)戰(zhàn)略方向。京東的大數(shù)據(jù)平臺(tái)分為:技術(shù)模塊,模型模塊,工具產(chǎn)品模塊和客戶(hù)模塊。
技術(shù)模塊主要包括Hadoop,Spark,Magpie等大數(shù)據(jù)技術(shù);
模型模塊中主要包含了用戶(hù)畫(huà)像(消費(fèi)者的特征描述),銷(xiāo)售預(yù)測(cè),信用模型,配送網(wǎng)格等。這些預(yù)測(cè)模型能夠使京東更加精準(zhǔn)的進(jìn)行策劃和決策。
工具產(chǎn)品模塊中主要包括搜索引擎,數(shù)據(jù)挖掘平臺(tái),數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)等,通過(guò)該模型可以對(duì)消費(fèi)者的數(shù)據(jù)進(jìn)行處理和應(yīng)用。
客戶(hù)模塊包括消費(fèi)大眾,合作伙伴,內(nèi)部客戶(hù)等數(shù)據(jù),可以得到內(nèi)外全方位的客戶(hù)數(shù)據(jù)。
京東需要對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行計(jì)算和查詢(xún),還需要對(duì)歷史和離線數(shù)據(jù)進(jìn)行處理,所以數(shù)據(jù)量相當(dāng)大。它采用HDFS進(jìn)行數(shù)據(jù)存儲(chǔ),使用MapReduce,Spark等技術(shù)進(jìn)行數(shù)據(jù)處理,最后訪問(wèn)數(shù)據(jù)。
3.3 京東大數(shù)據(jù)應(yīng)用框架
圖3是京東大數(shù)據(jù)應(yīng)用框架。
(1)收集用戶(hù)進(jìn)行操作留下的日志數(shù)據(jù),交易及非交易數(shù)據(jù),這些數(shù)據(jù)是整個(gè)架構(gòu)中最底層的數(shù)據(jù)。
(2)對(duì)用戶(hù)的行為建立模型,比如興趣模型,信用模型等。
(3)在用戶(hù)行為模型之上,再建立用戶(hù)畫(huà)像,對(duì)用戶(hù)的營(yíng)銷(xiāo)價(jià)值和用戶(hù)的風(fēng)險(xiǎn)等級(jí)進(jìn)行評(píng)估,將評(píng)估結(jié)果供應(yīng)給各個(gè)營(yíng)銷(xiāo)系統(tǒng),這一層是把數(shù)據(jù)轉(zhuǎn)換為價(jià)值的關(guān)鍵部分。
(4)采用各種廣告的形式進(jìn)行精準(zhǔn)推廣。
該框架是一個(gè)動(dòng)態(tài)并且循環(huán)的過(guò)程,底層數(shù)據(jù)是由上層推廣之后得到的,上層推廣需要底層數(shù)據(jù)的支持。
以下是京東數(shù)據(jù)庫(kù)的用戶(hù)表字段(如表1所示)。
可以看出,京東除了記錄用戶(hù)的基本數(shù)據(jù)之外,還會(huì)記錄用戶(hù)的月收入,興趣愛(ài)好,購(gòu)物次數(shù)等個(gè)性化信息,就是為了能夠更好地建立一個(gè)用戶(hù)畫(huà)像,從而更好地為大數(shù)據(jù)框架服務(wù)。
3.4 京東大數(shù)據(jù)應(yīng)用的效果
通過(guò)大數(shù)據(jù)平臺(tái)對(duì)大數(shù)據(jù)的獲取和分析,京東會(huì)給每個(gè)用戶(hù)打上不同的標(biāo)簽,每位用戶(hù)都會(huì)有很多的標(biāo)簽和畫(huà)像,并且這些標(biāo)簽會(huì)根據(jù)用戶(hù)的瀏覽和交易行為進(jìn)行動(dòng)態(tài)更新。這樣可以為用戶(hù)推薦用戶(hù)感興趣的商品,并且可以從用戶(hù)交易后的反饋獲得推薦的效果,再次對(duì)標(biāo)簽進(jìn)行更新。
應(yīng)用大數(shù)據(jù)后,京東可以獲取到各種用戶(hù)的消費(fèi)購(gòu)物習(xí)慣和喜好,找出相似人群以及潛在客戶(hù),并且預(yù)測(cè)并推出市場(chǎng)受歡迎的產(chǎn)品。這與傳統(tǒng)的電商相比,京東的優(yōu)勢(shì)顯而易見(jiàn),也體現(xiàn)出大數(shù)據(jù)技術(shù)的極高價(jià)值。
通過(guò)京東用戶(hù)畫(huà)像大數(shù)據(jù)顯示,過(guò)去的5年中,女性網(wǎng)購(gòu)用戶(hù)數(shù)增長(zhǎng)超過(guò)200%,使得京東更多地將注意力轉(zhuǎn)移到女性購(gòu)物習(xí)慣上。在近五年時(shí)間里,京東平臺(tái)的交易額實(shí)現(xiàn)了10倍的增長(zhǎng),從2012年的869億,飆升到今年的9392億,除了品牌建設(shè)的成功以及用戶(hù)購(gòu)買(mǎi)力等因素,大數(shù)據(jù)起到了很大的作用。
4 總結(jié)
本文通過(guò)簡(jiǎn)單的介紹了大數(shù)據(jù)以及大數(shù)據(jù)技術(shù)的概念,分析我國(guó)電商行業(yè)的發(fā)展過(guò)程,并且結(jié)合大數(shù)據(jù)在電商行業(yè)中應(yīng)用的實(shí)例,反映出了大數(shù)據(jù)技術(shù)對(duì)電商行業(yè)的發(fā)展是具有很深遠(yuǎn)的意義的。大數(shù)據(jù)能夠很真實(shí)地展現(xiàn)出當(dāng)前事物的現(xiàn)狀,也能夠分析預(yù)測(cè)出該事物對(duì)未來(lái)的影響。大數(shù)據(jù)不僅影響著電商行業(yè)的發(fā)展,而會(huì)對(duì)人類(lèi)社會(huì)中各行各業(yè)的未來(lái)起到關(guān)鍵的作用,人們應(yīng)該充分發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì),以求更好地發(fā)展。
在研究分析了大數(shù)據(jù)在電商行業(yè)的應(yīng)用后,我認(rèn)為大數(shù)據(jù)將是未來(lái)科技發(fā)展的趨勢(shì),也將會(huì)是科技發(fā)展的基礎(chǔ)。離開(kāi)了大數(shù)據(jù)的支撐,那么這個(gè)行業(yè)將會(huì)逐漸成為歷史,合適地利用了大數(shù)據(jù)技術(shù),這個(gè)行業(yè)將會(huì)有很大的發(fā)展空間。
參考文獻(xiàn)
[1]甘麗新,涂偉.大數(shù)據(jù)時(shí)代電子商務(wù)的機(jī)遇與挑戰(zhàn)探討[J].科技廣場(chǎng),2013(03):137-140.
[2]胡艷輝.淺析大數(shù)據(jù)時(shí)代電子商務(wù)發(fā)展的新特征[J].改革與戰(zhàn)略,2016(01):118-122.
[3]蔡永鴻,劉瑩.基于大數(shù)據(jù)的電商企業(yè)管理模式研究[J].中國(guó)商論,2014(31):74-75.
[4]陳忠義.基于Hadoop的分布式文件系統(tǒng)[J].電子技術(shù)與軟件工程,2017(09):175-175.
[5]郝勝宇,陳靜仁.大數(shù)據(jù)時(shí)代用戶(hù)畫(huà)像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷(xiāo)[J].中國(guó)集體經(jīng)濟(jì),2016(04):61-62.
作者簡(jiǎn)介
周哲賢(2000-),男,河南省鄭州市人。就讀于鄭州市第一中學(xué)。
作者單位
鄭州市第一中學(xué) 河南省鄭州市 450007