翁淑文
【摘要】大數(shù)據(jù)時(shí)代的到來(lái),改變了人們的生活行為。網(wǎng)絡(luò)行為演變成人們生活中必不可缺的一部分。本文通過(guò)闡述大數(shù)據(jù)與網(wǎng)絡(luò)行為的關(guān)系、介紹大數(shù)據(jù)是什么,大數(shù)據(jù)的特征和本質(zhì),最后分析大數(shù)據(jù)時(shí)代下人們的網(wǎng)絡(luò)行為,利用網(wǎng)絡(luò)數(shù)據(jù)預(yù)測(cè)網(wǎng)絡(luò)行為。
【關(guān)鍵詞】大數(shù)據(jù) 網(wǎng)絡(luò)行為 網(wǎng)絡(luò)數(shù)據(jù)
一、引言
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展,人們的網(wǎng)絡(luò)行為也日益多元化。網(wǎng)絡(luò)行為是指人們依托互聯(lián)網(wǎng)所做出的一種全新的形態(tài)的現(xiàn)實(shí)行為活動(dòng),分為狹義的網(wǎng)絡(luò)行為和廣義的網(wǎng)絡(luò)行為。狹義的網(wǎng)絡(luò)行為專指人們?cè)陔娮泳W(wǎng)絡(luò)空間里開(kāi)展的行為活動(dòng)。廣義的網(wǎng)絡(luò)行為是指不局限于狹義的方面,同時(shí)也包括那些與互聯(lián)網(wǎng)密切關(guān)系,在很大程度上要借助和依賴于互聯(lián)網(wǎng)才能順利展開(kāi)的行為活動(dòng)。簡(jiǎn)單來(lái)說(shuō),網(wǎng)絡(luò)行為就是人們?cè)诨ヂ?lián)網(wǎng)上的一切行為。
網(wǎng)絡(luò)行為的類型包括訪問(wèn)網(wǎng)站、收發(fā)郵件、上傳和下載、即時(shí)通信、聊天、論壇、網(wǎng)絡(luò)游戲、流媒體視頻等等。這些行為一旦發(fā)生,就會(huì)產(chǎn)生數(shù)據(jù)。隨著智能手機(jī)的普及,無(wú)線網(wǎng)絡(luò)的覆蓋范圍越來(lái)越廣,網(wǎng)絡(luò)的用戶的數(shù)量也在不斷的增加,產(chǎn)生的網(wǎng)絡(luò)也在迅速膨脹。在這些龐大的數(shù)據(jù)中,往往包含著巨大的信息量。網(wǎng)絡(luò)行為分析依靠隱藏在大數(shù)據(jù)中的網(wǎng)絡(luò)用戶的愛(ài)好和特點(diǎn)等行為特征,整合匯總后反映用戶當(dāng)前的潛在的行為需求。
二、大數(shù)據(jù)時(shí)代與大數(shù)據(jù)
麥肯錫即全球知名咨詢公司最先提出未來(lái)是大數(shù)據(jù)的時(shí)代,他聲稱:“數(shù)據(jù)將會(huì)是重要的生產(chǎn)因素,因?yàn)樗呀?jīng)滲透到各行各業(yè)。人們對(duì)海量數(shù)據(jù)的運(yùn)用和挖掘都會(huì)帶來(lái)新的生產(chǎn)率的增長(zhǎng)和消費(fèi)的浪潮。”近年來(lái),大數(shù)據(jù)一詞因信息業(yè)和網(wǎng)絡(luò)的飛速發(fā)展而引起人們的關(guān)注,其實(shí)它早就滲透在各大領(lǐng)域,例如,物理學(xué)、金融學(xué)、環(huán)境學(xué)、化學(xué)、軍事學(xué)等等。
大數(shù)據(jù)是指在承受范圍之外運(yùn)用一般的軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,采用新的處理模式使之具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾·舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中,他認(rèn)為大數(shù)據(jù)是將所有的數(shù)據(jù)進(jìn)行分析處理,而不運(yùn)用隨機(jī)分析法的運(yùn)算途徑。
大數(shù)據(jù)和數(shù)據(jù)大并非是一個(gè)概念,但大數(shù)據(jù)其本質(zhì)是數(shù)據(jù)。大數(shù)據(jù)的大主要表現(xiàn)在五個(gè)方面:①大量,即數(shù)據(jù)的數(shù)量龐大。目前為止,所有人類生產(chǎn)的印刷材料的總數(shù)據(jù)量是200PB(1PB=210TB),從古至今,人類所有說(shuō)過(guò)的話語(yǔ)總數(shù)量是5EB(1EB=210PB)。目前,大部分的個(gè)人計(jì)算機(jī)硬盤以TB為單位容量,而某些大企業(yè)的數(shù)據(jù)量是EB,遠(yuǎn)遠(yuǎn)大于硬盤存儲(chǔ)量。②多樣,即數(shù)據(jù)類型繁多。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相當(dāng)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,包括音頻文件、網(wǎng)絡(luò)日志、圖片、視頻、地理位置信息等,這些多元的數(shù)據(jù)類型對(duì)數(shù)據(jù)的處理能力要求更高。③價(jià)值,即價(jià)值密度低。價(jià)值密度的高,數(shù)據(jù)總量越小即二兩之間成反比。以一部視頻為例,一部1小時(shí)的視頻,在連續(xù)不斷的監(jiān)控中,有用的數(shù)據(jù)可能僅有一二秒。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完后才能數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下急需解決的難題。④高速,即數(shù)據(jù)處理速度快。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)TDC的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。面對(duì)如此海量的數(shù)據(jù),企業(yè)興盛的關(guān)鍵就在于其處理數(shù)據(jù)的效率。⑤復(fù)雜,即數(shù)據(jù)復(fù)雜。通過(guò)數(shù)據(jù)庫(kù)處理持久存儲(chǔ)的數(shù)據(jù)不再適用于大數(shù)據(jù)處理,需要有新的方法來(lái)滿足異構(gòu)數(shù)據(jù)統(tǒng)一接入和實(shí)時(shí)數(shù)據(jù)的需求。
大數(shù)據(jù)的精髓在于我們分析信息是的三個(gè)轉(zhuǎn)變。第一個(gè)轉(zhuǎn)變就是,處于大數(shù)據(jù)時(shí)代下我們分析處理的數(shù)據(jù)量更大,不再依托于隨機(jī)取樣的方法有時(shí)甚至可以對(duì)一些特殊的現(xiàn)象進(jìn)行分析和處理。第二個(gè)轉(zhuǎn)變就是,隨著數(shù)據(jù)量的快速增長(zhǎng)我們不再專注于處理數(shù)據(jù)的準(zhǔn)確性。第三個(gè)轉(zhuǎn)變就是,不需要有因果關(guān)系。
三、大數(shù)據(jù)時(shí)代下人的網(wǎng)絡(luò)行為的分析
(一)大數(shù)據(jù)與網(wǎng)絡(luò)行為
(1)大數(shù)據(jù)的網(wǎng)絡(luò)數(shù)據(jù)獲取來(lái)源。大數(shù)據(jù)的應(yīng)用范圍廣泛,包括:自然科學(xué)領(lǐng)域、軍事領(lǐng)域、醫(yī)療領(lǐng)域等等,但近些年,隨著信息科技的迅猛發(fā)展,大數(shù)據(jù)運(yùn)用于網(wǎng)絡(luò)領(lǐng)域的比重越發(fā)顯著。人與人之間的關(guān)系、城市之間的道路連接、科研論文之間的引用都組成了網(wǎng)絡(luò)。樹(shù)條結(jié)構(gòu)表達(dá)了層次結(jié)構(gòu)關(guān)系,而不具備層次結(jié)構(gòu)的關(guān)系數(shù)據(jù),可統(tǒng)稱為網(wǎng)絡(luò)數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)獲取的來(lái)源有多種,其中包括主流網(wǎng)站的選擇。例如微博、微信、博客、Facebook等社交網(wǎng)站。
(2)大數(shù)據(jù)的網(wǎng)絡(luò)數(shù)據(jù)獲取方式。網(wǎng)絡(luò)數(shù)據(jù)獲取的方式主要包括第一利用網(wǎng)絡(luò)用戶Cookie數(shù)據(jù),即即服務(wù)器暫時(shí)存放在用戶的電腦里的資料,好讓服務(wù)器用來(lái)辨認(rèn)計(jì)算機(jī)。互聯(lián)網(wǎng)網(wǎng)站可以通過(guò)對(duì)Cookie的跟蹤,統(tǒng)計(jì)用戶訪問(wèn)該網(wǎng)站的習(xí)慣;第二,利用APP獲取網(wǎng)絡(luò)數(shù)據(jù),APP是網(wǎng)絡(luò)用戶數(shù)據(jù)獲取的一種有效手段,在APP中預(yù)埋SDK插件,用戶使用APP內(nèi)容是就能及時(shí)將信息匯總給指定服務(wù)器;第三,與擁有穩(wěn)定數(shù)據(jù)源公司進(jìn)行戰(zhàn)略合作等方式。
(二)網(wǎng)絡(luò)行為的分析
信息時(shí)代的到來(lái),把網(wǎng)絡(luò)和人們的生活緊密的聯(lián)系在一起。人們?cè)诋a(chǎn)生網(wǎng)絡(luò)行為的過(guò)程中以瀏覽、留言、點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)、轉(zhuǎn)載等形式形成大量的行為數(shù)據(jù)。面對(duì)這些大量的數(shù)據(jù),需要先進(jìn)的數(shù)據(jù)處理技術(shù)。例如,搜索引擎Google在2008年每天要處理20PB的數(shù)Facebook則每天需存儲(chǔ)、訪問(wèn)和分析超過(guò)30PB的用戶創(chuàng)造數(shù)據(jù);Twitter每月會(huì)處理超過(guò)3200億的搜索。這些數(shù)據(jù)的背后,隱藏著巨大的價(jià)值。網(wǎng)絡(luò)行為分析主要包括三個(gè)階段:第一,預(yù)處理階段;第二,網(wǎng)絡(luò)行為模式發(fā)現(xiàn)階段;第三,網(wǎng)絡(luò)行為分析階段。
預(yù)處理階段即對(duì)可利用數(shù)據(jù)的使用記錄和網(wǎng)絡(luò)內(nèi)容及結(jié)構(gòu)的信息行為模式的提取過(guò)程。該階段以行為分析為基礎(chǔ),對(duì)數(shù)據(jù)的使用記錄、內(nèi)容信息和結(jié)構(gòu)模式信息進(jìn)行預(yù)處理。
網(wǎng)絡(luò)行為模式發(fā)現(xiàn)階段,有統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、分類、序列分析等模式。
網(wǎng)絡(luò)行為分析階段,即數(shù)據(jù)處理的最后一步,過(guò)濾模式或者模式中不感興趣的規(guī)則,常用的分析方法有SQL,也就是結(jié)構(gòu)化查詢語(yǔ)言;還有一種是OLAP操作即聯(lián)機(jī)分析處理系統(tǒng)。數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)信息都能使用為過(guò)濾服務(wù)。
通過(guò)收集這些數(shù)據(jù),進(jìn)行分類、匯總、采用數(shù)據(jù)挖掘算法與大數(shù)據(jù)分析技術(shù)對(duì)這些格式化、非格式化的數(shù)據(jù)進(jìn)行分析,從中獲得網(wǎng)絡(luò)用戶的規(guī)律性知識(shí)。通過(guò)數(shù)據(jù)挖掘不同用戶的愛(ài)好,提供針對(duì)性的服務(wù),提高用戶對(duì)網(wǎng)絡(luò)服務(wù)的滿意度。
(三)舉例研究
電子商務(wù)領(lǐng)域的網(wǎng)絡(luò)用戶的數(shù)據(jù)信息行為的數(shù)據(jù)量極大,電子商務(wù)基于大數(shù)據(jù)的處理分析,猜測(cè)用戶的進(jìn)一步需求,這樣可以更好的幫助企業(yè)的產(chǎn)品營(yíng)銷、促進(jìn)用戶的體驗(yàn)次數(shù),并為人們提供更加方便快捷的服務(wù)。
本文以某個(gè)大型購(gòu)物網(wǎng)站為例,通過(guò)自身的網(wǎng)絡(luò)行為,分析大數(shù)據(jù)的運(yùn)用。網(wǎng)站主要有搜索、各種產(chǎn)品分類、猜你喜歡等界面。其中,猜你喜歡的界面就是根據(jù)用戶的網(wǎng)絡(luò)行為,通過(guò)大數(shù)據(jù)的分析、匯總處理而產(chǎn)生的。用戶甲打開(kāi)網(wǎng)站20次,其中18次均直接進(jìn)入家居的所屬分類下,10次選擇衛(wèi)浴,8次選擇廚房。進(jìn)入家居分類后,用戶甲直接選擇了綜合排序中的信用排序最高9次,價(jià)格從高到低8次,價(jià)格從低到高1次。在進(jìn)行了一系列篩選過(guò)后,在該頁(yè)面停留了5分鐘,之后在風(fēng)格分類欄下進(jìn)行二次篩選。用戶甲選擇了現(xiàn)代簡(jiǎn)約10次、歐式7次、現(xiàn)代中式3次。然后在評(píng)價(jià)頁(yè)面停留了2分鐘,在圖文詳情頁(yè)面停留了20秒。
由此,可對(duì)大數(shù)據(jù)通過(guò)數(shù)據(jù)分析對(duì)用戶甲的需求喜好,用戶甲注重產(chǎn)品質(zhì)量高于重視產(chǎn)品價(jià)格,偏好于現(xiàn)代簡(jiǎn)約、歐式的家居風(fēng)格高于中式風(fēng)格;其次用戶甲看中產(chǎn)品的評(píng)價(jià)與口碑,樂(lè)于參考其他用戶的體驗(yàn)評(píng)價(jià)。大數(shù)據(jù)依據(jù)這些數(shù)據(jù)分析,在猜你喜歡中會(huì)出現(xiàn)相對(duì)應(yīng)的現(xiàn)代簡(jiǎn)約或者歐式風(fēng)格的衛(wèi)浴用品、廚房用品等商品。利用大數(shù)據(jù)的分析處理方式,這樣就提高了網(wǎng)絡(luò)用戶購(gòu)買的成功率。endprint