吳俊爽 韓琴琴 劉誠(chéng)偉
【摘 要】隨著計(jì)算機(jī)技術(shù)和應(yīng)用飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,網(wǎng)民數(shù)量也成倍的增加,再加之全世界其他各行各業(yè)每分每秒都在制造著大量數(shù)據(jù)?!按髷?shù)據(jù)”的概念逐步被人們所重視,本文提出了一種大數(shù)據(jù)的多維度特征表示方法(BDDP),并且積極探討了這種表示方法在互聯(lián)網(wǎng)中的應(yīng)用,比如:招聘信息挖掘、移動(dòng)APP的廣泛利用。
【中圖分類號(hào)】TP393.4【文獻(xiàn)標(biāo)識(shí)碼】A【文章編號(hào)】1672-5158(2013)07-0117-02
1、研究背景介紹
大數(shù)據(jù)具有信息體量巨大、數(shù)據(jù)類型繁多、價(jià)值密度低,商業(yè)價(jià)值高、處理速度快的4個(gè)“V”特點(diǎn)。[1]大數(shù)據(jù)的概念一經(jīng)提出,科學(xué)研究者就發(fā)現(xiàn)大數(shù)據(jù)技術(shù)的戰(zhàn)略意義并不在于對(duì)掌握龐大的數(shù)據(jù)信息而歡欣鼓舞,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,即提高對(duì)數(shù)據(jù)的“加工處理能力”體現(xiàn)數(shù)據(jù)的“價(jià)值”。本文認(rèn)同,在大數(shù)據(jù)時(shí)代下,仍將是以數(shù)據(jù)為中心的SOA模型占領(lǐng)主導(dǎo)地位。故本論文側(cè)重對(duì)大數(shù)據(jù)本身的處理,而并非對(duì)其存儲(chǔ)等架構(gòu)技術(shù)[2]做過(guò)多的探討。本論文提出了大數(shù)據(jù)的多維度處理方法,將互聯(lián)網(wǎng)上的大數(shù)據(jù)進(jìn)行整合處理,并對(duì)其應(yīng)用到互聯(lián)網(wǎng)應(yīng)用中提出了憧憬和建議。
2、 大數(shù)據(jù)的多維表示方法(BDDP)
2.1 互聯(lián)網(wǎng)應(yīng)用中的大數(shù)據(jù)
2.1.1 互聯(lián)網(wǎng)中的大數(shù)據(jù)定義
互聯(lián)網(wǎng)中的大數(shù)據(jù)目前還沒(méi)有很明確的定義,本論文特指其是:由互聯(lián)網(wǎng)產(chǎn)品或者網(wǎng)民產(chǎn)生的大量數(shù)據(jù)。如:商品信息、商品價(jià)格、用戶信息(位置、好友信息、生活信息)、 音頻、視頻、圖片、網(wǎng)站管理日志、用戶登錄日志 、社交網(wǎng)站中的聊天記錄、博文等等。[3]
2.1.2 互聯(lián)網(wǎng)用戶產(chǎn)生大數(shù)據(jù)的方式
目前,互聯(lián)網(wǎng)用戶的主要接入媒介分為:PC和手機(jī)、智能平板等移動(dòng)和不可移動(dòng)終端。[4]加之互聯(lián)網(wǎng)應(yīng)用包括:企事業(yè)信息門戶網(wǎng)站、百度等搜索引擎、新浪等新聞網(wǎng)站、APP應(yīng)用商城、阿里巴巴等電子商務(wù)網(wǎng)站、社交網(wǎng)站、騰訊微博、騰訊微信、移動(dòng)互聯(lián)網(wǎng)應(yīng)用等。因此本論文認(rèn)為,大數(shù)據(jù)產(chǎn)生方式有以下:
1) 新聞、企事業(yè)單位網(wǎng)站的每日新聞、政策公布
2) 博客用戶針對(duì)新聞事件的討論、引用
3) 移動(dòng)APP用戶信息匯總(移動(dòng)終端觸摸行為)
4) 電子商城用戶行為(鼠標(biāo)點(diǎn)擊行為)
5) 社交網(wǎng)站用戶的交流與社交關(guān)系
2.2 BDDP數(shù)據(jù)建模
2.2.1 BDDP建模的依據(jù)
互聯(lián)網(wǎng)大數(shù)據(jù)的產(chǎn)生方式是可以根據(jù)2.1.2中進(jìn)行劃分的,因此能夠準(zhǔn)確的了解并掌握不同數(shù)據(jù)的特征與特性。這些數(shù)據(jù)可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的。
但是這些數(shù)據(jù)的產(chǎn)生都是基于為用戶服務(wù)產(chǎn)生,并且由于用戶不同的參與行為導(dǎo)致數(shù)據(jù)急劇增加,因此用戶行為分析,[5]可以幫助我們進(jìn)行BDDP數(shù)據(jù)建模。另一方面,互聯(lián)網(wǎng)應(yīng)用供應(yīng)商性質(zhì),也是決定數(shù)據(jù)性質(zhì)的一個(gè)關(guān)鍵因素。
2.2.2 BDDP建模算法
1)以新聞事件為中心的大數(shù)據(jù)產(chǎn)生模型
對(duì)某一新聞?lì)^條為中心的大數(shù)據(jù)產(chǎn)生進(jìn)行建模
第二層微博、微信、QQ推送記錄為第二層數(shù)據(jù)
第三層各種互聯(lián)網(wǎng)用戶產(chǎn)生的行為記錄為
我們還可以在每一層數(shù)據(jù)上加入時(shí)間維
2)移動(dòng)互聯(lián)網(wǎng)APP為中心的大數(shù)據(jù)產(chǎn)生模型
對(duì)某款新的手機(jī)APP為中心的大數(shù)據(jù)進(jìn)行建模圖2 典型的APP事件流動(dòng)模式
根據(jù)上圖,本論文將APP產(chǎn)品數(shù)據(jù)記錄建立大數(shù)據(jù)多維特征數(shù)據(jù)
第一層數(shù)據(jù)
第二層數(shù)據(jù)
第三層數(shù)據(jù)
同理我們可以在每一層數(shù)據(jù)上加上時(shí)間維
綜上所述,以上僅是兩種典型的模型,不足以代表所有互聯(lián)網(wǎng)大數(shù)據(jù)的產(chǎn)生模式。但是整體看:移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)一致可以分為三層、最多四維的特征數(shù)據(jù),而最后一層數(shù)據(jù)通常又是以一個(gè)中心向外輻射的特征數(shù)據(jù)集,由于輻射數(shù)據(jù)集的復(fù)雜性才使得互聯(lián)網(wǎng)大數(shù)據(jù)的處理和挖掘變得異常困難。但是上述的大數(shù)據(jù)的多維度特征數(shù)據(jù)維度較少,定義精確,可以那個(gè)多層次關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法,[6]以較高的效率實(shí)現(xiàn)。
3、 BDDP在互聯(lián)網(wǎng)中的應(yīng)用
移動(dòng)互聯(lián)網(wǎng)的發(fā)展,離不開(kāi)用戶的支持?,F(xiàn)在很多互聯(lián)網(wǎng)企業(yè)都是利用高瀏覽量來(lái)賺取廣告費(fèi)用。掌握大量數(shù)據(jù)、分析用戶消費(fèi)行為、引導(dǎo)用戶消費(fèi)已然成為目前各大互聯(lián)網(wǎng)企業(yè)的重點(diǎn)研究領(lǐng)域。
前程無(wú)憂,應(yīng)屆生求職網(wǎng)等以發(fā)布招聘信息為主的招聘網(wǎng)站,它并不為用戶提供任何職位,而是求職者和招聘單位的一個(gè)溝通橋梁。通過(guò)點(diǎn)擊率賺取利潤(rùn),這是一種典型的以新聞事件為中心的大數(shù)據(jù)產(chǎn)生模式。
近期,百度發(fā)布了“明星臉”,是一款手機(jī)終端的APP[7],目前該APP功能較單一,就是支持用戶上傳照片,然后識(shí)別與用戶相似的明星臉。其實(shí)這就是第二種大數(shù)據(jù)產(chǎn)生模式的一個(gè)應(yīng)用。其發(fā)布時(shí)間是2013年愚人節(jié)那天,經(jīng)過(guò)APP為中心的數(shù)據(jù)產(chǎn)生模式,很快就有了大量用戶關(guān)注。
從上述的分析可以知道,很多互聯(lián)網(wǎng)公司是憑借大量用戶、擁有大量數(shù)據(jù),靠著模式創(chuàng)新而不是提供產(chǎn)品來(lái)獲得利潤(rùn)。因此掌握互聯(lián)網(wǎng)大數(shù)據(jù)多維特征數(shù)據(jù),有利于互聯(lián)網(wǎng)企業(yè)準(zhǔn)確定位,建立正確的盈利模式。
4、 結(jié)束語(yǔ)
參考文獻(xiàn)
[1] 百度百科 大數(shù)據(jù)詞條 http://baike.baidu.com/view/6954399. htm 2013-4-5
[2] 王珊,王會(huì)舉,覃雄派,烜周.《架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望》 計(jì)算機(jī)學(xué)報(bào)Vol.34 No.10 Oct.2011
[3] 199IT推薦文章,2012年中國(guó)移動(dòng)互聯(lián)網(wǎng)發(fā)展歷程回顧,2013-4- 3
[4] 劉三德.互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用之二:用戶行為分析 速途專欄,2012-6-10
[5] 王璐,唐紅.移動(dòng)互聯(lián)網(wǎng)用戶行為分析,中國(guó)知網(wǎng)Vol.11 2012
[6] 程繼華,施鵬飛.多層次關(guān)聯(lián)規(guī)則的有效數(shù)據(jù)挖掘算法 軟件學(xué)報(bào)Vol.9,No.12,Dec.1998
[7] 百度百科,明星臉詞條,http://baike.baidu.com/view/10370916. htm 2013-4-5