要“飲”好大數(shù)據(jù)這杯酒,得回到源頭上去看一看——數(shù)據(jù)源。
時時連接在線的海量人和物產(chǎn)生了海量的數(shù)據(jù),這就是大數(shù)據(jù)的基礎與源頭。
大數(shù)據(jù)的價值首先要解決動態(tài)利用的問題。
大數(shù)據(jù)很熱,其概念和內(nèi)涵解釋不少,爭論很多。
目前主流的大數(shù)據(jù)定義比較偏技術化,一般大眾難于理解。譬如維基百科關于“大數(shù)據(jù)”的定義:指一些使用現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理應用很難處理的大型而復雜的數(shù)據(jù)集 ?!艾F(xiàn)有數(shù)據(jù)庫管理工具”就讓很多人難以理解,“復雜的數(shù)據(jù)集”也讓人對其價值摸不著頭腦。另一個流行的關于大數(shù)據(jù)的4V特點(Volume、Velocity、Variety、Veracity)的描述,也只是個定性的說法。
有句俗語叫“飲水思源”,要“飲”好大數(shù)據(jù)這杯酒,得回到源頭上去看一看——數(shù)據(jù)源。
如果單純就一個“大”字,大數(shù)據(jù)早就存在,譬如世界上任何一個稍具規(guī)模的圖書館里存儲的知識量,一個國家檔案館里的檔案等等。可見這個“大”字不僅僅是“大”那么簡單。
源頭究竟發(fā)生了什么變化?最近幾年移動互聯(lián)、社交網(wǎng)絡、電子商務、物聯(lián)網(wǎng)的快速發(fā)展,使得全球超過一半的人時時連接在線,商品的物流、空氣的動態(tài)變化等等看得見看不見的也連接在線。時時連接在線的海量人和物產(chǎn)生了海量的數(shù)據(jù),這就是大數(shù)據(jù)的基礎與源頭。
這樣的大數(shù)據(jù)跟以前的大數(shù)據(jù)究竟有何不同?
首先是數(shù)據(jù)時時并發(fā)產(chǎn)生。圖書館里海量知識是靜態(tài)的,頂多隨著新增的書而增加。就在按下鍵盤的瞬間,互聯(lián)網(wǎng)世界里又時時產(chǎn)生了大量的數(shù)據(jù)。
二是開放的。哪里有網(wǎng),數(shù)據(jù)就在哪里產(chǎn)生。只要有一個可接入互聯(lián)網(wǎng)的端,不管這個端是PC、手機,還是一個數(shù)據(jù)監(jiān)測發(fā)射裝置,就可時時產(chǎn)生數(shù)據(jù)。而圖書館是封閉的,其數(shù)據(jù)進來和出去都受控制。
三是數(shù)據(jù)源在不斷拓展,越來越多樣化。Google眼鏡可以把眼里看到的變成數(shù)據(jù),智能汽車可以把動態(tài)行駛過程變成數(shù)據(jù),嵌入到生產(chǎn)設備里的物聯(lián)網(wǎng)可以把生產(chǎn)過程和設備動態(tài)狀況變成數(shù)據(jù)。對數(shù)據(jù)源的不斷拓展不僅能帶來采集設備的發(fā)展,而且可以通過控制新的數(shù)據(jù)源更好地控制數(shù)據(jù)的價值。從Google的策略就可見一斑,其在數(shù)據(jù)源頭技術和產(chǎn)品上的布局(譬如可穿戴設備、Google汽車、Google街景等)顯示其不僅要控制數(shù)據(jù)的計算(收索),還要控制數(shù)據(jù)的產(chǎn)生。當Google成為數(shù)據(jù)源、數(shù)據(jù)處理、數(shù)據(jù)利用一條龍的大數(shù)據(jù)之王時,那時的Google將更可怕。
四是源頭活水,動態(tài)利用。大數(shù)據(jù)時時在線使得其存儲、計算、價值化都具有實時的特征。這與圖書館知識的靜態(tài)利用大不同。實時性與海量對整個數(shù)據(jù)處理的系統(tǒng)與技術提出了更高的要求,這也是為什么流行的大數(shù)據(jù)概念往往從技術角度出發(fā)的原因。大數(shù)據(jù)要有價值首先要解決動態(tài)利用的問題,譬如你這一刻發(fā)現(xiàn)了我有奶粉需求,下一刻需求已變成了一頓美食。用好大數(shù)據(jù)就一定要動態(tài)利用,絕不是“一洗了之”的解決方案。