張開秋 段雪蓮
2012年,Twitter上每天發(fā)布超過4億條微博,F(xiàn)acebook上每天更新的照片超過1000萬張,F(xiàn)arecast公司用將近10萬億條價(jià)格記錄來預(yù)測機(jī)票價(jià)格,準(zhǔn)確率高達(dá)75%,采用該系統(tǒng)購票,平均每張機(jī)票可節(jié)省50美元。2011年,麥肯錫公司對(duì)全世界大數(shù)據(jù)的分布作了一個(gè)研究和統(tǒng)計(jì),中國2010年新增的數(shù)據(jù)量約為250PB,而歐洲約為2000PB,美國約為3500PB,大數(shù)據(jù)已經(jīng)滲透到了人類經(jīng)濟(jì)社會(huì)生活的各個(gè)方面。如何獲取、聚集、分析大數(shù)據(jù)成為廣泛關(guān)注的熱點(diǎn)問題。
一、大數(shù)據(jù)的概念與特點(diǎn)
大數(shù)據(jù)是一個(gè)較為抽象的概念,至今尚無確切、統(tǒng)一的定義。在維基百科中關(guān)于大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。
(一)數(shù)據(jù)量大
數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。首先,隨著互聯(lián)網(wǎng)的廣泛運(yùn)用,數(shù)據(jù)獲取、分享變得相對(duì)容易。其次,隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。此外,數(shù)據(jù)量大還體現(xiàn)在人們處理數(shù)據(jù)的方法和理念發(fā)生了根本的改變。
(二)數(shù)據(jù)類型多樣
數(shù)據(jù)類型繁多,復(fù)雜多變是大數(shù)據(jù)的重要特性。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理最大的不同就是重點(diǎn)關(guān)注非結(jié)構(gòu)化信息,大數(shù)據(jù)關(guān)注包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),強(qiáng)調(diào)小眾化、體驗(yàn)化的特性使得傳統(tǒng)的數(shù)據(jù)處理方式面臨巨大的挑戰(zhàn)。
(三)數(shù)據(jù)處理速度快
要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一??焖僭鲩L的數(shù)據(jù)量要求數(shù)據(jù)處理的速度必須相應(yīng)的提升,才能使得大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢,反而成了快速解決問題的負(fù)擔(dān)。對(duì)不斷激增的海量數(shù)據(jù)的實(shí)時(shí)處理要求,是大數(shù)據(jù)與傳統(tǒng)海量數(shù)據(jù)處理技術(shù)的關(guān)鍵差別之一。
二、大數(shù)據(jù)要解決的核心問題
大數(shù)據(jù)的處理包括:獲取與特定的應(yīng)用相關(guān)的有用數(shù)據(jù),并將數(shù)據(jù)聚合成便于存儲(chǔ)、分析、查詢的形式;分析數(shù)據(jù)的相關(guān)性,得出相關(guān)屬性;采用合適的方式將數(shù)據(jù)分析的結(jié)果展示出來等過程。
(一)獲取有用數(shù)據(jù)
對(duì)于實(shí)際應(yīng)用來說,并不是數(shù)據(jù)越多越好,獲取大量數(shù)據(jù)的目的是盡可能準(zhǔn)確、詳盡的描述事物的屬性,對(duì)于特定的應(yīng)用數(shù)據(jù)必須包含有用的信息,擁有包含足夠信息的有效數(shù)據(jù)才是大數(shù)據(jù)的關(guān)鍵。
(二)數(shù)據(jù)分析
數(shù)據(jù)分析是大數(shù)據(jù)處理的關(guān)鍵,大量的數(shù)據(jù)本身并沒有實(shí)際意義,只有針對(duì)特定的應(yīng)用分析這些數(shù)據(jù),使之轉(zhuǎn)化成有用的結(jié)果,海量的數(shù)據(jù)才能發(fā)揮作用。
(三)數(shù)據(jù)顯示
數(shù)據(jù)顯示是將數(shù)據(jù)經(jīng)過分析得到的結(jié)果以可見或可讀形式輸出,以方便用戶獲取相關(guān)信息。將用戶與數(shù)據(jù)融合在一起,使用戶直接與繪制結(jié)果交互,便于用戶認(rèn)識(shí)、理解數(shù)據(jù)。數(shù)據(jù)顯示以準(zhǔn)確、方便地向用戶傳遞有效信息為目標(biāo),顯示方法可以根據(jù)具體應(yīng)用需要來選擇。
三、大數(shù)據(jù)面臨的挑戰(zhàn)
實(shí)際上,大數(shù)據(jù)是一種新興的理論,大數(shù)據(jù)的概念、技術(shù)、方法還遠(yuǎn)不成熟,在其發(fā)展的過程中還將面臨多種挑戰(zhàn),不應(yīng)過分夸大其先進(jìn)性,我們還應(yīng)看到其存在的不足。
(一)不能完全代替?zhèn)鹘y(tǒng)數(shù)據(jù)
當(dāng)前大數(shù)據(jù)尚不能完全取代傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),盡管大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的絕對(duì)數(shù)據(jù)量占總數(shù)據(jù)量的75%,但由于非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值偏低,有效的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相比并不占絕對(duì)優(yōu)勢,對(duì)于某些特定的應(yīng)用,結(jié)構(gòu)化數(shù)據(jù)仍然占據(jù)主導(dǎo)地位。
(二)數(shù)據(jù)保護(hù)
互聯(lián)網(wǎng)的發(fā)展使得獲取數(shù)據(jù)雖然十分便利,但也給信息安全帶來了巨大的挑戰(zhàn)。當(dāng)前,數(shù)據(jù)安全形勢不容樂觀,需要保護(hù)的數(shù)據(jù)量增長已超過了數(shù)據(jù)總量的增長。首先,個(gè)人隱私更容易通過網(wǎng)絡(luò)泄露;其次,在國家層面大數(shù)據(jù)可能給國家安全帶來隱患,如果在大數(shù)據(jù)處理方面落后,就可能導(dǎo)致數(shù)據(jù)的單向透明。美國發(fā)布大數(shù)據(jù)研發(fā)計(jì)劃,大力發(fā)展大數(shù)據(jù)技術(shù)就有增強(qiáng)國家安全方面的戰(zhàn)略布置。
(三)相關(guān)性預(yù)知
大數(shù)據(jù)時(shí)代,數(shù)據(jù)不再是靜止和陳舊的,而是流動(dòng)的、不斷更新的。大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉,通過分析數(shù)據(jù)的相關(guān)性可能預(yù)知事物的發(fā)展方向,但不能希望通過大數(shù)據(jù)可以預(yù)知一切。
四、結(jié)語
隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算的飛速發(fā)展,大量非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級(jí)快速增長,數(shù)據(jù)樣式高度復(fù)雜,為人類認(rèn)識(shí)世界、改造世界提供了重要資源。然而大數(shù)據(jù)的概念和相關(guān)技術(shù)還遠(yuǎn)未成熟,尚存在著一定的爭議,面臨著諸多挑戰(zhàn)。我國是僅次于美國的數(shù)據(jù)大國,而我國大數(shù)據(jù)方面的研究尚處在起步階段,如何開發(fā)、利用保護(hù)好大數(shù)據(jù)這一重要的戰(zhàn)略資源,是我國當(dāng)前亟待解決的問題。
(作者單位:西華大學(xué)經(jīng)濟(jì)學(xué)院)