胡樂+杜曉靜+何秋燕
摘 要:大數(shù)據(jù)時代下,很多東西都可以數(shù)字化被計算機所處理,有了計算機硬件技術(shù)飛速發(fā)展的支持和各種數(shù)據(jù)處理分析工具的幫助,人們擁有了海量數(shù)據(jù)的存儲分析能力,但傳統(tǒng)的數(shù)據(jù)處理思維方式已經(jīng)不能適應(yīng)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析,所以我們必須轉(zhuǎn)變傳統(tǒng)的信息思維方式以適應(yīng)新數(shù)據(jù)時代的要求。
關(guān)鍵詞:大數(shù)據(jù);信息思維;轉(zhuǎn)變
DOI:10.16640/j.cnki.37-1222/t.2015.21.102
1 前言
人們在上世紀八十年代就已經(jīng)進入了“數(shù)字信息時代”,當(dāng)時早期的數(shù)字信息數(shù)量還是很有限的,并沒有超出人們能夠處理的范圍,而且信息本身的用處也不像如今一樣引人矚目,人們對信息數(shù)據(jù)處理的思維方式還處于“小數(shù)據(jù)”的認知階段。但隨著計算機技術(shù)的發(fā)展,信息技術(shù)全面融入人們的社會生活,我們所能獲得的信息數(shù)量以驚人的速度爆炸式的增長,人們的被大量的數(shù)據(jù)所淹沒。隨著信息化發(fā)展的不斷進步,用于數(shù)據(jù)處理的計算機速度越來越快,存儲器容量按摩爾定律成倍提升,再加上各種分布式計算存儲技術(shù)的應(yīng)用,使得大量數(shù)據(jù)的處理變得更加容易、更加迅速,人們順利進入大數(shù)據(jù)時代。大數(shù)據(jù)從字面上看就是指規(guī)模巨大的信息數(shù)據(jù)資源,當(dāng)數(shù)據(jù)資源規(guī)模大到一定程度,原來傳統(tǒng)的信息處理方法和思維模式就無法有效的將這些數(shù)據(jù)寶藏轉(zhuǎn)變?yōu)橛行У纳a(chǎn)力,這就要求人們必須轉(zhuǎn)變思維方式,來理解大數(shù)據(jù)給這個世界帶來的變革。
2 信息思維方式的轉(zhuǎn)變
首先是分析數(shù)據(jù)從隨機部分樣本到全體數(shù)據(jù)的轉(zhuǎn)變。
長久以來由于記錄、存儲和數(shù)據(jù)分析工具的限制,人們發(fā)現(xiàn)對大量數(shù)據(jù)的準確分析是一項非常大的挑戰(zhàn),為此,人們建立了各種數(shù)學(xué)模型,采用隨機樣本分析的辦法,利用少量數(shù)據(jù)就可以得到相對準確的分析結(jié)果。但隨機樣本分析也有其缺陷,那就是要保證樣本采集的隨機性而且對更深層次微觀領(lǐng)域的分析也顯得無能為力。而大數(shù)據(jù)時代人們已經(jīng)可以不再依賴隨機樣本分析法這樣的捷徑,采用對所有數(shù)據(jù)進行分析的方法變得更加方便而有效。如今,技術(shù)領(lǐng)域的不斷進步,在新的數(shù)據(jù)分析工具的支持下,原來隨機樣本分析法已不再是我們分析數(shù)據(jù)的主要方式,如果可能的話人們會盡量收集所有的數(shù)據(jù),既“樣本=總體”,并對其加以分析,這種翻天覆地的信息數(shù)據(jù)處理方式也促使我們的信息思維方式隨之而變。
其次是從執(zhí)迷于精確的結(jié)構(gòu)化數(shù)據(jù)到接受混雜的非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變。
對于少量的數(shù)據(jù)而言,最基本的要求是要保證數(shù)據(jù)的精確性,因為有限的信息數(shù)據(jù)收集會把細微的誤差放大,進而影響分析結(jié)果的準確性。但在大數(shù)據(jù)環(huán)境下,人們發(fā)現(xiàn)大部分的數(shù)據(jù)是混雜的非結(jié)構(gòu)化數(shù)據(jù),而且隨著數(shù)據(jù)量的增加,數(shù)據(jù)的錯誤率也會相應(yīng)的增加,如果在數(shù)據(jù)處理之前還要對數(shù)據(jù)進行仔細的清洗,這在大數(shù)據(jù)背景下是很難做到的。即使在這種條件下我們得到的信息不再那么準確,但相比較收集到的海量信息還是更加劃算的,大數(shù)據(jù)讓我們不再期待精確性,也讓我們無法實現(xiàn)精確性,我們要轉(zhuǎn)變的思路是既然我們消除數(shù)據(jù)中的錯誤要花高昂的代價,那為何不接受這些混雜的數(shù)據(jù)并從中受益呢?所以我們要有所轉(zhuǎn)變,要能夠接受混雜的數(shù)據(jù)和其中的不確定性。改變原來固有的思維方式,就如同小時候課堂上常說的“1+1=2”這樣的問題,在大數(shù)據(jù)環(huán)境下“2+2=3.9”這樣的結(jié)果我們也要能夠接受。當(dāng)我們忽略了微觀層面上的精確度,這會使得在宏觀層面上擁有更好的洞察力,一旦我們接受了這種思維方式,我們離真理就更近一步。
最后是由尋求數(shù)據(jù)間的因果關(guān)系到尋找利用數(shù)據(jù)間相關(guān)關(guān)系的轉(zhuǎn)變。
長久以來,人們對客觀事物的認識問的最多的就是“為什么”,對于任何未知的現(xiàn)象總是想搞清楚它是如何發(fā)生的,對因果關(guān)系的探尋可以說是人的一種本能。在大數(shù)據(jù)時代,我們這種觀念也要改變,那就是我們不必知道各種現(xiàn)象背后的原因,而只要尋找它們間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就可以了。簡單的來說就是知道“是什么”就夠了,沒必要知道“為什么”。普林斯頓大學(xué)心理學(xué)專家丹尼爾·卡尼曼提出人有兩種思維模式。第一種是不費力的快速思維模式;另一種是比較費腦力的慢性思維模式。對于快速思維模式,人們偏向用因果聯(lián)系來看待周圍的一切,即使這種因果關(guān)系并不存在。在平時的生活中由于惰性,人們很少會慢條斯理地思考問題,所以快速思維模式用的比較多,因此會經(jīng)常的臆想出一些因果關(guān)系來解釋這個世界。在小數(shù)據(jù)時代,要證明這些由直覺而來的因果關(guān)系是否錯誤是非常困難的,即使是在大數(shù)據(jù)環(huán)境下利用數(shù)據(jù)間的相關(guān)關(guān)系來證明這些直覺的因果關(guān)系也是幾乎沒有可能的。因此即使我們用第二種慢性思維模式去慢慢思考,想要發(fā)現(xiàn)因果關(guān)系也是很困難的。所以在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這樣才會給我們提供非常新穎且很有價值的發(fā)現(xiàn)。
3 小結(jié)
模擬時代的數(shù)據(jù)收集和分析耗時耗力,新問題的出現(xiàn)通常要求我們重新采集分析數(shù)據(jù)。數(shù)字化的出現(xiàn)將模擬數(shù)據(jù)轉(zhuǎn)換成了計算機可以處理的數(shù)字信息,再加上存儲技術(shù)和數(shù)據(jù)分析技術(shù)的發(fā)展使得處理這些數(shù)據(jù)變得既便宜又省力。大數(shù)據(jù)時代的到來,要求我們不能再受限于傳統(tǒng)的思維模式和特定領(lǐng)域里固有的偏見,在思想上轉(zhuǎn)變固有的思維模式,這樣才能在認識世界的道路上更進一步。
參考文獻:
[1][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶《大數(shù)據(jù)時代》 盛楊燕,周濤譯[M].浙江人民出版社,2013.
作者簡介:胡樂(1979-),男,講師,研究方向:信息技術(shù)及應(yīng)用。endprint