馬壯
“新IT時代”是近一年提出的熱詞,是相對舊的IT時代提出的。在舊的IT時代,我們利用計算機(jī)把客戶的終端連接起來。進(jìn)入新的IT時代,我們連接的目的是信息共享,再對其進(jìn)行智能分析、運(yùn)算,產(chǎn)生智能創(chuàng)造。因此,新IT時代的主題就是智能化。
大數(shù)據(jù)時代給我們提供了巨大的轉(zhuǎn)變:第一個轉(zhuǎn)變,我們不再苛求因果關(guān)系,轉(zhuǎn)向追求相關(guān)關(guān)系。相關(guān)關(guān)系越來越重要,我們可以把很多原有聯(lián)系并不是很緊密的事件放在一起,使得原先看不到的一些東西發(fā)揮其作用。我們今天預(yù)測所追求的結(jié)果不一定正確,但也會產(chǎn)生一定的價值。
第二個轉(zhuǎn)變,在認(rèn)知方式上產(chǎn)生了新的挑戰(zhàn)。我們現(xiàn)在可以量化的維度越來越多。這意味著對人的描述越來越全面、越細(xì)化,這樣我們可以有更多的角度去判斷。另外,交流方式也產(chǎn)生了巨大的變化。
第三個轉(zhuǎn)變,由于新的媒體不斷出現(xiàn),我們交流的方式在發(fā)生變化,有群體的交流、小圈子內(nèi)私密的交流等,并從原有的文字,到語音、視頻。各種各樣的交流方式都會產(chǎn)生大量新的數(shù)據(jù),會催生新的服務(wù)和產(chǎn)品。
從數(shù)學(xué)的角度談及我對大數(shù)據(jù)的理解,總結(jié)為4個V:第一個V是指數(shù)據(jù)量大。數(shù)據(jù)量達(dá)到ZB級,大約10億個TB的容量。有人認(rèn)為數(shù)據(jù)量多一定是件好事,我們有更多東西可以作為參考和分析的依據(jù)。但我覺得大數(shù)據(jù)給我們帶來了巨大的麻煩,數(shù)據(jù)量大以后,我們會放棄原有對于規(guī)律性的探索,可能被數(shù)據(jù)所迷惑,產(chǎn)生的結(jié)果可能是錯誤的。
第二個V是指大數(shù)據(jù)產(chǎn)生的速度很快。我們的很多數(shù)據(jù)是有時效性的,這對我們數(shù)據(jù)分析提出了非常高的要求,要在很短時間內(nèi)產(chǎn)生正確結(jié)果。數(shù)據(jù)分析工作者需要探尋一些比較簡單的模型和方法,以適應(yīng)高速產(chǎn)能的數(shù)據(jù)。
第三個V是指數(shù)據(jù)多樣性。我們現(xiàn)在所獲得的數(shù)據(jù)并不是同一架構(gòu)的數(shù)據(jù),很難進(jìn)行匯總和整合。非結(jié)構(gòu)化數(shù)據(jù)往往是最重要的數(shù)據(jù),我們需要促成一些新的工具和方法從中將之結(jié)構(gòu)化,從而提取有價值的東西。
第四個V是指數(shù)據(jù)的真實性。這是很棘手的事,因為我們所有的預(yù)測都是基于數(shù)據(jù)完成的。一旦數(shù)據(jù)出了問題,特別是人為制造虛假數(shù)據(jù),預(yù)測結(jié)果就肯定有問題。而虛假數(shù)據(jù)非常之多,如果我們用它們構(gòu)建預(yù)測模型就會被誤導(dǎo)。所以,我們需要一整套判定數(shù)據(jù)真實性的方法。我認(rèn)為,雖然今天預(yù)測的結(jié)果不一定正確,但也會產(chǎn)生一定的價值。