記者:在數字信息如此普及的今天,大數據正方方面面影響和改變著我們的生活。請問,什么是大數據?
王艷云:到底什么是大數據(Big Data)?維基百科(Wikipedia)中提到:大數據就是這樣一種數據集,它特指用現有通用軟件在可容忍的時間內無法加工、處理和分析的數據。今天度量數據存儲的大小已經到了Tb級和Pb級,甚至到了Eib級(2的60次方)。但數據量的巨大并不是大數據的唯一特征,在一定條件下,對個人而言是大數據,對企業(yè)級應用就是中數據,對移動和淘寶可能就是小數據,對谷歌和百度可能就不算數據了。所以有一種說法:大數據就是越來越大的數據。
現在比較流行的一種大數據說法叫4V理論,強調大數據的數量(Volume)、類型(Variety)、速度(Velocity)、可用性(Veracity)或價值(Value)。當然,大數據的定義,甚至概念界定至今并沒有得到學界或業(yè)界的統(tǒng)一,不同專業(yè)領域,不同學科背景,不同應用場景都有著不同側重點的闡釋。其實大數據這個概念沒有流行前,我們就面臨著海量數據的處理問題,所以在一定程度上大數據概念落地就是早年的數據挖掘(data mining),是指從海量數據中發(fā)現知識的過程,也稱為KDD(Knowledge Discover in Database)。
我比較認可麥肯錫全球研究所的定義——大數據是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。由于大數據的這些特征,就要求在大數據處理的存儲、讀取、清洗、解析、聚合、建模等多個環(huán)節(jié)都需要采用新的技術或模式。