李華芳
在大數(shù)據(jù)時(shí)代,人們很容易把一大堆數(shù)據(jù)定義為“大數(shù)據(jù)”。比如,大型制造企業(yè)和倉庫可能存有多年積累下來的存貨數(shù)據(jù),或許高達(dá)幾兆兆字節(jié),但這并不能算大數(shù)據(jù)。同樣,1 500個(gè)POS機(jī)的現(xiàn)金數(shù)據(jù)、一大份工作表中的數(shù)據(jù)也不是大數(shù)據(jù)。
企業(yè)需要行之有效的方法去儲(chǔ)存、分析、使用數(shù)據(jù),如果管理的不是大數(shù)據(jù)問題,那就沒有必要建立數(shù)據(jù)池、雇傭數(shù)據(jù)科學(xué)家。說到底,辨別所管理的是大數(shù)據(jù)還是大量數(shù)據(jù)至關(guān)重要。以下是我個(gè)人推崇的幾種辨別方法:
1. 數(shù)據(jù)是否來源于多種不同渠道。
如果數(shù)據(jù)來源單一,即使數(shù)據(jù)量很大,也不太可能是大數(shù)據(jù)。
職業(yè)數(shù)據(jù)人會(huì)考慮大數(shù)據(jù)的3V(或4V):數(shù)量,多樣性,速度(精確性)。本文討論的就是第二種:多樣性。一般來說,大數(shù)據(jù)往往不是來自于單一源頭或系統(tǒng),而是來自于許多不同的地方,不同的形式,以及不同的變量。
例如,POS數(shù)據(jù)盡管數(shù)量龐大但不是大數(shù)據(jù),可是如果把從供應(yīng)商處取得的數(shù)據(jù)與其整合以構(gòu)建供應(yīng)鏈,則它們就成了大數(shù)據(jù)。因此,問題在于是什么形成了大數(shù)據(jù),而不是僅僅考慮數(shù)量因素。
2. 數(shù)據(jù)是否需要被實(shí)時(shí)分析使用。
并不是所有的大數(shù)據(jù)都一定來源于多種不同渠道,當(dāng)數(shù)據(jù)需要被實(shí)時(shí)分析使用,比如預(yù)防欺詐、股票交易時(shí),盡管數(shù)據(jù)缺乏多樣性,但仍可被定義為大數(shù)據(jù)。在信用服務(wù)業(yè),用于預(yù)防欺詐的數(shù)據(jù)來源并不復(fù)雜,但需要實(shí)時(shí)分析技術(shù),這樣若真的存在欺詐,也會(huì)被馬上檢測出并予以阻止。
同樣的,股票交易員所依賴的高頻交易數(shù)據(jù)也并不是特別復(fù)雜的數(shù)據(jù),但需要連續(xù)處理以做出買入或賣出股票的決定。
3. 你是否需要詢問復(fù)雜問題。
當(dāng)你開始針對(duì)數(shù)據(jù)詢問更加復(fù)雜的問題的時(shí)候,比如確定因果關(guān)系,則該數(shù)據(jù)就成了大數(shù)據(jù)。當(dāng)然,在這種情況下,最好還是使用多方面來源的數(shù)據(jù)。
比如,當(dāng)你想知道女性紅色高跟鞋四月份的市場情況的時(shí)候,你所要的數(shù)據(jù)就不僅僅是你自己的采購記錄了,你還要整合社交媒體和其他外部市場數(shù)據(jù)以得到最佳答案。
4. 數(shù)據(jù)集是否代表了許多不同的變量。
如果數(shù)據(jù)代表了一系列不同的難以界定模式和關(guān)聯(lián)性的變量,那么即使數(shù)據(jù)是由單一系統(tǒng)或小型系統(tǒng)搜集而來,也可認(rèn)定為是大數(shù)據(jù)。例如,氣象數(shù)據(jù)僅從一些基礎(chǔ)的系統(tǒng)取得(氣溫,氣壓,風(fēng)速等),但數(shù)據(jù)關(guān)系卻極為復(fù)雜,即使是最富經(jīng)驗(yàn)的氣象學(xué)家也不一定總能做出準(zhǔn)確的氣象預(yù)測。因此,他們會(huì)使用高度專業(yè)化的數(shù)據(jù)分析方法以做出更準(zhǔn)確的預(yù)測。
5. 數(shù)據(jù)是未架構(gòu)的,半架構(gòu)的,架構(gòu)的還是以上的綜合。
諸如SQL等關(guān)系明確的數(shù)據(jù)庫長時(shí)間以來成功地處理了組織良好的數(shù)據(jù),但如今的多媒體世界為我們呈現(xiàn)了一系列未架構(gòu)的和半架構(gòu)的數(shù)據(jù),這些數(shù)據(jù)在SQL中無法得到良好的處理。這些數(shù)據(jù)包括圖像,視頻,文本文件,電子郵件交流,社交媒體,音頻文件以及其他。
以上五種鑒別方法,正是我們?cè)谟懻摯髷?shù)據(jù)運(yùn)用時(shí),常常因?yàn)檫吔缒:x不清晰造成的“誤判”。
這是一場顛覆性的革命,從信息不對(duì)稱的服務(wù)業(yè)出發(fā)逐步延伸到政府、制造業(yè)甚至第一產(chǎn)業(yè)中。許多企業(yè)家的坐標(biāo)系、商業(yè)知覺失靈了,許多投資人對(duì)趨勢(shì)的判斷失效了。這最早體現(xiàn)在客戶結(jié)構(gòu)的變化,上世紀(jì)八九十年代人群的消費(fèi)成主流,帶動(dòng)游戲規(guī)則的變化,物理間隔。
大數(shù)據(jù)時(shí)代一定要注意移動(dòng)互聯(lián)網(wǎng)。在2012年移動(dòng)互聯(lián)網(wǎng)流量已經(jīng)全面超過PC了,我們?nèi)绾卧谝苿?dòng)互聯(lián)網(wǎng)做產(chǎn)品,同時(shí)考慮客戶的需求點(diǎn)?未來軟件會(huì)免費(fèi),會(huì)成為一個(gè)采集數(shù)據(jù)的入口,行業(yè)的邊界會(huì)被打破,現(xiàn)在更多的行業(yè)都在做金融相關(guān)服務(wù)。數(shù)據(jù)越來越重要,已經(jīng)在逐漸成為資產(chǎn)。
這是一個(gè)完整的電商過程,一個(gè)做得比較優(yōu)質(zhì)的電商從客戶進(jìn)店、瀏覽、下單、付款、期待、收貨、評(píng)價(jià)。有一家大的互聯(lián)網(wǎng)公司,它的客戶分成接近800萬類,同時(shí)每一類貼上上萬個(gè)標(biāo)簽,這是非常必要的過程。你會(huì)知道什么客戶是你的老客戶,什么是新客戶,什么是忠實(shí)客戶,什么是粉絲,以及未來在社交網(wǎng)絡(luò)上新的營銷方式,怎么通過粉絲進(jìn)行大回響的效應(yīng)等。
關(guān)于大數(shù)據(jù)的定義,準(zhǔn)確地說是通過數(shù)據(jù)很準(zhǔn)確、深刻地標(biāo)識(shí)出來人或者事物行為的本質(zhì),通過這些數(shù)據(jù)來產(chǎn)生商業(yè)的或某一種動(dòng)機(jī)的目的。
從這個(gè)意義上來說,至少有幾個(gè)特征不屬于大數(shù)據(jù)。第一,你有大量的數(shù)據(jù)并不能說明你是大數(shù)據(jù),因?yàn)閿?shù)據(jù)里面有意義的數(shù)據(jù)還是少數(shù)的。第二,數(shù)據(jù)之間復(fù)雜的關(guān)系往往是跨行業(yè)的,也就是說這些數(shù)據(jù)越是超越了某個(gè)行業(yè),越是能夠更復(fù)雜地認(rèn)識(shí)人的行為,這種綜合性是一個(gè)大數(shù)據(jù)的十分明顯的特點(diǎn)。第三,它一定是不斷交互和循環(huán)的。它會(huì)不斷地學(xué)習(xí),通過越來越深刻的、循環(huán)的過程,使這種識(shí)別、標(biāo)識(shí)變得更為準(zhǔn)確。
所以它也是動(dòng)態(tài)的,因此大數(shù)據(jù)被應(yīng)用于識(shí)別標(biāo)識(shí)行為的過程中。今天因?yàn)橛辛似脚_(tái)、有了提供者、有了人參與、有了綜合和跨越,最終服務(wù)于商業(yè)根本的目的。