關(guān)于大數(shù)據(jù)分析,現(xiàn)實的情況是,說的人很多,鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因無外乎有二:一是對于大數(shù)據(jù)分析的價值邏輯尚缺乏足夠深刻的洞察;二是大數(shù)據(jù)分析中的某些重大要件或技術(shù)還不成熟。
比如,提到大數(shù)據(jù)的大,一般人認為指的是它數(shù)據(jù)規(guī)模的海量——隨著人類在數(shù)據(jù)記錄、獲取及傳輸方面的技術(shù)革命,造成了數(shù)據(jù)獲得的便捷與低成本,這便使原有的以高成本方式獲得的、描述人類態(tài)度或行為的、數(shù)據(jù)有限的小數(shù)據(jù)變成了一個巨大的、海量規(guī)模的數(shù)據(jù)包。這其實是一種不得要領、似是而非的認識。其實,前大數(shù)據(jù)時代也有海量的數(shù)據(jù)集,但由于其維度的單一,以及和人或社會有機活動狀態(tài)的剝離,而使其分析和認識真相的價值極為有限。大數(shù)據(jù)的真正價值不在于它的大,而在于它的全——空間維度上的多角度、多層次信息的交叉復現(xiàn);時間維度上的與人或社會有機體的活動相關(guān)聯(lián)的信息的持續(xù)呈現(xiàn)。
以數(shù)據(jù)的交叉復現(xiàn)對于還原真相的價值為例:一個家住北京的男人借去杭州出差的機會到上海與情人幽會,回到北京后怕被老婆發(fā)現(xiàn)把相關(guān)的短信、微信、通話記錄統(tǒng)統(tǒng)都刪除掉,但他老婆如果掌握了大數(shù)據(jù)分析方法的話便很容易獲得真相:查詢酒店的開房記錄、刷卡消費的記錄、甚至他在上海期間一不留神轉(zhuǎn)發(fā)的一條微博都可能透露出的位置信息。正如《大數(shù)據(jù)時代》中所引述的,一個孕婦的口味及消費模式等是有一定規(guī)律的,單一一條信息并不足以判定你的狀態(tài),但關(guān)于你的不同來源的數(shù)據(jù)集合一旦與孕婦特型(如果我們掌握了這個分析模型的話)高度相關(guān),人們便很容易對你的真實狀態(tài)進行一種準確的判斷而不管你自己承認或者不承認。
再舉個例子,面對今天社會輿情態(tài)勢,常常有人感慨:“造謠的成本很低,辟謠的成本卻很高”,抱怨現(xiàn)在的網(wǎng)絡給造謠者造謠、傳謠帶來的極大便利以及人民群眾過于輕信和弱智。如果我們用某個事件的數(shù)據(jù)、單一的和靜態(tài)截面上的數(shù)據(jù)去觀察和分析這個問題的時候,真的可能得出上述這樣一種結(jié)論。但是,如果我們從社會傳播的總體信息構(gòu)造上分析,會發(fā)現(xiàn)流言或謠言的猖獗不正在于掌握了社會信息傳播主渠道的那些部門的不作為、甚至蒙蔽真相所造成的嗎?再有,或許你在這個地方、這件事上沒有蒙蔽真相,道出的是實情;但如果你或你的同類機構(gòu)、同類官員在其他事情、其他場合上有過種種蒙蔽真相、文過飾非、官官相護甚至動用官方的強力以“辟謠”的方式制造假象的劣跡,人民群眾在一次次被蒙蔽甚至被欺騙后,還會一如既往地相信你、依賴你嗎?因此,大數(shù)據(jù)分析的價值和意義就在于,透過多維度多層次的數(shù)據(jù),以及歷時態(tài)的關(guān)聯(lián)數(shù)據(jù),找到問題的癥結(jié),直抵事實的真相。
因此,大數(shù)據(jù)分析在方法論上需要解決的課題首先就在于:如何透過多層次、多維度的數(shù)據(jù)集實現(xiàn)對于某一個人、某一件事或某一種社會狀態(tài)的現(xiàn)實態(tài)勢的聚焦,即真相再現(xiàn);其中的難點就在于,我們需要洞察哪些維度是描述一個人、一件事以及一種社會存在狀態(tài)的最為關(guān)鍵的維度,并且這些維度之間的關(guān)聯(lián)方式是怎樣的,等等。其次,如何在時間序列上離散的、貌似各不相關(guān)的數(shù)據(jù)集合,找到一種或多種與人的活動、事件的發(fā)展以及社會的運作有機聯(lián)系的連續(xù)性數(shù)據(jù)的分析邏輯。其中的難點就在于,我們對于離散的、貌似各不相關(guān)的數(shù)據(jù)如何進行屬性標簽化的分類。概言之,不同類屬的數(shù)據(jù)集的功能聚合模型(用于特定的分析對象)以及數(shù)據(jù)的標簽化技術(shù),是大數(shù)據(jù)分析的技術(shù)關(guān)鍵。
除此之外,就現(xiàn)實而言,有質(zhì)量的大數(shù)據(jù)源常常是掌握在政府及大公司手中,如何開放這種大數(shù)據(jù)源的使用,事關(guān)社會的發(fā)展和人民生活的福祉,必須從制度和機制上給予保障。在這方面,美國政府的數(shù)據(jù)開放政策不僅為政府開放數(shù)據(jù)源起到了一種很好的參照作用,而且對大公司所掌握的數(shù)據(jù)源的開放也有著重要的借鑒意義。endprint