于英香
摘??要:近兩年大數(shù)據之熱蔓延至媒體、學界、政府與企業(yè),有人追捧之,有人質疑之。質疑觀點主要有概念炒作論、功能夸大論、倫理悖論、風險論以及治理障礙論等。面對質疑,我們應理性對待,既不否認其創(chuàng)新性、先進性與前瞻性,又要避免大數(shù)據發(fā)展中的極端傾向,努力構建一個大數(shù)據治理體系,使大數(shù)據發(fā)展過程中的負功能向正功能轉化。
關鍵詞:大數(shù)據;炒作;質疑;風險;治理
Abstract:?Nearly?two?years,?Big?Data?spread?to?the?media,?academia,?government?and?enterprise,?some?fans,?some?questions.?The?viewpoint?about?doubting:?hyping?on?concept,?the?function?exaggerated,?ethical?paradox,?risking?and?governance?obstacles,?etc.?Facing?the?doubting,?we?should?treat?it?rationally?,?neither?deny?its?innovative,?advanced?and?forward-looking,?nor?avoid?extreme?trends?in?the?development?of?Big?Data,?make?the?effort?to?build?a?Big?Data?governance?system,?make?the?negative?function?to?the?positive?function?in?the?development?of?Big?Data.
Keywords:Big?Data;Doubt;Risk;GovernanceSystem
1??炙手可熱的大數(shù)據
時下,有關“大數(shù)據時代”、“大數(shù)據浪潮”、“大數(shù)據革命”的報道充斥于媒體,學術期刊上的大數(shù)據論文爆炸性增長,“大數(shù)據”研究炙手可熱。
大數(shù)據之熱更熱在政府與企業(yè)。政府之熱,表現(xiàn)為在西方發(fā)達國家政府大數(shù)據計劃帶動下我國政府的緊密跟進。2012年3月,美國政府宣布了2億美元的“大數(shù)據研究與發(fā)展計劃”,對大數(shù)據的研究上升為國家意志;[1]?2013年,歐盟委員會推出了建設100Gbps高速網絡的項目,該項目旨在應對大數(shù)據“爆炸”。[2]我國地方政府也出臺了各種扶持大數(shù)據的計劃,如,上海市政府制定了《上海推進大數(shù)據研究與發(fā)展三年行動計劃(2013年~2015年)》,廣東省制定了《廣東省實施大數(shù)據戰(zhàn)略工作方案》等。企業(yè)之熱,表現(xiàn)為大數(shù)據跟風現(xiàn)象愈演愈烈,各種企業(yè)、公司都宣稱要進軍和搶占大數(shù)據領域。然而,在這一片繁榮景象與大數(shù)據研究熱涌的背后,有很多人對其提出了質疑,甚至是尖銳的批判。
2???大數(shù)據質疑綜述
對大數(shù)據的質疑有概念與理論層面的,也有實踐方面的;有技術層面的,也有倫理方面的,本文將以質疑觀點為線索進行梳理。
2.1??大數(shù)據只是時髦的技術熱詞——大數(shù)據概念炒作論。一個事物的“熱”與“火”往往與“炒作”分不開。2013年夏季,達沃斯論壇上還專門舉辦了一場關于“大數(shù)據概念是否被過度炒作”的辯論會,可見“炒作論”并非空穴來風。對大數(shù)據的溢美之詞有“21世紀的新石油”、“寶貴的戰(zhàn)略資源”、“重大的時代轉型”等。對此,IT界很多人士不以為然,他們對近乎神話的大數(shù)據提出了質疑,認為大數(shù)據只不過是“新瓶裝舊酒”,“換湯不換藥”。
炒作論者認為對大數(shù)據的闡釋存在著偷換概念的嫌疑。持此觀點的主要依據是大數(shù)據的并行計算技術如MapReduce、Hadoop等并沒有嵌入多少新內容,或者為并行計算帶來本質的飛躍,因為在此之前,很多企業(yè)已經在對數(shù)據進行大規(guī)模并行計算了;大數(shù)據的分析工具如數(shù)據挖掘技術、圖數(shù)據庫等也都是BI用過的舊有技術,只是巧妙地把這筆賬都記在了大數(shù)據上。[3]
2.2??大數(shù)據不是萬能的——大數(shù)據功能夸大論。大數(shù)據到底是什么,“仁者見仁,智者見智”,但在大數(shù)據概念還處于“霧里看花”,似是而非的時候,一些人就將大數(shù)據推向了神壇,似乎是大數(shù)據無所不能,將大數(shù)據功能一味夸大。學界與業(yè)界質疑其功能夸大論的觀點主要有三:
一是大數(shù)據技術不是萬能的,人文精神更為重要。該觀點認為,盡管大數(shù)據時代催生出了一些新的技術,但是技術只是工具。事實上,在如今的信息化和全球化時代,技術的功能達到了前所未有的頂峰,關于技術崇拜和技術唯上的質疑從來也沒停止過。大數(shù)據也是一樣,大數(shù)據技術再先進,功能再強大,也是人類通過程序設計使其為人類服務的,不能超越人的主觀能動性,人類也不可能變成機器的奴隸。因此,完全依賴大數(shù)據是對人的主觀能動性的最大諷刺?!罢_認識事物的是非和利害,遵循人文精神是更為重要的前提。缺少這個前提,‘大數(shù)據不僅毫無用處,而且可能會為謬論提供支持?!盵4]
二是大數(shù)據并不大,“全數(shù)據”只是神話。英國大數(shù)據學家維克托·邁爾-舍恩伯格所提出的“全數(shù)據而不是樣本”的觀點將大數(shù)據的“大”引向“超大”與“最大”。然而,理論上的“全數(shù)據”是不可能實現(xiàn)的,盡管互聯(lián)網與各種社交媒體每時每刻都提供巨量的數(shù)據,但是這些數(shù)據有可能摻雜著大量冗余的、混亂的、虛假的甚至是有害的內容,價值密度較低。大數(shù)據號稱要“擁抱混亂”,但數(shù)據分析不可能不經過篩選而維持其完全原始的狀態(tài),真正需要的數(shù)據可能被更多混亂的海量“大”數(shù)據所掩蓋和淹沒,因此,“全數(shù)據”只是一種理想狀態(tài)。
三是大數(shù)據決策或預測有缺憾,不能完全依靠大數(shù)據推出客觀規(guī)律。維克托·邁爾-舍恩伯格認為,“人通過探求‘是什么而不是‘為什么,相關關系幫助我們更好地了解了這個世界”。[5]這個觀點解構和顛覆了我們長期以來對科學原理的探尋,似乎一切都應聽從大數(shù)據科學家們的猜測。事實上,大數(shù)據分析出來的事物變化規(guī)律或者說是相關關系,只能說相對于“小數(shù)據”(過去的抽樣分析)要準確一些,并不會比人類長期實踐探索得到的經驗更準確。因為,規(guī)律是不斷變化的,再“大”的數(shù)據也不能完全準確地推出客觀規(guī)律。更為重要的是,不是你想得到多大數(shù)據就能得到多大,對于一些社會問題大數(shù)據的收集,有些“沉默”的群體(弱勢群體)可能不會提供任何數(shù)據。曾利用大數(shù)據成功預測了2012年美國總統(tǒng)選舉結果的專家?Nate?Silver警告說,企業(yè)決策者應該對大數(shù)據應用保持謹慎,否則很可能導致一些錯誤的決策。
2.3??大數(shù)據分析有違社會公平——大數(shù)據分析的倫理悖論。EDventure?Holding公司董事長埃絲特·戴森(Esther??Dyson)認為,大數(shù)據的個性化定制有悖公平,引發(fā)社會政治難題。她反問道,民主國家的每名公民都有投票權,那么每人得到的福利是否應該相同?大數(shù)據如果能夠預測個體結果,那么個人責任和集體任務究竟是什么?她認為,這種不公平現(xiàn)象在教育等領域將變得尤為嚴重,比如我們根據大數(shù)據個性化定制所得到的學生的潛能區(qū)別對待這些學生,但如果幫助了某些孩子“發(fā)展?jié)撃堋?,是否會因此限制其他人的潛能?[6]
無獨有偶,凱特·克勞福德認為,數(shù)據在生成或采集的過程并不都是平等的。大數(shù)據由于其所號稱的“大”而使得其比小數(shù)據似乎更具有客觀性,由于數(shù)據分析可以在整體水平上進行,似乎可以避免對少數(shù)或者弱勢群體的歧視。然而,由于大數(shù)據能夠做出有關群體不同行為方式的論斷,其使用通常恰恰就是為了實現(xiàn)一個目的——即把不同的個體歸入不同的群體中。[7]這樣原本等級森嚴的社會階層將會分化得更加嚴重,社會不公正現(xiàn)象愈加明顯,社會矛盾日趨激化。
盡管大數(shù)據分析是基于理性的數(shù)據而不是感性的直覺和經驗,但是人的權利、尊嚴、平等和自由是大數(shù)據分析的基礎,當我們利用大數(shù)據分析某些社會問題時,仍然要考慮社會倫理與社會公平。
2.4??大數(shù)據存在著安全與信任隱憂——大數(shù)據風險論。技術的進步與安全一直是一對矛盾,然而,大數(shù)據分析卻面臨著除了傳統(tǒng)的物理安全、網絡安全、數(shù)據安全等之外的新的隱私保護和信任安全等問題。例如無處不在、無所不能的數(shù)據化——“一切皆可量化”,意味著只要你想,就可以從任何事物汲取你所想要的任何信息,甚至包括很多我們認為和“數(shù)據”關系不大的事情,比如一個人所處的位置,一個人坐在汽車座椅上的姿勢與受力趨勢,等等,都是可以被監(jiān)控、被數(shù)據化的。風險論者認為大數(shù)據存在著諸多風險,如技術風險、決策風險、安全風險、信任風險等,其中安全風險與信任風險尤為突出。
安全風險中最突出的就是大數(shù)據中隱含的個人隱私的暴露。盡管許多大數(shù)據的提供者盡力消除數(shù)據中的個人信息,但還是可以從大量的公共數(shù)據集中推斷出個人隱私,如出售給大數(shù)據分析公司的醫(yī)療、旅行、位置等數(shù)據都有可能追查到個人身份,更令人擔憂的是,這些隱含了很多個人隱私的大數(shù)據信息將因被黑客或泄露者覬覦而變得風險陡增?!皵?shù)據的安全性及給個人隱私帶來的威脅,讓本是機會的‘大數(shù)據,也同時成為了‘大風險?!盵8]
信任風險和安全風險有相似之處,都是涉及個人隱私的暴露,但二者不完全相同。安全風險的著重點在于信息或隱私可能被非法竊取或利用,而信任風險中最突出的問題則是公眾可能在不知情的情況下,被“監(jiān)視”、被“預測”。大數(shù)據推崇的數(shù)據獲取中包括諸多侵犯他人隱私權、生存權和精神健康權的文字、聲音與圖像,大數(shù)據標榜的是完全讓數(shù)據來說話,做決策的是機器而不是人。然而,大數(shù)據有關預測的功能會使得一個當下正常的人被預測為將來可能犯罪,從而使得其人身自由被監(jiān)控,如果讓這種預測合法化,公眾會感覺一直有個“第三只眼”在監(jiān)視著自己,不信任感如影隨形。
另外,大數(shù)據之中可能會隱藏著的一個人的習慣、價值觀,甚至人生痕跡和人生規(guī)律(事實上,從社交媒體就很容易獲得),如果這些涉及個人隱私的信息在公眾不知情的情況下被大數(shù)據使用者和開發(fā)者不恰當?shù)厥褂?,就有可能給具體人生或公共利益帶來侵擾或損害;如果一個人的人生受到數(shù)據獨裁行為的干擾,那么其在大數(shù)據方面的權利將受到侵害。[9]
2.5??大數(shù)據增加了治理難度——大數(shù)據治理障礙論。大數(shù)據治理有廣義與狹義之分,狹義的大數(shù)據治理是基于在大數(shù)據處理的過程中,CDO?們面臨的一些問題,如數(shù)據散落在不同的系統(tǒng)中,哪些數(shù)據是可信的?數(shù)據是否面臨更大的風險?如何從海量數(shù)據中獲得洞察??[10]大數(shù)據治理就是要確保數(shù)據本身可用性和可靠性。而廣義上的大數(shù)據治理則指向數(shù)據政策、數(shù)據所有權、數(shù)據監(jiān)控、數(shù)據標準以及指導方針,甚至包括“社會治理、國家治理和全球治理水平的提升”。[11]大數(shù)據治理將會涉及相應的法律法規(guī)。
因此,有專家認為大數(shù)據加大了數(shù)據治理、確保數(shù)據質量和訪問控制方面的難度,因為它既涉及?IT?技術,又與業(yè)務部門密切相關,是一個復雜的系統(tǒng)工程。埃森哲的Michael?說:“共享整個企業(yè)的數(shù)據未必是件容易的事,很難讓整個企業(yè)共同來解決這個問題?!盵12]
對大數(shù)據的質疑還有諸如大數(shù)據生態(tài)環(huán)境問題、政府大數(shù)據開放的可行性問題,等等,限于篇幅,本文不再贅述。
3???大數(shù)據質疑之思考
大數(shù)據作為一個炙手可熱的新生事物,受到質疑是正常的現(xiàn)象,面對質疑,我們應理性對待,并努力消解質疑,使其“負功能”向“正功能”轉化。
3.1??理性對待大數(shù)據的炒作與功能夸大。面對大數(shù)據的炒作與功能夸大現(xiàn)象,我們應持寬容和理解的態(tài)度,因為“這是所有新興創(chuàng)新技術在產生發(fā)展之初都必須經歷的過程”。[13]事實上,所有的技術和產業(yè)的發(fā)展都有泡沫化的過程,如平板電腦、云計算技術等,然而,泡沫破滅的過程也正是這項技術落地的過程。因此,我們須靜待其經歷泡沫化,之后才會迎來光明與高峰。
毋庸置疑,大數(shù)據具有創(chuàng)新性、先進性與前瞻性,如CDO概念的創(chuàng)新。CIO是數(shù)字化時代的一個標志性概念,而CDO(Chief?Data?Officer,首席數(shù)據官)則是大數(shù)據時代誕生的一個新型的管理者,其主要職責是根據企業(yè)的業(yè)務需求、選擇數(shù)據庫以及數(shù)據抽取、轉換和分析等工具,進行相關的數(shù)據挖掘、數(shù)據處理和分析,并且根據數(shù)據分析的結果戰(zhàn)略性地對企業(yè)未來的業(yè)務發(fā)展和運營提供相應的建議和意見。CDO已經進入企業(yè)最高決策層,一般是直接向CEO進行匯報,目前阿里巴巴已經任命了這一職位,預示著數(shù)據科學家在機構特別是企業(yè)中的特殊地位。又如,大數(shù)據對科學研究方法論與研究范式的沖擊與挑戰(zhàn),值得肯定。圖靈獎得主Jim?Gray?2007年在美國科學研究委員會發(fā)表演講,指出科學研究已經從幾千年前的憑經驗、幾百年前的注重理論、幾十年前的計算模擬,進入了第四階段——數(shù)據探索階段,[14]即科學研究的第四范式。大數(shù)據時代對傳統(tǒng)研究方法中的先有假設再收集數(shù)據的否定,提出的用全樣本代替抽樣、相關分析代替因果分析等新的研究方法論思想以及從以計算為中心轉變到以數(shù)據處理為中心的數(shù)據思維對開拓我們的研究思路具有積極意義。
3.2??構建大數(shù)據治理體系。如何有效地治理大數(shù)據,使其在發(fā)揮為機構服務“正功能”的同時,不要產生一些類似于安全、信任與倫理方面的“負功能”。解決這些問題是一個長期的過程,需要構建一個全面的大數(shù)據治理體系。該體系包括戰(zhàn)略、規(guī)劃等宏觀領域,制度、組織、流程等中觀領域,軟硬件平臺、標準、法規(guī)、技術等微觀領域,并且圍繞著治理中出現(xiàn)的困難、問題和障礙設計具體的解決方案,這個過程需要技術專家、數(shù)據分析專家、業(yè)務人員以及管理人員的協(xié)同合作,這對于檔案大數(shù)據的建設同樣重要。
另外,大數(shù)據時代,隨著數(shù)據的增多,傳統(tǒng)的數(shù)據保護方法已無法滿足應對大數(shù)據面臨的威脅,對原有規(guī)范的修修補補也不足以抑制大數(shù)據帶來的風險,因此,我們需要全新的制度規(guī)范,而不是修改原有規(guī)范的適用范圍,舍恩伯格提出大數(shù)據時代應該進行一場管理規(guī)范的變革。[15]
大數(shù)據熱潮會慢慢趨于平靜,走向穩(wěn)步爬升的光明期和實質生產的高峰期。然而,無論它有多“大”,也難以窮盡千姿百態(tài)的大千世界,我們在享受、利用大數(shù)據給我們帶來的驚喜與便利的同時,需要保持理性的態(tài)度,既要避免完全否定大數(shù)據的傾向,又要警醒大數(shù)據發(fā)展中的炒作與空談。
*本文受國家社會科學基金項目“‘區(qū)域—國家電子文件管理整合模型構建與實證研究”(編號:11BTQ039)資助。
參考文獻:
[1]CCF大數(shù)據專家委員會.大數(shù)據熱點問題與2013年發(fā)展趨勢分析[EB/OL].[2012-11-30].http://www.doc88.com/p-1485951966144.html.
[2]?鄒錚編譯.歐盟委員會計劃建設100Gbps高速以太網[EB/OL].[2013-07-08].http://news.cnw.com.cn/news-international/htm2013/20130708_274654.shtml.
[3]吳勇毅.大數(shù)據熱涌背后的冷思考[J].信息與電腦,2012(11):26.
[4]劉建明.“大數(shù)據”不是萬能的[N].北京日報,2013-05-06(18).
[5]?[15][英]維克托·邁爾-舍恩伯格.大數(shù)據時代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013(1):83,?219.
[6]埃絲特·戴森(Esther??Dyson).大數(shù)據利弊之辯[J].中國經濟報告,2013(6):24.
[7]凱特·克勞福德.對大數(shù)據的再思考[EB/OL].[2013-05-09].美國《外交政策》雜志網站.
[8]鄭志勵.喜憂參半大數(shù)據[J].中國圖書評論,2013(8):40.
[9][11]付玉輝.大數(shù)據傳播:技術、文化和治理[J].中國傳媒科技,2013(3):62,61.
[10]許繼楠,郭濤.大數(shù)據時代更需要數(shù)據治理[N].中國計算機報,2011-11-14(15).
[12]沈建苗編譯.大數(shù)據應用:理想照進現(xiàn)實[N].計算機世界,2012-08-06(20).
[13]馬梅若,方濱興.大數(shù)據不能包治百病[J].中國經濟和信息化,2013(8):48.
[14]俞立平.大數(shù)據與大數(shù)據經濟學[J].中國軟科學,2013(7):183.
(作者單位:上海大學圖書情報檔案系??來稿日期:2014-10-02)