馬克·安德烈赫維奇
內(nèi)容提要 | 大數(shù)據(jù)技術(shù)推動社會生活轉(zhuǎn)型時,個人數(shù)據(jù)權(quán)益成為了爭論的焦點。本文拓展“大數(shù)據(jù)鴻溝”的概念,揭示了大數(shù)據(jù)時代的不平等關(guān)系,指出鴻溝主要存在于能夠收集、存儲和挖掘大量數(shù)據(jù)的人與數(shù)據(jù)采集目標(biāo)人群之間,二者在數(shù)據(jù)思維和使用方式上的差異更進(jìn)一步地加劇了數(shù)字權(quán)利的不平等。文章還探討了個人數(shù)據(jù)權(quán)益、大數(shù)據(jù)挖掘及模式識別、大數(shù)據(jù)的社會分類,以及當(dāng)前語境下的隱私悖論等問題?;谶@些維度,本文認(rèn)為,隨著數(shù)字技術(shù)的普及,不同人群的數(shù)字鴻溝有所縮小,但這并不代表大數(shù)據(jù)鴻溝的彌合。應(yīng)對大數(shù)據(jù)鴻溝加劇所帶來的不透明的歧視,將是人類面臨的考驗。
作為“個人數(shù)據(jù)大革命”的主要參與者,新媒體領(lǐng)域的元老級人物、萬維網(wǎng)創(chuàng)始人蒂姆·伯納斯·李(Tim Berners-Lee)近日呼吁,互聯(lián)網(wǎng)用戶應(yīng)當(dāng)有權(quán)利獲取他們的個人數(shù)據(jù)?!拔业碾娔X和手機(jī)清楚地知道我的健康狀況、飲食習(xí)慣、住處、每天做了多少運(yùn)動、爬了多少級樓梯等各種信息?!辈{斯·李認(rèn)為所有人都應(yīng)掌握自己的數(shù)據(jù)資源。在技術(shù)發(fā)展過程中,有關(guān)技術(shù)的話語總是不斷地強(qiáng)調(diào)機(jī)器已經(jīng)比人類更加了解自己,如比爾·蓋茨(Bill Gates)1995 年討論的軟件代理,或尼古拉斯·尼葛洛龐帝(Nicholas Negroponte)1996 年討論的數(shù)字管家。對此,伯納斯·李將數(shù)據(jù)庫描繪成一種服務(wù)于個人的資源,他描述道:“如果我的計算機(jī)了解我的一切,那么它就能幫助我管理生活,預(yù)測我的需求來填補(bǔ)生活所需,這會非常有用。比如預(yù)測我早上想要閱讀些什么。”
當(dāng)然,谷歌新聞和許多新聞聚合類平臺在既無用戶參與、也不回收數(shù)據(jù)軌跡的情況下,已經(jīng)在積極地為人們提供上述服務(wù)。然而來自不同社交網(wǎng)絡(luò)“孤島”的數(shù)據(jù)依然是被孤立地使用,伯納斯·李注意到了這個問題,他倡導(dǎo)有效地匯集個人設(shè)備中的數(shù)據(jù):
在我電腦上運(yùn)行的所有程序,都不支持使用其他社交網(wǎng)絡(luò)系統(tǒng)形成的數(shù)據(jù)。這些數(shù)據(jù)既包含個人日程,也有跑步地圖上記錄的站點數(shù)據(jù),還有小健身器存儲的數(shù)據(jù)等等,如果它們都能真正為我所用,將會提供出色的服務(wù)。
現(xiàn)如今,我們通過交互式設(shè)備和服務(wù)所得到的數(shù)據(jù)能夠勾勒出活躍用戶的生活狀況,但實際情況卻是用戶正與其數(shù)據(jù)漸行漸遠(yuǎn)?!皵?shù)據(jù)鴻溝”(data divide)不僅指產(chǎn)生數(shù)據(jù)的群體和收集、存儲、分類數(shù)據(jù)的群體之間的行為差異,還指這兩個群體掌控數(shù)據(jù)的能力也有所不同。伯納斯·李就此提出疑問:如果個人生成的數(shù)據(jù)能有所助益,那我們?yōu)槭裁床荒塬@取并使用它?另外,為何不能克服用戶與其數(shù)據(jù)之間的分離,并打破因各種設(shè)備和平臺限制所形成的“數(shù)據(jù)孤島”呢?他的確切中了問題的要害,但這又引出了一個更深的問題:即便用戶擁有訪問自己數(shù)據(jù)的權(quán)限,卻只能獲取孤零零的信息,這與在大量的數(shù)據(jù)背景下分析個人數(shù)據(jù)截然不同。舉一個耳熟能詳?shù)睦?,伯納斯·李討論過自我數(shù)據(jù)挖掘(self-data-mining)為新聞推送帶來的好處,其中之一就是當(dāng)計算機(jī)掌握了用戶的閱讀數(shù)據(jù)時,便能預(yù)測可能吸引他們的新聞故事,這與尼葛洛龐帝提出的“我的日報”或“數(shù)碼管家”概念不謀而合。然而,在線新聞聚合器不僅要分析個人自身的興趣模式(它不是孤立而形成的),還要分析跟他有共同興趣的其他人還對什么內(nèi)容感興趣。這些個人和同好圈層的人所提供的數(shù)據(jù)共同促成了各種形式的“協(xié)同過濾”。
從數(shù)據(jù)挖掘的角度來看,將個體行為模式置于更廣泛的社會模式中去考察,會比僅僅依賴特定的個體數(shù)據(jù)更為有力。但是,即使允許用戶訪問自己的數(shù)據(jù),也并不能完全解決那些因數(shù)據(jù)鴻溝所帶來的矛盾,因為人們使用數(shù)據(jù)的能力是有差異的。普通用戶雖然有權(quán)限訪問,卻缺乏儲存和處理數(shù)據(jù)的技能,因而很難從中獲取更多的信息,更不用說為自己所用。更何況他們也并不具備模式識別能力或預(yù)測能力,因為這些是挖掘聚合數(shù)據(jù)庫的人才擁有的。由此可知,“大數(shù)據(jù)時代”之下,數(shù)據(jù)所驅(qū)動的意義生成的新形式不斷出現(xiàn),這勢必導(dǎo)致結(jié)構(gòu)性的鴻溝問題越來越凸顯。
為了描述這種大規(guī)模數(shù)據(jù)獲取和使用能力的差異,本文首先將定義“大數(shù)據(jù)鴻溝”的概念,并解釋關(guān)注該問題的必要性,然后探討它如何勾連起公眾所關(guān)心的個人信息收集和使用的問題。個體對于當(dāng)前新型數(shù)據(jù)采集和挖掘所顯現(xiàn)出的無力感,既反映了數(shù)據(jù)所有權(quán)和控制權(quán)的關(guān)系正形塑信息資源的獲取,也顯示出人們逐漸意識到他們其實對數(shù)據(jù)的利用方式知之甚少。本文著重討論的是個人數(shù)據(jù),這一數(shù)據(jù)類型是當(dāng)前有關(guān)在線數(shù)據(jù)收集監(jiān)管爭論的核心,而“大數(shù)據(jù)鴻溝”也正是圍繞于此。
在學(xué)術(shù)研究層面上,丹娜·博伊德(danah boyd)1丹娜·博伊德(danah boyd)在其個人主頁上解釋了姓名首字母使用小寫的原因,詳見https://www.danah.org/name.html。和凱特·克勞福德(Kate Crawford)指出了存在于“大數(shù)據(jù)富人”(如能夠生產(chǎn)或購買,且能存儲大數(shù)據(jù)庫的公司和大學(xué)等)和“大數(shù)據(jù)窮人”(不具備獲取和處理數(shù)據(jù)等專業(yè)知識的人)之間的溝壑,并強(qiáng)調(diào)當(dāng)前大數(shù)據(jù)的研究議程正被相對較小的利益群體控制。本文拓展了“大數(shù)據(jù)鴻溝”的概念,將數(shù)據(jù)思維和使用方式也納入考量。當(dāng)然,我們首先聚焦“大數(shù)據(jù)挖掘”,后文將更詳細(xì)地展示數(shù)據(jù)挖掘者們的觀點,揭示了大數(shù)據(jù)的野心遠(yuǎn)不止定向廣告(targeted advertising),還有全方位預(yù)測未來的新方式,涉及領(lǐng)域涵蓋醫(yī)療保健、警務(wù)、城市規(guī)劃、財務(wù)規(guī)劃、工作篩選和教育等方方面面。
本文指出,大數(shù)據(jù)挖掘能夠識別出人們此前預(yù)料之外卻持續(xù)存在的社會模式,因而開啟了一個“新興的社會分類”時代。它盡管具有個性化的特點,但其預(yù)測的方式是基于概率論的,也因此對個體的生活際遇產(chǎn)生了深遠(yuǎn)的影響。再進(jìn)一步講,大數(shù)據(jù)范式優(yōu)先考慮的是發(fā)現(xiàn)相關(guān)性并加以預(yù)測,卻無法提供解釋,這與數(shù)字媒體推進(jìn)民主化進(jìn)程或發(fā)揮賦權(quán)的作用背道而馳。另外,數(shù)據(jù)挖掘的邏輯應(yīng)用于在線追蹤及其他類型的數(shù)據(jù)監(jiān)控,這在很大程度上導(dǎo)致用戶對數(shù)據(jù)使用的知情權(quán)失去了意義。
若以超越個體或群體所認(rèn)知的信息范疇作為界定標(biāo)準(zhǔn),大數(shù)據(jù)的概念自人類意識誕生之初就已經(jīng)存在。對于任何具有感知能力的人或物來說,世界乃至宇宙都是難以理解的大數(shù)據(jù)。然而在當(dāng)代,這個概念的用法發(fā)生了很大變化,它代表了人們想要探索巨量數(shù)據(jù)資源、挖掘大數(shù)據(jù)寶藏,并將之投入使用的愿望。更簡單地說,大數(shù)據(jù)意味著模式識別的自動化形式(即數(shù)據(jù)分析)能夠與數(shù)據(jù)收集和存儲的自動化形式相同步。這種數(shù)據(jù)分析不同于過去長久以來我們對大型數(shù)據(jù)資源進(jìn)行簡單搜索和查詢的方式。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)使人類邁向了大數(shù)據(jù)時代,而大數(shù)據(jù)規(guī)模會不斷擴(kuò)大,以跟上數(shù)據(jù)存儲和數(shù)據(jù)處理能力的增長。國際商業(yè)機(jī)器公司(IBM)已在數(shù)據(jù)挖掘和預(yù)測分析方面投入了巨資,并指出大數(shù)據(jù)不僅關(guān)乎規(guī)模,還涉及數(shù)據(jù)的生成和處理速度,以及轉(zhuǎn)儲到組合庫中數(shù)據(jù)的異質(zhì)性。簡單來講,三個“V”能夠準(zhǔn)確地描述大數(shù)據(jù)的各項維度:體積(volume)、速度(velocity)和多樣性(variety)。
目前大數(shù)據(jù)挖掘已著眼于識別不曾預(yù)測過的項目,探求意想不到的相關(guān)性,它無所不包,發(fā)展迅猛。正如IBM 公司所言:“大數(shù)據(jù)涵蓋各種類型的數(shù)據(jù),包括文本、傳感器數(shù)據(jù)、音頻、視頻、點擊流、日志文件等,結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都在其中。把這些數(shù)據(jù)放在一起或許能促使新見解的產(chǎn)生。”數(shù)據(jù)正以前所未有的規(guī)模被收集、分類和關(guān)聯(lián),這將產(chǎn)生遠(yuǎn)超人類大腦所能探測和解釋的有用的信息模式。數(shù)據(jù)挖掘顧問科琳·姆庫(Colleen McCue)認(rèn)為:“通過數(shù)據(jù)挖掘,我們可以利用自動化方法對巨量數(shù)據(jù)庫進(jìn)行地毯式的搜索,這遠(yuǎn)遠(yuǎn)超出了人類分析師甚至分析團(tuán)隊的能力?!薄吨R的邊界》描述了這種“新知識”:“它不僅僅需要巨型計算機(jī),還需要一個可以連接這些計算機(jī)、向它們輸入信息,并且讓它們的成果得以為人們接受的網(wǎng)絡(luò)。因而,這種知識存在于網(wǎng)絡(luò)系統(tǒng)的層面,而不是人類的頭腦中?!?/p>
以上所述勾勒了“大數(shù)據(jù)鴻溝”的輪廓,也表明要將數(shù)據(jù)投入使用,需要獲取并控制昂貴的基礎(chǔ)技術(shù)設(shè)施、數(shù)據(jù)庫、配套的分析軟件以及數(shù)據(jù)處理能力和專業(yè)知識等。雖然大數(shù)據(jù)預(yù)言家們認(rèn)為,大數(shù)據(jù)將為那些無法訪問、存儲和處理數(shù)據(jù)的人們提供有價值的決策和預(yù)測參考,但在社會實踐的許多領(lǐng)域中,只有那些真正能夠訪問數(shù)據(jù)庫、具備處理能力和數(shù)據(jù)挖掘?qū)I(yè)知識的人才處于優(yōu)勢地位。如大衛(wèi)·溫伯格(David Weinberger)所言,如果在大數(shù)據(jù)時代中,“房間里最聰明的人就是房間本身”,那么誰擁有房間才至關(guān)重要。同樣,只有那些能夠使用機(jī)器、數(shù)據(jù)庫和掌握算法的人才能擁有與大數(shù)據(jù)挖掘相關(guān)的各種能力。當(dāng)然,大數(shù)據(jù)鴻溝的爭議不僅停留在是否擁有數(shù)據(jù)的問題上,它還涉及不平等的分類過程,以及數(shù)據(jù)如何關(guān)聯(lián)知識及其應(yīng)用的不同思考方式。下面幾節(jié)將依次討論這些問題。
“沒什么。”我說著,跟著馬老師離開了學(xué)校。我們一起走了一段路之后就分開了。我一個人空手走到了車站門口。
對于能夠訪問數(shù)據(jù)的人,抓取和挖掘數(shù)據(jù)的能力使他們參與到監(jiān)控的可能性大大提高,這里的“監(jiān)控”被視為一種“社會分類”的手段。加拿大社會學(xué)家大衛(wèi)·里昂(David Lyon)在奧斯卡·甘迪(Oscar Gandy)的“全景敞視分類”(panoptic sort)概念的基礎(chǔ)上指出:“作為社會分類的監(jiān)控能夠確認(rèn)人們的身份,同時也能進(jìn)行風(fēng)險的評估和價值的分配?!蹦切┱莆諗?shù)據(jù)、擁有專業(yè)知識,并且具有數(shù)據(jù)處理能力的人能夠參與到日益龐大、復(fù)雜且不透明的社會分類排序中,而這是“固化長期存在的社會差異,并創(chuàng)造新區(qū)隔的強(qiáng)大手段”?!叭俺ㄒ暦诸悺钡母拍罱⒃谝环N權(quán)力不平等的基礎(chǔ)上,這種不平等存在于那些能夠影響個人生活際遇的決策者和被動接受決策的人之間,比如甘迪所說的雇主和營銷者。甘迪在之后反思該概念時提到:“這些決策實際上并不是基于對什么人的評估,而是基于他們將來會做什么?!俺ㄒ暦诸悺且环N深深依賴于精算假設(shè)且具有歧視性的技術(shù)。”在數(shù)據(jù)挖掘和預(yù)測分析時代,這些觀察尤為重要。
基于前文我們認(rèn)識到,盡管當(dāng)前技術(shù)被認(rèn)為具有個性化的特征,但它終究也只是在概率層面上運(yùn)作。鑒于此,“未來的數(shù)據(jù)挖掘技術(shù)能夠準(zhǔn)確地預(yù)測犯罪行為,使嫌疑人在行動前便被緝拿歸案”的說法充滿誤導(dǎo)性。盡管技術(shù)被大肆炒作,但預(yù)測分析絕不像水晶球那樣能預(yù)測一切。如一位評論員所說:
當(dāng)你正在進(jìn)行這種被稱為“大數(shù)據(jù)”的分析時,意味著你的研究對象是數(shù)十萬乃至數(shù)百萬的人群,你需要計算出他們的平均值。我無法預(yù)測一個購物者會做什么,但如果他看起來跟其他一百萬個買家差不多,我便可以有九成的把握預(yù)測他準(zhǔn)備做什么。
但是把預(yù)測視為對未來的斷言卻有可能造成深遠(yuǎn)的影響,因為根據(jù)概率所做的總體層面上的決策將對個體產(chǎn)生影響,每個人都將牽涉其中。對于那些被剝奪了醫(yī)保、就業(yè)或信貸權(quán)利的人來說,決策者總是把概率預(yù)測當(dāng)成確定性的預(yù)言。
甘迪認(rèn)為社會分類有著悠久的歷史,但在現(xiàn)代官僚理性時代,它作為一種自動計算的形式自成一體。從泰羅制的“科學(xué)管理”,到20 世紀(jì)中期在銀行、住房和保險業(yè)等領(lǐng)域采取的“紅線政策”,人們很容易注意到大數(shù)據(jù)驅(qū)動的社會分類與先前基于數(shù)據(jù)的決策之間具有的歷史延續(xù)性。在早期有關(guān)計算機(jī)輔助監(jiān)控的描述中,里昂認(rèn)為“信息技術(shù)造成的差異是程度上的,而非類型上的。新技術(shù)只是‘做得更有效、更廣泛,并使已經(jīng)發(fā)生的許多過程更隱秘’”。由于新的數(shù)據(jù)挖掘過程具有的新興特征,使監(jiān)控的社會分類由此發(fā)生了質(zhì)的轉(zhuǎn)變,這些過程正在生成不可預(yù)測且無法通過直覺感知的模式。更進(jìn)一步說,數(shù)據(jù)挖掘系統(tǒng)性的、結(jié)構(gòu)性的不透明在有權(quán)獲取數(shù)據(jù)和無權(quán)獲取數(shù)據(jù)的人之間割裂出一道知識的分水嶺。
公眾逐漸意識到數(shù)據(jù)積累和技術(shù)運(yùn)用所帶來的不平等的權(quán)力關(guān)系,進(jìn)而開始對個人數(shù)據(jù)的收集和使用產(chǎn)生擔(dān)憂。多份調(diào)查結(jié)果已經(jīng)證明了這一點。例如,2012 年皮尤公司在美國的一項調(diào)研表明,大多數(shù)使用搜索引擎的人(65%)不贊成通過行為數(shù)據(jù)(behavioral data)來定制搜索結(jié)果;同時,超過2/3 的互聯(lián)網(wǎng)用戶(68%)反對基于行為跟蹤的定向廣告。同樣,在美國另一項全國性調(diào)查中,有66%的受訪者反對基于跟蹤用戶行為的廣告定位。在針對“不跟蹤”(do not track)立法提議的公眾反應(yīng)研究中,60%的受訪者表示支持廢除在線跟蹤。就筆者于澳大利亞開展的全國性調(diào)查而言,人們也強(qiáng)烈地支持對“不跟蹤”進(jìn)行立法(95%的人贊成),超過一半的人(56%)反對基于線上跟蹤的定制廣告,近六成(59%)的受訪者認(rèn)為網(wǎng)站收集了用戶過多的信息。然而,學(xué)界也關(guān)注到了“隱私悖論”的現(xiàn)象,即人們雖對個人信息的收集和使用表示憂慮,卻仍繼續(xù)接受攫取他們數(shù)據(jù)信息的平臺服務(wù)。有觀點認(rèn)為,用戶實際上并不真如調(diào)查所呈現(xiàn)的那樣在乎個人隱私?;谠缙陔[私問題的相關(guān)定性研究結(jié)果,本文提供了另一種解釋:人們生活在由結(jié)構(gòu)化的權(quán)力關(guān)系所運(yùn)作的環(huán)境中,雖無不厭惡,卻無力抵抗。從推測來看,部分用戶已逐漸認(rèn)識到,“大數(shù)據(jù)鴻溝”的不平等性和不透明性預(yù)示著數(shù)據(jù)挖掘時代的到來,只有能獲取昂貴資源和技術(shù)的“寵兒”才享有知識特權(quán),才擁有保障和民主化承諾的信息渠道,而這將加劇人們對數(shù)字監(jiān)控經(jīng)濟(jì)潛在負(fù)面影響的擔(dān)憂。
《連線》雜志2008 年的一篇文章引起熱議,作者克里斯·安德森(Chris Anderson)聲稱,大數(shù)據(jù)時代(他稱為“拍字節(jié)時代”)將迎來“理論的終結(jié)”,未來將是基于模型理解世界的時代。他指出:
在這個世界上,大量的數(shù)據(jù)和應(yīng)用數(shù)學(xué)取代了別的所有可能用到的工具。無論是語言學(xué)、社會學(xué),還是分類法、本體論或心理學(xué),關(guān)于人類行為的每一個理論都將塵封進(jìn)入歷史。只要有了足夠的數(shù)據(jù),一切將會不言自明。
這一富有宣言意味的聲明顯然是以偏概全的,它需要加以限定:統(tǒng)計模型雖是算法開發(fā)所必需的,但還需要其他類型的模型參與,共同塑造由越來越多數(shù)據(jù)生成的信息。數(shù)據(jù)科學(xué)家強(qiáng)調(diào)特定領(lǐng)域?qū)I(yè)知識的重要性,這不僅能夠評估挖掘算法所輸入的數(shù)據(jù),而且?guī)椭尸F(xiàn)相關(guān)的問題。像姆庫在《數(shù)據(jù)挖掘和預(yù)測分析入門》所述:“相關(guān)領(lǐng)域的專業(yè)知識發(fā)揮了重要作用,包括評估輸入、指導(dǎo)流程以及對終端產(chǎn)品的價值和有效性進(jìn)行評價?!币虼?,在數(shù)據(jù)挖掘融合特征的背景之下,突出領(lǐng)域?qū)<疫@一術(shù)語,是為了解決無法從數(shù)據(jù)內(nèi)容中找尋意義的問題,這也打破了“將數(shù)據(jù)分析視為嚴(yán)格技術(shù)操作”的傾向。
由是觀之,安德森的主張可被勉強(qiáng)地解讀為:數(shù)據(jù)挖掘所生成的可操作信息既不可預(yù)測,也無法解釋,當(dāng)然它既不需要也不能生成潛在的解釋模型。舉例來說,我們所處的數(shù)據(jù)挖掘和“微型目標(biāo)定位”時代,再現(xiàn)了20 世紀(jì)70 年代美國共和黨政治顧問的政治智慧——“水星牌車主投票給共和黨人的可能性遠(yuǎn)遠(yuǎn)高于其他品牌的車主”。正如一位政治顧問所說:“我們從來沒用資金或技術(shù)為選舉制造些什么,但現(xiàn)在可以了?!碑?dāng)然,那些致力于將這些信息用于競選目的的人,也并不關(guān)心如何對技術(shù)驅(qū)動下的數(shù)據(jù)結(jié)論進(jìn)行解釋。安德森指出:“誰知道人們?yōu)槭裁磿鲞@樣或那樣的事情?關(guān)鍵是他們這樣做了,而我們可以用前所未有的精確方式來追蹤和測量。”
數(shù)據(jù)挖掘的目標(biāo)是對巨大的數(shù)據(jù)資源加以分類,并監(jiān)測人類肉眼無法發(fā)現(xiàn)或頭腦無法直觀獲取的模式,最終提取的是不可預(yù)測、違反直覺的模型。此類知識的重要屬性在于用相關(guān)性和預(yù)測性來替代解釋性和因果關(guān)系,因此人們得到的不是潛在的原因或者解釋,而是一組概率預(yù)測。對此持樂觀態(tài)度的人不在少數(shù),一本數(shù)據(jù)挖掘相關(guān)的教科書曾提到:“世界的復(fù)雜性逐漸超出人類的想象,這中間所產(chǎn)生的數(shù)據(jù)正要壓倒我們,而數(shù)據(jù)挖掘是我們解釋這座冰山的唯一希望……數(shù)據(jù)挖掘被定義為發(fā)現(xiàn)數(shù)據(jù)模式的過程,這個過程必須是自動化的,或更普遍的是半自動化的。被發(fā)現(xiàn)的模式一般能夠帶來經(jīng)濟(jì)優(yōu)勢,所以它具有相當(dāng)重大的意義?!币虼?,數(shù)據(jù)挖掘在商業(yè)領(lǐng)域被描述成競爭優(yōu)勢不足為奇,它在其他方面的優(yōu)勢也可想而知。姆庫從國家安全和軍事優(yōu)勢的角度闡明了預(yù)測性警務(wù)的目標(biāo):“如果知識是力量的話,那么通過預(yù)測性分析得到的先知先覺,將被視為作戰(zhàn)中強(qiáng)大的力量?!甭槭±砉W(xué)院的大數(shù)據(jù)專家亞歷克斯·彭特蘭(Alex Pentland)提出了“現(xiàn)實挖掘”(reality mining)這一術(shù)語,用來描述新形式的數(shù)據(jù)捕獲所具備的廣度和深度。他期待通過數(shù)據(jù)創(chuàng)造一個更加健康、安全和高效的世界:
對于整個社會而言,我們希望通過新的方式來深入理解個人行為,以此提高行業(yè)的效率和政府的回應(yīng)能力。對于個人來說,能生活在一個處處被安排得極為便利的世界,又是多么具有吸引力:在你生病時,健康檢查已神奇地被列上日程;當(dāng)你剛到站臺上,公交車正好停在你面前;市政廳里從來沒有排隊等候的人群……
人們甚至認(rèn)為它將帶來新形式的數(shù)據(jù)透明,幫助公眾很方便地獲取社會不同類型的公共記錄,從而促使公職人員和私人企業(yè)更具責(zé)任感。但是,這些美好的愿景掩蓋不了網(wǎng)絡(luò)數(shù)字技術(shù)“分層”的情況。大數(shù)據(jù)挖掘時代掌握在極少數(shù)人手中,他們通過特殊的技術(shù)便能生成有用的信息(無論是好是壞),以此取得某種優(yōu)勢,達(dá)成具體的目標(biāo)。誠然,互聯(lián)網(wǎng)賦權(quán)的本意是促進(jìn)人們獲取各類知識,理解周圍的世界,從而讓權(quán)力不再只服務(wù)于少數(shù)人群,但現(xiàn)在的知識形式卻將這種愿景拋進(jìn)塵土中。
安德森在對“理論終結(jié)”的敘述中強(qiáng)調(diào):在各種應(yīng)用程序廣泛使用的拍字節(jié)時代,曾經(jīng)通過對已有信息進(jìn)行仔細(xì)研究來理解世界的方式已作古,而今體量巨大的信息勢必要通過挖掘來發(fā)現(xiàn)有用的模式,但這對于普通的個體或群體來說只是令人費(fèi)解的龐然大物。即使安德森夸大了事實,但這仍是認(rèn)識數(shù)字時代知識獲取的一個重要方面。溫伯格在這個意義上提出,這種“知識優(yōu)勢”對于絕大多數(shù)人來說不僅不可獲取,而且難以想象和理解;而對于那些根本無法訪問數(shù)據(jù)庫的人來說,更是遙不可及?;诖?,用戶很難通過個人信息得出明確的決策參考,例如預(yù)測安全風(fēng)險、信用風(fēng)險、工作前景或輟學(xué)概率等。再比如另一個更極端的例子,研究表明,那些在填寫申請表時,使用非電腦自帶瀏覽器的人工作表現(xiàn)更佳,更換工作的頻率更低。這一無法被解釋的發(fā)現(xiàn)連申請者自己都始料未及,但這對他們的生活可能影響深遠(yuǎn)。
當(dāng)然,數(shù)據(jù)挖掘的野心并不止于掌握事物間直觀的關(guān)聯(lián),它還要揭示超出想象邊界的相關(guān)性。然而,假使我們要對數(shù)據(jù)挖掘算法進(jìn)行反向工程分析,它需要的專業(yè)知識和生成時所要求的一樣多,得出的結(jié)果卻未必具有直接的解釋力。而當(dāng)相關(guān)性取代因果關(guān)系或解釋模型時,其目標(biāo)是盡可能地積累全面而多樣的數(shù)據(jù),以產(chǎn)生真正出人意料、反直覺的結(jié)果。
目前,鑒于可用數(shù)據(jù)的規(guī)模、范圍以及技術(shù)的復(fù)雜性,通過大數(shù)據(jù)挖掘所構(gòu)想的數(shù)據(jù)分類類型也日益模糊。在經(jīng)濟(jì)合作與發(fā)展組織(OECD)的一次會議上,一家數(shù)據(jù)挖掘公司的首席執(zhí)行官談及數(shù)據(jù)挖掘時,認(rèn)為其導(dǎo)致“計算機(jī)的決策失去了一定的透明性”,他指出:
機(jī)器學(xué)習(xí)相比人能夠建立更加精細(xì)的聯(lián)系,也可以校準(zhǔn)大量不同信息之間的關(guān)系,而這些工作對于人類來說,是不可能完全理解的。
以上討論圍繞數(shù)據(jù)挖掘的特性展開,并未忽視其善用之下所帶來的潛在益處,然而當(dāng)前社會生活已被權(quán)力不平等所籠罩:按照遺傳特性、人口因素、地理位置和先前意想不到的數(shù)據(jù)類型,人們生命中的重要時刻被分類排序,而這些對于受影響者卻是晦澀且難以獲取的。當(dāng)然,在一些情況下它發(fā)揮了積極的作用,比如醫(yī)院利用數(shù)據(jù)挖掘的技術(shù)及時采取醫(yī)療措施,從而干預(yù)了更嚴(yán)重的并發(fā)癥出現(xiàn)。但與此同時,也很容易想到的是,這種預(yù)防性的建??赡軙粸E用,如設(shè)想這樣的場景:私人醫(yī)療保險公司通過數(shù)據(jù)挖掘,及時取消了客戶的保險服務(wù),以避免支付重大醫(yī)療費(fèi)用。
公眾的“隱私悖論”將在大數(shù)據(jù)鴻溝及其屬性的討論視角下被解釋。那些只憑用戶行為來做判斷的人可能會得出這樣的結(jié)論:“普通的美國人在隱私和方便之間找到了一種可接受的平衡,他們可以為了得到更多的方便放棄一些隱私。”這種判斷預(yù)設(shè)人們對交易條款清楚明了,并把用戶簽訂的平臺“準(zhǔn)入條款”等同于“完全接受條款”。實際上這種結(jié)論根本站不住腳,因為在網(wǎng)絡(luò)環(huán)境中,如何定義“知情同意”是個難題,部分原因在于幾乎沒有人會閱讀在注冊或登錄時所簽署的那份使用條款。研究表明,盡管大家對數(shù)據(jù)采集技術(shù)的擴(kuò)散表達(dá)了較高程度的憂慮,但絕大多數(shù)用戶只會略讀隱私政策部分,甚至完全忽略掉,這一事實被視為人們不關(guān)心隱私的證據(jù)。筆者在澳大利亞開展的個人信息收集和使用的研究,提供了更合理的解釋:在是否保護(hù)自己隱私的問題上,人們感到別無選擇,因為無人知道信息會被用到哪里,以及使用后可能帶來什么影響。
在研究中特別引人注目的是,受訪者對個人信息收集和使用的條款表達(dá)了無力感。雖然學(xué)術(shù)研究和大眾媒體持續(xù)關(guān)注隱私問題,但相對于這種無力感,隱私問題可以說顯得不那么重要。一名受訪者提到:“我失去隱私時最在意的不是別人知道了我的信息,而是信息分享在某種程度上是被迫的,或是在被誘導(dǎo)下進(jìn)行的。”這一觀點受到普遍認(rèn)同。換言之,當(dāng)谷歌用“沒有人會閱讀你的電子郵件和賬戶信息”為其掃描用戶數(shù)據(jù)做合理化辯護(hù)時,它或許曲解了用戶的擔(dān)憂。用戶真正擔(dān)心的是,這些公司為某種目的來收集用戶信息,卻不為大家所知。
上述焦點小組的研究是圍繞一個澳大利亞全國性電話調(diào)查的結(jié)果展開討論的。該調(diào)查收集了1100 份樣本,涉及人們對個人信息收集和使用的態(tài)度,結(jié)果顯示,人們對此高度關(guān)注,這與在其他國家的發(fā)現(xiàn)十分類似。具體而言,有近六成(59%)的受訪者認(rèn)為網(wǎng)站收集了過多的信息,他們也高度支持對個人信息收集和使用進(jìn)行更嚴(yán)格的控制。在這其中,有92%的人支持設(shè)置不跟蹤的選項,95%的人認(rèn)為應(yīng)實時發(fā)放跟蹤通知,96%的人支持根據(jù)需要刪除個人數(shù)據(jù),同時有超過半數(shù)的回答者反對基于跟蹤的定制廣告。調(diào)查結(jié)果還發(fā)現(xiàn),人們明確地意識到,他們對自己的信息被如何利用知之甚少,超過七成(73%)的人想了解網(wǎng)站收集和利用個人信息的方式。
這些發(fā)現(xiàn)體現(xiàn)了“大數(shù)據(jù)鴻溝”的一種特殊形式,它存在于數(shù)據(jù)分類者和被分類者之間,即有一類人能夠提取數(shù)據(jù),并有權(quán)對不可預(yù)測且令人費(fèi)解的數(shù)據(jù)結(jié)果進(jìn)行解釋和利用,而另一類人只能接受由前者所做的決策。這種認(rèn)識有助于思考焦點小組的調(diào)查結(jié)果,回答為什么隱私討論中占主導(dǎo)地位的框架被挑戰(zhàn)了。埃里克·施密特(Eric Schmidt)對這一框架的概括最為恰當(dāng),簡單來說就是“要想人不知,除非己莫為”,或者是“既然沒有什么可隱瞞的,也就沒有什么可害怕的”。而當(dāng)前多數(shù)受訪者的憂慮并不在此框架之內(nèi),他們強(qiáng)調(diào)的重點不是信息的被分享或是被采集,而是這一過程的被迫性。值得注意的是,即使是對數(shù)據(jù)收集表示擔(dān)憂的受訪者,仍不能說清楚大數(shù)據(jù)鴻溝下實際所受到的、能夠感知到的或能預(yù)期的傷害到底是什么。當(dāng)被追問擔(dān)憂的具體內(nèi)容時,受訪者往往轉(zhuǎn)而回答一些常見的隱私問題,比如關(guān)于身份盜竊或欺詐的威脅,或是關(guān)于數(shù)據(jù)驅(qū)動的目標(biāo)營銷??偟膩碚f,面對廣泛而日益復(fù)雜的數(shù)據(jù)收集和挖掘,人們因無能為力而感受到的挫敗感遠(yuǎn)超過對實際傷害的憂慮。
本文的研究表明,人們表達(dá)出的無力感至少有兩個維度:第一,對信息和通信資源的所有權(quán)和控制權(quán)感到無力;第二,對基于知識進(jìn)行決策的不同路徑感到無知。人們清楚地意識到,強(qiáng)大的商業(yè)利益集團(tuán)正控制著信息的獲取,而用戶要么接受那些條款,要么在許多方面放棄影響個人生活和職業(yè)生涯的資源。當(dāng)然,公眾已開始大聲疾呼,卻難以表明具體擔(dān)憂的內(nèi)容,這種模糊不明未必來自懶惰或無知,而是反映了大數(shù)據(jù)用戶所依賴的發(fā)現(xiàn)結(jié)果既不可預(yù)測又反直覺,同時數(shù)據(jù)挖掘技術(shù)也難以捉摸。因此,人們很難想象使用某個特定的瀏覽器會對工作機(jī)會產(chǎn)生影響,更無法理解由無數(shù)變量相互作用所產(chǎn)生的數(shù)據(jù)模型對社會生活的影響,這些顯然超出了一般人的知識邊界。
在大數(shù)據(jù)時代,海倫·尼森鮑姆(Helen Nissenbaum)曾極力主張的具有語境化的隱私無疑被挑戰(zhàn)了,人們的數(shù)據(jù)已被徹底地、不可預(yù)測地去情景化使用了。同時,隨著監(jiān)測追蹤技術(shù)的擴(kuò)散,如車牌讀取器、智能相機(jī)、無人機(jī)、RFID 掃描儀和音頻傳感器等,數(shù)據(jù)抓取的范圍不斷在線上和線下擴(kuò)展,用戶將與自己的數(shù)據(jù)分離,無權(quán)過問和使用,最終被裹挾進(jìn)大數(shù)據(jù)鴻溝的分化邏輯里。人們在克服數(shù)字鴻溝(digital divide)的同時,往往伴隨著大數(shù)據(jù)鴻溝的加劇。例如,隨著更多的人有能力使用智能手機(jī)和平板電腦,不同人群的數(shù)字鴻溝有所縮小,但便利的訪問意味著更多的數(shù)據(jù)被用于存儲、分類和挖掘,而隨著數(shù)據(jù)挖掘形式的多樣化,決策制定、信息預(yù)測和排序操作將受到更廣泛的影響。雖然本文提及的許多應(yīng)用尚處起步階段,但變化的速度促使每個人思考大數(shù)據(jù)鴻溝在社會、文化和政治等各個方面帶來的影響。如何減少大數(shù)據(jù)分類所帶來的負(fù)面影響,消除不透明的歧視,這是我們在大數(shù)據(jù)時代面臨的考驗。