林曦 郭蘇建
摘 要:大數(shù)據(jù)正在對(duì)中國(guó)社會(huì)科學(xué)研究范式、路徑、方法和未來(lái)發(fā)展產(chǎn)生極其重大而深遠(yuǎn)的影響和挑戰(zhàn)。然而,對(duì)于以各種算法為基礎(chǔ)的大數(shù)據(jù)而言,在其數(shù)據(jù)收集、處理和應(yīng)用中,也出現(xiàn)了相應(yīng)的不正義倫理議題,亟需社會(huì)科學(xué)研究者進(jìn)行深入思考。所謂的算法不正義,指的是在大數(shù)據(jù)的知識(shí)建構(gòu)過(guò)程中,社會(huì)不同個(gè)體或團(tuán)體,在大數(shù)據(jù)資源的占有、使用和分配上出現(xiàn)不平等,從而導(dǎo)致在數(shù)據(jù)資源的“代表性”、“用戶畫像”、決策支持、行動(dòng)干預(yù)等不同維度上出現(xiàn)不正義的情形。在大數(shù)據(jù)收集、處理、應(yīng)用的過(guò)程中,算法忽視或者無(wú)法甄別數(shù)據(jù)來(lái)源,傳輸和使用過(guò)程中對(duì)某個(gè)區(qū)域范圍內(nèi)總?cè)丝谥刑囟ㄈ巳旱膬?yōu)待或者排斥,從而導(dǎo)致數(shù)據(jù)本身所蘊(yùn)含的不平等被原封不動(dòng)地轉(zhuǎn)移到大數(shù)據(jù)的計(jì)算結(jié)果之中,這種計(jì)算結(jié)果有可能反過(guò)來(lái)進(jìn)一步加劇原本不同人群在數(shù)據(jù)資源分配和再分配上的不平等,進(jìn)而導(dǎo)致基于算法的大數(shù)據(jù)不平等和不正義。為了解決這些算法不正義的問(wèn)題,學(xué)者們也提出了諸如“促進(jìn)平等的數(shù)據(jù)倡議”的行動(dòng)方案,有些國(guó)家和地區(qū)還出現(xiàn)了公民自發(fā)的“量化自我”運(yùn)動(dòng),以有意識(shí)地應(yīng)對(duì)因大數(shù)據(jù)及其算法而導(dǎo)致的不平等和不正義。
關(guān)鍵詞:算法不正義;“大數(shù)據(jù)鴻溝”;“用戶畫像”;算法分析
中圖分類號(hào):B82-057 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0257-5833(2020)08-0003-20
作者簡(jiǎn)介:林 曦,復(fù)旦大學(xué)社會(huì)科學(xué)高等研究院教授、院長(zhǎng)助理;郭蘇建,教育部“長(zhǎng)江學(xué)者”特聘教授,復(fù)旦大學(xué)社會(huì)科學(xué)高等研究院院長(zhǎng) (上海 200433)
在過(guò)去的十年間,大數(shù)據(jù)對(duì)我們身處的社會(huì)進(jìn)程和發(fā)展產(chǎn)生了很大的影響,在世界范圍內(nèi),我們都可以觀察到一個(gè)“數(shù)據(jù)化”(Datafication)的現(xiàn)象。它包含了數(shù)字技術(shù)的蓬勃發(fā)展,而且,數(shù)據(jù)在各個(gè)國(guó)家的發(fā)展過(guò)程中發(fā)揮越來(lái)越重要的作用。數(shù)據(jù)的體量、應(yīng)用規(guī)模、速度、范圍等都出現(xiàn)了大規(guī)模的增長(zhǎng),數(shù)據(jù)也逐步成為政策決策的重要參考對(duì)象。聯(lián)合國(guó)把這個(gè)過(guò)程稱之為“一場(chǎng)數(shù)據(jù)革命”,并預(yù)言這樣的一場(chǎng)革命,將帶領(lǐng)人類社會(huì)進(jìn)入可持續(xù)發(fā)展的軌道。新形式的數(shù)據(jù),尤其是大數(shù)據(jù)和人工智能,能夠幫助發(fā)展中國(guó)家更好地實(shí)現(xiàn)可持續(xù)發(fā)展的目標(biāo),比如,通過(guò)無(wú)人機(jī)、數(shù)據(jù)監(jiān)控,更好地服務(wù)農(nóng)業(yè)的發(fā)展、提高第一產(chǎn)業(yè)的效率,在工業(yè)上運(yùn)用大數(shù)據(jù)實(shí)現(xiàn)智能制造,在公共衛(wèi)生方面運(yùn)用大數(shù)據(jù)預(yù)測(cè)流行病、提前部署疾控措施,通過(guò)大數(shù)據(jù)提高政府公開透明和行政效率,等等。
從定義上看,大數(shù)據(jù)所包含的數(shù)據(jù)種類繁多、體量巨大,運(yùn)算速度也比傳統(tǒng)數(shù)據(jù)高很多,美國(guó)公共輿論研究學(xué)會(huì)曾給大數(shù)據(jù)下了一個(gè)定義,其認(rèn)為大數(shù)據(jù)作為一個(gè)詞匯,只是籠統(tǒng)地描述了一堆內(nèi)涵豐富、復(fù)雜無(wú)比的數(shù)據(jù)集合,里面包含了各種與數(shù)據(jù)相關(guān)的特性、實(shí)踐、技術(shù)、倫理議題以及結(jié)果。正因?yàn)榇髷?shù)據(jù)體量巨大、種類龐雜、來(lái)源廣泛,對(duì)于大數(shù)據(jù)而言,其數(shù)據(jù)采集、分析和應(yīng)用都是借由各種算法來(lái)進(jìn)行。一般而言,算法的定義即旨在解決某個(gè)問(wèn)題的方式或進(jìn)程。如果問(wèn)題可以被看成是一個(gè)需要求解的數(shù)學(xué)題,那么,算法就是解決該問(wèn)題的方程式,將輸入的選項(xiàng)通過(guò)一系列的解決方法,得出輸出結(jié)果。對(duì)于大數(shù)據(jù)而言,算法在其中起到了不可替代的作用。搜索引擎運(yùn)用特定的算法,對(duì)海量的數(shù)據(jù)進(jìn)行采集、過(guò)濾、分類和索引;數(shù)據(jù)分析技術(shù)則依賴算法,對(duì)采集到的數(shù)據(jù)進(jìn)行清洗、結(jié)構(gòu)化處理和運(yùn)算;最終,當(dāng)數(shù)據(jù)分析結(jié)果需要呈現(xiàn)的時(shí)候,算法又對(duì)這些結(jié)果進(jìn)行可視化的處理或者顯示優(yōu)先順序的排列。大數(shù)據(jù)雖然是關(guān)乎數(shù)據(jù)的整個(gè)價(jià)值鏈,但是,算法是貫穿始終的。離開了算法,大數(shù)據(jù)就無(wú)法以一種被人類思維“可理解”的方式呈現(xiàn)出來(lái)。對(duì)于大數(shù)據(jù)與社會(huì)科學(xué)研究之間的關(guān)系,樂(lè)觀派的人士認(rèn)為,數(shù)據(jù)收集和大數(shù)據(jù)挖掘能夠讓我們獲得全樣本數(shù)據(jù),避免數(shù)據(jù)采集過(guò)程中因?yàn)闊o(wú)法獲得足夠樣本量而導(dǎo)致數(shù)據(jù)偏差,正是因?yàn)榇髷?shù)據(jù)本身在數(shù)據(jù)采集過(guò)程中的大樣本優(yōu)勢(shì),所以,它可以幫助我們避免因?yàn)槿藶槠枚鴮?dǎo)致誤差。但是,大數(shù)據(jù)中的算法,只有在數(shù)據(jù)來(lái)源本身優(yōu)良、高質(zhì)量的情況下,才能真正發(fā)揮出上述的優(yōu)勢(shì),如果數(shù)據(jù)本身是有缺陷的,或者不夠完美,那么,技術(shù)樂(lè)觀派的那種理想主義假設(shè)就無(wú)法落到實(shí)處?,F(xiàn)實(shí)的情況是我們所收集到的數(shù)據(jù)很多時(shí)候都是不完美的,這些數(shù)據(jù)有可能是之前決策者基于人為偏好而得到的,因此,此類數(shù)據(jù)本身就包含了偏見(jiàn)、不平等、排斥。而且,因?yàn)樵O(shè)備和資源使用的分布不均衡,這也會(huì)導(dǎo)致我們?cè)诓杉瘮?shù)據(jù)的過(guò)程中,那些占有更多數(shù)據(jù)資源的使用者的偏好更有可能進(jìn)入數(shù)據(jù),如此一來(lái),我們所得到的數(shù)據(jù)就會(huì)與社會(huì)上廣泛存在的偏好、偏見(jiàn)重疊在一起。在數(shù)據(jù)挖掘的過(guò)程中,有可能會(huì)出現(xiàn)的情況是它與此前業(yè)已存在的排斥、不平等現(xiàn)象呈現(xiàn)出驚人的相似性或者一致性,都以同樣的規(guī)律來(lái)呈現(xiàn)。因此,如果我們對(duì)數(shù)據(jù)進(jìn)行分析,本身不加反思、不加批判地接受,那么,這就讓我們無(wú)視那些在過(guò)去的歷史發(fā)展中被邊緣化、處于弱勢(shì)地位或者岌岌可危的群體所遭受的不公,這就相當(dāng)于拒斥了這些群體完全融入到我們的公共生活之中。程序員或者編程人員在開發(fā)軟件、設(shè)計(jì)算法的時(shí)候,可能并沒(méi)有想到這些問(wèn)題,而這些偏見(jiàn)都是人們?cè)谑褂盟惴ǖ倪^(guò)程中才出現(xiàn)的,因此,它是一個(gè)非意圖的后果,如此一來(lái),要想真切地發(fā)現(xiàn)并糾正此類算法所帶來(lái)的偏見(jiàn)和不正義,就顯得尤其困難。
對(duì)于大數(shù)據(jù)而言,經(jīng)常會(huì)出現(xiàn)的一個(gè)迷思就是公眾認(rèn)為大數(shù)據(jù)是以“客觀、公正、去意識(shí)形態(tài)化”的面貌出現(xiàn),大數(shù)據(jù)否認(rèn)自身存在意識(shí)形態(tài)或者偏見(jiàn),這本身就是大數(shù)據(jù)的一個(gè)“意識(shí)形態(tài)”科恩首先提到了大數(shù)據(jù)中可能隱藏的“意識(shí)形態(tài)承諾”,她認(rèn)為,現(xiàn)在大數(shù)據(jù)把自己包裝成真理,并宣稱大數(shù)據(jù)所包含的信息即真理,否認(rèn)信息本身可能就攜帶著各種“意識(shí)形態(tài)承諾”,作者提到了大數(shù)據(jù)所承諾的“開放性”也是一種意識(shí)形態(tài);作者將大數(shù)據(jù)所包含的“數(shù)據(jù)主義”(Dataism)當(dāng)成是一種意識(shí)形態(tài),即大家相信只要是量化,那么結(jié)果就必然是客觀的;作者認(rèn)為,大數(shù)據(jù)有雙重的“意識(shí)形態(tài)”,一方面是“市場(chǎng)意識(shí)形態(tài)”,強(qiáng)調(diào)大數(shù)據(jù)是一場(chǎng)革命,能夠給我們的生活和商業(yè)帶來(lái)翻天覆地的變革,另一方面強(qiáng)調(diào)“大數(shù)據(jù)即真理”。。這其實(shí)是無(wú)視了大數(shù)據(jù)在數(shù)據(jù)收集的過(guò)程中,常常由商業(yè)公司來(lái)操作、帶有商業(yè)目的或者追逐商業(yè)利益,由此而得來(lái)的數(shù)據(jù)難免會(huì)產(chǎn)生偏見(jiàn)或者偏好。不同類型的大數(shù)據(jù),其內(nèi)在的偏好有可能是不一樣的,比如,在社交應(yīng)用軟件或者社交媒體網(wǎng)站上,一般在加入之前,都會(huì)在條款里面要求用戶同意對(duì)方使用該用戶錄入的數(shù)據(jù),如果有人對(duì)自己的隱私比較看重,不愿意接受這些條款,那么,這樣的用戶就無(wú)法在這些網(wǎng)站上注冊(cè)成為用戶。通過(guò)這些社交媒體網(wǎng)站或者應(yīng)用軟件而得到的大數(shù)據(jù),很難宣稱自己的數(shù)據(jù)結(jié)果是無(wú)偏見(jiàn)的,因此,這些數(shù)據(jù)在收集伊始,就已經(jīng)排除了那些對(duì)自己隱私更加看重的用戶。
因此,對(duì)大數(shù)據(jù)在形成公眾認(rèn)知和社會(huì)科學(xué)研究當(dāng)中所起到的作用進(jìn)行一個(gè)正義倫理維度的檢視就顯得重要。大數(shù)據(jù)不僅僅關(guān)乎技術(shù),更重要的是它已經(jīng)變成一整套的知識(shí)生產(chǎn)和建構(gòu)體系,改變了我們對(duì)理論和實(shí)踐的認(rèn)知比如,Boyd和Crawford兩位學(xué)者就旗幟鮮明地認(rèn)為,大數(shù)據(jù)改變了我們做社會(huì)科學(xué)研究的思維方式, Berry則認(rèn)為,大數(shù)據(jù)所蘊(yùn)含的“可計(jì)算性”(Computationality)成為了一種新的“本體論”哲學(xué),成為人類“可理解性”的關(guān)鍵,這場(chǎng)由大數(shù)據(jù)發(fā)動(dòng)的“知識(shí)論革命”,需要社會(huì)科學(xué)和人文研究的學(xué)者進(jìn)行批判性的檢,。因此,本文就從這一知識(shí)體系入手,希望能夠從大數(shù)據(jù)知識(shí)如何得以建構(gòu)的運(yùn)行體系中,發(fā)現(xiàn)大數(shù)據(jù)及其算法、運(yùn)算、數(shù)據(jù)流通背后可能被人忽略的不正義層面。為此,我們有必要從整個(gè)大數(shù)據(jù)知識(shí)建構(gòu)體系來(lái)進(jìn)行逐一分析。這個(gè)體系大致包含三個(gè)方面,涵蓋數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用。在數(shù)據(jù)收集中,在確定了相應(yīng)的“數(shù)據(jù)源頭”(Source)之后,會(huì)運(yùn)用相應(yīng)的技術(shù)對(duì)其中的數(shù)據(jù)進(jìn)行捕獲或者抓取,這些數(shù)據(jù)匯總起來(lái)就形成了對(duì)“數(shù)據(jù)源頭”或者數(shù)據(jù)用戶的一個(gè)“代表”(Representation)。在收集數(shù)據(jù)的基礎(chǔ)上,還需要對(duì)這些數(shù)據(jù)進(jìn)行清洗、分門別類、結(jié)構(gòu)化處理,由此完成一個(gè)“用戶畫像”(Profile),形成對(duì)數(shù)據(jù)的初步分析,并在此基礎(chǔ)上進(jìn)行相應(yīng)的算法分析。數(shù)據(jù)分析所得出的結(jié)果以一定的形式呈現(xiàn)出來(lái),并可以被運(yùn)用到各個(gè)層面,用以支持公共決策或?qū)π袆?dòng)進(jìn)行干預(yù);希克斯則提出了一個(gè)“信息價(jià)值鏈”的說(shuō)法。這些數(shù)據(jù)的收集、分析和應(yīng)用,又會(huì)反過(guò)來(lái)為整個(gè)大數(shù)據(jù)知識(shí)體系添磚加瓦,推動(dòng)整個(gè)體系在增量和存量層面的積累。下文對(duì)大數(shù)據(jù)正義倫理所進(jìn)行的探討,也將以這個(gè)結(jié)構(gòu)來(lái)展開,筆者將逐一討論這一大數(shù)據(jù)知識(shí)建構(gòu)體系中所可能出現(xiàn)的不正義場(chǎng)景。
一、數(shù)據(jù)收集
對(duì)于大數(shù)據(jù)而言,收集或采集數(shù)據(jù)是數(shù)據(jù)挖掘至關(guān)重要的一環(huán),后續(xù)的數(shù)據(jù)分析和應(yīng)用都取決于所收集或采集到的數(shù)據(jù)質(zhì)量。數(shù)據(jù)收集主要涉及兩個(gè)方面的問(wèn)題:“采集”和“捕獲”。首先,大數(shù)據(jù)集合需要確認(rèn)被收集或采集的對(duì)象,即所謂的“數(shù)據(jù)源頭”。不同類型的數(shù)據(jù)源頭決定了數(shù)據(jù)收集或者采集方式的差異,比如,數(shù)據(jù)源頭是溫度、氣壓、空氣質(zhì)量等,則較有可能通過(guò)物聯(lián)網(wǎng)傳感器進(jìn)行收集;相比之下,如果數(shù)據(jù)源頭與人類行為有關(guān),則很可能通過(guò)各種社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)站或便攜移動(dòng)設(shè)備來(lái)進(jìn)行收集。以智能交通為例,如果數(shù)據(jù)源頭是實(shí)時(shí)的路況信息,則數(shù)據(jù)采集會(huì)通過(guò)GPS定位信息、分布在交通網(wǎng)絡(luò)上的攝像頭以及交通關(guān)卡的車輛統(tǒng)計(jì)等方式來(lái)進(jìn)行相關(guān)討論參見(jiàn)李聯(lián)寧《大數(shù)據(jù)技術(shù)及應(yīng)用教程》,清華大學(xué)出版社2016年版;肖樂(lè)、叢天偉、嚴(yán)衛(wèi)《基于Python的Web大數(shù)據(jù)采集和數(shù)據(jù)分析》,《電腦知識(shí)與技術(shù)》2018年第22期。。本文主要討論社會(huì)科學(xué)視域下的大數(shù)據(jù),因此,筆者將主要討論以人類行為為源頭的大數(shù)據(jù)收集。
(一)源頭:從“數(shù)字鴻溝”到“大數(shù)據(jù)鴻溝”
針對(duì)以人類行為為源頭的數(shù)據(jù)采集,有一點(diǎn)是毫無(wú)疑問(wèn)的,即不同人群在使用數(shù)字設(shè)備和技術(shù)上存在千差萬(wàn)別,其中,有些差異是結(jié)構(gòu)性的。正如有些學(xué)者擔(dān)心的那樣,在數(shù)據(jù)集中,有不少與發(fā)展相關(guān)的問(wèn)題或者社會(huì)群體,其代表程度是偏低的、不夠的。如果以這種數(shù)據(jù)作為決策的依據(jù),那么,就有可能對(duì)那些代表程度偏低的問(wèn)題或人群造成不公。造成這種不公的原因可能包括“數(shù)字鴻溝”、“大數(shù)據(jù)鴻溝”、數(shù)據(jù)質(zhì)量問(wèn)題、數(shù)據(jù)收集的程序、在發(fā)展中國(guó)家和地區(qū)與數(shù)據(jù)相關(guān)的能力建設(shè)不足等希伯特從以下幾個(gè)維度討論“鴻溝”的形成:(1)技術(shù)種類;(2)使用主體;(3)主體所具備的特征;(4)使用方法。所謂的“大數(shù)據(jù)鴻溝”(Big Data Divide),即不同群體或?qū)嶓w(比如公司、企業(yè)、高校)在創(chuàng)建、購(gòu)買、存儲(chǔ)、使用大型數(shù)據(jù)集層面存在的能力和知識(shí)等方面的差距,作者討論了“大數(shù)據(jù)有產(chǎn)”(Big Data Rich)與“大數(shù)據(jù)無(wú)產(chǎn)”(Big Data Poor)之間的區(qū)別;作者主要從技術(shù)能力的角度分析了“大數(shù)據(jù)鴻溝”的表現(xiàn)形式。。這一“大數(shù)據(jù)鴻溝”與之前的“數(shù)字鴻溝”諾里斯是最早一批研究“數(shù)字鴻溝”的學(xué)者,(Digital Divide)存在著千絲萬(wàn)縷的聯(lián)系。
最開始研究“數(shù)字鴻溝”的學(xué)者主要聚焦于數(shù)字有產(chǎn)與數(shù)字無(wú)產(chǎn)之間的區(qū)別,這些研究認(rèn)為,在擁有數(shù)字基礎(chǔ)設(shè)施(比如計(jì)算機(jī)、互聯(lián)網(wǎng)接入)層面,會(huì)存在相應(yīng)的社會(huì)經(jīng)濟(jì)不平等比如在農(nóng)村地區(qū),由于建設(shè)費(fèi)用居高不下,用戶又比較少,難以達(dá)到規(guī)模效益,所以電信公司不愿意為農(nóng)村地區(qū)修建數(shù)字基礎(chǔ)設(shè)施,。后來(lái),隨著互聯(lián)網(wǎng)的普及,因?yàn)榛A(chǔ)設(shè)施占有而引起的數(shù)字不平等在逐步縮小,研究人員轉(zhuǎn)而更加關(guān)注其他層次的不平等者區(qū)分了兩類“數(shù)字鴻溝”:第一代“數(shù)字鴻溝”主要是在技術(shù)使用和基礎(chǔ)設(shè)施的可及性層面,第二代“數(shù)字鴻溝”則是數(shù)字能力和從計(jì)算機(jī)使用中獲益的能力;作者主要討論了家庭收入、種族與擁有個(gè)人電腦之間的關(guān)系,其認(rèn)為,美國(guó)的“數(shù)字鴻溝”有鮮明的種族特征,即黑人和有色人群與白人群體在數(shù)字設(shè)備擁有上存在明顯差距;有關(guān)“數(shù)字鴻溝”和“數(shù)字不平等”的研究,這些“信息層面上的被剝奪者”,他們處在一個(gè)更加劣勢(shì)的發(fā)展和經(jīng)濟(jì)位置上,作者在文中呼吁,在歐盟層面,需要通過(guò)“信息社會(huì)”來(lái)提高成員國(guó)的數(shù)字化水平,并將其作為加入歐盟的準(zhǔn)入條件之一。。后來(lái),“數(shù)字鴻溝”學(xué)者的注意力主要轉(zhuǎn)向了“數(shù)字技能”和“數(shù)字素養(yǎng)”上的差距,不同用戶在內(nèi)容生產(chǎn)能力上具有顯著的差異,并且,這種差異是與一些地理上的區(qū)隔、差異重疊在一起作者主要通過(guò)布爾迪厄的“閑暇”(Skholè)概念,分析那些更具數(shù)字優(yōu)勢(shì)的人群運(yùn)用數(shù)字設(shè)備做休閑、探索的應(yīng)用,而處于數(shù)字劣勢(shì)的群體則必須依靠數(shù)字設(shè)備進(jìn)行謀生;作者論證了數(shù)字不平等和其他形式不平等之間的重疊和交叉關(guān)系。,以及這些差距與用戶在健康狀況、健康效應(yīng)上的差別。因此,數(shù)字不平等本身是關(guān)乎人們接受、獲取、使用某種新技術(shù)的傾向和能力,這樣的傾向和能力又與用戶在社會(huì)網(wǎng)絡(luò)中的位置及其在該位置上所積累的各種資本相關(guān)。所以,數(shù)字不平等不僅僅是一個(gè)簡(jiǎn)單的、個(gè)體差異意義上的不平等,同時(shí),它也彰顯著個(gè)體背后的社會(huì)結(jié)構(gòu)中的不平等,比如資源的分配、獲取和使用技術(shù)的機(jī)會(huì)、訓(xùn)練數(shù)字技能的成本等。即便給不同群體賦予同等的獲取技術(shù)的機(jī)會(huì),仍然會(huì)存在其他的限制性條件,繼而影響到個(gè)體對(duì)這些技術(shù)的實(shí)際使用,這些限制性條件包括語(yǔ)言、“媒體素養(yǎng)”(Media Literacy)以及其他結(jié)構(gòu)性的影響因素部分,格雷厄姆從時(shí)間和空間的維度討論“數(shù)字鴻溝”。
從“數(shù)字鴻溝”的文獻(xiàn)中汲取了相當(dāng)養(yǎng)分的“大數(shù)據(jù)鴻溝”研究學(xué)者,則關(guān)注那些大規(guī)模、分布式數(shù)據(jù)集中的數(shù)據(jù)有產(chǎn)和數(shù)據(jù)無(wú)產(chǎn)之間的差異D. Boyd and K. Crawford, “Critical Questions for Big Data: Provocations for a Cultural, Technological and Scholarly Phenomenon”, Information, Communication & Society, 15(5), 2012, pp. 662-679; C. L. McNeely and J. Hahm, “The Big (Data) Bang: Policy, Prospects and Challenges”, Review of Policy Research, 31(4), 2014, pp. 304-310.?!按髷?shù)據(jù)鴻溝”體現(xiàn)在以下兩個(gè)群體不對(duì)稱的關(guān)系上:一方是那些有能力收集、儲(chǔ)存、挖掘海量數(shù)據(jù)的主體;另一方是那些被收集數(shù)據(jù)的對(duì)象M. Andrejevic, “Big Data, Big Questions: The Big Data Divide”, International Journal of Communication, 8, 2014, pp. 1673-1689.。對(duì)數(shù)據(jù)的獲取,有些是依賴技術(shù)手段,有些則與經(jīng)濟(jì)資源有關(guān),看誰(shuí)有支付的能力。比如,推特只給一部分公司開放了完全訪問(wèn)其數(shù)據(jù)的權(quán)限,對(duì)于公眾而言,只具備相當(dāng)有限的訪問(wèn)權(quán)限D(zhuǎn). Boyd and K. Crawford, “Critical Questions for Big Data: Provocations for a Cultural, Technological and Scholarly Phenomenon”, Information, Communication & Society, 15(5), 2012, p. 669,作者區(qū)分了幾個(gè)級(jí)別的數(shù)據(jù)訪問(wèn):從理論上講,推特提供了一個(gè)名為“消防水帶”(Firehose)的數(shù)據(jù)集,這里面包含的推文數(shù)量最多,能夠訪問(wèn)的主體也最少;其次是“花園水管”(Gardenhose)數(shù)據(jù)集,包含大約公共推文的十分之一;再次就是“汽酒”(Spritzer)數(shù)據(jù)集,里面只包含了推文的百分之一。。同時(shí),大數(shù)據(jù)也是一柄雙刃劍,本身也會(huì)帶來(lái)一些和數(shù)據(jù)相關(guān)的問(wèn)題,比如無(wú)處不在的監(jiān)控、喪失隱私、發(fā)展收益被私人企業(yè)占了大頭、日益增長(zhǎng)的不平等L. Taylor, “What is Data Justice? The Case for Connecting Digital Rights and Freedoms Globally”, Big Data & Society, 4, 2017, pp. 1-14.。
以城市規(guī)劃為例,放眼全球,各個(gè)國(guó)家在城市規(guī)劃和管理的過(guò)程中,會(huì)越來(lái)越多地用到各種各樣的數(shù)據(jù),這形成了一種“新型的城市日程”,旨在指引未來(lái)的城市規(guī)劃和發(fā)展UN-Habitat, New Urban Agenda, 2017, https://unhabitat.org/sites/default/files/2019/05/nua-english.pdf.。對(duì)于許多發(fā)展中國(guó)家而言,包括中國(guó)在內(nèi)參見(jiàn)祖田崢《基于大數(shù)據(jù)云平臺(tái)的智慧城市建設(shè)的思考》,《綠色環(huán)保建材》2020年第6期;滕豐耘、杜松茂、史丹《城鄉(xiāng)規(guī)劃過(guò)程中智慧城市及大數(shù)據(jù)技術(shù)的應(yīng)用》,《智能建筑與智能城市》2020年第5期;王偉、王瑛、劉靜楠《我國(guó)大數(shù)據(jù)研究綜述及其在城鄉(xiāng)規(guī)劃領(lǐng)域應(yīng)用機(jī)制探索》,《北京規(guī)劃建設(shè)》2017年第6期。,政府都會(huì)有意識(shí)地力推“智慧城市”項(xiàng)目Privacy International, Smart Cities: Utopian Vision, Dystopian Reality, 2017, https://www.privacyinternational.org/sites/default/files/2017-12/Smart%20Cities-Utopian%20Vision%2C%20Dystopian%20Reality.pdf.。在這些政府看來(lái),“智慧城市”和可持續(xù)發(fā)展、綠色發(fā)展等諸理念存在緊密的聯(lián)系,數(shù)字技術(shù)也讓城市規(guī)劃部門能夠運(yùn)用更多的技術(shù)、智能和數(shù)據(jù)來(lái)協(xié)助其進(jìn)行規(guī)劃。比如,現(xiàn)在在各地應(yīng)用非常廣泛的遠(yuǎn)程感應(yīng)就是通過(guò)在地面上布置的感應(yīng)器來(lái)搜集環(huán)境數(shù)據(jù)。在這個(gè)過(guò)程中,還涌現(xiàn)了“數(shù)字孿生”(Digital Twin)技術(shù)對(duì)于“數(shù)字孿生”的文獻(xiàn)回顧,參見(jiàn)David Jones, Chris Snider, Aydin Nassehi, Jason Yon and Ben Hicks, “Characterising the Digital Twin: A Systematic Literature Review”, CIRP Journal of Manufacturing Science and Technology, 2020, https://doi.org/ 10.1016/j.cirpj.2020.02.002.,即通過(guò)物聯(lián)網(wǎng)、數(shù)據(jù)平臺(tái)、信息模型平臺(tái)等技術(shù)手段,把現(xiàn)實(shí)世界中的客體映射到虛擬空間,在虛擬世界中創(chuàng)造出一個(gè)與現(xiàn)實(shí)世界相對(duì)應(yīng)的“孿生”客體苗田、張旭、熊輝、莊存波、趙浩然、呂卓、劉檢華:《數(shù)字孿生技術(shù)在產(chǎn)品生命周期中的應(yīng)用與展望》,《計(jì)算機(jī)集成制造系統(tǒng)》2019年第6期。。因此,顧名思義,“數(shù)字孿生”技術(shù)就是在虛擬世界中復(fù)刻和模擬現(xiàn)實(shí)世界中的具體對(duì)象,比如,現(xiàn)實(shí)中的地理空間、人口等信息,可以通過(guò)大數(shù)據(jù)在虛擬世界中進(jìn)行相應(yīng)呈現(xiàn)S. Lokanathan, G. E. Kreindler, N. N. de Silva, Y. Miyauchi, D. Dhananjaya and R. Samarajiva, “The Potential of Mobile Network Big Data as a Tool in Colombos Transportation and Urban Planning”, Information Technologies & International Development, 12(2), 2016, pp. 63-73.。這一技術(shù)現(xiàn)在也被廣泛地應(yīng)用到城市規(guī)劃中參見(jiàn)魏勇、呂聰敏《利用復(fù)雜自適應(yīng)系統(tǒng)理論探索數(shù)字孿生智能城市的發(fā)展模式》,《電子世界》2020年第9期;中國(guó)城市規(guī)劃設(shè)計(jì)研究院信息中心《基于“數(shù)字孿生”的智慧城市發(fā)展建設(shè)思路》,《人民論壇·學(xué)術(shù)前沿》2020年第4期。。但是,有學(xué)者發(fā)現(xiàn),在城市規(guī)劃過(guò)程中,大數(shù)據(jù)所產(chǎn)生的影響,對(duì)那些已經(jīng)在現(xiàn)實(shí)生活中被邊緣化的群體而言,可能并不見(jiàn)得都是積極的。對(duì)于那些低收入、無(wú)固定住所人群而言,他們獲取數(shù)據(jù)的途徑缺乏,并且,他們的存在狀態(tài)在各種大數(shù)據(jù)或由此產(chǎn)生的“數(shù)字孿生”模型中也很難呈現(xiàn)出來(lái)參見(jiàn)D. Mitlin and D. Satterthwaite, Urban Poverty in the Global South, London, NY: Routledge, 2013,尤其是第5章和第6章。。從程序上講,如果大數(shù)據(jù)的采集或者“數(shù)字孿生”的創(chuàng)建過(guò)程不能很好地考慮到那些被遮蔽的群體,無(wú)法實(shí)現(xiàn)既定目標(biāo),不尊重居民的數(shù)據(jù)權(quán)利,或者在發(fā)展中國(guó)家和地區(qū)對(duì)那些已經(jīng)被邊緣化的群體造成“二度傷害”、排斥K. Pfeffer and H. Verrest, “Perspectives on the Role of Geo-Technologies for Addressing Contemporary Urban Issues”, European Journal of Development Research, 28(2), 2016, pp. 154-166,作者討論了使用諸如遠(yuǎn)程感應(yīng)成像和空間模擬等地理技術(shù)時(shí)會(huì)遇到的諸多挑戰(zhàn)。,那么,其最終的成果也無(wú)法滿足分配正義的要求R. Kitchin, The Data Revolution: Big Data, Open Data, Data Infrastructures & Their Consequences, Los Angeles, CA: Sage, 2014, Chapter 10; L. Taylor and C. Richter, “Big Data and Urban Governance”, in J. Gupta, K. Pfeffer, H. Verrest and M. Ros-Tonen, eds., Geographies of Urban Governance, Cham: Springer, 2015, pp. 175-182.。
在“數(shù)據(jù)捕獲”的過(guò)程中,也有可能出現(xiàn)的情況是我們過(guò)于關(guān)注某個(gè)應(yīng)用軟件或者平臺(tái),從而讓我們忽略了人們通過(guò)其他渠道進(jìn)行人際交往的可能性,比如其他的線上服務(wù)平臺(tái)或者打電話。而且,單純依靠單一平臺(tái),其實(shí)是假設(shè)人們?cè)谌粘I钪谢旧隙际窃谑褂眠@個(gè)平臺(tái),很少或者沒(méi)有通過(guò)其他渠道進(jìn)行人際交往,這個(gè)假設(shè)與實(shí)際情況可能存在較大差異比如有學(xué)者探討,與其他的社會(huì)成員相比,使用臉書的用戶會(huì)不會(huì)采用不同的人際關(guān)系“連接策略”,并以此驗(yàn)證和社會(huì)資本之間的關(guān)系,參見(jiàn)Nicole B. Ellison, Charles Steinfield and Cliff Lampe, “Connection Strategies: Social Capital Implications of Facebook-Enabled Communication Practices”, New Media & Society, 13 (6), 2011, pp. 873-92;另外一項(xiàng)研究則對(duì)比了更經(jīng)常使用社交網(wǎng)絡(luò)的用戶與不經(jīng)常使用者之間的區(qū)別,參見(jiàn)E. Hargittai and Yuli Patrick Hsieh, “Predictors and Consequences of Differentiated Practices on Social Network Sites”, Information, Communication & Society, 13(4), 2010, pp. 515-536。。使用某個(gè)應(yīng)用軟件,其實(shí)是具有很強(qiáng)烈的行為型塑功能,會(huì)帶來(lái)不一樣的結(jié)果和行為模式。某個(gè)特定的社交軟件或者網(wǎng)站,人們對(duì)其進(jìn)行使用并不是隨機(jī)的,而是與人口學(xué)、社會(huì)經(jīng)濟(jì)背景有關(guān)聯(lián)Eszter Hargittai, “Is Bigger Always Better? Potential Biases of Big Data Derived from Social Network Sites”, Annals of the American Academy of Political and Social Science, 659(1), 2015, p. 73.,而且,“數(shù)字素養(yǎng)”、“數(shù)字技能”同樣也是與人口學(xué)、社會(huì)經(jīng)濟(jì)背景相關(guān)Eszter Hargittai and Yuli Patrick Hsieh, “Digital Inequality”, in W. H. Dutton, ed., Oxford Handbook for Internet Studies, Oxford: Oxford University Press, 2013, p. 134.。因此,不同的社交軟件、服務(wù)或者網(wǎng)站吸引了不同的用戶人群,針對(duì)某一特定社交軟件、服務(wù)或者網(wǎng)站用戶而進(jìn)行的研究發(fā)現(xiàn),就很難被推廣到其他社交軟件、服務(wù)或者網(wǎng)站用戶身上。
“數(shù)據(jù)捕獲”其實(shí)還涉及到國(guó)家運(yùn)用公權(quán)力進(jìn)行社會(huì)控制這一層面,這就涉及到一個(gè)問(wèn)題,即不同的人群是以何種形式被變成“數(shù)據(jù)”。
這個(gè)將不同用戶群體進(jìn)行“數(shù)據(jù)化”的過(guò)程涉及到“可讀性”(Legibility)概念。在斯科特看來(lái),國(guó)家會(huì)通過(guò)一系列的技術(shù)、測(cè)量、繪圖等手段,讓公民和社會(huì)變得“可讀”,運(yùn)用標(biāo)準(zhǔn)化的方法,對(duì)公民進(jìn)行征稅、征兵、防止動(dòng)亂,就好比一個(gè)養(yǎng)蜂人,通過(guò)特定的布局和技術(shù)安排,讓蜂巢變得井井有條、便于管理,從這個(gè)意義上講,蜂巢之于養(yǎng)蜂人,正如社會(huì)之于國(guó)家,其都是通過(guò)一系列的手段,讓前者能夠被后者“讀取”和“理解”,以便實(shí)施管理和控制參見(jiàn)J. C. Scott, Seeing Like a State, New Haven, CT: Yale University Press, 1998, pp. 2-3, 11-52,斯科特討論了現(xiàn)代國(guó)家建構(gòu)是如何通過(guò)各種社會(huì)事實(shí)測(cè)量和編纂技術(shù)來(lái)實(shí)現(xiàn)的。。多諾萬(wàn)將這一概念應(yīng)用于大數(shù)據(jù)的研究,他指出,“可讀性”打破了公民自身對(duì)數(shù)據(jù)和知識(shí)的控制,國(guó)家對(duì)公民和社會(huì)搜集大數(shù)據(jù),有可能會(huì)用于強(qiáng)化自己的行政控制。這一點(diǎn)對(duì)于社會(huì)中被邊緣化的群體而言,尤其如此。本來(lái),被邊緣化群體自身會(huì)發(fā)展出一套自洽的理解、知識(shí)體系,這樣的體系對(duì)這些群體而言是賦權(quán)、有價(jià)值的,但是,國(guó)家權(quán)力干預(yù)進(jìn)來(lái),這可能對(duì)地方社群所具備的地方性知識(shí)和力量構(gòu)成挑戰(zhàn)和破壞。因此,“可讀性”所可能帶來(lái)的一個(gè)隱患就是控制權(quán)的喪失尤其是第三部分“可讀性、簡(jiǎn)化和權(quán)力”。。多諾萬(wàn)以肯尼亞內(nèi)羅畢市區(qū)的基貝拉貧民窟為例,討論當(dāng)?shù)乇贿吘壔后w是如何抗拒國(guó)家對(duì)他們進(jìn)行“可讀化”的“數(shù)據(jù)捕獲”。在基貝拉,有些機(jī)構(gòu)(學(xué)?;蛘咚幍辏┎辉敢庠诘貓D上被呈現(xiàn)出來(lái),他們擔(dān)心自己會(huì)遭遇“見(jiàn)光死”,即數(shù)據(jù)上的能見(jiàn)度帶來(lái)國(guó)家的強(qiáng)勢(shì)干預(yù),而干預(yù)的結(jié)果就是他們被關(guān)閉,因?yàn)檫@些機(jī)構(gòu)本身就是非正式的存在,并未履行相關(guān)的手續(xù)、登記程序,但是卻實(shí)實(shí)在在地為地方社群提供不可或缺的公共產(chǎn)品。無(wú)獨(dú)有偶,同樣的場(chǎng)景也發(fā)生在印度的金奈市,一些地方社群拒絕參與數(shù)據(jù)收集過(guò)程,他們覺(jué)得通過(guò)數(shù)據(jù)收集讓大家都關(guān)注到自己的存在,反而弊大于利,因?yàn)閯e人一下子就會(huì)看到他們是“非正規(guī)”的存在,如果因?yàn)閿?shù)據(jù)收集而“暴露在國(guó)家的視野中”,那就得不償失了,很有可能會(huì)帶來(lái)被驅(qū)逐、關(guān)停的風(fēng)險(xiǎn)。為了解決這個(gè)問(wèn)題,一些非政府組織在印度金奈市收集那些編外、沒(méi)有登記在案的撿垃圾者的時(shí)候,就會(huì)在數(shù)據(jù)上稍作處理,不提供這些人的地點(diǎn)或者法律身份,以便保護(hù)這些人免受國(guó)家行為的強(qiáng)勢(shì)干預(yù)。
通過(guò)對(duì)“數(shù)據(jù)源頭”和“數(shù)據(jù)捕獲”這兩方面的考察,我們可以看到,上述的研究指向了數(shù)據(jù)收集過(guò)程中的一個(gè)重要倫理維度,即數(shù)據(jù)收集可能會(huì)忽視、甚至強(qiáng)化已有的不平等和不正義。在城市規(guī)劃的過(guò)程中,如果運(yùn)用大數(shù)據(jù)來(lái)建造空間和建筑物,有可能會(huì)復(fù)制城市空間中已有的不平等。數(shù)據(jù)的采集和整理都有可能復(fù)制甚至增加現(xiàn)有的社會(huì)鴻溝,而不是弱化或者降低。而且,現(xiàn)在的城市規(guī)劃用到了很多自動(dòng)化的設(shè)備和聯(lián)網(wǎng)的計(jì)算器,它們采集和整理大量的數(shù)據(jù),我們?cè)谀玫竭@些源數(shù)據(jù)之后,有必要檢視其中所隱藏的那些協(xié)議和技術(shù)偏好,尤其是算法按照什么樣的規(guī)則進(jìn)行分門別類和數(shù)據(jù)管理。因此,我們?cè)跈z視大數(shù)據(jù)的過(guò)程中,有必要將技術(shù)的結(jié)構(gòu)與現(xiàn)有的社會(huì)結(jié)構(gòu)放在一起,進(jìn)行比對(duì)和相互印證,看技術(shù)結(jié)構(gòu)是否與社會(huì)結(jié)構(gòu)相重疊,并且復(fù)制、強(qiáng)化了已有或者歷史存留的不平等、不公正現(xiàn)象。
二、數(shù)據(jù)處理
在采集數(shù)據(jù)之后,就過(guò)渡到數(shù)據(jù)知識(shí)生產(chǎn)的第二個(gè)環(huán)節(jié),即數(shù)據(jù)處理環(huán)節(jié)。被收集到的海量數(shù)據(jù),經(jīng)過(guò)一系列的技術(shù)手段和程序,變成有意義的信息。實(shí)際上,我們前文所討論的“大數(shù)據(jù)鴻溝”,在數(shù)據(jù)處理環(huán)節(jié)同樣也有相應(yīng)的呈現(xiàn)。面對(duì)海量數(shù)據(jù),只有那些擁有相關(guān)基礎(chǔ)設(shè)施、數(shù)據(jù)技能的利益相關(guān)方,才能從中獲取更大的收益,這被學(xué)者稱之為“數(shù)據(jù)分析鴻溝”。因此,“大數(shù)據(jù)鴻溝”本身也應(yīng)當(dāng)包括數(shù)據(jù)分析能力上的對(duì)比和差異。所以,我們可以看到,那些有技術(shù)手段、經(jīng)濟(jì)資源、分析能力的一方,總是能夠從數(shù)據(jù)中獲取更多的收益。為了更好地檢視這一“數(shù)據(jù)分析鴻溝”所造成的影響,本節(jié)將圍繞數(shù)據(jù)處理的兩個(gè)核心環(huán)節(jié)展開,即“用戶畫像”和算法分析。
(一)“用戶畫像”:數(shù)據(jù)處理中對(duì)不平等的復(fù)制
公司在挖掘數(shù)據(jù)的時(shí)候,使用大數(shù)據(jù)的方式,有可能會(huì)進(jìn)行一些社會(huì)分類,即所謂的“用戶畫像”(User Profile)。企業(yè)在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,其實(shí)是把不同的人群進(jìn)行分類,給他們分別賦予不同的值,用以表明其風(fēng)險(xiǎn)程度、商業(yè)價(jià)值,并且會(huì)按照已有的分類和不平等體系來(lái)對(duì)用戶進(jìn)行分組。這可能在一定程度上削弱個(gè)體在數(shù)據(jù)層面上的自主性,而且,建立數(shù)據(jù)庫(kù)其實(shí)相當(dāng)于創(chuàng)建另一個(gè)搜索索引,把用戶進(jìn)行分類管理,尤其是“Surveillance and Personalization”一節(jié)的討論。,這其實(shí)是把用戶當(dāng)成商品來(lái)進(jìn)行制造,而且整個(gè)過(guò)程是不透明的。在這個(gè)過(guò)程中,“大數(shù)據(jù)鴻溝”有可能沿著以下幾個(gè)方面來(lái)體現(xiàn):第一,數(shù)據(jù)有產(chǎn)和數(shù)據(jù)無(wú)產(chǎn);第二,數(shù)據(jù)分析能力;第三,結(jié)構(gòu)性鴻溝,與技術(shù)基礎(chǔ)設(shè)施相關(guān);第四,創(chuàng)建者與被客體化的群體,即前者有能力創(chuàng)建各種身份和有用處的知識(shí),后者只能是前者的客體、對(duì)象,前者可以很好地隱藏自己的身份,而后者處在被監(jiān)測(cè)、被客體化的境地之中,在大數(shù)據(jù)中無(wú)所遁形。這種“大數(shù)據(jù)鴻溝”會(huì)帶來(lái)幾個(gè)方面的后果。首先,數(shù)據(jù)化對(duì)用戶身份、數(shù)據(jù)對(duì)象的自主權(quán)產(chǎn)生影響作者呼吁要讓整個(gè)數(shù)據(jù)挖掘過(guò)程更加具有“參與性”。。個(gè)體在數(shù)據(jù)中被客體化為一個(gè)個(gè)的數(shù)據(jù)對(duì)象,被分門別類,然后算法會(huì)自動(dòng)決定這些數(shù)據(jù)對(duì)象的特征、性質(zhì)和值。這就導(dǎo)致用戶身份不再是由用戶自行進(jìn)行定義。同時(shí),用戶也失去了定義和闡釋身份范疇意義的自主權(quán)。在這個(gè)過(guò)程中,這些公司、機(jī)構(gòu)、企業(yè)所用到的算法、數(shù)據(jù)庫(kù),完全不對(duì)公眾開放,由此我們也無(wú)法檢視其正當(dāng)性和合理性。這就勢(shì)必造成整個(gè)數(shù)據(jù)化過(guò)程缺乏“透明度”。被客體化的數(shù)據(jù)對(duì)象,完全意識(shí)不到從自己身上收集到的數(shù)據(jù)是用于何種用途,是如何分類,是如何對(duì)他們進(jìn)行畫像,這些數(shù)據(jù)又是怎么進(jìn)行分析,然后在此基礎(chǔ)上公司又采取了何種行為和措施。盡管這種“不透明”在有些時(shí)候是公司有意為之(比如涉及商業(yè)機(jī)密),但是,有些時(shí)候其來(lái)源是結(jié)構(gòu)性的,嵌入在大數(shù)據(jù)運(yùn)行的基礎(chǔ)設(shè)施之中。
按照布蘭農(nóng)的研究,在密蘇里州的堪薩斯城,政府一直使用大數(shù)據(jù)進(jìn)行治安和人員監(jiān)測(cè),這些自動(dòng)控制系統(tǒng)會(huì)針對(duì)被監(jiān)測(cè)對(duì)象的行為進(jìn)行數(shù)據(jù)收集,即被監(jiān)測(cè)對(duì)象在大數(shù)據(jù)上的呈現(xiàn)和表達(dá)。正如我們此前所討論的那樣,通過(guò)這一數(shù)據(jù)化的過(guò)程,被監(jiān)測(cè)對(duì)象在政府部門眼里具備了“可讀性”,這其實(shí)也增加了個(gè)體的脆弱性,由于個(gè)體的活動(dòng)被系統(tǒng)自動(dòng)收集并在數(shù)據(jù)集里呈現(xiàn)出來(lái),政府部門或者建制機(jī)關(guān)就有可能針對(duì)這種個(gè)體活動(dòng)展開控制。反過(guò)來(lái),如果一個(gè)個(gè)體的行為并沒(méi)有在監(jiān)測(cè)網(wǎng)絡(luò)里面被收集,那么,對(duì)該個(gè)體而言,這就意味著他在這個(gè)數(shù)據(jù)集里面不存在,這就構(gòu)成了“代表性偏低、不足或者缺失”的問(wèn)題,這通常會(huì)加深那些被邊緣化群體本就不可見(jiàn)或者能見(jiàn)度過(guò)低的歷史性問(wèn)題。所以,在數(shù)據(jù)收集的過(guò)程中,這個(gè)算法背后的指導(dǎo)意識(shí)形態(tài)是什么,所針對(duì)的地理區(qū)域范圍,用戶的基本信息,這些都必須加以考察,才能看到自動(dòng)控制的信息系統(tǒng)、數(shù)據(jù)生產(chǎn)機(jī)制是如何復(fù)制現(xiàn)實(shí)生活中的不平等。
“用戶畫像”背后所體現(xiàn)的“大數(shù)據(jù)鴻溝”,會(huì)圍繞著已有地理空間的階層區(qū)隔展開??八_斯城的東邊歷來(lái)犯罪頻發(fā),有著居高不下的刑事案件發(fā)生率。為了降低犯罪率,政府部門運(yùn)用社交網(wǎng)絡(luò)分析軟件來(lái)識(shí)別和定位那些最有可能在未來(lái)涉足刑事犯罪的人員。這樣的一份人員名單,包括線人提供的情報(bào)、交通站點(diǎn)、刑事犯罪記錄,算法會(huì)自動(dòng)在這些人員之間勾畫出他們的社交路線,放置在同一個(gè)社交網(wǎng)絡(luò)結(jié)構(gòu)中加以監(jiān)測(cè)。如此一來(lái),許多有社交往來(lái)的人員就會(huì)成為被重點(diǎn)監(jiān)測(cè)的對(duì)象,形成了一種“蛇鼠一窩便是有罪”(Guilt by Association)的局面。這樣一種預(yù)防性的分析技術(shù),讓個(gè)體深深陷入刑事犯罪系統(tǒng)而不能自拔。
與此相對(duì)比,在堪薩斯城的市中心、商業(yè)發(fā)達(dá)地帶,這里有一個(gè)“智慧城市”項(xiàng)目,布置了多種感應(yīng)器相互支持的數(shù)據(jù)收集網(wǎng)絡(luò)系統(tǒng),形成了“萬(wàn)物互聯(lián)”。這些數(shù)據(jù)的目的是為了讓企業(yè)家能夠更好地進(jìn)行商業(yè)活動(dòng)比如,有研究者樂(lè)觀地認(rèn)為,大數(shù)據(jù)會(huì)成為基礎(chǔ)設(shè)施的一部分,就像水電煤一樣,成為我們?nèi)粘I钪胁豢苫蛉钡牟糠?,政府部門宣稱,他們將數(shù)據(jù)作為支點(diǎn),提高生活質(zhì)量,增加資本投資和民眾消費(fèi)。這里的用語(yǔ)給公眾形成了一種強(qiáng)烈的暗示,即人人都可以參與到一個(gè)新興的知識(shí)型經(jīng)濟(jì),并過(guò)上一種以技術(shù)創(chuàng)新為基礎(chǔ)的新興生活方式甘迪尼認(rèn)為,這樣一種心理暗示正是通過(guò)數(shù)字媒體上我們各種“被客體化的情感”表達(dá)來(lái)實(shí)現(xiàn)。通過(guò)科技和數(shù)據(jù),這個(gè)“智慧城市”項(xiàng)目承諾解決我們?cè)诔鞘猩钪兴龅降母鞣N難題,其方式就是自動(dòng)控制系統(tǒng)的反饋以及基于大數(shù)據(jù)的自動(dòng)化干預(yù)措施。
如果我們?cè)敿?xì)審視上述兩個(gè)項(xiàng)目,則不難發(fā)現(xiàn),這兩個(gè)項(xiàng)目的共同之處在于人們的行為都被量化為各種數(shù)據(jù),輸入到自動(dòng)控制系統(tǒng)里面,經(jīng)由算法加以分類、運(yùn)算。只不過(guò)一個(gè)項(xiàng)目的結(jié)果是用來(lái)監(jiān)測(cè)高犯罪可能性的人群,而另一個(gè)項(xiàng)目則是用來(lái)推動(dòng)營(yíng)銷和商業(yè)活動(dòng)。不管是哪一個(gè)項(xiàng)目,我們?cè)谄渲兴吹降亩疾皇腔钌?、自主的、?dú)一無(wú)二的、有創(chuàng)造力的公民個(gè)體,而是一系列可量化的數(shù)據(jù)標(biāo)簽。這些數(shù)據(jù)標(biāo)簽讓城市居民變成了一個(gè)可追溯、可預(yù)測(cè)的數(shù)據(jù)。在這個(gè)過(guò)程中,數(shù)據(jù)是如何收集和運(yùn)算的,個(gè)人的信息是如何被分類的,這些都不是個(gè)體能夠自主應(yīng)對(duì)和控制的。政府部門也沒(méi)有想過(guò)要打開這樣的“數(shù)據(jù)黑箱”,引導(dǎo)公民進(jìn)行討論,共同建立一套公平公正的數(shù)據(jù)收集、分析和存儲(chǔ)體系。從這個(gè)意義上講,我們的算法自我、數(shù)據(jù)自我壓倒了肉身自我、現(xiàn)實(shí)中的自我,成為個(gè)人身份的決定性因素,我們的主體建構(gòu)現(xiàn)在要交由一套不經(jīng)我們控制和檢驗(yàn)的自動(dòng)控制系統(tǒng)來(lái)進(jìn)行,我們生活在一個(gè)經(jīng)由“技術(shù)過(guò)濾的主體建構(gòu)”存在狀態(tài)之中。而且,這兩個(gè)項(xiàng)目正因?yàn)榛诓煌牡攸c(diǎn),把同樣的人類行為依據(jù)不同的地理位置信息而進(jìn)行不同的賦值和解讀。僅僅因?yàn)槲覀兩硖幠硞€(gè)地理位置,就把我們的行為強(qiáng)制性地往某個(gè)分類體系和身份標(biāo)簽上靠,這事實(shí)上構(gòu)成對(duì)特定人群的歧視。同一個(gè)城市中的居民,其在地理空間上的區(qū)隔也毫無(wú)二致地在數(shù)字世界、數(shù)據(jù)集合(即“數(shù)字孿生”)中得到了復(fù)制和體現(xiàn)。毫無(wú)疑問(wèn),這樣的一套分類和身份標(biāo)注體系,本身對(duì)人類而言是一種矮化和化約,去除了人類行為中的多意義性、復(fù)調(diào)性和多種闡釋的可能性,而且是簡(jiǎn)單粗暴地復(fù)制現(xiàn)實(shí)生活中的不平等、階層差異。這勢(shì)必會(huì)引發(fā)在房地產(chǎn)價(jià)值、商業(yè)投資、社會(huì)資本等一系列因素上的不平等的強(qiáng)化。
在這個(gè)過(guò)程中,還有不容忽視的一點(diǎn)就是這樣一種對(duì)現(xiàn)實(shí)生活中“城市鴻溝”(Urban Divide)簡(jiǎn)單粗暴的復(fù)制,還會(huì)強(qiáng)化那些經(jīng)由歷史遺留下來(lái)的歧視和不平等問(wèn)題。上述的兩個(gè)項(xiàng)目,不光是在階層差異的背景下展開,同時(shí),其背后也體現(xiàn)了深刻的種族對(duì)立和在區(qū)域上事實(shí)性的種族隔離問(wèn)題。有色人種居住的區(qū)域,通常也和居高不下的犯罪率、貧困率重疊在一起。通過(guò)對(duì)這兩個(gè)項(xiàng)目的對(duì)比,我們可以看到,大數(shù)據(jù)的權(quán)力是沿著社會(huì)地理學(xué)的維度展開。技術(shù)本身并不能做到它們所宣稱的那樣,可以“無(wú)偏見(jiàn)地對(duì)空間進(jìn)行測(cè)量”;恰恰相反,技術(shù)、數(shù)據(jù)和運(yùn)算是沿著現(xiàn)有以及歷史遺留下來(lái)的種族、階層差異而展開,往往是強(qiáng)化了社會(huì)結(jié)構(gòu)中既有的歧視和不平等。
(二)算法分析:被隱藏的歷史偏見(jiàn)
前文的討論表明,將用戶進(jìn)行分門別類,以此為基礎(chǔ)而得出的所謂“原始數(shù)據(jù)”其實(shí)并不“原始”(Raw),相反,其總是嵌入在各種社會(huì)-技術(shù)的語(yǔ)境之中,這些數(shù)據(jù)本身也會(huì)攜帶著生產(chǎn)這些數(shù)據(jù)的那些結(jié)構(gòu)之中存在的各種等級(jí)、不平等、偏見(jiàn)和歧視。有時(shí)候,這些偏見(jiàn)和歧視是通過(guò)一些“未意圖的后果”(Unintended Consequences)而體現(xiàn)出來(lái)。我們首先可以看“目標(biāo)變量”(Target Variables)的創(chuàng)建過(guò)程和分類標(biāo)簽是如何被定義的。在分類上,總有一些信息是受到重視的,而另外一些信息則是被忽略或不受待見(jiàn)。因此,對(duì)目標(biāo)變量和分類標(biāo)簽的定義,會(huì)直接決定數(shù)據(jù)挖掘的結(jié)果以何種面貌呈現(xiàn)出來(lái)。如果以這樣的數(shù)據(jù)為基礎(chǔ)進(jìn)行分析,那么,分析結(jié)果也會(huì)將上述的不平等、偏見(jiàn)和歧視原封不動(dòng)地保留下來(lái)。更加令人擔(dān)心的是,這種分析結(jié)果做出來(lái)之后,往往宣稱自己是“客觀、中立、公正、不偏不倚”的,這樣一種被數(shù)據(jù)構(gòu)建出來(lái)的新現(xiàn)實(shí),實(shí)質(zhì)上掩蓋了數(shù)據(jù)生產(chǎn)和分析背后所隱藏的不平等、偏見(jiàn)和歧視??藙诟5聦⑦@種現(xiàn)象稱為“數(shù)據(jù)原教旨主義”(Data Fundamentalism),即認(rèn)為海量數(shù)據(jù)集和預(yù)測(cè)分析技術(shù)反映的都是客觀事實(shí)。
大數(shù)據(jù)的一個(gè)工作過(guò)程就是導(dǎo)入大量的數(shù)據(jù)來(lái)訓(xùn)練程序。工程師會(huì)開發(fā)各種機(jī)器學(xué)習(xí)的算法,這些算法在發(fā)展過(guò)程中需要用海量的數(shù)據(jù)來(lái)訓(xùn)練自己的模型,從中學(xué)習(xí),以便按照某種特定的方式來(lái)處理數(shù)據(jù)??梢韵胂蟮玫?,如果模型所使用的數(shù)據(jù)本身就是帶有各種偏見(jiàn)、偏好和歧視,那么,機(jī)器學(xué)習(xí)算法輸出的結(jié)果也會(huì)相應(yīng)地?cái)y帶這些數(shù)據(jù)之中所包含的“偏見(jiàn)基因”。數(shù)據(jù)本身無(wú)法獨(dú)立于生產(chǎn)該數(shù)據(jù)的社會(huì)系統(tǒng)而存在,我們社會(huì)中各種不平等也會(huì)進(jìn)入到數(shù)據(jù)結(jié)果之中。比如在美國(guó),我們?nèi)绻褂矛F(xiàn)有的逮捕數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的犯罪率,那么,這有可能會(huì)強(qiáng)化一些種族偏見(jiàn),因?yàn)榉且崦绹?guó)人街區(qū)的逮捕率會(huì)高于其他街區(qū),這基本上是強(qiáng)化了現(xiàn)有體系里面的種族偏見(jiàn)。因此,在用海量數(shù)據(jù)訓(xùn)練算法、開展機(jī)器學(xué)習(xí)的過(guò)程中,也容易出現(xiàn)結(jié)果上的偏見(jiàn),導(dǎo)致統(tǒng)計(jì)學(xué)上對(duì)特定人群的歧視。
其次,分析特性的選擇過(guò)程。算法在對(duì)大數(shù)據(jù)進(jìn)行分析的時(shí)候,需要對(duì)一些邊緣化組別所包含的數(shù)據(jù)差異進(jìn)行考量,如果沒(méi)有這些考量,那就會(huì)導(dǎo)致這些組別被排除在結(jié)果之外,從而造成系統(tǒng)性的偏差和偏見(jiàn)。有些時(shí)候,人們?cè)谔幚泶髷?shù)據(jù)的過(guò)程中,還會(huì)使用到“代理變量”(Proxy Variables),這些“代理變量”要么無(wú)法準(zhǔn)確地代表目標(biāo)變量,要么無(wú)法考慮到目標(biāo)變量背后所包含的歷史遺留下來(lái)的偏見(jiàn)問(wèn)題。這種情況尤其在大數(shù)據(jù)分析中可以看到,因?yàn)榇髷?shù)據(jù)分析是全樣本分析,而非代表性樣本分析,因此,這些全樣本里面所包含的偏見(jiàn)及其背后所承載的歷史遺留問(wèn)題,有可能都會(huì)在大數(shù)據(jù)分析的結(jié)果中得以體現(xiàn)。
當(dāng)下,在我們的城市建設(shè)中,有越來(lái)越多的自動(dòng)設(shè)備、感應(yīng)器和聯(lián)網(wǎng)計(jì)算器,會(huì)自動(dòng)產(chǎn)生海量數(shù)據(jù)。這些技術(shù)依托數(shù)字平臺(tái)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,發(fā)揮著自主生產(chǎn)數(shù)據(jù)的作用。它們指揮著我們的社會(huì)運(yùn)作,并在我們的社會(huì)中建立秩序,讓越來(lái)越多的計(jì)量運(yùn)算在我們?nèi)沼枚恢那闆r下不停地運(yùn)轉(zhuǎn)。在我們看不見(jiàn)的地方,這些復(fù)雜的運(yùn)算不知疲倦地進(jìn)行著分類、標(biāo)準(zhǔn)化、標(biāo)記和索引,對(duì)象包括公民的權(quán)利、特權(quán)、誰(shuí)被包括進(jìn)來(lái)、誰(shuí)被排斥出去、誰(shuí)對(duì)誰(shuí)錯(cuò)的規(guī)范價(jià)值判斷,幾乎我們生活的各個(gè)領(lǐng)域都被涉及。這樣的技術(shù),布蘭農(nóng)稱之為“數(shù)據(jù)黑箱”。這些由私人企業(yè)操控的軟件和基礎(chǔ)設(shè)施,其實(shí)自動(dòng)攜帶了許多不為人知、個(gè)人形成的決斷和準(zhǔn)則。這些未經(jīng)檢驗(yàn)的個(gè)人決斷和準(zhǔn)則,成為編寫算法的基礎(chǔ)、規(guī)范算法運(yùn)作的意識(shí)形態(tài)、分配算法結(jié)果的指導(dǎo)原則。然后,這些數(shù)據(jù)帶著“客觀、不偏不倚”的背景光環(huán),又反過(guò)來(lái)影響到我們的世界觀和決策過(guò)程。我們經(jīng)常忘記拷問(wèn)的一點(diǎn),即算法既然是商業(yè)公司編寫的,那么,其背后肯定也要符合公司追逐私利、創(chuàng)造商業(yè)利潤(rùn)的邏輯和要求。因此,算法的背后往往隱藏著那些不為人知、未經(jīng)檢驗(yàn)的商業(yè)目的。我們需要深思其背后所隱藏的規(guī)則、意識(shí)形態(tài),正是這樣的規(guī)則或者意識(shí)形態(tài),主導(dǎo)了人們所編寫出來(lái)的算法,而這些算法所進(jìn)行的排序、分類和索引就是數(shù)據(jù)被結(jié)構(gòu)化的初始入口。
我們?cè)谑褂酶鞣N媒體、技術(shù)來(lái)進(jìn)行互動(dòng)的時(shí)候,這些技術(shù)設(shè)備之間也會(huì)進(jìn)行相互的溝通,這都會(huì)產(chǎn)生一系列的數(shù)據(jù),這些數(shù)據(jù)事實(shí)上構(gòu)成了人所共知的“信息公地”(Information Publics)。這些公地實(shí)際上又可以用來(lái)形成可行動(dòng)的知識(shí),大數(shù)據(jù)分析就是從這些公地之中挖掘與用戶有關(guān)的各種數(shù)據(jù)。但是這樣的一個(gè)分析過(guò)程,本身是不對(duì)稱的,用戶沒(méi)有能力也沒(méi)有權(quán)限去決定自己被賦予了什么身份、類別和范疇,而對(duì)以此為基礎(chǔ)的相關(guān)行為、決策,我們也毫不知情。因此,盡管我們共同擁有著一大片的“信息公地”,但是,這些公地作為數(shù)據(jù)富礦被公司和企業(yè)挖掘的時(shí)候,我們是無(wú)法控制這個(gè)過(guò)程的,從公地中挖掘出來(lái)的數(shù)據(jù)及其相應(yīng)的分析,我們并沒(méi)有發(fā)言權(quán)作者提出了“技術(shù)無(wú)意識(shí)”(Technological Unconscious)概念,即信息技術(shù)在不知不覺(jué)中型塑著我們的日常生活。。并且,在算法上,自動(dòng)控制系統(tǒng)建立起一套自我參照體系,完全不需要與外界的用戶進(jìn)行溝通和協(xié)商,而這種自我指涉的體系,傾向于加重、強(qiáng)化現(xiàn)有社會(huì)生活中的分類、分化、不平等和差距。
除了用于支持公共決策,分析處理的數(shù)據(jù)結(jié)果還可用于干預(yù)社會(huì)行動(dòng)。最直接的一個(gè)例子就是通過(guò)搜索引擎,實(shí)現(xiàn)對(duì)自殺行為的干預(yù)和預(yù)防?;ヂ?lián)網(wǎng)在自殺預(yù)防上所起到的作用,在最近十年也得到越來(lái)越多學(xué)者的關(guān)注。搜索引擎在這方面發(fā)揮了急先鋒的作用,因?yàn)樵S多潛在需要幫助的人群,會(huì)首先通過(guò)搜索引擎尋找相關(guān)信息。如果能夠在這一時(shí)刻為這些群體提供足夠、有效的幫助信息,那么,許多自殺完全是可以預(yù)防的關(guān)于自殺是可預(yù)防的研究,。因此,在互聯(lián)網(wǎng)上,能夠在搜索引擎結(jié)果中設(shè)置及時(shí)、有效的信息提醒就顯得尤其重要。
在自殺預(yù)防上,作為全球第一大搜索引擎服務(wù)提供商,谷歌也有所動(dòng)作。在最初的時(shí)候,有一位谷歌雇員發(fā)現(xiàn),在搜索引擎結(jié)果中,很容易獲取與自殺相關(guān)、具有潛在危害性的信息(比如自殺方法)。這可能意味著進(jìn)行該搜索的用戶,正在面臨一場(chǎng)自殺危機(jī)。因此,谷歌在用戶搜索與自殺相關(guān)、具有潛在危害性的信息時(shí),就會(huì)在搜索結(jié)果上面提供自殺預(yù)防熱線電話,最初的版本包含了14個(gè)國(guó)家。這個(gè)功能上線之后,谷歌發(fā)現(xiàn)在美國(guó)撥打自殺預(yù)防熱線上升了9%。于是,谷歌決定將這一功能推廣至全球其他國(guó)家。谷歌還對(duì)自己的搜索引擎結(jié)果頁(yè)面進(jìn)行優(yōu)化,讓用戶能夠更好地獲取信息,預(yù)防自殺。后來(lái),谷歌又實(shí)施了一個(gè)“自殺預(yù)防結(jié)果”(Suicide-prevention Result),即那些預(yù)防自殺的搜索引擎結(jié)果會(huì)優(yōu)先置頂在結(jié)果顯示頁(yè)面上,包括線上和線下的自殺預(yù)防信息,比如,以國(guó)別分類的自殺預(yù)防熱線、聊天室、網(wǎng)站等。從表面上看,這是一個(gè)具備相當(dāng)社會(huì)公益和社會(huì)價(jià)值的項(xiàng)目,一旦用戶在搜索引擎上輸入與自殺相關(guān)的詞匯,搜索那些具有潛在危害性的信息,那么,谷歌的這一提醒功能就能在第一時(shí)間、在有潛在自殺傾向群體最需要的時(shí)刻,呈現(xiàn)在他們的搜索頁(yè)面最上端。谷歌的這些“自殺預(yù)防結(jié)果”,比起傳統(tǒng)的自殺干預(yù)措施,還有一些數(shù)字時(shí)代的優(yōu)勢(shì),比如,這些結(jié)果是自動(dòng)生成并貼合用戶的搜索關(guān)鍵詞,能夠更有針對(duì)性,其出現(xiàn)也更加及時(shí),尤其是用戶在面臨巨大認(rèn)知和情感危機(jī)的時(shí)刻。
但是,對(duì)于谷歌而言,這樣一個(gè)看上去具有巨大社會(huì)效益的項(xiàng)目,同樣會(huì)產(chǎn)生一些技術(shù)上和倫理上的兩難境地。一方面,自殺預(yù)防自然有其社會(huì)價(jià)值,谷歌也一直將其視為自己“有社會(huì)擔(dān)當(dāng)”、承擔(dān)企業(yè)社會(huì)責(zé)任的一個(gè)標(biāo)志;另一方面,這涉及到用戶隱私。如果要大規(guī)模地應(yīng)用和推廣這個(gè)服務(wù)、算法,那么,勢(shì)必會(huì)觸及許多地方性、保護(hù)個(gè)人隱私的法律法規(guī),這與谷歌自身的用戶數(shù)據(jù)隱私保護(hù)條款也多有抵牾,因?yàn)橛行У淖詺㈩A(yù)防和對(duì)算法的優(yōu)化,離不開對(duì)用戶數(shù)據(jù)的獲取和分析,即便法律法規(guī)或者谷歌的條款允許這么做,長(zhǎng)此以往,這一做法也會(huì)損害用戶對(duì)谷歌的信任。
對(duì)于谷歌而言,這一項(xiàng)目最大的挑戰(zhàn)還不是用戶的隱私權(quán)問(wèn)題,而是運(yùn)用不同語(yǔ)言導(dǎo)致算法輸出結(jié)果的顯著差異。此前有一個(gè)研究表明,在德語(yǔ)地區(qū),谷歌的“自殺預(yù)防結(jié)果”即便對(duì)于那些潛在需要幫助的個(gè)體而言,其顯示的頻率也不是非常高。研究人員設(shè)置了一個(gè)網(wǎng)上搜索行為的模型,動(dòng)用了1200個(gè)虛擬代理人,在搜索引擎上進(jìn)行操作。如果在谷歌搜索引擎里面輸入對(duì)自殺預(yù)防有幫助的信息(比如“如何克服自殺念頭”),那么,十次里面有一次會(huì)觸發(fā)谷歌的“自殺預(yù)防結(jié)果”(研究統(tǒng)計(jì)結(jié)果是11%);如果是輸入具有潛在危害性的關(guān)鍵詞(比如“最佳的自殺方法”),那么,四次里面有一次會(huì)觸發(fā)這個(gè)功能(統(tǒng)計(jì)結(jié)果是25%)。對(duì)于德國(guó)或者德語(yǔ)用戶而言,谷歌的“自殺預(yù)防結(jié)果”出現(xiàn)的比例偏低。
受這個(gè)研究的啟發(fā),在全球?qū)用?,有學(xué)者運(yùn)用了更多的虛擬代理人,對(duì)全球不同地區(qū)使用谷歌進(jìn)行自殺或者自殺預(yù)防的搜索進(jìn)行研究。學(xué)者發(fā)現(xiàn),谷歌的搜索引擎結(jié)果會(huì)隨著地區(qū)而呈現(xiàn)出一些差異,比如在澳大利亞、愛(ài)爾蘭、英國(guó)、美國(guó)這幾個(gè)國(guó)家,如果搜索與自殺相關(guān)、具有潛在危害性的信息,那么,會(huì)有92%的概率出現(xiàn)“自殺預(yù)防結(jié)果”。但是,在其他國(guó)家,比如日本、德國(guó)、巴西、韓國(guó)和印度,這個(gè)結(jié)果出現(xiàn)的概率就低得多,不到40%,其中印度最低,只有11%。如果輸入與自殺預(yù)防相關(guān)的求助信息,則美國(guó)和英國(guó)會(huì)有60%以上的概率出現(xiàn)“自殺預(yù)防結(jié)果”,德國(guó)最低,只有13%。顯然,谷歌的算法是把英語(yǔ)的搜索結(jié)果設(shè)置成與“自殺預(yù)防結(jié)果”相關(guān)的優(yōu)先語(yǔ)言或者默認(rèn)語(yǔ)言。這一發(fā)現(xiàn)也在研究者對(duì)同一個(gè)國(guó)家或地區(qū)的對(duì)照實(shí)驗(yàn)中得到證實(shí),在那些官方語(yǔ)言不止一種的國(guó)家(比如新加坡和印度),研究者發(fā)現(xiàn),使用英語(yǔ)搜索與自殺相關(guān)的信息,無(wú)論是具有潛在危害性信息還是求助信息,都會(huì)觸發(fā)“自殺預(yù)防結(jié)果”的顯示。但是在新加坡,用中文進(jìn)行搜索,或者在印度,用印地語(yǔ)和泰盧固語(yǔ)進(jìn)行搜索,則“自殺預(yù)防結(jié)果”顯示的幾率大大低于用英語(yǔ)搜索時(shí)顯示的幾率。這事實(shí)上造成全球不同區(qū)域、不同語(yǔ)言在搜索引擎結(jié)果上的不平等,這會(huì)導(dǎo)致全球在健康信息上的“數(shù)字鴻溝”。通過(guò)機(jī)器學(xué)習(xí)來(lái)提高的算法,本身就會(huì)產(chǎn)生國(guó)家、地區(qū)和語(yǔ)言之間的差異,經(jīng)由該算法而得出的結(jié)果,在缺乏人為介入的情況下,很難消除該算法分析結(jié)果中所蘊(yùn)含的差異,由此而導(dǎo)致的行動(dòng)干預(yù)也會(huì)呈現(xiàn)出相應(yīng)的不平等。
因此,當(dāng)我們準(zhǔn)備將大數(shù)據(jù)的結(jié)果應(yīng)用于行動(dòng)干預(yù)的時(shí)候,其實(shí)有必要事先對(duì)這些數(shù)據(jù)結(jié)果進(jìn)行一番檢視,把這個(gè)干預(yù)過(guò)程的黑箱打開。唯有如此,我們才能看到并理解技術(shù)本身所攜帶的不平等、偏見(jiàn)、歧視及其他不可欲的后果作者著重討論算法所具有的社會(huì)影響力。。正因?yàn)樗惴ㄌ幱诠姷囊暰€之外,人們對(duì)算法看不見(jiàn)、摸不著,因此,很難對(duì)那些運(yùn)用算法進(jìn)行決策的企業(yè)展開問(wèn)責(zé)。從算法偏見(jiàn)和數(shù)字不平等的批判研究來(lái)看,公司不見(jiàn)得有意編寫一些帶有歧視或者偏見(jiàn)的算法。只不過(guò)問(wèn)題的關(guān)鍵在于,在實(shí)施這些算法之后,一旦出現(xiàn)了歧視或者偏見(jiàn)的結(jié)果,公司卻常常沒(méi)有投入時(shí)間、人力、財(cái)力和資源來(lái)解決這些問(wèn)題。如果運(yùn)用算法比沒(méi)有算法的時(shí)候產(chǎn)生一些看得見(jiàn)摸得著的成果和效益,那么,公司就沒(méi)有動(dòng)力去進(jìn)一步的完善。比如,對(duì)于谷歌而言,在設(shè)置了“自殺預(yù)防結(jié)果”這一功能之后,在美國(guó),人們撥打全國(guó)自殺預(yù)防救助熱線的比率提高了,對(duì)于谷歌而言就已經(jīng)足夠了。要想讓谷歌在沒(méi)有商業(yè)回報(bào)的項(xiàng)目上投入更多的資源和成本,這也不太現(xiàn)實(shí)。
結(jié) 語(yǔ)
本文主要從數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用這三個(gè)環(huán)節(jié)來(lái)討論我們社會(huì)安排中與大數(shù)據(jù)相關(guān)的知識(shí)體系,其有可能會(huì)在不同的環(huán)節(jié)“埋伏”著相應(yīng)的正義與不正義的倫理議題。從“數(shù)據(jù)源頭”可以觀察到的“大數(shù)據(jù)鴻溝”,主要是沿著以下幾個(gè)維度展開:經(jīng)濟(jì)資源、技術(shù)設(shè)施、分析能力、行動(dòng)能力、組織化程度(被對(duì)象化的個(gè)體和手握各種資源的公司或者機(jī)構(gòu))。那些“數(shù)字素養(yǎng)”更高的群體一般都是更加年輕、教育水平更高、中產(chǎn)階級(jí),一個(gè)人的“信息或者數(shù)據(jù)慣習(xí)”(Information or Data Habitus)是與其階層、社會(huì)地位存在高度關(guān)聯(lián)的。很多時(shí)候,人們會(huì)認(rèn)為信息技術(shù)促進(jìn)了民主參與,不過(guò),對(duì)這些信息技術(shù)成果的享有和分配卻仍然是不平等的,媒體平臺(tái)其實(shí)還是復(fù)制了那些處于更高階層和社會(huì)地位的人的觀點(diǎn)。而且,這些擁有數(shù)字優(yōu)勢(shì)的群體,本身在現(xiàn)實(shí)生活中也處在優(yōu)勢(shì)的權(quán)力地位上,更加有可能對(duì)其他在數(shù)字上處于弱勢(shì)地位的群體施加影響。即便我們現(xiàn)在所歡呼的“用戶生產(chǎn)數(shù)據(jù)”(User-generated Data),本身也是嵌入在整個(gè)信息資本主義的框架之中。用戶記錄自己的身體健康數(shù)據(jù)、運(yùn)動(dòng)數(shù)據(jù)、網(wǎng)頁(yè)瀏覽、社交媒體上的互動(dòng),這些都創(chuàng)造了大量的內(nèi)容和數(shù)據(jù),這些用戶其實(shí)是參與了一定形式的無(wú)報(bào)酬數(shù)字勞動(dòng),公司管理、儲(chǔ)存這些內(nèi)容和數(shù)據(jù),對(duì)其進(jìn)行商業(yè)化處理,從中獲利。在這個(gè)過(guò)程中,用戶并不能對(duì)其生產(chǎn)的數(shù)據(jù)主張所有權(quán)和控制權(quán)。
在“大數(shù)據(jù)鴻溝”的背景下,考慮到在全球范圍內(nèi)不平等都是一個(gè)普遍的現(xiàn)象,有學(xué)者呼吁,要開展那些“促進(jìn)平等的數(shù)據(jù)倡議”(Pro-equity Data Initiatives,PEDIs),這些倡議旨在為那些以前“無(wú)數(shù)據(jù)歷史”(Historical Datalessness)的人群創(chuàng)造條件,讓他們可以進(jìn)入大數(shù)據(jù)的視野,在城市數(shù)據(jù)中獲得代表性,并且可以獲取和使用這些數(shù)據(jù)。這樣的一些倡議包括在社區(qū)里面布置無(wú)線網(wǎng)絡(luò)接入點(diǎn),讓數(shù)據(jù)能夠從這些低收入、居住環(huán)境欠佳的區(qū)域進(jìn)入自由流動(dòng),讓原本被邊緣化的人群獲得自己的數(shù)據(jù)、信息權(quán),創(chuàng)建數(shù)據(jù)集、數(shù)據(jù)庫(kù),進(jìn)行社區(qū)畫像,讓這些被邊緣化的社區(qū)同樣能夠進(jìn)入決策者的視野。
而且,有些國(guó)家和地區(qū)還出現(xiàn)了一個(gè)自下而上的“量化自我”(Quantified Self)運(yùn)動(dòng),參與者旨在主張自己對(duì)數(shù)據(jù)的所有權(quán),通過(guò)這種方式,“軟性地對(duì)抗”公司、企業(yè)和政府部門對(duì)大數(shù)據(jù)的壟斷。這場(chǎng)運(yùn)動(dòng)里面的參與者旨在奪回自己對(duì)數(shù)據(jù)的所有權(quán),并在數(shù)據(jù)收集和分析的過(guò)程中發(fā)揮積極主動(dòng)的作用,這樣參與者就不再被動(dòng)地被各種建制從自己身上收集、分析和應(yīng)用數(shù)據(jù)。反過(guò)來(lái),他們可以主動(dòng)參與針對(duì)自己的數(shù)據(jù)收集、分析和行為,在里面主動(dòng)地構(gòu)建與數(shù)據(jù)有關(guān)的意義和行為。也有學(xué)者討論我們?nèi)绾螛?gòu)建數(shù)據(jù)體系,從而促進(jìn)社區(qū)參與和公民賦權(quán)。隨著民眾“數(shù)字素養(yǎng)”的提高,我們也可以通過(guò)數(shù)據(jù)收集方式的創(chuàng)新,賦權(quán)民眾,這一過(guò)程被稱為“數(shù)據(jù)制造”(Data Making),與傳統(tǒng)數(shù)據(jù)收集方式相比,差異點(diǎn)主要在于個(gè)體不再只是被動(dòng)、等待被收集數(shù)據(jù)的對(duì)象,而是在適當(dāng)資源的支持下,成為積極主動(dòng)的數(shù)據(jù)生產(chǎn)者和消費(fèi)者,在大數(shù)據(jù)中發(fā)揮更多的主觀能動(dòng)性。
當(dāng)然,從世界體系的角度來(lái)看,我們也應(yīng)當(dāng)注意到與數(shù)據(jù)收集、處理和應(yīng)用相關(guān)的不正義議題,其不光會(huì)發(fā)生在一個(gè)國(guó)家、地區(qū)或者族群內(nèi)部,也會(huì)在國(guó)家與國(guó)家、地區(qū)與地區(qū)、全球南部與北部之間發(fā)生。為此,有學(xué)者呼吁,我們需要對(duì)全球南部地區(qū)、發(fā)展中國(guó)家和地區(qū)的大數(shù)據(jù)應(yīng)用有更多了解。在歐美國(guó)家被批判對(duì)待的數(shù)據(jù)收集和分析方式,有可能在發(fā)展中國(guó)家是作為賦權(quán)、發(fā)展目標(biāo)的形式而存在,會(huì)有不少的發(fā)展中國(guó)家視大數(shù)據(jù)為發(fā)展目標(biāo)和推動(dòng)本國(guó)、本地區(qū)發(fā)展的有力助手。這些認(rèn)識(shí)上和應(yīng)用上的差異,也需要進(jìn)行一個(gè)對(duì)比和分析,以防學(xué)者不自主地?cái)y帶“殖民主義”或“后殖民主義”的眼光,把全部北部和南部地區(qū)一視同仁、無(wú)差別地進(jìn)行對(duì)待和處理。如果不能從地方的語(yǔ)境中對(duì)大數(shù)據(jù)所可能產(chǎn)生的問(wèn)題進(jìn)行一個(gè)更為在地化的理解,那么,這就有可能復(fù)制這些議題從歐美傳輸?shù)桨l(fā)展中國(guó)家時(shí)所產(chǎn)生的殖民主義困境。當(dāng)然,這中間還有一個(gè)語(yǔ)言問(wèn)題,以算法和大數(shù)據(jù)為基礎(chǔ)的不平等其實(shí)還體現(xiàn)在網(wǎng)頁(yè)內(nèi)容上,因?yàn)檫@些內(nèi)容是以不同的語(yǔ)言作為載體的。因此,在信息的獲取上,不同國(guó)家和地區(qū)的用戶存在語(yǔ)言上的差異以及由這種差異而產(chǎn)生的數(shù)據(jù)應(yīng)用的“等級(jí)制”。我們?cè)谥贫ㄅc大數(shù)據(jù)相應(yīng)的發(fā)展政策時(shí),必須要充分考慮到不同地區(qū)和國(guó)家之間的差異??偠灾c大數(shù)據(jù)相關(guān)的不正義情形,需要學(xué)者進(jìn)行更多的研究和探討,唯有如此,我們才能在政策和實(shí)施層面推動(dòng)“大數(shù)據(jù)的平權(quán)”。
(責(zé)任編輯:彤 弓)
Algorithmic Injustice and Big Data Ethics
Lin Xi Guo Sujian
Abstract: Big data has begun having broad and far-reaching impacts on paradigms, methodologies, approaches and future developments in social science research. However, the algorithms-based big data during data collection, processing and application may encounter certain ethical issues of injustice, wherefrom the term “Algorithmic Injustice” is coined, referring to the scenario of inequity and inequality in possessing, using and distributing big data resources by individuals or social groups to such an extent that injustice will manifest itself along the dimensions of representativeness, user profile, policy support or social intervention. When data is being collected, processed or applied, the embedded algorithms may ignore or fail to detect the mechanism of exclusion/inclusion of certain groups in a population within a given region, resulting in a transfer of inequality from the society to big data. When such inequality-reproducing data is used as a basis for the making of public policies or decisions, it will further exacerbate the existing inequity in (re)distribution of big data resources among social groups. To solve these problems, there has emerged a proposition by scholars who argue for “pro-equity data initiatives”, alongside a bottom-up movement of “quantified self” in several states or regions. All these can be classified as conscious efforts to counteract the possible pitfalls of injustice as brought along by the algorithms in big data.
Keywords: Algorithmic Injustice; “The Big Data Divide”; “User Profile”; Algorithmic Analysis