凌昀 李倫
摘要:大數(shù)據(jù)和數(shù)據(jù)化促成了社會科學(xué)研究范式的轉(zhuǎn)變,催生了計算社會科學(xué)。計算社會科學(xué)具有超越傳統(tǒng)社會科學(xué)研究局限性的優(yōu)勢,但也加劇了傳統(tǒng)社會科學(xué)研究面臨的倫理問題,同時在大數(shù)據(jù)背景下產(chǎn)生了新的倫理問題。為了確保大數(shù)據(jù)時代人的自由和權(quán)利,計算社會科學(xué)的研究應(yīng)當(dāng)更加重視社會科學(xué)研究倫理。
關(guān)鍵詞:大數(shù)據(jù);計算社會科學(xué);科研倫理;社會科學(xué)研究范式
基金項目:國家社會科學(xué)基金重大項目“大數(shù)據(jù)環(huán)境下信息價值開發(fā)的倫理約束機(jī)制研究”(17ZDA023);國家社會科學(xué)基金一般項目“開源運動的開放共享倫理研究”(17BZX022)
中圖分類號:B089.3 ? ?文獻(xiàn)標(biāo)識碼:A ? ?文章編號:1003-854X(2020)09-0026-06
一、計算社會科學(xué):數(shù)據(jù)化驅(qū)動研究范式的轉(zhuǎn)變
如果把沒有經(jīng)過分析、沒有產(chǎn)生意義或價值的現(xiàn)象或行為稱為處于“自然狀態(tài)”或是“混沌狀態(tài)”的現(xiàn)象或行為,那么,把這種處于自然狀態(tài)或混沌狀態(tài)的現(xiàn)象和行為轉(zhuǎn)化成可量化分析的數(shù)據(jù)并由此產(chǎn)生新價值的過程就可稱為“數(shù)據(jù)化”(datafication)。我們無時無刻不在發(fā)生自然狀態(tài)的行為,例如上下班的路徑、其間使用的交通工具、順路去什么地方采購等,但這些僅僅是沒有經(jīng)過數(shù)據(jù)化、處于“自然狀態(tài)”的行為,或者即便我們將這些交通信息有意識地進(jìn)行一定的分析和規(guī)劃以提高自身的效率,這些信息也僅僅產(chǎn)生了小范圍的影響或是少量價值。得益于“數(shù)據(jù)化”,我們能夠清楚地認(rèn)識到處于自然狀態(tài)的行為或現(xiàn)象通過量化分析能夠產(chǎn)生多大的價值,例如對一個城市人口上下班的路徑、所使用的交通工具進(jìn)行分析就有利于對城市的道路交通進(jìn)行規(guī)劃,而對人流量、周邊住宅區(qū)域等問題進(jìn)行分析對于建造購物綜合體、農(nóng)貿(mào)綜合市場的選址而言都必不可少。由此可見,數(shù)據(jù)化能夠?qū)€人的日常生活和行為進(jìn)行量化,直接與行政管理和經(jīng)濟(jì)運轉(zhuǎn)產(chǎn)生關(guān)聯(lián)。
“數(shù)據(jù)化”是由肯尼斯·庫克耶(Kenneth Neil Cukier)和維克托·邁爾—舍恩伯格(Victor Mayer-Schenberger)于2013年提出的概念,特指將人類行為和社會現(xiàn)象轉(zhuǎn)化為計算機(jī)數(shù)據(jù)①。但是,數(shù)據(jù)化并不是近年來才出現(xiàn)的新趨勢,數(shù)據(jù)化的現(xiàn)象和思維方法早已有之,近代自然科學(xué)就是數(shù)據(jù)化的先驅(qū),即將自然現(xiàn)象或是經(jīng)驗現(xiàn)象還原為可量化分析的數(shù)據(jù),再利用對數(shù)據(jù)的歸納分析得出自然的規(guī)律和一般理論。而將數(shù)據(jù)化從單純的自然科學(xué)研究擴(kuò)展到更廣泛的社會問題研究同樣也不是現(xiàn)在才產(chǎn)生的,早在19世紀(jì),一些哲學(xué)及社會學(xué)學(xué)者就試圖利用實驗科學(xué)的方法進(jìn)行社會問題研究??椎略岢觥吧鐣锢韺W(xué)”的概念,認(rèn)為人是自然界的一部分,人類社會秩序是自然秩序的延伸,可以用物理學(xué)方法來研究人類社會。雖然,囿于當(dāng)時的技術(shù)條件,將實驗科學(xué)方法引入社會研究容易陷入機(jī)械論社會觀的困境,但這無疑是將數(shù)據(jù)化引入社會研究的先驅(qū),是計算社會科學(xué)誕生的直接思想源泉。
隨著計算機(jī)技術(shù)和大數(shù)據(jù)技術(shù)的不斷發(fā)展,現(xiàn)在的數(shù)據(jù)化能夠更加深度、全面、準(zhǔn)確地還原人類行為和社會生活的軌跡,從而不僅為社會科學(xué)研究的數(shù)據(jù)化帶來了新的生機(jī),也能從研究方法和技術(shù)的角度回避機(jī)械論的困境。正如庫克耶與舍恩伯格所說,(人類行為和社會現(xiàn)象的)數(shù)據(jù)化是新技術(shù)的發(fā)展促成的一種新趨勢②。大數(shù)據(jù)技術(shù)和計算機(jī)技術(shù)為社會數(shù)據(jù)化提供了新的工具,使得計算社會科學(xué)應(yīng)運而生。這個計算機(jī)科學(xué)與社會科學(xué)的新興的交叉學(xué)科,通過新的計算技術(shù)和方法來進(jìn)行社會模擬、建模、網(wǎng)絡(luò)分析和媒體分析等,以研究社會和人類行為的關(guān)系和互動,其研究領(lǐng)域涵蓋計算經(jīng)濟(jì)學(xué)、計算社會學(xué)、歷史動力學(xué)、文化學(xué)以及對社交和傳統(tǒng)媒體中內(nèi)容的自動分析等等。
“社會物理學(xué)”一詞目前仍在沿用,但其含義比最初提出時已有了很大的變化,指的是利用受物理所啟發(fā)的數(shù)學(xué)工具來理解人類群體的行為③,在現(xiàn)代商業(yè)行為中,也指用大數(shù)據(jù)分析社會現(xiàn)象。因此,“社會物理學(xué)”與“計算社會科學(xué)”在當(dāng)下的時代和技術(shù)背景下涵義基本等同。阿萊克斯·彭特蘭對于社會物理學(xué)的研究就明顯帶有新技術(shù)的特征,他引入“想法流”(idea flow)的概念,認(rèn)為社會物理學(xué)就是研究“想法流”的科學(xué)。在他看來,傳統(tǒng)的物理學(xué)旨在了解能量的流動與運動之間的數(shù)學(xué)關(guān)系,而社會物理學(xué)旨在了解想法和信息的流動與人類行為之間的數(shù)學(xué)關(guān)系④。新想法的流動對于理解社會至關(guān)重要,新想法的傳播和結(jié)合是行為轉(zhuǎn)變和創(chuàng)新的推動力,而想法如何實現(xiàn)流動、傳播和結(jié)合,都離不開數(shù)據(jù)化。
對比19世紀(jì)的社會物理學(xué),計算社會科學(xué)所采用的大數(shù)據(jù)技術(shù)彌補了前者的理論缺陷;與傳統(tǒng)社會科學(xué)相比,計算社會科學(xué)的不同之處則在于數(shù)據(jù)化驅(qū)動了研究范式的變革。大數(shù)據(jù)“正在引導(dǎo)一場計量方面的革命”⑤,對社會科學(xué)的研究范式,尤其定量研究中的種種研究方法和手段,都產(chǎn)生了巨大影響。
從研究方法來看,計算社會科學(xué)對傳統(tǒng)的調(diào)查分析、相關(guān)性分析、實驗等方式都有不同程度的改進(jìn)。在調(diào)查方面,計算社會科學(xué)不再局限于問卷或訪談等方式,而是通過大數(shù)據(jù)和算法來對龐大的數(shù)據(jù)進(jìn)行處理和分析。大數(shù)據(jù)打破了空間的限制,使取樣更為便捷和全面。更重要的是,計算社會科學(xué)擁有規(guī)避傳統(tǒng)問卷調(diào)查一直面臨的結(jié)果客觀性偏差的技術(shù)手段——直接利用人類日常生活中相應(yīng)行為的大數(shù)據(jù),顯然比本人填寫的問卷更加客觀。在實驗方面,傳統(tǒng)的實驗方法包括實驗室實驗和實地實驗,兩者有其不同的優(yōu)劣勢。實驗室實驗在變量的控制上更具優(yōu)勢,使相關(guān)性分析更為準(zhǔn)確,但是選取的實驗參與者可能并不那么具有代表性;實地實驗更能反映真實情況,卻不如實驗室那樣能準(zhǔn)確把握變量。為此,有些研究者會在研究中將兩者相結(jié)合,采取所謂的處于“實驗室—實地”連續(xù)體上的實驗。數(shù)據(jù)化則為這個二元的連續(xù)體添加了新的維度。馬修·薩爾加尼克(Matthew J. Salganik)在傳統(tǒng)的二元劃分的基礎(chǔ)上提出一種“模擬—數(shù)字”的實驗?zāi)J?。?shù)字實驗指的是利用數(shù)字基礎(chǔ)設(shè)施招募參與者、隨機(jī)分組、實施處理并測量結(jié)果的實驗,而模擬實驗則是在以上研究流程中完全不涉及數(shù)字基礎(chǔ)設(shè)施的實驗,許多實驗可能并不處于這兩極,而是處于其間的所謂“半數(shù)字”實驗?!皵?shù)字系統(tǒng)為實驗—實地連續(xù)體上的所有實驗都帶來了新的可能性”⑥,傳統(tǒng)的“實驗室—實地”二元就變成了“(半)數(shù)字實驗室—(半)數(shù)字實地”實驗。
從研究對象來看,數(shù)據(jù)爆炸式增長極大地豐富了社會科學(xué)的研究樣本,而機(jī)器學(xué)習(xí)、統(tǒng)計、社會網(wǎng)絡(luò)分析和自然語言處理技術(shù)的不斷升級,又強(qiáng)化了這一趨勢⑦。同時,由于數(shù)據(jù)更加完整和準(zhǔn)確,交互模型更加完善,新的交互關(guān)系也更容易被發(fā)現(xiàn),催生了更多新興交叉學(xué)科和領(lǐng)域,從而大大拓展了社會科學(xué)的研究對象。
然而,計算社會科學(xué)蓬勃發(fā)展的形勢也不免引起一系列擔(dān)憂。數(shù)據(jù)化往往會放大傳統(tǒng)社會科學(xué)研究中所面臨的倫理問題,或者使原本被極其關(guān)注的倫理問題不再受到重視,甚至完全被忽略。此外,數(shù)據(jù)化還催生了一些傳統(tǒng)社會科學(xué)研究中不涉及或少有涉及的新倫理問題。下面我們將探討三個在計算社會科學(xué)研究中可能或已出現(xiàn)的倫理問題,并透過這些顯見的倫理風(fēng)險探討普遍數(shù)據(jù)化可能遭遇的更為嚴(yán)重的境況。
二、個人數(shù)據(jù)權(quán)利問題
計算社會科學(xué)研究不僅會采用源于特定研究的數(shù)據(jù),而且會采用源于其他機(jī)構(gòu)日常管理和營運的數(shù)據(jù)⑧,而數(shù)據(jù)來源的混合則容易產(chǎn)生侵犯個人數(shù)據(jù)權(quán)利等問題。
個人數(shù)據(jù)權(quán)利是人的基本權(quán)利在數(shù)據(jù)領(lǐng)域內(nèi)的具體化。主張這一權(quán)利,使人能夠控制自身數(shù)據(jù),保障自由權(quán)、人格權(quán)和財產(chǎn)權(quán)等基本權(quán)利在數(shù)據(jù)領(lǐng)域內(nèi)不受到侵犯。與之相對的,還存在機(jī)構(gòu)數(shù)據(jù)權(quán),即機(jī)構(gòu)對于數(shù)據(jù)的采集和使用的權(quán)利。在計算社會科學(xué)的研究中,存在著個人數(shù)據(jù)權(quán)和科研機(jī)構(gòu)數(shù)據(jù)權(quán)相對立的情況,其爭端暴露了目前數(shù)據(jù)權(quán)屬不分明的現(xiàn)狀。傳統(tǒng)社會科學(xué)研究中的數(shù)據(jù)采集目的相對單一,即科研,而計算社會科學(xué)研究中所使用的數(shù)據(jù)則不限于科研數(shù)據(jù),還包括來自政府、金融機(jī)構(gòu)、商業(yè)機(jī)構(gòu)等用于管理和營運等采集目的的數(shù)據(jù)。這就產(chǎn)生了這樣一種情況:也許我們愿意授權(quán)給政府、金融或商業(yè)等機(jī)構(gòu)用于管理和營運目的使用我們的數(shù)據(jù),從而獲得這些機(jī)構(gòu)的服務(wù)或商品,但并不希望自己的數(shù)據(jù)被用于社會科學(xué)研究。
當(dāng)然,把管理和日常運行的數(shù)據(jù)用于研究目的并不是新現(xiàn)象,在臨床醫(yī)學(xué)領(lǐng)域早已有之。醫(yī)學(xué)研究者會利用臨床醫(yī)療數(shù)據(jù)進(jìn)行醫(yī)學(xué)科學(xué)研究,對新藥、新技術(shù)使用進(jìn)行后續(xù)跟蹤分析等。傳統(tǒng)社會科學(xué)研究也有利用已有的政府管理和企業(yè)營運數(shù)據(jù)進(jìn)行研究的情況。但是,計算社會科學(xué)把其中的倫理問題放大了。一方面,社會數(shù)據(jù)可以涵蓋更廣泛的數(shù)據(jù)類型和使用領(lǐng)域;另一方面,醫(yī)學(xué)研究也可能比社會科學(xué)研究更容易得到數(shù)據(jù)提供者的同意或默許同意。此外,數(shù)據(jù)的第三方授權(quán)使用,數(shù)據(jù)的外包處理,甚至是跨境流通等情況,使個人數(shù)據(jù)權(quán)利所面臨的風(fēng)險更為復(fù)雜多變,而個人數(shù)據(jù)權(quán)利的保障也更加困難。
一般來說,個人在機(jī)構(gòu)面前都處于弱勢,信息安全、數(shù)據(jù)泄露等會直接造成對個人基本權(quán)利的侵害。這種侵害可能是名譽性的,也可能會直接影響財產(chǎn)權(quán)和人的身心健康。盡管計算社會科學(xué)的研究者們都聲稱研究所用數(shù)據(jù)經(jīng)過了“匿名化”或者說是“脫敏”處理,但是這種“脫敏”效果可能并不盡如人意。由于人的信息被數(shù)個機(jī)構(gòu)進(jìn)行過收集,同一個人的相同或不同的數(shù)據(jù)可能同時存在于數(shù)個數(shù)據(jù)庫中,即使各個數(shù)據(jù)庫都沒有顯示敏感信息,但是將數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)分析就能夠暴露出敏感信息,這就是所謂的“再識別攻擊”。任何數(shù)據(jù)都有可能被再識別,并且所有的數(shù)據(jù)都可能是敏感的⑨。
這個問題看似陷入僵局,似乎只要存在數(shù)據(jù)的共享、傳輸,即使這種共享、傳輸是合規(guī)的,也同樣無法避免個人數(shù)據(jù)權(quán)利受到侵害。實際上,我們在面對這種倫理風(fēng)險時并非完全無能為力,創(chuàng)建并遵循一個動態(tài)的數(shù)據(jù)保護(hù)計劃,不僅能夠降低泄露數(shù)據(jù)的概率,而且能夠在數(shù)據(jù)泄露發(fā)生后降低傷害。隨著時間的推移,數(shù)據(jù)保護(hù)計劃的具體項目,包括能夠使用的加密形式都在改進(jìn)⑩。從另一個角度來說,如果對個人數(shù)據(jù)權(quán)利的絕對保護(hù)只能基于數(shù)據(jù)完全保密的話,人們自然會去權(quán)衡數(shù)據(jù)化下的研究帶來的利益和侵害。雖然我們會對風(fēng)險有所擔(dān)憂,但大多數(shù)人不一定就此將自己與數(shù)據(jù)世界或這個信息時代完全隔離起來。
馬修·薩爾加尼克從收益—風(fēng)險二元維度分析了數(shù)據(jù)使用和個人數(shù)據(jù)權(quán)利的保護(hù)。在一個收益—風(fēng)險體系中包括三種數(shù)據(jù)使用或數(shù)據(jù)保護(hù)的方式:非公開、保護(hù)性公開、無特定對象公開。非公開是一種極端的數(shù)據(jù)保護(hù)措施,完全不公開個人數(shù)據(jù)供他人使用,風(fēng)險最小且收益最小;無特定對象公開是一種極端的數(shù)據(jù)共享使用措施,所有人都可以使用經(jīng)過“脫敏”處理的數(shù)據(jù)(無論脫敏是否達(dá)到想要的保護(hù)效果),收益最大且風(fēng)險最大;介于兩者之間的就是保護(hù)性公開,也就是基于某種共識在達(dá)成共識的群體中進(jìn)行數(shù)據(jù)的共享使用,這就是所謂的數(shù)據(jù)保護(hù)計劃。雖然這種保護(hù)性公開仍然會遇到不少問題,或者說在不同的案例中會存在不同的問題,但這種根據(jù)不同的情境做出適應(yīng)性調(diào)整的、動態(tài)的、協(xié)商的模式可能是應(yīng)對目前個人數(shù)據(jù)權(quán)利和科研機(jī)構(gòu)數(shù)據(jù)權(quán)利對峙局面的良策。社會科學(xué)的研究是為了在不同的情境下促進(jìn)公共利益以及個人利益,如果我們完全禁錮個人數(shù)據(jù),將對社會科學(xué)的發(fā)展乃至個體和社會的發(fā)展都造成阻礙。保護(hù)性公開措施為在數(shù)據(jù)共享中平衡個人數(shù)據(jù)權(quán)利和機(jī)構(gòu)數(shù)據(jù)權(quán)利、個人權(quán)利和公共利益提出了一種可供選擇的方案。
三、知情同意和隱私權(quán)問題
隱私權(quán)問題是大數(shù)據(jù)時代全社會各領(lǐng)域都在關(guān)注的倫理問題,主要表現(xiàn)在數(shù)據(jù)的使用和個人信息保護(hù)的爭端上。把隱私權(quán)問題放入計算社會科學(xué)研究的情境下,還會涉及對知情同意的挑戰(zhàn)。
如前所述,計算社會科學(xué)能夠繞開傳統(tǒng)的問卷調(diào)查,而將被研究者的相關(guān)行為數(shù)據(jù)化,直接獲得研究所需的數(shù)據(jù)。傳統(tǒng)社會科學(xué)中基于知情同意的研究倫理在計算社會科學(xué)中正遭受嚴(yán)重挑戰(zhàn),計算社會科學(xué)中更為準(zhǔn)確而全面的數(shù)據(jù)可能正是以知情同意的缺失或隱私權(quán)的喪失作為代價而獲得的。
當(dāng)然,傳統(tǒng)的社會科學(xué)研究也并不會在任何實驗中都去征求所有相關(guān)方的知情同意,比如大多數(shù)研究就業(yè)歧視的案例中,會基于性別、種族等因素選取相應(yīng)的被研究者,然后征求這些人的知情同意,但是少有研究會去征求雇主在這個實驗過程中的知情同意,甚至美國法院也支持在實地調(diào)查中缺乏同意和使用欺騙來衡量歧視的行為。如果我們在類似的對歧視問題的研究中以一種征得雇主同意的方式進(jìn)行實驗設(shè)計和研究,那么被研究者反而會基于立場而做出偏頗的回答。同樣,某些針對敏感問題或某些揭露性的暗訪、臥底調(diào)查也不會征求知情同意。勞德·漢弗萊斯(Laud Humphreys)曾對圣路易斯城市公園公廁等公共場所里男性間普遍發(fā)生的、以即時滿足和不用負(fù)責(zé)為特點的性行為進(jìn)行社會學(xué)研究。這項研究完全沒有經(jīng)過知情同意,就是為了避免這些在社會主流空間中頗具名望的人在面對如此敏感和私密的問題時,自我和社會自我的割裂而導(dǎo)致的言行不一。也就是說,知情同意原則與社會科學(xué)的一些研究方法確實存在內(nèi)在沖突。
而現(xiàn)在的情況可能更加糟糕,在計算社會科學(xué)研究中,完全不征求實驗對象同意的情況可能會越來越多,即使是不需要暗訪或是臥底調(diào)查的問題,知情同意也常常完全起不到作用。例如,我們可以時常見到一些大型的互聯(lián)網(wǎng)公司下設(shè)的研究機(jī)構(gòu)做出的各類報告,其中使用的數(shù)據(jù)涉及其不同領(lǐng)域的下屬平臺,包括社交、購物、閱讀、金融服務(wù)等等。這些數(shù)據(jù)的使用僅僅是因為用戶選擇使用了這個平臺,但用戶用數(shù)據(jù)換取方便使用這個平臺的機(jī)會,并不表明同意將自己的數(shù)據(jù)用于研究。再如,用戶的數(shù)據(jù)常常在完全不知情的情況下被第一手采集者授權(quán)給第三方進(jìn)行使用。除了知情同意被過于忽視,數(shù)據(jù)權(quán)屬不明的現(xiàn)狀也給知情同意帶來了額外的障礙——知情同意中涉及了過多的相關(guān)方,而對象卻不明確。
在隱私權(quán)保護(hù)方面,傳統(tǒng)的社會科學(xué)研究就已經(jīng)存在隱私權(quán)與研究結(jié)果準(zhǔn)確性的內(nèi)在矛盾,在計算社會科學(xué)研究中,隱私權(quán)的保護(hù)則變得越來越困難。一方面隱私權(quán)的定義向來模糊且具有爭議,另一方面,以往的對于公共數(shù)據(jù)和私人數(shù)據(jù)的劃分對目前的隱私權(quán)保護(hù)來說顯然過于簡單了,許多問題并不能簡單地認(rèn)為是公共數(shù)據(jù)和私人數(shù)據(jù)的沖突帶來的,而是涉及了更加復(fù)雜的公共利益與各方利益的權(quán)衡。尼森鮑姆提出的“情境完整性”的分析方法給隱私權(quán)問題的討論提供了一種新的視角。
情境完整性針對的是特定情形下的信息流通規(guī)范,由三個要素構(gòu)成:角色(主體、發(fā)送者、接受者)、屬性(數(shù)據(jù)類型)和傳輸原則(數(shù)據(jù)流通限制)。在討論某種數(shù)據(jù)傳播和應(yīng)用是否侵犯了隱私權(quán)時,需從這三方面進(jìn)行考慮,而不是簡單地認(rèn)為數(shù)據(jù)應(yīng)當(dāng)完全共享或者共享即侵權(quán)。尼森鮑姆認(rèn)為,隱私權(quán)既不是保密權(quán),也不是控制權(quán),而是適當(dāng)流通個人信息的權(quán)利。盡管隱私權(quán)的界定還具有爭議,隨著時代和社會的變化,其在信息社會應(yīng)該會有不同于工業(yè)社會的內(nèi)涵。但是,如何在以一定程度的欺騙、隱瞞獲得更為客觀的研究結(jié)果與保障隱私權(quán)、知情同意之間取得平衡,始終是需要解決的問題。
四、算法偏倚問題
首先需要明確的是,社會科學(xué)研究中的偏倚現(xiàn)象是一直都存在的,即使在沒有充分?jǐn)?shù)據(jù)化的過去,當(dāng)受訪者了解了問卷或訪談所針對的問題以及研究的動機(jī),他們也有可能基于本人的立場而做出刻意夸大或者忽視的回答,從而導(dǎo)致整個研究的結(jié)論被放大或是小覷。計算社會科學(xué)顯然有彌補這一缺陷的優(yōu)勢,不過,來自技術(shù)層面的新的偏倚近年來已初露端倪,尤其在網(wǎng)絡(luò)購物平臺的數(shù)據(jù)分析應(yīng)用上。這種來自算法的偏倚不僅會對計算社會科學(xué)的研究結(jié)果帶來負(fù)面影響,更嚴(yán)重的是,一個有數(shù)據(jù)支撐的、似乎是客觀準(zhǔn)確的結(jié)論更容易成為政治、經(jīng)濟(jì)等領(lǐng)域公共政策制訂的基礎(chǔ),而基于算法偏倚的公共政策將對社會產(chǎn)生不可估量的負(fù)面影響。“所有決策活動對經(jīng)驗與直覺的依賴將逐漸減少,而對數(shù)據(jù)與分析的倚重將與日俱增?!?這種對于數(shù)據(jù)能夠帶來客觀結(jié)論從而更好地指導(dǎo)我們進(jìn)行決策的推崇,讓算法偏倚導(dǎo)致的后果更加容易被忽視。此外,傳統(tǒng)的社會科學(xué)研究中存在的偏倚往往通過對變量、取樣進(jìn)行控制而容易得到校正,但是,算法黑箱讓計算社會科學(xué)中的取樣和因果關(guān)系變得不再那么透明,從而導(dǎo)致研究結(jié)果存在的偏倚難以得到校正。
計算社會科學(xué)是如何產(chǎn)生并延續(xù)整個社會的固有偏倚或偏見的?這是機(jī)器學(xué)習(xí)必然導(dǎo)致的結(jié)果。機(jī)器學(xué)習(xí)是對過去的、已經(jīng)發(fā)生的數(shù)據(jù)的學(xué)習(xí),如果過去的數(shù)據(jù)是因為某種偏倚或偏見而形成的,那么以此為基礎(chǔ)的機(jī)器學(xué)習(xí)就是在延續(xù)這種已經(jīng)存在的偏倚或偏見。如果計算社會科學(xué)僅僅是對這些由偏倚或偏見產(chǎn)生的數(shù)據(jù)進(jìn)行分析并得出結(jié)論,那么由這樣的結(jié)論指導(dǎo)的實踐就會進(jìn)一步將偏倚或偏見變得根深蒂固且難以應(yīng)對。故而,比起自然科學(xué)或技術(shù)領(lǐng)域,機(jī)器學(xué)習(xí)在社會科學(xué)研究中的應(yīng)用應(yīng)當(dāng)尤為謹(jǐn)慎。漢娜·瓦拉赫(Hanna Wallach)就從目標(biāo)、模型以及數(shù)據(jù)三個方面,闡述了為什么機(jī)器學(xué)習(xí)在社會科學(xué)研究中尤為特殊。
從目標(biāo)角度來看,計算機(jī)科學(xué)家和社會科學(xué)家有其完全不同的目標(biāo)。計算機(jī)科學(xué)家注重預(yù)測,也就是用已經(jīng)觀察到的數(shù)據(jù)來推測丟失的或尚未觀察到的數(shù)據(jù);而社會科學(xué)家的目標(biāo)是解釋,也就是為觀察到的數(shù)據(jù)做出解釋,再把這種解釋與已有理論進(jìn)行比較或提出新理論,所以社會科學(xué)家的研究往往建立在一個清晰的可實驗的假設(shè)之上。從模型角度來看,計算機(jī)科學(xué)家和社會科學(xué)家的不同目標(biāo)會導(dǎo)致不同的建模方式?;陬A(yù)測目標(biāo)的任務(wù)更注重預(yù)測的準(zhǔn)確性而忽略因果性,因而模型結(jié)構(gòu)可不受限制,一個需要大量數(shù)據(jù)進(jìn)行訓(xùn)練的算法黑箱也是合理的;與之相對的解釋目標(biāo)則與因果關(guān)系密切相關(guān),觀察到的數(shù)據(jù)是對因果關(guān)系的佐證或是反對,因此模型必須是透明、可解釋的。也就是說,預(yù)測模型通常被用來代替人的解釋或推理過程,而解釋模型是為人的推理提供信息或指導(dǎo)。從數(shù)據(jù)角度而言,同樣基于目標(biāo)不同,計算機(jī)科學(xué)家和社會科學(xué)家會選取不同類型的數(shù)據(jù),計算機(jī)科學(xué)家會選取海量的、任何類型的數(shù)據(jù)用作任意預(yù)測目的,而社會科學(xué)家則基于具體問題來收集相對小規(guī)模的數(shù)據(jù)。
由此可見,基于不同的目標(biāo)及其衍生出的完全相反的建模方式,計算社會科學(xué)這一交叉學(xué)科可能比其他學(xué)科與計算機(jī)科學(xué)的交叉面臨更多爭議,這些爭議主要來自于倫理方面。也許這些倫理問題對于社會科學(xué)家而言并不陌生,或者說,倫理考量是社會科學(xué)研究工作中必不可少的環(huán)節(jié),但是對于計算機(jī)科學(xué)家來說,這可能是容易忽略的問題,是他們曾經(jīng)的工作中不必然會涉及到的。因此像計算社會科學(xué)這樣的跨學(xué)科研究在使用計算機(jī)方法的時候,必須謹(jǐn)慎考量倫理道德風(fēng)險。
總而言之,一方面,就像帕梅拉·麥考達(dá)克(Pamela McCorduck)所指出的,對于女性和少數(shù)群體而言,“我更傾向于一臺公正的電腦”。她認(rèn)為,在某些環(huán)境中,我們會更加傾向于自動法官和警察,而不需要人為的裁決。算法和機(jī)器學(xué)習(xí)對于社會科學(xué)研究消除偏倚或偏見是必要且有其優(yōu)越性的,它把人的主觀偏見從決策過程中剝離了出來。另一方面,就像漢娜·瓦拉赫所說的,計算社會科學(xué)不是計算機(jī)科學(xué)和社會數(shù)據(jù)的簡單疊加,機(jī)器學(xué)習(xí)對于計算社會科學(xué)而言并不是一勞永逸的方法,如果我們想要以一種負(fù)責(zé)任且合乎倫理的方式利用機(jī)器學(xué)習(xí)來理解社會現(xiàn)象,我們?nèi)匀恍枰祟惿鐣茖W(xué)學(xué)者的工作。
五、數(shù)據(jù)巨機(jī)器問題
在評價19世紀(jì)的社會物理學(xué)時,許多人認(rèn)為,當(dāng)時的社會物理學(xué)學(xué)者把社會視為一部機(jī)器,人的主觀能動性和人與社會的交互被忽視,社會的變遷僅僅是“外力”的結(jié)果,故而造成了當(dāng)時社會物理學(xué)理論的缺陷。隨著相關(guān)技術(shù)和學(xué)科水平的提高,數(shù)據(jù)化越來越能夠展示出人與人之間的差異性以及人與社會的相互影響,但是在這種理論缺陷得到彌補的同時,一種“數(shù)據(jù)巨機(jī)器”的可能性又展現(xiàn)在了我們眼前。
如前所述,機(jī)器學(xué)習(xí)可能會延續(xù)已有的偏倚或偏見,而當(dāng)這種帶有偏倚或偏見的理論被用于實踐和決策時,就有可能固化偏見,并使其變得更難以動搖。由此可以發(fā)現(xiàn),在計算社會科學(xué)中,雖然人與社會的交互作用能夠被發(fā)現(xiàn),但是研究本身作為一種實踐活動,其與社會的交互卻可能被忽視。這種由研究與社會的交互帶來的互相影響、互相支撐從而將謬誤忽視掉或合理化的現(xiàn)象,就是所謂的“操演性”(performativity)干擾。
所謂“操演性(或述行性)”,是指當(dāng)一個理論以使世界和理論更加符合為目的地改變著世界的時候,我們就說這個理論具有操演性。也就是說,計算社會科學(xué)研究不僅僅在解釋社會現(xiàn)象,同時也在改造社會使其發(fā)展與研究本身相符合。這種“操演性”在計算社會科學(xué)中的影響會比在傳統(tǒng)社會科學(xué)中的影響更大且難以發(fā)覺。例如亞馬遜AI招聘。亞馬遜的電腦模型通過對過去10年提交給該公司的簡歷進(jìn)行學(xué)習(xí),由此得出男性求職者適合電子商務(wù)行業(yè)的結(jié)論,以此來審查應(yīng)聘者,并向男性推送更多的此類應(yīng)聘廣告。這種通過機(jī)器學(xué)習(xí)得出的“男性比女性更適合電子商務(wù)行業(yè)”的結(jié)論就可能會通過招聘這一實踐行為的結(jié)果而得到固化,使這個行業(yè)真的成為男性主宰的行業(yè)。
同理,計算社會科學(xué)的發(fā)展對于“數(shù)據(jù)巨機(jī)器”的形成也可能會有這種操演性影響。正如前文所說,與傳統(tǒng)社會科學(xué)基于知情同意并以科研為目的來收集數(shù)據(jù)的研究方式不同,計算社會科學(xué)可以直接利用政府或是其他商業(yè)機(jī)構(gòu)用于日常管理以及提供服務(wù)的現(xiàn)成數(shù)據(jù)來進(jìn)行研究,那么整個世界都將可能成為一個泛化的實驗室,樣本和總體再無差別,甚至傳統(tǒng)的“實驗室—實地”二分的實驗?zāi)J皆谏鐣茖W(xué)領(lǐng)域都可能會被消解,關(guān)于人和社會的所有數(shù)據(jù)都可以成為計算社會科學(xué)的現(xiàn)成樣本,從而形成一個基于社會科學(xué)研究的“數(shù)據(jù)巨機(jī)器”。
此外,計算社會科學(xué)通過將問題進(jìn)行“理論構(gòu)念”使之能夠進(jìn)行定量分析,再將其與某些被數(shù)據(jù)化的行為或是現(xiàn)象聯(lián)系起來,從而使這些經(jīng)過數(shù)據(jù)化的數(shù)據(jù)能夠作為被研究的社會問題的證據(jù)。例如,信用值就是將信用這一抽象要素通過構(gòu)念變?yōu)橐幌盗心軌虮涣炕闹笜?biāo),比如是否按時償還貸款、是否有違法犯罪記錄、租賃是否合規(guī)等,然后依此將信用通過數(shù)據(jù)表現(xiàn)出來。這就導(dǎo)致了這樣的情況,如果我們?nèi)狈﹃P(guān)于被理論構(gòu)念的指標(biāo)的數(shù)據(jù),就可能難以構(gòu)建起我們的數(shù)字身份,從而被計算社會科學(xué)研究邊緣化,也無法獲得后續(xù)的應(yīng)用或服務(wù)。反之,如果想要在社會問題研究中占有一席之地,就必須將自己以某種方式數(shù)據(jù)化。也就是說,計算社會科學(xué)的發(fā)展要求全面的數(shù)據(jù)化以及數(shù)據(jù)的自由流通,而這就是數(shù)據(jù)主義的追求。
數(shù)據(jù)化從本體論和認(rèn)識論的角度全面影響人們對世界的認(rèn)識和把握,催生了數(shù)據(jù)主義的思潮。數(shù)據(jù)主義最初只是對大數(shù)據(jù)、數(shù)據(jù)化的哲學(xué)表達(dá),是大數(shù)據(jù)時代所產(chǎn)生的一種哲學(xué)或是理念,但是隨著數(shù)據(jù)化對人的日常生活決策和社會運行的影響不斷加深,其正在轉(zhuǎn)變?yōu)橐环N崇尚數(shù)據(jù)自由至上的思潮。正如赫拉利所說,“數(shù)據(jù)主義一開始也是一個中立的科學(xué)理論,但正逐漸成為要判別是非的宗教”。
一方面,在社會科學(xué)研究中,有著數(shù)據(jù)支撐的、客觀準(zhǔn)確的結(jié)論受到推崇,于是為了獲得這樣的結(jié)論,或者為了促進(jìn)學(xué)科發(fā)展和公共利益,個人的權(quán)利和自由似乎就變得無足輕重了。另一方面,受自身操演性影響,計算社會科學(xué)可能會以一種數(shù)據(jù)主義的方式改造世界,直接加速數(shù)據(jù)巨機(jī)器的形成,導(dǎo)致人成為只是可以被任意使用、流通的數(shù)據(jù)。也就是說,在數(shù)據(jù)化影響計算社會科學(xué)研究的同時,計算社會科學(xué)的研究方法、研究成果的應(yīng)用反過來鞏固了數(shù)據(jù)主義的地位,并可能生成數(shù)據(jù)巨機(jī)器。數(shù)據(jù)巨機(jī)器猶如“楚門的世界”:在楚門的世界,除了楚門,人人都是演員;在數(shù)據(jù)巨機(jī)器里,人人都是楚門,人人都是演員,無人是自己。目前,大數(shù)據(jù)能夠影響人的自主選擇已成現(xiàn)實,例如各平臺的大數(shù)據(jù)殺熟,劍橋分析公司對多國競選的操縱,亞馬遜AI招聘中的性別、種族歧視,等等。為了避免數(shù)據(jù)對人的自主行為的進(jìn)一步操控從而形成數(shù)據(jù)巨機(jī)器,避免人被數(shù)據(jù)技術(shù)所控制而成為技術(shù)所奴役的對象,淪為這個數(shù)據(jù)巨機(jī)器中的螺絲釘,計算社會科學(xué)研究應(yīng)當(dāng)重視自身可能涉及的倫理問題和倫理風(fēng)險,重視人在數(shù)據(jù)領(lǐng)域的權(quán)利和自由。作為解釋人類社會的學(xué)科,計算社會科學(xué)應(yīng)當(dāng)從一開始就自覺地?fù)?dān)負(fù)起這一責(zé)任。
注釋:
① Kenneth Cukier and Viktor Mayer-Schoenberger, The Rise of Big Data, Foreign Affairs, 2013, 92(3), pp.28-40.
② 維克托·邁爾—舍恩伯格、肯尼斯·庫克耶:《大數(shù)據(jù)時代:生活、工作與思維的大變革》,盛楊燕、周濤譯,浙江人民出版社2013年版,第123—124頁。
③ Gerard George, Martine R. Haas, Alex Pentland, From the Editors Big Data and Management, Academy of Management Journal, 2014, 57(2), pp.321-326.
④ 阿萊克斯·彭特蘭:《智慧社會:大數(shù)據(jù)與社會物理學(xué)》,汪小帆等譯,浙江人民出版社2015年版,第8頁。
⑤ 史蒂夫·洛爾:《大數(shù)據(jù)主義》,胡小銳、朱勝超譯,中信出版社集團(tuán)2015年版,第6、9頁。
⑥⑨⑩ 馬修·薩爾加尼克:《計算社會學(xué)》,趙紅梅、趙婷譯,中信出版集團(tuán)2019年版,第212、426、427、414、45頁。
⑦ W. Mason, J. Vaughan, H. Wallach, Computational Social Science and Social Computing, Machine Learning, 2014, 95(3), pp.257-260.
⑧ 盡管傳統(tǒng)的社會科學(xué)研究也可能采用其他機(jī)構(gòu)產(chǎn)生的日常數(shù)據(jù),但無論范圍和規(guī)模,都與計算社會科學(xué)研究不可同日而語。
這個案例已成為臭名昭著的社會科學(xué)研究倫理案例。
Helen Nissenbaum, Privacy in Context: Technology, Policy, and the Integrity of Social Life, Stanford Law Book, 2010, pp.67-89.
H. Wallach, Computational Social Science≠Computer Science+Social Data, Communications of the ACM, 2018, 61(3), pp.42-44.
Pamela McCorduck, Cli Cfe, Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence, A. K. Peters/CRC Press, 2004, p.356, pp.374-376.
李倫:《數(shù)據(jù)巨機(jī)器的“意識形態(tài)”——數(shù)據(jù)主義與基于權(quán)利的數(shù)據(jù)倫理》,《探索與爭鳴》2018年第5期。
尤瓦爾·赫拉利:《未來簡史》,林俊宏譯,中信出版集團(tuán)2017年版,第346頁。
作者簡介:凌昀,大連理工大學(xué)大數(shù)據(jù)與人工智能倫理法律與社會研究中心、人文與社會科學(xué)學(xué)部博士研究生,遼寧大連,116023;李倫,大連理工大學(xué)大數(shù)據(jù)與人工智能倫理法律與社會研究中心、人文與社會科學(xué)學(xué)部教授,遼寧大連,116023。
(責(zé)任編輯 ?胡 ?靜)