韓軍徽
〔摘要〕 基于對近年來出現(xiàn)的大規(guī)模人類行為數(shù)據(jù)的共同興趣,社會(huì)科學(xué)家與計(jì)算科學(xué)家攜手開拓了計(jì)算社會(huì)科學(xué)這一新的研究領(lǐng)域。然而,學(xué)科背景與研究經(jīng)歷的不同導(dǎo)致兩者圍繞計(jì)算社會(huì)科學(xué)中因果解釋與預(yù)測的關(guān)系上演了一場“守舊”與“維新”的方法論之爭?!笆嘏f”的社會(huì)科學(xué)家認(rèn)為計(jì)算社會(huì)科學(xué)應(yīng)堅(jiān)持對因果解釋的追求,而不必將預(yù)測作為理論的評(píng)價(jià)標(biāo)準(zhǔn)。“維新”的計(jì)算科學(xué)家則認(rèn)為社會(huì)科學(xué)應(yīng)給予預(yù)測更多的重視,并提出通過對預(yù)測采取適當(dāng)廣義的理解,在計(jì)算社會(huì)科學(xué)中進(jìn)行預(yù)測是可能的。因果解釋與預(yù)測并非互不兼容,兩者實(shí)際上是互為補(bǔ)充、相互促進(jìn)的關(guān)系。未來計(jì)算社會(huì)科學(xué)的發(fā)展應(yīng)以解決實(shí)際問題為導(dǎo)向,在解決實(shí)際問題的過程中實(shí)現(xiàn)因果解釋與預(yù)測的結(jié)合。
〔關(guān)鍵詞〕 計(jì)算社會(huì)科學(xué),方法論,因果解釋,預(yù)測
〔中圖分類號(hào)〕C3?? ?〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1004-4175(2020)04-0011-07
一、研究緣起:計(jì)算社會(huì)科學(xué)中的社會(huì)科學(xué)家與計(jì)算科學(xué)家的兩大陣營
在過去的十余年中,隨著計(jì)算機(jī)、互聯(lián)網(wǎng)等信息技術(shù)越來越深地嵌入到人們的日常生活之中,越來越多的人類行為數(shù)據(jù)被記錄下來。同時(shí),計(jì)算機(jī)運(yùn)算速度的提高和算法的進(jìn)步使得人類有能力對這種海量數(shù)據(jù)進(jìn)行有效地分析。這種對關(guān)于人類行為的大規(guī)模數(shù)據(jù)的收集與分析能力的提高導(dǎo)致了計(jì)算社會(huì)科學(xué)的誕生 〔1 〕。作為一個(gè)跨學(xué)科的研究領(lǐng)域,計(jì)算社會(huì)科學(xué)的興起是近年來社會(huì)科學(xué)最為重要的發(fā)展動(dòng)向之一。
目前從事計(jì)算社會(huì)科學(xué)的研究者大致可以分為兩類,即社會(huì)科學(xué)家和計(jì)算科學(xué)家。其中,前者主要指在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)、管理學(xué)、心理學(xué)等領(lǐng)域從事量化社會(huì)科學(xué)研究的研究者,而后者主要指在計(jì)算機(jī)科學(xué)、信息科學(xué)、物理學(xué)等領(lǐng)域從事數(shù)據(jù)科學(xué)研究的研究者。在計(jì)算社會(huì)科學(xué)興起之前,兩者幾乎不存在交集。當(dāng)前,對大規(guī)模人類行為數(shù)據(jù)的共同興趣正在使兩者之間產(chǎn)生越來越多的合作。然而,截然不同的學(xué)科背景和研究經(jīng)歷使得社會(huì)科學(xué)家和計(jì)算科學(xué)家在研究方式上存在很大差異,這導(dǎo)致兩者在計(jì)算社會(huì)科學(xué)領(lǐng)域上演了一場“守舊”與“維新”的方法論之爭。本文將分析這場方法論之爭的焦點(diǎn)——社會(huì)科學(xué)中因果解釋與預(yù)測之間的關(guān)系,并探討計(jì)算社會(huì)科學(xué)的未來發(fā)展方向。
二、社會(huì)科學(xué)家面對計(jì)算科學(xué)沖擊的“守舊”
就從事計(jì)算社會(huì)科學(xué)研究的社會(huì)科學(xué)家而言,計(jì)算社會(huì)科學(xué)的興起在為社會(huì)科學(xué)研究帶來大規(guī)模人類行為數(shù)據(jù)和各種新穎的數(shù)據(jù)分析方法的同時(shí),也導(dǎo)致社會(huì)科學(xué)長期以來形成的研究傳統(tǒng)受到來自計(jì)算科學(xué)的沖擊。例如,前《連線》(Wired)雜志主編克里斯·安德森(Chris Anderson)認(rèn)為,數(shù)據(jù)泛濫使得傳統(tǒng)的科學(xué)方法不再適用,理論已經(jīng)終結(jié) 〔2 〕。他指出,傳統(tǒng)的科學(xué)研究尋求事物之間的因果關(guān)系,但在PB(Petabytes)數(shù)據(jù)時(shí)代,相關(guān)性已經(jīng)足夠。這種觀點(diǎn)很具有代表性,在社會(huì)科學(xué)界尤其是計(jì)算社會(huì)科學(xué)領(lǐng)域引起了極大的反響。面對這種來自計(jì)算科學(xué)的沖擊,社會(huì)科學(xué)家表現(xiàn)出了明顯的“守舊”。
(一)堅(jiān)持追求因果解釋
在安德森等人的觀點(diǎn)中,最根本的是認(rèn)為大數(shù)據(jù)的出現(xiàn)和數(shù)據(jù)分析能力的提高使我們可以滿足于相關(guān)關(guān)系,而放棄對因果關(guān)系的追求。但在社會(huì)科學(xué)家看來,計(jì)算社會(huì)科學(xué)仍應(yīng)追求因果解釋。例如,格拉默認(rèn)為,僅海量數(shù)據(jù)無法提供各種社會(huì)問題的答案,社會(huì)科學(xué)仍需以因果解釋為研究目標(biāo) 〔3 〕。之所以如此,原因在于社會(huì)科學(xué)和自然科學(xué)對因果解釋的理解存在很大差異。
在自然科學(xué)中,因果解釋以預(yù)測為評(píng)價(jià)標(biāo)準(zhǔn),甚至兩者幾乎是同義的。對此,亨普爾和奧本海默的闡述最為系統(tǒng) 〔4 〕。他們認(rèn)為,除非解釋項(xiàng)可以作為對被解釋項(xiàng)進(jìn)行預(yù)測的基礎(chǔ),否則這種解釋是不充分的。實(shí)際上,預(yù)測也是自然科學(xué)追求對自然現(xiàn)象進(jìn)行因果解釋的主要目的。但若僅以預(yù)測為目的,可靠的相關(guān)關(guān)系也可以起到同樣的作用。因此,在安德森等人看來,隨著大數(shù)據(jù)的出現(xiàn)和數(shù)據(jù)分析能力的提高,我們通過分析數(shù)據(jù)所獲得的相關(guān)關(guān)系的可靠性越來越高,預(yù)測能力也越來越強(qiáng)。正是在這種意義上,他們認(rèn)為相關(guān)關(guān)系已經(jīng)可以取代因果關(guān)系。
然而,社會(huì)科學(xué)對因果解釋的理解并非是亨普爾和奧本海默意義上的。社會(huì)科學(xué)家認(rèn)為,社會(huì)現(xiàn)象遠(yuǎn)比自然現(xiàn)象更為復(fù)雜,導(dǎo)致難以進(jìn)行有效地預(yù)測。因此,社會(huì)科學(xué)不應(yīng)將對社會(huì)現(xiàn)象的預(yù)測作為因果解釋的評(píng)價(jià)標(biāo)準(zhǔn)。例如,利伯森和林恩認(rèn)為社會(huì)科學(xué)應(yīng)更多地借鑒生物學(xué)而非物理學(xué)的理論和方法體系,預(yù)測不必作為評(píng)估理論的標(biāo)準(zhǔn) 〔5 〕。赫斯特羅姆認(rèn)為,對預(yù)測的關(guān)注反而會(huì)阻礙對因果解釋的探索 〔6 〕。因?yàn)閷?shí)際的社會(huì)現(xiàn)象往往包含多個(gè)機(jī)制,這些機(jī)制的作用可能會(huì)相互抵消,因此即使某種機(jī)制性解釋是正確的,它所預(yù)測的結(jié)果在實(shí)際的社會(huì)現(xiàn)象中也未必會(huì)出現(xiàn)。還有學(xué)者認(rèn)為追求預(yù)測將導(dǎo)致模型過于復(fù)雜,從而失去了可解釋性,此外我們也缺乏進(jìn)行預(yù)測所需的充足的數(shù)據(jù) 〔7 〕。
實(shí)際上,社會(huì)科學(xué)家對因果解釋的理解是伍德沃德意義上的。伍德沃德所建立的因果解釋的操控準(zhǔn)則要求因果解釋回答“如果事情本來不同“(What-if-Things-Had-Been-Different)的問題,即因果解釋應(yīng)能夠說明如果解釋項(xiàng)本來有所不同,被解釋項(xiàng)會(huì)有何種變化 〔8 〕11。在伍德沃德的因果理論中,解釋項(xiàng)的不同是通過干預(yù)實(shí)現(xiàn)的 〔9 〕。這種干預(yù)通常是一種理想的、無混淆的實(shí)驗(yàn)性操控,同時(shí)支持反事實(shí)假設(shè) 〔10 〕。這些都使得對實(shí)際社會(huì)現(xiàn)象的預(yù)測不必成為評(píng)估因果解釋的必要性標(biāo)準(zhǔn),也導(dǎo)致社會(huì)科學(xué)長期以來較少關(guān)注預(yù)測。正是基于對因果解釋的這種理解,社會(huì)科學(xué)家認(rèn)為計(jì)算社會(huì)科學(xué)研究仍應(yīng)追求因果解釋。
(二)吸收新的數(shù)據(jù)分析方法
在堅(jiān)持追求因果解釋的基礎(chǔ)之上,社會(huì)科學(xué)家試圖將當(dāng)前出現(xiàn)的大規(guī)模人類行為數(shù)據(jù)和各種新穎的數(shù)據(jù)分析方法“收編”入傳統(tǒng)社會(huì)科學(xué)的研究框架之中。大部分社會(huì)科學(xué)家將這種新型數(shù)據(jù)和分析方法視為社會(huì)科學(xué)數(shù)據(jù)來源的豐富和研究工具箱的拓展,認(rèn)為通過恰當(dāng)?shù)剡\(yùn)用將有助于對因果解釋的探索。他們認(rèn)為,大規(guī)模人類行為數(shù)據(jù)的獲取和數(shù)據(jù)分析能力的提高能夠在三個(gè)方面促進(jìn)社會(huì)科學(xué)對因果解釋的探索:第一,可以設(shè)計(jì)更好的實(shí)驗(yàn);第二,能夠在更精確的群體之間進(jìn)行更好的比較;第三,便于對之前難以觀察的行為進(jìn)行觀察 〔11 〕。這些也是目前從事計(jì)算社會(huì)科學(xué)研究的社會(huì)科學(xué)家主要的努力方向。
具體而言,第一,互聯(lián)網(wǎng)的普及使得社會(huì)科學(xué)中的實(shí)驗(yàn)研究可以通過網(wǎng)絡(luò)平臺(tái)進(jìn)行,產(chǎn)生了“虛擬實(shí)驗(yàn)室”(Virtual Laboratory)。與傳統(tǒng)實(shí)驗(yàn)室相比,虛擬實(shí)驗(yàn)室有一些突出的優(yōu)勢。例如,虛擬實(shí)驗(yàn)室更容易開展大規(guī)模實(shí)驗(yàn)、實(shí)驗(yàn)成本更低、實(shí)驗(yàn)設(shè)置更方便等等 〔12 〕。在利用虛擬實(shí)驗(yàn)室進(jìn)行的社會(huì)科學(xué)實(shí)驗(yàn)研究中,有些是通過已有的互聯(lián)網(wǎng)平臺(tái)進(jìn)行的。例如,邦德等人通過控制臉書用戶能否看到其已經(jīng)投票的好友的數(shù)量來檢驗(yàn)社會(huì)影響在投票率上的效果 〔13 〕。還有些是通過自己搭建網(wǎng)站進(jìn)行的,其中最著名的是薩爾甘尼克等人通過建立“音樂實(shí)驗(yàn)室”(Music Lab)網(wǎng)站對社會(huì)影響在音樂愛好中的作用進(jìn)行研究 〔14 〕。另外,以AMT(Amazon Mechanical Turk)為代表的眾包平臺(tái)也引起了社會(huì)科學(xué)家極大的興趣。眾包平臺(tái)實(shí)驗(yàn)與傳統(tǒng)的實(shí)驗(yàn)室實(shí)驗(yàn)不同的是,前者是通過網(wǎng)絡(luò)平臺(tái)發(fā)布實(shí)驗(yàn)任務(wù)、收集實(shí)驗(yàn)結(jié)果,而后者是將參與者召集到實(shí)驗(yàn)室中進(jìn)行實(shí)驗(yàn)。研究發(fā)現(xiàn),截至2015年基于AMT進(jìn)行實(shí)驗(yàn)的論文已超過1000篇 〔15 〕。
第二,當(dāng)實(shí)驗(yàn)不可行或者不道德時(shí),如何基于觀察數(shù)據(jù)進(jìn)行因果推斷成為社會(huì)科學(xué)家關(guān)注的重點(diǎn)。一般的做法是通過匹配將研究群體分為實(shí)驗(yàn)組和控制組進(jìn)行比較,要求兩組在實(shí)驗(yàn)要求的處理前盡可能相似。以往的觀察數(shù)據(jù)由于規(guī)模有限,進(jìn)行匹配后往往會(huì)導(dǎo)致子群體數(shù)據(jù)過少而無法進(jìn)行有效的因果推斷。當(dāng)前出現(xiàn)的大規(guī)模人類行為數(shù)據(jù)由于其巨大的體量,使得在匹配后的每個(gè)子群體都仍有足夠多的數(shù)據(jù)。例如,赫什利用數(shù)以百萬計(jì)的數(shù)據(jù)研究了9·11事件對受害者親屬與鄰居的影響 〔16 〕。
第三,間接的“痕跡性”數(shù)據(jù)可以提供可靠的信息。對于有些人類行為,傳統(tǒng)方法難以直接獲取準(zhǔn)確的觀察數(shù)據(jù)。此時(shí),由于當(dāng)前產(chǎn)生的大規(guī)模人類行為數(shù)據(jù)主要是間接的“痕跡性”數(shù)據(jù),反而可以提供一些相對可靠的信息。例如,人們的種族傾向或政治觀點(diǎn)等信息通常難以通過傳統(tǒng)的問卷調(diào)查、訪談等研究方法直接獲取。而利用谷歌搜索數(shù)據(jù),史蒂芬斯-大衛(wèi)德維茨在2008年美國總統(tǒng)大選期間研究了種族傾向?qū)ν镀边x擇的影響 〔17 〕。他發(fā)現(xiàn),人們所用的搜索詞中包含了大量關(guān)于種族傾向的信息,例如很多人用帶有種族意味的綽號(hào)和奧巴馬的名字一起進(jìn)行搜索。因此,通過算法設(shè)計(jì),他基于用戶對搜索詞的運(yùn)用得到了其種族傾向。
除了將大規(guī)模人類行為數(shù)據(jù)的獲取和數(shù)據(jù)分析能力的提高視為數(shù)據(jù)來源的豐富和研究工具的擴(kuò)展之外,社會(huì)科學(xué)家還試圖將海量數(shù)據(jù)分析所利用的“數(shù)據(jù)驅(qū)動(dòng)”(Data-driven)的研究方法與傳統(tǒng)社會(huì)科學(xué)“理論驅(qū)動(dòng)”(Theory-driven)的研究方法相結(jié)合。例如,一些社會(huì)科學(xué)家提出可以首先通過數(shù)據(jù)分析以數(shù)據(jù)驅(qū)動(dòng)的方式形成研究假設(shè),之后利用傳統(tǒng)社會(huì)科學(xué)理論驅(qū)動(dòng)的方式對假設(shè)進(jìn)行驗(yàn)證 〔18 〕。
(三)完善方法論基礎(chǔ)
當(dāng)前出現(xiàn)的大規(guī)模人類行為數(shù)據(jù)與傳統(tǒng)社會(huì)科學(xué)常用的調(diào)查數(shù)據(jù)在各方面都存在較大差異,這促使一些社會(huì)科學(xué)家深入挖掘其方法論蘊(yùn)涵,通過完善社會(huì)科學(xué)研究的方法論基礎(chǔ)來為計(jì)算社會(huì)科學(xué)研究提供方法論支撐。例如,邁克爾·梅西(Michael Macy)通過檢視傳統(tǒng)社會(huì)科學(xué)的方法論基礎(chǔ)認(rèn)為,伴隨著海量數(shù)據(jù)和強(qiáng)大計(jì)算能力及算法的非但不是理論的終結(jié),反而是因果探索新的開始 〔19 〕。
梅西指出,傳統(tǒng)社會(huì)科學(xué)研究中的調(diào)查數(shù)據(jù)通常被認(rèn)為是相互獨(dú)立的,這雖然有助于獲取有代表性的樣本且便于估計(jì)標(biāo)準(zhǔn)差等統(tǒng)計(jì)量,卻也造成樣本具有原子化的理論偏差。具體而言,這樣的調(diào)查數(shù)據(jù)一般包含調(diào)查對象的種族、性別、年齡、教育程度、職業(yè)、收入等屬性信息及其對某些問題的觀點(diǎn),但不包含調(diào)查對象的朋友、同事、家人等對這些問題的觀點(diǎn)。因此,研究者在分析調(diào)查對象觀點(diǎn)形成的原因時(shí)就只能將其與調(diào)查對象的屬性信息相關(guān)聯(lián)。而且研究表明 〔20 〕,這樣的關(guān)聯(lián)幾乎總能得到顯著的統(tǒng)計(jì)結(jié)果。也就是說,對于調(diào)查對象的任何觀點(diǎn),幾乎總能找到某個(gè)屬性信息與其顯著相關(guān)。另外,由于屬性信息一般沒有因果前項(xiàng)(Causal Priors,例如沒有因素決定一個(gè)人的性別,同時(shí)還影響其觀點(diǎn)),當(dāng)根據(jù)顯著性進(jìn)行屬性信息與觀點(diǎn)之間的因果推斷時(shí)避免了通常根據(jù)相關(guān)性進(jìn)行因果推斷可能出現(xiàn)的虛假因果性(Spurious Causation)。最后,基于屬性信息的因果推斷也是合理的。因?yàn)槿藗兯值挠^點(diǎn)確實(shí)與個(gè)人的性別、年齡等屬性信息有關(guān),而且用個(gè)人屬性信息解釋其所持觀點(diǎn)與啟蒙運(yùn)動(dòng)以來所建立的個(gè)人主義意識(shí)形態(tài)也是相契合的。簡言之,這種原子化的理論模式邏輯可靠、經(jīng)驗(yàn)合理,與啟蒙運(yùn)動(dòng)以來的個(gè)人主義意識(shí)形態(tài)相契合且在以調(diào)查為基礎(chǔ)的社會(huì)科學(xué)研究中有著堅(jiān)實(shí)的實(shí)證支撐。
但是,梅西認(rèn)為,由于社會(huì)網(wǎng)絡(luò)的自相關(guān)效應(yīng),這種原子化的因果解釋極有可能是虛假的。簡單來說,社會(huì)網(wǎng)絡(luò)的自相關(guān)效應(yīng)是指個(gè)人的觀點(diǎn)可能會(huì)受到其網(wǎng)絡(luò)鄰居的影響。傳統(tǒng)社會(huì)科學(xué)研究中的調(diào)查數(shù)據(jù)通常不包含調(diào)查對象網(wǎng)絡(luò)鄰居的信息,導(dǎo)致無法研究這種自相關(guān)效應(yīng)。而當(dāng)前所產(chǎn)生的大規(guī)模人類行為數(shù)據(jù)主要就是關(guān)系型數(shù)據(jù),可以通過網(wǎng)絡(luò)分析建立關(guān)系型理論。與之前的社會(huì)網(wǎng)絡(luò)分析集中于邊界明確的小群體不同,海量數(shù)據(jù)的獲取使大規(guī)模的網(wǎng)絡(luò)分析成為可能 〔21 〕。梅西同樣注意到虛擬實(shí)驗(yàn)室的出現(xiàn)對社會(huì)科學(xué)研究的重要作用。他認(rèn)為,基于觀察數(shù)據(jù)進(jìn)行因果推斷具有內(nèi)在的局限性,海量數(shù)據(jù)也不例外,而建立因果解釋的黃金法則是隨機(jī)實(shí)驗(yàn)。在傳統(tǒng)的社會(huì)科學(xué)實(shí)驗(yàn)研究中,實(shí)驗(yàn)參與者一般較少,且主要是大學(xué)在校學(xué)生,將基于這些參與者的實(shí)驗(yàn)結(jié)果推廣到更大的人類群體中時(shí)會(huì)面臨嚴(yán)重的外部有效性問題。而臉書、AMT等虛擬實(shí)驗(yàn)室的出現(xiàn)使得研究者可以基于數(shù)量更多、異質(zhì)性更強(qiáng)的研究者進(jìn)行實(shí)驗(yàn),從而有效地提高實(shí)驗(yàn)發(fā)現(xiàn)的外部有效性。因此,梅西認(rèn)為海量的關(guān)系型數(shù)據(jù)的產(chǎn)生和虛擬實(shí)驗(yàn)室的出現(xiàn)將使社會(huì)科學(xué)中的因果探索進(jìn)入一個(gè)新的階段。
三、計(jì)算科學(xué)家面對社會(huì)科學(xué)傳統(tǒng)的“維新”
如前所述,從事計(jì)算社會(huì)科學(xué)研究的計(jì)算科學(xué)家大多是在計(jì)算機(jī)科學(xué)、信息科學(xué)、物理學(xué)等領(lǐng)域從事數(shù)據(jù)科學(xué)研究的研究者,他們從事計(jì)算社會(huì)科學(xué)研究主要是因?yàn)閷Ξ?dāng)前產(chǎn)生的大規(guī)模人類行為數(shù)據(jù)具有濃厚的興趣 〔22 〕。對這種數(shù)據(jù)的研究要求計(jì)算科學(xué)家必須形成對數(shù)據(jù)所反映的社會(huì)現(xiàn)象的理解,而這以往是社會(huì)科學(xué)家的研究領(lǐng)域。然而,由于學(xué)科背景和研究經(jīng)歷的差異,很多計(jì)算科學(xué)家對社會(huì)科學(xué)傳統(tǒng)并不認(rèn)同。由此,一些計(jì)算科學(xué)家呼吁在計(jì)算社會(huì)科學(xué)中對社會(huì)科學(xué)傳統(tǒng)進(jìn)行“維新”。
(一)強(qiáng)調(diào)預(yù)測的重要性
由于計(jì)算科學(xué)家主要在自然科學(xué)領(lǐng)域接受學(xué)術(shù)訓(xùn)練和從事學(xué)術(shù)研究,其對因果解釋的理解是亨普爾和奧本海默意義上的,即認(rèn)為因果解釋應(yīng)以預(yù)測為評(píng)價(jià)標(biāo)準(zhǔn)。此外,計(jì)算科學(xué)家的研究通常有比較明確的應(yīng)用指向,而較強(qiáng)的預(yù)測能力是應(yīng)用性的基礎(chǔ)。這導(dǎo)致與社會(huì)科學(xué)家相反,計(jì)算科學(xué)家非常強(qiáng)調(diào)預(yù)測的重要性而較少關(guān)注因果解釋。例如,金斯博格等人根據(jù)特定谷歌搜索詞搜索量的變化預(yù)測流感趨勢 〔23 〕;伊戈?duì)柕热死脧氖謾C(jī)中收集的位置、通訊等數(shù)據(jù)預(yù)測人們的朋友關(guān)系網(wǎng)絡(luò) 〔24 〕;科辛斯基等人基于臉書的點(diǎn)贊數(shù)據(jù)預(yù)測個(gè)人屬性信息,如性取向、種族、宗教和政治傾向等 〔25 〕。
與前述安德森的觀點(diǎn)類似,他們認(rèn)為,既然社會(huì)現(xiàn)象并不穩(wěn)定,以往的因果模型又都是一種粗略的近似,那么與其費(fèi)力建立預(yù)測效果很差且可能隨著概念漂移而變得更差的因果模型,我們?yōu)槭裁床焕每梢垣@得的數(shù)據(jù)建立具有最佳預(yù)測效果的模型并定期更新呢? 〔22 〕他們認(rèn)同社會(huì)科學(xué)家的觀點(diǎn),即我們所觀察到的社會(huì)現(xiàn)象背后必然有某種因果機(jī)制。但是,他們認(rèn)為通常很難從觀察數(shù)據(jù)中得到因果機(jī)制。另外,與自然科學(xué)中包括了所有相關(guān)變量的完全模型不同,社會(huì)科學(xué)中的因果模型通常只是包括了部分相關(guān)變量的不完全模型。這除了導(dǎo)致社會(huì)科學(xué)中的因果模型一般預(yù)測效果較差之外,還經(jīng)常出現(xiàn)不同的社會(huì)科學(xué)家根據(jù)同一組觀察數(shù)據(jù)得出完全不同的研究結(jié)論的情況。相反,如果模型有比較好的預(yù)測效果,那它們往往能夠?yàn)橐蚬剿髦该鞣较?。因此,他們認(rèn)為社會(huì)科學(xué)研究應(yīng)增加對預(yù)測的關(guān)注。
(二)敢于質(zhì)疑社會(huì)科學(xué)理論的可靠性
除了認(rèn)為社會(huì)科學(xué)研究應(yīng)對預(yù)測給予更多的重視之外,一些計(jì)算科學(xué)家還對社會(huì)科學(xué)理論的可靠性提出了質(zhì)疑。例如,鄧肯·沃茨(Duncan Watts)認(rèn)為,雖然社會(huì)科學(xué)家?guī)缀醵颊J(rèn)為他們所建立的理論是伍德沃德意義上的因果解釋,但其實(shí)際上經(jīng)常是一種亨普爾和奧本海默所稱的“移情解釋”(Empathetic Explanation) 〔26 〕。移情解釋經(jīng)常被誤認(rèn)為是因果解釋,但兩者存在本質(zhì)區(qū)別:因果解釋需要按照因果準(zhǔn)則進(jìn)行評(píng)估,而移情解釋主要基于其可理解性進(jìn)行評(píng)估,即其將解釋對象還原為人們所熟悉的想法或經(jīng)驗(yàn)的能力。沃茨認(rèn)為,之所以出現(xiàn)這種情況,是因?yàn)樯鐣?huì)科學(xué)家對常識(shí)的依賴遠(yuǎn)比他們意識(shí)到的要嚴(yán)重。在日常生活中,我們認(rèn)為個(gè)人或集體的行動(dòng)可以用相關(guān)行動(dòng)者的意圖、信仰、環(huán)境和機(jī)會(huì)來解釋,并用這種認(rèn)識(shí)來預(yù)期和理解別人的行為。社會(huì)科學(xué)中關(guān)于行動(dòng)的理論實(shí)際上是這種常識(shí)的變種,而關(guān)于行動(dòng)的理論又是社會(huì)科學(xué)的基礎(chǔ)性理論,導(dǎo)致社會(huì)科學(xué)中的很多理論在本質(zhì)上都是建立在這種常識(shí)的基礎(chǔ)之上。例如,理性行動(dòng)理論,布迪厄的場域理論、格羅斯的實(shí)用主義理論等。
社會(huì)科學(xué)理論對常識(shí)的這種依賴源于社會(huì)科學(xué)家構(gòu)建理論的方式。在日常生活中,當(dāng)預(yù)期別人的行為,甚至是我們自己在某種未來或假想的情形中的行為時(shí),我們采用的是一種心理模擬的方式,即在腦海里模擬對方,設(shè)想他們在那種情形下的行為。當(dāng)然,我們模擬的“對方”,實(shí)際上是經(jīng)過修正的“我們”,即我們根據(jù)自己的感知假設(shè)了對方對情形的理解,并且加入了我們認(rèn)為與情形相關(guān)的其他信息,如對方的意圖、信仰等。當(dāng)理解別人的行為時(shí)采用的則是一個(gè)相反的過程,即根據(jù)我們自己對情形的感知和對方的行為推測對方的意圖,并進(jìn)而將對方的行為合理化。在日常生活中,我們通常理所當(dāng)然地認(rèn)為通過心理模擬所建立的移情解釋的可理解性就等于因果性。社會(huì)科學(xué)家在構(gòu)建理論時(shí)采用的實(shí)際上同樣也是心理模擬的方式,只是更為正式。這就導(dǎo)致了社會(huì)科學(xué)家經(jīng)常建立的也是一種移情解釋,并根據(jù)其可理解性進(jìn)行評(píng)估。然而,可理解性并非因果性。我們建立的移情解釋所包含的因果關(guān)系經(jīng)常是錯(cuò)誤的,只是在日常生活中由于我們能夠很快地根據(jù)反饋進(jìn)行修正,導(dǎo)致通常意識(shí)不到這種錯(cuò)誤。但在社會(huì)科學(xué)中,當(dāng)把這種移情解釋誤認(rèn)為因果解釋時(shí),將造成社會(huì)科學(xué)理論的錯(cuò)誤。
(三)構(gòu)建社會(huì)科學(xué)方法論的“維新”方案
針對社會(huì)科學(xué)傳統(tǒng)的種種“問題”,計(jì)算科學(xué)家給出了自己的方法論“維新”方案。他們認(rèn)為,既然社會(huì)科學(xué)家試圖建立的伍德沃德意義上的因果解釋經(jīng)常淪為一種移情解釋,那我們是否可以參考亨普爾和奧本海默的因果準(zhǔn)則,以預(yù)測作為社會(huì)科學(xué)理論的評(píng)價(jià)標(biāo)準(zhǔn)。當(dāng)然,預(yù)測的準(zhǔn)確性并不能證明因果解釋的充分性,而只是一種必要性條件。沃茨指出,當(dāng)前大部分社會(huì)科學(xué)家拒絕將預(yù)測作為社會(huì)科學(xué)理論評(píng)價(jià)標(biāo)準(zhǔn)的主要原因在于對預(yù)測的狹義理解,即認(rèn)為預(yù)測必須是決定論意義上的、關(guān)于未來的以及針對特定的事件。他認(rèn)為,通過對預(yù)測采取適當(dāng)廣義的理解,社會(huì)科學(xué)家應(yīng)當(dāng)認(rèn)同有效的因果解釋可以作出預(yù)測。
具體而言,首先,預(yù)測不必是決定論意義上的,而可以僅是一種概率意義上的,即某因素X的出現(xiàn)增加或降低了事件Y出現(xiàn)的概率。這種概率意義上的預(yù)測當(dāng)前在物理學(xué)、計(jì)算機(jī)科學(xué)、人工智能等領(lǐng)域有著廣泛的應(yīng)用。其次,預(yù)測也不必是關(guān)于未來的。實(shí)際上,嚴(yán)格的關(guān)于未來的預(yù)測更準(zhǔn)確地說應(yīng)稱為“預(yù)報(bào)”(Forecasting),預(yù)報(bào)僅僅是預(yù)測的一種形式。預(yù)測其實(shí)可以更廣義地理解為“樣本外檢驗(yàn)”(Out-of-Sample Testing),即用于預(yù)測的數(shù)據(jù)與建立因果解釋的數(shù)據(jù)不能是同一組數(shù)據(jù)。這種做法在以預(yù)測為核心的計(jì)算機(jī)科學(xué)等領(lǐng)域幾乎是一種標(biāo)準(zhǔn)做法,即首先基于訓(xùn)練數(shù)據(jù)建立模型,然后利用測試數(shù)據(jù)檢驗(yàn)?zāi)P偷念A(yù)測效果。如此理解預(yù)測時(shí),除了未來的事件,過去以及現(xiàn)在的事件都可以作為預(yù)測的對象。最后,預(yù)測也不必針對特定的事件或結(jié)果,而是可以僅對事件或結(jié)果的某種分布或者模式進(jìn)行預(yù)測。例如,薩爾甘尼克等人在對音樂市場的研究中預(yù)測,音樂市場的不平等性隨著社會(huì)影響程度的增強(qiáng)而提高 〔14 〕。他們對音樂市場變化的模式進(jìn)行了預(yù)測,但并沒有預(yù)測具體哪首歌曲會(huì)流行。
一些計(jì)算科學(xué)家認(rèn)為,以預(yù)測作為理論的評(píng)價(jià)標(biāo)準(zhǔn)在計(jì)算社會(huì)科學(xué)中是可行的,但需要注意以下幾方面的問題 〔7 〕:
第一,建立統(tǒng)一的任務(wù)框架和預(yù)測標(biāo)準(zhǔn)。在以預(yù)測為核心的計(jì)算機(jī)科學(xué)、人工智能等領(lǐng)域通常有統(tǒng)一的量化標(biāo)準(zhǔn)可以對不同研究的預(yù)測效果進(jìn)行比較,而目前在社會(huì)科學(xué)領(lǐng)域所進(jìn)行的預(yù)測研究則無法進(jìn)行有效的比較。這種情況產(chǎn)生的主要原因在于,社會(huì)科學(xué)研究中通常存在所謂的“研究者自由度”(Researcher Degrees of Freedom)問題,即研究者需要做一系列的主觀選擇,包括研究任務(wù)、數(shù)據(jù)集、模型和性能指標(biāo)等。對于同一問題,研究者的選擇組合不同,研究結(jié)果也會(huì)完全不同。因此,研究者首先應(yīng)就研究任務(wù)、數(shù)據(jù)集、性能指標(biāo)等達(dá)成共識(shí),形成“共同任務(wù)框架”(Common Task Framework),并基于此框架對預(yù)測結(jié)果進(jìn)行評(píng)估和比較。
第二,區(qū)分不同社會(huì)現(xiàn)象的預(yù)測限度。與自然現(xiàn)象通??梢赃M(jìn)行非常精確的預(yù)測不同,人類行為的可預(yù)測性有很大的差別。例如,一項(xiàng)對5萬名移動(dòng)手機(jī)用戶的研究表明,在任意1小時(shí)的時(shí)間內(nèi),用戶有70%的時(shí)間在他們最常去的地點(diǎn) 〔27 〕。因此,當(dāng)我們作出“某人在他最常去的地點(diǎn)”的預(yù)測時(shí),可以得到平均70%的準(zhǔn)確率。但是另一方面,對于所謂的“黑天鵝”事件,我們無法用任何有意義的方式進(jìn)行預(yù)測。這就要求我們在評(píng)估特定預(yù)測模型的準(zhǔn)確性時(shí),不僅要參考已有的表現(xiàn)最好的模型,還要考慮可能預(yù)測的最大限度。因?yàn)槿绻A(yù)測效果不理想,既有可能是數(shù)據(jù)或模型的問題,也有可能是現(xiàn)象本身存在不可預(yù)測性 〔28 〕。
第三,兼顧預(yù)測準(zhǔn)確性與模型可解釋性。如前所述,社會(huì)科學(xué)家反對預(yù)測的主要原因之一就是認(rèn)為預(yù)測將導(dǎo)致模型過于復(fù)雜,從而失去了可解釋性。計(jì)算科學(xué)家認(rèn)為,對預(yù)測的強(qiáng)調(diào)確實(shí)會(huì)導(dǎo)致模型復(fù)雜性的提高,但并不意味著預(yù)測準(zhǔn)確性與模型的可解釋性相矛盾。機(jī)器學(xué)習(xí)領(lǐng)域的一些研究表明,我們可以在保證預(yù)測準(zhǔn)確性的前提下尋找更為簡單、可解釋性更高的模型。另外,對社會(huì)現(xiàn)象的“理解”本身就應(yīng)既包括從主觀上將其合理化,也包括對客觀事實(shí)進(jìn)行說明,即預(yù)測。
四、結(jié)語
基于對大規(guī)模人類行為數(shù)據(jù)的共同興趣,社會(huì)科學(xué)家與計(jì)算科學(xué)家攜手開拓了計(jì)算社會(huì)科學(xué)這一新的研究領(lǐng)域。然而,學(xué)科背景與研究經(jīng)歷的不同使得兩者的研究方式存在很大差異,這也導(dǎo)致社會(huì)科學(xué)家與計(jì)算科學(xué)家之間,圍繞計(jì)算社會(huì)科學(xué)中因果解釋與預(yù)測的關(guān)系上演了一場“守舊”與“維新”的方法論之爭。“守舊”的社會(huì)科學(xué)家認(rèn)為計(jì)算社會(huì)科學(xué)應(yīng)堅(jiān)持對因果解釋的追求,而不必將預(yù)測作為理論的評(píng)價(jià)標(biāo)準(zhǔn)。他們努力將當(dāng)前出現(xiàn)的新的數(shù)據(jù)與方法“收編”入傳統(tǒng)社會(huì)科學(xué)的研究框架之中,并希望通過對方法論基礎(chǔ)的完善為計(jì)算社會(huì)科學(xué)研究提供方法論支撐。“維新”的計(jì)算科學(xué)家則認(rèn)為社會(huì)科學(xué)應(yīng)給予預(yù)測更多的重視。他們還對社會(huì)科學(xué)理論的可靠性提出了質(zhì)疑,認(rèn)為社會(huì)科學(xué)家所宣稱的伍德沃德意義上的因果解釋在很多情況下其實(shí)是一種移情解釋。針對傳統(tǒng)社會(huì)科學(xué)的種種“問題”,一些計(jì)算科學(xué)家提出了“維新”方案,即對預(yù)測采取適當(dāng)廣義的理解,以使在計(jì)算社會(huì)科學(xué)中進(jìn)行預(yù)測成為可能。
社會(huì)科學(xué)家與計(jì)算科學(xué)家的觀點(diǎn)都有其合理性,但也都存在一定的局限。具體而言,單純追求理論的新穎性和啟發(fā)性造成了社會(huì)科學(xué)理論體系的混亂 〔29 〕。對于任一研究主題,幾乎都有若干理論,而且這些理論往往是互不兼容的。由于沒有基于預(yù)測的評(píng)價(jià)標(biāo)準(zhǔn),這些理論可以長期并行地存在下去。通過更多的預(yù)測,有助于改善當(dāng)前社會(huì)科學(xué)領(lǐng)域理論體系混亂的現(xiàn)狀,使得社會(huì)科學(xué)可以以一種累積的方式持續(xù)進(jìn)步。但與此同時(shí),社會(huì)現(xiàn)象內(nèi)在的復(fù)雜性和隨機(jī)性使其不可能像自然現(xiàn)象那樣進(jìn)行精確的預(yù)測。更為重要的是,當(dāng)前計(jì)算科學(xué)家所進(jìn)行的通常為基于相關(guān)關(guān)系的預(yù)測,預(yù)測結(jié)果穩(wěn)定性較差,可解釋性也較低。
筆者認(rèn)為,在計(jì)算社會(huì)科學(xué)中,因果解釋與預(yù)測并非是互不兼容的,兩者實(shí)際上是互為補(bǔ)充、相互促進(jìn)的關(guān)系。一方面,預(yù)測可以為因果解釋指明方向、提供評(píng)價(jià)標(biāo)準(zhǔn),從而有助于建立更為有效的因果解釋;另一方面,有效的因果解釋可以提高預(yù)測的準(zhǔn)確性和可解釋性,從而使基于預(yù)測對社會(huì)現(xiàn)象進(jìn)行的干預(yù)更為可靠。
在計(jì)算社會(huì)科學(xué)研究中,要克服因果解釋與預(yù)測各自的不足,充分發(fā)揮兩者的作用,應(yīng)以解決實(shí)際問題為導(dǎo)向,在解決實(shí)際問題的過程中將兩者結(jié)合起來。原因在于,要解決實(shí)際問題,既需要基于因果解釋實(shí)現(xiàn)對社會(huì)現(xiàn)象的理解,也需要基于預(yù)測實(shí)現(xiàn)對社會(huì)現(xiàn)象的干預(yù)。因此,以解決實(shí)際問題為導(dǎo)向?qū)ⅰ氨破取毖芯空邔⒁蚬忉尯皖A(yù)測結(jié)合起來。具體而言,為解決實(shí)際問題,因果解釋將不得不更多地以預(yù)測為重要目標(biāo)和評(píng)價(jià)標(biāo)準(zhǔn)。雖然很多社會(huì)現(xiàn)象由于其復(fù)雜性難以進(jìn)行有效的預(yù)測,但在計(jì)算社會(huì)科學(xué)中,隨著關(guān)于人類行為的大規(guī)模數(shù)據(jù)的出現(xiàn)和人類分析海量數(shù)據(jù)能力的提高,越來越多的社會(huì)現(xiàn)象正在不同程度上變得可以預(yù)測。只有與預(yù)測結(jié)果相符時(shí),因果解釋作為對社會(huì)現(xiàn)象的理解才具有說服力。同時(shí),解決實(shí)際問題也要求預(yù)測以因果解釋為基礎(chǔ)。當(dāng)前,在計(jì)算社會(huì)科學(xué)中,基于相關(guān)關(guān)系對社會(huì)現(xiàn)象進(jìn)行預(yù)測變得越來越可行,準(zhǔn)確性也越來越高。然而,解決實(shí)際問題意味著對社會(huì)現(xiàn)象的干預(yù),而如前所述,基于相關(guān)關(guān)系進(jìn)行的預(yù)測是不穩(wěn)定的,且可解釋性較低,難以作為對社會(huì)現(xiàn)象進(jìn)行干預(yù)的依據(jù)。因此,解決實(shí)際問題要求預(yù)測必須以因果解釋為基礎(chǔ),基于因果解釋指導(dǎo)預(yù)測模型的建立。
參考文獻(xiàn):
〔1〕Lazer D,Pentland A,Adamic L,et al.Computational Social Science〔J〕.Science,2009(01):721-723.
〔2〕Anderson C.The end of theory:The data deluge makes the scientific method obsolete〔J〕.Wired Magazine,2008(07):16-07.
〔3〕Grimmer J.We are all social scientists now:how big data,machine learning,and causal inference work together〔J〕.Political Science & Politics,2015(01):80-83.
〔4〕Hempel C G,Oppenheim P.Studies in the logic of explanation〔J〕.Philosophy of Science,1948(02):135-175.
〔5〕Lieberson S,Lynn F B.Barking up the wrong branch:scientific alternatives to the current model of sociological science〔J〕.Annual Review of Sociology,2002(01):1-19.
〔6〕Hedstr?m P,Ylikoski P.Causal mechanisms in the social sciences〔J〕.Annual Review of Sociology,2010(01):49-67.
〔7〕Hofman J M,Sharma A,Watts D J.Prediction and explanation in social systems〔J〕.Science,2017(6324):486-488.
〔8〕Woodward J.Making things happen:A theory of causal explanation〔M〕.NewYork and Oxford:Oxford University Press,2003.
〔9〕Woodward J.Interventionism and causal exclusion〔J〕.Philosophy and Phenomenological Research,2015(02):303-347.
〔10〕Woodward J.Explanation and invariance in the special sciences〔J〕.The British Journal for the Philosophy of Science,2000(02):197-254.
〔11〕Monroe B L,Pan J,Roberts M E.Sen M and Sinclair B.No! Formal theory,causal inference,and big data are not contradictory trends in political science〔J〕.Political Science & Politics,2015(01):71-74.
〔12〕Golder S A,Macy M W.Digital footprints:Opportunities and challenges for online social research〔J〕.Annual Review of Sociology,2014(01):129-152.
〔13〕Bond R M,F(xiàn)ariss C J,Jones J J,Kramer A D,Marlow C,Settle J E,F(xiàn)owler J H.A 61-million-person experiment in social influence and political mobilization〔J〕.Nature,2012(7415):295-298.
〔14〕Salganik M J,Dodds P S,Watts D J.Experimental study of inequality and unpredictability in an artificial cultural market〔J〕.Science,2006(5762):854-856.
〔15〕Bohannon J.Mechanical Turk upends social sciences〔J〕.Science,2016(6291):1263-1264.
〔16〕Hersh E D.Long-term effect of September 11 on the political behavior of victims families and neighbors〔J〕.Proceedings of the National Academy of Sciences,2013(52):20959-20963.
〔17〕Stephens-Davidowitz S.The cost of racial animus on a black candidate:Evidence using Google search data〔J〕.Journal of Public Economics,2014(118):26-40.
〔18〕Kitchin R.Big data,new epistemologies and paradigm shifts〔J〕.Big Data & Society,2014(01):1-12.
〔19〕Macy M W.An emerging trend:Is big data the end of theory?〔EB/OL〕. https://doi.org/10.1002/9781118900772.etrds0410.
〔20〕DellaPosta D,Shi Y,Macy M.Why Do liberals drink lattes?〔J〕.American Journal of Sociology,2015(05):1473-1511.
〔21〕Park P S,Blumenstock J E,Macy M W.The strength of long-range ties in population-scale social networks〔J〕.Science,2018(6241):1410-1413.
〔22〕Dhar V.Data science and prediction〔J〕.Communications of the ACM,2013(12):64-73.
〔23〕Ginsberg J,Mohebbi M H,Patel R S,Brammer L,Smolinski M S,Brilliant L.Detecting influenza epidemics using search engine query data〔J〕.Nature,2009(7232):1012-1014.
〔24〕Eagle N,Pentland A S,Lazer D.Inferring friendship network structure by using mobile phone data〔J〕.Proceedings of the National Academy of Sciences,2009(36):15274-15278.
〔25〕Kosinski M,Stillwell D,Graepel T.Private traits and attributes are predictable from digital records of human behavior〔J〕.Proceedings of the National Academy of Sciences,2013(15):5802-5805.
〔26〕Watts D J.Common sense and sociological explanations〔J〕.American Journal of Sociology,2014(02):313-351.
〔27〕Song C,Qu Z,Blumm N,Barabási A L.Limits of predictability in human mobility〔J〕.Science,2010(5968):1018-1021.
〔28〕Risi J,Sharma A,Shah R,Connelly M,Watts D J.Predicting history〔J〕.Nature Human Behaviour,2019(09):906-912.
〔29〕Watts D J.Should social science be more solution-oriented?〔J〕.Nature Human Behaviour,2017(01):0015.
責(zé)任編輯 蘇玉娟