【關(guān)鍵詞】 計(jì)算社會(huì)科學(xué) 模仿 模擬 全數(shù)據(jù)計(jì)算 復(fù)雜決策【作者簡(jiǎn)介】 唐世平,復(fù)旦大學(xué)國際關(guān)系與公共事務(wù)學(xué)院教授,復(fù)旦大學(xué)復(fù)雜決策分析中心主任。
電子郵箱:twukong@fudan.edu.cn
自拉澤爾(David Lazer)等人在2009年《科學(xué)》雜志發(fā)表《計(jì)算社會(huì)科學(xué)》一文以來① ,計(jì)算社會(huì)科學(xué)(Computational Social Science)作為一個(gè)新興的交叉學(xué)科領(lǐng)域已經(jīng)在整個(gè)國際社會(huì)科學(xué)界引起了廣泛關(guān)注。① 但是,對(duì)于計(jì)算社會(huì)科學(xué)到底能為我們理解人類社會(huì)帶來怎樣的價(jià)值,以及如何推進(jìn)計(jì)算社會(huì)科學(xué)的進(jìn)步,學(xué)界仍存在相當(dāng)大的分歧。
一方面,“大數(shù)據(jù)學(xué)派”普遍認(rèn)為,只要有了大數(shù)據(jù),通過計(jì)算機(jī)的計(jì)算,特別是基于機(jī)器學(xué)習(xí)②(包括深度學(xué)習(xí))的計(jì)算,就有可能識(shí)別出人類社會(huì)中的眾多規(guī)律或至少是某些規(guī)律性模式(regular pattern),而這將為我們理解人類社會(huì)帶來翻天覆地的革命。③ 這一路徑的計(jì)算社會(huì)科學(xué)基本沒有從既有的社會(huì)科學(xué)成果中汲取太多的理論和實(shí)證積累。甚至可以說,這一路徑的計(jì)算社會(huì)科學(xué)的隱含目標(biāo)之一就是拋開既有的社會(huì)科學(xué),主要依賴數(shù)據(jù)規(guī)模、算法和算力來理解人類社會(huì)。另一方面,大部分傳統(tǒng)的社會(huì)科學(xué)家認(rèn)為,完全依賴大數(shù)據(jù)和計(jì)算并不能幫助人類理解某些重大經(jīng)典問題,比如革命、民主化、內(nèi)戰(zhàn)、國家重建、經(jīng)濟(jì)發(fā)展等等,因?yàn)檫@些問題根本就沒有很多數(shù)據(jù)。④當(dāng)然,諸如當(dāng)代社會(huì)中的不平等的根源及其后果這一類存在大規(guī)模數(shù)據(jù)的問題領(lǐng)域,基于大數(shù)據(jù)的計(jì)算社會(huì)科學(xué)還是可以帶來許多新的理解。
本文持一個(gè)大致的中間立場(chǎng)。一方面,本文認(rèn)為,通過大數(shù)據(jù)計(jì)算確實(shí)有可能識(shí)別出人類社會(huì)中的某些規(guī)律性模式。但這樣的規(guī)律性模式恐怕并不如我們想象的那么多,而且也不一定具有普遍意義,因?yàn)槿祟惿鐣?huì)一直都是一個(gè)在時(shí)空中演化的體系。同樣重要的是,模式識(shí)別本身還是描述,而不是解釋,因此識(shí)別出來的模式也不一定能夠?yàn)闆Q策,特別是為需要考慮可能的干預(yù)的決策提供太多的支持。另一方面,本文認(rèn)為,盡管基于大數(shù)據(jù)的計(jì)算社會(huì)科學(xué)可能對(duì)理解絕大部分重大經(jīng)典問題的因果關(guān)系幫助有限,但計(jì)算社會(huì)科學(xué)確實(shí)有可能給應(yīng)用社會(huì)科學(xué)特別是決策科學(xué)(decision sciences)中的科學(xué)決策,帶來巨大變革。
簡(jiǎn)單地說,計(jì)算社會(huì)科學(xué)與科學(xué)決策的結(jié)合,能夠讓國家和機(jī)構(gòu)對(duì)不同國家和地區(qū)的發(fā)展態(tài)勢(shì)有更加“及時(shí)的”(timely)但未必“實(shí)時(shí)的”(realtime)和精準(zhǔn)的(precise+accurate)預(yù)測(cè)和預(yù)警。可以想見,如果一個(gè)國家和機(jī)構(gòu)能夠?qū)χ卮笫录幸欢ǖ氖孪阮A(yù)測(cè)和預(yù)警,那么,這個(gè)國家和機(jī)構(gòu)至少可以規(guī)避重大損失。因此,將計(jì)算社會(huì)科學(xué)與科學(xué)決策緊密結(jié)合起來,將是世界各主要經(jīng)濟(jì)體在未來的重要競(jìng)爭(zhēng)領(lǐng)域之一,是國家綜合國力的一個(gè)重要的、甚至是核心的組成部分。
一、 計(jì)算社會(huì)科學(xué)與科學(xué)決策
計(jì)算社會(huì)科學(xué)是基于大規(guī)模計(jì)算,通常也基于大規(guī)模數(shù)據(jù),對(duì)我們關(guān)心的社會(huì)行為和社會(huì)事件(作為社會(huì)結(jié)果)進(jìn)行推演和計(jì)算的科學(xué)。計(jì)算社會(huì)科學(xué)以數(shù)學(xué)(特別是概率論、統(tǒng)計(jì)學(xué)等)、計(jì)算機(jī)技術(shù)、數(shù)據(jù)技術(shù)(如知識(shí)圖譜)為核心技術(shù)平臺(tái),基于社會(huì)科學(xué)理論和實(shí)證研究為數(shù)理模型和程序設(shè)計(jì)提供核心思想。因此,計(jì)算社會(huì)科學(xué)是將社會(huì)科學(xué)、計(jì)算機(jī)技術(shù)以及數(shù)據(jù)技術(shù)結(jié)合起來的交叉學(xué)科。而決策科學(xué)是試圖基于科學(xué)手段來幫助人類優(yōu)化復(fù)雜決策的交叉學(xué)科。顯然,由于人類的復(fù)雜決策主要是針對(duì)社會(huì)中的其他行為體的,因此決策科學(xué)是一門更偏向于社會(huì)科學(xué)的學(xué)科。決策科學(xué)的最核心的目標(biāo)必然是如何更加科學(xué)地決策。
總體來看,決策者都面臨兩個(gè)根本的挑戰(zhàn):一是信息的缺乏;二是處理信息的能力,包括如何甄別和剔除干擾信息的能力。在相當(dāng)長(zhǎng)的時(shí)間里,這兩個(gè)挑戰(zhàn)幾乎是無解的。因此,傳統(tǒng)的復(fù)雜決策均高度依賴專家判斷。隨著自然科學(xué)和技術(shù)的發(fā)展,尤其是從數(shù)學(xué)(特別是概率論、統(tǒng)計(jì)等)到計(jì)算機(jī)技術(shù)的發(fā)展,決策科學(xué)也越來越多地借助這些技術(shù)手段。而計(jì)算社會(huì)科學(xué)的到來,將極大地緩解上述兩個(gè)挑戰(zhàn)所帶來的壓力。決策科學(xué)中的科學(xué)決策因而也就面臨前所未有的變革機(jī)遇。因?yàn)橛?jì)算社會(huì)科學(xué)完全有可能讓人類的許多重大決策不僅能夠更加基于客觀數(shù)據(jù)和計(jì)算,且在數(shù)據(jù)(信息)的來源和規(guī)模上有極大提升,從而讓傳統(tǒng)的絕大部分依賴專家主觀意見的決策行為變得更加科學(xué)。因此,在接下來的討論中,本文將主要圍繞關(guān)乎決策的計(jì)算社會(huì)科學(xué)進(jìn)行討論,并將用“決策計(jì)算社會(huì)科學(xué)”來描述這個(gè)領(lǐng)域。
在此,需要特別強(qiáng)調(diào)的是社會(huì)行為與社會(huì)結(jié)果之間存在根本性區(qū)別。①社會(huì)行為是指行為體的行為,且人們通常關(guān)注的是行為體的自主行為,而不是行為體的本能性行為。社會(huì)結(jié)果則是在一定的社會(huì)情境下,由行為體的行為相互作用以及行為體的行為與社會(huì)情境相互作用而造就的涌現(xiàn)性結(jié)果(emergent outcome)。顯然,行為體的選擇都受到社會(huì)和自然環(huán)境的約束。更重要的是,通常情況下,一個(gè)行為體的行為結(jié)果不完全由該行為直接決定,而是多個(gè)行為體的行為在一定的社會(huì)和自然環(huán)境下相互作用的結(jié)果。換句話說,任何社會(huì)結(jié)果都只是部分,而不是全部由行為體的行為驅(qū)動(dòng)。
這個(gè)區(qū)分對(duì)于理解為何模擬要比機(jī)器學(xué)習(xí)的技術(shù)取向可能更適合預(yù)測(cè)結(jié)果非常重要。此前很多關(guān)于計(jì)算社會(huì)科學(xué)的討論因?yàn)闆]有區(qū)分這兩類不同的客體,都誤以為機(jī)器學(xué)習(xí)的技術(shù)就足以解決我們關(guān)心的問題。事實(shí)上,只要我們承認(rèn)社會(huì)行為與社會(huì)結(jié)果的區(qū)別,我們就不得不承認(rèn)對(duì)社會(huì)結(jié)果的預(yù)測(cè)只能主要依靠模擬。而由于行為受到環(huán)境的約束且人類的自主行為都會(huì)受到其他行為體的影響,我們對(duì)行為的理解和預(yù)測(cè)可能也需要基于一定的模擬(加上機(jī)器學(xué)習(xí)),而不僅僅是機(jī)器學(xué)習(xí)。
二、 “決策計(jì)算社會(huì)科學(xué)”的技術(shù)取向
過去的20年,大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)和人工智能技術(shù)突飛猛進(jìn)并得到廣泛應(yīng)用。但是將計(jì)算社會(huì)科學(xué)與大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)和人工智能等同起來,認(rèn)為大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)和人工智能是計(jì)算社會(huì)科學(xué)的唯一技術(shù)取向,這種看法并不全面。實(shí)際上,計(jì)算社會(huì)科學(xué)至少有兩大技術(shù)取向。更重要的是,這兩大技術(shù)取向有著根本差別,各有優(yōu)勢(shì)和劣勢(shì)。如果不能相對(duì)準(zhǔn)確地理解這兩大技術(shù)取向的差別以及它們各自的優(yōu)勢(shì)、劣勢(shì),對(duì)“決策計(jì)算社會(huì)科學(xué)”未來的把握就可能出現(xiàn)偏差。基于此,有必要對(duì)不同的技術(shù)取向給出一些初步思考。①
這里將具體討論兩個(gè)問題。一是“決策計(jì)算社會(huì)科學(xué)”的技術(shù)取向是以基于“模仿”的機(jī)器學(xué)習(xí)為主,還是以基于“模擬”的技術(shù)為主但也加上機(jī)器學(xué)習(xí)? 二是“決策計(jì)算社會(huì)科學(xué)”是主要依賴大數(shù)據(jù),還是綜合運(yùn)用不同數(shù)據(jù)?
顯然,要想對(duì)可能的決策問題進(jìn)行計(jì)算,就需要預(yù)測(cè)和推演。因此,本文不討論完全不以預(yù)測(cè)和推演為目標(biāo)(或者中間目標(biāo))的計(jì)算社會(huì)科學(xué)。目前大部分社會(huì)科學(xué)雜志發(fā)表的屬于計(jì)算社會(huì)科學(xué)的研究,都不是以預(yù)測(cè)和推演為目標(biāo)的,而仍舊是以傳統(tǒng)的因果推斷(causal inference)為目標(biāo)的。這些研究和傳統(tǒng)的計(jì)量社會(huì)科學(xué)的研究沒有根本區(qū)別,只是在數(shù)據(jù)的結(jié)構(gòu)、規(guī)模和運(yùn)用的算法上有差別。② 它們的目標(biāo)仍然是確立某些要素對(duì)某些結(jié)果的影響。這些研究也許能幫助我們預(yù)測(cè)某些行為和結(jié)果,特別是相對(duì)線性的行為和結(jié)果,但這些研究都不以預(yù)測(cè)和推演為目標(biāo),更不以支持復(fù)雜的決策為目標(biāo)。而本文將主要討論以預(yù)測(cè)和推演行為或結(jié)果為目標(biāo)的計(jì)算社會(huì)科學(xué)。
(一) “模仿”還是“模擬”?
本文認(rèn)為,“決策計(jì)算社會(huì)科學(xué)”有兩個(gè)大的技術(shù)取向:以“模仿”為目標(biāo)的機(jī)器學(xué)習(xí)和以“模擬”為目標(biāo)的計(jì)算模擬。① 基于決策問題的特殊需求,未來的“決策計(jì)算社會(huì)科學(xué)”應(yīng)該以模擬技術(shù)為主要技術(shù)取向,但又融合模仿技術(shù)。
1. 作為模仿的機(jī)器學(xué)習(xí)
傳統(tǒng)的計(jì)量社會(huì)科學(xué)主要依賴因果推斷,而不是推演和預(yù)測(cè)。因果推斷的核心基礎(chǔ)之一是統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)的核心基礎(chǔ)之一同樣是統(tǒng)計(jì)學(xué),因此機(jī)器學(xué)習(xí)也是最早被用于計(jì)算社會(huì)科學(xué)的工具之一。
新興的深度學(xué)習(xí)和早期的機(jī)器學(xué)習(xí)密不可分。但是,學(xué)界的一個(gè)趨勢(shì)還是將(狹義的)深度學(xué)習(xí)和(狹義的)機(jī)器學(xué)習(xí)區(qū)分開來。② 今天的深度學(xué)習(xí)可以認(rèn)為是自2006年杰弗里·辛頓(Geoffrey Hinton)等人推出無監(jiān)督深度置信網(wǎng)絡(luò)訓(xùn)練方法之后發(fā)展出來的機(jī)器學(xué)習(xí)。③ 在同一時(shí)期,計(jì)算機(jī)硬件快速發(fā)展,數(shù)據(jù)規(guī)模也不斷擴(kuò)大,深度神經(jīng)網(wǎng)絡(luò)開始廣受歡迎。2012年,深度學(xué)習(xí)開始大爆發(fā),卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、進(jìn)化神經(jīng)網(wǎng)絡(luò)(ENN)等模型的優(yōu)勢(shì)逐漸顯現(xiàn),并且在模式識(shí)別、信息檢索、自然語言處理等多個(gè)領(lǐng)域的應(yīng)用都取得了重大突破。
在根本意義上,機(jī)器學(xué)習(xí)都是基于模仿,然后超越人類的計(jì)算和推理能力。從經(jīng)典統(tǒng)計(jì)到機(jī)器學(xué)習(xí),都要經(jīng)歷由訓(xùn)練集到預(yù)測(cè)集的過程。訓(xùn)練集主要用來訓(xùn)練模型,這部分工作主要依賴歷史數(shù)據(jù)。而如果要檢驗(yàn)?zāi)P偷挠行裕嗽谟?xùn)練集內(nèi)訓(xùn)練之外,還需要在預(yù)測(cè)集中檢驗(yàn)?zāi)P偷挠行?。而在預(yù)測(cè)集中,既可以是基于已知的歷史數(shù)據(jù)“預(yù)測(cè)”歷史上已經(jīng)發(fā)生的行為和事件,也可以是基于推定的(projected)未來數(shù)據(jù)預(yù)測(cè)未來的行為和事件。
在基于模仿然后超越人類的計(jì)算和推理能力方面,計(jì)算社會(huì)科學(xué)在多個(gè)領(lǐng)域都取得了顯著進(jìn)展。比如,深度學(xué)習(xí)技術(shù)在自然語言處理方面的應(yīng)用取得了很大的進(jìn)步。而知識(shí)圖譜則將復(fù)雜的領(lǐng)域知識(shí)通過信息處理、數(shù)據(jù)挖掘、知識(shí)計(jì)量和圖形繪制,試圖發(fā)掘人腦無法發(fā)現(xiàn)的關(guān)聯(lián)甚至規(guī)律性模式。此外,圖像識(shí)別也是一個(gè)重要的深度學(xué)習(xí)的應(yīng)用領(lǐng)域。
對(duì)戰(zhàn)略行為的預(yù)測(cè),傳統(tǒng)社會(huì)科學(xué)的一個(gè)主要工具是博弈論,具有代表性的是布魯斯·布爾諾·德·梅斯奎塔(Bruce Bueno de Mesquita)所做的工作。① 梅斯奎塔的模型是基于期望效用(expected utility)的相對(duì)簡(jiǎn)單的模型。盡管他的模型有多個(gè)行為體,但是在求解的時(shí)候,他還是不得不將多個(gè)行為體的博弈簡(jiǎn)化成為兩個(gè)行為體的博弈,因?yàn)橐坏┒嘤趦蓚€(gè)行為體,整個(gè)模型的均衡在數(shù)學(xué)處理方面將非常難解。不僅如此,其模型還包含非常多的主觀賦值。因此,該模型到底有多少實(shí)用價(jià)值并不確定。從這方面的文獻(xiàn)追蹤來看,繼承這個(gè)技術(shù)路徑的學(xué)者并不多,而學(xué)界對(duì)基于博弈論來預(yù)測(cè)行為的批評(píng)也一直都沒有停止過。②
從某種意義上說,深度強(qiáng)化學(xué)習(xí)似乎天生就是為智能決策服務(wù)的。深度強(qiáng)化學(xué)習(xí)通過結(jié)合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),讓智能體在訓(xùn)練中試錯(cuò),通過獎(jiǎng)勵(lì)和懲罰反饋神經(jīng)網(wǎng)絡(luò),從而得到更好的策略模型,然后根據(jù)當(dāng)前狀態(tài)判斷應(yīng)該采取的行為。因此,有學(xué)者認(rèn)為,計(jì)算社會(huì)科學(xué)就是基于大量數(shù)據(jù),通過技術(shù)獲得關(guān)于人類的更加精細(xì)的行為模式(pattern),并且基于此構(gòu)建相關(guān)理論的科學(xué)。① 應(yīng)當(dāng)說,機(jī)器學(xué)習(xí)技術(shù)在分布相對(duì)穩(wěn)定、跨時(shí)可比性高的行為方面的努力已經(jīng)卓有成效。但在復(fù)雜且不穩(wěn)定的戰(zhàn)略性行為的預(yù)測(cè)方面,機(jī)器學(xué)習(xí)技術(shù)的成功應(yīng)用案例還是罕見的。事實(shí)上,目前深度強(qiáng)化學(xué)習(xí)的主要應(yīng)用都是針對(duì)個(gè)體水平的行為決策,如基于用戶畫像和模式識(shí)別的購物廣告投放、社交媒體內(nèi)容推薦等等。
基于機(jī)器學(xué)習(xí)技術(shù)對(duì)社會(huì)結(jié)果進(jìn)行預(yù)測(cè)的比較典型的努力是基于歷史事件數(shù)據(jù)以及新聞數(shù)據(jù)來預(yù)測(cè)政治不穩(wěn)定,如政變、革命、內(nèi)戰(zhàn)等。② 在數(shù)據(jù)上,除了歷史事件數(shù)據(jù)以及新聞數(shù)據(jù),還包括結(jié)構(gòu)因素以及外部沖擊事件,比如石油危機(jī)、金融危機(jī)的數(shù)據(jù)等。在算法和模型上,這些努力均注重多種算法和模型的混合。由奧斯陸和平研究所(PRIO)的赫瓦德· 赫格里(H?vard Hegre)等人主持開發(fā)的政治暴力早期預(yù)警系統(tǒng)(Political ViolenceEarly Warning System,ViEWS)是這一類努力的最雄心勃勃的項(xiàng)目之一。③類似的項(xiàng)目還包括杰克·A.戈德斯通(Jack A.Goldstone)等人的“政治不穩(wěn)定”(Political Instability Task Force,PITF)項(xiàng)目,以及《和平研究雜志》2017年的特刊文章。① 總體來說,學(xué)界認(rèn)為這些對(duì)社會(huì)結(jié)果進(jìn)行預(yù)測(cè)的努力,其效果并不好。②
造成這一結(jié)果的核心原因至少有3個(gè)。首先,目前的研究通常主要基于結(jié)構(gòu)性因素。結(jié)構(gòu)性因素的變化相對(duì)緩慢,因此這些因素構(gòu)成的模型最多只能告訴我們某個(gè)國家和地區(qū)的穩(wěn)定性如何,卻并不能給出及時(shí)和精確的預(yù)測(cè)或預(yù)警。③ 其次,社會(huì)系統(tǒng)是一個(gè)演化的系統(tǒng)④,而基于機(jī)器學(xué)習(xí)的預(yù)測(cè)的核心假定之一是社會(huì)系統(tǒng)是相對(duì)線性的。另外,基于深度學(xué)習(xí)技術(shù)的預(yù)測(cè)社會(huì)結(jié)果的努力,其過程中的黑箱成分更多,也即它沒有太多的社會(huì)科學(xué)理論和實(shí)證基礎(chǔ)作為支撐。① 而這對(duì)于以預(yù)測(cè)戰(zhàn)略行為和結(jié)果為目標(biāo)的努力來說,還是有很大缺陷。最后是一個(gè)純技術(shù)性問題,因?yàn)榛谏疃葘W(xué)習(xí)技術(shù)的預(yù)測(cè)社會(huì)結(jié)果的努力通常都基于歷史數(shù)據(jù),特別是新聞數(shù)據(jù)。而基于自動(dòng)字段提取技術(shù)得到的數(shù)據(jù)集往往有不少數(shù)據(jù)質(zhì)量問題,同樣會(huì)加劇這方面的技術(shù)問題,盡管最近火爆的語言大模型肯定會(huì)有所幫助。②
2. 計(jì)算模擬(computational simulation)
模擬是計(jì)算社會(huì)科學(xué)的另一個(gè)技術(shù)取向。模擬的目標(biāo)是模擬兩個(gè)及以上不同行為體的行為以及這些行為的相互作用而導(dǎo)致的涌現(xiàn)性結(jié)果。最早的模擬大致包括格斗模擬和軍事演習(xí)。格斗模擬主要用于提升單兵的戰(zhàn)斗力(與戰(zhàn)斗機(jī)飛行員的格斗訓(xùn)練類似),而軍事演習(xí)(沙盤、兵棋推演,直到實(shí)兵實(shí)彈的演練)則主要用于提升整體的戰(zhàn)斗力和優(yōu)化戰(zhàn)術(shù)部署。因此,從模擬的目標(biāo)可以反推,模擬方能夠以改變自身和對(duì)手的行為來改變結(jié)果。
計(jì)算機(jī)到來后,就有了計(jì)算(機(jī))模擬。計(jì)算模擬技術(shù)本身也有很多種。因?yàn)樯鐣?huì)結(jié)果都是由行為體的行為以及這些行為的相互作用在一定的環(huán)境下造就的,因此,本文認(rèn)為,ABM 可能是最適合模擬基于戰(zhàn)略行為的涌現(xiàn)性社會(huì)結(jié)果的一個(gè)技術(shù)路徑。③
首先,模擬更關(guān)心社會(huì)結(jié)果,或者說是由行為與行為的相互作用在一定的環(huán)境下達(dá)成的結(jié)果。相比來說,博弈論模型中通常只能推演兩個(gè)或至多3個(gè)行為體的行為,而ABM 則可以容納多個(gè)行為體,并能夠推演這些行為體的復(fù)雜行為選擇。
其次,也是最為關(guān)鍵的,ABM 是一種由下至上的模擬技術(shù)。ABM 試圖捕捉在一定的環(huán)境下,由行為體的行為以及它們的相互作用而造就的涌現(xiàn)性的、更高層次的社會(huì)結(jié)果。① 因此,ABM 特別適合以通過模擬來預(yù)測(cè)結(jié)果為目標(biāo)的研究。
再次,基于ABM 的模擬,不僅可以模擬對(duì)比不同情境,而且可以回溯結(jié)果的成因(類似于圍棋的復(fù)盤),從而大大降低黑箱的成分。因此,ABM 特別適合基于對(duì)結(jié)果的推演來反推行為體的多種行為。
這里還需要特別指出,ABM 與傳統(tǒng)的沙盤推演及兵棋推演也有很大的不同。傳統(tǒng)的沙盤推演、兵棋推演都是基于相對(duì)固定的場(chǎng)景(從行為體到規(guī)則、到環(huán)境),而且轉(zhuǎn)換情境的成本相對(duì)高昂。ABM 則具有高度的可適應(yīng)性,可以非常方便地遷移到不同的情境,而且成本相對(duì)低。更重要的是,ABM 中的行為體完全可以有獨(dú)立面對(duì)特定狀況的行為決定權(quán),而沙盤、兵棋通常都是一方的指揮官指揮所有的下級(jí)單位行為體。
ABM 有3個(gè)核心要素:行為體、環(huán)境、行為規(guī)則。ABM 中的行為體可以是個(gè)人、社會(huì)群體(企業(yè)或其他群體)、政黨、政府或者其他任何研究者感興趣的行為體,只要這些行為體是基于某些規(guī)則做出決定的就可以。換句話說,這些行為體的行為不是完全隨機(jī)的。系統(tǒng)內(nèi)的行為體可以有各種特質(zhì),包括人口學(xué)特征(性別、年齡、族群等)、社會(huì)經(jīng)濟(jì)特質(zhì)(比如婚姻狀態(tài)、收入水平、從事的行業(yè)等)、政治傾向(比如黨派)。這些特征都有可能影響行為體的行為?;谶@些特質(zhì)和其他數(shù)據(jù),研究人員可以通過社會(huì)科學(xué)的研究或機(jī)器學(xué)習(xí)來提取行為體的某些行為規(guī)則。之后,行為體在系統(tǒng)中的行為以及它們的相互作用將造就出涌現(xiàn)性和更高層次的社會(huì)結(jié)果。通過多次且每一次模擬運(yùn)算進(jìn)程都不同的模擬,加入隨機(jī)事件和沖擊以及不同的非線性干擾,ABM 將能夠看到這些行為體的行為的相互作用造就的社會(huì)結(jié)果是否具有一定的穩(wěn)定性。如此,ABM 就能讓研究者去考察社會(huì)結(jié)果的生成過程及其背后的因素和機(jī)制,而且這個(gè)過程可操縱和回溯。而這一能力是其他許多技術(shù)都不具備的。
最早的ABM 系統(tǒng)可以追溯到托馬斯·C.謝林(Thomas C.Schelling)著名的關(guān)于居住的種族隔離的研究。① 但在相當(dāng)長(zhǎng)的時(shí)間里,ABM 都只能用來演示某些可能的結(jié)果以及檢驗(yàn)?zāi)承┛赡艿囊蛩睾蜋C(jī)制的可靠性,而并沒有在以預(yù)測(cè)和推演為目標(biāo)的社會(huì)科學(xué)中有太多應(yīng)用。② 其中一個(gè)主要的限制是計(jì)算能力:如果要模擬接近真實(shí)情形的社會(huì)結(jié)果的生成,通常需要很大的計(jì)算量。因此,在2000年之后,計(jì)算能力的日益強(qiáng)大,特別是云計(jì)算的出現(xiàn),使得ABM 終于有了可以大顯身手的機(jī)會(huì)。目前,ABM 已經(jīng)被用來探索許多不同的問題領(lǐng)域,從恐怖主義到社會(huì)流動(dòng),到經(jīng)濟(jì)社會(huì)動(dòng)態(tài),到復(fù)雜社會(huì)網(wǎng)絡(luò),包括恐怖網(wǎng)絡(luò)和毒品網(wǎng)絡(luò)。③
3. 兩個(gè)技術(shù)取向區(qū)別及優(yōu)劣勢(shì)比較
機(jī)器學(xué)習(xí)和ABM 這兩大技術(shù)取向有許多重要的差別。這些差別一定意義上解釋了它們面臨的不同挑戰(zhàn),包括它們的應(yīng)用范圍。這些差別主要表現(xiàn)為七個(gè)大的方面。
第一,核心基礎(chǔ)。機(jī)器學(xué)習(xí)的核心基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)。ABM 的基礎(chǔ)則更為多元,統(tǒng)計(jì)學(xué)習(xí)只是ABM 的基礎(chǔ)之一。
第二,方程的形式與實(shí)現(xiàn)成本。在機(jī)器學(xué)習(xí)中,方程的核心目的是單一的,即通過方程中的某些參數(shù)來直接捕捉結(jié)果。因此,機(jī)器學(xué)習(xí)的核心方程幾乎都是一個(gè)形式:y=f(X )+ε。其中,y 為預(yù)測(cè)結(jié)果變量,ε 為誤差項(xiàng),X通常是多個(gè)解釋變量的集合。即便是針對(duì)不同的問題領(lǐng)域,絕大部分機(jī)器學(xué)習(xí)模型的核心差別其實(shí)也不大。因此,一旦一個(gè)機(jī)器學(xué)習(xí)的算法被發(fā)展出來,其后的技術(shù)實(shí)現(xiàn)就變得相對(duì)容易了。這背后的一部分原因是機(jī)器學(xué)習(xí)對(duì)社會(huì)科學(xué)理論和實(shí)證以及專家知識(shí)的依賴性較低。
相比而言,ABM 系統(tǒng)中不同方程的目的不同。一個(gè)ABM 系統(tǒng)通常包括多個(gè)方程及其參數(shù),用于刻畫行為體、行為及行為規(guī)則、行為體與行為體之間的相互作用規(guī)則、行為體與環(huán)境的相互作用規(guī)則,以及最終如何驅(qū)動(dòng)結(jié)果。很顯然,這些不同方程幾乎不可能有固定形式。因此,ABM 的技術(shù)實(shí)現(xiàn)比較復(fù)雜。在ABM 的建模過程中,需要參照和引入社會(huì)科學(xué)的既有理論和實(shí)證結(jié)果,包括專家知識(shí),而不能只是讓機(jī)器去從大數(shù)據(jù)中自我學(xué)習(xí)。因此,針對(duì)不同問題的ABM 模型通常需要非常不同的設(shè)計(jì)。換句話說,ABM的技術(shù)實(shí)現(xiàn)沒有一個(gè)簡(jiǎn)單的通用規(guī)則。因此,相比基于機(jī)器學(xué)習(xí)來說,ABM的技術(shù)實(shí)現(xiàn)會(huì)更加費(fèi)時(shí)費(fèi)力,特別是構(gòu)建模型的過程可能需要更多輪的試錯(cuò)。①
第三,機(jī)器學(xué)習(xí)的結(jié)果(y)都是數(shù)值。ABM 的結(jié)果不是某個(gè)數(shù)值,而是某個(gè)狀態(tài),盡管該狀態(tài)可以用某些數(shù)值去刻畫。
第四,結(jié)果與方程的關(guān)系。在機(jī)器學(xué)習(xí)中,方程均試圖直接捕捉結(jié)果,即便是一組方程也如此。相比之下,ABM 的結(jié)果不能被任何一個(gè)方程,甚至被所有的方程加在一起而直接捕捉,因?yàn)榻Y(jié)果是系統(tǒng)的涌現(xiàn)性結(jié)果。
第五,模型的改進(jìn)與社會(huì)科學(xué)的關(guān)系。機(jī)器學(xué)習(xí)模型的改進(jìn)主要依賴數(shù)據(jù)量和數(shù)據(jù)質(zhì)量的提升來訓(xùn)練模型,努力減少誤差項(xiàng)ε,然后依據(jù)多個(gè)解釋變量的集合X ,來預(yù)測(cè)結(jié)果變量y。因此,機(jī)器學(xué)習(xí)通常高度依賴更多和更加完善的歷史數(shù)據(jù),并通過收集、處理文本、圖片和視頻等大規(guī)模原始資料為機(jī)器學(xué)習(xí)模型提供更多、更干凈的數(shù)據(jù)集??傊?,絕大部分機(jī)器學(xué)習(xí)的模型改進(jìn)對(duì)社會(huì)科學(xué)的借鑒不多。不過,隨著業(yè)界逐漸意識(shí)到有人工介入的有監(jiān)督機(jī)器學(xué)習(xí)至少對(duì)于某些領(lǐng)域的機(jī)器學(xué)習(xí)模型的改進(jìn)不可或缺,機(jī)器學(xué)習(xí)對(duì)社會(huì)科學(xué)的理論和實(shí)證的依賴在未來可能會(huì)上升。
ABM 模擬也需要將模擬結(jié)果與歷史結(jié)果進(jìn)行比對(duì)來不斷改進(jìn)模型,之后再用這些模型來預(yù)測(cè)未來的某些結(jié)果。但是,對(duì)ABM 模型的改進(jìn)不僅需要依賴數(shù)據(jù)的數(shù)量和質(zhì)量的提升,還必須基于對(duì)社會(huì)科學(xué)理論和實(shí)證結(jié)果的更好的把握。
第六,不同層次的數(shù)據(jù)整合(integration)。一般來說,在計(jì)量社會(huì)科學(xué)中,不同層次的變量之間的整合或者相互作用可以由多層次模型(hierarchical models)中的交互項(xiàng)來捕捉。在機(jī)器學(xué)習(xí)的算法中,基于決策樹的模型可以被認(rèn)為是一種交互項(xiàng)的算法。不過,決策樹給出的結(jié)果卻并不代表不同層次的數(shù)據(jù)整合,因而其結(jié)果也不容易被理解。而在其他的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法(如xgboost)以及神經(jīng)機(jī)器學(xué)習(xí)中,交互項(xiàng)的使用更少。因此,總體來說,即便是在基于多層次模型的機(jī)器學(xué)習(xí)中,不同層次的數(shù)據(jù)之間的整合也相對(duì)較低。
相比之下,ABM 從一開始就建立在整合不同層次數(shù)據(jù)的理念之上。ABM 的核心理念就是通過讓多個(gè)行為體在中觀和宏觀環(huán)境下選擇行為,然后讓這些行為相互作用,并與環(huán)境相互作用,然后來驅(qū)動(dòng)最終的涌現(xiàn)性結(jié)果。因此,ABM 能夠更好地整合不同層次的數(shù)據(jù)。
第七,社會(huì)系統(tǒng)是否演化? 機(jī)器學(xué)習(xí)的技術(shù)實(shí)現(xiàn)基于一個(gè)通用的原則,即基于訓(xùn)練集數(shù)據(jù)(包含結(jié)果變量和解釋變量),不斷優(yōu)化模型,之后用優(yōu)化的模型來預(yù)測(cè)未來的某些結(jié)果變量。因此,盡管機(jī)器學(xué)習(xí)本身允許模型的不斷優(yōu)化,但機(jī)器學(xué)習(xí)的基本假定是社會(huì)系統(tǒng)大體是線性的。也就是說,機(jī)器學(xué)習(xí)不太容納社會(huì)系統(tǒng)的演化。
相比來說,從一開始ABM 就明確承認(rèn)社會(huì)系統(tǒng)本身會(huì)演化,而且明確試圖去捕捉系統(tǒng)的演化。從技術(shù)上,ABM 也可以非常容易地容納非線性、非單向的行為和環(huán)境的變化;而且不僅行為體以及他們的行為和行為規(guī)則可以演化(包括基于自主學(xué)習(xí)的演化),整個(gè)系統(tǒng)的環(huán)境也同樣可以演化。事實(shí)上,最早的幾個(gè)ABM 應(yīng)用案例,從謝林的“自動(dòng)隔離”模型,到羅伯特·??怂沽_德(Robert Axelrod)的“合作的演化”,都是以模擬演化結(jié)果的研究。①
4. 未來的發(fā)展方向: 整合了機(jī)器學(xué)習(xí)的計(jì)算模擬
如上所述,ABM 的3個(gè)核心要素是行為體、環(huán)境、行為規(guī)則。確立行為體、環(huán)境、行為規(guī)則的基礎(chǔ)是統(tǒng)計(jì)和歷史描述性知識(shí)。而機(jī)器學(xué)習(xí)在大規(guī)模數(shù)據(jù)提取和處理上,擁有傳統(tǒng)社會(huì)科學(xué)所完全不能擁有的能力。因此,整合了機(jī)器學(xué)習(xí)的計(jì)算模擬是未來的發(fā)展方向之一,而ABM 則具有幾乎無限的整合機(jī)器學(xué)習(xí)能力。具體來說,機(jī)器學(xué)習(xí)對(duì)于描述ABM 系統(tǒng)中的行為體的特征、環(huán)境以及行為規(guī)則都有重要幫助。① 另外,早期的ABM 中的行為體不能自我學(xué)習(xí)、自我演化,隨著機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù)的到來,ABM中的行為體的特征和行為規(guī)則完全可以自我演化。深思公司(Deepmind)發(fā)展的基于強(qiáng)化學(xué)習(xí)的“奪旗游戲”就是這樣一種嘗試性的努力。②
不過,盡管將機(jī)器學(xué)習(xí)和ABM 結(jié)合起來的思想很早就有(大致的技術(shù)實(shí)現(xiàn)路徑見圖1)③,但進(jìn)展并不明顯,特別是真正將兩者結(jié)合起來并用于解決真實(shí)世界中的問題的嘗試還不多見。可以認(rèn)為,這樣的整合可能有三個(gè)層次,或者說是分三步走。
第一個(gè)層次,主要是利用機(jī)器學(xué)習(xí),幫助ABM 系統(tǒng)中的行為體、環(huán)境、行為規(guī)則進(jìn)行調(diào)參和優(yōu)化。目前已經(jīng)發(fā)表的研究成果主要集中在這一個(gè)層次,但尚未應(yīng)用于解決真實(shí)世界中的問題。
第二個(gè)層次,以第一個(gè)層次為基礎(chǔ),基于機(jī)器學(xué)習(xí),讓ABM 中的行為體特征和行為規(guī)則都可以自我學(xué)習(xí)、自我演化。目前的研究離該層次還有相當(dāng)?shù)木嚯x。
第三個(gè)層次,在第一和第二個(gè)層次的基礎(chǔ)上,讓ABM 對(duì)環(huán)境的刻畫都能夠自我學(xué)習(xí)、自我演化,進(jìn)而從深度和廣度上讓ABM 能夠更好地捕捉真實(shí)的世界。目前的研究離這個(gè)層次還有非常大的距離。
(二) “全數(shù)據(jù)計(jì)算”,而不僅僅是“大數(shù)據(jù)計(jì)算”
如前所述,在絕大部分人的理解中,計(jì)算社會(huì)科學(xué)就是基于大數(shù)據(jù)的社會(huì)科學(xué)。事實(shí)上,拉澤爾等人在2009年的《計(jì)算社會(huì)科學(xué)》一文中幾乎把“大數(shù)據(jù)(科學(xué))”等同于“計(jì)算社會(huì)科學(xué)”。① 對(duì)于這樣的一個(gè)立場(chǎng),許多傳統(tǒng)的社會(huì)科學(xué)家并不認(rèn)可。① 本文亦對(duì)這樣的立場(chǎng)持保留意見。
本文認(rèn)為,基于“全數(shù)據(jù)計(jì)算”才是“決策計(jì)算社會(huì)科學(xué)”的正確方向。因?yàn)闆Q策計(jì)算需要的是“全數(shù)據(jù)”思維,而不僅僅是“大數(shù)據(jù)”思維。也就是說,大數(shù)據(jù)只是一部分的數(shù)據(jù),而不是全部的數(shù)據(jù)。全數(shù)據(jù)包含了大數(shù)據(jù)。
“全數(shù)據(jù)”思維是指首先要確立大致需要什么樣的數(shù)據(jù),然后才能夠用相關(guān)數(shù)據(jù)解決一個(gè)復(fù)雜決策問題的思維方式。因此,“全數(shù)據(jù)”思維首先強(qiáng)調(diào)的是數(shù)據(jù)對(duì)解決一個(gè)決策問題的必要性和大致充分性,而不是一味強(qiáng)調(diào)數(shù)據(jù)的多少,或者說是數(shù)據(jù)維度越多越好,數(shù)據(jù)規(guī)模越大越好。換句話說,“全數(shù)據(jù)”思維是從需要解決的問題出發(fā),而不是從數(shù)據(jù)本身出發(fā)。從這個(gè)意義上說,“全數(shù)據(jù)”思維也可以說是“充分?jǐn)?shù)據(jù)”思維。
因此,“全數(shù)據(jù)”思維首先要回答的是“解決某一問題需要什么數(shù)據(jù)”的問題。② 很多時(shí)候,要解決一個(gè)復(fù)雜決策問題,僅僅依靠大數(shù)據(jù)是不夠的,還需要和其他基礎(chǔ)的人口、經(jīng)濟(jì)、政治等數(shù)據(jù)集合起來。僅靠大數(shù)據(jù)可能只能解決一些小的決策問題。事實(shí)上,如果不從需要解決的問題出發(fā),研究者可能都不會(huì)去收集某些數(shù)據(jù),甚至不知道某些數(shù)據(jù)是存在和可收集的。當(dāng)然,研究者還需要對(duì)運(yùn)用大數(shù)據(jù)輔助重要決策保持一定的警惕,因?yàn)榇髷?shù)據(jù)很容易被假數(shù)據(jù)和假信息污染。
“全數(shù)據(jù)”思維其次要回答的是“不同的數(shù)據(jù)有哪些不同的用處”的問題。比如,我們通常會(huì)認(rèn)為,宏觀和中觀的數(shù)據(jù)對(duì)大格局的把握更加有幫助。而像社交媒體信息、酒店信息和電話號(hào)碼等微觀數(shù)據(jù),如果準(zhǔn)確,則有助于我們對(duì)某些特定的個(gè)體和群體行為作出更加準(zhǔn)確的預(yù)判。也就是說,不同數(shù)據(jù)有不同作用,要恰當(dāng)?shù)鼐C合運(yùn)用以解決不同問題。
總之,面對(duì)具體的復(fù)雜決策問題,研究者需要不同的數(shù)據(jù)組合、不同的基礎(chǔ)數(shù)據(jù)和不同的大數(shù)據(jù)。因此,“全數(shù)據(jù)”思維不是事先給定要解決一個(gè)具體復(fù)雜決策問題的數(shù)據(jù)范圍,而是需要研究者根據(jù)具體的研究問題來探索不同的數(shù)據(jù)來源組合。面對(duì)具體的復(fù)雜決策問題,研究者既要以既有的社會(huì)科學(xué)的理論、實(shí)證研究和數(shù)據(jù)積累為基礎(chǔ),又要了解新大數(shù)據(jù)的來源以及處理技術(shù),只有這樣才能充分利用這些不同的資源。
三、 模擬決策: 問題與示例
要想達(dá)成“以計(jì)算為基礎(chǔ)的科學(xué)的復(fù)雜決策”這一目標(biāo),研究者必須用社會(huì)科學(xué)的思維特別是社會(huì)科學(xué)的問題意識(shí)來規(guī)制計(jì)算社會(huì)科學(xué)。那么,計(jì)算社會(huì)科學(xué)到底能夠幫助我們解決哪些決策者經(jīng)常面臨的問題? 本文認(rèn)為,計(jì)算社會(huì)科學(xué)在以下幾類問題的決策上將大有用武之地。一是對(duì)國家來說,計(jì)算社會(huì)科學(xué)能夠?qū)ζ渌麌业幕菊巫呦蛱貏e是該國的國內(nèi)政治穩(wěn)定等問題做出預(yù)測(cè);二是對(duì)企業(yè)特別是大型跨國企業(yè)來說,計(jì)算社會(huì)科學(xué)能夠?qū)ν顿Y對(duì)象國的基本政治經(jīng)濟(jì)走向作出預(yù)測(cè),并就如何確定競(jìng)爭(zhēng)戰(zhàn)略、如何進(jìn)行選址等問題的決策提供參考;三是對(duì)個(gè)人來說,計(jì)算社會(huì)科學(xué)能夠協(xié)助個(gè)人就旅游、買房等試錯(cuò)成本相對(duì)高的問題做出決策。所有這些決策都不僅僅需要數(shù)據(jù)的支持,還需要社會(huì)科學(xué)的思維以及理論和實(shí)證積累。以下就國家層面提供兩個(gè)具體案例,以說明計(jì)算社會(huì)科學(xué)如何為科學(xué)決策提供新的思路。
(一) 選舉預(yù)測(cè)
預(yù)測(cè)選舉結(jié)果并基于這些預(yù)測(cè)調(diào)整策略,是每一個(gè)政黨、候選人以及利益相關(guān)國家需要面對(duì)的最重要的決策問題之一。傳統(tǒng)的選舉預(yù)測(cè)主要依賴民意調(diào)查或者是在綜合不同民意調(diào)查的基礎(chǔ)上進(jìn)行相關(guān)數(shù)據(jù)處理,而基于社交媒體的大數(shù)據(jù),原理上也是民意調(diào)查。但是,民意調(diào)查(以及社交媒體的大數(shù)據(jù))有4個(gè)無法解決的偏誤:抽樣偏誤(特別是在需要分層抽樣的情形下),被調(diào)查者中的回答者的自我選擇偏誤,回答者的有意誤導(dǎo)回答,個(gè)人的支持偏好不一定會(huì)變成真正的選票(如投票率問題以及自然災(zāi)害或恐怖襲擊等突發(fā)事件)。①
為此,復(fù)旦大學(xué)復(fù)雜決策分析中心的研究團(tuán)隊(duì)發(fā)展了一個(gè)完全不依賴于選舉前民意調(diào)查,而是基于ABM 計(jì)算機(jī)模擬的選舉預(yù)測(cè)平臺(tái)。同樣重要的是,該預(yù)測(cè)平臺(tái)也不依賴于社交媒體的大數(shù)據(jù)。在“劍橋分析”(CambridgeAnalytica) 爆出丑聞之前②,研究團(tuán)隊(duì)就已經(jīng)對(duì)運(yùn)用大數(shù)據(jù)特別是社交媒體的大數(shù)據(jù)來預(yù)測(cè)選舉結(jié)果保持了警惕。因?yàn)榇髷?shù)據(jù)很容易被假數(shù)據(jù)和假信息污染,正如特朗普當(dāng)選和英國“脫歐”兩個(gè)事件告訴我們的那樣。換句話說,互聯(lián)網(wǎng)上相當(dāng)多的信息是假消息或者是故意誤導(dǎo)的信息。雖然針對(duì)如何處理假消息已經(jīng)發(fā)展出一些識(shí)別和稀釋其影響的算法,但數(shù)據(jù)的真實(shí)可靠始終是影響大數(shù)據(jù)預(yù)測(cè)準(zhǔn)確性的重要因素。
具體而言,基于社會(huì)科學(xué)家的研究和某些特定數(shù)據(jù),研究團(tuán)隊(duì)構(gòu)建出了一個(gè)能夠模擬選舉結(jié)果的ABM 模擬平臺(tái)?;贏BM 模擬的選舉預(yù)測(cè)的實(shí)現(xiàn)分為六大步驟。
第一,基于公開平臺(tái)收集歷史數(shù)據(jù)。主要包括人口普查數(shù)據(jù)(人口的年齡分布、性別、教育程度、收入水平、從事行業(yè)、宗教信仰等),選舉前一年和選舉年的經(jīng)濟(jì)社會(huì)基本情況數(shù)據(jù)(經(jīng)濟(jì)增長(zhǎng)率、通貨膨脹率、犯罪率等),歷史上選舉實(shí)際參選人的特質(zhì),以及實(shí)際選舉結(jié)果數(shù)據(jù)。最終的數(shù)據(jù)集包括近50個(gè)指標(biāo)?;谡螌W(xué)對(duì)選舉的既有研究,研究團(tuán)隊(duì)認(rèn)為這些數(shù)據(jù)應(yīng)該基本可以滿足預(yù)測(cè)選舉結(jié)果的需求,因此達(dá)到了全數(shù)據(jù)。
第二,構(gòu)建行為體,即選民。主要基于人口普查數(shù)據(jù),在計(jì)算機(jī)模擬系統(tǒng)里隨機(jī)生成實(shí)際人數(shù)的選民。隨機(jī)生成的每一個(gè)選民都擁有一些特定的特征組合(比如男性、41~60歲、高中教育、從事制造業(yè)等等),但是整體的選民群體仍舊滿足宏觀統(tǒng)計(jì)分布(比如,男性為49.8%,女性為50.2%)。
第三,基于歷史選舉結(jié)果數(shù)據(jù),通過簡(jiǎn)單的回歸分析,獲得不同特征的選民可能的投票傾向(比如,男性顯著傾向于支持某個(gè)黨派),并給出粗糙的投票傾向區(qū)間。特別需要強(qiáng)調(diào)的是,這些粗糙的投票傾向區(qū)間并不需要特別準(zhǔn)確,因?yàn)楹罄m(xù)的ABM 模擬運(yùn)算能夠篩選出能較好地重復(fù)出歷史投票結(jié)果的模型。
第四,讓這些選民基于他們的投票傾向在系統(tǒng)中投票。投票規(guī)則由3組方程描述。每一次模擬都會(huì)隨機(jī)生成不同的選民群體,但是整體的選民群體仍然滿足宏觀統(tǒng)計(jì)分布。
第五,通過模擬多次投票(100次至300次不等),基于歷史的選舉結(jié)果數(shù)據(jù),篩掉不能得到歷史選舉結(jié)果(在一定的誤差范圍內(nèi))的模型。其間會(huì)經(jīng)過至少兩輪篩選。第一輪的篩選閾值為10%的絕對(duì)誤差,第二輪為5%,第三輪為2.5%~3%。其中會(huì)加入選舉周期、政治丑聞沖擊、候選人特征等。最終剩下的模型和歷史選舉結(jié)果的誤差在2.5%~3%。通常來說,第一輪的模型在幾千萬到一億多之間(選民的特征組合,而為了計(jì)算的可行性,用1∶10的比例來進(jìn)行實(shí)際模擬)。經(jīng)過兩到三輪篩選,最終剩下的模型數(shù)量?jī)H為幾十個(gè)到幾百個(gè)不等。顯然,這些模型能夠在比較小的誤差范圍內(nèi)重現(xiàn)歷史上的多次選舉結(jié)果,一定是確實(shí)捕捉到了促成這些歷史選舉的最終結(jié)果的某些投票規(guī)則。
第六,用經(jīng)過了篩選的模型(幾十個(gè)到幾百個(gè)不等),基于下一輪選舉的推導(dǎo)數(shù)據(jù)(比如可預(yù)測(cè)的人口變化數(shù)據(jù)、經(jīng)濟(jì)增長(zhǎng)數(shù)據(jù)等等),讓選民在系統(tǒng)內(nèi)進(jìn)行模擬投票,預(yù)測(cè)下一輪選舉結(jié)果。研究團(tuán)隊(duì)提前公布的預(yù)測(cè)結(jié)果是這些模型給出的結(jié)果的平均值。
從2016年起,中心已經(jīng)連續(xù)5次比較精準(zhǔn)地預(yù)測(cè)了中國臺(tái)灣地區(qū)的地方領(lǐng)導(dǎo)人選舉(2016年、2020年)、中國臺(tái)灣地區(qū)的縣市選舉(2018年)、美國參議院選舉(2018年)以及2020年的美國總統(tǒng)選舉(6個(gè)州)。團(tuán)隊(duì)公布的是相對(duì)得票率,而不僅僅是誰輸誰贏。在迄今為止的6次預(yù)測(cè)中,團(tuán)隊(duì)的預(yù)測(cè)得票結(jié)果和實(shí)際的選舉得票結(jié)果的差別(誤差)最低為不到1%,最高也僅為6%。① 不僅如此,基于ABM 的選舉預(yù)測(cè)還能夠提前幾個(gè)月就給出這樣的預(yù)測(cè)。而這樣的預(yù)測(cè)是基于民意調(diào)查或者社交媒體的預(yù)測(cè)完全不可能實(shí)現(xiàn)的。最后,基于ABM 的選舉模擬預(yù)測(cè)還能夠大致給出某些突發(fā)事件對(duì)最終選舉結(jié)果的沖擊的范圍。
在最新的一次預(yù)測(cè)中,研究團(tuán)隊(duì)于北京時(shí)間2020年11月1日12點(diǎn)(美國東部時(shí)間10月31日零點(diǎn))發(fā)布了對(duì)美國總統(tǒng)大選在6個(gè)州的獲得票數(shù)比例的預(yù)測(cè)。② 最終的選舉結(jié)果表明,該預(yù)測(cè)是成功的。經(jīng)過多次選舉預(yù)測(cè)的檢驗(yàn),我們有理由相信,基于基礎(chǔ)數(shù)據(jù)建模和大規(guī)模計(jì)算模擬的選舉預(yù)測(cè)的技術(shù)不僅是可行的,而且是一個(gè)更為有效的技術(shù)路徑。除此之外,ABM 模擬結(jié)果還能夠幫助我們更加精準(zhǔn)地理解選舉行為和選舉政治的隱藏動(dòng)力學(xué),即反饋增進(jìn)社會(huì)科學(xué)研究。
(二) 打擊毒品網(wǎng)絡(luò)
對(duì)南美毒品網(wǎng)絡(luò)和美國毒品販運(yùn)的計(jì)算模擬是學(xué)術(shù)界最近的一個(gè)非常有益的研究。③ 自從美國總統(tǒng)尼克松在1971年宣布“向毒品宣戰(zhàn)”之后,美國一直試圖阻斷或者大幅削弱南美洲原產(chǎn)地和美國市場(chǎng)之間的販運(yùn)網(wǎng)絡(luò)。但是經(jīng)過幾十年的努力,“向毒品宣戰(zhàn)”的效果卻非常不理想。事實(shí)上,盡管美國投入了大量的人力、物力、財(cái)力用于打擊毒品走私,但是美國的毒品零售價(jià)一直在下降(意味著毒品供應(yīng)一直在穩(wěn)定增長(zhǎng)),且整個(gè)西半球的毒品走私的地理區(qū)域從1996年的200多萬平方英里擴(kuò)展到了2017年的700多萬平方英里。①
為找到“向毒品宣戰(zhàn)”未達(dá)理想效果的原因,美國多所高校的研究團(tuán)隊(duì)共同開發(fā)了一個(gè)基于地理信息系統(tǒng)、整合了復(fù)雜社會(huì)網(wǎng)絡(luò)的ABM 模擬平臺(tái),即“毒販邏輯”(NarcoLogic)模擬平臺(tái),用來模擬毒販在時(shí)空中應(yīng)對(duì)阻斷攻擊的決策,并以這些決策與美國的打擊措施之間的互動(dòng),探究阻斷無效的根本原因。
該模擬平臺(tái)整合了多個(gè)理論觀點(diǎn)、實(shí)證研究、媒體報(bào)道,以及學(xué)者們?cè)谠摰貐^(qū)多年的實(shí)地調(diào)查研究。參數(shù)和驗(yàn)證過程以現(xiàn)有最完整和權(quán)威的可卡因非法流動(dòng)數(shù)據(jù)為基礎(chǔ)。該模擬再現(xiàn)了毒販與阻斷力量之間的“貓和老鼠”游戲在時(shí)空下的動(dòng)態(tài)變化?;谀M可視化,該模擬平臺(tái)還直觀地呈現(xiàn)了毒品販運(yùn)網(wǎng)絡(luò)的結(jié)構(gòu)和功能,刻畫了販毒者和執(zhí)法機(jī)關(guān)之間“斗智斗勇”所產(chǎn)生的涌現(xiàn)性結(jié)果。
該模擬平臺(tái)包含3類行為體:販毒網(wǎng)絡(luò)(更具體地說是南美的“毒品卡特爾”)、轉(zhuǎn)運(yùn)網(wǎng)絡(luò)(或者說是毒品批發(fā)和零售行為體,這些行為體本身顯然也是小型的網(wǎng)絡(luò),但是他們可以和不同的“毒品卡特爾”合作)以及攔截者(特別是美國緝毒署)。每一個(gè)行為體都有一些特定的特征或?qū)傩裕@些屬性可以用數(shù)據(jù)加以刻畫。具體來說,販毒網(wǎng)絡(luò)有8個(gè)屬性,轉(zhuǎn)運(yùn)網(wǎng)絡(luò)有15個(gè)屬性,攔截行為體有4個(gè)屬性。這個(gè)模擬平臺(tái)的環(huán)境則有9個(gè)不同的屬性。系統(tǒng)中每一個(gè)行為體的行為都會(huì)視其他行為體的行為及環(huán)境因素來進(jìn)行決策。而這些不同的決策由4個(gè)簡(jiǎn)潔的方程刻畫。
該平臺(tái)模擬了兩個(gè)不同的大場(chǎng)景。一個(gè)場(chǎng)景是不同的販毒網(wǎng)絡(luò)和轉(zhuǎn)運(yùn)網(wǎng)絡(luò)相互監(jiān)測(cè)、相互滲透,甚至相互通氣。換句話說,整個(gè)美洲的販毒網(wǎng)絡(luò)和轉(zhuǎn)運(yùn)網(wǎng)絡(luò)都在一個(gè)更大的網(wǎng)絡(luò)中決策與行動(dòng)。另一個(gè)大場(chǎng)景則是不同的販毒網(wǎng)絡(luò)和轉(zhuǎn)運(yùn)網(wǎng)絡(luò)各自為戰(zhàn)。通過比較,研究人員發(fā)現(xiàn),基于網(wǎng)絡(luò)行為體的模型表現(xiàn)更好。這表明,不僅每一個(gè)相對(duì)獨(dú)立的毒品走私團(tuán)伙是一個(gè)社會(huì)網(wǎng)絡(luò),而且整個(gè)美洲的毒品販運(yùn)體系是一個(gè)大型網(wǎng)絡(luò)。這背后的邏輯不僅體現(xiàn)了販毒集團(tuán)自上向下尋求平衡風(fēng)險(xiǎn)和收益,同時(shí)體現(xiàn)了販毒集團(tuán)和轉(zhuǎn)運(yùn)網(wǎng)絡(luò)有全局觀:他們不僅僅是從局部來考慮行動(dòng)。這個(gè)模擬的另一個(gè)重要發(fā)現(xiàn)是:為躲避打擊,在一定時(shí)間內(nèi),毒品走私集團(tuán)的走私地域會(huì)變得更加彌散,走私方式更趨靈活和暴力。
基于ABM 模擬,NarcoLogic能夠幫助美國緝毒部門對(duì)不同的毒品政策情境及其對(duì)販運(yùn)者行為的可能影響,以及與反毒品戰(zhàn)爭(zhēng)的軍事化有關(guān)的許多附帶損害進(jìn)行更加系統(tǒng)的評(píng)估,從而能夠幫助美國的緝毒部門制定更加有效的反毒品措施。不僅如此,該研究還通過模擬發(fā)現(xiàn),不同販毒集團(tuán)并不是完全獨(dú)立的行為體,而是在一個(gè)大型網(wǎng)絡(luò)中既有競(jìng)爭(zhēng)又有協(xié)同的行為體。因此,美國的緝毒行為也必須從局部和全局這兩個(gè)層面出發(fā),才能有效地進(jìn)行攔截。
四、 基于計(jì)算社會(huì)科學(xué),建設(shè)有中國特色的科學(xué)決策支持體系
以上的討論表明,計(jì)算社會(huì)科學(xué)確實(shí)有可能給決策科學(xué)中的科學(xué)決策帶來一些嶄新的解決辦法,從而為傳統(tǒng)上主要依賴專家意見的科學(xué)決策帶來巨大的變革。
主要依賴專家解讀和判斷的傳統(tǒng)的決策咨詢是前信息革命時(shí)代的產(chǎn)物。由于眾多數(shù)據(jù)的缺失和缺乏足夠的計(jì)算能力,決策咨詢?cè)诤芏鄷r(shí)候只能依賴于專家的判斷。這種傳統(tǒng)的決策咨詢幾乎不可能有效地幫助現(xiàn)代國家和企業(yè)應(yīng)對(duì)高度復(fù)雜且變化快速的環(huán)境。因此,隨著數(shù)據(jù)收集能力和處理能力的大幅提升,世界主要國家都在投入大量的資源來建設(shè)基于數(shù)據(jù)和計(jì)算或者說是基于計(jì)算社會(huì)科學(xué)的決策咨詢體系,以能夠有效應(yīng)對(duì)高度復(fù)雜且變化快速的環(huán)境。
在基于計(jì)算社會(huì)科學(xué)的戰(zhàn)略咨詢體系這一領(lǐng)域,美國居于領(lǐng)先地位。在計(jì)算社會(huì)科學(xué)到來之前,美國的核心決策支持體系以及一些重要部門就已經(jīng)進(jìn)入了計(jì)算時(shí)代。比如,最開始由美國空軍支持的著名的蘭德公司(RAND Corporation)一直都在開發(fā)基于計(jì)算的決策支持系統(tǒng)。事實(shí)上,世界上第一個(gè)人工智能項(xiàng)目“邏輯理論家”(The Logic Theorist)就是由蘭德公司支持研發(fā)的。① 類似機(jī)構(gòu)還有隸屬于美國海軍的海軍分析中心(Centerfor Naval Analysis,CNA)。
更為重要的是,自20世紀(jì)六七十年代起,美國軍方就通過其隸屬于國防部的國防高級(jí)研究計(jì)劃署(Defense Advanced Research Projects Agency,DARPA)一直在支持這類研究開發(fā)。經(jīng)過幾十年的積累和探索,2000年之后,美國國防部推出了新一代基于計(jì)算社會(huì)科學(xué)的整合危機(jī)早期預(yù)警系統(tǒng)(Integrated Crisis Early Warning System,ICEWS)。除了美國的情報(bào)系統(tǒng)之外,參與該系統(tǒng)研發(fā)的大學(xué)包括哈佛大學(xué)、賓州州立大學(xué)、馬里蘭大學(xué)、喬治·梅森大學(xué)等。盡管整合危機(jī)早期預(yù)警系統(tǒng)還有待改進(jìn),但它已經(jīng)在美國應(yīng)對(duì)不同地區(qū)和國家可能出現(xiàn)的危機(jī)、反恐以及支持阿富汗和伊拉克的軍事行動(dòng)中都發(fā)揮了重要作用。美國軍方還支持了提出計(jì)算社會(huì)科學(xué)的拉澤爾的很多研究。② 顯然,美國軍方對(duì)這方面的發(fā)展一直都非常關(guān)注。③
美國政府支持的另一項(xiàng)研發(fā)是美國國務(wù)院下屬的重建與穩(wěn)定聯(lián)合辦公室(Office of the Coordinator for Reconstruction and Stabilization,S/CRS)的“國家重建和穩(wěn)定”(Project of State Reconstruction and Stabilization,PSRS)項(xiàng)目。2011年,該辦公室變成了美國國務(wù)院的沖突與穩(wěn)定行動(dòng)署(Bureau ofConflict and Stabilization Operations,BCSO)。沖突與穩(wěn)定行動(dòng)署支持的“國家重建和穩(wěn)定”項(xiàng)目主要是針對(duì)美國的某些盟國或者美國侵略過的國家有可能出現(xiàn)動(dòng)亂之后的重建和穩(wěn)定。參與該項(xiàng)目研發(fā)的機(jī)構(gòu)包括斯坦福大學(xué)、加州大學(xué)圣地亞哥分校、布魯金斯學(xué)會(huì)等。該項(xiàng)目的研究為美國在伊拉克和阿富汗以及一些非洲國家的重建和穩(wěn)定行動(dòng)提供了重要的戰(zhàn)略戰(zhàn)術(shù)咨詢。除美國之外,另一些發(fā)達(dá)國家也都在從事類似的研發(fā)工作。
總之,信息收集功能以及信息處理能力是任何一個(gè)決策支持體系的基本能力。就中國而言,目前的決策支持體系只具備基本的信息收集能力和相對(duì)初級(jí)的信息處理能力,總體缺乏嚴(yán)格意義上的計(jì)算支持,更談不上復(fù)雜的計(jì)算模擬。因此,我國迫切需要建設(shè)一個(gè)基于計(jì)算社會(huì)科學(xué)的戰(zhàn)略咨詢體系,即構(gòu)建一個(gè)集社會(huì)科學(xué)、數(shù)據(jù)技術(shù)、計(jì)算機(jī)模擬、機(jī)器學(xué)習(xí)及人工智能為一體的技術(shù)平臺(tái)。與其他的關(guān)鍵技術(shù)一樣,這樣的技術(shù)平臺(tái)亦將成為國家核心能力的重要組成部分。該技術(shù)平臺(tái)最終應(yīng)具備以下基礎(chǔ)技術(shù)能力。
第一,能夠整合數(shù)據(jù)、算法和算力。只有能夠整合這3個(gè)要素的技術(shù)平臺(tái)才可能是真正有用的技術(shù)平臺(tái)。當(dāng)然,針對(duì)不同類型的復(fù)雜決策問題,平臺(tái)肯定會(huì)有所不同。第二,能夠整合專家知識(shí)和判斷,并能推演他們不同的理解和判斷是否正確?;谟?jì)算社會(huì)科學(xué)的戰(zhàn)略咨詢體系,不是拋棄國別與問題專家的判斷,而是使他們的知識(shí)的效用最大化,減少重大決策對(duì)專家判斷的依賴程度,甚至幫助專家提升他們的理解和判斷能力,從而可以更好地支持決策。
基于以上兩項(xiàng)基礎(chǔ)性能力,在應(yīng)用層面,這些技術(shù)平臺(tái)還需要具備以下3個(gè)特征。第一,廣適性。一旦這樣的技術(shù)平臺(tái)被開發(fā)出來,研究者只需擁有某些特定國家的有關(guān)數(shù)據(jù)(包括情報(bào)數(shù)據(jù)),就能對(duì)這個(gè)國家有可能面臨的高烈度戰(zhàn)略風(fēng)險(xiǎn)進(jìn)行評(píng)估預(yù)測(cè),并且推演國家不同應(yīng)對(duì)措施的效果。第二,即時(shí)性。平臺(tái)最終應(yīng)該能夠自動(dòng)抓取最新數(shù)據(jù),并據(jù)此進(jìn)行計(jì)算(包括模擬),從而能夠讓國家盡早掌握重大跡象和動(dòng)向,規(guī)避風(fēng)險(xiǎn)。第三,一定時(shí)空內(nèi)的精確性和實(shí)時(shí)性。人類社會(huì)的高度復(fù)雜性和人類的意識(shí)意味著人類不大可能在人類社會(huì)中實(shí)現(xiàn)分秒不差的預(yù)測(cè),但是,我們發(fā)展的這些技術(shù)平臺(tái)最終應(yīng)能夠?qū)崿F(xiàn)對(duì)某些高烈度風(fēng)險(xiǎn)的行為和事件在一定時(shí)空內(nèi)的預(yù)測(cè),并且能夠模擬防范手段,從而為提升國家的應(yīng)對(duì)能力提供一定的知識(shí)保障。
要發(fā)展這樣的體系,當(dāng)然離不開國家和社會(huì)的投入和支持,具體措施至少應(yīng)該包括以下六個(gè)方面。第一,國家必須從長(zhǎng)治久安的戰(zhàn)略高度深刻認(rèn)識(shí)到計(jì)算社會(huì)科學(xué)對(duì)戰(zhàn)略決策造成的廣泛和深遠(yuǎn)的沖擊。和高性能芯片一樣,“決策計(jì)算社會(huì)科學(xué)”是國家硬實(shí)力的關(guān)鍵維度之一,國家必須高度重視。第二,逐漸提高國家對(duì)決策咨詢的科學(xué)化要求,從需求側(cè)提升對(duì)基于計(jì)算社會(huì)科學(xué)的決策咨詢的需求,逐步提高以計(jì)算社會(huì)科學(xué)為基礎(chǔ)進(jìn)行推演和判定的咨詢報(bào)告的占比。第三,基于高度的戰(zhàn)略重視,加大國家對(duì)計(jì)算社會(huì)科學(xué)的研究投入,特別是加大對(duì)以預(yù)測(cè)和推演為目標(biāo)的研究與開發(fā)的支持力度。第四,在相關(guān)人才的培養(yǎng)和學(xué)術(shù)團(tuán)隊(duì)建設(shè)上,應(yīng)更加鼓勵(lì)跨學(xué)科的學(xué)術(shù)培養(yǎng)體系和協(xié)作平臺(tái),盡快將計(jì)算社會(huì)科學(xué)確立為與學(xué)位掛鉤的交叉學(xué)科或者專業(yè)。第五,計(jì)算社會(huì)科學(xué)的發(fā)展離不開大規(guī)模數(shù)據(jù),更離不開數(shù)據(jù)及算法的共享。目前大規(guī)模數(shù)據(jù)的持有者主要是企業(yè)和政府,國家應(yīng)該盡快要求企業(yè)共享那些不涉及用戶隱私的數(shù)據(jù)(比如隱去了用戶個(gè)人信息的出行數(shù)據(jù)、消費(fèi)數(shù)據(jù)等),并鼓勵(lì)不同政府機(jī)構(gòu)和研究機(jī)構(gòu)建立數(shù)據(jù)、算法和模型的共享資源平臺(tái)。第六,鼓勵(lì)相關(guān)民營(yíng)企業(yè)加大研發(fā)投入,加強(qiáng)校企聯(lián)合。
中國的計(jì)算社會(huì)科學(xué)還有很長(zhǎng)的路要走,但中國是少數(shù)擁有足夠人力、物力(特別是科技能力)、財(cái)力來大力發(fā)展基于計(jì)算社會(huì)科學(xué)的戰(zhàn)略咨詢體系的經(jīng)濟(jì)體之一。當(dāng)然,要達(dá)成這樣的目標(biāo),既需要數(shù)據(jù)技術(shù)和計(jì)算能力,也需要從既有的社會(huì)科學(xué)中汲取必要的理論和實(shí)證成果。換句話說,我們需要真正地將社會(huì)科學(xué)與計(jì)算機(jī)技術(shù)和數(shù)據(jù)技術(shù)結(jié)合起來。因此,計(jì)算社會(huì)科學(xué)與決策科學(xué)的結(jié)合并不是要取代專家知識(shí),相反,社會(huì)科學(xué)家頭腦里的知識(shí)對(duì)于計(jì)算社會(huì)科學(xué)的進(jìn)步是不可或缺的基礎(chǔ)。① 社會(huì)科學(xué)家應(yīng)該和計(jì)算機(jī)科學(xué)家、數(shù)據(jù)科學(xué)家一起,與政府以及企業(yè)攜起手來,為中國的科學(xué)決策乃至整個(gè)中國的決策科學(xué)的進(jìn)一步科學(xué)化而共同努力。
五、 結(jié)語
可以想象,在未來的國際競(jìng)爭(zhēng)中,完全不依賴數(shù)據(jù)和技術(shù)的傳統(tǒng)預(yù)判決策模式將會(huì)面臨巨大的劣勢(shì)。
孫子曰:“故上兵伐謀,其次伐交,其次伐兵,其下攻城?!庇衷唬骸拔糁茟?zhàn)者,先為不可勝。以待敵之可勝。不可勝在己,可勝在敵。故善戰(zhàn)者,能為不可勝,不能使敵必可勝。故曰:勝可知,而不可為?!噬茟?zhàn)者,立于不敗之地,而不失敵之?dāng)∫病J枪蕜俦葎俣笄髴?zhàn),敗兵先戰(zhàn)而后求勝?!雹僭谙喈?dāng)長(zhǎng)的時(shí)間里,這樣的境界只能是理想,且基本只能是依靠主帥和軍師的天賦。而在計(jì)算社會(huì)科學(xué)已經(jīng)蓬勃興起的今天,盡管“主帥”和“軍師”的判斷依舊重要,但許多不確定性已經(jīng)可以通過計(jì)算社會(huì)科學(xué)來大大降低。
基于此,中國的決策支持體系需要轉(zhuǎn)變思想,更加堅(jiān)定地?fù)肀Ъ夹g(shù),不能只依賴主要基于專家判斷的傳統(tǒng)的決策咨詢模式。國家需要從戰(zhàn)略技術(shù)的角度支持基于計(jì)算社會(huì)科學(xué)的決策科學(xué)的發(fā)展,而發(fā)展基于計(jì)算社會(huì)科學(xué)的決策科學(xué)也必將推動(dòng)中國社會(huì)科學(xué)自身的進(jìn)步。