殷佳 梁玉成
(中山大學(xué) 社會(huì)學(xué)與人類(lèi)學(xué)學(xué)院,廣東 廣州 510275)
人口學(xué)是一門(mén)高度依賴(lài)數(shù)據(jù)與方法的學(xué)科。人口學(xué)家使用創(chuàng)造性技術(shù),利用創(chuàng)新方法處理挑戰(zhàn)性數(shù)據(jù)的歷史是學(xué)科發(fā)展進(jìn)步的重要推動(dòng)力。盡管公元前2000 多年就有關(guān)于人口數(shù)量和特征的調(diào)查登記活動(dòng),但基于數(shù)據(jù)的人口分析直到1662 年Graunt 出版《關(guān)于死亡表的自然的和政治的觀察》時(shí)才真正出現(xiàn)。他利用倫敦教區(qū)公布的人口自然變動(dòng)數(shù)據(jù),運(yùn)用數(shù)學(xué)工具和簡(jiǎn)單統(tǒng)計(jì)方法,編制了第一張反映人口出生和死亡規(guī)律的生命表,提供了人口分析的基本思路,奠定了人口學(xué)的基礎(chǔ)[1]。長(zhǎng)期以來(lái),對(duì)人口系統(tǒng)內(nèi)部生育、死亡、遷移各要素的分析及其與社會(huì)、經(jīng)濟(jì)等外部要素互動(dòng)規(guī)律的探討,主要依賴(lài)于政府或統(tǒng)計(jì)機(jī)構(gòu)的人口普查、抽樣調(diào)查和人口登記數(shù)據(jù),注重使用特定的人口學(xué)概念、測(cè)量指標(biāo)與統(tǒng)計(jì)方法[2]。數(shù)據(jù)的拓展與方法的創(chuàng)新在不同時(shí)期為人口研究的發(fā)展注入了生機(jī),為人口現(xiàn)象的研究帶來(lái)了機(jī)遇和挑戰(zhàn)。
20 世紀(jì)90 年代,互聯(lián)網(wǎng)的傳播和計(jì)算機(jī)技術(shù)的快速發(fā)展推動(dòng)人類(lèi)邁入數(shù)字時(shí)代。社會(huì)生活在數(shù)字環(huán)境中發(fā)生,大量的社會(huì)互動(dòng)以互聯(lián)網(wǎng)為媒介,由此形成和積累了關(guān)于個(gè)體行為與人類(lèi)社會(huì)的海量數(shù)據(jù)。這些在規(guī)模、形式、產(chǎn)生范圍和速度上呈現(xiàn)爆炸式增長(zhǎng)的數(shù)據(jù)統(tǒng)稱(chēng)為大數(shù)據(jù),數(shù)據(jù)收集、傳輸、存儲(chǔ)和計(jì)算能力的根本性轉(zhuǎn)變?yōu)榇髷?shù)據(jù)的生成和分析奠定了基礎(chǔ)[3]。大數(shù)據(jù)的本質(zhì)是社會(huì)行為的集合[4],因此核心人口事件如生育、結(jié)婚、死亡、遷移等都潛藏在這些數(shù)據(jù)中,人口統(tǒng)計(jì)特征則可以借助技術(shù)手段從數(shù)據(jù)中提取,進(jìn)而對(duì)人口規(guī)模、結(jié)構(gòu)、分布及其變遷進(jìn)行推測(cè)估計(jì)。對(duì)大數(shù)據(jù)的充分挖掘和利用將有助于更廣泛深入地了解世界各地歷史和當(dāng)代的人口動(dòng)態(tài)。大數(shù)據(jù)掀起了一場(chǎng)“數(shù)據(jù)革命”。它對(duì)社會(huì)科學(xué)的顛覆性創(chuàng)新不僅在于提供了新數(shù)據(jù),更重要的是它以前所未有的廣度、深度和規(guī)模利用、收集和分析數(shù)據(jù)的能力[5]。結(jié)構(gòu)復(fù)雜、形式多樣的大數(shù)據(jù)需要新的收集方式、分析技術(shù)和可視化方法,同時(shí)還要形成基于大數(shù)據(jù)的新研究思維與研究路徑。
本研究嘗試在人口學(xué)視域下,討論數(shù)據(jù)革命為人口研究帶來(lái)的新機(jī)遇。首先從數(shù)據(jù)生產(chǎn)與收集方式轉(zhuǎn)變上區(qū)分了傳統(tǒng)的調(diào)查設(shè)計(jì)數(shù)據(jù)與當(dāng)前的數(shù)字痕跡數(shù)據(jù)和未來(lái)的生成性數(shù)據(jù),然后聚焦痕跡數(shù)據(jù),根據(jù)數(shù)字化程度的高低將痕跡數(shù)據(jù)劃分為電子存檔數(shù)據(jù)、設(shè)備感知數(shù)據(jù)與網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)三個(gè)類(lèi)型。接著歸納了痕跡數(shù)據(jù)在人口研究中的應(yīng)用,在核心議題遷移流動(dòng)、生育行為態(tài)度、死亡與健康研究上的深化,在研究對(duì)象上的拓展。然后討論了痕跡數(shù)據(jù)在人口研究中的應(yīng)用思路,在研究視角上拓展了時(shí)間和空間維度的分析,在研究方法上突出多種來(lái)源數(shù)據(jù)的結(jié)合,在研究實(shí)踐上更具時(shí)效性的痕跡數(shù)據(jù)有利于提升研究成果的應(yīng)用范圍和應(yīng)用價(jià)值。最后本研究從數(shù)據(jù)獲取和使用的角度指出了痕跡數(shù)據(jù)帶來(lái)的一系列挑戰(zhàn),這些挑戰(zhàn)要求在制度層面推動(dòng)建設(shè)現(xiàn)代化的數(shù)據(jù)生態(tài)系統(tǒng),制定明確的數(shù)據(jù)開(kāi)放共享政策和流程。本研究希望展示痕跡數(shù)據(jù)的價(jià)值,為推進(jìn)數(shù)字時(shí)代的人口研究提供新思路和新視野。
數(shù)據(jù)革命最明顯的特征是數(shù)據(jù)規(guī)模與形式的指數(shù)級(jí)增長(zhǎng),本質(zhì)是數(shù)據(jù)生產(chǎn)方式的轉(zhuǎn)變,亦即數(shù)據(jù)收集與存儲(chǔ)能力的提升。隨著互聯(lián)網(wǎng)成為人們?nèi)粘;顒?dòng)的工具和平臺(tái),基于網(wǎng)絡(luò)的所有活動(dòng)都能被實(shí)時(shí)記錄,手機(jī)、攝像頭等智能設(shè)備也具有捕獲與記錄人類(lèi)行為活動(dòng)的能力,由此產(chǎn)生了大量出于與研究無(wú)關(guān)的目的而意外收集的痕跡數(shù)據(jù)。痕跡數(shù)據(jù)的大規(guī)模出現(xiàn)和應(yīng)用是社會(huì)生活數(shù)字化的必然要求和結(jié)果。相較于傳統(tǒng)以研究為目的、通過(guò)科學(xué)系統(tǒng)的調(diào)查收集的設(shè)計(jì)數(shù)據(jù),痕跡數(shù)據(jù)的生成過(guò)程和屬性特征反映了數(shù)據(jù)生產(chǎn)方式的根本性轉(zhuǎn)變。 當(dāng)前,人工智能技術(shù)的跨越式發(fā)展為數(shù)據(jù)生產(chǎn)提供了新的契機(jī),基于Transformer 架構(gòu)的大語(yǔ)言模型(Large Languge Models,LLMs)經(jīng)過(guò)大量數(shù)據(jù)的預(yù)訓(xùn)練,可以模擬真實(shí)人類(lèi)的反應(yīng)和行為,自主生成有關(guān)人口行為的大量數(shù)據(jù),這類(lèi)生成性數(shù)據(jù)有別于設(shè)計(jì)數(shù)據(jù)和痕跡數(shù)據(jù)的生產(chǎn)方式,將極大地影響未來(lái)的社會(huì)科學(xué)研究。
如果從數(shù)據(jù)的規(guī)模大小、存儲(chǔ)難度和分析復(fù)雜性看,人口學(xué)對(duì)大數(shù)據(jù)并不陌生。人口統(tǒng)計(jì)的特殊性使得人口數(shù)據(jù)的規(guī)模與人口數(shù)量緊密相關(guān)。1962 年,美國(guó)人口普查局向研究人員提供了1960 年人口普查千分之一的微觀數(shù)據(jù)樣本,自此基于人口普查的大規(guī)模微觀數(shù)據(jù)開(kāi)始被創(chuàng)建和利用,這一數(shù)據(jù)對(duì)社會(huì)科學(xué)具有重大創(chuàng)新意義,很快成為人口研究的基本工具[6]。當(dāng)前,明尼蘇達(dá)大學(xué)的綜合公共使用微數(shù)據(jù)集(IPUMS)是世界上最大的人口微觀數(shù)據(jù)庫(kù),可以為學(xué)界提供網(wǎng)絡(luò)公開(kāi)可訪問(wèn)的自1960 年以來(lái)共計(jì)103 個(gè)國(guó)家和地區(qū)的547 項(xiàng)人口普查,超過(guò)10 億條匿名綜合微觀數(shù)據(jù)樣本。在大多數(shù)國(guó)家,人口大數(shù)據(jù)[7]仍然遵循相對(duì)傳統(tǒng)的數(shù)據(jù)生產(chǎn)方式。以我國(guó)的人口普查為例,它以人口研究為明確目的,依據(jù)人口理論預(yù)先創(chuàng)建具有指定目的和用途的問(wèn)題,由國(guó)家和地方統(tǒng)計(jì)局主導(dǎo),采用科學(xué)系統(tǒng)的調(diào)查、抽樣和估計(jì)方法,通過(guò)表格式問(wèn)卷收集數(shù)據(jù),由普查員在特定時(shí)點(diǎn)進(jìn)行入戶(hù)訪問(wèn)或由被調(diào)查者主動(dòng)填答。普查數(shù)據(jù)要求全面準(zhǔn)確,盡力包含全國(guó)范圍內(nèi)的所有常住人口和家庭,數(shù)據(jù)質(zhì)量和信息比極高。人口普查的高昂成本和執(zhí)行難度,使得調(diào)查通常每五年或十年一次,可直接訪問(wèn)的公開(kāi)數(shù)據(jù)一般為區(qū)縣一級(jí)的匯總數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)生產(chǎn)方式面臨著成本上升、響應(yīng)率下降、時(shí)效性低、政治干預(yù)、隱私泄露等問(wèn)題[8],多個(gè)國(guó)家開(kāi)始使用衛(wèi)星遙感技術(shù)、互聯(lián)網(wǎng)自主填報(bào)、電子設(shè)備登記、手機(jī)信令數(shù)據(jù)、行政登記系統(tǒng)等來(lái)輔助或替代人口調(diào)查。
過(guò)去二十年,互聯(lián)網(wǎng)、手機(jī)、傳感器等數(shù)字技術(shù)的廣泛傳播和使用,產(chǎn)生了大量關(guān)于人類(lèi)活動(dòng)的數(shù)字痕跡數(shù)據(jù),即一般指稱(chēng)的大數(shù)據(jù)。這類(lèi)規(guī)模巨大、種類(lèi)復(fù)雜、速度可變的新型數(shù)據(jù)的生成,一方面是由于智能設(shè)備對(duì)非在線生活進(jìn)行數(shù)字捕獲、記錄和存儲(chǔ)的能力增強(qiáng),例如人們用手機(jī)撥打電話被識(shí)別形成通訊位置記錄、日常用水電氣產(chǎn)生能源消費(fèi)和燈光數(shù)據(jù)、歷史留存的報(bào)紙書(shū)籍被掃描為數(shù)字形式,城市公共場(chǎng)所攝像頭進(jìn)行持續(xù)視頻記錄等,智能設(shè)備建構(gòu)了一個(gè)日益密集的數(shù)字環(huán)境,使得社會(huì)生活被更廣泛地記錄和監(jiān)測(cè)。另一方面人類(lèi)日常生活愈發(fā)依賴(lài)以互聯(lián)網(wǎng)為媒介,幾乎所有的在線活動(dòng)都能被平臺(tái)自動(dòng)捕獲和記錄,例如人們使用網(wǎng)絡(luò)搜索引擎、在線地圖導(dǎo)航、線上購(gòu)物、社交、發(fā)帖等都會(huì)留下不同形式的數(shù)字痕跡,互聯(lián)網(wǎng)建構(gòu)了一個(gè)廣闊的數(shù)字空間,能自動(dòng)跟蹤記錄空間內(nèi)的行為數(shù)據(jù),在日益廣泛的數(shù)字生活中形成有關(guān)人類(lèi)活動(dòng)的自我測(cè)量。相較傳統(tǒng)數(shù)據(jù)生產(chǎn)方式下的設(shè)計(jì)數(shù)據(jù),痕跡數(shù)據(jù)的產(chǎn)生并非以研究為目的,而是社會(huì)生活數(shù)字化的副產(chǎn)品。痕跡數(shù)據(jù)由智能設(shè)備或在線平臺(tái)所屬的多個(gè)企業(yè)機(jī)構(gòu)進(jìn)行收集存儲(chǔ),能夠?qū)υ诰€發(fā)生的行為進(jìn)行動(dòng)態(tài)、持續(xù)的實(shí)時(shí)測(cè)量,數(shù)據(jù)范圍則與不同地區(qū)和群體對(duì)數(shù)字技術(shù)的使用能力和應(yīng)用范圍密切相關(guān),政府、公眾等第三方可以通過(guò)協(xié)議或有償支付從平臺(tái)獲取數(shù)據(jù)。痕跡數(shù)據(jù)具有數(shù)字、文本、圖像、網(wǎng)絡(luò)、音頻等多種形式,內(nèi)容通常是龐雜多變、混亂模糊的,容易受到故意或無(wú)意的操縱,從不同平臺(tái)獲取的數(shù)據(jù)相互之間難以協(xié)調(diào)且標(biāo)準(zhǔn)化程度極低。
2017 年,Transformer 算法將深度學(xué)習(xí)推入大模型方向,人工智能迎來(lái)新的發(fā)展范式,五年后ChatGPT 的發(fā)布標(biāo)志著生成式人工智能(Generative AI)的成熟與應(yīng)用,其擁有了更趨近于人類(lèi)的語(yǔ)言、理解、學(xué)習(xí)、推理和創(chuàng)造能力。與過(guò)往的分析式AI 只能根據(jù)已有數(shù)據(jù)進(jìn)行分析、判斷和預(yù)測(cè)不同,生成式AI 能夠更加準(zhǔn)確的捕捉語(yǔ)言中的復(fù)雜關(guān)系,以自然語(yǔ)言進(jìn)行處理、生成和交互,經(jīng)過(guò)對(duì)類(lèi)型豐富的海量數(shù)據(jù)的學(xué)習(xí)演繹,更近似地模擬人類(lèi)的反應(yīng)和行為,根據(jù)指令完成各種任務(wù),生成文字、圖像、視頻等多樣內(nèi)容和數(shù)據(jù)。這意味著大語(yǔ)言模型可能替代真實(shí)人類(lèi)生產(chǎn)并收集數(shù)據(jù),作者將這種由AI 主體(AIagent)產(chǎn)生的數(shù)據(jù)稱(chēng)為生成性數(shù)據(jù)。生成性數(shù)據(jù)由研究者主導(dǎo),根據(jù)研究目的自行設(shè)計(jì)數(shù)據(jù)的范圍、內(nèi)容和收集時(shí)限,借助開(kāi)源大模型完成數(shù)據(jù)的生成和收集過(guò)程。已有研究使用大語(yǔ)言模型構(gòu)建AI主體,基于觀察(記憶)、計(jì)劃和反思的架構(gòu)讓主體具有自主生成行為的能力[9],可以對(duì)這些生成式AI 主體賦予不同的人口特征、家庭環(huán)境、流動(dòng)偏好等,實(shí)現(xiàn)人口行為的可信模擬,通過(guò)設(shè)定、調(diào)整模擬環(huán)境和交互場(chǎng)景探索行為模式和行動(dòng)結(jié)果,驗(yàn)證人口研究領(lǐng)域的諸多理論假設(shè),同時(shí)為社會(huì)預(yù)測(cè)和政策評(píng)估提供決策依據(jù)。大語(yǔ)言模型與基于主體的建模(ABM)的混合可以使AI 主體具備類(lèi)似人類(lèi)的認(rèn)知和決策能力,在一個(gè)基于現(xiàn)實(shí)經(jīng)驗(yàn)的自主演化的未來(lái)或平行世界中進(jìn)行人口現(xiàn)象的模擬,獲取難以在現(xiàn)實(shí)中收集的人口數(shù)據(jù)或測(cè)試一些高風(fēng)險(xiǎn)項(xiàng)目。此外,基于可靠透明的訓(xùn)練數(shù)據(jù)、算法模型、提示詞工程和基準(zhǔn)選擇,大語(yǔ)言模型還可以提供趨近真實(shí)的調(diào)查數(shù)據(jù)、生成研究假設(shè),提升研究的普遍性和廣泛性并減少偏差[10],有效的生成性數(shù)據(jù)將能準(zhǔn)確捕捉不同人口群體的特征和觀念,反映現(xiàn)實(shí)總體。未來(lái),基于大模型的生成性數(shù)據(jù)在社會(huì)科學(xué)研究中的應(yīng)用可能改變研究者的角色,重塑科研格局與研究方法。表1 對(duì)設(shè)計(jì)數(shù)據(jù)、痕跡數(shù)據(jù)與生成性數(shù)據(jù)代表的三種不同的數(shù)據(jù)生產(chǎn)方式進(jìn)行了比較。由于生成性數(shù)據(jù)尚處于興起階段,本文主要是對(duì)痕跡數(shù)據(jù)在人口研究中應(yīng)用價(jià)值和思路的探討。
表1 人口學(xué)視域下三類(lèi)數(shù)據(jù)的生產(chǎn)方式比較
痕跡數(shù)據(jù)龐雜多樣,涵蓋基于智能設(shè)備和互聯(lián)網(wǎng)收集到的一切內(nèi)容,對(duì)數(shù)據(jù)類(lèi)型的全面概括超出了本研究的范圍。回顧利用痕跡數(shù)據(jù)進(jìn)行研究的各類(lèi)文獻(xiàn),使用的數(shù)據(jù)集極度分散且多樣,具體的數(shù)據(jù)源也存在更新或消失。本研究從數(shù)據(jù)的生產(chǎn)過(guò)程視角,提供了一個(gè)關(guān)于痕跡數(shù)據(jù)的模糊分類(lèi)。首先是傳統(tǒng)的紙質(zhì)記錄如家譜、書(shū)籍等被數(shù)字化,形成電子存檔數(shù)據(jù);其次是手機(jī)、攝像頭、遙感系統(tǒng)等智能設(shè)備的使用產(chǎn)生的設(shè)備感知數(shù)據(jù);最后是人們使用互聯(lián)網(wǎng)進(jìn)行搜索、社交產(chǎn)生的平臺(tái)互動(dòng)數(shù)據(jù)。三類(lèi)數(shù)據(jù)的生產(chǎn)數(shù)字化程度存在由低到高的差異,在屬性特征上也略有不同。
2.2.1 電子存檔數(shù)據(jù)
信息儲(chǔ)存經(jīng)歷了從紙質(zhì)媒介向電子媒介的轉(zhuǎn)變,出于對(duì)信息長(zhǎng)期保存和商業(yè)開(kāi)發(fā)等多種目的,企業(yè)、組織、學(xué)術(shù)團(tuán)體等多方力量正積極推進(jìn)紙質(zhì)記錄的電子化,尤其是歷史文化資料的數(shù)字轉(zhuǎn)錄。在大量的電子存檔數(shù)據(jù)中,可用于人口研究的痕跡數(shù)據(jù)以行政登記數(shù)據(jù)、在線家譜數(shù)據(jù)和文獻(xiàn)計(jì)量數(shù)據(jù)最為典型。行政登記數(shù)據(jù)是國(guó)家出于行政管理目的收集的包含人口特征的數(shù)據(jù),如戶(hù)籍管理、婚姻登記、出生登記、學(xué)籍登記、醫(yī)保信息系統(tǒng)數(shù)據(jù)等,登記系統(tǒng)的數(shù)字化使得數(shù)據(jù)收集與分析成為可能,但這些數(shù)據(jù)的公開(kāi)和使用僅面向特定的研究群體。在線家譜數(shù)據(jù),被認(rèn)為可能是第一個(gè)具有數(shù)百年歷史的大數(shù)據(jù)[11],涵蓋了漫長(zhǎng)時(shí)期的人口記錄。家譜資料一方面來(lái)源于家譜書(shū)籍、人物志、遺囑、訃告、教會(huì)記錄等歷史文獻(xiàn)和口述家譜的音視頻文件的數(shù)字轉(zhuǎn)化,另一方面是通過(guò)協(xié)作社交網(wǎng)絡(luò)以眾包方式由用戶(hù)主動(dòng)上傳、在線編修家譜[12]。家譜數(shù)據(jù)以數(shù)學(xué)圖形結(jié)構(gòu)呈現(xiàn)了宗族成員的親屬關(guān)系和譜系信息,可能包含的人口信息有姓名、血統(tǒng)、性別、出生日期、死亡日期、婚姻狀況、配偶和子女情況以及社會(huì)經(jīng)濟(jì)特征[13]。Kaplanis 的研究展示了在線家譜數(shù)據(jù)的研究潛力,基于8600 萬(wàn)份個(gè)體公開(kāi)的Geni 資料,經(jīng)過(guò)廣泛的清理和驗(yàn)證建立了530 萬(wàn)個(gè)獨(dú)立譜系,通過(guò)提取準(zhǔn)確的人口統(tǒng)計(jì)信息研究了人類(lèi)長(zhǎng)壽的遺傳結(jié)構(gòu)和遷移模式[14]。文獻(xiàn)計(jì)量數(shù)據(jù),包含了每年數(shù)百萬(wàn)份科學(xué)出版物的數(shù)據(jù)以及早年紙質(zhì)期刊的數(shù)字轉(zhuǎn)錄,具有作者的簡(jiǎn)介、隸屬關(guān)系及地址信息。隸屬關(guān)系數(shù)據(jù)可用于分析各國(guó)研究人員的科學(xué)合作和流動(dòng)性[15],使得對(duì)活躍科學(xué)家的遷移研究更加跨學(xué)科、可擴(kuò)展、縱向、及時(shí)和全面。
2.2.2 設(shè)備感知數(shù)據(jù)
各式各樣的智能設(shè)備終端實(shí)現(xiàn)了對(duì)人類(lèi)行為及其環(huán)境的實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè),手機(jī)、傳感器、攝像頭、飛行器等對(duì)發(fā)出的不同信號(hào)進(jìn)行捕獲識(shí)別,將其轉(zhuǎn)化為數(shù)字形式進(jìn)行存儲(chǔ)、傳輸和處理。手機(jī)信令數(shù)據(jù)和遙感影像數(shù)據(jù)是該來(lái)源類(lèi)型中運(yùn)用最頻繁的兩種數(shù)據(jù)。手機(jī)信令數(shù)據(jù),是一個(gè)在國(guó)家范圍內(nèi)具有較高覆蓋率、代表性的大數(shù)據(jù)。手機(jī)使用本身可以作為個(gè)體社會(huì)經(jīng)濟(jì)地位預(yù)測(cè)的指標(biāo)[16],來(lái)自手機(jī)的詳細(xì)通話記錄包含時(shí)間戳和通話持續(xù)時(shí)間、通話發(fā)起者和接收者的標(biāo)識(shí)符以及通話期間訪問(wèn)的信號(hào)基站位置等信息,使用手機(jī)上的APP 或應(yīng)用程序,在定位服務(wù)開(kāi)啟的情況下也會(huì)產(chǎn)生時(shí)間和位置信息,對(duì)手機(jī)用戶(hù)定位信息的收集產(chǎn)生了百度遷徙大數(shù)據(jù)、騰訊位置大數(shù)據(jù)等公開(kāi)數(shù)據(jù)庫(kù)。手機(jī)數(shù)據(jù)的豐富性和準(zhǔn)確性使其在研究和實(shí)踐中有著極高的價(jià)值。遙感影像數(shù)據(jù),是從高空接收來(lái)自地表的各種信號(hào),然后通過(guò)掃描、攝影、傳輸和處理,形成對(duì)地面各類(lèi)事物和現(xiàn)象的監(jiān)測(cè)和識(shí)別。夜間燈光數(shù)據(jù)就是利用前沿遙感技術(shù)生成的一類(lèi)數(shù)據(jù),DMSP-OLS 和NPPVIIRS 是目前使用最多的兩個(gè)數(shù)據(jù)庫(kù)。大量的實(shí)證研究發(fā)現(xiàn)夜間燈光數(shù)據(jù)與人口分布之間存在著顯著相關(guān)性[17],為區(qū)域人口估算和人口空間動(dòng)態(tài)變化研究提供了新數(shù)據(jù),廣泛用于人口經(jīng)濟(jì)活動(dòng)監(jiān)測(cè)、災(zāi)后管理、城市化評(píng)估和流行病學(xué)中。
2.2.3 網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)
互聯(lián)網(wǎng)建構(gòu)的數(shù)字空間使得人們基于互聯(lián)網(wǎng)的幾乎所有行為都能被跟蹤和記錄,日常生活中越來(lái)越多的部分在數(shù)字空間中完成,社交媒體平臺(tái)數(shù)據(jù)和網(wǎng)絡(luò)搜索查詢(xún)數(shù)據(jù)被廣泛用于人口學(xué)研究。社交媒體平臺(tái)數(shù)據(jù),包括來(lái)自Facebook、Twitter、新浪微博等社交媒體平臺(tái)由用戶(hù)公開(kāi)共享的信息。這些平臺(tái)允許個(gè)人、團(tuán)體和組織通過(guò)創(chuàng)建、修改、共享和參與用戶(hù)生成的內(nèi)容來(lái)協(xié)作、連接、互動(dòng)和構(gòu)建社區(qū)[18],全球社交媒體用戶(hù)正在高速增長(zhǎng),用戶(hù)規(guī)模接近50 億。社交媒體帖子的信息內(nèi)容可以被分解為:用戶(hù)個(gè)人資料,文本、圖像、聲音、視頻等內(nèi)容,發(fā)布時(shí)間戳,由位置共享或帖子內(nèi)容反映的地理信息,以及其他用戶(hù)的分享、評(píng)論和點(diǎn)贊。社交媒體數(shù)據(jù)可以用來(lái)捕獲人類(lèi)行為的各個(gè)方面,盡管存在數(shù)據(jù)質(zhì)量和代表性問(wèn)題,但基于社交媒體數(shù)據(jù)的人口統(tǒng)計(jì)與研究仍然擁有巨大潛力。網(wǎng)絡(luò)搜索查詢(xún)數(shù)據(jù),由搜索引擎或社交平臺(tái)對(duì)大規(guī)模用戶(hù)的主動(dòng)檢索行為進(jìn)行記錄,生成包含搜索內(nèi)容關(guān)鍵詞、使用語(yǔ)言、位置識(shí)別的搜索查詢(xún)歷史日志,百度指數(shù)和谷歌趨勢(shì)是兩個(gè)最典型的處理后的指標(biāo)數(shù)據(jù)。網(wǎng)絡(luò)搜索數(shù)據(jù)可以用來(lái)反映特定關(guān)鍵詞的搜索趨勢(shì)、用戶(hù)的興趣需求、輿論注意力以及人群特征等,這默認(rèn)了搜索記錄與人口特征、行為和狀態(tài)的特殊關(guān)聯(lián),可以用來(lái)進(jìn)行特定群體規(guī)模估計(jì)和生育、自殺、移民等人口行為和趨勢(shì)研究。
中國(guó)人口規(guī)模巨大的現(xiàn)實(shí)條件和政策干預(yù)下生育水平從高到低的快速轉(zhuǎn)變構(gòu)成了人口研究的獨(dú)特背景。21 世紀(jì)以來(lái)人口發(fā)展面臨著從規(guī)模限制到結(jié)構(gòu)均衡的歷史性轉(zhuǎn)變,人口特征集中表現(xiàn)為生育水平持續(xù)低迷、人口老齡化進(jìn)程加快、人口跨區(qū)域高頻流動(dòng)[19]。生育、死亡、遷移等人口行為研究的具體內(nèi)涵發(fā)生了變化,要求加快人口動(dòng)態(tài)現(xiàn)象的測(cè)量,理解人口過(guò)程的產(chǎn)生機(jī)制和影響后果,揭示人口變動(dòng)的實(shí)質(zhì)和規(guī)律。數(shù)字時(shí)代,個(gè)體與網(wǎng)絡(luò)和智能設(shè)備的交互留下大量的記錄數(shù)據(jù),在社交媒體平臺(tái)中的互動(dòng)也產(chǎn)生了與人口行為相關(guān)的海量信息。研究者可以及時(shí)、快速、低成本地從豐富的痕跡數(shù)據(jù)中找到與議題相關(guān)的數(shù)據(jù),從而對(duì)人口行為的具體表現(xiàn)、變化趨勢(shì)、公眾態(tài)度、影響因素等進(jìn)行深入研究。相較理論指導(dǎo)下信息有限的設(shè)計(jì)數(shù)據(jù),痕跡數(shù)據(jù)可以提供對(duì)人口行為和現(xiàn)象更加廣泛全面的認(rèn)識(shí),有利于傳統(tǒng)人口議題的深化和拓展。
動(dòng)態(tài)的遷移行為測(cè)量對(duì)明確的時(shí)間、空間及其變化提出了苛刻的要求,傳統(tǒng)的設(shè)計(jì)數(shù)據(jù)存在測(cè)量難、追蹤難、成本高、響應(yīng)率低等問(wèn)題,難以提供有關(guān)人口遷移規(guī)模、結(jié)構(gòu)與模式的真實(shí)可比數(shù)據(jù),數(shù)據(jù)稀缺使得人口遷移研究進(jìn)展遲緩。從移民規(guī)模估計(jì)的存量和流量指標(biāo)看,存量是特定地區(qū)在特定時(shí)點(diǎn)存在的移民總數(shù),而流量反映的是一定時(shí)期內(nèi)進(jìn)入和離開(kāi)特定地區(qū)的移民數(shù)量。存量數(shù)據(jù)主要來(lái)源于人口普查,多數(shù)國(guó)家每十年一次的普查頻率使得數(shù)據(jù)難以覆蓋更多的時(shí)間點(diǎn),并存在嚴(yán)重的滯后和漏報(bào)情況,流量數(shù)據(jù)則間接通過(guò)移民存量隨時(shí)間變化推測(cè)得出,導(dǎo)致流量與存量數(shù)據(jù)的錯(cuò)位。移民定義和統(tǒng)計(jì)口徑的差異進(jìn)一步影響了數(shù)據(jù)可比性,例如有些國(guó)家直接使用出生國(guó)或國(guó)籍而非遷移事件來(lái)定義國(guó)際移民。我國(guó)獨(dú)特的戶(hù)籍制度在測(cè)度國(guó)內(nèi)移民時(shí),將居住地與戶(hù)籍所在地跨越區(qū)縣一級(jí)行政單元定義為流動(dòng)人口,導(dǎo)致難以區(qū)分遷移人口、流動(dòng)人口和返遷人口。盡管年度全國(guó)性流動(dòng)人口動(dòng)態(tài)監(jiān)測(cè)的抽樣調(diào)查數(shù)據(jù)提供了豐富、高頻率的流動(dòng)人口研究資料,但仍然存在流入地主動(dòng)登記數(shù)據(jù)大量漏報(bào),移民統(tǒng)計(jì)問(wèn)題設(shè)置不一致[20],人戶(hù)分離難以反映現(xiàn)實(shí)的遷移流動(dòng)事件和過(guò)程等問(wèn)題,干擾了對(duì)人口遷移和流動(dòng)規(guī)模、強(qiáng)度、方向的準(zhǔn)確估計(jì)[21]。當(dāng)前僅經(jīng)合組織(OECD)國(guó)家能提供可比的年度雙邊流動(dòng)數(shù)據(jù),通過(guò)對(duì)申根信息系統(tǒng)、簽證信息系統(tǒng)的打通和數(shù)字化,由出入境部門(mén)或統(tǒng)計(jì)機(jī)構(gòu)對(duì)行政登記信息進(jìn)行匯總公布,實(shí)現(xiàn)對(duì)人口流動(dòng)情況的跟蹤監(jiān)測(cè),但行政數(shù)據(jù)是對(duì)證件變動(dòng)的事件記錄,不一定能反映實(shí)際的流動(dòng)行為?;诨ヂ?lián)網(wǎng)平臺(tái)或智能設(shè)備生成的痕跡數(shù)據(jù),為補(bǔ)充傳統(tǒng)的移民數(shù)據(jù)源并提高遷移測(cè)量提供了機(jī)會(huì),有利于更好地監(jiān)測(cè)和跟蹤人口流動(dòng)并記錄其遷移行為。
包含地理位置標(biāo)記和時(shí)間戳信息的痕跡數(shù)據(jù)可以用于估計(jì)移民的流量和存量,并對(duì)某一國(guó)家或地區(qū)的移民數(shù)量變化、遷移率趨勢(shì)進(jìn)行預(yù)測(cè)。在流動(dòng)性日益增強(qiáng)的遷移時(shí)代,痕跡數(shù)據(jù)實(shí)時(shí)連續(xù)的追蹤記錄提供了活躍用戶(hù)在個(gè)體層面的流動(dòng)軌跡數(shù)據(jù),詳細(xì)展現(xiàn)了個(gè)體在一定時(shí)期內(nèi)的遷移流動(dòng)過(guò)程,進(jìn)而在宏觀層面形成人口遷移的多種模式,尤其是能有效識(shí)別臨時(shí)流動(dòng)、循環(huán)遷移和返回遷移,增進(jìn)對(duì)國(guó)際和國(guó)內(nèi)遷移模式的認(rèn)識(shí)。Zagheni 等利用Twitter 上用戶(hù)推文中的地理定位數(shù)據(jù),估算了一定時(shí)期內(nèi)經(jīng)合組織國(guó)家之間和內(nèi)部的人口遷出率趨勢(shì)[22]。使用雅虎電子郵件中IP 地址信息估計(jì)國(guó)際流動(dòng)模式和用戶(hù)跨國(guó)遷移的可能性,還可以根據(jù)用戶(hù)自我報(bào)告的性別和年齡信息分組估計(jì)遷移率[23]。對(duì)人口遷移意愿、遷移方向和規(guī)模的預(yù)測(cè)也可以使用網(wǎng)絡(luò)搜索數(shù)據(jù),B?hme 等使用谷歌趨勢(shì)數(shù)據(jù)衡量和預(yù)測(cè)了原籍國(guó)向OECD 國(guó)家的移民意圖、目的地選擇和流動(dòng)規(guī)模的短期趨勢(shì)[24],還可以用來(lái)預(yù)測(cè)特定地區(qū)人口的遷移意圖和隨后的移民流量[25],與調(diào)查數(shù)據(jù)的對(duì)比驗(yàn)證了痕跡數(shù)據(jù)對(duì)“真實(shí)遷移意圖”的良好預(yù)測(cè)效果。平臺(tái)用戶(hù)相對(duì)人口的覆蓋率與數(shù)據(jù)來(lái)源的可靠性會(huì)影響預(yù)測(cè)的準(zhǔn)確度,蘭德公司對(duì)歐盟勞動(dòng)力跨國(guó)流動(dòng)的研究報(bào)告指出社交平臺(tái)數(shù)據(jù)用于測(cè)量和估計(jì)國(guó)家之間的勞務(wù)移民存量具有較高準(zhǔn)確度,對(duì)流量的估計(jì)準(zhǔn)確度較低[26]。
在國(guó)家內(nèi)部的遷移研究中,手機(jī)數(shù)據(jù)可以用來(lái)估算實(shí)時(shí)的、準(zhǔn)確的、高精度空間的人口規(guī)模和移民規(guī)模,被廣泛用于國(guó)家內(nèi)部人口規(guī)模與流動(dòng)模式的研究,繪制人口流動(dòng)和活動(dòng)圖等,尤其是在經(jīng)濟(jì)發(fā)展水平較低、調(diào)查統(tǒng)計(jì)不完善的國(guó)家和地區(qū)。Boy 使用土耳其電信的手機(jī)通話詳細(xì)記錄(CDR)對(duì)難民的研究指出注冊(cè)電話時(shí)的身份證明文件可以對(duì)特定群體進(jìn)行標(biāo)記,通話記錄的時(shí)間、數(shù)量和位置信息可以被用來(lái)估計(jì)特定群體或特定區(qū)域的人口密度,探索個(gè)體或群體的溝通模式和移動(dòng)軌跡,每個(gè)基站的人口估計(jì)可以建立有關(guān)群體隔離、孤立和同質(zhì)性等融入指標(biāo)[27],評(píng)估移民在目的地國(guó)的社會(huì)融入情況。Blumenstock 使用手機(jī)通話記錄數(shù)據(jù)觀察到盧旺達(dá)內(nèi)部高比例的臨時(shí)和循環(huán)遷移[28]。國(guó)內(nèi)公開(kāi)的類(lèi)似數(shù)據(jù)有騰訊和百度的位置大數(shù)據(jù),基于大規(guī)模用戶(hù)在平臺(tái)APP使用中共享報(bào)告的地理位置信息,實(shí)時(shí)提供城市間人口的流動(dòng)規(guī)模匯總數(shù)據(jù)。趙梓渝等構(gòu)建了人口流動(dòng)的關(guān)系矩陣,刻畫(huà)了春運(yùn)期間全國(guó)人口在東部與中西部城市間省際循環(huán)流動(dòng)的空間集聚與擴(kuò)散過(guò)程。網(wǎng)絡(luò)分析技術(shù)被用于分析城市之間人口流動(dòng)的網(wǎng)絡(luò)特征[29]、空間格局[30]及其演變。專(zhuān)項(xiàng)數(shù)據(jù)庫(kù)如LinkedIn[31]、引文索引數(shù)據(jù)庫(kù)[32]還提供了對(duì)特定職業(yè)人群的遷移模式研究的數(shù)據(jù)。社交媒體平臺(tái)的互動(dòng)數(shù)據(jù)可以分析遷移意圖、社會(huì)融入與隔離、公眾對(duì)移民和難民的情緒態(tài)度等移民相關(guān)議題。越來(lái)越多的研究證明了痕跡數(shù)據(jù)的潛力,可以增進(jìn)對(duì)與遷移、流動(dòng)和移民相關(guān)現(xiàn)象的理解,對(duì)痕跡數(shù)據(jù)應(yīng)用價(jià)值的廣泛認(rèn)同取代了懷疑,數(shù)據(jù)創(chuàng)新成為移民研究的重要內(nèi)容,并被寫(xiě)入安全、有序和正常移民的全球契約中。
與人口變化相關(guān)的外部因素通常涉及經(jīng)濟(jì)、社會(huì)、環(huán)境、心理等多個(gè)方面,已有的人口理論從行為決策的成本收益、個(gè)體化產(chǎn)生的家庭觀念轉(zhuǎn)變、性別觀念與角色地位、社會(huì)制度和文化[33]等方面解釋了人口轉(zhuǎn)變的發(fā)生,但對(duì)實(shí)際現(xiàn)象的解釋有限、存在爭(zhēng)議,實(shí)證研究不多且結(jié)論不一致。設(shè)計(jì)數(shù)據(jù)難以滿(mǎn)足對(duì)人口過(guò)程進(jìn)行深入研究的需求,主要表現(xiàn)在:?jiǎn)柧碓O(shè)計(jì)中變量設(shè)置有限,限制了研究的分析范圍和結(jié)果,很難進(jìn)行理論創(chuàng)新;問(wèn)題的設(shè)置和提問(wèn)方式影響限制了受訪者的答案,容易謊報(bào)漏報(bào);概念操作化存在差異,對(duì)情緒態(tài)度、價(jià)值觀文化等主觀類(lèi)問(wèn)題的測(cè)量不準(zhǔn)確、不全面;一般以研究對(duì)象為調(diào)查對(duì)象,缺乏對(duì)與之有關(guān)系的配偶、朋友、家庭等的調(diào)查了解。人口普查的問(wèn)題數(shù)量有限,因此人口過(guò)程研究的數(shù)據(jù)主要來(lái)源于大型專(zhuān)項(xiàng)抽樣調(diào)查,例如中國(guó)婦女社會(huì)地位調(diào)查、中國(guó)老年社會(huì)追蹤調(diào)查、全國(guó)流動(dòng)人口動(dòng)態(tài)監(jiān)測(cè)調(diào)查,難以避免樣本代表性不高、抽樣誤差、調(diào)查響應(yīng)率低、追蹤困難等問(wèn)題。痕跡數(shù)據(jù)提供了更加豐富的人口行為的背景信息,這得益于多渠道的數(shù)據(jù)收集方式和多模態(tài)的數(shù)據(jù)收集形式,根據(jù)關(guān)鍵詞對(duì)特定來(lái)源的網(wǎng)絡(luò)和社交媒體平臺(tái)的信息檢索能夠獲得大規(guī)模與人口行為相關(guān)的互動(dòng)數(shù)據(jù),在一定程度上反映了個(gè)體在真實(shí)世界中的行為和觀念態(tài)度,相較抽樣調(diào)查中的一問(wèn)一答,用戶(hù)主動(dòng)展示的信息更加豐富,內(nèi)容更為廣泛,促進(jìn)了對(duì)微觀人口過(guò)程的洞察和理論創(chuàng)新。
3.2.1 生育態(tài)度與行為研究
對(duì)全面二孩、三孩背景下生育率持續(xù)走低的原因探索和對(duì)策研究是當(dāng)前人口研究的重點(diǎn)。痕跡數(shù)據(jù)可以及時(shí)反映當(dāng)前或近期的生育行為和意愿狀況,Letchford 指出人口統(tǒng)計(jì)指標(biāo)如出生率的變化可以通過(guò)在線搜索內(nèi)容的差異進(jìn)行識(shí)別,針對(duì)美國(guó)谷歌搜索用戶(hù)的研究顯示,隨著出生率的增加,有關(guān)懷孕信息的搜索數(shù)量會(huì)增加,當(dāng)出生率下降時(shí),有關(guān)寵物的搜索數(shù)量會(huì)增加,這些詞語(yǔ)的搜索量與生育指標(biāo)間存在顯著相關(guān)性[34]。與妊娠和分娩相關(guān)的搜索活動(dòng)揭示了生育行為的群體和背景差異,Ojala 等結(jié)合谷歌搜索數(shù)據(jù)與美國(guó)社區(qū)調(diào)查數(shù)據(jù)探討了生育的意義,指出生育選擇因個(gè)人和夫婦的不同偏好、社會(huì)經(jīng)濟(jì)地位以及文化和制度背景而存在很大差異,例如懷孕期間乘飛機(jī)與高收入生育有關(guān),親子鑒定與非婚生育有關(guān),宗教信仰與青少年生育有關(guān)[35]。社交媒體互動(dòng)數(shù)據(jù)中包含了大量個(gè)體層面有關(guān)生育的行為原因、情感態(tài)度、主觀感知等的文本圖像數(shù)據(jù),對(duì)研究生育意愿、觀念文化具有豐富價(jià)值。李婷等基于新浪微博和網(wǎng)易新聞?dòng)嘘P(guān)生育政策或生育水平的新聞評(píng)論數(shù)據(jù),討論了大眾生育態(tài)度傾向的變遷,使用情感分析、機(jī)器學(xué)習(xí)等方法對(duì)文本的態(tài)度傾向進(jìn)行分類(lèi),結(jié)果顯示2012 年以來(lái)大眾生育態(tài)度的傾向從積極轉(zhuǎn)為消極,對(duì)低生育意愿的表述從行為態(tài)度表達(dá)轉(zhuǎn)向強(qiáng)調(diào)房?jī)r(jià)、子女教育和工作等客觀條件,生育意愿轉(zhuǎn)變更多受客觀限制而非觀念影響,分省市生育情緒與地方生育水平的強(qiáng)相關(guān)性驗(yàn)證了生育態(tài)度傾向分析的有效性[36]。Mencarini 等使用Twitter 上2014-2017 年約300 萬(wàn)條過(guò)濾后的意大利推文探討了與生育和育兒相關(guān)的意見(jiàn)和語(yǔ)義取向,關(guān)注生育和父母幸福感之間的關(guān)系,結(jié)果顯示父母在談?wù)撆c孩子的日常生活、成為和作為父母有關(guān)的話題時(shí),表達(dá)出積極的情緒,但有時(shí)也會(huì)感到恐懼、驚訝和悲傷,在關(guān)于孩子的未來(lái)、生育、政治和父母行為的推文中,負(fù)面情緒占據(jù)主導(dǎo)地位,父母積極情緒的比例與生活滿(mǎn)意度和宏觀的區(qū)域生育水平之間存在顯著相關(guān)性[37]。社交媒體龐大的文本量具有一定的群體代表性,自發(fā)展示的觀念和行為更加真實(shí)詳細(xì)并可以進(jìn)行長(zhǎng)時(shí)間的追蹤,進(jìn)一步反映特定空間和時(shí)間范圍內(nèi)的變化。
3.2.2 死亡與健康研究
20 世紀(jì)末,中國(guó)完成了第一次人口轉(zhuǎn)變,自此人口死亡率始終維持一個(gè)相對(duì)穩(wěn)定的低水平狀態(tài),人口預(yù)期壽命緩慢增長(zhǎng),隨后中國(guó)快速進(jìn)入人口老齡化過(guò)程,與死亡直接相關(guān)的人口研究關(guān)注死因分析和健康研究。當(dāng)前我國(guó)的死亡數(shù)據(jù)主要來(lái)源于人口普查,由受訪者主動(dòng)報(bào)告過(guò)去一年本戶(hù)的死亡人口信息,數(shù)據(jù)容易受到受訪者記憶偏差、個(gè)人意愿以及調(diào)查中的樣本偏差等諸多因素的影響,準(zhǔn)確性低且無(wú)法提供死因信息。中國(guó)老年健康影響因素跟蹤調(diào)查、中國(guó)老年社會(huì)追蹤調(diào)查等大型抽樣調(diào)查提供了有關(guān)健康方面的信息,但研究變量、調(diào)查群體有限,調(diào)查員與受訪者互動(dòng)的調(diào)查方式也在一定程度上回避了與死亡相關(guān)的問(wèn)題,由此導(dǎo)致在死亡水平估計(jì)、死亡模式與死因分析等研究中缺乏真實(shí)有效數(shù)據(jù)。
部分國(guó)家為了加強(qiáng)人口管理,通過(guò)建立完善的民事登記系統(tǒng),形成了對(duì)出生、死亡等人口事件的詳細(xì)記錄,是人口學(xué)死亡研究的主要數(shù)據(jù)。在醫(yī)學(xué)和生命科學(xué)領(lǐng)域,對(duì)痕跡數(shù)據(jù)的收集、挖掘和使用已經(jīng)極為成熟和普遍,來(lái)自醫(yī)療系統(tǒng)內(nèi)部的患者病歷、健康記錄、醫(yī)囑、醫(yī)生處方、醫(yī)學(xué)影像、藥房、保險(xiǎn)、實(shí)驗(yàn)等臨床和管理數(shù)據(jù)的電子化產(chǎn)生了可以用于研究的豐富資料,可以估計(jì)特定疾病如心血管、癌癥、糖尿病等的死亡率,預(yù)測(cè)自殺意圖和行為,對(duì)精神疾病的診斷、治療和臨床后果進(jìn)行預(yù)測(cè)等[38]。在醫(yī)療系統(tǒng)外部,保險(xiǎn)公司的索賠數(shù)據(jù)可以用來(lái)預(yù)測(cè)老年人的死亡率,改進(jìn)死亡風(fēng)險(xiǎn)模型[39]。從報(bào)紙、殯儀館和社交媒體網(wǎng)站中收集的訃告數(shù)據(jù)包括死者的性別、家鄉(xiāng)、年齡、死因等信息,可以用來(lái)監(jiān)測(cè)癌癥死亡率,得出癌癥死亡的的年齡分布、地理空間和時(shí)間趨勢(shì)[40],研究生育次數(shù)與患癌風(fēng)險(xiǎn)的關(guān)聯(lián)[41]。使用搜索查詢(xún)數(shù)據(jù)可以進(jìn)行疾病監(jiān)測(cè),獲取與自殺相關(guān)的行為信息并進(jìn)行趨勢(shì)預(yù)測(cè)。社交媒體平臺(tái)的互動(dòng)表達(dá)如推文數(shù)據(jù)可以監(jiān)測(cè)死亡的主要原因及其與流行病、慢性疾病和藥物使用之間的關(guān)聯(lián)[42];對(duì)用戶(hù)發(fā)帖的語(yǔ)言模式、情緒特征等文本信號(hào)的建??梢杂脕?lái)識(shí)別個(gè)體和群體層面的抑郁、焦慮、壓力等心理健康狀況和情緒變化,研究指出負(fù)面社會(huì)關(guān)系和情緒的語(yǔ)言模式會(huì)提高死亡風(fēng)險(xiǎn)[43];推文中包含的大量個(gè)體健康數(shù)據(jù)可以用來(lái)探索特定疾病的空間分布和變化[44];還有學(xué)者使用Facebook 點(diǎn)贊量預(yù)測(cè)了區(qū)域?qū)用娴乃劳雎?、疾病和生活方式,在研究和估?jì)健康結(jié)果和健康行為上有著良好效果[45]。
在傳統(tǒng)基于問(wèn)卷的入戶(hù)調(diào)查方式下,很難獲得有關(guān)墮胎、性行為、歧視、家暴等敏感議題在行為、態(tài)度和觀念方面的真實(shí)回答。普遍存在的謊報(bào)現(xiàn)象,主要是由于受訪者主動(dòng)報(bào)告的問(wèn)卷填答方式,使他們?cè)诨卮饡r(shí)不自覺(jué)得考慮與問(wèn)題相關(guān)的社會(huì)評(píng)價(jià)標(biāo)準(zhǔn),從而做出符合社會(huì)期望或自身利益的回答,而調(diào)查員與受訪者之間的互動(dòng)方式也會(huì)導(dǎo)致避免尷尬的謊報(bào)。此外,敏感小眾的議題一般不會(huì)出現(xiàn)在大規(guī)模人口調(diào)查中,數(shù)據(jù)收集渠道有限。互聯(lián)網(wǎng)為敏感議題的討論提供了公開(kāi)自由匿名的環(huán)境,個(gè)體更愿意在網(wǎng)絡(luò)平臺(tái)上暴露真實(shí)想法[46],主動(dòng)參與相關(guān)討論,而痕跡數(shù)據(jù)自動(dòng)捕捉和記錄了用戶(hù)在數(shù)字空間中公開(kāi)的一切活動(dòng)。研究人員可以從網(wǎng)絡(luò)搜索、社交媒體、新聞評(píng)論等多個(gè)渠道基于關(guān)鍵詞直接獲得有關(guān)敏感議題的大量數(shù)據(jù),高效便捷的推進(jìn)研究。Reis 利用網(wǎng)絡(luò)搜索查詢(xún)數(shù)據(jù),討論了與墮胎相關(guān)的搜索量、墮胎率和墮胎政策之間的關(guān)系,認(rèn)為墮胎的互聯(lián)網(wǎng)搜索量與當(dāng)?shù)貕櫶ヂ食煞幢?,與當(dāng)?shù)貙?duì)墮胎的限制成正比,表明居住在禁止墮胎地區(qū)的人們會(huì)轉(zhuǎn)向互聯(lián)網(wǎng)來(lái)了解如何在其他地方獲得相關(guān)服務(wù)。
少數(shù)群體主要是傳統(tǒng)調(diào)查方法難以接觸的人群如非法移民、高流動(dòng)性群體,以及科學(xué)抽樣下由于人群規(guī)模較小導(dǎo)致代表性不足的少數(shù)族裔等。互聯(lián)網(wǎng)和手機(jī)的廣泛使用為這些少數(shù)人群的研究提供了多樣的數(shù)據(jù)獲取渠道,例如通過(guò)手機(jī)發(fā)送簡(jiǎn)短的調(diào)查可能是跟蹤欠發(fā)達(dá)地區(qū)農(nóng)村人口健康行為的有效手段[47]。歐盟內(nèi)部通過(guò)在數(shù)據(jù)庫(kù)中納入指紋、面容等生物識(shí)別信息,實(shí)現(xiàn)了在數(shù)字環(huán)境下尤其是入境口岸對(duì)非法移民的識(shí)別與流動(dòng)監(jiān)測(cè)[48]。社交媒體平臺(tái)通常容納了多樣化的人群,他們?cè)诰W(wǎng)絡(luò)上進(jìn)行互動(dòng)、分享日常、瀏覽信息、發(fā)表觀點(diǎn)、尋求幫助,產(chǎn)生了豐富多樣的在線社區(qū)。對(duì)美國(guó)社交媒體使用情況的報(bào)告指出,非西班牙裔黑人和西班牙裔美國(guó)人的互聯(lián)網(wǎng)使用情況總體上與白人大致相當(dāng),在某些社交媒體如Instagram、Whats App 上,非西班牙裔黑人和西班牙裔美國(guó)人的用戶(hù)數(shù)比白人用戶(hù)更高,這表明少數(shù)族裔不僅在網(wǎng)絡(luò)平臺(tái)上相較現(xiàn)實(shí)中的出現(xiàn)率更高,而且在某些情況下比例過(guò)高[49]?,F(xiàn)實(shí)中少數(shù)群體在網(wǎng)絡(luò)空間內(nèi)的高度聚集使得更容易進(jìn)行數(shù)據(jù)收集與研究。
大規(guī)模人口調(diào)查的數(shù)據(jù)通常每年或每幾年收集一次,發(fā)布的時(shí)間滯后,很難對(duì)調(diào)查時(shí)間外的年份和近期狀況做出準(zhǔn)確描述。截面數(shù)據(jù)通常關(guān)注宏觀層面某一時(shí)點(diǎn)人口規(guī)模結(jié)構(gòu)的研究,難以對(duì)微觀層面?zhèn)€體人口行為隨時(shí)間的變化情況進(jìn)行跟蹤,這就產(chǎn)生了在不同時(shí)間點(diǎn)對(duì)同一群體進(jìn)行持續(xù)性觀察和測(cè)量的需求。學(xué)者們通過(guò)在截面調(diào)查中加入回顧性調(diào)查,或定期對(duì)同一人群進(jìn)行追蹤調(diào)查來(lái)收集這類(lèi)數(shù)據(jù)[50],但面臨受訪者記憶失真、不準(zhǔn)確、選擇性回憶導(dǎo)致的偏差,或者是成本高昂,追蹤成功率和響應(yīng)率低等問(wèn)題。痕跡數(shù)據(jù)能夠?qū)Υ笠?guī)模群體進(jìn)行長(zhǎng)期、持續(xù)、實(shí)時(shí)的行為追蹤,獲得即時(shí)、連續(xù)、準(zhǔn)確的數(shù)據(jù),進(jìn)而克服自我報(bào)告中的回憶偏差,幫助減輕受訪者的負(fù)擔(dān)。
在時(shí)間尺度上形成精確到分鐘、小時(shí)、日、月的細(xì)顆粒數(shù)據(jù),能反映宏觀總體或微觀個(gè)體在當(dāng)下和一段時(shí)間內(nèi)的狀況和變化,為打破傳統(tǒng)人口研究的時(shí)間限制提供了大量機(jī)會(huì)。例如基于智能手機(jī)的傳感和日志功能,可以招募志愿者對(duì)其日?;顒?dòng)進(jìn)行追蹤記錄,包括溝通社交行為、娛樂(lè)消費(fèi)行為、網(wǎng)絡(luò)平臺(tái)使用情況、移動(dòng)性、總體電話活動(dòng)、白天和夜間活動(dòng)等。利用這些記錄,可以研究個(gè)體的日常行為模式,預(yù)測(cè)個(gè)人的性格特質(zhì)[51]、精神狀態(tài)[52]、健康狀況、流動(dòng)模式[53]等。大規(guī)模群體的手機(jī)數(shù)據(jù)收集還能預(yù)測(cè)實(shí)時(shí)的社會(huì)經(jīng)濟(jì)狀況[54]、識(shí)別和監(jiān)測(cè)集體性事件[55]、實(shí)現(xiàn)實(shí)時(shí)的人口動(dòng)態(tài)管理、進(jìn)行特定區(qū)域的人口流量估計(jì)等。還可以基于時(shí)間變化本身發(fā)現(xiàn)個(gè)體的行為規(guī)律或事件的發(fā)生規(guī)律,例如一天中白天與夜晚的活動(dòng)差異,一年中出生人口、流動(dòng)人口的季節(jié)性波動(dòng)、網(wǎng)絡(luò)輿情爆發(fā)的時(shí)間規(guī)律等。
在微時(shí)間尺度的另一端,痕跡數(shù)據(jù)增強(qiáng)了在一個(gè)以年、時(shí)代、世代和朝代為單位的宏時(shí)間尺度下進(jìn)行長(zhǎng)期和歷史人口研究的能力,這些數(shù)據(jù)源于歷史文化資料的數(shù)字化產(chǎn)生的電子存檔數(shù)據(jù)的爆炸式增長(zhǎng)。政光景等基于在線逝者紀(jì)念文本數(shù)據(jù),使用具有全國(guó)代表性的死亡人口數(shù)據(jù)進(jìn)行加權(quán),從而描繪了近現(xiàn)代中國(guó)百年的死亡人口分布形態(tài),以及性別和壽命結(jié)構(gòu)分布[56]。家族譜系數(shù)據(jù)則將個(gè)人與其父母以及更遠(yuǎn)的祖先和在世親屬聯(lián)系起來(lái),提供了有關(guān)社會(huì)經(jīng)濟(jì)特征、家庭生活安排和人口行為等諸多信息,可以用來(lái)研究一個(gè)家族或一個(gè)朝代的人口出生與死亡模式,人口壽命與遺傳結(jié)構(gòu)、家庭遷移模式、婚姻距離等。陳熙使用族譜數(shù)據(jù)分析了一個(gè)家族延續(xù)和消亡的情況,指出家族支脈的絕嗣現(xiàn)象極為普遍[57]。基于清帝國(guó)皇族譜系數(shù)據(jù)的研究揭示了兩代以上的社會(huì)流動(dòng)性,社會(huì)經(jīng)濟(jì)地位不僅影響后代的社會(huì)經(jīng)濟(jì)地位,而且影響后代的數(shù)量[58]。
空間是建構(gòu)人口學(xué)概念的基礎(chǔ),也是研究的重要維度。傳統(tǒng)人口普查并沒(méi)有收集與樣本對(duì)應(yīng)的空間位置信息,而是使用數(shù)據(jù)收集單位即區(qū)縣一級(jí)行政區(qū)劃作為調(diào)查數(shù)據(jù)匯總的最小地理單元和分析單位。因此在進(jìn)行人口規(guī)模、結(jié)構(gòu)、分布、遷移等研究時(shí),人口學(xué)者偏好將將人口數(shù)據(jù)放在行政空間而非地理環(huán)境空間中,且大多是省級(jí)或市級(jí)層面的分析?;ヂ?lián)網(wǎng)、手機(jī)的使用,以及遙感技術(shù)、衛(wèi)星定位系統(tǒng)和地理信息系統(tǒng)的快速發(fā)展改變了人口在空間上的分布研究和建模方式。從數(shù)據(jù)收集與應(yīng)用的角度看,這種改變主要體現(xiàn)在兩個(gè)方面:一是基于遙感的地理影像數(shù)據(jù),具有更高的空間分辨率和更精細(xì)的面積尺度,并將土地利用、地形地貌和夜間燈光等多類(lèi)型數(shù)據(jù)融于地理數(shù)據(jù)中;二是手機(jī)、互聯(lián)網(wǎng)、社交媒體平臺(tái)等基于信號(hào)站或衛(wèi)星定位服務(wù)提供的用戶(hù)即時(shí)地理位置數(shù)據(jù)。。前者促進(jìn)了基于遙感影像數(shù)據(jù)的區(qū)域人口估算和人口空間分布模擬,后者促進(jìn)了人口估計(jì)以及在此基礎(chǔ)上的人口遷移和流動(dòng)研究。
使用道路、河流、坡度、土地利用和夜間燈光等遙感數(shù)據(jù)建立模型,可以對(duì)人口的空間分布進(jìn)行模擬,將傳統(tǒng)的行政空間與地理空間相關(guān)聯(lián),產(chǎn)生空間分解或網(wǎng)格化的人口估計(jì)數(shù),作為更準(zhǔn)確地代表人口分布的空間圖?;谝归g燈光數(shù)據(jù)的中國(guó)人口密度模擬顯示燈光強(qiáng)度信息與燈光區(qū)內(nèi)部的人口密度高度相關(guān)[59],能夠直接反映人類(lèi)活動(dòng)差異,用于預(yù)測(cè)短期不同范圍的人口規(guī)模[60]。結(jié)合人口普查數(shù)據(jù),可以將粗粒度的人口數(shù)據(jù)分配在0.5km×0.5km 的地理網(wǎng)格中[61],生成人口網(wǎng)格分布圖,為區(qū)域人口估計(jì)提供更高的空間分辨率,在此基礎(chǔ)上,還可以進(jìn)行人口分布的空間規(guī)律研究。實(shí)時(shí)生成的地理位置信息將時(shí)間與空間緊密關(guān)聯(lián),為進(jìn)行人口遷移研究提供了豐富的數(shù)據(jù)來(lái)源。手機(jī)信令數(shù)據(jù)已被驗(yàn)證可以用來(lái)估算準(zhǔn)確的、高精度空間的人口規(guī)模,被廣泛應(yīng)用于研究個(gè)體層面的人員流動(dòng)模式、或在宏觀層面建立流動(dòng)網(wǎng)絡(luò),分析流動(dòng)格局,這些研究大多集中于特定城市或社區(qū)或某個(gè)群體。此外,網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)中的地理定位信息提供了對(duì)多區(qū)域、多國(guó)家之間進(jìn)行比較研究的可行性,F(xiàn)acebook、Twitter、雅虎等網(wǎng)絡(luò)社交媒體平臺(tái)在多個(gè)國(guó)家擁有大量用戶(hù)群體,抓取這些群體哪些個(gè)人信息與行為活動(dòng)數(shù)據(jù)是由平臺(tái)所屬企業(yè)決定的,但內(nèi)容是由用戶(hù)自行理解并生成的。傳統(tǒng)數(shù)據(jù)生產(chǎn)方式下,建立標(biāo)準(zhǔn)化的調(diào)查問(wèn)卷,協(xié)調(diào)調(diào)查并推動(dòng)跨國(guó)比較的量化研究實(shí)踐往往難度很大,不同國(guó)家對(duì)于特定概念的理解和測(cè)量經(jīng)常是模糊不一致的。同一網(wǎng)絡(luò)平臺(tái)以統(tǒng)一的信息收集方式獲取來(lái)自不同地區(qū)和國(guó)家用戶(hù)群體的數(shù)據(jù),為國(guó)家和區(qū)域之間的比較研究提供了更便捷的途徑。
數(shù)據(jù)生產(chǎn)過(guò)程與數(shù)據(jù)收集渠道的差異使得數(shù)據(jù)集在代表性、廣泛性、變量深度、分析方法上各有不同。不同來(lái)源數(shù)據(jù)的結(jié)合,能夠彌補(bǔ)單一數(shù)據(jù)源在數(shù)據(jù)豐富度上的欠缺。人工智能技術(shù)可以對(duì)非結(jié)構(gòu)化痕跡數(shù)據(jù)中包含的特征信息進(jìn)行自動(dòng)提取和匯聚,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)能精準(zhǔn)識(shí)別照片中的個(gè)體,通過(guò)分析面部特征獲得年齡、性別、種族等人口統(tǒng)計(jì)信息,以便將提取到的特征變量與調(diào)查數(shù)據(jù)或文本數(shù)據(jù)相結(jié)合。Zagheni 等使用面部識(shí)別軟件將人口統(tǒng)計(jì)信息添加到Twitter 數(shù)據(jù)中,用來(lái)補(bǔ)充和改進(jìn)研究數(shù)據(jù)中人口統(tǒng)計(jì)特征的缺失。對(duì)照片中的互動(dòng)場(chǎng)景和人物關(guān)系的識(shí)別分析,可以補(bǔ)充家庭結(jié)構(gòu)、親密關(guān)系、社會(huì)網(wǎng)絡(luò)、人際互動(dòng)等研究的數(shù)據(jù)內(nèi)容。Berry使用婚禮照片分析跨種族友誼模式和種族關(guān)系,檢驗(yàn)了同化過(guò)程和群體邊界等理論假設(shè)[62]。衛(wèi)星圖像和城市景觀照片的識(shí)別和地理信息系統(tǒng)分析,可以為其他數(shù)據(jù)添加空間和場(chǎng)景維度的數(shù)據(jù),提高人口分布研究的空間分辨率,促進(jìn)對(duì)社會(huì)隔離、城市化進(jìn)程等的研究。
痕跡數(shù)據(jù)與設(shè)計(jì)數(shù)據(jù)的結(jié)合,可以增強(qiáng)對(duì)研究問(wèn)題的解釋和預(yù)測(cè),數(shù)據(jù)之間的交叉驗(yàn)證有助于提升結(jié)論的穩(wěn)健性和可靠性。痕跡數(shù)據(jù)通常是非抽樣數(shù)據(jù),不具備設(shè)計(jì)數(shù)據(jù)的統(tǒng)計(jì)推斷功能。盡管手機(jī)信令數(shù)據(jù)得益于極高的移動(dòng)電話普及率,相較其他數(shù)據(jù)來(lái)源更加準(zhǔn)確可靠,但大多數(shù)痕跡數(shù)據(jù)都不具有對(duì)人口總體的代表性。這種代表性偏差來(lái)自?xún)蓚€(gè)方面:一是生產(chǎn)數(shù)據(jù)的用戶(hù)群體,通過(guò)網(wǎng)絡(luò)社交平臺(tái)提取的樣本僅包含那些經(jīng)常訪問(wèn)互聯(lián)網(wǎng)并且也選擇提供相關(guān)話題信息的個(gè)人,這導(dǎo)致用戶(hù)的選擇性偏差;二是收集數(shù)據(jù)的平臺(tái)企業(yè),在選擇收集用戶(hù)的哪些信息時(shí)使用的算法機(jī)制以及平臺(tái)自身的數(shù)據(jù)基礎(chǔ)設(shè)施都可能帶來(lái)數(shù)據(jù)偏差。痕跡數(shù)據(jù)和設(shè)計(jì)數(shù)據(jù)的結(jié)合能夠?qū)@些偏差進(jìn)行評(píng)估和糾正,已有許多模型和技術(shù)被用來(lái)提升使用非概率樣本進(jìn)行總體估計(jì)時(shí)的準(zhǔn)確性。當(dāng)基線人口數(shù)據(jù)已知時(shí),將來(lái)自官方的統(tǒng)計(jì)數(shù)據(jù)視為基本事實(shí),對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行校準(zhǔn)。在使用電子郵件數(shù)據(jù)來(lái)衡量國(guó)際遷移率時(shí)可以考慮建構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的函數(shù)關(guān)系來(lái)調(diào)整估計(jì)值,解決因不同空間和人口群體的互聯(lián)網(wǎng)普及率變化而產(chǎn)生的偏差。使用游戲平臺(tái)用戶(hù)數(shù)據(jù)估計(jì)民意調(diào)查結(jié)果,基于受訪者人口統(tǒng)計(jì)特征的多級(jí)回歸和后分層方法可以獲得與全國(guó)范圍和各州的代表性數(shù)據(jù)相似的結(jié)果。當(dāng)缺乏真實(shí)數(shù)據(jù)時(shí),在不了解偏差的大小和方向的情況下,可以根據(jù)數(shù)量的相對(duì)變化,采取雙重差分法估計(jì)數(shù)據(jù)變化趨勢(shì),獲得人口指標(biāo)的變動(dòng)估計(jì)。使用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行估計(jì)和預(yù)測(cè)的有效性受到學(xué)界和政府機(jī)構(gòu)的高度重視,已有研究證明了從數(shù)字痕跡中提取的數(shù)據(jù)可以比傳統(tǒng)調(diào)查更快、更具成本效益的方式提供有價(jià)值的信息。只是如何從豐富的痕跡數(shù)據(jù)中獲得可靠的結(jié)論仍然在方法創(chuàng)新上有著巨大的空間,這也意味著人口統(tǒng)計(jì)學(xué)者可以在這方面做出更多的貢獻(xiàn)。
痕跡數(shù)據(jù)的收集方式還啟發(fā)了研究者進(jìn)行在線實(shí)驗(yàn)、在線調(diào)查以及借助手機(jī)、應(yīng)用程序、傳感器設(shè)備等對(duì)一定數(shù)量的個(gè)體行為進(jìn)行追蹤調(diào)查。數(shù)據(jù)收集方法的結(jié)合能夠以極其精細(xì)、成本低廉的方式收集個(gè)性化數(shù)據(jù),對(duì)測(cè)量和理解微觀層面的行為模式、健康狀況、社會(huì)互動(dòng)也有極大幫助。心理健康研究已經(jīng)大量使用電子傳感設(shè)備對(duì)個(gè)體的情緒、活動(dòng)、睡眠、運(yùn)動(dòng)狀況等進(jìn)行追蹤和測(cè)量,智能手機(jī)中的傳感器或佩戴運(yùn)動(dòng)手環(huán)可以識(shí)別身體活動(dòng)并將其歸類(lèi)為是步行、跑步還是爬樓梯等,這種體力活動(dòng)的測(cè)量可以用來(lái)研究老年人的社會(huì)隔離,隨身麥克風(fēng)中監(jiān)測(cè)得到的語(yǔ)音量可以用來(lái)評(píng)估抑郁癥和社交活動(dòng)[63]。一項(xiàng)對(duì)手機(jī)記錄數(shù)據(jù)與調(diào)查數(shù)據(jù)的有關(guān)社交距離測(cè)量的比較研究發(fā)現(xiàn),自我報(bào)告會(huì)明顯夸大身體距離,并且記憶更偏向于最近發(fā)生的事件和更生動(dòng)的事件[64]。使用智能平臺(tái)和設(shè)備的數(shù)據(jù)收集可以實(shí)現(xiàn)準(zhǔn)確記錄,改進(jìn)研究的測(cè)量方式,避免自我報(bào)告數(shù)據(jù)的各種回憶偏差和系統(tǒng)性偏見(jiàn),為復(fù)雜問(wèn)題的研究提供更加靈活有效的手段。
人口統(tǒng)計(jì)數(shù)據(jù)是政府循證決策的基石,不僅對(duì)人口系統(tǒng)內(nèi)部的生育政策、積極老齡化戰(zhàn)略有直接影響,還與社會(huì)福利、醫(yī)療衛(wèi)生、教育、經(jīng)濟(jì)發(fā)展、勞動(dòng)就業(yè)等社會(huì)生活的各方面息息相關(guān)。社會(huì)治理與政策制定需要及時(shí)、準(zhǔn)確、全面的人口數(shù)據(jù),人工智能技術(shù)的快速發(fā)展使得痕跡數(shù)據(jù)的規(guī)模和可用性大大提升,政府的行政登記數(shù)據(jù)與其他來(lái)源的痕跡數(shù)據(jù)的結(jié)合能夠在廣泛的社會(huì)問(wèn)題上提供更加及時(shí)和細(xì)節(jié)的信息。相較設(shè)計(jì)數(shù)據(jù),痕跡數(shù)據(jù)的及時(shí)性和廣泛性在推進(jìn)人口與社會(huì)動(dòng)態(tài)的監(jiān)測(cè)預(yù)警,突發(fā)事件的應(yīng)急管理,對(duì)特定行為群體的精準(zhǔn)識(shí)別和干預(yù)上具有突出的實(shí)踐價(jià)值。
數(shù)字時(shí)代人們使用手機(jī)、乘坐公交、刷卡支付、收發(fā)快遞等日常活動(dòng)都會(huì)生成數(shù)字記錄,這些不同來(lái)源數(shù)據(jù)的集合可以通過(guò)構(gòu)建算法模型實(shí)現(xiàn)特定區(qū)域?qū)崟r(shí)人口的規(guī)模與分布估計(jì)。相較設(shè)計(jì)數(shù)據(jù),實(shí)時(shí)人口動(dòng)態(tài)監(jiān)測(cè)能探察微小的時(shí)間尺度和空間維度下的人口動(dòng)態(tài),應(yīng)對(duì)人口流動(dòng)性日益增強(qiáng)、流動(dòng)速度不斷加快的統(tǒng)計(jì)與治理困境。實(shí)時(shí)人口估計(jì)能夠提供細(xì)粒度的人口規(guī)模和流動(dòng)特征,提供以小時(shí)、日、月、季度為單位的人口數(shù)量估計(jì),發(fā)現(xiàn)人口變化的晝夜、周期和季節(jié)性規(guī)律,識(shí)別特定區(qū)域人口密集與稀疏的變化,發(fā)現(xiàn)居住工作的空間模式,監(jiān)測(cè)集體性事件的發(fā)生,為人口服務(wù)管理和智慧城市治理提供數(shù)據(jù)支撐。韓國(guó)統(tǒng)計(jì)部門(mén)使用痕跡數(shù)據(jù)繪制了勞動(dòng)人口在通勤時(shí)間和工作時(shí)間的移動(dòng)軌跡,提供了每個(gè)城市、縣和社區(qū)在工作日、周末和每月基礎(chǔ)上的實(shí)際人口數(shù)和流入流出數(shù)量的可視化地圖。我國(guó)的北京、上海、深圳、廣州等城市也逐步建立了實(shí)有人口的動(dòng)態(tài)監(jiān)測(cè)系統(tǒng),推動(dòng)城市人口與社會(huì)的數(shù)字治理與智慧管理。
痕跡數(shù)據(jù)的及時(shí)性還可以對(duì)一些突發(fā)性事件進(jìn)行監(jiān)測(cè)、預(yù)警和評(píng)估,例如地震、洪水等自然災(zāi)害,戰(zhàn)爭(zhēng)、恐怖襲擊、疫情等危機(jī)事件。新冠疫情期間,痕跡數(shù)據(jù)在區(qū)域疫情現(xiàn)狀、人口流動(dòng)模式、疾病擴(kuò)散情況的分析、評(píng)估和預(yù)測(cè)中發(fā)揮了極其重要的作用,為突發(fā)性事件的監(jiān)測(cè)、預(yù)警和響應(yīng)提供了數(shù)據(jù)支持。痕跡數(shù)據(jù)可以在事件發(fā)生前通過(guò)觀測(cè)指標(biāo)的變化趨勢(shì)預(yù)測(cè)事件動(dòng)態(tài),歐洲庇護(hù)支持辦公室結(jié)合谷歌趨勢(shì)數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)源來(lái)監(jiān)測(cè)人口流出國(guó)的情況并預(yù)測(cè)歐盟的庇護(hù)申請(qǐng)數(shù)量和趨勢(shì),以應(yīng)對(duì)可能發(fā)生的難民涌入,聯(lián)合國(guó)難民署基于人工智能算法根據(jù)商品市場(chǎng)價(jià)格、降雨量和暴力沖突等預(yù)測(cè)索馬里難民規(guī)模的預(yù)期數(shù)量與短期趨勢(shì)。在事件發(fā)生后,痕跡數(shù)據(jù)可以及時(shí)有效地提供人口動(dòng)態(tài)和社會(huì)經(jīng)濟(jì)狀況的監(jiān)測(cè),對(duì)事件的影響和后果進(jìn)行綜合評(píng)估,增強(qiáng)政府的應(yīng)急管理和救援能力。在俄烏沖突和巴以沖突中,痕跡數(shù)據(jù)被廣泛應(yīng)用于流離失所、傷亡人口的區(qū)域識(shí)別和結(jié)構(gòu)規(guī)模估計(jì),以便國(guó)際社會(huì)了解沖突的實(shí)時(shí)影響、準(zhǔn)備物資并支援。對(duì)2015 年尼泊爾地震后9 天內(nèi)手機(jī)用戶(hù)的活動(dòng)軌跡的分析,揭示了震后人口流動(dòng)模式的演變以及返回受影響地區(qū)的模式[65]。此外,痕跡數(shù)據(jù)的實(shí)時(shí)連續(xù)特征還能對(duì)政策執(zhí)行前后的效果進(jìn)行快速評(píng)估和響應(yīng),優(yōu)化政策的制定過(guò)程,行動(dòng)者建模方法還可以制造多個(gè)虛擬現(xiàn)實(shí)場(chǎng)景對(duì)政策效果進(jìn)行模擬評(píng)估。
多來(lái)源渠道的痕跡數(shù)據(jù)包含了極其廣泛的人口與社會(huì)行為,從方法和數(shù)據(jù)上提供了對(duì)特定人群的識(shí)別和干預(yù)。對(duì)于因沖突、貧窮、位置偏僻等原因,普查觸及不到或難以開(kāi)展的國(guó)家和地區(qū),遙感影像和手機(jī)信令數(shù)據(jù)可以用來(lái)識(shí)別人口規(guī)模、居住狀況及其變化,還可以衡量次區(qū)域?qū)用娴膰?guó)際移民,繪制跨境社區(qū)之間的流動(dòng)圖。在我國(guó),兩類(lèi)數(shù)據(jù)與行政登記數(shù)據(jù)的結(jié)合已經(jīng)應(yīng)用于人口普查摸底和農(nóng)村扶貧開(kāi)發(fā)等。在線平臺(tái)的數(shù)十億用戶(hù)覆蓋了大量傳統(tǒng)設(shè)計(jì)數(shù)據(jù)難以觀察和測(cè)量到的群體和行為,可以用來(lái)監(jiān)測(cè)患有抑郁癥、自殺傾向、殘疾等存在身體或心理疾病的人群動(dòng)態(tài),調(diào)配醫(yī)療資源,提供社會(huì)和政策支持;對(duì)集體行為、社會(huì)輿情等進(jìn)行及時(shí)控制和干預(yù);對(duì)非法移民的遷移網(wǎng)絡(luò)和支持鏈條進(jìn)行介入和打擊。豐富的人口和行為痕跡信息為政策的制定和行政干預(yù)提供了契機(jī),數(shù)字化程度的日益加深將迎來(lái)一個(gè)全景敞視的人類(lèi)社會(huì)。
痕跡數(shù)據(jù)為人口研究提供了豐富的可能性,也帶來(lái)了一些新的挑戰(zhàn),這些挑戰(zhàn)集中于如何規(guī)范地獲取可用于研究的廣泛的痕跡數(shù)據(jù),問(wèn)題的核心是數(shù)據(jù)所有權(quán)和使用權(quán)的分離與界定。從數(shù)據(jù)所有權(quán)看,原始的痕跡數(shù)據(jù)是由使用特定服務(wù)或技術(shù)的個(gè)體或組織(用戶(hù))生成的,他們?cè)谔峁┬畔r(shí)通常不會(huì)意識(shí)并了解到數(shù)據(jù)將被如何使用、對(duì)自己有怎樣的影響,痕跡數(shù)據(jù)的大規(guī)模和復(fù)雜性使得知情同意的基本原則難以實(shí)現(xiàn),帶來(lái)了數(shù)據(jù)使用的倫理問(wèn)題和對(duì)隱私保護(hù)的擔(dān)憂。數(shù)據(jù)所有者很難對(duì)企業(yè)如何使用和處理個(gè)人信息數(shù)據(jù)進(jìn)行監(jiān)督,數(shù)據(jù)的開(kāi)放和共享則可能加劇隱私泄露和安全風(fēng)險(xiǎn)。從數(shù)據(jù)使用權(quán)看,痕跡數(shù)據(jù)的收集依賴(lài)特定的網(wǎng)絡(luò)平臺(tái)或智能設(shè)備,平臺(tái)運(yùn)營(yíng)商或設(shè)備服務(wù)商對(duì)個(gè)體數(shù)據(jù)進(jìn)行匯總和處理,進(jìn)而形成了大規(guī)模可用于研究的數(shù)據(jù)集。這使得企業(yè)占據(jù)了數(shù)據(jù)的所有權(quán),在是否公開(kāi)、如何公開(kāi)數(shù)據(jù)以及數(shù)據(jù)的具體內(nèi)容上掌握著主動(dòng)權(quán)和控制權(quán)[66],導(dǎo)致了所有權(quán)與使用權(quán)的錯(cuò)位。研究人員和學(xué)術(shù)機(jī)構(gòu)通常不具備數(shù)據(jù)收集條件,使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)收集數(shù)據(jù)時(shí)也面臨著法律風(fēng)險(xiǎn)。數(shù)據(jù)的社會(huì)價(jià)值與商業(yè)價(jià)值之間存在著矛盾,企業(yè)出于商業(yè)機(jī)密和競(jìng)爭(zhēng)優(yōu)勢(shì)的考量一般不愿意將數(shù)據(jù)共享給研究機(jī)構(gòu),企業(yè)對(duì)數(shù)據(jù)的壟斷影響著研究數(shù)據(jù)獲取的數(shù)量和質(zhì)量。
數(shù)據(jù)獲取方式也對(duì)研究的準(zhǔn)確性、實(shí)用性、全面性和可靠性產(chǎn)生了制約。相較設(shè)計(jì)數(shù)據(jù)有固定的框架和問(wèn)題,企業(yè)在數(shù)據(jù)收集中對(duì)信息的選擇、標(biāo)記和定義影響了數(shù)據(jù)的內(nèi)容形式和用戶(hù)的表達(dá)方式。在數(shù)據(jù)收集和生成的過(guò)程中很難區(qū)分?jǐn)?shù)據(jù)結(jié)果是系統(tǒng)錯(cuò)誤產(chǎn)生的還是潛在行為發(fā)生了變化,例如對(duì)于文字、圖像等的識(shí)別錯(cuò)誤。企業(yè)常常為了優(yōu)化服務(wù)或改善運(yùn)營(yíng)對(duì)數(shù)據(jù)處理和呈現(xiàn)依賴(lài)的算法程序進(jìn)行變動(dòng)和調(diào)整,這會(huì)改變用戶(hù)行為以及行為的記錄方式,導(dǎo)致不同時(shí)期呈現(xiàn)的數(shù)據(jù)和同一標(biāo)簽字段內(nèi)容的生成機(jī)制存在差異,算法本身可能也有潛在的歧視和公正問(wèn)題。不同平臺(tái)的受眾群體有差異,數(shù)據(jù)收集的內(nèi)容和方式也有不同,可能存在用戶(hù)統(tǒng)計(jì)特征和標(biāo)簽定義的差異,這對(duì)將多個(gè)來(lái)源渠道的痕跡數(shù)據(jù)進(jìn)行鏈接和交互形成了挑戰(zhàn)。痕跡數(shù)據(jù)來(lái)源于用戶(hù),但用戶(hù)并不等同于獨(dú)立真實(shí)的個(gè)體人,一個(gè)人可能擁有多個(gè)賬戶(hù),賬戶(hù)背后可能是組織、機(jī)構(gòu)或機(jī)器人操控的,個(gè)人或組織也會(huì)對(duì)表達(dá)的信息進(jìn)行歪曲,并試圖操縱系統(tǒng)或平臺(tái)來(lái)實(shí)現(xiàn)自身的目的[67]。因此在痕跡數(shù)據(jù)的使用中需要進(jìn)行謹(jǐn)慎甄別,警惕生成數(shù)據(jù)的平臺(tái)的社會(huì)背景和算法程序變化。
如果說(shuō)數(shù)字時(shí)代,人口研究迎來(lái)了一場(chǎng)數(shù)據(jù)革命,那么這場(chǎng)革命應(yīng)當(dāng)包括三個(gè)層面的轉(zhuǎn)變。在數(shù)據(jù)來(lái)源上,數(shù)據(jù)生產(chǎn)和收集方式的改變產(chǎn)生了爆炸式增長(zhǎng)的痕跡數(shù)據(jù),前沿計(jì)算方法和人工智能技術(shù)提升了數(shù)據(jù)存儲(chǔ)、管理和分析的能力,使得海量的痕跡數(shù)據(jù)可以用于人口研究。在數(shù)據(jù)應(yīng)用上,痕跡數(shù)據(jù)的使用要求形成數(shù)據(jù)驅(qū)動(dòng)的探索性研究取向,建立痕跡數(shù)據(jù)與設(shè)計(jì)數(shù)據(jù)結(jié)合分析的能力和數(shù)據(jù)素養(yǎng),整合研究方法以提升研究結(jié)論的預(yù)測(cè)與解釋能力,聚焦微觀的人口過(guò)程以理解行為的驅(qū)動(dòng)機(jī)制,構(gòu)建微觀行為與宏觀結(jié)構(gòu)的連接以推進(jìn)對(duì)第二次人口轉(zhuǎn)變的理解,拓展研究的時(shí)空維度以豐富研究?jī)?nèi)涵和研究議題,提升人口研究的政策應(yīng)用與實(shí)踐價(jià)值。在數(shù)據(jù)建設(shè)上,從制度層面建立完善的、現(xiàn)代化的數(shù)據(jù)生態(tài)系統(tǒng),制定明確的數(shù)據(jù)開(kāi)放共享政策和流程,促進(jìn)企業(yè)、政府和學(xué)術(shù)機(jī)構(gòu)的合作共享、聯(lián)合生產(chǎn),探索數(shù)據(jù)的匿名化和脫敏技術(shù)并加強(qiáng)問(wèn)責(zé)制和透明度,縮小數(shù)據(jù)收集和使用能力差異造成的數(shù)字鴻溝,提升政府?dāng)?shù)字治理與循證決策的能力并增強(qiáng)對(duì)統(tǒng)計(jì)系統(tǒng)的支持。 展望未來(lái),人工智能技術(shù)的跨越式發(fā)展正在對(duì)社會(huì)科學(xué)研究產(chǎn)生新一輪沖擊,人口研究的視野將隨著技術(shù)革命的推進(jìn)不斷更新擴(kuò)展,從過(guò)去的設(shè)計(jì)數(shù)據(jù)到當(dāng)前的痕跡數(shù)據(jù)再到未來(lái)的生成性數(shù)據(jù),數(shù)據(jù)革命帶來(lái)的研究機(jī)遇的把握需要個(gè)體及學(xué)術(shù)共同體具有更加開(kāi)放包容的心態(tài)和挑戰(zhàn)創(chuàng)新的精神。