喧囂之后的沉思

2018-05-14 17:42賀光燁

華東理工大學(xué)學(xué)報(bào)（社會科學(xué)版） 2018年2期

[摘要]大數(shù)據(jù)的出現(xiàn)和發(fā)展顛覆了傳統(tǒng)社會科學(xué)研究的思維方式，也引發(fā)了一系列哲學(xué)層次的討論。大數(shù)據(jù)樂觀主義者認(rèn)為，海量數(shù)據(jù)總是可以產(chǎn)生準(zhǔn)確且具實(shí)踐性的知識，而理論可有可無。為揭示隱匿在大數(shù)據(jù)分析過程中的問題及其可能產(chǎn)生的后果，筆者將其與傳統(tǒng)的社會科學(xué)研究方法對比，從數(shù)據(jù)產(chǎn)生和分析方法兩個(gè)方面對大數(shù)據(jù)的認(rèn)識論和方法論進(jìn)行探討。本文認(rèn)為，數(shù)據(jù)本身只是一個(gè)信息的載體，分析其中潛在的問題與數(shù)據(jù)的“大”小無關(guān)，而是與科學(xué)哲學(xué)的思維有關(guān)。通過大數(shù)據(jù)分析得出真實(shí)而有效的社會知識，需要將知識生產(chǎn)過程建立在適當(dāng)?shù)目茖W(xué)哲學(xué)基礎(chǔ)之上，既不可完全依賴?yán)碚摚嗖豢赏耆珤仐壚碚摗?/p>

[關(guān) 鍵詞]大數(shù)據(jù) 認(rèn)識論方法論假設(shè)檢驗(yàn) 機(jī)器學(xué)習(xí)

[作者簡介]賀光燁（1985-），女，江蘇南京人，南京大學(xué)社會學(xué)院助理研究員，博士，研究方向?yàn)樯鐣謱优c流動(dòng)、定量研究方法。

[中圖分類號]C3 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-7672（2018）02-0001-09

近年來，大數(shù)據(jù)之風(fēng)席卷全球。大量研究顯示，有關(guān)大數(shù)據(jù)經(jīng)驗(yàn)主義和數(shù)據(jù)科學(xué)的認(rèn)識論正在改變著生命科學(xué)、物理和工程學(xué)等領(lǐng)域的研究方法，也在不斷促進(jìn)社會科學(xué)領(lǐng)域理論范式和研究方法的重構(gòu)。根據(jù)基欽的定義，“大數(shù)據(jù)”通常是指數(shù)據(jù)量達(dá)TB級甚至PB級的數(shù)據(jù)群。相比于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù)（即可用Excel、SPSS和STATA等統(tǒng)計(jì)軟件處理的數(shù)據(jù)），大數(shù)據(jù)中圖片、聲音、視頻等非結(jié)構(gòu)化數(shù)據(jù)占相當(dāng)比重，且其總體數(shù)據(jù)容量增長速度之迅猛，遠(yuǎn)超硬件技術(shù)的發(fā)展速度。面對如此龐大、復(fù)雜的數(shù)據(jù)集，傳統(tǒng)分析方法已不足以應(yīng)對，基于新計(jì)算機(jī)應(yīng)用程序的大數(shù)據(jù)分析方法應(yīng)運(yùn)而生。安德森表示，數(shù)據(jù)洪流會令科學(xué)方法過時(shí)。通過大數(shù)據(jù)技術(shù)，我們可以在不受理論預(yù)設(shè)限制的情況下發(fā)現(xiàn)更多大數(shù)據(jù)中隱含的模式和關(guān)系。2012年，《紐約時(shí)報(bào)》的科學(xué)版記者史蒂芬洛爾撰文聲稱，“大數(shù)據(jù)”時(shí)代已經(jīng)降臨，科學(xué)、商業(yè)、經(jīng)濟(jì)等各領(lǐng)域的決策從此將不再依賴于傳統(tǒng)的經(jīng)驗(yàn)和直覺，而是日益基于數(shù)據(jù)和分析。大數(shù)據(jù)的產(chǎn)生和發(fā)展無疑帶來了思維方式與科學(xué)方法論的變革。不僅如此，另有學(xué)者認(rèn)為，這種基于計(jì)算機(jī)算法、程式的數(shù)據(jù)密集型分析工具開辟了繼實(shí)驗(yàn)、理論、模擬之后科學(xué)研究的第四種范式，這種范式使我們能夠從堆積如山的數(shù)據(jù)金礦中挖掘出知識。

大數(shù)據(jù)的出現(xiàn)和發(fā)展顛覆了傳統(tǒng)社會科學(xué)研究的思維方式，也引發(fā)了一系列多科學(xué)研究的認(rèn)識論的進(jìn)一步討論。相比傳統(tǒng)社會科學(xué)研究的思維方式（即以一般理論為前提，進(jìn)而推導(dǎo)可以驗(yàn)證的系列假設(shè)），大數(shù)據(jù)分析的思維則是讓數(shù)據(jù)本身說話，不需預(yù)先決定對于某個(gè)問題哪些變量更加重要，而主要通過機(jī)器學(xué)習(xí)（人工智能中最能體現(xiàn)智能的一個(gè)分支）讓數(shù)據(jù)自行學(xué)習(xí)，辨別關(guān)鍵變量，習(xí)得其中的關(guān)聯(lián)規(guī)律，進(jìn)而歸納出數(shù)據(jù)背后隱藏的模式。然而，從數(shù)據(jù)出發(fā)并不意味著數(shù)據(jù)挖掘憑空而來。大數(shù)據(jù)的捕捉和分析不僅需要依賴計(jì)算機(jī)硬件、軟件系統(tǒng)的支撐，更需要由人來設(shè)定規(guī)則。物理學(xué)家馬克思·玻恩曾說，科學(xué)在每個(gè)時(shí)期都和當(dāng)時(shí)的哲學(xué)體系相互影響，它向哲學(xué)體系提供觀測事實(shí)，同時(shí)從它們那里得到思想方法。對于大數(shù)據(jù)分析，大數(shù)據(jù)技術(shù)與平臺，數(shù)據(jù)本體與監(jiān)管環(huán)境對分析過程中的每一步均會產(chǎn)生影響。若忽略在數(shù)據(jù)獲取和分析過程中研究者施加的影響，就會無形中扭曲數(shù)字痕跡，從而掩蓋了現(xiàn)象背后的本質(zhì)。

一個(gè)著名的案例就是谷歌流感預(yù)測。2009年谷歌幾名工程師在《自然》發(fā)文——“用搜索引擎預(yù)測流感”，闡述了他們設(shè)計(jì)的谷歌流感預(yù)測系統(tǒng)。該系統(tǒng)的工作原理是使用匯總的谷歌搜索來預(yù)測流感疫情，并將預(yù)測結(jié)果與美國疾控中心的監(jiān)測報(bào)告進(jìn)行比對。這一系統(tǒng)一度被視為大數(shù)據(jù)分析優(yōu)勢的明證。然而不久巴特勒發(fā)現(xiàn)，通過谷歌流感預(yù)測系統(tǒng)預(yù)測的流感門診病歷數(shù)是疾控中心監(jiān)測報(bào)告的兩倍多。分析結(jié)果顯示，造成這一失誤的主要原因是谷歌流感預(yù)測系統(tǒng)中的關(guān)鍵詞搜索系統(tǒng)混淆了大眾的流感意識與真正的流感信號。這個(gè)問題從表面上看似乎是個(gè)技術(shù)性問題，實(shí)際是因?yàn)楹鲆暳藬?shù)據(jù)之外的社會情境及其與流感傳播相關(guān)的思維邏輯。

其實(shí)，谷歌流感預(yù)測的案例在很大程度上反映了主流文獻(xiàn)對大數(shù)據(jù)認(rèn)識論的誤解。他們將數(shù)據(jù)量大與數(shù)據(jù)代表性強(qiáng)混淆在一起，認(rèn)為通過大數(shù)據(jù)可以極大程度地表達(dá)或者近似總體，因此基于大數(shù)據(jù)發(fā)現(xiàn)的任何模式均真實(shí)可信，無需理論指引。這引發(fā)了關(guān)于“大數(shù)據(jù)的誕生是否意味著理論的終結(jié)”的討論。需要注意的是，脫離了科學(xué)哲學(xué)體系的大數(shù)據(jù)就如同失去靈魂游走的個(gè)體。數(shù)據(jù)生產(chǎn)過程中所留下的數(shù)字痕跡很可能具有誤導(dǎo)性。就谷歌流感預(yù)測而言，其誤導(dǎo)性表現(xiàn)在，當(dāng)流感預(yù)測系統(tǒng)提到疫情，媒體就會進(jìn)行報(bào)道，從而引發(fā)大眾關(guān)于流感預(yù)防和治療的大量搜索。由于這些搜索關(guān)鍵字涉及流感，從而又會加強(qiáng)系統(tǒng)對流感趨勢的判定，形成了對流感疫情傳播事件的過度擬合問題。因此，要挖掘出大數(shù)據(jù)背后真正的模式、生產(chǎn)出有效的知識，需要將其置于科學(xué)哲學(xué)體系之中，充分了解從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)分析的各個(gè)環(huán)節(jié)。

為了揭示隱匿在大數(shù)據(jù)分析過程中的問題以及這些問題可能產(chǎn)生的后果，在以下部分，筆者從數(shù)據(jù)產(chǎn)生和數(shù)據(jù)分析兩個(gè)方面對大數(shù)據(jù)的認(rèn)識論和方法論進(jìn)行闡述。前者從大數(shù)據(jù)產(chǎn)生方式、記錄方式入手，舉例介紹了數(shù)據(jù)挖掘過程中可能的誤差來源。后者則基于大數(shù)據(jù)的特征，進(jìn)一步討論用傳統(tǒng)統(tǒng)計(jì)方法分析大數(shù)據(jù)可能帶來的問題。

一、數(shù)據(jù)的產(chǎn)生

大數(shù)據(jù)分析的關(guān)鍵問題是在于大數(shù)據(jù)是否可以表達(dá)真正的社會現(xiàn)實(shí)。對于大數(shù)據(jù)分析，由于數(shù)據(jù)的獲得和分析基本都是由計(jì)算機(jī)程序完成，理解大數(shù)據(jù)技術(shù)是如何生產(chǎn)出可供計(jì)算機(jī)和人類分析的數(shù)據(jù)尤為必要。瓦格納·帕斯菲絲等學(xué)者也曾表示，在用大數(shù)據(jù)進(jìn)行人文社科研究時(shí)，我們首先應(yīng)該了解大數(shù)據(jù)是如何產(chǎn)生的。

（一）誰參與了數(shù)據(jù)信息的編輯？

維基百科是大數(shù)據(jù)一個(gè)資料庫。自成立以來，維基百科宗旨就是為了編譯全人類可以自由使用的網(wǎng)絡(luò)百科全書。維基百科其中大部分頁面可以由任何人瀏覽和修改。與大多出版社不同，其內(nèi)容編輯采用眾包形式，沒有特定的編輯。眾包形式不設(shè)定參與編譯人員的特征門檻，目的是鼓勵(lì)更多自愿者的參與。且對于所編譯內(nèi)容，維基百科內(nèi)容的更改與修正也是依靠眾人的協(xié)作不斷改進(jìn)。從理論上講，來自不同國別、種族、教育程度、性別、年齡段的個(gè)體都可以參與網(wǎng)頁內(nèi)容編輯。然而，即便維基百科對參與者不加以任何限制，全球范圍內(nèi)每個(gè)人參與的概率也不盡相同。區(qū)別于軟件工程，維基百科缺乏類似內(nèi)置質(zhì)量監(jiān)控的系統(tǒng)，內(nèi)容的客觀完整性和準(zhǔn)確性也有待考證。在這種情況下，如若具有某些特征的人群（比如，特定的偏好和品味）參與編輯的概率更大，那么在條目生產(chǎn)和內(nèi)容編輯上就有可能產(chǎn)生系統(tǒng)性的偏差。

亞當(dāng)斯和布魯克爾指出，在維基百科核心運(yùn)作的社會系統(tǒng)會通過某些方式對社會世界形象產(chǎn)生系統(tǒng)性的扭曲，使得數(shù)據(jù)生產(chǎn)過程產(chǎn)生偏差。即便眾包模式不需要太多的理論，但由于參與維基百科編輯者需要特定的技術(shù)手段，對特定的術(shù)語和網(wǎng)絡(luò)社區(qū)行為規(guī)則的了解等為參與網(wǎng)絡(luò)內(nèi)容編輯者設(shè)置了隱形的門檻。正是這些隱形的門檻導(dǎo)致了維基百科在知識生產(chǎn)上的偏差。比如說，在維基百科有關(guān)美國社會學(xué)家目錄中，女性學(xué)者代表性相對不足的一個(gè)重要原因就在于內(nèi)容條目的主要貢獻(xiàn)者通常是來自美國或歐洲的年輕白人男性計(jì)算機(jī)專家，他們在生產(chǎn)和編輯內(nèi)容條目時(shí)可能產(chǎn)生有別于一般公眾的偏好和品味。

（二）誰貢獻(xiàn)了數(shù)據(jù)信息？

近年來微博和推特?cái)?shù)據(jù)也受到了越來越多媒體研究學(xué)者的關(guān)注，它們在社會科學(xué)中被廣泛運(yùn)用于對事件參與、政治運(yùn)動(dòng)等研究中。這類數(shù)據(jù)通常被標(biāo)記為“大”數(shù)據(jù)，因?yàn)橥ㄟ^計(jì)算機(jī)軟件系統(tǒng)我們可以捕捉到用戶在相關(guān)網(wǎng)站上查看、點(diǎn)擊、下載、上傳等數(shù)百萬條行為的記錄。然而多數(shù)情況下，微博和推特?cái)?shù)據(jù)反映的是特定時(shí)刻活躍用戶的一個(gè)片段。根據(jù)Twopchart——一個(gè)監(jiān)控推特活動(dòng)的公司發(fā)布的推特?cái)?shù)據(jù)結(jié)果，截至2014年4月，在5.5億個(gè)推特賬戶中有43%至少一年沒有創(chuàng)建過一條記錄。50%的推特記錄僅由0.05%的推特用戶創(chuàng)建。這種由活躍用戶所致的偏斜分布數(shù)據(jù)難以對那些無法觀測到的用戶特征進(jìn)行推斷。正因?yàn)閿?shù)據(jù)信息主要由活躍用戶動(dòng)態(tài)構(gòu)成，使得推特信息的創(chuàng)建和分析產(chǎn)生了系統(tǒng)性的偏差。

大數(shù)據(jù)研究通?；谔囟ǖ募僭O(shè)。通過計(jì)算機(jī)軟件系統(tǒng)產(chǎn)生的數(shù)據(jù)與我們通常使用的數(shù)據(jù)并無顯著差異。數(shù)據(jù)量的大小只有在所產(chǎn)生數(shù)據(jù)樣本可以充分代表總體時(shí)才有意義。無偏的數(shù)據(jù)是準(zhǔn)確分析的前提，也是大數(shù)據(jù)能夠?yàn)樽约赫f話的基礎(chǔ)。如微博、推特這類數(shù)據(jù)，盡管數(shù)據(jù)量大，但是由于其數(shù)據(jù)的生成并非基于嚴(yán)格的統(tǒng)計(jì)設(shè)計(jì)，所產(chǎn)生的數(shù)據(jù)分布有偏差，總體代表性確實(shí)令人質(zhì)疑。更多、更大的數(shù)據(jù)并不會使其由非正態(tài)分布轉(zhuǎn)變成正態(tài)分布。然而依照統(tǒng)計(jì)常規(guī)，大數(shù)據(jù)正因?yàn)槠潺嫶蟮臄?shù)據(jù)量使得幾乎所有的發(fā)現(xiàn)在統(tǒng)計(jì)學(xué)的意義上都顯著，這就形成了麥克法蘭所提到的有關(guān)大數(shù)據(jù)“精確的不準(zhǔn)確”問題。即便數(shù)據(jù)本身存在問題，如果分析結(jié)果的判斷基于統(tǒng)計(jì)假設(shè)檢驗(yàn)，大數(shù)據(jù)所呈現(xiàn)的顯著結(jié)果使我們總是拒絕原假設(shè)，而得出錯(cuò)誤的統(tǒng)計(jì)推斷。

信息技術(shù)的快速發(fā)展（如大量的計(jì)算和網(wǎng)絡(luò)工作、新數(shù)據(jù)庫設(shè)計(jì)和數(shù)據(jù)存貯方式）不僅改變了數(shù)據(jù)產(chǎn)生方式，也對當(dāng)今的統(tǒng)計(jì)學(xué)方法提出了極大的挑戰(zhàn)。對于微博、推特?cái)?shù)據(jù)的分析，統(tǒng)計(jì)假設(shè)檢驗(yàn)為什么會無效？運(yùn)用傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行大數(shù)據(jù)分析還會產(chǎn)生哪些問題？大數(shù)據(jù)在社會科學(xué)研究需要對這些問題特別關(guān)注。

二、數(shù)據(jù)分析

如果要挖掘出數(shù)據(jù)中所蘊(yùn)藏的真正的社會發(fā)展規(guī)律，我們不僅需要大量豐富可信的數(shù)據(jù)，還要有合適的分析方法。對于微博、推特?cái)?shù)據(jù)分析，假設(shè)檢驗(yàn)的失利并非偶然。將傳統(tǒng)統(tǒng)計(jì)分析方法用于大數(shù)據(jù)分析會存在什么問題？如今的大數(shù)據(jù)分析技術(shù)又在多大程度上可信？回答這一問題需要我們弄清傳統(tǒng)的統(tǒng)計(jì)方法和大數(shù)據(jù)分析方法在思維邏輯和方法執(zhí)行上的差異。

（一）大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)分析方法的比較

傳統(tǒng)數(shù)據(jù)分析方法通常是基于具體的問題，從少量、靜態(tài)、結(jié)構(gòu)清晰且低相關(guān)的數(shù)據(jù)集中提取信息，這些數(shù)據(jù)的產(chǎn)生來自科學(xué)抽樣，分析方法嚴(yán)格基于統(tǒng)計(jì)假設(shè)。由于假設(shè)檢驗(yàn)需要事先假定可能的變化維度，在很大程度上排除了研究者看不到或者想不到的因素，這就是所謂的“分類近視”（Categorical Myopia），即我們看不到超出我們視野的東西，這也是困擾傳統(tǒng)調(diào)查數(shù)據(jù)分析和研究的最大問題。在大數(shù)據(jù)分析中，我們跳過事先的假定，直接通過數(shù)據(jù)挖掘技術(shù)分析繁復(fù)冗長、豐富多樣、動(dòng)態(tài)及時(shí)的具有高度不確定性、高相關(guān)性的數(shù)據(jù)集來探尋數(shù)據(jù)背后的模式和相互關(guān)聯(lián)。面對如此高難度的挑戰(zhàn)，大數(shù)據(jù)分析開始采用那些植根于人工智能和專家系統(tǒng)的新計(jì)算技術(shù)，通過機(jī)器學(xué)習(xí)自動(dòng)挖掘和檢驗(yàn)數(shù)據(jù)模式建立預(yù)測模型、優(yōu)化結(jié)果。對于實(shí)證主義社會科學(xué)研究者來說，大數(shù)據(jù)使得用以科學(xué)研究的數(shù)據(jù)從稀缺走向豐富，從靜態(tài)走向動(dòng)態(tài)，從粗略的聚合數(shù)據(jù)轉(zhuǎn)向更加精細(xì)、多維度高分辨率的數(shù)據(jù)。在分析上，大數(shù)據(jù)使得用以科學(xué)研究的方法從簡單統(tǒng)計(jì)模型轉(zhuǎn)向更加復(fù)雜精細(xì)的模擬研究?？梢哉f，大數(shù)據(jù)分析提供了一種全新的認(rèn)識論來觀察和理解世界。有學(xué)者認(rèn)為大數(shù)據(jù)分析很可能會為知識生產(chǎn)提供一種跨學(xué)科的新研究范式。然而，由于思維方式的差異，這種新的研究范式對傳統(tǒng)統(tǒng)計(jì)方法同時(shí)提出了挑戰(zhàn)。

傳統(tǒng)統(tǒng)計(jì)方法是否真的不適用大數(shù)據(jù)分析呢？一般說來，統(tǒng)計(jì)學(xué)是基于已有的數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)。由于檢驗(yàn)時(shí)事情已經(jīng)發(fā)生，因此屬于事后檢驗(yàn)。正是這種方式為科學(xué)統(tǒng)計(jì)和假設(shè)檢驗(yàn)帶來了特定的困難。菲德曼曾說，基于一個(gè)數(shù)據(jù)集的結(jié)果復(fù)制和預(yù)測相比于基于一個(gè)數(shù)據(jù)集的多模型統(tǒng)計(jì)檢驗(yàn)需要更加嚴(yán)格的驗(yàn)證體系，其所需的假設(shè)更少，從而使得偽相關(guān)關(guān)系出現(xiàn)的機(jī)會更小，可探索的模式更多，排除替代性解釋的概率也更高。如果用一個(gè)樣本來構(gòu)建模型或者生成一個(gè)待檢驗(yàn)的假設(shè)，為了得到穩(wěn)健有效的結(jié)果，則不能用同一樣本再進(jìn)行假設(shè)檢驗(yàn)。在現(xiàn)有研究中這一問題卻被系統(tǒng)性地忽略。而數(shù)據(jù)驅(qū)動(dòng)的大數(shù)據(jù)研究通常將所使用的數(shù)據(jù)拆分成一個(gè)個(gè)單獨(dú)的數(shù)據(jù)集，其中一些用于估計(jì)模型參數(shù)，剩下的用于驗(yàn)證預(yù)測新發(fā)現(xiàn)的數(shù)據(jù)模式。表面上看，大數(shù)據(jù)分析似乎更符合科學(xué)分析的邏輯，然而伴隨其中的問題卻可能產(chǎn)生更加嚴(yán)重的后果。

（二）無力的假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)是傳統(tǒng)數(shù)據(jù)分析中一種基本的統(tǒng)計(jì)推斷形式。在統(tǒng)計(jì)學(xué)中，其為根據(jù)一定假設(shè)條件由已知樣本推斷未知總體的方法，其思想源于統(tǒng)計(jì)大師費(fèi)舍（Fisher）和皮爾遜（Pearson）。具體地講，當(dāng)總體分布未知時(shí)，為了推斷總體的某些特性，提出某些有關(guān)總體的假設(shè)，然后基于樣本對所提出的假設(shè)進(jìn)行檢驗(yàn)，決定是否拒絕零假設(shè)而接受備擇假設(shè)。通常判定零假設(shè)是否被拒絕的顯著性水平為α =0.05，如果假設(shè)檢驗(yàn)所得p值小于α則拒絕零假設(shè)。雖然假設(shè)檢驗(yàn)在社會科學(xué)和行為科學(xué)中被廣泛運(yùn)用，但是有關(guān)假設(shè)檢驗(yàn)的思想其實(shí)一直存有爭議。首先，在現(xiàn)實(shí)生活中，任何事物都存在一定程度上的相關(guān)，那種完全不相關(guān)的狀態(tài)幾乎不存在。因此，任何零假設(shè)都屬于“準(zhǔn)假”（quasi-false）。假設(shè)檢驗(yàn)的另一個(gè)問題就在于p值。從統(tǒng)計(jì)上講，p值會隨著樣本量的增加而減小的。對于大數(shù)據(jù)，其龐大的數(shù)據(jù)量和爆炸式增長速度令大多數(shù)任意生成的假設(shè)在0.05水平上均顯著。如果數(shù)據(jù)本身在數(shù)據(jù)量和總體代表性上不存在任何問題，那么當(dāng)基于大數(shù)據(jù)生成的零假設(shè)總是被拒絕時(shí)主要存在三種可能性：第一種表明任何事物都可能相互關(guān)聯(lián)，那么基于假設(shè)檢驗(yàn)所得結(jié)論對挖掘大數(shù)據(jù)背后的真正模式毫無意義；第二種則意味著假設(shè)檢驗(yàn)有誤，那么我們則不能將其用于大數(shù)據(jù)分析；第三種是假設(shè)檢驗(yàn)沒有問題，而通過假設(shè)檢驗(yàn)進(jìn)行統(tǒng)計(jì)推斷時(shí)存在問題。

基于第三種可能性，弗里克在他的“大數(shù)據(jù)與認(rèn)識論中”提到，基于一個(gè)設(shè)定，多樣本比較可能與數(shù)據(jù)間的相關(guān)性及假設(shè)檢驗(yàn)的第一種類型錯(cuò)誤（Type I Error）有關(guān) 。例如，我們從足夠大的數(shù)據(jù)中觀察到A與B存在著相關(guān)關(guān)系，基于此，我們提出備擇假設(shè)H，即A與B相關(guān)。對于A和B的相關(guān)關(guān)系存在兩種可能性，一種情況是A確實(shí)與B相關(guān)，另一種情況是A與B的相關(guān)純屬偶然。如果后者為真，那么接受假設(shè)H則犯了第一類型的錯(cuò)誤。根據(jù)假設(shè)檢驗(yàn)規(guī)則，是否接受備擇假設(shè)H在于p值的大小。如果統(tǒng)計(jì)檢驗(yàn)顯示p值小于0.05，則接受假設(shè)H。細(xì)究顯著性水平0.05的意義，該數(shù)字表明，如果A與B確實(shí)無關(guān)（或者A與B的相關(guān)屬于偶然），那么從同一總體中抽取大量樣本，這些樣本中會有5%會落入檢驗(yàn)的拒絕區(qū)間，使我們錯(cuò)誤地接受A與B的相關(guān)關(guān)系。需要提及的是，第一種類型錯(cuò)誤基于零假設(shè)為真或者備擇假設(shè)為假（即，假設(shè)H不成立），其不可能通過零假設(shè)被拒絕的次數(shù)，或者備擇假設(shè)（假設(shè)H）成立的次數(shù)來估計(jì)。即便在100獨(dú)立的檢驗(yàn)中，零假設(shè)被拒絕了100次，可能表示沒發(fā)生過一次第一種類型錯(cuò)誤也可能表示發(fā)生了100次錯(cuò)誤，或者介于沒有發(fā)生和發(fā)生了100次錯(cuò)誤中間的某種情形。這一問題其實(shí)一直是統(tǒng)計(jì)學(xué)上的一般問題，但是當(dāng)面對依賴數(shù)據(jù)驅(qū)動(dòng)的大數(shù)據(jù)分析時(shí)，這個(gè)問題愈發(fā)突出。首先，數(shù)據(jù)驅(qū)動(dòng)的科學(xué)分析強(qiáng)調(diào)讓數(shù)據(jù)自己說話，而忽視了現(xiàn)有研究理論和分析的語境，這使我們對數(shù)據(jù)背后可能模式的把控能力減小，增加了虛假相關(guān)的概率。其次，由于這一方法主要依靠計(jì)算機(jī)技術(shù)來抓取和分析數(shù)據(jù)，在大多數(shù)情況下，數(shù)據(jù)研究者也不清楚計(jì)算機(jī)算法具體是如何生成數(shù)據(jù)信息以及如何對數(shù)據(jù)進(jìn)行處理的。這兩者使得所生成的用來驗(yàn)證數(shù)據(jù)模式的“新”數(shù)據(jù)可能存在計(jì)算機(jī)算法方面的系統(tǒng)性偏差。弗里克表示，任何分析，包括基于數(shù)據(jù)驅(qū)動(dòng)的分析研究最好要有先驗(yàn)指引，否則即便新發(fā)現(xiàn)的數(shù)據(jù)模式被反復(fù)驗(yàn)證，基于算法所生成的驗(yàn)證數(shù)據(jù)也無法排除偽相關(guān)的嫌疑。通俗地說，新數(shù)據(jù)模式之所以被復(fù)制和反復(fù)驗(yàn)證并不是因?yàn)樵撃Ｊ秸鎸?shí)存在，而可能因?yàn)榛谀承┧惴ǐ@得的數(shù)據(jù)更容易具有該數(shù)據(jù)模式。

（三）大數(shù)據(jù)分析與計(jì)算社會科學(xué)

數(shù)據(jù)科學(xué)時(shí)代正在重塑著政治學(xué)、心理學(xué)、社會學(xué)、公共健康學(xué)、通信科學(xué)等領(lǐng)域。以大規(guī)模數(shù)據(jù)和社交媒體為中心的計(jì)算社會科學(xué)正在重塑學(xué)者們的思維與視角，也推動(dòng)著研究人員培訓(xùn)方式的轉(zhuǎn)變。與傳統(tǒng)上通過社會調(diào)查獲得的基于受訪者回答或者基于儀器評估（比如，腦電波等）的結(jié)構(gòu)化數(shù)據(jù)非常不同，如今的科學(xué)研究人員開始通過海量數(shù)據(jù)庫中所發(fā)現(xiàn)的文字、物體或現(xiàn)象的圖片等非結(jié)構(gòu)化信息探索數(shù)據(jù)模式。

這些文字、圖片等數(shù)據(jù)常常需要通過自然語言處理來獲取和縮減數(shù)據(jù)內(nèi)容。在進(jìn)行可靠且有效的數(shù)據(jù)分析時(shí)，學(xué)者們將需要在很多方面達(dá)成新的協(xié)議，比如，用何種工具收集和處理數(shù)據(jù)，所捕捉的數(shù)據(jù)該如何分類等等。對數(shù)據(jù)的復(fù)雜性也有了新的認(rèn)識。通過傳統(tǒng)方法獲得的數(shù)據(jù)，通常需要清理、分類、建模進(jìn)而發(fā)掘其中的模式來解決問題，其自始至終不接受數(shù)據(jù)的復(fù)雜性。而數(shù)據(jù)科學(xué)時(shí)代，復(fù)雜性已經(jīng)成為數(shù)據(jù)的固有特征，此外，其更多得關(guān)注數(shù)據(jù)的動(dòng)態(tài)性、異構(gòu)性和跨域復(fù)雜性。這些變化為數(shù)據(jù)時(shí)代的學(xué)術(shù)研究打開了新的圖景，重新定位和改變學(xué)科的發(fā)展方向。

1. 機(jī)器學(xué)習(xí)的矛盾與掙扎

機(jī)器學(xué)習(xí)是順應(yīng)大數(shù)據(jù)的特征所產(chǎn)生的大數(shù)據(jù)分析方法，其指用某些算法指導(dǎo)計(jì)算機(jī)利用已知數(shù)據(jù)得出適當(dāng)?shù)哪Ｐ停⑼ㄟ^所得模型對新的情境給出判斷的過程。然而從數(shù)據(jù)抓取、特征提取到模型選取，機(jī)器學(xué)習(xí)能發(fā)掘真正的社會現(xiàn)象間關(guān)系模式的前提在于，機(jī)器可以準(zhǔn)確地將現(xiàn)實(shí)生活中的問題提煉成一個(gè)可以進(jìn)行機(jī)器學(xué)習(xí)的問題。這其中的關(guān)鍵不僅在于計(jì)算機(jī)編程和運(yùn)行過程，更加在于研究人員對所要研究的問題的深入理解。瓦格納·帕斯菲絲等曾用“思維與機(jī)器”這一對比來說明大數(shù)據(jù)話題模型（Topic Model）的利與弊。

話題模型是一種應(yīng)用非常廣泛的產(chǎn)生式模型，也是目前利用大數(shù)據(jù)做人文社會科學(xué)研究最常用的文本挖掘方法。其建模方法通常是利用文檔內(nèi)與文檔間的詞共現(xiàn)的信息在跨文本語料庫中生成各種話題集合。這些集合都被假設(shè)成跨文本語料庫中的共同話題。與其他基于“詞袋”技術(shù)的文本分析一樣，話題模型尤其是無監(jiān)督學(xué)習(xí)的話題模型從對語言完全無感的讀者角度出發(fā)?；谶@一特征，不同學(xué)者顯示了不同的偏好。比如，雷切爾·布瑪認(rèn)為，通過這種沒有指向性的非常規(guī)文本分析的視角可以發(fā)掘出一般讀者所無法辨識的文本屬性，進(jìn)而激發(fā)和改變?nèi)祟惖乃伎紝挾群蛷V度。其他一些學(xué)者認(rèn)為，這些計(jì)算模型往往對語境、語法、語義、語氣等一無所知，可能很難捕捉到在文字內(nèi)容背后的真正情感與意義，進(jìn)而影響到分析結(jié)果。因此，泰德·安德伍德在“高維空間的文學(xué)使用”中將這些模型稱為“遲鈍的解釋學(xué)工具?！?艾倫·劉也將它們描述為 “空洞的文字解讀?！?另外，由于這些模型并不受理論和經(jīng)驗(yàn)限制，在探索數(shù)據(jù)模式上可能存在優(yōu)勢。然而，因?yàn)閷W(xué)習(xí)過程中缺乏可靠的訓(xùn)練樣本，基于這些歧義較高的樣本所產(chǎn)生模型的不確定性也隨之增加。

2. 軟件密集型系統(tǒng)的困境

不論是數(shù)據(jù)產(chǎn)生，還是數(shù)據(jù)分析，大數(shù)據(jù)分析在根本上依賴于計(jì)算機(jī)軟件，屬于軟件密集型系統(tǒng)。沒有計(jì)算機(jī)的輔助，研究者的想法就如同空中樓閣。計(jì)算機(jī)的使用為研究者想法的實(shí)現(xiàn)提供了必要硬件條件。但由于受限于軟件技術(shù)的發(fā)展，數(shù)據(jù)分析過程中仍舊有很多問題難以避免，比如，之前提及的有關(guān)數(shù)據(jù)驅(qū)動(dòng)科學(xué)中常出現(xiàn)的基于算法的系統(tǒng)偏差。數(shù)據(jù)分析過程中還可能出現(xiàn)更加復(fù)雜的情況，這在處理復(fù)雜系統(tǒng)（Complex System）時(shí)尤為突出。復(fù)雜系統(tǒng)是由大量組分組成的網(wǎng)絡(luò)，不存在中央控制，通過簡單運(yùn)作規(guī)則產(chǎn)生出復(fù)雜的集體行為和復(fù)雜的信息處理，并通過學(xué)習(xí)和進(jìn)化產(chǎn)生適應(yīng)性。該系統(tǒng)活動(dòng)呈現(xiàn)非線性，往往形成無數(shù)層級，且活動(dòng)包含眾多未知因素。因此，分析復(fù)雜系統(tǒng)對于軟件要求上除傳統(tǒng)的計(jì)算能力外，還需要將計(jì)算機(jī)模擬整合到普通科學(xué)實(shí)踐的工具箱里來探尋其中的動(dòng)力機(jī)制。對于前者，充分理解各種算法的局限性和風(fēng)險(xiǎn)，明白這些算法會如何引致以及引致什么樣的誤差，研究者就可以決定到底多大程度可以對這些算法施以信任、加以限制。而對于后者，情況則復(fù)雜許多，由于模擬本身涉及動(dòng)態(tài)過程，并不是接受某一分析解決方案就能解決，其需涉及大數(shù)據(jù)集群的部署，而部署架構(gòu)的過程大數(shù)據(jù)無法自動(dòng)實(shí)現(xiàn)，這些問題在分析中很棘手，大數(shù)據(jù)分析遭遇瓶頸。

這些問題的產(chǎn)生往往與大數(shù)據(jù)的認(rèn)知模糊相關(guān)。漢弗萊斯提出，對于某一過程，當(dāng)認(rèn)知主體x在時(shí)間t對其中所有與認(rèn)知相關(guān)的元素沒有全面了解時(shí)，我們則認(rèn)為該過程存在認(rèn)知模糊。在一定程度上，認(rèn)知模糊既不屬于科學(xué)質(zhì)詢（scientific inquiry）的某個(gè)新特征，也并不僅僅局限于計(jì)算方法中。對于軟件密集型科學(xué)（SIS），這種認(rèn)知模糊出現(xiàn)在不同時(shí)期的程序代碼中（尤其是對“古董代碼”錯(cuò)誤或模糊的認(rèn)知），以及不斷發(fā)展的計(jì)算方法中（用傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行大數(shù)據(jù)分析所呈現(xiàn)的問題），并經(jīng)由軟件誤差不斷升級（盡管在標(biāo)準(zhǔn)統(tǒng)計(jì)分析中我們常假設(shè)誤差隨機(jī)分布，但這一假設(shè)在軟件系統(tǒng)中并不成立，根本原因在于我們無法事先排除所有的非隨機(jī)因素）。又由于認(rèn)知模糊的路徑復(fù)雜性，這種誤差已經(jīng)越來越難以通過統(tǒng)計(jì)方法所探知。要改善大數(shù)據(jù)認(rèn)識論的缺陷，就必須正視誤差的影響。有學(xué)者提出，軟件系統(tǒng)的模塊化在一定程度上可以減少軟件誤差，令系統(tǒng)更加易于管理，然而隨著時(shí)間的動(dòng)態(tài)變化軟件模塊很快會演化為一個(gè)復(fù)雜系統(tǒng)而產(chǎn)生新的問題，這成為軟件設(shè)計(jì)和開發(fā)中時(shí)刻需要引起重視和不斷思考的問題。

由此可見，大數(shù)據(jù)的認(rèn)知模糊成為了大數(shù)據(jù)技術(shù)矛盾與掙扎的核心。從本質(zhì)上講，這些局限性反映了大數(shù)據(jù)技術(shù)背后的理論缺失，體現(xiàn)了大型軟件系統(tǒng)的常規(guī)誤差監(jiān)測、修正與評估對內(nèi)在認(rèn)識論的挑戰(zhàn)。②

三、結(jié)語

在當(dāng)代計(jì)算機(jī)技術(shù)的輔佐下，今天的社會科學(xué)研究者有相當(dāng)?shù)哪芰νㄟ^大數(shù)據(jù)分析技術(shù)獲得傳統(tǒng)調(diào)查研究以外的更豐富、更深層的信息。通過對知識結(jié)構(gòu)、研究過程、信息內(nèi)容以及現(xiàn)實(shí)的本質(zhì)等重要問題的重新解讀，讓人們的思維方式產(chǎn)生了根本性的轉(zhuǎn)變。大數(shù)據(jù)在豐富人們認(rèn)知的同時(shí)，對研究的本體論、價(jià)值觀也產(chǎn)生了一定程度的挑戰(zhàn)。通過對比傳統(tǒng)數(shù)據(jù)分析方法，本文從數(shù)據(jù)生產(chǎn)和數(shù)據(jù)分析兩個(gè)方面討論了大數(shù)據(jù)分析可能存在的問題。

大數(shù)據(jù)的布道者認(rèn)為大數(shù)據(jù)的數(shù)據(jù)量龐大，基于大數(shù)據(jù)發(fā)現(xiàn)的數(shù)據(jù)模式和相關(guān)關(guān)系非?？煽?。其所有的“理所當(dāng)然”都是基于這樣一個(gè)假設(shè)，即通過算法產(chǎn)生的大數(shù)據(jù)確實(shí)反映的是真實(shí)的全數(shù)據(jù)。然而，此假設(shè)令人存疑。首先，從數(shù)據(jù)的產(chǎn)生過程來看，如果通過某些方式產(chǎn)生的大數(shù)據(jù)與真實(shí)總體存在偏差，那么基于這樣的數(shù)據(jù)所得論斷并不可靠。再次，從數(shù)據(jù)分析的角度來講，即便所產(chǎn)生的數(shù)據(jù)沒有問題，不論是基于傳統(tǒng)的假設(shè)檢驗(yàn)還是通過機(jī)器學(xué)習(xí)尤其是無監(jiān)督學(xué)習(xí)，所發(fā)現(xiàn)的數(shù)據(jù)模式仍有可能存在很大的爭議。如大衛(wèi)·雷澤爾等學(xué)者在《科學(xué)》上就大數(shù)據(jù)分析陷阱的闡述，數(shù)據(jù)量大并不意味著我們可以忽略有關(guān)數(shù)據(jù)的根本問題，比如測量、建構(gòu)效度與信度及數(shù)據(jù)間的相關(guān)性等。大數(shù)據(jù)本身只是一個(gè)知識和信息的載體，大數(shù)據(jù)分析的潛在問題與“大”數(shù)據(jù)的大小無關(guān)，而與大數(shù)據(jù)的模糊認(rèn)知有關(guān)。造成這一模糊認(rèn)知的本質(zhì)在于大數(shù)據(jù)的產(chǎn)生和分析在一定程度上脫離了現(xiàn)有的科學(xué)哲學(xué)體系。如何讓大數(shù)據(jù)像人一樣思考，讓大數(shù)據(jù)生產(chǎn)出真實(shí)有效的知識，就需要將知識生產(chǎn)建立在科學(xué)哲學(xué)體系當(dāng)中，既不完全依賴?yán)碚?，亦不可完全拋棄理論?/p>

近年來，越來越多的國內(nèi)學(xué)者也開始基于百度搜索、本土的社交媒體等進(jìn)行大數(shù)據(jù)分析。然而，在全世界范圍內(nèi)，大數(shù)據(jù)在社會科學(xué)中的應(yīng)用尚屬起步階段。不論是在國內(nèi)還是在國外，由于網(wǎng)站和媒體平臺生成方式、數(shù)據(jù)記錄方式等相似，導(dǎo)致他們在數(shù)據(jù)產(chǎn)生和分析過程中往往存在共通的問題，面臨類似的關(guān)乎認(rèn)識論和方法論的挑戰(zhàn)。這些問題多隱匿在計(jì)算科學(xué)的理論和實(shí)踐中，需要引起我們關(guān)注并加以辨別。如何將大數(shù)據(jù)應(yīng)用于實(shí)證研究問題是當(dāng)今計(jì)算科學(xué)家以及社會科學(xué)家所面臨的重要挑戰(zhàn)和機(jī)遇。本文所涉及內(nèi)容實(shí)乃大數(shù)據(jù)分析中的“冰山一角”。這里，筆者提出自己的管窺之見，以起拋磚引玉之作用，見教于大方之家。

（責(zé)任編輯：亞立）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

喧囂之后的沉思