国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

喧囂之后的沉思

2018-05-14 17:42賀光燁
關(guān)鍵詞:假設(shè)檢驗(yàn)

[摘要]大數(shù)據(jù)的出現(xiàn)和發(fā)展顛覆了傳統(tǒng)社會科學(xué)研究的思維方式,也引發(fā)了一系列哲學(xué)層次的討論。大數(shù)據(jù)樂觀主義者認(rèn)為,海量數(shù)據(jù)總是可以產(chǎn)生準(zhǔn)確且具實(shí)踐性的知識,而理論可有可無。為揭示隱匿在大數(shù)據(jù)分析過程中的問題及其可能產(chǎn)生的后果,筆者將其與傳統(tǒng)的社會科學(xué)研究方法對比,從數(shù)據(jù)產(chǎn)生和分析方法兩個(gè)方面對大數(shù)據(jù)的認(rèn)識論和方法論進(jìn)行探討。本文認(rèn)為,數(shù)據(jù)本身只是一個(gè)信息的載體,分析其中潛在的問題與數(shù)據(jù)的“大”小無關(guān),而是與科學(xué)哲學(xué)的思維有關(guān)。通過大數(shù)據(jù)分析得出真實(shí)而有效的社會知識,需要將知識生產(chǎn)過程建立在適當(dāng)?shù)目茖W(xué)哲學(xué)基礎(chǔ)之上,既不可完全依賴?yán)碚摚嗖豢赏耆珤仐壚碚摗?/p>

[關(guān) 鍵 詞]大數(shù)據(jù) 認(rèn)識論 方法論 假設(shè)檢驗(yàn) 機(jī)器學(xué)習(xí)

[作者簡介]賀光燁(1985-),女,江蘇南京人,南京大學(xué)社會學(xué)院助理研究員,博士, 研究方向?yàn)樯鐣謱优c流動(dòng)、定量研究方法。

[中圖分類號]C3 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-7672(2018)02-0001-09

近年來,大數(shù)據(jù)之風(fēng)席卷全球。大量研究顯示,有關(guān)大數(shù)據(jù)經(jīng)驗(yàn)主義和數(shù)據(jù)科學(xué)的認(rèn)識論正在改變著生命科學(xué)、物理和工程學(xué)等領(lǐng)域的研究方法,也在不斷促進(jìn)社會科學(xué)領(lǐng)域理論范式和研究方法的重構(gòu)。根據(jù)基欽的定義,“大數(shù)據(jù)”通常是指數(shù)據(jù)量達(dá)TB級甚至PB級的數(shù)據(jù)群。相比于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù)(即可用Excel、SPSS和STATA等統(tǒng)計(jì)軟件處理的數(shù)據(jù)),大數(shù)據(jù)中圖片、聲音、視頻等非結(jié)構(gòu)化數(shù)據(jù)占相當(dāng)比重,且其總體數(shù)據(jù)容量增長速度之迅猛,遠(yuǎn)超硬件技術(shù)的發(fā)展速度。面對如此龐大、復(fù)雜的數(shù)據(jù)集,傳統(tǒng)分析方法已不足以應(yīng)對,基于新計(jì)算機(jī)應(yīng)用程序的大數(shù)據(jù)分析方法應(yīng)運(yùn)而生。安德森表示,數(shù)據(jù)洪流會令科學(xué)方法過時(shí)。通過大數(shù)據(jù)技術(shù),我們可以在不受理論預(yù)設(shè)限制的情況下發(fā)現(xiàn)更多大數(shù)據(jù)中隱含的模式和關(guān)系。2012年,《紐約時(shí)報(bào)》的科學(xué)版記者史蒂芬洛爾撰文聲稱,“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,科學(xué)、商業(yè)、經(jīng)濟(jì)等各領(lǐng)域的決策從此將不再依賴于傳統(tǒng)的經(jīng)驗(yàn)和直覺,而是日益基于數(shù)據(jù)和分析。大數(shù)據(jù)的產(chǎn)生和發(fā)展無疑帶來了思維方式與科學(xué)方法論的變革。不僅如此,另有學(xué)者認(rèn)為,這種基于計(jì)算機(jī)算法、程式的數(shù)據(jù)密集型分析工具開辟了繼實(shí)驗(yàn)、理論、模擬之后科學(xué)研究的第四種范式,這種范式使我們能夠從堆積如山的數(shù)據(jù)金礦中挖掘出知識。

大數(shù)據(jù)的出現(xiàn)和發(fā)展顛覆了傳統(tǒng)社會科學(xué)研究的思維方式,也引發(fā)了一系列多科學(xué)研究的認(rèn)識論的進(jìn)一步討論。相比傳統(tǒng)社會科學(xué)研究的思維方式(即以一般理論為前提,進(jìn)而推導(dǎo)可以驗(yàn)證的系列假設(shè)),大數(shù)據(jù)分析的思維則是讓數(shù)據(jù)本身說話,不需預(yù)先決定對于某個(gè)問題哪些變量更加重要,而主要通過機(jī)器學(xué)習(xí)(人工智能中最能體現(xiàn)智能的一個(gè)分支)讓數(shù)據(jù)自行學(xué)習(xí),辨別關(guān)鍵變量,習(xí)得其中的關(guān)聯(lián)規(guī)律,進(jìn)而歸納出數(shù)據(jù)背后隱藏的模式。然而,從數(shù)據(jù)出發(fā)并不意味著數(shù)據(jù)挖掘憑空而來。大數(shù)據(jù)的捕捉和分析不僅需要依賴計(jì)算機(jī)硬件、軟件系統(tǒng)的支撐,更需要由人來設(shè)定規(guī)則。物理學(xué)家馬克思·玻恩曾說,科學(xué)在每個(gè)時(shí)期都和當(dāng)時(shí)的哲學(xué)體系相互影響,它向哲學(xué)體系提供觀測事實(shí),同時(shí)從它們那里得到思想方法。對于大數(shù)據(jù)分析,大數(shù)據(jù)技術(shù)與平臺,數(shù)據(jù)本體與監(jiān)管環(huán)境對分析過程中的每一步均會產(chǎn)生影響。若忽略在數(shù)據(jù)獲取和分析過程中研究者施加的影響,就會無形中扭曲數(shù)字痕跡,從而掩蓋了現(xiàn)象背后的本質(zhì)。

一個(gè)著名的案例就是谷歌流感預(yù)測。2009年谷歌幾名工程師在《自然》發(fā)文——“用搜索引擎預(yù)測流感”,闡述了他們設(shè)計(jì)的谷歌流感預(yù)測系統(tǒng)。該系統(tǒng)的工作原理是使用匯總的谷歌搜索來預(yù)測流感疫情,并將預(yù)測結(jié)果與美國疾控中心的監(jiān)測報(bào)告進(jìn)行比對。這一系統(tǒng)一度被視為大數(shù)據(jù)分析優(yōu)勢的明證。然而不久巴特勒發(fā)現(xiàn),通過谷歌流感預(yù)測系統(tǒng)預(yù)測的流感門診病歷數(shù)是疾控中心監(jiān)測報(bào)告的兩倍多。分析結(jié)果顯示,造成這一失誤的主要原因是谷歌流感預(yù)測系統(tǒng)中的關(guān)鍵詞搜索系統(tǒng)混淆了大眾的流感意識與真正的流感信號。這個(gè)問題從表面上看似乎是個(gè)技術(shù)性問題,實(shí)際是因?yàn)楹鲆暳藬?shù)據(jù)之外的社會情境及其與流感傳播相關(guān)的思維邏輯。

其實(shí),谷歌流感預(yù)測的案例在很大程度上反映了主流文獻(xiàn)對大數(shù)據(jù)認(rèn)識論的誤解。他們將數(shù)據(jù)量大與數(shù)據(jù)代表性強(qiáng)混淆在一起,認(rèn)為通過大數(shù)據(jù)可以極大程度地表達(dá)或者近似總體,因此基于大數(shù)據(jù)發(fā)現(xiàn)的任何模式均真實(shí)可信,無需理論指引。這引發(fā)了關(guān)于“大數(shù)據(jù)的誕生是否意味著理論的終結(jié)”的討論。需要注意的是,脫離了科學(xué)哲學(xué)體系的大數(shù)據(jù)就如同失去靈魂游走的個(gè)體。數(shù)據(jù)生產(chǎn)過程中所留下的數(shù)字痕跡很可能具有誤導(dǎo)性。就谷歌流感預(yù)測而言,其誤導(dǎo)性表現(xiàn)在,當(dāng)流感預(yù)測系統(tǒng)提到疫情,媒體就會進(jìn)行報(bào)道,從而引發(fā)大眾關(guān)于流感預(yù)防和治療的大量搜索。由于這些搜索關(guān)鍵字涉及流感,從而又會加強(qiáng)系統(tǒng)對流感趨勢的判定,形成了對流感疫情傳播事件的過度擬合問題。因此,要挖掘出大數(shù)據(jù)背后真正的模式、生產(chǎn)出有效的知識,需要將其置于科學(xué)哲學(xué)體系之中,充分了解從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)分析的各個(gè)環(huán)節(jié)。

為了揭示隱匿在大數(shù)據(jù)分析過程中的問題以及這些問題可能產(chǎn)生的后果,在以下部分,筆者從數(shù)據(jù)產(chǎn)生和數(shù)據(jù)分析兩個(gè)方面對大數(shù)據(jù)的認(rèn)識論和方法論進(jìn)行闡述。前者從大數(shù)據(jù)產(chǎn)生方式、記錄方式入手,舉例介紹了數(shù)據(jù)挖掘過程中可能的誤差來源。后者則基于大數(shù)據(jù)的特征,進(jìn)一步討論用傳統(tǒng)統(tǒng)計(jì)方法分析大數(shù)據(jù)可能帶來的問題。

一、 數(shù)據(jù)的產(chǎn)生

大數(shù)據(jù)分析的關(guān)鍵問題是在于大數(shù)據(jù)是否可以表達(dá)真正的社會現(xiàn)實(shí)。對于大數(shù)據(jù)分析,由于數(shù)據(jù)的獲得和分析基本都是由計(jì)算機(jī)程序完成,理解大數(shù)據(jù)技術(shù)是如何生產(chǎn)出可供計(jì)算機(jī)和人類分析的數(shù)據(jù)尤為必要。瓦格納·帕斯菲絲等學(xué)者也曾表示,在用大數(shù)據(jù)進(jìn)行人文社科研究時(shí),我們首先應(yīng)該了解大數(shù)據(jù)是如何產(chǎn)生的。

(一) 誰參與了數(shù)據(jù)信息的編輯?

維基百科是大數(shù)據(jù)一個(gè)資料庫。自成立以來,維基百科宗旨就是為了編譯全人類可以自由使用的網(wǎng)絡(luò)百科全書。維基百科其中大部分頁面可以由任何人瀏覽和修改。與大多出版社不同,其內(nèi)容編輯采用眾包形式,沒有特定的編輯。眾包形式不設(shè)定參與編譯人員的特征門檻,目的是鼓勵(lì)更多自愿者的參與。且對于所編譯內(nèi)容,維基百科內(nèi)容的更改與修正也是依靠眾人的協(xié)作不斷改進(jìn)。從理論上講,來自不同國別、種族、教育程度、性別、年齡段的個(gè)體都可以參與網(wǎng)頁內(nèi)容編輯。然而,即便維基百科對參與者不加以任何限制,全球范圍內(nèi)每個(gè)人參與的概率也不盡相同。區(qū)別于軟件工程,維基百科缺乏類似內(nèi)置質(zhì)量監(jiān)控的系統(tǒng),內(nèi)容的客觀完整性和準(zhǔn)確性也有待考證。在這種情況下,如若具有某些特征的人群(比如,特定的偏好和品味)參與編輯的概率更大,那么在條目生產(chǎn)和內(nèi)容編輯上就有可能產(chǎn)生系統(tǒng)性的偏差。

亞當(dāng)斯和布魯克爾指出,在維基百科核心運(yùn)作的社會系統(tǒng)會通過某些方式對社會世界形象產(chǎn)生系統(tǒng)性的扭曲,使得數(shù)據(jù)生產(chǎn)過程產(chǎn)生偏差。即便眾包模式不需要太多的理論,但由于參與維基百科編輯者需要特定的技術(shù)手段,對特定的術(shù)語和網(wǎng)絡(luò)社區(qū)行為規(guī)則的了解等為參與網(wǎng)絡(luò)內(nèi)容編輯者設(shè)置了隱形的門檻。正是這些隱形的門檻導(dǎo)致了維基百科在知識生產(chǎn)上的偏差。比如說,在維基百科有關(guān)美國社會學(xué)家目錄中,女性學(xué)者代表性相對不足的一個(gè)重要原因就在于內(nèi)容條目的主要貢獻(xiàn)者通常是來自美國或歐洲的年輕白人男性計(jì)算機(jī)專家,他們在生產(chǎn)和編輯內(nèi)容條目時(shí)可能產(chǎn)生有別于一般公眾的偏好和品味。

(二) 誰貢獻(xiàn)了數(shù)據(jù)信息?

近年來微博和推特?cái)?shù)據(jù)也受到了越來越多媒體研究學(xué)者的關(guān)注,它們在社會科學(xué)中被廣泛運(yùn)用于對事件參與、政治運(yùn)動(dòng)等研究中 。這類數(shù)據(jù)通常被標(biāo)記為“大”數(shù)據(jù),因?yàn)橥ㄟ^計(jì)算機(jī)軟件系統(tǒng)我們可以捕捉到用戶在相關(guān)網(wǎng)站上查看、點(diǎn)擊、下載、上傳等數(shù)百萬條行為的記錄。然而多數(shù)情況下,微博和推特?cái)?shù)據(jù)反映的是特定時(shí)刻活躍用戶的一個(gè)片段。根據(jù)Twopchart——一個(gè)監(jiān)控推特活動(dòng)的公司發(fā)布的推特?cái)?shù)據(jù)結(jié)果,截至2014年4月,在5.5億個(gè)推特賬戶中有43%至少一年沒有創(chuàng)建過一條記錄。50%的推特記錄僅由0.05%的推特用戶創(chuàng)建。這種由活躍用戶所致的偏斜分布數(shù)據(jù)難以對那些無法觀測到的用戶特征進(jìn)行推斷。正因?yàn)閿?shù)據(jù)信息主要由活躍用戶動(dòng)態(tài)構(gòu)成,使得推特信息的創(chuàng)建和分析產(chǎn)生了系統(tǒng)性的偏差。

大數(shù)據(jù)研究通?;谔囟ǖ募僭O(shè)。通過計(jì)算機(jī)軟件系統(tǒng)產(chǎn)生的數(shù)據(jù)與我們通常使用的數(shù)據(jù)并無顯著差異。數(shù)據(jù)量的大小只有在所產(chǎn)生數(shù)據(jù)樣本可以充分代表總體時(shí)才有意義。無偏的數(shù)據(jù)是準(zhǔn)確分析的前提,也是大數(shù)據(jù)能夠?yàn)樽约赫f話的基礎(chǔ)。如微博、推特這類數(shù)據(jù),盡管數(shù)據(jù)量大,但是由于其數(shù)據(jù)的生成并非基于嚴(yán)格的統(tǒng)計(jì)設(shè)計(jì),所產(chǎn)生的數(shù)據(jù)分布有偏差,總體代表性確實(shí)令人質(zhì)疑。更多、更大的數(shù)據(jù)并不會使其由非正態(tài)分布轉(zhuǎn)變成正態(tài)分布。然而依照統(tǒng)計(jì)常規(guī),大數(shù)據(jù)正因?yàn)槠潺嫶蟮臄?shù)據(jù)量使得幾乎所有的發(fā)現(xiàn)在統(tǒng)計(jì)學(xué)的意義上都顯著,這就形成了麥克法蘭所提到的有關(guān)大數(shù)據(jù)“精確的不準(zhǔn)確”問題。即便數(shù)據(jù)本身存在問題,如果分析結(jié)果的判斷基于統(tǒng)計(jì)假設(shè)檢驗(yàn),大數(shù)據(jù)所呈現(xiàn)的顯著結(jié)果使我們總是拒絕原假設(shè),而得出錯(cuò)誤的統(tǒng)計(jì)推斷。

信息技術(shù)的快速發(fā)展(如大量的計(jì)算和網(wǎng)絡(luò)工作、新數(shù)據(jù)庫設(shè)計(jì)和數(shù)據(jù)存貯方式)不僅改變了數(shù)據(jù)產(chǎn)生方式,也對當(dāng)今的統(tǒng)計(jì)學(xué)方法提出了極大的挑戰(zhàn)。對于微博、推特?cái)?shù)據(jù)的分析,統(tǒng)計(jì)假設(shè)檢驗(yàn)為什么會無效?運(yùn)用傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行大數(shù)據(jù)分析還會產(chǎn)生哪些問題?大數(shù)據(jù)在社會科學(xué)研究需要對這些問題特別關(guān)注。

二、 數(shù)據(jù)分析

如果要挖掘出數(shù)據(jù)中所蘊(yùn)藏的真正的社會發(fā)展規(guī)律,我們不僅需要大量豐富可信的數(shù)據(jù),還要有合適的分析方法。對于微博、推特?cái)?shù)據(jù)分析,假設(shè)檢驗(yàn)的失利并非偶然。將傳統(tǒng)統(tǒng)計(jì)分析方法用于大數(shù)據(jù)分析會存在什么問題?如今的大數(shù)據(jù)分析技術(shù)又在多大程度上可信?回答這一問題需要我們弄清傳統(tǒng)的統(tǒng)計(jì)方法和大數(shù)據(jù)分析方法在思維邏輯和方法執(zhí)行上的差異。

(一) 大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)分析方法的比較

傳統(tǒng)數(shù)據(jù)分析方法通常是基于具體的問題,從少量、靜態(tài)、結(jié)構(gòu)清晰且低相關(guān)的數(shù)據(jù)集中提取信息,這些數(shù)據(jù)的產(chǎn)生來自科學(xué)抽樣,分析方法嚴(yán)格基于統(tǒng)計(jì)假設(shè)。由于假設(shè)檢驗(yàn)需要事先假定可能的變化維度,在很大程度上排除了研究者看不到或者想不到的因素,這就是所謂的“分類近視”(Categorical Myopia),即我們看不到超出我們視野的東西,這也是困擾傳統(tǒng)調(diào)查數(shù)據(jù)分析和研究的最大問題。在大數(shù)據(jù)分析中,我們跳過事先的假定,直接通過數(shù)據(jù)挖掘技術(shù)分析繁復(fù)冗長、豐富多樣、動(dòng)態(tài)及時(shí)的具有高度不確定性、高相關(guān)性的數(shù)據(jù)集來探尋數(shù)據(jù)背后的模式和相互關(guān)聯(lián)。面對如此高難度的挑戰(zhàn),大數(shù)據(jù)分析開始采用那些植根于人工智能和專家系統(tǒng)的新計(jì)算技術(shù),通過機(jī)器學(xué)習(xí)自動(dòng)挖掘和檢驗(yàn)數(shù)據(jù)模式建立預(yù)測模型、優(yōu)化結(jié)果。對于實(shí)證主義社會科學(xué)研究者來說,大數(shù)據(jù)使得用以科學(xué)研究的數(shù)據(jù)從稀缺走向豐富,從靜態(tài)走向動(dòng)態(tài),從粗略的聚合數(shù)據(jù)轉(zhuǎn)向更加精細(xì)、多維度高分辨率的數(shù)據(jù)。在分析上,大數(shù)據(jù)使得用以科學(xué)研究的方法從簡單統(tǒng)計(jì)模型轉(zhuǎn)向更加復(fù)雜精細(xì)的模擬研究??梢哉f,大數(shù)據(jù)分析提供了一種全新的認(rèn)識論來觀察和理解世界。有學(xué)者認(rèn)為大數(shù)據(jù)分析很可能會為知識生產(chǎn)提供一種跨學(xué)科的新研究范式。然而,由于思維方式的差異,這種新的研究范式對傳統(tǒng)統(tǒng)計(jì)方法同時(shí)提出了挑戰(zhàn)。

傳統(tǒng)統(tǒng)計(jì)方法是否真的不適用大數(shù)據(jù)分析呢?一般說來,統(tǒng)計(jì)學(xué)是基于已有的數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)。由于檢驗(yàn)時(shí)事情已經(jīng)發(fā)生,因此屬于事后檢驗(yàn)。正是這種方式為科學(xué)統(tǒng)計(jì)和假設(shè)檢驗(yàn)帶來了特定的困難。菲德曼曾說, 基于一個(gè)數(shù)據(jù)集的結(jié)果復(fù)制和預(yù)測相比于基于一個(gè)數(shù)據(jù)集的多模型統(tǒng)計(jì)檢驗(yàn)需要更加嚴(yán)格的驗(yàn)證體系,其所需的假設(shè)更少,從而使得偽相關(guān)關(guān)系出現(xiàn)的機(jī)會更小,可探索的模式更多,排除替代性解釋的概率也更高。如果用一個(gè)樣本來構(gòu)建模型或者生成一個(gè)待檢驗(yàn)的假設(shè),為了得到穩(wěn)健有效的結(jié)果,則不能用同一樣本再進(jìn)行假設(shè)檢驗(yàn)。在現(xiàn)有研究中這一問題卻被系統(tǒng)性地忽略。而數(shù)據(jù)驅(qū)動(dòng)的大數(shù)據(jù)研究通常將所使用的數(shù)據(jù)拆分成一個(gè)個(gè)單獨(dú)的數(shù)據(jù)集,其中一些用于估計(jì)模型參數(shù),剩下的用于驗(yàn)證預(yù)測新發(fā)現(xiàn)的數(shù)據(jù)模式。表面上看,大數(shù)據(jù)分析似乎更符合科學(xué)分析的邏輯,然而伴隨其中的問題卻可能產(chǎn)生更加嚴(yán)重的后果。

(二) 無力的假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)是傳統(tǒng)數(shù)據(jù)分析中一種基本的統(tǒng)計(jì)推斷形式。在統(tǒng)計(jì)學(xué)中,其為根據(jù)一定假設(shè)條件由已知樣本推斷未知總體的方法,其思想源于統(tǒng)計(jì)大師費(fèi)舍(Fisher)和皮爾遜(Pearson)。具體地講,當(dāng)總體分布未知時(shí),為了推斷總體的某些特性,提出某些有關(guān)總體的假設(shè),然后基于樣本對所提出的假設(shè)進(jìn)行檢驗(yàn),決定是否拒絕零假設(shè)而接受備擇假設(shè)。通常判定零假設(shè)是否被拒絕的顯著性水平為α =0.05,如果假設(shè)檢驗(yàn)所得p值小于α則拒絕零假設(shè)。雖然假設(shè)檢驗(yàn)在社會科學(xué)和行為科學(xué)中被廣泛運(yùn)用,但是有關(guān)假設(shè)檢驗(yàn)的思想其實(shí)一直存有爭議。首先,在現(xiàn)實(shí)生活中,任何事物都存在一定程度上的相關(guān),那種完全不相關(guān)的狀態(tài)幾乎不存在。因此,任何零假設(shè)都屬于“準(zhǔn)假”(quasi-false)。假設(shè)檢驗(yàn)的另一個(gè)問題就在于p值。從統(tǒng)計(jì)上講,p值會隨著樣本量的增加而減小的。對于大數(shù)據(jù),其龐大的數(shù)據(jù)量和爆炸式增長速度令大多數(shù)任意生成的假設(shè)在0.05水平上均顯著。如果數(shù)據(jù)本身在數(shù)據(jù)量和總體代表性上不存在任何問題,那么當(dāng)基于大數(shù)據(jù)生成的零假設(shè)總是被拒絕時(shí)主要存在三種可能性:第一種表明任何事物都可能相互關(guān)聯(lián),那么基于假設(shè)檢驗(yàn)所得結(jié)論對挖掘大數(shù)據(jù)背后的真正模式毫無意義;第二種則意味著假設(shè)檢驗(yàn)有誤,那么我們則不能將其用于大數(shù)據(jù)分析;第三種是假設(shè)檢驗(yàn)沒有問題,而通過假設(shè)檢驗(yàn)進(jìn)行統(tǒng)計(jì)推斷時(shí)存在問題。

基于第三種可能性,弗里克在他的“大數(shù)據(jù)與認(rèn)識論中”提到,基于一個(gè)設(shè)定,多樣本比較可能與數(shù)據(jù)間的相關(guān)性及假設(shè)檢驗(yàn)的第一種類型錯(cuò)誤(Type I Error)有關(guān) 。例如,我們從足夠大的數(shù)據(jù)中觀察到A與B存在著相關(guān)關(guān)系,基于此,我們提出備擇假設(shè)H,即A與B相關(guān)。對于A和B的相關(guān)關(guān)系存在兩種可能性,一種情況是A確實(shí)與B相關(guān),另一種情況是A與B的相關(guān)純屬偶然。如果后者為真,那么接受假設(shè)H則犯了第一類型的錯(cuò)誤。根據(jù)假設(shè)檢驗(yàn)規(guī)則,是否接受備擇假設(shè)H在于p值的大小。如果統(tǒng)計(jì)檢驗(yàn)顯示p值小于0.05,則接受假設(shè)H。細(xì)究顯著性水平0.05的意義,該數(shù)字表明,如果A與B確實(shí)無關(guān)(或者A與B的相關(guān)屬于偶然),那么從同一總體中抽取大量樣本,這些樣本中會有5%會落入檢驗(yàn)的拒絕區(qū)間,使我們錯(cuò)誤地接受A與B的相關(guān)關(guān)系。需要提及的是,第一種類型錯(cuò)誤基于零假設(shè)為真或者備擇假設(shè)為假(即,假設(shè)H不成立),其不可能通過零假設(shè)被拒絕的次數(shù),或者備擇假設(shè)(假設(shè)H)成立的次數(shù)來估計(jì)。即便在100獨(dú)立的檢驗(yàn)中,零假設(shè)被拒絕了100次,可能表示沒發(fā)生過一次第一種類型錯(cuò)誤也可能表示發(fā)生了100次錯(cuò)誤,或者介于沒有發(fā)生和發(fā)生了100次錯(cuò)誤中間的某種情形。這一問題其實(shí)一直是統(tǒng)計(jì)學(xué)上的一般問題,但是當(dāng)面對依賴數(shù)據(jù)驅(qū)動(dòng)的大數(shù)據(jù)分析時(shí),這個(gè)問題愈發(fā)突出。首先,數(shù)據(jù)驅(qū)動(dòng)的科學(xué)分析強(qiáng)調(diào)讓數(shù)據(jù)自己說話,而忽視了現(xiàn)有研究理論和分析的語境,這使我們對數(shù)據(jù)背后可能模式的把控能力減小,增加了虛假相關(guān)的概率。其次,由于這一方法主要依靠計(jì)算機(jī)技術(shù)來抓取和分析數(shù)據(jù),在大多數(shù)情況下,數(shù)據(jù)研究者也不清楚計(jì)算機(jī)算法具體是如何生成數(shù)據(jù)信息以及如何對數(shù)據(jù)進(jìn)行處理的。這兩者使得所生成的用來驗(yàn)證數(shù)據(jù)模式的“新”數(shù)據(jù)可能存在計(jì)算機(jī)算法方面的系統(tǒng)性偏差。弗里克表示, 任何分析,包括基于數(shù)據(jù)驅(qū)動(dòng)的分析研究最好要有先驗(yàn)指引,否則即便新發(fā)現(xiàn)的數(shù)據(jù)模式被反復(fù)驗(yàn)證,基于算法所生成的驗(yàn)證數(shù)據(jù)也無法排除偽相關(guān)的嫌疑。通俗地說,新數(shù)據(jù)模式之所以被復(fù)制和反復(fù)驗(yàn)證并不是因?yàn)樵撃J秸鎸?shí)存在,而可能因?yàn)榛谀承┧惴ǐ@得的數(shù)據(jù)更容易具有該數(shù)據(jù)模式。

(三) 大數(shù)據(jù)分析與計(jì)算社會科學(xué)

數(shù)據(jù)科學(xué)時(shí)代正在重塑著政治學(xué)、心理學(xué)、社會學(xué)、公共健康學(xué)、通信科學(xué)等領(lǐng)域。以大規(guī)模數(shù)據(jù)和社交媒體為中心的計(jì)算社會科學(xué)正在重塑學(xué)者們的思維與視角,也推動(dòng)著研究人員培訓(xùn)方式的轉(zhuǎn)變。與傳統(tǒng)上通過社會調(diào)查獲得的基于受訪者回答或者基于儀器評估(比如,腦電波等)的結(jié)構(gòu)化數(shù)據(jù)非常不同,如今的科學(xué)研究人員開始通過海量數(shù)據(jù)庫中所發(fā)現(xiàn)的文字、物體或現(xiàn)象的圖片等非結(jié)構(gòu)化信息探索數(shù)據(jù)模式。

這些文字、圖片等數(shù)據(jù)常常需要通過自然語言處理來獲取和縮減數(shù)據(jù)內(nèi)容。在進(jìn)行可靠且有效的數(shù)據(jù)分析時(shí),學(xué)者們將需要在很多方面達(dá)成新的協(xié)議,比如,用何種工具收集和處理數(shù)據(jù),所捕捉的數(shù)據(jù)該如何分類等等。對數(shù)據(jù)的復(fù)雜性也有了新的認(rèn)識。通過傳統(tǒng)方法獲得的數(shù)據(jù),通常需要清理、分類、建模進(jìn)而發(fā)掘其中的模式來解決問題,其自始至終不接受數(shù)據(jù)的復(fù)雜性。而數(shù)據(jù)科學(xué)時(shí)代,復(fù)雜性已經(jīng)成為數(shù)據(jù)的固有特征,此外,其更多得關(guān)注數(shù)據(jù)的動(dòng)態(tài)性、異構(gòu)性和跨域復(fù)雜性。這些變化為數(shù)據(jù)時(shí)代的學(xué)術(shù)研究打開了新的圖景,重新定位和改變學(xué)科的發(fā)展方向。

1. 機(jī)器學(xué)習(xí)的矛盾與掙扎

機(jī)器學(xué)習(xí)是順應(yīng)大數(shù)據(jù)的特征所產(chǎn)生的大數(shù)據(jù)分析方法,其指用某些算法指導(dǎo)計(jì)算機(jī)利用已知數(shù)據(jù)得出適當(dāng)?shù)哪P停⑼ㄟ^所得模型對新的情境給出判斷的過程。然而從數(shù)據(jù)抓取、特征提取到模型選取,機(jī)器學(xué)習(xí)能發(fā)掘真正的社會現(xiàn)象間關(guān)系模式的前提在于,機(jī)器可以準(zhǔn)確地將現(xiàn)實(shí)生活中的問題提煉成一個(gè)可以進(jìn)行機(jī)器學(xué)習(xí)的問題。這其中的關(guān)鍵不僅在于計(jì)算機(jī)編程和運(yùn)行過程,更加在于研究人員對所要研究的問題的深入理解。瓦格納·帕斯菲絲等曾用“思維與機(jī)器”這一對比來說明大數(shù)據(jù)話題模型(Topic Model)的利與弊。

話題模型是一種應(yīng)用非常廣泛的產(chǎn)生式模型,也是目前利用大數(shù)據(jù)做人文社會科學(xué)研究最常用的文本挖掘方法。其建模方法通常是利用文檔內(nèi)與文檔間的詞共現(xiàn)的信息在跨文本語料庫中生成各種話題集合。這些集合都被假設(shè)成跨文本語料庫中的共同話題。與其他基于“詞袋”技術(shù)的文本分析一樣,話題模型尤其是無監(jiān)督學(xué)習(xí)的話題模型從對語言完全無感的讀者角度出發(fā)?;谶@一特征,不同學(xué)者顯示了不同的偏好。比如,雷切爾·布瑪認(rèn)為,通過這種沒有指向性的非常規(guī)文本分析的視角可以發(fā)掘出一般讀者所無法辨識的文本屬性,進(jìn)而激發(fā)和改變?nèi)祟惖乃伎紝挾群蛷V度。其他一些學(xué)者認(rèn)為,這些計(jì)算模型往往對語境、語法、語義、語氣等一無所知,可能很難捕捉到在文字內(nèi)容背后的真正情感與意義,進(jìn)而影響到分析結(jié)果。因此,泰德·安德伍德在“高維空間的文學(xué)使用”中將這些模型稱為“遲鈍的解釋學(xué)工具?!?艾倫·劉也將它們描述為 “空洞的文字解讀?!?另外,由于這些模型并不受理論和經(jīng)驗(yàn)限制,在探索數(shù)據(jù)模式上可能存在優(yōu)勢。然而,因?yàn)閷W(xué)習(xí)過程中缺乏可靠的訓(xùn)練樣本,基于這些歧義較高的樣本所產(chǎn)生模型的不確定性也隨之增加。

2. 軟件密集型系統(tǒng)的困境

不論是數(shù)據(jù)產(chǎn)生,還是數(shù)據(jù)分析,大數(shù)據(jù)分析在根本上依賴于計(jì)算機(jī)軟件,屬于軟件密集型系統(tǒng)。沒有計(jì)算機(jī)的輔助,研究者的想法就如同空中樓閣。計(jì)算機(jī)的使用為研究者想法的實(shí)現(xiàn)提供了必要硬件條件。但由于受限于軟件技術(shù)的發(fā)展,數(shù)據(jù)分析過程中仍舊有很多問題難以避免,比如,之前提及的有關(guān)數(shù)據(jù)驅(qū)動(dòng)科學(xué)中常出現(xiàn)的基于算法的系統(tǒng)偏差。數(shù)據(jù)分析過程中還可能出現(xiàn)更加復(fù)雜的情況,這在處理復(fù)雜系統(tǒng)(Complex System)時(shí)尤為突出。復(fù)雜系統(tǒng)是由大量組分組成的網(wǎng)絡(luò),不存在中央控制,通過簡單運(yùn)作規(guī)則產(chǎn)生出復(fù)雜的集體行為和復(fù)雜的信息處理,并通過學(xué)習(xí)和進(jìn)化產(chǎn)生適應(yīng)性。 該系統(tǒng)活動(dòng)呈現(xiàn)非線性,往往形成無數(shù)層級,且活動(dòng)包含眾多未知因素。因此,分析復(fù)雜系統(tǒng)對于軟件要求上除傳統(tǒng)的計(jì)算能力外,還需要將計(jì)算機(jī)模擬整合到普通科學(xué)實(shí)踐的工具箱里來探尋其中的動(dòng)力機(jī)制。對于前者,充分理解各種算法的局限性和風(fēng)險(xiǎn),明白這些算法會如何引致以及引致什么樣的誤差,研究者就可以決定到底多大程度可以對這些算法施以信任、加以限制。而對于后者,情況則復(fù)雜許多,由于模擬本身涉及動(dòng)態(tài)過程,并不是接受某一分析解決方案就能解決,其需涉及大數(shù)據(jù)集群的部署,而部署架構(gòu)的過程大數(shù)據(jù)無法自動(dòng)實(shí)現(xiàn),這些問題在分析中很棘手,大數(shù)據(jù)分析遭遇瓶頸。

這些問題的產(chǎn)生往往與大數(shù)據(jù)的認(rèn)知模糊相關(guān)。漢弗萊斯提出,對于某一過程,當(dāng)認(rèn)知主體x在時(shí)間t對其中所有與認(rèn)知相關(guān)的元素沒有全面了解時(shí),我們則認(rèn)為該過程存在認(rèn)知模糊。在一定程度上,認(rèn)知模糊既不屬于科學(xué)質(zhì)詢(scientific inquiry)的某個(gè)新特征,也并不僅僅局限于計(jì)算方法中。對于軟件密集型科學(xué)(SIS),這種認(rèn)知模糊出現(xiàn)在不同時(shí)期的程序代碼中(尤其是對“古董代碼”錯(cuò)誤或模糊的認(rèn)知),以及不斷發(fā)展的計(jì)算方法中(用傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行大數(shù)據(jù)分析所呈現(xiàn)的問題),并經(jīng)由軟件誤差不斷升級(盡管在標(biāo)準(zhǔn)統(tǒng)計(jì)分析中我們常假設(shè)誤差隨機(jī)分布,但這一假設(shè)在軟件系統(tǒng)中并不成立,根本原因在于我們無法事先排除所有的非隨機(jī)因素)。又由于認(rèn)知模糊的路徑復(fù)雜性,這種誤差已經(jīng)越來越難以通過統(tǒng)計(jì)方法所探知。要改善大數(shù)據(jù)認(rèn)識論的缺陷,就必須正視誤差的影響。有學(xué)者提出,軟件系統(tǒng)的模塊化在一定程度上可以減少軟件誤差,令系統(tǒng)更加易于管理,然而隨著時(shí)間的動(dòng)態(tài)變化軟件模塊很快會演化為一個(gè)復(fù)雜系統(tǒng)而產(chǎn)生新的問題,這成為軟件設(shè)計(jì)和開發(fā)中時(shí)刻需要引起重視和不斷思考的問題。

由此可見,大數(shù)據(jù)的認(rèn)知模糊成為了大數(shù)據(jù)技術(shù)矛盾與掙扎的核心。從本質(zhì)上講,這些局限性反映了大數(shù)據(jù)技術(shù)背后的理論缺失, 體現(xiàn)了大型軟件系統(tǒng)的常規(guī)誤差監(jiān)測、修正與評估對內(nèi)在認(rèn)識論的挑戰(zhàn)。②

三、 結(jié)語

在當(dāng)代計(jì)算機(jī)技術(shù)的輔佐下,今天的社會科學(xué)研究者有相當(dāng)?shù)哪芰νㄟ^大數(shù)據(jù)分析技術(shù)獲得傳統(tǒng)調(diào)查研究以外的更豐富、更深層的信息。通過對知識結(jié)構(gòu)、研究過程、信息內(nèi)容以及現(xiàn)實(shí)的本質(zhì)等重要問題的重新解讀,讓人們的思維方式產(chǎn)生了根本性的轉(zhuǎn)變。大數(shù)據(jù)在豐富人們認(rèn)知的同時(shí),對研究的本體論、價(jià)值觀也產(chǎn)生了一定程度的挑戰(zhàn)。通過對比傳統(tǒng)數(shù)據(jù)分析方法,本文從數(shù)據(jù)生產(chǎn)和數(shù)據(jù)分析兩個(gè)方面討論了大數(shù)據(jù)分析可能存在的問題。

大數(shù)據(jù)的布道者認(rèn)為大數(shù)據(jù)的數(shù)據(jù)量龐大,基于大數(shù)據(jù)發(fā)現(xiàn)的數(shù)據(jù)模式和相關(guān)關(guān)系非??煽?。其所有的“理所當(dāng)然”都是基于這樣一個(gè)假設(shè),即通過算法產(chǎn)生的大數(shù)據(jù)確實(shí)反映的是真實(shí)的全數(shù)據(jù)。然而,此假設(shè)令人存疑。首先,從數(shù)據(jù)的產(chǎn)生過程來看,如果通過某些方式產(chǎn)生的大數(shù)據(jù)與真實(shí)總體存在偏差,那么基于這樣的數(shù)據(jù)所得論斷并不可靠。再次,從數(shù)據(jù)分析的角度來講,即便所產(chǎn)生的數(shù)據(jù)沒有問題,不論是基于傳統(tǒng)的假設(shè)檢驗(yàn)還是通過機(jī)器學(xué)習(xí)尤其是無監(jiān)督學(xué)習(xí),所發(fā)現(xiàn)的數(shù)據(jù)模式仍有可能存在很大的爭議。如大衛(wèi)·雷澤爾等學(xué)者在《科學(xué)》上就大數(shù)據(jù)分析陷阱的闡述,數(shù)據(jù)量大并不意味著我們可以忽略有關(guān)數(shù)據(jù)的根本問題,比如測量、建構(gòu)效度與信度及數(shù)據(jù)間的相關(guān)性等。大數(shù)據(jù)本身只是一個(gè)知識和信息的載體,大數(shù)據(jù)分析的潛在問題與“大”數(shù)據(jù)的大小無關(guān),而與大數(shù)據(jù)的模糊認(rèn)知有關(guān)。造成這一模糊認(rèn)知的本質(zhì)在于大數(shù)據(jù)的產(chǎn)生和分析在一定程度上脫離了現(xiàn)有的科學(xué)哲學(xué)體系。如何讓大數(shù)據(jù)像人一樣思考,讓大數(shù)據(jù)生產(chǎn)出真實(shí)有效的知識,就需要將知識生產(chǎn)建立在科學(xué)哲學(xué)體系當(dāng)中,既不完全依賴?yán)碚?,亦不可完全拋棄理論?/p>

近年來,越來越多的國內(nèi)學(xué)者也開始基于百度搜索、本土的社交媒體等進(jìn)行大數(shù)據(jù)分析。然而,在全世界范圍內(nèi),大數(shù)據(jù)在社會科學(xué)中的應(yīng)用尚屬起步階段。不論是在國內(nèi)還是在國外,由于網(wǎng)站和媒體平臺生成方式、數(shù)據(jù)記錄方式等相似,導(dǎo)致他們在數(shù)據(jù)產(chǎn)生和分析過程中往往存在共通的問題,面臨類似的關(guān)乎認(rèn)識論和方法論的挑戰(zhàn)。這些問題多隱匿在計(jì)算科學(xué)的理論和實(shí)踐中,需要引起我們關(guān)注并加以辨別。如何將大數(shù)據(jù)應(yīng)用于實(shí)證研究問題是當(dāng)今計(jì)算科學(xué)家以及社會科學(xué)家所面臨的重要挑戰(zhàn)和機(jī)遇。本文所涉及內(nèi)容實(shí)乃大數(shù)據(jù)分析中的“冰山一角”。這里,筆者提出自己的管窺之見,以起拋磚引玉之作用,見教于大方之家。

(責(zé)任編輯:亞立)

猜你喜歡
假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)結(jié)果的對立性分析
微信搶紅包最高金額與其影響因素的回歸分析
假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用
MATLAB在數(shù)理統(tǒng)計(jì)假設(shè)檢驗(yàn)中的應(yīng)用
假設(shè)檢驗(yàn)教學(xué)中的案例設(shè)計(jì)
中國國際獲獎(jiǎng)電影(2010—2015)情感傾向研究
統(tǒng)計(jì)推斷的研究
沈陽市民使用理財(cái)APP的調(diào)查研究報(bào)告
鳳爪重量質(zhì)量管理報(bào)告
通俗簡單地解釋數(shù)理統(tǒng)計(jì)的思想方法
德安县| 措美县| 都安| 广南县| 安乡县| 黄梅县| 屏东市| 垦利县| 山阳县| 丽水市| 凉城县| 西宁市| 卢湾区| 普定县| 海盐县| 庐江县| 长垣县| 绩溪县| 阳原县| 闵行区| 普兰店市| 新昌县| 泰兴市| 额济纳旗| 长春市| 拜城县| 新乐市| 瓦房店市| 故城县| 鲁山县| 沧源| 彰化县| 黎平县| 界首市| 金阳县| 北宁市| 罗源县| 台州市| 永顺县| 工布江达县| 登封市|