国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國(guó)實(shí)證社會(huì)科學(xué)的演進(jìn)及使用大數(shù)據(jù)研究之現(xiàn)狀與挑戰(zhàn)〔*〕

2018-05-24 06:46:51何曉斌
學(xué)術(shù)界 2018年5期
關(guān)鍵詞:社會(huì)科學(xué)論文期刊

○ 何曉斌, 李 強(qiáng)

(清華大學(xué) 社會(huì)學(xué)系, 北京 100084)

實(shí)證社會(huì)科學(xué)研究是指基于實(shí)際調(diào)查或者訪談資料來(lái)驗(yàn)證理論假設(shè)或者構(gòu)建理論的研究范式。區(qū)別于純理論思辨式的傳統(tǒng)社會(huì)科學(xué)研究,實(shí)證社會(huì)科學(xué)研究的重要基礎(chǔ)是獲得有代表性的研究對(duì)象的詳實(shí)數(shù)據(jù)。改革開(kāi)放以來(lái),我國(guó)的實(shí)證社會(huì)科學(xué)是在開(kāi)展全國(guó)性社會(huì)調(diào)查和學(xué)習(xí)國(guó)外實(shí)證社會(huì)科學(xué)研究方法及技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的。

一、 改革開(kāi)放以來(lái)中國(guó)實(shí)證社會(huì)科學(xué)的演進(jìn)及其數(shù)據(jù)來(lái)源

1978年以后,隨著“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”的確立,隨著國(guó)家統(tǒng)計(jì)機(jī)構(gòu)的建立,我國(guó)開(kāi)始實(shí)行普查制度,先后開(kāi)展了四次人口普查:1982年的第三次全國(guó)人口普查,1990年第四次全國(guó)人口普查,2000年的第五次全國(guó)人口普查,以及2010年的第六次全國(guó)人口普查,獲得了一些重要的基礎(chǔ)數(shù)據(jù)?!?〕除了人口普查,在其他專(zhuān)題領(lǐng)域如農(nóng)村、經(jīng)濟(jì)、企業(yè)、住房等也展開(kāi)了各種各樣的普查和社會(huì)調(diào)查,比如1981年對(duì)全國(guó)農(nóng)業(yè)資源的調(diào)查; 1982年春對(duì)工人階級(jí)狀況的全國(guó)范圍的大規(guī)模調(diào)查;1985年和1986年兩次生育力的抽樣調(diào)查;1986年和1995年第二次、第三次全國(guó)工業(yè)普查;1984年開(kāi)始?xì)v時(shí)兩年完成的第一次城鎮(zhèn)房屋普查;1987年和2006年的第一次和第二次全國(guó)殘疾人抽樣調(diào)查;1997年和2007年進(jìn)行的兩次全國(guó)農(nóng)業(yè)普查;2004年、2008年和2013年分別進(jìn)行了三次全國(guó)經(jīng)濟(jì)普查;1993年和2003年的兩次全國(guó)第三產(chǎn)業(yè)普查。〔2〕這些普查和調(diào)查都為新時(shí)期黨和國(guó)家戰(zhàn)略、方針、政策的制定提供了重要依據(jù)。同時(shí),在社會(huì)科學(xué)界也重新興起了社會(huì)調(diào)查之風(fēng)。以社會(huì)學(xué)界的調(diào)查為例,改革開(kāi)放以來(lái),在國(guó)家相關(guān)部門(mén)和機(jī)構(gòu)的支持下,一大批社會(huì)學(xué)者針對(duì)中國(guó)社會(huì)的方方面面做了詳細(xì)深入的研究,比如1982年費(fèi)孝通先生倡導(dǎo)的對(duì)小城鎮(zhèn)的實(shí)地調(diào)查研究;1992年到20世紀(jì)末,中國(guó)人民大學(xué)社會(huì)學(xué)系組織的多次全國(guó)規(guī)模抽樣問(wèn)卷調(diào)查;1993年,復(fù)旦大學(xué)社會(huì)學(xué)系和上海浦東新區(qū)社會(huì)發(fā)展局合作開(kāi)展的社會(huì)變遷研究;2004年,北京市社會(huì)科學(xué)院組織的“城區(qū)角落”的調(diào)查;1999年,陸學(xué)藝教授主持的中國(guó)社會(huì)科學(xué)院社會(huì)學(xué)所對(duì)中國(guó)社會(huì)分層和流動(dòng)問(wèn)題的大規(guī)模專(zhuān)題調(diào)查,產(chǎn)生了一系列有影響的有關(guān)國(guó)家社會(huì)經(jīng)濟(jì)問(wèn)題的重要報(bào)告、實(shí)證論文和專(zhuān)著。〔3〕此外,由國(guó)家和知名高??蒲袡C(jī)構(gòu)主導(dǎo)的一些社會(huì)調(diào)查,特別是過(guò)去十幾年來(lái)一些大型綜合性全國(guó)社會(huì)調(diào)查的開(kāi)展和數(shù)據(jù)免費(fèi)對(duì)外開(kāi)放,為中國(guó)實(shí)證社會(huì)科學(xué)研究提供了重要數(shù)據(jù)來(lái)源(參見(jiàn)下頁(yè)表1)。

同時(shí),在中國(guó)社會(huì)科學(xué)界的對(duì)外交流和合作研究中,特別是對(duì)國(guó)外社會(huì)科學(xué)研究方法的學(xué)習(xí)和推廣,使得高級(jí)統(tǒng)計(jì)方法和工具在實(shí)證社會(huì)科學(xué)研究中得到大量應(yīng)用,并形成了比較成熟的研究范式?!?〕這些實(shí)證社會(huì)科學(xué)的研究成果,基本上都是通過(guò)目前實(shí)證社會(huì)科學(xué)常用的數(shù)據(jù)收集手段如問(wèn)卷調(diào)查法、訪談法、實(shí)驗(yàn)法和觀察法等收集、清理之后,輔之以計(jì)算機(jī)相關(guān)統(tǒng)計(jì)軟件來(lái)計(jì)算和建模完成的。這些實(shí)證社會(huì)科學(xué)研究論文使用的數(shù)據(jù)來(lái)源往往可以分為這么幾類(lèi):一是研究者自己組織收集的大型社會(huì)調(diào)查數(shù)據(jù)(問(wèn)卷、實(shí)驗(yàn)、量表等)。這類(lèi)數(shù)據(jù)收集手段需要花費(fèi)的經(jīng)費(fèi)和時(shí)間成本都很高,研究者常常只有得到國(guó)家基金和各級(jí)政府部門(mén)的經(jīng)費(fèi)支持才能完成數(shù)據(jù)收集。二是中央、地方黨和政府機(jī)構(gòu)公開(kāi)的數(shù)據(jù),包括統(tǒng)計(jì)年鑒、年報(bào)、簡(jiǎn)報(bào),會(huì)議記錄等官方數(shù)據(jù)和資料來(lái)源。隨著我國(guó)電子政務(wù)公開(kāi)工作的推進(jìn),這類(lèi)數(shù)據(jù)的獲取來(lái)源也越來(lái)越多,成本變低。三是國(guó)內(nèi)外學(xué)術(shù)科研機(jī)構(gòu)公開(kāi)的數(shù)據(jù)庫(kù),比如北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心組織收集的中國(guó)家庭調(diào)查追蹤數(shù)據(jù),中國(guó)人民大學(xué)中國(guó)調(diào)查與數(shù)據(jù)中心組織收集的中國(guó)綜合社會(huì)調(diào)查數(shù)據(jù)等。這種科研機(jī)構(gòu)提供的數(shù)據(jù)質(zhì)量高,而且是免費(fèi)的,目前成為很多實(shí)證社會(huì)科學(xué)研究者的數(shù)據(jù)來(lái)源。四是市場(chǎng)上可以購(gòu)買(mǎi)的數(shù)據(jù)庫(kù),比如國(guó)內(nèi)外上市公司數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)成為經(jīng)濟(jì)管理類(lèi)實(shí)證研究者的重要數(shù)據(jù)來(lái)源,但是要購(gòu)買(mǎi)這些數(shù)據(jù)庫(kù)的成本很高,往往在幾十萬(wàn)甚至上百萬(wàn)元以上。

表1改革開(kāi)放以來(lái)社會(huì)科學(xué)領(lǐng)域比較知名的中國(guó)綜合性社會(huì)調(diào)查〔5〕

資料來(lái)源:筆者根據(jù)水延凱主編的《中國(guó)社會(huì)調(diào)查簡(jiǎn)史》(中國(guó)人民大學(xué)出版社,2017年)第361-363頁(yè)及其他公開(kāi)資料整理。

近年來(lái),隨著大數(shù)據(jù)概念的出現(xiàn),〔6〕大數(shù)據(jù)的重要性和應(yīng)用前景隨著各行各業(yè)的廣泛討論已經(jīng)得到了商業(yè)、政府部門(mén)和科研機(jī)構(gòu)的高度關(guān)注?!?〕大數(shù)據(jù)受到關(guān)注是過(guò)去二十多年來(lái)以互聯(lián)網(wǎng)為基礎(chǔ)的信息科技高速發(fā)展和廣泛應(yīng)用的結(jié)果,特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展和移動(dòng)設(shè)備的普及使得人類(lèi)每時(shí)每刻都在生產(chǎn)和儲(chǔ)存數(shù)量驚人的數(shù)據(jù)。截至2020年,全世界每人每天平均將產(chǎn)生1.5GB的數(shù)據(jù);每臺(tái)無(wú)人駕駛車(chē)每天將產(chǎn)生4TB的數(shù)據(jù);一家小型工廠平均每天能產(chǎn)生高達(dá)1PB的數(shù)據(jù)?!?〕《大數(shù)據(jù)時(shí)代》的作者維克托認(rèn)為大數(shù)據(jù)是一種可以繞過(guò)隨機(jī)采樣而處理分析全部數(shù)據(jù)獲得認(rèn)知的一種新的方法和思維模式,大數(shù)據(jù)并不是絕對(duì)意義上的數(shù)量“大”。〔9〕本文所討論的大數(shù)據(jù),是指主要通過(guò)互聯(lián)網(wǎng)渠道自動(dòng)收集的,包含全體研究對(duì)象的大量數(shù)據(jù)的集合?!?0〕比如,所有手機(jī)用戶(hù)某一時(shí)期的使用行為數(shù)據(jù),春節(jié)期間所有中國(guó)人的出境旅游的基本數(shù)據(jù),政府官方網(wǎng)站上的所有留言數(shù)據(jù)等。這些新的數(shù)據(jù)來(lái)源的出現(xiàn),以及海量的圖書(shū)、報(bào)紙、期刊、照片、繪本、樂(lè)曲、視頻等人文資料被數(shù)據(jù)化,并在互聯(lián)網(wǎng)上提供給研究者存取和利用,使得原來(lái)很難或者無(wú)法量化的社會(huì)科學(xué)問(wèn)題的研究成為可能。

就像20世紀(jì)60年代計(jì)算機(jī)技術(shù)和統(tǒng)計(jì)分析工具的出現(xiàn)促進(jìn)了社會(huì)科學(xué)的量化和實(shí)證研究一樣,〔11〕大數(shù)據(jù)時(shí)代的來(lái)臨和新處理工具的逐步出現(xiàn)也可能會(huì)對(duì)目前社會(huì)科學(xué)的研究范式和方法帶來(lái)新的沖擊。雖然大數(shù)據(jù)在商業(yè)領(lǐng)域的研究和應(yīng)用已經(jīng)非常活躍,〔12〕但是大數(shù)據(jù)在中國(guó)社會(huì)科學(xué)研究中的應(yīng)用現(xiàn)狀到底如何,碰到了哪些挑戰(zhàn),有何對(duì)策,這些問(wèn)題卻很少有人做深入具體的分析。

二、中國(guó)實(shí)證社會(huì)科學(xué)使用大數(shù)據(jù)的研究成果現(xiàn)狀

為了全面深入把握使用大數(shù)據(jù)的實(shí)證社會(huì)科學(xué)研究在中國(guó)的發(fā)展情況,同時(shí)兼與美國(guó)實(shí)證社會(huì)科學(xué)研究作比較,筆者專(zhuān)門(mén)瀏覽了2006—2017年發(fā)表在國(guó)內(nèi)三大著名社會(huì)科學(xué)期刊《經(jīng)濟(jì)研究》《社會(huì)學(xué)研究》《政治學(xué)研究》,以及美國(guó)三大著名社會(huì)科學(xué)期刊 American Economic Review(AER), American Sociological Review(ASR), American Political Science Review(APSR)上的所有研究論文,對(duì)這些研究論文的數(shù)量,是否采用傳統(tǒng)數(shù)據(jù)開(kāi)展實(shí)證社會(huì)科學(xué)的研究,是否以大數(shù)據(jù)作為實(shí)證研究的數(shù)據(jù)來(lái)源等情況作了認(rèn)真統(tǒng)計(jì)。這里的傳統(tǒng)數(shù)據(jù)是指使用社會(huì)調(diào)查、訪談、實(shí)驗(yàn)、量表等形式獲得的數(shù)據(jù),而這里的大數(shù)據(jù)指的是從互聯(lián)網(wǎng)網(wǎng)站、銀行交易系統(tǒng)、衛(wèi)星傳感器等渠道獲得的以研究對(duì)象全部數(shù)據(jù)作為實(shí)證研究論文全部或者部分論證來(lái)源的數(shù)據(jù)類(lèi)型?!?3〕統(tǒng)計(jì)結(jié)果如表2。

表2中國(guó)三大社會(huì)科學(xué)期刊實(shí)證研究論文統(tǒng)計(jì)〔14〕

資料來(lái)源:筆者根據(jù)三大期刊發(fā)表的論文人工統(tǒng)計(jì)。

從上述統(tǒng)計(jì)結(jié)果來(lái)看,以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)進(jìn)行的實(shí)證研究比例最高的是經(jīng)濟(jì)學(xué),2006—2017年采用傳統(tǒng)數(shù)據(jù)為基礎(chǔ)發(fā)表的實(shí)證論文占所有發(fā)表論文總量的比例平均為66%(最低年份的比例為59%,最高年份的比例為80%),也就是說(shuō),目前中國(guó)大部分經(jīng)濟(jì)學(xué)的研究都采用計(jì)量和統(tǒng)計(jì)模型為立論基礎(chǔ)的實(shí)證主義研究范式。比例次高的是社會(huì)學(xué),12年中以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)發(fā)表的社會(huì)學(xué)研究論文平均占到28%(最低年份的比例為16%,最高年份的比例為41%)。比例最低的是政治學(xué),平均只有7%(最低年份的比例為0%,最高年份的比例為19%)。類(lèi)似地,以大數(shù)據(jù)為基礎(chǔ)發(fā)表在三大期刊上的實(shí)證研究論文可以說(shuō)是屈指可數(shù),12年間在《經(jīng)濟(jì)研究》上共有9篇,《社會(huì)學(xué)研究》上共2篇,而《政治學(xué)研究》上1篇都沒(méi)有,三大期刊在過(guò)去12年使用大數(shù)據(jù)的實(shí)證研究論文占所有發(fā)表論文的比例平均不到1%。

再看看發(fā)表在美國(guó)三大著名社會(huì)科學(xué)期刊上的實(shí)證研究論文的情況(參見(jiàn)表3),我們可以看到:

表3美國(guó)三大社會(huì)科學(xué)期刊實(shí)證研究論文統(tǒng)計(jì)

資料來(lái)源:筆者根據(jù)三大期刊發(fā)表的論文人工統(tǒng)計(jì)。

《美國(guó)經(jīng)濟(jì)學(xué)評(píng)論》上以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)的實(shí)證研究論文12年平均占比為59%(最低為47%,最高為74%),比中國(guó)《經(jīng)濟(jì)研究》的相應(yīng)比例還稍微低一些,但總體差別不大。但是在社會(huì)學(xué)和政治學(xué)領(lǐng)域,美國(guó)實(shí)證研究論文的比例要顯著高于中國(guó)相對(duì)應(yīng)的期刊?!睹绹?guó)社會(huì)學(xué)評(píng)論》和《美國(guó)政治學(xué)評(píng)論》上實(shí)證研究論文占全部發(fā)表文章數(shù)量的比例分別為77%、58%,而中國(guó)對(duì)應(yīng)期刊的所占比例分別為28%、7%。從使用大數(shù)據(jù)的實(shí)證社會(huì)科學(xué)研究來(lái)看,美國(guó)的數(shù)量稍微多些,但是差別不大。美國(guó)三大期刊發(fā)表的大數(shù)據(jù)實(shí)證研究論文的總數(shù)為18篇,而中國(guó)三大期刊的總數(shù)為11篇。中美三大社會(huì)科學(xué)期刊上使用大數(shù)據(jù)的實(shí)證研究論文占所有論文的比重過(guò)去12年平均都不到1%。因此,目前整個(gè)美國(guó)社會(huì)科學(xué)界和中國(guó)社會(huì)科學(xué)界如果單從大數(shù)據(jù)實(shí)證研究論文的數(shù)量上來(lái)看,使用大數(shù)據(jù)進(jìn)行實(shí)證研究都處于早期發(fā)展階段。

如果我們把《經(jīng)濟(jì)研究》和《社會(huì)學(xué)研究》上使用大數(shù)據(jù)發(fā)表的實(shí)證社會(huì)科學(xué)的論文再做仔細(xì)分析的話(參見(jiàn)表4),可以發(fā)現(xiàn):中國(guó)經(jīng)濟(jì)學(xué)的研究繼承了一貫的注重量化實(shí)證研究的傳統(tǒng),在使用大數(shù)據(jù)的實(shí)證研究創(chuàng)新方面也引領(lǐng)了整個(gè)中國(guó)社會(huì)科學(xué)界。

表4中國(guó)社會(huì)科學(xué)期刊使用大數(shù)據(jù)的實(shí)證研究論文數(shù)據(jù)類(lèi)型、計(jì)量模型和研究類(lèi)別

《經(jīng)濟(jì)研究》上發(fā)表的以大數(shù)據(jù)為基礎(chǔ)的計(jì)量經(jīng)濟(jì)學(xué)研究的數(shù)據(jù)類(lèi)型包括:美國(guó)國(guó)家海洋和大氣管理局(NOAA)公布的全球燈光數(shù)據(jù);DSMP/OLS 夜間燈光數(shù)據(jù)和 Landscan 全球人口動(dòng)態(tài)分布數(shù)據(jù);百度搜索詞指數(shù);余額寶七日年化收益率數(shù)據(jù);人人貸網(wǎng)絡(luò)借貸平臺(tái)的數(shù)據(jù);拍賣(mài)網(wǎng)站eBay公司的拍賣(mài)數(shù)據(jù)。而仔細(xì)分析這些論文可以發(fā)現(xiàn),這些使用大數(shù)據(jù)的實(shí)證研究論文基本上都只是把大數(shù)據(jù)作為整篇論文實(shí)證論證的一部分,或者把大數(shù)據(jù)作為更好測(cè)量論文構(gòu)念的一個(gè)來(lái)源,比如用燈光數(shù)據(jù)來(lái)測(cè)量經(jīng)濟(jì)總量,同時(shí)跟官方的一些統(tǒng)計(jì)數(shù)據(jù)相結(jié)合來(lái)驗(yàn)證理論模型。而只有少數(shù)論文的數(shù)據(jù)全部來(lái)源于大數(shù)據(jù),比如人人貸的網(wǎng)站數(shù)據(jù),ebay公司的拍賣(mài)數(shù)據(jù)。

《社會(huì)學(xué)研究》上的這兩篇使用大數(shù)據(jù)的實(shí)證研究的論文,論證基礎(chǔ)全都是大數(shù)據(jù),一是百度搜索熱詞,二是社交網(wǎng)絡(luò)數(shù)據(jù)。第一篇有關(guān)代內(nèi)文化反授的文章以“網(wǎng)絡(luò)熱詞”的傳播為例,利用提取自新浪微博和百度搜索2013—2015年的網(wǎng)絡(luò)熱詞的每日詞頻指標(biāo)進(jìn)行了流行文化傳播規(guī)律的探索,利用時(shí)間序列的宏觀分析和面板數(shù)據(jù)的微觀分析證實(shí)了“文化反授”模式的存在。第二篇研究者搜集了從2010 年8 月1 日0 時(shí)起到2010年9 月30 日24 時(shí)止兩個(gè)月內(nèi)1133365 個(gè)韓國(guó)人賬戶(hù)創(chuàng)建的77452090 個(gè)推特(Tweet),對(duì)韓國(guó)人推特的內(nèi)容進(jìn)行了描述,對(duì)于內(nèi)容傳播的規(guī)律和特征進(jìn)行了探索性的分析。

在計(jì)量模型的運(yùn)用上,這些使用大數(shù)據(jù)的實(shí)證研究論文所使用的計(jì)量模型也都是為學(xué)術(shù)界所接受和熟悉的成熟的社會(huì)科學(xué)常用的統(tǒng)計(jì)模型,如線性和非線性回歸、時(shí)間序列和面板數(shù)據(jù)分析等?!?5〕在研究類(lèi)型上,這些使用大數(shù)據(jù)的實(shí)證研究論文跟使用傳統(tǒng)數(shù)據(jù)的論文一樣,主要注重于社會(huì)科學(xué)領(lǐng)域的因果機(jī)制。

綜上而言,盡管一些使用大數(shù)據(jù)的實(shí)證研究拓展和加深了我們對(duì)社會(huì)經(jīng)濟(jì)運(yùn)行和人類(lèi)行為規(guī)律的認(rèn)識(shí),但截至目前還沒(méi)有產(chǎn)生對(duì)傳統(tǒng)實(shí)證研究范式有重大突破的成果。目前使用大數(shù)據(jù)研究的實(shí)證研究論文大部分只是把大數(shù)據(jù)作為對(duì)傳統(tǒng)數(shù)據(jù)來(lái)源的一個(gè)有益補(bǔ)充。按照目前的發(fā)展現(xiàn)狀來(lái)看,這些使用大數(shù)據(jù)的實(shí)證社會(huì)科學(xué)研究短期內(nèi)不可能取代傳統(tǒng)的研究手段。這說(shuō)明,大數(shù)據(jù)量化實(shí)證研究雖然在很多研究者看來(lái)有非常好的前景,但是目前還遠(yuǎn)遠(yuǎn)沒(méi)有成為探索研究社會(huì)科學(xué)問(wèn)題的主流研究手段和方法?!?6〕

三、使用大數(shù)據(jù)的中國(guó)實(shí)證社會(huì)科學(xué)研究發(fā)展的挑戰(zhàn)及對(duì)策

總體而言,當(dāng)前大數(shù)據(jù)作為一種新的數(shù)據(jù)來(lái)源,還只是以傳統(tǒng)數(shù)據(jù)為基礎(chǔ)的實(shí)證社會(huì)科學(xué)研究的一種補(bǔ)充。完全應(yīng)用大數(shù)據(jù)做出原創(chuàng)性實(shí)證社會(huì)科學(xué)研究的還極少。實(shí)證社會(huì)科學(xué)研究的基礎(chǔ)是高質(zhì)量的數(shù)據(jù),目前的中國(guó)社會(huì)科學(xué),除了經(jīng)濟(jì)學(xué),社會(huì)學(xué)和政治學(xué)在使用傳統(tǒng)數(shù)據(jù)基礎(chǔ)上的實(shí)證研究程度還遠(yuǎn)遠(yuǎn)低于美國(guó)的社會(huì)學(xué)和政治學(xué)學(xué)科。在使用大數(shù)據(jù)的實(shí)證社會(huì)科學(xué)發(fā)展程度上,我國(guó)目前跟美國(guó)沒(méi)有顯著差別。〔17〕

目前使用大數(shù)據(jù)的實(shí)證社會(huì)科學(xué)的發(fā)展還處于初步階段,主要受制于以下幾方面的原因:

一是在大數(shù)據(jù)的獲得上還有很大的制度障礙。目前大數(shù)據(jù)的兩個(gè)主要來(lái)源是政府和大型互聯(lián)網(wǎng)高科技公司。而我國(guó)政府部門(mén)的大數(shù)據(jù)的整合和開(kāi)放的程度較低,政府各個(gè)部門(mén)或出于各自的部門(mén)利益,或出于安全考慮,或由于開(kāi)發(fā)成本問(wèn)題,很多的大數(shù)據(jù)都沒(méi)有公開(kāi),“信息孤島”問(wèn)題普遍存在。而大型互聯(lián)網(wǎng)公司對(duì)于大數(shù)據(jù)的開(kāi)放和利用的主要?jiǎng)恿υ谟谏虡I(yè)動(dòng)機(jī)和短期利益,與學(xué)術(shù)研究工作者的關(guān)注點(diǎn)不一樣。正如維克托在其《大數(shù)據(jù)時(shí)代》書(shū)里所說(shuō)的,大型科技互聯(lián)網(wǎng)公司的主要關(guān)注點(diǎn)在于大數(shù)據(jù)所反映出來(lái)的客戶(hù)行為的相關(guān)關(guān)系,〔18〕而實(shí)證社會(huì)科學(xué)希望通過(guò)研究互聯(lián)網(wǎng)和物聯(lián)網(wǎng)軌跡背后的人類(lèi)行為能夠構(gòu)建行為變量之間,或者環(huán)境變量和行為變量之間的因果機(jī)制。當(dāng)然這個(gè)制度障礙的背后還有我國(guó)相關(guān)信息大數(shù)據(jù)立法的滯后。對(duì)于政府部門(mén)的大數(shù)據(jù)而言,如何在保護(hù)個(gè)人隱私的基礎(chǔ)上合理開(kāi)放政府部門(mén)的數(shù)據(jù),如何確立大數(shù)據(jù)使用的知識(shí)產(chǎn)權(quán),這些問(wèn)題目前都還處于探索階段。

二是獲取成本和技能障礙。上述的制度障礙其實(shí)也可以看成獲取成本的一部分。如果數(shù)據(jù)不開(kāi)放,那么通過(guò)市場(chǎng)上科技公司去抓取,往往也要支付相當(dāng)高的成本。對(duì)于大數(shù)據(jù)的獲取、使用和分析目前還缺乏相應(yīng)的技能普及。一些大數(shù)據(jù)分析工具,比如文本抓取和分析工具 Python、R等軟件學(xué)習(xí)成本較高,從而給大數(shù)據(jù)的分析和使用帶來(lái)不小的障礙。正如Gary King已經(jīng)意識(shí)到的那樣,〔19〕大數(shù)據(jù)必須依賴(lài)合適的分析工具才能發(fā)揮其重要價(jià)值。目前在商業(yè)領(lǐng)域雖然出現(xiàn)比較流行并可能成為大數(shù)據(jù)分析標(biāo)準(zhǔn)的軟件系統(tǒng)Hadoop,還有各種各樣的大數(shù)據(jù)分析工具和軟件包,〔20〕但這些工具在商業(yè)領(lǐng)域的應(yīng)用還處于早期階段,使用起來(lái)非常復(fù)雜,大部分社會(huì)科學(xué)研究者都還不清楚這些工具。

三是大數(shù)據(jù)本身的代表性問(wèn)題。大數(shù)據(jù)的獲取來(lái)源是其平臺(tái)或者設(shè)備的載體,但是沒(méi)有一個(gè)平臺(tái)或者載體能夠記錄和存取所有研究對(duì)象的所有活動(dòng)。從某種程度上說(shuō),大數(shù)據(jù)只是全體研究樣本的一個(gè)方便樣本,不是一個(gè)隨機(jī)抽樣樣本。比如,如果研究對(duì)象是全體中國(guó)城市居民,那么互聯(lián)網(wǎng)用戶(hù)只是中國(guó)城市居民的一部分,因?yàn)闆](méi)有一個(gè)平臺(tái)能夠記錄所有中國(guó)城市居民的行為。因此,以大數(shù)據(jù)為基礎(chǔ)的實(shí)證研究論文在結(jié)論一般化方面會(huì)受到很大限制。

那么,如何推動(dòng)大數(shù)據(jù)在實(shí)證社會(huì)科學(xué)領(lǐng)域的應(yīng)用呢?最重要的還是要推動(dòng)數(shù)據(jù)的公開(kāi)和分享。首先,應(yīng)逐步推動(dòng)不涉及國(guó)家安全的大數(shù)據(jù)在脫敏后開(kāi)放給社會(huì)公眾使用。政府部門(mén)可以通過(guò)與高校和科研機(jī)構(gòu)的合作,來(lái)更好地規(guī)劃、處理和開(kāi)發(fā)大數(shù)據(jù)的應(yīng)用,無(wú)論是學(xué)術(shù)層面還是公共服務(wù)層面,讓政府大數(shù)據(jù)真正為社會(huì)服務(wù)。同時(shí)推動(dòng)互聯(lián)網(wǎng)公司與高校和科研機(jī)構(gòu)在建立相互信任的基礎(chǔ)上開(kāi)展深度合作,探索一種有效的互聯(lián)網(wǎng)公司與科研工作者的合作模式?!?1〕其次,應(yīng)積極建立社會(huì)科學(xué)大數(shù)據(jù)應(yīng)用和交流的平臺(tái),盡管目前不少高校已經(jīng)建立了大數(shù)據(jù)研究院,但是這些研究院剛開(kāi)始往往與企業(yè)合作較多,而很少有專(zhuān)門(mén)針對(duì)社會(huì)科學(xué)的媒介和平臺(tái)。三是需要全社會(huì)加快對(duì)于大數(shù)據(jù)相關(guān)分析工具的開(kāi)發(fā)和普及,推動(dòng)大數(shù)據(jù)分析技能在社會(huì)科學(xué)領(lǐng)域的推廣和應(yīng)用,不斷改進(jìn)使用大數(shù)據(jù)的實(shí)證研究的方法。但是,要實(shí)現(xiàn)上述領(lǐng)域的進(jìn)步,需要政府、企業(yè)界和學(xué)術(shù)界共同努力和長(zhǎng)期協(xié)作,并不是一朝一夕能夠?qū)崿F(xiàn)的。

清華大學(xué)社會(huì)學(xué)系的呂浩、張新望、余涵為本文做了一些資料整理工作,在此謹(jǐn)致謝意。

注釋?zhuān)?/p>

〔1〕我國(guó)的第一次人口普查始于1953年,第二次在1964年,后來(lái)因?yàn)槲幕蟾锩袛?。除了人口普查,?guó)家統(tǒng)計(jì)局還分別于1987年、1995年、2005年、2015年進(jìn)行了全國(guó)1%抽樣調(diào)查。

〔2〕水延凱主編:《中國(guó)社會(huì)調(diào)查簡(jiǎn)史》,北京:中國(guó)人民大學(xué)出版社,2017年,第350-355頁(yè);劉云:《我國(guó)社會(huì)調(diào)查研究歷史的回顧》,《新疆大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》1994年第4期。

〔3〕水延凱主編:《中國(guó)社會(huì)調(diào)查簡(jiǎn)史》,北京:中國(guó)人民大學(xué)出版社,2017年,第356-361頁(yè)。

〔4〕有統(tǒng)計(jì)表明,1992年以后,隨著調(diào)查技術(shù)、分析手段的進(jìn)步,以及社會(huì)研究方法的成熟,越來(lái)越多的社會(huì)學(xué)者用高級(jí)統(tǒng)計(jì)分析方法來(lái)進(jìn)行社會(huì)科學(xué)問(wèn)題的研究,而1992年之前則基本上是以描述分析的簡(jiǎn)單量化研究為主,參見(jiàn)水延凱主編:《中國(guó)社會(huì)調(diào)查簡(jiǎn)史》,北京:中國(guó)人民大學(xué)出版社,2017年,第364頁(yè)。

〔5〕該表格只列舉了根據(jù)公開(kāi)參考資料和筆者多年實(shí)證社會(huì)科學(xué)研究所接觸和熟悉的一些數(shù)據(jù)來(lái)源。囿于筆者的知識(shí)和接觸面所限,該表并不能包括改革開(kāi)放以來(lái)所有中國(guó)綜合性社會(huì)調(diào)查的數(shù)據(jù)。

〔6〕IBM公司概括了大數(shù)據(jù)的5V特征,即數(shù)量(Volume)大、類(lèi)型(Variety)多、速度(Velocity)快、準(zhǔn)確性(Veracity)強(qiáng)、價(jià)值(Value)大。

〔7〕2009年Lazer等人在《科學(xué)》雜志上發(fā)表的《計(jì)算社會(huì)科學(xué)》,標(biāo)志著計(jì)算社會(huì)科學(xué)的誕生。Lazer, D, Pentland, A., Adamic L. A., et al.,“Computational Social Science”, Science, 2009, 323(5915), pp.721-723;劉濤雄、尹德才:《大數(shù)據(jù)時(shí)代與社會(huì)科學(xué)研究范式變革》,《理論探索》2017年第6期。

〔8〕數(shù)據(jù)來(lái)源:第1財(cái)經(jīng),http://www.yicai.com/news/5390789.html?xueqiu_status_id=99157680,2018年3月16日登錄。

〔9〕〔12〕〔18〕〔英〕維克托·邁爾-舍恩伯格、〔英〕肯尼思·庫(kù)克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,盛楊燕、周濤譯,杭州: 浙江人民出版社, 2013年。

〔10〕這里的全體研究對(duì)象也是相對(duì)的。因?yàn)樵趯?shí)際的數(shù)據(jù)儲(chǔ)存或提取過(guò)程中,受制于成本或者技術(shù)限制,獲得全體研究對(duì)象的信息是非常困難的。比如研究婚戀行為的社會(huì)科學(xué)研究者,即使獲得了一個(gè)大型婚戀網(wǎng)站的所有注冊(cè)用戶(hù)的網(wǎng)上活動(dòng)資料,也很難獲取一個(gè)大范圍地域內(nèi)所有經(jīng)歷過(guò)婚戀行為的人的行為數(shù)據(jù),因?yàn)檫@些注冊(cè)用戶(hù)只是被研究總體對(duì)象的一部分。

〔11〕1960年代末,美國(guó)斯坦福大學(xué)的一個(gè)政治學(xué)博士生Norman Nie和兩個(gè)計(jì)算機(jī)系的博士生Dale Bent和'Tex' Hull合作開(kāi)發(fā)了一個(gè)專(zhuān)為社會(huì)科學(xué)統(tǒng)計(jì)分析使用的計(jì)算機(jī)軟件SPSS(Statistical Package for the Social Sciences),該軟件界面友好,操作簡(jiǎn)單,為社會(huì)調(diào)查之后的數(shù)據(jù)清理和統(tǒng)計(jì)分析提供了方便,很大程度上推動(dòng)了社會(huì)科學(xué)實(shí)證研究的發(fā)展。Norman Nie因?yàn)閷?duì)政治科學(xué)量化研究的貢獻(xiàn)和對(duì)該軟件的開(kāi)發(fā)推廣而獲得了美國(guó)民意研究學(xué)會(huì)頒發(fā)的終生成就獎(jiǎng),并當(dāng)選為美國(guó)藝術(shù)和科學(xué)院院士。

〔13〕我們對(duì)傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的劃分也不是絕對(duì)的,我們這里的大數(shù)據(jù)是指隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展出現(xiàn)的相對(duì)創(chuàng)新的數(shù)據(jù)收集手段。比如經(jīng)濟(jì)學(xué)者很早就開(kāi)始利用上市公司全部股票交易數(shù)據(jù)來(lái)進(jìn)行研究了,還有一些政治學(xué)者使用了瑞典所有政府登記的選民的數(shù)據(jù),這些數(shù)據(jù)的獲得也相對(duì)容易,因此在本研究統(tǒng)計(jì)過(guò)程中把這些類(lèi)型的數(shù)據(jù)也歸為傳統(tǒng)數(shù)據(jù)。

〔14〕這里的實(shí)證研究論文是指使用大規(guī)模數(shù)據(jù)樣本(含大數(shù)據(jù))為理論基礎(chǔ)的論文。經(jīng)濟(jì)學(xué)的一些論文只有基于理論模型和數(shù)學(xué)模型的推理,但沒(méi)有用數(shù)據(jù)來(lái)驗(yàn)證或者計(jì)算這些模型的結(jié)果,這些沒(méi)有算在這里的實(shí)證研究論文里面。在統(tǒng)計(jì)文章總數(shù)時(shí)可能包括了一些學(xué)術(shù)會(huì)議的綜述,但是這部分文章在總體文章數(shù)量中占比很少,因此對(duì)我們計(jì)算實(shí)證研究論文比例不會(huì)產(chǎn)生太大影響。

〔15〕絕大部分論文對(duì)于數(shù)據(jù)處理和分析的計(jì)算機(jī)統(tǒng)計(jì)軟件沒(méi)有給出說(shuō)明,因此筆者無(wú)法知悉和統(tǒng)計(jì)這些實(shí)證研究論文所使用的分析工具。但是根據(jù)筆者的經(jīng)驗(yàn)判斷,大部分這些論文所使用的大數(shù)據(jù)文件的大小都還在現(xiàn)有成熟計(jì)算和統(tǒng)計(jì)軟件如R、SPSS、Stata、SAS能夠處理的計(jì)算能力范圍之內(nèi)。

〔16〕由于篇幅所限,我們沒(méi)有在表4中列出對(duì)美國(guó)三大社會(huì)科學(xué)期刊18篇使用大數(shù)據(jù)的實(shí)證研究論文的分析。但是對(duì)于美國(guó)三大期刊上使用大數(shù)據(jù)的實(shí)證研究論文的分析并沒(méi)有使我們改變這個(gè)結(jié)論。

〔17〕不過(guò),發(fā)表在國(guó)內(nèi)這些期刊上的一些使用大數(shù)據(jù)的實(shí)證研究論文明確表明是受到了美國(guó)相關(guān)研究論文的啟示,比如表4中發(fā)表在2006年《經(jīng)濟(jì)研究》上的論文就受到美國(guó)一篇2000年就發(fā)表的使用電子商務(wù)交易網(wǎng)站數(shù)據(jù)的啟發(fā)。

〔19〕King,Gary,“Preface:Big Data is Not About the Data!”,in Computational Social Science: Discovery and Prediction,edited by R.Michael Alvarez,Cambridge:Cambridge University Press,2016.

〔20〕曾忠祿:《大數(shù)據(jù)分析:方向、方法與工具》, 《情報(bào)理論與實(shí)踐》2017年第1期。

〔21〕筆者曾經(jīng)參加過(guò)阿里巴巴研究院與研究者商談合作的會(huì)議,但是向這些大企業(yè)獲取數(shù)據(jù)的程序非常繁瑣,這些大公司也對(duì)研究者非常謹(jǐn)慎。

猜你喜歡
社會(huì)科學(xué)論文期刊
期刊更名啟事
期刊簡(jiǎn)介
《云南社會(huì)科學(xué)》征稿征訂啟事
《河北農(nóng)業(yè)大學(xué)(社會(huì)科學(xué)版)》2021年喜報(bào)
期刊問(wèn)答
數(shù)學(xué)在社會(huì)科學(xué)中的應(yīng)用
下期論文摘要預(yù)登
下期論文摘要預(yù)登
下期論文摘要預(yù)登
2013年5—12月最佳論文
新聞前哨(2014年1期)2014-03-12 22:10:06
眉山市| 深州市| 静乐县| 阿荣旗| 东莞市| 双城市| 盐源县| 庆元县| 绥德县| 土默特右旗| 嘉善县| 遂平县| 寻甸| 怀远县| 永修县| 舟山市| 通州市| 定南县| 大冶市| 抚州市| 潍坊市| 崇义县| 新干县| 古交市| 新平| 金堂县| 湖北省| 白城市| 九龙坡区| 新昌县| 宾阳县| 银川市| 富锦市| 蓬溪县| 泾川县| 辽宁省| 江安县| 靖边县| 那曲县| 孝感市| 滕州市|