楊 婧, 沈 陽(yáng)
社交媒體研究近年來(lái)引起了不同學(xué)科背景的學(xué)者的興趣。一些來(lái)自人文社科領(lǐng)域的研究者開(kāi)始嘗試使用定量研究的方法來(lái)對(duì)超大數(shù)據(jù)集進(jìn)行研究(Lazer et al., 2009; Manovich, 2012)。社交媒體大數(shù)據(jù)可以為人類行為的研究提供很多重要的視角(Lazer et al., 2009; Boyd & Crawford, 2012; Tufekci, 2014),這一現(xiàn)象也被稱為“數(shù)據(jù)熱”(“data rush”, Mahrt & Scharkow, 2013, p.20)。Tufekci(2014)把社交媒體研究領(lǐng)域中大數(shù)據(jù)的出現(xiàn)同生物學(xué)中的顯微鏡和天文學(xué)中的望遠(yuǎn)鏡的發(fā)明進(jìn)行了類比,認(rèn)為大數(shù)據(jù)無(wú)論是從廣度還是深度上,都使得社交媒體的定量分析研究成為可能。然而,隨著大數(shù)據(jù)在各個(gè)領(lǐng)域的研究中的滲透,Boyd & Crawford(2012, p.3)從社交媒體大數(shù)據(jù)研究角度出發(fā),提出了一系列的問(wèn)題:“所獲得的這些數(shù)據(jù)意味著什么,誰(shuí)可以獲得哪些數(shù)據(jù),數(shù)據(jù)分析方法是什么以及對(duì)這些數(shù)據(jù)進(jìn)行分析究竟要解決什么問(wèn)題等”等。對(duì)于從事社交媒體研究的社會(huì)科學(xué)家來(lái)說(shuō),一定要在大數(shù)據(jù)研究范式形成之前反復(fù)思考這些問(wèn)題,因?yàn)楝F(xiàn)在的每一步都在塑造著未來(lái)(Boyd & Crawford, 2012)。
Bello-Orgaz等人(2015, p.2)把重點(diǎn)放在社交媒體上的大數(shù)據(jù)中,把社交媒體、大數(shù)據(jù)和數(shù)據(jù)分析看作是組成“社交大數(shù)據(jù)”(social big data) 的三個(gè)部分(見(jiàn)圖1),并論證了這三個(gè)部分之間的關(guān)系:“社交媒體是數(shù)據(jù)分析的一個(gè)數(shù)據(jù)來(lái)源;大數(shù)據(jù)是一種并行且龐大的處理模式;而數(shù)據(jù)分析是用來(lái)提取并分析知識(shí)的一系列算法和方法?!边@三個(gè)部分兩兩交叉,也可以反映出相關(guān)領(lǐng)域的主要研究對(duì)象和議題。
圖1 社會(huì)大數(shù)據(jù)的概念圖(Bello-Orgaz et al., 2015)
不容置疑的是,使用大數(shù)據(jù)進(jìn)行社會(huì)科學(xué)研究的確會(huì)為研究者帶來(lái)很大的便利。首先,在社交媒體上獲得的數(shù)據(jù)本身就是隨著用戶的行為而產(chǎn)生的,因此,從某種程度上來(lái)說(shuō),這些數(shù)據(jù)本身就具有一定的生態(tài)效度(Mehl & Gill, 2010)。換句話說(shuō),使用大數(shù)據(jù)的研究方法研究人類行為可以避免非自然情景中由于觀察者效應(yīng)或者研究對(duì)象主觀意識(shí)到自己參與試驗(yàn)而導(dǎo)致的誤差(Jankowski & Van Selm, 2005; Vogt et al., 2012; 喻豐等, 2015)。
除此之外,這些數(shù)據(jù)可以以文檔形式保存,這樣一來(lái)傳播學(xué)及其他一些學(xué)科中所使用的內(nèi)容分析也就可以應(yīng)用到大數(shù)據(jù)的研究中去解決新出現(xiàn)的問(wèn)題(McMillan, 2000; Herring, 2009)。研究者在對(duì)發(fā)布在某一平臺(tái)的內(nèi)容進(jìn)行分析的時(shí)候,還可以結(jié)合該平臺(tái)上的其他諸如發(fā)布時(shí)間、發(fā)布者的地理信息以及發(fā)布者與該平臺(tái)其他用戶的關(guān)系等上下文數(shù)據(jù)(contextual data)來(lái)進(jìn)行探索,進(jìn)而了解人類行為特征。再者,收集大數(shù)據(jù)可以作為研究的第一步,為接下來(lái)小范圍的二次取樣做準(zhǔn)備,這種方法要比傳統(tǒng)的隨機(jī)取樣等方法有效得多(Mahrt & Scharkow, 2013)。
大數(shù)據(jù)在為社交媒體研究提供便利的同時(shí),也有很多問(wèn)題有待商榷。Boyd 和 Crawford 在2012年針對(duì)大數(shù)據(jù)在媒體傳播研究,尤其是數(shù)字媒體研究中的應(yīng)用,提出了以下六個(gè)值得領(lǐng)域內(nèi)研究者探討的觀點(diǎn): ①大數(shù)據(jù)改變了知識(shí)的定義; ②對(duì)于客觀性和精確性的論斷是有誤導(dǎo)意味的; ③數(shù)據(jù)數(shù)量大并不一定意味著數(shù)據(jù)質(zhì)量好; ④沒(méi)有了對(duì)應(yīng)場(chǎng)景,大數(shù)據(jù)就失去了它的意義; ⑤可獲得的不代表就是道德的以及⑥獲得大數(shù)據(jù)的途徑有限可能會(huì)產(chǎn)生新的數(shù)字鴻溝。Media,Culture&Society期刊針對(duì)這篇論文于2015年出了特輯,邀請(qǐng)傳播學(xué)領(lǐng)域內(nèi)的學(xué)者就這幾個(gè)問(wèn)題進(jìn)行論述。該特輯中,研究者就Boyd和Crawford(2012)的觀點(diǎn)更進(jìn)一步地進(jìn)行了討論:譬如Chan(2015)基于數(shù)據(jù)商業(yè)化的趨勢(shì)對(duì)新的數(shù)字鴻溝提出了看法;Brock(2015)從數(shù)據(jù)量不同、研究方法和側(cè)重不同以及文化連續(xù)性兩個(gè)角度重申了在使用大數(shù)據(jù)進(jìn)行媒體和傳播研究時(shí),應(yīng)當(dāng)將數(shù)據(jù)與理論結(jié)合;Qiu(2015)從自己在阿里巴巴參觀的經(jīng)歷出發(fā),探討了大數(shù)據(jù)使用的恰當(dāng)性和道德性;而Papacharissi(2015)則是從大數(shù)據(jù)的出現(xiàn)是否改變了知識(shí)的定義這個(gè)角度闡述了自己的觀點(diǎn),認(rèn)為大數(shù)據(jù)并沒(méi)有改變知識(shí)的定義,而是強(qiáng)化并再生了一種新的傳播知識(shí)——數(shù)字口頭表達(dá)。2017年,EuropeanJournalofCommunication也就社交媒體的研究方法出了特刊。其中,Lomborg(2017)在對(duì)社交媒體研究進(jìn)行回顧分析的時(shí)候提到了大數(shù)據(jù)分析在該領(lǐng)域中的使用,并進(jìn)一步指出在使用大數(shù)據(jù)進(jìn)行社交媒體研究時(shí),仍然不可以忽略理論的作用。
本文在梳理文獻(xiàn)的基礎(chǔ)上,對(duì)相關(guān)領(lǐng)域的理論以及學(xué)者的觀點(diǎn)進(jìn)行總結(jié)概括,并在接下來(lái)的部分,從三個(gè)方面,即傳播學(xué)領(lǐng)域的大數(shù)據(jù)研究結(jié)論的跨平臺(tái)通用可行性、理論與數(shù)據(jù)的關(guān)系,以及是否會(huì)出現(xiàn)新的“數(shù)字鴻溝” 進(jìn)行討論。
在所回顧的文章中,大數(shù)據(jù)研究所得出結(jié)論的效度和代表性是最具爭(zhēng)議的話題。這一點(diǎn)可以從兩個(gè)方面來(lái)進(jìn)行解釋說(shuō)明:一個(gè)是樣本(samples)層面,一個(gè)是平臺(tái)本身的機(jī)制問(wèn)題(Tufekci, 2014)。
從樣本層面來(lái)說(shuō),通過(guò)API獲得的數(shù)據(jù)集是非隨機(jī)樣本,因此并不能很好地代表整個(gè)社交平臺(tái)的用戶行為(Mahrt & Scharkow, 2013; Driscoll & Walker, 2014)。除此之外,通過(guò)對(duì)某一社交媒體平臺(tái)上的用戶進(jìn)行研究得到的結(jié)果并不具有代表性,即便在某一個(gè)平臺(tái)上收集的數(shù)據(jù)量已經(jīng)很大了,甚至是完整的,也很難得到跨平臺(tái)的結(jié)論(Mahrt & Scharkow, 2013)。以推特來(lái)看,一項(xiàng)2014年的研究報(bào)告指出,全美使用推特的人數(shù)不到20%(Mitchell & Hitlin),雖然這個(gè)比例可能會(huì)逐年上升,但是還是可以看出來(lái),單用某一個(gè)平臺(tái)上的研究結(jié)論并不能在人群中進(jìn)行推廣。
再看平臺(tái)機(jī)制層面,每一個(gè)社交媒體平臺(tái)都有它內(nèi)含的不同的規(guī)則,這些不易被察覺(jué)的規(guī)則在潛移默化地塑造著用戶在該平臺(tái)上的行為。比如說(shuō)推特這個(gè)平臺(tái)的主要特點(diǎn)是推文長(zhǎng)度短,熱點(diǎn)更新快,公共可見(jiàn)性和直接的網(wǎng)絡(luò)圖(直接的網(wǎng)絡(luò)圖意味著用戶無(wú)需相互關(guān)注,也可以收到想關(guān)注的人的更新)。這一點(diǎn)與臉書(shū)有很大的不同,也因此形成了用戶使用推特主要是為了獲取信息(information-driven),而使用臉書(shū)主要是為了維持關(guān)系(relationship-driven)(參見(jiàn) Guo et al., 2011)。換句話說(shuō),一個(gè)人在臉書(shū)上“喜歡”某一個(gè)帖子可能是出于維護(hù)人際關(guān)系的動(dòng)機(jī),而在推特上“喜歡”一個(gè)帖子,可能僅僅是因?yàn)檎J(rèn)同某個(gè)觀點(diǎn)。所以說(shuō),盡管這個(gè)行為都被稱作“喜歡”,但是背后的動(dòng)機(jī)和含義卻并不相同,因此平臺(tái)間的行為的數(shù)據(jù)統(tǒng)計(jì)并不能直接一視同仁。
大數(shù)據(jù)研究中的測(cè)量方法是另一個(gè)討論熱點(diǎn),主要的質(zhì)疑有如下三點(diǎn): ①較為淺顯的測(cè)量方法;②缺少對(duì)情景(context)的重視;③自動(dòng)分析方法的盛行(Mahrt & Scharkow, 2013)。這三個(gè)問(wèn)題指向的都是研究中偏重?cái)?shù)據(jù)(data-driven)而非理論(theory-driven)的趨勢(shì)。Mahrt & Scharkow(2013)對(duì)產(chǎn)生這三點(diǎn)的原因給出了可能的解釋:一個(gè)是可得性偏差的問(wèn)題,即研究者在確定測(cè)量方法的時(shí)候,往往就使用能夠獲得的而非通過(guò)理論確定的數(shù)據(jù)來(lái)進(jìn)行研究分析。具體來(lái)說(shuō),有一些研究直接把臉書(shū)上的好友關(guān)系類比于現(xiàn)實(shí)生活中的友誼,或者直接把社交網(wǎng)絡(luò)上的 “話題”(# hashtags) 和“轉(zhuǎn)發(fā)”看作是傳播學(xué)理論中的主題(topic)或者話語(yǔ)(discourse)(Xifra & Grau, 2010; Romero et al., 2011)。Driscoll & Walker(2014)在他們呼吁推特研究中需要有統(tǒng)一語(yǔ)言的文章中也提到相似的擔(dān)憂,他們認(rèn)為,社交媒體上的諸如“喜歡”“成為朋友”等選項(xiàng)所代表的實(shí)際含義是很模糊的。因此,社交媒體大數(shù)據(jù)作為研究對(duì)象使用之前仍舊需要更多的實(shí)證支持。研究者需要銘記于心的是,最容易獲得的測(cè)量方法并不一定是最有效的,不能僅僅為了更容易地獲取數(shù)據(jù)而舍棄自己的研究初衷(Mahrt & Scharkow, 2013; Driscoll & Walker, 2014)。
除了樣本抽取方法之外,對(duì)于數(shù)據(jù)的分析和解釋也是大數(shù)據(jù)研究中的一個(gè)核心問(wèn)題。社會(huì)科學(xué)領(lǐng)域的研究不能只是停留在簡(jiǎn)單的描述層面,還要對(duì)其進(jìn)行更深層次的分析。只得出描述性數(shù)據(jù)是不充分的,還需要對(duì)用戶為什么做出行為給出理論上的分析和解釋(Lomborg, 2017),并根據(jù)分析得出具有一定普適性的研究推論。從這個(gè)角度說(shuō),當(dāng)處理龐大的數(shù)據(jù)集時(shí),在能保證可以對(duì)假設(shè)進(jìn)行檢驗(yàn)或者得出推論的情況下,把數(shù)據(jù)量縮小到能夠分析的范圍不失為一個(gè)好辦法。數(shù)據(jù)集要大一些還是小一些,并沒(méi)有一個(gè)確定的標(biāo)準(zhǔn),要視具體研究問(wèn)題而定 (Mahrt & Scharkow, 2013)。因此,研究者需要清楚 “數(shù)據(jù)數(shù)量大并不一定意味著數(shù)據(jù)質(zhì)量好”(Boyd & Crawford, 2012, p.12)。面對(duì)不同的數(shù)據(jù)量級(jí),可以采用不同的研究方法去解決不同的研究問(wèn)題,切忌厚此薄彼。正如Brock(2015, p.1085)所建議的:將相對(duì)于大數(shù)據(jù)的小樣本數(shù)據(jù)(small data)稱為“深層次數(shù)據(jù)”(deeper data),這樣更為合適。因?yàn)?,聚焦于小樣本的質(zhì)性研究可以對(duì)一個(gè)現(xiàn)象進(jìn)行非常細(xì)致和深入的分析。換句話說(shuō),大數(shù)據(jù)研究的出現(xiàn)并不是要替代傳統(tǒng)的小樣本研究,相反,兩者相輔相成,為所研究現(xiàn)象提供更全面的分析。
González-Bailón(2013, p.147)在文章中提到,理論對(duì)于大數(shù)據(jù)時(shí)代的社會(huì)科學(xué)研究至關(guān)重要,因?yàn)閿?shù)據(jù)無(wú)法為自己“發(fā)聲”,只有理論的支持,大數(shù)據(jù)研究的結(jié)果才能更加可信。又如Brock(2015)所述,因?yàn)橛辛舜髷?shù)據(jù),對(duì)于社交媒體的研究得以進(jìn)一步豐富,然而,研究者在對(duì)研究結(jié)論進(jìn)行解釋的時(shí)候,應(yīng)結(jié)合領(lǐng)域內(nèi)的理論框架,避免只對(duì)研究問(wèn)題進(jìn)行淺層面的分析和解答。就像Christians(2007, p.441)所說(shuō) “鑒于我們都是文化的存在——被研究的他者、研究者,還有大眾——研究不是某種數(shù)據(jù)的傳輸,研究是要反映對(duì)于道德的洞察,無(wú)論是從形式還是內(nèi)容上”。因此,媒體傳播領(lǐng)域中的經(jīng)典理論在大數(shù)據(jù)時(shí)代的社交媒體實(shí)證研究還是起著重要的作用,數(shù)據(jù)和理論不應(yīng)該是非此即彼的關(guān)系:大數(shù)據(jù)帶來(lái)的便利可以讓我們更好地重新認(rèn)識(shí)、理解現(xiàn)有的理論;而現(xiàn)有的理論也可以為大數(shù)據(jù)研究所得到的結(jié)果提供扎實(shí)的理論支撐。
大數(shù)據(jù)鴻溝(big data divide)是基于數(shù)據(jù)鴻溝提出的。金兼斌(2003)在對(duì)“數(shù)字鴻溝”這一概念進(jìn)行辨析時(shí),回顧了不同學(xué)者對(duì)其不同的理解與詮釋。其中J?ckel(2001, 轉(zhuǎn)引自金兼斌,2003)從國(guó)家地區(qū)和人群個(gè)體之間的差異分析了數(shù)字鴻溝出現(xiàn)的原因。在國(guó)家和地區(qū)這一層面上,根據(jù)Norris(2001,轉(zhuǎn)引自韋路、張明新,2006),數(shù)字鴻溝又可以劃分為全球鴻溝、社會(huì)鴻溝和民族鴻溝三個(gè)維度。這是一種宏觀的強(qiáng)調(diào)群體的整體差異的角度:信息與通信技術(shù)的發(fā)展程度是某一國(guó)家、地區(qū)的基礎(chǔ)建設(shè)、政府穩(wěn)定程度以及發(fā)展的重要指標(biāo)之一,因此,發(fā)展信息與通信技術(shù)是消除數(shù)字鴻溝,進(jìn)而促進(jìn)國(guó)家、地區(qū)發(fā)展的途徑之一。而隨著技術(shù)的普及,個(gè)體使用信息與通信技術(shù)的差異也受到了關(guān)注,其中一部分學(xué)者關(guān)于個(gè)體對(duì)互聯(lián)網(wǎng)的近用(access)進(jìn)行了重新思考。譬如“誰(shuí)能上網(wǎng)?人們都在網(wǎng)上做什么?人們可以通過(guò)網(wǎng)絡(luò)做什么?人們什么時(shí)候上網(wǎng)”(DiMaggio & Hargittai, 2001, pp.3-4)以及他們?cè)诰W(wǎng)上獲取什么類型的信息。在這層含義中也包括了很多維度:使用的相對(duì)自主權(quán),接觸、使用網(wǎng)絡(luò)的質(zhì)量,有關(guān)網(wǎng)絡(luò)使用的技能/知識(shí),是否能獲得有關(guān)網(wǎng)絡(luò)使用的支持,還有使用網(wǎng)絡(luò)的目的。
而正如上文中提到過(guò)的,隨著科學(xué)技術(shù)進(jìn)一步發(fā)展,網(wǎng)絡(luò)也變得越來(lái)越發(fā)達(dá),人們能夠通過(guò)網(wǎng)絡(luò)完成的事情越來(lái)越多,因而也就有越來(lái)越多的數(shù)據(jù)被生產(chǎn)出來(lái)。大數(shù)據(jù)對(duì)于很多研究者的吸引力在于人們可以更容易地獲得海量的數(shù)據(jù)。然而,在大數(shù)據(jù)時(shí)代,數(shù)字鴻溝并沒(méi)有消除,反而會(huì)產(chǎn)生一種新的“數(shù)字鴻溝”,即“大數(shù)據(jù)鴻溝”。McCarthy(2016)認(rèn)為,大數(shù)據(jù)鴻溝存在于那些掌握并能夠使用大范圍的分布式數(shù)據(jù)集的人/公司/機(jī)構(gòu)和無(wú)法掌握并使用他們的人或群體之間(Boyd & Crawford, 2012; McCarthy, 2016)。對(duì)大數(shù)據(jù)鴻溝的描述,仍然是以近用為標(biāo)準(zhǔn)的:是否能夠達(dá)到“數(shù)據(jù)富足”(data-rich)取決于兩個(gè)方面的限制:一個(gè)是收集、存儲(chǔ)、管理數(shù)據(jù)的技術(shù)手段方面的限制;另一個(gè)是商業(yè)運(yùn)作或是經(jīng)濟(jì)能力的限制。對(duì)于技術(shù)手段方面來(lái)說(shuō),Boyd & Crawford(2012)提出了研究人員水平上的差異,即目前從社交媒體上抓取并分析數(shù)據(jù)的人往往都是來(lái)自計(jì)算機(jī)而非社會(huì)科學(xué)背景的。Zimmer & Proferes(2014)回顧了2006—2012年所有通過(guò)內(nèi)容分析研究推特的學(xué)術(shù)文章,發(fā)現(xiàn)出自計(jì)算機(jī)信息科學(xué)領(lǐng)域的占了21%,而出自傳播學(xué)領(lǐng)域的只有14%。因而,目前在大數(shù)據(jù)研究中,一個(gè)以對(duì)數(shù)據(jù)的獲取、分析能力的高低為標(biāo)準(zhǔn)的等級(jí)正在慢慢形成。而就商業(yè)運(yùn)作和經(jīng)濟(jì)能力的差異上,Manovich(2011)指出,在使用社交媒體大數(shù)據(jù)進(jìn)行研究時(shí),只有社交媒體公司才擁有真正意義上的大社會(huì)數(shù)據(jù)。也就是說(shuō),只有那些在這種公司從事科研的研究人員才能獲得此類數(shù)據(jù),而學(xué)界的其他研究者并不能。基于上述論述,Boyd & Crawford(2012, p.23)區(qū)分了“大數(shù)據(jù)大戶”和“大數(shù)據(jù)小戶”。因此,在使用大數(shù)據(jù)進(jìn)行研究時(shí),研究者在獲得數(shù)據(jù)的能力上就有了一定的差異。
除了獲得數(shù)據(jù)的差異之外,在數(shù)據(jù)的分析能力方面還存在數(shù)據(jù)分析鴻溝(Manovich, 2011, p.2)。也就是說(shuō),即使某些機(jī)構(gòu)和企業(yè)擁有全量的社交媒體大數(shù)據(jù),他們對(duì)數(shù)據(jù)進(jìn)行分析的能力也有高低。正如在數(shù)據(jù)獲取產(chǎn)生的鴻溝中的論述,即使提供的數(shù)據(jù)條件相同,計(jì)算機(jī)背景的研究者在數(shù)據(jù)抓取等方面要比社會(huì)科學(xué)背景的研究者有優(yōu)勢(shì)。然而,在進(jìn)行社交媒體大數(shù)據(jù)的分析時(shí),僅僅抓取數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。在對(duì)原始數(shù)據(jù)進(jìn)行清洗,挑選出對(duì)傳播學(xué)研究有價(jià)值的信息時(shí),需要有很好的相關(guān)學(xué)科的訓(xùn)練和素養(yǎng),而這又是計(jì)算機(jī)背景的研究者所不具備的。
國(guó)內(nèi)新聞傳播領(lǐng)域的學(xué)者在肯定了大數(shù)據(jù)為研究所帶來(lái)的便捷和豐富的資源的基礎(chǔ)上對(duì)大數(shù)據(jù)研究的探討也涉及了上文中論述過(guò)的幾個(gè)問(wèn)題(王喆, 2017)。
喻國(guó)明(2014a)對(duì)大數(shù)據(jù)與傳統(tǒng)的結(jié)構(gòu)性數(shù)據(jù)進(jìn)行了比較,認(rèn)為社交媒體上獲得的自然而非人為控制的數(shù)據(jù)是用戶最為真實(shí)的反應(yīng);同時(shí),在數(shù)據(jù)收集方面的花費(fèi)也要比傳統(tǒng)方式少了很多。但是,他同時(shí)也指出在現(xiàn)實(shí)生活中,大數(shù)據(jù)的價(jià)值有些言過(guò)其實(shí),因?yàn)榉治龃髷?shù)據(jù)的價(jià)值邏輯及方法仍舊處在討論探索階段,尚未成熟(胥琳佳, 2013; 喻國(guó)明, 2014a,b)。郜書(shū)鍇、白洪譚(2014)也對(duì)造成大數(shù)據(jù)鴻溝的因素進(jìn)行了討論。他們將因素分了三類:擁有數(shù)據(jù)、數(shù)據(jù)分析以及數(shù)據(jù)思維。作者進(jìn)一步將擁有數(shù)據(jù)分為數(shù)據(jù)開(kāi)放和數(shù)據(jù)搜集維度。數(shù)據(jù)開(kāi)放指的是,現(xiàn)階段人們?cè)诨ヂ?lián)網(wǎng)上生產(chǎn)的數(shù)據(jù),仍舊掌握在政府部門(mén)和一些公司手中(因?yàn)槟苷业捷^好的、安全的公開(kāi)共享數(shù)據(jù)的方法),因此數(shù)據(jù)擁有者和數(shù)據(jù)生產(chǎn)者在數(shù)據(jù)所有上的關(guān)系并不對(duì)等。而在數(shù)據(jù)收集的維度上,作者強(qiáng)調(diào)了收集數(shù)據(jù)需要支付的十分高昂的經(jīng)濟(jì)成本,和對(duì)數(shù)據(jù)收集技術(shù)的要求這兩個(gè)因素所造成的鴻溝。而在數(shù)據(jù)分析中,作者進(jìn)一步分析為了進(jìn)行研究所必須要進(jìn)行的數(shù)據(jù)刪除和使數(shù)據(jù)可用的兩個(gè)環(huán)節(jié)。畢竟大數(shù)據(jù)的最終價(jià)值還是體現(xiàn)在數(shù)據(jù)的“可用”之上(郜書(shū)鍇、白洪譚, 2014, p.38),因此要求研究者既能抓取數(shù)據(jù)、清洗數(shù)據(jù),還要能進(jìn)行深度分析,這個(gè)由學(xué)科不同而造成的“鴻溝”需要盡快彌合。至于數(shù)據(jù)思維這一方面,郜書(shū)鍇、白洪譚(2014)認(rèn)為,我們所經(jīng)歷的是從“數(shù)字化生存”向“數(shù)據(jù)化生存”(郜書(shū)鍇、白洪譚, 2014, p.38)的思維轉(zhuǎn)變。為了實(shí)現(xiàn)這種轉(zhuǎn)變,我們對(duì)大數(shù)據(jù)需要保持理性,不能全數(shù)依賴,需要根據(jù)專業(yè)的判斷提取有價(jià)值的信息,并且得出超越數(shù)據(jù)本身的結(jié)論。而為了實(shí)現(xiàn)這一轉(zhuǎn)型,全民的大數(shù)據(jù)素養(yǎng)是必不可缺的。
除此之外,在從樣本的代表性的角度進(jìn)行的討論中,祝建華(Zhu et al., 2011)實(shí)驗(yàn)室設(shè)計(jì)了“隨機(jī)數(shù)碼搜索”(Random Digit Search, RDS)的方法對(duì)社交媒體用戶進(jìn)行抽取,發(fā)現(xiàn)在其所研究的各個(gè)社交媒體平臺(tái)上,只有一二成的用戶長(zhǎng)期發(fā)布原創(chuàng)內(nèi)容,而有接近四分之一的用戶,雖然頻繁登錄社交網(wǎng)站,但是也只是觀望,自己并不發(fā)布消息。Fu & Chau(2013)在對(duì)新浪微博用戶進(jìn)行研究時(shí)也發(fā)現(xiàn)了相似的結(jié)論,即大多數(shù)新浪用戶在最近7天之內(nèi)并沒(méi)有發(fā)布原創(chuàng)內(nèi)容。因此,從這類研究可以總結(jié)出,在用大數(shù)據(jù)進(jìn)行社交媒體研究時(shí),收集來(lái)的用戶行為數(shù)據(jù),僅能代表該平臺(tái)上很少一部分的人群,所得結(jié)論可能缺乏一定的代表性。這也從中國(guó)社交媒體的角度支持了上述Mahrt & Scharkow(2013)所提到的由于樣本代表性問(wèn)題而不能得出跨平臺(tái)結(jié)論的觀點(diǎn)。
另外,在新的“數(shù)字鴻溝”這個(gè)議題上,祝建華(2013)對(duì)截至 2012 年底在《Science》上發(fā)表的270篇與社交媒體有關(guān)的文章進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)來(lái)自科學(xué)技術(shù)學(xué)科的論文占了58%,而社會(huì)科學(xué)的文章只占34%。除此之外,在討論傳媒行業(yè)在大數(shù)據(jù)時(shí)代下轉(zhuǎn)型問(wèn)題的一篇文章(喻國(guó)明、李慧娟, 2014)中,作者意識(shí)到該行業(yè)中可能也存在Boyd和Crawford(2012)所說(shuō)的新的“數(shù)字鴻溝”。但是作者支持Chan(2015)提出的“合作”的觀點(diǎn)。通過(guò)引用皮尤研究中心2014年的報(bào)告中的一段話,作者認(rèn)為當(dāng)前用大數(shù)據(jù)對(duì)社交媒體進(jìn)行研究需要各個(gè)領(lǐng)域的學(xué)者和各行各業(yè)的專業(yè)人員的 “部門(mén)融合、協(xié)同合作”(喻國(guó)明、李慧娟, 2014, p.4)。喻國(guó)明(2014b)也從大數(shù)據(jù)的可獲得性這個(gè)角度對(duì)新的“數(shù)字鴻溝”進(jìn)行了論證,并且呼吁政府從政策角度對(duì)此現(xiàn)象進(jìn)行干預(yù)。
在傳播學(xué)研究中使用大數(shù)據(jù)分析對(duì)社交媒體進(jìn)行研究,可以說(shuō)是挑戰(zhàn)與機(jī)遇共存。的確,大數(shù)據(jù)的出現(xiàn)使得研究者在研究人類行為時(shí)有跡可循,同時(shí)也可以避免因?yàn)樽陨淼慕槿攵绊懶袨?。同時(shí),隨著科學(xué)技術(shù)的發(fā)展,對(duì)于大數(shù)據(jù)的分析也越來(lái)越快,這是傳統(tǒng)研究方法無(wú)法相提并論的。但是,作為社會(huì)科學(xué)領(lǐng)域的研究者,不能因?yàn)閷?duì)海量數(shù)據(jù)的關(guān)注而忽視自身領(lǐng)域中理論的重要性。在選擇具體的研究方法時(shí),要充分考慮到樣本的區(qū)別和各個(gè)平臺(tái)的特性,以求盡可能地保證研究結(jié)論的合理性和科學(xué)性。定量研究和定性研究并不是對(duì)立存在的,數(shù)據(jù)量大并不一定代表數(shù)據(jù)的質(zhì)量高。與此同時(shí),各領(lǐng)域應(yīng)當(dāng)加強(qiáng)合作,將自己本身學(xué)科所特有的范式、思想帶到研究中來(lái),這樣一來(lái),就會(huì)出現(xiàn)更多的跨學(xué)科研究團(tuán)隊(duì)和研究成果。
除了學(xué)科之間在進(jìn)行人才培養(yǎng)以及學(xué)術(shù)研究上的合作之外,企業(yè)與政府在未來(lái)也可以探討一種合適方式,將數(shù)據(jù)與公眾共享,以促進(jìn)大數(shù)據(jù)相關(guān)研究的推進(jìn)以及大數(shù)據(jù)思維的培養(yǎng)。以企業(yè)與研究機(jī)構(gòu)合作為例,如此一來(lái),一方提供數(shù)據(jù),一方進(jìn)行學(xué)術(shù)研究,相互促進(jìn)。但是Chan(2015)質(zhì)疑商業(yè)邏輯和商業(yè)閉環(huán)在數(shù)據(jù)管理、收集和使用中逐漸成為主導(dǎo)這一背景下,學(xué)界的研究者究竟有多少能力,可以獲得多大權(quán)限的大數(shù)據(jù)。不過(guò),她進(jìn)一步表達(dá)了自己的觀點(diǎn),她認(rèn)為,與其說(shuō)這是一種鴻溝,不如說(shuō)這是一個(gè) “合作”(collaborations)的機(jī)會(huì)——各領(lǐng)域的研究者聚集在一起,共同產(chǎn)生新的大數(shù)據(jù)研究的范式、規(guī)范還有文化(Chan, 2015, p.1080)。但是這一步想要達(dá)到并不容易,認(rèn)為在商業(yè)邏輯下,企業(yè)更希望研究者可以按照他們的偏好進(jìn)行研究,如此一來(lái),研究者的中立性就受到極大的影響,這就需要政府進(jìn)行政策干預(yù),而相關(guān)的學(xué)術(shù)自治機(jī)構(gòu)也可以起到行業(yè)內(nèi)自律的作用。
最后,正如 Boyd和Crawford(2012, p.18)所說(shuō),“可獲得的不代表就是道德的” ——大數(shù)據(jù)研究必須要確保用戶的隱私在得到保護(hù)的前提下進(jìn)行(Mahrt & Scharkow, 2013;周麗娜, 2015)。在收集那些公開(kāi)或是半公開(kāi)的數(shù)據(jù)時(shí),要把倫理道德標(biāo)準(zhǔn)考慮在內(nèi)。因?yàn)榧幢闶且呀?jīng)匿名處理過(guò)的公開(kāi)數(shù)據(jù),在與其他來(lái)源的信息進(jìn)行交叉對(duì)比時(shí),也有再次被辨認(rèn)出來(lái)的可能,這一現(xiàn)象被 Narayanan & Shmatikov(2008)稱為“去匿名化”。因此,政府在制定政策的時(shí)候既要考慮到不同人群獲取大數(shù)據(jù)的難易程度,還要注意保護(hù)用戶的隱私。
參考文獻(xiàn)
金兼斌(2003):數(shù)字鴻溝的概念辨析,《新聞與傳播研究》,第1期,75-79頁(yè)。
郜書(shū)鍇、白洪譚(2014):理解大數(shù)據(jù)時(shí)代的數(shù)字鴻溝,《新聞研究導(dǎo)刊》,第1期,35-38頁(yè)。
韋路、張明新(2006):第三道數(shù)字鴻溝:互聯(lián)網(wǎng)上的知識(shí)溝,《新聞與傳播研究》,第4期,43-53頁(yè)。
王喆(2017):流動(dòng)的信息網(wǎng)絡(luò):反思社交媒體大數(shù)據(jù)研究的迷思與問(wèn)題,《編輯之友》,第1期,75-79頁(yè)。
胥琳佳(2013):大數(shù)據(jù)對(duì)于傳播學(xué)研究?jī)?nèi)容和方法的影響——基于社交媒體和移動(dòng)互聯(lián)網(wǎng)的思考,《中國(guó)出版》,第18期,3-6頁(yè)。
喻國(guó)明(2014a):大數(shù)據(jù)方法與新聞傳播創(chuàng)新:從理論定義到操作路線,《江淮論壇》,第4期,5-7頁(yè)。
喻國(guó)明(2014b):大數(shù)據(jù)的價(jià)值及分析技術(shù)的關(guān)鍵,《新聞與寫(xiě)作》,第4期,1頁(yè)。
喻國(guó)明、李慧娟(2014):大數(shù)據(jù)時(shí)代傳媒業(yè)的轉(zhuǎn)型進(jìn)路——試析定制內(nèi)容、眾包生產(chǎn)與跨界融合的實(shí)踐模式,《現(xiàn)代傳播》,第12期,1-5,11頁(yè)。
喻豐、彭凱平、鄭先雋(2015):大數(shù)據(jù)背景下的心理學(xué):中國(guó)心理學(xué)的學(xué)科體系重構(gòu)及特征,《科學(xué)通報(bào)》,第60卷(第5期),520-533頁(yè)。
周麗娜(2015):大數(shù)據(jù)背景下的網(wǎng)絡(luò)隱私法律保護(hù):搜索引擎、社交媒體與被遺忘權(quán),《國(guó)際新聞界》,第37卷(第8期),136-153頁(yè)。
祝建華(2013):一個(gè)文科教授眼中的大數(shù)據(jù):多、快、糙、耗,《大數(shù)據(jù)中國(guó)》,第1卷(第1期),10-12頁(yè)。
Bello-Orgaz, G., Jung, J.J. & Camacho, D. (2016). Social big data: Recent achievements and new challenges.InformationFusion, 28, 45-59. doi: 10.1016/j.inffus.2015.08.005
Boyd, D. & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon.Information,Communication&Society, 15(5), 662-679. doi: 10.1080/1369118X.2012.678878
Brock, A. (2015). Deeper data: A response to Boyd and Crawford.Media,Culture&Society, 37(7), 1084-1088. doi: 10.1177/0163443715594105
Chan, A. (2015). Big data interfaces and the problem of inclusion.Media,Culture&Society, 37(7), 1078-1083. doi: 10.1177/0163443715594106
Christians, C.G. (2007). Cultural continuity as an ethical imperative.QualitativeInquiry, 13(3), 437-444. doi: 10.1177/1077800406297664
DiMaggio, P., Hargittai, E., Nueman, W.R. & Robinson, J.P. (2001). Social implications of the Internet.AnnualReviewofSociology. 27, 314. doi: 10.1146/annurev.soc.27.1.307
Driscoll, K. & Walker, S. (2014). Working within a black box: Transparency in the collection and production of big twitter data.InternationalJournalofCommunication, 8, 1745-1764.
Fu, K.W. & Chau, M. (2013). Reality check for the Chinese microblog space: A random sampling approach.PLoSOne, 8(3), e58356. doi: 10.1371/journal.pone.0058356
González-Bailón, S. (2013). Social science in the era of big data.Policy&Internet, 5(2), 147-160. doi: 10.1002/1944-2866.POI328
Guo, Z.B., Li, Z.T. & Tu, H. (2011). Sina microblog: An information-driven online social network. InProceedingsof2011InternationalConferenceonCyberworlds(pp.160-167). Banff, ON, Canada: IEEE. doi: 10.1109/CW.2011.12
Herring, S.C. (2009). Web content analysis: Expanding the paradigm. In Hunsinger, J., Klastrup, L. & Allen, M. (Eds.),InternationalHandbookofInternetResearch(pp.233-249). Dordrecht: Springer. doi: 10.1007/978-1-4020-9789-8_14
J?ckel, M. (2001). Inclusion, exclusion and the diversity of interests. Is “digital divide” an adequate perspective? Paper prepared forInternationalAssociationofMediaandCommunicationResearchandInternationalCommunicationAssociation“SymposiumontheDigitalDivide”, November 15-17, 2001, Austin, Texas, USA.
Jankowski, N.W. & Van Selm, M. (2005). Epilogue: Methodological concerns and innovations in internet research. In Hine, C. (Ed.),VirtualMethods:IssuesinSocialResearchontheInternet(pp.199-207). Oxford, New York: Berg.
Lazer, D., Pentland, A.S., Adamic, L., Aral, S., Barabasi, A.L., Brewer, D., Christakis, N., Contractor, N., Fowler, J., Gutmann, M., Jebara, T., King, G., Macy, M., Roy, D. & Van Alstyne, M. (2009). Life in the network: The coming age of computational social science.Science, 323(5915), 721-723. doi: 10.1126/science.1167742
Lomborg, S. (2017). A state of flux: Histories of social media research.EuropeanJournalofCommunication, 32(1), 6-15. doi: 10.1177/0267323116682807
Mahrt, M. & Scharkow, M. (2013). The value of big data in digital media research.JournalofBroadcasting&ElectronicMedia, 57(1), 20-33. doi: 10.1080/08838151.2012.761700
Manovich, L. (2012). Trending: The promises and the challenges of big social data. In Gold, M.K. (Ed.),DebatesintheDigitalHumanities(pp.460-475). London: University of Minnesota Press. doi: 10.5749/minnesota/9780816677948.001.0001
Mehl, M.R. & Gill, A. J. (2000). Automatic text analysis. In Gosling, S.D. & Johnson, J.A. (Eds.),AdvancedMethodsforConductingOnlineBehavioralResearch(109-127). Washington, DC: American Psychological Association. doi: 10.1037/12076-008
McCarthy, M.T. (2016). The big data divide and its consequences.SociologyCompass, 10(12), 1131-1140. doi: 10.1111/soc4.12436
McMillan, S.J. (2000). The microscope and the moving target: The challenge of applying content analysis to the World Wide Web.Journalism&MassCommunicationQuarterly, 77(1), 80-98. doi: 10.1177/107769900007700107
Mitchell, A. & Hitlin, P. (2014). Twitter reaction to events often at odds with overall public opinion.PewResearchCenter. Retrieved from http://www.pewresearch.org/2013/03/04/twitter-reaction-to-events-often-at-odds-with-overall-public-opinion/
Narayanan, A. & Shmatikov, V. (2008). Robust de-anonymization of large sparse datasets. InProceedingsofIEEESymposiumonSecurityandPrivacy(pp.111-125). Oakland, CA, USA: IEEE. doi: 10.1109/SP.2008.33
Norris, P. (2001).Digitaldivide?:Civicengagement,informationpoverty,andtheInternetworldwide. New York: Cambridge University Press.
Papacharissi, Z. (2015). The unbearable lightness of information and the impossible gravitas of knowledge: Big Data and the makings of a digital orality.Media,Culture&Society, 37(7), 1095-1100. doi: 10.1177/0163443715594103
Qiu, J.L. (2015). Reflections on Big Data: “Just because it is accessible does not make it ethical”.Media,Culture&Society, 37(7), 1089-1094. doi: 10.1177/0163443715594104
Romero, D.M., Meeder, B. & Kleinberg, J. (2011, March). Differences in the mechanics of information diffusion across topics: Idioms, political hashtags, and complex contagion on twitter. InProceedingsofthe20thInternationalConferenceonWorldWideWeb(pp.695-704). Hyderabad, India: ACM. doi: 10.1145/1963405.1963503
Tufekci, Z. (2014). Big questions for social media big data: Representativeness, validity and other methodological pitfalls. arXiv preprint arXiv: 1403.7400.
Vogt, W. P., Gardner, D.C. & Haeffele, L.M. (2012).Whentousewhatresearchdesign. London: Guilford Press.
Xifra, J. & Grau, F. (2010). Nanoblogging PR: The discourse on public relations in Twitter.PublicRelationsReview, 36(2), 171-174. doi: 10.1016/j.pubrev.2010.02.005
Zhu, J.J.H., Mo, Q., Wang, F. & Lu, H. (2011). A random digit search (RDS) method for sampling of blogs and other user-generated content.SocialScienceComputerReview, 29(3), 327-339. doi: 10.1177/0894439310382512
Zimmer, M. & Proferes, N.J. (2014). A topology of Twitter research: Disciplines, methods, and ethics.AslibJournalofInformationManagement, 66(3), 250-261. doi: 10.1108/AJIM-09-2013-0083