微博輿情研究中的大數(shù)據(jù)風(fēng)險(xiǎn)與挑戰(zhàn)

2015-03-18 23:09余秀才中南財(cái)經(jīng)政法大學(xué)新聞與文化傳播學(xué)院湖北武漢430073

華中科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版) 2015年5期

余秀才，中南財(cái)經(jīng)政法大學(xué) 新聞與文化傳播學(xué)院，湖北武漢 430073

余秀才，中南財(cái)經(jīng)政法大學(xué) 新聞與文化傳播學(xué)院，湖北武漢 430073

隨著計(jì)算機(jī)信息技術(shù)及人工智能發(fā)展，微博輿情研究中的大數(shù)據(jù)運(yùn)用廣受注。當(dāng)前，微博輿情研究中大數(shù)據(jù)的使用意義、微博輿情研究中大數(shù)據(jù)的研究作用、微博輿情研究中的大數(shù)據(jù)分析方法等成為國(guó)內(nèi)學(xué)界與業(yè)界關(guān)注的熱點(diǎn)，相反，微博輿情研究中的大數(shù)據(jù)使用問(wèn)題與弊端卻較少受到國(guó)內(nèi)學(xué)界與業(yè)界關(guān)注。本文主要從微博輿情研究中大數(shù)據(jù)使用的負(fù)效應(yīng)角度，分析微博輿情研究中大數(shù)據(jù)運(yùn)用所存在的工具依賴與技術(shù)挑戰(zhàn)、大數(shù)據(jù)檢索中的數(shù)據(jù)鴻溝與分析裂痕，以及在檢索分析中所存在的信息安全問(wèn)題，并提出相應(yīng)的反思與建議。

微博輿情；大數(shù)據(jù)；數(shù)據(jù)鴻溝；數(shù)據(jù)安全

由于在展示現(xiàn)實(shí)社交關(guān)系上的卓越性能，微博大數(shù)據(jù)正成為研究人們社會(huì)行為的典范。在美國(guó)，研究者主要利用微博大數(shù)據(jù)了解當(dāng)代媒介生態(tài)中社交媒介的功能，專注于以興趣與問(wèn)題為基礎(chǔ)的公眾形成與動(dòng)態(tài)。包括微博大數(shù)據(jù)的挖掘與分析，用以理解當(dāng)下的傳播危機(jī)，選舉中社交媒介所扮演的角色，當(dāng)代受眾參與電視娛樂(lè)節(jié)目及新媒介的特征等[1]1。同國(guó)外不同，中國(guó)微博大數(shù)據(jù)運(yùn)用目前主要表現(xiàn)在商業(yè)領(lǐng)域及輿情評(píng)測(cè)方面。尤其在輿論研究中，大數(shù)據(jù)熱不斷攀升，成為新聞傳播界令人矚目的現(xiàn)象。

中國(guó)人民大學(xué)傳播學(xué)者喻國(guó)明教授在《傳播學(xué)研究：大數(shù)據(jù)時(shí)代的新范式》一文中，對(duì)大數(shù)據(jù)在輿情研究中的作用充分肯定，他認(rèn)為大數(shù)據(jù)視域下，輿情研究重點(diǎn)已“由輿情監(jiān)測(cè)轉(zhuǎn)向?yàn)檩浨轭A(yù)警乃至預(yù)測(cè),從單向度的危機(jī)應(yīng)對(duì)、品牌營(yíng)銷轉(zhuǎn)向各領(lǐng)域的綜合信息服務(wù)”[2]。另一位學(xué)者李彪在《大數(shù)據(jù)視域下社會(huì)輿情研究的新境界》中，也認(rèn)為大數(shù)據(jù)可以解決目前輿情研究的尷尬，已經(jīng)成為輿情研究的“利器”，為輿情研究創(chuàng)造了新的機(jī)遇[3]。此外，許多計(jì)算科學(xué)領(lǐng)域?qū)W者也從微觀角度，分別對(duì)微博輿情大數(shù)據(jù)研究，在技術(shù)角度和研究方法層面做了細(xì)致分析。然而，凡事皆有兩面，如果拋開慣常的認(rèn)知與思維，在微博大數(shù)據(jù)熱研究伊始即關(guān)注微博大數(shù)據(jù)研究的負(fù)面風(fēng)險(xiǎn)與挑戰(zhàn)，對(duì)微博輿情研究沿正向前進(jìn)不無(wú)助益。正如利維·施特勞斯所指出的那樣：“我們是我們自身的工具”。當(dāng)我們利用這種工具的時(shí)候，我們應(yīng)該考慮它是如何參與分享這個(gè)世界的。大數(shù)據(jù)領(lǐng)域已經(jīng)開始，我們質(zhì)疑其假設(shè)、價(jià)值與這種研究新浪潮中的偏見，這顯得非常重要。作為對(duì)知識(shí)生產(chǎn)感興趣的學(xué)者，這種審問(wèn)是我們所做研究中一個(gè)必不可少的部分[4]。

一、大數(shù)據(jù)運(yùn)用的工具依賴與技術(shù)挑戰(zhàn)

微博輿情研究中，通過(guò)大數(shù)據(jù)挖掘，如跟蹤微博趨勢(shì)主題標(biāo)簽，研究者可以大規(guī)模搜集在線集體行為，從而看到某個(gè)熱點(diǎn)事件的影響模式與傳播峰期與峰值?？的螤柎髮W(xué)教授喬恩·克萊因伯格說(shuō)：“我用大數(shù)據(jù)尋找熱點(diǎn)，我用大數(shù)據(jù)理解行為的爆發(fā)。這些事情你只能通過(guò)大數(shù)據(jù)來(lái)做。”[5]顯然在以喬恩·克萊因伯格教授為代表的數(shù)據(jù)技術(shù)派看來(lái)，大數(shù)據(jù)已成為研究微博輿情的“在線魚缸”(on-line aquarium)，網(wǎng)民所有實(shí)時(shí)行為都可以通過(guò)這個(gè)窗口呈現(xiàn)出來(lái)。問(wèn)題是，web2.0時(shí)代以來(lái)，基于云端的大數(shù)據(jù)技術(shù)雖然迅速崛起，但技術(shù)仍不成熟，難以完全滿足微博輿情研究的大數(shù)據(jù)檢測(cè)與分析要求。

1.大數(shù)據(jù)存儲(chǔ)與檢索系統(tǒng)存在技術(shù)缺陷

微博上各種熱點(diǎn)事件的輿情可測(cè)，就在于新的大數(shù)據(jù)存儲(chǔ)系統(tǒng)為各種輿論行為的結(jié)構(gòu)化數(shù)據(jù)，如二維表等關(guān)系型數(shù)據(jù)；半結(jié)構(gòu)化數(shù)據(jù)，如博客的HTML(HyperText Mark-up Language)文檔等；非結(jié)構(gòu)化數(shù)據(jù)，如博客帖子、圖片、圖像與音頻、視頻等，提供了TB(1TB=1024GB)級(jí)甚至是PB(1PB=1024TB)級(jí)的數(shù)據(jù)規(guī)模。而傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)RDBMS(Relational Database Management System，即關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)，是將數(shù)據(jù)組織為相關(guān)的行和列的系統(tǒng))由于數(shù)據(jù)一致性的約束，在管理大規(guī)模數(shù)據(jù)集存儲(chǔ)條件下，在數(shù)據(jù)更新、局部數(shù)據(jù)失效處理以及系統(tǒng)擴(kuò)展性等方面工作效率低下[5]。在應(yīng)付SNS類型的微博動(dòng)態(tài)網(wǎng)站方面疲態(tài)盡顯。

目前微博輿情所依賴的大數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)主要有兩種，即No-SQL(即Not Only SQL，是對(duì)不同于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)的統(tǒng)稱，泛指為了解決大規(guī)模數(shù)據(jù)集合多重?cái)?shù)據(jù)種類帶來(lái)的挑戰(zhàn)，尤其是大數(shù)據(jù)應(yīng)用難題的非關(guān)系型的數(shù)據(jù)庫(kù))數(shù)據(jù)庫(kù)與Hadoop(Hadoop是Apache軟件基金會(huì)發(fā)起的一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)，是一種開源的適合大數(shù)據(jù)的分布式存儲(chǔ)和處理平臺(tái))。No-SQL數(shù)據(jù)庫(kù)在響應(yīng)速度與后端處理大量數(shù)據(jù)能力上優(yōu)勢(shì)巨大，但在多列查詢上支持較弱，在數(shù)值統(tǒng)計(jì)分析等復(fù)雜處理上表現(xiàn)一般。因此在進(jìn)行微博輿論行為方面帖子搜集時(shí)，其跟隨列表經(jīng)常會(huì)感受到數(shù)據(jù)的延遲，并經(jīng)常遇到不知數(shù)據(jù)具體存在何處及很多時(shí)候數(shù)據(jù)總是不可用的境地。此外No-SQL數(shù)據(jù)存儲(chǔ)系統(tǒng)并未形成統(tǒng)一標(biāo)準(zhǔn)，也缺乏商業(yè)上的普遍支持。這在微博輿情檢索時(shí)，也為數(shù)據(jù)搜索的混亂與差錯(cuò)留下了端口。

另一種大數(shù)據(jù)管理工具是Hadoop(其典型應(yīng)用有facebook等)，它利用MapReduce(一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算)加速檢索實(shí)現(xiàn)，可以輕松處理海量數(shù)據(jù)。國(guó)外很多微博利用他來(lái)進(jìn)行巨量數(shù)據(jù)分析，它使得微博上的結(jié)構(gòu)化數(shù)據(jù)文件能夠映射成為一張數(shù)據(jù)庫(kù)表，并提供完整的數(shù)據(jù)查詢功能。但在現(xiàn)實(shí)微博輿情檢索過(guò)程中，由于該系統(tǒng)不支持?jǐn)?shù)據(jù)流的高速加載與查詢，因此會(huì)導(dǎo)致整個(gè)系統(tǒng)在微博輿情檢索時(shí)，過(guò)程繁瑣與效率低下。此外微博大數(shù)據(jù)檢索系統(tǒng)中所建構(gòu)的查詢與文檔也并不穩(wěn)定，系統(tǒng)與系統(tǒng)之間的匹配原則與結(jié)果呈現(xiàn)技術(shù)也有所不同(也許一個(gè)系統(tǒng)返回Twitter帖子的分級(jí)列表，而另一個(gè)呈現(xiàn)的則是詞云)[6]。

2.大數(shù)據(jù)的信息獲取權(quán)限

需要指出的是，盡管存在諸多工具軟件與搜索手段，目前微博輿情在檢索上仍主要依賴微博API(Application Programming Interface,即應(yīng)用程序編程接口，它是一些預(yù)先定義的函數(shù)，目的是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件得以訪問(wèn)一組例程的能力，而又無(wú)需訪問(wèn)源碼，或理解內(nèi)部工作機(jī)制的細(xì)節(jié))技術(shù)規(guī)則，換句話說(shuō)，微博輿情研究所需的大數(shù)據(jù)集仍然牢牢控制在微博媒介所有者手中，其可得性需要看微博媒介擁有者的心情與臉色“吃飯”。事實(shí)上，實(shí)現(xiàn)API開放的微博媒介大數(shù)據(jù)集并非詳盡的集納了所有公開發(fā)布的博客帖子，也不會(huì)為輿情研究者提供所有的帖子以供索引查詢，它們需要過(guò)濾與壓縮垃圾帖子以增加相關(guān)性。由于容量限制，一般微博，如Twitter等，僅能提供近一周的微博數(shù)據(jù)以供索引[1]7,8。

此外，作為大數(shù)據(jù)宿主，微博媒介平臺(tái)提供API的內(nèi)在驅(qū)力并非輿情研究，而是創(chuàng)造商對(duì)商關(guān)系，其目標(biāo)是具有一系列潛在價(jià)值的特殊終端用戶，如2012年Twitter與NBC聯(lián)合直播倫敦奧運(yùn)盛況，便是為了尋求與大企業(yè)、打廣告主合作，以便獲得巨大的經(jīng)濟(jì)效益。微博運(yùn)營(yíng)商的這種商業(yè)至上邏輯，也為輿情檢索帶來(lái)了一定困難。如著名的微博Twitter公司，前段時(shí)間為了商業(yè)利益，在數(shù)據(jù)訪問(wèn)與控制上所做的規(guī)定便引發(fā)了廣泛爭(zhēng)議。為保障自身商業(yè)利益，Twitter公司直接從其公共信息流出口(firehose)鎖定開發(fā)者與研究者對(duì)Twitter信息的訪問(wèn)權(quán)限，削減其自由和公開的微博信息歸檔服務(wù)，同時(shí)同Gnip(一家向客戶收取高容量API Twitter帖子訪問(wèn)費(fèi)用以獲取商業(yè)利潤(rùn)的公司)建立壟斷性的內(nèi)容許可協(xié)議。2012年8月，為響應(yīng)最新發(fā)布的API規(guī)則，Twitter公司進(jìn)一步發(fā)布在一定條件下API使用與可用性的顯著限制[1]6。在中國(guó)，由于技術(shù)原因，新浪微博API則經(jīng)常處在測(cè)試階段，不但提供開放的大數(shù)據(jù)內(nèi)容不全面，而且在輿情檢測(cè)時(shí)，由于查詢結(jié)果在返回的最大數(shù)量及調(diào)用頻率等方面的諸多限制，難以為輿情研究提供全面、完整與系統(tǒng)、可靠的大數(shù)據(jù)。

3.微博輿情檢索工具缺乏

在微博輿情搜集方面，國(guó)外已經(jīng)出現(xiàn)像Gnip這樣專門針對(duì)Twitter大數(shù)據(jù)搜集的公司與機(jī)構(gòu)，在中國(guó)目前專門針對(duì)微博搜集的商業(yè)機(jī)構(gòu)尚不多見。

國(guó)外微博輿情搜索與分析系統(tǒng)工具一般為研究者自行研究設(shè)計(jì)而成，如Opinion Finder lexicon、Twitinfo等。許多工具性能優(yōu)越,技術(shù)先進(jìn)。國(guó)內(nèi)微博輿情大數(shù)據(jù)研究系統(tǒng)工具有See、Scool等。由于從事微博輿情研究人員目前多為人文學(xué)科或媒體從業(yè)人員，很少缺計(jì)算機(jī)與信息學(xué)科的專業(yè)人士，因此很難針對(duì)微博輿情研究，設(shè)計(jì)出適用的工具軟件。

從大數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)缺陷到微博大數(shù)據(jù)訪問(wèn)權(quán)限，再到輿情檢索的工具限制可以看出，當(dāng)下微博輿情研究在大數(shù)據(jù)檢索、分析方面并不能伸縮如意，某種程度上，大數(shù)據(jù)提供的是一種烏托邦式的工具依賴與技術(shù)幻想。

二、大數(shù)據(jù)檢索中的數(shù)據(jù)鴻溝與分析裂痕

大數(shù)據(jù)的龐雜和混亂、獲取與共享權(quán)限，加劇了微博輿情使用的技術(shù)鴻溝。

1.大數(shù)據(jù)增加錯(cuò)誤發(fā)現(xiàn)的風(fēng)險(xiǎn)

統(tǒng)計(jì)學(xué)家與計(jì)算機(jī)學(xué)者指出，憑借龐大的數(shù)據(jù)集與細(xì)粒化測(cè)量，大數(shù)據(jù)正不斷增加“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)。斯坦福大學(xué)著名統(tǒng)計(jì)學(xué)教授黑斯蒂(Trevor Hastie)說(shuō)，如果在大規(guī)模數(shù)據(jù)稻草堆中尋找一根有意義的針，其問(wèn)題是稻草堆中有太多稻草像針一樣[7]。

除檢索外，微博輿論中各種帖子、表情符號(hào)、圖片等半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù)的增加，在累積各種信息指標(biāo)同時(shí)也會(huì)導(dǎo)致錯(cuò)誤信息增加。此外輿論事件中，大數(shù)據(jù)信息的增加，也增添了特定主題帖子的挖掘難度與分析的不確定程度。因?yàn)閷?duì)某個(gè)熱點(diǎn)事件輿情信息挖掘、分析、預(yù)判，通常會(huì)使用計(jì)算機(jī)與數(shù)學(xué)模型，然而，這些模型所提供的總體性分析就像文學(xué)中的隱喻，是對(duì)微博輿論事件解釋的簡(jiǎn)化與簡(jiǎn)版。這種模型或許可以點(diǎn)出微博輿論中用戶之間的相互關(guān)系，并在大數(shù)據(jù)解析基礎(chǔ)上得出相應(yīng)推論，但這種推論往往會(huì)有失真實(shí)與偏頗。

2.信息孤島導(dǎo)致數(shù)據(jù)分析鴻溝

微博輿情研究的最大誘惑是全數(shù)據(jù)視角，但現(xiàn)實(shí)中，人為因素與技術(shù)限制，讓這種誘因成為畫餅。處于技術(shù)癖好與利益考慮，每個(gè)微博API平臺(tái)資料開放都有限度，作為外部輿情研究者，除非能克服經(jīng)濟(jì)壓力完成所有的數(shù)據(jù)購(gòu)買，否則很難完全訪問(wèn)微博平臺(tái)所有原始數(shù)據(jù)。即便有微博API宣稱公開開放所有數(shù)據(jù)，也不能肯定它們所謂的“所有數(shù)據(jù)”包含了全部輿情信息。以著名微博公司Twitter為例，理論上看，Twitter的“流”信息庫(kù)(firehose)除了包含隱私以及受私人保護(hù)的微博之外，能提供所有公開發(fā)布的帖子，然而，事實(shí)上一些公開發(fā)布的帖子仍然遺漏在“流”信息庫(kù)之外。其原因就在于TwitterAPI對(duì)所有帖子采取的是任意數(shù)據(jù)抽樣，或從特定的網(wǎng)絡(luò)數(shù)據(jù)圖中每小時(shí)僅抽取開頭的幾千個(gè)Twitter帖子作為樣本[8]。中國(guó)的微博平臺(tái)在所公開的資料提取與供給方面同樣如此，所以，對(duì)微博輿情研究者來(lái)說(shuō)，很難斷定自己用于分析的微博大數(shù)據(jù)在質(zhì)量上是否可信與可靠。

此外，許多微博媒介平臺(tái)限制數(shù)據(jù)集共享，也讓研究者很難將獲取的資料同其他研究團(tuán)隊(duì)做對(duì)比分析[1]7，8。從平臺(tái)角度看，當(dāng)下的微博輿情搜集僅聚焦于一些主要的微博社交平臺(tái)，國(guó)外主要是面薄(facebook)與Twitter(Twitter)，國(guó)內(nèi)則是新浪、騰訊、搜狐及網(wǎng)易。對(duì)于一些影響巨大、事關(guān)全國(guó)乃至世界性的熱點(diǎn)事件來(lái)說(shuō)，即使每個(gè)微博平臺(tái)能提供千百萬(wàn)的帖子量，其資料搜集范圍相對(duì)于整體媒介范圍來(lái)說(shuō)仍然顯小。況且，不同的數(shù)據(jù)平臺(tái)經(jīng)常做人為的數(shù)據(jù)分割，如中國(guó)新浪、網(wǎng)易、騰訊、搜狐四家微博平臺(tái)的數(shù)據(jù)檢索各自為政，互不分享，從微博輿情研究看，這必然會(huì)形成web2.0時(shí)代的大數(shù)據(jù)分析“鴻溝”。

3.信息精度影響輿情分析和預(yù)測(cè)的準(zhǔn)確度

微博輿情研究的另一個(gè)問(wèn)題，也許同大數(shù)據(jù)數(shù)量無(wú)關(guān)，而同大數(shù)據(jù)信息本身有關(guān)。首先，微博用戶與所有的社會(huì)不是等價(jià)物，微博輿論代表廣泛民意，但不等同與社會(huì)的全部民意。其次，微博賬戶也不等價(jià)于現(xiàn)實(shí)中的微博用戶，如有的單個(gè)微博用戶擁有多個(gè)賬戶，也有多個(gè)微博用戶共同擁有同一個(gè)賬戶。再次，那些沒(méi)有微博賬戶的人可以通過(guò)網(wǎng)站訪問(wèn)微博，并通過(guò)“機(jī)器人”(bot)將自己的帖子在微博平臺(tái)上群發(fā)。最后，微博平臺(tái)上的活躍用戶并非都是言論活躍分子，Twitter公司揭露有40%的活躍用戶登錄微博僅僅是為了收看?？磥?lái)，用戶、參與及活躍度三者之間的關(guān)系仍需要仔細(xì)研究[1]662-679。這說(shuō)明，微博用戶的數(shù)量、帖子的多寡、言論的代表度，都只最大限度地呈現(xiàn)了輿情的局部真實(shí)，并不能代表社會(huì)的輿論全部。

在微博輿情檢索方面，目前也存在對(duì)大數(shù)據(jù)選擇性棄用現(xiàn)象。微博大數(shù)據(jù)中除文本信息之外，圖片、影像在輿論活動(dòng)中的參與度正急劇上漲，無(wú)論是宜黃拆遷事件中當(dāng)事人鐘九如通過(guò)微博發(fā)布圖片影像維權(quán)，還是楊達(dá)才表哥在交通事故處理中的微笑臉譜展示，再到雷政富不雅視頻事件在微博中的不脛而走，圖片與圖像在激發(fā)與助推輿論發(fā)展中，都是致命的“大殺器”。但在現(xiàn)實(shí)中，現(xiàn)代大數(shù)據(jù)檢索與分析技術(shù)，只注重分析哪些容易處理的文本信息，卻很難挖掘與處理這些圖片、影像乃至超鏈接等非結(jié)構(gòu)化數(shù)據(jù)，因此在輿論研究中，這些非結(jié)構(gòu)化數(shù)據(jù)經(jīng)常遭到輿情大數(shù)據(jù)研究者的拋棄與輕視，從而人為造成微博輿情研究中的“選擇性”使用與分析現(xiàn)象。

三、大數(shù)據(jù)隱私與安全

微博輿情研究中，大數(shù)據(jù)安全主要表現(xiàn)在輿論暴力、隱私侵權(quán)與數(shù)據(jù)壟斷三個(gè)層面。

1.大數(shù)據(jù)使用存在泄露隱私隱患

隨著人工智能與計(jì)算機(jī)技術(shù)發(fā)展，建立在云端基礎(chǔ)上的大數(shù)據(jù)挖掘與智能動(dòng)態(tài)分析愈來(lái)愈強(qiáng)。但道高一尺、魔高一丈，任何技術(shù)的發(fā)展都無(wú)法完全彌補(bǔ)技術(shù)發(fā)展漏洞，微博API應(yīng)用接口的訪問(wèn)密鑰限制，微博大數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)與管理控制方面的缺陷與不足，經(jīng)常會(huì)導(dǎo)致信息的泄漏，特別是隱私信息。據(jù)IDC統(tǒng)計(jì):2010年僅有不到1/3的數(shù)據(jù)需要保護(hù)，到2020年這一比例將超過(guò)2/5;2012年的統(tǒng)計(jì)顯示，雖然有35%的信息需要保護(hù)，但實(shí)際得到保護(hù)的不到20%[9]。

數(shù)據(jù)安全缺失在微博輿情領(lǐng)域通常會(huì)導(dǎo)致侵犯他人隱私，甚至產(chǎn)生輿論暴力行為。人肉搜索濫用就是典型之一，許多微博輿論突發(fā)事件中當(dāng)事人(特別是負(fù)面當(dāng)事人)的信息成為人肉搜索的對(duì)象，如周久耕事件及陜西房姐事件等，當(dāng)事人隱私在人肉搜索面前暴露無(wú)遺。雖然這些輿論事件中的當(dāng)事人存在負(fù)面形象，但輿論的結(jié)果正義不能掩蓋程序正義，對(duì)輿論中負(fù)面當(dāng)事人隱私信息的非法人肉獲取仍然值得整個(gè)社會(huì)的理性認(rèn)識(shí)與警醒。同樣，突發(fā)事件中微博輿論的一邊倒也不能昭示對(duì)輿論負(fù)面當(dāng)事人的隱私信息人肉獲取的合法。廣東房嬸事件就是反例，由于信息泄露，房嬸飽受輿論暴力蹂躪。好在司法機(jī)關(guān)最后證明輿論錯(cuò)誤，還房嬸以清白，但輿論當(dāng)事人房嬸由于數(shù)據(jù)泄露，所導(dǎo)致的“眾口鑠金、積毀銷骨”之疼，恐難在短時(shí)間內(nèi)消退。

2.大數(shù)據(jù)安全問(wèn)題阻礙輿情信息獲取

因?yàn)楹茈y區(qū)分公眾信息與個(gè)人隱私信息邊界，大數(shù)據(jù)導(dǎo)致的信息泄漏很可能導(dǎo)致微博運(yùn)營(yíng)商因?yàn)閾?dān)憂隱私侵權(quán)，在搜集和提供輿情大數(shù)據(jù)集時(shí)更加謹(jǐn)慎，在向輿情研究者甚至是輿情研究數(shù)據(jù)共享合作者提供大數(shù)據(jù)集時(shí)，更趨向小心與保守，這也必然會(huì)增加一般輿情研究者在微博輿情研究時(shí)輿情數(shù)據(jù)的獲取難度。

此外計(jì)算機(jī)與人工智能先發(fā)優(yōu)勢(shì)，也導(dǎo)致社會(huì)法制管理總是相對(duì)滯后。針對(duì)大數(shù)據(jù)管理，歐盟在2012年1月對(duì)舊的數(shù)據(jù)保護(hù)條例進(jìn)行修改，并發(fā)布了新的數(shù)據(jù)搜集與保護(hù)條例，但大數(shù)據(jù)海嘯仍然讓這些新條例在管理方面難以為繼。美國(guó)也于2012年3月29日，推出了“大數(shù)據(jù)研究與開發(fā)計(jì)劃”，但大數(shù)據(jù)隱私與信息安全依然是個(gè)難題。此前的維基解密事件與“棱鏡門”事件，就從某種角度說(shuō)明了問(wèn)題的嚴(yán)重性。大數(shù)據(jù)信息安全對(duì)微博輿情研究而言所產(chǎn)生的隱憂是：政府對(duì)大數(shù)據(jù)管理失效，很有可能導(dǎo)致“矯枉過(guò)正”，引發(fā)政府更加嚴(yán)厲的言論與信息管理措施，這對(duì)微博輿論健康發(fā)展來(lái)說(shuō)未必有益。

3.大數(shù)據(jù)壟斷誤導(dǎo)輿論選擇

以微博為主的社交媒介為研究人們?nèi)粘Ｐ袨樘峁┝舜髷?shù)據(jù)樣本，但對(duì)大數(shù)據(jù)樣本的使用權(quán)限和能力，不同的個(gè)人、群體和組織是不同的。大數(shù)據(jù)可以為公眾謀福，也可能成為“老大哥”的另一版本，造成大數(shù)據(jù)使用與分析的壟斷?；ヂ?lián)網(wǎng)哲學(xué)家耶夫根尼·莫洛佐夫警告說(shuō)，大數(shù)據(jù)使用不當(dāng)會(huì)導(dǎo)致“算法的獨(dú)裁”，對(duì)于現(xiàn)在許多大數(shù)據(jù)應(yīng)用背后的理念，他持批評(píng)態(tài)度。

微博輿情研究中，大數(shù)據(jù)帶來(lái)的好處是輿情信息的獲取更加全面；壞處是大數(shù)據(jù)壟斷有可能讓某些信息壟斷者有機(jī)會(huì)對(duì)微博輿論帖子內(nèi)容進(jìn)行選擇性提供與使用，從而導(dǎo)致輿情誤判。更有甚者，如立二拆四、秦火火之流，利用微博大數(shù)據(jù)技術(shù)，傳播謠言，制造輿論假象，以謀取私利。凡此種種，說(shuō)明大數(shù)據(jù)技術(shù)在輿情研究上帶來(lái)便利與革新的同時(shí)，也帶來(lái)了弊端與隱憂。

四、微博輿情研究中的大數(shù)據(jù)反思

大數(shù)據(jù)技術(shù)雖不成熟，在發(fā)展中存在諸多弊端，但畢竟為微博輿情研究領(lǐng)域帶來(lái)了重大思想啟蒙與影響。微博輿情研究中，不能因?yàn)閾?dān)憂它成為利維坦，就拒斥其在研究中所帶來(lái)的技術(shù)福音。理性的態(tài)度應(yīng)是：明辨其利弊，在使用的過(guò)程中從各方面不斷完善與改進(jìn)。

首先，大數(shù)據(jù)技術(shù)的進(jìn)步與成熟需要國(guó)家社會(huì)政策扶持及全社會(huì)的高度重視。在美國(guó)，大數(shù)據(jù)技術(shù)早已上升為國(guó)家戰(zhàn)略，2012年美國(guó)政府發(fā)動(dòng)了一場(chǎng)大數(shù)據(jù)發(fā)展的全民總動(dòng)員，美國(guó)政府撥款2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展倡議”計(jì)劃。與此同時(shí)，美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)等部門和機(jī)構(gòu)承諾，將投入超過(guò)2億美元資金用于研發(fā)“從海量數(shù)據(jù)信息中獲取知識(shí)所必需的工具和技能”。在美國(guó)政府的鼓勵(lì)下，美國(guó)企業(yè)與個(gè)人也爭(zhēng)先恐后投入大數(shù)據(jù)的開發(fā)與研究，讓大數(shù)據(jù)技術(shù)深耕于美國(guó)社會(huì)的各個(gè)層面。

在中國(guó)，政府層面也比較重視大數(shù)據(jù)技術(shù)，如2012年以來(lái)，科技部、發(fā)改委、工信部等部委在研發(fā)、探索和產(chǎn)業(yè)化專項(xiàng)上，陸續(xù)支持了一批大數(shù)據(jù)項(xiàng)目。上海有“大數(shù)據(jù)研發(fā)三年行動(dòng)計(jì)劃”，廣東有“大數(shù)據(jù)戰(zhàn)略工作方案”，陜西有“大數(shù)據(jù)科學(xué)園區(qū)”，中關(guān)村還有“大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟”。但總體看，中國(guó)大數(shù)據(jù)技術(shù)研發(fā)還缺乏國(guó)家層面的清晰戰(zhàn)略規(guī)劃，缺乏社會(huì)各階層整體聯(lián)動(dòng)，大數(shù)據(jù)技術(shù)創(chuàng)新與擴(kuò)散的內(nèi)在驅(qū)動(dòng)力不足，這也必然會(huì)影響到微博輿情研究中大數(shù)據(jù)技術(shù)的推廣和使用。因此作為下一代通用目的技術(shù)，大數(shù)據(jù)技術(shù)的推進(jìn)需要政府、企業(yè)與個(gè)人共同努力。

其次，要與時(shí)俱進(jìn)，不斷培養(yǎng)大數(shù)據(jù)人才。大數(shù)據(jù)是新興技術(shù)，大數(shù)據(jù)人才需要一系列大數(shù)據(jù)挖掘、分析和可視化呈現(xiàn)等知識(shí)。目前微博輿情研究隊(duì)伍的境況是，擅長(zhǎng)信息檢索的計(jì)算機(jī)與統(tǒng)計(jì)人才不懂社會(huì)科學(xué)研究方法，而懂得社會(huì)科學(xué)研究方法的學(xué)者又基本不懂信息檢索與統(tǒng)計(jì)學(xué)知識(shí)，從而造成了大數(shù)據(jù)微博輿情研究的人為隔膜。因此，要打破大數(shù)據(jù)分析研究的學(xué)科藩籬，需要培養(yǎng)既懂計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)知識(shí)，又懂社會(huì)學(xué)研究方法的復(fù)合型人才。

再次，需要建立相應(yīng)的大數(shù)據(jù)法治安全。大數(shù)據(jù)安全需要整個(gè)社會(huì)努力，具體說(shuō)，需要政府、企業(yè)與社會(huì)個(gè)人從宏觀到微觀共同作用。在政府層面，歐美發(fā)達(dá)國(guó)家已經(jīng)走在前面，如美國(guó)應(yīng)對(duì)大數(shù)據(jù)崛起，已經(jīng)設(shè)立安全機(jī)制，采用第三方信息安全審計(jì),并對(duì)數(shù)據(jù)的使用作明確的規(guī)定,以及加大對(duì)信息竊取及修改的懲罰力度。美國(guó)國(guó)防部先進(jìn)研究項(xiàng)目局(DARPA)為應(yīng)對(duì)大數(shù)據(jù)時(shí)代的到來(lái),宣布建立多個(gè)針對(duì)網(wǎng)絡(luò)信息安全的研究項(xiàng)目[10]。

在我國(guó)，關(guān)于大數(shù)據(jù)開放與使用管理方面，法治建設(shè)相對(duì)滯后。大數(shù)據(jù)公開與共享的邊界在哪里？如何區(qū)分公共數(shù)據(jù)與私人數(shù)據(jù)、公共數(shù)據(jù)與商業(yè)數(shù)據(jù)的邊界？對(duì)大數(shù)據(jù)壟斷和大數(shù)據(jù)侵權(quán)濫用行為如何規(guī)制？對(duì)這些問(wèn)題在法治管理方面的清晰厘定，不僅有利于大數(shù)據(jù)技術(shù)健康發(fā)展，也有利于微博輿情研究方面的大數(shù)據(jù)技術(shù)應(yīng)用與推廣。

總之，微博輿情研究中，盡管大數(shù)據(jù)檢索與分析存在諸多風(fēng)險(xiǎn)與挑戰(zhàn)，大數(shù)據(jù)仍將是今后輿情評(píng)估與趨勢(shì)預(yù)測(cè)最具希望的研究方向。正如史蒂夫·勞爾在大數(shù)據(jù)時(shí)代一文中所言，盡管警告，但沒(méi)有回頭路可走。大數(shù)據(jù)已經(jīng)處在駕駛者位置。它就在哪兒，他是有用的、有價(jià)值的，甚至可能更好[7]。

[1]BURGESS, J. & Bruns, A.“Twitter archives and the challenges of ‘big social data’ for media and communication research”, M/C Journal, 2012,15(5).

[2]喻國(guó)明、王斌、李彪、楊雅：《傳播學(xué)研究：大數(shù)據(jù)時(shí)代的新范式》，載《新聞?dòng)浾摺?013年第6期。

[3]李彪：《大數(shù)據(jù)視域下社會(huì)輿情研究的新境界》，載《編輯之友》2013年第6期。

[4]Suchman, L. (2011) .“Consuming anthropology”, in Interdisciplinarity: Reconfigurations of the Social and Natural Sciences, eds A. Barry & G. Born, Routledge,London, Available at: http://www.lancs.ac.uk/fass/doc_library/sociology/Suchman_consuming_anthroploogy.pdf.

[5]Steve Lohr.”The Age of Big Data.”The New York Times.Published: February 11, 2012.

[6]Efron M. “Information search and retrieval in microblogs”， Journal of the American Society for Information Science and Technology, 2011, 62(6).pp 996-1008.

[7]Lohr S. “The age of big data”，New York Times, 2012, 11.

[8]Boyd D, Crawford K.“Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon”， Information, Communication & Society, 2012, 15(5)，pp662-679.

[9]硅谷動(dòng)力：《數(shù)字宇宙規(guī)模激增大數(shù)據(jù)仍有待挖掘》，IT專家網(wǎng)：http://datacenter.ctocio.com.cn/246/12560746.shtml，2013-03-12 14:21.

[10]宋利光、王琛燦、王文珍：《大數(shù)據(jù)時(shí)代下的語(yǔ)言類教學(xué)課程建設(shè)探析》，載《才智》2013年第24期。

責(zé)任編輯吳蘭麗

Hazards and Challengs of Big Data in the Research of On-line Public Opinion

YU Xiu-cai

(SchoolofJournalismandCultureCommunication,UniversityofZhongnanEconomicsandLaw,Wuhan430073,China)

Along with the development of AI and IT, more and more people focus on the usage of big data in the research of microblog public opinion. From the reverse point of view, this paper explores the instrumental dependence of Big Data’s usage, the wide gap and analytical rift in the Big Data’s retrieval, and the problems of information security in the Big Data’s analysis. And this paper also provides some profound considerations and proposals to the Big Data’s usage in the microblog public opinion.

microblog opinion; Big Data; wide gap of Big Data; data security

余秀才，傳播學(xué)博士，中南財(cái)經(jīng)政法大學(xué)新聞與文化傳播學(xué)院副教授，研究方向?yàn)榫W(wǎng)絡(luò)輿論、微博與影視傳播。

國(guó)家社科基金項(xiàng)目“重大突發(fā)公共事件中的微博輿論傳播與引導(dǎo)”(11CXW019)階段性研究成果

2015-03-04

G202

1671-7023(2015)05-0080-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

微博輿情研究中的大數(shù)據(jù)風(fēng)險(xiǎn)與挑戰(zhàn)

一、大數(shù)據(jù)運(yùn)用的工具依賴與技術(shù)挑戰(zhàn)

二、大數(shù)據(jù)檢索中的數(shù)據(jù)鴻溝與分析裂痕

三、大數(shù)據(jù)隱私與安全

四、微博輿情研究中的大數(shù)據(jù)反思

二、大數(shù)據(jù)檢索中的數(shù)據(jù)鴻溝與分析裂痕

四、微博輿情研究中的大數(shù)據(jù)反思