張瀟
摘 要:大數(shù)據(jù)時(shí)代來臨之后,傳媒作為信息產(chǎn)業(yè)也不可避免的收到了沖擊。本文分析了大數(shù)據(jù)的四個(gè)特點(diǎn),分別從傳播效果、新聞價(jià)值、新聞業(yè)務(wù)、傳媒數(shù)據(jù)庫、媒體的功能和媒體從業(yè)人員探討了大數(shù)據(jù)帶來的沖擊和影響。最后分析了大數(shù)據(jù)帶來的負(fù)面影響:泄露隱私的危險(xiǎn)。
關(guān)鍵詞:大數(shù)據(jù);傳媒業(yè);變革;隱私
中圖分類號:G206 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-8122(2014)01-0129-03
2002年,有一部上映的科幻片——《少數(shù)派報(bào)告》,講述的是在2054年的美國,謀殺已經(jīng)消失,犯罪可以被預(yù)知。有三個(gè)具有感知未來超能力的人——先知,可以在事前得到犯罪的信息,經(jīng)過司法部的預(yù)防犯罪小組破譯犯罪證據(jù)之后,罪犯在實(shí)施犯罪之前就會得到懲罰。而這一切似乎將要變?yōu)楝F(xiàn)實(shí),只不過電影中用的是超能力,而今運(yùn)用大數(shù)據(jù)。
2009年,在甲型H1N1流感爆發(fā)的前幾周,谷歌通過觀察人們在網(wǎng)上的搜索記錄就提前預(yù)測了流感的傳播。谷歌保存了多年來所有的搜索記錄,每天收到來自全球超過30億條的搜索指令,通過分析這些龐大的數(shù)據(jù)資源,而得出了這個(gè)結(jié)論。
世界著名咨詢機(jī)構(gòu)麥肯錫公司于 2011年5月發(fā)布了《大數(shù)據(jù):下一個(gè)創(chuàng)新、競爭和生產(chǎn)力的前沿》報(bào)告,掀開了大數(shù)據(jù)研究的序幕。作為從經(jīng)濟(jì)和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ牡谝环輰n}研究成果,該報(bào)告系統(tǒng)闡述了大數(shù)據(jù)概念,詳細(xì)列舉了大數(shù)據(jù)的核心技術(shù),深入分析了大數(shù)據(jù)在不同行業(yè)的應(yīng)用,明確提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略。
一、大數(shù)據(jù)簡介
麥肯錫認(rèn)為,“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集。該定義有兩方面內(nèi)涵:一是符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小是變化的,會隨著時(shí)間推移、技術(shù)進(jìn)步而增長;二是不同部門符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小會存在差別。目前,大數(shù)據(jù)的一般范圍是從幾個(gè)TB到數(shù)個(gè)PB。
大數(shù)據(jù)(big data),究竟這個(gè)數(shù)據(jù)有多大。很多人試圖測量出一個(gè)確切的數(shù)字。南加利福尼亞大學(xué)的馬丁希爾伯特(Martin Hilbert)試圖得出人類所創(chuàng)造的、存儲和傳播的一切信息的確切數(shù)目。據(jù)他估算,2007年,人類大約存儲了超過300艾字節(jié)的數(shù)據(jù)[1]。他預(yù)測,到2013年,世界上存儲的數(shù)據(jù)能達(dá)到約1.2澤字節(jié)。這意味著:如果把這些數(shù)據(jù)全部記在書中,可以覆蓋整個(gè)美國52次,如果將其存儲在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以延伸到月球[2]。
IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為4個(gè)V:
(一) Volume
數(shù)據(jù)體積巨大,在我們需要處理數(shù)據(jù)的時(shí)候,不再需要隨機(jī)樣本,而是全體數(shù)據(jù)。即樣本=全體。小數(shù)據(jù)時(shí)代隨機(jī)抽樣,我們用最少的數(shù)據(jù)獲得最多的信息。因?yàn)榧夹g(shù)的限制,取得過多的樣本會消耗大量的成本和精力?,F(xiàn)在,技術(shù)環(huán)境已經(jīng)有了很大的改善,依然進(jìn)行抽樣分析就類似于在汽車時(shí)代依然騎馬一樣。大數(shù)據(jù)注定對社會科學(xué)有最大的撼動,因?yàn)槲覀冊僖膊挥靡蕾嚦闃诱{(diào)查了。
(二)Variety
數(shù)據(jù)的類型及來源繁多并且包含越來越多的非結(jié)構(gòu)化數(shù)據(jù)(如圖像、聲音等信息);大數(shù)據(jù)的來源主要有這樣幾個(gè)方面[3]:
一是媒體數(shù)據(jù),特別是互聯(lián)網(wǎng)、社交媒體產(chǎn)生的數(shù)據(jù),包括人們?yōu)g覽網(wǎng)頁的數(shù)字化記錄等;
二是各類企業(yè)的生產(chǎn)、銷售、管理等等數(shù)據(jù);
三是政府部門的數(shù)據(jù);
四是物聯(lián)網(wǎng)、各種傳感器產(chǎn)生的數(shù)據(jù),以及未聯(lián)網(wǎng)的各種攝像頭拍攝的數(shù)據(jù);
五是民眾個(gè)人留存的數(shù)據(jù),包括個(gè)人、家庭文字及音像數(shù)據(jù)。
數(shù)據(jù)類型和數(shù)量的繁多,各種數(shù)據(jù)魚龍混雜,直接帶來的結(jié)果就是錯(cuò)誤數(shù)據(jù)的增多,精確度的下降。在小數(shù)據(jù)時(shí)代,在抽樣調(diào)查的時(shí)候我們要對我們的調(diào)查的信度和效度負(fù)責(zé),所以數(shù)據(jù)越精確越好。但是現(xiàn)在不是這樣了,在大數(shù)據(jù)時(shí)代,我們掌握的數(shù)據(jù)越來越全面,它不僅包括現(xiàn)象的一點(diǎn)點(diǎn)數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部的數(shù)據(jù)。我們要做的就是接受這些紛繁的數(shù)據(jù)并從中獲益,而不是以高昂的代價(jià)消除所有的不確定性。
(三)Velocity
數(shù)據(jù)增長速度快,其對于實(shí)時(shí)處理速度的要求也很高。
(四)Value
數(shù)據(jù)價(jià)值高但密度低,海量數(shù)據(jù)背后擁有價(jià)值的數(shù)據(jù)比例低。
二、大數(shù)據(jù)對傳媒的影響
(一)對傳統(tǒng)媒體的影響
傳統(tǒng)的紙媒在互聯(lián)網(wǎng)的沖擊下依然搖搖欲墜,報(bào)紙、雜志的受眾紛紛轉(zhuǎn)投更先進(jìn)、更具現(xiàn)代氣息的互聯(lián)網(wǎng),或者手機(jī)、iPad等移動終端。更不用提現(xiàn)在這些新媒體有了大數(shù)據(jù)作為支撐。
亞馬遜網(wǎng)站最初的時(shí)候,聘請了20多個(gè)書評家和編輯組成的團(tuán)隊(duì),他們寫書評、推薦新書,挑選非常有特色的新書標(biāo)題放在亞馬遜的網(wǎng)頁上。這個(gè)團(tuán)隊(duì)創(chuàng)立了“亞馬遜聲音”這個(gè)版塊,成為當(dāng)時(shí)公司這頂皇冠上的一顆寶石,是其競爭優(yōu)勢的重要來源。后來林登創(chuàng)立了基于大數(shù)據(jù)分析的系統(tǒng),應(yīng)用在網(wǎng)站上之后,亞馬遜可以根據(jù)客戶個(gè)人以前的購物喜好,為其推薦具體的書籍,而且除了書籍,更可以推薦電子用品,烤面包機(jī)這些產(chǎn)品。這個(gè)系統(tǒng)創(chuàng)造了亞馬遜銷售額的三分之一。最終,書評組被解散了。很多大型書店和音樂唱片商店也歇業(yè)了。
現(xiàn)在的網(wǎng)絡(luò)已經(jīng)可以在新聞下方列出一長串的相關(guān)新聞的鏈接了,視頻新聞也會在播放完畢之后自動彈出相似視頻供挑選。而紙媒還完全做不到這一點(diǎn),如果繼續(xù)發(fā)展下去,任由新媒體在用戶個(gè)性化方面做的更好,紙媒勢必也面臨著亞馬遜書評組的命運(yùn)。
(二)對傳播效果的影響
大數(shù)據(jù)時(shí)代,新聞傳播將更有針對性,更精準(zhǔn),傳播將更有效果。大眾傳播是粗放型、廣種薄收的傳播,把所有的新聞信息向所有人傳播,缺乏針對性、精確度。受眾必須從眾多新聞信息中尋找自己需要的、感興趣的內(nèi)容。
新聞媒體自產(chǎn)生以來,都是以大眾傳播為主,綜合性報(bào)紙、綜合性的廣播電臺電視臺都是傳播界的王者。能做大做強(qiáng)的,都是面向大眾的綜合性媒體。大數(shù)據(jù)時(shí)代,情況將發(fā)生變化,人們上網(wǎng)瀏覽都會留下“足跡”——各種數(shù)字化記錄,即瀏覽數(shù)據(jù)。對一位受眾——固定 IP 地址或同一終端瀏覽器上的所有瀏覽數(shù)據(jù)或相當(dāng)長時(shí)間的瀏覽數(shù)據(jù)進(jìn)行分析,便可獲知其上網(wǎng)習(xí)慣、喜好等等,根據(jù)這些數(shù)據(jù),在最合適的時(shí)間以最恰當(dāng)?shù)姆绞较蛩扑妥罡信d趣的新聞,這就是精準(zhǔn)傳播、“長尾營銷”,這樣的新聞不僅不會被當(dāng)做垃圾,還很可能被定制。隨著大數(shù)據(jù)時(shí)代的發(fā)展,精準(zhǔn)傳播會越來越普及,越來越受歡迎。
(三)對新聞價(jià)值的影響
智能手機(jī)普及、社交媒體發(fā)達(dá),使得人人都是記者,手機(jī)便是媒體,新聞報(bào)道、信息發(fā)布已經(jīng)不再是媒體人的專利了。“我在現(xiàn)場”曾經(jīng)是傳媒業(yè)及其從業(yè)人員倍感驕傲的事情,時(shí)效性也成為業(yè)內(nèi)比拼最為激烈的指標(biāo)。大數(shù)據(jù)時(shí)代,聯(lián)網(wǎng)的網(wǎng)民和各種電子記錄設(shè)備(如攝像頭)散布在社會各個(gè)角落,不斷觀察和上傳實(shí)時(shí)情況,在經(jīng)過網(wǎng)民們的“分布式”集體選擇后,形成熱點(diǎn)新聞。甬溫動車事故,雅安地震,第一時(shí)間傳出來的消息都來自于事件現(xiàn)場的人的微博。都說明最有時(shí)效的新聞來自“在現(xiàn)場”的人,而不是“到現(xiàn)場”的人?!蔼?dú)家新聞”已經(jīng)成為了明日黃花,再也沒有媒體用時(shí)效性來標(biāo)榜自己。
更加具有顛覆性的是,應(yīng)用了大數(shù)據(jù)分析的網(wǎng)站如果能夠判斷哪些新聞更加符合大眾的口味,新聞價(jià)值將失去其意義,新聞編輯的新聞敏感性也將無用武之地。讀者喜歡什么樣的新聞,編輯所要做的就是按照大數(shù)據(jù)分析的結(jié)果去呈現(xiàn)那樣的新聞,只要“知其然”,無需“知其所以然”。只需要關(guān)注新聞?lì)愋秃妥x者的相關(guān)關(guān)系,無需花費(fèi)多余的精力深究因果關(guān)系。除非是要進(jìn)行學(xué)術(shù)研究。
(四)媒體數(shù)據(jù)庫
大數(shù)據(jù)時(shí)代,媒體要有強(qiáng)烈的數(shù)據(jù)意識,要善于收集數(shù)據(jù)、分析數(shù)據(jù)、使用數(shù)據(jù),挖掘數(shù)據(jù)的潛在用途。媒體業(yè)本身是信息產(chǎn)業(yè),并且是信息業(yè)的前沿,在大數(shù)據(jù)時(shí)代擁有先天優(yōu)勢。郵政行業(yè)有最全的地址數(shù)據(jù),淘寶網(wǎng)積累了10年來網(wǎng)購用戶交易和瀏覽記錄,新浪微博和人人網(wǎng)擁有了所有注冊用戶的人際關(guān)系網(wǎng)絡(luò)信息。媒體擁有天然的信息優(yōu)勢,每天都有難以計(jì)數(shù)的文字、圖片、視頻被創(chuàng)作出來,只不過這些信息沒有被數(shù)據(jù)化。很多傳統(tǒng)媒體紛紛觸網(wǎng),信息已經(jīng)很大程度上完成了數(shù)字化——即轉(zhuǎn)換成了可被電腦識別的二進(jìn)制信號,但是大數(shù)據(jù)時(shí)代,這些信息需要數(shù)據(jù)化——即變成可量化制表分析的過程,這樣,方能發(fā)揮大數(shù)據(jù)的核心威力:預(yù)測。
除了傳統(tǒng)的文字、圖片、視頻等數(shù)據(jù),媒體仍需拓寬自己的數(shù)據(jù)范圍。媒體不僅要有自己的采編隊(duì)伍,有自己的原創(chuàng)新聞、原創(chuàng)評論,還應(yīng)該圍繞自身優(yōu)勢建立一個(gè)數(shù)字化的平臺——一個(gè)互動的、社交化的、擁有廣泛人氣、能夠容納廣大網(wǎng)民上貼、交流、討論的平臺[4]。它可以匯聚各方信息,形成龐大的、擁有巨量信息與數(shù)據(jù)的平臺。
大量的數(shù)據(jù)也需要被妥善的利用,需要挖掘數(shù)據(jù)背后潛在的價(jià)值。消費(fèi)者信貸領(lǐng)域的一些公司考慮開發(fā)以Facebook社交圖譜為依據(jù)的信用評分,因?yàn)樗麄儼l(fā)現(xiàn):個(gè)人會償還債務(wù)的可能性和其朋友會償還債務(wù)的可能性成正相關(guān)?!吧缃痪W(wǎng)絡(luò)分析之父”貝爾納多哈柏曼的分析顯示,微博中單一主題出現(xiàn)的頻率可以用來預(yù)測好萊塢的票房收入,從而預(yù)測一部電影的成敗??梢哉f,數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋的冰山,第一眼只能看到冰山的一角,而絕大部分則隱藏在表面之下。
(五)對媒體功能的影響
媒體在做好社會記錄者與信息傳播者外,更應(yīng)定位成社會解讀者和分析預(yù)測者,深度解讀和去偽存真本是媒體的重要職責(zé),而大數(shù)據(jù)賦予的全面深刻的洞察恰好能為傳媒再添一雙慧眼。媒體數(shù)字化轉(zhuǎn)型正在進(jìn)行中,從采集、處理、儲存、傳播,完全地?cái)?shù)字化后,媒體產(chǎn)生的數(shù)據(jù)量將急速增大,成為大數(shù)據(jù)的重要生成與應(yīng)用行業(yè)。
大數(shù)據(jù)的核心思想是預(yù)測,是用數(shù)學(xué)算法來分析數(shù)據(jù),預(yù)測事物發(fā)生的可能性。奈飛(Netflix)是一家在線電影租賃公司,通過記錄分析用戶的搜索和使用記錄,分析前后數(shù)據(jù)的相關(guān)性,從而了解用戶的喜好,推薦后續(xù)產(chǎn)品。亞馬遜則是依據(jù)類似的原理推薦書籍等產(chǎn)品。
大數(shù)據(jù)應(yīng)用到新聞?lì)I(lǐng)域,必然利用其最核心的競爭力——預(yù)測,相比于數(shù)據(jù)新聞學(xué),預(yù)測新聞學(xué)更有可能大行其道。數(shù)據(jù)新聞的精髓或許在于將傳統(tǒng)的新聞敏感和使用數(shù)字信息講述一則好故事的能力相結(jié)合而帶來新的可能性, 這些可能性會出現(xiàn)在新聞報(bào)道的任何一個(gè)階段[5]。預(yù)測新聞是根據(jù)事物發(fā)展現(xiàn)階段的影響要素和特點(diǎn),對事物發(fā)展的規(guī)律和走向,進(jìn)行判斷和推測的一種報(bào)道[6]。數(shù)據(jù)新聞學(xué)把數(shù)據(jù)作為一種新聞要素,輔助新聞的表達(dá),使得新聞更具有可讀性、可信性,可以增加新聞的深度。新聞本身是一門社會科學(xué),相比較于自然科學(xué),有其模糊性。但是,如果合理的利用大數(shù)據(jù),將數(shù)據(jù)化的新聞信息進(jìn)行分析,得出事物發(fā)展的趨勢,社會變遷的方向。對這樣的趨勢、方向的報(bào)道無疑和預(yù)測報(bào)道更加的相像。
在專業(yè)性比較強(qiáng)的報(bào)道,如體育、財(cái)經(jīng),大數(shù)據(jù)更能施展其預(yù)測的功能。如同在電影《點(diǎn)球成金》里面,棒球星探在統(tǒng)計(jì)學(xué)家面前相形見絀——直覺的判斷被迫讓位于精準(zhǔn)的數(shù)據(jù)分析。對賽事結(jié)果的預(yù)測,對經(jīng)濟(jì)衰退的預(yù)警,甚至地震預(yù)測也能真正讓人們提前有所防備。這一切幾乎是思維的全新的轉(zhuǎn)變,將迫使人們調(diào)整在管理、決策和教育方面的傳統(tǒng)理念。
(六)媒體從業(yè)人員需要新的技能
大數(shù)據(jù)時(shí)代,傳媒業(yè)還要避己之弱,補(bǔ)足自身發(fā)展的短板。大數(shù)據(jù)時(shí)代要求人們具備三種能力:數(shù)學(xué)運(yùn)算與建模的能力、網(wǎng)絡(luò)工程與分析能力、能夠洞見事物本質(zhì)的能力。麥肯錫咨詢公司報(bào)告預(yù)測,到 2018 年,僅美國將面臨 14 萬到 19 萬高級數(shù)據(jù)分析師短缺的情形。中國的短缺情況應(yīng)相去不遠(yuǎn)。但是,專業(yè)的工程師、數(shù)據(jù)挖掘師擅長數(shù)據(jù)處理技術(shù),對國情、社會及社會問題、對政治經(jīng)濟(jì)的了解卻并非長項(xiàng)。傳媒從業(yè)者與人與社會打交道,以整個(gè)社會為思考對象,對人對事有特殊的洞察力,因此媒體需著力培養(yǎng)數(shù)據(jù)時(shí)代的媒體專家:讓編輯記者盡快了解大數(shù)據(jù),掌握基本的機(jī)器學(xué)習(xí)、各種算法及數(shù)據(jù)分析方法,懂得用大數(shù)據(jù)技術(shù)分析解剖社會問題,分析處理民眾關(guān)注的社會熱點(diǎn)、難點(diǎn)、焦點(diǎn)問題;讓數(shù)據(jù)工程師熟悉社會、了解社會,認(rèn)清國情,增強(qiáng)政治辨識能力,培養(yǎng)社會洞察力,擁有這樣一批“全才”,傳媒業(yè)才有更大的發(fā)展?jié)摿Α?/p>
三、負(fù)面影響:隱私
大數(shù)據(jù)帶來的變革毋庸置疑,但是這一切都是建立在正確利用它的基礎(chǔ)上。換個(gè)角度想一想,我們每天都暴露在“第三只眼”之下:淘寶、亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌、百度監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽了我們心目中的“TA”,還有我們的社交網(wǎng)絡(luò)。
《竊聽風(fēng)暴》是這樣一部電影:1984年,全東德百姓被一百萬國家秘密警察(蓋世太保)控制著,國家安全局的竊聽手段像《1984》中的電幕系統(tǒng)一樣掌握和控制著人民的思想?!澳阒荒茉谶@樣的假定下生活——從已經(jīng)成為本能的習(xí)慣出發(fā),你早已這樣生活了:你發(fā)出的每一個(gè)聲音,都是有人聽到的,你作的每一個(gè)動作,除非在黑暗中,都是有人仔細(xì)觀察的?!?/p>
現(xiàn)在這一切好像又要重演。一旦這些數(shù)據(jù)落入了不法之徒手中,后果不堪設(shè)想。當(dāng)所有的信息都已經(jīng)在數(shù)據(jù)庫里面的時(shí)候,有意識的避免某些信息就是此地?zé)o銀三百兩。谷歌街景在采集道路和房屋的圖像的數(shù)據(jù)的時(shí)候,遭到了很多人的反對,因?yàn)槊癖娬J(rèn)為這些圖片會幫助盜賊選擇有利的目標(biāo)。于是,谷歌將不同意的業(yè)主的房屋和花園的照片模糊化的時(shí)候,起到了反作用,對盜賊來說,反而暴露了目標(biāo)[7]。
而且,在大數(shù)據(jù)時(shí)代,匿名化也是不可行的。在新聞報(bào)道的時(shí)候,可以用化名取代真實(shí)的人物,但是,其他的數(shù)據(jù),時(shí)間、地點(diǎn)、事件的細(xì)節(jié)必須保持真實(shí)。只要有足夠的數(shù)據(jù),很容易將范圍縮小到唯一的目標(biāo)身上。匿名化與大數(shù)據(jù)同時(shí)存在幾乎成了一個(gè)悖論。
本文開頭的時(shí)候談到的《少數(shù)派報(bào)告》中,僅僅根據(jù)某人又犯罪的傾向就對他經(jīng)行懲罰,違背了法律或者公平的基石——無罪推定原則。因?yàn)槲覀儽蛔肪控?zé)任,居然是為了我們永遠(yuǎn)都不會實(shí)施的行為。雖然這僅僅是電影,但是依然可以窺見大數(shù)據(jù)在未來給我們帶來的道德和倫理的挑戰(zhàn)。
大數(shù)據(jù)并不是一個(gè)充斥著算法和機(jī)器的冰冷的世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助時(shí)暫時(shí)的,更好的方法和答案還在不遠(yuǎn)的未來。
參考文獻(xiàn):
[1] 艾字節(jié),一般記作EB,等于260字節(jié).下文出現(xiàn)的拍字節(jié),一般記作PB,等于250字節(jié),澤字節(jié),一般記作ZB,等于270字節(jié).
[2] (英)維克托邁爾·舍恩伯格,肯尼斯庫克耶.大數(shù)據(jù)時(shí)代—生活、工作于思維的大變革[M].杭州:浙江人民出版社,2013.
[3] 閆城榛,宋迪.“大數(shù)據(jù)”時(shí)代或?qū)⒁瑐髅桨l(fā)展新格局[J].中國傳媒科技,2012(19).
[4] 官建文,劉揚(yáng),劉振興.大數(shù)據(jù)時(shí)代對于傳媒業(yè)意味著什么[J].新聞戰(zhàn)線,2013(2).
[5] 李希光,張小婭.大數(shù)據(jù)時(shí)代的新聞學(xué)[J].新聞傳播,2013(1).
[6] 趙晨.預(yù)測新聞:媒體競爭的新利器[J].新聞傳播,2010(6).
[7] 羅錦莉.大數(shù)據(jù)時(shí)代下,尷尬的用戶隱私[J].金融科技時(shí)代,2012(12).
[8] 徐國祥.統(tǒng)計(jì)預(yù)測與決策[M].上海:上海財(cái)經(jīng)大學(xué)出版社,1994.