彭 蘭
(中國(guó)人民大學(xué) 新聞學(xué)院,北京 100872)
數(shù)據(jù)新聞是近年來業(yè)界的一個(gè)熱門話題,而一個(gè)詩意的表達(dá)是,它是數(shù)據(jù)與新聞的相遇。盡管這樣的表達(dá)聽上去很美,但是,它帶來的,也許是一場(chǎng)嚴(yán)峻的洗禮。
數(shù)據(jù)新聞,也可以稱為數(shù)據(jù)驅(qū)動(dòng)的新聞,這個(gè)概念的正式提出,在2009年前后。
數(shù)據(jù)新聞?dòng)浾吣啤趥惼?Mirko Lorenz)對(duì)數(shù)據(jù)新聞的定義是,數(shù)據(jù)新聞是一個(gè)工作流程,它意味著深入到數(shù)據(jù)之中,對(duì)數(shù)據(jù)進(jìn)行清洗、結(jié)構(gòu)化,為特定目標(biāo)進(jìn)行數(shù)據(jù)過濾,以及通過可視化來完成報(bào)道。①Lorenz,Mirko.Data driven journalism:What is there to learn,http://www.slideshare.net/mirkolorenz/datadriven-journalismwhat-is-there-to-learn他的定義不僅說明了數(shù)據(jù)新聞的特點(diǎn),也概括了數(shù)據(jù)新聞的基本流程。
維基百科對(duì)于數(shù)據(jù)新聞的界定是,數(shù)據(jù)新聞指對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分析、過濾與加工,在此基礎(chǔ)上形成新聞報(bào)道。維基百科還提及了國(guó)外研究者的一個(gè)代表性觀點(diǎn),那就是數(shù)據(jù)新聞越來越多地建立在可以免費(fèi)獲得亦即開放的互聯(lián)網(wǎng)數(shù)據(jù)基礎(chǔ)上,利用開源工具進(jìn)行處理。②http://en.wikipedia.org/wiki/Data_driven_journalism盡管維基百科對(duì)于數(shù)據(jù)新聞的界定并非是最準(zhǔn)確的,它提到的“大規(guī)?!?、“開放”、“開源工具”等也不一定是數(shù)據(jù)新聞的必備元素,但是,維基百科中關(guān)于數(shù)據(jù)新聞的定義,體現(xiàn)了近年來大數(shù)據(jù)技術(shù)背景下業(yè)界、研究界對(duì)數(shù)據(jù)新聞的一些新的認(rèn)識(shí)。
盡管數(shù)據(jù)新聞這一概念近年來才出現(xiàn),但是多數(shù)研究者認(rèn)為,數(shù)據(jù)新聞的源頭可以追溯到20 世紀(jì)中期在美國(guó)出現(xiàn)的計(jì)算機(jī)輔助報(bào)道。1952年,CBS已經(jīng)采用計(jì)算機(jī)輔助報(bào)道的手段來預(yù)測(cè)美國(guó)大選的結(jié)果,20 世紀(jì)60年代后,在美國(guó),調(diào)查報(bào)道記者通過對(duì)公共數(shù)據(jù)庫的信息的分析來發(fā)現(xiàn)新聞線索也變得普遍。而公共服務(wù)類新聞,也在利用計(jì)算機(jī)作為輔助手段來預(yù)測(cè)趨勢(shì)、告知常識(shí),或者揭露政府或私人企業(yè)的不端行為。數(shù)據(jù)新聞的先驅(qū)者之一北卡羅來納大學(xué)教堂山分校的菲利普·梅耶(Philip Meyer)曾通過對(duì)1967年底特律騷亂中相關(guān)材料進(jìn)行數(shù)據(jù)分析得出判斷,認(rèn)為這場(chǎng)騷亂的參與者并非都是文化程度低的南方人。而20 世紀(jì)80年代比爾·戴得曼(Bill Dedman)的報(bào)道“金錢的顏色”,則揭露了美國(guó)主要金融機(jī)構(gòu)在貸款政策方面的種族歧視問題。斯蒂夫·道伊格(Steve Doig)在“哪出了錯(cuò)”的報(bào)道中,通過對(duì)20 世紀(jì)90年代初期發(fā)生的安德魯颶風(fēng)造成的破壞模式的分析,揭示出城市開發(fā)的政策和進(jìn)程帶來的影響。①http://datajournalismhandbook.org/1.0/en/introduction_4.html
在美國(guó)新聞界的一種看法是,數(shù)據(jù)新聞與計(jì)算機(jī)輔助報(bào)道是不同的,計(jì)算機(jī)輔助報(bào)道主要是把數(shù)據(jù)的收集與分析作為提高報(bào)道能力的一種手段,而數(shù)據(jù)新聞則把主要注意力放在數(shù)據(jù)上,也就是把數(shù)據(jù)作為一種核心要素而不是一種附加手段。當(dāng)然,也有人認(rèn)為,這兩者并沒有本質(zhì)區(qū)別。①http://datajournalismhandbook.org/1.0/en/introduction_4.html
在美國(guó),20世紀(jì)70年代初期,還出現(xiàn)了計(jì)算機(jī)輔助報(bào)道相似的另一個(gè)詞“精確新聞”,其目標(biāo)是將社會(huì)科學(xué)與行為科學(xué)的研究方法引入到新聞采訪報(bào)道中。這一概念的提出者菲利普·梅耶認(rèn)為,記者要更好的保證新聞的客觀性和真實(shí)性的話,就需要掌握更多的數(shù)據(jù)收集和分析的能力。①http://datajournalismhandbook.org/1.0/en/introduction_4.html盡管與數(shù)據(jù)新聞?dòng)兄欢ǖ难夑P(guān)系,但精確新聞也并不等于數(shù)據(jù)新聞。
在國(guó)內(nèi),與數(shù)據(jù)新聞常常在一起使用的是數(shù)據(jù)可視化和信息圖表這兩個(gè)詞,甚至有些時(shí)候它們會(huì)被當(dāng)作同義詞,但這幾者實(shí)質(zhì)上還是有區(qū)別的。
《紐約時(shí)報(bào)》阿隆·菲爾霍夫(Aron Pilhofer)認(rèn)為,數(shù)據(jù)新聞是一個(gè)概括性術(shù)語,它包括了在持續(xù)發(fā)展著的一整套新聞敘事的工具、技巧與方法,涵蓋了從傳統(tǒng)的計(jì)算機(jī)輔助報(bào)道(使用數(shù)據(jù)作為“信息源”)到最前沿的數(shù)據(jù)可視化和新聞應(yīng)用等。②http://datajournalismhandbook.org/1.0/en/introduction_2.html
我個(gè)人對(duì)他關(guān)于數(shù)據(jù)新聞的這樣一個(gè)界定是認(rèn)同的。如果基于這樣一個(gè)認(rèn)識(shí),我們可以看出,數(shù)據(jù)新聞涵蓋了新聞生產(chǎn)的一整套流程,數(shù)據(jù)可視化只是這個(gè)流程中的一個(gè)環(huán)節(jié)。一切利用數(shù)據(jù)來發(fā)現(xiàn)新聞、呈現(xiàn)新聞要素、解釋新聞的手段和形式,都可以稱之為數(shù)據(jù)新聞。但它并不一定要求結(jié)果的“可視化”。
而數(shù)據(jù)可視化,則需要兩個(gè)要素,一是可以被用于分析的數(shù)據(jù),二是其形象化的呈現(xiàn),目前在數(shù)據(jù)可視化領(lǐng)域所處理的數(shù)據(jù),主要包括數(shù)值型數(shù)據(jù)(即我們通常所說的數(shù)字)、文本型的數(shù)據(jù)以及“關(guān)系”(例如社會(huì)化媒體中人們的相互關(guān)注關(guān)系、信息轉(zhuǎn)發(fā)關(guān)系,企業(yè)間的合作關(guān)系、投資關(guān)系等)。數(shù)據(jù)可視化往往需要借助一些專業(yè)軟件。數(shù)據(jù)可視化雖然在新聞?lì)I(lǐng)域得到更多的關(guān)注,但顯然,它不僅僅用于新聞?lì)I(lǐng)域。支付寶提供的個(gè)人賬單,已經(jīng)可視化。類似的,在商業(yè)領(lǐng)域里,數(shù)據(jù)可視化手段必然會(huì)日益普及。
信息圖表與數(shù)據(jù)可視化有交集,但兩者也不等同。信息圖表包括一切將信息或數(shù)據(jù)形象化、可視化的手段。根據(jù)道格·紐瑟姆(Doug Newsom)的概括,作為視覺化工具的信息圖表包括:圖表(chart),圖解(diagram),圖形(graph),表格(table),地圖(map)和列表(list)等。③《信息圖表設(shè)計(jì)的概念與歷史》,參見http://www.douban.com/group/topic/16410517/。這些形象化的呈現(xiàn),并不一定都要以數(shù)據(jù)的分析與加工為前提。目前在國(guó)內(nèi)流行的“圖解”類信息圖表,只是將文字符號(hào)簡(jiǎn)單地轉(zhuǎn)換成形象易懂的圖形符號(hào),很多都并不能稱之為純粹的數(shù)據(jù)可視化作品。因此,信息圖表在某種意義上是一個(gè)比數(shù)據(jù)可視化涵蓋范圍更廣的概念。但在本文中提到的信息圖表,主要指基于數(shù)據(jù)可視化技術(shù)形成的信息圖表。
盡管數(shù)據(jù)新聞、數(shù)據(jù)可視化和信息圖表三者有一些區(qū)別,但在現(xiàn)實(shí)中,的確難以在它們之界劃出一條清晰界線。
利用新媒體技術(shù),今天的數(shù)據(jù)可視化或信息圖表作品,還可以實(shí)現(xiàn)更多的交互性,用戶的鼠標(biāo)可以成為探索深層信息的工具,也就是說,在信息圖表中隱藏著一些信息,它們可以通過鼠標(biāo)的動(dòng)作觸發(fā)出來,這是為了在保持頁面清爽的前提下,給用戶提供更豐富的信息。甚至在一些個(gè)性化的交互式作品中,每一個(gè)用戶都可以將自己的相關(guān)數(shù)據(jù)輸入進(jìn)去,從信息圖表里獲得個(gè)性化的數(shù)據(jù)處理結(jié)果,信息圖表變成了一種工具。
一些數(shù)據(jù)可視化或信息圖表,也在與動(dòng)畫結(jié)合起來。例如,群邑公司制作的《指尖上的中國(guó)》系列,在國(guó)內(nèi)網(wǎng)民中受到廣泛關(guān)注。這個(gè)系列將中國(guó)移動(dòng)互聯(lián)網(wǎng)發(fā)展的相關(guān)數(shù)據(jù)及圖表,通過動(dòng)畫的形式呈現(xiàn)出來,信息圖表的動(dòng)態(tài)化展現(xiàn),可以給人留下更深刻的印象。
在某種意義上,數(shù)據(jù)新聞、信息圖表與融合報(bào)道也有一定的關(guān)聯(lián)。數(shù)據(jù)新聞和信息圖表可以是融合報(bào)道的一個(gè)構(gòu)成部分,也可以成為一個(gè)融合性報(bào)道的完整載體,因?yàn)榻换ナ叫畔D表本身具有整合信息的功能,例如,時(shí)間線這樣的信息圖表,既可以基于時(shí)間線索展示事物發(fā)展過程,也可以將成百上千的各種形式的報(bào)道整合在時(shí)間的坐標(biāo)上。融合報(bào)道的核心,是將多種形式的報(bào)道內(nèi)容在深層結(jié)合起來,而信息圖表這個(gè)框架往往具有這樣的優(yōu)勢(shì)。
無論給相關(guān)實(shí)踐或作品貼上什么樣的標(biāo)簽,將數(shù)據(jù)作為新聞報(bào)道的資源甚至是核心資源,用數(shù)據(jù)思維來進(jìn)行新聞報(bào)道,已經(jīng)是大勢(shì)所趨。
在國(guó)外,英國(guó)《衛(wèi)報(bào)》和美國(guó)《紐約時(shí)報(bào)》在數(shù)據(jù)新聞方面的探索,被認(rèn)為代表了今天媒體在這個(gè)領(lǐng)域的最高水平。
2009年,英國(guó)《衛(wèi)報(bào)》的西蒙·羅杰斯(Simon Rogers)開辦了《衛(wèi)報(bào)》的數(shù)據(jù)博客(Guardian Datablog)。最初,這個(gè)博客主要是提供《衛(wèi)報(bào)》新聞報(bào)道背后的相關(guān)數(shù)據(jù)。后來,它的內(nèi)容日益豐富,今天它已經(jīng)包括多種數(shù)據(jù)資源、各種案例、數(shù)據(jù)新聞的工具及教程以及與數(shù)據(jù)新聞相關(guān)的各種資訊。
2012年在首先在互聯(lián)網(wǎng)上推出的《數(shù)據(jù)新聞手冊(cè)》(http://datajournalismhandbook.org/1.0),是數(shù)據(jù)新聞?lì)I(lǐng)域的一個(gè)重要研究成果,同時(shí)也是這個(gè)領(lǐng)域一個(gè)重要的協(xié)作生產(chǎn)與分享平臺(tái)。雖然從名稱上來看,這是一部傳統(tǒng)的書籍,但本質(zhì)上它是一個(gè)基于眾包模式的、可以不斷更新的在線項(xiàng)目,參與者通過谷歌在線文檔完成協(xié)作式寫作,參與者來自英國(guó)《衛(wèi)報(bào)》、BBC、《金融時(shí)報(bào)》、美國(guó)的《紐約時(shí)報(bào)》《華盛頓郵報(bào)》、美國(guó)獨(dú)立新聞機(jī)構(gòu)ProPublica、德國(guó)Zeit在線等。這樣一個(gè)項(xiàng)目的創(chuàng)意來自2011年在倫敦召開的MozFest 2011 會(huì)議,在歐洲新聞學(xué)中心和開放知識(shí)基金會(huì)的倡導(dǎo)下,十幾位富有經(jīng)驗(yàn)的數(shù)據(jù)新聞實(shí)踐者在網(wǎng)絡(luò)中參與了這樣一個(gè)協(xié)作寫作項(xiàng)目。①《協(xié)作、開放、免費(fèi)、全球——薦《數(shù)據(jù)新聞手冊(cè)》,http://www.neweyeshot.cn/archives/10575其電子版于2012年4 月底上線,其紙質(zhì)版將由O’Reilly 出版,而不同語言版本的翻譯也由各國(guó)志愿者完成,其中包括中文版。
與傳統(tǒng)的新聞報(bào)道相比,數(shù)據(jù)新聞在很多方面,都有自己特定的規(guī)程,它是一個(gè)新的信息采集與加工過程。
研究者保羅·布拉德肖(Paul Bradshaw)曾提出了數(shù)據(jù)新聞的倒金字塔結(jié)構(gòu),如圖1,這個(gè)結(jié)構(gòu)概括了數(shù)據(jù)新聞所需要的幾個(gè)步驟:②The inverted pyramid of data?journalism,http://onlinejournalismblog.com/2011/07/07/the -inverted -pyramid -of -data -journalism/
圖1 數(shù)據(jù)新聞的倒金字塔結(jié)構(gòu)
(1)數(shù)據(jù)的收集(Compile):通過各種途徑收集相關(guān)數(shù)據(jù)。
(2)數(shù)據(jù)清洗(Clean):數(shù)據(jù)的清洗通常包括兩個(gè)方面,去除人為的錯(cuò)誤,以及進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換以便進(jìn)行相應(yīng)處理。
(3)了解數(shù)據(jù)的背景(Context):就像對(duì)待其他信息一樣,對(duì)于數(shù)據(jù),我們也需要了解數(shù)據(jù)是由什么人在什么時(shí)間什么樣的情況下采集的,數(shù)據(jù)收集的方法是什么,此外還需要了解與數(shù)據(jù)有關(guān)的術(shù)語,清楚數(shù)據(jù)的含義。在這一前提下,還需要了解此數(shù)據(jù)的背景數(shù)據(jù),以便更大的背景下進(jìn)行分析,例如,僅僅了解一個(gè)城市當(dāng)前的犯罪案件的數(shù)據(jù)是不夠的,還需要把它放在這個(gè)城市的人口數(shù)據(jù)或警察局的數(shù)量等背景之下,或者與五年前的犯罪數(shù)據(jù)進(jìn)行對(duì)比。
(4)數(shù)據(jù)的結(jié)合(Combine):將兩個(gè)不同系列的數(shù)據(jù)結(jié)合起來,往往可以發(fā)現(xiàn)更多深層問題,例如當(dāng)一個(gè)數(shù)據(jù)系列與地圖這樣的數(shù)據(jù)結(jié)合時(shí),那么基于空間的數(shù)據(jù)分布規(guī)律將更加一目了然。
經(jīng)過以上這四個(gè)步驟,數(shù)據(jù)里的雜質(zhì)越來越少,所以從數(shù)據(jù)量來看,這是一個(gè)倒金字塔式的結(jié)構(gòu)。最終,經(jīng)過篩選、加工的數(shù)據(jù)需要進(jìn)行傳播(Communicate),即通過各種可視化手段,將數(shù)據(jù)的結(jié)果呈現(xiàn)出來。
數(shù)據(jù)的收集是數(shù)據(jù)新聞面臨的首要挑戰(zhàn)。盡管數(shù)據(jù)新聞來源本身十分廣泛:新聞?dòng)浾咦约翰稍L、調(diào)查獲得的數(shù)據(jù),研究機(jī)構(gòu)提供的研究數(shù)據(jù),網(wǎng)絡(luò)用戶的各種行為數(shù)據(jù)、搜索引擎產(chǎn)生的數(shù)據(jù)、社會(huì)化媒體的內(nèi)容以及其他網(wǎng)絡(luò)公共資源,各種政府機(jī)構(gòu)或組織、企業(yè)等發(fā)布的公開數(shù)據(jù)等,都可以成為數(shù)據(jù)新聞的資源。
另一方面,今天的數(shù)據(jù)新聞還需要更多地利用網(wǎng)民的力量來進(jìn)行數(shù)據(jù)的收集?!缎l(wèi)報(bào)》在很多時(shí)候會(huì)將其讀者轉(zhuǎn)化為數(shù)據(jù)的采集者。西蒙·羅杰斯接受采訪時(shí)說,“如果現(xiàn)在有一個(gè)有意思的項(xiàng)目,我們需要人來錄入數(shù)據(jù),就可以讓讀者幫助我們。這是我們?cè)谡{(diào)查國(guó)會(huì)議員開銷時(shí)所采用的方法。當(dāng)時(shí)有45 萬個(gè)文件,但時(shí)間非常少,幾乎干不了什么事情。那除了向讀者開放項(xiàng)目,還能有什么更好的方法么?”①《<衛(wèi)報(bào)>數(shù)據(jù)博客的眾包式數(shù)據(jù)》,http://datajournalismhandbook.org/chinese/getting_data_5.html
除了利用眾包的方式讓網(wǎng)民參與媒體數(shù)據(jù)的生產(chǎn)外,用戶的“自我數(shù)據(jù)化”,也是數(shù)據(jù)新聞越來越重要的數(shù)據(jù)來源。這種自我數(shù)據(jù)化,既可以表現(xiàn)為用戶通過各種網(wǎng)絡(luò)平臺(tái)主動(dòng)發(fā)布的與自己的生活狀況、意見態(tài)度、情緒等有關(guān)的內(nèi)容數(shù)據(jù),也表現(xiàn)為被各種新媒體平臺(tái)記錄下來的用戶的各種行為數(shù)據(jù)。這些行為數(shù)據(jù),是持續(xù)的、相對(duì)準(zhǔn)確的,更重要的是,個(gè)體數(shù)據(jù)可以匯聚為整體數(shù)據(jù)?!白晕覕?shù)據(jù)化”、“個(gè)體行為數(shù)據(jù)化”,為數(shù)據(jù)新聞,打開了一個(gè)全新的空間。
2014年春節(jié)期間,百度推出了“百度遷徙”項(xiàng)目,它通過對(duì)用戶手機(jī)的GPS 定位數(shù)據(jù)的收集與整理,將分散的個(gè)體用戶的遷徙軌跡聚合起來,呈現(xiàn)出春運(yùn)期間中國(guó)人口流動(dòng)的整體面貌。央視《晚間新聞》開設(shè)的《“據(jù)”說春運(yùn)》欄目,多次引用了“百度遷徙”的研究成果。這樣一種對(duì)春運(yùn)人口遷徙的全貌及其內(nèi)在規(guī)律的揭示,是過去傳統(tǒng)的新聞采訪報(bào)道無法企及的。
當(dāng)移動(dòng)終端以及物聯(lián)網(wǎng)的傳感器日益普及時(shí),人們的活動(dòng)將有更多的記錄方式,各種物體采集或發(fā)出的數(shù)據(jù)也越來越普遍,這將使數(shù)據(jù)新聞進(jìn)入一個(gè)全新的時(shí)代,在個(gè)性化的新聞以及預(yù)測(cè)性新聞報(bào)道方面,物聯(lián)網(wǎng)數(shù)據(jù)的應(yīng)用尤其值得關(guān)注。
要能完成數(shù)據(jù)新聞的全過程,新聞?dòng)浾咝枰恍┤碌哪芰Α?/p>
德國(guó)之聲的米爾科·洛倫茲(Mirko Lorenz)認(rèn)為,同數(shù)據(jù)打交道就如同踏入廣袤的未知領(lǐng)域。第一眼看過去,原始的數(shù)據(jù)令人眼花繚亂、頭腦混沌。這種繁雜的數(shù)據(jù),的確難以恰當(dāng)?shù)貙⑵淇梢暬K枰?jīng)驗(yàn)老到的記者,這些人擁有從混淆、乏味的原始數(shù)據(jù)中“看出”其中暗藏故事的能力。②《為何記者要運(yùn)用數(shù)據(jù)》,http://datajournalismhandbook.org/chinese/intro_1.html
菲利普·梅耶認(rèn)為,當(dāng)信息稀缺時(shí),我們主要的努力是尋找與收集信息,但現(xiàn)在信息已經(jīng)過載,對(duì)信息的處理就變得更為重要。對(duì)信息的處理包含兩個(gè)層面,其一是在奔騰不息的信息流中發(fā)現(xiàn)其中的意義和結(jié)構(gòu),其二是將那些與用戶有關(guān)的重要內(nèi)容呈現(xiàn)出來。像科學(xué)一樣,數(shù)據(jù)新聞?dòng)每芍貜?fù)驗(yàn)證的方式來披露自己的方法,展現(xiàn)其發(fā)現(xiàn)。③http://datajournalismhandbook.org/1.0/en/introduction_2.html
保羅·布拉德肖認(rèn)為,數(shù)據(jù)新聞起源于兩種可能,一是某些問題需要數(shù)據(jù)來闡釋,二是某些數(shù)據(jù)引發(fā)了某些問題。
結(jié)合各種研究者的觀點(diǎn),我們可以將從事數(shù)據(jù)新聞所需要的能力大致分為兩大方面:
其一是用數(shù)據(jù)來發(fā)現(xiàn)問題、揭示意義的能力,這種能力需要建立在新的思維基礎(chǔ)上,而思維的關(guān)鍵是關(guān)系思維。因?yàn)閱栴}與意義的發(fā)現(xiàn),往往是基于對(duì)數(shù)據(jù)關(guān)系的揭示。
其二是用數(shù)據(jù)來承載、表現(xiàn)新聞的能力,其重點(diǎn)是可視化表達(dá)的能力。
保羅·布拉德肖在數(shù)據(jù)新聞的倒金字塔結(jié)構(gòu)中提到的第四個(gè)階段“數(shù)據(jù)的結(jié)合”,對(duì)于數(shù)據(jù)新聞來說至關(guān)重要,而數(shù)據(jù)的結(jié)合,本質(zhì)上,是發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。
數(shù)據(jù)之間的關(guān)系,是事物之間關(guān)系的一種表現(xiàn)形式。數(shù)據(jù)關(guān)系的揭示,對(duì)于新聞的深層發(fā)現(xiàn),具有重要意義。
1.在數(shù)據(jù)關(guān)系中探究背景及原因
盡管大數(shù)據(jù)時(shí)代一種代表性觀點(diǎn)是,因果關(guān)系不再重要,相關(guān)性的挖掘才是重點(diǎn)。但是在數(shù)據(jù)新聞里,因果關(guān)系的挖掘不僅存在,而且仍然是很重要的。因?yàn)樾侣剤?bào)道的任務(wù),不僅僅是告訴人們發(fā)生了什么,還要告訴人們這些事為什么發(fā)生,而原因的揭示,往往就是因果關(guān)系的發(fā)現(xiàn)。
在某些時(shí)候,相關(guān)性分析實(shí)際上也是揭示因果關(guān)系的基礎(chǔ)。
2011年8 月英國(guó)發(fā)生全國(guó)性騷亂,當(dāng)時(shí)英國(guó)首相卡梅隆的觀點(diǎn)是,貧困并非導(dǎo)致騷亂的主要原因。但在騷亂發(fā)生后,英國(guó)《衛(wèi)報(bào)》啟動(dòng)了一個(gè)名為“解讀騷亂”的項(xiàng)目,這個(gè)項(xiàng)目的目標(biāo)是通過數(shù)據(jù)收集及相關(guān)分析手段,對(duì)騷亂產(chǎn)生的原因及影響進(jìn)行深層研究。項(xiàng)目組在他們搜集的法庭數(shù)據(jù)基礎(chǔ)上完成了一個(gè)對(duì)比性的信息圖表“貧富因素與騷亂”①參見http://www.guardian.co.uk/news/datablog/2011/aug/16/riots-poverty-map-suspects,在一張顯示各個(gè)地區(qū)貧富等級(jí)的英國(guó)地圖上,2 000 多個(gè)騷亂參與者的家庭住址被標(biāo)識(shí)出來,從圖中可以清楚地看到,騷亂參與者絕大多數(shù)居住在英國(guó)的貧困地區(qū)。當(dāng)騷亂參與者家庭住址這樣的數(shù)據(jù)與展現(xiàn)貧富等級(jí)的地圖數(shù)據(jù)兩者被關(guān)聯(lián)起來后,貧富因素與騷亂之間的關(guān)聯(lián),也得到了揭示。
從表面上看,這個(gè)案例揭示的是生活區(qū)域的貧富狀況與騷亂參與行為之間的相關(guān)性,但這個(gè)相關(guān)性的證實(shí),為證明貧富因素對(duì)騷亂的影響提供了依據(jù)。
2.在數(shù)據(jù)關(guān)系中梳理共性
再優(yōu)秀的記者,在傳統(tǒng)的新聞采訪手段和方法之下,也往往只能聚焦于一個(gè)事物的某個(gè)側(cè)面或某個(gè)局部,在這個(gè)“點(diǎn)”上進(jìn)行深入的開掘,盡管對(duì)全局狀態(tài)及普遍規(guī)律的揭示是媒體的目標(biāo),但很多時(shí)候,心有余而力不足,而今天的數(shù)據(jù),卻在這方面展現(xiàn)了新的可能。
數(shù)據(jù)可以幫助我們將分散的個(gè)體、孤立的現(xiàn)象之間的共性或共同規(guī)律挖掘與呈現(xiàn)出來,這同樣有賴于對(duì)數(shù)據(jù)本身關(guān)系的分析。
關(guān)于諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)叩男畔D表“諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)叩囊?guī)律”(Nobels,no degrees)②具體圖表參見:https://www.behance.net/gallery/14159439/Nobel-no-degrees正是這方面的一個(gè)范例。這個(gè)作品在名為“信息是美的”信息圖表設(shè)計(jì)大賽的2013年評(píng)獎(jiǎng)中獲得數(shù)據(jù)可視化金獎(jiǎng),它通過對(duì)1901 -2012年間六大類諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)叩膫€(gè)人信息的數(shù)據(jù)梳理,幫助我們發(fā)現(xiàn)了獲獎(jiǎng)?wù)叩哪承┕餐卣鳌?/p>
這個(gè)看上去像樂譜的圖表,按照諾貝爾獎(jiǎng)的類別列出了六個(gè)時(shí)間線,線上每一個(gè)點(diǎn)代表一個(gè)獲獎(jiǎng)?wù)?,它們被定位在獲獎(jiǎng)的時(shí)間點(diǎn)上,而此時(shí)獲獎(jiǎng)?wù)叩哪挲g,也在圖中被標(biāo)識(shí)出來,從中可以看到獲獎(jiǎng)時(shí)集中的年齡段。在時(shí)間線的右端,列出了世界上最著名的七所大學(xué),通過指向這幾所學(xué)校的線條可以看出來,大多數(shù)獲獎(jiǎng)?wù)叨汲鲎赃@幾所名校。同時(shí),該類獲獎(jiǎng)?wù)叩膶W(xué)位構(gòu)成也在右側(cè)用條形圖進(jìn)行了統(tǒng)計(jì),從中可以看出,醫(yī)學(xué)獎(jiǎng)獲獎(jiǎng)?wù)叩牟┦勘壤秊?00%,而文學(xué)獎(jiǎng)和和平獎(jiǎng)的博士比例則較低,甚至很多人沒有學(xué)位。在六條時(shí)間線的下方,是對(duì)獲獎(jiǎng)出生地進(jìn)行的數(shù)據(jù)統(tǒng)計(jì),以30年為一個(gè)統(tǒng)計(jì)周期,在1901 -1930年間,出生于巴黎的獲獎(jiǎng)?wù)弑壤罡撸?931 -1960年間,出生于倫敦的獲獎(jiǎng)?wù)咦疃啵?961 -1990年,紐約出身的獲獎(jiǎng)?wù)哒剂松巷L(fēng),1991 -2012年,紐約繼續(xù)保持優(yōu)勢(shì)。這個(gè)出生地的比較圖顯示了20 世紀(jì)60年代后獲獎(jiǎng)?wù)邚臍W洲向美國(guó)轉(zhuǎn)移的動(dòng)向。
“信息是美的”數(shù)據(jù)可視化大獎(jiǎng)的銀獎(jiǎng)作品“如何贏得奧斯卡”③具體作品參見:http://djchina.org/2014/02/24/iib-awards-2013,也是同樣的思路,這一作品將1928年以來奧斯卡最佳男/女主角獲得者的獲獎(jiǎng)角色進(jìn)行了分析,從角色的性別、角色屬性(歷史人物還是虛構(gòu)人物)、角色出生地、故事發(fā)生的年代、角色的職業(yè)特點(diǎn)、是否有性場(chǎng)景、影片結(jié)束時(shí)角色是否還活著等若干個(gè)維度,總結(jié)出最有機(jī)會(huì)獲得奧斯卡獎(jiǎng)的角色特點(diǎn)。其發(fā)現(xiàn)是,一個(gè)虛構(gòu)的、來自北美地區(qū)的女性角色,故事發(fā)生在現(xiàn)在或不遠(yuǎn)的過去,在影片中沒有性場(chǎng)面,在影片結(jié)束時(shí)仍活著,其扮演者有更大的機(jī)會(huì)獲得奧斯卡最佳女主角獎(jiǎng)。盡管這樣的數(shù)據(jù)分析未必是準(zhǔn)確可靠的,但是這樣一種在設(shè)定的數(shù)據(jù)維度上進(jìn)行規(guī)律挖掘的思路,是具有借鑒意義的。
騰訊網(wǎng)的“中國(guó)發(fā)言人——外交部發(fā)言人表達(dá)可視化分析”(見下頁圖2)④信息圖表出處:http://news.qq.com/newspedia/attitude.htm,是目前國(guó)內(nèi)運(yùn)用數(shù)據(jù)思維進(jìn)行新聞發(fā)現(xiàn)和新聞呈現(xiàn)的一個(gè)范例。
這個(gè)作品以2009年2 月-2013年5 月間外交部網(wǎng)站1 000 余篇新聞為基礎(chǔ),對(duì)外交部歷任6 位發(fā)言人涉及16 項(xiàng)事務(wù)議題、涵蓋21 個(gè)國(guó)家和地區(qū)的回答進(jìn)行了數(shù)據(jù)分析。數(shù)據(jù)分析首先是對(duì)外交發(fā)言人經(jīng)常使用的不同屬性的詞語進(jìn)行詞頻分析,例如,贊同感謝類的詞語總共使用1 120 次,嚴(yán)重關(guān)切類的詞使用676 次。盡管詞頻分析的思路在今天的數(shù)據(jù)新聞中并不少見,但本專題在詞頻統(tǒng)計(jì)之外,更多地通過對(duì)詞語間的關(guān)聯(lián)、詞語出現(xiàn)的語境的分析挖掘,去揭示中國(guó)外交表態(tài)中的常見模式和內(nèi)在規(guī)律,例如,“嚴(yán)正交涉”一詞,經(jīng)常出現(xiàn)在臺(tái)灣事務(wù)、西藏事務(wù)、新疆事務(wù)、釣魚島等議題中,如果是與臺(tái)灣事務(wù)有關(guān),則經(jīng)常指向的是美國(guó)、日本兩個(gè)國(guó)家,如果是與西藏事務(wù)有關(guān),則指向美國(guó)、日本、印度、英國(guó)、歐盟等國(guó)家或地區(qū)。這樣一種數(shù)據(jù)挖掘,把外交部發(fā)言人的發(fā)言表態(tài)規(guī)律直觀地呈現(xiàn)在人們面前,此外,這個(gè)作品還提供了每月詞頻的統(tǒng)計(jì),將中國(guó)外交的階段性焦點(diǎn)以動(dòng)態(tài)的方式呈現(xiàn)在人們面前。這個(gè)可視化成果為人們理解今天中國(guó)的外交政策、外交格局提供了一個(gè)新穎的視角。
圖2 信息圖表“中國(guó)發(fā)言人——外交部發(fā)言人表達(dá)可視化分析”(局部)
3.在數(shù)據(jù)關(guān)系中探求模型
當(dāng)一些事物的共同規(guī)律變得日益明晰時(shí),一些不斷重復(fù)的行為或變化模式甚至可以上升到“模式”或“模型”的高度,這樣的模式或模型,不僅可以呈現(xiàn)或解釋當(dāng)下,也可以用于預(yù)測(cè)未來。
在BBC 拍攝的電視片《大數(shù)據(jù)時(shí)代》(The Age of Big Data)里,數(shù)據(jù)分析專家杰夫·布蘭丁漢姆指出,數(shù)學(xué)模型可以幫助我們理解事情的起因和演變過程,而人類的行為就像自然界一樣,是有規(guī)律可循的。幾位數(shù)據(jù)分析家通過對(duì)洛杉磯警察局1 300 多萬條犯罪記錄的分析,建立了這個(gè)地區(qū)犯罪的模型,基于這個(gè)模型的軟件可以幫助警察預(yù)測(cè)在某些地區(qū)知規(guī)律來看,人的大腦處理圖形、圖像等視覺符號(hào)的可能發(fā)生的犯罪。
微軟研究院的科學(xué)家埃里克·霍維茨(Eric Horvitz)與以色列理工大學(xué)的博士研究生奇拉·拉丁斯基(Kira Radinsky)合作的一項(xiàng)研究,是基于1986 -2008年間《紐約時(shí)報(bào)》的數(shù)據(jù)庫中的新聞報(bào)道,以及海量的互聯(lián)網(wǎng)數(shù)據(jù)源信息(例如維基百科、FreeBase、OpenCyc、GeoNames 的內(nèi)容等),研究過去幾十年間各種社會(huì)事件之間的關(guān)系,通過軟件對(duì)新聞事件蘊(yùn)含的規(guī)律的不斷分析,發(fā)現(xiàn)各種事件之間的關(guān)系與規(guī)律模式,這一模式為預(yù)測(cè)未來提供了可能,目前他們開發(fā)的軟件可以完成三個(gè)方面的預(yù)測(cè):對(duì)即將發(fā)生的大規(guī)模疾病做出預(yù)警;對(duì)死亡事件做出預(yù)警;對(duì)暴力事件做出預(yù)警。①常寧,《還真有軟件可以科學(xué)預(yù)測(cè)未來了?!》,http://www.tmtpost.com/16384.html與上面的兩個(gè)案例相比,谷歌基于用戶搜索數(shù)據(jù)的分析來預(yù)測(cè)流感爆發(fā)、電影票房等的案例,更為人們熟知。類似的預(yù)測(cè)技術(shù),也出現(xiàn)在百度。2014年百度推出的百度預(yù)測(cè)平臺(tái),先后推出了世界杯比賽結(jié)果的預(yù)測(cè)、高考作文題預(yù)測(cè)、高考志愿填報(bào)預(yù)測(cè)、疾病預(yù)測(cè)、熱門旅游城市預(yù)測(cè)、經(jīng)濟(jì)景氣指數(shù)預(yù)測(cè)。盡管這一系列的預(yù)測(cè)產(chǎn)品依據(jù)的數(shù)據(jù)來源不盡相同,其預(yù)測(cè)準(zhǔn)確程度也還有待提高,但是,在某些方面,基于數(shù)據(jù)的預(yù)測(cè)還是顯現(xiàn)出了初步的力量。例如,在世界杯期間,百度預(yù)測(cè)在小組賽階段預(yù)測(cè)準(zhǔn)確率為53.33%,1/8 決賽和1/4 決賽的預(yù)測(cè)準(zhǔn)確率達(dá)到100%,半決賽預(yù)測(cè)準(zhǔn)確率為50%,決賽結(jié)果預(yù)測(cè)準(zhǔn)確。與百度類似,微軟、谷歌對(duì)于世界杯比賽結(jié)果的預(yù)測(cè)也都是令人鼓舞的。
盡管上述案例都發(fā)生在媒體之外,今天的媒體在大規(guī)模地采用數(shù)據(jù)來進(jìn)行社會(huì)現(xiàn)象、經(jīng)濟(jì)走向等的分析預(yù)測(cè)方面,還存在著很多障礙,但是,未來媒體與技術(shù)公司之間在數(shù)據(jù)新聞方面的合作一定會(huì)大大加強(qiáng),媒體主要依賴專家進(jìn)行趨勢(shì)預(yù)測(cè)的方式將越來越多地被依賴數(shù)據(jù)和軟件的方式所替代。
在新聞發(fā)現(xiàn)階段的所有數(shù)據(jù)關(guān)系的分析與挖掘,最終還是需要通過相關(guān)技術(shù)來實(shí)現(xiàn)。數(shù)據(jù)關(guān)系思維,也是建立在對(duì)技術(shù)的了解與運(yùn)用基礎(chǔ)上的。
盡管數(shù)據(jù)新聞不等于數(shù)據(jù)可視化,數(shù)據(jù)新聞也未必一定要用可視化的圖形來呈現(xiàn),但是,從人的認(rèn)速度遠(yuǎn)遠(yuǎn)高于對(duì)文字處理的速度,因此,可視化的確是數(shù)據(jù)新聞的一種“快捷”呈現(xiàn)方式,其傳播效果通常要好于文字傳播效果。
一般情況下,我們關(guān)注可視化,總是關(guān)注其作為一種表現(xiàn)手段的應(yīng)用層面,但可視化,首先是一種思維,它與文字表達(dá)的思維有著很大的差異。
自稱為數(shù)據(jù)記者的大衛(wèi)·麥克坎德雷斯(David McCandless)在TED 演講中指出,圖形是一種語言,這種語言可以改變我們的認(rèn)知和觀點(diǎn)。①演講視頻參見:http://v.qq.com/page/7/A/q/7AxhsetMTAq.html
要掌握這樣一種新的“語言”,首先要完成思維方式的轉(zhuǎn)換。在思維方式轉(zhuǎn)換基礎(chǔ)上,尋找到合適的邏輯結(jié)構(gòu)與表現(xiàn)形式,并用相應(yīng)的技術(shù)來實(shí)現(xiàn)它。
1.新聞對(duì)象的數(shù)據(jù)化:可視化的基礎(chǔ)
目前的數(shù)據(jù)可視化有三個(gè)主要方向:
針對(duì)數(shù)值型數(shù)據(jù)的可視化??梢暬男问娇梢允秋瀳D、柱狀圖、折線圖等,它們的作用主要是顯示各個(gè)數(shù)據(jù)的量值,并進(jìn)行直觀比較,或展現(xiàn)其變化規(guī)律。
針對(duì)文本型數(shù)據(jù)的可視化。可視化結(jié)果可以是詞樹(Word Tree)、詞云(Word Cloud)、標(biāo)簽云(Tag Cloud)等,它們的作用主要是對(duì)文本的特征進(jìn)行直觀呈現(xiàn),如詞出現(xiàn)的頻率、出現(xiàn)的語境等。
針對(duì)關(guān)系類數(shù)據(jù)的可視化。事物、人或各種組織機(jī)構(gòu)的關(guān)系,都可以通過網(wǎng)絡(luò)圖(Network Diagram)等進(jìn)行呈現(xiàn)。
因此,要完成新聞的可視化加工,其基礎(chǔ)在于將具象的新聞對(duì)象,變成抽象的數(shù)據(jù)。新聞的“5 個(gè)W+1 個(gè)H”中,何人、何時(shí)、何地這三者本身就可以作為數(shù)據(jù)處理,但何事、如何、為何這些過去難以當(dāng)作數(shù)據(jù)看待的要素,以及復(fù)雜新聞報(bào)道中的背景揭示、影響分析等,如何轉(zhuǎn)換成數(shù)據(jù),則是具有挑戰(zhàn)性的問題。這些問題的解決不僅僅是可視化的基礎(chǔ),也是整個(gè)數(shù)據(jù)新聞流程的開端,在實(shí)際操作中,它往往是在數(shù)據(jù)收集之前就要進(jìn)行考慮的。
對(duì)于那些不能直接作為數(shù)據(jù)來處理的較為抽象的新聞要素或者概念化信息,可以考慮尋找其中一個(gè)或幾個(gè)可以用數(shù)據(jù)來呈現(xiàn)的具體元素,例如腐敗現(xiàn)象這個(gè)抽象的問題,往往與權(quán)錢交易有關(guān),其中的關(guān)系網(wǎng)絡(luò)、金錢數(shù)額,都是可以用數(shù)據(jù)來表現(xiàn)的。
2.邏輯結(jié)構(gòu):可視化的核心
有些可視化作品只有一個(gè)簡(jiǎn)單的圖表,而有些可視化作品則是一系列圖表的組合。無論是單一的圖表,還是圖表的組合,其內(nèi)在的邏輯結(jié)構(gòu)都是非常重要的。
正如菲利普·梅耶所說,數(shù)據(jù)新聞的一個(gè)重要價(jià)值,是在奔騰不息的信息流中發(fā)現(xiàn)其中的意義和結(jié)構(gòu)。數(shù)據(jù)表現(xiàn)及數(shù)據(jù)關(guān)聯(lián)的邏輯應(yīng)該就是結(jié)構(gòu)中的一部分。
對(duì)于那些數(shù)據(jù)對(duì)象相對(duì)單純、沒有復(fù)雜數(shù)據(jù)關(guān)系的數(shù)據(jù)新聞,可視化的重點(diǎn)是某個(gè)(或某幾個(gè))特定維度的數(shù)據(jù)呈現(xiàn)。數(shù)據(jù)基礎(chǔ)維度的選取,決定了可視化作品的展現(xiàn)邏輯,例如,基于時(shí)間維度的數(shù)據(jù)展現(xiàn),或基于空間維度的數(shù)據(jù)展現(xiàn)。
對(duì)于那些包含了多重?cái)?shù)據(jù)對(duì)象、數(shù)據(jù)之間存在各種關(guān)系的可視化作品來說,其核心就是將數(shù)據(jù)的結(jié)構(gòu)關(guān)系揭示出來,數(shù)據(jù)之間的關(guān)系結(jié)構(gòu),往往也是可視化作品的邏輯結(jié)構(gòu)。
目前可視化新聞作品最常見的邏輯結(jié)構(gòu)包括以下幾種:
(1)基于“關(guān)聯(lián)”的邏輯結(jié)構(gòu)
這里所說的關(guān)聯(lián),主要是指的“相關(guān)性”或者“直接聯(lián)系”。
運(yùn)用“關(guān)聯(lián)”這樣一種線索,可以將事物之間的復(fù)雜聯(lián)系直觀呈現(xiàn)出來,而這正是新聞報(bào)道特別是深度報(bào)道要實(shí)現(xiàn)的目標(biāo)。
2014年7 月財(cái)新網(wǎng)推出的可視化產(chǎn)品“老虎家族——周永康案關(guān)系網(wǎng)”(見下頁圖3,其升級(jí)版標(biāo)題為“周永康的人與財(cái)”)便是國(guó)內(nèi)在數(shù)據(jù)可視化方面的一個(gè)代表性作品②信息圖表出處:http://datanews.caixin.com/2014/zhoushicailu/,它用高度凝練的界面,將周永康案涉及的各種人物和機(jī)構(gòu)之間的關(guān)系進(jìn)行了全面的呈現(xiàn)。也許從作品的界面來看,內(nèi)容并不算太復(fù)雜,但是,每一個(gè)在圖表中展現(xiàn)出來的關(guān)系鏈條,都蘊(yùn)含著太多故事與信息,它們的背后是記者艱苦、深入的調(diào)查與采訪。這個(gè)案例的特殊之處是,它的數(shù)據(jù)并非通過計(jì)算機(jī)系統(tǒng)進(jìn)行的數(shù)據(jù)抓取和自動(dòng)分析,作為可視化依據(jù)的主要數(shù)據(jù),即當(dāng)事人或機(jī)構(gòu)之間的“關(guān)系”,都是由記者們的調(diào)查來揭示與證實(shí)的。這個(gè)作品可以視作記者功力與技術(shù)能力結(jié)合的一個(gè)范例。
多數(shù)時(shí)候,這類結(jié)構(gòu)的關(guān)聯(lián)邏輯是用形式上的線條來代表的,但在某些案例中,也可能通過空間關(guān)系等來體現(xiàn)。
相關(guān)性的揭示,也可以為因果關(guān)系的分析提供前提與基礎(chǔ)。有時(shí),信息圖表本身在呈現(xiàn)相關(guān)性的同時(shí),也隱含了指向因果關(guān)系的線索。
圖3 信息圖表“老虎家族——周永康案關(guān)系網(wǎng)”
(2)基于“比較”的邏輯結(jié)構(gòu)
在可視化或信息圖表中運(yùn)用比較的思路是非常常見的。餅圖、柱狀圖本身就是對(duì)比的手段,而更復(fù)雜的信息圖,可以將“對(duì)比”的思路放在更大的時(shí)間跨度和空間跨度上。
圖4 信息圖表“寡頭壟斷危害中國(guó)互聯(lián)網(wǎng)發(fā)展”
圖4 是關(guān)于中美互聯(lián)網(wǎng)上市公司對(duì)比的一個(gè)信息圖表①信息圖表出處:http://yuqing.people.com.cn/n/2013/0329/c210117 -20968254.html,它的思路是通過市值這樣一個(gè)數(shù)據(jù),來展現(xiàn)中美兩國(guó)互聯(lián)網(wǎng)企業(yè)發(fā)展的不同狀態(tài),進(jìn)而揭示影響這種狀態(tài)的原因。盡管數(shù)據(jù)本身并不復(fù)雜,但是,當(dāng)把時(shí)間放在1996 -2012年這樣較長(zhǎng)的跨度、空間跨度放在中國(guó)與美國(guó)兩個(gè)國(guó)家時(shí),我們可以看到,在2012年及其之前上市的中國(guó)互聯(lián)網(wǎng)公司,其成立時(shí)間均在2006年及以前,而2006年后,美國(guó)還有大量新的互聯(lián)網(wǎng)公司誕生,其中不少已上市。兩個(gè)不同國(guó)家互聯(lián)網(wǎng)行業(yè)的活力與創(chuàng)新性水平,通過直觀的數(shù)據(jù)呈現(xiàn),被充分展現(xiàn)出來。而從市值大小這個(gè)數(shù)據(jù)維度看,中國(guó)互聯(lián)網(wǎng)市場(chǎng)是騰訊與百度兩家獨(dú)大的格局,而美國(guó)市場(chǎng)上,盡管Google 更為強(qiáng)勢(shì),但Amazon、Facebook、Twitter、Youtube 等也有相當(dāng)規(guī)模,市場(chǎng)較為均衡。這個(gè)信息圖表傳遞了這樣一種判斷,寡頭壟斷的格局對(duì)中國(guó)互聯(lián)網(wǎng)企業(yè)的不斷發(fā)展與創(chuàng)新是一個(gè)妨礙。盡管這樣一種判斷還缺乏更堅(jiān)實(shí)的依據(jù)。但至少數(shù)據(jù)本身可以啟發(fā)人們?cè)谶@個(gè)方向下做更多的思考。
比較可以直陳差異,也可以在不動(dòng)聲色中,讓人們了解矛盾與沖突。因此,比較性的圖表,往往具有一種內(nèi)在的張力。很多時(shí)候,它們也具有評(píng)論的力量。
當(dāng)然,就像文字表達(dá)一樣,比較性的可視化圖表雖然有自己特定的數(shù)據(jù)比較維度,但是,它也需要將客觀性原則放在首位。
(3)基于“演變”的邏輯結(jié)構(gòu)
可視化或信息圖表中,展現(xiàn)事物演變過程的邏輯也是常用的,在某種意義上,這也是一種比較,只不過它是基于時(shí)間維度的比較。這種思路可以直接通過可視化軟件中的折線圖、堆棧圖等來實(shí)現(xiàn),也可以通過更復(fù)雜的“時(shí)間線”等揭示更大跨度的變化過程。
圖5 英國(guó)《衛(wèi)報(bào)》的“解讀騷亂”專題中的信息圖表“Twitter 上的謠言傳播”(局部)
圖5是英國(guó)《衛(wèi)報(bào)》“解讀騷亂”項(xiàng)目中的一個(gè)數(shù)據(jù)分析成果①信息圖表出處:http://www.guardian.co.uk/uk/interactive/2011/dec/07/london-riots-twitter。研究人員將Twitter 上超250 萬條與英國(guó)騷亂有關(guān)的數(shù)據(jù)進(jìn)行提取、分析,研究在此次騷亂中Twitter 所扮演的角色,其中一個(gè)重點(diǎn)是研究謠言在Twitter 上的流傳過程。圖5 是一個(gè)可以交互的動(dòng)態(tài)圖表,當(dāng)拖動(dòng)時(shí)間軸的滑塊時(shí),可以看到各種不同顏色的氣泡的運(yùn)動(dòng)過程,其中代表著謠言及其支持信息的是綠色氣泡,代表著反對(duì)謠言的信息的是紅色氣泡,代表質(zhì)疑謠言的信息的是橙黃色氣泡,代表一般性評(píng)論的是灰色氣泡。氣泡的運(yùn)動(dòng),也就是各種聲音在Twitter 上的傳播及相互作用過程。在很多個(gè)案中,綠色氣泡的勢(shì)力在紅色氣泡與橙色氣泡的“圍攻”下,最終會(huì)逐漸衰落,這個(gè)過程形象說明,Twitter 本身具有對(duì)謠言的識(shí)別與澄清能力的。
當(dāng)然,可視化作品并不局限于以上幾種邏輯結(jié)構(gòu),有些信息圖表也可能把幾種邏輯結(jié)合使用,但是,無論如何,一個(gè)好的可視化作品,一定要有清晰的邏輯線索。
3.用戶體驗(yàn):可視化效果的評(píng)價(jià)指標(biāo)
除了講求內(nèi)在邏輯外,數(shù)據(jù)新聞的可視化同樣需要強(qiáng)調(diào)用戶體驗(yàn),用戶體驗(yàn)也是可視化作品傳播效果的重要評(píng)價(jià)指標(biāo)。
可視化作品的用戶體驗(yàn),首先應(yīng)該表現(xiàn)為“明晰”。圖表的內(nèi)在邏輯、圖例等的意義,應(yīng)該能夠讓人一目了然,不能把信息圖表變成一個(gè)挑戰(zhàn)人們智力的游戲。
從用戶這端來看,可視化作品好壞的另一個(gè)重要衡量標(biāo)準(zhǔn)確是“好看”。這既體現(xiàn)為審美上的“好看”,也表現(xiàn)為用戶體驗(yàn)上的“好看”,在用戶體驗(yàn)上的“好看”更是重點(diǎn),也就是說要讓用戶在不必費(fèi)太多力氣的情況下,就可以看清圖表中的內(nèi)容,抓住要點(diǎn),并能產(chǎn)生深刻印象。
有很多可視化作品,包括一些優(yōu)秀的作品,其思路非常清晰,內(nèi)在邏輯也簡(jiǎn)單明了,但是,因?yàn)榘婷姹旧淼南拗?,很多線條交織在一起,線條的走向與歸屬是很難分辨的,因此,信息傳達(dá)的有效率受到了限制。類似這樣的問題,仍是未來可視化實(shí)踐中需要繼續(xù)解決的。
4.技術(shù):可視化的支持要素
與簡(jiǎn)單圖解類的信息圖表不同的是,可視化作品的完成,通常有更高的技術(shù)含量,需要的軟件也更為專業(yè)。因此,掌握一些可視化工具,是完成可視化的數(shù)據(jù)新聞的必要條件。
但如果要制作出更多創(chuàng)造性的信息圖表的話,還需要突破現(xiàn)有的可視化工具的限制。因此,專業(yè)的數(shù)據(jù)可視化的制作者,往往會(huì)擁有更基礎(chǔ)的技術(shù)。
未來技術(shù)的創(chuàng)新,也可以促進(jìn)數(shù)據(jù)新聞的多樣化發(fā)展。
目前的數(shù)據(jù)可視化中的數(shù)據(jù),主要是數(shù)值型、文本型的數(shù)據(jù),以及“關(guān)系”這樣的數(shù)據(jù),而音頻、視頻信息的數(shù)據(jù)分析與可視化還相對(duì)有限。這兩個(gè)領(lǐng)域的數(shù)據(jù)可視化,將是未來發(fā)展的一個(gè)新方向。這也有賴于相關(guān)技術(shù)的發(fā)展。
另一方面,數(shù)據(jù)的呈現(xiàn)方式,也將從可視化向“可聽化”(Sonification)方向拓展。獲得“信息是美的”數(shù)據(jù)可視化大獎(jiǎng)“交互式作品”類銀獎(jiǎng)的“傾聽維基百科”(Listen to Wikipedia)①具體作品參見:http://listen.hatnote.com/#sthash.740HdS3S.dpuf,是一個(gè)極具創(chuàng)意的案例,它將維基百科上的每一個(gè)信息的變動(dòng)都用視覺與聽覺雙重手段表現(xiàn)出來,不斷變幻極似中國(guó)古曲的聲音,是維基百科上文章的變動(dòng)信息的呈現(xiàn),聲音越低沉表示文章變動(dòng)越大,與此同時(shí),視覺化手段——圓圈也呈現(xiàn)著這些變化,圓圈大小反映著變動(dòng)的大小,色彩反映的是編輯者的身份(注冊(cè)用戶、非注冊(cè)用戶或機(jī)器人)。任何一個(gè)新用戶的加入,在這個(gè)圖表中都會(huì)顯現(xiàn)他們的用戶名及歡迎語。點(diǎn)擊每一個(gè)圓圈,可以進(jìn)入到相應(yīng)的維基百科頁面。這個(gè)交互式信息圖,使人們?cè)诖笾樾≈槁溆癖P似的視覺與聽覺感受中,親眼看見維基百科的成長(zhǎng)歷程。
總體來看,數(shù)據(jù)可視化的實(shí)踐還處于起步階段,技術(shù)的不斷變革,會(huì)給數(shù)據(jù)新聞的呈現(xiàn)方式帶來更多的可能。
盡管數(shù)據(jù)新聞實(shí)踐在國(guó)外越來越火熱,在國(guó)內(nèi),也已成為一個(gè)新話題,但是,數(shù)據(jù)新聞帶來的挑戰(zhàn)是超乎想象的。
數(shù)據(jù)來源與數(shù)據(jù)的質(zhì)量仍然是數(shù)據(jù)新聞實(shí)踐中關(guān)鍵的障礙之一。
在美國(guó)等國(guó)家,有很多政府主導(dǎo)的公共的信息或數(shù)據(jù)庫,它們是媒體的重要資源。其中美國(guó)的Data.gov 更是一個(gè)代表。在美國(guó)政府的“開放政府計(jì)劃”(Open Government Initiative)的背景下,2009年5 月21 日,Data.Gov 上線發(fā)布。Data.gov 網(wǎng)站公布的數(shù)據(jù)主要由聯(lián)邦政府授權(quán)機(jī)構(gòu)進(jìn)行采集與整理,用戶還可以推薦其他的數(shù)據(jù)集載入網(wǎng)站。此外,網(wǎng)站還提供地圖索引方式鏈接各州政府公開的數(shù)據(jù)集。
但在中國(guó),這樣的數(shù)據(jù)庫,還極為有限,即使有許多政府網(wǎng)站,它們作為數(shù)據(jù)來源的可利用程度也十分有限,各級(jí)政府機(jī)構(gòu)對(duì)于數(shù)據(jù)的統(tǒng)計(jì)、保存意識(shí)還非常缺乏,而缺乏科學(xué)的數(shù)據(jù)統(tǒng)計(jì)體系,更是一個(gè)至關(guān)重要的障礙。同樣,企業(yè)等發(fā)布的數(shù)據(jù),其公信力也未必有保障,也很難成為媒體可以完全信賴的數(shù)據(jù)資源。
媒體自身在數(shù)據(jù)的積累上,也存在很多問題,在大數(shù)據(jù)時(shí)代最核心的幾個(gè)數(shù)據(jù)平臺(tái),如用戶平臺(tái)、移動(dòng)終端平臺(tái)、物聯(lián)網(wǎng)平臺(tái)方面,媒體更是處于弱勢(shì)。
要推進(jìn)數(shù)據(jù)新聞的實(shí)踐,媒體必須加強(qiáng)與外界合作,通過外援方式獲得更廣泛的數(shù)據(jù)與技術(shù)支持。
2014年11 月,上海文廣集團(tuán)(SMG)宣布與阿里巴巴集團(tuán)在商業(yè)與金融數(shù)據(jù)服務(wù)以及財(cái)經(jīng)資訊領(lǐng)域初步達(dá)成戰(zhàn)略合作意向。雙方將以SMG 旗下第一財(cái)經(jīng)為平臺(tái),攜手進(jìn)入市場(chǎng)潛力巨大的數(shù)據(jù)服務(wù)領(lǐng)域。盡管SMG 與阿里巴巴的合作的目標(biāo),是更廣意義上的數(shù)據(jù)產(chǎn)品和服務(wù)的開發(fā),但是,這樣的合作,也將會(huì)給SMG 的財(cái)經(jīng)新聞報(bào)道注入更多的數(shù)據(jù)資源與數(shù)據(jù)處理能力。這個(gè)消息在某個(gè)意義上是一個(gè)信號(hào),對(duì)于傳統(tǒng)媒體而言,新聞產(chǎn)品與服務(wù)中的數(shù)據(jù)來源,已經(jīng)不是媒體自身可以完全掌握,借助外部力量,必將成為一個(gè)趨勢(shì)。
另一方面,將用戶更多地作為數(shù)據(jù)生產(chǎn)的力量吸納到媒體的生產(chǎn)體制內(nèi),也是一個(gè)可能的方向。
胡泳等認(rèn)為,真正的數(shù)據(jù)新聞,應(yīng)該是以開源的理念制作,讓公眾有意參與。尋求開放才是大數(shù)據(jù)時(shí)代的動(dòng)力。②胡泳 郝亞洲:《新聞的遷徙》,http://huyong.baijia.baidu.com/article/4534盡管開源只是數(shù)據(jù)新聞的思路之一,但的確在今天的時(shí)代,通過開源的方式,豐富數(shù)據(jù)新聞的數(shù)據(jù)來源,是一個(gè)必要的思路,更重要的是,開源的方式,可以促進(jìn)數(shù)據(jù)新聞的思維與手段的不斷變革。
人才的挑戰(zhàn),是數(shù)據(jù)新聞實(shí)踐中另一個(gè)更重要障礙。在中國(guó)來說,尤其如此。
財(cái)新傳媒CTO 黃志敏認(rèn)為,做數(shù)據(jù)新聞需要的是又懂內(nèi)容、又懂技術(shù)、又懂設(shè)計(jì)的人。但他同時(shí)表示,這樣的人才目前在國(guó)內(nèi)一個(gè)都沒見到,最好的情況是懂其中的兩樣。“所以我只能是把不同的人組合到一起。”①《紙媒試水新媒體,是下大海不是進(jìn)游泳池》,http://chuansongme.com/n/952944
這樣的問題,在國(guó)內(nèi)媒體是普遍存在的,在國(guó)外,也仍然存在。
近年來,在國(guó)內(nèi)外新聞院系,關(guān)于新聞傳播的學(xué)生是否需要學(xué)技術(shù)、學(xué)編程的討論也越來越熱烈,如果從數(shù)據(jù)新聞發(fā)展的角度看,掌握包括編程在內(nèi)的必要數(shù)據(jù)處理技術(shù),應(yīng)是有志從事數(shù)據(jù)新聞工作的媒體人必備的能力,盡管并非他們每一個(gè)人都一定會(huì)在具體操作中充當(dāng)技術(shù)環(huán)節(jié)的實(shí)施者,但技術(shù)能力決定了數(shù)據(jù)新聞分析的思路,決定了新聞發(fā)現(xiàn)的能力。即使是在團(tuán)隊(duì)合作中,側(cè)重新聞內(nèi)容的記者,也需要具備與技術(shù)人員對(duì)話的能力。
而懂藝術(shù)、有足夠好的視覺表現(xiàn)能力的新聞人才,在今天也是普遍缺乏的。這樣的人才需求同樣會(huì)呼喚新聞傳播課程的改革。
當(dāng)然,期待三棲人才的大量涌現(xiàn)是不太現(xiàn)實(shí)的,團(tuán)隊(duì)協(xié)作必然是數(shù)據(jù)新聞生產(chǎn)中必然的常態(tài),但是,媒體機(jī)構(gòu)需要給不同專長(zhǎng)的人提供更多的協(xié)作可能,甚至在組織機(jī)構(gòu)、空間布局上,來促成不同部門、不同成員之間的合作,
西蒙·羅杰斯在談到他在《衛(wèi)報(bào)》時(shí)的經(jīng)歷時(shí)提到,“如果離編輯部近,你就更容易提出建議并參與其中進(jìn)程;與之相反,如果人家看不到你,他也就不會(huì)想到你。在維基解密之前,我們與圖形部門在一起,跟編輯部在不同的樓層。維基解密事件之后,我們就跟編輯部做起了鄰居,待在同一個(gè)樓層。這意味著我們能夠更容易地向編輯提出想法。新聞室另一端的記者們也會(huì)想到讓我們新聞報(bào)道提供幫助。”②西蒙·羅杰斯:《衛(wèi)報(bào)數(shù)據(jù)博客的幕后》,http://xiaoyongzi.github.io/web/newsroom_3.html這些從業(yè)者的經(jīng)驗(yàn),的確是可以為未來媒體的改革提供參考。
萬維網(wǎng)思維的提出者蒂姆·伯納斯·李指出,數(shù)據(jù)驅(qū)動(dòng)的新聞代表著未來。③http://datajournalismhandbook.org/1.0/en/introduction_2.html新聞與數(shù)據(jù)的相遇,帶來了新聞思維的變革、新聞表現(xiàn)手段的變革,更會(huì)帶來新聞生產(chǎn)流程與機(jī)制的變革,傳媒機(jī)構(gòu)和新聞教育機(jī)構(gòu),都需要付出極大的努力,才能適應(yīng)這一變革。
山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2015年2期