周宗珉
我的作業(yè)——只算英格蘭籍球員進(jìn)球的英超積分榜
聽(tīng)上去有些不可思議?是的,《紐約時(shí)報(bào)》發(fā)表了我的期末作業(yè)。
本學(xué)期,我選修了數(shù)據(jù)新聞學(xué)(Data Journalism),這門(mén)課程的期末作業(yè)就是讓每個(gè)學(xué)生通過(guò)HTML/SCC/JavaScript代碼來(lái)編寫(xiě)具有新聞價(jià)值的多媒體報(bào)道,且制作成網(wǎng)頁(yè)。在網(wǎng)頁(yè)中同學(xué)們需要通過(guò)各種各樣的動(dòng)畫(huà)、互動(dòng)圖表等對(duì)新聞內(nèi)容加以闡釋。教授鼓勵(lì)我們做自己喜歡的,具有新聞價(jià)值的領(lǐng)域。作為一個(gè)狂熱的足球迷,我選擇了足球來(lái)做,畢竟我在足球方面的知識(shí)還是比較豐富的。此外,很多體育報(bào)道都在用數(shù)據(jù)新聞學(xué)或者數(shù)據(jù)可視化的方式來(lái)呈現(xiàn)。因此,這在主觀和客觀上都是一個(gè)非常好的機(jī)會(huì)。
在本賽季的英超聯(lián)賽中,假設(shè)只算上英格蘭球員進(jìn)球的話,整個(gè)聯(lián)賽的收官積分榜將會(huì)是怎樣?這是我此次作業(yè)的故事,也是我心中埋藏已久的一個(gè)很好玩、很奇怪的疑惑。為什么會(huì)想到這個(gè)切入點(diǎn)?
我本人是英格蘭超級(jí)聯(lián)賽的粉絲,對(duì)英超聯(lián)賽十分關(guān)心。近年來(lái),在英超聯(lián)賽的二十個(gè)俱樂(lè)部中,那些常常能排在積分榜頂端的俱樂(lè)部,通常都是花非常大的價(jià)錢(qián)從國(guó)外購(gòu)買(mǎi)外籍運(yùn)動(dòng)員的。購(gòu)進(jìn)高水平的運(yùn)動(dòng)員,整個(gè)聯(lián)賽的水平和這些球隊(duì)的成績(jī)固然都提高了,但相對(duì)來(lái)說(shuō),在聯(lián)賽里,自己的英格蘭籍球員得到上場(chǎng)的機(jī)會(huì)就越來(lái)越少了。過(guò)去幾年,有很多球迷或者足球評(píng)論人士在討論,外來(lái)資本的涌入或者說(shuō)整個(gè)英超聯(lián)賽的資金運(yùn)作對(duì)英格蘭球員的發(fā)展到底是好還是不好?因?yàn)閱慰从⒏裉m國(guó)家隊(duì)在最近幾屆世界杯和歐洲杯上的實(shí)力和球員的表現(xiàn),他們的成績(jī)跟以前是沒(méi)法比的,下滑得非常厲害。正因?yàn)橛泻芏嗳嗽谟懻撨@個(gè)問(wèn)題,有這樣的一個(gè)背景,我就想從一個(gè)非常巧妙的角度,即只算英格蘭籍球員進(jìn)球的英超積分榜,把這個(gè)問(wèn)題給呈現(xiàn)出來(lái)。這樣的一個(gè)觀察角度可能說(shuō)明問(wèn)題,也可能不能說(shuō)明問(wèn)題(大量購(gòu)入外籍球員與本土球員發(fā)展之間是否存在關(guān)聯(lián)),這都取決于球迷自己的看法。
真正做起來(lái),這個(gè)過(guò)程還是沒(méi)那么容易的。為了能夠制作新規(guī)則下(只算英格蘭籍球員進(jìn)球)的積分榜,我核查了300多場(chǎng)比賽中每一個(gè)進(jìn)球球員的國(guó)籍。不厭其煩地手工錄入數(shù)據(jù)制作出了700多行的Excel表單,(那些比較進(jìn)階水準(zhǔn)的記者,會(huì)直接用一種計(jì)算機(jī)語(yǔ)言叫做R的直接從網(wǎng)頁(yè)上把數(shù)據(jù)抓取下來(lái),而不需要手動(dòng)輸入。我用的是一個(gè)比較費(fèi)力的方法)利用數(shù)據(jù)透視表(Pivot Table)等功能計(jì)算出新舊兩張球隊(duì)積分榜及各類(lèi)技術(shù)統(tǒng)計(jì),并繪制衍生的互動(dòng)圖表對(duì)其中的一些關(guān)鍵數(shù)據(jù)加以分析。數(shù)據(jù)就緒后,我制作成了網(wǎng)頁(yè)。在最后一節(jié)課的作品展示后,我的老師凱文?奎利(Kevin Quealy)在學(xué)院里叫住我說(shuō):“關(guān)于你的期末作業(yè),我們得談一下。我的報(bào)紙也許想要發(fā)表?!彼恰都~約時(shí)報(bào)》的制圖編輯(Graphics Editor)。接下來(lái)的事情就一切很順利了。我在紐約時(shí)報(bào)網(wǎng)站上的這篇文章,登了一個(gè)積分榜,這個(gè)積分榜是互動(dòng)的,你把鼠標(biāo)點(diǎn)上去,他會(huì)有相應(yīng)的互動(dòng)效果。我做的作業(yè)除了積分榜之外,還有兩張圖表,他們只用了我這個(gè)積分榜。
技術(shù)控?不需要!
很多人聽(tīng)到數(shù)據(jù)新聞學(xué)、數(shù)據(jù)可視化都會(huì)說(shuō),這個(gè)東西可能需要很高的技術(shù)含量吧。但實(shí)際上,并不是這樣。我們老師一直告訴我們:只要你有好的想法,且它是跟數(shù)據(jù)有關(guān)的,你不需要非做什么大數(shù)據(jù)處理,也不需要非得下載幾千行的數(shù)據(jù)表單。你不需要弄那么大的仗勢(shì),只要你有一個(gè)很好的想法,你可以用一個(gè)很簡(jiǎn)單的數(shù)據(jù)方式去呈現(xiàn)。數(shù)據(jù)新聞學(xué)的初衷是給讀者一個(gè)更加直觀的方式去呈現(xiàn)數(shù)據(jù),去解讀數(shù)據(jù)。如果只用一個(gè)積分榜表單的形式就可以把我的故事講得非常完整清晰的話,那就用積分榜;如果互動(dòng)圖表能夠講得更加清楚,能夠讓讀者更明白,或者說(shuō)能讓我的報(bào)道增加深度的話,那我可以選擇再加一張圖表。這些其實(shí)都是根據(jù)我的需求在改變的,并不是說(shuō)我做任何東西,把它做得越花哨越好。往往你的圖表做得越花哨,恰恰越難做到直觀清晰。
做這樣的一個(gè)作業(yè),從頭到尾涉及到了很多種工具,像Excel和網(wǎng)頁(yè)設(shè)計(jì)的各種語(yǔ)言,其中還有一些是數(shù)據(jù)可視化的專(zhuān)用工具。雖然大部分的工具都是在這個(gè)課程中學(xué)到的,但上這門(mén)課的最大的好處并不在此,而是教給同學(xué)們從一個(gè)數(shù)據(jù)新聞?dòng)浾叩慕嵌热プ鲂侣?。培養(yǎng)我們?cè)谧鰯?shù)據(jù)新聞報(bào)道時(shí),有一個(gè)概念,知道自己要在哪里使用哪些工具,一步一步的流程是怎樣的。因?yàn)榧词鼓阒皶?huì)這些工具或者知道這些工具的某些功能,但你并不知道他們能夠整合起來(lái)做你的數(shù)據(jù)新聞,并不知道何時(shí)它們應(yīng)該出現(xiàn),派上用場(chǎng)。我們的兩位教授都是《紐約時(shí)報(bào)》的制圖編輯,作為業(yè)內(nèi)比較優(yōu)秀的數(shù)據(jù)新聞學(xué)的前輩,他們會(huì)從一個(gè)能比較快速上手的角度來(lái)告訴我們?cè)趺礃幼鰯?shù)據(jù)新聞,必須要有哪些思維過(guò)程。
你只需一個(gè)絕妙的想法
不管是做數(shù)據(jù)新聞還是在整個(gè)新聞學(xué)領(lǐng)域,一個(gè)絕妙的想法是可以使你脫穎而出的。
在美國(guó),大部分?jǐn)?shù)據(jù)政府都是公開(kāi)的,你在網(wǎng)上都可以查到。這些數(shù)據(jù)里包括各種各樣細(xì)枝末節(jié)的數(shù)據(jù),比如說(shuō)紐約曼哈頓有一個(gè)一個(gè)的街區(qū),在網(wǎng)上你可以查到不同街區(qū)出生的嬰兒都叫什么名字。你會(huì)不會(huì)有這樣的一個(gè)想法,去看看每個(gè)街區(qū)的父母給孩子取名時(shí),出現(xiàn)頻率最高的前5個(gè)名字分別是什么?這個(gè)東西可視化做出來(lái)的話,可以做成一個(gè)地圖,讀者鼠標(biāo)點(diǎn)在地圖上的某個(gè)街區(qū),然后就可以彈出相應(yīng)的起名頻率較高的前5名,然后不同的街區(qū)可以相互比較,看看背后是不是有什么文化現(xiàn)象,讀者會(huì)覺(jué)得這樣的報(bào)道很有意思的。每個(gè)記者都可以拿到這些數(shù)據(jù),但是并不是每一個(gè)記者都可以想到這么做的。
我有一個(gè)同學(xué),他是馬來(lái)西亞的一個(gè)記者,做馬來(lái)西亞國(guó)內(nèi)的政治報(bào)道很多年。他最近做了一個(gè)數(shù)據(jù)可視化的報(bào)道,他把馬來(lái)西亞政府采購(gòu)清單從網(wǎng)上,通過(guò)R語(yǔ)言抓取下來(lái),他把政府從哪些公司采購(gòu)了哪些東西做成可視化的圖表。不同政府部門(mén)從不同公司采購(gòu)的資金數(shù)據(jù)就呈現(xiàn)出來(lái)。單看幾百頁(yè)的數(shù)據(jù)你并不知道其中的規(guī)律和隱藏的現(xiàn)象,可一旦你把這些數(shù)據(jù)可視化分析,就可以看到是不是有大量訂單流向了同一家公司。然后在網(wǎng)上做調(diào)查,也許會(huì)發(fā)現(xiàn)公司背后是有國(guó)家背景,或者公司注冊(cè)人跟政府高官或者領(lǐng)導(dǎo)人有千絲萬(wàn)縷的聯(lián)系。像這樣從數(shù)據(jù)中把新聞挖出來(lái)的話就是有價(jià)值的,在課堂上老師就重點(diǎn)培養(yǎng)我們這種數(shù)據(jù)意識(shí)。
每節(jié)課上,老師會(huì)請(qǐng)學(xué)生(兩個(gè)一組)在網(wǎng)上找出美國(guó)新聞行業(yè)里做數(shù)據(jù)可視化的一些作品,帶到課堂上來(lái),讓學(xué)生做一個(gè)評(píng)點(diǎn)。讓學(xué)生說(shuō)這個(gè)作品他覺(jué)得哪方面好,哪方面不好;哪方面覺(jué)得可以提高;哪方面是從人性化出發(fā),但應(yīng)用型角度來(lái)講是不好的,這些都可以提。很大程度上老師是鼓勵(lì)我們從想法、構(gòu)思的角度,或者從數(shù)據(jù)敏感度的角度去做評(píng)點(diǎn)。
有一次我們?cè)u(píng)點(diǎn)《衛(wèi)報(bào)》做的一個(gè)數(shù)據(jù)可視化的作品。它做的是2011年的夏天,英國(guó)國(guó)內(nèi)發(fā)生了一起影響遍及全國(guó)的騷亂。在這場(chǎng)騷亂中有很多謠言產(chǎn)生,比如說(shuō)“倫敦眼”著火了、動(dòng)物園老虎出來(lái)咬人了等很奇怪的說(shuō)法。很多人就會(huì)在Twitter上把這些東西發(fā)出來(lái),然后又被其他人轉(zhuǎn)發(fā)?!缎l(wèi)報(bào)》從數(shù)據(jù)新聞學(xué)的角度做了一個(gè)網(wǎng)頁(yè),它把謠言在Twitter上傳播的過(guò)程通過(guò)動(dòng)畫(huà)的形式演示出來(lái)。你會(huì)看到它開(kāi)始是很小的一個(gè)點(diǎn),這個(gè)小點(diǎn)就代表一條謠言,然后隨著時(shí)間的推移,這個(gè)點(diǎn)就會(huì)越來(lái)越大,表示謠言的傳播越來(lái)越快,而這些小的點(diǎn)就是代表轉(zhuǎn)發(fā)。你可以操控這個(gè)時(shí)間軸,看清楚從某一個(gè)謠言誕生到在互聯(lián)網(wǎng)上不斷傳播的路徑。
我們?cè)u(píng)點(diǎn)這個(gè)作品時(shí),并不是從技術(shù)角度(這個(gè)東西做出來(lái)非常難,需要很高技術(shù))來(lái)點(diǎn)評(píng),我們質(zhì)疑他們做這個(gè)報(bào)道的樣本數(shù)量不夠。他們到底采集了多少條謠言微博?最后發(fā)現(xiàn)他們只取了幾個(gè)比較有代表性的微博,而互聯(lián)網(wǎng)謠言傳播的情況可能并沒(méi)有那么嚴(yán)重。因此,我們就質(zhì)疑說(shuō)他們做這個(gè)東西是不科學(xué)的,是不規(guī)范的。然后我們繼續(xù)討論,如果要提高的話,我們可以怎么做。