摘要:新聞是經(jīng)濟(jì)社會發(fā)展的參與者、記錄者、推動者。數(shù)據(jù)已成為經(jīng)濟(jì)發(fā)展的關(guān)鍵生產(chǎn)要素,新聞內(nèi)容生產(chǎn)也應(yīng)加大數(shù)據(jù)驅(qū)動力度。數(shù)據(jù)新聞生產(chǎn)流程復(fù)雜,其中作為先決條件,獲取數(shù)據(jù)、處理數(shù)據(jù),對媒體而言,極為陌生,挑戰(zhàn)難度大。很多媒體甚至對于何為數(shù)據(jù)、數(shù)據(jù)應(yīng)如何處理、數(shù)據(jù)與大數(shù)據(jù)等基本觀念存在嚴(yán)重誤解。本文首先厘清這些誤解,并基于3個實(shí)例探討媒體在數(shù)據(jù)新聞生產(chǎn)中獲取數(shù)據(jù)、處理數(shù)據(jù)的幾種現(xiàn)實(shí)路徑。
關(guān)鍵詞:數(shù)據(jù)新聞;數(shù)據(jù)獲取;數(shù)據(jù)處理
中圖分類號:G210.7 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-8883(2020)16-0157-02
一、數(shù)據(jù)已成為新聞生產(chǎn)的關(guān)鍵要素
數(shù)字生活時代,經(jīng)濟(jì)組織、社會運(yùn)行、個人的生活越來越依賴基于數(shù)據(jù)的分析與規(guī)劃。數(shù)據(jù)已經(jīng)成為我國經(jīng)濟(jì)發(fā)展,尤其是數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵生產(chǎn)要素。
新聞是服務(wù)于社會需求的,當(dāng)社會的需求已出現(xiàn)重大的數(shù)據(jù)化轉(zhuǎn)變時,數(shù)據(jù)也已成為新聞生產(chǎn)中新的關(guān)鍵要素。但數(shù)據(jù)新聞的制作有著比傳統(tǒng)新聞生產(chǎn)遠(yuǎn)為復(fù)雜的流程。其中,獲取數(shù)據(jù)與分析數(shù)據(jù),是能否制作數(shù)據(jù)新聞的先決條件。這兩項又是媒體尤其是傳統(tǒng)媒體最為陌生、最難以解決的問題。
二、數(shù)據(jù)新聞的特征
目前,很多媒體對于何為數(shù)據(jù)、如何處理數(shù)據(jù)、數(shù)據(jù)新聞與大數(shù)據(jù)的關(guān)系等基本概念仍然存在認(rèn)識偏差。在運(yùn)用實(shí)例,探討媒體如何獲取數(shù)據(jù)與分析數(shù)據(jù)前,厘清幾種常見的認(rèn)識誤區(qū)有利于明確討論的邊界。
(一)數(shù)字只是數(shù)據(jù)形態(tài)的一種
現(xiàn)在很多媒體報道中,所宣稱的數(shù)據(jù)新聞實(shí)際上只是數(shù)字新聞。不可否認(rèn),數(shù)字新聞簡潔清晰、重點(diǎn)突出,發(fā)展百余年仍具有強(qiáng)大的生命力,為受眾所歡迎。但必須厘清的是,“數(shù)字”和“數(shù)據(jù)”是兩種完全不同的信息形態(tài)。
數(shù)字(figure)是對特定內(nèi)容數(shù)量的表征,傳遞的信息單一且清晰,屬于經(jīng)計算、分析后的結(jié)論性信息。數(shù)據(jù)(data),根據(jù)牛津詞典的解釋,是事實(shí)(facts)或信息(information)的集合,屬于原始、模糊的信息,需經(jīng)過驗證和分析后,才能產(chǎn)生用途,如發(fā)現(xiàn)規(guī)律、支持決策等。在中文里,data對應(yīng)的翻譯還包括“資料、材料”等。
可見,數(shù)字只是數(shù)據(jù)的一種。從形態(tài)上來說,數(shù)據(jù)可以包含人類生活中的所有信息形式,包括數(shù)字、文字、符號、聲音、圖片、視頻、三維信息等。
(二)二次組裝不是數(shù)據(jù)處理
數(shù)據(jù)新聞生產(chǎn)中,何謂對數(shù)據(jù)的分析與處理,目前沒有清楚的界定。2010年,第一屆“國際數(shù)據(jù)新聞圓桌會議”上提到,數(shù)據(jù)新聞的生產(chǎn)流程包括反復(fù)抓取、篩選和重組來深度挖掘數(shù)據(jù)。其中內(nèi)涵并不清楚。其他一些研究者的論述也極為籠統(tǒng),如“通過對數(shù)據(jù)的整合,實(shí)現(xiàn)對新聞的挖掘”[1]“挖掘和展示數(shù)據(jù)背后的關(guān)聯(lián)和模式”[2]。
新浪、網(wǎng)易等互聯(lián)網(wǎng)媒體都已形成頗具影響的數(shù)據(jù)新聞專欄。但仔細(xì)分析可見,這些數(shù)據(jù)新聞產(chǎn)品中,重要數(shù)據(jù)描述、分析結(jié)論下的數(shù)據(jù)來源標(biāo)注并不是來自某類數(shù)據(jù)庫或數(shù)據(jù)源,而是來自“某某某報告”。事實(shí)上,這一類所謂的數(shù)據(jù)新聞,實(shí)則是在某一新聞主題的統(tǒng)領(lǐng)下收集與之相關(guān)的各類數(shù)據(jù)分析報告,提取各份報告關(guān)鍵信息,或打散進(jìn)行內(nèi)容重組融入整篇新聞,或?qū)⒅糜诳梢暬谱鬟M(jìn)行重新包裝。
不可否認(rèn),對成熟報告內(nèi)容的二次組裝,同樣能發(fā)現(xiàn)重要新聞線索和新聞價值。但這樣的新聞能不能稱為數(shù)據(jù)新聞,是值得討論的。因為在其過程中,更多是編輯對多種數(shù)據(jù)結(jié)論的主觀理解、研判、分類,并不包含利用數(shù)據(jù)分析工具對元數(shù)據(jù)的清洗、重組,更遑論建模得出分析結(jié)果。
(三)數(shù)據(jù)新聞與大數(shù)據(jù)新聞
這是言必稱大數(shù)據(jù)的時代。一提到數(shù)據(jù),仿佛就注定要走進(jìn)浩瀚無邊的數(shù)據(jù)海洋。數(shù)據(jù)新聞與大數(shù)據(jù)有著怎樣的關(guān)系,值得討論。
目前,何為大數(shù)據(jù),并沒有普遍認(rèn)可的概念界定。關(guān)于其特征,目前較為廣泛接受的仍是《大數(shù)據(jù)時代》一書中所提的3點(diǎn):所有數(shù)據(jù)、模糊性、相關(guān)關(guān)系。在我國的日常話語中,大數(shù)據(jù)更多是指代TB、PB以上規(guī)模的巨量數(shù)據(jù)集。因此,關(guān)于數(shù)據(jù)新聞與大數(shù)據(jù)新聞的討論,主要是基于數(shù)據(jù)量級和全面性來劃分,或認(rèn)為大數(shù)據(jù)新聞是數(shù)據(jù)新聞的更高一級形態(tài)[3],或認(rèn)為大數(shù)據(jù)新聞是數(shù)據(jù)新聞的一種[4]。
在本文看來,至少在現(xiàn)階段,對于媒體而言,區(qū)分大數(shù)據(jù)新聞與數(shù)據(jù)新聞既沒有必要,也價值不大。首先,數(shù)據(jù)新聞最重要的是其新聞價值,數(shù)據(jù)量越大并不代表能提取的新聞價值越大;其次,目前,媒體最重要的是建設(shè)技術(shù)團(tuán)隊和數(shù)據(jù)兩大基礎(chǔ),具備基本的數(shù)據(jù)處理能力,同時擴(kuò)展多種渠道獲取數(shù)據(jù)。
三、獲取數(shù)據(jù)與分析數(shù)據(jù)的3個實(shí)例
獲取數(shù)據(jù)與分析數(shù)據(jù)離不開網(wǎng)絡(luò)、程序、算法等技術(shù)人員,以及行業(yè)專家的共同參與。這樣跨領(lǐng)域團(tuán)隊的建設(shè)不作為本文討論的重點(diǎn),但媒體如何獲得這些專業(yè)能力,在實(shí)例分析中會作簡要介紹。
(一)從專題數(shù)據(jù)庫取料,由行業(yè)專家建模分析
2018年,《重慶日報》整版報道了《重慶創(chuàng)新百強(qiáng)企業(yè)區(qū)域與行業(yè)分布報告》數(shù)據(jù)分析內(nèi)容,通過對專利數(shù)據(jù)的分析發(fā)現(xiàn),汽車制造業(yè)領(lǐng)域企業(yè)發(fā)明專利授權(quán)量占總比近四成,符合汽車在重慶的工業(yè)支撐地位,但同時也發(fā)現(xiàn),作為重慶工業(yè)的另一大支柱,本地電子信息業(yè)企業(yè)創(chuàng)新活躍度不高、創(chuàng)新力不強(qiáng),值得引起重視。
《重慶日報》本身既不掌握專利數(shù)據(jù)庫,也沒有數(shù)據(jù)技術(shù)人員、科創(chuàng)研究人員。數(shù)據(jù)新聞前期的數(shù)據(jù)獲取與數(shù)據(jù)分析都是旗下的重報大數(shù)據(jù)研究院進(jìn)行。而重報大數(shù)據(jù)研究院正是基于能夠獲取原始專利數(shù)據(jù)的資源優(yōu)勢,進(jìn)行了此次策劃。
對專利數(shù)據(jù)的處理并不是簡單的統(tǒng)計分析,而是基于專利規(guī)模、創(chuàng)新力和影響力3個維度8項指標(biāo),進(jìn)行建模分析。這一過程,除了研究院數(shù)據(jù)人員外,還有科技情報研究人員與專利代理師的共同參與。數(shù)據(jù)分析結(jié)果還交由中科院成都文獻(xiàn)情報中心專業(yè)人員進(jìn)行獨(dú)立評估,確保數(shù)據(jù)、模型、流程的適用與規(guī)范。
(二)獨(dú)立建模,由數(shù)據(jù)企業(yè)作處理
《四川日報》依托旗下的四川在線全媒體集群MORE大數(shù)據(jù)工作室,近年來制作發(fā)布不少數(shù)據(jù)新聞。因《四川日報》與阿里巴巴本地生活形成緊密合作,很多數(shù)據(jù)新聞的數(shù)據(jù)都來自阿里巴巴本地生活各門類產(chǎn)生的數(shù)據(jù),如口碑、餓了么、支付寶等。
2020年,川報全媒體集群MORE大數(shù)據(jù)工作室聯(lián)合餓了么,聯(lián)合制作《D47數(shù)字生活·新消費(fèi)分析報告》,以數(shù)據(jù)“發(fā)現(xiàn)城市新價值”,從“數(shù)字生活覆蓋度”“數(shù)字生活活躍度”“數(shù)字生活消費(fèi)潛力”“數(shù)字生活消費(fèi)友好性”“數(shù)字生活新潮流”5個維度,對四川省47個市轄區(qū)的數(shù)字消費(fèi)活力進(jìn)行綜合排名,計算與分析各區(qū)的外賣供需指數(shù),從供求的相對關(guān)系中窺探每個市轄區(qū)的消費(fèi)活力與消費(fèi)增長潛力。
合作的方式,簡單而言,首先,MORE大數(shù)據(jù)工作室設(shè)置好議題和指標(biāo)體系、權(quán)重等;之后,餓了么數(shù)據(jù)團(tuán)隊從其數(shù)據(jù)池中對應(yīng)提取、清洗,進(jìn)行模型化計算,得出數(shù)量化結(jié)果;最終,由MORE大數(shù)據(jù)工作室的技術(shù)團(tuán)隊進(jìn)行數(shù)據(jù)結(jié)果審核,由記者團(tuán)隊分析結(jié)果形成數(shù)據(jù)報告,提煉新聞點(diǎn),制作數(shù)據(jù)新聞產(chǎn)品。
(三)通過問卷與爬蟲獲取多源數(shù)據(jù),對單一主題進(jìn)行比對分析
對單一主題的數(shù)據(jù)分析,并不要求數(shù)據(jù)的海量,更看重的是利用多種不同來源數(shù)據(jù)的處理結(jié)果,進(jìn)行比對驗證。對于媒體而言,多源數(shù)據(jù)的獲取可通過向政府部門申請、從互聯(lián)網(wǎng)爬取、問卷等方式統(tǒng)計等渠道和方式進(jìn)行。
自2016年起,廣州日報數(shù)據(jù)和數(shù)字化研究院每年均會發(fā)布《廣報大學(xué)一流學(xué)科排行榜》。該排行榜通過科學(xué)研究指數(shù)、人才培養(yǎng)指數(shù)、學(xué)科聲譽(yù)指數(shù)和二次評估指數(shù)4個維度,對國內(nèi)327所大學(xué)的40個學(xué)科進(jìn)行評價。
報告最后的評價結(jié)果是對指標(biāo)體系分別賦權(quán)后綜合計算得出。在對學(xué)科聲譽(yù)指數(shù)進(jìn)行分析時,因團(tuán)隊對此的界定是主觀認(rèn)知評價,遇到了沒有現(xiàn)成數(shù)據(jù)可用的問題。團(tuán)隊首先采用了問卷調(diào)查的方式,制作學(xué)科評價問卷,通過電子郵件發(fā)送給全國各地總共4000位高校學(xué)者,有效回收1000余份。團(tuán)隊通過問卷中學(xué)者對高校學(xué)科的不同打分和排名進(jìn)行統(tǒng)計分析,初步得出分學(xué)科的排名結(jié)果。
考慮到抽樣調(diào)查代表性、受訪者認(rèn)知偏差等問題,團(tuán)隊又從互聯(lián)網(wǎng)新聞、論壇等渠道盡可能爬取對所涉及高校及學(xué)科的評價,經(jīng)數(shù)據(jù)處理后,與問卷調(diào)查結(jié)果進(jìn)行比對,對整體排名進(jìn)行調(diào)整。
四、結(jié)語
《重慶日報》的操作經(jīng)驗并不具有廣泛復(fù)制性,因為媒體或其下屬機(jī)構(gòu)能夠接觸并利用的元數(shù)據(jù)數(shù)據(jù)庫機(jī)會是極少的。要自建媒體內(nèi)容以外的數(shù)據(jù)庫,時間長、投入大,沒有必要?!端拇ㄈ請蟆返牟僮髂J酵茝V性強(qiáng),但需注意:一是雙方要簽署權(quán)責(zé)明確的數(shù)據(jù)合作協(xié)議;二是新聞單位要對數(shù)據(jù)企業(yè)的數(shù)據(jù)內(nèi)容有深入了解,否則費(fèi)力建模,對方卻沒有對應(yīng)數(shù)據(jù);三是新聞單位也應(yīng)配有數(shù)據(jù)分析師,檢查數(shù)據(jù)企業(yè)反饋的結(jié)果是否符合要求。在《廣州日報》這個實(shí)例中,廣州日報數(shù)據(jù)和數(shù)字化研究院并未與外合作,承擔(dān)了主題設(shè)置、指標(biāo)建模、數(shù)據(jù)收集、數(shù)據(jù)分析等所有工作,所涉工種包括熟知社會科學(xué)調(diào)查方法的媒體人員、技術(shù)人員、數(shù)據(jù)分析師等。這樣的團(tuán)隊配置應(yīng)該成為想要從事數(shù)據(jù)新聞生產(chǎn)的媒體的標(biāo)配。
參考文獻(xiàn):
[1] 祝建華.從大數(shù)據(jù)到數(shù)據(jù)新聞[J].新媒體研究,2014(04):11-13.
[2] 郎勁松,楊海.數(shù)據(jù)新聞:大數(shù)據(jù)時代新聞可視化傳播的創(chuàng)新路徑[J].現(xiàn)代傳播,2014(03):32-36.
[3] 喻國明.從精確新聞到大數(shù)據(jù)新聞——關(guān)于大數(shù)據(jù)新聞的前世今生[J].青年記者,2014(12):43-44.
[4] 莫凡.數(shù)據(jù)新聞的生產(chǎn)現(xiàn)狀、影響與反思[J].新媒體研究,2018(08):35-37.
作者簡介:丁虞(1985—),男,重慶江津人,研究生,碩士,編輯,研究方向:媒體智庫發(fā)展與數(shù)據(jù)新聞制作。