国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何獲取數(shù)據(jù)與處理數(shù)據(jù)

2020-09-10 21:53:54丁虞
新聞研究導(dǎo)刊 2020年16期
關(guān)鍵詞:數(shù)據(jù)新聞數(shù)據(jù)處理

摘要:新聞是經(jīng)濟(jì)社會發(fā)展的參與者、記錄者、推動者。數(shù)據(jù)已成為經(jīng)濟(jì)發(fā)展的關(guān)鍵生產(chǎn)要素,新聞內(nèi)容生產(chǎn)也應(yīng)加大數(shù)據(jù)驅(qū)動力度。數(shù)據(jù)新聞生產(chǎn)流程復(fù)雜,其中作為先決條件,獲取數(shù)據(jù)、處理數(shù)據(jù),對媒體而言,極為陌生,挑戰(zhàn)難度大。很多媒體甚至對于何為數(shù)據(jù)、數(shù)據(jù)應(yīng)如何處理、數(shù)據(jù)與大數(shù)據(jù)等基本觀念存在嚴(yán)重誤解。本文首先厘清這些誤解,并基于3個實(shí)例探討媒體在數(shù)據(jù)新聞生產(chǎn)中獲取數(shù)據(jù)、處理數(shù)據(jù)的幾種現(xiàn)實(shí)路徑。

關(guān)鍵詞:數(shù)據(jù)新聞;數(shù)據(jù)獲取;數(shù)據(jù)處理

中圖分類號:G210.7 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-8883(2020)16-0157-02

一、數(shù)據(jù)已成為新聞生產(chǎn)的關(guān)鍵要素

數(shù)字生活時代,經(jīng)濟(jì)組織、社會運(yùn)行、個人的生活越來越依賴基于數(shù)據(jù)的分析與規(guī)劃。數(shù)據(jù)已經(jīng)成為我國經(jīng)濟(jì)發(fā)展,尤其是數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵生產(chǎn)要素。

新聞是服務(wù)于社會需求的,當(dāng)社會的需求已出現(xiàn)重大的數(shù)據(jù)化轉(zhuǎn)變時,數(shù)據(jù)也已成為新聞生產(chǎn)中新的關(guān)鍵要素。但數(shù)據(jù)新聞的制作有著比傳統(tǒng)新聞生產(chǎn)遠(yuǎn)為復(fù)雜的流程。其中,獲取數(shù)據(jù)與分析數(shù)據(jù),是能否制作數(shù)據(jù)新聞的先決條件。這兩項又是媒體尤其是傳統(tǒng)媒體最為陌生、最難以解決的問題。

二、數(shù)據(jù)新聞的特征

目前,很多媒體對于何為數(shù)據(jù)、如何處理數(shù)據(jù)、數(shù)據(jù)新聞與大數(shù)據(jù)的關(guān)系等基本概念仍然存在認(rèn)識偏差。在運(yùn)用實(shí)例,探討媒體如何獲取數(shù)據(jù)與分析數(shù)據(jù)前,厘清幾種常見的認(rèn)識誤區(qū)有利于明確討論的邊界。

(一)數(shù)字只是數(shù)據(jù)形態(tài)的一種

現(xiàn)在很多媒體報道中,所宣稱的數(shù)據(jù)新聞實(shí)際上只是數(shù)字新聞。不可否認(rèn),數(shù)字新聞簡潔清晰、重點(diǎn)突出,發(fā)展百余年仍具有強(qiáng)大的生命力,為受眾所歡迎。但必須厘清的是,“數(shù)字”和“數(shù)據(jù)”是兩種完全不同的信息形態(tài)。

數(shù)字(figure)是對特定內(nèi)容數(shù)量的表征,傳遞的信息單一且清晰,屬于經(jīng)計算、分析后的結(jié)論性信息。數(shù)據(jù)(data),根據(jù)牛津詞典的解釋,是事實(shí)(facts)或信息(information)的集合,屬于原始、模糊的信息,需經(jīng)過驗證和分析后,才能產(chǎn)生用途,如發(fā)現(xiàn)規(guī)律、支持決策等。在中文里,data對應(yīng)的翻譯還包括“資料、材料”等。

可見,數(shù)字只是數(shù)據(jù)的一種。從形態(tài)上來說,數(shù)據(jù)可以包含人類生活中的所有信息形式,包括數(shù)字、文字、符號、聲音、圖片、視頻、三維信息等。

(二)二次組裝不是數(shù)據(jù)處理

數(shù)據(jù)新聞生產(chǎn)中,何謂對數(shù)據(jù)的分析與處理,目前沒有清楚的界定。2010年,第一屆“國際數(shù)據(jù)新聞圓桌會議”上提到,數(shù)據(jù)新聞的生產(chǎn)流程包括反復(fù)抓取、篩選和重組來深度挖掘數(shù)據(jù)。其中內(nèi)涵并不清楚。其他一些研究者的論述也極為籠統(tǒng),如“通過對數(shù)據(jù)的整合,實(shí)現(xiàn)對新聞的挖掘”[1]“挖掘和展示數(shù)據(jù)背后的關(guān)聯(lián)和模式”[2]。

新浪、網(wǎng)易等互聯(lián)網(wǎng)媒體都已形成頗具影響的數(shù)據(jù)新聞專欄。但仔細(xì)分析可見,這些數(shù)據(jù)新聞產(chǎn)品中,重要數(shù)據(jù)描述、分析結(jié)論下的數(shù)據(jù)來源標(biāo)注并不是來自某類數(shù)據(jù)庫或數(shù)據(jù)源,而是來自“某某某報告”。事實(shí)上,這一類所謂的數(shù)據(jù)新聞,實(shí)則是在某一新聞主題的統(tǒng)領(lǐng)下收集與之相關(guān)的各類數(shù)據(jù)分析報告,提取各份報告關(guān)鍵信息,或打散進(jìn)行內(nèi)容重組融入整篇新聞,或?qū)⒅糜诳梢暬谱鬟M(jìn)行重新包裝。

不可否認(rèn),對成熟報告內(nèi)容的二次組裝,同樣能發(fā)現(xiàn)重要新聞線索和新聞價值。但這樣的新聞能不能稱為數(shù)據(jù)新聞,是值得討論的。因為在其過程中,更多是編輯對多種數(shù)據(jù)結(jié)論的主觀理解、研判、分類,并不包含利用數(shù)據(jù)分析工具對元數(shù)據(jù)的清洗、重組,更遑論建模得出分析結(jié)果。

(三)數(shù)據(jù)新聞與大數(shù)據(jù)新聞

這是言必稱大數(shù)據(jù)的時代。一提到數(shù)據(jù),仿佛就注定要走進(jìn)浩瀚無邊的數(shù)據(jù)海洋。數(shù)據(jù)新聞與大數(shù)據(jù)有著怎樣的關(guān)系,值得討論。

目前,何為大數(shù)據(jù),并沒有普遍認(rèn)可的概念界定。關(guān)于其特征,目前較為廣泛接受的仍是《大數(shù)據(jù)時代》一書中所提的3點(diǎn):所有數(shù)據(jù)、模糊性、相關(guān)關(guān)系。在我國的日常話語中,大數(shù)據(jù)更多是指代TB、PB以上規(guī)模的巨量數(shù)據(jù)集。因此,關(guān)于數(shù)據(jù)新聞與大數(shù)據(jù)新聞的討論,主要是基于數(shù)據(jù)量級和全面性來劃分,或認(rèn)為大數(shù)據(jù)新聞是數(shù)據(jù)新聞的更高一級形態(tài)[3],或認(rèn)為大數(shù)據(jù)新聞是數(shù)據(jù)新聞的一種[4]。

在本文看來,至少在現(xiàn)階段,對于媒體而言,區(qū)分大數(shù)據(jù)新聞與數(shù)據(jù)新聞既沒有必要,也價值不大。首先,數(shù)據(jù)新聞最重要的是其新聞價值,數(shù)據(jù)量越大并不代表能提取的新聞價值越大;其次,目前,媒體最重要的是建設(shè)技術(shù)團(tuán)隊和數(shù)據(jù)兩大基礎(chǔ),具備基本的數(shù)據(jù)處理能力,同時擴(kuò)展多種渠道獲取數(shù)據(jù)。

三、獲取數(shù)據(jù)與分析數(shù)據(jù)的3個實(shí)例

獲取數(shù)據(jù)與分析數(shù)據(jù)離不開網(wǎng)絡(luò)、程序、算法等技術(shù)人員,以及行業(yè)專家的共同參與。這樣跨領(lǐng)域團(tuán)隊的建設(shè)不作為本文討論的重點(diǎn),但媒體如何獲得這些專業(yè)能力,在實(shí)例分析中會作簡要介紹。

(一)從專題數(shù)據(jù)庫取料,由行業(yè)專家建模分析

2018年,《重慶日報》整版報道了《重慶創(chuàng)新百強(qiáng)企業(yè)區(qū)域與行業(yè)分布報告》數(shù)據(jù)分析內(nèi)容,通過對專利數(shù)據(jù)的分析發(fā)現(xiàn),汽車制造業(yè)領(lǐng)域企業(yè)發(fā)明專利授權(quán)量占總比近四成,符合汽車在重慶的工業(yè)支撐地位,但同時也發(fā)現(xiàn),作為重慶工業(yè)的另一大支柱,本地電子信息業(yè)企業(yè)創(chuàng)新活躍度不高、創(chuàng)新力不強(qiáng),值得引起重視。

《重慶日報》本身既不掌握專利數(shù)據(jù)庫,也沒有數(shù)據(jù)技術(shù)人員、科創(chuàng)研究人員。數(shù)據(jù)新聞前期的數(shù)據(jù)獲取與數(shù)據(jù)分析都是旗下的重報大數(shù)據(jù)研究院進(jìn)行。而重報大數(shù)據(jù)研究院正是基于能夠獲取原始專利數(shù)據(jù)的資源優(yōu)勢,進(jìn)行了此次策劃。

對專利數(shù)據(jù)的處理并不是簡單的統(tǒng)計分析,而是基于專利規(guī)模、創(chuàng)新力和影響力3個維度8項指標(biāo),進(jìn)行建模分析。這一過程,除了研究院數(shù)據(jù)人員外,還有科技情報研究人員與專利代理師的共同參與。數(shù)據(jù)分析結(jié)果還交由中科院成都文獻(xiàn)情報中心專業(yè)人員進(jìn)行獨(dú)立評估,確保數(shù)據(jù)、模型、流程的適用與規(guī)范。

(二)獨(dú)立建模,由數(shù)據(jù)企業(yè)作處理

《四川日報》依托旗下的四川在線全媒體集群MORE大數(shù)據(jù)工作室,近年來制作發(fā)布不少數(shù)據(jù)新聞。因《四川日報》與阿里巴巴本地生活形成緊密合作,很多數(shù)據(jù)新聞的數(shù)據(jù)都來自阿里巴巴本地生活各門類產(chǎn)生的數(shù)據(jù),如口碑、餓了么、支付寶等。

2020年,川報全媒體集群MORE大數(shù)據(jù)工作室聯(lián)合餓了么,聯(lián)合制作《D47數(shù)字生活·新消費(fèi)分析報告》,以數(shù)據(jù)“發(fā)現(xiàn)城市新價值”,從“數(shù)字生活覆蓋度”“數(shù)字生活活躍度”“數(shù)字生活消費(fèi)潛力”“數(shù)字生活消費(fèi)友好性”“數(shù)字生活新潮流”5個維度,對四川省47個市轄區(qū)的數(shù)字消費(fèi)活力進(jìn)行綜合排名,計算與分析各區(qū)的外賣供需指數(shù),從供求的相對關(guān)系中窺探每個市轄區(qū)的消費(fèi)活力與消費(fèi)增長潛力。

合作的方式,簡單而言,首先,MORE大數(shù)據(jù)工作室設(shè)置好議題和指標(biāo)體系、權(quán)重等;之后,餓了么數(shù)據(jù)團(tuán)隊從其數(shù)據(jù)池中對應(yīng)提取、清洗,進(jìn)行模型化計算,得出數(shù)量化結(jié)果;最終,由MORE大數(shù)據(jù)工作室的技術(shù)團(tuán)隊進(jìn)行數(shù)據(jù)結(jié)果審核,由記者團(tuán)隊分析結(jié)果形成數(shù)據(jù)報告,提煉新聞點(diǎn),制作數(shù)據(jù)新聞產(chǎn)品。

(三)通過問卷與爬蟲獲取多源數(shù)據(jù),對單一主題進(jìn)行比對分析

對單一主題的數(shù)據(jù)分析,并不要求數(shù)據(jù)的海量,更看重的是利用多種不同來源數(shù)據(jù)的處理結(jié)果,進(jìn)行比對驗證。對于媒體而言,多源數(shù)據(jù)的獲取可通過向政府部門申請、從互聯(lián)網(wǎng)爬取、問卷等方式統(tǒng)計等渠道和方式進(jìn)行。

自2016年起,廣州日報數(shù)據(jù)和數(shù)字化研究院每年均會發(fā)布《廣報大學(xué)一流學(xué)科排行榜》。該排行榜通過科學(xué)研究指數(shù)、人才培養(yǎng)指數(shù)、學(xué)科聲譽(yù)指數(shù)和二次評估指數(shù)4個維度,對國內(nèi)327所大學(xué)的40個學(xué)科進(jìn)行評價。

報告最后的評價結(jié)果是對指標(biāo)體系分別賦權(quán)后綜合計算得出。在對學(xué)科聲譽(yù)指數(shù)進(jìn)行分析時,因團(tuán)隊對此的界定是主觀認(rèn)知評價,遇到了沒有現(xiàn)成數(shù)據(jù)可用的問題。團(tuán)隊首先采用了問卷調(diào)查的方式,制作學(xué)科評價問卷,通過電子郵件發(fā)送給全國各地總共4000位高校學(xué)者,有效回收1000余份。團(tuán)隊通過問卷中學(xué)者對高校學(xué)科的不同打分和排名進(jìn)行統(tǒng)計分析,初步得出分學(xué)科的排名結(jié)果。

考慮到抽樣調(diào)查代表性、受訪者認(rèn)知偏差等問題,團(tuán)隊又從互聯(lián)網(wǎng)新聞、論壇等渠道盡可能爬取對所涉及高校及學(xué)科的評價,經(jīng)數(shù)據(jù)處理后,與問卷調(diào)查結(jié)果進(jìn)行比對,對整體排名進(jìn)行調(diào)整。

四、結(jié)語

《重慶日報》的操作經(jīng)驗并不具有廣泛復(fù)制性,因為媒體或其下屬機(jī)構(gòu)能夠接觸并利用的元數(shù)據(jù)數(shù)據(jù)庫機(jī)會是極少的。要自建媒體內(nèi)容以外的數(shù)據(jù)庫,時間長、投入大,沒有必要?!端拇ㄈ請蟆返牟僮髂J酵茝V性強(qiáng),但需注意:一是雙方要簽署權(quán)責(zé)明確的數(shù)據(jù)合作協(xié)議;二是新聞單位要對數(shù)據(jù)企業(yè)的數(shù)據(jù)內(nèi)容有深入了解,否則費(fèi)力建模,對方卻沒有對應(yīng)數(shù)據(jù);三是新聞單位也應(yīng)配有數(shù)據(jù)分析師,檢查數(shù)據(jù)企業(yè)反饋的結(jié)果是否符合要求。在《廣州日報》這個實(shí)例中,廣州日報數(shù)據(jù)和數(shù)字化研究院并未與外合作,承擔(dān)了主題設(shè)置、指標(biāo)建模、數(shù)據(jù)收集、數(shù)據(jù)分析等所有工作,所涉工種包括熟知社會科學(xué)調(diào)查方法的媒體人員、技術(shù)人員、數(shù)據(jù)分析師等。這樣的團(tuán)隊配置應(yīng)該成為想要從事數(shù)據(jù)新聞生產(chǎn)的媒體的標(biāo)配。

參考文獻(xiàn):

[1] 祝建華.從大數(shù)據(jù)到數(shù)據(jù)新聞[J].新媒體研究,2014(04):11-13.

[2] 郎勁松,楊海.數(shù)據(jù)新聞:大數(shù)據(jù)時代新聞可視化傳播的創(chuàng)新路徑[J].現(xiàn)代傳播,2014(03):32-36.

[3] 喻國明.從精確新聞到大數(shù)據(jù)新聞——關(guān)于大數(shù)據(jù)新聞的前世今生[J].青年記者,2014(12):43-44.

[4] 莫凡.數(shù)據(jù)新聞的生產(chǎn)現(xiàn)狀、影響與反思[J].新媒體研究,2018(08):35-37.

作者簡介:丁虞(1985—),男,重慶江津人,研究生,碩士,編輯,研究方向:媒體智庫發(fā)展與數(shù)據(jù)新聞制作。

猜你喜歡
數(shù)據(jù)新聞數(shù)據(jù)處理
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
國內(nèi)網(wǎng)絡(luò)數(shù)據(jù)新聞發(fā)展中存在的不足
聲屏世界(2016年9期)2016-11-10 22:49:23
我國數(shù)據(jù)新聞的傳統(tǒng)因素及創(chuàng)新策略
新聞界(2016年12期)2016-11-08 21:45:49
中外數(shù)據(jù)新聞編輯流程比較研究
新聞前哨(2016年10期)2016-10-31 17:28:25
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
媒介融合時代數(shù)據(jù)新聞可視化教學(xué)探索
今傳媒(2016年9期)2016-10-15 23:16:28
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
今傳媒(2016年9期)2016-10-15 22:06:04
MATLAB在化學(xué)工程與工藝實(shí)驗數(shù)據(jù)處理中的應(yīng)用
Matlab在密立根油滴實(shí)驗數(shù)據(jù)處理中的應(yīng)用
廉江市| 保靖县| 拉孜县| 正镶白旗| 翁源县| 凤阳县| 景宁| 越西县| 德清县| 山阳县| 莱芜市| 城步| 邵武市| 西安市| 洪湖市| 西青区| 广州市| 黔西县| 抚松县| 那坡县| 六盘水市| 武强县| 双牌县| 新密市| 昆山市| 建平县| 贡山| 西青区| 台南市| 柳州市| 柘城县| 临江市| 六盘水市| 武穴市| 舒兰市| 宜州市| 桦南县| 陆良县| 繁峙县| 长兴县| 班戈县|