吉勇佳 夏征宇
摘 要 隨著大數(shù)據時代的到來,電視媒體市場有了更多的解決方案。從傳統(tǒng)的日記卡、測量儀到如今的智能化大數(shù)據處理系統(tǒng)實時監(jiān)測。大數(shù)據正以其大量、多樣、高速、價值等特點影響著各行各業(yè),我國的傳統(tǒng)電視媒體的傳播效果評估與視聽效果監(jiān)測也發(fā)生了巨大的變化。文章通過大數(shù)據處理平臺收集并分析電視用戶的行為數(shù)據,采用多維度統(tǒng)計分析的方法挖掘用戶的收視行為特征,對電視媒體形態(tài)下的頻道和節(jié)目進行分析,得出頻道或節(jié)目的傳播效果,用以指導并輔助產品運營、廣告投放及節(jié)目編排,并根據分析結果提出相應措施,提高收視率。
關鍵詞 大數(shù)據;Hadoop;數(shù)據處理;收視率;傳播效果
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2020)23-0027-04
1.1 大數(shù)據相關概念
何謂“大數(shù)據”?在中文維基百科中解釋為“在傳統(tǒng)數(shù)據處理應用軟件不足以處理的大或復雜的數(shù)據集的術語,也有人認為大數(shù)據是指海量無法計算的數(shù)據”[1-2]。大數(shù)據技術是數(shù)據科學領域的一種新的技術框架或模型,它可以及時處理和更新各種數(shù)據,綜合運用數(shù)據感知、采集、存儲、處理、分析和可視化技術來提取有用數(shù)據信息[3]。目前,大數(shù)據主要解決的是大數(shù)據量的存儲和海量數(shù)據的分析計算,并且大數(shù)據處理技術也應用在了各行各業(yè),如物流倉庫,廣告推薦,金融業(yè)務等多個方面。
大數(shù)據有大量、多樣、高速、價值的特點,并有高可靠、高擴展性、高效性、高容錯性的優(yōu)點。移動互聯(lián)網、電子商務、社交網絡等是新一代信息技術的應用形態(tài),這些應用不斷產生大數(shù)據,大數(shù)據技術的應用將成為行業(yè)提高核心競爭力的關鍵因素。
1.2 Hadoop集群規(guī)劃
本文中大數(shù)據處理平臺采用的是5臺裝有CentOS7.6的Linux操作系統(tǒng),以Hadoop2.7.2版本和jdk1.8.0_121版本搭建完全分布式Hadoop大數(shù)據處理集群。通過配置集群環(huán)境ssh免密登錄設置、節(jié)點網絡配置、jdk環(huán)境安裝等。在Hadoop集群配置的過程中,可以使用xsync和scp命令編寫文件分發(fā)腳本,輔助完成集群內各個節(jié)點的環(huán)境配置。集群配置中各節(jié)點主要進程分配見表1。
1.3 Hadoop生態(tài)體系介紹
Hadoop集群中的節(jié)點主要是由Common模塊、MapReduce計算框架、HDFS模塊和Yarn編程框架四個部分構成,Common模塊為平臺提供基礎性的服務功能、系統(tǒng)支持和軟件支持;MapReduce模塊的核心是Map函數(shù)與Reduce函數(shù),MapReduce是一種面向大數(shù)據的運算框架;HDFS模塊的主要功能是負責Hadoop云平臺數(shù)據信息的存儲、調取、管理和使用;yarn是一種新的Hadoop資源管理器。
評價體系既是一種效果評價機制,也是一種激勵和管理機制,還是一種導向機制[5]。本小節(jié)主要是在前人研究的基礎上,通過實驗篩選,從評價指標體系的眾多指標中抽出最核心的人均日收視時長(分鐘)、到達率和收視率、觀眾忠誠度、市場占有率5個指標對頻道或者節(jié)目進行收視分析。通過Hadoop大數(shù)據處理平臺,對用戶行為數(shù)據進行數(shù)據清洗和業(yè)務邏輯處理,得出業(yè)務數(shù)據,并基于此數(shù)據對用戶頻道節(jié)目收視效果評估,進而驗證本方案的可行性。
2.1 電視媒體傳播效果評估的幾個重要指標
2.1.1 收視率
收視率是指針對某特定時段(節(jié)目),平均每分鐘的收視人數(shù)或平均每分鐘的收視人數(shù)占總推及人口的百分比(%)[6]。計算公式如下。
2.2 總體評估方案設計
視聽效果監(jiān)測和媒體傳播效果評估的難點一方面在于評價的維度和指標多且復雜,需要有一套完整的指標體系或者構建出一套媒體效果評價方案;另一方面在于用戶龐大的視聽數(shù)據量。電視、IPTV、OTT和手機等多種媒體形態(tài)時時刻刻都會產生大量的用戶行為數(shù)據。在傳統(tǒng)的處理方法中存在數(shù)據采集來源單一,存儲、運算速度慢的特點。針對這些問題,通過把大數(shù)據處理技術應用于媒體領域,大數(shù)據可以通過MapReduce這一并行處理技術來提高數(shù)據的處理速度,并挖掘出用戶的收視行為特征。
針對上述兩個難點,評估方案按照三個步驟進行。首先,在評價指標方面,通過抽出頻道或節(jié)目的一個維度的幾個核心指標來進行分析,通過統(tǒng)計分析方式對每個節(jié)目的收視率,到達率,人均日收視時長(分鐘),市場份額,觀眾忠誠度幾個方面進行研究,得出某節(jié)目在某天中按不同時間粒度的收視情況。其次,在數(shù)據處理方面,采用hadoop大數(shù)據處理集群,通過flume進行日志收集并上傳至HDFS分布式文件系統(tǒng),MapReduce任務進行大規(guī)模數(shù)據集的并行計算完成數(shù)據清洗,把清洗后的數(shù)據與Hive表進行綁定。Hive是一種數(shù)據倉庫,可以使用sql進行便捷的讀寫,管理存儲在分布式系統(tǒng)上的數(shù)據集,通過hive進行業(yè)務邏輯操作,得出最終處理完成后的數(shù)據信息,最終使用sqoop將hive中的數(shù)據信息導入到支撐業(yè)務開發(fā)和計算的mysql庫。最后,在業(yè)務開發(fā)模塊中,我們可以根據清洗后的數(shù)據,通過指標計算,得出某節(jié)目或者某頻道的收視率,到達率等多個指標信息,并通過echarts可視化、報表等方式輸出分析結果。由此,分析得出各個節(jié)目1小時、30分鐘、10分鐘、5分鐘等不同時間粒度的收視情況,可以精確的知道某個節(jié)目在某一時段收視最高,從而推導得出某個節(jié)目的最精彩的部分,甚至根據收視分析結果指導節(jié)目編排和廣告投放,具體的算法流程圖如圖1。
2.3 收視指標計算模塊設計
為了評價一個頻道或節(jié)目對象,就要為該節(jié)目或頻道設定一個評估對象,取得與該節(jié)目有關的各項監(jiān)測數(shù)據,然后進行計算分析[4]。本文總體評估方案設計模塊中,通過模塊化的設計方 法,整體處理流程分為大數(shù)據處理階段和收視指標計算階段兩大部分,此模塊將重點分析上述談到的5個核心指標計算,并以處理后的業(yè)務數(shù)據為出發(fā)點,通過具體的案例方式進行分析,得出分析結果。表2為基于實驗模擬收視行為數(shù)據并進行數(shù)據處理后某地區(qū)5個頻道的用戶收視情況,該5個頻道構成該地區(qū)的總體收視市場,案例通過計算分析,驗證處理方案的可行性。
根據上述收視情況,我們可以計算出各個頻道的人均日收視時長(分鐘)、到達率和收視率、觀眾忠誠度、市場占有率。統(tǒng)計梳理如表3。
分析得出,該市場下的5個頻道的總體收視率為36.67%,在5個頻道中,頻道2的收視率、觀眾忠誠度最高,人均收視時長達24分鐘/人,遠高于該市場下其他頻道人均收視時長。
本文主要基于大數(shù)據處理技術,分別從收視率、到達率、觀眾忠誠度、人均日收視時長和市場份額5項衡量指標著手,對電視媒體受眾的媒介接觸行為進行挖掘分析。通過Hadoop大數(shù)據處理框架及Azkaban分別進行數(shù)據處理和流程調度,先后完成了數(shù)據清洗、指標計算、結果分析和可視化等操作,得出任意頻道或節(jié)目一天、半天、一小時、半小時、十分鐘等不同時間粒度的收視情況。同時,以半小時為時間粒度綜合分析了某市場下五個不同頻道的收視情況并得出對比結論。由此,可以更好的指導各頻道進行節(jié)目編排,有效提升廣告投放效果,并提高頻道收視率。
參考文獻
[1]李國杰.大數(shù)據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[2]Vance A. Start-up goes after big data with hadoop helper[EB/OL].(2010-04-22)[2020-11-23].https:// web.archive.org/web/20150908124357/http://bits. blogs.nytimes.com/2010/04/22/start-up-goes-afterbig-data-with-hadoop-helper/?dbk.
[ 3]張鋒軍.大數(shù)據技術研究綜述[J].通信技術,2014(11):1240-1248.
[ 4]熊華明,謝長生,夏征宇.電視節(jié)目綜合評估與預警系統(tǒng)的設計與實現(xiàn)[J].計算機工程與應用,2002,38(20):215-217.
[ 5]劉燕南.關于電視評估中納入新媒體指標的思考[J].中國廣播電視學刊,2013(5):11-14.
[ 6]趙利城.基于雙向機頂盒的收視率調查系統(tǒng)研究與實現(xiàn)[D].北京:北京郵電大學,2012.