呂佳寧 魏芳
【摘要】我們生活的時代是信息爆炸的時代,伴隨信息數(shù)量的井噴式增長,一個最新的概念——“大數(shù)據(jù)”也隨之興起,并逐漸開始影響包括傳媒產(chǎn)業(yè)在內(nèi)的各行各業(yè)的經(jīng)營理念和操作方式。大數(shù)據(jù)在網(wǎng)絡視頻領域的應用和對用戶行為的分析,已經(jīng)展現(xiàn)出其日漸改變視聽產(chǎn)業(yè)的理念、業(yè)態(tài)、調(diào)查方式和經(jīng)營管理方式,大數(shù)據(jù)已成為人們感知社會、改變社會的一個重要方式和工具。
【關鍵詞】大數(shù)據(jù);網(wǎng)絡視頻;用戶行為
半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應用到了所有人類智力與發(fā)展的領域中。
一、大數(shù)據(jù)的基本特征
21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡、電子商務等極大地拓展了互聯(lián)網(wǎng)的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博、微信)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)等行業(yè)都在瘋狂產(chǎn)生著數(shù)據(jù)。
數(shù)據(jù)的單位從小到大依次為Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,相鄰單位之間相差進率為1024。我們?nèi)粘I钪薪佑|較多的是前5個,但大數(shù)據(jù)的單位卻幾乎是從TB才開始的。在2006年,個人用戶剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù),在2011年,這個數(shù)字達到了1.8ZB。根據(jù)著名市場研究機構(gòu)IDC的預測,到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB。想駕馭這些龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的基本特征。
一是體量大(Volume)。據(jù)統(tǒng)計,互聯(lián)網(wǎng)一天產(chǎn)生的全部內(nèi)容可以制作1.68億張DVD,一天發(fā)出2940億封郵件以及200萬個帖子。這些數(shù)據(jù)都表明,互聯(lián)網(wǎng)時代,社交網(wǎng)絡、電子商務與移動通信把人類帶入了一個以“PB”為單位的新時代,PB化已經(jīng)成為比較常態(tài)的情況。大數(shù)據(jù)中的“大”除了大量的意思外,還有全局的概念,所有的數(shù)據(jù)都聚集在這里。
二是多樣化(Variety)。從形式上看,如今的數(shù)據(jù)類型早已不是單一的文本形式,海量數(shù)據(jù)有不同的格式,訂單、日志、音頻對人們的處理能力提出了更高的要求。從結(jié)構(gòu)上看,數(shù)據(jù)分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),其中非結(jié)構(gòu)化數(shù)據(jù)正以很高的速率增長,占總數(shù)據(jù)量的80%~90%,比結(jié)構(gòu)化數(shù)據(jù)增長快10到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10到50倍。
三是價值高(Value)。網(wǎng)絡每天都會產(chǎn)生大量的不相關信息,這些未經(jīng)過處理的原始材料屬于價值密度低的數(shù)據(jù),需要人們沙里淘金。以視頻為例,一部1小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是目前大數(shù)據(jù)洶涌背景下亟待解決的難題。
四是速度快(Velocity)。大數(shù)據(jù)的產(chǎn)生速度相當快,包括股票、資訊等各方面的信息隨時都在傳輸。由于數(shù)據(jù)化存在時效性,需要快速處理并得到結(jié)果,實時獲取需要的信息。比如說一些電商數(shù)據(jù),今天的信息不經(jīng)處理就不能產(chǎn)生有效的結(jié)果,這將會影響到今天捕獲很多商業(yè)決策,因此在海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。[1]
二、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的價值差異
大數(shù)據(jù)包括交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,具體由海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量處理數(shù)據(jù)三種主要技術匯聚組成。
海量交易數(shù)據(jù)指企業(yè)內(nèi)部的經(jīng)營交易信息數(shù)據(jù),主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。
海量交互數(shù)據(jù)來自Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)。它包括呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸Manage File Transfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學信息、電子郵件等。這些數(shù)據(jù)可以告訴我們未來會發(fā)生什么。
海量數(shù)據(jù)處理是一種應對復雜、海量數(shù)據(jù)的能力,大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設計用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運行的Apache Hadoop,難題在于以具備成本效益的方式快速可靠地從Hadoop中存取數(shù)據(jù)。
有人說,大數(shù)據(jù)是對傳統(tǒng)數(shù)據(jù)的終結(jié)和替代。這種觀點并不被學者們普遍接受。但大數(shù)據(jù)的價值和處理方式的確與傳統(tǒng)數(shù)據(jù)有很大程度的不同。
在宗旨上,傳統(tǒng)數(shù)據(jù)處理遵循的是固化業(yè)務優(yōu)于高效,高效優(yōu)于發(fā)現(xiàn)業(yè)務。整體上講這是一種求穩(wěn)策略。而大數(shù)據(jù)處理卻將傳統(tǒng)方法的順序整體顛倒過來,首先是發(fā)現(xiàn)業(yè)務,其次是高效,最后是固化業(yè)務。
在數(shù)據(jù)特點上,傳統(tǒng)數(shù)據(jù)面對的一般是企業(yè)內(nèi)部數(shù)據(jù),數(shù)據(jù)量一般不會超過10億量級。大數(shù)據(jù)處理的卻是多樣化的數(shù)據(jù),從數(shù)據(jù)來源上有內(nèi)部和外部,數(shù)據(jù)結(jié)構(gòu)上有結(jié)構(gòu)化和非結(jié)構(gòu)化,數(shù)據(jù)量可處理xPB級。
在技術手段上,傳統(tǒng)數(shù)據(jù)處理方法使用商務智能的開源RDBMS,昂貴的分析挖掘工具,甚至是商用集群。大數(shù)據(jù)處理方法則更多的是使用開源技術,更注重數(shù)據(jù)本身,使用多種技術解決業(yè)務問題。
在場景上,傳統(tǒng)數(shù)據(jù)主要處理實時、事務性、在線業(yè)務,而大數(shù)據(jù)則會處理大量的批量數(shù)據(jù)和少量的在線實時型數(shù)據(jù)??偠灾瑐鹘y(tǒng)數(shù)據(jù)是以業(yè)務為中心,大數(shù)據(jù)則是以數(shù)據(jù)為中心,數(shù)據(jù)為業(yè)務服務。
三、網(wǎng)絡視頻類用戶行為分析
(一)中國網(wǎng)絡視頻發(fā)展的現(xiàn)狀。中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的《第33次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2013年12月,中國網(wǎng)絡視頻用戶規(guī)模達4.28億,較上年底增加5637萬人,增長率為15.2%。網(wǎng)絡視頻使用率為69.3%,與上年底相比增長3.4個百分點,而且這一規(guī)模依舊呈現(xiàn)出持續(xù)穩(wěn)定上升的態(tài)勢。在收看新電影、熱播劇方面,網(wǎng)絡視頻已經(jīng)成為網(wǎng)民的首選。上述報告還顯示,在收看電視劇的渠道選擇偏好上,“基本通過網(wǎng)上收看的比例為28.7%,大部分通過網(wǎng)上看,偶爾在電視上看”的用戶占25%,可以說網(wǎng)絡視頻已經(jīng)分流了傳統(tǒng)電視劇播放超過50%的收看渠道。網(wǎng)絡視頻有著收看時間自由、播放時長不受限制、廣告插播次數(shù)少等特點,很好地避免了傳統(tǒng)電視媒體稍縱即逝、被動接受、插播廣告等先天性劣勢,迎合了用戶的需求。目前主流的網(wǎng)絡視頻媒體有十余家,包括優(yōu)酷土豆、搜狐視頻、PPS網(wǎng)絡電視、迅雷看看、愛奇藝、樂視網(wǎng)、酷6等等。一些網(wǎng)站的用戶重合度較高,比如搜狐視頻與優(yōu)酷(40%)、搜狐視頻與土豆(41.2%)[1],用戶還未對特定的視頻網(wǎng)站持較高的忠誠度,網(wǎng)站之間的用戶流動性大。對于視頻網(wǎng)站來說,豐富網(wǎng)站資源、加快更新速度是提高用戶黏性的關鍵。
(二)中國網(wǎng)絡視頻用戶的收看方式。據(jù)調(diào)研,通過搜索引擎進入視頻網(wǎng)站仍然是當前用戶收看視頻的最主要方式。當想收看某個視頻時,35.1%的用戶首先通過搜索引擎找到視頻后收看,這類用戶還未對特定視頻網(wǎng)站形成忠誠度。有小部分用戶形成了直接登錄視頻網(wǎng)站的習慣,甚至通過下載安裝的視頻客戶端尋找視頻。
用戶主要通過PC電腦上網(wǎng)看視頻,使用比例高達96%,與此同時,使用移動設備(手機、平板)上網(wǎng)看視頻的比例也達到了49.4%。[1]隨著移動設備性能提高、視頻客戶端質(zhì)量提升,移動網(wǎng)絡視頻也逐漸被人們所接受。
(三)中國網(wǎng)絡視頻用戶行為的監(jiān)測形式。在互聯(lián)網(wǎng)領域不斷涌現(xiàn)的新業(yè)務中,網(wǎng)絡視頻業(yè)務無疑是最受人關注的業(yè)務,但同時也是網(wǎng)絡中帶寬需求最大的一個部分。對用戶的網(wǎng)絡行為進行監(jiān)測是網(wǎng)絡視頻得以成功發(fā)展和推廣的關鍵,通過監(jiān)測了解用戶的搜索、觀看與反饋行為,反映真實的視頻品質(zhì),準確地分析視頻業(yè)務中的亮點與問題,進而提升用戶體驗質(zhì)量。
具體而言,這些監(jiān)測行為包括手機App、微博、百度搜索等。手機App可產(chǎn)生用戶反饋,如搜狐視頻、愛奇藝都有自己的手機客戶端,通過客戶端即可獲得一部分忠實用戶的數(shù)據(jù)。此外,微博上用戶所發(fā)表的意見或形成的討論也是十分有價值的信息,許多人將微博作為自己首要的發(fā)聲場所。百度搜索是目前為止網(wǎng)絡上最為重要的數(shù)據(jù)來源,因為每天都有數(shù)以億計的網(wǎng)民在搜索欄中輸入無數(shù)詞條,這些詞條的價值是無法想象的,并且根據(jù)一些關鍵詞還會產(chǎn)生文章的推薦鏈接,通過這些都可以勾畫出用戶的網(wǎng)絡行為。
最為完整、時時刻刻都在記錄用戶行為的當數(shù)Cookie,人們稱Cookie“像網(wǎng)絡身份證一樣收集用戶數(shù)據(jù)”。它能夠讓網(wǎng)絡服務器把數(shù)據(jù)存儲到用戶的硬盤,之后再從硬盤中讀取數(shù)據(jù)。它與各瀏覽器結(jié)合,針對每一個電腦用戶產(chǎn)生一個獨特的識別碼,記錄用戶的ID、密碼、曝光頻次、視頻點擊次數(shù)、視頻點擊位、瀏覽過的網(wǎng)頁等等。用戶的每一次訪問都會記錄,數(shù)據(jù)量巨大,正因為如此,Cookie往往只有數(shù)月的存活期。
行為數(shù)據(jù)的獲取整體上有兩個途徑,即插碼在線采集和線下數(shù)據(jù)導入。通過在頁面上嵌入JS代碼,采集用戶在線行為數(shù)據(jù),這些行為包括搜索、點擊、下載、收藏、評論、分享、邀請、標注、上傳、評分,甚至包括頁面停留時間、滾動、懸停、回退等細微行為。線下數(shù)據(jù)導入是指定期更新傳輸協(xié)議,離線爬取內(nèi)容數(shù)據(jù),獲取用戶信息與資訊內(nèi)容。
(四)中國網(wǎng)絡視頻用戶的行為評估指標。獲取數(shù)據(jù)的意義在于對數(shù)據(jù)進行評估,以指導今后的戰(zhàn)略調(diào)整與制定,這些評估指標包括以下幾項:曝光量,即視頻展示了多少次;曝光人數(shù),即有多少人看了視頻;點擊數(shù),即視頻點擊次數(shù);點擊人數(shù),即視頻點擊人數(shù);點擊率,即每100次曝光產(chǎn)生多少次點擊;UV點擊率,即每100個看視頻的人有多少人點擊了該視頻。更為重要的四個指標是眼球系數(shù)、網(wǎng)絡千人成本、互動數(shù)與蹦失率。
眼球系數(shù)指每個點位吸引瀏覽者眼球的能力指數(shù),由紅外眼動儀測量吸引時間、吸引時長等計算得出。網(wǎng)絡千人成本指某一視頻在網(wǎng)絡上每曝光1000名目標受眾所花成本。互動數(shù)是指參與互動如訪問內(nèi)容頁、上傳下載、評論、分享、游戲等活動網(wǎng)站互動的人數(shù)。蹦失率是訪問頁面人中沒有作任何點擊就離開頁面的人占總?cè)藬?shù)的比率為多少。
(五)中國網(wǎng)絡視頻用戶的人群特征。由IP庫或者手機定位技術可分析節(jié)目源受眾人群的地理分布,結(jié)合網(wǎng)站行為數(shù)據(jù)還可了解不同地區(qū)觀眾對節(jié)目的滿意程度。按照用戶對網(wǎng)絡視頻的依賴程度由低到高,用戶可以分為初級用戶、中級用戶、高度依賴用戶和最深度用戶。初級用戶相對保守,很少移動上網(wǎng),在信息接收上以被動為主。最深度用戶則經(jīng)常接觸App類媒體,頻繁移動上網(wǎng),網(wǎng)絡社交行為頻繁,依賴生活化和本地化的移動服務。
(六)視頻網(wǎng)站的訪問路徑分析與用戶追蹤。通過記錄不同來源的訪客瀏覽時的訪問順序,掌握活動網(wǎng)站的關鍵路徑和結(jié)構(gòu)上的漏洞,之后針對結(jié)構(gòu)的不合理之處進行優(yōu)化提高。同時利用用戶的Cookie記錄的瀏覽者不同行為,可以將人群進行分類,并在未來通過分類標志找到他們,以達到被視頻影響過的人群不管到哪里都可以找回來的目標。通過重定向?qū)N上標簽的人群進行精準追蹤,可以獲得很好的效果。
(七)網(wǎng)絡視頻用戶行為分析的數(shù)據(jù)挖掘技術。
1.網(wǎng)絡數(shù)據(jù)流挖掘。如何對視頻用戶產(chǎn)生的網(wǎng)絡數(shù)據(jù)進行分析,并從中得到有效信息是當下業(yè)界研究的熱點。當然對網(wǎng)絡數(shù)據(jù)進行分析的前提是網(wǎng)絡數(shù)據(jù)流的挖掘。
網(wǎng)絡數(shù)據(jù)流挖掘指的是通過互聯(lián)網(wǎng)爬蟲實時了解網(wǎng)絡信息,包括互聯(lián)網(wǎng)上有哪些突發(fā)主題,主題的來源、傳播與分布,主題的影響力等等。這種技術的挑戰(zhàn)之一在于時間對信息的影響,在準確性上,多個流上發(fā)生在同時間段的不同主題可能被混淆為一個,也可能找到多個時間分布不同但語義相同的重復主題。正因為可能會找到重復主題,在主題數(shù)目一定的情況下,勢必會丟失某些其他重要主題。挑戰(zhàn)之二在于針對突發(fā)或新興事件的資源不足,在突發(fā)事件上,人們總是選擇基于歷史數(shù)據(jù)進行分析挖掘,但這樣往往效果不好,不僅成本高,而且在時效上也難以滿足需求,如何更有效地借助不同但相關的資源是需要考慮的一大問題。
2.短文本挖掘。短文本是一種早已廣泛存在并且得到越來越多關注的一種信息形式,鍵入搜索引擎的詞條、聊天室對話、新聞標題、狀態(tài)信息等都是短文本的存在地。通過短文本分析將信息分類為“垃圾信息”和“非垃圾信息”,并識別出用戶屬于哪個用戶群類別,針對不同的類別還可以進行廣告精準投放。短文本挖掘的主要挑戰(zhàn)是信息稀疏,給分析帶來一定的挑戰(zhàn)。
3.可視數(shù)據(jù)挖掘。如今數(shù)據(jù)的表達方式越來越多,各種媒體數(shù)據(jù)混雜出現(xiàn)。在挖掘分析數(shù)據(jù)時,往往對圖像進行關鍵詞標注處理,根據(jù)圖像的底層特征,自動找出能夠有效描述其語義內(nèi)容的文本標簽。而對文本則進行圖像化的描述,根據(jù)文本的內(nèi)容,自動找出能夠有效描述其內(nèi)容的圖像。這種方法的宗旨在于盡可能等價地將圖像與文本互相轉(zhuǎn)化,便于統(tǒng)一索引、存儲、管理和檢索,可以有效提高數(shù)據(jù)挖掘結(jié)果的可信度、可理解性和可用性。
綜上所述,大數(shù)據(jù)技術已經(jīng)和視聽媒介產(chǎn)業(yè)密不可分,并且將日漸改變中國視聽產(chǎn)業(yè)的理念、業(yè)態(tài)、調(diào)查方式和經(jīng)營管理方式。當然,大數(shù)據(jù)縱然可以改變一切,但不能代替一切,更不可能任何事情、任何場合、任何時候都能用得上大數(shù)據(jù)。因此,在認識和運用大數(shù)據(jù)的時候,視聽產(chǎn)業(yè)或企業(yè)也必須充分認識到其局限性,用長棄短,切忌跟風炒作,更不要迷信神化。
參考文獻:
[1]圖解大數(shù)據(jù):特點有“4V”大量多樣高速價值[EB/OL].新華網(wǎng),[2014-02-25].http://news.xinhuanet.com/info/2014-02/25/c_133141357.htm.
(呂佳寧為北京大學視聽傳播研究中心助理研究員;魏芳為中國移動研究院教授級高工)
編校:董方曉