紀(jì) 海,曹三省
(中國(guó)傳媒大學(xué) a.中國(guó)傳播能力建設(shè)協(xié)同創(chuàng)新中心;b.新媒體研究院;c.信息工程學(xué)院,北京 100024)
基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)應(yīng)用技術(shù)分析
紀(jì) 海a,c,曹三省a,b
(中國(guó)傳媒大學(xué) a.中國(guó)傳播能力建設(shè)協(xié)同創(chuàng)新中心;b.新媒體研究院;c.信息工程學(xué)院,北京 100024)
大數(shù)據(jù)技術(shù)作為一種新的數(shù)據(jù)處理解決方案,能夠很好地完成對(duì)類型繁多、規(guī)模龐大的海量數(shù)據(jù)的處理與價(jià)值挖掘工作?;ヂ?lián)網(wǎng)與傳統(tǒng)廣播電視相融合而形成的媒體形態(tài),作為重要的媒體傳播領(lǐng)域與媒體數(shù)據(jù)源泉,大數(shù)據(jù)應(yīng)用將對(duì)其產(chǎn)生深刻影響。通過(guò)對(duì)“大數(shù)據(jù)時(shí)代”下互聯(lián)網(wǎng)融合媒體的發(fā)展與特點(diǎn)的闡述,揭示了大數(shù)據(jù)在互聯(lián)網(wǎng)融合媒體中應(yīng)用的重要性與必要性。同時(shí),對(duì)大數(shù)據(jù)在互聯(lián)網(wǎng)融合媒體中的應(yīng)用技術(shù)進(jìn)行了簡(jiǎn)要分析。
大數(shù)據(jù);互聯(lián)網(wǎng)融合媒體;Hadoop
繼云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)之后,“大數(shù)據(jù)”已經(jīng)成為全球關(guān)注的新熱點(diǎn),正在引領(lǐng)新一輪的數(shù)據(jù)技術(shù)革新的浪潮。大數(shù)據(jù)尚未具有統(tǒng)一認(rèn)同的合適定義,但是公眾普遍認(rèn)同其具有的4個(gè)特點(diǎn)能很好地對(duì)其進(jìn)行描述,分別是Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。目前,大數(shù)據(jù)技術(shù)已經(jīng)橫跨多個(gè)技術(shù)領(lǐng)域,從云計(jì)算、虛擬化和數(shù)據(jù)存儲(chǔ),到數(shù)據(jù)庫(kù)管理、數(shù)據(jù)挖掘與處理等。這使得大數(shù)據(jù)的應(yīng)用價(jià)值得到極大的提升,并且已經(jīng)對(duì)包括醫(yī)療衛(wèi)生、教育服務(wù)、電子商務(wù)、媒體輿論等在內(nèi)的各個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。面對(duì)規(guī)模不斷擴(kuò)大、種類不斷增加的海量數(shù)據(jù),公眾已經(jīng)深刻地感受到大數(shù)據(jù)時(shí)代的到來(lái)[1-5]。
互聯(lián)網(wǎng)作為媒體傳播的重要領(lǐng)域,對(duì)于社會(huì)發(fā)展、輿論導(dǎo)向、國(guó)家安全而言具有重要意義。傳統(tǒng)廣播電視在實(shí)現(xiàn)面向互聯(lián)網(wǎng)的技術(shù)轉(zhuǎn)型之后,與互聯(lián)網(wǎng)融合形成了包括IPTV、OTT、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)電視臺(tái)、APP手機(jī)電視等多種融合媒體形態(tài)。伴隨大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)融合媒體利用虛擬化的媒體信息傳播技術(shù)和交互技術(shù)已經(jīng)成為數(shù)據(jù)產(chǎn)生的重要源泉,由此也衍生了眾多的新型數(shù)據(jù)。利用大數(shù)據(jù)對(duì)互聯(lián)網(wǎng)融合媒體領(lǐng)域進(jìn)行數(shù)據(jù)管理與數(shù)據(jù)挖掘具有重要的科研價(jià)值與實(shí)際意義。
互聯(lián)網(wǎng)融合媒體,通常是指廣播電視機(jī)構(gòu)利用國(guó)際互聯(lián)網(wǎng)信息傳播平臺(tái),將文字、聲音、圖像、視頻等各種形式的數(shù)據(jù)進(jìn)行數(shù)字化處理后,在計(jì)算機(jī)、手機(jī)、平板電腦等終端上進(jìn)行傳播的媒體形式。其具有數(shù)字化、交互性、全球性、易存儲(chǔ)、易檢索、多媒體化等特點(diǎn)。伴隨大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)融合媒體正在經(jīng)歷新的技術(shù)變革,由此也展現(xiàn)出新的特點(diǎn):
1)數(shù)據(jù)增長(zhǎng)日益趨向非結(jié)構(gòu)化
伴隨互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)正在朝向非結(jié)構(gòu)化方向發(fā)展,更加多樣的文本格式、豐富的音視頻與圖像展示等,已經(jīng)顯示非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)融合媒體的重要數(shù)據(jù)源。然而,如何實(shí)現(xiàn)文本文檔、PDF文檔、XML、圖像和音視頻等非結(jié)構(gòu)化數(shù)據(jù)有效分析一直都是數(shù)據(jù)分析中的難題,大數(shù)據(jù)作為全新的數(shù)據(jù)存儲(chǔ)與處理技術(shù),能夠提供新的解決方案。
2)信息量增長(zhǎng)更快
互聯(lián)網(wǎng)融合媒體在交互技術(shù)與移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展下,用戶已經(jīng)實(shí)現(xiàn)了在任何地方、任何時(shí)間訪問(wèn)互聯(lián)網(wǎng)進(jìn)行信息發(fā)布、交流互動(dòng)等操作。這促進(jìn)了網(wǎng)絡(luò)信息的增加速度不斷加快,數(shù)據(jù)規(guī)模不斷增大。
3)信息檢索難度加大
隨著數(shù)據(jù)規(guī)模的擴(kuò)大與數(shù)據(jù)異構(gòu)問(wèn)題的日益嚴(yán)重,互聯(lián)網(wǎng)信息檢索難度在不斷增大,準(zhǔn)確度也在下降。
大數(shù)據(jù)的出現(xiàn)不但引領(lǐng)數(shù)據(jù)技術(shù)的革新,同時(shí)也在應(yīng)用領(lǐng)域建立一個(gè)新的生態(tài)體系——大數(shù)據(jù)生態(tài)系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)設(shè)備、數(shù)據(jù)采集者、數(shù)據(jù)匯總者以及數(shù)據(jù)使用者和消費(fèi)者。數(shù)據(jù)設(shè)備主要包括產(chǎn)生與收集數(shù)據(jù)的相關(guān)設(shè)備;數(shù)據(jù)采集者主要包括從相關(guān)設(shè)備和客戶端進(jìn)行數(shù)據(jù)獲取的實(shí)體;數(shù)據(jù)匯總者主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行分析與處理,提取大數(shù)據(jù)所蘊(yùn)含的價(jià)值與規(guī)律;數(shù)據(jù)使用者/消費(fèi)者主要對(duì)具有價(jià)值的數(shù)據(jù)分析結(jié)果進(jìn)行使用和消費(fèi)。在互聯(lián)網(wǎng)融合媒體中運(yùn)用大數(shù)據(jù),將可以更好地實(shí)現(xiàn)海量網(wǎng)絡(luò)數(shù)據(jù)處理和分析,完成用戶行為分析、輿情監(jiān)測(cè),為互聯(lián)網(wǎng)融合媒體的健康有序發(fā)展提供指導(dǎo)性的建議。
大數(shù)據(jù)在互聯(lián)網(wǎng)融合媒體中的應(yīng)用技術(shù)主要包括大數(shù)據(jù)獲取技術(shù)、大數(shù)據(jù)分析技術(shù)與Hadoop平臺(tái)。
2.1 大數(shù)據(jù)獲取技術(shù)
大數(shù)據(jù)的數(shù)據(jù)類型結(jié)構(gòu)主要分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如圖1所示。
圖1 大數(shù)據(jù)結(jié)構(gòu)類型
1)結(jié)構(gòu)化數(shù)據(jù)
互聯(lián)網(wǎng)融合媒體中的動(dòng)態(tài)結(jié)構(gòu)化數(shù)據(jù)具有更高的研究?jī)r(jià)值,能夠更好地分析用戶行為,總結(jié)數(shù)據(jù)中的潛在價(jià)值。對(duì)其采用查找平臺(tái)動(dòng)態(tài)數(shù)據(jù)源、解析數(shù)據(jù)源、正則表達(dá)式匹配數(shù)據(jù)進(jìn)行抓取,如圖2所示。
圖2 數(shù)據(jù)抓取方式
2)非結(jié)構(gòu)化數(shù)據(jù)
對(duì)于互聯(lián)網(wǎng)融合媒體中的非結(jié)構(gòu)化數(shù)據(jù),可采用PHP5所提供的Simple HTML DOM解析類庫(kù)對(duì)頁(yè)面進(jìn)行HTML解析,通過(guò)元素的id、class、tag等來(lái)進(jìn)行信息定位,利用find函數(shù)來(lái)查找HTML文檔中的元素,并返回一個(gè)包含對(duì)象的數(shù)組,完成數(shù)據(jù)獲取。
2.2 大數(shù)據(jù)分析技術(shù)
面對(duì)互聯(lián)網(wǎng)融合媒體帶來(lái)的快速增長(zhǎng)的數(shù)據(jù)量,為了更好地分析和利用這些海量的數(shù)據(jù)資源,必須利用有效的數(shù)據(jù)分析平臺(tái)和技術(shù)。運(yùn)用大數(shù)據(jù)帶來(lái)的理念與技術(shù)革新對(duì)數(shù)據(jù)資源進(jìn)行深入的處理,挖掘數(shù)據(jù)內(nèi)部所存在的潛在價(jià)值,對(duì)互聯(lián)網(wǎng)融合媒體發(fā)展進(jìn)行有效的指導(dǎo)。
1)大數(shù)據(jù)分析平臺(tái)
大數(shù)據(jù)帶來(lái)了更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和類型,以及更加龐大的數(shù)據(jù)資源,對(duì)于大數(shù)據(jù)分析平臺(tái)提出了更高的要求。因此,其具有新的技術(shù)特點(diǎn)。分別是:
(1)規(guī)模達(dá)到Pbyte級(jí)別的高容量存儲(chǔ)空間,擁有線性擴(kuò)展能力;
(2)高效快速的運(yùn)算能力,提供低延遲的訪問(wèn)、搜索和分析等處理;
(3)具有集成分析環(huán)境,進(jìn)行更加高級(jí)的分析處理和建模。
2)大數(shù)據(jù)分析方法
基于大數(shù)據(jù)挖掘的主要分析方法有:
(1)聚類分析(K-means算法),利用相似度對(duì)數(shù)據(jù)進(jìn)行分組,找到數(shù)據(jù)中的共性;
(2)回歸分析,確定輸入變量與結(jié)果之間的關(guān)系,主要有線性回歸與邏輯回歸;
(3)關(guān)聯(lián)規(guī)則分析,尋找行為之間的關(guān)系,主要有Apriori、FP-growth算法;
(4)分類,對(duì)處理對(duì)象進(jìn)行標(biāo)簽處理,主要有決策樹(shù)、樸素貝葉斯等。
2.3 Hadoop大數(shù)據(jù)支撐平臺(tái)
Hadoop作為Apache基金會(huì)旗下的一個(gè)開(kāi)源分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層的分布式基礎(chǔ)架構(gòu)。具有高可靠性、高擴(kuò)展性、高效性以及高容錯(cuò)性,利用計(jì)算機(jī)集群進(jìn)行數(shù)據(jù)存儲(chǔ)與運(yùn)算。數(shù)據(jù)能夠在節(jié)點(diǎn)之間動(dòng)態(tài)移動(dòng),確保節(jié)點(diǎn)的動(dòng)態(tài)平衡,同時(shí),平臺(tái)允許進(jìn)行節(jié)點(diǎn)擴(kuò)展,增加平臺(tái)容量。因此,Hadoop是一種適合進(jìn)行大數(shù)據(jù)存儲(chǔ)與處理的平臺(tái)。
Hadoop基于Linux系統(tǒng)搭建的數(shù)據(jù)運(yùn)算平臺(tái),擁有2個(gè)核心系統(tǒng),分別是分布式文件系統(tǒng)(HDFS)和MapRe?duce系統(tǒng)。
1)HDFS系統(tǒng)
HDFS基于Java語(yǔ)言開(kāi)發(fā),采用主從結(jié)構(gòu)模型(Mas?ter/Slave),任何支持Java的機(jī)器都可以搭建該系統(tǒng)。一個(gè)HDFS集群是由一個(gè)主服務(wù)器(NameNote)和若干個(gè)從節(jié)點(diǎn)(DataNote)組成。其中主服務(wù)器負(fù)責(zé)管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)操作,DataNote管理存儲(chǔ)的數(shù)據(jù)。
2)MapReduce系統(tǒng)
MapReduce是一種并行編程模式,可以用一種高容錯(cuò)的方式并行數(shù)據(jù)大規(guī)模的數(shù)據(jù)資源。主要是由一個(gè)單獨(dú)運(yùn)行在NameNote上的JobTracker和運(yùn)行在集群DataN?ote上的TaskTracker共同組成。當(dāng)Job提交,JobTracker接收J(rèn)ob并進(jìn)行信息配置,同時(shí)將配置信息分發(fā)給從節(jié)點(diǎn),然后調(diào)度任務(wù)并監(jiān)控TaskTracker的執(zhí)行。
伴隨互聯(lián)網(wǎng)領(lǐng)域內(nèi)的持續(xù)創(chuàng)新和傳統(tǒng)廣播電視機(jī)構(gòu)新媒體技術(shù)應(yīng)用能力的提升,兼具廣播電視與互聯(lián)網(wǎng)基因的互聯(lián)網(wǎng)融合媒體正在經(jīng)歷快速發(fā)展的階段,大數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜化,數(shù)據(jù)規(guī)模更加龐大化。大數(shù)據(jù)能很好地實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)融合媒體數(shù)據(jù)的海量存儲(chǔ)、高效處理、無(wú)延遲搜索以及分析建模,挖掘大數(shù)據(jù)背后的潛在價(jià)值和規(guī)律,為互聯(lián)網(wǎng)融合媒體健康有序的發(fā)展提供指導(dǎo)。
[1] 周寶曜,六維,范承工.大數(shù)據(jù)戰(zhàn)略·技術(shù)·實(shí)踐[M].北京:電子工業(yè)出版社,2013.
[2]陸嘉恒.Hadoop實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2011.
[3] 鐘瑛,張恒山.2013年:大數(shù)據(jù)驅(qū)動(dòng)下的傳媒轉(zhuǎn)型[J].新聞與寫(xiě)作,2013(12):11-13.
[4]閆城榛,宋迪.“大數(shù)據(jù)”時(shí)代或?qū)⒁瑐髅桨l(fā)展新格局[J].中國(guó)傳媒科技,2012(19):64-65.
[5] 張彥華.大數(shù)據(jù)時(shí)代國(guó)內(nèi)傳媒產(chǎn)業(yè)的挑戰(zhàn)與機(jī)遇[J].現(xiàn)代傳媒,2013(11):22-26.
Analysis of Big Data App lication Technology Based on Internet Fusion M edia
JI Haia,c,CAO Sanxinga,b
(a.China Broadcast Capacity Build Collaborative Innovation Center; b.New Media Institute,Communication University of China,Beijing 100024,China)
Big data technology as a new data processing solution,can process and mine massive various and valuable data. The media formed by Internet and the traditional broadcast TV,as an important field of media broadcast and media data source,can be impacted by big data applications.Through the discussing of characteristics and development of fusion media based on"big data era",the importance and necessity of media data fusion application on the internet are revealed.At the same time,the big data fusion application technologies in the Internet fusion media are briefly analyzed.
big data;internet fusion media;Hadoop
TN948
A
?? 京
2014-05-05
【本文獻(xiàn)信息】紀(jì)海,曹三省.基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)應(yīng)用技術(shù)分析[J].電視技術(shù),2014,38(21).