白冰
摘要:大數(shù)據(jù)技術(shù)屬于全新的數(shù)據(jù)處理模式,有助于透過各類批量化的數(shù)據(jù)進(jìn)行價值挖掘。而以互聯(lián)網(wǎng)融合媒體為基礎(chǔ)的大數(shù)據(jù)應(yīng)用技術(shù),則在媒體傳播領(lǐng)域中扮演著重要的媒體數(shù)據(jù)源泉角色。本文在客觀闡述互聯(lián)網(wǎng)融合媒體的全新特征基礎(chǔ)上,探討基于該類媒體的大數(shù)據(jù)應(yīng)用技術(shù)方法。
關(guān)鍵詞:互聯(lián)網(wǎng);融合媒體;大數(shù)據(jù)應(yīng)用;技術(shù)
一、互聯(lián)網(wǎng)融合媒體的全新特征
(一)非結(jié)構(gòu)化數(shù)據(jù)數(shù)量變多
網(wǎng)絡(luò)數(shù)據(jù)開始朝著非結(jié)構(gòu)化方向過渡轉(zhuǎn)變,特別是在多元化的文本格式、音視頻等資源普及后,涉及非結(jié)構(gòu)化數(shù)據(jù)已然成為互聯(lián)網(wǎng)融合媒體的關(guān)鍵性數(shù)據(jù)來源。不過,究竟怎樣針對這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行細(xì)致性分析,始終是一種艱難的挑戰(zhàn),需要配合大數(shù)據(jù)這類全新的數(shù)據(jù)存儲和處理技術(shù)加以解決應(yīng)對。
(二)信息量增長速度飛快
經(jīng)過交互與移動互聯(lián)網(wǎng)等創(chuàng)新技術(shù)支撐輔助后,用戶完全可以在掙脫時間和空間要素約束的前提下,進(jìn)行不同領(lǐng)域中的數(shù)據(jù)動態(tài)查詢和解析,針對非結(jié)構(gòu)與固定結(jié)構(gòu)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)發(fā)布以及交流互動。無形之中,網(wǎng)絡(luò)信息的增長速度驟然加快,數(shù)據(jù)規(guī)模也變得空前巨大。
(三)信息檢索的難度增加
數(shù)據(jù)規(guī)模持續(xù)擴(kuò)張、數(shù)據(jù)異構(gòu)現(xiàn)象普及后,互聯(lián)網(wǎng)信息的檢索難度也同步增加,準(zhǔn)確度也慢慢降低。如在進(jìn)亍數(shù)據(jù)獲取上,需要借助find函數(shù)來檢索HTML文檔中的某個元素,之后再返回一類包含對象的數(shù)組,最后才能夠獲取數(shù)據(jù)。
二、基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)
應(yīng)用技術(shù)方法
為了更加快速、深人、準(zhǔn)確地分析和應(yīng)用海量的數(shù)據(jù)資源,需要借助可靠的數(shù)據(jù)分析技術(shù)與平臺,大數(shù)據(jù)應(yīng)用技術(shù)是最佳的選擇,原因是其有助于深人挖掘各類數(shù)據(jù)背后隱藏的價值,指引互聯(lián)網(wǎng)融合媒體的發(fā)展方向。
(一)大數(shù)據(jù)技術(shù)平臺方面
互聯(lián)網(wǎng)融合媒體之下的數(shù)據(jù)結(jié)構(gòu)與類型,變得更加繁瑣多元,其間自然對大數(shù)據(jù)分析平臺提出更加嚴(yán)格的規(guī)范要求。所以說,基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)分析技術(shù)要具備以下特征:
首先,擁有高容量的存儲空間和超強(qiáng)的線性擴(kuò)展功效;
其次,運算過程快速且結(jié)果精準(zhǔn),包括數(shù)據(jù)的訪問、檢索、分析等環(huán)節(jié),都有著明顯的低延遲效果;
最后,擁有集成分析的環(huán)境,可以進(jìn)行更高級的分析處理,完成更高難度的建模任務(wù)。
(二)大數(shù)據(jù)技術(shù)方法方面
為了更好地進(jìn)行大數(shù)據(jù)挖掘和解析,需要沿用以下技術(shù)方法:
第一,聚類分析。即按照相似度來進(jìn)行數(shù)據(jù)分組,保證盡快鎖定海量數(shù)據(jù)的共性特征。
第二,回歸分析。包含線性回歸與邏輯回歸兩種分析方式,目的在于明確輸人變量:與結(jié)果彼此間的關(guān)聯(lián)特征。
第三,關(guān)聯(lián)規(guī)則分析。顧名思義,就是快速把握不同行為彼此間的關(guān)系,對應(yīng)的算法主要包括Apriori、FP-Growth等。
第四,分類,就是說針對處理對象予以標(biāo)簽處理,具體的方法有決策樹與樸素貝葉斯等。
(三)大數(shù)據(jù)應(yīng)用建議方面
大數(shù)據(jù)技術(shù)推廣應(yīng)用過后,不僅令數(shù)據(jù)技術(shù)煥然一新,而且在應(yīng)用領(lǐng)域中塑造了全新的生態(tài)體系。該類體系可以依次細(xì)化為數(shù)據(jù)設(shè)備,數(shù)據(jù)采集、數(shù)據(jù)整合、數(shù)據(jù)應(yīng)用、數(shù)據(jù)消費等主體。其中數(shù)據(jù)設(shè)備主要負(fù)責(zé)產(chǎn)生和收集整合數(shù)據(jù),采集者則強(qiáng)調(diào)那些由客戶端、設(shè)備來獲取數(shù)據(jù)的實體,整合者則重點解析、應(yīng)用數(shù)據(jù)并將背后隱藏的規(guī)律和價值提煉出來,消費者則習(xí)慣于透過數(shù)據(jù)分析結(jié)果中進(jìn)行篩選、消費和應(yīng)用。歸結(jié)來講,在互聯(lián)網(wǎng)融合媒體中融人大數(shù)據(jù)技術(shù),有助于進(jìn)行海量網(wǎng)絡(luò)數(shù)據(jù)高效率處理和解析,方便及時而準(zhǔn)確地解析各類用戶行為,完成輿情監(jiān)測任務(wù),進(jìn)一步推動互聯(lián)網(wǎng)媒體融合發(fā)展。
就好比是大數(shù)據(jù)獲取技術(shù)。須知大數(shù)據(jù)的數(shù)據(jù)類型包含結(jié)構(gòu)化和非結(jié)構(gòu)化類型。其中結(jié)構(gòu)化數(shù)據(jù)有較強(qiáng)的動態(tài)性和較高的研究價值,有助于細(xì)致地解析用戶行為,理清數(shù)據(jù)內(nèi)部的潛在價值;非結(jié)構(gòu)化數(shù)據(jù)則主要配合PHP5提供的Simple HTML DOM解析類庫來對頁面予以HTML解析,透過元素的id、class、tag等來完成信息定位。又好比是新媒體聚合發(fā)布平臺,主要擁有多媒介內(nèi)容發(fā)布、多平臺賬號管理、自定義媒體素材庫等功能模塊。其中前者主要用于微博、微信等客戶端內(nèi)容一次編輯,方便實現(xiàn)多平臺共享;而后者則支持監(jiān)測新聞頭條,訂閱兩微一端內(nèi)容,支持不同語種外媒稿件的檢索;至于多平臺賬號管理則支持微博和微信多個賬號的統(tǒng)一運營管理,擁有多平臺復(fù)合權(quán)限。
三、結(jié)語
綜上所述,大數(shù)據(jù)在互聯(lián)網(wǎng)媒體融合發(fā)展過程中有著不可小覷的影響?;诖?,相關(guān)技術(shù)人員須細(xì)致地把握各個領(lǐng)域數(shù)據(jù)的潛在價值,準(zhǔn)確分析不同用戶的行為習(xí)慣,進(jìn)一步透過不同平臺提供貼心的信息推送和輿情引導(dǎo)服務(wù),從而帶動互聯(lián)網(wǎng)媒體融合事業(yè)的協(xié)調(diào)發(fā)展。
(作者單位:吉林工人報社)