国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術(shù)在新媒體產(chǎn)業(yè)中的應(yīng)用

2015-08-15 00:54孟肖虎
科技視界 2015年5期
關(guān)鍵詞:爬蟲(chóng)集群服務(wù)器

孟肖虎

(中國(guó)電力傳媒集團(tuán)有限公司,中國(guó) 北京 100070)

0 概述

近些年部分傳媒企業(yè)本著為目標(biāo)受眾提供權(quán)威信息資訊的目標(biāo),并進(jìn)一步推進(jìn)媒體融合,著手建設(shè)大數(shù)據(jù)采集與分析系統(tǒng),本文根據(jù)筆者在中國(guó)電力傳媒集團(tuán)從事相關(guān)工作多年的經(jīng)驗(yàn),對(duì)大數(shù)據(jù)技術(shù)在新媒體產(chǎn)業(yè)中的應(yīng)用進(jìn)行簡(jiǎn)要討論。

媒體的大數(shù)據(jù)系統(tǒng)要具有信息采集的功能,根據(jù)用途的不同,設(shè)計(jì)系統(tǒng)的日信息處理量,以及爬蟲(chóng)的采集列表,系統(tǒng)需要具備中文信息處理功能,對(duì)信息進(jìn)行過(guò)濾、去重、相似性聚類、情感分析、文摘、自動(dòng)分類等處理。

系統(tǒng)基于云計(jì)算架構(gòu)進(jìn)行設(shè)計(jì),硬件以多臺(tái)服務(wù)器虛擬成一個(gè)集群,以集群為單位進(jìn)行無(wú)限擴(kuò)容。軟件總體設(shè)計(jì)模塊化,以功能模塊為單位進(jìn)行程序編碼。編碼過(guò)程采用主程序、子程序等框架將系統(tǒng)的主要結(jié)構(gòu)和流程進(jìn)行描述,并定義和調(diào)試各個(gè)框架之間的輸入、輸出鏈接關(guān)系,形成一系列以功能模塊為單位的算法描述。模塊化設(shè)計(jì)使系統(tǒng)的部署、調(diào)試和維護(hù)等操作規(guī)范化。即使某一個(gè)模塊發(fā)生故障,也不影響到其他模塊的正常工作,不會(huì)造成整個(gè)系統(tǒng)的癱瘓,確保在多種情況下系統(tǒng)的正常運(yùn)行。

系統(tǒng)可以為企業(yè)信息收集、報(bào)紙內(nèi)容、研究類刊物以及手機(jī)APP、微博、微信等移動(dòng)終端提供大數(shù)據(jù)服務(wù),成為媒體融合的底層平臺(tái)基礎(chǔ)。同時(shí),客觀上也是主動(dòng)推進(jìn)傳媒企業(yè)在內(nèi)容、平臺(tái)、渠道、經(jīng)營(yíng)、管理上進(jìn)行融合發(fā)展的催化劑,為新媒體工作的創(chuàng)新發(fā)展提供了有力保障。

1 系統(tǒng)設(shè)計(jì)

系統(tǒng)由多個(gè)服務(wù)器集群構(gòu)成,每個(gè)集群功能配置完全一致,單一集群由數(shù)據(jù)采集服務(wù)器群以及數(shù)據(jù)分析服務(wù)器組成,其中,數(shù)據(jù)采集服務(wù)器群由多臺(tái)服務(wù)器組成,由一臺(tái)調(diào)度服務(wù)器進(jìn)行任務(wù)分配,整個(gè)系統(tǒng)實(shí)現(xiàn)了云采集功能。根據(jù)數(shù)據(jù)采集量可增減采集服務(wù)器的數(shù)量以及相應(yīng)的帶寬。系統(tǒng)在設(shè)計(jì)之初,為了避免原文被刪除的情況,增加了快照功能,更好的協(xié)助用戶還原信息原貌,但是隨之而來(lái)的是需要大量的存儲(chǔ)設(shè)備予以支持。

數(shù)據(jù)采集服務(wù)器群中,安裝了多個(gè)不同性質(zhì)的爬蟲(chóng),對(duì)于大多數(shù)新聞網(wǎng)站,采集爬蟲(chóng)遵循廣度優(yōu)先原則,這樣的采集策略需要較長(zhǎng)時(shí)間與更多資源,為了合理的控制爬蟲(chóng)資源,采集系統(tǒng)將不同網(wǎng)站付以權(quán)重,權(quán)重高的相應(yīng)采集頻率會(huì)隨之增高。針對(duì)貼吧以及BBS則需要選擇高效率的采集策略,以免多次頻繁的采集行為被目標(biāo)網(wǎng)站視為攻擊行為,而被禁止訪問(wèn),所以采用定向抓取以及聚焦抓取的策略,通過(guò)URL分析,可以判斷出網(wǎng)頁(yè)是否屬于特的特定的BBS論壇或者貼吧,在針對(duì)單個(gè)BBS論壇或貼吧的采集過(guò)程中,爬蟲(chóng)只采集與目標(biāo)有關(guān)的鏈接,舍棄不相關(guān)的鏈接,只有符合采集條件的URL才進(jìn)行保留。

微博信息由于數(shù)據(jù)量大,API數(shù)據(jù)接口需要申請(qǐng),采集難度大。通過(guò)對(duì)系統(tǒng)爬蟲(chóng)的召回率以及虛擬賬號(hào)數(shù)量等指標(biāo)進(jìn)行調(diào)整,比較有效的規(guī)避了數(shù)據(jù)讀取量限制的天花板,在關(guān)鍵詞配置合理的情況下,采集效果良好。由于微博有140字的字?jǐn)?shù)限制,而且多是口語(yǔ)或者流行語(yǔ),利用向量空間模型(Vector Space Model,簡(jiǎn)稱VSM),計(jì)算文本的空間向量夾角余弦,試驗(yàn)性的獲取熱點(diǎn)信息,但準(zhǔn)確率并不高。因此,系統(tǒng)利用 TF-IDF(Term Frequency-Inverse Document Frequency)權(quán)重計(jì)算相結(jié)合的方法。在通過(guò)關(guān)鍵詞采集得到微博信息后,微博信息分析模塊中的情感判斷模塊,負(fù)面信息過(guò)濾出來(lái)。

對(duì)于BBS的信息采集與網(wǎng)頁(yè)采集有所不同,網(wǎng)頁(yè)采集的爬蟲(chóng)遵循廣度優(yōu)先的原則,抓取范圍廣,采集時(shí)間長(zhǎng)。BBS采集爬蟲(chóng)選擇高效率的抓取策略,收錄各大論壇的網(wǎng)頁(yè)內(nèi)容,采用定向抓取以及聚焦抓取的策略。

采用以上介紹的方式進(jìn)行數(shù)據(jù)采集,對(duì)沒(méi)有收錄入列表的信息,利用關(guān)鍵詞法進(jìn)行搜索引擎補(bǔ)充,目前補(bǔ)充的搜索引擎有百度、谷歌、搜狗、搜搜等國(guó)內(nèi)外各大知名搜索引擎。采集下來(lái)的數(shù)據(jù)進(jìn)行分詞、聚類、分類以及情感判斷等處理,最終系統(tǒng)以文字以配合統(tǒng)計(jì)圖形的形式進(jìn)行呈現(xiàn)。

2 媒體融合新思路

基于媒體融合的理念,建議采取系統(tǒng)應(yīng)用逐步升級(jí)的三步走戰(zhàn)略。

第一步,單一集群,小范圍采集。這一階段只建設(shè)一個(gè)計(jì)算機(jī)集群,系統(tǒng)收錄少量站點(diǎn),初步滿足了信息采集以及數(shù)據(jù)處理的工作需要。

第二步,數(shù)據(jù)積累,系統(tǒng)升級(jí)。在積累了一定的數(shù)據(jù)之后,系統(tǒng)可以利用大數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行分類、聚類等一系列分析處理,形成長(zhǎng)期趨勢(shì),可以作為數(shù)據(jù)分析的樣本進(jìn)行二次加工,形成具有價(jià)值的獨(dú)家數(shù)據(jù)源。通過(guò)一段時(shí)間的使用,針對(duì)系統(tǒng)進(jìn)行二次升級(jí)以及維護(hù),增加一個(gè)計(jì)算機(jī)集群,將收錄站點(diǎn)進(jìn)行擴(kuò)容。

第三步,全面升級(jí),實(shí)現(xiàn)媒體融合。在這一階段,系統(tǒng)需要達(dá)到對(duì)全產(chǎn)業(yè)鏈進(jìn)行服務(wù)的要求,實(shí)現(xiàn)媒體融合,對(duì)系統(tǒng)進(jìn)行全面升級(jí),重點(diǎn)對(duì)視頻網(wǎng)站,外文網(wǎng)站數(shù)據(jù)的采集進(jìn)行攻關(guān),采集站點(diǎn)二次擴(kuò)容。為報(bào)紙、期刊等多個(gè)產(chǎn)品提供數(shù)據(jù)支持,并且為網(wǎng)絡(luò)電視臺(tái)以及手機(jī)APP提供數(shù)據(jù)源以及信息反饋,在內(nèi)容、渠道、平臺(tái)等方面初步實(shí)現(xiàn)媒體融合。

3 結(jié)束語(yǔ)

大數(shù)據(jù)技術(shù)的應(yīng)用在媒體融合發(fā)展過(guò)程中取得了良好的成效,同時(shí)新媒體事業(yè)的快速發(fā)展,以及衍生而來(lái)的研究咨詢、輿情監(jiān)測(cè)、新媒體矩陣等產(chǎn)品是新媒體業(yè)務(wù)的重要?jiǎng)?chuàng)新。作為媒體融合的核心組成部分,利用大數(shù)據(jù)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等前沿技術(shù),有效促進(jìn)了官方媒體輿論場(chǎng)、網(wǎng)民輿論場(chǎng)的橫向溝通,為實(shí)現(xiàn)媒體可持續(xù)健康發(fā)展?fàn)I造良好的輿論環(huán)境并提供權(quán)威的信息資訊支持。以大數(shù)據(jù)技術(shù)為基礎(chǔ),以媒體融合為藍(lán)圖,創(chuàng)新而來(lái)的系列產(chǎn)品與服務(wù)受到了廣大受眾的廣泛認(rèn)可與好評(píng),已經(jīng)成為傳媒行業(yè)業(yè)務(wù)新的增長(zhǎng)點(diǎn),未來(lái)伴隨互聯(lián)網(wǎng)產(chǎn)業(yè)持續(xù)發(fā)展,媒體融合還會(huì)不斷深化,相關(guān)產(chǎn)品與服務(wù)將進(jìn)入新一輪的高速發(fā)展。

[1]李彪.輿情之山雨欲來(lái)[M].人民日?qǐng)?bào)出版社,2010.

[2]陸小華.再造傳媒[M].中信出版社,2012.

猜你喜歡
爬蟲(chóng)集群服務(wù)器
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
中國(guó)服務(wù)器市場(chǎng)份額出爐
得形忘意的服務(wù)器標(biāo)準(zhǔn)
陵川县| 宁安市| 普陀区| 会昌县| 朝阳县| 大宁县| 米易县| 如皋市| 长宁县| 杂多县| 麟游县| 呼玛县| 三门峡市| 曲阳县| 新沂市| 南丰县| 上高县| 宁国市| 麻城市| 福州市| 呼和浩特市| 临颍县| 兴仁县| 梁平县| 宁津县| 大港区| 浦北县| 阜宁县| 得荣县| 遵化市| 芜湖县| 东方市| 鸡西市| 卓尼县| 民县| 营山县| 大城县| 准格尔旗| 庐江县| 奈曼旗| 宁海县|