国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web的新聞數(shù)據(jù)可視化

2016-10-28 01:17韓玉萍朱立谷
關(guān)鍵詞:刷子視圖可視化

韓玉萍,朱立谷

(中國傳媒大學(xué)計算機學(xué)院,北京 100024)

?

基于Web的新聞數(shù)據(jù)可視化

韓玉萍,朱立谷

(中國傳媒大學(xué)計算機學(xué)院,北京 100024)

對新聞數(shù)據(jù)可視化技術(shù)進行了研究,并充分整合數(shù)據(jù)挖掘、文本分析、分布式存儲及可視化技術(shù),設(shè)計實現(xiàn)了一個新聞數(shù)據(jù)可視化系統(tǒng)。它把采集到的新聞數(shù)據(jù)進行分類,并結(jié)構(gòu)化存儲,在WEB端為用戶展示新聞數(shù)據(jù)的可視化分析成果。系統(tǒng)在交互式設(shè)計上提供了強大的用戶界面來輔助新聞關(guān)注者對網(wǎng)絡(luò)輿情的直觀掌控,并通過對系統(tǒng)性能的測試,證明了系統(tǒng)在大量用戶使用及大規(guī)模數(shù)據(jù)呈現(xiàn)的情況下都具有較好的性能。

新聞;新聞數(shù)據(jù);可視化分析;交互式設(shè)計;網(wǎng)絡(luò)輿情

1 引言

當(dāng)今世界已進入數(shù)字信息時代,越來越多的人通過互聯(lián)網(wǎng)的便利來獲知信息?;ヂ?lián)網(wǎng)中信息數(shù)量呈現(xiàn)出幾何級數(shù)的增長,海量信息給用戶在關(guān)注和尋找熱點重點信息的同時帶來了煩惱。ProPublica是一家在線新聞網(wǎng)站,網(wǎng)站專門開辟了一個Data頻道,用來展示記者們創(chuàng)造的新聞數(shù)據(jù)的可視化作品[1]。如今它已經(jīng)成為美國數(shù)據(jù)新聞用戶最活躍的網(wǎng)站。在發(fā)達國家,利用數(shù)據(jù)可視化進行新聞數(shù)據(jù)分析的業(yè)務(wù)已至成熟,而在我國文化創(chuàng)意產(chǎn)業(yè)中才初步呈現(xiàn)跡象。國內(nèi)的新聞數(shù)據(jù)可視化發(fā)展尚有諸多不足之處,不僅表現(xiàn)在維度少,樣式上也比較單一,而且目前國內(nèi)的新聞數(shù)據(jù)可視化實例還較少。本文將數(shù)據(jù)可視化概念引入到海量新聞數(shù)據(jù)中,設(shè)計并實現(xiàn)了新聞數(shù)據(jù)可視化系統(tǒng),它充分整合了新聞的大量數(shù)據(jù)收集,重復(fù)信息過濾,冗余信息精簡以及關(guān)鍵信息的展示等特征。這些特征正好應(yīng)對新聞關(guān)注者面臨的種種問題,為用戶提供直觀簡潔、重點突出的界面捕捉新聞信息。

2 方法及實現(xiàn)

新聞數(shù)據(jù)可視化系統(tǒng)是基于WEB的新聞數(shù)據(jù)爬取及可視化分析系統(tǒng),提供了豐富靈活的交互功能,引導(dǎo)用戶不斷探索新聞數(shù)據(jù)的內(nèi)在本質(zhì) ,使用戶可根據(jù)個人興趣查看不同分類下某時間段內(nèi)的新聞變化趨勢,幫助用戶發(fā)現(xiàn)其中規(guī)律[2]。系統(tǒng)框架包含4部分:數(shù)據(jù)收集、結(jié)構(gòu)化存儲、數(shù)據(jù)分析和可視化呈現(xiàn),如圖1所示。

圖1 新聞數(shù)據(jù)可視化系統(tǒng)框架 

2.1數(shù)據(jù)收集

新聞數(shù)據(jù)可視化系統(tǒng)由Java編寫的網(wǎng)絡(luò)爬蟲從搜狐新聞 、新浪新聞等種子站點爬取新聞記錄數(shù)據(jù),爬取過程遵循寬度優(yōu)先策略。但是,再好的爬蟲也難免出現(xiàn)大量的重復(fù)網(wǎng)頁,系統(tǒng)的去重工作不僅是通過抽取標(biāo)題及正文對比刪除相似度高達70%以上的網(wǎng)頁,還要避免多次爬取同一URL。為高效去重,并節(jié)省CPU資源,該系統(tǒng)采取的方法就是建立一個URL存儲庫,每次爬取網(wǎng)頁之前都要查詢該鏈接是否已下載,并且已經(jīng)下載完成的URL在進行檢索時要加載到內(nèi)存中。

2.2結(jié)構(gòu)化存儲

系統(tǒng)把取到的數(shù)據(jù)整理歸納,存儲到分布式NOSQL數(shù)據(jù)庫MongoDB中。之所以用MongoDB數(shù)據(jù)庫,主要是考慮到MongoDB對象型數(shù)據(jù)存儲的特性,在數(shù)據(jù)的存儲格式上使用了類似JSON格式的BSON格式,面對日漸增多的龐大新聞數(shù)據(jù)量,必須選擇自由靈活的數(shù)據(jù)庫[5]。新聞數(shù)據(jù)共有兩個集合:不同分類新聞數(shù)量統(tǒng)計和新聞細節(jié)數(shù)據(jù)。

2.3數(shù)據(jù)分析

為呈現(xiàn)時間序列上不同分類新聞數(shù)據(jù)的變化趨勢及靈活的交互性,新聞數(shù)據(jù)可視化系統(tǒng)主要實現(xiàn)三種不同時間周期的新聞數(shù)據(jù)的多層面展示及分析,包括年視圖、月視圖及周視圖。年視圖通過SVG和HTML5元素以折線圖、堆積條形圖以及分類控制分析呈現(xiàn)一年內(nèi)的不同分類下每天新聞數(shù)據(jù)的變化趨勢,月視圖通過折線圖并綁定html標(biāo)簽控制分析一個月周期內(nèi)的新聞數(shù)據(jù)變化趨勢及每天的新聞概況,周視圖與月視圖類似,但是在分析展示每天的新聞數(shù)據(jù)上內(nèi)容相對更加詳細。每個視圖由三個模塊構(gòu)成:上下文模塊、新聞焦點模塊和分類控制模塊。在圖形設(shè)計上,通過不同的顏色、形狀、大小、方向、材質(zhì)、色調(diào)以及位置比對優(yōu)劣,選出某種較能突出重點的組合實現(xiàn)與數(shù)據(jù)屬性的關(guān)聯(lián)[7]??紤]到新聞數(shù)據(jù)具有時序性、地理空間性、種類多樣性以及更新頻繁等屬性,三個模塊將按照新聞數(shù)據(jù)的不同屬性實現(xiàn)不同的可視化效果。

上下文模塊是系統(tǒng)的時間控制及數(shù)據(jù)預(yù)覽模塊,由D3.js繪制折線圖顯示一定周期內(nèi)每天來自新浪及搜狐的新聞數(shù)據(jù)總量變化趨勢,并配置刷子選定周期時間內(nèi)的一個時間子集合,用戶可通過自由單擊和拖動刷子在新聞焦點模塊控制查看時間子集合內(nèi)的不同分類下新聞數(shù)據(jù)的變化趨勢和每條新聞記錄。新聞焦點模塊是系統(tǒng)數(shù)據(jù)可視化分析成果展示模塊,在年視圖中由D3.js繪制堆積條形圖顯示刷子選定時間集合內(nèi)及用戶選定新聞分類下的新聞數(shù)據(jù),在月視圖和周視圖中由D3.js獲取數(shù)據(jù)并綁定html標(biāo)簽控制展示用戶選定條件下的具體新聞記錄。每次的數(shù)據(jù)更新都會伴有適當(dāng)?shù)膭赢嬓Ч?。分類控制模塊由Angularjs編寫指令控制用戶選擇的新聞分類,而前兩個模塊的實現(xiàn)是通過Angularjs編寫的控制器,指令與控制器之間的通信是通過冒泡機制,將指令內(nèi)分類控制參數(shù)冒泡傳寄給對應(yīng)視圖的控制器。系統(tǒng)前端技術(shù)架構(gòu)如圖2所示。

圖2 新聞數(shù)據(jù)可視化系統(tǒng)前端技術(shù)架構(gòu) 

3 新聞數(shù)據(jù)可視化分析成果

新聞數(shù)據(jù)可視化系統(tǒng)的可視化分析成果主要基于時間序列和交互設(shè)計來充分展現(xiàn)新聞數(shù)據(jù)的魅力。首先是年視圖,如圖3所示。

年視圖的左側(cè)上下文模塊由D3.js繪制折線圖反映一年內(nèi)每天來自搜狐及新浪的新聞發(fā)布情況,折線圖在有限區(qū)域顯示一年的數(shù)據(jù)相對比較密集,但通過控制刷子可在新聞焦點模塊查看具體每天8種分類下的新聞發(fā)布統(tǒng)計。為實現(xiàn)數(shù)據(jù)更新操作如點擊分類按鈕及還原、平移刷子及隨處點擊刷子移動范圍時新聞焦點模塊數(shù)據(jù)平滑過度,新聞數(shù)據(jù)可視化系統(tǒng)在每個數(shù)據(jù)所綁定的區(qū)域內(nèi)都添加了適當(dāng)?shù)膭赢嬓Ч?,給用戶更舒適的視覺體驗,如圖4所示。

圖3 新聞數(shù)據(jù)可視化系統(tǒng)年視圖可視化分析 

月視圖當(dāng)前顯示刷子所選7天內(nèi)除軍事類新聞的發(fā)布情況,上下文模塊刷子的移動范圍為一個月,新聞分類的顏色對應(yīng)關(guān)系是通過建立樣式離散序列比例尺。前面提到AppCtrl定義全局變量:分類對象數(shù)組MYMscope.categories,含有類別名稱、類別對應(yīng)顏色、類別對應(yīng)css屬性類名稱。在指令中綁定分類控制模塊獲取點擊分類及還原的操作,通過冒泡把參數(shù)傳遞給控制器進行數(shù)據(jù)更新及畫面渲染。月視圖對新聞進行了篩選和精簡,減輕了用戶在新聞過濾上的負擔(dān)。

如圖5所示,周視圖中新聞焦點模塊顯示刷子所選某天的具體每條新聞標(biāo)題、摘要及相關(guān)圖片,每條新聞標(biāo)題都添加超鏈接,用戶可點擊查看新聞網(wǎng)頁。由于每條新聞存儲為一條數(shù)據(jù)記錄,在對選定時間的新聞數(shù)據(jù)進行過濾后會生成三維新數(shù)組,在此新聞數(shù)據(jù)可視化系統(tǒng)進行了數(shù)組降維,方便數(shù)據(jù)綁定及操作。用戶可以通過周視圖快速瀏覽捕捉一天內(nèi)感興趣的新聞內(nèi)容,并迅速了解當(dāng)前輿論行情。

圖4 新聞數(shù)據(jù)可視化系統(tǒng)月視圖可視化分析 

圖5 新聞數(shù)據(jù)可視化系統(tǒng)周視圖可視化分析 

4 系統(tǒng)性能測試

新聞數(shù)據(jù)可視化系統(tǒng)是基于Web的應(yīng)用服務(wù)系統(tǒng),由瀏覽器、Web服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器、基礎(chǔ)網(wǎng)絡(luò)系統(tǒng)等構(gòu)成[8]。系統(tǒng)采用支持高并發(fā)訪問的Nodejs服務(wù)器,在服務(wù)器端采用WebBench來檢測新聞數(shù)據(jù)可視化系統(tǒng)在多用戶訪問時系統(tǒng)的性能。折線圖展示了在用戶規(guī)模不斷擴大的情況下,系統(tǒng)吞吐量的變化。利用命令WebBench-c1000 -t30http://222.31.76.22/可測出30秒內(nèi)1000個用戶訪問成功了32361個頁面,系統(tǒng)吞吐量每秒4.71M。而多次測試下來發(fā)現(xiàn),當(dāng)用戶數(shù)量至少達到2900時,運行結(jié)果中才出現(xiàn)了請求頁面失效,也就說明系統(tǒng)超出負荷了??偟臏y試結(jié)果如圖6所示。

圖6 系統(tǒng)性能與用戶數(shù)量的折線圖 

在測試結(jié)果中可見,新聞數(shù)據(jù)可視化系統(tǒng)支持局域網(wǎng)內(nèi)高并發(fā)訪問,證明了系統(tǒng)具有很好的工作性能。并且隨著數(shù)據(jù)量不斷的收集,雖然總數(shù)據(jù)規(guī)模在不斷擴大,但系統(tǒng)進行可視化呈現(xiàn)的三個視圖數(shù)據(jù)集規(guī)模是基本不變的,分析視圖最多展示31天的新聞信息,數(shù)據(jù)規(guī)模在2700條至3200條,通過Chrome瀏覽器及IE瀏覽器加載視圖耗時統(tǒng)計發(fā)現(xiàn),數(shù)千條數(shù)據(jù)渲染只需1200毫秒左右,不會影響D3.js的渲染效果,所以系統(tǒng)在以后的使用過程中也可以保持其高效的性能。

5 總結(jié)

本文針對目前大量用戶在閱讀海量繁雜的新聞信息無法快速捕捉關(guān)鍵信息及網(wǎng)絡(luò)輿情的問題上對新聞數(shù)據(jù)可視化技術(shù)進行了研究,并設(shè)計實現(xiàn)了新聞數(shù)據(jù)可視化系統(tǒng),較好的改善了用戶的新聞閱讀體驗,并通過系統(tǒng)性能測試證明了系統(tǒng)具有可行性。系統(tǒng)為用戶展示一定周期內(nèi)多種分類下的新聞數(shù)據(jù)變化情況及具體新聞概況,提供了豐富靈活的交互功能,界面直觀、易讀,引導(dǎo)用戶不斷探索新聞數(shù)據(jù)的內(nèi)在本質(zhì),輔助用戶進行決策,實現(xiàn)了鼠標(biāo)單擊和拖動進行數(shù)據(jù)過濾及動畫過渡視圖,允許同一數(shù)據(jù)子集基礎(chǔ)上不同可視化類型的切換,使用戶可根據(jù)個人興趣查看某時間段內(nèi)新聞變化趨勢,幫助用戶發(fā)現(xiàn)其中規(guī)律。盡管系統(tǒng)已經(jīng)在新聞數(shù)據(jù)可視化分析上取得了一定進展,但系統(tǒng)需要進一步完善,后期還會添加針對特定熱點新聞及通過關(guān)鍵詞搜索的新聞數(shù)據(jù)的分析評估,這務(wù)必需要提高系統(tǒng)的自然語言處理技術(shù),并采取更多的數(shù)理統(tǒng)計方法處理獲知的信息,最終通過更豐富靈活的可視化界面及交互效果來展示所關(guān)注的新聞數(shù)據(jù)。

[1]ProPublica.http://www.propublica.org/data/

[2]LloydL,KechiagasD,SkienaS.Lydia:Asystemforlargescalenewsanalysis[J].VolumeLectureNotesinComputerScience,2005,3772:161-166.

[3]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].計算機工程應(yīng)用技術(shù),2010,6(15):4112-4113.

[4]WittenIH,PaynterGW,F(xiàn)rankE,etal.KEA:Practicalautomatickeyphraseextraction[C].InProceedingsofthefourthACMConferenceonDigitallibraries,ACM,1999:254 -256

[5]孫思源.基于MongoDB的網(wǎng)站日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D].中國地質(zhì)大學(xué)碩士學(xué)位論文,2014:12-14.

[6]NathanYan,著.張伸,譯.數(shù)據(jù)之美——一本書學(xué)會可視化設(shè)計[M].北京:中國人民大學(xué)出版社,2014:149-152.

[7]ManuelLima,著.杜明翰,陳楚君,譯.視覺繁美——信息可視化方法與案例解析[M].北京:機械工業(yè)出版社,2013:60-62.

[8]魏元雷,胡西虹,潘立偉.Web服務(wù)器的性能測試方法[J].上海計量測試,2007,(06).

[9]KMorton,RBunker,JMackinlay,RMorton,etal.Dynamicworkloaddrivendataintegrationintableau.onManagementofData,2012 -dl.acm.org

[10]PrecisionTree.PTPalisade-DecisionAnalysisinMicrosoftExcel,2005

[11]張煌,葛聲,孫海龍,馬殿富.web服務(wù)組合處理系統(tǒng)的研究與實現(xiàn)[J].北京航空航天大學(xué)學(xué)報,2005.

[12]楊亮慶.中美網(wǎng)絡(luò)多媒體新聞發(fā)展?fàn)顩r比較[J].傳媒評論,2014,(3):81-83.

(責(zé)任編輯:王謙)

VisualizationTechnologyofNewsDataonWeb

HANYu-ping,ZHULi-gu

(ComputerScienceSchool,CommunicationUniversityofChina,Beijing100024,China)

Thisarticlehasaresearchonvisualizationtechnologyofnewsdata.Wedesignandimplementasystemofnewsdatavisualbyfullyintegratetechnologydatamining,textanalysis,distributedstorageandvisualizationtechnology.Thesystemcoulddisplaythevisualizationanalysisresultsofnewsdataforusersonwebafterthegatherednewsdatabeclassifiedandstructuredstorage.Systemprovidesapowerfuluserinterfacetoassistusersofnewsfocusonthecontrolofnetworkpublicopinionowetotheinteractivedesign.Aftersystemtestingwefindthatsystemhasagoodperformanceatcircumstancessuchaslarge-scaledata’sdisplayandusers’use.

news;newsdata;visualizationanalysis;interactivedesign;networkpublicopinion

2015-10-10

韓玉萍(1989-),女(漢族),山東日照人,中國傳媒大學(xué)計算機學(xué)院碩士研究生.E-mail:yuping0713@126.com

TP302.1

A

1673-4793(2016)03-0041-05

基礎(chǔ)基金:國家自然科學(xué)基金項目(61730063)

猜你喜歡
刷子視圖可視化
基于CiteSpace的足三里穴研究可視化分析
思維可視化
基于CGAL和OpenGL的海底地形三維可視化
Look and Guess眼力大比拼
“融評”:黨媒評論的可視化創(chuàng)新
О НИХ СУДАЧИЛИ НА УЛИЦАХ
視圖
Y—20重型運輸機多視圖
SA2型76毫米車載高炮多視圖
Django 框架中通用類視圖的用法