国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)信息可視化實時推送系統(tǒng)設(shè)計研究

2022-09-02 01:07黃思蓓賈寶林
自動化儀表 2022年8期
關(guān)鍵詞:實時性聚類可視化

黃思蓓,賈寶林

(上海工業(yè)自動化儀表研究院有限公司,上海 200233)

0 引言

隨著計算機、互聯(lián)網(wǎng)等計算機技術(shù)的飛速發(fā)展,用戶數(shù)據(jù)以量級增長的方式被存儲和記錄,形成了信息擁擠的局面。大數(shù)據(jù)的三個主要特征就是海量化、多樣化、快速化[1]。海量級數(shù)據(jù)中包含的規(guī)律和趨勢是當(dāng)今各行各業(yè)的專業(yè)人士面對的機遇和挑戰(zhàn)。數(shù)據(jù)可視化無疑是有效的途徑[2]。

大數(shù)據(jù)可視化概念的出現(xiàn),挖掘出復(fù)雜數(shù)據(jù)所蘊含的關(guān)聯(lián)、模式[3],幫助用戶以結(jié)構(gòu)化的方式利用海量數(shù)據(jù)。在大數(shù)據(jù)時代,可視化的實時性數(shù)據(jù)需求是發(fā)展方向之一。

1 系統(tǒng)設(shè)計分析

傳統(tǒng)的數(shù)據(jù)信息展示系統(tǒng)在處理大數(shù)據(jù)時,存在時效性低、處理數(shù)據(jù)量級不高的問題,需要用戶不斷主動刷新,難以在第一時間捕捉感知信息變化。在此背景下,基于大數(shù)據(jù)和實時推送[4]相關(guān)技術(shù)的發(fā)展而產(chǎn)生的大數(shù)據(jù)信息可視化實時推送系統(tǒng)是更優(yōu)的解決方案。

大數(shù)據(jù)的主要處理過程包括但不限于采集、分析和展示數(shù)據(jù);大數(shù)據(jù)信息可視化實時推送系統(tǒng)的關(guān)鍵在于展示數(shù)據(jù)。展示數(shù)據(jù)的主要過程是數(shù)據(jù)的實時、可視化呈現(xiàn),將數(shù)據(jù)分析結(jié)果以易讀、歸類、聚類、圖形等形式輸出,幫助用戶清晰、有效地獲取信息的分類和分析??梢暬瘮?shù)據(jù)的展示有推式和拉式,在一定量級的前提下,對即時性有較高要求,呈現(xiàn)數(shù)據(jù)隨時間的趨勢變化,并能實現(xiàn)用戶交互[5],幫助用戶實時查詢信息狀態(tài)。

數(shù)據(jù)推式和拉式這兩種實現(xiàn)方式的目標(biāo)一致,都是為了向用戶展示最新的信息。其基礎(chǔ)思想是將用戶從瀏覽器獲取查詢信息的主動行為,改為由服務(wù)器主動發(fā)送信息。服務(wù)器向用戶瀏覽器批量發(fā)送數(shù)據(jù),并在發(fā)送完成后仍然保持與瀏覽器的連接通道。隨后,服務(wù)器可以繼續(xù)發(fā)送批量數(shù)據(jù),達到實時更新信息的目的。這種數(shù)據(jù)傳送方式的效率比通常的客戶端主動查詢方式更高。這是因為后續(xù)數(shù)據(jù)的傳輸無需再建立新的連接通道。無論是否有數(shù)據(jù)傳輸始終保持連接,服務(wù)器可以在任意時間發(fā)送大批量數(shù)據(jù),并控制信息更新的時刻和頻率,從而實現(xiàn)信息推送的實時性要求。

本文提出一種關(guān)于大數(shù)據(jù)信息可視化實時推送系統(tǒng)的設(shè)計和開發(fā)流程,便于相關(guān)開發(fā)和設(shè)計人員對大數(shù)據(jù)信息可視化實時推送系統(tǒng)進行設(shè)計和開發(fā)。

2 系統(tǒng)設(shè)計過程

本文提出一種將實時技術(shù)貫穿于系統(tǒng)整個過程的設(shè)計方法。該方法包括功能需求分析、數(shù)據(jù)結(jié)構(gòu)分析和架構(gòu)設(shè)計三個部分。每個部分都從實時性出發(fā)與考慮,滿足用戶期望的實時信息展示需求。

2.1 功能需求分析

大數(shù)據(jù)信息可視化界面是用戶與大數(shù)據(jù)系統(tǒng)交互的窗口[6]。用戶通過信息推送獲取更新的數(shù)據(jù)信息。只有對大數(shù)據(jù)包含的海量數(shù)據(jù)進行分析聚類后,才能得到有價值的信息。為了讓用戶實時獲取更新的信息,在系統(tǒng)設(shè)計過程中需要重點設(shè)計推送的實時流程,防止數(shù)據(jù)重疊與信息滯后。

大數(shù)據(jù)信息可視化實時推送系統(tǒng)所展示的是實時信息,在設(shè)計前需要對推送的信息進行分類。針對不同類型推送的頻率和方式有所差異。一般來說,推送信息有三種類型,分別是直觀的實時數(shù)據(jù)信息、分析處理后的聚類信息以及普通數(shù)據(jù),例如系統(tǒng)用戶信息。普通數(shù)據(jù)沒有即時性要求,查詢隨機,查詢頻率也比較低。

數(shù)據(jù)分類如表1所示。

表1 數(shù)據(jù)分類表

實時數(shù)據(jù)信息是不需要作進一步處理的原始統(tǒng)計數(shù)據(jù),例如數(shù)據(jù)報表等。分析處理后的聚類信息是為滿足大數(shù)據(jù)可視化要求,對原始統(tǒng)計數(shù)據(jù)進行多維度的聚類分析,形成有特征性的分組分類的統(tǒng)計數(shù)據(jù)。在對推送信息進行分類和確認(rèn)后,需要具體分析不同的目標(biāo)需求。差異的需求指標(biāo)項包括數(shù)據(jù)準(zhǔn)確性、用戶關(guān)注點和相關(guān)操作行為、推送頻率和更新時機、滯后時差的容忍度等。相關(guān)的指標(biāo)項在需求調(diào)研過程中需要使用定量和定性相結(jié)合的思考方式和設(shè)計方案。

2.2 數(shù)據(jù)結(jié)構(gòu)分析

大數(shù)據(jù)可視化的數(shù)據(jù)量過于龐大,且每秒數(shù)據(jù)流量也非常巨大,不可能將每一條數(shù)據(jù)作為觸發(fā)實時信息聚類的契機。因此,需要進行定量操作,在數(shù)據(jù)流的角度上分析數(shù)據(jù)。同時,設(shè)計既要確保用戶感受到實時性、不丟失重要的信息觀測時間點,又要在發(fā)揮機器性能約束前提下最大限度地進行實時數(shù)據(jù)計算。在進行分析數(shù)據(jù)時,可以采用以下步驟。①具體化數(shù)據(jù)指標(biāo):將用戶提出的需求細(xì)化,具體到每一個數(shù)據(jù)指標(biāo)。②選擇組合指標(biāo):選擇符合需求描述的數(shù)據(jù)指標(biāo)組合。③合并數(shù)據(jù)指標(biāo):對數(shù)據(jù)指標(biāo)統(tǒng)一格式和精度,化繁為簡。檢查分析每個反映用戶需求的待展示的圖表,將同一圖表內(nèi)不同數(shù)據(jù)指標(biāo)歸類,以最少推送更新盡可能多的圖表項為目標(biāo),規(guī)劃推送數(shù)據(jù)接口內(nèi)的數(shù)據(jù)指標(biāo)組合,力爭一次數(shù)據(jù)推送可以同時更新多維信息。

2.3 架構(gòu)設(shè)計

在經(jīng)過數(shù)據(jù)分析后,界面上需要展示的數(shù)據(jù)信息已基本確定。接下來的功能設(shè)計階段主要考慮數(shù)據(jù)推送速度、信息聚類計算速度、數(shù)據(jù)防丟失這三個方面。因此,在進行架構(gòu)設(shè)計時需要強調(diào)以數(shù)據(jù)流為中心,遵循數(shù)據(jù)一致性、準(zhǔn)確性、實時性等原則。系統(tǒng)結(jié)構(gòu)如圖1所示。

圖1 系統(tǒng)結(jié)構(gòu)圖

由圖1可知,外部數(shù)據(jù)接入后,首先進入數(shù)據(jù)采集集群進行轉(zhuǎn)換和清洗,然后流入計算服務(wù)集群進行計算,最后存儲在分布式集群。三個集群間使用Kafka通道進行數(shù)據(jù)定向流通??梢暬到y(tǒng)得到監(jiān)控信號后,主動將計算結(jié)果數(shù)據(jù)推送到Web端,使用戶可以觀察到數(shù)據(jù)變化。

以上系統(tǒng)結(jié)構(gòu)中的整體數(shù)據(jù)流處理如圖2所示。

圖2 數(shù)據(jù)流處理示意圖

數(shù)據(jù)流設(shè)計如圖3所示。

圖3 數(shù)據(jù)流設(shè)計示意圖

在進行架構(gòu)設(shè)計時,重點設(shè)計以下五個步驟。

①模塊設(shè)計。根據(jù)具體業(yè)務(wù)需求設(shè)計后,需要考慮不同業(yè)務(wù)的不同數(shù)據(jù)處理率要求。對此,可以在系統(tǒng)內(nèi)以處理速率為基準(zhǔn)劃分若干的模塊,將相同的數(shù)據(jù)處理率的業(yè)務(wù)調(diào)配整合到同一模塊。這樣,模塊內(nèi)所有業(yè)務(wù)可使用統(tǒng)一速率的讀寫線程進行數(shù)據(jù)操作。

②存儲設(shè)計。在存儲之前,先應(yīng)剔除冗余的數(shù)據(jù),再應(yīng)用數(shù)據(jù)預(yù)處理工具(數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)集成)自動、高速地實現(xiàn)海量數(shù)據(jù)的過濾和整理[7]。存儲組件可選用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或者NOSQL數(shù)據(jù)庫。對于只進行直接查詢的實時數(shù)據(jù),沒有過多的存儲表字段設(shè)計要求。對于需要復(fù)雜運算的聚類數(shù)據(jù),可將計算結(jié)果所有需要推送展示的字段放入一個寬表中,避免多個數(shù)據(jù)表直接出現(xiàn)層級,去除字段間的關(guān)聯(lián)關(guān)系,使字段平坦、查詢語句直接,以減少復(fù)雜查詢帶來的時間延遲。

③線程設(shè)計。由于可視化實時推送系統(tǒng)對時間高度敏感,在進行設(shè)計時可考慮將數(shù)據(jù)的讀和寫分成不同的線程處理。讀寫線程可進一步細(xì)分為高速讀、低速讀、高速寫和低速寫四種類型。各類型線程處理數(shù)據(jù)選擇如表2所示。

表2 線程處理數(shù)據(jù)選擇表

④信息推送。對于可視化界面需要進行趨勢分析的圖表,其快速變化的動態(tài)效果需要考慮前端不斷查詢請求對后端服務(wù)器的負(fù)載要求。因此,在前后端信息溝通方式上,首選后端服務(wù)器推送模型。前端服務(wù)器訂閱相關(guān)信息主題后,等待來自服務(wù)器的消息推送。一次消息可攜帶多維度數(shù)據(jù)。一次推送可更新若干圖表。這樣可以實現(xiàn)在界面組件觀測到多種趨勢同時改變的良好可視化效果。同時,設(shè)計需要避免同一數(shù)據(jù)分析結(jié)果被多次作為新信息推送到前端,導(dǎo)致占用服務(wù)器資源和網(wǎng)絡(luò)資源。這也會加大前端因為無效刷新帶來的負(fù)載。

⑤時間調(diào)度。在實際環(huán)境中,每秒處理的數(shù)據(jù)可達千萬級。如果每次收到新數(shù)據(jù)都進行可視化推送,將導(dǎo)致可視化組件變化頻率高于人眼可接受的程度,也就是每秒變化一千次和每秒變化一百次的視覺效果是等同的。同時,如果前端可視化組件以高速變化,在人視覺上則表現(xiàn)為“抖動”的現(xiàn)象。解決這個問題可以從兩方面入手:一是可視化使用折線圖或散點圖等反映高速變化趨勢的組件;二是考慮在服務(wù)端架設(shè)緩存層以控制信息推送的頻率,可選用Redis組件等作為高速緩存作定時、定量推送。具體推送頻率需要在實際布署測試后不斷調(diào)整。

2.4 布署測試

系統(tǒng)設(shè)計與開發(fā)編碼完成后,可視化實時推送系統(tǒng)需要進行布署測試,驗證設(shè)計的合理性,并進行調(diào)試修改。其目標(biāo)是取得最佳的用戶體驗。布署測試主要包括功能測試、實地測試和可行性測試三個部分。

功能測試是為了保證用戶所提的每個需求都在系統(tǒng)中得到實現(xiàn)且無遺漏,在設(shè)計過程中得到充分的展示。因此,需要重點關(guān)注數(shù)據(jù)流是否順暢、推送頻率是否合適、數(shù)據(jù)實時性是否滿足系統(tǒng)需求。

實地測試是因為開發(fā)過程中使用的軟硬件設(shè)備與實際上線運行使用的軟硬件設(shè)備可能不同,為確保用戶現(xiàn)場使用的具體效果而進行的測試,包括動態(tài)效果、色差是否正常等。

可行性測試主要檢驗設(shè)計的可視化界面是否能夠完全解釋信息含義、組件選擇是否能合適體現(xiàn)數(shù)據(jù)可視化需求、是否與客戶需求相匹配、是否達到了所見即所得的可視化效果。

3 設(shè)計實例

本文以某地區(qū)單位大數(shù)據(jù)系統(tǒng)可視化實時推送系統(tǒng)設(shè)計為例。系統(tǒng)采用大屏界面,展示全國范圍內(nèi)精確到市縣行政區(qū)域乃至機關(guān)單位的實時數(shù)據(jù)。其特殊之處在于,實時數(shù)據(jù)需要與歷史數(shù)據(jù)進一步分析處理后獲取聚類信息,原始數(shù)據(jù)和聚類數(shù)據(jù)同步實時可視化展示[8-9]。用戶對聚類信息所關(guān)注的重點是數(shù)據(jù)的統(tǒng)計和挖掘,通過顯示界面直觀地展示地區(qū)分布情況和變化趨勢,且聚類信息具有數(shù)量級大、時間范圍廣、統(tǒng)計維度多等特點。根據(jù)用戶的需求,系統(tǒng)設(shè)計要求在可靠性、易用性、實時性、準(zhǔn)確性四個方面重點把控。在得到用戶的需求和系統(tǒng)設(shè)計要求后,則進行需求和數(shù)據(jù)分析。在警告分析需求維度、選擇數(shù)據(jù)、合并維度和選擇表現(xiàn)后,確定使用地圖標(biāo)注數(shù)據(jù)對應(yīng)的發(fā)生地域。每獲取一條新的原始數(shù)據(jù)都全面重新計算累計數(shù)值和趨勢分析,并立即綜合更新數(shù)據(jù)聚類分析后的柱狀圖、餅圖、折線圖等圖表。聚類展示和原始展示數(shù)據(jù)時間滯后在1 s內(nèi)。

本文結(jié)合數(shù)據(jù)推送的指導(dǎo)思想得到設(shè)計架構(gòu)方案。開發(fā)測試布署調(diào)試結(jié)合用戶需求進行相關(guān)修改。用戶試用后,反復(fù)多次優(yōu)化信息聚類計算方法,調(diào)整數(shù)據(jù)推送頻率。

4 結(jié)論

在互聯(lián)網(wǎng)飛速發(fā)展的時代,大數(shù)據(jù)將持續(xù)改變和影響人們生活的方方面面。大數(shù)據(jù)信息可視化實時推送系統(tǒng)將取代傳統(tǒng)的用戶主動式查詢信息系統(tǒng)。

本文提出了大數(shù)據(jù)信息可視化實時推送系統(tǒng)設(shè)計方法,并通過設(shè)計實例進行了相關(guān)的論述。該設(shè)計方法一定程度上能夠為設(shè)計架構(gòu)人員在實時推送系統(tǒng)設(shè)計時提供設(shè)計流程的指導(dǎo),是一種可參考的設(shè)計規(guī)范和方案。

猜你喜歡
實時性聚類可視化
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統(tǒng)
思維可視化
自然資源可視化決策系統(tǒng)
面向WSN的聚類頭選舉與維護協(xié)議的研究綜述
改進K均值聚類算法
航空電子AFDX與AVB傳輸實時性抗干擾對比
計算機控制系統(tǒng)實時性的提高策略
可編程控制器的實時處理器的研究
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
淳安县| 乡城县| 桃园县| 南投市| 三亚市| 祁门县| 金沙县| 明水县| 广汉市| 察哈| 塔河县| 长沙县| 华池县| 镇原县| 舟曲县| 怀柔区| 朝阳县| 黔西| 泾川县| 荔波县| 南雄市| 临颍县| 敖汉旗| 军事| 苍梧县| 洪泽县| 阿瓦提县| 保山市| 金门县| 屏东县| 霍山县| 丁青县| 光泽县| 延川县| 徐汇区| 大英县| 本溪| 元阳县| 巫溪县| 湛江市| 连州市|