門芳
時變型數(shù)據(jù)是一種隨著時間變化、帶有時間屬性的數(shù)據(jù)。在實際應用中,時變型數(shù)據(jù)數(shù)量大、維度多、變量多,而且類型豐富,分布范圍廣泛,特別是在各類傳感器網(wǎng)絡、移動互聯(lián)網(wǎng)應用中,以流模式生成的流數(shù)據(jù)是一類特殊的具有無限長度時間軸的時變型數(shù)據(jù)。本文分析了時變型數(shù)據(jù)的內(nèi)容、特征及其可視化的種類,從三個方面對時變型數(shù)據(jù)的可視化方法進行歸納和總結(jié)。
時間具有時間具有非常重要的緯和屬性。隨著時間變化、帶有時間屬性的數(shù)據(jù)時變型數(shù)據(jù)(Temporal Data)。從宏觀上看,時變型數(shù)據(jù)類可分數(shù)值型、有序性和類別性三類。其中,任意兩個有序型數(shù)據(jù)都具有某種順序關(guān)系,而數(shù)值型數(shù)據(jù)可看成某種有具體數(shù)值的有序型數(shù)據(jù)。據(jù)統(tǒng)計1974-1980年世界上的15種報紙和雜志上刊登的4000個圖像集合的75%都是以時間序列排序的。。
1.時間屬性的可視化
如果將時間屬性或順序性當成軸變量,那么每個數(shù)據(jù)實例則視為軸上某個變量值對應的單個事件,對時間屬性的刻畫有三種方式:
(1)線性時間和周期時間:線性時間假定一個出發(fā)點并定義為從過去到將來數(shù)據(jù)元素的線性時出發(fā)點并定義為從過去到將來數(shù)據(jù)元素的線性時域。
(2)時間點和時間間隔:離散時間點將時間描述為可與離散的空間歐拉點相對等的抽象概念。
(3)順序時間、分支時間和多角度時間:順序時間域考慮那些按先后發(fā)生的事件。對于分支時間、多股時間分支展開,這有利于描述和比較有選擇性的方案,這種類型的時間支持做出只有一個選擇發(fā)生的決策過程多角度時間可以描述多于一個關(guān)于被觀察事實的觀點。
不同類別的時變型數(shù)據(jù)需采用不同的可視方法不同類別的時變型數(shù)據(jù)需采用不同的可視方法來表達。標準的顯示方法是將時間數(shù)據(jù)作為二維的線圖顯示,x 軸表示時間,y 軸表示其他的變量。這種方法善于表現(xiàn)數(shù)據(jù)元素在線性時間域中的變化,但是難以表達時間的周期性。時間序列也可以沿圓周排列,采用螺旋圖的方法布局時間軸,一個回路代表一個周期,選擇正確的排列周期可以展現(xiàn)數(shù)據(jù)集的周期性特征。此外,為了體現(xiàn)時變型數(shù)據(jù)的周期性結(jié)構(gòu)可以采用環(huán)狀表示某時間段內(nèi)的時間結(jié)構(gòu)。類似于敘事型小說,時變型數(shù)據(jù)中蘊涵的信息存在分支結(jié)構(gòu),對同一個事件也可能存在多個角度的刻畫。按照時間組織結(jié)構(gòu),這類可視化可分為線性、流狀、樹狀、圖狀等類型。
(4)線性多角度時間可視化:為了呈現(xiàn)一個完整的事件歷程和社會行為(如個人健康記錄、歷史事件等),可采用類似于甘特圖(用條形圖表進度的可視化標志方法)的方式,使用多個條形圖線程表現(xiàn)時間的不同屬性隨時間變化的過程,線條的顏色和厚度都可以編碼不同的變量。
流狀分支時間主線可視化基于河流的可視隱喻可展現(xiàn)時序型事件隨時間產(chǎn)生流動、合并、分叉和消失的效果,這種效果類似于小說和電影中的敘事主線。例如,軟件開發(fā)中協(xié)作關(guān)系的演變類似于電影中的人物關(guān)系。每個開發(fā)人員在開發(fā)過程中用一條線表示,當兩個程序員同時開發(fā)同一個模塊的時候,他們的線條合并。
2.多變量時變型數(shù)據(jù)可視化
多變量時變型數(shù)據(jù)是實際應用中常見的數(shù)據(jù)集。由于存在多個變量,可視化需要兼顧數(shù)據(jù)本身屬性和數(shù)據(jù)集的順序性,結(jié)合數(shù)據(jù)分析的方法展現(xiàn)和挖掘順序性數(shù)據(jù)的規(guī)律。這個流程與可視化的基本流程—“全局摘 要;顯示重要部分—縮放和過濾;按要求顯示細節(jié),進一步分析”相吻合,歸納為三類基本方法,即數(shù)據(jù)抽象、數(shù)據(jù)聚類和特征分析。
高維抽象的時變非空間數(shù)據(jù)通常蘊涵宏觀的、結(jié)構(gòu)性的、隨時間變化的規(guī)律。將時變序列中的每個數(shù)據(jù)采樣點連接,原時變序列組成一條在高維空間的線,在低維空間可視化這條線可揭示高維空間的時間序列演化趨勢基于線表示的可視化有三個基本步驟。
第一步:高維曲線采樣,采樣的頻率由用戶交互指定。
第二步:將采樣后的高維曲線分段,便于刻畫每段曲線的特性,小段之間可以重疊。
第三步:用主元分析法將高維曲線投影到二維空間,顯示和研究曲線特征。
直接可視化大規(guī)模的時變型數(shù)據(jù)難以呈現(xiàn)其全部細節(jié),因此需要設(shè)計合適的交互方法表現(xiàn)重要的區(qū)域。
3.流數(shù)據(jù)可視化
流數(shù)據(jù)是一類特殊的時變型數(shù)據(jù),輸入數(shù)據(jù)(全部或部分)并不存儲在可隨機訪問的磁盤或內(nèi)存中,而是以一個或多個“連續(xù)數(shù)據(jù)流”的形式到達。常見的流數(shù)據(jù)有移動通信日志、網(wǎng)絡數(shù)據(jù)(日志、傳輸 數(shù)據(jù)包警報等)、高性能集群平臺日志、傳感網(wǎng)絡 記錄、金融數(shù)據(jù)(如股票市場)、社交數(shù)據(jù)等,處理流數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)池處理方法相比有以下特點:
(1)數(shù)據(jù)流的潛在大小也許是無限的。
(2)數(shù)據(jù)元素在線到達,需要實時處理,否則數(shù)據(jù)的價值隨時間的流逝可能降低。
(3)無法控制數(shù)據(jù)元素的到達順序和數(shù)量,每次流入的數(shù)據(jù)順序可能不一致數(shù)量時多時少。
(4)某個元素被處理后,要么被丟棄,要么被歸檔存儲。
對于流數(shù)據(jù)的查詢異常情況和相似類型比較耗時,人工檢測日志相當乏味且易出錯。
上文總結(jié)的時變型數(shù)據(jù)可視化方法主要采用靜態(tài)方式展示數(shù)據(jù)中記錄的內(nèi)容,不隨時間變化,但可采用多角度、數(shù)據(jù)比較等方法體現(xiàn)數(shù)據(jù)隨時間變化的趨勢。此外,時變型數(shù)據(jù)還有許多的具體分類,在對時變型數(shù)據(jù)進行可視化時,還必須考慮時變型數(shù)據(jù)進行詳細的分析,使用最合適的可視化方法對其驚醒可視化。
(作者單位:大連工業(yè)大學設(shè)計學院)