趙凡,馬小東,任芃錕
1.中國科學院新疆理化技術(shù)研究所,新疆 烏魯木齊 830011
2.中國科學院大學,北京 100049
3.新疆民族語音語言信息處理研究室,新疆 烏魯木齊 830011
時空數(shù)據(jù)是包含了時序特征及空間特征的數(shù)據(jù)集合,針對時空數(shù)據(jù)的研究是目前數(shù)據(jù)分析領(lǐng)域的重要方向之一。在時空數(shù)據(jù)分類中有一種類型具備了特有的數(shù)據(jù)特征,這些數(shù)據(jù)記錄的是個體在某固定空間位置里的駐留狀態(tài)信息,常見的業(yè)務(wù)場景包括網(wǎng)吧上網(wǎng)記錄、賓館住宿記錄以及停車場出入記錄等。這類數(shù)據(jù)記錄了不同用戶不同時間段在固定的地點停留的信息,從中可以繪制不同特征的用戶畫像,總結(jié)個體的行為模式,挖掘出具有相似行為的群體,對從業(yè)者精準營銷、安全防控等領(lǐng)域有很重要的指導意義。
現(xiàn)有的統(tǒng)計分析或機器學習等數(shù)據(jù)挖掘技術(shù)很難做到從龐雜的時空數(shù)據(jù)中發(fā)現(xiàn)系統(tǒng)化的知識,自動識別復(fù)雜的模式,這為相關(guān)數(shù)據(jù)的分析工作帶來不小的挑戰(zhàn)。如何通過更為自然、智能的方式提升相關(guān)人員對個體/群體時空信息的理解能力和利用效率,已經(jīng)成為當前信息領(lǐng)域必須解決的關(guān)鍵問題之一。為了充分挖掘利用海量時空數(shù)據(jù)其中蘊藏的價值,需要結(jié)合數(shù)據(jù)分析與可視化技術(shù),即把復(fù)雜時空數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)人員更易理解的圖形,通過人-機信息交互得到更多更有價值的知識。
因此可視分析方法已成為目前大數(shù)據(jù)分析領(lǐng)域近期研究的熱點。使用數(shù)據(jù)可視分析方法分析數(shù)據(jù)記錄特征,發(fā)現(xiàn)用戶行為模式,展示統(tǒng)計結(jié)果,將復(fù)雜的數(shù)據(jù)用直觀的表現(xiàn)手段呈現(xiàn),增強用戶信息認知能力,減少用戶的認知負荷,提升數(shù)據(jù)分析結(jié)論的可解釋性。
本文以網(wǎng)吧用戶上網(wǎng)記錄數(shù)據(jù)為基礎(chǔ),研究用戶模型構(gòu)建和行為模式發(fā)現(xiàn)方法,結(jié)合先進的多模態(tài)可視化技術(shù),支持多角度、多視圖的數(shù)據(jù)描述,通過色彩、布局、方向、形狀等多維度的渲染,實現(xiàn)了一個針對此類時空數(shù)據(jù)的可視分析系統(tǒng)SRDVis,該系統(tǒng)開發(fā)目標是滿足相關(guān)業(yè)務(wù)監(jiān)管人員的管理和經(jīng)營需求,已在相關(guān)領(lǐng)域開展應(yīng)用并取得了良好的效果。
時序數(shù)據(jù)指的是包含時間屬性的數(shù)據(jù),體現(xiàn)數(shù)據(jù)隨時間變化的規(guī)律以及數(shù)據(jù)分布的時間規(guī)律,時序數(shù)據(jù)可視化在數(shù)據(jù)可視化領(lǐng)域目前屬于熱點研究,例如使用時間軸的線性和周期時間可視化,使用日歷視圖的可視化,或分支和多角度時間可視化[1]等。有的研究工作則試圖解決大規(guī)模時序數(shù)據(jù)可視化中的視覺混淆問題,例如使用平行坐標圖[2],或使用多模態(tài)可視化技術(shù)結(jié)合多種視圖的方式[3]。
常見的時序數(shù)據(jù)可視化的映射方式有基于時間坐標軸的柱狀圖、折線圖等[4-6]視圖。針對有周期性時序數(shù)據(jù)特征的設(shè)計空間表達,Weber 等[7]提出一種基于螺旋線的新方法。有學者使用可重新排序的圖表矩陣,通過交互式探索來比較相關(guān)數(shù)據(jù)的不同側(cè)重點[8-9]。Javed 等[10]提出的Stack Zooming 交互式構(gòu)建多焦點縮放的層次結(jié)構(gòu)。Gruendl 等[11]針對高維時序數(shù)據(jù)提出了平行坐標圖的三維擴展。
除了設(shè)計新穎的視圖,研究者還通過結(jié)合用戶視覺信息和人機交互的手段幫助人們提高數(shù)據(jù)分析的效率,如Martin 等[12]設(shè)計刷選式動態(tài)過濾技術(shù)來探索時序數(shù)據(jù)的特征。Yang 等[13]提出DOSFA 發(fā)現(xiàn)多維度數(shù)據(jù)間的相似性,通過交互的維度層次結(jié)構(gòu)操作,探索不同維度之間關(guān)系。Furnas 等[14]使用上下文用戶界面交互技術(shù)。Zhao[15]和Chen 等[16]使用多視圖關(guān)聯(lián)協(xié)調(diào)技術(shù)實現(xiàn)多元復(fù)雜數(shù)據(jù)的可視分析任務(wù)。
地理空間數(shù)據(jù)普遍具有稀疏、多維、時空等特點,使用地圖視圖是最常見的空間數(shù)據(jù)可視化方法。除此之外,Cornee 等[17]提出基于點(特征編碼、顏色、密度、連接)的交互探索世界貿(mào)易數(shù)據(jù)的方法。Chen 等[18]采用分層多類采樣技術(shù)來表現(xiàn)多類數(shù)據(jù)特征,使用分層多類藍噪聲采樣方案,生成點分布的可視化抽象。Guo 等[19]提出基于核的密度估計,使用流密度聚類模型,過濾重復(fù)信息來表示移民情況。Collins 等[20]引入氣泡集方法,使用一個連續(xù)的、閉合的、等值線來描繪集合的成員。Yuan 等[21]提出的高維傳遞函數(shù),結(jié)合3D 時空視圖等多種視圖高效支持多模態(tài)數(shù)據(jù)探索。
SRDVis 系統(tǒng)使用的是公開數(shù)據(jù)集,來源自ChinaVis2017 數(shù)據(jù)可視分析挑戰(zhàn)二,該集合中包含重慶市內(nèi)3 000 多個網(wǎng)吧的基本信息及2016年三個月約1 600 萬行上網(wǎng)脫敏記錄,數(shù)據(jù)大小為1.7G。本章首先介紹該數(shù)據(jù)集的數(shù)據(jù)格式,數(shù)據(jù)分析的任務(wù),然后介紹系統(tǒng)工作流程和數(shù)據(jù)處理方法。
根據(jù)數(shù)據(jù)的描述,聯(lián)系具體問題,可以對駐留行為時空數(shù)據(jù)進行以下幾個任務(wù)來進行分析:
任務(wù)1:全局時空特征分析,主要是展示所有記錄數(shù)據(jù)的時空統(tǒng)計特征及網(wǎng)吧的經(jīng)營情況。例如按日期區(qū)分統(tǒng)計上網(wǎng)人數(shù)和上網(wǎng)時間,按每天的時段區(qū)分上網(wǎng)人數(shù)和上網(wǎng)時間,及按照用戶年齡、性別進行統(tǒng)計。
任務(wù)2:用戶行為模式分析,主要是對數(shù)據(jù)中的個體用戶行為記錄進行分析。行為特征包括周期性、趨勢、高頻使用階段以及不同用戶間的行為相似程度。例如統(tǒng)計不同省市的上網(wǎng)人數(shù)、人均平均上網(wǎng)時間和次數(shù),或按不同籍貫統(tǒng)計分析對應(yīng)的人群上網(wǎng)行為特征,包括常去網(wǎng)吧的地理分布特征等。
任務(wù)3:共現(xiàn)群體發(fā)現(xiàn),發(fā)現(xiàn)可能存在共現(xiàn)行為的群體。在網(wǎng)吧個人行為記錄數(shù)據(jù)中,將多個人在同一個網(wǎng)吧,“同時”上機且“同時”下機定義為一個群體。這里的“同時”表示一個極短的時間間隔,本文中,我們將這一閾值定義為5 分鐘,即同一個網(wǎng)吧中,兩兩用戶之間上機的時間間隔必須在5 分鐘之內(nèi),且下機時也滿足此條件。該閾值的越大則挖掘出的群體越多,同時設(shè)置群體最小規(guī)模為2 人。
SRDVis 系統(tǒng)主要分為數(shù)據(jù)處理、數(shù)據(jù)分析及數(shù)據(jù)可視化3 個部分,如圖1所示。數(shù)據(jù)處理部分主要是對原始數(shù)據(jù)進行清洗和重新組織,提取分析所需的特征;數(shù)據(jù)分析部分主要是建立完善的用戶畫像標簽體系結(jié)構(gòu),從不同維度對用戶進行描述,對個體行為進行建模,探索可能存在的群體模式;數(shù)據(jù)可視化部分采用多模塊協(xié)同交互式可視界面,展示記錄數(shù)據(jù)時變特性及空間分布特征。
圖1 系統(tǒng)工作流程圖Fig.1 System workflow
數(shù)據(jù)處理工作首先是數(shù)據(jù)清洗,包括修正格式異常的數(shù)據(jù),缺少字段的數(shù)據(jù),或字段不合規(guī)范的數(shù)據(jù),或字段明顯不合情理的數(shù)據(jù),去除格式異常的上網(wǎng)日期、上網(wǎng)人員生日、籍貫等數(shù)據(jù)。其次是從上網(wǎng)記錄中清除經(jīng)緯度為空的網(wǎng)吧,并刪除與該網(wǎng)吧有關(guān)的上網(wǎng)記錄,去除不需要的字段。最后將毫無規(guī)律的數(shù)據(jù)整理成兩種格式,分別為以網(wǎng)吧的數(shù)據(jù)標識為主要索引的記錄文件(包含了網(wǎng)吧的經(jīng)緯度位置信息、經(jīng)過脫敏后的網(wǎng)吧名稱信息以及經(jīng)過統(tǒng)計處理后的經(jīng)營信息)和以日期為主索引的記錄文件,且文件中的記錄按上機時間排序,以便于之后進行數(shù)據(jù)分析任務(wù)和各種視圖可視化。
數(shù)據(jù)分析工作主要包括用戶模型構(gòu)建和共現(xiàn)群體發(fā)現(xiàn)。我們針對原始數(shù)據(jù)類型特點,使用特征提取、文本分類、社區(qū)發(fā)現(xiàn)、LDA 等挖掘算法提取用戶特征,抽象出標簽化的用戶模型,標簽包括用戶靜態(tài)數(shù)據(jù)例如性別、年齡、所在地域等基礎(chǔ)屬性,還有動態(tài)行為數(shù)據(jù)包括上網(wǎng)時間、上網(wǎng)地點、上網(wǎng)時長等。然后根據(jù)個體行為模式特點進行聚類,實現(xiàn)對群體的定義及劃分,最后挖掘個體及群體的行為模式,構(gòu)建個體-群體的關(guān)聯(lián)體系。
本節(jié)對SRDVis 系統(tǒng)中的可視化視圖設(shè)計思路和方法進行詳細描述和功能介紹。
展示數(shù)據(jù)的時序特征時,我們仿照表盤設(shè)計了一種基于極坐標的時間特征展示視圖,如圖2(a)所示,該圖將圓周劃分為24 等份,每一份代表了一天對應(yīng)的時間,最小單位為小時,同時使用不同顏色將每天的時間劃分為工作時段(藍色)、休息時段(綠色)、夜晚時段(紅色)三部分,可以直觀地展示這三類時段中數(shù)據(jù)的分布情況。
圖2 上網(wǎng)行為時序特征可視化視圖Fig.2 Visualization view of time series characteristics of online behavior
基于該坐標系,可以繪制圓心相同、半徑不同、長度不同的固定寬度弧線,代表行為記錄的時間延續(xù)情況,如圖2(b)所示?;【€顏色分為兩種,其中綠色弧線代表當天為休息日,藍色弧線代表當天為工作日。弧線沿順時針繪制,起點和終點代表上網(wǎng)的開始和結(jié)束時間,長度代表本次上網(wǎng)時長,弧線距圓心的距離代表日期的先后順序,即靠近圓心代表日期較早,遠離圓心代表日期較晚。本系統(tǒng)用此視圖展示個人所有上網(wǎng)延續(xù)時間的數(shù)據(jù)特征。
另外在坐標系中還可以嵌套南丁格爾玫瑰圖來展示不同時段的數(shù)據(jù)統(tǒng)計信息,如圖2(c)及圖3(c)所示,其中每小時的統(tǒng)計數(shù)據(jù)條使用不同顏色繪制,從圓心到圓周的數(shù)據(jù)條長度代表統(tǒng)計數(shù)量的多少。該圖不易展示每部分數(shù)據(jù)的精確數(shù)量,但能展示出一天內(nèi)不同時間分段的統(tǒng)計數(shù)字變化趨勢。本系統(tǒng)使用該圖展示人數(shù)和總上網(wǎng)時長的數(shù)據(jù)統(tǒng)計量。
另外系統(tǒng)使用日歷矩陣圖來表現(xiàn)更大時間尺度范圍的離散數(shù)據(jù),以便于分析特定時間段內(nèi)的行為特征。如圖3(b)上方的兩個視圖所示,每一小方格代表一天,將對應(yīng)日期的記錄統(tǒng)計數(shù)量熱力值繪制在圖上,顏色深淺代表了記錄發(fā)生的數(shù)量多少。此視圖對全局數(shù)據(jù)的時序行為特征分布進行了有效的可視化支持。
圖3 是SRDVis 系統(tǒng)的主界面之一,用來呈現(xiàn)數(shù)據(jù)的時空屬性分布特征。系統(tǒng)中使用基于行政區(qū)域地圖的熱力圖來展示數(shù)據(jù)中的人員地理空間分布特征,如圖3(a)所示,其中左圖是全國行政區(qū)域地圖,展示了來源于不同省市的上網(wǎng)人員總計數(shù),各行政區(qū)域的顏色越偏向紅色說明該省(市)的人群數(shù)量越多,右圖是重慶的行政區(qū)域地圖,用熱力圖的方式展示各地人群去往特定場所的分布,數(shù)據(jù)使用的是進行過隨機偏離坐標的網(wǎng)吧位置信息,熱力點紅色越密集的地方說明去的人數(shù)越多。通過對左圖的點擊切換省市操作可以動態(tài)展示不同籍貫的上網(wǎng)人員在重慶各地網(wǎng)吧的地理空間分布情況。
圖3 SRDVis 系統(tǒng)數(shù)據(jù)時空特征分析界面視圖Fig.3 Data spatio-temporal characteristic analysis interface view of SRDVis system
除了使用地圖展示全局統(tǒng)計數(shù)據(jù)的空間分布特征,系統(tǒng)還需要分析個人上網(wǎng)行為的時空特征,總結(jié)存在相似規(guī)律的同類用戶行為模式。因此我們根據(jù)每兩次上網(wǎng)記錄之間的間隔時空屬性特征來描述個人上網(wǎng)行為特征,其中包括了兩次上網(wǎng)記錄的間隔時間及相同或不同網(wǎng)吧地點之間的聯(lián)系。
首先,我們從數(shù)據(jù)集中選擇某人的所有上網(wǎng)記錄,然后我們得到3 個列表:
其中Ltime1表示該用戶開始上網(wǎng)的時間集合,Ltime2表示該用戶結(jié)束上網(wǎng)的時間集合,Lbar是用戶所在網(wǎng)吧對應(yīng)的地理坐標集合(無重復(fù))。接下來,我們計算出每兩次上網(wǎng)行為之間的時間間隔列表:
其中in= tbn+1-ten,表示第n 次上網(wǎng)結(jié)束時間與第n+1次上網(wǎng)開始時間的間隔。然后計算出每次上網(wǎng)的時間長度列表:
其中on-1= ten-tbn。之后我們將Linterval及Lonline集合數(shù)據(jù)一起映射到極坐標,就顯示出具有交錯表示的視圖,其中黑色部分代表了上網(wǎng)的時長,灰色部分代表了兩次上網(wǎng)時間間隔的時長。餅圖的大小代表了用戶活動范圍的大小,我們使用Lbar數(shù)據(jù)集計算半徑(MC_R),即計算包含所有網(wǎng)吧的地理節(jié)點形成的最小包圍圓(MC),這里MC_R 是MC 的半徑。依據(jù)Lbar集合的無重復(fù)元素數(shù)量,可以展示幾種不同的狀態(tài)如圖4所示。圖4(a)是只有一個網(wǎng)吧的情況,定義MC_R 是餅圖半徑的最小值(例如5px)。圖4(b)有兩個網(wǎng)吧,使用線段(LS)連接兩點,定義MC的中心是LS 的中點,MC_R 是LS 的長度的1/2。圖4(c)有三個網(wǎng)吧,連接三點構(gòu)成三角形,頂點代表網(wǎng)吧,然后計算出三角形的外接圓(CMC),這里的CMC 就是MC。如果存在多于三個網(wǎng)吧的情況,則如圖4(d)中所示,使用模擬退火法生成最小包圍圓。圖4 設(shè)計的餅圖中,用戶上網(wǎng)總時長分兩種情況,一種是查看個體用戶的上網(wǎng)行為時空分布特征時的本用戶統(tǒng)計上網(wǎng)總時長,從1 小時到3 個月不等;還有一種情況涉及到多用戶的行為特征比較,這時會以總上網(wǎng)時長最長的用戶時間總長度為基礎(chǔ),繪制同其比較用戶的行為特征。
圖4 個人上網(wǎng)行為時空分布特征可視化設(shè)計Fig.4 Visual design of spatial-temporal distribution characteristics of personal online behavior
系統(tǒng)還設(shè)計了一些對固有特征進行統(tǒng)計展示的視圖,如圖3(d)所示,左圖為柱形折現(xiàn)結(jié)合視圖,用來分析統(tǒng)計人員的籍貫信息,藍色柱狀表示來自該地區(qū)人員的數(shù)量,橙色折線表示該地區(qū)人員記錄產(chǎn)生的平均時長;右圖用區(qū)域堆疊圖展示不同年齡段的上網(wǎng)人員總數(shù),同時使用紅藍顏色區(qū)域區(qū)分人員性別。
另外在圖7(b)中還使用了平行坐標圖展示了對不同年齡段人群上網(wǎng)的特征分布,使用多條平行的豎直坐標軸表示數(shù)據(jù)的多個維度,在坐標軸上刻畫某一維度的數(shù)據(jù)數(shù)值或者分類,然后用線連接某一數(shù)據(jù)項在所有坐標軸上的點,有效分析上網(wǎng)與年齡階段以及時長之間的關(guān)系。
系統(tǒng)使用基于時間軸甘特圖的改進視圖來表現(xiàn)兩人或多人之間行為的共現(xiàn)關(guān)系,如圖5所示,其中x 坐標軸代表了時間,y 坐標軸是每個上網(wǎng)用戶,使用平行與x 軸的甘特圖表示每位用戶的行為記錄發(fā)生時段,并將每個時段按5 分鐘劃分,使用平行于y 軸的虛線連接同時出現(xiàn)的用戶,顏色相同的甘特線代表這些用戶是在同一場所。
圖5 個人上網(wǎng)行為共現(xiàn)關(guān)系視圖Fig.5 Co-occurrence relationship view of personal online behavior
同時系統(tǒng)設(shè)計了使用力導向的關(guān)系圖表現(xiàn)所有具備共現(xiàn)情況的用戶,如圖6所示,圖中節(jié)點代表一個用戶,每條線都代表了兩點之間至少有3 次時空特征重合的現(xiàn)象,時空特征重合指的是對應(yīng)的兩個用戶的上網(wǎng)行為記錄中,存在著地點一致(即兩人上網(wǎng)所在網(wǎng)吧為同一個),以及兩人的上網(wǎng)時間區(qū)域有重疊的現(xiàn)象。經(jīng)統(tǒng)計,所有可能的用戶共現(xiàn)事件都發(fā)生在3 天之內(nèi),因此在力導向關(guān)系圖中設(shè)置了1-3 天的顏色區(qū)分。其中灰色的節(jié)點說明所有的重合事件都發(fā)生在同一天,藍色的代表了兩天,橙色的代表了3 天。甘特圖和力導向關(guān)系圖的結(jié)合可以有效且直觀地顯示出群體成員的聚集時間范圍,對群體的發(fā)現(xiàn)和對群體行為分析十分有益。
圖6 人群共現(xiàn)關(guān)系可視化視圖Fig.6 Visualization view of crowd co-occurrence relationship
本節(jié)中,通過兩個實際的案例來說明分析方法與系統(tǒng)的有效性,其中案例一是基于上網(wǎng)人員的固有屬性及行為特征繪制全局用戶畫像,實現(xiàn)對數(shù)據(jù)統(tǒng)計特征的識別和分析。案例二是發(fā)現(xiàn)可能存在的共現(xiàn)群體并展示個人的上網(wǎng)記錄時空分布特征。
首先按人均計算每個區(qū)域的上網(wǎng)時間與次數(shù),結(jié)果如圖7(a)所示,柱形圖是人均上網(wǎng)時間(單位:分鐘),線性圖是人均上網(wǎng)次數(shù)(單位:次)??梢钥闯鋈司暇W(wǎng)時間與上網(wǎng)次數(shù)不同省份之間的差距不大,人均時間最長和次數(shù)最多的記錄都是西藏,人均時間最短的是天津,人均次數(shù)最少的是重慶(人均1 次)。
圖7 用戶畫像可視化展示Fig.7 Visualization display of user persona
其次,用戶年齡、上網(wǎng)時長、用戶數(shù)量及網(wǎng)吧數(shù)量的關(guān)聯(lián)關(guān)系使用平行坐標圖展示,如圖7(b)所示。可以看出1980年前出生的用戶去網(wǎng)吧次數(shù)和使用時長都很少,主力用戶是80 后和90 后的用戶,同時這一階段的用戶年齡與上網(wǎng)時長呈反比關(guān)系。
接下來是使用區(qū)域堆疊圖展示不同籍貫上網(wǎng)人員的年齡及性別分布畫像,圖7(c)的數(shù)據(jù)來自上海,這里將上網(wǎng)人員的年齡分為5 組,分別是70 前(1970 前)、70 后(1970-1980)、80 后(1980-1990)、90 后(1990-2000)及00 后(2000 后),藍色表示男性、紅色表示女性。從中可以看到網(wǎng)吧用戶中90 后人數(shù)占比最多,其次是80 后,男性人數(shù)大大超過女性人數(shù)。
最后是展示流動人口的上網(wǎng)時間與時長的特征,這里使用了圖7(d)中的日歷熱力圖及圖7(e)中的基于極坐標的南丁格爾圖來分別表現(xiàn)不同尺度下的人員分布特征,最小單位分別是“天”和“小時”。圖中展示的是來自北京的上網(wǎng)人員畫像,其中左邊視圖展示的是不同日期及不同時段上網(wǎng)人數(shù)的分布,右邊視圖反映的是不同日期及不同時段的平均每人上網(wǎng)的時長分布(單位是分鐘)?;镜臅r間分布情況是:休息日多于工作日,11月人數(shù)多于10月和12月,上網(wǎng)時段以12 點至21 點人數(shù)最多,上網(wǎng)時間分布則比較平均。
我們將網(wǎng)吧用戶可能存在的共現(xiàn)群體定義為至少有兩個用戶上網(wǎng)時空特征重合,即同一時段這兩名用戶在同一網(wǎng)吧上網(wǎng)。在系統(tǒng)展示所有可能的共現(xiàn)關(guān)系時過濾了上網(wǎng)記錄少于3 次的用戶,因為個人記錄太少會造成偶然因素過大使得分析結(jié)果不準確。最終我們篩選出個人上網(wǎng)次數(shù)大于3 次的數(shù)據(jù)進行分析,計算每個網(wǎng)吧中兩兩用戶之間的共現(xiàn)情況作為邊,有共現(xiàn)關(guān)系的用戶作為點,再次篩選出共現(xiàn)關(guān)系大于等于3 次的點和邊,形成了最終的關(guān)系圖如圖8(a)所示。
該圖中每條線都代表了兩點之間至少有3 次時空特征重合的現(xiàn)象,其中橙色的節(jié)點說明有3 天都發(fā)生了時空特征重合事件,顯然橙色節(jié)點之間所形成的子圖代表一個群體的可能最大。
為了驗證圖中的群體是否是真實存在的,我們使用基于時間軸甘特圖的改進視圖來詳細描述兩人或多人之間上網(wǎng)行為的關(guān)系,如圖8(b)所示。通過觀察這個發(fā)現(xiàn)的群體,我們可以發(fā)現(xiàn)這5 人出現(xiàn)時空共現(xiàn)的重合點集中在同一天的12 小時之內(nèi),且這5 人在其他時間段均沒有出現(xiàn)共現(xiàn)現(xiàn)象(其中的2人或3 人也沒有),到此可以大致判斷這種共現(xiàn)可能是一次巧合。為了進一步加強判斷,通過查看每人的詳細上網(wǎng)記錄進行比較,如圖8(c)所示,給出了這5 人其中的1 人的上網(wǎng)記錄詳細時序視圖及時空分布視圖,再通過比較其他幾人的個人特征視圖,可以發(fā)現(xiàn)這幾人之中確實沒有時空特征相似的情況,因此得出結(jié)論,這5 人不是共現(xiàn)群體。而橙色節(jié)點代表的2 個用戶(視圖可參見圖5)的重合上網(wǎng)時間分布在3 天不同的日期中,且沒有其他額外的上網(wǎng)記錄,結(jié)合個人詳細記錄的比較,我們可以判斷出這2 名用戶可能是屬于一個共現(xiàn)群體的。
圖8 共現(xiàn)關(guān)系發(fā)現(xiàn)及用戶行為展示Fig.8 Co-occurrence relationship discovery and user behavior display
本文基于現(xiàn)實的時空數(shù)據(jù)(包括個體行為記錄等)設(shè)計并實現(xiàn)了SRDVis 系統(tǒng),該系統(tǒng)使用可視化視圖來輔助分析不同特征人群的上網(wǎng)行為,為業(yè)務(wù)監(jiān)管人員提供可能的群體行為判斷、預(yù)測等分析手段。SRDVis 系統(tǒng)使用可視化分析方法,可以幫助用戶從海量、異構(gòu)、復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)感興趣的信息,獲得更深入的理解。文中的可視化方案設(shè)計簡潔明了,針對每個設(shè)計任務(wù)使用多種視圖來輔助分析,部分視圖設(shè)計對多種包含時間空間信息的業(yè)務(wù)領(lǐng)域數(shù)據(jù)分析系統(tǒng)的可視化實現(xiàn)都有很好的適用性,包括基于極坐標的時序特征視圖、基于行政區(qū)域地圖的熱力圖、時空分布特征餅圖、基于時間軸甘特圖的共現(xiàn)視圖及日歷矩陣、平行坐標等視圖均在其他時空數(shù)據(jù)分析系統(tǒng)中得到實際應(yīng)用,例如停車場數(shù)據(jù)分析系統(tǒng)等,具有一定的擴展性。
團隊后續(xù)的研究工作包括擴展數(shù)據(jù)集,整合天氣、節(jié)假日等多種數(shù)據(jù)源,進行數(shù)據(jù)融合分析,并從框架、模型、算法、設(shè)計到交互方式,使SRDVis系統(tǒng)更加完善,從而提高從業(yè)者數(shù)據(jù)營運能力,實現(xiàn)業(yè)務(wù)監(jiān)管部門對相關(guān)異常事件的事前預(yù)警和事后監(jiān)督反饋。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。