張 青,陶彩霞,陳 翀
(中國(guó)電信股份有限公司廣東研究院 廣州 510630)
進(jìn)入Web 3.0,用戶(hù)可以通過(guò)手機(jī)隨時(shí)隨地參與內(nèi)容的創(chuàng)造和傳播,形成移動(dòng)與互聯(lián)網(wǎng)融合的移動(dòng)互聯(lián)網(wǎng)時(shí)代。移動(dòng)互聯(lián)網(wǎng)具備基于個(gè)人身份/個(gè)人位置服務(wù)的特點(diǎn),移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái)使得運(yùn)營(yíng)商面臨的 “被管道化”威脅更為嚴(yán)峻,終端、平臺(tái)和應(yīng)用已經(jīng)成為新的贏利點(diǎn)。
對(duì)于電信運(yùn)營(yíng)商來(lái)說(shuō),流量是今后收入的重要利益增長(zhǎng)點(diǎn)。為了更好地支撐移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,需要對(duì)移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行合理采集、解讀與表達(dá),從中準(zhǔn)確地捕捉用戶(hù)的偏好、業(yè)務(wù)熱點(diǎn)等移動(dòng)互聯(lián)網(wǎng)用戶(hù)特征,數(shù)據(jù)可視化無(wú)疑是讓數(shù)據(jù)更加易用和便于理解的最有效途徑。
數(shù)據(jù)可視化順應(yīng)大數(shù)據(jù)時(shí)代的到來(lái)而興起,本文在闡述數(shù)據(jù)可視化概念后,總結(jié)了移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)可視化新技術(shù)的特征,并進(jìn)一步探討了移動(dòng)互聯(lián)網(wǎng)用戶(hù)數(shù)據(jù)可視化的應(yīng)用場(chǎng)景。
數(shù)據(jù)可視化[1]是指綜合運(yùn)用計(jì)算機(jī)圖形、圖像、人機(jī)交互等技術(shù),將采集或模擬的數(shù)據(jù)映射為圖形、圖像、視頻或動(dòng)畫(huà),并允許用戶(hù)對(duì)數(shù)據(jù)進(jìn)行交互分析的理論、方法和技術(shù)?,F(xiàn)代主流觀點(diǎn)將數(shù)據(jù)可視化分為傳統(tǒng)的科學(xué)可視化和信息可視化兩類(lèi)。
科學(xué)可視化面向科學(xué)和工程學(xué)領(lǐng)域的數(shù)據(jù),如含空間坐標(biāo)和幾何信息的三維空間測(cè)量數(shù)據(jù)、計(jì)算模擬數(shù)據(jù)和醫(yī)學(xué)影像數(shù)據(jù)等,重點(diǎn)探索如何以幾何、拓?fù)浜托螤钐卣鱽?lái)呈現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律;信息可視化的處理對(duì)象是非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本數(shù)據(jù),其核心挑戰(zhàn)是針對(duì)大尺度、高維復(fù)雜數(shù)據(jù),如何減少視覺(jué)混淆對(duì)有用信息的干擾。由于數(shù)據(jù)分析的重要性,將可視化與分析相結(jié)合,形成一個(gè)新的學(xué)科——可視化分析學(xué)。
可視化分析學(xué)是一個(gè)多學(xué)科領(lǐng)域,涉及以下4個(gè)方面:一是分析推理技術(shù),能使用戶(hù)獲得深刻的見(jiàn)解,這種見(jiàn)解直接支持評(píng)價(jià)、計(jì)劃和決策的行為;二是可視化表示和交互技術(shù),充分利用人眼寬帶寬通道的視覺(jué)能力來(lái)觀察、瀏覽和理解大量的信息;三是數(shù)據(jù)表示和變換技術(shù),以支持可視化和分析的方式轉(zhuǎn)化所有類(lèi)型的異構(gòu)和動(dòng)態(tài)數(shù)據(jù);四是支持分析結(jié)果的產(chǎn)生、演示和傳播的技術(shù),能與各種觀眾交流有適當(dāng)背景資料的信息??梢暦治龅膶W(xué)科交叉組成及涉及學(xué)科如圖1所示。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,綜合多種媒體獲取和理解信息已經(jīng)成為信息傳播的發(fā)展潮流。文本作為人類(lèi)信息交流的主要載體之一,對(duì)其進(jìn)行可視化能夠有效幫助人們快速理解和獲取其中蘊(yùn)含的信息;近年來(lái),社交網(wǎng)絡(luò)發(fā)展迅速,其用戶(hù)數(shù)量呈爆炸式增長(zhǎng),對(duì)社交網(wǎng)絡(luò)進(jìn)行可視化,將社交網(wǎng)絡(luò)信息以生動(dòng)、易理解的方式呈現(xiàn),可以直觀地解釋隱藏在社交網(wǎng)絡(luò)背后的結(jié)構(gòu)模式;日志數(shù)據(jù)記錄了用戶(hù)隨著時(shí)間變化的行為特征信息,用可視化的方式呈現(xiàn)日志數(shù)據(jù)中隱含的信息,理解被記錄對(duì)象的行為特征。本節(jié)主要介紹移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)中文本數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)以及日志數(shù)據(jù)的可視化方法和技術(shù)。
文本信息在人們?nèi)粘I钪袔缀鯚o(wú)處不在,如新聞、郵件、微博、小說(shuō)和書(shū)籍等。面對(duì)海量涌現(xiàn)的電子文檔和類(lèi)文本信息,利用傳統(tǒng)的閱讀方式解讀電子文本已經(jīng)變得越來(lái)越低效。因此,利用可視化和交互的方式生動(dòng)地展現(xiàn)大量文本信息中隱含的內(nèi)容和關(guān)系,是提升理解速度、挖掘潛在語(yǔ)義的必要途徑之一。
文本可視化的研究主要包括基于文本內(nèi)容的可視化、基于文本關(guān)系的可視化、基于多層面信息的可視化[2]。
(1)基于文本內(nèi)容的可視化
面對(duì)海量文本,人們需要對(duì)每個(gè)文本或者整個(gè)文本集合的主要內(nèi)容進(jìn)行快速瀏覽。最典型的可視化形式是“標(biāo)簽云”(tag cloud)。標(biāo)簽云一般使用字體的大小和顏色對(duì)關(guān)鍵詞的重要性進(jìn)行編碼。越重要(權(quán)重越大)的關(guān)鍵詞的字體越大,顏色越顯著。
(2)基于文本關(guān)系的可視化
基于文本關(guān)系的可視化研究文本的內(nèi)外關(guān)系,幫助人們理解文本內(nèi)容和發(fā)現(xiàn)規(guī)律。常用的可視化形式有樹(shù)狀圖和節(jié)點(diǎn)連接的網(wǎng)絡(luò)圖,主要關(guān)注文本的內(nèi)部結(jié)構(gòu)和語(yǔ)義關(guān)系。
(3)基于多層面信息的可視化
基于多層面信息的文本可視化主要研究如何結(jié)合信息的多個(gè)方面幫助用戶(hù)從更深層次理解文本數(shù)據(jù),發(fā)現(xiàn)其內(nèi)在規(guī)律。其中,包含時(shí)間信息的文本可視化近年來(lái)受到越來(lái)越多的關(guān)注,時(shí)間信息提供了關(guān)于文本內(nèi)容變化、數(shù)據(jù)規(guī)律等方面的重要信息。
社交網(wǎng)絡(luò)服務(wù)是基于互聯(lián)網(wǎng)中人與人之間的相互聯(lián)系、信息溝通和互動(dòng)娛樂(lè)的運(yùn)作平臺(tái)。Facebook、微信、微博等都是當(dāng)前普及的社交網(wǎng)站。社交網(wǎng)絡(luò)是一個(gè)網(wǎng)絡(luò)型結(jié)構(gòu),由節(jié)點(diǎn)和節(jié)點(diǎn)之間的鏈接組成。這些節(jié)點(diǎn)通常指?jìng)€(gè)人或者組織,節(jié)點(diǎn)之間的鏈接關(guān)系有朋友關(guān)系、親屬關(guān)系、關(guān)注或轉(zhuǎn)發(fā)關(guān)系、支持或反對(duì)關(guān)系或者擁有共同的興趣愛(ài)好等。
圖1 可視分析的學(xué)科交叉組成及涉及學(xué)科
根據(jù)可視化所需展示的內(nèi)容,社交網(wǎng)絡(luò)的可視化方法可以分為4類(lèi):結(jié)構(gòu)型、統(tǒng)計(jì)型、語(yǔ)義型和時(shí)序型,具體介紹如下。
(1)結(jié)構(gòu)型
結(jié)構(gòu)型可視化著重于展示社交網(wǎng)絡(luò)的結(jié)構(gòu),即體現(xiàn)社交網(wǎng)絡(luò)中的參與者和他們之間關(guān)系的拓?fù)浣Y(jié)構(gòu)。常用的可視化方法是節(jié)點(diǎn)鏈接圖,其中的節(jié)點(diǎn)表示社交網(wǎng)絡(luò)的參與者,節(jié)點(diǎn)之間的鏈接表示兩個(gè)參與者之間的某種聯(lián)系,如親屬關(guān)系、擁有共同興趣愛(ài)好等,反映一個(gè)社交網(wǎng)絡(luò)中的聚類(lèi)、社區(qū)、潛在模式等。
(2)統(tǒng)計(jì)型
社交網(wǎng)絡(luò)某些特性統(tǒng)計(jì)變量的分布 (如節(jié)點(diǎn)的度數(shù)、中心性、聚類(lèi)系數(shù))可用柱狀圖、折線(xiàn)圖、餅圖等基本統(tǒng)計(jì)圖表進(jìn)行可視化。
(3)語(yǔ)義型
社交網(wǎng)絡(luò)是現(xiàn)實(shí)世界的反映,蘊(yùn)含著豐富的語(yǔ)義信息。對(duì)復(fù)雜社交網(wǎng)絡(luò)中的語(yǔ)義信息進(jìn)行可視化,可以有效地發(fā)現(xiàn)社交網(wǎng)絡(luò)中的輿情和突發(fā)事件等。
(4)時(shí)序型
社交網(wǎng)絡(luò)中的用戶(hù)行為具有時(shí)間戳,將時(shí)間信息作為屬性融入社交網(wǎng)絡(luò)的可視化,可反映社交網(wǎng)絡(luò)的動(dòng)態(tài)變化情況。
日志數(shù)據(jù)可以理解為一種記錄所觀察用戶(hù)行為信息的數(shù)據(jù)。日志數(shù)據(jù)記錄了對(duì)象隨著時(shí)序變化的行為特征信息,用可視化的方法呈現(xiàn)日志數(shù)據(jù)中隱藏的大量不規(guī)則數(shù)據(jù)信息,可有效幫助用戶(hù)挖掘日志數(shù)據(jù)中所含的信息,理解被記錄用戶(hù)的行為特征[3]。
針對(duì)不同領(lǐng)域、不同類(lèi)型的日志數(shù)據(jù),有不同的可視化需求和方法,主要包括商業(yè)交易、移動(dòng)軌跡和系統(tǒng)日志數(shù)據(jù)3類(lèi),具體介紹如下。
(1)商業(yè)交易數(shù)據(jù)可視化
電子商務(wù)交易平臺(tái)每時(shí)每刻都在記錄用戶(hù)的交易信息,包括個(gè)人信息和每一筆交易記錄,用戶(hù)個(gè)人信息與交易記錄具有巨大的分析價(jià)值,如分析買(mǎi)家的購(gòu)買(mǎi)記錄和個(gè)人特征,可挖掘出特定類(lèi)型商業(yè)的潛在購(gòu)買(mǎi)用戶(hù)。商業(yè)交易數(shù)據(jù)的可視化,可直觀形象地展示數(shù)據(jù),提高分析效率。
(2)移動(dòng)軌跡數(shù)據(jù)可視化
GPS等空間定位技術(shù)以及無(wú)線(xiàn)通信和移動(dòng)計(jì)算的快速發(fā)展,使得實(shí)時(shí)跟蹤和記錄移動(dòng)對(duì)象的軌跡或其他相關(guān)信息變?yōu)楝F(xiàn)實(shí),移動(dòng)數(shù)據(jù)軌跡信息的可視化通常結(jié)合地理信息,直接在地圖上展示,代表性方法有熱力圖(heatmap)。
(3)系統(tǒng)日志數(shù)據(jù)可視化
系統(tǒng)日志數(shù)據(jù)記錄了機(jī)器或集群的運(yùn)行性能等信息,被廣泛用于實(shí)時(shí)監(jiān)控。基于可視化的系統(tǒng)日志數(shù)據(jù)分析是未來(lái)趨勢(shì),如在線(xiàn)日志可視分析軟件Loggly、Splunk等。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,以用戶(hù)的位置信息、終端機(jī)型、時(shí)間信息為基礎(chǔ),結(jié)合用戶(hù)個(gè)人習(xí)慣信息、在線(xiàn)用戶(hù)狀態(tài)、用戶(hù)需求,為運(yùn)營(yíng)商提供了一幅輪廓清晰的客戶(hù)畫(huà)像。根據(jù)這樣的畫(huà)像,精確的廣告投放正在變成現(xiàn)實(shí)。在此基礎(chǔ)上引入可視化技術(shù),使數(shù)據(jù)的說(shuō)服力、可讀性和邏輯性得到了增強(qiáng),以便于了解龐大的多維數(shù)據(jù)間的相互關(guān)系及發(fā)展趨勢(shì)。
可視化不是單獨(dú)的一個(gè)算法,而是一個(gè)流程。除了視覺(jué)映射外,也需要設(shè)計(jì)并實(shí)現(xiàn)其他關(guān)鍵環(huán)節(jié)(如前端的數(shù)據(jù)采集、處理和后端的用戶(hù)交互)。這些環(huán)節(jié)是解決實(shí)際問(wèn)題必不可少的步驟,并且會(huì)直接影響可視化效果。選取客戶(hù)畫(huà)像中的3個(gè)典型場(chǎng)景:用戶(hù)行為特征、社交關(guān)系及興趣關(guān)系特征、用戶(hù)位置特征,進(jìn)一步探討數(shù)據(jù)可視化技術(shù)的實(shí)際應(yīng)用。
在流量經(jīng)營(yíng)精細(xì)化方面,借助DPI(deep packet inspection,深度分組檢測(cè))技術(shù)[4]等,建立客戶(hù)超級(jí)細(xì)分模型,為各細(xì)分群組客戶(hù)打上互聯(lián)網(wǎng)行為標(biāo)簽,從而幫助運(yùn)營(yíng)商完善用戶(hù)的360°畫(huà)像,深入了解用戶(hù)行為偏好和需求特征;其次,根據(jù)用戶(hù)行為偏好,推送合適的業(yè)務(wù),并根據(jù)對(duì)用戶(hù)特征的深入理解,建立用戶(hù)與業(yè)務(wù)、資費(fèi)套餐、終端類(lèi)型、在用網(wǎng)絡(luò)的精準(zhǔn)匹配,實(shí)現(xiàn)全程精準(zhǔn)營(yíng)銷(xiāo)。
以下根據(jù)用戶(hù)的行為數(shù)據(jù)進(jìn)行特征偏好計(jì)算和展示。
(1)數(shù)據(jù)采集
從DPI數(shù)據(jù)采集設(shè)備獲取已生成的數(shù)據(jù)文件,將文件中的用戶(hù)信息入庫(kù),得到3G用戶(hù)互聯(lián)網(wǎng)訪(fǎng)問(wèn)記錄清單,并從業(yè)務(wù)系統(tǒng)獲取用戶(hù)基本信息(包括性別、年齡、在網(wǎng)時(shí)長(zhǎng)、套餐、終端等)。
(2)數(shù)據(jù)處理和轉(zhuǎn)換
DPI分析日志經(jīng)抽取后,按兩個(gè)關(guān)鍵庫(kù)(URL規(guī)則庫(kù)、應(yīng)用庫(kù))完成用戶(hù)客戶(hù)端和訪(fǎng)問(wèn)內(nèi)容的準(zhǔn)實(shí)時(shí)歸類(lèi)和統(tǒng)計(jì),基于分析數(shù)據(jù)歸類(lèi)統(tǒng)計(jì)結(jié)果,輸出以下關(guān)鍵內(nèi)容:TopN應(yīng)用、訪(fǎng)問(wèn)偏好分類(lèi)、訪(fǎng)問(wèn)次數(shù)、用戶(hù)興趣度。針對(duì)用戶(hù)搜索行為,首先對(duì)搜索關(guān)鍵詞進(jìn)行預(yù)處理,以排除原始數(shù)據(jù)中一些無(wú)用或冗余的信息;接著進(jìn)行分詞和詞干提取處理,抽取其中的特征信息,形成搜索關(guān)鍵詞、搜索分類(lèi)、搜索次數(shù)、搜索偏好度等分析挖掘數(shù)據(jù)。DPI日志處理規(guī)則如圖2所示。
(3)可視化映射
用戶(hù)行為特征屬于高維數(shù)據(jù),難點(diǎn)在于如何呈現(xiàn)單個(gè)數(shù)據(jù)點(diǎn)的各屬性值分布以及比較多個(gè)數(shù)據(jù)點(diǎn)之間的屬性關(guān)系。區(qū)域可視化將全部數(shù)據(jù)點(diǎn)的全部屬性以區(qū)域填充的方式在二維平面布局,并采用顏色、距離等視覺(jué)通道呈現(xiàn)數(shù)據(jù)屬性的具體值,所有數(shù)據(jù)點(diǎn)在空間中布局排列,方便用戶(hù)進(jìn)行對(duì)比。
用戶(hù)移動(dòng)互聯(lián)網(wǎng)行為特征的數(shù)據(jù)可視化映射包括以下4個(gè)方面:
· 用戶(hù)的基本屬性,包括性別、年齡、在網(wǎng)時(shí)長(zhǎng)、套餐、終端等;
· 用戶(hù)的移動(dòng)互聯(lián)網(wǎng)訪(fǎng)問(wèn)偏好,即訪(fǎng)問(wèn)分類(lèi),不同顏色、距離反映不同熱度;
·用戶(hù)的應(yīng)用使用偏好,直接顯示用戶(hù)最常使用的TopN個(gè)應(yīng)用,不同顏色、距離反映不同使用頻率;
圖2 DPI日志處理規(guī)則
·用戶(hù)的搜索偏好,類(lèi)似總體搜索偏好的分析方法,采用詞云+分類(lèi)統(tǒng)計(jì)方式,不同顏色、距離反映不同搜索頻次。
由于涉及海量日志信息的處理以及大量節(jié)點(diǎn)圖形的表現(xiàn),為了在可視化顯示上盡可能地實(shí)現(xiàn)高效,采用Highcharts實(shí)現(xiàn)圖形展示。如圖3所示,圓圈中心的頭像代表性別,外一圈是用戶(hù)的基本信息,最外圈是用戶(hù)的偏好(顏色、距離的不同代表不同的熱度)。
圖3 用戶(hù)行為特征數(shù)據(jù)可視化
通信關(guān)系是電信用戶(hù)之間常規(guī)的通信往來(lái)信息,如通話(huà)、短信、彩信等,由于電信企業(yè)對(duì)用戶(hù)計(jì)費(fèi)的需要,這類(lèi)信息一般在企業(yè)各類(lèi)業(yè)務(wù)計(jì)費(fèi)系統(tǒng)中長(zhǎng)期保存,是最常用來(lái)進(jìn)行電信用戶(hù)社交網(wǎng)絡(luò)分析的通信關(guān)系數(shù)據(jù),一般采用計(jì)費(fèi)系統(tǒng)中原始的通話(huà)詳單記錄(call detail record,CDR)。
以下根據(jù)用戶(hù)的通話(huà)詳單進(jìn)行社交關(guān)系分析,并在用戶(hù)的社交關(guān)系圈內(nèi)進(jìn)行用戶(hù)興趣圖譜的計(jì)算和展示。
(1)數(shù)據(jù)采集
對(duì)于社交網(wǎng)絡(luò)分析[5],最重要的數(shù)據(jù)是支撐建立節(jié)點(diǎn)間邊的數(shù)據(jù)。在電信企業(yè),這些數(shù)據(jù)包括通話(huà)詳單記錄數(shù)據(jù),代表用戶(hù)與用戶(hù)間連接的方式。由于CDR數(shù)據(jù)量龐大,有必要以月為周期進(jìn)行數(shù)據(jù)抽取,并根據(jù)業(yè)務(wù)問(wèn)題分析,按月進(jìn)行月均指標(biāo)計(jì)算。
(2)數(shù)據(jù)處理和轉(zhuǎn)換
描述一個(gè)社交網(wǎng)絡(luò),最常用的指標(biāo)就是一階中心度和二階中心度。一階中心度指與一個(gè)特定節(jié)點(diǎn)存在直接聯(lián)系的節(jié)點(diǎn)數(shù)量;二階中心度則指與原始點(diǎn)直連的節(jié)點(diǎn)的連接點(diǎn)的個(gè)數(shù)。這兩個(gè)基礎(chǔ)指標(biāo)的計(jì)算非常重要,是確定電信用戶(hù)社交網(wǎng)絡(luò)中關(guān)鍵節(jié)點(diǎn)(即有影響力用戶(hù))的核心指標(biāo),是用戶(hù)影響力因素指標(biāo)計(jì)算的主要構(gòu)成。
另外,由于來(lái)話(huà)和去話(huà)的資費(fèi)價(jià)值不同,用戶(hù)連接的兩個(gè)不同方向有不同意義,因此一階和二階中心度的來(lái)話(huà)、去話(huà)要分別進(jìn)行計(jì)算,而用戶(hù)間通話(huà)的次數(shù)、時(shí)長(zhǎng)以及平均單次通話(huà)時(shí)長(zhǎng)都將一并考慮,作為用戶(hù)間關(guān)系強(qiáng)度基礎(chǔ)指標(biāo)分別進(jìn)行計(jì)算。
圖4 用戶(hù)社交關(guān)系數(shù)據(jù)可視化
(3)可視化映射
根據(jù)數(shù)據(jù)特征,采用節(jié)點(diǎn)鏈接圖展現(xiàn)用戶(hù)社交關(guān)系:節(jié)點(diǎn)表示社交網(wǎng)絡(luò)的參與者,節(jié)點(diǎn)之間的鏈接表示兩個(gè)參與者之間的某種聯(lián)系,如通信關(guān)系、擁有共同興趣愛(ài)好等。根據(jù)節(jié)點(diǎn)鏈接的方向進(jìn)行聚類(lèi),方向一致的聚在一起,從而降低視覺(jué)復(fù)雜度,清楚地顯示復(fù)雜的網(wǎng)絡(luò)圖,并且體現(xiàn)節(jié)點(diǎn)層次的連接關(guān)系。用戶(hù)可以快速、準(zhǔn)確地找到自己感興趣的節(jié)點(diǎn),如圖4所示。
圖4中,當(dāng)用戶(hù)對(duì)某個(gè)具體的節(jié)點(diǎn)感興趣時(shí),可以選中該節(jié)點(diǎn),則該節(jié)點(diǎn)、與其相連接的節(jié)點(diǎn)以及相應(yīng)邊都突出顯示出來(lái),而其他的節(jié)點(diǎn)及邊的不透明度降低。同時(shí),有關(guān)選中節(jié)點(diǎn)的統(tǒng)計(jì)信息,如性別、語(yǔ)音通話(huà)次數(shù)、消息發(fā)送次數(shù)等將被顯示出來(lái)。一個(gè)節(jié)點(diǎn)表示一個(gè)手機(jī)用戶(hù),節(jié)點(diǎn)的大小表示用戶(hù)通信頻度。邊用來(lái)連接兩個(gè)節(jié)點(diǎn),表示用戶(hù)間社交關(guān)系的緊密程度。此外,可以通過(guò)柱狀圖直觀地看出該節(jié)點(diǎn)好友的親密度統(tǒng)計(jì)信息,如圖5(a)所示?;谟脩?hù)社交圈展現(xiàn)用戶(hù)訪(fǎng)問(wèn)偏好的興趣相似度情況,如圖5(b)、圖5(c)所示,柱狀高度、顏色體現(xiàn)用戶(hù)間興趣的相似情況。
用戶(hù)軌跡分析的目的在于從用戶(hù)的歷史行為軌跡中挖掘和解釋用戶(hù)的日常行為規(guī)律。在對(duì)這一問(wèn)題的研究中,聚類(lèi)分析是最常用的技術(shù)手段,然而由于缺乏必要的驗(yàn)證信息,對(duì)聚類(lèi)結(jié)果的解讀通常需要結(jié)合特定的時(shí)空上下文進(jìn)行。如Kirmse等人對(duì)用戶(hù)日常行為特點(diǎn)的研究[6],使用meanshift聚類(lèi)根據(jù)用戶(hù)的歷史行為軌跡數(shù)據(jù)生成了其日常駐留區(qū)域,并結(jié)合時(shí)間特點(diǎn)給出結(jié)果的語(yǔ)義解釋?zhuān)ㄈ缬脩?hù)在白天駐留時(shí)間最長(zhǎng)的地點(diǎn)是工作場(chǎng)所,晚上駐留時(shí)間最長(zhǎng)的地點(diǎn)是家里)。
以下基于用戶(hù)注冊(cè)的基站情況變化,展示用戶(hù)一天的位置移動(dòng)軌跡情況。
(1)數(shù)據(jù)采集
原始的數(shù)據(jù)是由基站ID與對(duì)應(yīng)的時(shí)間序列組成的。如果用戶(hù)處在某個(gè)基站范圍內(nèi)的時(shí)間比較長(zhǎng),就會(huì)出現(xiàn)有幾條記錄的情況,將對(duì)后續(xù)的分析產(chǎn)生影響。因此,將相同的基站記錄合并為一條記錄,同時(shí),原始記錄對(duì)應(yīng)的時(shí)間也需要合并,以得到進(jìn)入該基站和離開(kāi)該基站的時(shí)間。
(2)數(shù)據(jù)處理及轉(zhuǎn)換
前面的數(shù)據(jù)預(yù)處理,已經(jīng)將原始數(shù)據(jù)表中的噪聲數(shù)據(jù)去除,重新構(gòu)造了數(shù)據(jù)的記錄格式,構(gòu)造成[Tstart,Tend,areaID.cellID]的三元組形式。還需進(jìn)一步對(duì)重構(gòu)的基站數(shù)據(jù)(即地點(diǎn)信息)進(jìn)行再處理,構(gòu)造出用戶(hù)移動(dòng)路徑的集合。在基站記錄中,在該位置停留的時(shí)間占整個(gè)記錄的比例若大于某個(gè)閾值,這里即路徑終點(diǎn)。在用戶(hù)移動(dòng)的過(guò)程中,如果基站發(fā)生切換,離開(kāi)前一個(gè)基站的時(shí)間就是該基站的結(jié)束時(shí)間,該數(shù)據(jù)被記錄并生成一條新的記錄,新記錄存儲(chǔ)進(jìn)入前一個(gè)基站的時(shí)間,即開(kāi)始時(shí)間以及基站的結(jié)束時(shí)間。同時(shí),要存儲(chǔ)當(dāng)前基站的開(kāi)始時(shí)間,直到下一次基站切換發(fā)生。
圖6 用戶(hù)位置特征可視化
考慮現(xiàn)實(shí)生活中這樣的情況,用戶(hù)到達(dá)工作地點(diǎn)開(kāi)始工作,或者到達(dá)目的地長(zhǎng)時(shí)間沒(méi)有移動(dòng),那么對(duì)應(yīng)于數(shù)據(jù)中,就會(huì)出現(xiàn)一條記錄的開(kāi)始時(shí)間和結(jié)束時(shí)間的間隔很長(zhǎng),可以認(rèn)為該路徑應(yīng)該終止。這里定義了地點(diǎn)持續(xù)時(shí)間,即與該地點(diǎn)對(duì)應(yīng)的基站的通信時(shí)間,就是在一條記錄中基站的結(jié)束時(shí)間和開(kāi)始時(shí)間的差,該時(shí)間差表示處在某個(gè)基站信號(hào)范圍內(nèi)的時(shí)間。
(3)用戶(hù)移動(dòng)軌跡可視化映射
用戶(hù)移動(dòng)軌跡屬于地理空間數(shù)據(jù)可視化,這里采用地理信息的線(xiàn)性數(shù)據(jù)可視化,表達(dá)多對(duì)象軌跡變化的地圖,如圖6所示,曲線(xiàn)的寬度代表流量的大小,如實(shí)地呈現(xiàn)軌跡的源頭、合并、分散、路徑改變和匯入的動(dòng)態(tài)過(guò)程,是一種基于聚類(lèi)和層次結(jié)構(gòu)的地理信息簡(jiǎn)化方法。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的數(shù)量和復(fù)雜度的提高帶來(lái)了對(duì)數(shù)據(jù)探索、分析、理解和呈現(xiàn)的巨大挑戰(zhàn)。除了直接統(tǒng)計(jì)或者數(shù)據(jù)挖掘的方式,可視化通過(guò)交互式視覺(jué)表現(xiàn)的方式幫助人們探索和解釋復(fù)雜的數(shù)據(jù)。本文在分析數(shù)據(jù)可視化理論的基礎(chǔ)上,總結(jié)了主流的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)可視化技術(shù),并結(jié)合客戶(hù)畫(huà)像的典型場(chǎng)景,對(duì)數(shù)據(jù)可視化過(guò)程進(jìn)行深入的實(shí)踐研究,為下一步數(shù)據(jù)可視化應(yīng)用的開(kāi)展提供貼合實(shí)際的參考依據(jù)。
1 陳為,張嵩,魯愛(ài)東.數(shù)據(jù)可視化的基本原理和方法.北京:科學(xué)出版社,2013
2 唐家渝,劉知遠(yuǎn),孫茂松.文本可視化研究綜述.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2013(3)
3 喬志偉.基于用戶(hù)行為的3G業(yè)務(wù)分析與探討.移動(dòng)通信,2010(12)
4 張青,陳翀,向勇.深度分組檢測(cè)技術(shù)研究及在流量經(jīng)營(yíng)中的應(yīng)用.電信科學(xué),2013,29(8)
5 漆晨曦.電信客戶(hù)社交網(wǎng)絡(luò)分析方法與營(yíng)銷(xiāo)應(yīng)用探討.電信科學(xué),2012,28(7)
6 陳康,黃曉宇,王愛(ài)寶等.基于位置信息的用戶(hù)行為軌跡分析與應(yīng)用綜述.電信科學(xué),2013,29(4)