国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)雜網(wǎng)絡(luò)的電信大數(shù)據(jù)處理研究

2014-08-18 12:16張瑞
現(xiàn)代情報 2014年6期
關(guān)鍵詞:動態(tài)數(shù)據(jù)復(fù)雜網(wǎng)絡(luò)

張瑞

〔摘要〕文章針對目前電信運(yùn)營商在大數(shù)據(jù)處理中的實(shí)際需求,全面分析研究了關(guān)于復(fù)雜網(wǎng)絡(luò)在大數(shù)據(jù)處理中的關(guān)鍵技術(shù)和具體應(yīng)用,深入討論了復(fù)雜網(wǎng)絡(luò)在靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)和社團(tuán)挖掘等方面的實(shí)用,為目前電信大數(shù)據(jù)的處理提供了一種比較實(shí)用的方法。

〔關(guān)鍵詞〕復(fù)雜網(wǎng)絡(luò);電信大數(shù)據(jù);靜態(tài)數(shù)據(jù);動態(tài)數(shù)據(jù);社團(tuán)劃分

〔中圖分類號〕G434〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2014)06-0066-04

大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后信息通信技術(shù)產(chǎn)業(yè)界又一次顛覆性的技術(shù)變革。對于整個產(chǎn)業(yè)而言,大數(shù)據(jù)市場是塊等待挖掘的“金礦”,因此,如何充分利用大數(shù)據(jù),并使其進(jìn)一步發(fā)展壯大,也成為整個業(yè)界共同探究的熱點(diǎn)話題。在大數(shù)據(jù)領(lǐng)域探索中,相較于其他企業(yè),電信運(yùn)營商由于在數(shù)據(jù)資源、基礎(chǔ)資源、平臺資源上擁有先天優(yōu)勢,因此對于大數(shù)據(jù)的探索需求更為深入。但目前電信業(yè)在經(jīng)歷近十年來的變革后,各種商業(yè)模式被打破。盡管電信運(yùn)營商一直積極地推進(jìn)4G網(wǎng)絡(luò)建設(shè),但網(wǎng)絡(luò)的持續(xù)擴(kuò)容與升級并未給電信運(yùn)營商帶來十分可觀的收入,并且,更為嚴(yán)峻的是,在大數(shù)據(jù)時代,電信運(yùn)營商還面臨著來自數(shù)據(jù)、管理方面的巨大挑戰(zhàn)。海量的半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)大大降低了數(shù)據(jù)處理的效率,給運(yùn)營商帶來了巨大的數(shù)據(jù)存儲和讀寫壓力。如若不能縮短數(shù)據(jù)處理的周期,很多數(shù)據(jù)的價值都會被極大地稀釋。此外,龐大的數(shù)據(jù)規(guī)模和復(fù)雜的數(shù)據(jù)種類也給運(yùn)營商帶來了管理層面的難題。

1電信運(yùn)營商大數(shù)據(jù)應(yīng)用及系統(tǒng)框架

電信運(yùn)營商關(guān)于大數(shù)據(jù)的應(yīng)用主要包括以下4種類型。首先,是基本的語音數(shù)據(jù)分析,運(yùn)營商可以利用自動語音識別數(shù)據(jù)對自身的產(chǎn)品進(jìn)行服務(wù),并通過用戶偏好分析,及時、準(zhǔn)確進(jìn)行業(yè)務(wù)推薦,強(qiáng)化客戶關(guān)懷,這樣就可以不斷改善用戶體驗(yàn),增加用戶的信息消費(fèi);其次,網(wǎng)絡(luò)流量分析,主要指通過大數(shù)據(jù)分析網(wǎng)絡(luò)的流量、流向變化趨勢,及時調(diào)整資源配置,還可以分析網(wǎng)絡(luò)日志,進(jìn)行全網(wǎng)絡(luò)優(yōu)化,不斷提升網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)利用率;第三,在企業(yè)經(jīng)營層面,可以通過業(yè)務(wù)、資源、財務(wù)等各類數(shù)據(jù)的綜合分析,快速準(zhǔn)確地確定公司經(jīng)營管理和市場競爭策略;第四,在業(yè)務(wù)創(chuàng)新層面,可以在確保用戶隱私不被侵犯的前提下,對數(shù)據(jù)進(jìn)行深度加工,對外提供信息服務(wù),為企業(yè)創(chuàng)造新的價值。這樣,大數(shù)據(jù)將幫助運(yùn)營商實(shí)現(xiàn)從網(wǎng)絡(luò)服務(wù)提供商,向信息服務(wù)提供商的轉(zhuǎn)變。

結(jié)合電信運(yùn)營商的業(yè)務(wù)情況以及目前大數(shù)據(jù)的挑戰(zhàn),業(yè)界提出了針對電信運(yùn)營商大數(shù)據(jù)管理總體系統(tǒng)框架模型,其核心主要包括4層,即物理層、數(shù)據(jù)層、模型層和應(yīng)用層。其中數(shù)據(jù)層是整個運(yùn)營商大數(shù)據(jù)管理的核心部分,為上層應(yīng)用提供數(shù)據(jù)支持(如圖1所示)。

2電信大數(shù)據(jù)解決方案與需求分析

目前,中國移動采用Apache Hadoop軟件的英特爾分發(fā)版來消除數(shù)據(jù)訪問瓶頸和發(fā)現(xiàn)用戶使用習(xí)慣,開展更有針對性的營銷利用,同時利用Hadoop分布式數(shù)據(jù)庫(Hadoop HBase)擴(kuò)展存儲。中國聯(lián)通也是利用Hadoop來實(shí)現(xiàn)對大數(shù)據(jù)的存儲和分析,構(gòu)建了基于Hadoop的結(jié)構(gòu)化訪問數(shù)據(jù)庫,還采用數(shù)據(jù)倉庫技術(shù),針對海量數(shù)據(jù)進(jìn)行高性能查詢和分析工作。但海量數(shù)據(jù)的出現(xiàn)、數(shù)據(jù)結(jié)構(gòu)的改變,也給運(yùn)營商的大數(shù)據(jù)管理及分析帶來了挑戰(zhàn)。主要表現(xiàn)在:一是由于多種業(yè)務(wù)的發(fā)展、市場需求的變化和網(wǎng)絡(luò)規(guī)模的擴(kuò)大使得運(yùn)營商大數(shù)據(jù)迅速的增加,這增加了運(yùn)營商大數(shù)據(jù)存儲和處理的難度,使得現(xiàn)有數(shù)據(jù)倉庫無法線性擴(kuò)容,這表明傳統(tǒng)的數(shù)據(jù)倉庫無法有效存儲日益增長的業(yè)務(wù)數(shù)據(jù);二是由于新型大數(shù)據(jù)服務(wù)不同于傳統(tǒng)通信業(yè)務(wù)分析特點(diǎn),需要對內(nèi)容等非結(jié)構(gòu)化、大容量信息進(jìn)行多用戶、多應(yīng)用、實(shí)時有效的分析,傳統(tǒng)的架構(gòu)和數(shù)據(jù)倉庫處理已不能滿足新的信息服務(wù)需求。因此,運(yùn)營商需要建立新型大數(shù)據(jù)中心,來存儲、分析和處理海量數(shù)據(jù)。電信運(yùn)營商采用的傳統(tǒng)數(shù)據(jù)挖掘方法主要包括描述和預(yù)測兩個方向,具體方法包括關(guān)聯(lián)分析、分類和聚類等,這些方法較多應(yīng)用于關(guān)系數(shù)據(jù)庫系統(tǒng),而目前電信運(yùn)營商所面對的數(shù)據(jù)越來越多樣化,復(fù)雜化程度不斷增加,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)的比重不斷攀升,傳統(tǒng)的數(shù)據(jù)挖掘辦法已經(jīng)不能跟上電信業(yè)大數(shù)據(jù)處理的實(shí)際需求。自從1998年Watts和Strogatz在Nature雜志上發(fā)表文章,引入了小世界網(wǎng)絡(luò)模型之后,國內(nèi)外學(xué)界注意到了復(fù)雜網(wǎng)絡(luò)研究的趨勢,開始展開深入的研究。復(fù)雜網(wǎng)絡(luò)研究的內(nèi)容主要包括:網(wǎng)絡(luò)的幾何性質(zhì),網(wǎng)絡(luò)的形成機(jī)制,網(wǎng)絡(luò)演化的統(tǒng)計(jì)規(guī)律,網(wǎng)絡(luò)上的模型性質(zhì),以及網(wǎng)絡(luò)的結(jié)構(gòu)穩(wěn)定性,網(wǎng)絡(luò)的演化動力學(xué)機(jī)制等問題。上述復(fù)雜網(wǎng)絡(luò)的研究內(nèi)容恰恰與電信運(yùn)營商目前所擁有的大數(shù)據(jù)內(nèi)容和處理需求緊密地結(jié)合在一起,為電信運(yùn)營商的大數(shù)據(jù)處理開辟了一條嶄新的方向。

3基于復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)處理

針對電信運(yùn)營商大數(shù)據(jù)處理的第一步是數(shù)據(jù)預(yù)處理及準(zhǔn)備,以發(fā)生最多、數(shù)據(jù)量最大的客戶通話行為為例,它和用戶通話行為直接相關(guān),其中涵蓋的具體內(nèi)容如表1所示,如通話時長,基站信息等等,如果再加入個人年齡、性別等信息,則構(gòu)成多維數(shù)據(jù),為大數(shù)據(jù)分體提供更多基礎(chǔ)數(shù)據(jù)。接下來,針對基于復(fù)雜網(wǎng)絡(luò)的電信大數(shù)據(jù)分析研究可以從以下3個方面展開,分別是靜態(tài)研究、動態(tài)研究和社團(tuán)挖掘研究。

3.1靜態(tài)數(shù)據(jù)研究

電信的運(yùn)營數(shù)據(jù)的結(jié)構(gòu)隨著時間在不斷地發(fā)生變化,而且是比較典型的多維數(shù)據(jù),復(fù)雜網(wǎng)絡(luò)的最初研究對象是某個網(wǎng)絡(luò)在某個特定時間段的內(nèi)容,譬如,某個市、區(qū)在某幾個月的通話數(shù)據(jù),由此可以形成一個典型的網(wǎng)絡(luò)。在這里,以IEEE VAST 2008的數(shù)據(jù)集作為研究對象,它包括了一組涉及400人左右的10天通話數(shù)據(jù),通話記錄數(shù)為9 834條。

利用復(fù)雜網(wǎng)絡(luò)方法對遠(yuǎn)程教育網(wǎng)絡(luò)的研究起始于基本的3項(xiàng)內(nèi)容,它們分別是度與度分布、平均路徑長度和聚類系數(shù)。

度的意義是指與該頁面節(jié)點(diǎn)連接的其他頁面節(jié)點(diǎn)的數(shù)目。在對電信通話數(shù)據(jù)的實(shí)際研究中主要是指一個用戶存在的與其他用戶通話的信息數(shù)目。一個用戶節(jié)點(diǎn)的呼出與呼入數(shù)量又分為出度和入度。所有用戶節(jié)點(diǎn)度的平均值稱為網(wǎng)絡(luò)的平均度。數(shù)據(jù)顯示該通話記錄的節(jié)點(diǎn)平均度為3-9,從復(fù)雜網(wǎng)絡(luò)研究角度出發(fā),一個用戶節(jié)點(diǎn)無論從出度或入度的大小都直接與該用戶的重要程度相關(guān)。由圖2和圖3可以看出,個別用戶節(jié)點(diǎn)擁有較大的出度與入度,他們在整個網(wǎng)絡(luò)中扮演了核心節(jié)點(diǎn)的角色,通過這幾個節(jié)點(diǎn)將其他用戶緊密地聯(lián)系在一起。endprint

平均路徑是基于復(fù)雜網(wǎng)絡(luò)電信大數(shù)據(jù)的另一個十分重要的指標(biāo),它主要是指網(wǎng)絡(luò)中兩個節(jié)點(diǎn)之間最短路徑的邊數(shù)。任意兩個節(jié)點(diǎn)的最大值稱為網(wǎng)絡(luò)的直徑,上述網(wǎng)絡(luò)的直徑為8。平均路徑長度是衡量網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力的一個重要參數(shù),具有較短路徑長度可以降低傳輸?shù)难舆t,對于網(wǎng)站的查找具有決定性的作用,上述網(wǎng)絡(luò)的平均路徑長度為4-2,一般電信每個月的網(wǎng)絡(luò)直徑為20左右,整個網(wǎng)絡(luò)的直徑在15左右,這就充分說明該網(wǎng)絡(luò)具有緊湊的結(jié)構(gòu),保證用戶可以花費(fèi)最短的時間聯(lián)系到自己需要人,這對于電信運(yùn)營商集團(tuán)網(wǎng)絡(luò)的建設(shè)及營銷策略的細(xì)化非常重要。

聚類系數(shù)用于描述網(wǎng)絡(luò)連接的聚集程度,即網(wǎng)絡(luò)有多緊密,也就是說如果一個網(wǎng)絡(luò)結(jié)點(diǎn)有數(shù)個直接的鄰居結(jié)點(diǎn),那么這些鄰居結(jié)點(diǎn)之間有可能也是鄰居。Watts和Strogatz首先指出,許多實(shí)際網(wǎng)絡(luò)的聚集系數(shù)遠(yuǎn)大于相同結(jié)點(diǎn)規(guī)模的隨機(jī)網(wǎng)絡(luò)。

3.2動態(tài)數(shù)據(jù)研究

電信運(yùn)營商大數(shù)據(jù)的分析具有其自身的特點(diǎn),它的用戶動態(tài)性較強(qiáng),呈現(xiàn)出“生命周期”的特征,時間演化性是電信通話數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò)化固有屬性,任何網(wǎng)絡(luò)都會隨時間呈現(xiàn)出一定的演化規(guī)律,但數(shù)據(jù)分析不能以秒、分、時以單位展開,這樣單位內(nèi)的數(shù)據(jù)量太有限,要想嘗試抓住用戶的核心商業(yè)價值,制定相應(yīng)的營銷策略,就需要以月或者季為單位進(jìn)行通話數(shù)據(jù)分析。

筆者將上述的數(shù)據(jù)導(dǎo)入復(fù)雜網(wǎng)絡(luò)分析軟件中,最終結(jié)果如圖4所示,其中包括通話日期、持續(xù)時間和基站信息,經(jīng)過運(yùn)算可以產(chǎn)生對電信數(shù)據(jù)商進(jìn)行用戶分析的諸多結(jié)果。首先,在圖中可以發(fā)現(xiàn)明顯的聚集效應(yīng),他們的通話概率是其他用戶的2~3倍,這些用戶具有更高的活躍度,這些用戶在網(wǎng)朋友數(shù)目越多,其離網(wǎng)概率越小,由此可以幫助電信運(yùn)營商建立流失模型,制定相應(yīng)策略進(jìn)而防止客戶流失。其次,可以發(fā)掘出部分的個人特征及通話偏好,譬如,有些用戶的通話量極少,有些用戶的通話大部分發(fā)生在夜間,建立這樣的用戶模型將有利于發(fā)現(xiàn)用戶的消費(fèi)行為,利于各種用戶套餐的制定,方便降低運(yùn)營成本。最后,通過基站數(shù)據(jù)的分析,可以發(fā)現(xiàn)該用戶的活躍地區(qū)和基站的負(fù)載程度,幫助電信運(yùn)營商進(jìn)行基站建設(shè)的規(guī)劃。

3.3社團(tuán)挖掘研究

復(fù)雜網(wǎng)絡(luò)社團(tuán)是指網(wǎng)絡(luò)中的頂點(diǎn)可以分成組,組內(nèi)頂點(diǎn)間的連接比較稠密,組間頂點(diǎn)的連接比較稀疏。社團(tuán)結(jié)構(gòu)在電信運(yùn)營商數(shù)據(jù)分析中扮演著十分重要的角色,它是了解整個網(wǎng)絡(luò)結(jié)構(gòu)和功能的重要途徑。針對電信運(yùn)營商的大數(shù)據(jù)處理而言,雖然它們的社團(tuán)大小和數(shù)目是未知的,用戶之間的相互聯(lián)系是隨時間改變的,但這種網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)出比較鮮明的層次結(jié)構(gòu),可以觀察出高密度或者低密度的社團(tuán)結(jié)構(gòu)。通過圖4,可以觀察到除了大部分的聚集用戶節(jié)點(diǎn)之外,還存在著其他類型的用戶節(jié)點(diǎn),比如離群點(diǎn)和中心點(diǎn)。這些中心節(jié)點(diǎn)將對謠言或者手機(jī)病毒的傳播起到重要的作用,同時還會對新客戶的發(fā)掘起到推進(jìn)作用。而離群節(jié)點(diǎn)則是比較典型的噪音數(shù)據(jù),對這些數(shù)據(jù)的摒棄將有助于提高正常數(shù)據(jù)的處理速度。網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的研究主要與計(jì)算機(jī)科學(xué)中的圖形分割和社會學(xué)中的分級聚類有著密切的關(guān)系。

目前,基于復(fù)雜網(wǎng)絡(luò)的許多社團(tuán)網(wǎng)絡(luò)劃分算法都是在K-means基礎(chǔ)上提出和演化的,該算法在電信大數(shù)據(jù)處理中得到廣泛的應(yīng)用。K-means經(jīng)典算法的基本思想是:以空間中k個點(diǎn)為中心進(jìn)行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。假設(shè)要把樣本集分為c個類別,算法描述如下:(1)適當(dāng)選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。該算法的最大優(yōu)勢在于簡潔和快速。該算法的關(guān)鍵在于初始中心的選擇和距離公式。在電信大數(shù)據(jù)背景下,K-means算法在分類效果、實(shí)際運(yùn)行時間方面體現(xiàn)出較強(qiáng)的實(shí)用性。通過上述數(shù)據(jù)的K-means算法社團(tuán)劃分實(shí)驗(yàn)分析,可以得到3個結(jié)構(gòu)清晰的社團(tuán),他們分別包含59、29和6個用戶節(jié)點(diǎn)。

4結(jié)束語

針對電信運(yùn)營商數(shù)據(jù)處理的傳統(tǒng)方法雖然能夠在一定程度上進(jìn)行分析處理,但面對規(guī)模日益龐大的數(shù)據(jù)量,這些方法往往在實(shí)際過程中顯得力不從心,不能滿足實(shí)際需求。但伴隨著Google提出的MapReduee框架及其開源Hadoop等優(yōu)秀的分布式架構(gòu)涌現(xiàn)及應(yīng)用,電信運(yùn)營商能夠引入復(fù)雜網(wǎng)絡(luò)的系統(tǒng)科學(xué)方法進(jìn)行大數(shù)據(jù)的處理分析。復(fù)雜網(wǎng)絡(luò)對電信大數(shù)據(jù)目前大量出現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù)具有極強(qiáng)的適應(yīng)性,其重要意義在于它對數(shù)據(jù)的宏觀及微觀兩個方面的研究,宏觀研究包括網(wǎng)絡(luò)結(jié)構(gòu)圖的繪制、網(wǎng)絡(luò)的演化和網(wǎng)絡(luò)魯棒性研究等,微觀研究主要是個體的研究,比如重要節(jié)點(diǎn)的發(fā)現(xiàn)、個體演化、社團(tuán)劃分及事件發(fā)現(xiàn)等。而且,上述兩方面的研究工作是相輔相成的,其目標(biāo)是對現(xiàn)實(shí)的復(fù)雜網(wǎng)絡(luò)進(jìn)行有效的分析??傮w來看,各個電信運(yùn)營商利用大數(shù)據(jù)來推動業(yè)務(wù)轉(zhuǎn)型將是未來電信市場的一個重要方向。電信運(yùn)營商如果能夠通過復(fù)雜網(wǎng)絡(luò)等新技術(shù)的進(jìn)步,不斷釋放其管道中龐大數(shù)據(jù)的潛在力量,將會成廣大用戶提供更好的服務(wù)體驗(yàn)。

參考文獻(xiàn)

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2012:20-130.

[2]王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013:30-208.

[3]楊勝琦.基于復(fù)雜網(wǎng)絡(luò)的大規(guī)模電信數(shù)據(jù)分析研究[D].北京:北京郵電大學(xué),2010:12-120.

[4]李秋靜,葉云.電信大數(shù)據(jù)解決方案及實(shí)踐[J].中興通訊技術(shù),2013,(6):34-38.

[5]汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2007:162-198.

[6]包稢.大數(shù)據(jù),大變化,大未來——大數(shù)據(jù)支撐驅(qū)動電信運(yùn)營商轉(zhuǎn)型發(fā)展[J].通信世界,2013,(6):81-84.

(本文責(zé)任編輯:馬卓)endprint

平均路徑是基于復(fù)雜網(wǎng)絡(luò)電信大數(shù)據(jù)的另一個十分重要的指標(biāo),它主要是指網(wǎng)絡(luò)中兩個節(jié)點(diǎn)之間最短路徑的邊數(shù)。任意兩個節(jié)點(diǎn)的最大值稱為網(wǎng)絡(luò)的直徑,上述網(wǎng)絡(luò)的直徑為8。平均路徑長度是衡量網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力的一個重要參數(shù),具有較短路徑長度可以降低傳輸?shù)难舆t,對于網(wǎng)站的查找具有決定性的作用,上述網(wǎng)絡(luò)的平均路徑長度為4-2,一般電信每個月的網(wǎng)絡(luò)直徑為20左右,整個網(wǎng)絡(luò)的直徑在15左右,這就充分說明該網(wǎng)絡(luò)具有緊湊的結(jié)構(gòu),保證用戶可以花費(fèi)最短的時間聯(lián)系到自己需要人,這對于電信運(yùn)營商集團(tuán)網(wǎng)絡(luò)的建設(shè)及營銷策略的細(xì)化非常重要。

聚類系數(shù)用于描述網(wǎng)絡(luò)連接的聚集程度,即網(wǎng)絡(luò)有多緊密,也就是說如果一個網(wǎng)絡(luò)結(jié)點(diǎn)有數(shù)個直接的鄰居結(jié)點(diǎn),那么這些鄰居結(jié)點(diǎn)之間有可能也是鄰居。Watts和Strogatz首先指出,許多實(shí)際網(wǎng)絡(luò)的聚集系數(shù)遠(yuǎn)大于相同結(jié)點(diǎn)規(guī)模的隨機(jī)網(wǎng)絡(luò)。

3.2動態(tài)數(shù)據(jù)研究

電信運(yùn)營商大數(shù)據(jù)的分析具有其自身的特點(diǎn),它的用戶動態(tài)性較強(qiáng),呈現(xiàn)出“生命周期”的特征,時間演化性是電信通話數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò)化固有屬性,任何網(wǎng)絡(luò)都會隨時間呈現(xiàn)出一定的演化規(guī)律,但數(shù)據(jù)分析不能以秒、分、時以單位展開,這樣單位內(nèi)的數(shù)據(jù)量太有限,要想嘗試抓住用戶的核心商業(yè)價值,制定相應(yīng)的營銷策略,就需要以月或者季為單位進(jìn)行通話數(shù)據(jù)分析。

筆者將上述的數(shù)據(jù)導(dǎo)入復(fù)雜網(wǎng)絡(luò)分析軟件中,最終結(jié)果如圖4所示,其中包括通話日期、持續(xù)時間和基站信息,經(jīng)過運(yùn)算可以產(chǎn)生對電信數(shù)據(jù)商進(jìn)行用戶分析的諸多結(jié)果。首先,在圖中可以發(fā)現(xiàn)明顯的聚集效應(yīng),他們的通話概率是其他用戶的2~3倍,這些用戶具有更高的活躍度,這些用戶在網(wǎng)朋友數(shù)目越多,其離網(wǎng)概率越小,由此可以幫助電信運(yùn)營商建立流失模型,制定相應(yīng)策略進(jìn)而防止客戶流失。其次,可以發(fā)掘出部分的個人特征及通話偏好,譬如,有些用戶的通話量極少,有些用戶的通話大部分發(fā)生在夜間,建立這樣的用戶模型將有利于發(fā)現(xiàn)用戶的消費(fèi)行為,利于各種用戶套餐的制定,方便降低運(yùn)營成本。最后,通過基站數(shù)據(jù)的分析,可以發(fā)現(xiàn)該用戶的活躍地區(qū)和基站的負(fù)載程度,幫助電信運(yùn)營商進(jìn)行基站建設(shè)的規(guī)劃。

3.3社團(tuán)挖掘研究

復(fù)雜網(wǎng)絡(luò)社團(tuán)是指網(wǎng)絡(luò)中的頂點(diǎn)可以分成組,組內(nèi)頂點(diǎn)間的連接比較稠密,組間頂點(diǎn)的連接比較稀疏。社團(tuán)結(jié)構(gòu)在電信運(yùn)營商數(shù)據(jù)分析中扮演著十分重要的角色,它是了解整個網(wǎng)絡(luò)結(jié)構(gòu)和功能的重要途徑。針對電信運(yùn)營商的大數(shù)據(jù)處理而言,雖然它們的社團(tuán)大小和數(shù)目是未知的,用戶之間的相互聯(lián)系是隨時間改變的,但這種網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)出比較鮮明的層次結(jié)構(gòu),可以觀察出高密度或者低密度的社團(tuán)結(jié)構(gòu)。通過圖4,可以觀察到除了大部分的聚集用戶節(jié)點(diǎn)之外,還存在著其他類型的用戶節(jié)點(diǎn),比如離群點(diǎn)和中心點(diǎn)。這些中心節(jié)點(diǎn)將對謠言或者手機(jī)病毒的傳播起到重要的作用,同時還會對新客戶的發(fā)掘起到推進(jìn)作用。而離群節(jié)點(diǎn)則是比較典型的噪音數(shù)據(jù),對這些數(shù)據(jù)的摒棄將有助于提高正常數(shù)據(jù)的處理速度。網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的研究主要與計(jì)算機(jī)科學(xué)中的圖形分割和社會學(xué)中的分級聚類有著密切的關(guān)系。

目前,基于復(fù)雜網(wǎng)絡(luò)的許多社團(tuán)網(wǎng)絡(luò)劃分算法都是在K-means基礎(chǔ)上提出和演化的,該算法在電信大數(shù)據(jù)處理中得到廣泛的應(yīng)用。K-means經(jīng)典算法的基本思想是:以空間中k個點(diǎn)為中心進(jìn)行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。假設(shè)要把樣本集分為c個類別,算法描述如下:(1)適當(dāng)選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。該算法的最大優(yōu)勢在于簡潔和快速。該算法的關(guān)鍵在于初始中心的選擇和距離公式。在電信大數(shù)據(jù)背景下,K-means算法在分類效果、實(shí)際運(yùn)行時間方面體現(xiàn)出較強(qiáng)的實(shí)用性。通過上述數(shù)據(jù)的K-means算法社團(tuán)劃分實(shí)驗(yàn)分析,可以得到3個結(jié)構(gòu)清晰的社團(tuán),他們分別包含59、29和6個用戶節(jié)點(diǎn)。

4結(jié)束語

針對電信運(yùn)營商數(shù)據(jù)處理的傳統(tǒng)方法雖然能夠在一定程度上進(jìn)行分析處理,但面對規(guī)模日益龐大的數(shù)據(jù)量,這些方法往往在實(shí)際過程中顯得力不從心,不能滿足實(shí)際需求。但伴隨著Google提出的MapReduee框架及其開源Hadoop等優(yōu)秀的分布式架構(gòu)涌現(xiàn)及應(yīng)用,電信運(yùn)營商能夠引入復(fù)雜網(wǎng)絡(luò)的系統(tǒng)科學(xué)方法進(jìn)行大數(shù)據(jù)的處理分析。復(fù)雜網(wǎng)絡(luò)對電信大數(shù)據(jù)目前大量出現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù)具有極強(qiáng)的適應(yīng)性,其重要意義在于它對數(shù)據(jù)的宏觀及微觀兩個方面的研究,宏觀研究包括網(wǎng)絡(luò)結(jié)構(gòu)圖的繪制、網(wǎng)絡(luò)的演化和網(wǎng)絡(luò)魯棒性研究等,微觀研究主要是個體的研究,比如重要節(jié)點(diǎn)的發(fā)現(xiàn)、個體演化、社團(tuán)劃分及事件發(fā)現(xiàn)等。而且,上述兩方面的研究工作是相輔相成的,其目標(biāo)是對現(xiàn)實(shí)的復(fù)雜網(wǎng)絡(luò)進(jìn)行有效的分析。總體來看,各個電信運(yùn)營商利用大數(shù)據(jù)來推動業(yè)務(wù)轉(zhuǎn)型將是未來電信市場的一個重要方向。電信運(yùn)營商如果能夠通過復(fù)雜網(wǎng)絡(luò)等新技術(shù)的進(jìn)步,不斷釋放其管道中龐大數(shù)據(jù)的潛在力量,將會成廣大用戶提供更好的服務(wù)體驗(yàn)。

參考文獻(xiàn)

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2012:20-130.

[2]王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013:30-208.

[3]楊勝琦.基于復(fù)雜網(wǎng)絡(luò)的大規(guī)模電信數(shù)據(jù)分析研究[D].北京:北京郵電大學(xué),2010:12-120.

[4]李秋靜,葉云.電信大數(shù)據(jù)解決方案及實(shí)踐[J].中興通訊技術(shù),2013,(6):34-38.

[5]汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2007:162-198.

[6]包稢.大數(shù)據(jù),大變化,大未來——大數(shù)據(jù)支撐驅(qū)動電信運(yùn)營商轉(zhuǎn)型發(fā)展[J].通信世界,2013,(6):81-84.

(本文責(zé)任編輯:馬卓)endprint

平均路徑是基于復(fù)雜網(wǎng)絡(luò)電信大數(shù)據(jù)的另一個十分重要的指標(biāo),它主要是指網(wǎng)絡(luò)中兩個節(jié)點(diǎn)之間最短路徑的邊數(shù)。任意兩個節(jié)點(diǎn)的最大值稱為網(wǎng)絡(luò)的直徑,上述網(wǎng)絡(luò)的直徑為8。平均路徑長度是衡量網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力的一個重要參數(shù),具有較短路徑長度可以降低傳輸?shù)难舆t,對于網(wǎng)站的查找具有決定性的作用,上述網(wǎng)絡(luò)的平均路徑長度為4-2,一般電信每個月的網(wǎng)絡(luò)直徑為20左右,整個網(wǎng)絡(luò)的直徑在15左右,這就充分說明該網(wǎng)絡(luò)具有緊湊的結(jié)構(gòu),保證用戶可以花費(fèi)最短的時間聯(lián)系到自己需要人,這對于電信運(yùn)營商集團(tuán)網(wǎng)絡(luò)的建設(shè)及營銷策略的細(xì)化非常重要。

聚類系數(shù)用于描述網(wǎng)絡(luò)連接的聚集程度,即網(wǎng)絡(luò)有多緊密,也就是說如果一個網(wǎng)絡(luò)結(jié)點(diǎn)有數(shù)個直接的鄰居結(jié)點(diǎn),那么這些鄰居結(jié)點(diǎn)之間有可能也是鄰居。Watts和Strogatz首先指出,許多實(shí)際網(wǎng)絡(luò)的聚集系數(shù)遠(yuǎn)大于相同結(jié)點(diǎn)規(guī)模的隨機(jī)網(wǎng)絡(luò)。

3.2動態(tài)數(shù)據(jù)研究

電信運(yùn)營商大數(shù)據(jù)的分析具有其自身的特點(diǎn),它的用戶動態(tài)性較強(qiáng),呈現(xiàn)出“生命周期”的特征,時間演化性是電信通話數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò)化固有屬性,任何網(wǎng)絡(luò)都會隨時間呈現(xiàn)出一定的演化規(guī)律,但數(shù)據(jù)分析不能以秒、分、時以單位展開,這樣單位內(nèi)的數(shù)據(jù)量太有限,要想嘗試抓住用戶的核心商業(yè)價值,制定相應(yīng)的營銷策略,就需要以月或者季為單位進(jìn)行通話數(shù)據(jù)分析。

筆者將上述的數(shù)據(jù)導(dǎo)入復(fù)雜網(wǎng)絡(luò)分析軟件中,最終結(jié)果如圖4所示,其中包括通話日期、持續(xù)時間和基站信息,經(jīng)過運(yùn)算可以產(chǎn)生對電信數(shù)據(jù)商進(jìn)行用戶分析的諸多結(jié)果。首先,在圖中可以發(fā)現(xiàn)明顯的聚集效應(yīng),他們的通話概率是其他用戶的2~3倍,這些用戶具有更高的活躍度,這些用戶在網(wǎng)朋友數(shù)目越多,其離網(wǎng)概率越小,由此可以幫助電信運(yùn)營商建立流失模型,制定相應(yīng)策略進(jìn)而防止客戶流失。其次,可以發(fā)掘出部分的個人特征及通話偏好,譬如,有些用戶的通話量極少,有些用戶的通話大部分發(fā)生在夜間,建立這樣的用戶模型將有利于發(fā)現(xiàn)用戶的消費(fèi)行為,利于各種用戶套餐的制定,方便降低運(yùn)營成本。最后,通過基站數(shù)據(jù)的分析,可以發(fā)現(xiàn)該用戶的活躍地區(qū)和基站的負(fù)載程度,幫助電信運(yùn)營商進(jìn)行基站建設(shè)的規(guī)劃。

3.3社團(tuán)挖掘研究

復(fù)雜網(wǎng)絡(luò)社團(tuán)是指網(wǎng)絡(luò)中的頂點(diǎn)可以分成組,組內(nèi)頂點(diǎn)間的連接比較稠密,組間頂點(diǎn)的連接比較稀疏。社團(tuán)結(jié)構(gòu)在電信運(yùn)營商數(shù)據(jù)分析中扮演著十分重要的角色,它是了解整個網(wǎng)絡(luò)結(jié)構(gòu)和功能的重要途徑。針對電信運(yùn)營商的大數(shù)據(jù)處理而言,雖然它們的社團(tuán)大小和數(shù)目是未知的,用戶之間的相互聯(lián)系是隨時間改變的,但這種網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)出比較鮮明的層次結(jié)構(gòu),可以觀察出高密度或者低密度的社團(tuán)結(jié)構(gòu)。通過圖4,可以觀察到除了大部分的聚集用戶節(jié)點(diǎn)之外,還存在著其他類型的用戶節(jié)點(diǎn),比如離群點(diǎn)和中心點(diǎn)。這些中心節(jié)點(diǎn)將對謠言或者手機(jī)病毒的傳播起到重要的作用,同時還會對新客戶的發(fā)掘起到推進(jìn)作用。而離群節(jié)點(diǎn)則是比較典型的噪音數(shù)據(jù),對這些數(shù)據(jù)的摒棄將有助于提高正常數(shù)據(jù)的處理速度。網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的研究主要與計(jì)算機(jī)科學(xué)中的圖形分割和社會學(xué)中的分級聚類有著密切的關(guān)系。

目前,基于復(fù)雜網(wǎng)絡(luò)的許多社團(tuán)網(wǎng)絡(luò)劃分算法都是在K-means基礎(chǔ)上提出和演化的,該算法在電信大數(shù)據(jù)處理中得到廣泛的應(yīng)用。K-means經(jīng)典算法的基本思想是:以空間中k個點(diǎn)為中心進(jìn)行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。假設(shè)要把樣本集分為c個類別,算法描述如下:(1)適當(dāng)選擇c個類的初始中心;(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。該算法的最大優(yōu)勢在于簡潔和快速。該算法的關(guān)鍵在于初始中心的選擇和距離公式。在電信大數(shù)據(jù)背景下,K-means算法在分類效果、實(shí)際運(yùn)行時間方面體現(xiàn)出較強(qiáng)的實(shí)用性。通過上述數(shù)據(jù)的K-means算法社團(tuán)劃分實(shí)驗(yàn)分析,可以得到3個結(jié)構(gòu)清晰的社團(tuán),他們分別包含59、29和6個用戶節(jié)點(diǎn)。

4結(jié)束語

針對電信運(yùn)營商數(shù)據(jù)處理的傳統(tǒng)方法雖然能夠在一定程度上進(jìn)行分析處理,但面對規(guī)模日益龐大的數(shù)據(jù)量,這些方法往往在實(shí)際過程中顯得力不從心,不能滿足實(shí)際需求。但伴隨著Google提出的MapReduee框架及其開源Hadoop等優(yōu)秀的分布式架構(gòu)涌現(xiàn)及應(yīng)用,電信運(yùn)營商能夠引入復(fù)雜網(wǎng)絡(luò)的系統(tǒng)科學(xué)方法進(jìn)行大數(shù)據(jù)的處理分析。復(fù)雜網(wǎng)絡(luò)對電信大數(shù)據(jù)目前大量出現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù)具有極強(qiáng)的適應(yīng)性,其重要意義在于它對數(shù)據(jù)的宏觀及微觀兩個方面的研究,宏觀研究包括網(wǎng)絡(luò)結(jié)構(gòu)圖的繪制、網(wǎng)絡(luò)的演化和網(wǎng)絡(luò)魯棒性研究等,微觀研究主要是個體的研究,比如重要節(jié)點(diǎn)的發(fā)現(xiàn)、個體演化、社團(tuán)劃分及事件發(fā)現(xiàn)等。而且,上述兩方面的研究工作是相輔相成的,其目標(biāo)是對現(xiàn)實(shí)的復(fù)雜網(wǎng)絡(luò)進(jìn)行有效的分析??傮w來看,各個電信運(yùn)營商利用大數(shù)據(jù)來推動業(yè)務(wù)轉(zhuǎn)型將是未來電信市場的一個重要方向。電信運(yùn)營商如果能夠通過復(fù)雜網(wǎng)絡(luò)等新技術(shù)的進(jìn)步,不斷釋放其管道中龐大數(shù)據(jù)的潛在力量,將會成廣大用戶提供更好的服務(wù)體驗(yàn)。

參考文獻(xiàn)

[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2012:20-130.

[2]王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013:30-208.

[3]楊勝琦.基于復(fù)雜網(wǎng)絡(luò)的大規(guī)模電信數(shù)據(jù)分析研究[D].北京:北京郵電大學(xué),2010:12-120.

[4]李秋靜,葉云.電信大數(shù)據(jù)解決方案及實(shí)踐[J].中興通訊技術(shù),2013,(6):34-38.

[5]汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2007:162-198.

[6]包稢.大數(shù)據(jù),大變化,大未來——大數(shù)據(jù)支撐驅(qū)動電信運(yùn)營商轉(zhuǎn)型發(fā)展[J].通信世界,2013,(6):81-84.

(本文責(zé)任編輯:馬卓)endprint

猜你喜歡
動態(tài)數(shù)據(jù)復(fù)雜網(wǎng)絡(luò)
云計(jì)算環(huán)境下動態(tài)數(shù)據(jù)聚集算法研究
顳下頜關(guān)節(jié)三維動態(tài)數(shù)據(jù)測量的初步研究
基于復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要性的鏈路預(yù)測算法
基于復(fù)雜網(wǎng)絡(luò)理論的通用機(jī)場保障網(wǎng)絡(luò)研究
基于動態(tài)數(shù)據(jù)驅(qū)動的突發(fā)水污染事故仿真方法
PMU的原理應(yīng)用及發(fā)展前景