解文博
摘 要:文章研究了大數(shù)據(jù)在移動(dòng)通信中的應(yīng)用。移動(dòng)通信網(wǎng)絡(luò)中包含了海量的、異構(gòu)化的數(shù)據(jù),大數(shù)據(jù)技術(shù)為移動(dòng)通信服務(wù)的數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)分析提供了有效的技術(shù)基礎(chǔ),為海量數(shù)據(jù)的存儲(chǔ)、查詢、挖掘、分析等提供了更為科學(xué)、準(zhǔn)確的技術(shù)方案。所獲得的結(jié)果也更為準(zhǔn)確、真實(shí),更具有實(shí)時(shí)性,價(jià)值也更高。
關(guān)鍵詞:大數(shù)據(jù);移動(dòng)通信;數(shù)據(jù)存儲(chǔ);數(shù)據(jù)分析;數(shù)據(jù)挖掘
大數(shù)據(jù)是一種超越了典型數(shù)據(jù)庫(kù)軟件采集、存儲(chǔ)、分析與管理等能力的大型數(shù)據(jù)集,具有數(shù)據(jù)體量大、數(shù)據(jù)類型多、處理速度快、數(shù)據(jù)價(jià)值密度低等特點(diǎn)。移動(dòng)通信經(jīng)過(guò)多年發(fā)展,累積了大量數(shù)據(jù),包括了用戶基本數(shù)據(jù),財(cái)務(wù)數(shù)據(jù)和業(yè)務(wù)使用情況,終端數(shù)據(jù),網(wǎng)絡(luò)信令數(shù)據(jù)與DPI數(shù)據(jù),業(yè)務(wù)數(shù)據(jù),產(chǎn)品數(shù)據(jù)及線上和線下獲取的外部數(shù)據(jù)等各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。如何發(fā)揮這些數(shù)據(jù)在移動(dòng)通信中的價(jià)值,需要充分發(fā)揮大數(shù)據(jù)存儲(chǔ)、分析、管理等技術(shù)的價(jià)值[l]。
1 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)分析技術(shù)則是大數(shù)據(jù)核心技術(shù),是對(duì)每個(gè)數(shù)據(jù)進(jìn)行分析,在大量數(shù)據(jù)中分析各個(gè)數(shù)據(jù)規(guī)律的技術(shù),是將數(shù)據(jù)庫(kù)管理與人工智能技術(shù)等相結(jié)合提取數(shù)據(jù)集的一種技術(shù)。該技術(shù)包括數(shù)據(jù)挖掘、人工智能等機(jī)器學(xué)習(xí)技術(shù)、模式識(shí)別、神經(jīng)元網(wǎng)絡(luò)、回歸計(jì)算、預(yù)測(cè)模型、時(shí)間序列分析、集成學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘與學(xué)習(xí)、統(tǒng)計(jì)分析等技術(shù)。
2 大數(shù)據(jù)存儲(chǔ)技術(shù)在移動(dòng)通信中的應(yīng)用
2.1 Hadoop架構(gòu)
Hadoop技術(shù)是基于Java語(yǔ)言而構(gòu)建的一個(gè)軟件框架,大量計(jì)算機(jī)構(gòu)成一個(gè)集群,對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算,能夠在應(yīng)用程序中支撐上千個(gè)節(jié)點(diǎn)達(dá)PB級(jí)別的海量數(shù)據(jù)。在應(yīng)用Hadoop技術(shù)創(chuàng)建數(shù)據(jù)庫(kù)時(shí),可根據(jù)數(shù)據(jù)流向合理設(shè)計(jì)分層,將其分為數(shù)據(jù)源層、邏輯計(jì)算層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)查詢層及應(yīng)用層。數(shù)據(jù)源層可以利用各種數(shù)據(jù)傳輸組件抽取、轉(zhuǎn)換并裝載各類不同結(jié)構(gòu)類型的數(shù)據(jù),如位置信息、計(jì)費(fèi)信息、網(wǎng)絡(luò)信息、客戶信息及基站參數(shù)等,這些數(shù)據(jù)會(huì)以O(shè)racle,MySQL,MS SQL Server以用系統(tǒng)日志等異構(gòu)數(shù)據(jù)。邏輯計(jì)算層則負(fù)責(zé)對(duì)海量數(shù)據(jù)完成MapReduce計(jì)算,每個(gè)節(jié)點(diǎn)先就近抽取本地存儲(chǔ)的各類數(shù)據(jù),并進(jìn)行計(jì)算處理,處理結(jié)束后,再將合并、排列并分發(fā)數(shù)據(jù)到各個(gè)Reduce節(jié)點(diǎn),可以避免同時(shí)傳輸海量數(shù)據(jù),造成數(shù)據(jù)傳輸擁堵。數(shù)據(jù)存儲(chǔ)層需要選擇性能較高、能夠滿足并發(fā)需求的數(shù)據(jù)庫(kù)軟件,以便于為前端應(yīng)用層提供流暢的實(shí)時(shí)查詢服務(wù)。因此,可采用底層存儲(chǔ)引擎與分布式數(shù)據(jù)庫(kù)集群相結(jié)合的方式建立專門的數(shù)據(jù)存儲(chǔ)層,如利用HBase技術(shù)構(gòu)建底層存儲(chǔ)引擎,建立NoSQL數(shù)據(jù)庫(kù)集群。數(shù)據(jù)查詢層是一個(gè)中間層,將前端應(yīng)用層與后端存儲(chǔ)層隔離,對(duì)存儲(chǔ)層中的異構(gòu)數(shù)據(jù)模塊進(jìn)行屏蔽,為前端應(yīng)用層提供統(tǒng)一化的接口,對(duì)存儲(chǔ)中的數(shù)據(jù)進(jìn)行JOIN及UNION計(jì)算,使查詢數(shù)據(jù)顯示能夠同構(gòu)化。在該架構(gòu)中,數(shù)據(jù)采集ETL是一個(gè)關(guān)鍵環(huán)節(jié),需要承擔(dān)對(duì)數(shù)據(jù)庫(kù)外數(shù)據(jù)采集的各種預(yù)處理工作,是該架構(gòu)組件下對(duì)并行數(shù)據(jù)進(jìn)行處理的主要工具,需要完成源接口文件的解壓、小文件的聚合、大文件的拆分、目標(biāo)格式文件的壓縮、清洗、轉(zhuǎn)換與加載等[2]。
2.2 Hadoop+MPP架構(gòu)
MPP架構(gòu)是一種由多個(gè)松耦合處理單元構(gòu)成的大規(guī)模并行式的處理系統(tǒng),該架構(gòu)更側(cè)重于對(duì)結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與計(jì)算,所獲得的數(shù)據(jù)價(jià)值密度較Hadoop架構(gòu)高,周期長(zhǎng),以GH信令數(shù)據(jù)的收斂計(jì)算為典型案例。Hadoop+MPP架構(gòu)融合了兩種架構(gòu)的優(yōu)勢(shì),數(shù)據(jù)主倉(cāng)庫(kù)使用MPP架構(gòu),數(shù)據(jù)庫(kù)外預(yù)處理則使用Hadoop架構(gòu),Hadoop完成對(duì)數(shù)據(jù)的清洗、存儲(chǔ)、加載、輕度匯總及歷史數(shù)據(jù)的歸檔等任務(wù),MPP則可對(duì)數(shù)據(jù)進(jìn)行深度匯總與關(guān)聯(lián)處理。利用分布式云存儲(chǔ)ETL技術(shù)將B域、0域、M域及互聯(lián)網(wǎng)類等各種海量數(shù)據(jù)接入到數(shù)據(jù)庫(kù)中,再利用該技術(shù)組建的庫(kù)集群具備的可擴(kuò)展性優(yōu)勢(shì),將海量數(shù)據(jù)進(jìn)行并行接入,存儲(chǔ)層建立網(wǎng)絡(luò)爬蟲集群,可以對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行接入,并在該層建立流數(shù)據(jù)采集組件,以實(shí)現(xiàn)信令數(shù)據(jù)的實(shí)時(shí)接入功能。數(shù)據(jù)倉(cāng)庫(kù)則可以使用Oracle數(shù)據(jù)庫(kù)技術(shù),MPP庫(kù)接入的數(shù)據(jù)為異構(gòu)類數(shù)據(jù),根據(jù)業(yè)務(wù)要求決定實(shí)際存儲(chǔ)量,對(duì)數(shù)據(jù)進(jìn)行深度分析與挖掘,可以實(shí)現(xiàn)即時(shí)查詢與多維分析任務(wù),并完成非固定模型的運(yùn)算與復(fù)雜模型運(yùn)算;Hadoop集群則可以匯總海量的原始清單,并組建計(jì)算中心和查詢并匯總詳單,完成簡(jiǎn)單數(shù)據(jù)的清洗、匯總、詳單數(shù)據(jù)的整合及數(shù)據(jù)的抽取等任務(wù)。
3 大數(shù)據(jù)分析技術(shù)
3.1 數(shù)據(jù)價(jià)值發(fā)現(xiàn)
大數(shù)據(jù)技術(shù)為移動(dòng)通信數(shù)據(jù)價(jià)值的發(fā)現(xiàn)提供了極為便利的技術(shù),利用大數(shù)據(jù)分析技術(shù),對(duì)各種異構(gòu)數(shù)據(jù)進(jìn)行分析與挖掘,獲取移動(dòng)運(yùn)營(yíng)商各項(xiàng)業(yè)務(wù)對(duì)于企業(yè)與個(gè)人用戶產(chǎn)生的價(jià)值與影響的相關(guān)數(shù)據(jù),并用以指導(dǎo)舊業(yè)務(wù)的完善與新業(yè)務(wù)的開展。數(shù)據(jù)分析包含數(shù)據(jù)可視化、提取統(tǒng)計(jì)分析與數(shù)據(jù)挖掘3個(gè)主要步驟。運(yùn)營(yíng)商將各類海量數(shù)據(jù)資源通過(guò)分析,將其封裝為各項(xiàng)服務(wù)數(shù)據(jù),使移動(dòng)通信向信息服務(wù)的轉(zhuǎn)型成為可能。數(shù)據(jù)分析主要包括區(qū)域價(jià)值與客戶價(jià)值兩類價(jià)值研究。區(qū)域價(jià)值的目的在于推動(dòng)業(yè)務(wù)運(yùn)營(yíng)的精細(xì)化,提高網(wǎng)絡(luò)管理的智能化水平,為企業(yè)發(fā)展戰(zhàn)略提供有效的分析。客戶價(jià)值的研究目的則在于實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷,根據(jù)客戶的網(wǎng)絡(luò)特征與性能指標(biāo)預(yù)測(cè)提供針對(duì)性的服務(wù),不斷提高客戶擁有量,為客戶提供更符合自身需求的業(yè)務(wù)體驗(yàn)。
3.2 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
KPI在通信網(wǎng)絡(luò)中往往以時(shí)間序列顯示,傳統(tǒng)的預(yù)測(cè)方法由于數(shù)據(jù)量選擇范圍較小、實(shí)時(shí)性差,導(dǎo)致結(jié)果準(zhǔn)確率不足,通信網(wǎng)絡(luò)數(shù)據(jù)量的增加也使傳統(tǒng)算法的局限性與準(zhǔn)確性不斷降低。大數(shù)據(jù)技術(shù)的出現(xiàn),使KPI預(yù)測(cè)算法得到了有效的改進(jìn)?;诖髷?shù)據(jù)技術(shù)改進(jìn)KPI預(yù)測(cè)方法,挖掘隱藏的海量數(shù)據(jù)背后的價(jià)值更高的有效信息,能夠提高預(yù)測(cè)準(zhǔn)確率。
(1)要預(yù)測(cè)趨勢(shì)分量T(t),將每段無(wú)線網(wǎng)絡(luò)的起始話務(wù)量設(shè)為Xk,斜率設(shè)為Slopek,并將斜率擬合成一條直線,每一條擬合線之間保持首尾連續(xù),采用無(wú)線網(wǎng)絡(luò)話務(wù)量的所有數(shù)據(jù)為訓(xùn)練樣本,并建模進(jìn)行預(yù)測(cè)分析,其公式為:
其中,KT+i代表補(bǔ)償后的得出的改善斜率,當(dāng)最近的連續(xù)Ⅳ個(gè)斜率均不低于0時(shí),第N+l個(gè)的斜率也不應(yīng)低于0;y是一個(gè)可調(diào)節(jié)的常數(shù),直至調(diào)節(jié)為一個(gè)最佳常數(shù)。因此,預(yù)測(cè)值前的數(shù)據(jù)權(quán)重就由歷史數(shù)據(jù)與斜率所決定。
(2)需要預(yù)測(cè)季節(jié)性分量,設(shè)為S(t),在確定周期時(shí)間后,利用統(tǒng)計(jì)分析,根據(jù)所需要的特征對(duì)海量數(shù)據(jù)完成抽取,并根據(jù)以下公式完成差分運(yùn)算,獲得一個(gè)矩陣:
對(duì)該矩陣作線性擬合,可以獲得多條擬合直線,即Y-aX+b,取擬合誤差值最小的一個(gè)列數(shù)作為周期L,根據(jù)下式計(jì)算季節(jié)性分量:
式中p代表每一周期L中的樣本數(shù)量,每-q位置處的S(t)代表P樣本中同一位置q處的數(shù)據(jù)均值。
(3)要預(yù)測(cè)突發(fā)分量,設(shè)該分量為B,是由各種突發(fā)事件所產(chǎn)生的一個(gè)分量,該分量有很強(qiáng)的可列舉性,可通過(guò)特定類別與特定數(shù)值相對(duì)應(yīng)來(lái)表示,如下式:
在分析突發(fā)變量時(shí),只需要知道需要查詢位置的ID號(hào),就能夠?qū)⒃揑D號(hào)相應(yīng)的突發(fā)分量代入預(yù)測(cè)公式中。
(4)要預(yù)測(cè)隨機(jī)誤差分量,設(shè)該分量為R?;诖髷?shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),該分量具有非獨(dú)立分布性,是將無(wú)線網(wǎng)絡(luò)話務(wù)量產(chǎn)生的歷史數(shù)據(jù)減掉T(t)、S(t)與B(t)即可獲得R的預(yù)估值,該結(jié)果可增強(qiáng)R值的實(shí)際性。
(5)預(yù)測(cè)KPI,采用以下公式即可計(jì)算獲得:
X(t)=(1+B(t))×(T(t)+S(t)+R(t)
(6)在運(yùn)用以上預(yù)測(cè)算法時(shí),還需要對(duì)數(shù)據(jù)完成預(yù)處理,主要任務(wù)在于利用線性擬合曲線插入缺值,如利用最小二乘法進(jìn)行線性回歸即可獲得缺失點(diǎn)的值。然后需要對(duì)需要預(yù)測(cè)的區(qū)域根據(jù)特征采取分類處理,如根據(jù)不同時(shí)間分布點(diǎn)的忙碌時(shí)段作為特征進(jìn)行分類,再對(duì)不同類型的區(qū)域采取分類分析預(yù)測(cè)。第三步要排除異常值,對(duì)各類型數(shù)據(jù)作可信度取舍,置信度為95%,邊界取值為u-2σ與u+2σ,排除不在此區(qū)間內(nèi)的異常值,當(dāng)時(shí)間序列呈非正太分布時(shí),則需要采取其他方法排除異常值。第四步就能夠根據(jù)以上預(yù)測(cè)算法進(jìn)行分析預(yù)測(cè)與結(jié)果判定。當(dāng)結(jié)果和真實(shí)值之間的誤差處于非接受范圍時(shí),需要返回第一步,修正模型參數(shù)。
4 結(jié)語(yǔ)
未來(lái)的大數(shù)據(jù)技術(shù)將會(huì)使移動(dòng)通信行業(yè)與交通、物流、銀行等各個(gè)行業(yè)、領(lǐng)域?qū)崿F(xiàn)戰(zhàn)略合作,完成更為宏大的布局,發(fā)揮海量數(shù)據(jù)的最大價(jià)值。
[參考文獻(xiàn)]
[1]周天綺,嚴(yán)奧霞.基于移動(dòng)通信大數(shù)據(jù)的流動(dòng)人口統(tǒng)計(jì)中Hadoop的應(yīng)用研究[J].軟件導(dǎo)刊,2015 (3):36-38.
[2]王超.基于大數(shù)據(jù)技術(shù)的現(xiàn)代移動(dòng)通信研究[J].中國(guó)新通信,2015 (3):108.