国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于電信大數(shù)據(jù)的數(shù)據(jù)建模平臺(tái)研究

2014-09-29 04:48沈雷明別志銘
電信科學(xué) 2014年6期
關(guān)鍵詞:通話定義建模

沈雷明,別志銘

(1.中國(guó)移動(dòng)通信集團(tuán)上海有限公司 上海 200060;2.珠海世紀(jì)鼎利通信科技股份有限公司 珠海 519085)

1 電信行業(yè)大數(shù)據(jù)的需求

伴隨電信行業(yè)3G/4G等業(yè)務(wù)的增加,數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),數(shù)據(jù)的規(guī)模已經(jīng)超過(guò)TB,達(dá)到PB級(jí)別。海量數(shù)據(jù)導(dǎo)致電信運(yùn)營(yíng)商的數(shù)據(jù)處理和存儲(chǔ)壓力急劇變大,而傳統(tǒng)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)越來(lái)越無(wú)法滿足電信行業(yè)的需求。許多電信運(yùn)營(yíng)商開(kāi)始關(guān)注Hadoop技術(shù),但是電信運(yùn)營(yíng)商自身組織結(jié)構(gòu)復(fù)雜,產(chǎn)品和業(yè)務(wù)種類繁多,并且Hadoop技術(shù)也在快速發(fā)展。如何能統(tǒng)一、快速地滿足不同業(yè)務(wù)的不同需求?這個(gè)難題擺在所有人的面前。

2 電信領(lǐng)域大數(shù)據(jù)的特點(diǎn)

(1)電信用戶數(shù)據(jù)量大

電信行業(yè)是個(gè)壟斷行業(yè),每個(gè)國(guó)家通常只有3家或4家電信運(yùn)營(yíng)商,這樣就導(dǎo)致了很多運(yùn)營(yíng)商擁有超過(guò)一億的用戶。

(2)用戶產(chǎn)生的數(shù)據(jù)量大

電信用戶每天都要接打電話,通過(guò)3G/4G使用互聯(lián)網(wǎng),即使用戶只是把手機(jī)連接到電信的網(wǎng)絡(luò)中,都會(huì)產(chǎn)生類似位置更新等數(shù)據(jù)。每個(gè)用戶每時(shí)每刻都在產(chǎn)生數(shù)據(jù),一億用戶匯聚起來(lái),數(shù)據(jù)量非常龐大。

(3)用戶產(chǎn)生的數(shù)據(jù)多樣性

電信用戶打電話、發(fā)短信、使用互聯(lián)網(wǎng)等,還有客戶的位置、在線狀態(tài)等,每種數(shù)據(jù)結(jié)構(gòu)都不一樣,內(nèi)容也不一樣,其中有結(jié)構(gòu)化的數(shù)據(jù),也有非結(jié)構(gòu)化的數(shù)據(jù),非常復(fù)雜。

3 Hadoopdesigner系統(tǒng)設(shè)計(jì)

本文介紹了Hadoopdesigner系統(tǒng),它是基于Hadoop的數(shù)據(jù)建模平臺(tái)。該系統(tǒng)根據(jù)電信業(yè)務(wù)系統(tǒng)的特點(diǎn),提取出類似 counter、KPI(key performance indicator,關(guān)鍵績(jī)效指標(biāo))等這樣的專業(yè)電信行業(yè)模型,是為電信行業(yè)的大數(shù)據(jù)建模量身打造的。Hadoopdesigner系統(tǒng)總體結(jié)構(gòu)如圖1所示。

其總體結(jié)構(gòu)是由模型處理、模型對(duì)象管理、智能服務(wù)等模塊構(gòu)成。

3.1 模型處理

模型處理包括的功能有模型建立、模型智能評(píng)估和模型運(yùn)行監(jiān)控。每個(gè)功能模塊的具體介紹如下。

(1)模型建立

建模人員拿到應(yīng)用的需求后,把需求中的具體業(yè)務(wù)分解成系統(tǒng)里面的實(shí)體對(duì)象。整個(gè)建模中,一般需要經(jīng)歷4個(gè)過(guò)程。

·業(yè)務(wù)模型建模。它主要解決業(yè)務(wù)層面的分解和程序化。

·專業(yè)領(lǐng)域建模。它主要是對(duì)業(yè)務(wù)模型進(jìn)行抽象處理,生成專業(yè)的領(lǐng)域概念模型。

·邏輯建模。它主要是將專業(yè)領(lǐng)域模型的概念實(shí)體以及實(shí)體之間的關(guān)系進(jìn)行邏輯化。

·物理建模。它主要解決如邏輯模型對(duì)不同實(shí)體的物

理化及性能等一些具體的技術(shù)問(wèn)題。

其中邏輯模型和物理模型由Hadoopdesigner系統(tǒng)根據(jù)業(yè)務(wù)模型和專業(yè)領(lǐng)域的模型自動(dòng)生成。建模人員只需要對(duì)業(yè)務(wù)模型和專業(yè)領(lǐng)域的模型進(jìn)行設(shè)計(jì)。

(2)模型智能評(píng)估

常有的數(shù)據(jù)建模有范式建模法、維度建模法、實(shí)體建模法等。對(duì)于電信的信令分析應(yīng)用來(lái)說(shuō),一般采用維度建模法。針對(duì)各個(gè)維度作大量的預(yù)處理,如按照維度進(jìn)行預(yù)先的統(tǒng)計(jì)、分類等。通過(guò)這些預(yù)處理,能夠極大地提升系統(tǒng)的處理能力。Hadoopdesigner系統(tǒng)就是通過(guò)可視化的界面,輔助建模人員使用維度建模法實(shí)現(xiàn)應(yīng)用,并且對(duì)設(shè)計(jì)的模型進(jìn)行專業(yè)的智能評(píng)估和分析,給出分析報(bào)告。

(3)模型運(yùn)行監(jiān)控

業(yè)務(wù)和數(shù)據(jù)建模是個(gè)復(fù)雜的過(guò)程,對(duì)于復(fù)雜的應(yīng)用,不可能一下子就能設(shè)計(jì)出非常合適的模型,需要對(duì)模型運(yùn)行過(guò)程進(jìn)行監(jiān)控,及時(shí)地發(fā)現(xiàn)問(wèn)題和解決問(wèn)題,以完成對(duì)模型的持續(xù)優(yōu)化。

3.2 模型對(duì)象管理

建模人員在業(yè)務(wù)模型建模和專業(yè)領(lǐng)域建模后,會(huì)從復(fù)雜的應(yīng)用中提取出實(shí)體、事件、說(shuō)明、關(guān)系等抽象的對(duì)象,再通過(guò)Hadoopdesigner系統(tǒng)的可視化界面,建模人員把抽象對(duì)象配置到系統(tǒng)中,就完成了整個(gè)應(yīng)用建模過(guò)程的第一個(gè)階段。剩下的任務(wù)就是根據(jù)模型運(yùn)行的情況,調(diào)整、優(yōu)化模型。目前Hadoopdesigner系統(tǒng)支持的常用模型有以下幾個(gè)類型。

(1)數(shù)據(jù)源模型

目前數(shù)據(jù)的來(lái)源主要是通過(guò)FTP傳輸過(guò)來(lái)的文件。文件格式一般是csv。從應(yīng)用角度出發(fā),數(shù)據(jù)可分為CS、PS等,它們的數(shù)據(jù)字段信息等是不同的。因此需要根據(jù)不同的應(yīng)用描述不同數(shù)據(jù)來(lái)源的信息,統(tǒng)一數(shù)據(jù)讀取接口。Hadoopdesigner系統(tǒng)提供一些常用的數(shù)據(jù)源定義模板,在導(dǎo)入后,直接修改便可以使用。

(2)ETL 模型

定義好數(shù)據(jù)的來(lái)源后,數(shù)據(jù)就會(huì)源源不斷地通過(guò)入云程序把數(shù)據(jù)導(dǎo)入Hadoop中。在數(shù)據(jù)真正入云前,需要定義數(shù)據(jù) ETL(extract,transform and load)的規(guī)則和模型,對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和集成以及提供數(shù)據(jù)入云的速率、數(shù)據(jù)錯(cuò)誤率等數(shù)據(jù)質(zhì)量報(bào)告等。對(duì)于常用ETL規(guī)則,Hadoopdesigner系統(tǒng)也提供一些模板,方便用戶直接使用。

(3)counter模型

counter模型是系統(tǒng)定義單一維度的統(tǒng)計(jì)匯總模型。它是系統(tǒng)里面非常重要的模型,是維度建模法的基礎(chǔ)。系統(tǒng)可以通過(guò)定義的counter模型,對(duì)需要統(tǒng)計(jì)分類的維度進(jìn)行預(yù)處理和優(yōu)化。counter模型根據(jù)數(shù)據(jù)所處的位置分類,可以分為兩類:一是云外counter模型,主要定義在數(shù)據(jù)入云的同時(shí),對(duì)單個(gè)維度的匯總統(tǒng)計(jì);二是云內(nèi)counter模型,主要是定義在Hadoop里面,對(duì)單個(gè)維度的匯總統(tǒng)計(jì)。通過(guò)兩種類型的counter模型,可以充分利用系統(tǒng)的基礎(chǔ)和存儲(chǔ)能力,大大提高以后應(yīng)用匯總統(tǒng)計(jì)的速度和能力。比如定義通話中的主叫成功次數(shù)、主叫失敗次數(shù)等,都可以定義為counter模型。不同的行業(yè)可以定義不同的counter庫(kù)。針對(duì)電信的信令分析行業(yè),筆者建立了counter模型庫(kù),提供了常用的幾百個(gè)counter對(duì)象。

(4)KPI模型

counter模型相當(dāng)于單個(gè)實(shí)體,KPI模型就是通過(guò)各種運(yùn)算符等關(guān)系,連接多個(gè)不同實(shí)體,組成一個(gè)新的KPI模型。比如計(jì)算通話總次數(shù)這個(gè)KPI,就可以通過(guò)定義的通話成功counter模型加上定義的通話失敗counter模型,構(gòu)成通話總次數(shù)的KPI模型。在實(shí)際的應(yīng)用中,KPI模型會(huì)經(jīng)常被引用,并且不同的KPI可以直接相互地引用。例如需要定義通話成功率的KPI模型,就可以通過(guò)定義的通話成功counter模型加上定義的通話總次數(shù)的KPI對(duì)象,構(gòu)成通話成功率的KPI模型。針對(duì)電信的信令分析行業(yè)的常用KPI模型,Hadoopdesigner系統(tǒng)也定義了上百個(gè)KPI模型,方便用戶組建模的時(shí)候調(diào)用。

(5)數(shù)據(jù)聚合模型

在對(duì)數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)的時(shí)候,需要指定對(duì)某個(gè)維度進(jìn)行聚合。通過(guò)數(shù)據(jù)聚合的模型,可以很簡(jiǎn)單地從上面定義的數(shù)據(jù)源模型的維度里,任意挑選一個(gè)維度進(jìn)行處理,然后再?gòu)南吕蛑羞x擇一個(gè)對(duì)這個(gè)維度聚合的算法。

聚合的算法常有兩類:一是對(duì)時(shí)間的聚合算法,對(duì)某個(gè)時(shí)間維度進(jìn)行不同時(shí)間段的聚合,如15 min、30 min、1 h等聚合;二是通過(guò)特定的算法,把維度從細(xì)粒度變成粗粒度,如從信令中基站控制器的維度匯總到移動(dòng)交換中心的維度。數(shù)據(jù)聚合模型需要根據(jù)具體的行業(yè)需求,開(kāi)發(fā)出不同聚合算法的組件。

(6)數(shù)據(jù)分組模型

上述模型定義完成后,通常需要對(duì)數(shù)據(jù)進(jìn)行分組和分類統(tǒng)計(jì)匯總等。數(shù)據(jù)分組模型就是用來(lái)實(shí)現(xiàn)數(shù)據(jù)分組和分類的模型。系統(tǒng)會(huì)根據(jù)數(shù)據(jù)源的模型,取出相關(guān)的分組維度,提供單選和多選、排序等方式方便用戶選擇需要的維度。

(7)靜態(tài)數(shù)據(jù)模型

在實(shí)際應(yīng)用中,靜態(tài)數(shù)據(jù)的使用是不可避免的。因此對(duì)靜態(tài)數(shù)據(jù)的管理和建模也是很重要的。在信令分析應(yīng)用中,如手機(jī)終端的靜態(tài)信息會(huì)經(jīng)常被使用。但是靜態(tài)數(shù)據(jù)不一定就是固定不變的數(shù)據(jù),只是該數(shù)據(jù)變化和更新較少,實(shí)際上還是需要對(duì)靜態(tài)數(shù)據(jù)進(jìn)行增刪改等操作。靜態(tài)數(shù)據(jù)模型按關(guān)聯(lián)的位置可以分為兩種:一是在數(shù)據(jù)的分析階段關(guān)聯(lián)的靜態(tài)數(shù)據(jù),對(duì)于Hadoop來(lái)說(shuō),就是在MapReduce的map階段關(guān)聯(lián)的靜態(tài)數(shù)據(jù),如分析某個(gè)特定型號(hào)的手機(jī)的通話次數(shù),需要通過(guò)TAC號(hào)來(lái)關(guān)聯(lián)終端型號(hào)的靜態(tài)數(shù)據(jù);二是在匯總階段的關(guān)聯(lián)靜態(tài)表,對(duì)于Hadoop來(lái)說(shuō),即是MapReduce的redcue階段關(guān)聯(lián)的靜態(tài)數(shù)據(jù),如分析所有不同型號(hào)的手機(jī)的通話次數(shù),需要按TAC匯總后,再通過(guò)TAC號(hào)關(guān)聯(lián)終端型號(hào)的靜態(tài)數(shù)據(jù),當(dāng)然這個(gè)例子也可以在map階段匯總,但是考慮到性能內(nèi)存等問(wèn)題,最好是在匯總后進(jìn)行關(guān)聯(lián)。

(8)對(duì)象集合模型

Hadoopdesigner系統(tǒng)支持按星型模式或雪花模式來(lái)設(shè)計(jì)。上述模型都是周圍的“小星星”或“小雪花”,那么結(jié)構(gòu)的中心實(shí)體就是對(duì)象集合模型,是用戶最關(guān)心的基本實(shí)體和查詢活動(dòng)的中心,為Hadoop的活動(dòng)提供定量數(shù)據(jù)。它用來(lái)集合和引用上面各種模型和對(duì)象,組成一個(gè)實(shí)際的應(yīng)用。為了方便用戶的建模,Hadoopdesigner系統(tǒng)擴(kuò)展對(duì)象集合模型面向?qū)ο蟮脑O(shè)計(jì),主要表現(xiàn)在以下兩個(gè)方面。

·支持多個(gè)對(duì)象的繼承關(guān)系。如A對(duì)象集合模型使用了通話成功次數(shù)的counter模型,B對(duì)象集合模型使用了通話失敗次數(shù)的counter模型,當(dāng)C對(duì)象集合模型同時(shí)需要使用通話成功和失敗次數(shù)的counter模型時(shí),就可以定義C從A和B繼承過(guò)來(lái)。

·重載的功能。如A對(duì)象集合模型使用了通話成功次數(shù)的counter模型,定義數(shù)據(jù)源模型是來(lái)自BSSAP對(duì)象,B對(duì)象集合模型也是使用了通話成功次數(shù)的counter模型,但是數(shù)據(jù)源來(lái)自RANAP對(duì)象。只需要定義B對(duì)象集合模型從A對(duì)象集合模型繼承,同時(shí)把數(shù)據(jù)源重新定義覆蓋即可。

(9)調(diào)度模型

在海量數(shù)據(jù)的分析中,做一次匯總統(tǒng)計(jì)是一個(gè)漫長(zhǎng)的過(guò)程,快則半小時(shí),慢則需要幾個(gè)小時(shí)。因此在很多的實(shí)際應(yīng)用中,都需要定時(shí)來(lái)調(diào)度運(yùn)行應(yīng)用。Hadoopdesigner系統(tǒng)調(diào)度的最大特點(diǎn)在于能實(shí)現(xiàn)智能調(diào)度。它根據(jù)批量處理的多個(gè)模型的優(yōu)先級(jí)別運(yùn)行模型。若系統(tǒng)不忙時(shí),優(yōu)先等級(jí)比較低的模型可以運(yùn)行;若系統(tǒng)忙時(shí),根據(jù)系統(tǒng)的負(fù)荷選擇運(yùn)行等級(jí)高的模型。

3.3 智能服務(wù)

設(shè)計(jì)一個(gè)模型不難,維護(hù)和優(yōu)化好這個(gè)模型就顯得更為困難。因此Hadoopdesigner系統(tǒng)專門增加了智能學(xué)習(xí)模塊、智能優(yōu)化模塊、智能預(yù)測(cè)模塊,方便建模人員維護(hù)和優(yōu)化好模型,分別簡(jiǎn)單介紹如下。

(1)智能學(xué)習(xí)模塊

在開(kāi)啟智能監(jiān)控屬性時(shí),系統(tǒng)會(huì)跟蹤模型的執(zhí)行計(jì)劃的每個(gè)模塊的屬性,如運(yùn)行時(shí)磁盤的I/O、CPU和內(nèi)存的占用情況、運(yùn)行的時(shí)間等,用于優(yōu)化模塊,找出最優(yōu)的模型以及給出影響了整個(gè)模型運(yùn)行速度的對(duì)象。

(2)智能優(yōu)化模塊

根據(jù)學(xué)習(xí)到的模型的每個(gè)具體參數(shù)和系統(tǒng)里面配置的優(yōu)化參數(shù)閾值,決定是否啟動(dòng)優(yōu)化。例如需要經(jīng)常使用的、重要的數(shù)據(jù),如果模型第1次運(yùn)行需要多次從磁盤讀取同一數(shù)據(jù),那么模型第2次運(yùn)行時(shí)會(huì)先把數(shù)據(jù)讀取到內(nèi)存中,以后多次從內(nèi)存中訪問(wèn)。系統(tǒng)自動(dòng)檢測(cè)當(dāng)前的硬件和軟件狀態(tài),給出狀態(tài)報(bào)告,發(fā)送給管理員。

(3)智能預(yù)測(cè)模塊

主要是根據(jù)性能、調(diào)度、對(duì)象集合模型等做預(yù)測(cè)。例如一個(gè)應(yīng)用統(tǒng)計(jì)一天內(nèi)打電話、發(fā)短信超過(guò)100次的用戶信息,系統(tǒng)會(huì)根據(jù)這個(gè)應(yīng)用自動(dòng)預(yù)測(cè)出騷擾電話、廣告識(shí)別、重大的突發(fā)事件等應(yīng)用(地震、火災(zāi)等)。當(dāng)把應(yīng)用預(yù)測(cè)出后,用戶下次做類似的應(yīng)用時(shí),不用重新開(kāi)發(fā)和設(shè)計(jì),只在預(yù)測(cè)結(jié)果上修改即可。

4 Hadoopdesigner系統(tǒng)的主要特點(diǎn)

Hadoopdesigner系統(tǒng)的主要特點(diǎn)如下。

·該系統(tǒng)是基于電信大數(shù)據(jù)開(kāi)發(fā)的數(shù)據(jù)建模工具,專門為電信行業(yè)的海量數(shù)據(jù)處理提供服務(wù)的一套工具。

·對(duì)于不同的電信業(yè)務(wù)需求,采用統(tǒng)一的、標(biāo)準(zhǔn)化模型,整個(gè)處理過(guò)程是可視化的,并且整個(gè)處理過(guò)程也是閉環(huán)的。

·根據(jù)電信行業(yè)的業(yè)務(wù)特點(diǎn),不再需要專業(yè)的設(shè)計(jì)和開(kāi)發(fā)人員響應(yīng)不同的需要,只需要一個(gè)了解電信業(yè)務(wù)知識(shí)的建模人員就可以完成,大大降低了難度。

·該系統(tǒng)采用可視化配置界面,方便用戶把復(fù)雜的問(wèn)題簡(jiǎn)單化、模型化和可視化,提高建模人員處理問(wèn)題的效率。

·該系統(tǒng)增加了智能服務(wù)的功能,方便建模人員根據(jù)具體的軟硬件情況以及應(yīng)用需求,維護(hù)和優(yōu)化自己的模型,提升模型運(yùn)行的速度。

5 Hadoopdesiger系統(tǒng)在電信行業(yè)的應(yīng)用

在實(shí)際應(yīng)用過(guò)程中,發(fā)現(xiàn)了Hadoopdesiger系統(tǒng)的一些不足,筆者總結(jié)了一些經(jīng)驗(yàn)。大數(shù)據(jù)的建模既涉及業(yè)務(wù)知識(shí),也涉及具體的技術(shù),既需豐富的電信行業(yè)經(jīng)驗(yàn),同時(shí)也需要一定的信息技術(shù)。要實(shí)現(xiàn)數(shù)據(jù)模型,最重要的是需要一個(gè)非常適用的方法論,指導(dǎo)對(duì)業(yè)務(wù)進(jìn)行抽象、處理,生成各個(gè)階段的模型。

該系統(tǒng)已經(jīng)在三四個(gè)省級(jí)運(yùn)營(yíng)商公司部署。某省運(yùn)營(yíng)商公司的信令共享平臺(tái)上的本系統(tǒng)已正常運(yùn)行一年多的時(shí)間。其中Hadoop的集群規(guī)模為400臺(tái)PC服務(wù)器,存儲(chǔ)容量為4 PB,數(shù)據(jù)增量為12 TB/日,記錄數(shù)約為216億條/日。目前建模平臺(tái)應(yīng)用的場(chǎng)景主要有以下兩種。

·固定的需求。建模人員通過(guò)平臺(tái)配置好模型,周期性或定時(shí)運(yùn)行任務(wù),用戶通過(guò)界面查詢結(jié)果或把結(jié)果導(dǎo)出報(bào)表查看。

·突發(fā)型的臨時(shí)需求。接到需求后,快速定制好模型,直接運(yùn)行任務(wù)后導(dǎo)出報(bào)表。

用戶通過(guò)使用建模平臺(tái),實(shí)實(shí)在在地解決了問(wèn)題,極大地改善了用戶體驗(yàn),獲得用戶好評(píng)。

1 Apache Software Foundation.The apache hadoop project.http://hadoop.apache.org/,2014

2 劉新,韓耀強(qiáng),陳靚.解密電信行業(yè)大數(shù)據(jù)應(yīng)用.http://www.ccidconsulting.com/article/3913.jhtml,2014-03-24

3 Liu P.電信行業(yè)中的大數(shù)據(jù).電信網(wǎng)技術(shù),2013(8)

4 李勇,劉曉東.數(shù)據(jù)建模技術(shù)在電信業(yè)務(wù)支撐系統(tǒng)中的應(yīng)用研究.計(jì)算機(jī)應(yīng)用,2005(9)

猜你喜歡
通話定義建模
微信上小額借款 請(qǐng)務(wù)必通話確認(rèn)
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
《戊戌元日與友人通話》
基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
不對(duì)稱半橋變換器的建模與仿真
成功的定義
2013年11月通信業(yè)主要指標(biāo)完成情況(一)
三元組輻射場(chǎng)的建模與仿真
修辭學(xué)的重大定義
山的定義
伊金霍洛旗| 浠水县| 盈江县| 湄潭县| 鹰潭市| 博客| 龙门县| 东港市| 定安县| 霍州市| 仁化县| 鹤庆县| 额敏县| 苏尼特右旗| 阳春市| 吴川市| 嘉禾县| 白玉县| 八宿县| 顺义区| 德令哈市| 山东| 荔波县| 义马市| 平遥县| 彩票| 岑巩县| 南阳市| 皋兰县| 信阳市| 贵州省| 抚州市| 大安市| 绵阳市| 马公市| 桐乡市| 大冶市| 资兴市| 庆云县| 南岸区| 禹城市|