翟金亭
關(guān)鍵詞:Spark;大數(shù)據(jù);分析管理;應(yīng)用研究
1引言
隨著互聯(lián)網(wǎng)、云計(jì)算和人工智能的快速發(fā)展,人們的日常生活和工作中會(huì)產(chǎn)生大量的小文件,如圖片、信息等數(shù)據(jù)文件。這些小文件數(shù)據(jù)規(guī)模越來(lái)越大,因此,高效地管理海量小文件數(shù)據(jù)是非常重要的應(yīng)用需求。數(shù)字?jǐn)?shù)據(jù)的數(shù)量爆炸使得研究人員和開發(fā)人員尋找更加科學(xué)合理的新方法,“大數(shù)據(jù)”應(yīng)運(yùn)而生。大數(shù)據(jù)分析對(duì)于管理海量數(shù)據(jù)具有重要的意義,從已有的數(shù)據(jù)資源中挖掘更有價(jià)值的知識(shí)具有重要的作用。大數(shù)據(jù)在擴(kuò)展性,復(fù)雜性,速度等方面都面臨不一樣的挑戰(zhàn),擴(kuò)展性是指以指數(shù)形式將數(shù)據(jù)量由Terabytes發(fā)展為Petabytes, Exabyt, Zettabyt, Yottabyt等;復(fù)雜性意味著數(shù)據(jù)具有多樣性,可表現(xiàn)為結(jié)構(gòu)化,非結(jié)構(gòu)化以及半結(jié)構(gòu)化,其內(nèi)容涵蓋了多種格式,種類以及結(jié)構(gòu),如文本、數(shù)字、圖像、音頻、視頻、順序、時(shí)間序列、社交媒體數(shù)據(jù)以及多維數(shù)組[1-3]。
近年來(lái),數(shù)字?jǐn)?shù)據(jù)增長(zhǎng)仍然呈指數(shù)型增長(zhǎng),需要尋找一種高效的手段對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理并提取信息,如分布式數(shù)據(jù)處理工具Hadoop,Spark計(jì)算技術(shù)等。國(guó)內(nèi)外學(xué)者針對(duì)此類問(wèn)題進(jìn)行了大量的研究,并取得豐富的研究成果,如2012年Gartner認(rèn)為,大數(shù)據(jù)將會(huì)成為新技術(shù)發(fā)展的熱點(diǎn),海量和多樣化的信息資產(chǎn)需要一種新的處理模式,而大數(shù)據(jù)正好可以從海量數(shù)據(jù)中提取關(guān)鍵信息,使數(shù)據(jù)信息使用者可以高效使用信息,增強(qiáng)企業(yè)洞察危險(xiǎn)的能力,優(yōu)化數(shù)據(jù)的流程,最終決策也更加準(zhǔn)確和科學(xué);Victor在《大數(shù)據(jù)日寸代——生活、工作與思維的大變革》一書中指出,大數(shù)據(jù)時(shí)代要想得到有價(jià)值的信息,就需要從總體數(shù)據(jù)進(jìn)行分析,而不是使用少量數(shù)據(jù)樣本分析與實(shí)務(wù)相關(guān)的數(shù)據(jù)。其更為關(guān)注數(shù)據(jù)之間的相關(guān)性,而不是探求數(shù)據(jù)的因果關(guān)系和精確性。
2Spark計(jì)算技術(shù)的優(yōu)劣勢(shì)
能夠有效地進(jìn)行大數(shù)據(jù)處理研究的Spark技術(shù)的框架系統(tǒng),最初是由Matei Zaharia于2009年在加州大學(xué)伯克利分校的AMPLab開發(fā)的,并于2010年作為Apache項(xiàng)目成為開源項(xiàng)目,Spark技術(shù)主要使用分布式彈性數(shù)據(jù)集(RDD),旨在促進(jìn)編寫和提高重復(fù)、重用數(shù)據(jù)(交互或迭代算法)的大數(shù)據(jù)應(yīng)用程序的執(zhí)行速度[4]。截至2015年,國(guó)內(nèi)外學(xué)者已經(jīng)開始使用Spark技術(shù)進(jìn)行數(shù)據(jù)的評(píng)估分析,并且一些企業(yè)已經(jīng)開始使用Spark技術(shù)存儲(chǔ)、探索和分析在企業(yè)運(yùn)行過(guò)程中產(chǎn)生的海量數(shù)據(jù)。2018年,郭育辰基于大數(shù)據(jù)框架Spark,利用話單大數(shù)據(jù)進(jìn)行了詐騙電話的識(shí)別和響應(yīng)模型研究,來(lái)降低詐騙分子的成功率,達(dá)到保護(hù)人民群眾財(cái)產(chǎn)安全的目的;2018年,毛辰陽(yáng)利用Spark平臺(tái)獲取好友列表和共同好友,基于話單分析的人物關(guān)系可視化分析可疑聯(lián)系人,為偵察嫌疑人提供技術(shù)支持;2019年,呂亮亮基于Spark實(shí)現(xiàn)電信客戶細(xì)分?jǐn)?shù)據(jù)分析平臺(tái)的應(yīng)用。
2.1Spark計(jì)算技術(shù)的優(yōu)勢(shì)
首先,Spark是一種基于內(nèi)存的計(jì)算,傳統(tǒng)的硬盤由于物理性質(zhì)限制進(jìn)行提升非常困難,而CPU和內(nèi)存的發(fā)展近年來(lái)卻是十分迅速。內(nèi)存的發(fā)展遵循著摩爾定律,近幾十年來(lái)內(nèi)存價(jià)格不斷下降,內(nèi)存量逐漸增加?,F(xiàn)在主流的服務(wù)器中就有大量幾百GB或幾TB的內(nèi)存儲(chǔ)量,使得內(nèi)存數(shù)據(jù)庫(kù)的實(shí)現(xiàn)成為可能,而Spark正是利用這種計(jì)算資源而設(shè)計(jì)出的一種基于內(nèi)存的分布式處理軟件,以達(dá)到取代MapReduce的目的。其次,Spark計(jì)算模式的速度具有優(yōu)越性,研究表明,在內(nèi)存中運(yùn)行時(shí)比Hadoop快100倍,在磁盤上運(yùn)行時(shí)比Hadoop快10倍。Spark計(jì)算模式能夠?qū)崿F(xiàn)對(duì)HDFS進(jìn)行數(shù)據(jù)的讀取功能,并且能夠支持YARN、MapReduce模型,還支持SQL查詢、流數(shù)據(jù)、機(jī)器學(xué)習(xí)和圖算法等部署模式,支持多種編程語(yǔ)言,Spark提供Java,Scala和Python語(yǔ)言的內(nèi)置API。
2.2Spark計(jì)算技術(shù)的劣勢(shì)
近年來(lái),基于Spark技術(shù)在大數(shù)據(jù)計(jì)算分析應(yīng)用過(guò)程中也發(fā)現(xiàn)存在一些缺點(diǎn),對(duì)該技術(shù)的性能造成一定的影響。在系統(tǒng)架構(gòu)穩(wěn)定性方面,Spark技術(shù)基于Java語(yǔ)言代碼實(shí)現(xiàn)數(shù)據(jù)處理功能,一般情況下,在處理大數(shù)據(jù)的過(guò)程中系統(tǒng)的RAM會(huì)出現(xiàn)內(nèi)存占用率太高的現(xiàn)象,但系統(tǒng)代碼回收數(shù)據(jù)垃圾的效率比較低,嚴(yán)重影響系統(tǒng)架構(gòu)的穩(wěn)定性,導(dǎo)致處理過(guò)程中會(huì)出現(xiàn)報(bào)錯(cuò)等錯(cuò)誤信息。其次,由于Spark計(jì)算海量數(shù)據(jù)對(duì)硬件設(shè)備要求比較高,因此,普通常用的服務(wù)器無(wú)法滿足需求,需要更大的服務(wù)器集成群完成計(jì)算任務(wù),從而有利于更好地改善計(jì)算環(huán)境,提高使用效率。
3基于Spark計(jì)算的數(shù)據(jù)分析實(shí)際應(yīng)用
3.1基于Spark平臺(tái)的電信行業(yè)用戶流失預(yù)警
隨著電信行業(yè)和Spark技術(shù)的快速發(fā)展以及手機(jī)的普及應(yīng)用,電信行業(yè)系統(tǒng)的應(yīng)用規(guī)模越發(fā)擴(kuò)大,行業(yè)內(nèi)應(yīng)用同時(shí)所產(chǎn)生的數(shù)據(jù)量則呈現(xiàn)指數(shù)型增長(zhǎng)的趨勢(shì)。鑒于此,尋求一種有效且能夠解決實(shí)際問(wèn)題的大數(shù)據(jù)處理技術(shù)以及方法手段成了目前行業(yè)的迫切需求。
隨著電信產(chǎn)業(yè)的不斷發(fā)展壯大,其海量的電信數(shù)據(jù)為Spark技術(shù)提供了獨(dú)特的應(yīng)用空間。在云計(jì)算、大數(shù)據(jù)背景下,對(duì)于行業(yè)客戶流失的預(yù)警分析就顯得尤為重要。在電信行業(yè)發(fā)展的同時(shí),如何控制或減少行業(yè)客戶流失已經(jīng)變成電信行業(yè)目前的難題。在面對(duì)海量數(shù)據(jù)進(jìn)行分類預(yù)測(cè)時(shí),Spark強(qiáng)大的計(jì)算能力就顯得非常適合。因此,我們引入大數(shù)據(jù)平臺(tái)的Spark組件,借助隨機(jī)森林分類預(yù)算法構(gòu)建用戶流失預(yù)警模型,分析用戶使用情況的細(xì)微波動(dòng),同時(shí)不斷改進(jìn)模型以及模型的參數(shù),調(diào)整預(yù)測(cè)效果。不同的目標(biāo)客戶有著不同需求,針對(duì)性地設(shè)計(jì)專屬的營(yíng)銷方法,可以有效減少客戶的流失,最大限度地實(shí)現(xiàn)對(duì)客戶的守護(hù)。
3.2基于Spark平臺(tái)及話單分析的人物關(guān)系可視化的研究與應(yīng)用
近年來(lái),隨著網(wǎng)絡(luò)的飛速發(fā)展,手機(jī)技術(shù)的革新也越來(lái)越快,同時(shí)手機(jī)的功能和角色也越來(lái)越多樣化,我們?cè)谑褂檬謾C(jī)的同時(shí),手機(jī)信息安全等信息記錄安全就顯得尤為重要。最近幾年,很多犯罪分子會(huì)廣泛應(yīng)用手機(jī)實(shí)施犯罪活動(dòng),此時(shí),對(duì)手機(jī)中各種犯罪信息記錄進(jìn)行分析就成為公安日常辦案中不可或缺的重要技術(shù)手段。警方可以通過(guò)手機(jī)分析犯罪嫌疑人的通話記錄和相關(guān)人物及機(jī)主的相關(guān)特征,其對(duì)破獲案件和緝拿犯罪嫌疑人有著不可替代的作用,本文以Spark技術(shù)為平臺(tái),將通話記錄和相關(guān)信息作為本次研究的基礎(chǔ)數(shù)據(jù),對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行預(yù)處理、查詢和分析相關(guān)數(shù)據(jù),通過(guò)決策樹分類算法獲得犯罪嫌疑人的人物關(guān)系,這就可以為警方辦案提供有用的線索,如圖1所示。
綜上所述,基于Spark平臺(tái)及話單分析的人物關(guān)系可視化的研究與應(yīng)用不僅可以對(duì)緝拿犯罪嫌疑人有巨大的幫助,而且可以協(xié)助電信行業(yè)、輔助電信用戶獲取隱藏在話單中的有價(jià)值信息。
3.3基于Spark話單大數(shù)據(jù)的詐騙電話識(shí)別與響應(yīng)模型研究
網(wǎng)絡(luò)技術(shù)飛速發(fā)展的同時(shí),其也變成了一把雙刃劍,很多犯罪團(tuán)伙會(huì)借助網(wǎng)絡(luò)技術(shù)渠道實(shí)施網(wǎng)絡(luò)詐騙,使得人們財(cái)產(chǎn)及生命安全面臨嚴(yán)重的威脅。由于手機(jī)功能的多樣化,使得電話詐騙變成最普遍及后果最嚴(yán)重的詐騙方式。但是,電話詐騙存在手段隱蔽、詐騙組織隱秘等特點(diǎn),對(duì)于后期的破解存在難度大且治標(biāo)未治本的特征。近年來(lái),雖然國(guó)家開發(fā)了國(guó)家反詐騙APP等一些防詐騙軟件,但是由于詐騙組織技術(shù)的頑劣,依然很難杜絕詐騙事件的發(fā)生。此時(shí),如何在詐騙前或中期及時(shí)地發(fā)現(xiàn)詐騙事件、及時(shí)阻止詐騙事件的發(fā)生,將對(duì)群眾和社會(huì)的危險(xiǎn)降到最低就成了一個(gè)較為關(guān)鍵的研究應(yīng)用熱點(diǎn)。本文基于Spark技術(shù),以話單數(shù)據(jù)作為分析的切人點(diǎn),對(duì)獲取的詐騙電話通信記錄信息進(jìn)行離線數(shù)據(jù)分析,從而構(gòu)建出詐騙電話識(shí)別與響應(yīng)模型,以實(shí)現(xiàn)快速識(shí)別詐騙組織實(shí)施詐騙犯罪行為時(shí)間段內(nèi)的詐騙電話,為警察以及反電信詐騙平臺(tái)提供重要的技術(shù)依據(jù)。
3.4基于Spark技術(shù)的電信客戶細(xì)分?jǐn)?shù)據(jù)分析平臺(tái)實(shí)現(xiàn)和應(yīng)用
201 8年,中華人民共和國(guó)工業(yè)和信息化部公布了11月通信業(yè)經(jīng)濟(jì)運(yùn)行狀況,報(bào)告中表明當(dāng)前移動(dòng)用戶的用戶人數(shù)大約為15.6億,同比之前上漲速度極快。這也表明了不僅網(wǎng)絡(luò)速度增加了,而且隨之帶來(lái)了人們生活方式的改革。在電信行業(yè),由于移動(dòng)用戶的變化、用戶消費(fèi)的變化、行業(yè)系統(tǒng)的改革、數(shù)據(jù)量等的變化導(dǎo)致企業(yè)的運(yùn)營(yíng)發(fā)展需要進(jìn)行不斷的更新以求新的變通。面對(duì)目前競(jìng)爭(zhēng)激烈的市場(chǎng),對(duì)于電信公司而言,同等質(zhì)量的服務(wù)背景下,如何做好客戶的服務(wù)及防止客戶的流失顯得無(wú)比重要,同時(shí)客戶的細(xì)分對(duì)于維護(hù)客戶關(guān)系成了很重要的前提和基礎(chǔ)。本文基于Spark技術(shù),利用電信運(yùn)營(yíng)商的CRM數(shù)據(jù)、計(jì)費(fèi)數(shù)據(jù)及客戶的興趣偏好等為切入點(diǎn),將目標(biāo)客戶進(jìn)行細(xì)分,幫助電信企業(yè)實(shí)現(xiàn)效益最大化,對(duì)電信運(yùn)營(yíng)商進(jìn)行客戶維護(hù)和防止客戶流失具有重要的參考意義。
4結(jié)束語(yǔ)
Spark是一種新興的技術(shù),與Hadoop MapReduce相比,Spark的迭代計(jì)算速度更快,應(yīng)用前景更加廣泛。通過(guò)總結(jié)歸納國(guó)內(nèi)外相關(guān)研究文獻(xiàn)發(fā)現(xiàn),目前Spark在大數(shù)據(jù)處理方面的理論及實(shí)踐都有一定的研究成果,但在系統(tǒng)架構(gòu)、算法設(shè)計(jì)等方面仍然存在著很多不足。Spark已成為一種具有高級(jí)內(nèi)存編程模型與可擴(kuò)展上層庫(kù)的大數(shù)據(jù)分析框架,具有先進(jìn)的內(nèi)存編程模型,并應(yīng)用于可擴(kuò)展機(jī)器學(xué)習(xí)、圖形分析、流媒體以及結(jié)構(gòu)化數(shù)據(jù)處理等領(lǐng)域,但是由于其自身的諸多缺陷,對(duì)于大數(shù)據(jù)量、穩(wěn)定性方面還需進(jìn)一步的改進(jìn)完善。