張 梅
(陽(yáng)泉高等師范專科學(xué)校 信息技術(shù)系,山西 陽(yáng)泉 045000)
?
云計(jì)算技術(shù)下的大數(shù)據(jù)用戶行為引擎設(shè)計(jì)研究
張梅
(陽(yáng)泉高等師范專科學(xué)校 信息技術(shù)系,山西 陽(yáng)泉 045000)
對(duì)云計(jì)算技術(shù)下的大數(shù)據(jù)用戶行為引擎設(shè)計(jì)進(jìn)行深入分析,涵蓋了大數(shù)據(jù)系統(tǒng)管理、多用戶流量設(shè)計(jì)等多個(gè)方面,并探究其系統(tǒng)測(cè)試的效果.
云計(jì)算;大數(shù)據(jù);用戶行為;引擎設(shè)計(jì);計(jì)算機(jī)信息技術(shù)
近年來,我國(guó)的移動(dòng)互聯(lián)網(wǎng)技術(shù)得到了充分的發(fā)展,這使我國(guó)的互聯(lián)網(wǎng)運(yùn)營(yíng)商面臨著一個(gè)新的發(fā)展機(jī)遇,開始走向話務(wù)量經(jīng)營(yíng)向流量經(jīng)營(yíng)的道路,并對(duì)用戶的行為規(guī)律進(jìn)行深入分析,發(fā)掘市場(chǎng)與廣大用戶的真實(shí)需求.為了能夠充分滿足用戶日新月異的需求變化,運(yùn)營(yíng)商必須不斷開發(fā)、推出新產(chǎn)品,加強(qiáng)計(jì)算機(jī)技術(shù)的功能發(fā)揮.而云計(jì)算技術(shù)正是這樣一種能夠滿足海量數(shù)據(jù)分析與處理的強(qiáng)大引擎系統(tǒng).
用戶行為分析則是指通過某種途徑對(duì)用戶訪問量情況進(jìn)行挖掘,然后再對(duì)這些訪問的數(shù)據(jù)進(jìn)行有效的統(tǒng)計(jì)分析,以便獲取用戶訪問的基本規(guī)律,然后對(duì)企業(yè)的網(wǎng)絡(luò)營(yíng)銷策略進(jìn)行相應(yīng)的調(diào)整,以便與用戶的網(wǎng)站訪問規(guī)律相一致,使網(wǎng)絡(luò)營(yíng)銷策略更加科學(xué)、有效.一般情況下,運(yùn)營(yíng)商只需通過對(duì)用戶的行為監(jiān)測(cè),便可獲得有效的動(dòng)態(tài)數(shù)據(jù),并對(duì)這些數(shù)據(jù)加以分析,掌握用戶的心理與思考方式,判斷客戶的真正需求,然后將這些分析成果呈現(xiàn)給企業(yè),為企業(yè)營(yíng)銷策略的制定與調(diào)整提供一個(gè)參考與借鑒,及時(shí)發(fā)現(xiàn)企業(yè)營(yíng)銷中存在的問題,進(jìn)行適時(shí)的改進(jìn).尤其是在電商領(lǐng)域中,用戶行為信息量之大令人難以想象,據(jù)有關(guān)資料顯示,一個(gè)用戶在選擇一個(gè)產(chǎn)品之前,平均要瀏覽5個(gè)網(wǎng)站、36個(gè)頁(yè)面,在社會(huì)化媒體和搜索引擎上的交互行為也多達(dá)數(shù)十次.如果把所有可以采集的數(shù)據(jù)整合并進(jìn)行衍生,一個(gè)用戶的購(gòu)買可能會(huì)受數(shù)千個(gè)行為維度的影響.對(duì)于一個(gè)一天PU近百萬的中型電商來說,這代表著一天近1TB的活躍數(shù)據(jù).而放到整個(gè)中國(guó)電商的角度來看,更意味著每天高達(dá)數(shù)千TB的活躍數(shù)據(jù).因此,可以說這種用戶行為分析,實(shí)際上為企業(yè)的經(jīng)營(yíng)與發(fā)展指明了一個(gè)方向,能夠在一定程度上提升企業(yè)的營(yíng)銷效率,增強(qiáng)企業(yè)競(jìng)爭(zhēng)力[1].
2.1云計(jì)算系統(tǒng)的總體構(gòu)架
在本次研究中,主要是利用云計(jì)算技術(shù)的海量數(shù)據(jù)計(jì)算能力,建立完善的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析系統(tǒng),實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)用戶行為引擎的分析,并根據(jù)用戶的上網(wǎng)習(xí)慣與行為偏好,為用戶提供具有針對(duì)性的個(gè)性化服務(wù),使數(shù)據(jù)的采集、分析與服務(wù)類型、營(yíng)銷策略能夠形成一個(gè)統(tǒng)一的有機(jī)整體,提升企業(yè)的營(yíng)銷效率.另外,云計(jì)算系統(tǒng)主要是借助FTP服務(wù)器來實(shí)現(xiàn)對(duì)數(shù)據(jù)的采集,然后在系統(tǒng)的接口處對(duì)數(shù)據(jù)進(jìn)行分布式計(jì)算以及批量處理,并將這些大數(shù)據(jù)一并存入Hbase數(shù)據(jù)庫(kù),該系統(tǒng)不僅能夠?qū)崿F(xiàn)海量數(shù)據(jù)存儲(chǔ),而且對(duì)于那些非結(jié)構(gòu)化的數(shù)據(jù)也能夠存儲(chǔ)[2].然后再經(jīng)過Hive整合層與匯總層EIL處理,利用MapReduce數(shù)據(jù)分析模型,將處理的結(jié)果傳入數(shù)據(jù)庫(kù),其系統(tǒng)總體構(gòu)架見圖1.
圖1 云計(jì)算系統(tǒng)的總體構(gòu)架
2.2系統(tǒng)拓?fù)渑c功能分布
圖2 主節(jié)點(diǎn)服務(wù)器功能構(gòu)架
系統(tǒng)的拓?fù)渲饕侵笇⒁慌_(tái)服務(wù)器作為Hapdoop平臺(tái)的主節(jié)點(diǎn)服務(wù)器,其他都作為Hapdoop平臺(tái)的從節(jié)點(diǎn)服務(wù)器.一般情況下,從節(jié)點(diǎn)服務(wù)器可以根據(jù)實(shí)際需要進(jìn)行動(dòng)態(tài)擴(kuò)展,而主節(jié)點(diǎn)服務(wù)器不僅要將任務(wù)與流量分配給從節(jié)點(diǎn)服務(wù)器,而且還要監(jiān)督從節(jié)點(diǎn)服務(wù)器的工作執(zhí)行情況,由多臺(tái)從節(jié)點(diǎn)服務(wù)器共同參與完成任務(wù),能夠提升數(shù)據(jù)處理效率,主節(jié)點(diǎn)服務(wù)器的軟件運(yùn)行情況如圖2所示.
2.2.1任務(wù)管理與調(diào)度
主要是用來控制任務(wù)調(diào)度,不僅能夠提供任務(wù)創(chuàng)建功能,而且還具備任務(wù)的調(diào)整與刪除功能,只要對(duì)業(yè)務(wù)的類型進(jìn)行選擇,設(shè)置科學(xué)的執(zhí)行周期,對(duì)處理的邏輯進(jìn)行相應(yīng)的定義,對(duì)數(shù)據(jù)的抽取、整理與運(yùn)行等各個(gè)項(xiàng)目進(jìn)行有效的控制[3],便能夠?qū)崿F(xiàn)數(shù)據(jù)的自動(dòng)化處理,另外還提供暫停、恢復(fù)等個(gè)性化的管理功能.
2.2.2大數(shù)據(jù)的入庫(kù)與預(yù)處理
這一系統(tǒng)主要是對(duì)DPI用戶的上網(wǎng)情況以及應(yīng)用平臺(tái)中有關(guān)用戶行為信息數(shù)據(jù)的處理,它能夠?qū)⑦@些數(shù)據(jù)傳入系統(tǒng)的用戶行為分析引擎,為數(shù)據(jù)的分析與模型挖掘提供一個(gè)數(shù)據(jù)參考與依據(jù).
2.2.3大數(shù)據(jù)用戶的行為分析
將所有匯聚到系統(tǒng)的移動(dòng)互聯(lián)網(wǎng)用戶行為數(shù)據(jù)進(jìn)行分析,主要借助了MapReduce用戶行為分析模型資源,能夠?qū)τ脩舻纳暇W(wǎng)習(xí)慣、偏好,甚至包括用戶的社會(huì)關(guān)系進(jìn)行有效的分析,并提供全面的業(yè)務(wù)服務(wù),給用戶推薦具體的內(nèi)容.一般來說,從節(jié)點(diǎn)服務(wù)器與主節(jié)點(diǎn)服務(wù)器在軟件的結(jié)構(gòu)上沒有太大的差異,唯一不同的是從節(jié)點(diǎn)服務(wù)器不具備部署任務(wù)以及管理調(diào)度的功能[4].以搜狗公司數(shù)據(jù)分析為例,根據(jù)第三方互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)機(jī)構(gòu)CNZZ公布的2015年9月的中國(guó)網(wǎng)民搜索引擎使用情況統(tǒng)計(jì)報(bào)告,搜狗搜索的市場(chǎng)份額已經(jīng)達(dá)到15.68%,成為中國(guó)第三大互聯(lián)網(wǎng)搜索公司,其用戶行為數(shù)據(jù)分析格式如表1所示.
表1 云計(jì)算技術(shù)下的數(shù)據(jù)格式
通常,對(duì)移動(dòng)互聯(lián)網(wǎng)用戶的行為分析引擎的數(shù)據(jù)主要是通過應(yīng)用平臺(tái)數(shù)據(jù)與DPI數(shù)據(jù)兩個(gè)渠道獲取的,這兩個(gè)數(shù)據(jù)源有著明顯的不同.首先,應(yīng)用平臺(tái)數(shù)據(jù)比較集中,在一個(gè)訪問行為表中就能夠完整的呈現(xiàn),每天表現(xiàn)為一個(gè)文件,且文件的大小以GB分級(jí);DPI數(shù)據(jù)則是眾多分散的小文件,這些文件一般都不超過10 MB,其最重要的一個(gè)特點(diǎn)就是文件的來源特別快,平均每2 min就能夠接收到多個(gè)新文件,1個(gè)省1天可收集到1 TB左右的數(shù)據(jù)量,效率極高.針對(duì)這兩種數(shù)據(jù)源的特點(diǎn),分別采取了不同的設(shè)計(jì)方案.在獲得用戶訪問基本數(shù)據(jù)信息的情況下,對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,能夠從中獲取用戶行為的基本特征與規(guī)律.采用Hadoop平臺(tái)的用戶行為分析系統(tǒng)對(duì)搜狗實(shí)驗(yàn)室提供的搜索引擎日志數(shù)據(jù)集進(jìn)行分析處理,源文件大小共4.4 GB,行數(shù)為43 545 444行.用戶查詢關(guān)鍵詞的排名、點(diǎn)擊URL排名以及用戶搜索記錄、時(shí)間段等用戶行為特征都能夠有效的呈現(xiàn)出來,詳見表2.
表2 各個(gè)用戶行為特征的運(yùn)行情況
3.1應(yīng)用平臺(tái)數(shù)據(jù)入庫(kù)
該平臺(tái)主要采用的是批量入庫(kù)的方式,每天進(jìn)行一次數(shù)據(jù)入庫(kù),文件的大小一般為GB級(jí).通常對(duì)于大型數(shù)據(jù)文件多采用Hadoop平臺(tái)進(jìn)行入庫(kù),然而經(jīng)過實(shí)踐證明,MapReduce分布式處理Hbase入庫(kù)效率普遍不高.因此,可對(duì)這一系統(tǒng)進(jìn)行優(yōu)化處理,在MapReduce分布處理的基礎(chǔ)上,進(jìn)而實(shí)行批量入庫(kù)處理.在Hadoop系統(tǒng)應(yīng)用過程中,多使用TextInputFormat,其在map中多顯示的是文件的單行記錄[5].因此,可采用NLineInputFormat類使其能夠在MapREduce中實(shí)現(xiàn)批量入庫(kù),在這種系統(tǒng)的支持下,每個(gè)分片都會(huì)留下N行記錄,然后通過適當(dāng)?shù)膮?shù)配置,實(shí)現(xiàn)每次可讀取N行記錄,進(jìn)而在map中行批量入庫(kù)的相關(guān)操作,能夠在一定程度上提升數(shù)據(jù)分析的效率.
3.2DPI數(shù)據(jù)入庫(kù)設(shè)計(jì)
DPI數(shù)據(jù)入庫(kù)主要針對(duì)的是大量的小型數(shù)據(jù)文件,這些文件盡管所含數(shù)據(jù)量不大,但是數(shù)據(jù)來源的頻率特別高,對(duì)這些文件的處理通常采用以下方式.首先,可采用SequenceFiles軟件將這些小文件進(jìn)行壓縮打包,在文件打包的初期就要采取措施降低小文件的數(shù)量.然而,對(duì)其讀取卻會(huì)受到一定的限制,無論是Hadoop shell軟件還是Map讀取軟件,都很難實(shí)現(xiàn)對(duì)數(shù)據(jù)的靈活讀取.而采用HAR軟件對(duì)小文件進(jìn)行歸檔,這盡管能夠在一定程度上減少小文件的數(shù)量,卻仍然達(dá)不到數(shù)據(jù)的靈活讀取,這很大程度上是由于HAP軟件的讀取性能較低.另外Hadoop append系統(tǒng)盡管能夠?qū)⑦@些小文件追加到同一個(gè)文件中,然而,這些小文件的大小千差萬別,且數(shù)據(jù)來源頻率廣,有峰值與低谷之分,因此對(duì)這些數(shù)據(jù)的控制也較為繁瑣.除此之外還有Flume、FLumeNG以及Scribbe系統(tǒng),這些系統(tǒng)能夠?qū)χ虚g層的數(shù)據(jù)進(jìn)行處理,有效降低小文件的數(shù)量,然而這兩者傳輸與壓縮文件功能不強(qiáng),具有一定的缺陷.由此可見,以上這4種方式都不能實(shí)現(xiàn)數(shù)據(jù)文件的有效處理,因此,要對(duì)DPI數(shù)據(jù)的特征進(jìn)行科學(xué)分析,對(duì)CombineFile InputFornt進(jìn)行有效繼承,將數(shù)據(jù)的分片大小進(jìn)行設(shè)置,以便實(shí)現(xiàn)CreateRecordReader,這種方式也能夠促進(jìn)DPI大數(shù)據(jù)實(shí)現(xiàn)入庫(kù)[6].
圖3 大數(shù)據(jù)用戶行為分析模型組件
對(duì)大數(shù)據(jù)用戶行為的分析主要是通過Hadoop平臺(tái)來實(shí)現(xiàn)的,它具有多種功能結(jié)構(gòu)與部件,各個(gè)組件的關(guān)系見圖3.首先,模型參數(shù)調(diào)整主要是完成對(duì)模型算法的變量設(shè)定,根據(jù)實(shí)際情況實(shí)現(xiàn)參數(shù)調(diào)整、樣本空間規(guī)模設(shè)置等;模型評(píng)估系統(tǒng)主要是對(duì)所創(chuàng)建的模型進(jìn)行校驗(yàn),將通過模型所計(jì)算的結(jié)果與實(shí)際得出的數(shù)據(jù)進(jìn)行比較,然后將校驗(yàn)的指標(biāo)進(jìn)行輸出,并作出與模型相關(guān)的評(píng)價(jià);多業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)模型則是通過用戶的互聯(lián)網(wǎng)行為以及游戲業(yè)務(wù)平臺(tái)的行為,對(duì)這兩者進(jìn)行有效分析,并對(duì)DPI用戶的互聯(lián)網(wǎng)行為偏好的關(guān)聯(lián)性進(jìn)行分析,從中發(fā)現(xiàn)用戶互聯(lián)網(wǎng)行為的規(guī)律,將這些規(guī)律錄入系統(tǒng),促進(jìn)企業(yè)的營(yíng)銷的實(shí)現(xiàn);個(gè)性化推薦則是利用計(jì)算機(jī)的過濾技術(shù)對(duì)有效的信息進(jìn)行提取,并對(duì)產(chǎn)品的內(nèi)容以及客戶的行為進(jìn)行綜合分析,為用戶提供個(gè)性化的推薦服務(wù);另外,還能夠通過DPI訪問偏好的測(cè)定,對(duì)用戶互聯(lián)網(wǎng)行為進(jìn)行分類,對(duì)用戶的訪問網(wǎng)頁(yè)類型進(jìn)行分析,從而獲取用戶的行為規(guī)律與偏好.社交關(guān)系挖掘這一模型不僅包含了用戶的社交圖譜,而且還擁有用戶的興趣圖譜,這主要是通過用戶的位置變化來確定的,通過對(duì)用戶的定位分析,可以了解用戶的社交場(chǎng)所與關(guān)系網(wǎng),而興趣圖譜則能夠在一定程度上使用戶之間建立起共同的興趣愛好聯(lián)系.這些模型的構(gòu)建都對(duì)MapReduce有著不同程度的應(yīng)用,且在使用過程中,主要是通過map以及reduce這兩種函數(shù)來實(shí)現(xiàn)的.首先由map完成對(duì)數(shù)據(jù)的輸入與計(jì)算,然后以
移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來,使企業(yè)的運(yùn)行商面臨著極大的挑戰(zhàn),本次研究對(duì)大數(shù)據(jù)背景下用戶行為分析引擎提出了設(shè)計(jì)方案,有利于實(shí)現(xiàn)供應(yīng)商新業(yè)務(wù)的開發(fā).它能夠?qū)τ脩粜纬筛咝У母?,且運(yùn)行成本低廉,在企業(yè)的營(yíng)銷中有著極大的應(yīng)用價(jià)值,值得推廣應(yīng)用.
[1]陶彩霞,謝曉軍,陳康,等.基于云計(jì)算的移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計(jì)[J].電信科學(xué),2013(3):27-31.
[2]劉路.基于云計(jì)算的移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計(jì)[J].電子制作,2014(4):174-175.
[3]謝曉頔.大數(shù)據(jù)環(huán)境下云計(jì)算分布式數(shù)據(jù)管理和分析技術(shù)工具的研究[J].科技風(fēng),2015(19):51-51.
[4]李曉飛.基于云計(jì)算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J].長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,15(1):46-50.
[5]王寧,楊揚(yáng),孟坤,等.云計(jì)算環(huán)境下基于用戶體驗(yàn)的成本最優(yōu)存儲(chǔ)策略研究[J].電子學(xué)報(bào),2014,42(1):20-27.
[6]李進(jìn)生,楊東陵.云計(jì)算環(huán)境下大型電氣數(shù)據(jù)庫(kù)存儲(chǔ)性能分析與優(yōu)化[J].電氣應(yīng)用,2015(6):76-79.
[7]尹天驕.云計(jì)算時(shí)代下的數(shù)據(jù)管理技術(shù)探討[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015(3):179-180.
[8]潘夢(mèng)云,李國(guó)玉,李燕.基于Hadoop云計(jì)算平臺(tái)的數(shù)據(jù)處理系統(tǒng)的研究與設(shè)計(jì)[J].通訊世界,2015(14):224-225.
[責(zé)任編輯王新奇]
Research on the Design of Engine for Behavior of Large Data Userunder the Cloud Computing Technology
ZHANG Mei
(Department of Information Technology, Yangquan Teachers College, Yangquan 045000, China)
In this paper, In-depth analysis on the design of engine for behavior of large data user under the cloud computing technology is conducted. It covers many aspects such as the management of large data system and the design of traffic flow for multiple users, and explores the test results of its system.
cloud computing; large data; user’s behavior; design of engine; computer information technology
1008-5564(2016)03-0048-05
2015-11-16
張梅(1982—),女,山西陽(yáng)泉人,陽(yáng)泉高等師范專科學(xué)校信息技術(shù)系助教,主要從事云計(jì)算研究.
TP274
A