姜鯊
摘要:本文主要就大數(shù)據(jù)平臺(tái)用戶行為分析系統(tǒng)的設(shè)計(jì)進(jìn)行多方面的探究,希望能借此有助于為實(shí)際系統(tǒng)設(shè)計(jì)起到一定啟示作用。
關(guān)鍵詞:大數(shù)據(jù)平臺(tái);用戶行為;系統(tǒng)設(shè)計(jì)
0.引言
社會(huì)信息的日新月異,人們已經(jīng)生活在信息的環(huán)境中,用戶查找信息也更多是依賴搜索引擎,系統(tǒng)能自動(dòng)保存用戶使用過程,查詢?nèi)罩疽矔?huì)以此方式進(jìn)行保存。大數(shù)據(jù)技術(shù)的應(yīng)用下,為分析用戶行為提供了良好技術(shù)支持,通過從理論上深化系統(tǒng)設(shè)計(jì)的研究,就能從一定程度上豐富其理論。
1.大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)設(shè)計(jì)需求和總體設(shè)計(jì)
1.1大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)設(shè)計(jì)需求
大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)的設(shè)計(jì),需要結(jié)合實(shí)際功能應(yīng)用需求,對(duì)于調(diào)研展開系統(tǒng)的需求分析是首要環(huán)節(jié),結(jié)合系統(tǒng)需求開發(fā)者就能對(duì)系統(tǒng)功能模塊以及安全要求等全面的掌握,這樣才能有助于制定用戶行為分析系統(tǒng)具體工作的執(zhí)行,這也是提高決策精確性的關(guān)鍵點(diǎn),能保障設(shè)計(jì)和實(shí)踐的高契合度。從行為分析系統(tǒng)的業(yè)務(wù)需求層面來看,在人們對(duì)日志信息關(guān)注度不斷提高的同時(shí),市面的大量技術(shù)和工具能完成日志分析,及對(duì)日志中的有效數(shù)據(jù)信息能進(jìn)行挖掘,功能也比較強(qiáng)大[1]。而結(jié)合用戶行為分析系統(tǒng)設(shè)計(jì)要求來看,就難以滿足用戶對(duì)其產(chǎn)生的功能性需求,大數(shù)據(jù)技術(shù)的應(yīng)用下,通過分布式數(shù)據(jù)庫,基于列來進(jìn)行數(shù)據(jù)信息的存儲(chǔ),提供的借口和功能較為簡單,使用中比較方便。日志分析的時(shí)候就有著比較突出的實(shí)踐應(yīng)用效果[2]。另外,從系統(tǒng)非功能性需求層面來看,和大數(shù)據(jù)運(yùn)行平臺(tái)相結(jié)合,用戶行為分析系統(tǒng)實(shí)踐特性和業(yè)務(wù)處理周期分布,系統(tǒng)在性能上需要滿足最佳響應(yīng)速度以及擴(kuò)展性滿足需求,也就是在業(yè)務(wù)自調(diào)整能力以及安全需求等方面都滿足實(shí)際工作的需要。
1.2大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)總體設(shè)計(jì)
大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)總設(shè)計(jì)當(dāng)中,HDFS存儲(chǔ)層比較重要,對(duì)于這一系統(tǒng)的設(shè)計(jì),這一層是對(duì)數(shù)據(jù)優(yōu)化存儲(chǔ)的,通過單一主節(jié)點(diǎn)和五個(gè)附屬數(shù)據(jù)節(jié)點(diǎn)方式完成存儲(chǔ),并且是通過MapReduce實(shí)現(xiàn)數(shù)據(jù)寫入和讀取操作。而在Hadoop集群層也是比較重要的層,也是設(shè)計(jì)主旨,這是在云計(jì)算分析技術(shù)的基礎(chǔ)上來對(duì)用戶軟硬件和網(wǎng)絡(luò)環(huán)境進(jìn)行搭建,通過幾臺(tái)人終端PC設(shè)備建立獨(dú)立分布式協(xié)作集群,其中把節(jié)點(diǎn)設(shè)置成在其中一臺(tái)PC終端[3]。而在用戶接口層方面,這是連接用戶和用戶行為分析系統(tǒng)間的重要載體,主要是進(jìn)行信息交換共享。設(shè)計(jì)當(dāng)中通過可視界面把運(yùn)行結(jié)果反饋用戶自身,結(jié)合運(yùn)行流程反饋需要的結(jié)果,最后實(shí)現(xiàn)功能上契合。而在計(jì)算層上,這是大規(guī)模數(shù)據(jù)樣本數(shù)據(jù)分析的主流發(fā)展形勢(shì),通過規(guī)約/映射方式對(duì)記性數(shù)據(jù)的計(jì)算處理,不僅要采用并行處理模式,以及負(fù)載均衡設(shè)計(jì),采用MapReduce展開模型設(shè)計(jì)的效率更為突出,也能提高計(jì)算速度和精度。最后就是在邏輯業(yè)務(wù)層的設(shè)計(jì)上,設(shè)計(jì)上通過Hadoop集群模式處理,通過HDFS來實(shí)現(xiàn)對(duì)于日志信息的截取,通過MapReduce的計(jì)算組件來反應(yīng)出當(dāng)前用戶的操作行為,主要包含日志的存儲(chǔ)、信息采集及分析處理等[4]。
2.大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)詳細(xì)設(shè)計(jì)及實(shí)現(xiàn)
2.1大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)詳細(xì)設(shè)計(jì)
大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)設(shè)計(jì)的內(nèi)容比較多樣,如在對(duì)日志采集模塊的設(shè)計(jì)中,這一模塊是用戶行為分析系統(tǒng)的初始工序,要從不同的角度進(jìn)行分析。明確需求后進(jìn)行信息提煉轉(zhuǎn)換短語和詞語組合模式,把其提交到對(duì)應(yīng)搜索引擎體系當(dāng)中,然后采用大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)驗(yàn)證和處理,類型的劃分環(huán)節(jié),互聯(lián)網(wǎng)的信息是比較繁雜的,用戶如果是在大數(shù)據(jù)運(yùn)行下及時(shí)的定位到目標(biāo)信息,搜索引擎就是比較關(guān)鍵的,這是搞笑檢索信息的服務(wù)模式,提供日志類型包含兩種,用戶搜索日志和系統(tǒng)運(yùn)行日志。進(jìn)行采集的時(shí)候,有幾個(gè)核心的組件,也就是collector、agent及store,前者是接收分析匯總處理,完成之后導(dǎo)入到后臺(tái)服務(wù)器。日志系統(tǒng)的設(shè)計(jì)主要是保障日志存儲(chǔ)可靠性和實(shí)踐運(yùn)行的良好適應(yīng),
2.2大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)實(shí)現(xiàn)
受到篇幅的限制不能全面的實(shí)現(xiàn)系統(tǒng)的應(yīng)用,此次主要就日志導(dǎo)入模塊實(shí)現(xiàn)簡要闡述,日志是通過實(shí)時(shí)記錄方式,對(duì)每個(gè)操作都實(shí)施了自動(dòng)記錄,系統(tǒng)運(yùn)行中日志文件也是比較大的。用戶行為分析模塊的實(shí)現(xiàn)過程中,這是設(shè)計(jì)系統(tǒng)運(yùn)行關(guān)鍵環(huán)節(jié),用戶獲得基本數(shù)據(jù)訪問信息后,通過統(tǒng)計(jì)學(xué)分析原理實(shí)現(xiàn)用戶行為規(guī)律探尋和特征的闡述。如選擇搜狗公司對(duì)外公布日志數(shù)據(jù)源,有超過四千萬條信息,信息的容量達(dá)到4.4G作為素材進(jìn)行開展有效數(shù)據(jù)分析,分析獲得用戶名稱以及主機(jī)排行和時(shí)間段的統(tǒng)計(jì)記錄[5]?;陉P(guān)鍵詞的排行統(tǒng)計(jì)分析方面,搜索進(jìn)程設(shè)置采用關(guān)鍵詞以及相對(duì)應(yīng)主題實(shí)現(xiàn)引擎和用戶的進(jìn)行,用戶對(duì)主題肝硬度和興趣比較濃厚,能發(fā)現(xiàn)有諸多重復(fù)查詢需求。采用排名方式開展處理,選擇數(shù)量一百個(gè),在用戶排名比較靠前的時(shí)候,顏色呈現(xiàn)為鮮艷,顯示區(qū)域聚焦中間位置,反之顏色是淡化的,位置趨向四角。
3.結(jié)語
當(dāng)前我國的互聯(lián)網(wǎng)技術(shù)的應(yīng)用愈來愈廣泛,在各領(lǐng)域生產(chǎn)當(dāng)中發(fā)揮著重要作用,互聯(lián)網(wǎng)技術(shù)應(yīng)用下人們獲得信息比較方便,并能進(jìn)行信息買賣以及工作交流。針隊(duì)不同用戶實(shí)施個(gè)性化的信息推送,結(jié)合用戶興趣進(jìn)行制定活動(dòng)方案,成為各大企業(yè)推銷產(chǎn)品的重要方式。未來的大數(shù)據(jù)平臺(tái)的用戶行為分析系統(tǒng)的應(yīng)用將會(huì)成為主流。
參考文獻(xiàn):
[1]陳全,鄧倩妮.云計(jì)算及其關(guān)鍵技術(shù)[J].計(jì)算機(jī)應(yīng)用,2017,29(9):2562-2567.
[2]董志安,呂學(xué)強(qiáng).基于百度搜索日志的用戶行為分析[J].計(jì)算機(jī)應(yīng)用與軟件,2015,30(7):17-20.
[3]楊文峰,李星.網(wǎng)絡(luò)搜索引擎的用戶查詢分析[J].計(jì)算機(jī)工程,2016,27(6):20-21.
[4]王繼民,彭波.搜索引擎用戶點(diǎn)擊行為分析[J].情報(bào)學(xué)報(bào),2016, 25(2):154-162.
[5]余慧佳,劉奕群,張敏等.基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究[J].中文信息學(xué)報(bào).2017,21(1):109-114.