一種用戶畫像系統(tǒng)的設(shè)計與實現(xiàn)

2018-04-18 11:33丁志剛鄭樹泉齊文秀

計算機應(yīng)用與軟件 2018年3期

王　洋　丁志剛　鄭樹泉　齊文秀

1(上海市計算技術(shù)研究所　上海 200040) 2(上海產(chǎn)業(yè)技術(shù)研究院　上海 201206) 3(上海計算機軟件技術(shù)開發(fā)中心　上海 201112) 4(上海嵌入式系統(tǒng)應(yīng)用工程技術(shù)研究中心　上海 201112)

0　引　言

截至2016年6月，中國網(wǎng)民規(guī)模達7.10億[1]。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展，越來越多的人加入到互聯(lián)網(wǎng)用戶的隊伍中來，這為互聯(lián)網(wǎng)企業(yè)帶來了諸多的機遇，同時，也帶來了諸多的挑戰(zhàn)。這將意味著誰更了解自己用戶的上網(wǎng)習(xí)慣、瀏覽偏好等，誰就能夠在激烈的競爭中脫穎而出。

現(xiàn)如今用戶行為日志隨著互聯(lián)網(wǎng)的快速發(fā)展呈現(xiàn)激增的趨勢，數(shù)據(jù)規(guī)模已經(jīng)開始由GB向TB乃至PB級別邁進。為了解決數(shù)據(jù)量過大帶來的種種問題，本文提出了一種基于Hadoop大數(shù)據(jù)平臺的離線數(shù)據(jù)處理分析系統(tǒng)。

用戶畫像就是根據(jù)用戶的人口屬性、偏好習(xí)慣和行為信息而抽象出來的標簽化畫像[2]。目前，國內(nèi)淘寶和京東都推出了自己的用戶畫像功能，通過對用戶的個體消費能力、消費內(nèi)容等長時間多頻次的建模，為每個客戶構(gòu)建一個精準的消費畫像[2]。國外對于用戶畫像研究，基于復(fù)雜網(wǎng)絡(luò)理論對用戶行為探索始于2005年，Barabási在Nature發(fā)表的一篇論文[3]，該文通過對用戶普通郵件和電子郵件的發(fā)送和回復(fù)時間間隔統(tǒng)計特性研究，發(fā)現(xiàn)相鄰兩個時間間隔的分布服從反比成幕率的長尾效應(yīng)。此外，Barabási在他最近一本名為《Bursts》的書中就大膽地提出，93%的人類活動是可預(yù)測的[4]。

本文是用戶畫像在大數(shù)據(jù)環(huán)境下的一種實踐。傳統(tǒng)的分析方式基于少量精確的結(jié)構(gòu)化數(shù)據(jù)，但是，面對數(shù)據(jù)量大的情況，會出現(xiàn)速度慢甚至程序崩潰的風險。由此，引入基于Hadoop分布式集群的大數(shù)據(jù)處理平臺，在數(shù)據(jù)量較大的情況下提供更可靠的分析與處理服務(wù)。

1　需求分析與相關(guān)技術(shù)

1.1　需求分析

用戶畫像系統(tǒng)的建立需要依賴于具體的應(yīng)用場景以及所擁有的數(shù)據(jù)。本系統(tǒng)采用了某公司推出的一款互聯(lián)網(wǎng)WiFi產(chǎn)品中采集的用戶行為日志以及其他相關(guān)的用戶信息作為源數(shù)據(jù)。

該日志中包含了用戶瀏覽部分核心頁面的歷史記錄，包括：用戶MAC地址、訪問時間、接入設(shè)備MAC地址、訪問頁面類型、頁面URL、客戶端類型等。由于用戶行為日志中提取出的電影和電視數(shù)據(jù)不足以支撐后續(xù)的分析與處理任務(wù)，需要通過添加輔助數(shù)據(jù)采集模塊，采集相關(guān)的電影和電視節(jié)目表單數(shù)據(jù)作為用戶行為日志的補充。

依據(jù)用戶行為日志中現(xiàn)有的數(shù)據(jù)信息，補充日志中殘缺的部分，所構(gòu)成的完整數(shù)據(jù)集合提交給大數(shù)據(jù)處理分析平臺進行處理分析。然后通過可視化模塊進行展示達到用戶畫像助力企業(yè)為用戶進行推薦的目的。

1.2　相關(guān)技術(shù)

網(wǎng)絡(luò)爬蟲是一種自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成[5]。數(shù)據(jù)爬取模塊通過網(wǎng)絡(luò)爬蟲獲取網(wǎng)絡(luò)電視和電影數(shù)據(jù)，為源數(shù)據(jù)作補充。

大數(shù)據(jù)處理平臺主要使用了Hadoop以及Hive等框架。Hadoop是Apache軟件基金會下的一個開源分布式計算平臺。HDFS作為Hadoop生態(tài)系統(tǒng)中主要存儲系統(tǒng)，在實時性要求不高的情況下，已經(jīng)成為很多公司首選的存儲方案[6]。

Hive是構(gòu)建在Hadoop上的數(shù)據(jù)倉庫框架。將結(jié)構(gòu)化的文件映射為一張數(shù)據(jù)庫表，并提供查詢功能，可以SQL語句轉(zhuǎn)化為MapReduce任務(wù)運行。

Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個關(guān)系型的數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移到Hadoop的HDFS中，也可以將HDFS中的數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)庫中。

可視化模塊主要用了Spring、SpringMVC、Mybatis作為Web端開發(fā)框架。

Spring是一款開源框架，為了解決企業(yè)應(yīng)用開發(fā)的復(fù)雜而創(chuàng)建[7]。Spring框架的IOC容器設(shè)計降低了業(yè)務(wù)對象替換的復(fù)雜性，對組件之間解耦起到了重要作用。SpringMVC框架提供了構(gòu)建Web應(yīng)用程序的全功能MVC模塊，分離了控制器、模型對象、分派器以及處理程序?qū)ο蟮慕巧?。MyBatis是支持定制化SQL、存儲過程和高級映射的優(yōu)秀的持久層框架。

2　用戶畫像系統(tǒng)總體設(shè)計

用戶畫像系統(tǒng)的整體架構(gòu)分為四層：數(shù)據(jù)源層、數(shù)據(jù)采集層、基于Hadoop的大數(shù)據(jù)分析平臺層、數(shù)據(jù)可視化層。基本流程為：數(shù)據(jù)采集層采集系統(tǒng)所需數(shù)據(jù)并將數(shù)據(jù)存入數(shù)據(jù)源層；大數(shù)據(jù)平臺層由數(shù)據(jù)源層導(dǎo)入數(shù)據(jù)并且對數(shù)據(jù)進行分析與處理，將處理完成的結(jié)果導(dǎo)出到數(shù)據(jù)源層；數(shù)據(jù)可視化層從數(shù)據(jù)源層讀取數(shù)據(jù)并將數(shù)據(jù)呈現(xiàn)在Web端頁面供管理者參考。用戶畫像系統(tǒng)架構(gòu)如圖1所示。

圖1　用戶畫像系統(tǒng)架構(gòu)圖

2.1　功能模塊劃分

用戶畫像系統(tǒng)分為三大模塊：數(shù)據(jù)采集模塊、基于Hadoop集群的大數(shù)據(jù)分析平臺、數(shù)據(jù)可視化模塊。宏觀上講，數(shù)據(jù)采集模塊主要用于補充用戶行為日志中缺乏的電影數(shù)據(jù)、電視節(jié)目的相關(guān)數(shù)據(jù)以及源數(shù)據(jù)對接，使得數(shù)據(jù)集更加完備，為之后的分析與處理獲得全面且合理的數(shù)據(jù)集作準備?；贖adoop集群的大數(shù)據(jù)分析平臺對用戶行為日志經(jīng)過清洗、規(guī)范化、分析與處理等步驟為用戶標識相應(yīng)權(quán)重的標簽，實現(xiàn)為用戶“畫像”的目的。數(shù)據(jù)可視化模塊將大數(shù)據(jù)平臺中分析完成的結(jié)果進行展示，直觀地看到用戶的人畫像，為決策起到輔助作用。

2.2　數(shù)據(jù)采集模塊

數(shù)據(jù)采集模塊包括三個部分：電影數(shù)據(jù)爬取模塊、電視數(shù)據(jù)爬取模塊和源數(shù)據(jù)對接模塊。其中，電視數(shù)據(jù)爬取模塊和源數(shù)據(jù)對接模塊主要采用調(diào)用第三方API接口獲取數(shù)據(jù)的方式，定時抓取數(shù)據(jù)。

電影數(shù)據(jù)爬蟲子模塊通過爬取豆瓣電影網(wǎng)站中的相關(guān)數(shù)據(jù)來獲取電影信息，主要包括電影名稱、電影評分、電影導(dǎo)演、電影演員等。電影數(shù)據(jù)爬蟲子模塊爬取流程如圖2所示。

圖2　電影數(shù)據(jù)爬蟲子模塊爬取流程圖

電影數(shù)據(jù)爬蟲子模塊流程如下：

1) 將初始待爬取URL存入數(shù)據(jù)庫。并初始化其狀態(tài)為未爬取狀態(tài)。

2) 從數(shù)據(jù)庫中獲取未爬取狀態(tài)的且id最小的URL，使用基于HttpClient實現(xiàn)的Http訪問工具包對該URL進行訪問，獲取到該URL的HTML頁面數(shù)據(jù)。

3) 對獲取到的HTML頁面利用HTML解析器Jsoup進行處理，分析并獲取頁面中的電影名稱、演員表、導(dǎo)演表以及電影評分等，將解析成功的數(shù)據(jù)存入數(shù)據(jù)庫中。

4) 獲取該頁面中固定模塊中存在的URL并判斷其是否電影相關(guān)的URL，將符合要求的存入數(shù)據(jù)庫中等待爬取。

2.3　數(shù)據(jù)可視化模塊

數(shù)據(jù)可視化模塊中，采用基于MVC模式的三層架構(gòu)。使用Spring、MyBatis和SpringMVC框架作為支撐，Echarts商業(yè)級圖標框架進行展示。

整個模塊在展示用戶個人畫像的基礎(chǔ)上，以接入的設(shè)備作為區(qū)域，展示區(qū)域內(nèi)用戶整體的統(tǒng)計分析量。數(shù)據(jù)可視化部分效果如圖3所示。

(a) 用戶標簽圖

(b) 區(qū)域用戶分布圖

(d) 區(qū)域用戶訪問時段圖圖3　數(shù)據(jù)可視化模塊效果圖

3　Hadoop大數(shù)據(jù)分析平臺

大數(shù)據(jù)指的是無法在規(guī)定的時間內(nèi)用現(xiàn)有的常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。

3.1　集群拓撲結(jié)構(gòu)

集群拓撲結(jié)構(gòu)如圖4所示。

圖4　Hadoop集群拓撲結(jié)構(gòu)

Hadoop節(jié)點結(jié)合ZooKeeper服務(wù)組成高可用Hadoop集群。取名為Hadoop的節(jié)點擔任集群中NameNode角色。Hadoopwy1作為NameNode節(jié)點的候選節(jié)點處于StandBy狀態(tài)且擔任集群中負責任務(wù)分配和資源管理的ResourceManager角色。Hadoopwy2主要作用在于存儲HDFS數(shù)據(jù)、處理MapReduce任務(wù)等。

3.2　大數(shù)據(jù)分析平臺架構(gòu)

大數(shù)據(jù)分析平臺首先由Hive提取部分用戶日志進行清洗與數(shù)據(jù)的整合交換，生成用于用戶行為分析的建模數(shù)據(jù)，利用算法庫算法對建模數(shù)據(jù)進行分析，生成用于用戶行為分析的模型。然后，對所有用戶行為日志進行數(shù)據(jù)清洗與數(shù)據(jù)的整合變換，得到預(yù)處理后的業(yè)務(wù)數(shù)據(jù)集，將得到的模型應(yīng)用于該數(shù)據(jù)集得到最終的應(yīng)用結(jié)果。最后，通過應(yīng)用結(jié)果進行評測的方式評價模型優(yōu)劣并對模型進行優(yōu)化。

基于Hadoop集群的大數(shù)據(jù)分析平臺架構(gòu)如圖5所示。

圖5　基于Hadoop集群的大數(shù)據(jù)分析平臺架構(gòu)圖

3.3　用戶畫像標簽體系

根據(jù)用戶的相關(guān)數(shù)據(jù)將標簽體系進行了劃分，總體劃分為兩大類，基礎(chǔ)信息標簽、動態(tài)信息標簽?；A(chǔ)信息標簽是根據(jù)用戶的注冊信息中填寫的個人信息得到；而動態(tài)信息標簽結(jié)合聚類等數(shù)據(jù)挖掘算法對用戶行為進行分析挖掘，達到利用用戶行為數(shù)據(jù)進行用戶分類的目的。

平臺部分標簽體系如圖6所示。其中，基礎(chǔ)信息標簽主要是從用戶地址、用戶的手機使用情況兩方面進行分析。動態(tài)信息標簽以用戶價值標簽和用戶電影傾向標簽為例進行分析與說明。

圖6　用戶畫像標簽體系圖

3.4　用戶行為分析模型

基礎(chǔ)信息標簽主要采用統(tǒng)計的方式，按照一定的規(guī)則為用戶標記對應(yīng)的標簽。

動態(tài)信息標簽中，部分標簽采用統(tǒng)計方法，另一部分標簽采用數(shù)據(jù)挖掘算法對數(shù)據(jù)進行分析的方法，經(jīng)過抽取數(shù)據(jù)分析所需要的數(shù)據(jù)，通過聚類等算法分析后區(qū)分各用戶。

3.4.1基礎(chǔ)信息標簽?zāi)Ｐ?/p>

地址標簽是按照用戶注冊時填寫的用戶地址直接為用戶標記該標簽。手機標簽?zāi)Ｐ褪歉鶕?jù)用戶使用手機類型與數(shù)量進行標記。如表1所示。

表1　用戶手機標簽?zāi)Ｐ?/p>

3.4.2動態(tài)標簽?zāi)Ｐ图癒-means改進算法

1) 用戶價值模型該模型將用戶使用次數(shù)(UT)、初次使用到最近一次使用天數(shù)(DC)、最近一次使用距今天數(shù)(DF)、用戶在線總時長(OT)四個值作為用戶價值模型的參考指標，使用K-means聚類算法對數(shù)據(jù)進行聚類，通過對用戶的行為數(shù)據(jù)聚類實現(xiàn)用戶分類的目的。

K-means算法是基于距離的聚類算法，在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K，采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。K-means算法[8]對于給定樣本集D={x1,x2,…,xm}聚類所得簇劃分C={C1,C2,…,Ck}最小化其平方誤差：

(1)

但是K-means存在著依賴初始化中心的缺陷，針對該問題對K-means進行改進。本文采用各個節(jié)點之間投票的方式選出第一個中心點，得到票數(shù)最多者勝出。這里假設(shè)每個節(jié)點為其余每個節(jié)點都準備一票，但是實際的投票值為除以兩點之間的距離而得到的值。越是聚集的簇中心其所得票數(shù)相對較多，由此選出一個節(jié)點，然后求與已經(jīng)得到的節(jié)點相距最遠的節(jié)點，依次求出需要的節(jié)點。投票的值可以表示為：

(2)

式中：d是歐式空間中連個點之間的距離且x≠y。

初次聚類得到類簇以后，對每個類簇再分別隨機選取其中的一個節(jié)點作為新的中心點。然后再一次進行聚類，循環(huán)多次選取方差較小者為最終聚類中心，從而降低K-means聚類時因為初始節(jié)點的選取而造成的影響。

實驗表明，改進以后的K-means算法更加穩(wěn)定，準確率更高。

通過hive進行統(tǒng)計與合并構(gòu)成上述用戶價值模型的數(shù)據(jù)集，運用PCA將數(shù)據(jù)降為2維數(shù)據(jù)如圖7所示。

圖7　用戶價值模型數(shù)據(jù)分布圖

本文采用了SSE(誤差平方和)的方式對聚類效果進行度量。隨著聚類簇數(shù)K值的增大，總SSE值將逐漸減小。當K的值小于其實際簇數(shù)的時候，隨著K值的增大，總SSE迅速下降。當K值大于實際的簇數(shù)時，隨著K的增大，總SSE的值將呈現(xiàn)緩慢下降的趨勢[9]。本文從多次聚類結(jié)果中選擇總SSE遞減趨勢明顯變緩的K值作為聚類簇數(shù)。多次聚類后SSE值遞減趨勢如圖8所示。

圖8　誤差平方和SSE遞減趨勢圖

從圖8中可以看出，當K=4的時候誤差平方和的值已經(jīng)遞減十分緩慢，使用手肘法并結(jié)合業(yè)務(wù)需求以及圖7中展示的PCA降維圖確定K值為4，即本文中將用戶行為數(shù)據(jù)劃分為4個簇。

聚類分群后的結(jié)果如表2所示。根據(jù)表中分類結(jié)果可以看出，類1用戶使用次數(shù)最少，初次使用到最近一次使用天數(shù)最少，最近一次使用至今天數(shù)最大，在線時長最少，基于這些特征將類1標記為一般與低價值用戶。類2用戶使用次數(shù)較多，初次使用至最近一次使用天數(shù)較長，最近一次使用至今天數(shù)較多，在線時長較多，基于這些特征將類2標記為重要發(fā)展客戶。類3用戶使用次數(shù)最多，初次使用至最近一次使用天數(shù)最大，最近一次使用至今天數(shù)最小，在線時長最長，基于這些特征可以將類3標記為重要保持客戶。類4用戶使用次數(shù)稍多，初次使用至最近一次使用天數(shù)稍多，最近一次使用至今天數(shù)稍長，在線時長稍長，基于這些特征可以將類4標記為重要挽留客戶。

表2　用戶行為聚類結(jié)果

2) 用戶驅(qū)動力標簽用戶驅(qū)動力標簽是面向影視數(shù)據(jù)而言的，主要用于說明用戶喜歡看電影對評分和星級的傾向。運用K-means算法對以電影評分、電影星級為數(shù)據(jù)集的電影數(shù)據(jù)進行聚類，方法與用戶價值模型中類似。誤差平方和的遞減趨勢如圖9所示。

圖9　電影數(shù)據(jù)SSE遞減趨勢圖

通過該圖選取聚類簇數(shù)為2，對電影數(shù)據(jù)進行聚類分析，聚類結(jié)果如表3所示。

表3　電影數(shù)據(jù)聚類結(jié)果表

根據(jù)表3中的聚類結(jié)果進行分析，類1中電影評分較高，星級數(shù)目較多，基于這些特征將類1的電影定位為高分熱評電影。類2中電影評分較低，星級數(shù)目較少，根據(jù)該特征將其定位為低分少評電影。

生成模型時通過計算用戶所觀看過的電影的評分與星級數(shù)目的平均值，與聚類質(zhì)心計算距離，選取距離較近的質(zhì)心所代表的類作為該用戶的實際分類，將電影分類各自代表的標簽賦予用戶，表征用戶的電影傾向標簽。

4　系統(tǒng)測試

采用UCI機器學(xué)習(xí)庫上面提供的開放數(shù)據(jù)集Wine、Iris以及本系統(tǒng)經(jīng)過人工標記后的部分數(shù)據(jù)作為測試數(shù)據(jù)，驗證文中提出的對K-means算法的改進。

Wine數(shù)據(jù)使用K-means算法采用隨機初始化中心時測試數(shù)據(jù)如表4所示。

表4　K-means算法對Wine測試數(shù)據(jù)表

采用本文中提出的改進方案，多次測試結(jié)果趨于穩(wěn)定，這不再一一列出。其初始化中心為：(3, 13.73, 4.36, 2.26, 22.5, 88, 1.28, 0.47, 0.52, 1.15, 6.62, 0.78, 1.75, 520)、(1, 14.19, 1.59, 2.48, 16.5, 108, 3.3, 3.93, 0.32, 1.86, 8.7, 1.23, 2.82, 1 680)、(2, 12, 0.92, 2, 19, 86, 2.42, 2.26, 0.3, 1.43, 2.5, 1.38, 3.12, 278)。其中，第一列分類號不包含在計算之內(nèi)。通過該聚類中心可以看出，本文提出改進起到了較好的初始中心的選擇效果。針對該方案同樣進行多次測試結(jié)果基本穩(wěn)定，準確率的平均值為70.78%。

Iris數(shù)據(jù)集使用K-means算法采用隨機初始化中心點的測試數(shù)據(jù)如表5所示。

表5　K-means算法對Iris測試數(shù)據(jù)表

運用本文提出的改進算法，多次測試結(jié)果趨于穩(wěn)定，在此不再一一列出。初始中心點為：(1, 5.1, 3.5, 1.4, 0.2)、(3.0, 7.7, 2.6, 6.9, 2.3)、(1.0, 4.3, 3, 1.1, 0.1)。其中，第一列分類號不包含在計算之內(nèi)。最終生成的聚類中心為：(5.01, 3.42, 1.46, 0.24)、(6.87, 3.09, 5.75, 2.09)、(5.9, 2.75, 4.41, 1.43)。對比本文改進算法確定的第一個初始中心點和最終生成的聚類中心點可以看出二者相差很小。多次測試后的準確率平均值為：88.67%。

針對系統(tǒng)用戶日志的標記數(shù)據(jù)進行聚類并統(tǒng)計其準確率同樣得到了較高的提升，其中運用K-means隨機確定初始中心的方式平均準確率為：64.50%，運用本文提出的改的K-means算法平均正確率為83.43%。可以看出準確率在采用改進后的算法后有了較大的提升。

此外，為了驗證本文中提出的基于Hadoop集群的大數(shù)據(jù)處理平臺集群環(huán)境相對于單機環(huán)境效率的提升。在同等大小的數(shù)據(jù)集用戶行為日志的基礎(chǔ)上針對不同MAC地址各自操作次數(shù)的統(tǒng)計功能編寫了在單機環(huán)境下和Hadoop集群環(huán)境下不同的實現(xiàn)方式，并測試了五組不同數(shù)據(jù)集的情況下的運行時間。

由實驗數(shù)據(jù)得知，單機處理情況下，分別處理250 MB、500 MB、1 GB、2 GB、4 GB數(shù)據(jù)的時間隨著數(shù)據(jù)量的突增呈指數(shù)級增長的趨勢，用時分別為：5.45 s、7.5 s、13.94 s、42.18 s、158.75 s。而使用Hadoop分布式集群環(huán)境處理任務(wù)的情況下，分別用時為17.01 s、20.99 s、21.30 s、22.42 s、30.04 s。單機與集群環(huán)境下運行時間對比如圖10所示。從圖10中可以看出單機情況下隨著數(shù)據(jù)量的劇增處理時間也隨之劇增，在1 GB范圍內(nèi)的數(shù)據(jù)量表現(xiàn)較好，但是當數(shù)據(jù)量繼續(xù)增長，執(zhí)行時間隨之集合呈現(xiàn)指數(shù)增長的趨勢。而集群環(huán)境下，從250 MB數(shù)據(jù)劇增到4 GB的數(shù)據(jù)量的過程中，運行時間變化不大，變化趨勢較為平穩(wěn)?？梢?，基于Hadoop的分布式集群環(huán)境在大數(shù)據(jù)處理方面的優(yōu)勢很顯著，而且隨著數(shù)據(jù)量的不斷增大其優(yōu)勢將越明顯。

圖10　單機與集群執(zhí)行時間對比圖

5　結(jié)　語

本文針對用戶喜好與互聯(lián)網(wǎng)企業(yè)產(chǎn)品之間的矛盾，設(shè)計并實現(xiàn)了基于Hadoop集群的用戶畫像系統(tǒng)。首先，通過接口調(diào)用、網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集方式，獲取到完善的數(shù)據(jù)集。然后，用戶的行為日志經(jīng)過統(tǒng)計分析和數(shù)據(jù)挖掘等方式的分析與處理，把用戶抽象成標簽的集合，從而達到為用戶“畫像”的目的。最后，可視化系統(tǒng)將用戶畫像系統(tǒng)的分析結(jié)果展示出來，為企業(yè)決策人員提供決策依據(jù)以及為后續(xù)向用戶進行精準推送鋪平道路。此外，本文對K-means算法依賴初始中心的缺陷進行了改進，改進后的算法更趨近于最終聚類中心，且準確率得到了極大的提升。

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R].2016:1-2.

[2] 曾鴻，吳蘇倪.基于微博的大數(shù)據(jù)用戶畫像與精準營銷[J].現(xiàn)代經(jīng)濟信息,2016(16):306-308.

[3] Barabási A. The origin of bursts and heavy tails in human dynamics[J]. Nature, 2005, 435(7039):207.

[4] Barabási Albert-Lászlò. Bursts:The Hidden Patterns Behind Everything We Do[M].Dutton Adult,2010.

[5] 周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計算機科學(xué),2009,36(8):26-29.

[6] 馬建紅，霍振奇.基于HDFS的創(chuàng)新知識云平臺存儲架構(gòu)的研究與設(shè)計[J].計算機應(yīng)用與軟件,2016,33(3):63-65.

[7] 李洋.SSM框架在Web應(yīng)用開發(fā)中的設(shè)計與實現(xiàn)[J].計算機技術(shù)與發(fā)展,2016,26(12):190-194.

[8] 潘巍，周曉英，吳立鋒，等.基于半監(jiān)督K-Means的屬性加權(quán)聚類算法[J].計算機應(yīng)用與軟件,2017,34(3):190-191.

[9] 成衛(wèi)青，盧艷紅.一種基于最大最小距離和SSE的自適應(yīng)聚類算法[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2015,35(2):103-107.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種用戶畫像系統(tǒng)的設(shè)計與實現(xiàn)

0 引 言

1 需求分析與相關(guān)技術(shù)

1.1 需求分析

1.2 相關(guān)技術(shù)

2 用戶畫像系統(tǒng)總體設(shè)計

2.1 功能模塊劃分

2.2 數(shù)據(jù)采集模塊

2.3 數(shù)據(jù)可視化模塊

3 Hadoop大數(shù)據(jù)分析平臺

3.1 集群拓撲結(jié)構(gòu)

3.2 大數(shù)據(jù)分析平臺架構(gòu)

3.3 用戶畫像標簽體系

3.4 用戶行為分析模型

4 系統(tǒng)測試

5 結(jié) 語