国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)設計

2018-08-21 02:57:42張婷婷
現(xiàn)代電子技術 2018年16期
關鍵詞:系統(tǒng)設計大數(shù)據(jù)

張婷婷

摘 要: 為了解決基于數(shù)據(jù)挖掘技術的Web個性化推薦系統(tǒng)對Web的推薦結(jié)果準確率低,反應時間長的問題,設計基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)。塑造系統(tǒng)組成框架圖,設計系統(tǒng)的總體功能包括源數(shù)據(jù)采集、數(shù)據(jù)預處理、用戶興趣分析與實現(xiàn)、個性化推薦以及推薦引擎。源數(shù)據(jù)采集利用Sqoop工具將數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移到HDFS中以便H?ICRS算法進行數(shù)據(jù)提取,并獲得推薦的歷史數(shù)據(jù),實現(xiàn)作為系統(tǒng)上層數(shù)據(jù)支持的功能。針對分析用戶長遠和當前的Web興趣度,分別采用語義分析模型和分片聚類的方法,分析用戶Web使用興趣。塑造單個推薦引擎的推薦引擎架構(gòu),得到最終的Web個性化推薦列表。實驗結(jié)果表明,所設計系統(tǒng)的Web個性化推薦結(jié)果準確率高,系統(tǒng)的抗壓能力強。

關鍵詞: 大數(shù)據(jù); Hadoop; Web個性化推薦; 系統(tǒng)設計; Sqoop; H?ICRS算法

中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2018)16?0155?04

Abstract: A Web personalized recommendation system based on big data is designed to solve the problems existing in the Web personalized recommendation system based on data mining technology for its low accuracy rate of Web recommendation results and long reaction time. The composition framework of the system is built. The system′s overall functions including source data acquisition, data preprocessing, user interest analysis and implementation, personalized recommendation, and recommendation engine are designed. During source data acquisition, the Sqoop tool is used to transfer data in the database to the HDFS, so as to extract data by using the H?ICRS algorithm, obtain the recommended historical data, and realize the upper layer data support function of the system. By analyzing users′ long?term and current Web interest degree, the semantic analysis model and fragmentation clustering method are adopted respectively to analyze users′ Web interest. The recommendation engine architecture is constructed for a single recommendation engine to obtain the final Web personalized recommendation list. The experimental results show that the designed system has high accuracy rate of Web personalized recommendation results and strong anti?pressure capability.

Keywords: big data; Hadoop; Web personalized recommendation; system design; Sqoop; H?ICRS algorithm

隨著經(jīng)濟技術的迅猛發(fā)展,產(chǎn)生了大量的數(shù)據(jù)信息。人們每天都會獲取大量的信息,但是信息質(zhì)量都各有不同。如何確保用戶在獲得自己感興趣的Web同時,將外界干擾的Web影響降至最低[1],是當前推薦系統(tǒng)亟需解決的問題。隨著數(shù)據(jù)的增長,傳統(tǒng)基于數(shù)據(jù)挖掘技術的Web推薦系統(tǒng)向用戶推薦的Web準確度較低,已經(jīng)無法滿足用戶的個性化需求。針對該問題,本文設計基于大數(shù)據(jù)的Web個性化推薦系統(tǒng),提高系統(tǒng)的個性化推薦效果。

1 基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)

本文基于大數(shù)據(jù)的Web個性化推薦系統(tǒng),結(jié)合搜索引擎下的推薦系統(tǒng),Hadoop大數(shù)據(jù)框架的Web個性化推薦系統(tǒng)。其中Web搜索引擎以系統(tǒng)服務者的身份參與到本文基于Hadoop框架大數(shù)據(jù)的Web個性化推薦系統(tǒng)中,負責系統(tǒng)進行信息檢索和部分數(shù)據(jù)的供應。Hadoop大數(shù)據(jù)框架負責向系統(tǒng)大數(shù)據(jù)的處理。系統(tǒng)組成框圖如圖1所示。

基于Hadoop框架的大數(shù)據(jù)的Web個性化推薦系統(tǒng)的組成框架圖可以看出,為保證系統(tǒng)的穩(wěn)定性和擴展能力,系統(tǒng)應用不同的開源項目[2],其中包括Solr的搜索引擎和Hadoop大數(shù)據(jù)處理框架平臺。Solr的主要功能是向系統(tǒng)使用者提供信息搜索支持,并將搜索結(jié)果經(jīng)由日志系統(tǒng)傳導回本文基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)。

1.1 系統(tǒng)總體功能設計

基于本文系統(tǒng)的組成框架圖,對系統(tǒng)的總體功能進行設計。系統(tǒng)總體功能設計通過分析使用者的Web行為數(shù)據(jù),以為使用者推送個性化Web結(jié)果為目的進行設計.本文系統(tǒng)的Web個性化推薦分別從源數(shù)據(jù)采集[3]、數(shù)據(jù)預處理、用戶興趣分析與實現(xiàn)、個性化推薦以及推薦引擎五個部分進行分析,不同部分實現(xiàn)不同的結(jié)構(gòu)功能,整體協(xié)同實現(xiàn)基于大數(shù)據(jù)的Web個性化推薦。

1.2 源數(shù)據(jù)采集

源數(shù)據(jù)采集主要向本文系統(tǒng)進行必要的上層數(shù)據(jù)支持,系統(tǒng)采集的實時數(shù)據(jù)經(jīng)由Web服務器保存在關系型數(shù)據(jù)庫中,H?ICSR算法運行于Hadoop 框架,該算法從HDFS讀取數(shù)據(jù)[4],需要將數(shù)據(jù)庫中的數(shù)據(jù)傳輸?shù)?HDFS。同時用戶會對系統(tǒng)推薦結(jié)果的反饋保存在數(shù)據(jù)庫中。H?ICSR算法利用的源數(shù)據(jù)涵蓋各種Web屬性信息、社會關系數(shù)據(jù)以及過去推薦結(jié)果等。通常上述數(shù)據(jù)被存儲于MySQL數(shù)據(jù)庫中,不同的源數(shù)據(jù)分別與不同的表相對應,上述源數(shù)據(jù)對應表為tb?userInfo表、tb?action表和tb?follow表。源數(shù)據(jù)的采集通常采用Sqoop工具將數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移到HDFS中,以便H?ICRS算法進行數(shù)據(jù)提取,同時獲取系統(tǒng)向用戶推薦的歷史情況。

1.3 數(shù)據(jù)預處理

本文基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)的數(shù)據(jù)預處理是基于Hadoop平臺實施的,其中實現(xiàn)源數(shù)據(jù)與數(shù)據(jù)預處理的為HDFS,倘若經(jīng)由HDFS中檢索出的源數(shù)據(jù)未經(jīng)過格式化[5],需要先將其進行格式化操作,格式化結(jié)果如[String1,String2,…]或[String1String2…]的形式。若獲取的數(shù)據(jù)已經(jīng)格式化,從中篩選有效信息進行計算或構(gòu)建模型,并保存在HDFS中。在數(shù)據(jù)預處理中H?ICSR算法運算Web個性化推薦度與項目聚類[6?7],由RecommendExtentJob和ClusteringJob兩者分別實現(xiàn)。

1.4 用戶興趣分析實現(xiàn)

基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)針對用戶對Web興趣的分析角度,從兩方面考慮:一方面對于用戶的一些長遠的Web興趣,本文采用語義分析的方法對用戶的Web使用興趣進行分析;另一方面對用戶的當前感興趣的Web,本文采用分片聚類的方法對該類用戶的Web使用興趣進行分析[8]。對用戶興趣分析的實現(xiàn)代碼如下:

Open CatalogLSA(String OwnerData,Route,StringWebDataRoute){

Obtain Owner Number=got Owner Number(OwnerDataRoute); //得到用戶數(shù)量

Obtain Web Number=got Web Number (Web Data Route);

//得到Web數(shù)量

Obtain Jargon Number=got Jargon Number(Owner Data Route,Web Data Route); //固定詞庫/*得到用戶文本向量*/

Obtain vector Number=Cut (D); //對待降維的維度進行計算

//采用Jargon進行相似度計算

Owner Similar

Simular=new

Owner Date Esrimate.Owner Jagon Similar (D,vector number)

//利用K?means聚類方法實施聚類

Reentry Consequence

對用戶的長遠興趣和即時興趣分析分別采用LSA()和shardCluster()函數(shù)。LSA()函數(shù)采用分析Web內(nèi)容與用戶之間關系,將兩者關系相接近的進行聚類。shardCluster()函數(shù)將用戶按時間或地點等可以反應用戶當前興趣的Web進行分片[9],并對相似的用戶行為進行分片聚類,以此系統(tǒng)可以針對用戶的興趣內(nèi)容向用戶推薦個性化的Web。

1.5 推薦引擎實現(xiàn)

本文系統(tǒng)的推薦引擎架構(gòu)主要由三部分組成,分別為推薦引擎的基本組成要素,如下:

1) 特征向量,其來源為經(jīng)數(shù)據(jù)預處理后得到的數(shù)據(jù)以及用戶的數(shù)據(jù)特征,或是直接存在的特征向量,特征向量主要是作為向用戶進行Web個性化推薦的依據(jù);

2) 主要是一些計算出的離線表[10],依靠特征向量和特征?源數(shù)據(jù)等得到初始的Web個性化推薦列表;

3) 對得到的初始個性化推薦列表進行處理,得到最終的基于大數(shù)據(jù)的Web個性化推薦列表。

2 實驗分析

實驗為驗證本文系統(tǒng)是否可以高效地向用戶進行Web個性化推薦,將本文基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)進行實際應用,與傳統(tǒng)基于數(shù)據(jù)挖掘技術的Web個性化推薦系統(tǒng)的推薦結(jié)果做為對比。為了確保本文系統(tǒng)Web個性化推薦結(jié)果具有較高的普遍性,實驗分別從某高校財務管理專業(yè)、電子商務專業(yè)和軟件技術專業(yè)各隨機選取4個學生進行Web的個性化推薦測試,其中各專業(yè)男、女學生人數(shù)均占[12]。實驗分別從系統(tǒng)推薦結(jié)果準確度、專業(yè)性、頁面布局效果以及滿意度四個方面進行評判,如表1所示。

分析表1數(shù)據(jù)可知,傳統(tǒng)基于數(shù)據(jù)挖掘技術的Web個性化推薦系統(tǒng)的Web推薦結(jié)果準確度不超過70%,說明該系統(tǒng)的個性化推薦效果較差,且推薦Web的專業(yè)性能不高,無法向?qū)W生用戶提供有用的頁面效果,評分也較低,整體的用戶滿意水平較低。綜合分析表1和表2中數(shù)據(jù)可得,采用本文基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)對不同用戶進行實際推薦過程中,在準確度、專業(yè)性、頁面布局效果和滿意度方面均優(yōu)于傳統(tǒng)基于數(shù)據(jù)挖掘技術的Web個性化推薦系統(tǒng)。在滿意度方面,所提方法的滿意度為84%,遠高于傳統(tǒng)方法的61.2%,說明本文方法實際應用性較強,用戶滿意度高。

實驗為分析本文基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)是否可以快速、穩(wěn)定地向用戶進行個性化的Web推薦。實驗以基于數(shù)據(jù)挖掘技術的Web個性化推薦系統(tǒng)和基于Spark的Web個性化推薦系統(tǒng)為對比,分析三個系統(tǒng)的系統(tǒng)響應時間和最大抗壓能力。圖2和圖3分別為三個系統(tǒng)在系統(tǒng)使用人數(shù)不同時的反應時間以及系統(tǒng)最大的抗壓結(jié)果。

分析圖2中數(shù)據(jù)可知,本文系統(tǒng)在不同的系統(tǒng)使用人數(shù)下,時間從0逐漸增加到0.4 s后系統(tǒng)的反應時間趨于穩(wěn)定,不再變化;基于數(shù)據(jù)挖掘的Web個性化推薦系統(tǒng)同樣從0時刻開始變化,但該系統(tǒng)隨著使用人數(shù)的增加系統(tǒng)反應耗時一直逐漸增大;分析基于Spark的Web個性化推薦系統(tǒng)從系統(tǒng)運行初始的耗時基數(shù)較大且隨著系統(tǒng)使用人數(shù)越來越多,系統(tǒng)反應時間逐漸加快。綜合三個系統(tǒng)的反應耗時可以得出,本文系統(tǒng)向用戶進行Web的個性化推薦時,推薦結(jié)果的效率較高。

實驗分別對三個Web個性化推薦系統(tǒng)的抗壓能力進行6次測試。分析圖3可得,傳統(tǒng)基于數(shù)據(jù)挖掘技術的Web個性化推薦系統(tǒng)其最大承受人數(shù)約為2 500人。說明系統(tǒng)僅能保證2 500正常同時使用,超出該人數(shù)系統(tǒng)可能發(fā)生崩潰,其抗壓能力較弱?;赟park的Web個性化推薦系統(tǒng)最大承受人數(shù)約為2 500且承載人數(shù)波動較大,說明該系統(tǒng)穩(wěn)定性和抗壓能力較差;而本文提出的基于大數(shù)據(jù)的Web個性化推薦系統(tǒng),最大承受人數(shù)約為10 000人,并且承載人數(shù)波動幅度較小,說明該系統(tǒng)的穩(wěn)定性和抗壓能力較強。

3 結(jié) 論

本文設計的基于大數(shù)據(jù)的Web個性化推薦系統(tǒng)能提高對Web個性化推薦結(jié)果的準確度。系統(tǒng)整體運行效率高,抗壓能力強。

參考文獻

[1] 尤海浪,錢鋒,黃祥為,等.基于大數(shù)據(jù)挖掘構(gòu)建游戲平臺個性化推薦系統(tǒng)的研究與實踐[J].電信科學,2014, 30(10):27?32.

YOU Hailang, QIAN Feng, HUANG Xiangwei, et al. Research and practice of building a personalized recommendation system for mobile game platform based on big data mining [J]. Telecommunications science, 2014, 30(10): 27?32.

[2] 孟祥武,紀威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學學報,2015,38(2):1?15.

MENG Xiangwu, JI Weiyu, ZHANG Yujie. A survey of recommendation systems in big data [J]. Journal of Beijing University of Posts and Telecommunications, 2015, 38(2): 1?15.

[3] 應毅,劉亞軍,陳誠.基于云計算技術的個性化推薦系統(tǒng)[J].計算機工程與應用,2015,51(13):111?117.

YING Yi, LIU Yajun, CHEN Cheng. Personalization recommender system based on cloud?computing technology [J]. Computer engineering and applications, 2015, 51(13): 111?117.

[4] 李文海,許舒人.基于Hadoop的電子商務推薦系統(tǒng)的設計與實現(xiàn)[J].計算機工程與設計,2014,35(1):130?136.

LI Wenhai, XU Shuren. Design and implementation of recommendation system for E?commerce on Hadoop [J]. Computer engineering and design, 2014, 35(1): 130?136.

[5] 劉其成,馮利光.一種基于MapReduce的微博信息推薦并行算法[J].小型微型計算機系統(tǒng),2017,38(7):1518?1522.

LIU Qicheng, FENG Liguang. Parallel microblog information recommendation algorithm based on MapReduce [J]. Journal of Chinese computer systems, 2017, 38(7): 1518?1522.

[6] 陳萬志,林澍,王麗,等.基于用戶移動軌跡的個性化健康建議推薦方法[J].智能系統(tǒng)學報,2016,11(2):264?271.

CHEN Wanzhi, LIN Shu, WANG Li, et al. Personalized recommendation algorithm of health advice based on the user′s mobile trajectory [J]. CAAI transactions on intelligent systems, 2016, 11(2): 264?271.

[7] 張時俊,王永恒.基于矩陣分解的個性化推薦系統(tǒng)研究[J].中文信息學報,2017,31(3):134?139.

ZHANG Shijun, WANG Yongheng. Personalized recommender system based on matrix factorization [J]. Journal of Chinese information processing, 2017, 31(3): 134?139.

[8] 武慧娟,秦雯,孫鴻飛,等.基于標簽的個性化信息推薦系統(tǒng)動力學模型與仿真[J].現(xiàn)代情報,2016,36(3):12?16.

WU Huijuan, QIN Wen, SUN Hongfei, et al. System dynamics model and simulation based on the tag of personalized information recommendation [J]. Modern information, 2016, 36(3): 12?16.

[9] 黃亞坤,王楊,蘇洋,等.基于兩層社區(qū)混合計算的個性化推薦方法[J].計算機科學,2016,43(z1):440?447.

HUANG Yakun, WANG Yang, SU Yang, et al. Personalized recommendation method based on hybrid computing in two layers of community [J]. Computer science, 2016, 43(S1): 440?447.

[10] 余剛,王知衍,邵璐,等.基于奇異值分解的個性化評論推薦[J].電子科技大學學報,2015,44(4):605?610.

YU Gang, WANG Zhiyan, SHAO Lu, et al. Singular value decomposition?based personalized review recommendation [J]. Journal of University of Electronic Science and Technology of China, 2015, 44(4): 605?610.

猜你喜歡
系統(tǒng)設計大數(shù)據(jù)
一種基于SATA硬盤陣列的數(shù)據(jù)存儲與控制系統(tǒng)設計研究
工業(yè)熱電偶計量檢定系統(tǒng)設計
基于物聯(lián)網(wǎng)的煤礦智能倉儲與物流運輸管理系統(tǒng)設計與應用
目標特性測量雷達平臺建設構(gòu)想
科技視界(2016年22期)2016-10-18 14:34:34
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
攀枝花市| 元氏县| 万宁市| 高密市| 乌鲁木齐县| 丰镇市| 景洪市| 米易县| 侯马市| 金川县| 乌鲁木齐县| 台山市| 景洪市| 工布江达县| 城市| 乡宁县| 松桃| 会宁县| 大宁县| 游戏| 乌兰县| 塘沽区| 丰都县| 汕头市| 桂阳县| 昌吉市| 金昌市| 铜山县| 浪卡子县| 泰顺县| 堆龙德庆县| 将乐县| 阿鲁科尔沁旗| 饶河县| 衡山县| 锡林郭勒盟| 珠海市| 桂阳县| 虎林市| 武威市| 惠来县|