国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)的設(shè)計

2017-09-08 01:33沈軍彩
現(xiàn)代電子技術(shù) 2017年17期
關(guān)鍵詞:用戶行為數(shù)據(jù)分析系統(tǒng)設(shè)計

沈軍彩

摘 要: 針對在信息推送過程中難以計算出用戶行為數(shù)據(jù)分析下信息推送指標的權(quán)重輸出,存在信息推送針對性差,信息推廣轉(zhuǎn)化率低的問題,提出一種基于模糊遺傳的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計方法。將互聯(lián)網(wǎng)用戶抽象為結(jié)構(gòu)化數(shù)據(jù)信息本體,計算出用戶行為數(shù)據(jù)下各詞匯的TF?IDF指標,建立用戶行為數(shù)據(jù)下的行為?主題分布模型和主題?詞匯分布模型,得到用戶行為數(shù)據(jù)下所有主題?詞匯的聯(lián)合分布,利用向量模型匹配關(guān)鍵詞思想理論確定關(guān)鍵詞在文檔中的權(quán)重,通過用戶查詢與結(jié)果記錄詞條間的關(guān)聯(lián)性計算,得到用戶行為數(shù)據(jù)下不同信息推送指標的權(quán)重輸出,由此完成用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計。實驗結(jié)果表明該方法能夠有效提高信息推送的準確性,且可擴展性較強。

關(guān)鍵詞: 用戶行為; 數(shù)據(jù)分析; 信息推送; 系統(tǒng)設(shè)計

中圖分類號: TN915?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)17?0158?04

Design of information push system under user behavior data analysis

SHEN Juncai

(Faculty of Information and Computer, Shanghai Business School, Shanghai 201204, China)

Abstract: The current method to push information is difficult to calculate the output weight of information push index under user behavior data analysis, and has poor pertinency and low percent conversion of information push. Therefore, a fuzzy genetic based design method of information push system under user behavior data analysis is proposed. The Internet users are abstracted as structural data information ontology by means of the method to calculate the TF?IDF index of each vocabulary under user behavior data. The behavior?theme distribution model and theme?vocabulary distribution model under user behavior data were established to get all theme?vocabulary joint distributions under user behavior data. The theory of vector model marching keyword is used to determine the weight of keyword in the file. The correlation between entries is calculated by means of user query and result recording to get the output weight of different information push indexes under user behavior data, so as to design the information push system under user behavior data analysis. Experimental results show that the method can improve the accuracy of information push effectively, and has strong scalability.

Keywords: user behavior; data analysis; information push; system design

0 引 言

近年來,隨著我國科學(xué)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)和云計算等技術(shù)不斷地影響和改變著人們的日常生活。當今社會互聯(lián)網(wǎng)是人們?nèi)粘I钪蝎@取外界信息的主要來源,也是人們進行信息共享、贏得商機的重要媒介[1?2]。因此,人們對及時獲取信息服務(wù)的需求隨著信息技術(shù)的高度發(fā)展而逐漸增強,信息推送服務(wù)已經(jīng)在京東、百度、亞馬遜等互聯(lián)網(wǎng)電商以及信息服務(wù)企業(yè)中得到了廣泛的應(yīng)用,有效的信息推送服務(wù)可以方便用戶快速找到個人真正需要的信息,減少互聯(lián)網(wǎng)的使用成本以及用戶個人尋找有用信息時所花費的時間,但是由于現(xiàn)階段的信息推送服務(wù)缺少對互聯(lián)網(wǎng)用戶個人的時間、喜好以及用戶存在的購買能力等各方面因素的考慮,導(dǎo)致推送信息泛濫以及信息推送時缺乏精準性,且隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展,大量的網(wǎng)絡(luò)信息如潮水般呈現(xiàn)在用戶面前,使得信息用戶感到無所適從[3?4]。在這種情況下,如何有效地從大量的信息數(shù)據(jù)中挖掘和提取對用戶有用的信息,并對用戶推送有針對性的信息服務(wù),提高信息對用戶的應(yīng)用價值,成為該領(lǐng)域亟需解決的重要技術(shù)難題,受到了有關(guān)專家學(xué)者的高度關(guān)注[5]。

文獻[6]提出一種基于用戶畫像的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計方法。該方法先獲取用戶行為數(shù)據(jù)下的詳情表,并對所述用戶行為數(shù)據(jù)下詳情表中的用戶畫像進行數(shù)據(jù)分析與計算,得到用戶行為數(shù)據(jù)下的特征權(quán)重表,根據(jù)用戶行為數(shù)據(jù)權(quán)重表中的目標用戶行為特征權(quán)重信息與反饋處理結(jié)果對用戶興趣信息進行修正,實時改進用戶信息推送模型的精度。由此完成用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計。該方法能夠為用戶搜索出相似產(chǎn)品從而縮短用戶個人的搜索時間,但存在預(yù)測精度較低的問題。文獻[7]提出一種基于ERP的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計方法。該方法先獲取用戶的歷史行為數(shù)據(jù),對獲取的數(shù)據(jù)進行分析與計算,并預(yù)先設(shè)定用戶行為數(shù)據(jù)下的角色規(guī)則,計算出用戶的歷史行為數(shù)據(jù)對應(yīng)的用戶系統(tǒng)角色,根據(jù)用戶行為數(shù)據(jù)下預(yù)設(shè)的系統(tǒng)角色與用戶關(guān)注信息類型的映射關(guān)系,將該項待推送的信息推送給被系統(tǒng)角色鎖定的用戶。該方法的信息推送準確性較高,但存在計算過程較為繁瑣且消耗時間較長的問題。文獻[8]提出一種基于相似度的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計方法。該方法先對用戶歷史行為數(shù)據(jù)進行分析,通過計算這些信息數(shù)據(jù)間的屬性相似度,得到用戶的興趣信息類型,將未被用戶瀏覽過的信息與用戶瀏覽過的興趣信息進行相似度匹配,進而判斷該信息是否為用戶感興趣的信息,從而對該用戶進行無人工干預(yù)的用戶信息推送服務(wù)。該方法可以從側(cè)面了解用戶的需求,但存在預(yù)測局限性較大的問題。endprint

針對上述問題,本文提出一種基于模糊遺傳的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)的設(shè)計方法。實驗結(jié)果表明,所提方法能夠有效提高信息推送的準確性,且可擴展性較強。

1 用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計

1.1 用戶行為數(shù)據(jù)分析下的信息推送流程

在進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計過程中,先對用戶行為數(shù)據(jù)進行分析處理,計算出用戶行為數(shù)據(jù)下各詞匯的TF?IDF指標,建立用戶行為數(shù)據(jù)下的行為?主題分布模型和主題?詞匯分布模型,在此基礎(chǔ)上對用戶行為對應(yīng)的詞匯向量進行計算[9?10],提取用戶隨機行為數(shù)據(jù)下的信息本體,具體過程如下所述。

假設(shè)代表用戶搜索的主題集合;代表用戶行為數(shù)據(jù)集合;代表用戶行為數(shù)據(jù)中所用的詞匯個數(shù);代表先驗參數(shù)。首先對用戶行為數(shù)據(jù)進行分析處理,將用戶行為數(shù)據(jù)下的非文本信息進行過濾,利用式(1)計算出用戶行為數(shù)據(jù)下各詞匯的TF?IDF指標:

(1)

式中:TF代表用戶行為數(shù)據(jù)下的詞項頻率;代表用戶行為數(shù)據(jù)下的逆文檔頻率;代表用戶行為數(shù)據(jù)下的詞匯出現(xiàn)過的行為集;代表用戶行為數(shù)據(jù)下的某一行為記錄;代表用戶行為數(shù)據(jù)下詞匯在中出現(xiàn)的次數(shù);代表用戶行為數(shù)據(jù)下搜索的主題在中出現(xiàn)的次數(shù)。在先驗參數(shù)為的Dirichlet分布中抽取用戶行為數(shù)據(jù)下各文檔對應(yīng)的行為?主題分布模型,利用式(2)進行表示:

(2)

式中:代表用戶行為數(shù)據(jù)下的行為?主題分布模型;代表用戶行為數(shù)據(jù)下先驗參數(shù)為的Dirichlet分布。假設(shè)代表用戶第個行為中出現(xiàn)的詞匯數(shù),則利用式(3)計算出用戶的整個行為庫中生成主題的概率:

(3)

式中:代表拉普拉斯算子;代表用戶第個行為下的主題生成概率。從先驗參數(shù)為的Dirichlet分布中抽取用戶行為數(shù)據(jù)下各主題對應(yīng)的主題?詞匯分布模型,利用式(4)進行計算:

(4)

式中:代表用戶行為數(shù)據(jù)下的主題?詞匯分布模型;代表用戶行為數(shù)據(jù)下先驗參數(shù)為的Dirichlet分布。利用式(5)計算用戶行為數(shù)據(jù)下所有主題生成的詞匯概率:

(5)

式中:代表用戶行為數(shù)據(jù)下先驗參數(shù)為的主題中生成的詞匯概率,代表用戶行為數(shù)據(jù)分析下主題中詞匯的生成概率,通過對式(3)、式(5)進行分析,可以得到用戶行為數(shù)據(jù)下的所有主題?詞匯的聯(lián)合分布,可利用式(6)進行表示:

(6)

假設(shè)代表用戶行為數(shù)據(jù)下的主題隱含量,結(jié)合用戶行為數(shù)據(jù)下的主題?詞匯分布模型和行為?主題分布模型,計算出用戶行為數(shù)據(jù)對應(yīng)的第個詞匯,利用下式進行計算:

(7)

(8)

式中:代表用戶行為數(shù)據(jù)下特定詞匯的獲取量;代表用戶行為數(shù)據(jù)下行為?主題分布模型的Multinomial共軛分布空間閾值;代表主題隱含量為的Multinomial共軛分布空間閾值。結(jié)合吉布斯采樣法對用戶行為數(shù)據(jù)下的主題隱含量進行求解,提取互聯(lián)網(wǎng)用戶隨機行為數(shù)據(jù)下的信息本體,需計算用戶行為數(shù)據(jù)下的權(quán)重。

1.2 用戶信息推送的關(guān)鍵詞搜索匹配

在進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)的設(shè)計過程中,以1.1節(jié)獲得的互聯(lián)網(wǎng)用戶隨機行為數(shù)據(jù)下的信息本體為依據(jù),計算出用戶行為數(shù)據(jù)下詞匯在主題中出現(xiàn)的次數(shù)概率,結(jié)合Dirichlet參數(shù)估計公式建立用戶行為數(shù)據(jù)下的最終行為?詞匯模型,在此基礎(chǔ)上利用向量模型匹配關(guān)鍵詞思想理論確定關(guān)鍵詞在文檔中的權(quán)重,得到用戶行為數(shù)據(jù)下不同信息推送指標的權(quán)重輸出,由此完成用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計,具體過程如下所述。

假設(shè)代表用戶行為數(shù)據(jù)中去除下標為的詞匯,代表用戶行為數(shù)據(jù)中第個詞匯對應(yīng)的主題,代表用戶第個行為數(shù)據(jù)中去除主題中下標為的詞匯,代表用戶第個行為數(shù)據(jù)中去除文檔中下標為的主題詞匯,和代表相應(yīng)的兩個Dirichlet后驗分布在貝葉斯框架下的參數(shù)估計,利用式(9)建立用戶行為數(shù)據(jù)下的最終行為?詞匯模型:

(9)

式中:代表用戶行為數(shù)據(jù)下的最終行為?詞匯模型;代表用戶行為數(shù)據(jù)中的文檔集合。假設(shè)代表用戶行為數(shù)據(jù)下的關(guān)鍵詞在第個文檔中出現(xiàn)的概率,利用向量模型匹配關(guān)鍵詞的方法對用戶行為數(shù)據(jù)中索引詞的選擇和語義進行提取,得到用戶行為數(shù)據(jù)下關(guān)鍵詞在文檔中的權(quán)重:

(10)

式中:代表用戶行為數(shù)據(jù)下信息庫中文檔的個數(shù);代表用戶行為數(shù)據(jù)下包含關(guān)鍵詞的文檔個數(shù);代表用戶行為數(shù)據(jù)下文檔中所有關(guān)鍵詞的個數(shù);代表用戶行為數(shù)據(jù)下的主題在第個文檔中出現(xiàn)的概率;代表用戶行為數(shù)據(jù)下包含主題的文檔個數(shù)。根據(jù)用戶行為數(shù)據(jù)下關(guān)鍵詞在檢索中的使用情況,結(jié)合相似度函數(shù)通過分析用戶行為數(shù)據(jù)判定用戶查詢記錄與結(jié)果記錄詞條之間的關(guān)聯(lián)性:

(11)

式中:代表用戶查詢行為字符串的第個詞條的權(quán)重;代表用戶行為數(shù)據(jù)下文檔中第個詞條的權(quán)重;代表用戶行為數(shù)據(jù)下文檔的長度;代表用戶查詢行為字符串的長度。

結(jié)合模糊集理論,對用戶行為數(shù)據(jù)下文本的長度和用戶查詢行為字符串的長度進行分析,建立用戶行為數(shù)據(jù)下不同的信息推送評價指標,然后對用戶行為數(shù)據(jù)下不同的指標值進行模糊化,在此基礎(chǔ)上對不同的信息推送指標進行加權(quán)平均反模糊化,計算出用戶行為數(shù)據(jù)下不同的信息推送指標的權(quán)重輸出:

(12)

式中:代表用戶行為數(shù)據(jù)下信息推送評價指標集;代表用戶行為數(shù)據(jù)下第個信息推送評價指標的規(guī)則權(quán)重;代表用戶行為數(shù)據(jù)下輸入的第個信息推送評價指標值的模糊度;代表用戶行為數(shù)據(jù)下第個信息推送評價指標集合的容積;代表用戶行為數(shù)據(jù)下第個信息推送評價指標集合權(quán)重。

2 實驗結(jié)果與分析

為了證明提出的基于模糊遺傳的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計方法的有效性,需要進行一次實驗。實驗在Windows Phone7的環(huán)境下搭建用戶行為數(shù)據(jù)分析下的信息推送實驗平臺,實驗數(shù)據(jù)來源于SQL Server關(guān)系數(shù)據(jù)庫,采用北京大學(xué)2015年用戶行為數(shù)據(jù)分析下的信息推送應(yīng)用數(shù)據(jù)作為實驗數(shù)據(jù)。endprint

分別利用模糊遺傳方法和協(xié)同過濾方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計實驗。將兩種不同方法進行用戶行為數(shù)據(jù)分析下的信息推送精度對比,采用平均絕對誤差MAE(%)作為度量不同方法用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)的精度對比結(jié)果,利用式(13)進行計算:

(13)

式中:代表系統(tǒng)對推送的第個信息的預(yù)測評分值;代表用戶對推送的第個信息的實際評分值;代表用戶行為數(shù)據(jù)分析下的信息推送數(shù)據(jù)集的數(shù)據(jù)個數(shù)。比較兩種不同方法進行用戶行為數(shù)據(jù)分析下的信息推送的平均絕對誤差,其結(jié)果如圖1所示。

通過對圖1進行分析可知,利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下信息推送的平均絕對誤差要低于協(xié)同過濾方法,這主要是因為在利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計過程中,先對用戶行為數(shù)據(jù)進行分析處理,計算出用戶行為數(shù)據(jù)下各詞匯的TF?IDF指標,再結(jié)合先驗參數(shù)的Dirichlet分布建立用戶行為數(shù)據(jù)下的行為?主題分布模型和主題?詞匯分布模型,在此基礎(chǔ)上,利用向量模型匹配關(guān)鍵詞思想理論確定關(guān)鍵詞在文檔中的權(quán)重,得到用戶行為數(shù)據(jù)下不同信息推送指標的權(quán)重輸出,使得利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計的推送精度較高。

分別利用模糊遺傳方法和協(xié)同過濾方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計實驗。對比兩種不同方法進行信息推送的有用度(%)和召回率(%),召回率是指用戶認為推送信息無用時所占總體的比率。有用度是指信息推送主動可用性的程度,利用對比結(jié)果來衡量不同方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計的綜合有效性,對比結(jié)果見表1,表2。

通過對表1,表2進行分析可知,利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計的綜合性能要高于協(xié)同過濾方法,這主要是因為在利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計過程中,先將互聯(lián)網(wǎng)用戶抽象為結(jié)構(gòu)化數(shù)據(jù)信息本體,再對用戶第個行為對應(yīng)的第個詞匯進行計算,提取出互聯(lián)網(wǎng)用戶隨機行為數(shù)據(jù)下的信息本體,在此基礎(chǔ)上,用戶通過查詢與結(jié)果記錄詞條間的關(guān)聯(lián)性計算,得到用戶行為數(shù)據(jù)下不同信息推送指標的權(quán)重輸出,使得利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計的綜合性能較優(yōu)。

以表1,表2給出的統(tǒng)計結(jié)果為基礎(chǔ),分別利用模糊遺傳方法和協(xié)同過濾方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計實驗。對比兩種不同方法進行用戶行為數(shù)據(jù)分析下的信息推送的查準率(%):

(14)

式中:代表推送的信息符合用戶興趣的數(shù)量;代表推送的信息不符合用戶興趣的數(shù)量。對比結(jié)果如圖2所示。

通過對圖2進行分析可知,利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送的查準率要高于協(xié)同過濾方法,這主要是因為在利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計過程中,以1.1節(jié)獲得的互聯(lián)網(wǎng)用戶隨機行為數(shù)據(jù)下的信息本體結(jié)果為依據(jù),計算出用戶行為數(shù)據(jù)下詞匯在主題中出現(xiàn)的次數(shù)概率,再結(jié)合相似度函數(shù)計算出用戶行為數(shù)據(jù)下文本的長度和用戶查詢行為字符串的長度,最后結(jié)合模糊集理論得到用戶行為數(shù)據(jù)下不同的信息推送指標的權(quán)重輸出,使得利用模糊遺傳方法進行用戶行為數(shù)據(jù)分析下的信息推送的查準率較高。

3 結(jié) 語

針對當前方法進行信息推送過程中難以計算出用戶行為數(shù)據(jù)分析下的權(quán)重輸出,存在信息推送針對性差、信息推廣轉(zhuǎn)化率低的問題,提出一種基于模糊遺傳的用戶行為數(shù)據(jù)分析下的信息推送系統(tǒng)設(shè)計方法。實驗結(jié)果表明,所提方法能夠有效提高信息推送的準確性,且可擴展性較強。

參考文獻

[1] 朱曉林,鄒宇,易琳,等.基于模型需求模板匹配的多源地理數(shù)據(jù)推送方法研究[J].地理與地理信息科學(xué),2016,32(1):24?28.

[2] 鄧志文,都平平,秦麗,等.面向社交網(wǎng)的圖書館信息主動推送方法研究:以“人人網(wǎng)”為例[J].圖書館雜志,2015,34(3):84?89.

[3] 陳伶娜.移動新聞客戶端信息推送特點及問題分析:以鳳凰新聞、今日頭條等五大新聞客戶端為例[J].今傳媒,2016,24(10):17?19.

[4] 屈赟,陶晡,王克儉.基于Android的果樹病蟲害信息推送系統(tǒng)的設(shè)計[J].科技通報,2016,32(5):86?90.

[5] 尹延寧,劉太君,葉焱,等.基于Node.js,Sencha Touch和iBeacon信息推送系統(tǒng)的設(shè)計與實現(xiàn)[J].火力與指揮控制,2016,41(8):151?154.

[6] 路曄綿,李軼夫,應(yīng)凌云,等.Android應(yīng)用第三方推送服務(wù)安全分析與安全增強[J].計算機研究與發(fā)展,2016,53(11):2431?2445.

[7] 楊帆,何敏,施繼紅,等.基于LDA模型的網(wǎng)絡(luò)黨建信息推送策略[J].計算機工程,2016,42(9):286?291.

[8] 田林青,余成波,孔慶達,等.基于藍牙技術(shù)的推送系統(tǒng)的設(shè)計和實現(xiàn)[J].微型機與應(yīng)用,2016,35(20):61?64.

[9] 方耀耀,李同剛.面向Android系統(tǒng)的內(nèi)容推送方法應(yīng)用研究[J].電腦知識與技術(shù),2016,12(7):28?31.

[10] 李歡.基于文化安全的微博信息推送技術(shù)的研究[J].現(xiàn)代電子技術(shù),2016,39(8):41?44.endprint

猜你喜歡
用戶行為數(shù)據(jù)分析系統(tǒng)設(shè)計
電力高校圖書館轉(zhuǎn)型智庫服務(wù)的研究
社會化媒體用戶使用動機與行為探析
一種基于SATA硬盤陣列的數(shù)據(jù)存儲與控制系統(tǒng)設(shè)計研究
新常態(tài)下集團公司內(nèi)部審計工作研究
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
目標特性測量雷達平臺建設(shè)構(gòu)想
基于用戶行為分析的智能家居系統(tǒng)的研究與設(shè)計