国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶行為的個性化搜索建模

2018-01-15 09:45葉文權(quán)陸興華
智能計算機(jī)與應(yīng)用 2017年6期
關(guān)鍵詞:次數(shù)神經(jīng)網(wǎng)絡(luò)網(wǎng)頁

葉文權(quán)+陸興華

摘要: 關(guān)鍵詞: 中圖分類號: 文獻(xiàn)標(biāo)志碼: A文章編號: 2095-2163(2017)06-0005-04

Abstract: The current search algorithm generally ignores the users' interest behavior. It just relies on the surface of the keywords to predict the users' search preferences, to provide users with contents automatically. This kind of search algorithm cannot reflect users' real needs deeply. It does not customize a personalized search model according to the users' longterm search habits and search interests. This paper proposes a personalized search model based on users' behavior when they browse websites, such as the time, types of websites and whether there are any further actions such as saving or copying when browsing the webpage. All of these can enrich contents about personalized search model proposed in this paper,which makes the search algorithm be more accurate and close to the users' real needs.

0引言

隨著互聯(lián)網(wǎng)逐漸融入人們的日常生活,網(wǎng)絡(luò)數(shù)據(jù)呈指數(shù)增加,如搜狗、百度等搜索引擎可以為用戶帶來更方便的數(shù)據(jù)查找,用戶對數(shù)據(jù)查找的準(zhǔn)確性要求也越來越高,希望隨時隨地地找到所期待的數(shù)據(jù),使得數(shù)據(jù)對于人們來說是更加透明、獲取更加快捷、更加智能,創(chuàng)造更加舒適化、安全化、透明化的信息獲取環(huán)境。中國互聯(lián)網(wǎng)絡(luò)信息中心公布了第 39 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截止2016年12月,我國網(wǎng)民規(guī)模達(dá)7.31億,全年共計新增網(wǎng)民4299萬人[1]。由此可見,網(wǎng)絡(luò)早已深入普通民眾的日常生活中,正因?yàn)楫?dāng)前網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)信息流量十分龐大,網(wǎng)民們才對網(wǎng)絡(luò)搜索的準(zhǔn)確度提出了更高的要求,然而當(dāng)前眾多搜索引擎的搜索準(zhǔn)確度均為有限,每個人的上網(wǎng)習(xí)慣和事物喜好傾向的不同也就導(dǎo)致了搜索引擎“眾口難調(diào)”的現(xiàn)狀。因此,本文研究的是在基于用戶日常的上網(wǎng)習(xí)慣中提取用戶的興趣點(diǎn),并融合計算用戶的興趣度,再進(jìn)一步設(shè)計建立用戶的個性化搜索模型,也就相當(dāng)于為用戶量身打造了一個專屬于某用戶的搜索引擎,以此來提高搜索的準(zhǔn)確度。

1用戶瀏覽行為分析

大量研究分析得出,用戶對網(wǎng)頁的興趣度通常體現(xiàn)在用戶的瀏覽行為上。用戶的許多瀏覽行為都能映射出用戶的興趣和偏好。例如:瀏覽網(wǎng)頁的時間、瀏覽網(wǎng)頁的類型、在網(wǎng)頁中進(jìn)行保存、復(fù)制等操作、把網(wǎng)頁加入收藏夾、訪問網(wǎng)頁的次數(shù)等行為都在一定程度上表現(xiàn)出用戶的興趣[2]。

用戶興趣度計算的最小瀏覽組合為以下五種:保存頁面、打印頁面、將頁面加入收藏夾、訪問同一頁面的次數(shù)、在頁面上的瀏覽時間。分析這五種瀏覽行為之間的關(guān)系可以發(fā)現(xiàn),如果用戶進(jìn)行了收藏頁面、保存頁面、打印頁面等操作,則說明對其興趣度較高。除此之外,如果用戶在瀏覽頁面時對頁面內(nèi)容有復(fù)制、粘貼、剪切等行為的話,也從側(cè)面反映了用戶對該頁面有著較濃的興趣。

用戶的各種瀏覽行為之間的關(guān)系既各自獨(dú)立,又相互聯(lián)系,而用戶本身的瀏覽習(xí)慣也有著顯著不同,因此選擇哪些瀏覽行為來分析用戶的興趣就尤顯其研究存在的重要性。若僅選擇少數(shù)幾個瀏覽行為,則容易導(dǎo)致用戶興趣的精度不高,但選擇過多又會造成計算方法的繁冗復(fù)雜。經(jīng)過對用戶瀏覽行為的綜合考慮,本文選擇了從用戶的實(shí)際瀏覽動作、對頁面的訪問次數(shù)、在頁面上的瀏覽時間這三個方面來估算用戶的興趣度。

2基于用戶行為的興趣度估算

如果用戶在某時間內(nèi)依次共瀏覽了多個頁面或者多次訪問同一個頁面,記用戶在該時間內(nèi)瀏覽的各頁面為ω1, ω2, ω3, …, ωn。在分析用戶的瀏覽行為時,用戶的實(shí)際瀏覽動作、對頁面的訪問次數(shù)、在頁面上的瀏覽時間這三類典型的瀏覽行為近似地代替所有的瀏覽行為[3]。因此在本次研究中,用戶對頁面的興趣度就可視作為上述三類行為的函數(shù)。

2.1基于用戶瀏覽動作的用戶興趣度計算

如果用戶對一個頁面感到興趣,則有很大幾率會對該頁面開展一系列的瀏覽動作,如:保存、打印、收藏和復(fù)制。因此,可以利用用戶的這些瀏覽行為來進(jìn)行用戶興趣度的計算。

2.2基于用戶訪問次數(shù)的用戶興趣度計算

調(diào)查顯示,用戶在瀏覽頁面時,很少會發(fā)生保存頁面、收藏頁面和打印頁面等瀏覽行為,因此,僅是依托用戶的瀏覽動作來計算用戶的興趣度也未臻至全面,故而還需要對用戶的訪問次數(shù)和瀏覽時間進(jìn)行分析,進(jìn)而計算用戶的興趣度,豐富用戶的個性化搜索模型。

用戶對一個頁面的興趣度很大程度上反映在其對該頁面的訪問頻度上[4],由此,研究可以定義用戶在某段時間內(nèi)對某一頁面的訪問次數(shù)為Freqω,可知Freqω越大,用戶的興趣度Interestω也就越大。基于用戶訪問次數(shù)的用戶興趣度計算函數(shù)可表示為:InterestFreqW=Freqωmaxv∈WFreqω (4)其中,W為某一時間段內(nèi)用戶訪問的所有頁面的集合。雖然式(4)可以對用戶的興趣度進(jìn)行量化計算,但是隨著時間的推移,用戶對某個網(wǎng)頁的訪問次數(shù)會逐漸地累積,這些冗余的數(shù)據(jù)就未必能夠真實(shí)地反映當(dāng)前用戶的興趣,這就導(dǎo)致了對用戶興趣度計算的準(zhǔn)確率下降,并且隨著時間的推移,精度還會越來越低。因此,這里提出需對用戶的瀏覽次數(shù)進(jìn)行周期性地更新,設(shè)定以“周”為單位,每經(jīng)過一周,就對數(shù)據(jù)擇取1次更新處理[5]。更新方法如下:endprint

2.3基于用戶瀏覽頁面的速度計算用戶興趣度

用戶對某個頁面的瀏覽時間越長,則從一定程度上表明了用戶對該頁面具有較高興趣,因此用戶對頁面的瀏覽時間也是分析用戶興趣度的一個重要指標(biāo)。用戶的瀏覽時間與用戶瀏覽網(wǎng)頁的速度密不可分,為了更為有效地規(guī)整集成各類因素,本文將用戶的瀏覽時間與瀏覽速度相對應(yīng)?;谟脩魹g覽頁面的速度來計算用戶的興趣度,不僅要考慮用戶在頁面的停留時間,還需要考慮頁面大小的影響。

2.4利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行整合建模

三種用戶興趣度之間并不是相互獨(dú)立的,而是相互依存,相互聯(lián)系的,只有對這三種用戶興趣度進(jìn)行整合后,才能真實(shí)地反映用戶興趣度。在求用戶興趣度時,要先判斷InterestActivitω的取值, 由之前推導(dǎo)可知,當(dāng)InterestActivitω取值為1時,可直接將Interestω置為1。

當(dāng)InterestActivitω=0時,則要考慮用戶對頁面的訪問次數(shù)以及訪問速度下的用戶興趣度的取值了,本文利用三層BP神經(jīng)網(wǎng)絡(luò)來支持設(shè)計這兩者的融合。BP(back propagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McClelland為首的科學(xué)家提出的思想概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)由輸入層、輸出層和隱含層構(gòu)成,隱含層的數(shù)量由一層到多層不等,隱含層的數(shù)量越多,則神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜[7]。本次研究中,神經(jīng)網(wǎng)絡(luò)的設(shè)計結(jié)構(gòu)如圖1所示。

3用戶個性化興趣庫的建立

基于用戶行為計算給出的興趣度只是一個用戶興趣度的初步模型,該模型是對用戶的有限次操作所得到的,分析可知其結(jié)果精度還稍顯遜色,因?yàn)殡S著時間的推移,用戶的興趣度可能發(fā)生多維的變化。基于此,研究擬將建立針對特定用戶的個性化興趣庫,將基于用戶行為計算出來的用戶興趣度數(shù)據(jù)保存在用戶的個性化興趣庫中,隨著用戶不斷地在網(wǎng)絡(luò)上發(fā)生一些特定的瀏覽行為,用戶的個性化興趣庫即會日趨完善,并更加豐富,而且越來越接近用戶的日常搜索習(xí)慣。這也相當(dāng)于是一個隨著用戶的使用次數(shù)越多而漸至達(dá)到完善的用戶個人興趣數(shù)據(jù)庫,當(dāng)該興趣庫積累擴(kuò)充到一定程度時,其對用戶的興趣度預(yù)測將會極其接近用戶的真實(shí)興趣。

3.1PageRank算法

PageRank算法是Google創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1997年構(gòu)建早期的搜索系統(tǒng)原型時研究提出的鏈接分析算法[8],是Google用來標(biāo)識一個網(wǎng)頁的重要性、衡量一個網(wǎng)站優(yōu)劣的標(biāo)準(zhǔn)。該算法的主要思想是:首先網(wǎng)頁通過鏈接關(guān)系建立起Web圖,每個網(wǎng)頁都設(shè)置一個相同的PR(PageRank)值,如果一個網(wǎng)頁通過超鏈接鏈向另一個網(wǎng)頁,則表示向鏈出網(wǎng)頁投了一票,并將自身PR值平均分配給鏈出網(wǎng)頁。PR值越高,證明該網(wǎng)頁越受歡迎,其受歡迎等級分為0~10級,10級為滿分。獲得更高評分的網(wǎng)頁在網(wǎng)頁搜索時將會獲得較前排名。具體來說,一個網(wǎng)頁的PR值主要由三個因素決定[9],基于表述如下:

1)一個網(wǎng)頁的鏈入網(wǎng)頁越多,該網(wǎng)頁的PR值越高;

2)一個網(wǎng)頁鏈入網(wǎng)頁的排名越高,該網(wǎng)頁的PR值也會越高;

3)一個網(wǎng)頁鏈入網(wǎng)頁的出度越少,該網(wǎng)頁的PR值越高。

由以上三個因素,推導(dǎo)可知PageRank算法的原始公式為:PRμ=∑v∈IμPRvOutv(12)其中,Iμ是網(wǎng)頁μ的鏈入頁面的集合,Outv是網(wǎng)頁v鏈出頁面的數(shù)目。

3.2基于用戶個性化興趣庫的搜索內(nèi)容推薦

PageRank雖然是一種堪稱經(jīng)典的搜索分析算法,并且在Google中也占據(jù)著舉足輕重的地位,但是其缺點(diǎn)卻也顯而易見,該算法對網(wǎng)頁的排名過于公式化,因?yàn)槊總€用戶都是有著不同興趣愛好的獨(dú)立個體,如果一味追求公式化而忽略用戶的興趣反而會造成搜索精度大幅下降,給用戶帶來差等體驗(yàn)。因此,如果能將該算法與用戶個性化興趣庫有機(jī)地結(jié)合起來將會大大地提高搜索精度[10]。

用戶在轉(zhuǎn)入網(wǎng)絡(luò)搜索時往往是帶有強(qiáng)烈的個人興趣的,因此,用戶在輸入關(guān)鍵詞展開搜索時,PageRank算法可以計算出每個網(wǎng)頁的PR值,先進(jìn)行預(yù)排名,之后再在用戶個性化興趣庫中對相應(yīng)搜索內(nèi)容進(jìn)行興趣度匹配,將興趣度匹配吻合程度最高的頁面的排名提前,將興趣度匹配程度較低的頁面排名移后或者刪除,綜合所有網(wǎng)頁的排名后即可提交給用戶。如果用戶在排名較前的頁面中找到感興趣的內(nèi)容并伴隨著相應(yīng)的瀏覽行為,又可對用戶的瀏覽行為調(diào)取興趣度分析計算,從而將數(shù)據(jù)返回至用戶個性化興趣庫中,最后即使用戶個性化興趣庫得以充實(shí)與完善。

4實(shí)驗(yàn)分析

本節(jié)實(shí)驗(yàn)分析的關(guān)鍵步驟就是對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析整理,過程中采集實(shí)驗(yàn)數(shù)據(jù)時運(yùn)用的是Web日志挖掘的方法。該方法主要分為數(shù)據(jù)預(yù)處理、會話識別、模式發(fā)現(xiàn)以及模式分析這四個階段。其基本過程就是根據(jù)挖掘的目的,對原始Web日志文件中的數(shù)據(jù)經(jīng)由提取、分解、合并后轉(zhuǎn)化為用戶會話文件,再運(yùn)用統(tǒng)計分析、關(guān)聯(lián)規(guī)則、聚類、歸類、序列模式、依賴關(guān)系等技術(shù)從Web日志數(shù)據(jù)中挖掘和發(fā)現(xiàn)用戶使用Web的各種潛在的規(guī)律和模式。最后,在模式分析階段把在模式發(fā)現(xiàn)階段產(chǎn)生的規(guī)則和模式過濾掉,去除那些無用的模式,并把發(fā)現(xiàn)的結(jié)果模式通過一定的方法直觀地展現(xiàn)出來。

采集得到特定用戶群一個月內(nèi)瀏覽http://www.163.com/網(wǎng)站中的瀏覽日志文件,使用本文中的興趣度計算方法來計算用戶興趣度,并與用戶對瀏覽網(wǎng)頁的興趣度自評加以對比,來衡定、并驗(yàn)證本文方法的合理性及對用戶興趣度預(yù)測的準(zhǔn)確性。通過Web日志挖掘獲取到瀏覽行為數(shù)據(jù)3 246條,對這些數(shù)據(jù)進(jìn)行清洗、篩選,選擇其中有效數(shù)據(jù)為2 951條,再對這些瀏覽行為設(shè)計展開基于用戶行為的興趣度計算,繼而利用Matlab軟件中的神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)整合,輸出最終的用戶興趣度。不僅如此,研究又將該用戶興趣度與用戶對瀏覽網(wǎng)頁的興趣度自評結(jié)果做出了比較對照,部分?jǐn)?shù)據(jù)對比結(jié)果如表1所示。endprint

由表1實(shí)驗(yàn)數(shù)據(jù)可以分析得到,本文建立的用戶個性化搜索模型對用戶的興趣預(yù)測精度高,說明了該用戶興趣模型在搜索引擎系統(tǒng)中發(fā)揮了突出的作用,能夠?yàn)橛脩敉扑]其真正感興趣的內(nèi)容,更加貼近用戶的真實(shí)需求,大大節(jié)省了用戶的時間成本,同時更增進(jìn)了用戶的查詢信息的滿意度。

5結(jié)束語

隨著目前網(wǎng)絡(luò)的普及以及信息技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)與現(xiàn)代生活早已息息相關(guān),并且產(chǎn)生了重大的影響。特別地,針對當(dāng)代快節(jié)奏的生活方式,在五花八門的各式網(wǎng)頁中海量搜索用戶感興趣的內(nèi)容已經(jīng)明顯滯后于時代的發(fā)展。本文通過對用戶的瀏覽行為進(jìn)行分析,計算用戶的興趣度,建立用戶的個性化興趣庫,從而提出用戶的個性化搜索模型。在此基礎(chǔ)上,由實(shí)驗(yàn)分析可知,該模型能夠高效反映用戶的興趣點(diǎn),并在用戶進(jìn)行瀏覽器搜索時提供用戶所感興趣的內(nèi)容,大大節(jié)省了用戶的時間,并給用戶帶來更好的使用體驗(yàn)。

參考文獻(xiàn):

[1] 郝水龍,吳共慶,胡學(xué)鋼. 基于層次向量空間模型的用戶興趣表示及更新[J]. 南京大學(xué)學(xué)報(自然科學(xué)版),2012,48(2):190-197.

[6] 史寶明,賀元香,張永. 個性化信息檢索中用戶興趣建模與更新研究[J]. 計算機(jī)應(yīng)用與軟件,2014,31(3):7-10.

[7] 潘慶先,董紅斌,韓啟龍,等. 一種基于BP神經(jīng)網(wǎng)絡(luò)的屬性重要性計算方法[J]. 中國科學(xué)技術(shù)大學(xué)學(xué)報,2017,47(1):18-25.

[8] 馮海濤. 基于網(wǎng)頁時間權(quán)值的PageRank算法改進(jìn)[J]. 西安郵電大學(xué)學(xué)報,2013,18(2):121-124.

[9] 邵晶晶,李波,劉漢平. PageRank的改進(jìn)算法—調(diào)整阻尼因子[J]. 應(yīng)用數(shù)學(xué),2008,21(S1):57-61.

[10]孫克雷,陳安東. 基于用戶興趣的個性化推薦算法研究[J]. 安徽建筑大學(xué)學(xué)報,2017,25(1):65-69.

[11]王沖,紀(jì)仙慧. 基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 計算機(jī)科學(xué),2016,43(3):275-278,312.

[47] LEDERER S,MULLER C,TIMMERER C. Dynamic adaptive streaming over http dataset[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, NC, USA:ACM, 2012:89-94.

[48]OYMAN O, SINGH S. Quality of experience for http adaptive streaming services[J]. IEEE Communications Magazine, 2012,50(4):20-27.

[49]ESSAILI A E,SCHROEDER D,STAEHLE D, et al. Qualityofexperience driven adaptive http media delivery[C]// Communications (ICC), 2013 IEEE International Conference on. Budapest:IEEE, 2013:2480-2485.

[50]MOK R K,LUO X,CHAN E W W,et al. Qdash: A QoEaware dash system[C]//Proceedings of the 3rd Multimedia Systems Conference.Chapel Hill, North Carolina: ACM, 2012: 11-22.

[51]HOUDAILLE R,GOUACHE S. Shaping http adaptive streams for a better user experience[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, North Carolina:ACM, 2012:1-9.

[52]THANG T C,HO Q D,KANG J W, et al. Adaptive streaming of audiovisual content using mpeg dash[J]. IEEE Transactions on Consumer Electronics, 2012, 58(1):78-85.

[53]MLLER C, LEDERER S, TIMMERER C. An evaluation of dynamic adaptive streaming over http in vehicular environments[C]// Proceedings of the 4th Workshop on Mobile Video. Chapel Hill, North Carolina:ACM,2012:37-42.

[54]PIRES K, SIMON G. Dash in twitch: Adaptive bitrate streaming in live game streaming platforms[C]// Proceedings of the 2014 Workshop on Design, Quality and Deployment of Adaptive Video Streaming. Sydney, Australia:ACM,2014:13-18.endprint

猜你喜歡
次數(shù)神經(jīng)網(wǎng)絡(luò)網(wǎng)頁
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
最后才吃梨
俄羅斯是全球閱兵次數(shù)最多的國家嗎?
基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)的電網(wǎng)穩(wěn)定性預(yù)測
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
搜索引擎怎樣對網(wǎng)頁排序
如何在IMS網(wǎng)絡(luò)中計算呼叫接通率
網(wǎng)頁智能搜索數(shù)據(jù)挖掘的主要任務(wù)
荥阳市| 扎兰屯市| 五指山市| 胶南市| 瑞丽市| 竹山县| 松溪县| 台东市| 湖口县| 江孜县| 灵石县| 鄄城县| 东安县| 巴南区| 吐鲁番市| 康保县| 高雄县| 界首市| 汤原县| 台东市| 通渭县| 青神县| 曲阜市| 阿巴嘎旗| 迭部县| 公安县| 黑龙江省| 罗城| 阳春市| 北安市| 荔波县| 阿拉善左旗| 八宿县| 江阴市| 蓬溪县| 海门市| 永寿县| 泰兴市| 宜城市| 武平县| 浮梁县|