国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多維尺度向量的用戶興趣模型構(gòu)建研究

2015-07-31 23:34:20王慶福
微型電腦應(yīng)用 2015年5期
關(guān)鍵詞:網(wǎng)頁頁面圖譜

王慶福

基于多維尺度向量的用戶興趣模型構(gòu)建研究

王慶福

用戶的興趣模型構(gòu)建在個(gè)性化平臺(tái)上有著廣泛的應(yīng)用,針對用戶的興趣進(jìn)行服務(wù)定制具有非常重要的意義。提出以多維尺度向量的方式來表征用戶的興趣,多維尺度向量可以較好的反映用戶興趣特征。同時(shí),用戶的興趣隨著時(shí)間的變化呈現(xiàn)非規(guī)則性變化,多維尺度向量可以通過各維度上坐標(biāo)反映這種非規(guī)則變化。實(shí)驗(yàn)選取10名志愿者,以新浪網(wǎng)作為興趣采集資源,實(shí)驗(yàn)結(jié)果表明,新的算法能夠較為準(zhǔn)確地反映用戶的興趣變化。

多維尺度向量;用戶興趣;動(dòng)態(tài)非規(guī)則;興趣模型

0 引言

用戶興趣的采集一直是諸多電商平臺(tái)和社交平臺(tái)研究熱點(diǎn),針對用戶的興趣進(jìn)行定向資源推薦,提高用戶體驗(yàn)具有非常重要的意義和價(jià)值[1]。

用戶興趣的表示一直是用戶興趣采集中的核心問題,如何對用戶的興趣進(jìn)行定量表示從而根據(jù)興趣特征進(jìn)行資源定向推薦。傳統(tǒng)的興趣表示方式將用戶的興趣歸為一主要興趣,以此興趣點(diǎn)來對用戶進(jìn)行定向推薦,顯然這種方式不能很好的反映的興趣特征和興趣變化[2];此后,嘗試將用戶的興趣按照向量進(jìn)行表示并定期更新,然而卻忽略了用戶的動(dòng)態(tài)非規(guī)則變化特性[3],因此,此種方式的興趣表示方法無法適時(shí)的調(diào)整用戶的興趣特征。

本文通過分析用戶興趣的動(dòng)態(tài)變化特性,提出采用多維尺度向量來表示用戶的興趣,多維尺度向量中每個(gè)維度對應(yīng)用戶的一個(gè)興趣維度,定義興趣衰減函數(shù)來對用戶興趣的動(dòng)態(tài)非規(guī)則變化進(jìn)行量化表示,當(dāng)用戶的某個(gè)興趣維度衰減到臨界閾值時(shí),可對用戶的多維尺度興趣向量進(jìn)行全局調(diào)整去掉該興趣維度。實(shí)驗(yàn)以新浪網(wǎng)作為用戶興趣的資源采集,挑選10名志愿者進(jìn)行興趣變化測試,實(shí)驗(yàn)結(jié)果表明本文算法能夠較為準(zhǔn)確地反映用戶興趣的動(dòng)態(tài)變化。

1 用戶興趣提取

用戶在進(jìn)行網(wǎng)頁瀏覽時(shí)會(huì)留下用戶的諸多信息,如果登錄用戶則會(huì)保留用戶的個(gè)人信息以及對應(yīng)的網(wǎng)頁瀏覽記錄,如果非登錄用戶則可以通過IP地址來標(biāo)識(shí)該用戶的瀏覽記錄。在用戶興趣的提取時(shí),我們可獲得4類常用的信息(通稱為瀏覽歷史):歷史、書簽、頁面內(nèi)容和訪問日志。 瀏覽器通常會(huì)保持用戶當(dāng)前和以往會(huì)話中的請求記錄。全局歷史存儲(chǔ)了訪問頁面的標(biāo)題,URL,最初訪問時(shí)間戳,最近訪問時(shí)間戳,截止時(shí)間戳,URL訪問的次數(shù)。通過瀏覽歷史記錄可以初步認(rèn)定訪問頻率高的網(wǎng)頁(即 URL)代表用戶的較高興趣。書簽服務(wù)提供了用戶對感興趣的站點(diǎn)的快速訪問,用戶通常將自身經(jīng)常需要訪問或者感興趣的網(wǎng)頁內(nèi)容以書簽的形式加以存儲(chǔ),其中的 URL可認(rèn)為是用戶很感興趣的內(nèi)容站點(diǎn)。每個(gè)頁面通常包含多個(gè)指向其他站點(diǎn)的鏈接,如果這個(gè)頁面內(nèi)容是用戶感興趣的,則他將很有可能會(huì)訪問此頁面所包含的鏈接,這一規(guī)則在搜索引擎領(lǐng)域也同樣適用,經(jīng)典頁面排序算法則是參照此規(guī)則。因此,可認(rèn)為訪問頁面包含的鏈接的可能性越大則用戶對頁面越感興趣。對于索引頁面,這點(diǎn)是非常重要的,因?yàn)?,它包含了很多相關(guān)內(nèi)容的鏈接,所以,相對于包含內(nèi)容的頁面,用戶的瀏覽時(shí)間就很短。

本文通過搭建一個(gè)簡易的頁面瀏覽網(wǎng)站來提取用戶的興趣點(diǎn),通過用戶對網(wǎng)頁的瀏覽歷史,將瀏覽日志進(jìn)行抽取分析,通過以上的4種指標(biāo)對用戶的頁面停留時(shí)間來反映用戶的每個(gè)網(wǎng)頁具體的感興趣程度。

2 用戶興趣表示

用戶的興趣呈現(xiàn)出多元化,用戶可能同時(shí)對多個(gè)領(lǐng)域存在興趣[4],在細(xì)分到具體領(lǐng)域時(shí),本文對用戶的興趣定義一個(gè)權(quán)值,稱之為興趣值,用興趣值的高低來表示用戶對各個(gè)領(lǐng)域的喜好程度。假設(shè)用戶的興趣維度以C表示,C={互聯(lián)網(wǎng)、電影、音樂、美食、旅游}。各個(gè)領(lǐng)域?qū)?yīng)的興趣值如表1所示:

表1 興趣值表示表

在表1中,用戶的互聯(lián)網(wǎng)興趣值為0.32,電影興趣值是0.14,可見用戶對于互聯(lián)網(wǎng)更具有興趣。將用戶的興趣維度對應(yīng)于向量中各個(gè)坐標(biāo)系,各個(gè)興趣維度的興趣值對應(yīng)于坐標(biāo)系上坐標(biāo)。則用戶興趣的表示如圖1所示:

圖1 用戶興趣表示

在圖1中,將用戶興趣通過興趣值加以量化,圖中閉合紅色部分表示用戶的興趣圖譜。用戶的興趣非常抽象,用戶興趣值的量化也相對困難。本文以用戶的瀏覽行為來表征用戶興趣值,通過用戶在頁面的停留時(shí)間在整個(gè)瀏覽時(shí)間的比重來表示興趣值[5]。興趣收集系統(tǒng)后臺(tái)通過網(wǎng)頁分類技術(shù)對網(wǎng)頁進(jìn)行分類,分類后的結(jié)果可以定義為各個(gè)興趣領(lǐng)域,用戶在固定時(shí)間段內(nèi)的頁面瀏覽會(huì)對應(yīng)相應(yīng)的興趣領(lǐng)域。用戶興趣值的量化表示如公式(1):

在公式(1)中,N表示網(wǎng)頁分類后類別數(shù)目即興趣領(lǐng)域的數(shù)目,表示用戶在某個(gè)興趣領(lǐng)域的頁面停留時(shí)間之和,表示用戶整個(gè)頁面瀏覽時(shí)間總和。

3 用戶興趣動(dòng)態(tài)變化

用戶興趣呈現(xiàn)一種動(dòng)態(tài)的非規(guī)則變化,隨著時(shí)間的推移用戶的興趣也會(huì)隨之漂移,興趣漂移呈現(xiàn)一定程度的不規(guī)則性,相對而言,用戶新產(chǎn)生的興趣領(lǐng)域應(yīng)當(dāng)相應(yīng)地分配較高的興趣值,因?yàn)橛脩艨赡苁艿疆?dāng)前環(huán)境和其他用戶的影響。用戶興趣動(dòng)態(tài)更新算法如表2所示:

表2 用戶興趣動(dòng)態(tài)更新算法流程表

在表2中,用戶的興趣會(huì)隨著時(shí)間的變化呈現(xiàn)非規(guī)則變化,對于每次捕獲的用戶興趣列表,首先,需要判斷用戶的興趣是否在當(dāng)前的用戶興趣圖譜中出現(xiàn),如果出現(xiàn)則更新當(dāng)前興趣圖譜中該興趣的興趣值,否則將新的興趣加入興趣圖譜中。當(dāng)完成用戶興趣列表的掃描后,則需要對用戶的興趣圖譜進(jìn)行全局更新,剔除用戶歷史興趣中興趣值低于閾值的興趣[6]。

同時(shí)用戶的興趣也會(huì)隨著時(shí)間的延展呈現(xiàn)一定程度的衰減,興趣的衰減呈現(xiàn)逐漸遞減的趨勢,通過對大量用戶行為日志的分析,用戶的興趣衰減近似呈現(xiàn)指數(shù)分布趨勢,如圖2所示:

圖2 興趣衰減曲線圖

將用戶興趣的衰減變化以公式加以量化,如公式(2):

在公式(2)中,Δt為時(shí)間差,表示當(dāng)前時(shí)間和歷史時(shí)間之間的差值,v'表示經(jīng)過衰減之后的興趣值。

4 實(shí)驗(yàn)

實(shí)驗(yàn)選取10名志愿者對本文的算法進(jìn)行驗(yàn)證。以新浪網(wǎng)作為興趣采集資源點(diǎn),采用Heritrix網(wǎng)絡(luò)爬蟲工具,以3天為周期,定期去爬取新浪門戶網(wǎng)中網(wǎng)頁,將爬取到的網(wǎng)頁構(gòu)建一個(gè)小型的本地瀏覽網(wǎng)站。挑選的10名志愿者根據(jù)自身興趣選擇從新浪門戶網(wǎng)中爬取的內(nèi)容網(wǎng)頁進(jìn)行瀏覽。分別采用基于單一興趣的用戶興趣模型算法(算法 1)、基于多個(gè)興趣的固定用戶興趣模型算法(算法2)和本文算法(算法 3),分別每種算法對用戶興趣變化之后的敏感度,通過比較3種算法在用戶興趣捕獲上的準(zhǔn)確率。

在表2中,α=0.01,將興趣采集的資源采集周期定為10次,每次資源完成后,10名志愿者進(jìn)行資源選擇瀏覽。前 3周期的用戶瀏覽行為定義為對用戶興趣圖譜的補(bǔ)充和完整,隨機(jī)挑選10名志愿者中一名,分別比較在3種算法下興趣點(diǎn)的變化如表3所示:

表3 前三個(gè)周期下三種算法用戶興趣變化表

將后 7個(gè)周期采集的數(shù)據(jù)作為用戶瀏覽行為的落地資源,用以對本文算法進(jìn)行驗(yàn)證,分別比較3種算法對用戶興趣定為的準(zhǔn)確率,如表4所示:

表4 三種算法在后七周期下用戶興趣捕獲準(zhǔn)確率表

3種算法在后7周期用戶興趣捕獲準(zhǔn)確率如圖3所示:

圖3 三種算法在后7個(gè)周期用戶興趣捕獲準(zhǔn)確率圖

在圖3中可以看出,算法1(基于單一興趣的用戶興趣模型)效果要低于算法2和算法3,并且算法2和算法3保持了相對較高的用戶興趣捕獲準(zhǔn)確率,算法2和算法3相比,算法3對用戶興趣變化的捕獲更為敏感,由于是采用動(dòng)態(tài)的對用戶興趣值進(jìn)行調(diào)整并且實(shí)時(shí)的對用戶興趣圖譜進(jìn)行全局更新,因此能夠保持較高的用戶興趣捕獲準(zhǔn)確率。同樣在圖3也可以看出,隨著周期的延長,算法3的準(zhǔn)確率性能也逐漸與算法2拉大,可見基于本文的算法能夠較為準(zhǔn)確并且敏感的判斷用戶興趣的變化并能夠?qū)崟r(shí)反饋。

5 總結(jié)

本文以用戶興趣的表示為出發(fā)點(diǎn),將用戶的興趣以多維尺度向量的方式加以表示,每個(gè)興趣對應(yīng)多維向量中一個(gè)坐標(biāo)系,該興趣的興趣值對應(yīng)坐標(biāo)系中坐標(biāo)值,通過這種方式來表示用戶的興趣圖譜。用戶的興趣隨著時(shí)間呈現(xiàn)出非規(guī)則變化,通過用戶興趣的變化動(dòng)態(tài)的更新興趣圖譜,最后,挑選10名志愿者分別就本文算法和其它兩種算法在興趣表示準(zhǔn)確度的對比,實(shí)驗(yàn)結(jié)果表明,本文算法能夠比較準(zhǔn)確地反映用戶興趣的變化。

[1]王永貴,張旭,任俊陽,等.結(jié)合微博關(guān)注特性UF_AT模型用戶興趣挖掘研究[J]. 計(jì)算機(jī)應(yīng)用研究,2015,7.

[2]詹天晟,陳德華,樂嘉錦,等. 基于海量搜索歷史數(shù)據(jù)的用戶興趣模型[J].計(jì)算機(jī)應(yīng)用,2014,S2:126-129,139.

[3]史寶明,賀元香,張永. 個(gè)性化信息檢索中用戶興趣建模與更新研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,03:7-10.

[4]于洪濤,崔瑞飛,董芹芹.基于遺忘曲線的微博用戶興趣模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,10:3367-3372,3379.

[5]任保寧,梁永全,趙建立,廉文娟,李玉軍. 基于多維度權(quán)重動(dòng)態(tài)更新的用戶興趣模型[J]. 計(jì)算機(jī)工程,2014,09:42-45.

[6]陶永才,何宗真,石磊,衛(wèi)琳,曹仰杰. 基于加權(quán)動(dòng)態(tài)興趣度的微博個(gè)性化推薦[J]. 計(jì)算機(jī)應(yīng)用,2014,12:3491-3496.

Research on User Interest Model Building Based on Multi-dimensional Vector

Wang Qingfu
(Liaoning School of Administration, Shenyang 110161, China)

The construction of user's interest model has been widely applied in personalized platform. Service customization according to users' interest has vital significance. A novel way of multi-dimensional vectoris proposed to reflect user’s interest, which could reflect the user’s interest feature better. At the same time, the user's interest will change irregularly with time; what’s more, the multi-dimensional vectorcould reflect this kind of irregular change through coordinate of each dimension. The experimental result on sina resource with ten volunteersshows that the proposed algorithm could reflect the change of user’s interest accurately.

Multi-dimensional Vector; User Interest; Dynamic-irregular; Interest Model

TP391

A

2015.03.09)

1007-757X(2015)05-0039-03

王慶福(1979-),男(漢族),遼寧盤錦人,遼寧行政學(xué)院,講師,本科,研究方向:網(wǎng)絡(luò)信息平臺(tái)的設(shè)計(jì),沈陽,110161

猜你喜歡
網(wǎng)頁頁面圖譜
刷新生活的頁面
繪一張成長圖譜
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
主動(dòng)對接你思維的知識(shí)圖譜
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
雜草圖譜
同一Word文檔 縱橫頁面并存
香港 | 社会| 金堂县| 鄢陵县| 瑞丽市| 巫山县| 泰兴市| 西贡区| 咸丰县| 左权县| 汤阴县| 自贡市| 金川县| 朔州市| 张家口市| 嫩江县| 岑溪市| 宁明县| 兴宁市| 渝北区| 临沧市| 赤水市| 霍山县| 梁山县| 双城市| 平凉市| 叙永县| 柳河县| 石林| 梁山县| 聂荣县| 龙海市| 台湾省| 宁化县| 遵义市| 宝鸡市| 化隆| 山东省| 乌兰浩特市| 台山市| 沅陵县|