国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信任關(guān)系的微博信息個性化推薦算法

2016-10-21 03:21閆龍
電子技術(shù)與軟件工程 2016年5期
關(guān)鍵詞:信任度

閆龍

摘 要 微博巨大的用戶數(shù)量和飛速增長的海量信息帶來了微博“信息過載”問題。而目前多數(shù)研究主要是解決微博用戶關(guān)系網(wǎng)絡(luò)中的用戶推薦問題,對于微博信息的推薦還沒有行之有效的解決方法。針對上述問題,提出了一種基于微博用戶信任關(guān)系的微博信息推薦算法,將微博用戶關(guān)系數(shù)據(jù)結(jié)構(gòu)化處理并計(jì)算用戶間信任程度,基于TF-IDF計(jì)算微博信息與用戶的話題相關(guān)度,結(jié)合上述因素對用戶的微博信息列表進(jìn)行TopN推薦。實(shí)驗(yàn)表明,該方法能夠有效解決微博中的“信息過載”問題,提高用戶的信息獲取效率。

【關(guān)鍵詞】微博信息推薦 信任度 話題相關(guān)度 信息過載

微博的興起,成為Web2.0 時(shí)代一個具有代表性的網(wǎng)絡(luò)現(xiàn)象,它讓人們通過虛擬的網(wǎng)絡(luò)來獲取海量實(shí)時(shí)的信息,但正是由于用戶獲取的信息是海量的,從而出現(xiàn)了一個很嚴(yán)重的問題,就是 “信息過載”問題?!靶畔⑦^載”是指過量信息同時(shí)呈現(xiàn)使用戶很難從中獲取對自己有用的部分,使得信息使用效率降低。推薦系統(tǒng)作為解決信息過載問題的重要手段,是當(dāng)前解決社交媒體中信息超載問題的最有效的方法之一[1]。

本文的主要工作如下:

(1)利用微博中的社會化標(biāo)注計(jì)算用戶相似度,并計(jì)算用戶信任度。

(2)針對微博特點(diǎn),提出了MB-StreamRank算法,結(jié)合用戶信任度、微博信息與用戶的話題相關(guān)度、用戶對微博的操作權(quán)重以及時(shí)間衰減因素,對用戶微博信息進(jìn)行個性化排序,給出TopN推薦結(jié)果。

(3)通過在騰訊微博實(shí)際數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),MB-StreamRank算法顯示出較好的微博信息推薦性能。

1 微博數(shù)據(jù)特征描述

微博結(jié)構(gòu)信息是指用戶關(guān)系結(jié)構(gòu)信息,包括用戶關(guān)注和粉絲信息,如圖1所示。

定義1:使用有向圖定義微博中的用戶關(guān)系,其中是頂點(diǎn)集合,代表所有用戶,是邊集合,中任一有向邊表示用戶關(guān)注,而定義了邊的權(quán)重,用來表示對的信任程度。

定義2:對于任意節(jié)點(diǎn),定義為頂點(diǎn)指向的頂點(diǎn)集合,即用戶關(guān)注的用戶集合;定義為指向頂點(diǎn)的頂點(diǎn)集合,即用戶的粉絲集合。

定義3:定義帶權(quán)重的有向圖為轉(zhuǎn)發(fā)關(guān)系圖,集合中的任一邊表示用戶轉(zhuǎn)發(fā)了的微博信息,其權(quán)重定義了用戶轉(zhuǎn)發(fā)用戶的微博的次數(shù)。定義有向圖為關(guān)系圖,集合中的任一邊表示用戶了,其權(quán)重定義了用戶用戶的微博信息數(shù)目。

2 MB-StreamRank微博信息推薦算法

2.1 基于TF-IDF的話題相關(guān)性計(jì)算

Term Frequency-Inverse Document Frequency(TF-IDF)權(quán)重[2]是一種廣泛使用的對于簡單TF值進(jìn)行改進(jìn)的權(quán)重值。IDF是它的改進(jìn)部分。TF-IDF在簡單的TF值上,乘上一個項(xiàng)目文檔頻度的倒數(shù),作為向量的權(quán)重。TF-IDF降低了那些停頓詞對權(quán)重的影響。

2.2 用戶行為時(shí)間衰減

2.3 結(jié)果

基于微博用戶信任關(guān)系的MB-StreamRank算法是通過對用戶信任程度、用戶相似度和時(shí)間衰減等因素的考量,從而獲得對用戶微博信息的個性化排序,得到其TopN推薦結(jié)果。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集及預(yù)處理

本文以騰訊微博為實(shí)驗(yàn)平臺,利用其開放平臺提供的API,采集了以2012年10月18日為起點(diǎn)的三個月的的數(shù)據(jù),并將采集到的數(shù)據(jù)分為4類:

(l)用戶信息,包括用戶ID、昵稱、地址等;

(2)微博結(jié)構(gòu)信息,即用戶的關(guān)系數(shù)據(jù),包括用戶的關(guān)注列表和粉絲列表;

(3)微博信息,即用戶的微博信息列表;

(4)轉(zhuǎn)發(fā)及評論列表,即采集到的微博信息的轉(zhuǎn)發(fā)及評論列表。共采集了1251個用戶的關(guān)注結(jié)構(gòu)信息以及約合625541條微博。

3.2 推薦算法評價(jià)方法

實(shí)驗(yàn)一:確定用戶信任度的加權(quán)系數(shù)

為了確定用戶信任度的加權(quán)系數(shù),分別對且(精度為0.1)的84種可能取值情況對算法進(jìn)行測試(時(shí)間衰減因子取值0.5)。為了更好地進(jìn)行測試,本文從采集到的微博結(jié)構(gòu)信息中人工篩選了100位用戶及其關(guān)注和粉絲信息。以9:1的比例進(jìn)行訓(xùn)練和測試,并反復(fù)進(jìn)行7次,測試信任度計(jì)算結(jié)果的值。其中為給用戶提供的推薦信息,是測試集中的真實(shí)數(shù)據(jù),即用戶微博列表中用戶感興趣的信息(用戶已轉(zhuǎn)發(fā)或評論的微博信息)。

3.3 實(shí)驗(yàn)三:時(shí)間衰減因子

為了確定時(shí)間衰減因素中的衰減因子,本文從采集到的微博信息中人工篩選了50位用戶及其能夠獲取到的微博信息中的20000條數(shù)據(jù),反復(fù)7次以9:1的比例進(jìn)行訓(xùn)練和測試,計(jì)算推薦結(jié)果的值。實(shí)驗(yàn)結(jié)果表明,當(dāng)衰減因子=0.6時(shí),取得最大值0.0586。因此,針對本文的數(shù)據(jù)集,衰減因子取值為0.6。

4 結(jié)束語

通過在采集到的騰訊微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了算法效果。但由于算法部分內(nèi)容復(fù)雜度較高,所以算法還未能做到海量信息實(shí)時(shí)推薦。目前采取的是定周期離線推薦,這也是下一步要研究的一個重要問題。

參考文獻(xiàn)

[1]P.Resnick,H.R.Varian.Recommender systems,Commun.ACM,vol.40,iss.3, pp.56-58,1997.

作者單位

陜西省咸陽市渭城區(qū)清泰街郵局 陜西省咸陽市 712000

猜你喜歡
信任度
美國人對警察信任度 創(chuàng)30年新低
全球政府信任度調(diào)查:中國蟬聯(lián)第一,美國降幅最大
基于信任度的WSN信任模型研究
全球民調(diào):中國民眾對政府信任度最高
基于信任度變化趨勢的云服務(wù)選擇模型
基于信任度評估的移動自組織網(wǎng)絡(luò)路由協(xié)議
汽車養(yǎng)護(hù)品行業(yè)運(yùn)行環(huán)境分析及提高客戶信任度的途徑
2014,如何獲得信任
基于信任度函數(shù)的認(rèn)知無線電頻譜感知算法研究
媒體信任度影響因素分析
航空| 安宁市| 喀什市| 河曲县| 勐海县| 文化| 鲁甸县| 永丰县| 白玉县| 新龙县| 玛多县| 长兴县| 禹城市| 夹江县| 汉川市| 周宁县| 永州市| 湘潭县| 资溪县| 乾安县| 静安区| 双鸭山市| 西乌| 罗山县| 通道| 五莲县| 石楼县| 德阳市| 松江区| 盐亭县| 临泉县| 始兴县| 基隆市| 榆树市| 应城市| 攀枝花市| 仁布县| 禄丰县| 永福县| 定远县| 容城县|