国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

個性化搜索用戶興趣更新學習及評價研究

2018-06-20 07:46:08徐志明
計算機技術與發(fā)展 2018年6期
關鍵詞:類別準確率個性化

宋 毅,徐志明

(1.哈爾濱華德學院 電子與信息工程學院 計算機應用技術系,黑龍江 哈爾濱 150025;2.哈爾濱工業(yè)大學 計算機學院,黑龍江 哈爾濱 150025)

0 引 言

每個用戶總體興趣是個恒定常數(shù)。人的精力是有限的,用戶興趣類別偏好也是有限的,如果對某些類興趣度高,對其他類興趣度必然降低。文中關注用戶感興趣的類別,用戶整體興趣滿足固定常數(shù),也就是隨著更新學習,用戶某些興趣可能由高到低遞減變化,而有些類別興趣由低到高遞增變化,但是用戶在整個類別偏好體系中興趣度總和個恒定常數(shù)用戶興趣能夠反映用戶主題偏好[1]。然而現(xiàn)有大部分個性化搜索引擎沒有識別用戶長期興趣和短期興趣,因此提出基于短期興趣來學習用戶長期興趣[2]。

用戶興趣隨時間變化符合一定規(guī)律,基本規(guī)律是先快后慢,先多后少,逐漸遺忘。面對興趣遺忘過程,如果興趣模型不進行更新,將會出現(xiàn)用戶興趣漂移現(xiàn)象:也就是隨著時間變化,用戶對某類興趣可能增加,對另一類興趣可能減小,也會有短期興趣積累一定時間,將會向長期興趣演變,用戶興趣需要定期更新,可使模型自動發(fā)現(xiàn)用戶的新興趣,并能適應用戶興趣的變化,從而能更好、更準確地反映用戶的真實興趣。具體更新需要對增量數(shù)據(jù)進行處理,因為如果用戶對某類興趣增加,相關文檔會增加,對新增數(shù)據(jù)的大量數(shù)據(jù)計算需要本文高效處理[3]。

1 用戶興趣更新學習方法

1.1 時間窗原理

時間窗通過時間的閾值來設定,有很多研究均采用此方案?;趦?yōu)化時間窗的用戶興趣漂移算法[4],利用分類錯誤率的變化跟蹤用戶興趣的漂移,當用戶興趣發(fā)生變化時,通過優(yōu)化時間窗算法自動調(diào)節(jié)時間窗的大小[5],用戶模型根據(jù)該值來進行改進。該算法主要通過客觀的時間來設定,因此對于用戶遺忘比較公正。目前有學者討論了個性化技術兼顧時間窗算法的模型[6]。在此,考慮長期因素,也包括短期因素,兩者兼顧觀察用戶興趣的趨勢。該機制效率良好。

1.2 相關反饋原理

為了改進用戶興趣模型的精準率,加入相關反饋知識[7]。該算法是根據(jù)原來的文本時間,當有更新文本值時,加入新的文本,同時原來文本相同的不進行更新,只更新不同的差值,這樣對于更新時間明顯減少,更新效率大大提高,對于發(fā)現(xiàn)用戶最新的興趣節(jié)省了時間。

1.3 遺忘規(guī)律

有研究學者根據(jù)遺忘規(guī)律進行衰減[8],通過不同的年齡來標識樣本信息,時間增長,標識信息的日期也增長,如果時間超出設定數(shù)值,忽略該樣本信息。改進用戶模型僅用沒有被篩選掉的數(shù)據(jù),被篩選留下的數(shù)據(jù)可以反映用戶隨時間變化的興趣規(guī)律。

1.4 更新學習思想

第一是用戶短期興趣更新學習,采用遺忘因子進行更新;第二是短期興趣向長期興趣變化更新,由于短期興趣經(jīng)過一定時期累加[9],隨著興趣度累加到一定時期[10],短期興趣會演變?yōu)殚L期興趣,面對增大的數(shù)據(jù)量,文中考慮增量學習方法,所以采用改進的Rocchio定期自動調(diào)整學習模型[11];最后是長期興趣學習:由于長期興趣具有變化緩慢、穩(wěn)定的特點,如果長時間內(nèi)長期興趣的興趣度仍然較小,可以判斷用戶對該類興趣不感興趣,可以對該類興趣進行淘汰。由此啟發(fā),聯(lián)想到操作系統(tǒng)中的最近最少使用算法(LRU)[12],對應最近一段時間內(nèi)最久沒有使用的興趣類別進行淘汰,也就是對最近一段時間內(nèi)長時間興趣度低的興趣類別進行淘汰,將新加入的興趣度高的興趣類別更新進行替換,進行長期用戶興趣更新學習。

2 短期用戶興趣更新學習

用戶興趣更新學習包括加入用戶的最新興趣和對舊興趣的遺忘[12]。實驗證明,人們在學習中遺忘是有規(guī)律的,遺忘的進程很快,并且先快后慢。觀察曲線會發(fā)現(xiàn),學得的知識在一天后如不抓緊復習,就只剩下原來的25%。隨著時間的推移,遺忘的速度減慢,遺忘的數(shù)量也就減少。有人做過一個實驗[13],兩組學生學習一段課文,甲組在學習后不復習,一天后記憶率36%,一周后只剩13%。乙組按艾賓浩斯記憶規(guī)律復習,一天后保持記憶率98%,一周后保持86%,乙組的記憶率明顯高于甲組。遺忘因子[7]F(x)如式1所示:

(1)

其中,cur為當前日期;est為興趣詞在用戶興趣庫中出現(xiàn)的最近日期;hl為減弱值。

經(jīng)過弱化,用戶興趣遺忘一半,但并不是線性遺忘,遺忘速度是先快后慢。hl可以根據(jù)大量實驗測試確定,也可以人為確定,確保在短期興趣中歷史興趣遺忘快些,長期興趣中遺忘速度適當慢些。hl短期=2,hl長期=7,隨著時間的流逝,用戶興趣也會有對應一些規(guī)律性變更,因此挖掘用戶模型也對應參數(shù)調(diào)整。隨著個性化信息推薦的發(fā)展,研究人員進行了時間參數(shù)更新的模型研究,對于存在的差異也就是興趣的偏移解決策略提出了對應方案:時間窗方法、遺忘函數(shù)方法、混合用戶模型等[14]。以上思想基本是FIFO算法原理,缺乏考慮用戶長期和短期結(jié)合的思想[14]。

實驗中,每天用戶興趣度更新都有所變化,或增大,或減小,以第7天為例,用戶興趣更新遺忘規(guī)律如圖1所示。通過圖1可以看出,用戶在第7天時,在各類興趣度都有所減小,在體育和軍事類興趣減小均等,在旅游類興趣減小幅度大,可以推測用戶在一周后對旅游領域興趣明顯降低,相對不感興趣了,而對汽車和軍事類別還是比較感興趣。

圖1 用戶興趣遺忘結(jié)果

文中將10天設定為短期用戶興趣,具體更新結(jié)果如圖2所示??梢钥闯觯w衰減速度是先快后慢,先多后少的趨勢符合人們的遺忘規(guī)律。

圖2 短期興趣更新

3 長期用戶興趣更新學習

3.1 長期興趣更新學習方法

個性化原理是按照用戶所感興趣的數(shù)據(jù),根據(jù)時間的變化以及興趣的熱點來獲取用戶興趣點,用戶實際需要的數(shù)據(jù)也會根據(jù)模型而輸出具體數(shù)值[15]。該算法通過最近最久未用方法改進用戶模型,設定閾值的尺寸為L,當有多于L個興趣出現(xiàn)時,利用“訪問的局部問題”,按照“到目前為止最少使用的興趣,很可能也就是將來最少使用的興趣”的原則,把興趣點最低的值淘汰。

3.2 長期興趣更新學習實驗

根據(jù)原理,被移除的興趣應該是那些在近期內(nèi)被再次訪問的可能性最低的興趣對象[16]。該算法優(yōu)于時間窗機制進行淘汰的方法,優(yōu)點是命中率較高。根據(jù)用戶在半個月內(nèi)在體育、軍事、教育、汽車、旅游和IT六類的興趣度淘汰表,可以計算出命中率,就是新加入興趣已在原用戶興趣序列中的命中次數(shù)與新加入興趣的總數(shù)之比。長期興趣更新結(jié)果如圖3所示。

圖3 長期興趣更新

4 實驗結(jié)果及結(jié)論

4.1 興趣度的相對誤差

興趣計算的準確程度需要衡量,所以采用傳統(tǒng)的相對誤差方法,如式2所示。

(2)

其中,E為相對誤差;V為真實興趣度;V'為測量興趣度。

表1是用戶在體育、軍事、汽車、教育、旅游和IT六類中興趣度相對誤差實驗結(jié)果,相對誤差率越小,表明興趣度越準確,用戶興趣模型性能越好。表中顯示了用戶的興趣誤差:誤差范圍在0.011之內(nèi),興趣度計算相對誤差率較低,表明用戶興趣度的計算相對準確率較高。

表1 誤差分析

4.2 查詢分類的準確率

采用傳統(tǒng)的兩個參數(shù)評價分類性能,即查準率及召回率。具體定義如式3所示。

(3)

其中,QT為查詢分類正確數(shù)量;QA為所有查詢數(shù)量。

查詢串有相應類別,文中模型的本質(zhì)是將查詢分類,以查詢分類的準確率來評價分類準確性。輸入查詢串320個,分別屬于體育、軍事、汽車、教育、旅游、IT六類,分類準確率平均值為0.86,每類分類性能如表2所示。

表2 查詢分類準確率

5 結(jié)束語

闡述了用戶興趣更新學習意義和現(xiàn)有方法,基本的用戶興趣更新學習方法包括時間窗機制、遺忘因子更新學習和最近最少使用算法等。分為短期用戶興趣更新學習和長期用戶興趣更新學習。短期興趣學習方法采用遺忘因子進行更新學習,長期興趣學習方法采用最近最少使用算法。通過更新學習,能夠動態(tài)識別用戶興趣。評價方法包括相對誤差分析方法、傳統(tǒng)的準確率方法。相對誤差值越小,查詢串分類準確率越高,說明用戶興趣模型識別用戶興趣類別越準確。相應地給出了實驗分析,并且具體評價了用戶興趣模型的性能。

參考文獻:

[1] 邢春曉,高鳳榮,戰(zhàn)思南,等.適應用戶興趣變化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2007,44(2):296-301.

[2] 費洪曉,戴 弋,穆 珺,等.基于優(yōu)化時間窗的用戶興趣

漂移方法[J].計算機工程,2008,34(16):210-211.

[3] 戰(zhàn)守義,井 新.加入時間因素的個性化信息過濾技術[J].北京理工大學學報,2005,25(9):782-785.

[4] 蔣 萍.基于用戶興趣挖掘的個性化模型研究與設計[D].蘇州:蘇州大學,2005.

[5] 史朝輝,王曉丹,楊建勛.一種SVM增量訓練淘汰算法[J].計算機工程與應用,2005,41(23):187-189.

[6] 李 娜.基于垂直搜索引擎的農(nóng)業(yè)信息推薦關鍵技術研究[D].沈陽:沈陽農(nóng)業(yè)大學,2016.

[7] 韓春曉.中文期刊個性化搜索引擎的設計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學,2014.

[8] 張梅芳.基于改進PageRank算法和用戶興趣的個性化搜索研究[D].天津:河北工業(yè)大學,2014.

[9] 王 哲.一種基于位置服務的個性化美食搜索算法研究與實現(xiàn)[D].長沙:湖南大學,2013.

[10] 黃華東.基于用戶模型的個性化搜索研究[D].上海:華東理工大學,2013.

[11] 鄧曉嘉.一種基于RSS用戶興趣的個性化搜索系統(tǒng)[D].北京:北京工業(yè)大學,2010.

[12] 石志偉,劉 濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應用,2005,41(29):180-183.

[13] QIU Feng,CHO J.Automatic identification of user interest for personalized search[C]//Proceedings of the 15th international conference on world wide web.Edinburgh,Scotland,UK:ACM,2006:23-26.

[14] KOUTRIKA G,IOANNIDISY.Personalized queries under a generalized preference model[C]//Proceedings of the 21st international conference on data engineering.Tokoyo,Japan:IEEE,2005.

[15] CLAYPOOL M,LE P,WASEDA M,et al.Implicit interest indicators[C]//Proceedings of the 6th international conference on intelligent user interfaces.Santa Fe,New Mexico,USA:ACM,2001:33-40.

[16] SHEN Xuehua,TAN Bin,ZHAI Chengxiang.Implicit user modeling for personalized search[C]//Proceedings of the 14th ACM international conference on information and knowledge management.Bremen,Germany:ACM,2015:824-831.

猜你喜歡
類別準確率個性化
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
堅持個性化的寫作
文苑(2020年4期)2020-05-30 12:35:12
新聞的個性化寫作
新聞傳播(2018年12期)2018-09-19 06:27:10
高速公路車牌識別標識站準確率驗證法
上汽大通:C2B個性化定制未來
服務類別
新校長(2016年8期)2016-01-10 06:43:59
滿足群眾的個性化需求
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
武山县| 永靖县| 无极县| 房产| 开江县| 保德县| 庆云县| 景洪市| 武邑县| 辽宁省| 谷城县| 保德县| 宿州市| 崇义县| 余江县| 赤壁市| 聊城市| 张家港市| 南平市| 闵行区| 都安| 延津县| 黑山县| 德钦县| 开平市| 万载县| 刚察县| 广州市| 三河市| 偃师市| 张家川| 田东县| 达日县| 青阳县| 泗水县| 文山县| 漠河县| 清水河县| 靖西县| 江北区| 贵溪市|