国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新聞推薦系統(tǒng)研究綜述

2021-02-04 06:54:04
軟件導(dǎo)刊 2021年1期
關(guān)鍵詞:新穎性準(zhǔn)確度協(xié)同

(西安石油大學(xué) 計算機學(xué)院,陜西 西安 710065)

0 引言

隨著全球化和網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的人通過網(wǎng)絡(luò)渠道在線閱讀來自全球各地的新聞。然而,新聞域稀疏的用戶配置、快速增長的項目數(shù)量、加速衰減的項目價值,以及用戶偏好的動態(tài)轉(zhuǎn)移,使得各類新聞平臺的用戶越來越難選擇自己感興趣的新聞[1]。因此,如何在瞬時變化的新聞領(lǐng)域,利用一些模型和技術(shù)幫助用戶找到感興趣的新聞變得尤為重要。由此,新聞推薦系統(tǒng)應(yīng)運而生,它不是根據(jù)用戶顯式的查詢搜索對信息進(jìn)行過濾,而是根據(jù)用戶興趣主動呈現(xiàn)相關(guān)新聞。經(jīng)過20 多年的發(fā)展,新聞推薦系統(tǒng)已經(jīng)成為一種幫助用戶在信息過載情況下找到自己感興趣新聞的重要工具。

新聞推薦系統(tǒng)主要通過分析用戶的閱讀興趣偏好,幫助用戶高效獲取自己所需的新聞,被視為解決新聞領(lǐng)域信息爆炸問題的重要手段。與電影推薦等其他領(lǐng)域的推薦系統(tǒng)相比,新聞推薦面臨的問題具有獨特性,如:新聞制作頻率很高、新聞項目相關(guān)性變化較快、新聞實時性要求很高等。

1 新聞推薦系統(tǒng)關(guān)鍵技術(shù)

1.1 新聞推薦算法

1.1.1 基于內(nèi)容的推薦算法

基于內(nèi)容的推薦算法(Content-Based Filtering,CB),主要用于推薦基于文本類的項目,通常采用淺層模型分析用戶的歷史閱讀記錄,從而發(fā)現(xiàn)用戶的閱讀興趣,進(jìn)而將與用戶閱讀興趣類似且用戶評價很高的新聞作為推薦結(jié)果。該算法運用過程的核心問題是如何進(jìn)行項目相似性度量。先構(gòu)建用戶特征并計算項目間的相似度,再將最符合用戶興趣的新聞項目進(jìn)行推薦。如Goossen 等[2]結(jié)合TF-IDF與領(lǐng)域本體的語義進(jìn)行推薦;Samarinas 等[3]通過引入一種使用單詞嵌入來構(gòu)建用戶興趣模型的方法,實現(xiàn)新聞個性化推薦,一定程度上對傳統(tǒng)計算相似度算法進(jìn)行了優(yōu)化。然而,對人工特征提取的依賴制約了基于內(nèi)容的推薦算法發(fā)展,很難獲取更深層次的新聞特征和用戶行為,深度學(xué)習(xí)在基于內(nèi)容的推薦算法中的發(fā)展彌補了淺層算法的不足,已經(jīng)成為當(dāng)前研究熱點。

1.1.2 協(xié)同過濾推薦算法

協(xié)同過濾推薦算法(Collaborative Filtering,CF),是新聞推薦系統(tǒng)中應(yīng)用最廣泛的算法[4]。從本質(zhì)上講,協(xié)同過濾是一種基于用戶與項目之間的交互行為數(shù)據(jù)進(jìn)行信息過濾的方法,分為基于用戶和基于項目的協(xié)同過濾兩種算法[5]?;谟脩舻膮f(xié)同過濾是指采用均方差、皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)性等算法計算用戶相似度,進(jìn)而通過基于閾值的方法和Top-N 推薦,得到k 個最相似的用戶組成目標(biāo)用戶的最近鄰集合K,并將集合K 中用戶感興趣的且沒有接觸過的項目推薦給目標(biāo)用戶?;陧椖康膮f(xié)同過濾是指通過計算不同用戶對不同項目的評分獲得項目之間的關(guān)系。一般采用余弦向量計算項目相似度。利用帶去噪的堆疊自動編碼器的CF 方法、考慮用戶行為時間排序協(xié)同過濾推薦算法等基于CF 的改進(jìn)算法在一定程度上提高了推薦系統(tǒng)的性能[5-6]。

1.1.3 基于知識的推薦算法

基于知識的推薦(Knowledge-based Technoques,KB),可看作是一種不依賴于大量項目或用戶統(tǒng)計數(shù)據(jù),而是直接將用戶偏好映射到被推薦新聞項目上的推理技術(shù)?;谥R的推薦具有很強的交互性,用戶只需要對某個新聞項目有簡單的反饋,系統(tǒng)將通過有效的搜索策略進(jìn)行推薦。

1.1.4 混合新聞推薦算法

相比于上述3 種推薦算法,將基于內(nèi)容和協(xié)同過濾的算法采取加權(quán)、切換、混雜、層疊、級聯(lián)、特征組合和特征補充混合策略而得到的混合推薦算法具有更大的推薦優(yōu)勢?;旌纤惴軌蚱胶忸A(yù)測精度和其他質(zhì)量因素,如新穎性或多樣性,進(jìn)而提高系統(tǒng)推薦效率。如:Jonnalagedda 等[7]根據(jù)新聞的受歡迎程度與用戶配置文件的相關(guān)性向用戶進(jìn)行新聞推薦;Hao 等[8]通過混合算法為用戶提供了一種能夠減少網(wǎng)絡(luò)瀏覽中重復(fù)單調(diào)內(nèi)容的工具。

1.2 新聞推薦算法比較

4 種關(guān)鍵新聞推薦算法的優(yōu)缺點如表1 所示。

Table 1 Comparison of advantuges and disadvantages of news recommendation algorithms表1 新聞推薦算法優(yōu)缺點對比

2 新聞推薦系統(tǒng)效用評價

新聞推薦系統(tǒng)的性能評價是為以后更好地完善技術(shù)手段,以便得到更有效的推薦系統(tǒng)。而數(shù)據(jù)集和評價指標(biāo)是進(jìn)行新聞推薦系統(tǒng)性能測試的兩個關(guān)鍵因素。

2.1 常用數(shù)據(jù)集

目前,新聞推薦系統(tǒng)進(jìn)行效用評價依賴的常用數(shù)據(jù)集,主要有加州大學(xué)歐文分校推出的UCI 數(shù)據(jù)集、由Come?ToMyHead 搜集的AG 數(shù)據(jù)庫、雅虎推出的“雅虎新聞推薦”數(shù)據(jù)集以及新聞推薦領(lǐng)域最好的Adressa 數(shù)據(jù)集等。如Del corso 等[10]從comeToMyHead 中提取新聞數(shù)據(jù);Gulla等[11]對Adressa 精簡新聞數(shù)據(jù)集進(jìn)行了介紹,該數(shù)據(jù)集支持各種類型的新聞推薦。

2.2 評價指標(biāo)

推薦系統(tǒng)通常通過以下3 種方法之一進(jìn)行評估:①基于歷史數(shù)據(jù)的離線實驗和模擬,Maksai 等[12]進(jìn)行實驗時將數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集;②實驗室研究,李增等[13]通過實驗室研究驗證推薦結(jié)果;③真實網(wǎng)站上的A/B測試,Wang 等[14]在在線新聞平臺上進(jìn)行大量實驗。本文從準(zhǔn)確度和非準(zhǔn)確度指標(biāo)兩方面對新聞推薦系統(tǒng)評價指標(biāo)進(jìn)行論述。

2.2.1 準(zhǔn)確度指標(biāo)

(1)預(yù)測準(zhǔn)確度指標(biāo)。預(yù)測準(zhǔn)確度指推薦系統(tǒng)的預(yù)測評級與真實用戶評級的接近程度。其中,最典型的評估指標(biāo)有平均絕對誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)以及歸一化平均絕對誤差(NMAE)。預(yù)測準(zhǔn)確度評估指標(biāo)數(shù)值越低,則預(yù)測準(zhǔn)確度越高。

(2)分類準(zhǔn)確度指標(biāo)。分類準(zhǔn)確度指推薦系統(tǒng)對一個項目作出正確或錯誤決定的頻率。評估指標(biāo)包括準(zhǔn)確率、召回率、F1 指標(biāo)。準(zhǔn)確率越高,即推薦系統(tǒng)預(yù)測項目中目標(biāo)項目所占比例越高,但此時召回率越低。因此,在不同情況下需要判斷是準(zhǔn)確率高還是召回率高才能滿足自己的需求。F1 指標(biāo)即為準(zhǔn)確率和召回率的調(diào)和平均值,是一個可以反映整體情況的指標(biāo)。

(3)排序準(zhǔn)確度指標(biāo)。排序準(zhǔn)確度是為了評估用戶對推薦系統(tǒng)生成的推薦列表排序的滿意程度,更適用于評估需向用戶呈現(xiàn)排名列表的推薦系統(tǒng)。

2.2.2 非準(zhǔn)確度指標(biāo)

(1)覆蓋率。覆蓋率(Coverage)指推薦系統(tǒng)能夠推薦出來的項目占總項目集合的比例,旨在評估推薦系統(tǒng)挖掘長尾項目的能力。但該定義過于粗略,為了更好地描述覆蓋率,故引入信息論中信息熵和經(jīng)濟(jì)學(xué)中的基尼系數(shù),計算推薦列表中各項目出現(xiàn)次數(shù)的分布情況。若分布較平,則覆蓋率較高。

(2)新穎性。根據(jù)用戶歷史興趣進(jìn)行新聞推薦,其結(jié)果往往會缺乏“驚喜感”。21 世紀(jì)初,Herlocker 等[15]最先提出新穎性推薦的概念,即向用戶推薦不太流行的產(chǎn)品。新穎性可通過新聞項目的流行度或推薦項目與用戶的距離進(jìn)行度量,新穎性越高,準(zhǔn)確性指標(biāo)就會受到一定的挑戰(zhàn),因此現(xiàn)有研究通常對新穎性和準(zhǔn)確性指標(biāo)進(jìn)行加權(quán)測試,以便得到更高的效用評價效果。目前,關(guān)于新穎性的研究較少,可作為未來研究重點。

(3)多樣性。由于用戶的興趣偏好是廣泛的,為了提高用戶對推薦結(jié)果的滿意度,新聞推薦系統(tǒng)應(yīng)生成多樣化的推薦列表,因此多樣性也成為預(yù)測新聞推薦系統(tǒng)性能的指標(biāo)之一[16]。同新穎性類似,多樣性和準(zhǔn)確性之間也需要進(jìn)行平衡,并且,多樣性的程度也應(yīng)考慮不同用戶的偏好廣泛程度。

(4)魯棒性。新聞推薦系統(tǒng)的魯棒性是衡量系統(tǒng)抗擊作弊能力的指標(biāo),主要通過比較添加噪聲(如對抗訓(xùn)練)后產(chǎn)生的推薦列表和原推薦列表相似度驗證系統(tǒng)的魯棒性。如:將知識圖表示方法融入新聞推薦的深度知識感知網(wǎng)絡(luò),在實際應(yīng)用中具有魯棒性和穩(wěn)定性[14]。

3 新聞推薦領(lǐng)域面臨的挑戰(zhàn)

本文對新聞推薦領(lǐng)域面臨的一些主要挑戰(zhàn)進(jìn)行了分析,這些挑戰(zhàn)可作為未來重點研究方向。

3.1 數(shù)據(jù)稀疏性

由于大型新聞推薦系統(tǒng)項目數(shù)量巨大,用戶之間數(shù)據(jù)重疊率極低,故存在數(shù)據(jù)稀疏性問題。盡管通過用戶聚類和項目聚類技術(shù)推薦[17]、基于排序的地理因子分解[18]、利用RapidMiner 工具實現(xiàn)的協(xié)同過濾推薦[19]等方法可緩解新聞推薦系統(tǒng)的數(shù)據(jù)稀疏性。但推薦系統(tǒng)數(shù)據(jù)庫中急劇增加的用戶數(shù)量新聞特征使得推薦質(zhì)量越來越差,稀疏性問題更加凸顯。由此可見,數(shù)據(jù)稀疏性問題亟待解決。

3.2 冷啟動問題

冷啟動是指當(dāng)一個用戶與新的推薦系統(tǒng)交互時,該系統(tǒng)沒有任何可利用的用戶興趣偏好以生成推薦項目,往往產(chǎn)生于協(xié)同過濾算法。常見處理方式是在推薦過程中加入關(guān)于用戶的上下文信息,如用戶位置信息、訪問時間等。Pereira 等[20]將人口統(tǒng)計信息與協(xié)同過濾推薦相結(jié)合,有助于緩解用戶冷啟動問題。Lei 等[21]通過超圖學(xué)習(xí)進(jìn)行新聞推薦,該算法能夠緩解新聞推薦中的冷啟動問題,但系統(tǒng)可伸縮性較差。故冷啟動問題仍然需要不斷探索,以便提高用戶對新推薦系統(tǒng)的感知價值。

3.3 用戶興趣漂移

用戶興趣漂移即指用戶的興趣偏好隨時間推移而發(fā)生變化的現(xiàn)象。人們對音樂、電影或書籍的喜好在短時間內(nèi)通常會有輕微差異,但在新聞領(lǐng)域,人們的閱讀偏好會受到外界環(huán)境、年齡、文化水平甚至情緒的影響[22]。袁仁進(jìn)等[23]為緩解新聞推薦系統(tǒng)的用戶興趣漂移,提出了一種面向新聞推薦用戶的興趣模型與更新方法,但還難以解釋F 值呈現(xiàn)先高后低的現(xiàn)象。因此,持續(xù)研究用戶興趣偏好實時更新模型、平衡長期偏好和短期偏好對新聞推薦系統(tǒng)的發(fā)展也是一項真正的挑戰(zhàn)。

3.4 可伸縮性問題

可伸縮性能衡量新聞推薦系統(tǒng)擴(kuò)展過程中系統(tǒng)的計算處理能力。大型新聞網(wǎng)站每天需要處理海量數(shù)據(jù),一般通過應(yīng)用不同類型的集群技術(shù)進(jìn)行聚類以提高系統(tǒng)可伸縮性?,F(xiàn)有研究[24]針對新聞推薦系統(tǒng)的可伸縮性問題提出了多種聚類技術(shù);Kucha? 等[25]提出基于關(guān)聯(lián)規(guī)則作為分類器的方法可提高系統(tǒng)可伸縮性,但評估結(jié)果并不好;Ver?bitskiy 等[26]使用Akka 框架實現(xiàn)了基于時間窗口的新聞推薦算法,具有良好的可伸縮性,但該推薦算法點擊通過率過低。聚類可以加快計算速率,但它也可能降低系統(tǒng)準(zhǔn)確性。因此,如何平衡系統(tǒng)準(zhǔn)確性和可伸縮性也是目前一大難點。

4 結(jié)語

隨著網(wǎng)絡(luò)新聞資源的日益普及,在高度動態(tài)的新聞領(lǐng)域中,新聞推薦系統(tǒng)必將是眾多學(xué)者的研究熱點。本文對現(xiàn)有新聞推薦系統(tǒng)相關(guān)研究進(jìn)行了回顧,從新聞推薦系統(tǒng)關(guān)鍵技術(shù)、主要評價指標(biāo)和面臨的挑戰(zhàn)等方面進(jìn)行了多角度論述。如何優(yōu)化算法以提高推薦系統(tǒng)性能?如何應(yīng)對數(shù)據(jù)稀疏、冷啟動、用戶興趣漂移和可伸縮性等新聞推薦中的挑戰(zhàn)?此類問題均將是今后的重點研究方向。

猜你喜歡
新穎性準(zhǔn)確度協(xié)同
蜀道難:車與路的協(xié)同進(jìn)化
外觀新穎性對消費者購買意愿的影響:自我建構(gòu)與產(chǎn)品類型的調(diào)節(jié)效應(yīng)
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
建筑科技(2018年6期)2018-08-30 03:40:54
日本計劃將新穎性寬限期延長至12個月
三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
動態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實意義
協(xié)同進(jìn)化
高爐重量布料準(zhǔn)確度的提高
天津冶金(2014年4期)2014-02-28 16:52:58
對電子天平的誤差及保證其稱量準(zhǔn)確度的探討
機電信息(2014年35期)2014-02-27 15:54:30
四平市| 岐山县| 岗巴县| 奉节县| 庆元县| 白沙| 新巴尔虎左旗| 工布江达县| 鄂托克前旗| 柘城县| 民县| 静乐县| 二连浩特市| 吕梁市| 榆中县| 重庆市| 威海市| 黄浦区| 太仆寺旗| 合水县| 济南市| 出国| 揭阳市| 长治县| 萨嘎县| 苗栗县| 祥云县| 长宁区| 上高县| 新邵县| 吉木乃县| 台安县| 道真| 靖宇县| 乌拉特中旗| 军事| 苍梧县| 龙泉市| 宕昌县| 公安县| 襄垣县|