国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于瀏覽記錄的個(gè)性化新聞推薦實(shí)證分析

2024-03-05 04:50高小虎孫克爭(zhēng)
黑龍江科學(xué) 2024年3期
關(guān)鍵詞:物品個(gè)性化協(xié)同

王 妍,高小虎,孫克爭(zhēng)

(江蘇商貿(mào)職業(yè)學(xué)院,江蘇 南通 226011)

0 引言

隨著信息技術(shù)的發(fā)展,短視頻開(kāi)始興起,并時(shí)時(shí)刻刻在生產(chǎn)網(wǎng)絡(luò)新聞。網(wǎng)絡(luò)新聞具有傳播速度快、互動(dòng)性強(qiáng)、信息量大、時(shí)效性強(qiáng)等特點(diǎn),閱讀網(wǎng)絡(luò)新聞已經(jīng)成為人們?cè)鲩L(zhǎng)知識(shí)、了解世界動(dòng)態(tài)的重要方式。用戶閱讀網(wǎng)絡(luò)新聞時(shí)一般選擇自己熟悉或知名的網(wǎng)絡(luò)平臺(tái),在瀏覽時(shí)往往具有隨意性,除了自身感興趣的主題外會(huì)瀏覽近期熱點(diǎn)新聞話題。如何向用戶推薦符合其喜好的新聞成為各大網(wǎng)絡(luò)平臺(tái)提高核心競(jìng)爭(zhēng)力的關(guān)鍵,新聞網(wǎng)站需要精準(zhǔn)快速地向用戶推薦個(gè)性化新聞,優(yōu)化用戶體驗(yàn)感,減少用戶搜索新聞的時(shí)間。劉佳茵基于知識(shí)圖譜構(gòu)建了個(gè)性化新聞推薦模型,可以給用戶推薦符合其偏好的新聞。胡凱達(dá)提出了改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò)算法模型,并結(jié)合用戶的興趣特征進(jìn)行新聞推薦。不同的推薦算法有著不同的適用范圍和優(yōu)缺點(diǎn),目前的個(gè)性化新聞推薦系統(tǒng)可以分為兩種,即基于內(nèi)容的個(gè)性化新聞推薦和基于協(xié)同過(guò)濾的個(gè)性化新聞推薦?;趦?nèi)容的個(gè)性化新聞推薦是指對(duì)新聞?dòng)涗浐陀脩魯?shù)據(jù)進(jìn)行建模,對(duì)用戶曾經(jīng)瀏覽過(guò)的新聞進(jìn)行分析,找尋與該新聞相似的新聞并將其推薦給用戶?;趨f(xié)同過(guò)濾的個(gè)性化新聞推薦則更注重用戶的歷史行為,可以通過(guò)用戶的歷史行為來(lái)預(yù)測(cè)其未來(lái)的行為,進(jìn)而向用戶推薦個(gè)性化的新聞內(nèi)容。基于物品的協(xié)同過(guò)濾推薦算法建立個(gè)性化新聞推薦模型,是對(duì)優(yōu)化推薦模型的探索,有利于進(jìn)一步優(yōu)化個(gè)性化新聞推薦系統(tǒng),提高新聞網(wǎng)絡(luò)平臺(tái)的競(jìng)爭(zhēng)力。

1 基于物品的協(xié)同過(guò)濾推薦算法

協(xié)同過(guò)濾推薦算法的原理是用戶會(huì)喜歡與自己興趣愛(ài)好相似(同樣的歷史行為)用戶喜歡的物品,如某個(gè)用戶的朋友喜歡電影《流浪地球》,該算法就會(huì)推薦電影《流浪地球》給該用戶。協(xié)同過(guò)濾推薦算法主要分為兩種,即基于用戶的協(xié)同過(guò)濾推薦算法和基于物品的協(xié)同過(guò)濾推薦算法。

基于物品的協(xié)同過(guò)濾推薦算法是各大新聞門(mén)戶網(wǎng)站普遍使用的推薦算法,亞馬遜、Netfix、YouTube的推薦算法都是對(duì)基于物品的協(xié)同過(guò)濾推薦算法的改進(jìn)。基于物品的協(xié)同過(guò)濾推薦算法不再測(cè)量用戶間的相似度,而是計(jì)算物品間的相似度,如用戶在網(wǎng)上商城購(gòu)買(mǎi)了一款手機(jī),網(wǎng)頁(yè)就會(huì)向用戶推薦這款手機(jī)的手機(jī)殼?;谖锲返膮f(xié)同過(guò)濾推薦算法能夠計(jì)算出手機(jī)殼與手機(jī)之間具有很大的相似度,所以推薦手機(jī)殼。該算法是向用戶推薦與其過(guò)去喜歡的物品相似的物品,通過(guò)分析用戶的行為記錄演算出物品與物品間的相似度數(shù)值,而不是簡(jiǎn)單地利用物品本身的特征來(lái)計(jì)算,即對(duì)物品a有興趣的用戶大概率對(duì)物品b也有興趣才會(huì)認(rèn)為物品a和物品b具有相似性?;谖锲返膮f(xié)同過(guò)濾推薦算法的概念示意圖詳見(jiàn)圖1,具體步驟為:①基于用戶過(guò)往的行為特征,求出某一物品與另一物品之間的相似度數(shù)值。②憑借物品之間的相似度數(shù)值和用戶過(guò)往的行為特征生成推薦列表。

圖1 基于物品的協(xié)同過(guò)濾推薦算法的概念示意圖Fig.1 Conceptual diagram of item-based collaborative filtering recommendation algorithm

如表1所示,用戶X喜愛(ài)物品甲與物品丙,用戶Y喜愛(ài)物品甲、物品乙和物品丙,用戶Z喜愛(ài)物品甲,通過(guò)分析可確定物品甲與物品丙比較相似,喜愛(ài)物品甲的人也可能喜愛(ài)物品丙,由此推斷出用戶Z大概率也會(huì)喜愛(ài)物品丙,所以將物品丙推薦給用戶Z。

表1 基于物品的協(xié)同過(guò)濾推薦Tab.1 Collaborative filtering recommendations based on items

基于物品的協(xié)同過(guò)濾推薦算法根據(jù)用戶的歷史行為向用戶做推薦解釋,可信度較高,用戶只要對(duì)一個(gè)物品產(chǎn)生行為,即向其推薦與該物品相關(guān)的其他物品,使推薦更加個(gè)性化,能反映出某位用戶的興趣傳承。該算法適用于物品數(shù)量少但用戶數(shù)量多的情況,可以用來(lái)進(jìn)行個(gè)性化新聞推薦。

2 數(shù)據(jù)來(lái)源說(shuō)明

為驗(yàn)證基于物品的協(xié)同過(guò)濾推薦算法的推薦效果,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從某新聞網(wǎng)站上抓取309 907條可用新聞瀏覽記錄,每一條記錄有5個(gè)特征,分別為用戶編號(hào)(user_id)、新聞編號(hào)(news_id)、新聞標(biāo)題(news_title)、新聞發(fā)布時(shí)間(news_times)與新聞詳細(xì)內(nèi)容(news_all)。用戶編號(hào)是用戶唯一標(biāo)識(shí),已做脫敏化處理,新聞編號(hào)是新聞唯一標(biāo)識(shí)。詳見(jiàn)表2。

表2 部分原始數(shù)據(jù)Tab.2 Part of original data

3 實(shí)證分析

以Anaconda為實(shí)驗(yàn)研究平臺(tái),該平臺(tái)中包括眾多流行的數(shù)據(jù)分析Python庫(kù)。通過(guò)構(gòu)建基于物品的協(xié)同過(guò)濾推薦模型,計(jì)算新聞A和新聞B之間的相似度,最后基于相似度矩陣向目標(biāo)用戶推薦與其喜歡的新聞相似度高的其他新聞,主要包括劃分?jǐn)?shù)據(jù)集、構(gòu)建物品相似度矩陣并計(jì)算物品間的相似度、基于相似度矩陣進(jìn)行推薦三個(gè)步驟。詳見(jiàn)圖2。

圖2 總流程圖Fig.2 General flow chart

使用pandas庫(kù)中的read_csv函數(shù)讀取數(shù)據(jù)集,對(duì)數(shù)據(jù)集中的新聞?lì)愋瓦M(jìn)行識(shí)別,新聞?lì)愋涂煞譃槿珗D或視頻、圖文一體和全文本三種,數(shù)據(jù)集中各類型新聞在整個(gè)數(shù)據(jù)集中的占比。詳見(jiàn)表3。

表3 新聞?lì)愋头植糡ab.3 News type distribution

為更好地了解不同新聞?lì)愋偷臑g覽量分布情況,使用Matplotlib庫(kù)中pyplot模塊的pie函數(shù)繪制瀏覽量分布餅圖,其中全文本類型的新聞瀏覽量最多,詳見(jiàn)圖3。

圖3 不同新聞?lì)愋偷臑g覽量分布Fig.3 Page view distribution of different news types

對(duì)數(shù)據(jù)集中的新聞?lì)愋秃蜑g覽量進(jìn)行計(jì)數(shù),結(jié)果顯示,9267條新聞共產(chǎn)生了309 907條新聞瀏覽記錄。瀏覽記錄數(shù)據(jù)中存在的重復(fù)數(shù)據(jù)會(huì)消耗計(jì)算資源,使分析結(jié)果產(chǎn)生偏差,故先對(duì)其進(jìn)行預(yù)處理:只看1~2條新聞的用戶大都為隨機(jī)點(diǎn)擊網(wǎng)頁(yè)查看新聞,可將此類用戶定義為“游客”,若將這類用戶數(shù)據(jù)納入模型進(jìn)行訓(xùn)練,將導(dǎo)致建模時(shí)出現(xiàn)相似度矩陣過(guò)于稀疏、計(jì)算開(kāi)銷龐大和預(yù)測(cè)結(jié)果精確率較低等情況,因此篩選出查看新聞條數(shù)≥3條的用戶數(shù)據(jù)用于模型訓(xùn)練。在構(gòu)建模型前隨機(jī)抽取數(shù)據(jù)集中的數(shù)據(jù),按7∶3的比例將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集的數(shù)據(jù)用于訓(xùn)練模型,測(cè)試集的數(shù)據(jù)用于模型評(píng)估。詳見(jiàn)圖4。

圖4 預(yù)處理后數(shù)據(jù)集中的數(shù)據(jù)情況Fig.4 Data in the preprocessed data set

原始數(shù)據(jù)中只記錄了用戶瀏覽新聞的時(shí)間及內(nèi)容,并未對(duì)新聞進(jìn)行相應(yīng)的評(píng)分或評(píng)論,因此采用杰卡德相似度計(jì)算物品與物品間的相似度,詳見(jiàn)式1:

(1)

式中,|N(i)|表示喜歡物品i的用戶數(shù),|N(j)|表示喜歡物品j的用戶數(shù),|N(i)∩N(j)|表示同時(shí)喜歡物品i和物品j的用戶數(shù),|N(i)∪N(j)|表示喜歡物品i或物品j的用戶數(shù)。從式中可以看出,物品i和物品j相似,因?yàn)樗鼈兺瑫r(shí)被多個(gè)用戶共同喜歡,喜歡它們的用戶人數(shù)越多物品間的相似性就越高。

基于物品的協(xié)同過(guò)濾推薦算法,運(yùn)用式(2)計(jì)算出用戶u對(duì)物品j的喜歡程度:

Puj=∑i∈N(u)∩S(j,k)Wjirui

(2)

式中,N(u)表示所有用戶喜愛(ài)的物品的總集合,S(j,k)表示與物品j最為類似的k個(gè)物品的所在集合,Wji表示物品j和物品i的相似度,rui表示用戶u對(duì)物品i的喜歡程度。該公式的含義為與用戶曾經(jīng)最喜歡的物品相似度越高的物品在對(duì)該用戶進(jìn)行推薦的列表中排名越靠前。

生成推薦列表時(shí),有時(shí)需要使用熱點(diǎn)新聞補(bǔ)充個(gè)性化推薦的結(jié)果,這是因?yàn)椴糠中侣劦狞c(diǎn)擊量過(guò)少,與其最相似的k條新聞中存在相似度為0的新聞,此時(shí)僅保留相似度大于0的k1條可推薦新聞,再推薦k-k1條熱點(diǎn)新聞。測(cè)試集中,由于部分新聞不在訓(xùn)練集的相似度矩陣中,無(wú)法根據(jù)相似度矩陣進(jìn)行推薦,因此推薦k條熱點(diǎn)新聞作為替代。

根據(jù)訓(xùn)練集中的物品相似度矩陣對(duì)測(cè)試集用戶進(jìn)行推薦,利用離線測(cè)試集構(gòu)造模型評(píng)估指標(biāo),重點(diǎn)關(guān)注指標(biāo)中的精確率,即真正在測(cè)試集中被用戶瀏覽的新聞數(shù)與推薦給用戶的新聞數(shù)的比率。選定測(cè)試方法和指標(biāo)后,對(duì)編號(hào)(user_id)為174944的用戶及其瀏覽的新聞進(jìn)行測(cè)試,獲取用戶實(shí)際瀏覽的新聞。詳見(jiàn)表4、表5。

表4 174944用戶實(shí)際瀏覽的新聞Tab.4 Actual reviewed news of user 174944

表5 174944用戶推薦的新聞Tab.5 Recommended news of user 174944

與新聞40相似的新聞?dòng)?12、26、84、2129、6、353、487、54、1369,其中54是用戶已經(jīng)瀏覽過(guò)的新聞,精確率為8%。采用隨機(jī)推薦算法,針對(duì)6027條新聞進(jìn)行計(jì)算,精確率約為0.016%,說(shuō)明即便在小樣本空間中,基于物品的協(xié)同過(guò)濾推薦算法也可以有效提高推薦的精確率,且隨著樣本空間的增大,該算法會(huì)更有效,精確率也會(huì)繼續(xù)提升。

4 結(jié)論

基于物品的協(xié)同過(guò)濾推薦算法通過(guò)用戶的新聞網(wǎng)站瀏覽記錄實(shí)現(xiàn)個(gè)性化新聞的智能推薦,即根據(jù)用戶的瀏覽記錄進(jìn)行用戶畫(huà)像,向用戶推薦與其曾經(jīng)喜歡的物品相似度較高的物品,從而提高個(gè)性化新聞推薦的精準(zhǔn)度。與隨機(jī)推薦算法相比,基于物品的協(xié)同過(guò)濾推薦算法效果更好,推薦精確率更高,但該算法一定程度上忽視了新聞的時(shí)效性,在后續(xù)的研究中還需進(jìn)行改進(jìn)。

猜你喜歡
物品個(gè)性化協(xié)同
稱物品
“雙十一”,你搶到了想要的物品嗎?
蜀道難:車(chē)與路的協(xié)同進(jìn)化
堅(jiān)持個(gè)性化的寫(xiě)作
誰(shuí)動(dòng)了凡·高的物品
“四化”協(xié)同才有出路
新聞的個(gè)性化寫(xiě)作
上汽大通:C2B個(gè)性化定制未來(lái)
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
找物品
肥城市| 克山县| 武定县| 乌兰浩特市| 望谟县| 鄯善县| 隆林| 石门县| 右玉县| 云龙县| 霍林郭勒市| 安顺市| 霍州市| 无为县| 白玉县| 洛川县| 阿合奇县| 金坛市| 永安市| 清丰县| 新郑市| 新龙县| 梁河县| 田阳县| 长乐市| 乌审旗| 武定县| 九台市| 尖扎县| 会同县| 和龙市| 图木舒克市| 皮山县| 隆昌县| 平原县| 喀喇| 沁阳市| 定边县| 崇明县| 寻乌县| 镇平县|