個性化新聞推薦技術(shù)研究

2023-01-11 11:40胡箐妍

中國傳媒科技 2022年7期

胡箐妍

（河南日報報業(yè)集團，河南鄭州 450001）

導(dǎo)語

20年以來，報業(yè)經(jīng)歷了一場巨大的變革。計算機和互聯(lián)網(wǎng)技術(shù)的發(fā)展允許出版商實時發(fā)布新的內(nèi)容，從而提高發(fā)布速度。移動互聯(lián)網(wǎng)的迅速普及，讀者可以通過便捷的移動設(shè)備獲得各種新聞信息，由此導(dǎo)致各種在線新聞平臺的用戶數(shù)量不斷增加。萬維網(wǎng)無處不在的特性導(dǎo)致了在線新聞文章的激增，越來越多的人習(xí)慣于閱讀在線新聞，訪問他們喜歡的報紙網(wǎng)站或瀏覽新聞聚合網(wǎng)站。

然而，不斷產(chǎn)生的大量新聞信息和不斷提高的更新頻率可能會使用戶越來越難以找到他們真正感興趣的內(nèi)容。網(wǎng)絡(luò)新聞媒體順應(yīng)時代發(fā)展需要，不斷創(chuàng)新報道形式和推送方法，為用戶帶來更加直觀、翔實的新聞。于是新聞推薦系統(tǒng)就應(yīng)運而生了，其目標(biāo)是以個性化的方式向用戶推薦新聞，在合適的時間推薦合適的新聞文章。[1]由于其實用性，在過去20年中，研究者提出了各種方法來構(gòu)建此類推薦系統(tǒng)。

1.新聞推薦概述

信息過載，面對互聯(lián)網(wǎng)上海量的新聞信息，用戶難以獲得自己真正感興趣的信息，新聞推薦系統(tǒng)的研究正是為了解決用戶的這一痛點。依據(jù)個人的興趣偏好而量身定制的個性化新聞推薦系統(tǒng)則更好地改善了用戶的使用體驗，成為新聞推薦的主流技術(shù)。

推薦系統(tǒng)主要由三部分構(gòu)成，它們分別是用戶、項目（即推薦對象）和推薦算法。收集整理用戶和項目數(shù)據(jù)是推薦系統(tǒng)的第一步工作，接下來通過數(shù)據(jù)挖掘算法，分析數(shù)據(jù)之間隱含的關(guān)聯(lián)性，獲得用戶的興趣偏好，最后推薦算法把用戶真正感興趣的項目推送給用戶。如何利用用戶和項目數(shù)據(jù)來為用戶建立完善的興趣模型，采用什么推薦算法來精準(zhǔn)匹配項目和用戶興趣十分關(guān)鍵，在整個推薦系統(tǒng)中推薦算法最為重要。

不同于一般的推薦系統(tǒng)，新聞推薦技術(shù)有其獨有的特點：一是時效性強，更新速度快，即其生命周期短暫，可能只有幾天或幾個小時甚至更短；二是新聞領(lǐng)域的用戶很容易受到流行和熱點新聞的影響；三是用戶興趣一直處于不斷變化之中。目前常見的新聞推薦方法包括：基于內(nèi)容的推薦、協(xié)同過濾推薦、混合推薦和基于深度學(xué)習(xí)的推薦。

2.推薦方法

2.1 基于內(nèi)容的推薦

基于內(nèi)容的推薦算法直觀易懂，推薦用戶喜歡的項目。其基本原理是：首先依據(jù)用戶的個人基本信息和歷史點擊行為，提取關(guān)鍵詞，經(jīng)過分析統(tǒng)計，進而獲得用戶的喜好，然后過濾出與用戶感興趣內(nèi)容相似度較高的項目，即嘗試推薦類似于給定用戶過去喜歡的項目。[1]常用的方法是在同一特征空間下表示用戶和項目，利用項目信息和用戶個人信息，了解用戶和項目的潛在特征，用戶個人信息包括人口統(tǒng)計信息（如性別、種族、年齡、地域、收入、受教育程度、健康狀況和愛好等）和用戶對項目的操作行為（如評論、收藏、點贊、觀看、瀏覽、點擊等）。接下來利用上一步獲得的信息計算用戶和項目之間的相似度。最后基于相似度值為用戶推薦相似度得分高的項目。常用的相似性度量標(biāo)準(zhǔn)有重疊系數(shù)（Overlap Coefficient）、杰卡德相似性（Jaccard Similarity）和余弦相似性（Cosine Similarity）。當(dāng)用戶有大量歷史記錄可供學(xué)習(xí)時，基于內(nèi)容的過濾方法通常表現(xiàn)良好。通過這種方式，即使交互行為很少的用戶，他的偏好仍然可以以某種方式被挖掘出來。通?；趦?nèi)容的推薦算法只依賴于用戶自身的行為，不涉及其他用戶。最早被應(yīng)用于工程項目的就是基于內(nèi)容的推薦算法，并有大量的成功應(yīng)用案例。

基于內(nèi)容的推薦算法被大量應(yīng)用是因為其具備以下三個優(yōu)點：一是不存在冷啟動的問題；二是提高了推薦系統(tǒng)工作方式的透明度，并且推薦很容易解釋；三是算法不需要用戶評分?jǐn)?shù)據(jù)，數(shù)據(jù)稀疏性不會影響到推薦結(jié)果。因此，用戶對算法提供的建議有很高的接受度。

然而，基于內(nèi)容的推薦算法也有其自身的缺點，它只會推薦相同類型的項目，存在過度專業(yè)化的問題，不能適應(yīng)用戶興趣的變化，推薦的新聞往往因為過于相似而缺乏進一步挖掘用戶潛在興趣的能力，這被稱作泡沫效應(yīng)。當(dāng)訪問新聞網(wǎng)站時，用戶可能正在尋找他以前不知道的新信息，缺乏新聞多樣性可能導(dǎo)致用戶體驗差。對新聞多樣性進行建模是解決過度專業(yè)化問題的典型方法，為用戶推薦主題多樣的新聞文章。

2.2 協(xié)同過濾推薦

協(xié)同過濾推薦技術(shù)通過收集群體偏好為用戶自動提供推薦結(jié)果。它使用用戶過去與項目的交互行為來預(yù)測最相關(guān)的內(nèi)容，而與被推薦新聞的內(nèi)容無關(guān)。通過收集來自多個相關(guān)用戶的交互行為，對用戶興趣進行自動預(yù)測（即過濾）。[2]

根據(jù)算法模型計算的相似性主體的不同，協(xié)同過濾推薦又可以分為兩種，基于用戶的協(xié)同過濾推薦和基于項目的協(xié)同過濾推薦。

一是基于用戶的協(xié)同過濾推薦算法，其基本思想是：首先根據(jù)用戶對項目的評價數(shù)據(jù)，發(fā)現(xiàn)目標(biāo)用戶的相似用戶，然后把相似用戶感興趣的項目推薦給目標(biāo)用戶。由于具備挖掘用戶興趣偏好和項目間關(guān)聯(lián)度的能力，該方法推薦的準(zhǔn)確度較高。但是隨著用戶量的增加會導(dǎo)致計算量的增加，從而降低推薦的效率。另外該算法很容易忽略新聞的本身特性，如時效性，通常新聞服務(wù)中90%的文章在兩天后就不再推薦給用戶。

二是基于項目的協(xié)同過濾推薦算法，其基本思想是：根據(jù)目標(biāo)用戶所屬的群體對項目的交互行為，發(fā)現(xiàn)相似項目，并為目標(biāo)用戶推薦相似度高的項目。僅僅根據(jù)用戶對項目的交互行為來挖掘項目的相似性，特征維度太低，導(dǎo)致推薦精度不夠理想。由于算法沒有考慮到用戶的個性特征，從而會出現(xiàn)把大量同一種相似的新聞推薦給用戶的現(xiàn)象。

協(xié)同過濾方法的主要瓶頸是數(shù)據(jù)稀疏性問題和冷啟動問題，這對新聞閱讀場景尤其如此。在提供高質(zhì)量的推薦之前，它需要相當(dāng)多的交互歷史數(shù)據(jù)，而對那些以前沒有交互的用戶，協(xié)同過濾方法往往無法生成合理的建議，于是就會出現(xiàn)冷啟動問題和數(shù)據(jù)稀疏性問題。此外，基于協(xié)同過濾的方法不會利用用戶閱讀文章的順序中存在的時間信息，而該序列對分析用戶的總體興趣以及不斷變化的興趣具有十分重要的意義。

2.3 混合推薦

混合推薦系統(tǒng)是隨著各種推薦策略的成熟而出現(xiàn)的，它將兩種或兩種以上的推薦算法組合成復(fù)合系統(tǒng)，理想情況下，復(fù)合系統(tǒng)是基于其組件算法的優(yōu)勢來實現(xiàn)某種協(xié)同互補。[3]典型的例子是將協(xié)同過濾與基于內(nèi)容的過濾相結(jié)合。

實際應(yīng)用中通常不會單獨使用協(xié)同過濾來推薦新聞，僅使用用戶行為，而忽略文章內(nèi)容。在協(xié)同過濾算法中引入基于內(nèi)容的過濾技術(shù)，可以減少冷啟動問題。對于新聞推薦，混合模型結(jié)合了基于內(nèi)容的過濾和協(xié)同過濾各自的優(yōu)勢，比單純使用協(xié)同過濾模型效果更好。

推薦系統(tǒng)經(jīng)常面臨探索和利用這兩個推薦目標(biāo)的權(quán)衡問題，兩個相互競爭的目標(biāo)必須平衡：利用用戶以前的選擇來提供準(zhǔn)確的推薦，以及探索用戶其他可能的興趣，與用戶以前的歷史行為無關(guān)，以減少過度專業(yè)化。雅虎！研究人員將新聞推薦建模為一個上下文Bandit問題，這是一種原則性方法，其中學(xué)習(xí)算法根據(jù)用戶和文章的上下文信息順序選擇文章為用戶服務(wù)，同時根據(jù)用戶點擊反饋調(diào)整文章選擇策略，以最大限度地提高長期用戶點擊總量。

研究者提出融合兩種及以上推薦技術(shù)優(yōu)勢互補的方法，解決了基于內(nèi)容的新聞推薦技術(shù)中存在的過度專門化的問題，但是挖掘出用戶潛在興趣的問題依然難以解決。因為用戶在不同的時間和地理位置，閱讀興趣也不相同，一些研究人員通過引入時間特征[4]和位置（GPS）特征[5]來改善推薦效果。

2.4 基于深度學(xué)習(xí)推薦

近些年來，深度學(xué)習(xí)已逐漸發(fā)展成為人工智能領(lǐng)域解決問題的首選技術(shù)。在計算機視覺、音頻、語音識別和自然語言處理等方面，深度學(xué)習(xí)都取得了巨大的成功。然而，在推薦系統(tǒng)中深度學(xué)習(xí)的應(yīng)用尚未得到廣泛研究。深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用進展相對較為緩慢，直到2016年才在ACM RecSys舉辦第一次針對推薦系統(tǒng)深度學(xué)習(xí)的研討會。近年來，許多研究人員嘗試在推薦系統(tǒng)利用深度學(xué)習(xí)技術(shù)，利用神經(jīng)網(wǎng)絡(luò)來挖掘出潛藏在信息背后的深層特征。[6]

基于深度學(xué)習(xí)的推薦系統(tǒng)具有如下優(yōu)勢：①非線性轉(zhuǎn)換——對數(shù)據(jù)中的非線性建模的能力，不同于矩陣分解、分解機和稀疏線性模型等線性技術(shù)；②表示學(xué)習(xí)——減少手工特征設(shè)計的工作量，使模型能夠包含文本、圖像、音頻甚至視頻等異構(gòu)內(nèi)容信息；③序列建?！猂NN和CNN都可以有效地建模序列數(shù)據(jù)，如會話點擊；④靈活性——神經(jīng)網(wǎng)絡(luò)可以模塊化組合，形成功能強大的混合推薦模型。

遞歸神經(jīng)網(wǎng)絡(luò)（RNN）具有一些特性，使其特別適合用戶會話序列的建模，它們能夠合并來自過去新聞事件的輸入，從而可以導(dǎo)出范圍廣泛的序列到序列映射。Moreira GSP[7]等基于CHAMELEON（一種用于新聞推薦的深度學(xué)習(xí)元體系結(jié)構(gòu)）構(gòu)建了一個混合推薦系統(tǒng)，支持基于會話的新聞推薦場景，使用遞歸神經(jīng)網(wǎng)絡(luò)對用戶點擊序列進行建模。系統(tǒng)利用新聞文章的文本內(nèi)容、文章上下文（例如，最近的流行性和最近性）和用戶上下文（例如，時間、位置、設(shè)備、以前的會話點擊）來解決新聞領(lǐng)域中的用戶興趣遷移和項目冷啟動問題。

3.實驗方法和評價指標(biāo)

3.1 數(shù)據(jù)集

公開數(shù)據(jù)集。國內(nèi)常用財新網(wǎng)數(shù)據(jù)集。該數(shù)據(jù)集源自財新網(wǎng)，曾經(jīng)公開用于2014 年“第二屆中國大數(shù)據(jù)技術(shù)創(chuàng)新大賽”。包括10，000個用戶一個月時間內(nèi)對6，183條新聞的瀏覽歷史行為，以及由此產(chǎn)生的116，228條閱讀日志。日志所記錄的信息包括：用戶ID、新聞ID、瀏覽時間和該新聞的文本內(nèi)容。國外常用數(shù)據(jù)集包括：UCI 知識庫、Digg數(shù)據(jù)集、Plista新聞推薦數(shù)據(jù)集和Adressa 數(shù)據(jù)集。

自建數(shù)據(jù)集。根據(jù)收集數(shù)據(jù)的方法不同，又可以分為問卷調(diào)查和網(wǎng)上爬取兩種方式。問卷調(diào)查方法采用紙質(zhì)或者電子調(diào)查問卷的形式，收集研究對象的相關(guān)數(shù)據(jù)構(gòu)建數(shù)據(jù)集。該方法構(gòu)建的數(shù)據(jù)集具備較強的真實性，但是由于實施困難，一般來說，得到的數(shù)據(jù)集規(guī)模都比較小，再加上高昂的成本，導(dǎo)致該方法并不適用于大規(guī)模復(fù)雜推薦系統(tǒng)。如陶永才等[5]組織30名學(xué)生使用帶有GPS功能的智能手機等移動設(shè)備收集并構(gòu)建的自有實驗數(shù)據(jù)集。網(wǎng)上爬取方法則是利用工具從網(wǎng)絡(luò)上抓取數(shù)據(jù)并構(gòu)建實驗數(shù)據(jù)集，這些工具通常是已有的或者自編的爬蟲程序或抓取軟件。采用這種方式收集并構(gòu)建的數(shù)據(jù)集的優(yōu)點是具備較強的客觀性，缺點在于其中存在的臟數(shù)據(jù)極有可能會把誤差引入實驗，使用前需要進行較好的數(shù)據(jù)清洗工作。

3.2 評價指標(biāo)

常用的評測指標(biāo)有：點擊率（HR）[2，7]、準(zhǔn)確率（Precision）[3，4，5]、召回率（Recall）[4，5]、F-score[1，5]、平均絕對誤差（MAE）、均方根絕對誤差（RMSE）[3]、AUC、LogLoss、Spearman相關(guān)性、Pearson相關(guān)性[1]、NDCG[3]、Success@k[7]、多樣性[1]、驚喜度[1]等。

4.新聞推薦中的難點問題

雖然新聞推薦系統(tǒng)已經(jīng)被廣泛使用，并且取得了較好的效果，但是除常見的冷啟動和數(shù)據(jù)稀疏性問題以外，新聞推薦系統(tǒng)還存在以下幾個問題有待進一步研究。

項目數(shù)量增長過快的問題。網(wǎng)絡(luò)新聞無限制地海量增長導(dǎo)致信息過載，與個人需求量之間產(chǎn)生嚴(yán)重失衡。人們想要從體量無比龐大的數(shù)據(jù)中快速并精準(zhǔn)地找到所需要的信息變得特別困難。為了閱讀到自己真正關(guān)心的新聞，閱讀者只能浪費大量時間到新聞的海洋中去搜索，但是用戶很難快速有效地從大量無關(guān)冗余信息中獲取所需內(nèi)容。新聞的海量增長也加劇了冷啟動問題，影響到推薦系統(tǒng)的可擴展性和實時性，可以引入分布式計算（如MapReduce）和并行計算來解決這一問題。

項目價值加速衰減的問題。在新聞領(lǐng)域尤其如此，有別于一般的商品（如電影、書籍等），新聞的時效性太強，每條新聞的保質(zhì)期都很短，因為大多數(shù)用戶僅僅對新鮮新聞感興趣。通常情況下，每篇新聞文章并不是彼此孤立的，正在閱讀的新聞可能會影響隨后的閱讀，需要充分挖掘出隱藏在新聞背后的潛在關(guān)聯(lián)性。針對新聞推薦的時效性，有研究人員通過增加時間衰減因子進行了改進，但效果依然不太理想。[4]

興趣偏好易變的問題。除穩(wěn)定的長期興趣外，用戶也有容易改變的短暫興趣。當(dāng)前興趣可能受到其上下文（如位置、訪問時間）或全局上下文（如突發(fā)新聞或重要事件）的影響。如果更新不及時，在為用戶推薦信息或服務(wù)時仍然使用陳舊的偏好，則無法達(dá)成個性化需求，推薦系統(tǒng)的性能也會由此而降低，并最終導(dǎo)致客戶流失。

安全問題。移動網(wǎng)絡(luò)環(huán)境下進行新聞推薦時安全問題尤為重要，妥善保護好用戶的個人資料，防止惡意侵入和泄露，甚至篡改偽造推薦結(jié)果，給用戶帶來風(fēng)險以及傷害。個性化的新聞定制服務(wù)需要有用戶的注冊信息和網(wǎng)頁瀏覽記錄等個人隱私數(shù)據(jù)的支撐，但是這些敏感數(shù)據(jù)一旦被泄露出去，會對個人和社會帶來災(zāi)難性的后果。

結(jié)語

隨著網(wǎng)絡(luò)新聞量的爆發(fā)式增長，如何從海量信息中為讀者推薦合適的新聞成為迫切需要解決的問題。本文介紹了個性化新聞推薦技術(shù)的四種常見方法，闡述了各種方法的基本思想、分析了每種方法的優(yōu)點和不足之處。當(dāng)前，研究人員對新聞推薦技術(shù)的研究取得了一些成果，并在一些現(xiàn)實案例中得到成功應(yīng)用。實踐表明，一個好的新聞推薦系統(tǒng)可以節(jié)省讀者的時間，提升讀者的黏度。但隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展，海量新聞信息的產(chǎn)生，給研究人員帶來新的挑戰(zhàn)和機遇。希望本文能夠為個性化新聞推薦技術(shù)研究提供有價值的參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡