国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

論新聞個(gè)性化推薦系統(tǒng)

2018-06-30 05:01匡文波陳小龍
關(guān)鍵詞:帖子熱門畫像

匡文波 陳小龍

個(gè)性化新聞推薦系統(tǒng)是目前最為火熱的研究領(lǐng)域,今日頭條、一點(diǎn)資訊等新聞閱讀產(chǎn)品都以自己的個(gè)性化算法作為吸引用戶的賣點(diǎn)。然而,新聞的個(gè)性化推薦系統(tǒng)是一個(gè)極為復(fù)雜的系統(tǒng),需要自然語言處理、特征工程、機(jī)器學(xué)習(xí)、大數(shù)據(jù)計(jì)算等多個(gè)領(lǐng)域的知識(shí)。

個(gè)性化新聞推薦系統(tǒng)在實(shí)際的應(yīng)用中褒貶不一,對(duì)今日頭條的一些用戶的訪談,可以發(fā)現(xiàn)以目前個(gè)性化推薦算法的實(shí)際效果來看,由于其往往結(jié)合了一些低質(zhì)內(nèi)容,利用人性的弱點(diǎn),導(dǎo)致過度娛樂化的新聞泛濫。這些刺激感官的內(nèi)容吸引人們點(diǎn)擊,造成了點(diǎn)擊量上的“虛假繁榮”,看似點(diǎn)擊量高,用戶喜愛,廣告效果好,其實(shí)卻是在大量推送垃圾信息,造成用戶的“信息成癮”。對(duì)于這些存在的問題,除了技術(shù)上繼續(xù)加強(qiáng)改進(jìn)外,企業(yè)應(yīng)當(dāng)改變唯點(diǎn)擊的慣例,注意履行社會(huì)責(zé)任。政府應(yīng)當(dāng)加強(qiáng)引導(dǎo)和監(jiān)管,對(duì)于有問題的企業(yè)和平臺(tái)予以懲戒。個(gè)人來說,應(yīng)當(dāng)注意到個(gè)性化推薦的雙刃劍作用,使自己不沉溺于其中。

2006年,F(xiàn)acebook最早在其網(wǎng)頁端推出了Newsfeed頁面,讓用戶能夠在個(gè)人主頁上以信息流的形式看到朋友們的更新。這個(gè)功能最開始并不是很被用戶喜歡,但是隨后Facebook對(duì)其不斷進(jìn)行更新,最終使其成為社交類App的主流信息展現(xiàn)方式。在移動(dòng)互聯(lián)網(wǎng)浪潮來襲之下,F(xiàn)acebook手機(jī)App,以及大量其他類別的App,特別是新聞信息類App,也都開始采用這種方式來構(gòu)建他們的手機(jī)頁面。

一、一般熱門推薦算法

熱門推薦算法(Hot)在互聯(lián)網(wǎng)早期就發(fā)展起來了,新聞網(wǎng)站如雅虎,常??梢钥吹筋愃啤癟rending”的欄目,這些欄目所推薦算法就被稱為熱門推薦算法。熱門推薦算法是一類算法,其本身原理比較簡單,也沒有運(yùn)用機(jī)器學(xué)習(xí)和人工智能技術(shù),主要還是針對(duì)新聞當(dāng)前瀏覽情況,對(duì)全體用戶做無差別的推薦。

(一)聚合計(jì)算

熱門推薦算法是基于聚合計(jì)算的算法,這種算法使用發(fā)表時(shí)間、點(diǎn)擊量、點(diǎn)贊量、點(diǎn)踩量、獨(dú)立訪客數(shù)等指標(biāo),綜合給出一個(gè)新聞推薦的排序列表。其中,所謂的聚合計(jì)算,指的就是數(shù)據(jù)的加總,包括求和、求平均值、求最大最小值等方式,如此處理完之后,再把結(jié)果排序并展示到頁面上。

(二)時(shí)間因素

新聞信息很關(guān)鍵的一個(gè)因素就是信息本身的時(shí)新性,其位列新聞價(jià)值五大要素之首。因此根據(jù)業(yè)務(wù)場(chǎng)景去合理考慮時(shí)間因素的作用是一個(gè)成功的Hot類算法的必要條件。

(三)案例

1.Hacker News新聞排序算法

Hacker News(https://news.Ycombinator.com/)是一個(gè)很有特色的國外技術(shù)創(chuàng)投信息網(wǎng)站。

在Hacker News看來,時(shí)間因子對(duì)信息的作用是先使其價(jià)值快速下降,之后下降的速度會(huì)越來越慢。此外,HackerNews關(guān)心用戶對(duì)新聞主動(dòng)做出評(píng)價(jià)的點(diǎn)贊數(shù)目,而不關(guān)心點(diǎn)擊數(shù)本身。這樣的設(shè)計(jì)可能會(huì)使“標(biāo)題黨”“灌水”類新聞因?yàn)闆]人點(diǎn)贊快速沉下去,而真正被用戶好評(píng)的新聞會(huì)排名到比較高的位置,這體現(xiàn)了該網(wǎng)站所有者對(duì)優(yōu)質(zhì)內(nèi)容的傾向性。

2.Reddit信息排序算法

Reddit(https://www.reddit.com)是一個(gè)國外知名的社交新聞?wù)军c(diǎn)。該網(wǎng)站的新聞條目已超過3000萬條,頁面瀏覽量達(dá)到370億次,獨(dú)立訪客超過4000萬人。

Reddit充分考慮了用戶評(píng)分絕對(duì)值, 是否正面, 以及發(fā)布時(shí)間。

第一,時(shí)間的因素

從時(shí)間角度,Hacker News的算法使得一個(gè)帖子的得分隨著時(shí)間流逝而下降。而Reddit則選擇是用帖子的發(fā)表時(shí)間來計(jì)算得分,因此一個(gè)帖子一旦發(fā)表之后得分不會(huì)隨著時(shí)間流逝而下降。但是新發(fā)表的帖子由于其時(shí)間t值較大,會(huì)有更高的得分。因此,Reddit算法事實(shí)上實(shí)現(xiàn)了讓一個(gè)帖子的相對(duì)排名隨著時(shí)間下降的效果。

第二,用戶評(píng)分的平滑處理

用戶評(píng)分絕對(duì)值使用了對(duì)數(shù)函數(shù)來做平滑,以適應(yīng)Reddit這樣高瀏覽量網(wǎng)站。由于對(duì)數(shù)函數(shù)的特性,因此最開始的10票,和接下去的100票,以及接下去的1000票對(duì)得分的提升作用是相等的。對(duì)數(shù)函數(shù)的平滑作用,使得某些獲得超高用戶評(píng)分絕對(duì)值的帖子不至于常年霸榜,使得新的帖子有機(jī)會(huì)”打敗”它們。

第三,爭(zhēng)議性大的帖子容易得到低分

在Reddit的算法中,如果贊踩數(shù)目相當(dāng)?shù)脑?,容易?dǎo)致帖子的得分較低。其他條件一致的話,100贊的帖子與1000贊900踩的帖子實(shí)際上會(huì)得到一樣的得分。這個(gè)特點(diǎn)可能會(huì)導(dǎo)致那些比較一邊倒的帖子被頂在頁面上方,而爭(zhēng)議性大的帖子容易沉下去。

二、個(gè)性化推薦系統(tǒng)的相關(guān)概念及變量

熱門推薦:聚合計(jì)算出實(shí)時(shí)的十大熱門新聞,如國乒退賽等推薦給用戶。這樣的新聞?dòng)泻艽罂赡軙?huì)引起用戶關(guān)注。

相關(guān)推薦:與用戶當(dāng)前正在閱讀文章主題相關(guān)的相關(guān)推薦。

用戶的短期興趣:根據(jù)用戶最近的行為來進(jìn)行推薦,比如用戶剛剛閱讀了和“朝鮮”相關(guān)的新聞,剛剛在App中搜索了“范冰冰”關(guān)鍵詞則識(shí)別出用戶短期的興趣是“范冰冰”和“朝鮮”。短期興趣和相關(guān)推薦技術(shù)上可能是一樣的。

用戶的長期興趣:也叫用戶畫像,是用戶的長期口味,技術(shù)上的本質(zhì)是一組用戶ID所對(duì)應(yīng)的一組Keyword;比如某個(gè)用戶常年閱讀軍事相關(guān)的新聞,就會(huì)形成一組相應(yīng)的Keyword。長期興趣還會(huì)考慮進(jìn)用戶的地理、年齡、性別、畢業(yè)院校等多個(gè)人口統(tǒng)計(jì)學(xué)因素。當(dāng)然了,長期興趣的推薦可能會(huì)不僅僅只使用用戶自身的用戶畫像,可能還會(huì)計(jì)算與用戶的用戶畫像相似的其他用戶,并找出其他用戶看過而這個(gè)用戶沒看過的新聞進(jìn)行推薦,這就構(gòu)成了協(xié)同過濾。

融合:把以上所述的推薦結(jié)果,都打亂了放在一起展示給用戶,就叫作融合。

例如,李老師是一個(gè)家住在北京海淀區(qū)的軍事迷,他用戶ID為10123,他的用戶畫像可能是這樣的:profiles[10123]={“戰(zhàn)斗機(jī)”“航母”“導(dǎo)彈”“重返亞太”“朝鮮”“核武器”“敘利亞”“俄羅斯”“海淀區(qū)”“北京”}。(假設(shè)系統(tǒng)數(shù)據(jù)庫只保存10個(gè)tag)

我們可以假設(shè)這么一個(gè)場(chǎng)景,李老師剛剛打開某某頭條App,點(diǎn)擊了兩則題為“朝鮮再次進(jìn)行導(dǎo)彈試驗(yàn)引發(fā)日本恐慌”,“范冰冰李晨快樂大本營再秀恩愛”。

算法在給李老師做推薦時(shí),會(huì)獲取到三類新聞,第一類是當(dāng)前實(shí)時(shí)的熱門新聞Top10,第二類是根據(jù)李老師長期興趣所推薦的一些軍事、國際及北京海淀區(qū)的新聞,第三類則是朝鮮、導(dǎo)彈、范冰冰李晨相關(guān)的最新新聞。最終,在App用戶界面上,這三類界面可能是交錯(cuò)展示的,也就是按一定的比例進(jìn)行了融合。

三、新聞文本的特征提取

對(duì)一篇新聞文本,我們需要對(duì)其進(jìn)行特征提取,這樣才能進(jìn)行相似度計(jì)算。所謂特征,就是用來表征一個(gè)新聞,或者一個(gè)電影的一組值。比如對(duì)一部電影來說,可能有男主演、女主演、導(dǎo)演、國家、語言等這些特征。但是對(duì)于新聞文本來說,卻沒有這么簡單。提取新聞文本的特征需要使用TF-IDF方法。

TF-IDF(Term Frequency-Inverse Document Frequency)算法,計(jì)算的是一個(gè)關(guān)鍵詞的權(quán)重值(weight)。TF-IDF權(quán)重經(jīng)常被用作信息檢索和文本挖掘領(lǐng)域的應(yīng)用。

在提供了一個(gè)語料庫的前提下,該方法通過統(tǒng)計(jì)手段,得出某文本中的某一個(gè)詞語的重要性/獨(dú)特性。TF-IDF方法中,當(dāng)一個(gè)詞語在給定文本中的出現(xiàn)頻次越高,且在語料庫中包含該詞語的文檔數(shù)目越低,則該詞語的權(quán)重值(也可以說是得分)越高。TF-IDF算法,以及其的衍生變種算法,常常被搜索引擎用來給網(wǎng)頁打分和排序。

例如:一個(gè)文本中總共有100個(gè)詞語,其中cat這個(gè)詞出現(xiàn)了3次,那么cat的term frequency(TF)值就是3/100=0.03;而假設(shè)我們語料庫中有1000萬個(gè)文本。其中cat這個(gè)詞出現(xiàn)在1000個(gè)文本當(dāng)中,那么cat的inverse document frequency(IDF)就是log(10,000,000/1,000)=4;因此,cat單詞的TF-IDF得分就是0.03*4=0.12。

四、基于內(nèi)容的推薦(CB)

有兩種截然不同的技術(shù)在新聞推薦系統(tǒng)中十分常用:基于內(nèi)容的推薦和協(xié)同過濾。

基于內(nèi)容的推薦根據(jù)用戶畫像進(jìn)行信息的推薦, 這些用戶畫像是通過分析用戶已經(jīng)閱讀、收藏或者點(diǎn)贊過的信息來進(jìn)行構(gòu)建。 協(xié)同過濾算法則是不僅僅考慮信息內(nèi)容本身, 而更主要靠相似用戶的意見來生成推薦。

兩種推薦方法被廣泛運(yùn)用在內(nèi)容行業(yè)中, 包括在線新聞聚合網(wǎng)頁、移動(dòng)端新聞App、門戶網(wǎng)站、問答網(wǎng)站等。這些系統(tǒng)有的讓用戶在第一次進(jìn)入App時(shí)選擇自己關(guān)注的領(lǐng)域來構(gòu)建用戶畫像的標(biāo)簽, 有的則是通過分析用戶點(diǎn)擊記錄來確定這些標(biāo)簽, 然后后臺(tái)會(huì)根據(jù)用戶畫像和文章之間的相似性來選擇出個(gè)性化推薦內(nèi)容。

基于內(nèi)容的推薦,本質(zhì)上是對(duì)用戶畫像與文章特征之間進(jìn)行相似度計(jì)算。用戶畫像與文章特征形式上是完全一致的,都是一組獲得較高TF-IDF權(quán)重的關(guān)鍵詞的集合。

例如:profiles[10123]={“戰(zhàn)斗機(jī)”“航母”“導(dǎo)彈”“重返亞太”“朝鮮”“核武器”“敘利亞”“俄羅斯”“海淀區(qū)”“北京”}。

只要對(duì)用戶畫像和文章的特征之間計(jì)算相似度,然后在所有計(jì)算了相似度的文章中,選取相似度最高的K篇文章作為推薦文章發(fā)給用戶即可。

五、基于協(xié)同過濾的推薦(CF)

協(xié)同過濾算法,也叫作社會(huì)過濾方法,是一種通過他人推薦來過濾信息的有效辦法。我們生活中,都喜歡跟自己身邊的朋友來推薦一些電影、書籍和音樂,協(xié)同過濾就是這種樸素生活思想在算法上的體現(xiàn)。協(xié)同過濾首先為你找到和你口味相似的人群,然后把這個(gè)人群的選擇推薦給你。

以電影打分為例:

用戶X對(duì)電影I的打分,將由n個(gè)與其相似用戶的打分進(jìn)行加權(quán)平均得到,每個(gè)用戶的權(quán)重取決于其與用戶X的相似度Sxy。可以借鑒基于內(nèi)容推薦的方法,把用戶與用戶之間的相似度計(jì)算轉(zhuǎn)化為用戶畫像與用戶畫像之間的相似度計(jì)算,在找到n個(gè)與用戶X較為相似的用戶畫像之后,將這X個(gè)用戶的用戶畫像中X所沒有的關(guān)鍵詞與用戶X的用戶畫像進(jìn)行合并,構(gòu)成一個(gè)群體畫像。然后,再把這個(gè)群體畫像看作一個(gè)用戶,與各個(gè)新聞文本特征之間計(jì)算相似度,進(jìn)行推薦。

六、矩陣分解方法(MD)

矩陣分解方法(Matrix Decomposition),也叫隱含因子模型(Latent Factormodel),最早出現(xiàn)在電影評(píng)價(jià)和商品評(píng)價(jià)類別問題上,是一種通過把用戶對(duì)商品評(píng)價(jià)矩陣分解為用戶對(duì)隱含因子的偏好矩陣和商品中包含隱含因子的情況矩陣這么兩個(gè)矩陣來實(shí)現(xiàn)有效推薦的模型。我們可以形象地理解,認(rèn)為用戶對(duì)導(dǎo)演、電影類型、電影主演等多個(gè)隱含因子的偏好,那么包含了用戶偏好更多的一部電影,就會(huì)被用戶喜歡的更多。不過隱含因子模型的神奇之處在于,這些隱含因子都是通過矩陣分解方法得到的,并不是我們認(rèn)為從電影中提煉出來一系列特征。因此,有時(shí)候這些隱含因子并不是很容易去用容易理解的因果關(guān)系來解釋。

在新聞推薦問題中,隱含因子的應(yīng)用難度比較大,這主要是由于新聞推薦問題中我們往往只有用戶是否閱讀新聞的數(shù)據(jù),而沒有打分的數(shù)據(jù),因此無法進(jìn)行有效的矩陣分解。另外,矩陣分解的計(jì)算量十分巨大,這也影響了其在新聞推薦問題中的應(yīng)用。

七、推薦系統(tǒng)的融合

在實(shí)際新問題推薦中,單一使用某種推薦算法的效果往往不會(huì)有簡單熱門推薦的效果。因此,最好是將熱門推薦,基于內(nèi)容的推薦,基于協(xié)同過濾方法的推薦,乃至其他推薦方法得到的結(jié)果,進(jìn)行某種形式的融合,得到一個(gè)帶有各種算法推薦出來的新聞的集合,再展示給用戶。

一般的融合算法可以是簡單的線性融合,也就是說每個(gè)算法的結(jié)果被賦予一個(gè)固定的比例,然后簡單的加在一起。

八、結(jié)論與展望

個(gè)性化推薦算法的出現(xiàn),是大數(shù)據(jù)和人工智能技術(shù)發(fā)展的必然結(jié)果。 個(gè)性化推薦算法成功地開辟了除搜索引擎之外又一條滿足用戶個(gè)性化信息獲取的道路, 大大提升了網(wǎng)絡(luò)上浩如煙海的信息被利用的效率, 因此其從技術(shù)上是一個(gè)值得肯定的進(jìn)步。

有時(shí)候用戶過去所點(diǎn)擊的文章,并不是其真正本來想看的, 很可能是被標(biāo)題吸引而點(diǎn)進(jìn)去, 從而導(dǎo)致注意力轉(zhuǎn)移的一種點(diǎn)擊。由于被用戶的點(diǎn)擊所指引,算法可能進(jìn)一步推薦被點(diǎn)擊過的話題相關(guān)的文章,從而往往導(dǎo)致低俗新聞泛濫和信息繭房娛樂至死的問題。

但是, 我們也應(yīng)該看到,由于目前自然語言處理的局限,我們對(duì)文章內(nèi)容含義無法做到深入理解,只能從其特有高頻關(guān)鍵詞層面進(jìn)行標(biāo)簽層面的相似度匹配,這樣產(chǎn)生的膚淺層面的話題、標(biāo)簽推薦內(nèi)容, 與用戶氣質(zhì)、性格、生活方式不相匹配,不全是用戶需要的推薦。計(jì)算機(jī)只能幫助我們快速完成簡單重復(fù)工作,很難更深層次地滿足新聞閱讀中的心理需求。 這是未來個(gè)性化推薦系統(tǒng)需要依靠人工智能技術(shù)解決的問題。

參考文獻(xiàn):

[1]Fast company.com. Fac-

ebooks News Feed just turned 10.https://www.fastcompany.com/4018352/facebooks-news-feed-just-turned-10.

[2]G.Linden,B.Smith,and J.York.Amazon.com recommendations:Item-to-item collaborative filtering.In IEEE Internet Computing,7(1):76-80,Jan.2003.

[3]Abhinandan Das,Mayur Datar,Ashutosh Garg,Shyam Rajaram.Google News Persona lization:Scalable Online Collaborative Filtering.WWW2007/Track:Industrial Practiceand Experience,p271,http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.80.4329&rep;=rep1

&type;=pdf.

[4]Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman.Mining of Massive Dataset,chapter3,section4.

[5]Jure Leskovec,Anand Ra-

jaraman,Jeffrey David Ullman.Mining of Massive Dataset,chapter3,section5.

[6]Thomas Hofmann.Probabilistic Latent Semantic Analysis.http://www.iro.umontreal.ca/~nie/IFT6255/Hofmann-UAI99.pdf.

[7]IBMAnalytics.What is MapReduce?ibm.com,https://www.ibm.com/analytics/hado-

op/mapreduce.

[8]Jiahui Liu,Peter Dolan,Elin R?nby Pedersen,Personalized news recommendation based on click behavior,ACM New York,NY,USA?2010;https://dl.acm.org/citation.cfm?id=1719976.

[9]Lauren Johnson.Heres a Time line of Yahoos 22-Year History as a Digital Pioneer.Adweek.com.http://www.adweek.com/digital/heres-timeline-yahoo-s-22-year-history-digital-pioneer-172663/.

[10]Amazon.com.What is St-

reaming Data?Aws.amazon.com.https://aws.amazon.com/strea-

ming-data/.

[11]Amir Salihefendic.How Hacker News ranking algorithm works.Medium.com,https://medium.com/hacking-and-gonzo/how-hacker-news-ranking-algorithm-works-1d9b0cf2c08d.

[12]Amir Salihefendic.How Reddit ranking algorithms work.Medium.com,https://medium.com/hacking-and-gonzo/how-reddit-ranking-algorithms-work-ef111e33d0d9.

[13]Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman.Mining of Massive Dataset,chapter3,section5.

[14]Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman.Mining of Massive Dataset,chapter11,section1.

作者簡介:匡文波,中國人民大學(xué)新聞學(xué)院教授、博士生導(dǎo)師,中國人民大學(xué)新聞與社會(huì)發(fā)展研究中心研究員,全國新聞自考委員會(huì)秘書長,中國科技新聞學(xué)會(huì)常務(wù)理事;陳小龍,中國人民大學(xué)新聞學(xué)院研究生

編輯:徐 峰

猜你喜歡
帖子熱門畫像
威猛的畫像
“00后”畫像
畫像
暴力老媽
熱門智能手機(jī)應(yīng)用
潛行與畫像
2009年熱門特色風(fēng)味小吃
高手是這樣拍馬屁的
本月熱門產(chǎn)品報(bào)價(jià)
我是怎樣在壇子里墮落的