丁賽
摘 要: 隨著大數(shù)據(jù)時代的到來,收集信息不再是主要問題,如何根據(jù)信息更及時地作出更好的決策才是關鍵的問題。個性化推薦系統(tǒng)為這一問題的解決提供了重要方向。本文主要分析標簽在推薦系統(tǒng)中的應用并指出其優(yōu)勢和在應用中所遇到的困難及如何得到更合理的推薦結果。
關鍵詞:推薦系統(tǒng) 標簽 用戶
中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2016)11-0014-01
一、標簽概述
推薦系統(tǒng)的目的是為用戶過濾龐雜繁雜的信息,找到符合其喜好的資源。標簽是從資源的內容中提取的、對資源進行概括總結的關鍵詞,相較于資源本身,信息量增加,體量減少,減少了用戶的負擔。利用標簽能夠在很大程度上減輕推薦系統(tǒng)的工作量,提高其準確度。
二、標簽在推薦系統(tǒng)中的應用
1.標簽獲取和應用
1.1專家標注法
很多推薦系統(tǒng)在建立時,既沒有用戶的行為數(shù)據(jù),也沒有充足的物品內容信息來計算準確的物品相似度。為了在初期提升用戶體驗,很多系統(tǒng)都利用專家進行標注。這方面的代表是個性化網(wǎng)絡電臺 Pandora。雇用一批專家對資源進行標注,可以將資源用多種向量表示,然后通過常見的向量相似度算法計算出其相似度。采用專家標注法的優(yōu)點是可以有一組受到廣泛接受的標簽庫以供選擇。但是需要大量的人力操作,耗時多且成本高。
1.2大眾分類法
利用用戶產(chǎn)生內容的方法,讓普通用戶自由標注,如Last.fm 音樂電臺,豆瓣等。面對數(shù)量眾多且難以進行分析的大量資源,這些網(wǎng)站允許用戶對資源進行隨意標注,獲得資源的相關信息。然后分析用戶的標注行為,提取用戶關系網(wǎng)絡,從關系網(wǎng)絡中分析凝聚子群,進行個性化信息推薦模型的研究。將標簽作為用戶和資源聯(lián)系的中間節(jié)點,建立用戶-標簽-資源之間的三維關系圖,計算其關聯(lián)度,從而預測用戶對于新資源的興趣度,最終產(chǎn)生推薦結果。
1.3內容分析法
對于具體的物品,可從物品本身利用數(shù)據(jù)挖掘技術自動提取其特征作為標簽。如對于一個新文本來說,首先將其與已有文本對比計算相似度,然后根據(jù)相似度選取已有文本的標簽作為新文本的標簽。
2.應用中的優(yōu)勢
2.1形式簡單,易于處理
標簽是對物品特征屬性的簡要描述,過濾其不重要信息或者用戶不關注的信息,在某種程度上降低了信息過載現(xiàn)象。標簽將網(wǎng)頁、圖片、音頻、視頻等非結構化數(shù)據(jù)資源轉化為更加容易處理的文本,將文本內容進行壓縮等,方便處理。
2.2易于獲得
通過內容分析法能夠對大量數(shù)據(jù)進行自動化處理,減少人工負擔,同時避免了因新資源加入產(chǎn)生的冷啟動問題。通過大眾分類法運用大量用戶的群體智慧來標注物品,相較于跟蹤用戶的歷史行為和收集用戶個人注冊信息,降低了系統(tǒng)負擔而且更具合理性,不會侵犯用戶的隱私。
2.3提高了推薦結果的多樣性
標簽具有可重復性和廣泛代表性。用戶在短時間內不會重復購買同一種商品,但是對于標簽,用戶都有自己的喜好和使用習慣,會為不同資源使用同一個標簽。一個標簽可以廣泛用于許多物品,可以跨越不同領域。所以用戶選擇了某一標簽,可以將推薦結果推廣到各個領域。
2.4利用標簽做推薦解釋,更容易獲得用戶信任
對于目前的大量推薦算法,用戶沒有了解的需求和不愿意浪費時間去了解,用戶也就難以真正信任個性化推薦系統(tǒng)所做的推薦。用戶所需要的是直觀的感受。用戶喜歡明星,相信明星,于是就相信其代言的公司和產(chǎn)品。將這一點運用到推薦當中來,一個很重要的橋梁就是人。例如在大眾分類法中,標簽來源于用戶本身及其他用戶對于該用戶共同興趣的物品所做的標注,容易得到用戶認可。
3.應用中的困難
3.1歧義、多義性
在大眾分類法中,用戶標注目的主要有以下三點:一是對資源進行分類,方便將來的查找;二是表達對資源的看法。這是在目前較為流行的方式,用戶樂意在通過社交網(wǎng)絡中將自己的想法分享。三是生產(chǎn)者介紹產(chǎn)品,方便讓市場中的潛在購買者了解。在這三點的驅動之下,標簽被大量創(chuàng)造,而標簽的歧義和多義性正是由于三者目的的差別,個人的知識層次和所處環(huán)境的差別所造成的。從客觀上來說,文字語言具有一詞多義,多詞一義的特點,也是大眾分類法難以避免的困境。如果標簽得不到合理處理,那么基于標簽的推薦系統(tǒng)必然也是低效的。
3.2分布稀疏
在大眾分類法和專家標注法中,對于新加入的資源,標簽數(shù)量比較少,會出現(xiàn)冷啟動問題,難以準確描述資源。而且讓用戶自行輸入標簽無疑會增加用戶標注的負擔,如果用戶本身沒有標注的習慣和動力,就很有可能不參與標注。對于標簽本身來說,近義詞的存在也讓標簽分布分散。
3.3標簽噪聲
標簽的質量直接影響到推薦系統(tǒng)的性能和推薦結果的準確性。利用內容分析法產(chǎn)生的標簽較為集中,分辨度不高。一個文本對應的標簽數(shù)可能比較多,一個標簽對應的資源可能非常多。而大眾分類法也難以避免一些用戶出于各種目的故意打出與事實不符的標簽。例如:為提升好評和銷量,淘寶商家雇傭個人刷單,在評價環(huán)節(jié)利用好評返現(xiàn)等手段誘導消費者給出商家所想要的評語,而淘寶系統(tǒng)根據(jù)客戶的評價形成相應標簽,從而使標簽失去應用的作用。
對于以上問題,推薦標簽和混合使用以上三種產(chǎn)生標簽的方法是目前應用比較廣泛的解決方法。推薦標簽包括向用戶推薦其他用戶在相同類型的資源上使用的標簽和用戶在其他資源中使用過的標簽。推薦標簽可以通過選取某一個詞語代替意思相近的幾個詞語,減少標簽分散程度,提高標簽質量。同時推薦標簽降低了用戶的負擔,用戶不用花費時間去思考應該用哪個詞語來標注,只是在有限的幾個詞語中做選擇,用鼠標的幾個點擊代替在鍵盤上的輸入,增加了資源被標注的機會。而混合使用以上三種方法,主要是發(fā)揮各自的優(yōu)勢,避免一些問題的出現(xiàn)。例如,在新資源加入后,相應標簽較少,可以采用內容分析法將與之最相似的資源標簽作為標簽來解決冷啟動問題,然后采用大眾分類法,利用群體智慧來進一步準確描述資源。
參考文獻
[1]項亮.推薦系統(tǒng)實踐[M].人民郵電出版社.2012:
[2]孔祥迎.基于社會化標簽的個性化推薦技術研究[D].西安:電子科技大學.2013.
[3]任磊.推薦系統(tǒng)關鍵技術研究[D].上海:華東師范大學.2012.
[4]張海燕,孟祥武.基于社會標簽的推薦系統(tǒng)研究[J]..情報理論與實踐,2012,35(5):105.
[5]蔡強,韓東梅,李海生,胡耀光,陳誼.基于標簽和協(xié)同過濾的個性化資源推薦[J].計算機科學,2014,41(1):69.