喻國(guó)明
(北京師范大學(xué) 新聞傳播學(xué)院,北京 100875)
算法型推薦日漸成為內(nèi)容分發(fā)領(lǐng)域的主流,把握其實(shí)踐范式,探究其內(nèi)在機(jī)制與局限,找到它未來(lái)健康可持續(xù)發(fā)展路徑是當(dāng)下學(xué)術(shù)研究領(lǐng)域的當(dāng)務(wù)之急。
人類的信息推薦模式迄今為止大體上出現(xiàn)了三個(gè)主要的發(fā)展類型:1.倚重人工編輯的媒體型推薦;2.依托社交鏈傳播的關(guān)系型推薦;3.基于智能算法對(duì)于信息和人匹配的算法型推薦。這三種類型作為信息推薦的主流模式依次出現(xiàn),各有其特色與擅長(zhǎng),也有其問(wèn)題與局限。譬如,媒體型倚重人工進(jìn)行信息的專業(yè)化處理和加工,這種推薦模式可以解決社會(huì)的共性需要,把那些對(duì)于全局、對(duì)于所有人具有普遍意義的信息篩選出來(lái),并以點(diǎn)對(duì)面的方式傳播出去。它的價(jià)值在于解決了“頭部信息”的社會(huì)化推薦。但是它無(wú)暇顧及人的分眾化、個(gè)性化及偶然性、體驗(yàn)性及高場(chǎng)景度的信息需求。尤其是在網(wǎng)絡(luò)崛起之后,在信源變得豐富而多元,渠道及內(nèi)容借助人們的關(guān)系網(wǎng)絡(luò)幾乎無(wú)所不在、無(wú)所不至和無(wú)所不有之后,這種媒體型推薦模式在人們實(shí)際的信息獲知當(dāng)中所占有的比重越來(lái)越低,許多重要信息的傳遞由于無(wú)法有效地“嵌入”日益成為主流的“社會(huì)關(guān)系渠道”而被迫中斷,被稱為“死在社會(huì)傳播的最后一公里”。
于是便出現(xiàn)了依托社交鏈傳播的關(guān)系型推薦模式:你的朋友、你關(guān)注的人幫你推薦、過(guò)濾信息,他們的評(píng)論、轉(zhuǎn)發(fā)形成了一種信息傳播與篩選機(jī)制。社交推薦模式最大的價(jià)值是在人類的傳播史上第一次激活了大眾傳播時(shí)代那些被忽略的極大量的“長(zhǎng)尾信息”,依照人們社會(huì)關(guān)系之所及而采集與篩選信息,形成了對(duì)于信息服務(wù)的“利基市場(chǎng)”,實(shí)現(xiàn)了信息推薦的“千人千面”——不同的人通過(guò)不同的“朋友圈”有了個(gè)性化的信息來(lái)源及其結(jié)構(gòu)。2010年Facebook主頁(yè)訪問(wèn)量超過(guò)Google,可以看作是社交驅(qū)動(dòng)的“關(guān)系型推薦”在全球成為主流的“拐點(diǎn)”,所謂“無(wú)社交不傳播”即是對(duì)關(guān)系型推薦的一種不無(wú)夸張的描述。但是這種社交驅(qū)動(dòng)下的“關(guān)系型信息推薦”的問(wèn)題在于,它無(wú)法解決用戶社交關(guān)系爆炸情況之下的內(nèi)容生產(chǎn)源的爆炸所帶來(lái)的“信息超載”以及基于社交關(guān)系的推薦質(zhì)量不斷降低的問(wèn)題。譬如,經(jīng)驗(yàn)表明,在微信朋友圈中養(yǎng)生、微商、曬娃曬吃類的無(wú)效信息越來(lái)越多,成為一種信息污染和“公害”;而在微博上則是“大V”和營(yíng)銷類賬號(hào)占據(jù)了主體流量——有研究表明,在微博平臺(tái)上,90%以上的內(nèi)容是由3%左右的“大V”生產(chǎn)和推薦的。再加上這些年服務(wù)于利益主體的“水軍”大規(guī)模地崛起,他們?yōu)榱四承┨囟ǖ恼位蚴袌?chǎng)營(yíng)銷目標(biāo)而恣意地“灌水”,嚴(yán)重污染了社交傳播的網(wǎng)絡(luò)空間。概言之,這種由“大V”“水軍” 把控的傳播,使得社交渠道的信息傳播越來(lái)越遠(yuǎn)離人們真實(shí)的社會(huì)實(shí)踐的需要而顯得良莠不齊,甚至烏煙瘴氣,使人不堪其擾。
在此背景下,算法型信息推薦模式便應(yīng)運(yùn)而生,并漸成潮流:現(xiàn)在人們隨便打開一個(gè)網(wǎng)站或資訊app,都會(huì)有“個(gè)性推薦”或“猜你喜歡”之類的欄目,系統(tǒng)會(huì)根據(jù)你的瀏覽、轉(zhuǎn)發(fā)、評(píng)論及閱讀停留的時(shí)長(zhǎng)等記錄和個(gè)性愛好,自動(dòng)為你推薦內(nèi)容。第三方監(jiān)測(cè)機(jī)構(gòu)易觀發(fā)布了一個(gè)具有標(biāo)志意義的數(shù)據(jù):早在2016年,在資訊信息推薦市場(chǎng)上,算法推送的內(nèi)容已經(jīng)超過(guò)50%。*易觀:《2016中國(guó)第三方支付市場(chǎng)專題研究報(bào)告-Useit知識(shí)庫(kù)》,www.useit.com.cn/thread-13552-1-1.html。它意味著,我們現(xiàn)在接觸到的信息,主要是由“智能算法”為我們搜索和推送的?!八惴ㄐ汀毙畔⑼扑]之所以“流行”,有分析者認(rèn)為是因?yàn)樗惴▽?duì)流量的分配獨(dú)立于社交關(guān)系,不被“大號(hào)”壟斷;算法能夠處理的信息量幾乎沒有上限,能夠更好地激活、適配 “汝之毒藥,我之甘飴”的長(zhǎng)尾信息;算法能夠?qū)τ脩舻纳缃煌扑]機(jī)制進(jìn)行二次過(guò)濾,優(yōu)化推薦結(jié)果??偟恼f(shuō),算法型實(shí)現(xiàn)了對(duì)于海量信息價(jià)值的重新評(píng)估和有效適配?!叭曛舅帲抑曙崱币馕吨阌X得不感興趣甚至是垃圾的信息,對(duì)于我可能極有價(jià)值。于是,信息價(jià)值不再有統(tǒng)一的標(biāo)準(zhǔn),不再有絕對(duì)的高低之分。對(duì)剛生下寶寶的媽媽來(lái)說(shuō),PM值絕對(duì)比英國(guó)脫歐更重要。對(duì)旅游者來(lái)說(shuō),當(dāng)?shù)氐奶鞖庑畔⒔^對(duì)比當(dāng)?shù)氐姆績(jī)r(jià)更重要。在算法的驅(qū)動(dòng)下,每個(gè)人都有了自己的頭條,這一點(diǎn)得以實(shí)現(xiàn)。整個(gè)信息世界大一統(tǒng)的秩序被打破。
但是,也正因?yàn)槿绱?,算法型推薦模式站在了風(fēng)口浪尖上。人民日?qǐng)?bào)曾連續(xù)三天撰文從內(nèi)容生產(chǎn)、信息推薦和社會(huì)創(chuàng)新等角度對(duì)于某算法型信息推薦平臺(tái)進(jìn)行了全方位立體式的批判。公允地說(shuō),這些批判在現(xiàn)實(shí)狀況下不無(wú)道理。比如,在現(xiàn)在的算法還不足夠“聰明”的情況下,用機(jī)器智能去完全替代人的“把關(guān)”,這樣的資訊“守門人”是否可以完全信賴?再比如,算法性信息推薦更多地建立在對(duì)于人們的直接興趣和“無(wú)意注意”的信息需求的挖掘上,它的直接后果是對(duì)于人們必需的那些非直接興趣和需要“有意注意”所關(guān)注的信息的忽略所導(dǎo)致的“信息繭房”問(wèn)題,等等。更為重要的是,不管是算法對(duì)于傳媒業(yè)的重塑,還是算法對(duì)于各類信息的跨界整合,這無(wú)一不使人思考:技術(shù)不僅能夠賦能與賦權(quán),而且它自身就構(gòu)成為一種權(quán)力的行使和對(duì)于傳統(tǒng)權(quán)力模式的替代。在始自上世紀(jì)90年代初的中國(guó)媒介市場(chǎng)化的進(jìn)程中,“編輯終審權(quán)”是作為一條紅線不容市場(chǎng)侵犯的,而今卻在算法分發(fā)的大趨勢(shì)中毀于無(wú)形。那么,真的是“得算法者得天下”嗎?算法本身又代表了什么?這些已經(jīng)成為未來(lái)社會(huì)和傳媒發(fā)展中亟待研究和認(rèn)識(shí)的重大課題。
推薦算法的產(chǎn)生所引發(fā)的是一場(chǎng)內(nèi)容分發(fā)領(lǐng)域的革命,認(rèn)識(shí)和把握它的實(shí)踐范式,探究其內(nèi)在的機(jī)制與局限,找到它未來(lái)健康可持續(xù)發(fā)展路徑是當(dāng)下學(xué)術(shù)研究領(lǐng)域的當(dāng)務(wù)之急。
在數(shù)學(xué)和計(jì)算機(jī)科學(xué)中,算法是指如何解決一類問(wèn)題的明確規(guī)則。算法的概念已經(jīng)存在了幾個(gè)世紀(jì)。隨著計(jì)算機(jī)的發(fā)展和人類社會(huì)的數(shù)據(jù)化,大數(shù)據(jù)運(yùn)用、個(gè)性化、自動(dòng)化成為社會(huì)發(fā)展的主要趨勢(shì),算法也因此得到廣泛應(yīng)用和發(fā)展。算法重要性的凸顯離不開兩個(gè)關(guān)鍵要素:數(shù)據(jù)和算力。互聯(lián)網(wǎng)的發(fā)展尤其是移動(dòng)互聯(lián)網(wǎng)的爆發(fā),積累了大量的數(shù)據(jù),尤其是人們的行為數(shù)據(jù)。物聯(lián)網(wǎng)的發(fā)展也擴(kuò)展了數(shù)據(jù)的數(shù)量和類型。龐大的數(shù)據(jù)量和計(jì)算的復(fù)雜度決定了對(duì)算力資源的需求。計(jì)算芯片的快速迭代和云計(jì)算的發(fā)展起到了非常關(guān)鍵的作用。在信息社會(huì),算法在政治、經(jīng)濟(jì)和文化領(lǐng)域發(fā)揮著重要作用,日益影響我們的日常生活。
算法在媒體領(lǐng)域同樣扮演著非常重要的角色。在媒介使用方面,人們查找和獲取的信息都經(jīng)過(guò)算法的篩選。這其中最具代表性的是主打“算法分發(fā)”的今日頭條。算法分發(fā)是指在沒有人工編輯干預(yù)的情況下,通過(guò)算法抓取內(nèi)容,并且依據(jù)用戶的行為數(shù)據(jù),為用戶建模,再將用戶可能喜歡或需要的內(nèi)容推送給他。算法還介入新聞生產(chǎn)領(lǐng)域,機(jī)器人寫作的生產(chǎn)方式日益被互聯(lián)網(wǎng)公司和新聞機(jī)構(gòu)采用。騰訊的“Dream Writer”、今日頭條的“張小明”、新華社的“快筆小新”等受到業(yè)界和學(xué)界廣泛關(guān)注。
從行動(dòng)者網(wǎng)絡(luò)理論(Actor Network Theory)的觀點(diǎn)來(lái)看,算法作為一種技術(shù),和人一樣都是“行動(dòng)者(actor)”,他們共同構(gòu)成了相互依存的網(wǎng)絡(luò)世界。*姜紅、魯曼:《重塑 “媒介”:行動(dòng)者網(wǎng)絡(luò)中的新聞 “算法”》,《新聞?dòng)浾摺?017年第4期。算法處于動(dòng)態(tài)變化之中,需要不斷調(diào)整和完善以適應(yīng)用戶的需求,Google的搜索算法每年調(diào)整500-600次。人對(duì)算法提供的內(nèi)容作出反饋,產(chǎn)生新的行為數(shù)據(jù),繼而影響之后算法的決策。因此,算法呈現(xiàn)的媒介內(nèi)容是人和算法不斷互動(dòng),彼此調(diào)整的結(jié)果。從這個(gè)意義層面上,可以認(rèn)為算法和人共同建構(gòu)了媒介現(xiàn)實(shí)。在信息爆炸的時(shí)代,算法分擔(dān)了人們對(duì)外界信息進(jìn)行認(rèn)知和決策的壓力,也成為了李普曼所說(shuō)的“擬態(tài)環(huán)境”的建構(gòu)者。
推薦算法在人們?nèi)粘5拿浇槭褂弥杏兄鴱V泛的應(yīng)用。從電子商務(wù)、社交網(wǎng)站、視頻網(wǎng)站到新聞資訊,都使用了不同形式的推薦算法。個(gè)性化推薦本質(zhì)就是信息篩選,可以說(shuō)是解決“信息過(guò)載”有效方法?!八惴ǚ职l(fā)”這個(gè)概念,其實(shí)體現(xiàn)了互聯(lián)網(wǎng)時(shí)代從“人找信息”到“信息找人”的轉(zhuǎn)變。
1.推薦算法的主要類型
目前主流的推薦算法有:基于內(nèi)容的推薦算法、協(xié)同過(guò)濾推薦算法和混合的推薦算法等。其中協(xié)同過(guò)濾是應(yīng)用最廣的一種。顧名思義,協(xié)同推薦就是大家一起產(chǎn)生的推薦。其中又包括基于用戶的協(xié)同過(guò)濾和基于內(nèi)容的協(xié)同過(guò)濾。基于用戶的協(xié)同過(guò)濾是指在用戶行為中尋找特定的模式,建立相似用戶之間的連接。比如要向A用戶推薦一本書,就找一個(gè)和他相似的B用戶,然后將B用戶喜歡的書推薦給A用戶?;趦?nèi)容的協(xié)同過(guò)濾是向用戶推薦與他過(guò)去喜歡的物品相似的物品。因此,協(xié)同過(guò)濾是基于用戶歷史行為數(shù)據(jù)進(jìn)行推薦。基于內(nèi)容的推薦算法則僅取決于物品或用戶的描述,不包括以往的行為數(shù)據(jù)。混合的推薦算法則結(jié)合了以上兩種方式,來(lái)借助兩種方法的優(yōu)勢(shì)。
表1 常用的推薦算法及其優(yōu)缺點(diǎn)
注:所謂“冷啟動(dòng)”在這里是指某款app或某項(xiàng)服務(wù)的使用者是一位缺乏相關(guān)數(shù)據(jù)的“新用戶”,難以判斷他的屬性、狀態(tài)和需求,因此滿足其需要的相應(yīng)推送就難以啟動(dòng)。
2.推薦算法的運(yùn)作機(jī)制
推薦算法需要獲取用戶數(shù)據(jù),以及預(yù)測(cè)給定的用戶組對(duì)哪些內(nèi)容感興趣。用戶的數(shù)據(jù)涵蓋多個(gè)方面:用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)(如年齡、職業(yè)等)、用戶的環(huán)境特征(如時(shí)間、地理位置、網(wǎng)絡(luò)情況、天氣情況等)以及用戶的行為數(shù)據(jù)。行為數(shù)據(jù)一般包括兩種,即顯性行為和隱性行為。顯性行為明確表達(dá)了用戶的偏好,例如轉(zhuǎn)發(fā)、保存、評(píng)論等;隱性行為不能直接明確用戶的喜惡,但數(shù)據(jù)量更大,例如點(diǎn)擊和頁(yè)面停留時(shí)間等。在用戶剛開始進(jìn)入時(shí),數(shù)據(jù)積累較少,這時(shí)候就需要依靠對(duì)內(nèi)容的分析來(lái)將與用戶感興趣的內(nèi)容相似的內(nèi)容推薦給用戶。在一定程度上,推薦算法是在挖掘和建立人與人之間、信息與信息之間以及人與信息之間的關(guān)聯(lián),將來(lái)還要進(jìn)一步拓展到人與物、物與信息之間的關(guān)聯(lián)。
信息需求,顧名思義,就是對(duì)信息的需求,其需求主體是用戶。在信息科學(xué)中,信息需求通常被解釋為:1.用戶的使用頻率,偏好信息檢索滿意度實(shí)證研究,是作為需求評(píng)價(jià)來(lái)研究*Kunz, W., Rittel, H. W., & Schwuchow, W.Methods of Analysis and Evaluation of Information Needs:a Critical Review,Verlag Dokumentation,1977.; 2.用戶的一個(gè)需求輸入到信息系統(tǒng)中使其啟動(dòng)或工作,系統(tǒng)輸出一個(gè)基于事實(shí)的反應(yīng)*Mai, J. E. Looking for Information: A Survey of Research on Information Seeking, Needs, and Behavior,Emerald Group Publishing,2016.。但是對(duì)信息流產(chǎn)品來(lái)說(shuō),信息需求是偏向人類而不是偏向技術(shù)的,“是指人們?cè)趶氖赂鞣N社會(huì)活動(dòng)的過(guò)程中,為解決不同的問(wèn)題所產(chǎn)生的對(duì)信息的需求”*鐘守真:《信息資源管理概論》,南開大學(xué)出版社2000年版,第134頁(yè)。。
美國(guó)信息技術(shù)專家科亨 (Kochen) 把用戶的信息需求狀態(tài)劃分為客觀狀態(tài)、認(rèn)識(shí)狀態(tài)和表達(dá)狀態(tài)。*徐嬌揚(yáng):《論用戶信息需求的表達(dá)》,《圖書館論壇》2009年第1期。他認(rèn)為,信息需求的客觀狀態(tài)由用戶所進(jìn)行的職業(yè)或活動(dòng),以及其所處的社會(huì)環(huán)境和知識(shí)結(jié)構(gòu)等客觀因素決定,不以用戶的主觀意志為轉(zhuǎn)移;而信息需求的認(rèn)識(shí)狀態(tài)則指用戶能夠清楚認(rèn)識(shí)到自己已有的對(duì)客觀信息的需求,雖然由于主客觀原因,存在著用戶可能只能認(rèn)識(shí)一部分或者全都無(wú)法認(rèn)識(shí),甚至于錯(cuò)誤認(rèn)知的情況;信息需求的表達(dá)狀態(tài)是指用戶通過(guò)信息活動(dòng),如信息瀏覽、信息傳播、信息訂閱等,特別是與信息服務(wù)系統(tǒng)的交往和互動(dòng),明確、清晰地表達(dá)出自己的需求。
圖1 用戶信息需求的狀態(tài)描述
信息流產(chǎn)品中,不論是有著何種需求的用戶,他們對(duì)于信息服務(wù)或者說(shuō)推薦算法的基本要求都是相似的,他們始終渴望著這些產(chǎn)品可以及時(shí)反饋?zhàn)约旱男枨?,并且能夠充分、全面地滿足它,甚至在某些情況下可以為自己開發(fā)出潛在的或者全新的需求,真正實(shí)現(xiàn)他們對(duì)于信息流產(chǎn)品的個(gè)性化、精準(zhǔn)性、及時(shí)性和充分性的終極需要。事實(shí)上,對(duì)于推薦算法來(lái)說(shuō),要實(shí)現(xiàn)這些目標(biāo),就是推動(dòng)信息需求模型中的客觀狀態(tài)(S1)和認(rèn)識(shí)狀態(tài)(S2)向表達(dá)狀態(tài)(S3)移動(dòng),其核心任務(wù)就是完成精細(xì)的用戶畫像,其中包括用戶基本的社會(huì)人口統(tǒng)計(jì)學(xué)信息、社交信息、行為信息以及其生活工作的環(huán)境信息等多個(gè)維度,具體來(lái)說(shuō)推薦算法對(duì)用戶信息的滿足體現(xiàn)在以下幾個(gè)方面:
1.利用集體的結(jié)構(gòu)性智慧
集體的結(jié)構(gòu)性智慧是Web2.0的核心價(jià)值觀,其中最具代表性的案例就是維基百科。其含義通常是指:為了創(chuàng)造新的想法,將一群人的行為、偏好或思想按照某種規(guī)則組合在一起。在互聯(lián)網(wǎng)時(shí)代之前,人們?yōu)榱藦谋舜藳]有關(guān)系的一大群人之中搜集和分析數(shù)據(jù),經(jīng)常采用調(diào)查問(wèn)卷或者普查的方法。而到了Web2.0時(shí)代,依托于互聯(lián)網(wǎng),可以更大范圍地從人群的行為數(shù)據(jù)中搜集信息,發(fā)現(xiàn)人群的集中趨勢(shì)(共性)及其變化。
推薦算法中常用的協(xié)同過(guò)濾就是利用集體的結(jié)構(gòu)性智慧的典型方法。這種方法認(rèn)為,海量的人群中,一些群體是相似的,用戶可能會(huì)喜歡和他相似的人喜歡的信息,也可能會(huì)討厭和他相似的人所討厭的信息。這種方式類似于營(yíng)銷中的市場(chǎng)細(xì)分。人群具有很多特征,如年齡、地域、職業(yè)、興趣等,根據(jù)人群不同維度,可以將人群細(xì)分到一個(gè)合理的層次。這個(gè)層次的人群既不要太多,也不要太少,因?yàn)樘嗔藳]有個(gè)性化,太少了又沒有統(tǒng)計(jì)意義。舉例來(lái)說(shuō),如果A喜歡科技類、軍事類資訊,B喜歡科技類、軍事類、生活類資訊,統(tǒng)計(jì)發(fā)現(xiàn)A和B相似度高,那么算法就會(huì)認(rèn)為A在很大程度上也會(huì)喜歡生活類資訊,就可以把生活類資訊推薦給A。這種方法具有推薦新信息的能力,往往會(huì)給用戶帶來(lái)“意外之喜”,這樣未被認(rèn)識(shí)和表達(dá)的需求就能夠在集體的結(jié)構(gòu)性智慧中得到滿足。
2.挖掘用戶的社會(huì)屬性
信息流產(chǎn)品經(jīng)常面臨冷啟動(dòng)的問(wèn)題,即在用戶剛開始使用產(chǎn)品時(shí),行為數(shù)據(jù)積累較少,向用戶推薦信息的難度較大。社會(huì)化推薦方法應(yīng)運(yùn)而生。這種方法主要依據(jù)用戶之間的社會(huì)關(guān)系構(gòu)建社會(huì)化網(wǎng)絡(luò),將新用戶和網(wǎng)絡(luò)中原有用戶關(guān)聯(lián)起來(lái),依據(jù)原有用戶的興趣模型對(duì)新用戶推薦信息。一般認(rèn)為,個(gè)體的興趣和偏好往往受到社會(huì)關(guān)系中其他成員的影響,社會(huì)成員之間也會(huì)進(jìn)行互相推薦。因此,一個(gè)人感興趣的信息,往往他身邊的朋友也會(huì)感興趣。以今日頭條為例,用戶最開始注冊(cè)賬號(hào)時(shí),今日頭條會(huì)建議用戶用微博帳號(hào)注冊(cè)登錄,這樣就可以得到用戶的微博信息,包括用戶資料、關(guān)注關(guān)系、發(fā)布的微博等等,這些數(shù)據(jù)都可以成為算法對(duì)用戶進(jìn)行信息推薦的依據(jù)。
研究顯示,與家庭成員相比, 朋友會(huì)對(duì)人的行為和發(fā)展產(chǎn)生更深遠(yuǎn)的影響,朋友間的信任關(guān)系對(duì)提高推薦系統(tǒng)的性能有非常重要的作用。*Sinha, R. R., & Swearingen, K.“Comparing Recommendations Made by Online Systems and Friends”,in DELOS Workshop:Personalisation and Recommender Systems in Digital Libraries,Vol. 106(2001,June).因此,將社交關(guān)系融入推薦系統(tǒng)之中可以為用戶提供更精確的信息,使信息推薦更符合人類生活的社會(huì)化特征,以此主要來(lái)解決模型中被認(rèn)識(shí)卻未被表達(dá)的信息需求。
3.挖掘信息間的關(guān)聯(lián)
目前,推薦算法是解決信息超載問(wèn)題最有效的工具之一。*Li, L., Zheng, L., Yang, F., & Li, T.“Modeling and Broadening Temporal User Interest in Personalized News Recommendation”,in Expert Systems with Applications,41(7),2014,pp.3168-3177.推薦算法作為一種有效的信息過(guò)濾技術(shù),除了通過(guò)獲取用戶的興趣偏好信息從而有針對(duì)地向用戶推薦可能感興趣的內(nèi)容外,還有效建立了信息與信息之間的二元關(guān)聯(lián)規(guī)則。關(guān)聯(lián)即指兩個(gè)不相交的非空集合中,如果X→Y,就說(shuō)X→Y是一條關(guān)聯(lián)規(guī)則,可以分為時(shí)間關(guān)聯(lián)和空間關(guān)聯(lián)兩種。這種關(guān)聯(lián)主要是通過(guò)收集用戶在一次記錄中,如一次搜索行為、一條內(nèi)容信息等,兩類項(xiàng)目同時(shí)出現(xiàn)的次數(shù)、頻率甚至是周期,來(lái)挖掘產(chǎn)品與產(chǎn)品之間的相似度與關(guān)聯(lián)度,從而做出推薦。通過(guò)這種方式,推薦算法可以對(duì)用戶認(rèn)識(shí)有誤、表達(dá)亦有誤的需求加以修正,進(jìn)一步挖掘用戶的潛在需求,提高了用戶對(duì)于信息產(chǎn)品的認(rèn)知,可以幫助其做出更好的信息選擇。例如“搜索了防脫發(fā)產(chǎn)品的20-30歲年齡段用戶可能會(huì)需要咖啡”就是一條關(guān)聯(lián)規(guī)則,基于這條規(guī)則,將兩種產(chǎn)品進(jìn)行關(guān)聯(lián)式推薦可能會(huì)更加符合用戶的購(gòu)買需求。
通過(guò)挖掘信息間的關(guān)聯(lián)規(guī)則,推薦算法也可以計(jì)算并根據(jù)產(chǎn)品間的相似度和用戶對(duì)該產(chǎn)品的已有評(píng)分,來(lái)預(yù)測(cè)用戶對(duì)未被評(píng)分的新產(chǎn)品的喜好程度并做出推薦,這對(duì)沒有任何行為的新用戶以及沒有形成聚類的新產(chǎn)品來(lái)說(shuō),可以有效解決冷啟動(dòng)問(wèn)題。
4.追蹤和預(yù)測(cè)用戶行為
如今,基于算法的精準(zhǔn)化推送已經(jīng)成為信息流產(chǎn)品分發(fā)的重要形式,“基于個(gè)人喜好的推送”應(yīng)運(yùn)而生。在新媒體技術(shù)的條件下,各種互聯(lián)網(wǎng)平臺(tái)都設(shè)置和增加了推送功能。經(jīng)常網(wǎng)上購(gòu)物的人已經(jīng)習(xí)慣了收到系統(tǒng)為他們做出的個(gè)性化推薦,視頻網(wǎng)站會(huì)推薦你可能會(huì)喜歡看的視頻,而音樂(lè)軟件會(huì)通過(guò)我們的聽歌風(fēng)格來(lái)預(yù)測(cè)我們想要聽什么歌曲從而生成專屬的音樂(lè)流。所有這些推薦都來(lái)自于推薦算法進(jìn)行計(jì)算分析的結(jié)果。
推薦算法實(shí)現(xiàn)了從“人找信息”到“信息找人”的轉(zhuǎn)變。它立足于用戶個(gè)體的特殊性,通過(guò)用戶的信息行為偏好、搜索歷史、社交網(wǎng)絡(luò)賬號(hào)、 IP 地址等興趣圖譜和信息消費(fèi)習(xí)慣,形成了用戶專屬的信息模型,并通過(guò)深度數(shù)據(jù)挖掘,智能計(jì)算用戶興趣意圖并預(yù)測(cè)行為,為其推薦個(gè)性化關(guān)聯(lián)產(chǎn)品。它根據(jù)對(duì)用戶行為的追蹤和預(yù)測(cè),以同類信息聚合發(fā)送的方式自動(dòng)為其生成符合需求的信息,可以在海量的數(shù)據(jù)中幫助用戶快速找到其可能需要的內(nèi)容并進(jìn)行精準(zhǔn)推薦,有利于節(jié)省用戶時(shí)間,很大程度上減少了信息過(guò)載帶來(lái)的困擾。這種追蹤和預(yù)測(cè)也能夠幫助用戶喚醒他們表達(dá)出來(lái)但是沒有意識(shí)到的需求。
在如何更好滿足用戶信息需求上,推薦算法的最終目的是增強(qiáng)面向個(gè)體的推薦效果,讓“信息找人”更加精準(zhǔn),使用戶的客觀信息需求被盡可能完整認(rèn)知并正確表達(dá)出來(lái),實(shí)現(xiàn)用戶需求的客觀狀態(tài)、認(rèn)識(shí)狀態(tài)和表達(dá)狀態(tài)的親密耦合。但就推薦算法的發(fā)展?fàn)顩r來(lái)看,仍面臨著很多的挑戰(zhàn),例如相關(guān)數(shù)據(jù)的稀缺、分割和冷啟動(dòng)問(wèn)題成為制約推薦算法精準(zhǔn)到達(dá)的技術(shù)及社會(huì)性的障礙,推薦算法在信息推送時(shí)面臨著多樣性和精確性的兩難挑戰(zhàn),其對(duì)于用戶信息認(rèn)知框架的閉環(huán)影響和其本身的權(quán)力如何與社會(huì)傳統(tǒng)權(quán)力之間的妥協(xié)問(wèn)題等等。
在信息超載問(wèn)題日益嚴(yán)重的今天,運(yùn)用智能技術(shù)幫助用戶識(shí)別、理解信息正日漸成為一種不可阻擋的趨勢(shì),但現(xiàn)階段的推薦算法還遠(yuǎn)遠(yuǎn)未精準(zhǔn)到可以完全滿足用戶認(rèn)知和行為需求的程度。作為一個(gè)發(fā)展前景廣闊的研究領(lǐng)域,推薦算法的未來(lái)發(fā)展必須依靠自身技術(shù)、市場(chǎng)模式、信息生產(chǎn)監(jiān)管制度三者共同進(jìn)步,才能重新展現(xiàn)面向個(gè)體的多樣性和精確性,更好地把握用戶的信息需求,實(shí)現(xiàn)精準(zhǔn)推薦。對(duì)于算法的生產(chǎn)者和內(nèi)容的提供者來(lái)說(shuō),可以通過(guò)產(chǎn)品創(chuàng)新、內(nèi)容優(yōu)化、在技術(shù)層面提供隱私服務(wù)等“自我組織”的方式適應(yīng)市場(chǎng),同時(shí)在道德層面上為用戶提供更大的透明度、更多的自主性,加大對(duì)用戶隱私的保護(hù)。但是由于市場(chǎng)機(jī)制可能會(huì)帶來(lái)“透明度困境”,因此政府的干預(yù)和調(diào)節(jié)也必不可少。但對(duì)于現(xiàn)階段推薦算法來(lái)說(shuō),最重要的是自身技術(shù)的進(jìn)化,體現(xiàn)在以下幾個(gè)方面:
聚類是將具有相似屬性的數(shù)據(jù)聚集,使具備一定相似性的數(shù)據(jù)實(shí)例組織成一些相似組,推薦算法只有在這些相似度高的用戶分組基礎(chǔ)之上才能完成高效的物品推薦。*Gong, S. “A Collaborative Filtering Recommendation Algorithm Based on User Clustering and Item Clustering”,in JSW, 5(7), 2010,pp.745-752.聚類方式出于不同的維度可做不同劃分,一般將其分為用戶聚類和項(xiàng)目聚類等。用戶聚類是指根據(jù)用戶對(duì)某產(chǎn)品的中心相似度找到目標(biāo)用戶的相似用戶群,對(duì)其行為做出預(yù)測(cè)與分析;而項(xiàng)目聚類則指尋求對(duì)幾個(gè)產(chǎn)品(項(xiàng)目)進(jìn)行聚類,尋求產(chǎn)品對(duì)象之間的相似性,對(duì)產(chǎn)品間的相似性及可能的用戶群進(jìn)行分析。*翁小蘭、莊永龍:《基于項(xiàng)目特征聚類的協(xié)同過(guò)濾推薦算法》,《計(jì)算機(jī)應(yīng)用與軟件》2009年第7期。
傳統(tǒng)推薦算法在實(shí)際應(yīng)用場(chǎng)景中往往存在單層次信息獲取導(dǎo)致數(shù)據(jù)稀疏和精確性缺失的問(wèn)題。因此,在對(duì)用戶行為進(jìn)行分析時(shí),將用戶聚類和項(xiàng)目聚類相結(jié)合進(jìn)行立體式的過(guò)濾推薦,可以有效提高推薦的準(zhǔn)確性。這是因?yàn)橛脩襞c用戶以及用戶和行為選擇之間并不是孤立存在的,而是處于一種“交疊關(guān)系”*劉建國(guó)、周濤、汪秉宏:《個(gè)性化推薦系統(tǒng)的研究進(jìn)展》,《自然科學(xué)進(jìn)展》2009年第1期。,身處某一場(chǎng)景的每個(gè)用戶都同時(shí)存在于其他數(shù)個(gè)場(chǎng)景之中,其身份和行為也在不斷變化。只有將用戶在信息流產(chǎn)品中分散的行為數(shù)據(jù)收集、整合起來(lái),在考慮到時(shí)間、空間、任務(wù)等因素的同時(shí),基于多層聚類和多維數(shù)據(jù)進(jìn)行交叉分析,尋找用戶行為以及項(xiàng)目類屬之間的中心相似度,才能為用戶推送更加精準(zhǔn)和個(gè)性化的信息。
對(duì)于傳統(tǒng)推薦算法在多樣性和精準(zhǔn)性上的失衡導(dǎo)致推薦結(jié)果過(guò)于集中或精確性低等問(wèn)題,還可以利用語(yǔ)義網(wǎng)絡(luò)中的語(yǔ)義推理技術(shù),通過(guò)推理物品間的語(yǔ)義關(guān)系、文本中上下文間的關(guān)系等建立新的聯(lián)系,從而增強(qiáng)推薦能力。*黃震華、張佳雯、張波、喻劍、向陽(yáng)、黃德雙:《語(yǔ)義推薦算法研究綜述》,《電子學(xué)報(bào)》2016年第9期。算法可以通過(guò)收集標(biāo)有語(yǔ)義注釋物品的反饋信息,包括對(duì)某物品“本意(物品生產(chǎn)商提供的物品描述信息)”“表意(在使用中被用戶所表達(dá)和認(rèn)知的含義)”“相關(guān)意(二者間的相關(guān)邏輯)”的反饋以及基于關(guān)聯(lián)規(guī)則的候選物品的挖掘,獲取用戶與物品、物品與物品之間較深層次的關(guān)系,來(lái)表示用戶對(duì)物品的偏好程度和物品之間的關(guān)聯(lián)程度?,F(xiàn)階段的推薦算法已經(jīng)可以做到初級(jí)關(guān)聯(lián)的識(shí)別,例如在搜索某音樂(lè)時(shí),現(xiàn)有的推薦算法可以向用戶提供該首樂(lè)曲以及該樂(lè)曲作者的其他作品、同風(fēng)格的作品等,而在下一階段的算法學(xué)習(xí)中,算法將會(huì)對(duì)該音樂(lè)進(jìn)行多層語(yǔ)義的標(biāo)簽分析,諸如該音樂(lè)的文體起源、衍生形式、典型樂(lè)器等,同時(shí)對(duì)用戶獲取其他音樂(lè)的行為進(jìn)行多維度分析,以推測(cè)該用戶搜索某歌曲是為了滿足何種需求、獲取何種信息,從而更有針對(duì)性地提供推薦服務(wù)。
目前的推薦算法系統(tǒng)與用戶之間更多體現(xiàn)為一種單向互動(dòng)。而用戶在信息流產(chǎn)品中的認(rèn)知和行為需求是一個(gè)不斷變化的過(guò)程,未來(lái)的推薦算法應(yīng)該意識(shí)到用戶對(duì)系統(tǒng)的實(shí)時(shí)反饋的重要性,設(shè)計(jì)一種合理的人機(jī)交互策略,在用戶提供反饋的過(guò)程中不斷做出修正和更改。*黃震華、張佳雯、張波、喻劍、向陽(yáng)、黃德雙:《語(yǔ)義推薦算法研究綜述》,《電子學(xué)報(bào)》2016年第9期。推薦算法應(yīng)為用戶建立動(dòng)態(tài)興趣模型,同時(shí)提高推薦系統(tǒng)的實(shí)時(shí)性,在對(duì)用戶需求進(jìn)行及時(shí)記錄和調(diào)整的同時(shí),讓用戶參與到推薦結(jié)果的反饋中去,根據(jù)反饋進(jìn)行自適應(yīng)改進(jìn)。
在傳統(tǒng)推薦算法對(duì)用戶信息進(jìn)行追蹤和記錄時(shí),不可避免地存在大量噪音和無(wú)意義數(shù)據(jù),這些噪音會(huì)對(duì)精準(zhǔn)推薦帶來(lái)極大干擾。未來(lái)的推薦算法應(yīng)該在技術(shù)上采取加入控制參數(shù)等方法對(duì)用戶信息進(jìn)行選擇性的記錄,以去除用戶無(wú)意義或失誤性的信息行為,從而提高推薦結(jié)果的準(zhǔn)確度。
在信息流產(chǎn)品中,推薦算法正在打造其獨(dú)特的需求滿足機(jī)制以實(shí)現(xiàn)自身的發(fā)展和完善。用戶的需求是多層且易變的,如何更為精準(zhǔn)地把握和預(yù)測(cè),將是推薦算法需要繼續(xù)解決的問(wèn)題。就如同人們擔(dān)憂,在未來(lái)機(jī)器是不是會(huì)取代人的價(jià)值,人們對(duì)于算法的擔(dān)憂也是一直存在的,我們不能忽略推薦算法本身所帶來(lái)的倫理道德等問(wèn)題,但是,我們更應(yīng)該清楚,技術(shù)和人類的發(fā)展不是相克的,而是一種協(xié)同共生關(guān)系。人們需要意識(shí)到算法的存在,了解其運(yùn)作的方式,以更好地把握它、利用它,而不是被技術(shù)主導(dǎo)。未來(lái)社會(huì)的發(fā)展,不僅要建立在技術(shù)進(jìn)步的基礎(chǔ)上,而更應(yīng)該是以技術(shù)與人類的相互理解為前提,實(shí)現(xiàn)人類智慧與機(jī)器智慧的互動(dòng)。
最后特別想引用蘋果公司的CEO庫(kù)克在烏鎮(zhèn)中國(guó)互聯(lián)網(wǎng)大會(huì)上所說(shuō)的一句話:“很多人都在談AI,我并不擔(dān)心機(jī)器人會(huì)像人一樣思考,我擔(dān)心的是人像機(jī)器一樣思考!”*https://baijiahao.baidu.com/s?id=1585741143201033766&wfr=spider&for=pc.這句堪稱振聾發(fā)聵的警世格言非常值得正在人工智能+領(lǐng)域行進(jìn)中的人們好好記取。