● 王君然
隨著智能算法在各個(gè)領(lǐng)域的普及,算法對(duì)于我們也不再是“黑箱”一般的存在。盡管算法的種類(lèi)和應(yīng)用多種多樣, 但其基本的技術(shù)邏輯是樸素的, 都是通過(guò)多維擬合來(lái)實(shí)現(xiàn)相似性檢索。
1.基于特征向量集合的內(nèi)容推薦機(jī)制?;ヂ?lián)網(wǎng)時(shí)代的一個(gè)重要特征就是信息過(guò)載,這導(dǎo)致了信息內(nèi)容的龐雜和冗余,那么這種情況下如何進(jìn)行信息和需求的分類(lèi)就顯得尤為重要,不斷進(jìn)行層次的精確和細(xì)分,能夠提升系統(tǒng)的操作效率,也迎合了分眾導(dǎo)向。由于計(jì)算機(jī)的本質(zhì)只是在進(jìn)行大量的統(tǒng)計(jì)和快速計(jì)算,所以就要把信息內(nèi)容和用戶(hù)需求量化成可計(jì)算的數(shù)字,然后通過(guò)算法去歸類(lèi)這些數(shù)字化的特征并根據(jù)特征數(shù)字進(jìn)行分發(fā),即TF-IDF 模型。TF 就是將關(guān)鍵詞的次數(shù)歸一化,計(jì)算關(guān)鍵詞的詞頻,一條信息內(nèi)容的總詞頻就成為此信息的相關(guān)性指標(biāo)之一。而IDF 指的是詞條的權(quán)重。由于不同的詞條對(duì)主題的預(yù)測(cè)能力和鎖定目標(biāo)的難易程度都不同,所以要將詞條的相關(guān)性權(quán)重引入檢測(cè)的標(biāo)準(zhǔn)當(dāng)中。
2.基于用戶(hù)與產(chǎn)品二元關(guān)系的協(xié)同過(guò)濾機(jī)制。協(xié)同過(guò)濾算法的關(guān)鍵在于通過(guò)收集已知數(shù)據(jù)來(lái)預(yù)測(cè)未知數(shù)據(jù),具體又分為三類(lèi):基于用戶(hù)的過(guò)濾、基于項(xiàng)目的過(guò)濾和基于模型的過(guò)濾。但無(wú)論是哪種過(guò)濾方式,其技術(shù)邏輯都是在用戶(hù)與信息產(chǎn)品之間自動(dòng)建立了二元的邏輯關(guān)聯(lián),都充分利用了群體智慧和合作機(jī)制,從大量的用戶(hù)行為數(shù)據(jù)中挖掘相似性,不斷擬合出用戶(hù)的潛在興趣。
協(xié)同過(guò)濾機(jī)制的實(shí)現(xiàn)要基于一定的前提假設(shè),即興趣相近的用戶(hù)可能會(huì)對(duì)相同的事物感興趣且用戶(hù)會(huì)對(duì)已關(guān)注的相似事物感興趣。這種假設(shè)就決定了擬合所需的維度。用戶(hù)層面的擬合,可以通過(guò)皮爾森相關(guān)系數(shù)和上文提到的余弦相似性來(lái)測(cè)量,找到興趣邏輯上與你距離最近的用戶(hù)。這種測(cè)量的數(shù)據(jù)來(lái)源一般是通過(guò)用戶(hù)的評(píng)分,包括顯性評(píng)分和隱形評(píng)分。顯性評(píng)分即用戶(hù)對(duì)于信息實(shí)際價(jià)值反饋,例如App store 里會(huì)讓用戶(hù)對(duì)應(yīng)用的使用感受進(jìn)行打分;而隱形評(píng)分更多地則是通過(guò)用戶(hù)的行為數(shù)據(jù)來(lái)體現(xiàn),對(duì)每一個(gè)具體用戶(hù)進(jìn)行分布式的計(jì)算,以形成相關(guān)用戶(hù)網(wǎng)絡(luò)?;谟脩?hù)的協(xié)同過(guò)濾由于要收集實(shí)時(shí)的行為數(shù)據(jù),一般都要在線(xiàn)過(guò)濾,對(duì)算法的要求更高,復(fù)雜性也更高,但能夠給予用戶(hù)比較新鮮的體驗(yàn),因?yàn)檫@種過(guò)濾選取的是不同用戶(hù)興趣的交集,推薦的是用戶(hù)彼此的補(bǔ)集,能夠拓寬用戶(hù)的視野,不易造成“信息孤島”。而基于項(xiàng)目的過(guò)濾往往是相對(duì)比較靜態(tài)的,因此可以采用離線(xiàn)過(guò)濾,耗費(fèi)成本小,但由于是相同類(lèi)型內(nèi)容的推薦,可能會(huì)產(chǎn)生“信息繭房”現(xiàn)象。
1.算法推薦僅僅根據(jù)用戶(hù)點(diǎn)擊率進(jìn)行推薦?在算法時(shí)代,大部分人感興趣的東西是高度類(lèi)似的,如果單單根據(jù)用戶(hù)某一時(shí)段的點(diǎn)擊率狀況作為信息分析的數(shù)據(jù)庫(kù),恐怕只會(huì)造成“火爆的產(chǎn)品持續(xù)火爆”的情況。按照內(nèi)容熱度來(lái)進(jìn)行內(nèi)容的分發(fā)和排布是各大門(mén)戶(hù)網(wǎng)站早就具備的功能,其運(yùn)營(yíng)目的就是實(shí)現(xiàn)信息內(nèi)容的“極化”,高話(huà)題度帶來(lái)高收益。隨著算法模型的不斷進(jìn)化,如何運(yùn)用算法挖掘用戶(hù)的“長(zhǎng)尾需求”以進(jìn)行資源的合理配置成為趨勢(shì)。而這種“長(zhǎng)尾需求”的挖掘恰恰是反點(diǎn)擊率的,系統(tǒng)要持續(xù)跟進(jìn)用戶(hù)的多維信息和行為并根據(jù)算法模型的分發(fā)去激發(fā)其潛在的需求,需要算法模型在資源數(shù)據(jù)庫(kù)中尋找到與用戶(hù)畫(huà)像最匹配的內(nèi)容,并通過(guò)持續(xù)試探性的推送做出判斷,整體數(shù)據(jù)來(lái)看,這種推薦模式或許更有遠(yuǎn)期優(yōu)勢(shì)。另外,現(xiàn)有的算法推薦系統(tǒng)往往是基于移動(dòng)互聯(lián)網(wǎng)的,必須關(guān)注用戶(hù)所處的環(huán)境特征,用戶(hù)在不同時(shí)間、地點(diǎn)和使用終端“屏”的大小等都影響用戶(hù)的信息偏好。隨著移動(dòng)互聯(lián)技術(shù)的發(fā)展,越來(lái)越多的感官體驗(yàn)被嵌入用戶(hù)的信息選擇流程中,豐富著用戶(hù)的信息接收路徑,技術(shù)的應(yīng)用擴(kuò)展了算法模型的探索能力,因而環(huán)境與技術(shù)維度的偏好也更加不能被忽視。
2.算法推薦是“信息繭房”的最大兇手?我們經(jīng)常會(huì)認(rèn)為算法給你推薦的都是你感興趣的內(nèi)容,長(zhǎng)時(shí)間處于程序化和定制化的信息環(huán)境中,從而讓自己的生活仿佛置于“繭房”之中。然而在大多數(shù)情況下,算法并不能完全決定分發(fā)的內(nèi)容,更何況現(xiàn)階段各類(lèi)運(yùn)營(yíng)商通常都會(huì)選擇多種算法疊加的形式來(lái)為用戶(hù)進(jìn)行推薦,很大程度上打破了單一算法導(dǎo)致的信息推送模式固化的壁壘。另外,我們往往認(rèn)為用戶(hù)只能夠從算法推薦中進(jìn)行被動(dòng)選擇。這是因?yàn)槲覀円恢倍冀o自己規(guī)制了兩個(gè)預(yù)設(shè),一是用戶(hù)的能動(dòng)性會(huì)隨著便捷性的上升而降低。而用戶(hù)的主動(dòng)性檢索行為是認(rèn)知層面的需求,與我們“刷手機(jī)”帶來(lái)的休閑娛樂(lè)的需求是不同的,不會(huì)因?yàn)橐环N需求被滿(mǎn)足就消解了另一種需求。第二個(gè)預(yù)設(shè)是在這個(gè)循環(huán)中我們很容易忽視了信息的天然穿透性,并不是所有信息只有通過(guò)推薦才能被用戶(hù)所知,況且算法本身并不是完美和精確的,這種不精確也恰恰成為它的“留白”,提示我們由算法構(gòu)筑的擬態(tài)環(huán)境也需要適當(dāng)?shù)亍伴_(kāi)天窗”。
3.算法推薦收集的數(shù)據(jù)越多越好?算法本質(zhì)上基于的是數(shù)學(xué)運(yùn)算,是通過(guò)特定輸入產(chǎn)生特定輸出。但這里仍然有兩個(gè)問(wèn)題,一是用戶(hù)的每一次選擇行為究竟是不是對(duì)自我個(gè)性的描述,二是算法只能獲取到公開(kāi)的和局部的特征數(shù)據(jù)。為了實(shí)現(xiàn)更精準(zhǔn)的擬合,算法系統(tǒng)會(huì)不斷收集用戶(hù)各個(gè)行為維度的數(shù)據(jù),然而用它去識(shí)別新的樣本時(shí),算法會(huì)按照原有的訓(xùn)練模型去嵌套新的樣本,很有可能產(chǎn)生推薦準(zhǔn)確率變低的情況,這就是算法推薦中的過(guò)度擬合。在已知數(shù)據(jù)集中表現(xiàn)很好,但在未知數(shù)據(jù)集中表現(xiàn)得很差。
算法的過(guò)度擬合會(huì)讓算法的性?xún)r(jià)比變低,前期的巨大的模型容量與后期甚微的推薦效果之間產(chǎn)生了很大的矛盾。我們運(yùn)用算法推薦的目的是要預(yù)測(cè)未知數(shù)據(jù),讓未知與已知最大程度地貼合才是性?xún)r(jià)比最高的做法。
1.建立多指標(biāo)推薦系統(tǒng)以打破用戶(hù)的媒介依賴(lài)效應(yīng)。媒介依賴(lài)?yán)碚撜J(rèn)為整個(gè)傳播系統(tǒng)是由媒介、受眾和社會(huì)三個(gè)有機(jī)部分共同組成的,三者相互影響。媒介依賴(lài)效應(yīng)的產(chǎn)生就是受眾對(duì)于媒介技術(shù)的使用產(chǎn)生了異化的形態(tài),由此破壞了這一環(huán)節(jié)的平衡。那么用戶(hù)真正產(chǎn)生依賴(lài)的究竟是內(nèi)容還是算法推薦的形式?自然是內(nèi)容。一方面,快感為王的碎片化傳播切割了用戶(hù)的注意力,在信息接受中用戶(hù)失去了自己的需求重心和情感偏好,更容易對(duì)讓人產(chǎn)生快感的內(nèi)容出現(xiàn)依賴(lài)感,具體表現(xiàn)在使用時(shí)長(zhǎng)及使用頻次上。另一方面,UGC 模式“傳受一體”的信息構(gòu)建方式會(huì)很大程度上瓦解精英話(huà)語(yǔ)體系,從而使得受眾的批判意識(shí)和能力下降,此時(shí)媒介對(duì)于受眾的影響力就會(huì)相應(yīng)地上升,依賴(lài)感自然增強(qiáng)。這種基于內(nèi)容的依賴(lài)感會(huì)流動(dòng)到負(fù)責(zé)分發(fā)內(nèi)容的算法上,用戶(hù)會(huì)更加配合和適應(yīng)算法推薦的流程和結(jié)果,并在這種信息的循環(huán)中擔(dān)任一個(gè)推動(dòng)者的角色。
目前推薦系統(tǒng)的主要推送指標(biāo)包括用戶(hù)的社交關(guān)系、基本信息以及瀏覽記錄,因此在推薦系統(tǒng)的算法模型中可以加入用戶(hù)滿(mǎn)意度、內(nèi)容影響力、專(zhuān)業(yè)品質(zhì)、時(shí)效性等指標(biāo),向用戶(hù)呈現(xiàn)經(jīng)過(guò)重新加權(quán)的復(fù)雜結(jié)果,推送的結(jié)果可能幫助用戶(hù)發(fā)掘更多有價(jià)值的信息,走出“信息窄化”的困境。要不斷刺激用戶(hù)的興趣點(diǎn),利用好算法推薦對(duì)產(chǎn)品的各個(gè)角度進(jìn)行數(shù)據(jù)埋點(diǎn),檢測(cè)用戶(hù)對(duì)內(nèi)容的“正負(fù)反饋”,給予用戶(hù)正確的價(jià)值引導(dǎo)。
2.將“用戶(hù)認(rèn)知”引入算法推薦以平衡價(jià)值理性與工具理性之間的矛盾。韋伯將理性分為了價(jià)值理性和工具理性?xún)蓚€(gè)層次,工具理性的本質(zhì)是現(xiàn)代技術(shù)的“計(jì)算”功能,具有道德無(wú)涉性和結(jié)果效用性,算法推薦作為一種工具理性,受到“技術(shù)中立”的影響,能夠最大限度地刨除掉主觀(guān)價(jià)值對(duì)于結(jié)果的影響并實(shí)現(xiàn)資源最大限度的合理配置,是技術(shù)發(fā)展的必然趨勢(shì)。但由于工具理性過(guò)分強(qiáng)調(diào)“物化”的功能效用,與關(guān)注行為本身所代表的價(jià)值和意義的價(jià)值理性產(chǎn)生了矛盾,任何獨(dú)立的價(jià)值觀(guān)念都會(huì)被效益最大化所消解。尤其是在當(dāng)下信息內(nèi)容娛樂(lè)化和同質(zhì)化嚴(yán)重,用戶(hù)的主體性逐步缺失,越低級(jí)趣味的內(nèi)容越容易獲得關(guān)注,把用戶(hù)興趣作為標(biāo)準(zhǔn)去衡量?jī)?nèi)容的價(jià)值往往很容易形成傳播的“負(fù)效應(yīng)”。
當(dāng)我們了解了算法的基本運(yùn)行機(jī)制,就會(huì)降低我們的“技術(shù)崇拜”,技術(shù)本身沒(méi)有對(duì)錯(cuò),算法的功效是非常積極主動(dòng)的,更重要的是注重平衡算法的黑盒推薦與白盒推薦。黑盒推薦就是我們常說(shuō)的通過(guò)機(jī)器學(xué)習(xí)不斷迭代訓(xùn)練模型,并不需要關(guān)注推薦的具體內(nèi)容。而白盒推薦是深入被推薦的條目?jī)?nèi)容之中,依據(jù)對(duì)條目的先驗(yàn)知識(shí)和對(duì)用戶(hù)的理解進(jìn)行相關(guān)匹配的推薦,屬于算法與人工的“耦合”。隨著數(shù)字媒介技術(shù)的應(yīng)用和發(fā)展,算法推薦也在不斷學(xué)習(xí)和更新包括內(nèi)容相關(guān)性、實(shí)時(shí)熱度、媒介使用環(huán)境和用戶(hù)協(xié)同特征在內(nèi)的更多維度的用戶(hù)行為,同時(shí)也會(huì)加入如過(guò)濾噪聲、熱點(diǎn)懲罰和時(shí)間衰減等數(shù)據(jù)處理策略來(lái)優(yōu)化系統(tǒng)。一個(gè)好的算法推薦系統(tǒng)是機(jī)器學(xué)習(xí)和人工管理在多方博弈和協(xié)同的基礎(chǔ)上產(chǎn)生的,無(wú)論是用戶(hù)還是運(yùn)營(yíng)商,探索算法的“黑箱”能讓我們更加合理地應(yīng)用算法,獲得信息,實(shí)現(xiàn)收益。