文/謝華平
在海量信息充斥的時(shí)代,用戶對(duì)優(yōu)質(zhì)、有價(jià)值信息的需求日益突顯。為提高新媒體平臺(tái)內(nèi)容的有效供給,增強(qiáng)媒體平臺(tái)的影響力,各新媒體平臺(tái)日益重視優(yōu)質(zhì)內(nèi)容的生產(chǎn),與此同時(shí),算法推薦也被推崇到前所未有的高度。
新媒體優(yōu)質(zhì)內(nèi)容的判定標(biāo)準(zhǔn)。一是原創(chuàng)程度。一類(lèi)是在網(wǎng)上搜索資料作為背景補(bǔ)充,或者對(duì)已知內(nèi)容進(jìn)行分析后,提煉出自己的觀點(diǎn),能界定特別是標(biāo)題、圖片、文章內(nèi)容的重合度較少的是一類(lèi)原創(chuàng);另一類(lèi)則是通過(guò)一套相關(guān)版權(quán)系統(tǒng),進(jìn)行梳理比對(duì),通過(guò)技術(shù)鑒別全網(wǎng)鑒定誰(shuí)是首次發(fā)布,重復(fù)度有多少,以此確定原創(chuàng)程度。二是垂直深度。目前很多內(nèi)容是通過(guò)RSS(簡(jiǎn)易信息聚合內(nèi)容包裝及投遞協(xié)議)抓取方式接入的。首先,按照稿源內(nèi)容深度對(duì)其進(jìn)行優(yōu)劣評(píng)級(jí),按照優(yōu)劣級(jí)別決定內(nèi)容分發(fā)的比例權(quán)重。其次,除了明確優(yōu)劣之外,還有很重要的一點(diǎn)就是能否更精準(zhǔn)地分發(fā)。如果定義得非常精準(zhǔn),那么推薦文章時(shí)就非常精準(zhǔn),就可以把相關(guān)內(nèi)容精準(zhǔn)地推送給對(duì)它感興趣的人,這就大大增加了文章的點(diǎn)擊率。三是活躍程度。某個(gè)賬號(hào)在一段時(shí)間內(nèi)發(fā)文的數(shù)量和點(diǎn)擊率就是活躍度。但更為精細(xì)化的運(yùn)營(yíng),要對(duì)比與各個(gè)平臺(tái)上的發(fā)文數(shù)、發(fā)文質(zhì)量以及發(fā)文時(shí)間、發(fā)文點(diǎn)擊率的差距。這種精細(xì)化運(yùn)營(yíng)活躍度的觀念方法,一定要貫穿到新媒體內(nèi)容的每一個(gè)環(huán)節(jié)。四是受關(guān)注度。所謂受關(guān)注度,是指某個(gè)新媒體的用戶訂閱數(shù)量,以及用戶訂閱之后,這個(gè)號(hào)與用戶之間的關(guān)系有多密切。用戶訂閱之后,推送新內(nèi)容時(shí)會(huì)給用戶很明確的提示,以吸引用戶的關(guān)注。五是作者的知名程度。知名程度是新媒體作者的影響力度。新媒體內(nèi)容作者可分為三類(lèi):名人、達(dá)人、普通人。名人是指具備社會(huì)知名度的人;達(dá)人指在某個(gè)領(lǐng)域具備知名度,影響力僅限于專(zhuān)業(yè)圈。這兩類(lèi)人在內(nèi)容的分發(fā)上是要加權(quán)的。同樣質(zhì)量的文章,要優(yōu)先分發(fā)名人撰寫(xiě)的。同時(shí)要特別重視把平臺(tái)上的普通人培養(yǎng)為達(dá)人、名人。六是用戶體驗(yàn)。優(yōu)質(zhì)的新媒體內(nèi)容必須有良好的用戶體驗(yàn)。用戶體驗(yàn)是一個(gè)系統(tǒng)工程,需要內(nèi)容、布局、設(shè)計(jì)、瀏覽速度等的綜合支撐。要對(duì)用戶進(jìn)行精準(zhǔn)的數(shù)據(jù)分析,不斷發(fā)現(xiàn)問(wèn)題和解決問(wèn)題,才能持續(xù)提高用戶體驗(yàn)。
新媒體優(yōu)質(zhì)內(nèi)容的生產(chǎn)方法。一是充分利用爬蟲(chóng)工具抓取內(nèi)容材料。通常新媒體內(nèi)容很大一部分來(lái)源于其他媒體門(mén)戶網(wǎng)站,新媒體內(nèi)容制作重點(diǎn)是通過(guò)爬蟲(chóng)工具來(lái)抓取素材,這是新媒體內(nèi)容制作的基礎(chǔ)。二是建立用戶平臺(tái)。讓用戶在新媒體平臺(tái)的基礎(chǔ)上建立自己的平臺(tái),上傳自己創(chuàng)作的內(nèi)容。今日頭條在這方面的嘗試取得了很大成效。三是大力發(fā)展短視頻創(chuàng)作。近年來(lái)短視頻發(fā)展迅猛,成為用戶最喜歡的內(nèi)容接收形式,新媒體優(yōu)質(zhì)內(nèi)容要重點(diǎn)開(kāi)發(fā)和生產(chǎn)短視頻。抖音支持新媒體短視頻創(chuàng)作,并已成為規(guī)模較大的新媒體短視頻分發(fā)平臺(tái),因此新媒體內(nèi)容生產(chǎn)可以借助抖音這一重要渠道。四是補(bǔ)貼優(yōu)質(zhì)內(nèi)容生產(chǎn)。很多新媒體平臺(tái)為了獲得更多優(yōu)質(zhì)內(nèi)容,推出了很多補(bǔ)貼方案。今日頭條為了能持續(xù)地生產(chǎn)新媒體內(nèi)容,開(kāi)展了補(bǔ)貼計(jì)劃,設(shè)立內(nèi)容創(chuàng)投基金,建立新媒體實(shí)驗(yàn)室等,重點(diǎn)為短視頻生產(chǎn)提供補(bǔ)貼。
新媒體優(yōu)質(zhì)內(nèi)容推薦算法采用的是一個(gè)綜合性的評(píng)估判斷機(jī)制。這套機(jī)制通過(guò)反饋用戶的一系列行為來(lái)提升改進(jìn)系統(tǒng)平臺(tái)的各項(xiàng)性能,提高用戶的體驗(yàn)滿意度,以此使系統(tǒng)平臺(tái)形成一個(gè)自適應(yīng)的良性循環(huán)生態(tài)系統(tǒng)。
優(yōu)質(zhì)內(nèi)容的推薦機(jī)制持續(xù)自我進(jìn)化。系統(tǒng)的推薦算法在初期不可能是完美的,有著自身的局限性。因此其需要另外一種分發(fā)手段來(lái)彌補(bǔ)算法的不足或弊端,這個(gè)分發(fā)手段就是粉絲分發(fā),也可以叫社交分發(fā)。這種分發(fā)手段已不僅僅限于推薦算法,它綜合了推薦算法、社交互動(dòng)、搜索抓取和用戶問(wèn)答等多種手段。推薦算法的價(jià)值同時(shí)還體現(xiàn)在即便是小眾人群也可能獲得較好的推薦,也能獲得對(duì)其有價(jià)值的信息。例如,一些小眾化的影視節(jié)目,20世紀(jì)六七十年代的胡同照片,大學(xué)里的邊角資訊,這些原本散落在網(wǎng)絡(luò)某些角落的信息,被收納進(jìn)某個(gè)推薦系統(tǒng),也會(huì)根據(jù)需要推薦到用戶眼前。在內(nèi)容推薦機(jī)制中不僅僅用算法為用戶推薦感興趣的內(nèi)容,也不是只有算法推薦的內(nèi)容??傊?,內(nèi)容推薦機(jī)制還是要綜合運(yùn)用對(duì)數(shù)據(jù)流量的理解、對(duì)平臺(tái)的運(yùn)營(yíng)思維所形成的復(fù)合能力,盡管算法很重要,但其也只是其中的一個(gè)環(huán)節(jié)。
推薦算法并不是用戶喜歡什么就推什么。傳播學(xué)里面有個(gè)回音室效應(yīng)概念,是指在某一個(gè)較為封閉的場(chǎng)景里,一些相似或相近的意見(jiàn)、觀點(diǎn)不斷重復(fù), 甚至以夸張的或扭曲的方式反復(fù)、持續(xù)地進(jìn)行,令在這個(gè)較為封閉環(huán)境中的人們誤以為這些扭曲、夸張的內(nèi)容就是全部的事實(shí)?,F(xiàn)在內(nèi)容推薦機(jī)制會(huì)盡可能地降低這種回音室效應(yīng),盡量避免用戶喜歡什么就給他推薦什么。正如社會(huì)心理學(xué)上的“貝勃定律”,從心理感受的角度來(lái)說(shuō),對(duì)于相同的兩次刺激,通常第二次的刺激反應(yīng)會(huì)小于第一次的刺激反應(yīng)。實(shí)際上,推薦算法中采用了一種打散用戶興趣偏好的機(jī)制,不向用戶連續(xù)推薦相似度極高的內(nèi)容。再者,一個(gè)人的興趣愛(ài)好不可能總是不變。因此,從滿足用戶需求的方面來(lái)說(shuō),推薦系統(tǒng)也不允許一直不變地推送雷同內(nèi)容。
推薦算法自身具有探索能力。推薦算法不是機(jī)械的、簡(jiǎn)單的算術(shù),它有不斷學(xué)習(xí)的能力,能夠持續(xù)性地迭代,進(jìn)行自適應(yīng)性的進(jìn)化。推薦算法里的協(xié)同推薦,是指除新媒體內(nèi)容本身之外,還考慮用戶的推薦,通過(guò)分析一些用戶之間的屬性、行為的相關(guān)性、相似性,不斷拓展系統(tǒng)推薦的學(xué)習(xí)能力。例如,一些用戶喜歡科技、財(cái)經(jīng)、體育,其中一些用戶也喜歡健康內(nèi)容,那么推薦算法就會(huì)嘗試將健康內(nèi)容推送給以上所有相關(guān)用戶。因?yàn)樵谕扑]系統(tǒng)看來(lái),用戶A和用戶B是相似的人。
推薦算法更容易突破固化的圈層。朋友圈具有較大的“回音壁”效應(yīng),因?yàn)榕笥讶锏挠嘘P(guān)信息,完全由圈內(nèi)用戶定制,由于內(nèi)容是圈內(nèi)的用戶按照自己的喜好篩選出來(lái)的,所以在朋友圈里和自己相左的觀點(diǎn)和意見(jiàn)就非常少,這就很可能形成這一類(lèi)人的偏見(jiàn)。而算法推薦機(jī)制可以推薦多種觀點(diǎn)。
今日頭條對(duì)推薦系統(tǒng)的運(yùn)用包括三個(gè)維度,即推薦內(nèi)容的分析、網(wǎng)絡(luò)用戶的標(biāo)簽設(shè)置與評(píng)估、新媒體內(nèi)容的安全防范機(jī)制等。
今日頭條推薦系統(tǒng)的內(nèi)容要素特征。一是標(biāo)簽內(nèi)容之間的相關(guān)性,用于估測(cè)新媒體內(nèi)容的屬性能否和用戶特征匹配。一些內(nèi)容要素,如關(guān)鍵詞、主題等可以直接匹配。模型中還有一些隱性的匹配,例如,可以測(cè)算用戶向量與內(nèi)容的距離。二是其環(huán)境特征,包括時(shí)間、地點(diǎn)等。這些既是相關(guān)性特征,也能以此構(gòu)建一些匹配特征。三是內(nèi)容要素的熱度。在今日頭條推薦系統(tǒng)中,新媒體內(nèi)容的熱度信息在用戶初始啟動(dòng)的時(shí)候影響非常明顯,其中包括主題詞、關(guān)鍵詞、來(lái)源、分類(lèi)等。四是內(nèi)容要素的協(xié)同性,這種協(xié)同性可以快速解決在某些程度上信息越推越窄的問(wèn)題。用戶標(biāo)簽具有的協(xié)同性并不是分析用戶活動(dòng)的過(guò)往,而是分析用戶之間活動(dòng)的相似性,如分析內(nèi)容主題詞的相似性、興趣的相似性,或者向量的相似性等,通過(guò)這些協(xié)同性分析來(lái)擴(kuò)展推薦系統(tǒng)的探索能力。
新媒體推薦內(nèi)容的分析。今日頭條經(jīng)常遇到的問(wèn)題就是為什么系統(tǒng)總是重復(fù)推薦內(nèi)容。這個(gè)問(wèn)題的解決難點(diǎn)在于,人們對(duì)重復(fù)的含義理解是不一致的。要解決這個(gè)問(wèn)題,需根據(jù)相似文章的特征,如主題、行文內(nèi)容等進(jìn)行分析。新媒體內(nèi)容的分析包括文本分析、圖片分析和視頻分析。在今日頭條推薦系統(tǒng)中,文本分析可用于用戶的興趣建模。如果缺少文本內(nèi)容,自然無(wú)法具體地設(shè)置用戶興趣標(biāo)簽。例如,推薦系統(tǒng)通過(guò)分析用戶,讀取并標(biāo)注了互聯(lián)網(wǎng)標(biāo)簽的文章內(nèi)容,就能確定用戶具有了互聯(lián)網(wǎng)標(biāo)簽。分析文本的內(nèi)容可以提高系統(tǒng)的推薦效率,例如通過(guò)分析抖音的有關(guān)內(nèi)容就可以推送給關(guān)注抖音的用戶,這是應(yīng)用了用戶標(biāo)簽的文本特征匹配機(jī)制。如果在主頻道上推薦的效果不甚理想,出現(xiàn)了推薦窄化的現(xiàn)象,系統(tǒng)可以在具體的頻道中推薦給用戶閱讀,這樣系統(tǒng)的推薦效果會(huì)變得更好。在子頻道上探索空間比較小,這樣更容易滿足用戶的需求。
用戶標(biāo)簽的設(shè)置與評(píng)估。今日頭條推薦系統(tǒng)把用戶的性別、年齡、籍貫等基本信息,用戶的興趣愛(ài)好,以及用戶經(jīng)常搜索的關(guān)鍵詞等標(biāo)注為用戶標(biāo)簽。用戶的性別信息可以根據(jù)第三方社交賬號(hào)登錄信息獲得,常駐地可以從用戶的授權(quán)訪問(wèn)位置信息獲得。在此基礎(chǔ)上結(jié)合其他信息,就能估測(cè)用戶的活動(dòng)地點(diǎn)等。這些標(biāo)簽就非常有利于新媒體內(nèi)容的推薦。
首先,建立評(píng)估體系要兼顧短期指標(biāo)與長(zhǎng)期指標(biāo)。很多策略在短期內(nèi)用戶可能覺(jué)得新鮮,可是從長(zhǎng)期來(lái)看實(shí)質(zhì)上并沒(méi)有明顯的助益。其次,推薦系統(tǒng)的評(píng)估體系還要兼顧用戶指標(biāo)與生態(tài)指標(biāo)。既要讓內(nèi)容創(chuàng)作者獲得有價(jià)值的系統(tǒng)推薦的內(nèi)容,有尊嚴(yán)地進(jìn)行內(nèi)容創(chuàng)作,也要有義務(wù)盡可能地滿足用戶的實(shí)際需求,這兩者要兼顧平衡。此外,一些廣告主的利益也得要考慮在其中,這就形成了多方博弈及兼顧多方的平衡。一個(gè)完備的體系需要多個(gè)指標(biāo)綜合衡量,僅看點(diǎn)擊率、停留時(shí)長(zhǎng)是遠(yuǎn)遠(yuǎn)不夠的,在實(shí)際評(píng)估過(guò)程中要參考多維評(píng)估指標(biāo)。很多公司在這方面做得不夠好,這并不是相關(guān)工程師們的能力不夠,而是評(píng)估模型需要一個(gè)功能強(qiáng)大的實(shí)驗(yàn)性平臺(tái),通過(guò)便捷的平臺(tái)分析工具,就可以使推薦系統(tǒng)智能化、自動(dòng)化地分析新媒體內(nèi)容指標(biāo)體系的置信度。當(dāng)同時(shí)在線的實(shí)驗(yàn)很多的時(shí)候,實(shí)驗(yàn)平臺(tái)就可以自動(dòng)分配數(shù)據(jù)流量,不需要人工溝通,而且實(shí)驗(yàn)結(jié)束后數(shù)據(jù)流量會(huì)立即回收,這樣就加快了算法的迭代效應(yīng),提高了推薦系統(tǒng)的管理效率,降低了推薦系統(tǒng)的分析成本,使得整個(gè)推薦系統(tǒng)的算法優(yōu)化工作迅速流暢地運(yùn)行。
新媒體內(nèi)容的安全防范機(jī)制。今日頭條作為行業(yè)領(lǐng)導(dǎo)者之一,越來(lái)越重視自身的社會(huì)責(zé)任。他們盡力優(yōu)化推薦系統(tǒng),盡可能地消除不當(dāng)內(nèi)容的推薦與分發(fā)。今日頭條的新媒體內(nèi)容一方面來(lái)源于專(zhuān)業(yè)生產(chǎn)內(nèi)容(PGC)平臺(tái),依托它具有了成熟內(nèi)容生產(chǎn)能力;另一方面來(lái)源于微頭條、用戶問(wèn)答、內(nèi)容評(píng)論等用戶提供內(nèi)容。這兩部分的內(nèi)容推薦與分發(fā)都要經(jīng)過(guò)推薦系統(tǒng)的內(nèi)容審核機(jī)制統(tǒng)一處理。如專(zhuān)業(yè)生產(chǎn)內(nèi)容平臺(tái)生產(chǎn)的數(shù)量相對(duì)較少,就會(huì)直接進(jìn)入風(fēng)險(xiǎn)審核處理程序,審核的結(jié)果若沒(méi)有問(wèn)題,推薦系統(tǒng)則會(huì)在大范圍內(nèi)予以推薦及分發(fā)。用戶生產(chǎn)內(nèi)容(UGC)會(huì)經(jīng)過(guò)風(fēng)險(xiǎn)模型的內(nèi)容過(guò)濾,存在問(wèn)題的就會(huì)進(jìn)入二次風(fēng)險(xiǎn)審核。只有審核結(jié)果確認(rèn)通過(guò)后,該內(nèi)容才會(huì)進(jìn)入推薦系統(tǒng)的推薦與分發(fā)階段。如果這些新媒體內(nèi)容得到限定量以上的負(fù)面評(píng)論或者遭到舉報(bào)反饋,就會(huì)對(duì)該內(nèi)容重新審核,問(wèn)題嚴(yán)重者則被下架。今日頭條在風(fēng)險(xiǎn)內(nèi)容識(shí)別技術(shù)方面建立了鑒黃模型、低俗模型和謾罵模型。這三種模型利用的是深度學(xué)習(xí)算法進(jìn)行持續(xù)訓(xùn)練,建立的樣本數(shù)據(jù)庫(kù)非常大,可以對(duì)圖片和文本同時(shí)進(jìn)行分析。這些模型比較注重召回率,準(zhǔn)確率方面相對(duì)來(lái)說(shuō)可以降低一些。鑒黃模型的召回率可達(dá)99%,低俗模型召回率高達(dá)90%,準(zhǔn)確率可超80%。謾罵模型召回率也很高,可達(dá)95%,準(zhǔn)確率可超80%。