李婧夕
摘 要:隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,傳統(tǒng)電視媒體的優(yōu)勢正被逐漸侵蝕。收視率下降、廣告收入下滑、受眾老化等各類因素都在倒閉傳統(tǒng)電視媒體的改革。為了減少與新媒體的隔閡,重塑媒體霸主地位,央視及各省級(jí)衛(wèi)視紛紛推出電視終端應(yīng)用。社交電視,作為兼具“看+聊+玩”功能的C端產(chǎn)品,受到業(yè)界的廣泛關(guān)注,但互動(dòng)社交這個(gè)核心模塊未能被真正激活是一大缺憾。該文以社交電視互動(dòng)社交模塊這個(gè)市場缺口為中心,通過研究用戶社會(huì)屬性、興趣偏好及行為軌跡,運(yùn)用基于用戶的協(xié)同過濾算法進(jìn)行建模,最終建立一個(gè)能被有效運(yùn)用的具有“節(jié)目內(nèi)容+社交圈子+互動(dòng)活動(dòng)”功能的推薦系統(tǒng),這也正是該文的最大創(chuàng)新點(diǎn)。
關(guān)鍵詞:社交電視 用戶興趣模型 基于用戶的協(xié)同過濾算法 推薦系統(tǒng)
中圖分類號(hào):TN94 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)11(b)-0204-03
2015年是移動(dòng)互聯(lián)網(wǎng)元年,如果說過去10年還是一場由“社交+電商+視頻”主導(dǎo)的互聯(lián)網(wǎng)改良運(yùn)動(dòng),那么“移動(dòng)”元素的加入無疑是在助推互聯(lián)網(wǎng)的改革。視頻行業(yè)在傳統(tǒng)互聯(lián)網(wǎng)時(shí)代的標(biāo)志性產(chǎn)物是自制劇、UGC,但廣電傳媒產(chǎn)出的內(nèi)容多以官方、權(quán)威、社會(huì)、大眾著稱,目標(biāo)在于達(dá)到普遍共識(shí)。移動(dòng)互聯(lián)時(shí)代的全面到來,給廣電傳媒帶來了更大的機(jī)遇,為謀求更大的發(fā)展空間,就要顛覆以節(jié)目內(nèi)容為導(dǎo)向的思想,將更多的焦點(diǎn)轉(zhuǎn)向用戶,通過研究用戶的社會(huì)屬性、興趣偏好及行為軌跡,打造出兼具“個(gè)性化+社會(huì)化”電視智能終端產(chǎn)品。
1 社交電視發(fā)展現(xiàn)狀概述
我國電視智能終端產(chǎn)品的開發(fā)始于2008年,歷經(jīng)7年的發(fā)展已經(jīng)初具規(guī)模,且涵蓋新聞客戶端、手機(jī)電視、社交電視及節(jié)目客戶端四大類產(chǎn)品。社交電視作為新興品類已有20余款成品,如:CCTV微視、BTV大媒體、呼啦、哇啦等。社交電視,是廣電傳媒企業(yè)在看到社交媒體融合的大方向后,借助第三方平臺(tái)的力量,主導(dǎo)下的一場后互聯(lián)時(shí)代“視頻+互動(dòng)+社交”的改革。毋庸置疑,這場改革至今仍不夠徹底,有影子有形態(tài),但基因并未完全注入,下載量不高且月均活躍度較低,尤其是互動(dòng)社交環(huán)節(jié)并未被有效推動(dòng)。該篇文章正是站在這樣一個(gè)重要的市場缺口之上,進(jìn)行研究及探索。
2 用戶的興趣偏好研究
根據(jù)央視市場研究在線平臺(tái)的數(shù)據(jù),發(fā)現(xiàn)在4 010位受訪網(wǎng)民中,有33%表示使用過社交電視APP,且綜合評(píng)分為3.5分。經(jīng)過深入剖析得出以下結(jié)論。
第一,誠然不同的用戶喜歡不同類型的節(jié)目,但位居TOP5的熱門類別受到較多網(wǎng)民喜愛,分別為電視劇44%、電影38%、綜藝娛樂36%、時(shí)政23%及財(cái)經(jīng)20%。通過挖掘熱門節(jié)目的主題建立圈子、組織活動(dòng)不失為一種良策。
第二,用戶的社會(huì)圈子不同自然偏好的社交圈種類也不同。通過調(diào)研發(fā)現(xiàn),在互動(dòng)圈子的種類偏好上,好友圈46%、興趣部落圈30%、節(jié)目圈28%、話題圈27%、TV主持人圈12%、場景圈6%。目前最流行的是節(jié)目和話題圈,對(duì)好友和興趣圈進(jìn)行開發(fā)的產(chǎn)品實(shí)屬罕見,而這也將成為一大商機(jī)。
第三,更多的用戶不排斥實(shí)時(shí)互動(dòng),且通過調(diào)研發(fā)現(xiàn)這一比例高達(dá)77%。不定期地實(shí)時(shí)社交互動(dòng)活動(dòng)或?qū)⒊蔀樯缃浑娨暤囊淮罅咙c(diǎn)。
3 社交電視推薦系統(tǒng)的關(guān)鍵技術(shù)及實(shí)現(xiàn)
3.1 數(shù)據(jù)的獲取
社交電視推薦系統(tǒng)的數(shù)據(jù)來源分為兩大類:一類源自平臺(tái)自身,包括視頻搜、點(diǎn)擊等行為數(shù)據(jù),也包括社交圈文本數(shù)據(jù);另一類源自微博、Twitter、Facebook等大型社交平臺(tái)。前者的可用數(shù)據(jù)主要是與視頻直接相關(guān),社交圈由于尚未被激活所以可用度較低,且總體來說數(shù)據(jù)量較小。而后者剛好相反,數(shù)據(jù)海量、可信度較高,充分開發(fā)并挖掘這部分?jǐn)?shù)據(jù)是建立社交電視推薦系統(tǒng)的基礎(chǔ)。
目前數(shù)據(jù)獲取主要有兩種方法:第一,通過爬蟲程序,從第一層頁面出發(fā),沿著該頁面中的鏈接地址依次尋找并循環(huán),直到把關(guān)聯(lián)的所有頁面全部爬取到。這種方式獲取的數(shù)據(jù)受網(wǎng)頁信息種類的限制,且獲取的是網(wǎng)頁中的所有數(shù)據(jù),所以信息冗余度較高、執(zhí)行效率較低。第二,通過在線社交網(wǎng)絡(luò)服務(wù)開放平臺(tái)提供的API接口高效地訪問和獲取數(shù)據(jù)。以API的方式獲取數(shù)據(jù)不會(huì)受到網(wǎng)頁信息種類的限制,且執(zhí)行效率較高,所以這里采取這種方式獲取數(shù)據(jù)。
3.2 數(shù)據(jù)的存儲(chǔ)
傳統(tǒng)的解決方案大多用關(guān)系型SQL數(shù)據(jù)庫,這類數(shù)據(jù)庫解決小數(shù)據(jù)尚可,但遇到大社交數(shù)據(jù)就便難以高效運(yùn)轉(zhuǎn)??紤]用NoSQL以key/value或者文檔的形式存儲(chǔ),不僅避免了傳統(tǒng)SQL把數(shù)據(jù)分割成眾多表格后再用外鍵進(jìn)行連接而造成的低效率缺陷,而且在擴(kuò)展性、處理效率、靈活性上均有明顯優(yōu)勢。
3.3 用戶興趣模型的建立
從社交平臺(tái)及社交電視APP上采集來的數(shù)據(jù)均可分為兩類,即顯式行為數(shù)據(jù)和隱式行為數(shù)據(jù)。顯式行為數(shù)據(jù),例如:贊/踩、評(píng)分或用戶注冊(cè)時(shí)的信息,這類數(shù)據(jù)可直接獲取、質(zhì)量高、噪聲小但獲取難度較大。隱式行為數(shù)據(jù),例如:瀏覽行為、點(diǎn)擊動(dòng)作、收藏記錄、頁面停留時(shí)間、頁面跳轉(zhuǎn)情況、頁面操作次數(shù)等,這類數(shù)據(jù)不可直接獲取、噪聲大但獲取難度較小、數(shù)量龐大、含義豐富。
用戶興趣模型建立的過程就是篩選用戶曾經(jīng)有過較高反饋的節(jié)目、主題或元素集合的過程,模型的建立是為更好的個(gè)性化服務(wù)用戶做準(zhǔn)備。該文通過計(jì)算用戶興趣及偏好,采用“用戶—節(jié)目/主題/元素評(píng)分矩陣”模型為用戶建模(以下均已用戶—節(jié)目評(píng)分矩陣模型為例)。用戶計(jì)為,節(jié)目計(jì)為,模型中的元素計(jì)為,其中,的含義為第i個(gè)用戶對(duì)第j個(gè)節(jié)目的評(píng)分。
對(duì)于顯式行為數(shù)據(jù),評(píng)分往往已經(jīng)被量化,而隱式行為數(shù)據(jù),為更加合理精準(zhǔn)地進(jìn)行評(píng)分,常常需要考慮以下三個(gè)因素,即用戶行為種類、用戶行為次數(shù)及用戶行為持續(xù)時(shí)常。因此,用戶—節(jié)目評(píng)分矩陣中的元素可表示為用戶行為種類,發(fā)生次數(shù),持續(xù)時(shí)長的函數(shù),式(1)。
將每個(gè)用戶的興趣評(píng)分按從高到低排序,取得分靠前的節(jié)目,便得到了用戶曾經(jīng)有過較高反饋的節(jié)目。同樣的原理也可建立用戶—主題/元素評(píng)分矩陣模型。
3.4 基于用戶的協(xié)同過濾算法的推薦系統(tǒng)的實(shí)現(xiàn)
該算法的宗旨在于利用用戶行為的相似度計(jì)算興趣的相似度,包括兩個(gè)主要步驟:第一,找到和目標(biāo)用戶興趣相似的用戶集合;第二,找到這個(gè)集合中用戶喜歡的但目標(biāo)用戶未關(guān)注的節(jié)目進(jìn)行推薦。
事實(shí)上,很多用戶對(duì)同一節(jié)目并未產(chǎn)生共識(shí),可先計(jì)算的用戶對(duì),然后再對(duì)這種情況用式6進(jìn)行計(jì)算。首先,建立節(jié)目—用戶倒查矩陣,其中的元素表示對(duì)該節(jié)目產(chǎn)生過行為的用戶,初始值置為0。然后,掃描每個(gè)節(jié)目對(duì)應(yīng)的用戶,將兩兩用戶有同時(shí)對(duì)應(yīng)一個(gè)節(jié)目的用戶列表中的元素加1。最后,將矩陣中每個(gè)元素減1,取不為0的元素,得到有相似興趣的用戶。這里有一個(gè)重要的參數(shù),即每個(gè)用戶選出的和他興趣相似的用戶數(shù)K。
找到了這樣的用戶集合,就可以有針對(duì)性的給該用戶推薦集合中用戶偏好的節(jié)目,同樣的算法適用于主題及元素的推薦。推薦內(nèi)容一經(jīng)確定,就可以建立社交圈子、組織互動(dòng)活動(dòng)。
節(jié)目推薦是第一步,社交圈子是基于節(jié)目收看和評(píng)論而建立,互動(dòng)活動(dòng)是促進(jìn)社交電視雙屏互動(dòng)形成閉環(huán)的關(guān)鍵,三者缺一不可,這樣三位一體的社交電視推薦系統(tǒng)是當(dāng)下的一大創(chuàng)新。
3.5 推薦系統(tǒng)的評(píng)估
推薦系統(tǒng)的性能直接影響著社交互動(dòng)功能能否被有效激活,主流的評(píng)估指標(biāo)主要有以下3類。
第一,準(zhǔn)確率和召回率。準(zhǔn)確率反映了有多少比例是用戶使用過程中嘗試過或?yàn)g覽過的推薦內(nèi)容,召回率反映了有多少比例是用戶最終使用的推薦內(nèi)容,其中一個(gè)重要的影響因素是推薦系統(tǒng)為該用戶選出的與他有相同興趣點(diǎn)的用戶數(shù)K,一般而言,該參數(shù)取值為80左右時(shí)系統(tǒng)會(huì)有較高的性能。
第二,覆蓋率。反映的是推薦系統(tǒng)幫助物品冷啟動(dòng)的挖掘能力。K越大,覆蓋率越低,結(jié)果就越趨向于全局熱門內(nèi)容。
第三,多樣性。反映的是推薦系統(tǒng)幫助用戶發(fā)現(xiàn)不同興趣點(diǎn)的能力。K越大,多樣性越高,正所謂求同存異。
綜上所述,參數(shù)K的選擇要綜合考慮各指標(biāo),推薦系統(tǒng)才能擁有良好的性能。此外,用戶滿意度、驚喜度和推薦內(nèi)容的新穎性也是重要的軟指標(biāo)。
4 結(jié)語
社交電視APP是移動(dòng)互聯(lián)時(shí)代的產(chǎn)物,體現(xiàn)的是群體及群體之間、個(gè)體及個(gè)體之間松散聯(lián)結(jié)、動(dòng)態(tài)穩(wěn)定的關(guān)系。作為C端產(chǎn)品,應(yīng)依托現(xiàn)有技術(shù),注重精細(xì)化剖析用戶的顯性及隱性信息,精準(zhǔn)定位建2立模型,以達(dá)到推動(dòng)合理化安排電視節(jié)目、互動(dòng)話題及活動(dòng)的目的。在提高有效收視率的同時(shí),助力雙屏互動(dòng)形成閉環(huán),使互動(dòng)社交的種子真正“落地生根發(fā)芽”。
參考文獻(xiàn)
[1] Francesco Ricci,LiorRokach,BrachaShapira,Paul Kantor,著.推薦系統(tǒng)[M].李艷民,胡聰,吳賓,等,譯.機(jī)械工業(yè)出版社,2015.
[2] 方興濱.在線社交網(wǎng)絡(luò)分析[M].電子工業(yè)出版社,2014.
[3] 薛偉.國內(nèi)社交電視發(fā)展研究[D].長沙:湖南大學(xué),2013.
[4] 龐勝楠.電視媒體與社交媒體互動(dòng)研宄[D].山東:山東師范大學(xué),2013.
[5] 張凡杰,曹珊珊.微博時(shí)代下電視媒體的應(yīng)對(duì)突破之路[J].東南傳播,2012(6):148-150.