賀文
有人稱他們是為電影“算命”,但劉晗以為,“看病”更準確。劉晗他們創(chuàng)業(yè)的新影數(shù)訊,就是將數(shù)據(jù)分析、數(shù)據(jù)挖掘應用到電影票房的預測上。這是一個創(chuàng)業(yè)不到兩年的團隊,現(xiàn)在是十余人的規(guī)模,卻掌握了20000部電影、60000名藝人、4000位導演的數(shù)據(jù)資料,并能對微博80%活躍用戶中的影迷約8000萬人進行偏好分析。
劉晗介紹,新影數(shù)訊開發(fā)的“iFilm+”系統(tǒng)即通過數(shù)據(jù)分析,將影視作品和用戶的行為關聯(lián)起來?!拔覀兺诰蛴脩簦ㄓ懊裕蕵樊a(chǎn)品(影片)的娛樂訴求和價值感知,然后我們精準地計算出某部影片的受眾人群的意愿。在知道了什么樣的電影會成功之后,我們便能對制片人和導演提出決策建議?!痹谶@一思路下,原本是B2C模式的電影產(chǎn)業(yè),將出現(xiàn)C2B的變化。劉晗說,“iFilm+”預測一部電影的市場表現(xiàn),在上映前一個月左右,其準確度能達到80%。
這套算法也不是萬能的?!癷Film+”能說明白應該怎樣做,卻不能解釋為什么,這也不是“iFilm+”的缺陷,而是因為“大數(shù)據(jù)只解釋相關性的問題,不解釋因果”。此外,這套算法只能做到測算商業(yè)片的價值回報,卻算不出“電影能不能得獎,會不會感人”。
將數(shù)據(jù)分析、數(shù)據(jù)挖掘應用到影視領域,劉晗認為能做兩件事,預測和推薦。新影數(shù)訊選擇了toB“預測”,回避了toC“推薦”。因為中國的互聯(lián)網(wǎng)用戶,還沒有特別好的付費習慣,而比較常見的電影票抽成的做法,給他們這類服務商留下的利潤空間已經(jīng)很薄。
“手工清洗”數(shù)據(jù)
事實上,電影行業(yè)利用數(shù)據(jù),在好萊塢不是新鮮事兒。在好萊塢工業(yè)體系下,一部電影從研發(fā)、創(chuàng)作生產(chǎn)到發(fā)行,都能看到數(shù)據(jù)的身影。而且,好萊塢在數(shù)據(jù)庫建設方面的基礎工作做得很早、很扎實。在中國情況則大不相同。有業(yè)內(nèi)人士曾說,“中國電影產(chǎn)業(yè)多數(shù)時候都是拍腦門憑經(jīng)驗,過去連每周票房的實際數(shù)據(jù)都拿不到,很多數(shù)據(jù)都不靠譜,更不要說其他精確數(shù)據(jù)了”。
那新影數(shù)訊的“iFilm+”,是如何解決數(shù)據(jù)來源難題呢?影片制作端、影片消費端這兩端的信息數(shù)據(jù),“iFilm+”是如何完成積累的?
按照新影數(shù)訊的理念,電影的名稱、陣容、劇本、檔期、宣傳點、主題曲、互聯(lián)網(wǎng)版權(quán)等30多個參數(shù)變量共同決定了一部影片是否能獲得成功。他們的設想是,從過往上映的電影抽樣中,找到相關數(shù)據(jù),然后利用計算機確定出定量和公式。這部分做法類似于好萊塢的票房預測體系。但“iFilm+”不僅如此,還引入了社交網(wǎng)絡的數(shù)據(jù),將微博等社交網(wǎng)絡上涉及到演員、角色、電影結(jié)局等內(nèi)容作為變量?!?00個人月”,這是劉晗他們用在電影行業(yè)數(shù)據(jù)收集與整理上的時間。換句話說,如果有20個人手的話,得做15個月。
光有人力和時間的投入還不夠,還得有技術手段的介入。劉晗舉例說,很多網(wǎng)絡數(shù)據(jù)庫對于演員票房貢獻度的算法很粗糙,他們則是按照戲份的多少、臺詞的多少等來計算演員票房貢獻度。即便像《十二生肖》這種由成龍編劇、導演、主演的影片,按照劉晗他們的系統(tǒng)計算,成龍的票房貢獻度也不到70%。最初的時候,劉晗他們甚至用“最笨”的方法——找人看一遍電影——來核實一些影片基本信息的真實與否?!斑@些電影行業(yè)的原始數(shù)據(jù)都是我們自己‘手工洗過的,我們能做到現(xiàn)在這一步,也是因為干了很多苦活累活,所以不怕新浪、騰訊或者百度?!眲㈥险f。
即便如此,電影行業(yè)本身的數(shù)據(jù)還都不是“大數(shù)據(jù)”,劉晗認為,社交媒體的用戶行為數(shù)據(jù),才是真正的大數(shù)據(jù)。但這部分數(shù)據(jù)的收集和整理的難題是,如何過濾掉數(shù)據(jù)的“雜音”?劉晗反倒不認為這是難事。在創(chuàng)業(yè)之前,他曾在新浪的無線部門做技術,很熟悉新浪微博的底層技術,他還在中移動旗下的卓望公司工作過,參與搭建了卓望整個的開放平臺,卓望當時主要負責中移動“移動夢網(wǎng)”?!白ト?shù)據(jù),識別僵尸粉絲、判定灌水、攔截機器人等,我們相對有得天獨厚的條件。”
那么,“iFilm+”獲取用戶行為數(shù)據(jù)會否受到微博等新媒體平臺的限制?“其實不會?!眲㈥辖忉屨f,這里只有“懶人和勤快人的區(qū)別”。從對方平臺的接口抓取數(shù)據(jù),是最省事的;如果對方不開放數(shù)據(jù)接口,則可以用機器模擬一個真實用戶看這些網(wǎng)頁的行為,也能抓取數(shù)據(jù)。
在創(chuàng)業(yè)早期,因為數(shù)據(jù)的存儲有壓力,劉晗他們不得已要“忍痛割愛”刪一些相對“老”的數(shù)據(jù),或者對現(xiàn)在或者半年一年后的趨勢判斷沒有太大影響的數(shù)據(jù);此外,他們還建立了數(shù)據(jù)存儲的分級更換機制,比如9天之內(nèi)的是熱數(shù)據(jù),存在機器內(nèi)存里,老一點的數(shù)據(jù)放在硬盤上,再老一點的用磁盤、光盤備份等。
劉晗透露,今年新的融資將主要投在硬件設備上,“做大數(shù)據(jù)需要有存儲量大、計算量大的設備,我們現(xiàn)有20多臺服務器特別不夠,現(xiàn)在基本上每兩周就要加差不多小一萬塊錢的硬盤設備”。
做toB的生意
在數(shù)據(jù)分析上,劉晗是技術高手,但是對電影,他原本卻是個門外漢。新影數(shù)訊的“iFilm+”,就像劉晗本人一樣,在與電影業(yè)界人士、制片方的線下接觸中,不斷熟悉電影行當,不斷豐富對電影票房的計算維度。
在商業(yè)模式上,劉晗他們選擇了toB,而非toC。這也是劉晗認為的,在把大數(shù)據(jù)應用到影視領域時,新影數(shù)訊與豆瓣電影的不同。他們toB做的是有關電影投資/拍攝的咨詢服務建議,也有toC的“推薦”,但是他們沒有把toC的結(jié)果直接轉(zhuǎn)化成toC的業(yè)務模式,而是反向操作,把用戶喜歡的東西做成toB的咨詢建議。劉晗總結(jié),他們的商業(yè)模式/業(yè)務模式是針對影片的投資方/出品方/宣傳方。在他看來,電影產(chǎn)業(yè)不應該是一個“拍腦門憑經(jīng)驗”行當,而應該“需要更加理性的數(shù)據(jù)來幫助判斷”。
大數(shù)據(jù)讓影視界感受到“沖擊”的經(jīng)典案例,當屬美國視頻網(wǎng)站Netflix推出的電視劇《紙牌屋》,該劇無論是劇情設置還是選擇演員、導演陣容,都以用戶在網(wǎng)站上的行為和使用數(shù)據(jù)做支撐,根據(jù)官方公布的數(shù)據(jù),3/4訂閱者都會接受Netflix的觀影推薦。
同樣都是將大數(shù)據(jù)應用到影視領域,新影數(shù)訊與Netflix的做法不一樣。首先,新影數(shù)訊收集的是微博等第三方平臺的用戶數(shù)據(jù),Netflix是以自己平臺上用戶產(chǎn)生的數(shù)據(jù)為支撐;其次,Netflix的商業(yè)模式是用戶付費,它有2000多萬付費用戶,而新影數(shù)訊選擇的是toB模式。
新影數(shù)訊現(xiàn)在有兩種收費方式:一是收取固定的服務費;另一種是他們更愿意大規(guī)模拓展的,影片票房增值部分的分成?!氨热缫徊坑捌?,投資方認為能有1.5億元的票房,我們通過數(shù)據(jù)分析預測票房能到2億元,如果最后票房超過1.5億元,那么增值部分投資方每多賺1000萬元,我們多抽1%?!比绻堑诙N業(yè)務模式,新影數(shù)訊則需要在劇本環(huán)節(jié)就得介入,包括劇本接不接地氣、如何選演員等。劉晗透露,今年新影數(shù)訊主要承接的都是此類合作,“開花結(jié)果”將集中到明年年底。
期間也有人建議過劉晗他們做藝人經(jīng)紀,或者從現(xiàn)在做影片的數(shù)據(jù)分析挖掘,拓展到舞臺劇、話劇等,但劉晗都拒絕了,而是堅持把主線放在“對影視行業(yè)娛樂數(shù)據(jù)、用戶觀影行為、用戶對演員的評價等要素的分析整理上”。在他看來,這是資源有限的創(chuàng)業(yè)團隊,要經(jīng)得住的“誘惑”,要懂得取舍。
在堅持“主線”的同時,劉晗也在考慮更大效率地商業(yè)化“iFilm+”的數(shù)據(jù)分析挖掘能力。他們已與一些影視投資基金和制片方合作,以代管基金的方式,嘗試介入到影片投資環(huán)節(jié);他們也在嘗試影片植入廣告的服務。