国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于線性回歸算法的電影票房預(yù)測研究

2019-03-14 12:42:40羅干蔣煜楷陳文婷吳鎮(zhèn)州施運梅宋瑩
電腦知識與技術(shù) 2019年1期
關(guān)鍵詞:評價

羅干 蔣煜楷 陳文婷 吳鎮(zhèn)州 施運梅 宋瑩

摘要:該次研究利用從豆瓣電影和貓眼電影所爬取的電影基本信息數(shù)據(jù)和票房數(shù)據(jù)作為數(shù)據(jù)集。在進行線性回歸訓練之前,先將電影基本信息中的非數(shù)值型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),然后利用Spark的機器學習庫構(gòu)建了票房預(yù)測模型。經(jīng)過實驗分析得出,所構(gòu)建的預(yù)測模型在電影票房的預(yù)測上有較高的準確率,可為電影票房分析提供有效的參考信息。

關(guān)鍵詞:線性回歸模型;電影票房預(yù)測;評價;Spark

中圖分類號:TP312? ? ? 文獻標識碼:A? ? ? 文章編號:1009-3044(2019)01-0202-02

1 背景

隨著我國經(jīng)濟的發(fā)展,人民生活水平不斷提高,文化消費有了爆發(fā)式的增長,中國的電影市場得以繁榮發(fā)展[1]。電影票房的預(yù)測也變得越來越有意義,在2013年的時候Google就發(fā)布了一篇名為《Quantifying,movie magic with Google Search》[2]的論文,里面提出了線性回歸的電影票房預(yù)測模型。之后也有很多相關(guān)的研究,也取得了一系列的成果,且大多數(shù)研究的票房預(yù)測模型都沒有對外公開信息。此外所采用的數(shù)據(jù)沒有一個后續(xù)的更新,不能順應(yīng)電影發(fā)展腳步[3]。中國電影市場現(xiàn)在還有很多“現(xiàn)象級”[4]的電影,電影票房確實有很多不確定性。

該文將從豆瓣電影和貓眼電影上爬取的2011-2017年的院線電影信息,針對國內(nèi)電影市場的特點,利用Spark的機器學習庫(MLlib)的線性回歸算法進行電影最終票房的預(yù)測。

2 相關(guān)技術(shù)介紹

該節(jié)將對電影票房預(yù)測中使用的主要技術(shù)進行簡單介紹。

2.1 Spark計算引擎

Spark是在Hadoop MapReduce的基礎(chǔ)上提出的新一代大數(shù)據(jù)分析框架,擁有Hadoop MapReduce所具備的全部優(yōu)點,并且Spark是將計算結(jié)果直接存儲在內(nèi)存中,運算效率更高[5],讓它非常適合機器學習與數(shù)據(jù)挖掘等需要迭代的算法。

Spark主要有三個特點:1)高級API剝離了對集群本身的關(guān)注,讓開發(fā)者可以專注于計算本身。 2)Spark支持交互式計算和復雜算法。3)Spark是通用引擎,可用它來完成SQL查詢、文本處理、機器學習等各種各樣的運算。

2.2 機器學習庫MLlib

MLlib(Machine Learnig Lib)是構(gòu)建在 Spark 之上,一個專門用于大量數(shù)據(jù)處理的通用快速的引擎,是一個可以進行擴展的機器學習庫,其目標是使實際的機器學習變得可擴展和容易。

MLlib 主要包含三個部分:1)底層基礎(chǔ):包括了Spark的運行庫、矩陣庫和向量庫;2)算法庫:包含廣義線性模型、推薦系統(tǒng)、聚類、決策樹和評估的算法;3)實用程序:包括了測試數(shù)據(jù)的生成、外部數(shù)據(jù)的讀入等功能[6]。

2.3 多元線性回歸模型

線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,運用十分廣泛。

2.3.1 模型描述

多元線性回歸模型一般用公式(1)表示:

其中:Y為因變量;β1,β2,…,βn為回歸系數(shù);X1, X2,…,Xn為自變量;ε為隨機擾動項;n 為變量個數(shù)。

Y是受n個自變量影響,每個自變量的影響程度由回歸系數(shù)β決定,同時Y也受常量隨機擾動項的影響。

2.3.2 評價方法

線性回歸常用的檢驗方法有均方根誤差(RMSE, Root Mean Squared Error),擬合評價參數(shù)R?,回歸方程顯著性檢驗F檢驗[7]。

RMSE的計算方法如公式(2),該參數(shù)能很好地反映真實值與預(yù)測值之間的偏離程度。

其中,x為自變量,y表示因變量,n為自變量個數(shù)。

RMSE的取值范圍在[0,∞],值越小則預(yù)測效果越好。

擬合是指回歸直線對觀測值的擬合程度,擬合評價參數(shù) R?的取值范圍為[0,1],取值越接近1,說明回歸直線對觀測值的擬合程度越好;反之,R?的值越小,說明回歸直線對觀測值的擬合程度越差。

3 基于多元線性回歸的票房預(yù)測

該文從貓眼電影和豆瓣電影兩個網(wǎng)站上一共抓取了1642部電影的相關(guān)數(shù)據(jù),包括:電影票房、影片類型、導演、演員、上映日期、上映年份和電影評分。

在所采集的電影數(shù)據(jù)中,包括數(shù)值型和非數(shù)值型兩大類數(shù)據(jù)。其中影片類型、導演、演員和上映日期均為非數(shù)值型數(shù)據(jù);電影票房、電影評分、上映年份為數(shù)值型數(shù)據(jù)。由于非數(shù)值型數(shù)據(jù)無法用于線性回歸算法,所以需要對非數(shù)值型數(shù)據(jù)進行轉(zhuǎn)化。

3.1 非數(shù)值型數(shù)據(jù)的轉(zhuǎn)換

其公式(5)中TWi表示類型i的票房影響力,n代表該電影所屬的類型有n種。

其余非數(shù)值型數(shù)據(jù)可以由此類推,得到數(shù)值化后的結(jié)果。

3.2 應(yīng)用線性回歸算法進行票房預(yù)測

經(jīng)過初步預(yù)測,該文將電影票房定義為因變量Y。篩選以下變量為自變量:電影評分定義為X1,導演影響力為X2,主演影響力為X3,電影類型影響力為X4,上映日期影響力定義為X5,上映年份為X6。可以得到該多元線性回歸的模型為:

Spark中的ML庫提供了對各種機器學習算法的支持,spark.ml.regression.LinearRegression包支持的是線性回歸算法。進過多次實驗的比對,對算法中的各參數(shù)的設(shè)置如下:

最大迭代次數(shù) MaxIter = 50

正則化參數(shù) Regparam = 0.3

混合參數(shù) ElasticNetParam = 0.8

最后得到多元線性回歸預(yù)測模型中的回歸系數(shù)取值如表1:

4 預(yù)測結(jié)果驗證

該文采用了兩種方式對預(yù)測效果進行了驗證:一種是計算擬合評價參數(shù)R2,另一種是將預(yù)測結(jié)果與實際的票房進行比對。

通過計算,得到擬合評價參數(shù)R2的結(jié)果為0.843,說明預(yù)測效果良好。

另外,該文選取了25部2011-2017年的電影作為測試集,將測試數(shù)據(jù)導入預(yù)測模型中得到預(yù)測票房值,再與真實的票房進行對比,比對結(jié)果如圖3所示。

圖3中,當電影票房位于1億到5億之間時預(yù)測效果最佳。因為此區(qū)間的電影數(shù)據(jù)比較豐富,預(yù)測票房有著較小的誤差。而當電影真實票房很高的時候,訓練數(shù)據(jù)不夠豐富,預(yù)測票房的誤差就不太穩(wěn)定。

總體來看,由線性回歸算法構(gòu)建的預(yù)測模型已經(jīng)能夠提供很多具有參考性的信息。

5 結(jié)束語

該文從豆瓣電影和貓眼電影上爬取的電影信息,將非數(shù)值型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)之后,利用Spark的機器學習庫進行多元線性回歸算法訓練,構(gòu)建出了電影票房的預(yù)測模型。從評價結(jié)果看,構(gòu)建好的預(yù)測模型有著比較好的預(yù)測結(jié)果。

但是該預(yù)測模型還存在著有待改進的地方,比如說該文采用的非數(shù)值型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)的方法,轉(zhuǎn)化后的導演、演員的影響力數(shù)值差異變得很大,會削弱其他變量對票房的影響。此外,目前所爬取的數(shù)據(jù)還不夠豐富、數(shù)據(jù)更新不夠及時,這些影響了模型的準確性。

有文獻[8]提到多元線性回歸預(yù)測模型的優(yōu)勢在于能清楚地解釋影響因素對票房的影響程度,但在預(yù)測精度上不如神經(jīng)網(wǎng)絡(luò)。

在下一步的工作中,將著手解決目前存在的問題,并嘗試采用神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建模型,與現(xiàn)有的模型進行比對,進一步提高預(yù)測的準確度。

參考文獻:

[1] 李龍生, 李曉怡. 由近期國產(chǎn)電影的高票房現(xiàn)象淺析中國電影產(chǎn)業(yè)的發(fā)展[J]. 藝術(shù)與設(shè)計: 理論, 2018, 2(9): 119-121.

[2] Reggie Panaligan, Andrea Chen. Quantifying Movie Magic with Google Search[EB/OL]. http://www.webmasterworld.com/google_adwords/4581847.htm.

[3] 何曉雪, 畢圓夢, 姜繩. 基于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測電影票房的多元線性回歸方程構(gòu)建[J]. 新媒體研究, 2018, 4(5): 41-48.

[4] 刁文鑫. 當代中國“現(xiàn)象電影”的傳播特征及影響研究[D]. 合肥: 安徽大學, 2018.

[5] 馬天男, 牛東曉, 黃雅莉, 等. 基于Spark平臺和多變量L_2-Boosting回歸模型的分布式能源系統(tǒng)短期負荷預(yù)測[J]. 電網(wǎng)技術(shù), 2016, 40(6): 1642-1649.

[6] 殷樂, 姚遠, 劉辰. 基于Spark的用戶行為分析系統(tǒng)框架研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2018(2): 56-57.

[7] 彭輝, 趙亞軍, 胡章浩. 應(yīng)用多元線性回歸模型的鐵路客運量預(yù)測[J]. 重慶理工大學學報: 自然科學, 2018, 32(9): 190-193.

[8] 張雪. 基于深度學習卷積神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測[D]. 北京: 首都經(jīng)濟貿(mào)易大學, 2017.

猜你喜歡
評價
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評價再評價
自制C肽質(zhì)控品及其性能評價
寫作交流與評價:詞的欣賞
中學語文(2015年21期)2015-03-01 03:52:11
基于Moodle的學習評價
關(guān)于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應(yīng)用評價
有效評價讓每朵花兒都綻放
模糊數(shù)學評價法在水質(zhì)評價中的應(yīng)用
治淮(2013年1期)2013-03-11 20:05:18
保加利亞轉(zhuǎn)軌20年評價
仲巴县| 电白县| 武胜县| 鄯善县| 清苑县| 池州市| 太湖县| 清水河县| 绥江县| 商丘市| 瓦房店市| 高邑县| 武夷山市| 会东县| 太白县| 鄯善县| 满城县| 临清市| 城固县| 沧源| 白朗县| 安顺市| 鲁甸县| 湖南省| 电白县| 临海市| 垣曲县| 昌吉市| 桑植县| 松原市| 台北市| 利辛县| 泸定县| 崇义县| 略阳县| 龙井市| 罗甸县| 新闻| 沧源| 车致| 万全县|