国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國電影市場票房趨勢研究

2019-04-04 02:34:12
福建質(zhì)量管理 2019年7期
關(guān)鍵詞:差分代碼預(yù)測

(優(yōu)視科技有限公司 北京 100102)

引言

近幾年來,隨著經(jīng)濟(jì)的快速增長,中國國民的收入和生活水平相比以前有很大的改變。人們對物質(zhì)和精神追求也相對的提高了,從小孩到年輕人再到中老年人,都開始踏入電影院去觀看電影了。2017年來自國家新聞出版廣電總局電影局的數(shù)據(jù)顯示,我國2017年觀影人次達(dá)到16.2億,比上年13.72億增長18.08%。

同時國家對于文化產(chǎn)業(yè)的支持,也推進(jìn)了中國電影市場的發(fā)展。國內(nèi)大量資本企業(yè)的注入也讓市場更加活躍,包括互聯(lián)網(wǎng)企業(yè)也紛紛成立了自己的影業(yè)公司,如阿里影業(yè),百度影業(yè)以及騰訊影業(yè)。這些互聯(lián)網(wǎng)企業(yè)的投資加入,無疑是給中國電影市場注入了強(qiáng)大的血液。

目前國內(nèi)的電影票價趨于穩(wěn)定,那么電影票房實(shí)際就代表了觀影人次,所以研究電影市場票房變化,在一定程度上體現(xiàn)了國民觀影意愿,同時在一定程度上代表國家經(jīng)濟(jì)增長狀況以及人均可支配收入的情況。

本文數(shù)據(jù)來自國家電影專資辦 2010-2018年月票房數(shù)據(jù)。

本文將利用時間序列在研究時間相關(guān)問題上的優(yōu)勢,找到適用于研究電影市場票房的時間序列模型,利用參數(shù)估計(jì)給出模型的參數(shù),最后對模型進(jìn)行診斷,判斷模型的好壞,最后利用已經(jīng)建立的模型對未來給定的時間進(jìn)行預(yù)測。

一、建立ARIMA模型

ARIMA模型全稱為自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名時間序列(Time-series Approach)預(yù)測方法[1],所以又稱為Box-Jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)稱為差分自回歸移動平均模型,AR是自回歸,p為自回歸項(xiàng); MA為移動平均,q為移動平均項(xiàng)數(shù),d為時間序列成為平穩(wěn)時所做的差分次數(shù)。所謂ARIMA模型,是指將非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列,然后將因變量僅對它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。ARIMA模型根據(jù)原序列是否平穩(wěn)以及回歸中所含部分的不同,包括移動平均過程(MA)、自回歸過程(AR)、自回歸移動平均過程(ARMA)以及ARIMA過程。

基本步驟:

a.根據(jù)時間序列的散點(diǎn)圖、自相關(guān)函數(shù)和偏自相關(guān)函數(shù)圖以ADF單位根檢驗(yàn)其方差、趨勢及其季節(jié)性變化規(guī)律,對序列的平穩(wěn)性進(jìn)行識別。一般來講,經(jīng)濟(jì)運(yùn)行的時間序列都不是平穩(wěn)序列。

b.對非平穩(wěn)序列進(jìn)行平穩(wěn)化處理。如果數(shù)據(jù)序列是非平穩(wěn)的,并存在一定的增長或下降趨勢,則需要對數(shù)據(jù)進(jìn)行差分處理,如果數(shù)據(jù)存在異方差,則需對數(shù)據(jù)進(jìn)行技術(shù)處理,直到處理后的數(shù)據(jù)的自相關(guān)函數(shù)值和偏相關(guān)函數(shù)值無顯著地異于零。

c.根據(jù)時間序列模型的識別規(guī)則,建立相應(yīng)的模型。若平穩(wěn)序列的偏相關(guān)函數(shù)是截尾的,而自相關(guān)函數(shù)是拖尾的,可斷定序列適合AR模型;若平穩(wěn)序列的偏相關(guān)函數(shù)是拖尾的,而自相關(guān)函數(shù)是截尾的,則可斷定序列適合MA模型;若平穩(wěn)序列的偏相關(guān)函數(shù)和自相關(guān)函數(shù)均是拖尾的,則序列適合ARMA模型。(截尾是指時間序列的自相關(guān)函數(shù)(ACF)或偏自相關(guān)函數(shù)(PACF)在某階后均為0的性質(zhì)(比如AR的PACF);拖尾是ACF或PACF并不在某階后均為0的性質(zhì)(比如AR的ACF)。)

d.進(jìn)行參數(shù)估計(jì),檢驗(yàn)是否具有統(tǒng)計(jì)意義。

e.進(jìn)行假設(shè)檢驗(yàn),診斷殘差序列是否為白噪聲。

f.利用已通過檢驗(yàn)的模型進(jìn)行預(yù)測分析。

二、樣本選取及數(shù)據(jù)來源

數(shù)據(jù)來自貓眼電影票房專業(yè)版,數(shù)據(jù)時間范圍2011年1月至2018年12月。(見圖1)

圖1

三、識別模型

對每月的票房進(jìn)行數(shù)據(jù)預(yù)處理,觀察數(shù)據(jù)時間序列圖,使用python完成,結(jié)果見圖2:(代碼見附錄1)

圖2

觀察數(shù)據(jù),時間序列具有相對明顯的季節(jié)性波動,總體呈現(xiàn)上升趨勢,同時發(fā)現(xiàn)2017-2018年波動相對劇烈,可能會與預(yù)測造成比較大的影響。

對時間序列進(jìn)行分解,可以更加直觀的顯示了數(shù)據(jù)的上升趨勢,以及年內(nèi)的季節(jié)性波動見圖3(代碼見附錄2):

圖3

四、參數(shù)估計(jì)

首先對數(shù)據(jù)進(jìn)行一、二階差分,二階差分后的時間序列與一階差分相差不大,并且隨著時間推移,時間序列的均值和方差方式不變,因此可以將差分次數(shù)d設(shè)置為1(圖4為1階拆分,圖5為2階拆分)

圖4

圖5

利用python我們可以用for循環(huán)來探索不同的組合。對于參數(shù)的每個組合,我們使用statsmodels模塊的SARIMAX()函數(shù)擬合一個新的季節(jié)性ARIMA模型,并評估其整體質(zhì)量。(代碼見附錄3)

通過迭代計(jì)算ARIMA(0,1,0)x(3,2,0,12)產(chǎn)生相對低的AIC值936.269。因此,認(rèn)為這可能是考慮過的所有模型參數(shù)結(jié)果中最佳選擇。

五、模型診斷

將時間序列數(shù)據(jù)生成的最佳擬合模型的參數(shù)輸入到新的SARIMAX模型中,圖6、7(代碼見附錄4):

ARIMAX的輸出產(chǎn)生的SARIMAX返回大量的信息,主要觀察系數(shù)表。coef列顯示每個特征的重要性以及每個特征如何影響時間序列。P>|z| 列表示我們每個特征重量的意義??梢园l(fā)現(xiàn)每個指標(biāo)的P值都低于或接近0.05,所以模型保留的指標(biāo)權(quán)重相對合理的。見圖7

圖6

圖7

進(jìn)行模型診斷,圖8:

a.在右上的圖KDE與N(0,1)的正太分布基本相似

b.左下角的Q-Q圖顯示,殘差(藍(lán)點(diǎn))的有序分布遵循采用N(0,1)的標(biāo)準(zhǔn)正態(tài)分布采樣的線性趨勢。

c.隨著時間的推移(左上圖)的殘差基本不顯示明顯的季節(jié)性,似乎是白噪聲。通過觀察右下角的自相關(guān),這表明時間序列殘差與其本身的滯后版本具有較弱的相關(guān)性。

圖8

六、驗(yàn)證模型

根據(jù)已經(jīng)獲取的時間序列模型,將預(yù)測值與時間序列的實(shí)際值進(jìn)行比較,驗(yàn)證模型的預(yù)測準(zhǔn)確性。

我們從2018-01-01開始進(jìn)行預(yù)測。(代碼見附錄5)。設(shè)置dynamic=False參數(shù)確保我們每一次預(yù)測前一個值都可以使用截止到這個時間點(diǎn)的所有完整數(shù)據(jù)。

觀察圖9,預(yù)測值和實(shí)際值還是存在一些偏差,同時置信區(qū)間波動較大。

圖9

使用動態(tài)預(yù)測可以更好的表達(dá)真實(shí)的預(yù)測,設(shè)置dynamic=True,只使用時間序列中的信息到某一時間節(jié)點(diǎn),之后,使用先前預(yù)測時間點(diǎn)的值生成預(yù)測。(代碼見附錄6)

動態(tài)預(yù)測值相對靜態(tài)預(yù)測值,更加貼合實(shí)際值,但是置信區(qū)間范圍比靜態(tài)更大。

圖10

七、模型預(yù)測

對2019年月度票房進(jìn)行預(yù)測見圖11,預(yù)測的結(jié)果相對可以接受,由于數(shù)據(jù)相對較少,而且波動較大,導(dǎo)致置信區(qū)間范圍較大,待收集更多數(shù)據(jù)后,模型還有繼續(xù)優(yōu)化的空間。(代碼見附錄7)

圖11

八、模型優(yōu)缺點(diǎn)及推廣

模型優(yōu)點(diǎn):ARIMA模型多使用于時間序列,模型簡單,只需要內(nèi)生變量而不需要借助其他外生變量,并且在建模過程中有多種方法可以選擇,在模型的診斷過程中能對模型的好壞進(jìn)行評價,對于預(yù)測起到正向的作用。

模型缺點(diǎn):ARIMA模型對數(shù)據(jù)進(jìn)行預(yù)測時,要求時序數(shù)據(jù)是穩(wěn)定的,或者通過差分化之后是穩(wěn)定的;本質(zhì)上只能捕捉線性關(guān)系,不能捕捉非線性關(guān)系。對于短期的預(yù)測效果相對較好,對于長期的預(yù)測由于很多宏觀因素的影響,其預(yù)測精度就會下降,誤差增加。

模型推廣:ARIMA模型對于大多數(shù)以時間為變量的趨勢都有相對理想的擬合效果,可以廣泛應(yīng)用于氣溫、稅收、降水量等研究中。

猜你喜歡
差分代碼預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(B卷)
選修2-2期中考試預(yù)測卷(A卷)
數(shù)列與差分
創(chuàng)世代碼
動漫星空(2018年11期)2018-10-26 02:24:02
創(chuàng)世代碼
動漫星空(2018年2期)2018-10-26 02:11:00
創(chuàng)世代碼
動漫星空(2018年9期)2018-10-26 01:16:48
創(chuàng)世代碼
動漫星空(2018年5期)2018-10-26 01:15:02
不必預(yù)測未來,只需把握現(xiàn)在
基于差分隱私的大數(shù)據(jù)隱私保護(hù)
雷山县| 新郑市| 静海县| 德化县| 微博| 贵溪市| 峨山| 淮南市| 双辽市| 景泰县| 乐至县| 苗栗市| 浑源县| 阿拉善左旗| 宜兴市| 永吉县| 陈巴尔虎旗| 芦山县| 汉阴县| 彝良县| 兴安县| 石首市| 铜陵市| 永嘉县| 石狮市| 日土县| 灌阳县| 高清| 郁南县| 长治市| 鄂州市| 清水县| 伊金霍洛旗| 泸溪县| 文安县| 钟祥市| 嵩明县| 云林县| 南部县| 万源市| 敦煌市|