(優(yōu)視科技有限公司 北京 100102)
近幾年來,隨著經(jīng)濟(jì)的快速增長,中國國民的收入和生活水平相比以前有很大的改變。人們對物質(zhì)和精神追求也相對的提高了,從小孩到年輕人再到中老年人,都開始踏入電影院去觀看電影了。2017年來自國家新聞出版廣電總局電影局的數(shù)據(jù)顯示,我國2017年觀影人次達(dá)到16.2億,比上年13.72億增長18.08%。
同時國家對于文化產(chǎn)業(yè)的支持,也推進(jìn)了中國電影市場的發(fā)展。國內(nèi)大量資本企業(yè)的注入也讓市場更加活躍,包括互聯(lián)網(wǎng)企業(yè)也紛紛成立了自己的影業(yè)公司,如阿里影業(yè),百度影業(yè)以及騰訊影業(yè)。這些互聯(lián)網(wǎng)企業(yè)的投資加入,無疑是給中國電影市場注入了強(qiáng)大的血液。
目前國內(nèi)的電影票價趨于穩(wěn)定,那么電影票房實(shí)際就代表了觀影人次,所以研究電影市場票房變化,在一定程度上體現(xiàn)了國民觀影意愿,同時在一定程度上代表國家經(jīng)濟(jì)增長狀況以及人均可支配收入的情況。
本文數(shù)據(jù)來自國家電影專資辦 2010-2018年月票房數(shù)據(jù)。
本文將利用時間序列在研究時間相關(guān)問題上的優(yōu)勢,找到適用于研究電影市場票房的時間序列模型,利用參數(shù)估計(jì)給出模型的參數(shù),最后對模型進(jìn)行診斷,判斷模型的好壞,最后利用已經(jīng)建立的模型對未來給定的時間進(jìn)行預(yù)測。
ARIMA模型全稱為自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名時間序列(Time-series Approach)預(yù)測方法[1],所以又稱為Box-Jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)稱為差分自回歸移動平均模型,AR是自回歸,p為自回歸項(xiàng); MA為移動平均,q為移動平均項(xiàng)數(shù),d為時間序列成為平穩(wěn)時所做的差分次數(shù)。所謂ARIMA模型,是指將非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列,然后將因變量僅對它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。ARIMA模型根據(jù)原序列是否平穩(wěn)以及回歸中所含部分的不同,包括移動平均過程(MA)、自回歸過程(AR)、自回歸移動平均過程(ARMA)以及ARIMA過程。
基本步驟:
a.根據(jù)時間序列的散點(diǎn)圖、自相關(guān)函數(shù)和偏自相關(guān)函數(shù)圖以ADF單位根檢驗(yàn)其方差、趨勢及其季節(jié)性變化規(guī)律,對序列的平穩(wěn)性進(jìn)行識別。一般來講,經(jīng)濟(jì)運(yùn)行的時間序列都不是平穩(wěn)序列。
b.對非平穩(wěn)序列進(jìn)行平穩(wěn)化處理。如果數(shù)據(jù)序列是非平穩(wěn)的,并存在一定的增長或下降趨勢,則需要對數(shù)據(jù)進(jìn)行差分處理,如果數(shù)據(jù)存在異方差,則需對數(shù)據(jù)進(jìn)行技術(shù)處理,直到處理后的數(shù)據(jù)的自相關(guān)函數(shù)值和偏相關(guān)函數(shù)值無顯著地異于零。
c.根據(jù)時間序列模型的識別規(guī)則,建立相應(yīng)的模型。若平穩(wěn)序列的偏相關(guān)函數(shù)是截尾的,而自相關(guān)函數(shù)是拖尾的,可斷定序列適合AR模型;若平穩(wěn)序列的偏相關(guān)函數(shù)是拖尾的,而自相關(guān)函數(shù)是截尾的,則可斷定序列適合MA模型;若平穩(wěn)序列的偏相關(guān)函數(shù)和自相關(guān)函數(shù)均是拖尾的,則序列適合ARMA模型。(截尾是指時間序列的自相關(guān)函數(shù)(ACF)或偏自相關(guān)函數(shù)(PACF)在某階后均為0的性質(zhì)(比如AR的PACF);拖尾是ACF或PACF并不在某階后均為0的性質(zhì)(比如AR的ACF)。)
d.進(jìn)行參數(shù)估計(jì),檢驗(yàn)是否具有統(tǒng)計(jì)意義。
e.進(jìn)行假設(shè)檢驗(yàn),診斷殘差序列是否為白噪聲。
f.利用已通過檢驗(yàn)的模型進(jìn)行預(yù)測分析。
數(shù)據(jù)來自貓眼電影票房專業(yè)版,數(shù)據(jù)時間范圍2011年1月至2018年12月。(見圖1)
圖1
對每月的票房進(jìn)行數(shù)據(jù)預(yù)處理,觀察數(shù)據(jù)時間序列圖,使用python完成,結(jié)果見圖2:(代碼見附錄1)
圖2
觀察數(shù)據(jù),時間序列具有相對明顯的季節(jié)性波動,總體呈現(xiàn)上升趨勢,同時發(fā)現(xiàn)2017-2018年波動相對劇烈,可能會與預(yù)測造成比較大的影響。
對時間序列進(jìn)行分解,可以更加直觀的顯示了數(shù)據(jù)的上升趨勢,以及年內(nèi)的季節(jié)性波動見圖3(代碼見附錄2):
圖3
首先對數(shù)據(jù)進(jìn)行一、二階差分,二階差分后的時間序列與一階差分相差不大,并且隨著時間推移,時間序列的均值和方差方式不變,因此可以將差分次數(shù)d設(shè)置為1(圖4為1階拆分,圖5為2階拆分)
圖4
圖5
利用python我們可以用for循環(huán)來探索不同的組合。對于參數(shù)的每個組合,我們使用statsmodels模塊的SARIMAX()函數(shù)擬合一個新的季節(jié)性ARIMA模型,并評估其整體質(zhì)量。(代碼見附錄3)
通過迭代計(jì)算ARIMA(0,1,0)x(3,2,0,12)產(chǎn)生相對低的AIC值936.269。因此,認(rèn)為這可能是考慮過的所有模型參數(shù)結(jié)果中最佳選擇。
將時間序列數(shù)據(jù)生成的最佳擬合模型的參數(shù)輸入到新的SARIMAX模型中,圖6、7(代碼見附錄4):
ARIMAX的輸出產(chǎn)生的SARIMAX返回大量的信息,主要觀察系數(shù)表。coef列顯示每個特征的重要性以及每個特征如何影響時間序列。P>|z| 列表示我們每個特征重量的意義??梢园l(fā)現(xiàn)每個指標(biāo)的P值都低于或接近0.05,所以模型保留的指標(biāo)權(quán)重相對合理的。見圖7
圖6
圖7
進(jìn)行模型診斷,圖8:
a.在右上的圖KDE與N(0,1)的正太分布基本相似
b.左下角的Q-Q圖顯示,殘差(藍(lán)點(diǎn))的有序分布遵循采用N(0,1)的標(biāo)準(zhǔn)正態(tài)分布采樣的線性趨勢。
c.隨著時間的推移(左上圖)的殘差基本不顯示明顯的季節(jié)性,似乎是白噪聲。通過觀察右下角的自相關(guān),這表明時間序列殘差與其本身的滯后版本具有較弱的相關(guān)性。
圖8
根據(jù)已經(jīng)獲取的時間序列模型,將預(yù)測值與時間序列的實(shí)際值進(jìn)行比較,驗(yàn)證模型的預(yù)測準(zhǔn)確性。
我們從2018-01-01開始進(jìn)行預(yù)測。(代碼見附錄5)。設(shè)置dynamic=False參數(shù)確保我們每一次預(yù)測前一個值都可以使用截止到這個時間點(diǎn)的所有完整數(shù)據(jù)。
觀察圖9,預(yù)測值和實(shí)際值還是存在一些偏差,同時置信區(qū)間波動較大。
圖9
使用動態(tài)預(yù)測可以更好的表達(dá)真實(shí)的預(yù)測,設(shè)置dynamic=True,只使用時間序列中的信息到某一時間節(jié)點(diǎn),之后,使用先前預(yù)測時間點(diǎn)的值生成預(yù)測。(代碼見附錄6)
動態(tài)預(yù)測值相對靜態(tài)預(yù)測值,更加貼合實(shí)際值,但是置信區(qū)間范圍比靜態(tài)更大。
圖10
對2019年月度票房進(jìn)行預(yù)測見圖11,預(yù)測的結(jié)果相對可以接受,由于數(shù)據(jù)相對較少,而且波動較大,導(dǎo)致置信區(qū)間范圍較大,待收集更多數(shù)據(jù)后,模型還有繼續(xù)優(yōu)化的空間。(代碼見附錄7)
圖11
模型優(yōu)點(diǎn):ARIMA模型多使用于時間序列,模型簡單,只需要內(nèi)生變量而不需要借助其他外生變量,并且在建模過程中有多種方法可以選擇,在模型的診斷過程中能對模型的好壞進(jìn)行評價,對于預(yù)測起到正向的作用。
模型缺點(diǎn):ARIMA模型對數(shù)據(jù)進(jìn)行預(yù)測時,要求時序數(shù)據(jù)是穩(wěn)定的,或者通過差分化之后是穩(wěn)定的;本質(zhì)上只能捕捉線性關(guān)系,不能捕捉非線性關(guān)系。對于短期的預(yù)測效果相對較好,對于長期的預(yù)測由于很多宏觀因素的影響,其預(yù)測精度就會下降,誤差增加。
模型推廣:ARIMA模型對于大多數(shù)以時間為變量的趨勢都有相對理想的擬合效果,可以廣泛應(yīng)用于氣溫、稅收、降水量等研究中。