摘 要:時間序列預測方法仍是數(shù)據挖掘的主要方法之一,在應用方面,軟件SAS Forcast Studio(簡稱FS)能夠同時對多個產品、快速進行預測,建立快速、批量、自動的時間序列預測模型群;極大地提高了數(shù)據挖掘的處理效率和預測準確率。然而單純的原始時間序列直接投入FS里的效果不及對數(shù)據先處理后理想,需要對時間序列先進行數(shù)據處理,其中分類處理是其中一個必要的環(huán)節(jié)。因此,本文基于SAS 的時間序列模塊軟件FS來探析多產品銷量數(shù)據分類方法,從而提高FS預測模型的準確率。
關鍵詞:多產品;SAS Forcast Studio;時間序列;數(shù)據分類方法
隨著社會的發(fā)展和計算機技術的進步,數(shù)據挖掘技術的應用越來越廣泛,已在經濟、氣象、地質、歷史文化、軍事、新聞、醫(yī)藥、農業(yè)等領域產生了顯著的經濟效益和社會效益。主要是從海量數(shù)據中挖掘潛在的知識、信息,包括聚類分析、分類預測(如決策樹、神經網絡、LOGISTIC等)、生存分析、時間序列預測、回歸分析等。時間序列預測方法仍然是數(shù)據挖掘的主要方法之一,其主要思想是:找出歷史數(shù)據揭示現(xiàn)象隨時間變化的規(guī)律,將這種規(guī)律延伸到未來,從而對該現(xiàn)象的未來作出預測。為了提高預測計劃質量,應對公司業(yè)務的規(guī)模發(fā)展,除了借助依據業(yè)務流程形成的各類預測方法,還需要主觀干預較少的科學預測方法--讓數(shù)據說話的科學統(tǒng)計預測方法,借助SAS數(shù)據分析軟件,實現(xiàn)科學的預測,為公司業(yè)務整體預測計劃和資源效率的提升提供堅實的基礎。因此,本文基于SAS的時間序列模塊軟件FS來探析多產品銷量數(shù)據分類方法,以此提高FS預測模型的準確率。
一、FS在時間序列分析方法中的應用概述
SAS FS能夠同時對多個產品、快速進行預測,建立快速、批量、自動的銷量預測模型群;挖掘人員可結合各種業(yè)務場景設計多種策略實現(xiàn)精細化建模;開發(fā)各種接口支撐模型的可調節(jié)、可拓展性;并采用后評估方式為建模人員模型優(yōu)化提供支撐,通過BI平臺實現(xiàn)資源共享。FS能夠利用事件、日歷、廣告促銷和因果變量等各類銷量影響因素并融合這些因素進行建模預測,而且能自動識別數(shù)據模式,生成預測結果,實現(xiàn)預測模型自動化。通過FS輸出的預測結果,公司和企業(yè)相關人員可根據銷售目標和其他約束條件進行調整,從而制訂合理的采購策略。
二、時間序列數(shù)據分類方法
由于多產品間存在相關關系,有轉化性、競爭性。部分產品因某些特殊因素導致銷量波動較大,但結合相關產品整體數(shù)據來看比較穩(wěn)定。因此對于多產品銷量數(shù)據先進行分類是必要的。最常見大體有以下幾種分類方式,以某奶粉公司產品為例:(1)從轉化性來看,按產品系列打包調節(jié)預測,如金裝1-4打包,超金1-4打包等;(2)按產品品牌內替代性打包調節(jié)預測,如金裝1、超金1、超呵1、呵護1打包等;(3)按產品品牌間替代性打包調節(jié)預測,如素加與好嬰兒奶粉打包等。
1.按波動性分類
由于各產品銷量方差(或極差)可用來衡量其波動范圍的大小,因此,可通過構建該統(tǒng)計量來對產品銷量波動性進行描述,然后再利用k倍δ的原理對數(shù)據分類,k值可以根據用戶需求自己定義。其思路可以歸納如下:
(1)針對單個產品,利用最近一年的產品實際銷量值求解其方差δ2;
(2)針對所有產品,利用所得的方差δi2求解[-kδ0,+kδ0];
(3)根據(2)求得的區(qū)間將原始數(shù)據分為三類,將大于區(qū)間上限值的歸為一類,將小于區(qū)間下限值的歸為一類,將大于區(qū)間下限值小于區(qū)間上限值的歸為一類。
2.按銷量大小分類
四分位數(shù)方法:四分位數(shù)是統(tǒng)計學中把所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的數(shù)值。該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字為Q1,該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字為Q2,該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字為Q3。利用四位數(shù)方法將原始數(shù)據分成四類,分別為:<25%、25%~50%、50%~75%、>75%。
對于產品銷量數(shù)據,各產品銷量中位數(shù)可用來衡量其銷量大概所處的位置,因此,通過構建該統(tǒng)計量來對產品銷量大小進行分類。
3.按歷史數(shù)據長度
根據提供的銷量數(shù)據的長度,以歷史數(shù)據為2013.03~2015.06為例,按歷史數(shù)據長度分別為小于1年,1年~2年,2年以上,將產品分為3類。
4.綜合分類方法
在FS建模時,有多種調節(jié)層級的方法,不同的層級調節(jié)可以生成不同的預測模型,為了得到最優(yōu)預測模型,因此需要綜合考慮波動分類、銷量大小、序列長度等組合的影響因素。
三、實驗過程
根據中國某信息與通信解決方案以及智能終端生產企業(yè)的各產品每天的銷量數(shù)據來進行時間序列預測分析,共1220個產品item,產品種類多,數(shù)據量大。將數(shù)據集分成擬合數(shù)據集、測試集兩部分,選擇其中一部分數(shù)據作為預測模型的輸入,另一部分數(shù)據作為驗證,以評估預測模型的優(yōu)劣。例如:有24個月的歷史銷售數(shù)據,我們可以選擇前18個月的數(shù)據作為輸入,另外6個月的數(shù)據作為驗證,從而評出最優(yōu)模型。
對原始數(shù)據集分別采用不打包分類處理、3倍δ原理分類、四分位數(shù)原理分類等方法進行處理。對FS生成的結果模型利用模型評分函數(shù)E的大小來衡量優(yōu)劣。
Error=,MAPE=|真實值均值-預測值均值|/真實值均值
其中,MAPE1和MAPE2分別表示擬合數(shù)據集與測試集的均值絕對誤差百分比;N1和N2分別表示擬合數(shù)據集與測試集分別小于0.2(該閾值可自定義)和0.4(該閾值可自定義)的點的個數(shù)。
利用SAS的FS處理后,根據模型結果對比表明,對數(shù)據進行分類打包后會生成更優(yōu)模型,預測會更有規(guī)律和更接近真實值。文中僅列出其中一種產品的結果來說明,從圖一中可以看出預測值在未打包處理前不同模型生成的預測數(shù)據偏差及波動極大,而處理后預測數(shù)據較穩(wěn)定,并且數(shù)據準確率更高。
四、結束語
在用FS處理類似于銷量數(shù)據的時間序列數(shù)據集時,對數(shù)據進行分類打包后會生成更優(yōu)模型,實驗表明分類處理比不分類處理,預測更準確,但不同的分類方法對模型的影響程度不一樣,用戶可以根據實際需要選擇一種合適的分類方法。若一些序列周期長或者數(shù)據序列較短,我們還可以分別利用滾動預測和曲線擬合的方法來調和。
參考文獻:
[1]李雄飛等.數(shù)據挖掘與知識發(fā)現(xiàn)[M].高等教育出版社,2010.
[2]王麗娜,肖冬榮.基于ARMA模型的經濟非平穩(wěn)時間序列的預測分析[M].武漢理工大學學報(交通科學與工程版).Vol.28 No.1 Feb,2004.
[3]賈俊平.統(tǒng)計學(第六版)[M].中國人民大學出版社,2015(01).
[4]SAS(r) Forecast Studio14.1.User's Guide.
[5]劉曉冬,景睿等.殘差自回歸模型及SAS程序實現(xiàn)[M].中國衛(wèi)生統(tǒng)計,2008年10月第25卷第5期.
作者簡介:高春姣(1988- ),女,漢族,湖北荊州,在讀碩士,廣州大學經濟與統(tǒng)計學院,研究方向:經濟預測與決策