竇昀翬
上海華誼(集團(tuán))公司(上?!?00025)
化工管理
探索數(shù)據(jù)挖掘技術(shù)在甲醇價(jià)格預(yù)測(cè)模型中因素分析的應(yīng)用
竇昀翬
上海華誼(集團(tuán))公司(上海200025)
介紹了數(shù)據(jù)挖掘技術(shù)的含義,以甲醇價(jià)格預(yù)測(cè)模型的建立為例,通過(guò)對(duì)已知因素的分析、計(jì)算和統(tǒng)計(jì),確定了影響甲醇價(jià)格變化的因素及其影響值。運(yùn)用數(shù)據(jù)挖掘技術(shù)客觀地顯現(xiàn)影響甲醇價(jià)格變化的真實(shí)因素,避免人為情緒波動(dòng)對(duì)預(yù)測(cè)工作產(chǎn)生負(fù)作用。
數(shù)據(jù)挖掘價(jià)格預(yù)測(cè)因素分析
信息和數(shù)據(jù)的交互是信息時(shí)代的特征和產(chǎn)物,隨著電子商務(wù)的興起與發(fā)展,人們已經(jīng)認(rèn)識(shí)到信息和數(shù)據(jù)的重要性,它既是全程工作運(yùn)轉(zhuǎn)的記錄累積,也是驅(qū)動(dòng)商業(yè)行為的動(dòng)力之源。正如阿里巴巴、京東等公司的掌門(mén)人所夸耀的,目前他們的交易平臺(tái)可以在用戶(hù)模糊輸入產(chǎn)品信息進(jìn)行產(chǎn)品搜索時(shí),自動(dòng)匹配出買(mǎi)家和賣(mài)家的精準(zhǔn)內(nèi)容,從而使用戶(hù)在數(shù)量龐大的產(chǎn)品中找到自己最想要的或相關(guān)度最高的產(chǎn)品。這種互聯(lián)網(wǎng)技術(shù)的應(yīng)用,正是基于數(shù)據(jù)挖掘(Data Mining)技術(shù)而實(shí)現(xiàn)的。
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又具有潛在有用信息和知識(shí)的過(guò)程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長(zhǎng),動(dòng)輒以TB(太字節(jié),1 TB=1024 GB)計(jì)。從海量數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急,數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生并發(fā)展起來(lái)的數(shù)據(jù)處理技術(shù),是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟[1]。
數(shù)據(jù)挖掘功能一般可以分為兩類(lèi):預(yù)測(cè)和描述。描述性挖掘功能用來(lái)描述數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性,而預(yù)測(cè)性挖掘功能是在現(xiàn)有數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取知識(shí)的過(guò)程,鑒于數(shù)據(jù)本身的性質(zhì),那些符合推理和統(tǒng)計(jì)原理、信息論、遺傳算法和神經(jīng)網(wǎng)絡(luò)的知識(shí)被首先運(yùn)用到知識(shí)發(fā)現(xiàn)的算法設(shè)計(jì)中。[2]
數(shù)據(jù)挖掘與傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)不同。統(tǒng)計(jì)學(xué)推斷是由假設(shè)驅(qū)動(dòng)的,即形成假設(shè)并在數(shù)據(jù)基礎(chǔ)上進(jìn)行驗(yàn)證;數(shù)據(jù)挖掘是由數(shù)據(jù)驅(qū)動(dòng)的,即自動(dòng)地從數(shù)據(jù)中提取模式和假設(shè)。數(shù)據(jù)挖掘的目標(biāo)是提取可以容易轉(zhuǎn)換成邏輯規(guī)則或可視化表示的定性模型,與傳統(tǒng)的統(tǒng)計(jì)學(xué)相比,更加以人為本。
甲醇價(jià)格預(yù)測(cè)模型通過(guò)分析歷年數(shù)據(jù),借助統(tǒng)計(jì)學(xué)理論來(lái)推導(dǎo)甲醇價(jià)格后市變化的可能性。正確的模型可以降低主觀判斷中人為因素的影響,并適當(dāng)延長(zhǎng)后市判斷的時(shí)間周期,相比于原來(lái)僅依據(jù)經(jīng)驗(yàn)來(lái)進(jìn)行中長(zhǎng)期預(yù)測(cè)的結(jié)果,具有可度量性。
建立甲醇價(jià)格預(yù)測(cè)模型,首先需要找到影響甲醇價(jià)格變化的因素。在現(xiàn)實(shí)工作中,影響甲醇價(jià)格的因素有很多,如上游的價(jià)格和供給、下游需求、進(jìn)出口情況、產(chǎn)量、區(qū)域內(nèi)的庫(kù)存能力、運(yùn)輸條件、氣候、地理環(huán)境及不可預(yù)知的各類(lèi)突發(fā)因素等,這些因素和甲醇價(jià)格之間有著必然關(guān)系或間接關(guān)系,可能隨時(shí)都會(huì)對(duì)甲醇價(jià)格的變化產(chǎn)生單獨(dú)作用力或合力。人們?cè)谑潞蠡仡檭r(jià)格走勢(shì)時(shí),通常容易指出影響甲醇價(jià)格的變化主要因素,但在分析影響因素、預(yù)測(cè)后市價(jià)格時(shí),如果僅憑主觀判斷和經(jīng)驗(yàn)判斷,會(huì)出現(xiàn)眾說(shuō)紛紜、“百家爭(zhēng)鳴”的情況,特別是在行情膠著的情況下,更難以理清影響價(jià)格因素的關(guān)鍵和核心。
統(tǒng)計(jì)分析是應(yīng)用最早、也是目前最成熟和行之有效的一種數(shù)據(jù)挖掘方法,其關(guān)鍵是構(gòu)造合適的統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)解釋被分析的數(shù)據(jù)。該方法要求使用者具有較豐富的相關(guān)領(lǐng)域知識(shí)。統(tǒng)計(jì)分析一般由兩個(gè)步驟構(gòu)成:首先,使用者從數(shù)據(jù)庫(kù)中選擇抽取適當(dāng)?shù)臄?shù)據(jù);其次,使用者執(zhí)行統(tǒng)計(jì)分析工具提供的可視化功能和分析功能來(lái)尋找數(shù)據(jù)間的關(guān)系,并構(gòu)造統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)解釋數(shù)據(jù)。其中第二步是反復(fù)的和不斷求精的。
本課題搜集了2008年1月至2014年7月的甲醇月度價(jià)格,并采集了每月的主觀和經(jīng)驗(yàn)因素,通過(guò)數(shù)據(jù)挖掘技術(shù),從定性和定量?jī)煞矫娲_定影響甲醇價(jià)格的因素指標(biāo)及影響比重。數(shù)據(jù)處理采用Eviews 6.0軟件。
從現(xiàn)實(shí)情況了解到,目前影響甲醇價(jià)格變化的因素可分為宏觀因素、主觀因素和突發(fā)因素等,其中紐約商品交易所輕質(zhì)低硫原油(WTI)期貨交易價(jià)格、工業(yè)品出廠價(jià)格指數(shù)(PPI)、制造業(yè)采購(gòu)經(jīng)理人指數(shù)(PMI)為宏觀因素,中國(guó)及周邊地區(qū)港口的月度均價(jià)、華東地區(qū)主流煤炭交易價(jià)格、全國(guó)甲醇月度產(chǎn)量、華東地區(qū)甲醇價(jià)格等為主觀因素,局部戰(zhàn)爭(zhēng)、氣候、地質(zhì)及交通變化等為突發(fā)因素。
3.1數(shù)據(jù)的歸一化
為統(tǒng)一數(shù)據(jù)的量化,方便對(duì)數(shù)據(jù)進(jìn)行分析和計(jì)算,需要對(duì)已采集到的各類(lèi)數(shù)據(jù)進(jìn)行歸一化處理。本課題采用通過(guò)計(jì)算變量的標(biāo)準(zhǔn)化得分來(lái)進(jìn)行數(shù)據(jù)的歸一化處理,轉(zhuǎn)換函數(shù)為:
其中x為原始樣本數(shù)據(jù),u為樣本數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
3.2異常值的分析與處理
通過(guò)分析各個(gè)指標(biāo)的時(shí)間序列趨勢(shì)圖(見(jiàn)圖1),發(fā)現(xiàn)一些異常值,這些異常值大體可分為兩類(lèi):
(1)統(tǒng)計(jì)錯(cuò)誤,如2012年12月的煤炭?jī)r(jià)格;
(2)受突發(fā)因素影響,如2008年12月由于金融危機(jī)導(dǎo)致的甲醇價(jià)格下降和2013年11月由于國(guó)外裝置故障導(dǎo)致的甲醇價(jià)格突然上漲。
圖1 甲醇價(jià)格影響因素趨勢(shì)圖
統(tǒng)計(jì)錯(cuò)誤導(dǎo)致的異常值主要通過(guò)移動(dòng)平均法來(lái)處理,而突發(fā)因素導(dǎo)致的異常值則不需要處理。
3.3甲醇價(jià)格與各影響因素之間的相關(guān)性分析
圖2為甲醇價(jià)格與各影響因素的趨勢(shì)圖,表1給出了甲醇價(jià)格(出罐價(jià)格)與各因素的相關(guān)系數(shù),由此可看出,甲醇價(jià)格與各影響因素具有一定的相關(guān)性,尤其與中國(guó)港口到岸價(jià)格、WTI價(jià)格、進(jìn)口價(jià)格、PPI的相關(guān)程度都很高(相關(guān)系數(shù)>0.5),這說(shuō)明利用甲醇價(jià)格與影響因素之間的關(guān)系進(jìn)行預(yù)測(cè)是可行的。
左側(cè)線條自上而下依次為:中國(guó)港口價(jià)格、甲醇港口出罐價(jià)格、WTI價(jià)格、甲醇進(jìn)口月均價(jià)格、國(guó)內(nèi)煤炭月均價(jià)格、甲醇月進(jìn)口量、PPI、PMI、國(guó)內(nèi)甲醇產(chǎn)量
表1 甲醇出罐價(jià)與各因素的相關(guān)系數(shù)
3.4各影響因素之間的相關(guān)性分析
(1)各國(guó)港口到岸價(jià)之間的相關(guān)性
中國(guó)及周邊國(guó)家和地區(qū)主要港口甲醇交易月度價(jià)格趨勢(shì)見(jiàn)圖3,通過(guò)計(jì)算后得到的各因素相關(guān)系數(shù)值見(jiàn)表2。
虛線處從上至下依次標(biāo)識(shí)為:甲醇的中國(guó)港口價(jià)格、印度港口價(jià)格、中國(guó)臺(tái)灣省港口價(jià)格、日本港口價(jià)格、東北亞港口價(jià)格和韓國(guó)港口價(jià)格
表2 各國(guó)港口價(jià)格的相關(guān)系數(shù)
從圖3和表2可以看出各國(guó)港口甲醇到岸價(jià)格具有很強(qiáng)的相關(guān)性(相關(guān)系數(shù)都在0.95以上),而在進(jìn)行統(tǒng)計(jì)分析時(shí)不能同時(shí)考慮它們,只能選擇一個(gè)做代表,綜合考慮,認(rèn)為選擇中國(guó)港口價(jià)格更具有代表性和現(xiàn)實(shí)意義。
(2)各因素之間的相關(guān)性
各因素之間的相關(guān)性見(jiàn)表3,所有的國(guó)外港口價(jià)格已用中國(guó)港口價(jià)格代替,可以看出,某些影響甲醇價(jià)格的因素之間也存在較強(qiáng)的相關(guān)性,這種相關(guān)性會(huì)對(duì)統(tǒng)計(jì)分析結(jié)果產(chǎn)生影響,所以需要對(duì)這些因素進(jìn)行篩選,這將在以后的模式匹配工作中進(jìn)行。
表3 各影響因素之間的相關(guān)系數(shù)
4.1純統(tǒng)計(jì)學(xué)方法
逐步回歸法是多元回歸分析中克服變量相關(guān)性的常用方法。運(yùn)用逐步回歸法得到的回歸結(jié)果如表4所示,擬合程度為96.5%。表4表明在考慮變量相關(guān)性的條件下,對(duì)甲醇價(jià)格有顯著影響的變量包括:中國(guó)港口價(jià)格、產(chǎn)量、WTI價(jià)格、煤炭?jī)r(jià)格、出口量和PPI。
4.2考慮變量的實(shí)現(xiàn)意義
根據(jù)業(yè)內(nèi)專(zhuān)業(yè)人士的經(jīng)驗(yàn)建議,在現(xiàn)實(shí)情況中,“進(jìn)口量”對(duì)甲醇價(jià)格的影響遠(yuǎn)大于“出口量”,因此選擇“進(jìn)口量”作為影響因素。用“進(jìn)口量”替代“出口量”的回歸結(jié)果如表5所示,在回歸模型中,雖然“進(jìn)口量”對(duì)甲醇該變量不會(huì)影響其他變量的統(tǒng)計(jì)性質(zhì)。
表4 運(yùn)用逐步回歸法的回歸結(jié)果
通過(guò)分析計(jì)算和數(shù)據(jù)挖掘技術(shù)的應(yīng)用,甲醇價(jià)格的影響因素最終確定為中國(guó)港口價(jià)格、產(chǎn)量、進(jìn)口量、原油價(jià)格、煤價(jià)和PPI。這些因素覆蓋了宏觀因素和微觀因素兩方面,而且因素影響值的大小也通過(guò)計(jì)算得以確定。
由于影響甲醇價(jià)格變化的因素存在復(fù)雜性,本研究也存在一定的局限性:第一,沒(méi)有考慮到突發(fā)性的影響因素,該類(lèi)因素雖然可以采集,但因?yàn)榫哂信R時(shí)性和多變性,無(wú)法確立和計(jì)算;第二,由于數(shù)據(jù)采集的原因,所有影響因素的采集時(shí)間存在不同步,如原油價(jià)格是采集當(dāng)期之后一個(gè)月的期貨價(jià),主要反映了人們對(duì)甲醇原料供給的信心影響指數(shù);第三,可能存在還未發(fā)現(xiàn)的影響因素,需要今后在工作中不斷發(fā)現(xiàn)積累和計(jì)算。
表5 “進(jìn)口量”替換“出口量”的回歸結(jié)果
[1]數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介[Z].[2004-01-29].http://www.yesky. com/430/1763930.shtml.
[2]陳疇鏞,陸錦洪.數(shù)據(jù)挖掘方法在供應(yīng)鏈產(chǎn)品價(jià)格預(yù)測(cè)中的應(yīng)用[J].杭州電子工業(yè)學(xué)院學(xué)報(bào),2002,22(6):19-23.
Application of Data Mining Technology in Factors Analysis of Methanol Price Forecast Model
Dou Yunhui
The implication of data mining technology is introduced.Taking the methanol price model as an example, the known factors are analyzed,calculated and counted,and the factors affecting the methanol price and corresponding influence values are determined.Applying data mining technology can objectively reflect the real factors that affect methanol price and avoid effects of human emotions in forecasting work.
Data mining;Price forecasting;Factor analysis
TP 311.13
竇昀翬男1979年生本科工程師從事化工產(chǎn)品專(zhuān)業(yè)銷(xiāo)售管理工作
2015年7月