周 靜
(天津冶金職業(yè)技術(shù)學(xué)院,天津 300400)
在數(shù)學(xué)建模中,由現(xiàn)實(shí)數(shù)據(jù)建立模型,通常采用的方法是回歸分析。回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,然后根據(jù)模型參數(shù)來評價該模型的擬合情況,并可根據(jù)自變量作進(jìn)一步預(yù)測。較之Matlab數(shù)學(xué)軟件中的回歸分析功能,SPSS統(tǒng)計(jì)軟件的優(yōu)勢在于其圖形交互式用戶界面更易于操作,且數(shù)據(jù)結(jié)果可讀性強(qiáng)、容易導(dǎo)出。下面,以某公司生產(chǎn)的牙膏銷售量為例,利用SPSS18.0進(jìn)行回歸分析,建立牙膏的銷售量與其它因素的回歸模型,說明SPSS在解決數(shù)學(xué)建模中預(yù)測問題時更具優(yōu)越性。
某大型牙膏制造企業(yè)為了更好地拓展產(chǎn)品市場,有效地管理庫存,公司董事會要求銷售部門根據(jù)市場調(diào)查,找出公司生產(chǎn)的牙膏銷售量與銷售價格、廣告投入等之間的關(guān)系,從而預(yù)測出在不同價格和廣告費(fèi)用下的銷售量。為此銷售部的研究人員收集了過去30個銷售周期(每個銷售周期為4周)公司生產(chǎn)的牙膏的銷售量、銷售價格、投入的廣告費(fèi)用,以及其他廠家生產(chǎn)同類牙膏市場的平均銷售價格。
因消費(fèi)者在購買牙膏時,更關(guān)心的是不同品牌之間的價格差,所以在研究各個因素對銷售量的影響時,采用價格差代替公司的銷售價格和其他廠家平均價格作為影響因素之一。因此,將價格差和廣告費(fèi)用作為自變量,牙膏的銷售量作為因變量,采用SPSS18.0中文版進(jìn)行數(shù)據(jù)分析。
打開數(shù)據(jù)文件窗口的對話框,在菜單欄依次單擊“圖形”→“舊對話框”→“散點(diǎn)/點(diǎn)狀”,選擇“簡單分布”,并分別將廣告費(fèi)用和價格差作為自變量選入X軸,銷售量作為因變量選入Y軸,繪制散點(diǎn)圖。
圖1 廣告費(fèi)用與銷售量的散點(diǎn)圖
圖2 價格差與銷售量的散點(diǎn)圖
從散點(diǎn)圖來看,價格差與銷售量呈現(xiàn)較明顯的線性趨勢,而廣告費(fèi)用和銷售量呈現(xiàn)較明顯的曲線趨勢,但要判定兩個變量更適合于哪個模型,則需要進(jìn)行曲線估計(jì)。在菜單欄依次單擊“分析”→“回歸”→“曲線估計(jì)”,分別將廣告費(fèi)用和價格差選入自變量,銷售量選入因變量,在模型選項(xiàng)組勾選“線性曲線”、“二次項(xiàng)曲線”和“立方曲線”三種曲線回歸模型。
表1 廣告費(fèi)用與銷售量曲線估計(jì)的模型摘要
由表1可以看出,三個曲線估計(jì)的回歸模型中,二次項(xiàng)曲線模型與立方曲線模型的擬合度顯著優(yōu)于線性模型,其中擬合度最好的是二次項(xiàng)曲線模型,其R2值為0.838,并且從F值來看,二次項(xiàng)曲線模型比立方曲線模型擬合的更為顯著。因此,選擇二次項(xiàng)曲線模型最為理想,即y=β0+β1x1+β2x12+ε,其中x1為廣告費(fèi)用,y為銷售量,ε為隨機(jī)誤差,βi為回歸系數(shù)。
表2 價格差與銷售量曲線估計(jì)的模型摘要
由表2可以看出,三個模型的擬合度基本相同,其中擬合度最好的是立方曲線模型,其次是二次項(xiàng)曲線模型,但立方曲線模型的參數(shù)比另外兩種模型的參數(shù)多,更為復(fù)雜。若從F值來看,線性模型擬合的最為顯著。但以上的結(jié)果還不足以作出判斷,還需要對各模型系數(shù)作顯著性檢驗(yàn)。重復(fù)上述操作,并且在曲線估計(jì)對話框勾選“顯示ANOVE表格”。
表3 價格差與銷售量的曲線估計(jì)的模型系數(shù)
由表3可以看出,對三個模型系數(shù)進(jìn)行顯著性檢驗(yàn)后,只有線性模型的系數(shù)均達(dá)到顯著水平,而另外兩種模型系數(shù)的p值至少有一個大于0.05。因此,選擇線性模型最為理想,即y=β0+β1x2+ε,其中x2為價格差,y為銷售量,ε為隨機(jī)誤差,βi為回歸系數(shù)。
由曲線估計(jì)知,價格差與銷售量適合線性模型,而廣告費(fèi)用與銷售量更適合二次項(xiàng)曲線模型。但因二次函數(shù)可以轉(zhuǎn)化為線性函數(shù),所以可將廣告費(fèi)用的平方作為一個新的自變量引入,從而采用多元線性回歸分析,建立價格差、廣告費(fèi)用、廣告費(fèi)用的平方與牙膏的銷售量的回歸模型一,即y=β0+β1x1+β2x2+β3x3+ε,其中x1為廣告費(fèi)用,x2為價格差,x3為廣告費(fèi)用的平方,y為銷售量,ε為隨機(jī)誤差,βi為回歸系數(shù)。
多元回歸分析之前,需引入新的變量。從“轉(zhuǎn)換”菜單中,打開計(jì)算變量對話框,輸入新的目標(biāo)變量名,即廣告費(fèi)用的平方,然后在數(shù)字表達(dá)式中編輯函數(shù),生成新的變量。接下來在“分析”菜單中,打開線性回歸對話框,將廣告費(fèi)用、價格差和廣告費(fèi)用的平方同時選為自變量,將銷售量選為因變量;單擊“統(tǒng)計(jì)量”按鈕,在彈出的對話框中勾選“置信區(qū)間”。
表4 回歸模型一的模型摘要
由表4可以看出,以廣告費(fèi)用、廣告費(fèi)用的平方和價格差共同作為自變量時,能顯著預(yù)測銷售量,其聯(lián)合解釋90.5%的變異量,因此模型一從整體上來看是可用的。
表5 回歸模型一的模型系數(shù)
由表5可知,模型一的回歸方程為y=17.324-3.696x1+1.307x2+0.349x3+ε。該模型顯示,廣告費(fèi)用對銷售量的影響不太顯著,p值大于0.05,但廣告費(fèi)用的平方對銷售量的影響是顯著的,因此將廣告費(fèi)用作為回歸變量仍保留在模型中。
盡管模型一從整體來看較為理想,但表5顯示的置信區(qū)間[-7.499,0.108]包含零點(diǎn),這說明廣告費(fèi)用對銷售量的影響導(dǎo)致該模型不穩(wěn)定,還需要進(jìn)一步改進(jìn)。模型一中,廣告費(fèi)用和價格差對于銷售量的影響是相互獨(dú)立的,而由現(xiàn)實(shí)經(jīng)驗(yàn)可知,廣告費(fèi)用和價格差之間的交互作用也可能會影響牙膏的銷售量。
考察變量間的交互作用,須先對變量作定性分析。
若變量均為分類變量,則采用方差分析來檢驗(yàn)自變量對因變量的影響以及各自變量間的交互作用;若變量均為連續(xù)變量,則采用在回歸方程中納入變量的乘積項(xiàng),通過檢驗(yàn)其回歸系數(shù)的顯著性來判斷變量間是否存在交互作用,如果回歸系數(shù)為正,則變量間存在正交互作用,如果回歸系數(shù)為負(fù),則變量間存在負(fù)交互作用;若變量包含分類變量和連續(xù)變量,可將分類變量轉(zhuǎn)換為虛擬變量后,當(dāng)成連續(xù)變量再進(jìn)行回歸分析。
考慮到廣告費(fèi)用和價格差均為連續(xù)變量,因此采用在回歸方程中納入二者的乘積x4來代表廣告費(fèi)用和價格差的交互作用,記為廣告費(fèi)用×價格差。具體操作如前,并在線性回歸對話框中,單擊“繪制”按鈕,在彈出的對話框中將“*ZPRED”選入X軸,“*SRESID”選入Y軸,繪制標(biāo)準(zhǔn)化殘差的散點(diǎn)圖,同時勾選“直方圖”,繪制標(biāo)準(zhǔn)化殘差的頻數(shù)分布圖。
表6 回歸模型二的模型摘要
表7 回歸模型二的模型系數(shù)
由表6和表7知,再引入廣告費(fèi)用×價格差后,聯(lián)合解釋92.1%的變異量,較模型一有所提高,并且所有置信區(qū)間均不含零點(diǎn),這說明模型二較模型一有所改進(jìn),更符合實(shí)際。模型二的回歸方程為y=29.113-7.608x1+11.134x2+0.671x3-1.478x4+ε,其中x1為廣告費(fèi)用,x2為價格差,x3為廣告費(fèi)用的平方,x4為廣告費(fèi)用×價格差,y為銷售量,ε為隨機(jī)誤差。表7還顯示,x4的回歸系數(shù)估計(jì)值為-1.478,即廣告費(fèi)用和價格差存在負(fù)交互作用。當(dāng)價格差較大時,可以較少地依賴廣告投入的增加來提高銷售量;當(dāng)價格差較小時,則需要投入較大的廣告費(fèi)用來提高銷售量。
圖3 殘差的直方圖
圖4 殘差的散點(diǎn)圖
由圖3可以看出,標(biāo)準(zhǔn)化殘差呈正態(tài)分布。圖4顯示,各點(diǎn)圍繞殘差等于0的直線上下隨機(jī)分布,說明當(dāng)前的回歸模型對原始數(shù)據(jù)擬合情況良好。
[1]姜啟源,謝金星,葉?。?dāng)?shù)學(xué)模型[M].北京:高等教育出版社,2003.
[2]張?zhí)K江,陳慶波.?dāng)?shù)據(jù)統(tǒng)計(jì)分析軟件SPSS的應(yīng)用(五)——相關(guān)分析與回歸分析[J].畜牧與醫(yī),2003,(09).