張秋穎
摘 要: 首先梳理出科技產(chǎn)出能力的所有可能的影響因素,并在數(shù)據(jù)可獲得的前提下,以2000-2008年為時間維,采集科技產(chǎn)出能力及其影響因素的相關數(shù)據(jù),然后對科技產(chǎn)出能力及其影響因素之間的相互關系進行回歸分析,并利用多元線性回歸分析方法從所有相關因素中篩選出影響程度較高的因素,構(gòu)建科技產(chǎn)出能力的影響因素與預測模型,并對模型進行檢驗。
關鍵詞: 回歸分析法 科技產(chǎn)出能力 影響因素分析 預測研究
一、回歸分析理論簡介
回歸分析方法是多元統(tǒng)計分析的各種方法中應用最廣泛的一種。它是處理多個變量間相互依賴關系的一種數(shù)理統(tǒng)計方法。
1.多元線性回歸
多元統(tǒng)計分析是運用數(shù)理統(tǒng)計方法來研究解決多指標問題的理論和方法。多元回歸分析方法是根據(jù)實際問題的要求,在眾多相關變量中,考查其中一個或幾個變量與其余變量的依賴關系。
2.多元線性回歸模型
稱此模型為經(jīng)典多元線性回歸模型,其中Y是可觀測的隨機向量,?蘚是不可觀測的隨機向量,C是已知矩陣,β,σ是未知參數(shù),并設n>m,且rank(C)=m+1.
3.回歸預測的步驟
第一步:獲取自變量和因變量的觀測值。
第二步:繪制XY散點圖。
第三步:寫出帶未知參數(shù)的回歸方程。
第四步:確定回歸方程中參數(shù)值。
第五步:判斷回歸方程的擬合優(yōu)度。
第六步:進行預測。
4.回歸模型的檢驗
(1)判定系數(shù)R
用來判斷回歸方程的擬合優(yōu)度,通??梢哉J為當R大于0.9時,所得到的回歸曲線擬合得較好,而當R小于0.5時,所得到的回歸曲線很難說明變量之間的依賴關系。
(2)t統(tǒng)計量
如果對于某個自變量,其t統(tǒng)計量的p值小于顯著水平(或稱置信度、置信水平α),則可認為該自變量與因變量是相關的。
(3)F統(tǒng)計量
如果F統(tǒng)計量的P值小于顯著水平(或稱置信度、置信水平),則可認為方程的回歸效果顯著[1]。
二、回歸分析法的應用
本文根據(jù)黑龍江省高校2000-2008年的理工類科技數(shù)據(jù)進行回歸分析,文中數(shù)據(jù)來源于《歷年統(tǒng)計年鑒》。我們將研究2000-2008年中影響黑龍江省高??萍籍a(chǎn)出能力的因素并作出回歸模型,以便于預測其他年份的科技產(chǎn)出能力。
文中高校的科研產(chǎn)出能力用高校當年產(chǎn)出的論文與著作的加權(quán)和衡量,高校當年的經(jīng)費使用情況我們采用當年經(jīng)費支出的數(shù)據(jù)[3]。我們用Y來表示黑龍江省21所高??萍籍a(chǎn)出能力(單位:項),為黑龍江省21所高校當年經(jīng)費支出總數(shù)(單位:百元),為黑龍江省高校當年投入的人員總數(shù)(單位:人)。把這九年的數(shù)據(jù)錄入到SAS中,輸出結(jié)果見表1[2]。
表1 輸出結(jié)果
The REG Procedure
Model:MODEL1
Dependent Varible:y
Analysis of Variance
Sourc DF Sum of Squares Mean Square F Value pr>F
Model 2 46454159 23227079 11.61 0.0087
Error 6 12002893 2000482
Corrected Total 8 58457052
Root MSE 1414.38400 R-Square 0.7947
Dependent Mean 9727.88889 Adj R-Sq 0.7262
Coeff Var 14.53948
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value pr>|t|
Intercept 1 -348.67105 4372.23945 -0.80 0.4566
X1 1 0.00400 0.00082996 4.82 0.0030
X2 1 0.23290 0.11848 1.97 0.0969
表1的輸出結(jié)果中截距項的p值為0.4566大于顯著性水平α,顯著性水平α取為0.05,截距項在模型中不顯著,可以將截距項去掉,修改程序重新擬合模型,輸出結(jié)果見表2。
表2 輸出結(jié)果
The REG Procedure
Model:MODEL1
Dependent Varible:y
Analysis of Variance
Sourc DF Sum of Squares Mean Square F Value pr>F
Model 1 896874210 2095.20175 236.57 <0.0001
Error 7 13269242 1895606
Uncorrected Total 8 2103.98725
Root MSE 1376.81007 R-Square 0.9854
Dependent Mean 8.17193 Adj R-Sq 0.9957
Coeff Var 6.62214
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value pr>|t|
X1 1 0.00360 0.00709 84.58 <0.0001
X2 1 0.14238 0.00721 8.09 0.0030
1.回歸方程
2.回歸方程顯著性檢驗的結(jié)果
均方誤差MSE=13269242/7=1895606,它是模型中誤差方差σ的估計;該表還給出檢驗統(tǒng)計量F值為236.57,P值小于0.0001,這表示擬合的模型是高度顯著的,該模型解釋了這組數(shù)據(jù)總變差中的主要部分。
3.回歸系數(shù)顯著性檢驗的結(jié)果
該輸出中參數(shù)估計表不僅給出回歸方程的系數(shù),并給出檢驗∶β=0(i=0,1,…,m)的結(jié)果:見該圖的最右邊列Prob>|T|(即顯著性概率P值),若給定α=0.05自變量x的P值均小于0.05,說明這個模型是高度顯著的[4]。
4.有關的回歸統(tǒng)計量
決定系數(shù)R=0.9854,標準差σ的估計量為1376.81007回歸平方和U=896874210殘差平方和Q=13269242.
輸出的方差分析表顯示,各項指標都較好,說明模型擬合較好,同時這是一個意義直觀且便于應用的二元線性模型。模型表明:每年的綜合成果數(shù)與當年用于課題的經(jīng)費投入成正相關關系,即經(jīng)費投入越多,相應的成果產(chǎn)出也較多;同時綜合成果數(shù)與當年用于課題的人員投入也成正相關關系,也就是說,投入的人員多也意味著有較多產(chǎn)出,因而從這幾年理工類課題的人員投入趨勢看,其一直都在增加,各個高校似乎也抓住了這一規(guī)律。
當然,基于這一關系,我們便可以進行合理預測和控制。我們已知2009年黑龍江省高校投入的經(jīng)費總數(shù)為2503876千元和人員投入的總數(shù)為35746人,應用以上模型預測2009年黑龍江省的綜合成果總數(shù)14103.5項。而2009年綜合成果總數(shù)的真實值為15308.8項。相對誤差為7.9%,根據(jù)區(qū)間估計的理論我們可求出回歸函數(shù)在x=2503876,x=35746處的值的置信水平為0.95的置信區(qū)間為[10464.66908,17742.26908]而我們的真實值又確實落在其中,所以又一次證明了我們的模型較好,我們可以通過這個模型進行預測,為政府部門的決策提供參考。
參考文獻:
[1]李衛(wèi)東.應用多元統(tǒng)計分析[M].北京大學出版社,2008.
[2]黃燕,吳平.SAS統(tǒng)計分析及應用[M].機械工業(yè)出版社,2005.
[3]蔣明.SAS軟件在回歸分析中的應用[J].計算機與農(nóng)業(yè),2003(8):15-16.
[4]劉仁義,陳士俊.高校教師科技績效評價指標體系與權(quán)重[J].統(tǒng)計與決策(理論版),2007(3):135-137.