楊柳玉
(德宏師范高等??茖W校,云南 芒市 678400)
GDP 是體現(xiàn)國民經(jīng)濟增長情況和人民群眾客觀生活質(zhì)量的重要指標,是衡量一個國家或地區(qū)經(jīng)濟狀況的最佳指標[2],對影響云南省經(jīng)濟發(fā)展的因素進行研究和分析,不僅有利于云南省經(jīng)濟的快速發(fā)展,也有利于一個國家和社會經(jīng)濟的快速發(fā)展。在大數(shù)據(jù)時代背景下,運用大數(shù)據(jù)智能分析平臺和線性回歸分析的知識,結(jié)合云南省經(jīng)濟發(fā)展的實際情況,選取合適的經(jīng)濟指標,對影響云南省經(jīng)濟發(fā)展的因素進行相關(guān)關(guān)系的分析,這對于云南省未來經(jīng)濟的高速、穩(wěn)定增長具有重要的意義。
大數(shù)據(jù)智能分析平臺Datahoop 是中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會在推進我國大數(shù)據(jù)產(chǎn)業(yè)及數(shù)據(jù)分析行業(yè)方面的最新進展,該平臺支持多種數(shù)據(jù)接口,能與企業(yè)現(xiàn)有的ERP、CRM、OA、財務(wù)軟件(金蝶、用友、SAP 等)以及公司網(wǎng)站等資源實現(xiàn)無疑對接,集成了數(shù)據(jù)轉(zhuǎn)化及預(yù)處理功能,提供實時/非實時數(shù)據(jù)處理統(tǒng)一接口,節(jié)省了大量的重復(fù)開發(fā)成本[1],該平臺能不斷集成新的數(shù)據(jù)分析算法和新的功能模塊,對算法庫進行終生維護并不斷調(diào)優(yōu),可隨著用戶的需求不斷擴展。在數(shù)據(jù)安全方面,該平臺支持私有云方式,自主研發(fā)的安全管理體系可提供多達五重的防護,通過認證、加密、監(jiān)控和追蹤等手段,在傳統(tǒng)PC 端和移動終端提供數(shù)據(jù)保護解決方案。該平臺還讓數(shù)據(jù)挖掘和數(shù)據(jù)分析操作更為簡單,獨創(chuàng)的一鍵報表生成功能,使得非專業(yè)人士也可輕松發(fā)現(xiàn)數(shù)據(jù)價值,無需縮寫任何代碼就能建立和使用分析模型。在提供多終端設(shè)備支持方面,該平臺可通過手機輕松訪問,并能通過手機了解企業(yè)的運營狀況,數(shù)據(jù)分析人員則能通過手機進行數(shù)據(jù)分析工作[1]。
大數(shù)據(jù)智能分析平臺Datahoop 只需三步就可以搭建一個個性化的分析模型:第一步,選擇數(shù)據(jù);第二步,搭建算法;第三步,結(jié)果展示。
一切運動著的事物都是相互聯(lián)系、相互制約的,從而,描述事物和事物運動的變量之間也是相互聯(lián)系、相互制約的[4]。 線性回歸分析就是是利用數(shù)理統(tǒng)計中的回歸分析,來確定兩種或兩種以上變量之間相關(guān)關(guān)系的一種統(tǒng)計分析方法,應(yīng)用十分廣泛,自變量與因變量之間的關(guān)系可以用一條直線近似表示,其表達形式為 ,e 為誤差服從均值為零的正態(tài)分布[1],依據(jù)自變量的個數(shù),線性回歸分析還可以分為一元線性回歸分析和多元線性回歸分析.只有一個自變量和因變量,且自變量與因變量之間是線性關(guān)系,這種回歸分析稱為一元線性回歸分析;有兩個或兩個以上自變量,一個因變量,且自變量與因變量之間是線性關(guān)系,這種回歸分析稱為多元線性回歸分析[3]。
1.數(shù)據(jù)分析思維
數(shù)據(jù)分析思維是我們在大數(shù)據(jù)時代做數(shù)據(jù)分析或解決業(yè)務(wù)問題時的一種思維方式,也是在解決業(yè)務(wù)問題時所必需的一種思維方式。在大數(shù)據(jù)時代一個重要的數(shù)據(jù)分析思維方式是如何應(yīng)用正確的數(shù)據(jù)分析方法獲取數(shù)據(jù)和處理數(shù)據(jù),挖掘出這些數(shù)據(jù)背后隱藏的知識,幫助企業(yè)實現(xiàn)更好的決策和利潤及資源的最優(yōu)化[1]。
2.數(shù)據(jù)分析流程
本次進行數(shù)據(jù)分析的流程為:
(1)根據(jù)云南省的經(jīng)濟發(fā)展現(xiàn)狀和以往文獻的研究,建立用于回歸分析的指標體系;
(2)依據(jù)建立的指標體系,獲取和收集數(shù)據(jù);
(3)對數(shù)據(jù)進行預(yù)處理(數(shù)據(jù)的描述性分析、清洗、集成、轉(zhuǎn)換和規(guī)約);
(4)對數(shù)據(jù)進行可視化,觀察數(shù)據(jù)的變化趨勢;
(5)利用多元線性回歸分析方法,建立多元線性回歸模型,分析云南省經(jīng)濟發(fā)展影響因素。
1.經(jīng)濟指標選取
依據(jù)云南經(jīng)濟發(fā)展情況和相關(guān)文獻的研究,將云南省產(chǎn)業(yè)的發(fā)展作為分析影響云南省經(jīng)濟發(fā)展的因素,選取“第一產(chǎn)業(yè)生產(chǎn)總值”、“第二產(chǎn)業(yè)生產(chǎn)總值”、“第三產(chǎn)業(yè)生產(chǎn)總值”和“財政支出占GDP 的比重”為自變量,以“云南省生產(chǎn)總值(GDP)”為因變量,分析影響云南省經(jīng)濟發(fā)展的因素。
第一產(chǎn)業(yè)主要指生產(chǎn)食材以及其他一些生物材料的產(chǎn)業(yè),包括種植業(yè)、林業(yè)、畜牧業(yè)、水產(chǎn)養(yǎng)殖業(yè)等直接以自然物為生產(chǎn)對象的產(chǎn)業(yè)。第一產(chǎn)業(yè)的發(fā)展反映了農(nóng)業(yè)對我國省域經(jīng)濟發(fā)展的影響。
第二產(chǎn)業(yè)主要是指加工制造產(chǎn)業(yè),利用自然界和第一產(chǎn)業(yè)提供的基本材料進行加工處理,包括礦石、石油、化學工業(yè)、食品等進行加工處理的產(chǎn)業(yè)。第二產(chǎn)業(yè)的發(fā)展反映了工業(yè)對我國省域經(jīng)濟發(fā)展的影響。
第三產(chǎn)業(yè)是指第一、第二產(chǎn)業(yè)以外的其他行業(yè),范圍比較廣泛,主要包括交通運輸業(yè)、通訊產(chǎn)業(yè)、商業(yè)、餐飲業(yè)、金融業(yè)、教育產(chǎn)業(yè)、公共服務(wù)業(yè)等非物質(zhì)生產(chǎn)部門,第三產(chǎn)業(yè)的發(fā)展反映了服務(wù)業(yè)對我國省域經(jīng)濟發(fā)展的影響。
選取21 世紀以來最近17 年云南省經(jīng)濟發(fā)展的這五項經(jīng)濟指標作為研究的因變量和自變量.即選取從2001 年至2017 年的17 項數(shù)據(jù)作為研究數(shù)據(jù)。
將“云南省生產(chǎn)總值”設(shè)為因變量,“第一產(chǎn)業(yè)生產(chǎn)總值”、“第二產(chǎn)業(yè)生產(chǎn)總值”、“第三產(chǎn)業(yè)生產(chǎn)總值”和“財政支出占GDP 的比重”設(shè)為自變量。
因變量:云南省生產(chǎn)總值(億元)。
自變量一:第一產(chǎn)業(yè)生產(chǎn)總值(億元)。
自變量二:第二產(chǎn)業(yè)生產(chǎn)總值(億元)。
自變量三:第三產(chǎn)業(yè)生產(chǎn)總值(億元)。
自變量四:財政支出占GDP 的比重(百分比。
2.數(shù)據(jù)獲取
數(shù)據(jù)的獲取采用外部數(shù)據(jù)獲取,通過相關(guān)云南政府網(wǎng)站獲取數(shù)據(jù)。從云南省統(tǒng)計局官方網(wǎng)站中獲取《2002 年云南統(tǒng)計年鑒》至《2018云南統(tǒng)計年鑒》的數(shù)據(jù),將這些數(shù)據(jù)作為云南省21 世紀經(jīng)濟發(fā)展的原始數(shù)據(jù)。原始數(shù)據(jù)見附錄圖4-1 云南省歷年生產(chǎn)總值原始數(shù)據(jù)和圖4-2云南省歷年財政原始數(shù)據(jù)所示。
圖4-1:大數(shù)據(jù)智能分析平臺Datahoop 操作界面
從原始數(shù)據(jù)中獲取我們所要的云南省經(jīng)濟發(fā)展指標,從表中可以看出自21 世紀以來,隨著改革開放和經(jīng)濟全球化的不斷加深,從2001年至2017 年這17 年間,云南省的經(jīng)濟的發(fā)展十分迅速,實現(xiàn)了連續(xù)和跨越式的增長,相關(guān)數(shù)據(jù)如表4-1 所示。
表4-1:云南省經(jīng)濟發(fā)展指標數(shù)據(jù)
將表4 1 中的數(shù)據(jù)制成Excel 表格,以便使用大數(shù)據(jù)智能分析平臺對數(shù)據(jù)進行分析,Excel表格見附錄圖4-3 云南省經(jīng)濟發(fā)展指標Excel 數(shù)據(jù)表格所示。
1.數(shù)據(jù)的描述性分析
數(shù)據(jù)的描述性分析,是分析數(shù)據(jù)集中各變量(或者說屬性)的特征,測度變量的集中趨勢和離散程度.可以為后續(xù)的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約等數(shù)據(jù)預(yù)處理工作明確目標.描述性分析相關(guān)的數(shù)據(jù)如表4 2 所示。
表4-2:數(shù)據(jù)描述性分析
從表4-1 和表4-2 中的數(shù)據(jù)可以看出:
云南省的GDP 由2001 年的2138.31 億元增長到2017 年的16376.34 億元,增長了14238.03億元,平均每年為7644.91 億元,標準差為4637.79,說明數(shù)據(jù)的離散程度較大.GDP 在17年間都是呈現(xiàn)上升趨勢,2001 年至2009 年上升趨勢較為平緩,2009 年至2017 年上升趨勢較快,人均生產(chǎn)總值由2001 年的5015 元/人發(fā)展到2017 年的34221 元/人,平均每年每人增長1718 元。
第一產(chǎn)業(yè)生產(chǎn)總值17 年間都呈現(xiàn)上升趨勢,由2011 年的444.42 億元增長到2017 年的2338.37 億元,增長了1893.95 億元,平均每年為1230.75 億元,平均每年增長118.37 億元,標準差為641.71,說明數(shù)據(jù)的離散程度較?。?001 年 至2010 年增 長 較為緩 慢,2010 年 至2017 年增長十分迅速,2008 年至2010 年間增長最為緩慢。
第二產(chǎn)業(yè)生產(chǎn)總值17 年間都呈現(xiàn)上升趨勢,由2001 年的868.06 億元增長到2017 年的6204.97 億元,增長了5336.91 億元,平均每年為3132.49 億元,平均每年增長333.56 億元,標準差為1808.36,說明數(shù)據(jù)的離散程度較大。2001 年至2009 年增長較為緩慢,2009年至2017 年增長較快,2008 至2009 年增長最為緩慢。
第三產(chǎn)業(yè)生產(chǎn)總值17 年間都呈現(xiàn)上升趨勢,由2001 年的825.83 億元增長到2017 年的7833.00 億元,增長了7007.17 億元,平均每年為3281.61 億元,平均每年增長437.95 億元,標準差為2203.94,說明數(shù)據(jù)的離散程度較大.2001 年至2017 年增長都較為快速.
2.數(shù)據(jù)轉(zhuǎn)換
云南省經(jīng)濟發(fā)展指標數(shù)據(jù)中存在單位之間的不同,因此需要對其進行數(shù)據(jù)的標準化處理(或者數(shù)據(jù)的無量綱化處理),以消除量綱的影響。使用大數(shù)據(jù)智能分析平臺Datahoop 對云南省經(jīng)濟發(fā)展指標進行標準化處理,這里使用的標準化處理方法是零均值標準化[1],零均值標準化是將數(shù)據(jù)的值減去均值后再除以標準差,零均值標準化的公式為:
大數(shù)據(jù)智能分析平臺Datahoop 的操作界面如圖4-1 所示。標準化處理后的數(shù)據(jù)如表4-3 所示。
表4-3:標準化處理模型結(jié)果
現(xiàn)代的數(shù)據(jù)可視化技術(shù),綜合運用計算機圖形學、圖形處理、人機交互等技術(shù),將采集或模擬的數(shù)據(jù)變換為可識別的圖形符號、圖形、視頻或動畫,并以此呈現(xiàn)對用戶有價值的信息。
作出因變量和自變量隨時間變化的折線圖。
從折線圖中可以看出數(shù)據(jù)的總體變化趨勢,如圖5-1 所示,反映了云南省的經(jīng)濟發(fā)展指標隨時間變化的趨勢。從圖中可以看出因變量y和自變量、總體的趨勢是隨著時間的變化而增加,自變量 總體的趨勢也是隨著時間的變化而增加,但上升的趨勢比較曲折,其中有上升也有下降。
圖5-1:云南省GDP 與第一二三產(chǎn)業(yè)生產(chǎn)總值、財政支出占GDP 比重
作出云南省生產(chǎn)總值與各個自變量之間的散點圖。
從散點圖中可以看出兩個連續(xù)性變量之間的關(guān)系,如圖5 2、圖5 3、圖5 4 和圖5 5 所示,反映了云南省生產(chǎn)總值與第一產(chǎn)業(yè)生產(chǎn)總值、第二產(chǎn)業(yè)生產(chǎn)總值、第三產(chǎn)業(yè)生產(chǎn)總值和財政支出占GDP 的比重之間的關(guān)系,從圖中可以看出因變量y 與自變量x1、x2、x3、x4之間有明顯的線性關(guān)系。
圖5-2:云南省GDP 與第一產(chǎn)業(yè)生產(chǎn)總值
圖5-3:云南省GDP 與第二產(chǎn)業(yè)生產(chǎn)總值
圖5-4:云南省GDP 與第三產(chǎn)業(yè)生產(chǎn)總值
圖5-5:云南省GDP 與財政支出占GDP 比重
建立多元線性回歸模型,需要檢驗各變量之間的相關(guān)系數(shù),以判斷各變量之間的統(tǒng)計相關(guān)關(guān)系,運用大數(shù)據(jù)智能分析平臺算法庫統(tǒng)計分析中的的相關(guān)系數(shù)矩陣計算各變量之間的相關(guān)系數(shù)。
兩個自變量或兩個以上自變量之間彼此相關(guān)且他們之間的相關(guān)性較強,此時,就會出現(xiàn)多重共線性問題.通過相關(guān)系數(shù)矩陣,可以比較精確的反映各個變量之間的統(tǒng)計相關(guān)關(guān)系,以判斷自變量之間相關(guān)性的強弱,判斷自變量之間是否存在多重共線性,如果存在多重共線性,就需要進行相應(yīng)的處理,以保證分析的準確性,相關(guān)系數(shù)矩陣如表6-1 所示。
表6-1:相關(guān)系數(shù)矩陣
從表6-1 中可以看出云南省生產(chǎn)總值與第一產(chǎn)業(yè)生產(chǎn)總值的相關(guān)系數(shù)達到了99%,他們之間是正向的關(guān)系;云南省生產(chǎn)總值與第二產(chǎn)業(yè)生產(chǎn)總值的相關(guān)系數(shù)達到了99%,他們之間是正向的關(guān)系;云南省生產(chǎn)總值與第三產(chǎn)業(yè)生產(chǎn)總值的相關(guān)系數(shù)達到了99%,他們之間是正向的關(guān)系;云南省生產(chǎn)總值與財政支出占GDP 比重的相關(guān)系數(shù)達到了91%,他們之間是正向的關(guān)系.即自變量y和因變量 之間具有高度的相關(guān)性,可以對其進行多元線性回歸分析。但從表6 1 中可以看出,四個自變量之間的相關(guān)系數(shù)都較高,說明自變量之間具有很強的相關(guān)性,存在多重共線性問題,需要進行相應(yīng)的處理。
根據(jù)以上一系列的分析,建立多元線性回歸模型:
運用大數(shù)據(jù)分析平臺進行求解,求解過程見附錄圖6-1 大數(shù)據(jù)分析平臺模型求解過程所示.模型的求解結(jié)果如下列表格所示。
從表6-2 原始模型匯總和表6 3 原始模型結(jié)果及檢驗可以得出多元線性回歸模型為:
表6-2:原始模型匯總
表6-3:原始模型結(jié)果及檢驗
模型的擬合效果見附錄表7-1 模型擬合結(jié)果所示,模型擬合優(yōu)度檢驗是對回歸模型擬合效果的檢驗,回歸模型中用可決系數(shù) 評價模型的擬合程度,可決系數(shù) 越接近1,說明模型的擬合效果越好;可決系數(shù) 越接近0,說明模型的擬合效果越差。
表7-1:擬合結(jié)果
續(xù)表
通過表6-2 原始模型匯總可以得到可決系數(shù) 為0.999999999,接近于1,說明模型的擬合效果很好。
通過表7-1 擬合結(jié)果和圖7-1 擬合效果圖可以看出原始數(shù)據(jù)和預(yù)測數(shù)據(jù)之間的誤差差是很小的,接近于0,說明模型的擬合程度好。
圖7-1:擬合效果圖
回歸模型中x1、x2、x3、x4的回歸系數(shù)分別為0.1384、0.39、0.4752、-0.0000327,常數(shù)項為2.3592,回歸系數(shù)表示:當其他的自變量固定不變時,這個自變量本身每變動一個單位,因變量y 的改變量。從回歸系數(shù)上看,x2和x3的變動對y的影響較大,x1和x4的變動對y 的影響相對較小,x1、x2和x3與y 呈現(xiàn)正向關(guān)系,而x4與y呈現(xiàn)負向關(guān)系。
從多元線性回歸方程的回歸系數(shù)可以看出,當固定另外三個自變量不變時:第一產(chǎn)業(yè)生產(chǎn)總值每變動一個單位,云南省GDP 平均增加0.1384個單位;第二產(chǎn)業(yè)生產(chǎn)總值每變動一個單位,云南省GDP 平均增加0.39 個單位;第三產(chǎn)業(yè)生產(chǎn)總值每變動一個單位,云南省GDP 平均增加0.4752 個單位;財政支出占GDP 的比重每變動一個單位,云南省GDP 平均減少0.0000327 個單位.由此可以看出第二產(chǎn)業(yè)生產(chǎn)總值和第三產(chǎn)業(yè)生產(chǎn)總值對云南省GDP增長有很大的貢獻度,而財政支出占GDP 的比重對云南省GDP 的增長有著負作用。
回歸模型為 .由回歸方程可以看出第二、三產(chǎn)業(yè)對云南省生產(chǎn)總值的影響較大,第一產(chǎn)業(yè)對云南省生產(chǎn)總值的影響較小,財政支出占GDP 的比重與云南省生產(chǎn)總值呈現(xiàn)負向關(guān)系.雖然回歸模型的擬合程度很高,回歸方程也是顯著的,但財政支出占GDP 比重對云南省GDP 的影響與實際不相符合.說明回歸模型是存在一定的問題的。
另一方面是雖然該回歸模型建立了影響云南省生產(chǎn)總值的多元線性回歸方程,但在實際的生活中,云南省經(jīng)濟發(fā)展的影響因素還有許多,且每個因素的影響程度都各不相同.因此該回歸模型只是結(jié)合云南省經(jīng)濟發(fā)展的實際情況,選取了四個指標對其進行研究,除了這幾個因素外,還有其他的一些因素也會影響云南省的經(jīng)濟發(fā)展。
云南省第二產(chǎn)業(yè)不發(fā)達,加大對第二產(chǎn)業(yè)發(fā)展的支持力度,促進云南省經(jīng)濟發(fā)展。要自覺把思想和行動統(tǒng)一到黨中央、國務(wù)院的重大決策部署上來,堅決貫徹落實國家產(chǎn)業(yè)供給側(cè)結(jié)構(gòu)性改革的決策部署。云南省要正確認識第二產(chǎn)業(yè)發(fā)展存在的困難和面臨的機遇,加快產(chǎn)能的整合,支持重點產(chǎn)業(yè)的發(fā)展,深入推進智能制造,堅持“兩型三化”的產(chǎn)業(yè)發(fā)展方向,緊盯重大項目的推進與建設(shè)。
云南省要發(fā)揮自身的優(yōu)勢,加大對第三產(chǎn)業(yè)發(fā)展的支持力度,深入貫徹《“十三五”服務(wù)業(yè)發(fā)展規(guī)劃》。云南省政府要加強對第三產(chǎn)業(yè)發(fā)展的宏觀調(diào)控,加大支持力度,將重點行業(yè)作為現(xiàn)代服務(wù)業(yè)發(fā)展的主攻方向,堅持加大扶持,大幅增加服務(wù)業(yè)投入,確保服務(wù)業(yè)有序健康發(fā)展。
云南省要適當減少對各個產(chǎn)業(yè)的財政支出,精確定位對各個產(chǎn)業(yè)的財政支持,從而促進云南省總體經(jīng)濟的發(fā)展。要積極落實財政政策,財政資金要精準落實到位,避免額外的財政支出,著力降低企業(yè)稅費負擔,優(yōu)化調(diào)整財政支出結(jié)構(gòu),提高財政資金效益,為云南省產(chǎn)業(yè)的發(fā)展創(chuàng)造更好的條件。