朱進鵬 余照陽
摘? 要:為探究礦井底板破壞深度的影響因素及其影響關(guān)系,各因素之間的復合相關(guān)性分析常用的方法有灰色關(guān)聯(lián)法(GRA)和相關(guān)分析,回歸分析是相關(guān)分析中的一個分支?;疑P(guān)聯(lián)分析在分析灰色數(shù)據(jù)中的線性關(guān)聯(lián)程度等方面應(yīng)用非常廣泛,但對于數(shù)據(jù)完整且充足的情況,灰色關(guān)聯(lián)分析在處理數(shù)據(jù)后使數(shù)據(jù)損失了大量有用信息;本文借助相關(guān)分析和回歸分析結(jié)合使用分析數(shù)據(jù)之間的關(guān)聯(lián)性(包括非線性關(guān)聯(lián)),利用回歸方程進行預測并對其進行顯著性檢驗以及進行方差分析,在張文泉等人利用灰色關(guān)聯(lián)研究影響底板破壞深度的因素的基礎(chǔ)上,利用多元統(tǒng)計建立了新的選回歸模型,對模型進行了顯著性檢驗以及方差分析,該模型預測表現(xiàn)良好并可應(yīng)用于實際生產(chǎn)中,該方法是對研究底板破壞深度的新補充,并可遷移運用于其他相關(guān)領(lǐng)域,且回歸方程將隨樣本量的增加而更加精確。
關(guān)鍵詞:回歸分析 GRA 底板破壞 深度影響 研究
煤層底板的破壞因素分析數(shù)據(jù)之間的關(guān)聯(lián)性目前已有許多方法,在工業(yè)、農(nóng)業(yè)、管理等實際項目中灰色關(guān)聯(lián)分析與回歸分析是工程實際中最為常用的方法,灰色關(guān)聯(lián)分析的產(chǎn)生基于灰色系統(tǒng),適用于快速分析數(shù)據(jù)關(guān)聯(lián)性,同時也存在一些無法避免的缺陷;回歸分析相較與灰色關(guān)聯(lián)分析較為復雜,但能夠有效的彌補灰色關(guān)聯(lián)分析存在的不足,在建立了顯著的回歸模型之后,合理利用該模型,可在實際生產(chǎn)中進行應(yīng)用預測并取得良好效果。
1、選用回歸分析的依據(jù)
灰色關(guān)聯(lián)分析[1](以下簡稱GRA),是譚學瑞等教授于1995年提出的多因素統(tǒng)計新方法,其理論基礎(chǔ)是基于鄧聚龍教授灰色系統(tǒng)理論[2]。利用GRO來描述因素間關(guān)系的相互影響的強弱關(guān)系、大小關(guān)系、次序關(guān)系等。基本思想是以主要研究對象的數(shù)據(jù)列作為參考依據(jù),采用簡單的數(shù)學關(guān)系來研究各個因素相對于主要研究對象數(shù)據(jù)的對應(yīng)關(guān)系[3]。能夠在一定層面上體現(xiàn)指標的動態(tài)變化,在量化分析上體現(xiàn)了一定的動態(tài)意義。目前在醫(yī)藥衛(wèi)生、農(nóng)業(yè)、工業(yè)、管理等方面應(yīng)用較為廣泛。
灰色關(guān)聯(lián)分析核心思想是將數(shù)據(jù)無量綱化后構(gòu)建差序列,并以最大差和最小差構(gòu)建如下公式
式中,為母序列,計算出母序列與每一個子序列的關(guān)聯(lián)度系數(shù),對該序列的關(guān)聯(lián)度取平均,即得該序列與主序列之間的關(guān)聯(lián)度
灰色關(guān)聯(lián)分析的優(yōu)點與不足:近年來,灰色關(guān)聯(lián)雖然得到了廣泛的應(yīng)用,但沒有得到持續(xù)的發(fā)展,許多學者在白色系統(tǒng)上應(yīng)用灰色關(guān)聯(lián)法,以簡化計算相關(guān)的復雜統(tǒng)計計算,張文泉[4]等人將其用于分析影響底板破壞深度的影響因素研究。該方法的無量綱化的數(shù)據(jù)處理會不同程度的導致原始數(shù)據(jù)的描述性、峰值和正負性等信息損失,尤其初值法具有很大的風險,當初值為噪音的時候,得到的關(guān)聯(lián)度結(jié)果往往都大于0.5,其結(jié)果也只能大致判定關(guān)聯(lián)程度的大小,沒有顯著的區(qū)分度以及正負相關(guān)的區(qū)分能力,且對于結(jié)果的正確性缺乏必要的檢驗,此方法還有待進一步研究。下面從回歸分析的角度重新研究影響底板破壞深度的因素。
2 、利用選回歸模型探究影響底板破壞深度的因素
2.1 回歸分析建模
從19世紀初Gauss提出最小二乘法算起,回歸分析已有200多年的歷史,其在生產(chǎn)實踐中的廣泛應(yīng)用是回歸分析不斷自我發(fā)展和完善的根本動力[5]?;貧w分析研究的主要對象是客觀事物變量間的相關(guān)關(guān)系或回歸關(guān)系,回歸關(guān)系和相關(guān)關(guān)系是現(xiàn)代統(tǒng)計學中關(guān)于統(tǒng)計關(guān)系的研究形成的兩個重要分支?;貧w分析相較與相關(guān)分析不僅可以刻畫變量間的線性相關(guān)的密切程度,還可以揭示變量對變量的影響大小,回歸模型建立檢驗后還可以服務(wù)于預測和控制,因而在生產(chǎn)實踐中具有更加重要的意義[6、7]。
在研究底板破壞深度與其他因素之間關(guān)系的時候,使用灰色關(guān)聯(lián)分析僅能夠大致得到影響程度的大小順序,最后形成的底板破壞公式也忽略了其他因素的影響。通過多元回歸,分析,建立多因素的回歸分析模型可以得到更加貼合實際的經(jīng)驗公式。
首先概覽數(shù)據(jù),數(shù)據(jù)來源于張文泉由于初始數(shù)據(jù)近似于橫截面數(shù)據(jù),受時間序列的影響較小,故首先要做的就是將整個數(shù)據(jù)表按照地板破壞深度的數(shù)值進行升序排列,從而直觀的了解數(shù)據(jù)間的大致關(guān)系,看能不能簡單的用線性回歸對其進行分析。如若不是簡單的線性關(guān)系,還應(yīng)利用合適的數(shù)學變換將其處理成線性數(shù)據(jù)。具體的處理方法包括倒數(shù)變換,對數(shù)變換,開方變換等。
圖2數(shù)據(jù)為方便觀察,做了中心標準化處理,從圖中可以發(fā)現(xiàn),數(shù)據(jù)略微雜糅離散,但總體上是有線性關(guān)系的。研究的底板破壞深度涉及多個因素,因此這里選擇采用多元線性回歸分析[8]。設(shè)隨機變量(實測底板破壞深度y)與一般變量(埋深x1,傾角x2,煤厚x3,工作面斜長x4,底板抗破壞能力x5)的線性回歸模型為式中:是未知參數(shù),稱之為回歸常數(shù),稱為回歸系數(shù),研究對象y稱之為因變量(被解釋變量),是可以測量并對其控制的一般變量,稱為自變量(解釋變量),為隨機誤差,對于假定隨機誤差項有零均值和等方差則此式為各自變量與因變量y的理論回歸方程。
對獲得的30組觀測數(shù)據(jù)(n=30),則線性回歸模型可以表示為:
寫成矩陣形式為
式中:
R語言將上述繁瑣的過程封裝起來,可以很方便的利用函數(shù)調(diào)用,重新對張文泉一文中的數(shù)據(jù)采用回歸分析的方法重新進行處理。表1為利用R語言做底板破壞深度y關(guān)于5個自變量多元線性回歸結(jié)果。
則相應(yīng)的線性回歸方程為:
式5為建立在已有數(shù)據(jù)上的全模型回歸,在實際中,影響底板破壞深度的因素實際上還有許多,比如工作面所處的單斜、向斜、背斜構(gòu)造,以及煤的堅固性系數(shù)、底板的堅固性系數(shù)等都會對實測的底板破壞深度等均有不同程度的影響(在本例中,底板的堅固性系數(shù)可以從底板抗破壞能力的方面進行取代)。從值F=24.48相較于24(F分布的自由度)可知,顯著性并不明顯,這是由于部分因素沒有與底板破壞深度顯著相關(guān),下面利用相關(guān)系數(shù)剔除明顯不相關(guān)的因素[9]。各因素之間的相關(guān)系數(shù)矩陣如下表所示:
根據(jù)表2相關(guān)系數(shù)表中與各自變量之間的關(guān)系,可以發(fā)現(xiàn)采厚對底板破壞深度幾乎沒有關(guān)聯(lián),將其剔除,進一步利用R語言建立選回歸模型,模型結(jié)果如表5所示:
由表3可知,剔除后的選回歸模型為:
決定系數(shù),由決定系數(shù)可以看出回歸方程是顯著的。方程整體顯著性檢驗,,表明回歸方程是顯著的。這與工程中的實際經(jīng)驗相符,底板破壞深度與埋深、傾角、工作面斜長均呈現(xiàn)正相關(guān)關(guān)系,與底板抗破壞強度呈現(xiàn)出負相關(guān)關(guān)系,各回歸系數(shù)的值不能夠僅憑數(shù)值大小來判定哪個因素的影響更大或者更小。回歸模型的具體解釋為:當保持不變時,為一常數(shù),則有:
即可解釋為在除開之外的因素保持不變時,每增加一個單位,即為y的平均增加幅度,,埋深每增加1米底板破壞深度平均增加0.019米,埋深增加100米時,底板破壞深度平均增加幅度為1.9米。
2.2 對回歸方程做顯著性檢驗
為觀察自變量x從整體上對隨機變量y是否產(chǎn)生了明顯的影響,利用F檢驗,提出原假設(shè)H0
若沒有足夠的理由拒絕H0,則說明隨機變量y與自變量x之間的關(guān)系不適合用線性回歸模型表示,利用總離差平方和的分解式[10]
簡寫為
構(gòu)造F檢驗統(tǒng)計量[11]
在正態(tài)假設(shè)下,當原假設(shè),成立,F(xiàn)服從自由度為的F分布,在本例中,n=30,p=4,取顯著性水平,在上述選模型中,F(xiàn)值=31.75,對應(yīng)的P值為,由此可判斷,選回歸模型的回歸方程在整體上是顯著的,即做出這4個自變量整體對因變量產(chǎn)生的顯著線性影響的判斷所犯錯誤的概率是極低的。
2.3 對線性回歸方程做方差分析
利用R語言將方差分析具體到每個自變量,并通過P值可以看出每個自變量y對因變量是否產(chǎn)生顯著的影響,從上述結(jié)果看出,在回歸方程中,x1和x4相較x2和x4產(chǎn)生較為顯著的影響(顯著性水平),這與回歸方程整體的顯著性檢驗是一致的[12]。
2.4 中心化和標準化求出標準化回歸系數(shù)
在多元線性回歸分析中,因涉及多個變量,自變量的單位和數(shù)量級往往不同,給進行結(jié)構(gòu)分析帶來一定的困難,數(shù)據(jù)量級懸殊過大會導致出現(xiàn)較大誤差。故在進行結(jié)構(gòu)分析時,需要對數(shù)據(jù)進行如下處理
中心化:
標準化:
利用R語言中的QuantPsyc包,使用lm.beta()即可得到各因素的標準化回歸系數(shù)如下:
相應(yīng)的標準化回歸方程為:
從標準化回歸系數(shù)可以看出對y影響最大的因素是x1,其次是x2,表示底板破壞深度每增加1%,埋深會平均增加0.6163%,傾角會增加0.1%,工作面斜長增加0.455%,而底板抗破壞能力會降低0.13%,因為自變量是客觀存在的,這樣的解釋在實際中是行不通的,因此只能作為判斷的依據(jù),實際預測必須采用理論回歸方程[13]。
2.5 應(yīng)用理論回歸方程做出預測
在張文泉擬合的底板破壞公式中,在分析誤差的時候,不應(yīng)利用原始數(shù)據(jù)推導出的擬合公式去預測與原始數(shù)據(jù)的誤差,得到的誤差也只是基于擬合公式的自擬合度。利用其去預測其他數(shù)據(jù)則會產(chǎn)生過擬合現(xiàn)象,導致誤差擴大,而應(yīng)利用新的數(shù)據(jù)去做預測來驗證模型的可靠性。筆者在施龍青等人基于GWO改進的PCA-BP神經(jīng)網(wǎng)絡(luò)預測模型的數(shù)據(jù)中應(yīng)用多元回歸模型,得到表6。
由表6可以看到,30個煤礦預測的平均相對誤差為21.7%,這與其他方法所建立的模型誤差基本一致,因為還有諸如構(gòu)造、水壓等因素影響底板破壞深度,故這個誤差是完全可以接受的。30個煤礦預測的平均絕對誤差僅為-0.31m,雖然每個煤礦的地質(zhì)、開采等條件不一樣,但還是基本符合所建立的選回歸模型,說明模型的效果是非常貼合實際的。
3 、總結(jié)
1.灰色關(guān)聯(lián)算法簡單,便于計算,但區(qū)分度不夠顯著且不能用于非線性數(shù)據(jù),適合用于數(shù)據(jù)的初步判斷和觀測,在預測煤層低板深度時不能夠深入分析各元素之間的相關(guān)程度。
2.回歸分析可以有效彌補灰色關(guān)聯(lián)的缺點,結(jié)合相關(guān)分析可以篩選出影響因素中主要相關(guān)因素,對數(shù)據(jù)采用非線性變換還可應(yīng)用于非線性數(shù)據(jù),從而構(gòu)建具有較高顯著性的選回歸模型,從各角度揭示了埋深、傾角、工作面斜長等因素對于底板深度的影響程度。且模型應(yīng)用較為簡單,便于應(yīng)用到實際預測和驗證中。
3.在繪制簡單折線圖時,底板破壞深度隨埋深的震蕩現(xiàn)象不能排除是由周期性的影響,由于樣本量不足,需要進一步的研究。
參考文獻
[1] 劉思峰,蔡華,楊英杰等。 灰色關(guān)聯(lián)分析模型研究進展[J]。 系統(tǒng)工程理論與實踐, 2013, 33(8): 2041-2046。
[2] 鄧聚龍。 灰色系統(tǒng)理論簡介[J]。 內(nèi)蒙古電力, 1993(3): 51-52。
[3] 熊遠南。 基于改進灰色-多元回歸組合預測模型的燃煤電廠智慧水務(wù)研究[J]。 化工進展, 2020, 39(S2): 393-400。
[4] 張文泉,趙凱,張貴彬等。 基于灰色關(guān)聯(lián)度分析理論的底板破壞深度預測[J]。 煤炭學報, 2015, 40(S1): 53-59。
[5] 何曉群。 應(yīng)用回歸分析:R語言版。[M]。 電子工業(yè)出版社, 2017。
[6] 衛(wèi)星君,趙曉萌,馬長玲等。 降雨型滑坡災害的約簡和邏輯回歸預測模型[J]。 中國安全科學學報, 2018, 28(8): 1-6。
[7] 湯軼雄,徐傳玲,文超等。 高鐵故障晚點時間預測的支持向量回歸模型[J]。 中國安全科學學報, 2019, 29(S2): 18-23。
[8] 游士兵,嚴研。 逐步回歸分析法及其應(yīng)用[J]。 統(tǒng)計與決策, 2017, 482(14): 31-35。
[9] 金林,李研。 幾種相關(guān)系數(shù)辨析及其在R語言中的實現(xiàn)[J]。 統(tǒng)計與信息論壇, 2019, 34(4): 3-11。
[10] 戴金輝。 單因素方差分析中異方差的檢驗與修正[J]。 統(tǒng)計與決策, 2017, 476(8): 23-26。
[11] 戴金輝,袁靖。 單因素方差分析與多元線性回歸分析檢驗方法的比較[J]。 統(tǒng)計與決策, 2016, 453(9): 23-26。
[12] 劉曉華。 多元方差分析模型的構(gòu)建與應(yīng)用[J]。 統(tǒng)計與決策, 2019, 35(1): 75-78。
[13] 傅鶯鶯,田振坤,李裕梅。 方差分析的回歸解讀與假設(shè)檢驗[J]。 統(tǒng)計與決策, 2019, 35(8): 77-80。
(作者單位:貴州大學礦業(yè)學院)