楊春華,楊玲(保山學院數(shù)學學院,云南保山678000)
偏最小二乘建模及其多重共線抑制能力分析
楊春華,楊玲
(保山學院數(shù)學學院,云南保山678000)
首先,分析偏最小二乘法解決問題的思路,進而從數(shù)學角度刻畫偏最小二乘法的四步建模過程.然后,利用數(shù)學歸納法證實偏最小二乘法對多重共線的抑制能力.最后,以某地區(qū)的供水能力評價為研究實例,證實偏最小二乘法的有效性.結(jié)果表明:偏最小二乘法完全適用于多變量復雜關系的求解.
偏最小二乘;數(shù)學歸納法;多重共線;回歸分析
在參數(shù)估計和回歸分析領域,多個自變量和多個因變量間的關系是一個非常復雜的問題[1-3].采用最小二乘法等常規(guī)分析方法,難以達到預期的效果.這是因為多個自變量之間,多個因變量之間往往存在多重相關性,即多重共線性[4-10].偏最小二乘回歸分析利用信息綜合篩選技術進行回歸模型的構建,有效規(guī)避了原有變量的多重相關問題[11-15].本文對偏最小二乘回歸分析方法及其建模過程進行研究.
假設分析的問題中,存在m個自變量,其集合可表述為{p1,p2,…,pm};存在n個因變量,其集合可表述為{q1,q2,…,qn}.根據(jù)統(tǒng)計方法獲取m個自變量和n個因變量的原始數(shù)據(jù)后,用P,Q對這些數(shù)據(jù)進行描述.其后,偏最小二乘法的執(zhí)行,就是在數(shù)據(jù)對象P和Q上進行.
首先,在數(shù)據(jù)對象P,Q上各自提取1個主成分,分別用α1,β1表示.實際上,α1是集合{p1,p2,…,pm}中各個元素的1個線性組合,而β1則是集合{q1,q2,…,qn}中各個元素的1個線性組合.在提取α1,β1時,需滿足2個條件:第一,α1,β1要盡可能多地表征數(shù)據(jù)對象P,Q的變異特征;第二,α1,β1的關聯(lián)水平可以達到最高.然后,在提取α1,β1后,偏最小二乘法進一步對數(shù)據(jù)對象P,Q執(zhí)行有關α1,β1的回歸檢驗.如果回歸檢驗滿足既定的精度要求,偏最小二乘法執(zhí)行完畢;如果回歸檢驗沒有滿足既定的精度要求,則需要根據(jù)P,Q被α1,β1描述后的剩余信息,再次執(zhí)行成分提取,直至滿足檢驗精度.最后,偏最小二乘法會為數(shù)據(jù)對象P提取出i個成分,即α1,α2,…,αi;偏最小二乘法為數(shù)據(jù)對象Q提取出j個成分,即β1,β2,…,βj.多因變量集合{q1,q2,…,qn}中任一因變量,可描述為α1,α2,…,αi的回歸關系.
應用偏最小二乘法,對多變量問題進行建模求解時,有如下4個步驟.
步驟1 對數(shù)據(jù)對象P,Q執(zhí)行標準化處理,進一步得到自變量和因變量矩陣P0,Q0,其過程為
式(1),(2)中:珚pj,珔qk為均值;sj,sk為標準差.
步驟2 從自變量矩陣P0和因變量矩陣Q0中提取第1個主成分,即
式(3)中:a1為P′0Q0Q′0P0的特征向量;b1為Q′0P0P′0Q0的特征向量.
數(shù)據(jù)對象P,Q和第1個主成分的回歸關系,可以描述為
式(4)中:θ1,1為回歸方程中的回歸系數(shù).
步驟3 根據(jù)第1個主成分的回歸方程,可以遞推第2個主成分的回歸方程,即
以此類推,可以獲得第λ個主成分的回歸方程,即
步驟4 假設最終數(shù)據(jù)對象P的秩是λ,則有
最終,因變量q*的有關自變量的偏最小二乘形式為
對多重共線的抑制能力,是偏最小二乘法的重要特征.為了證實偏最小二乘法在此方面的性能,只要證明偏最小二乘法提取的多個成分之間相互直交.據(jù)此,考察如下命題是否成立.
命題1 當h≠l時,偏最小二乘法獲得的多個成分α1,α2,…,αλ相互直交,即存在α′lαh=0.
證明 采用數(shù)學歸納法證明此命題.
首先,證明α1,α2之間是否是直交的,即是否存在α′1α2=0.
至此,α1,α2之間的直交關系得到證實.根據(jù)數(shù)學歸納法,只要假設在α1,α2,…,αh直交的前提下,證實α1,α2,…,αh+1也是直交的,命題中的結(jié)論就可以得到證實.
因α′h-1αh=0,有
至此,α1,α2,…,αλ之間的直交關系得到證實.在原始問題的回歸分析中,那些變量都可以表征為α1,α2,…,αλ之間的回歸組合,而這些成分又是相互直交的,這就不會存在多重共線問題.
假設某地區(qū)供水能力的影響因素分別用p1,p2,…,pn表示,從而構建1個多影響因素集合P={p1,p2,…,pn}.假設某地區(qū)供水能力,可以有多個指標表征,如q1,q2,…,qm,從而構建一個多指標評價集合Q={q1,q2,…,qm}.供水能力影響因素和供水能力評價指標,可以分別得到2個觀測矩陣,即
因此,某地區(qū)供水能力的分析、評價與預測,就演變?yōu)镻,Q的偏最小二乘模型求解.
某地區(qū)主要依靠3個水庫進行供水,按照地理位置,分為東區(qū)水庫、西區(qū)水庫和南大壩水庫.為此,設計如下指標:q1~q3分別為該地區(qū)東部、西部、南部用水量需求;p1為該地區(qū)東部水庫供水量;p2為該地區(qū)東部水庫泄洪量;p3為該地區(qū)西部水庫供水量;p4為該地區(qū)西部水庫泄洪量;p5為該地區(qū)南部水庫供水量;p6為該地區(qū)南部水庫泄洪量.上述參數(shù)主要來源于2000-2015年度統(tǒng)計數(shù)據(jù),如表1所示.
表1 主要參數(shù)的年度數(shù)據(jù)Tab.1 Main parameters of the annual data 萬m3
將表1的數(shù)據(jù),代入供水能力偏最小二乘模型,進而執(zhí)行偏最小二乘分析,回歸系數(shù)如表2所示.由表2可知:p1,p2和p1的關聯(lián)程度最高;p3,p4和q2的關聯(lián)程度最高;p5,p6和q3的關聯(lián)程度最高.該地區(qū)供水能力影響因素P和供水能力Q的復相關系數(shù)為0.762 2,這表明P,Q之間密切相關.
表2 偏最小二乘得出的回歸系數(shù)Tab.2 Regression coefficient obtained by using partial least squares
在上述模型下,進一步以供水能力影響因素(p1,p2,p3,p4,p5,p6)年度環(huán)比值預測其在2016-2018年度的變化,根據(jù)關聯(lián)系數(shù)及偏最小二乘模型預測該地區(qū)供水能力(,)在2016-2018年度的變化;進而根據(jù)供水能力(q1,q2,q3)年度環(huán)比預測其在在2016-2018年度的變化,算出該地區(qū)未來3年富余水量的情況(Δq1,Δq2,Δq3),結(jié)果如表3所示.由表3可知:未來3年中,該地區(qū)的東部、西部、南部供水量都有盈余,能夠滿足當?shù)毓┧男枨?
表3 2016-2018年度的預測結(jié)果Tab.3 Forecast results for 2016-2018 萬m3
梳理了偏最小二乘法的建模過程及其解決實際問題的思路,重點分析了其對多重共線的抑制.以某地區(qū)的供水能力評價為研究實例,其結(jié)果充分證明偏最小二乘分析具有多重共線抑制能力,對于多個變量的復雜關系求解具有較強的適用性.
[1] ADRIANO D A G,SCHENONE A V.Unfolded partial least squares/residual bilinearization combined with the successive projections algorithm for interval selection:Enhanced excitation-emission fluorescence data modeling in the presence of the inner filter effect[J].Analytical and Bioanalytical Chemistry,2015,22(5):30-37.
[2] MOKHTARI A,KEYVANFARD M,EMAMI I.Simultaneous chemiluminescence determination of citric acid and oxalic acid using multi-way partial least squares regression[J].RSC Advances,2015,37(5):29214-29221.
[3] ELDEN L.Computing frechet derivatives in partial least squares regression[J].Linear Algebra and Its Applications,2015,473(11):316-338.
[4] ADJORLOLO C,MUTANGA O,CHO M A.Predicting C3and C4grass nutrient variability using in situ canopy reflectance and partial least squares regression[J].International Journal of Remote Sensing,2015,36(6):1743-1761.
[5] TZANAKAKIS V A,MAUROMOUSTAKOS A,ANGELAKIS A N.Prediction of biomass production and nutrient uptake in land application using partial least squares regression analysis[J].Water,2015,7(1):1-11.
[7] KUANG Boyan,TEKIN Y,MOUAZEN A M.Comparison between artifical neural network and partial least squares for on-line visible and near infrared spectroscopy measurement of soil organic carbon pH and clay content[J].Soil and Tillage Research,2015,146(8):243-252.
[8] 吳瑞紅,王亞麗,張環(huán)沖,等.一種基于最小二乘支持向量機的葡萄酒品質(zhì)評判模型[J].華僑大學學報(自然科學版),2013,34(1):30-35.
[9] 魏引尚,鄭活勃,王寧.采空區(qū)自燃“三帶”特征的最小二乘法分析[J].西安科技大學學報,2015,35(2):159-164.
[10] 胡德,郭剛正.最小二乘法、矩法和最大似然法的應用比較[J].統(tǒng)計與決策,2015,33(9):20-24.
[11] 宋媛媛,王萍,張慶芳,等.基于最小二乘法的TD-LTE傳播模型校正研究[J].電子測量技術,2015,38(1):123-125.
[12] 李鑫,張躍強,劉進博,等.基于直線段對應的相機位姿估計直接最小二乘法[J].光學學報,2015,44(6):203-213.
[13] 陳明晶,方源敏,陳杰.最小二乘法和迭代法圓曲線擬合[J].測繪科學,2016,41(1):194-197.
[14] 王鵬,刁山菊,張季謙.基于最小二乘法的單擺實驗數(shù)據(jù)處理[J].安慶師范學院學報(自然科學版),2015,36(1):136-139.
[15] 張開遠,周孟然,閆鵬程,等.基于最小二乘法的pH值溫度補償系統(tǒng)設計[J].傳感器與微系統(tǒng),2015,34(5):109-111.
(責任編輯:錢筠 英文審校:黃心中)
Partial Least Squares Modeling and
Its Multiple Collinear Inhibition Capability Analysis
YANG Chunhua,YANG Ling
(School of Mathematics,Baoshan University,Baoshan 678000,China)
Firstly,by analyzing the thinking route to solve the problem of the partial least square method,the authors describe four modeling steps to the partial least square method.Finally,we confirmed the inhibition ability of partial least squares method for multiple collinear by using the mathematical induction method.By evaluating the water supply capacity of an area as a case study,it really shows the validity of the partial least squares method.Results in this paper shows that partial least squares method is completely applicable to the solution of multi variable complex relationships.
partial least squares;mathematical induction;multiple collinear;regression analysis
O 625.63
A
1000-5013(2016)04-0523-04
10.11830/ISSN.1000-5013.201604027
2016-05-05
楊春華(1973-),男,副教授,主要從事最優(yōu)化理論及其應用的研究.E-mail:378667756@qq.com.
云南省教育廳科學研究基金資助項目(2012Y258)