龔艷冰,楊舒馨,戴靚靚
(河海大學 企業(yè)管理學院,江蘇 常州 213022)
針對現(xiàn)實世界語言值的模糊性,1982年名古屋大學的Tanaka等首次提出了模糊線性回歸模型,主要考慮自變量為非模糊數(shù)、回歸系數(shù)為對稱三角模糊數(shù)的回歸模型,并將參數(shù)估計問題轉(zhuǎn)化為線性規(guī)劃問題[1]。Diamond等在三角模糊空間上定義一個適當?shù)木嚯x,利用最小二乘原理得到另一種模糊回歸分析模型的參數(shù)估計方法[2]。Chang等對現(xiàn)有模糊回歸模型進行了分析比較,并總結(jié)了模糊回歸分析常用的二種方法,即線性規(guī)劃方法、模糊最小二乘方法[3]。模糊回歸模型是模糊集理論與傳統(tǒng)回歸方法的結(jié)合,在實際應(yīng)用中收到了較好的效果,之后國內(nèi)外許多學者對模糊線性回歸模型的參數(shù)估計方法進行了大量研究[4-8]。
本文試圖利用模糊數(shù)的統(tǒng)計特征(可能性均值、方差),從影響模糊數(shù)的主要特征出發(fā),利用最小二乘原理,從可能性均值-方差距離最小的角度估計模糊回歸模型的參數(shù)。本文方法考慮決策中的主觀模糊性,在某種程度上提升了模糊回歸模型的靈活性和合理性。
定義1:假定模糊數(shù)A的隸屬函數(shù)為:
則稱A=(a,α,β)為三角模糊數(shù),其中α,β稱為三角模糊數(shù)的左右擴展。根據(jù)Zadeh的擴展原理,可得三角模糊數(shù) A=(a,α1,β1)和 B=(b,α2,β2)的算術(shù)運算法則為[5]:
定義2:設(shè)模糊數(shù)A的 γ截集為 A(γ)=[al(γ),au(γ)],則模糊數(shù)A的可能性均值和方差分別為[9]:
對于模糊線性回歸模型的討論,大致可以分為以下三種情形:①輸入自變量為實數(shù)值,輸出因變量和待估計參數(shù)為模糊數(shù)的線性回歸模型,②輸入自變量和輸出因變量為模糊數(shù),待估計參數(shù)為實數(shù)的線性回歸模型,③輸入自變量、輸出因變量、待估參數(shù)均為模糊數(shù)的線性回歸模型,本文主要考慮第一種情況,即:
其中,xji表示實數(shù)解釋變量,yi表示模糊響應(yīng)變量,bj為待估計模糊回歸系數(shù),一般假定大于0。特別的,以三角模糊數(shù)為例,令三角模糊數(shù) bj=(kj,αj,βj)(j=1,2,…,p),則上述模糊線性回歸模型(6)可改寫成:
利用三角模糊數(shù)的運算法則式(2),對上述三角模糊數(shù)回歸模型(7)進行線性表示:
其中 x0i=1,要確定模糊回歸系數(shù)2,…,p),通常方法是定義模糊數(shù)之間的距離,使得模糊回歸問題轉(zhuǎn)化為最小化模糊距離的問題,從而使得給定的模糊距離下響應(yīng)變量觀測值與響應(yīng)變量估計值之間的誤差最小,即:
上述模型(9)的最小值很難直接求出,本文在文獻[18]中采用最小一乘回歸方法估計模糊回歸系數(shù),但是最小一乘回歸的計算相對復雜得多,相對而言,最小二乘回歸的計算更為簡單,效果也在整體上更好。為了估計模型(7)的參數(shù),首先給出可能性均值-方差歐氏距離的概念,即模糊數(shù)A和B的距離可以定義為:
顯然,三角模糊數(shù)A和B的可能性均值-方差歐氏距離滿足距離測度的非負性、對稱性和三角不等式性質(zhì),即:
為了估計模型(7)的自變量回歸系數(shù),可將模糊因變量估計值與觀測值間的均值-方差最小二乘距離誤差平方和作為模型(9)的近似估計,即:
對于三角模糊數(shù)將式(5)代入式(11),可得誤差平方和為:
根據(jù)最小二乘原理,對于 j=0,1,…,p上述誤差平方和最小,只需令:
記:
則等式(13)至等式(15)可以寫成下列矩陣形式:
通過求解上述線性方程組(16)可得到模糊線性回歸模型(7)的回歸系數(shù)的估計值,這比文獻[18]求解線性規(guī)劃模型要簡單,稱這種最小二乘參數(shù)估計方法為可能性均值-方差距離最小二乘方法(Possibilistic Mean-Variance Distance Least Squares Method),簡稱PMVD-LSM。為了比較PMVD-LSM的估計效果,將擬合值與實際值之間的可能性均值-方差誤差平方和作為誤差估計的檢驗依據(jù),當回歸方程擬合出來的模糊回歸模型具有較小的e值,則說明該模型應(yīng)該是不錯的模型。
為了說明本文方法的可行性,參考Coppi等給出的一氧化碳(CO)濃度的例子進行實證研究[10],Coppi等收集了羅馬地區(qū)1992年10月份連續(xù)21天大氣中一氧化碳濃度每小時檢測一次的數(shù)據(jù)。研究表明,一氧化碳濃度與一些氣候變量相關(guān),一氧化碳濃度(因變量y)的六個主要影響因素(自變量)包括:溫度(x1)、相對濕度(x2)、大氣壓強(x3)、降雨量(x4)、輻射強度(x5)、風速(x6)。這些氣候變量每天檢測一次,如果以天為觀察單位,在計算一氧化碳濃度數(shù)據(jù)時,如果僅僅通過平均值來描述每一天的觀測值,則會損失很對信息。針對這種情況,一個可行的方法就是將每天的一氧化碳濃度看出一個三角模糊數(shù)yi=(ymi,yli,yui),其中 ymi表示第i天的CO濃度數(shù)據(jù)的均值,yli表示最小值,yui表示最大值,即三角模糊數(shù)的左右擴展,如表1所示。
表1 自變量和因變量觀測值
采用Matlab統(tǒng)計軟件,將上述樣本數(shù)據(jù)代入線性方程組(16)可以計算出模糊回歸參數(shù)的三角模糊數(shù)估計為:
根據(jù)式(8)計算上述回歸模型的預(yù)測值yc,并按照可能性均值-方差距離公式(10)計算預(yù)測值 yci=(ycmi,ycli,ycui)與 實 際 值 yi=(ymi,yli,yui)之 間 的 誤 差 平 方 和,將其作為誤差估計的檢驗依據(jù)。
同時,為了說明本文方法的有效性,將本文方法與文獻[11]的結(jié)構(gòu)元方法和文獻[14]的最小一乘方法進行比較,結(jié)果如表2所示。比較結(jié)果表明,本文的基于可能性均值-方差距離最小二乘估計方法與可能性均值-方差距離最小一乘估計方法誤差基本一致,但是本文方法只需要計算簡單的線性方程組,而文獻[14]則需要計算線性規(guī)劃模型,與文獻[11]的基于結(jié)構(gòu)元距離最小二乘方法比較,本文的可能性均值-方差距離估計參數(shù)效果更好。
最小二乘估計方法是模糊線性回歸模型中常用的參數(shù)估計方法,考慮到三角模糊數(shù)的普遍性,針對數(shù)據(jù)輸入?yún)?shù)、輸出為三角模糊數(shù)的模糊線性回歸模型,引入模糊數(shù)的可能性均值和方差的概念,在此基礎(chǔ)上,定義可能性均值-方差歐氏距離,提出了模糊線性回歸模型的最小二乘參數(shù)估計方法,并對模型進行了誤差分析。通過實例計算和其他模型的比較結(jié)果表明,本文的方法具有良好地擬合效果,且計算簡單。
表2 擬合效果與距離誤差測度表
參考文獻:
[1]Tanaka H,Uejima S,Asai K.Linear Regression Analysis With Fuzzy Model[J].IEEE Transactions on Systems Man,and Cybernetics,1982,(12).
[2]Diamond P.Fuzzy Least Squares[J].Information Science,1988,(46).
[3]Chen L H,Hsueh C C.Fuzzy Regression Models Using the Least-squares Method Based on the Concept of Distance[J].IEEE Transactions on Fuzzy Systems,2009,(17).
[4]Wan S P,Dong J Y.Possibility Linear Programming With Trapezoidal Fuzzy Numbers[J].Applied Mathematical Modelling,2014,(38).
[5]柏林,房勇.基于模糊回歸分析的投資組合選擇模型[J].系統(tǒng)工程理論與實踐,2015,35(7).
[6]彭宇文,郭莉莎,毛超.基于改進模擬退火算法的模糊回歸參數(shù)估計[J].統(tǒng)計與決策,2014,(1).
[7]汪華東,郭嗣琮,岳立柱.基于結(jié)構(gòu)元理論的模糊多元線性回歸模型[J].系統(tǒng)工程理論與實踐,2014,34(10).
[8]岳立柱.系數(shù)為一般模糊數(shù)的多元線性回歸模型[J].統(tǒng)計與決策,2015,(3).
[9]C.Carlsson,R.Fullér.On Possibilistic Mean Value And Variance of Fuzzy Numbers[J].Fuzzy Sets and Systems,2001,(122).
[10]龔艷冰,戴靚靚,胡娜.基于可能性均值-方差距離的模糊最小一乘回歸模型[J].統(tǒng)計與決策,2017,(22).