斯介生 李揚 肖宏偉 蔣遠(yuǎn)營
摘要:近年來,PLS路徑模型在綜合評價領(lǐng)域有很多應(yīng)用。文章針對該方法在綜合評價應(yīng)用中的公認(rèn)“優(yōu)勢”進行了分析,對這些優(yōu)勢進行了客觀的評價,并給出利用該方法進行綜合評價的建議。
關(guān)鍵詞:PLS路徑模型;綜合評價;審視
一、 引言
PLS路徑模型(PLSPM)是指基于偏最小二乘方法的結(jié)構(gòu)方程模型,該方法最初提出是為了克服基于協(xié)方差分析結(jié)構(gòu)方程模型(CB-SEM)很強的分布假定(R?觟nkk?觟. M and Evermann. J,2013)。在實際應(yīng)用中,該方法在綜合評價中也有不少應(yīng)用,特別是在滿意度綜合評價方面應(yīng)用廣泛,在商學(xué)、管理學(xué)等社會科學(xué)中有重要地位。以致部分文獻(xiàn)將顧客滿意度模型等同于PLS路徑模型(梁燕和金勇進 2007)。近年來,我國學(xué)術(shù)界對于該方法的應(yīng)用在綜合評價的研究也如雨后春筍一般出現(xiàn)了不少文獻(xiàn)(如:王惠文和付凌暉,2004;林盛,劉金蘭和韓文秀,2005;阮敬和紀(jì)宏,2006;鄒樹梁等,2008;劉旭華,2008;莫一魁和沈旅歐,2009;關(guān)子明等2009;葉明和張磊,2010;鮮思東和彭作祥,2011;區(qū)晶瑩等,2011;楊威和張拓紅,2012;王慶豐,2013)。根據(jù)這些文獻(xiàn)和綜合評價理論,可以將PLS路徑模型進行綜合評價的步驟歸納為:第一,確定評價目標(biāo),建立指標(biāo)體系,收集數(shù)據(jù);第二,實施綜合評價,具體為:①用迭代(包括一系列最小二乘回歸,線性運算和抽取平方根)得到潛變量的表達(dá)式,它們是可測變量的加權(quán)平均;②用通常的最小二乘得到潛變量之間的線性關(guān)系;③用通常的最小二乘得到潛變量與對應(yīng)可測變量間的線性關(guān)系;④利用潛變量的估計值得到各種指數(shù),進行綜合評價。第三,檢驗與評估綜合評價的結(jié)果。筆者查閱了近年來的相關(guān)文獻(xiàn)發(fā)現(xiàn),多數(shù)文獻(xiàn)指出PLS路徑模型進行綜合評價有著其他方法沒有的優(yōu)勢,具體可以歸納為四點:第一,克服多重相關(guān)性和共線性的影響;第二,相比CB-SEM,分布假定很弱;第三,樣本容量要求沒有CB-SEM高,適合小樣本情形;第四,是一種客觀的綜合評價方法。但是,目前沒有文獻(xiàn)在綜合評價框架下對這些優(yōu)點做出進一步的細(xì)致說明。筆者認(rèn)為,PLS路徑模型并非為綜合評價專門設(shè)計的方法,并且這些優(yōu)點基本上是相對CB-SEM比較得出的,將它們直接移植到綜合評價領(lǐng)域,不甚嚴(yán)格,需要推敲。事實上,用于綜合評價的統(tǒng)計模型很多,但是很多學(xué)者對這些模型在綜合評價框架下的適用性進行了研究,例如,僅關(guān)于主成分分析就有很多文獻(xiàn),如蘇為華(2000),王學(xué)民(2007),林海明和杜子芳(2013)等。為此,本文將對上述四大優(yōu)點在綜合評價框架下進行審視,提出并解答四個問題,即利用PLS路徑模型進行綜合評價時:
(1)有沒有樣本量的要求?
(2)有沒有針對樣本的分布假定要求?
(3)沒有多重共線性的影響了嗎?
(4)客觀性體現(xiàn)在哪里?
二、 問題的研究
為了對上述問題進行研究,我們首先概述PLS路徑模型的算法,然后根據(jù)概述回答問題。
1. PLS路徑模型算法概述。利用PLS路徑分析進行綜合評價,首先要分劃好可測變量的歸屬,一個潛變量對應(yīng)一組可測變量。為此假設(shè)有Q個潛變量?孜1,…,?孜Q,第j個潛變量對應(yīng)的可測變量為Xj=(xj1,…,xjpj)′,j=1,…,Q。則有xjh=?姿jh?孜1+?著jh(h=1,2,…,pj)或者?孜j=?撞■■wjh+?著j,前者為反映型(Reflective),系數(shù)為載荷;后者為反映型(Formative),系數(shù)為權(quán)重,選擇何種形式需要根據(jù)實際問題決定,這種反映可測變量與潛變量關(guān)系的模型為測量模型。其次要設(shè)定好潛變量與潛變量之間的關(guān)系結(jié)構(gòu),即?孜i=?撞■■?茁ij?孜j+vij。這部分模型稱為結(jié)構(gòu)模型,模型中的系數(shù)為路徑系數(shù)。潛變量的得分(即潛變量的估計值)是進行綜合評價的關(guān)鍵,對其估計通過迭代實現(xiàn)。由三大步驟組成:
外部逼近:
Yj∝■wjhxjh
Yj是?孜j的外部逼近估計量,∝表示左邊是右邊的標(biāo)準(zhǔn)化,Wj=(wj1,…,wjpj)′是外部權(quán)重。
內(nèi)部逼近:
zj∝■ejiYi
其中,i:i?圮j表示與第j個潛變量直接有關(guān)的潛變量的下標(biāo)。eji是內(nèi)部權(quán)重,有三種不同的形式(Tenenhaus M,2005)。
更新權(quán)重:
內(nèi)部權(quán)重由潛變量間的結(jié)構(gòu)決定,迭代過程中需要更新的是外部權(quán)重,當(dāng)測量模型為反映型時,對于xjh,其新權(quán)重為以Zj為自變量,xjh為因變量的一元線性回歸系數(shù),但由于Zj被標(biāo)準(zhǔn)化,因此有wjh=cov(xjh,Zj),當(dāng)測量模型為構(gòu)成型時,新的權(quán)重以Zj為因變量,與之對應(yīng)的可測變量xjh為自變量的多元線性回歸的回歸系數(shù),即
Wj=(Xj′Xj)-1Xj′Zj
上述步驟反復(fù)迭代,直到權(quán)重變化不大,就認(rèn)為收斂,得到最終的權(quán)重估計值,潛變量的得分就是可測變量的加權(quán)平均值。
下面給出前面四個問題的解答。
2. 問題解答。
(1)問題1的解答。通過算法概述可以看出,PLS路徑模型的最終目的雖然是得到潛變量得分,但是其本質(zhì)是得到權(quán)重的估計。而權(quán)重的估計通過一系列的最小二乘方法反復(fù)迭代得到,即迭代過程中本質(zhì)上涉及到一系列的線性回歸模型。目前已有一些學(xué)者討論了PLS路徑模型的最小樣本量,這些研究的主要依據(jù)是算法中涉及最大回歸方程需要的樣本量作為PLS路徑模型的最小樣本量。例如,Chin. W.W(1998)認(rèn)為其最小樣本量應(yīng)該為最大結(jié)構(gòu)方程中自變量個數(shù)的10倍。梁燕和金勇進(2007)從最大回歸方程、準(zhǔn)確估計參數(shù)、準(zhǔn)確估計R2三個角度研究認(rèn)為,樣本量至少需要100,最好在230以上。但是這些研究都是從PLS路徑模型作為統(tǒng)計方法出發(fā)的。不能回答綜合評價需要的樣本量。
根據(jù)綜合評價的理論,綜合評價的目的在于科學(xué)決策(杜棟等,2008),首先要求評價結(jié)果能夠客觀反映世界的真實情況。這就要求樣本需要能夠具有普遍性,因此樣本量是否足夠不僅需要考慮PLS路徑模型本身,還需要考慮樣本是否具備代表性,過小的樣本量將帶來較大的誤差。其次,要求參與建模的統(tǒng)計模型能夠客觀地挖掘總體信息,達(dá)到樣本推斷總體的效果。這樣才能針對總體情形進行科學(xué)決策。為此,需要首先回答PLS路徑模型挖掘樣本的何種信息,可以證明(Dijkstra. T,1983),PLS路徑模型的權(quán)重估計是一個不動點估計問題,具體為:
反映型:Wj∝?撞i:i?圮jeji·SjiWi,其中Wj′SjjWj=1;
構(gòu)成型:Wj∝S-1jj?撞i:j?圮ieji·SjiWi,其中Wj′SjjWj=1
其中,Sji為第j組可測變量與第i組可測變量的樣本協(xié)方差矩陣,Sjj是第j組可測變量的樣本方差矩陣。上述等式說明了兩點事實:
①對于權(quán)重估計的信息來自可測變量的樣本協(xié)方差矩陣,權(quán)重可以看成是樣本協(xié)方差矩陣的函數(shù);
②PLS路徑模型挖掘樣本信息,是一種非參數(shù)方法。
這就意味著PLS路徑模型進行綜合評價、科學(xué)決策的前提是樣本協(xié)方差矩陣與總體協(xié)方差矩陣足夠接近,這與CB-SEM對樣本量的要求是相同的。因此,本文認(rèn)為,在綜合評價框架下,所謂PLS路徑模型適合小樣本的說法并不合適,為了進行科學(xué)決策,樣本量越大越好。從樣本協(xié)方差矩陣接近總體協(xié)方差矩陣的角度考察,PLS路徑模型的樣本量要求不低于CB-SEM的樣本量要求。
(2)問題2的解答。由于PLS路徑模型的估計問題實質(zhì)上是一個不動點問題,且估計方法為基于最小二乘的迭代算法,因此該方法本質(zhì)上是一種非參數(shù)方法,從數(shù)學(xué)上而言,樣本是不需要分布假定的。目前文獻(xiàn)中通用的算法僅對其一階矩有約束(Vinzi.V.E et al.,2010),
E(?孜jh|?孜j)=E(?孜j|xj1,…,xjpj)=0
E(?孜i|?孜j)=■?茁ij?孜j
(3)問題3的解答。關(guān)于PLS路徑分析進行綜合評價可以消除多重共線性(多重相關(guān)性)的提法首見于王惠文和付凌暉(2004),其后又有若干文獻(xiàn)有類似提法。根據(jù)這些文獻(xiàn)的說法,“系統(tǒng)評估指標(biāo)體系往往被分為若干個變量組,由每個變量組表達(dá)一個主題概念。在這種情形下,所建立的評估指數(shù)應(yīng)能夠反映指標(biāo)體系的層次性”,利用PLS路徑模型可以解決這些問題。事實上,這樣的做法類似層次分析法,不同的是前者利用可測變量間的線性關(guān)系結(jié)構(gòu)作為賦權(quán)依據(jù),后者依賴專家評分(寧祿喬,2006)。但是這不意味著利用PLS路徑模型就能解決多重共線性問題。我們指出,如果測量模型僅為反映型模型,且不考慮路徑系數(shù),那么多重共線性確實可以得到解決。除此之外,還存在其他的多重共線性問題。
①測量模型中可測變量的多重共線性。這種情況發(fā)生在測量模型為構(gòu)成型,或者混合型(構(gòu)成型和反映型的混合)時。原因在于,同一組可測變量都刻畫一個潛變量,這些可測變量必然相關(guān)。
②結(jié)構(gòu)模型中的多重共線性。當(dāng)需要考察路徑系數(shù)時,如果結(jié)構(gòu)模型中解釋變量多于一個,這種情況就需要引起注意。原因在于,得到潛變量得分估計后,需要通過最小二乘方法估計路徑系數(shù),如果解釋變量多于一個,本質(zhì)上就是潛變量之間的多元線性回歸。這時就會面臨多元線性回歸的多重共線性問題。
為了解決這些問題,需要對算法進行修正。Vinzi.V.E et al.,(2010)建議在迭代過程的權(quán)重更新階段和路徑系數(shù)估計階段用PLS回歸方法代替OLS方法。
(4)問題4的解答。由于PLS路徑模型進行綜合評價是通過對可測指標(biāo)賦權(quán),得到潛變量得分,從而進行綜合評價。因此討論其客觀性本質(zhì)上關(guān)注的是權(quán)重的客觀性。在綜合評價框架下,計算權(quán)重大致可分為兩類,一是主觀權(quán)重,由專家判斷得到;另一類是客觀權(quán)重,由實際數(shù)據(jù)產(chǎn)生(杜棟等,2008)。通過其算法和評價步驟,我們認(rèn)為PLS路徑模型并非完全的客觀評價方法。原因在于對可測變量的分組是主觀的。其客觀性體現(xiàn)在權(quán)重基于可測變量的方差-協(xié)方差結(jié)構(gòu),這是由權(quán)重的不動點性質(zhì)決定的。根據(jù)數(shù)理統(tǒng)計知識,方差-協(xié)方差結(jié)構(gòu)與變量間的線性關(guān)系有密切的聯(lián)系,因此可以認(rèn)為PLS路徑模型挖掘了各變量間完全的線性關(guān)系(吳喜之,2013)。
同時需要指出,可測變量間的方差-協(xié)方差結(jié)構(gòu)對權(quán)重關(guān)系密切,對可測變量的量綱處理將影響權(quán)重的客觀性。如果對可測變量進行標(biāo)準(zhǔn)化,使其均值為0,方差為1,則可測變量的方差-協(xié)方差矩陣退化為相關(guān)系數(shù)矩陣。這樣,可測變量本身的變異信息將不能被權(quán)重反映出來,權(quán)重僅反映變量之間的相關(guān)關(guān)系信息。為此,在對可測變量進行去量綱處理時,應(yīng)該保留其本身的變異信息。可以采用孟勝旺(1992)的處理辦法。
三、 結(jié)論和建議
本文對PLS路徑模型應(yīng)用于綜合評價時的幾個“優(yōu)點”進行了審視,指出①在綜合評價框架下,PLS路徑模型適合小樣本不能作為優(yōu)點看待,進行綜合評價時,樣本越大越好,使得樣本方差-協(xié)方差矩陣與總體方差-協(xié)方差矩陣充分接近。關(guān)于樣本量的要求,可以參考CB-SEM;②從數(shù)學(xué)上而言,PLS路徑模型確實不需要分布假定,只需要滿足幾個一階矩的約束即可;③對于測量模型為反映型時,如果僅考察潛變量得分,PLS路徑模型確實可以克服多重共線性。但是當(dāng)測量模型為構(gòu)成型或者混合型時,或者需要考察路徑系數(shù)時,該方法并不能克服多重共線性,需要對算法進行改進;④PLS路徑模型不是完全的客觀評價方法,需要對可測變量主觀分組,其客觀性體現(xiàn)在權(quán)重估計基于樣本的方差協(xié)方差信息。
對于使用該方法,除了已有文獻(xiàn)(如Tenenhaus M 2005)給出的建議之外,本文提出如下建議:
(1)應(yīng)該根據(jù)實際問題,對可測變量合理分組,確定測量模型的類型,確定結(jié)構(gòu)模型形式;
(2)在數(shù)據(jù)處理階段,應(yīng)該保留可測變量本身的變異,例如可以用原始變量除以均值代替標(biāo)準(zhǔn)化;
(3)樣本量越大越好,不建議對小樣本進行綜合評價,從理論上而言,沒有意義;
(4)當(dāng)需要考察路徑系數(shù)時,以及測量模型為構(gòu)成型和混合型時,需要注意多重共線性的影響。
參考文獻(xiàn):
1. 杜棟,龐慶華,吳炎.現(xiàn)代綜合評價方法與案例精選(第二版).北京:清華大學(xué)出版社,2008.
2. 關(guān)子明,常文兵,王薇.基于結(jié)構(gòu)方程模型的銀行員工績效考核方法.經(jīng)濟論壇,2009,(2):108-109.
3. 梁燕,金勇進.顧客滿意度模型的樣本量研究.統(tǒng)計研究,2007,(7):68-74.
4. 劉旭華.基于PLS通徑分析的上市公司財務(wù)指標(biāo)綜合評價.數(shù)理統(tǒng)計與管理,2008,(4):695-700.
5. 林海明,杜子芳.主成分分析綜合評價應(yīng)該注意的問題.統(tǒng)計研究,2013,(8):25-31.
6. 林盛,劉金蘭,韓文秀.基于PLS-結(jié)構(gòu)方程的顧客滿意度評價方法.系統(tǒng)工程學(xué)報,2005,(6):653-656.
7. 孟生旺.用主成份分析法進行多指標(biāo)綜合評價應(yīng)注意的問題.統(tǒng)計研究,1992,(4):67-68.
8. 莫一魁,沈旅歐.城市公交系統(tǒng)公眾評價的偏最小二乘通徑模型.深圳大學(xué)學(xué)報(理工版),2009,(4):436-440.
9. 寧祿喬.PLS算法研究.天津大學(xué)學(xué)位論文,2006.
10. 區(qū)晶瑩,張淞琳,俞守華.基于偏最小二乘通徑模型的農(nóng)民工信息能力綜合評價.農(nóng)業(yè)系統(tǒng)科學(xué)與綜合研究,2011,(4):495-501.
基金項目:國家自然科學(xué)基金(項目號:11361019);廣西自然科學(xué)基金重點項目(項目號:2013GXNSFDA019001);中國人民大學(xué)科學(xué)研究基金項目“縱向邊際化隨機效應(yīng)模型應(yīng)用研究”(項目號:13XNF058)。
作者簡介:斯介生,中國人民大學(xué)統(tǒng)計學(xué)院博士生;李揚,中國人民大學(xué)統(tǒng)計學(xué)院副教授,中國人民大學(xué)統(tǒng)計咨詢研究中心副主任,中國人民大學(xué)經(jīng)濟學(xué)博士,美國耶魯大學(xué)博士后;肖宏偉,國家信息中心經(jīng)濟預(yù)測部助理研究員,中國人民大學(xué)經(jīng)濟學(xué)博士;蔣遠(yuǎn)營,桂林理工大學(xué)理學(xué)院副教授。
收稿日期:2014-08-11。