程豪 易丹輝
摘要:為了突破獨(dú)立性假定和主觀賦權(quán)的局限,兼顧真實(shí)數(shù)據(jù)的結(jié)構(gòu)特征,文章提出偏最小二乘—二階因子模型(Partial Least Square Second-order Latent Variable Model,PLS-SLVM),解決綜合變量的構(gòu)建問題。二階因子模型(Second-order Latent Variable Model,SLVM)作為構(gòu)建綜合變量的模型基礎(chǔ),其測量模型和結(jié)構(gòu)模型分別展示了可測變量與潛變量間、潛變量間的結(jié)構(gòu)關(guān)系。偏最小二乘(Partial Least Square,PLS)作為構(gòu)建綜合變量的估計(jì)方法,不要求可測變量間相互獨(dú)立,保證權(quán)重賦值的客觀性。與簡單線性相加相比,PLS-SLVM較難理解,運(yùn)算較為復(fù)雜,但PLS-SLVM放寬了獨(dú)立性假定,兼顧變量間真實(shí)的相關(guān)關(guān)系和結(jié)構(gòu)狀態(tài),提高了綜合變量的分類準(zhǔn)確性,為企業(yè)管理與績效評價等方面提供方法學(xué)指導(dǎo)。
關(guān)鍵詞:綜合變量構(gòu)建方法;二階因子模型;偏最小二乘估計(jì);簡單線性相加
一、 引言
綜合變量構(gòu)建方法需要滿足全面性、目的性、可比性、層次性、科學(xué)性等基本原則。綜合變量必須反映綜合評價問題的各個方面,必須緊緊圍繞綜合評價目的展開,保證研究結(jié)論的確反映了評價意圖,必須保證對每個研究對象的公平性和可比性,不能有傾向性的側(cè)重某些研究對象。綜合變量的構(gòu)建過程必須關(guān)注綜合評價指標(biāo)體系的層次性和結(jié)構(gòu)性。這種層次性和結(jié)構(gòu)性一方面體現(xiàn)在綜合變量架構(gòu)的設(shè)計(jì)上,另一方面則體現(xiàn)在不同指標(biāo)間關(guān)系的明確量化。綜合變量構(gòu)建過程的層次性和結(jié)構(gòu)性必須以綜合變量構(gòu)建方法的科學(xué)性為前提。從元素到結(jié)構(gòu),從計(jì)算內(nèi)容到計(jì)算方法都必須科學(xué)、合理、準(zhǔn)確。科學(xué)的綜合變量構(gòu)建方法一定是客觀的、嚴(yán)謹(jǐn)?shù)?,是?jīng)得起推敲的。從真實(shí)數(shù)據(jù)出發(fā),有效避免人為干預(yù),嚴(yán)格把握構(gòu)建方法的適用條件,保證分析結(jié)果和研究結(jié)論的客觀性和嚴(yán)謹(jǐn)性。
簡單線性相加作為一種簡單易懂、方便操作的綜合變量構(gòu)建方法。它要求所有條目間、不同條目所屬方面間均相互獨(dú)立,一般默認(rèn)等權(quán)或人為賦權(quán)。這種強(qiáng)假設(shè)條件和主觀的賦權(quán)方式直接影響研究結(jié)論。本文提出的PLS-SLVM可以改進(jìn)這些方面的不足,完成綜合變量的構(gòu)建。
二、 PLS-SLVM的提出
1. 提出依據(jù)。目前,國內(nèi)外常用的綜合變量構(gòu)建方法不少于幾十種。盡管各種方法在原理、適用范圍、優(yōu)劣點(diǎn)方面有所不同,但大體上可以分為兩類:一類是主觀賦權(quán),即采用綜合咨詢評分的定性方法確定權(quán)重,比如簡單線性相加、層次分析法、綜合指數(shù)法等。另一類是客觀賦權(quán),即根據(jù)各指標(biāo)間的數(shù)值關(guān)系確定權(quán)重,比如主成分分析、因子分析等等。這些常用的綜合變量構(gòu)建方法存在一些共性的特點(diǎn)。主觀賦權(quán)法普遍具備簡單易懂、清晰明了、方便操作的特點(diǎn),客觀賦權(quán)法則有效規(guī)避了主觀賦權(quán)法在權(quán)重確定方面不夠客觀的缺陷,利用數(shù)據(jù)信息構(gòu)建各指標(biāo)變量間的層次關(guān)系和相互關(guān)聯(lián)。此外,不同的綜合變量構(gòu)建方法都存在著不同的局限性。層次分析法的評價結(jié)果因判斷矩陣的不同而異,而且利用九級分制對指標(biāo)的兩兩比較很容易出現(xiàn)矛盾,綜合指數(shù)法較難確定比較標(biāo)準(zhǔn),而且評價結(jié)果對比較標(biāo)準(zhǔn)過于依賴。而主成分分析法在主要主成分的涵義和個數(shù)的確定方面都存在一些質(zhì)疑。涵義界定的是否清楚直接關(guān)系到對結(jié)果的解釋清晰度和評價可信度。而根據(jù)方差貢獻(xiàn)率選擇的主要主成分畢竟不能代表全部數(shù)據(jù)信息,尤其在主成分是無序變量時,主成分綜合評價函數(shù)會導(dǎo)致錯誤的結(jié)論。相比之下,雖然因子分析同樣利用了降維的思想,但是因子分析需要滿足因子間不相關(guān)的假設(shè)條件,通過坐標(biāo)軸不同程度的旋轉(zhuǎn)會得到不同的因子,而且因子載荷有時為負(fù)值,不易解釋。顯然,如果用因子分析尋找變量間的潛在結(jié)構(gòu),構(gòu)造綜合變量存在一定的問題。
簡單線性相加作為綜合變量的構(gòu)建方法之一,主要存在以下兩個方面的不足:
第一,簡單線性相加假定所有條目間、不同條目所屬方面間均相互獨(dú)立。在實(shí)際應(yīng)用中,某幾個條目間可能存在獨(dú)立關(guān)系,但所有條目間相互獨(dú)立很難成立。試想,如果真實(shí)世界中所有條目間相互獨(dú)立,則統(tǒng)計(jì)學(xué)中討論變量間相關(guān)關(guān)系和因果關(guān)系的方法將無法使用,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的許多方法將失去研究基礎(chǔ)。不同條目所屬方面的獨(dú)立性假定,削弱了綜合變量本身可能存在的結(jié)構(gòu)形態(tài)。不同方面間可能存在著一定的相關(guān)關(guān)系,這種相關(guān)性通過綜合變量可以得到進(jìn)一步的解釋,表現(xiàn)為共同受到的潛在因素的影響。
第二,簡單線性相加采用默認(rèn)等權(quán)或主觀賦權(quán)法,加入人為干預(yù),不夠客觀。主觀賦權(quán)因人而異,不同的專家給出不同的權(quán)重。主觀賦權(quán)沒有考慮不同人群的特征,不同的人群可能有相同的權(quán)重。這種主觀而“普適”的權(quán)重賦值方式直接影響綜合變量的研究結(jié)論和評價效果。賦權(quán)方式應(yīng)該是基于客觀數(shù)據(jù)的,是兼顧人群特征的,是參與數(shù)值計(jì)算過程始終的。尤其在挖掘和探索綜合變量不同方面間結(jié)構(gòu)關(guān)系,通過先驗(yàn)信息決定權(quán)重削弱了對實(shí)際數(shù)據(jù)的提取和利用。
真實(shí)世界的可測變量間往往不相互獨(dú)立。綜合變量的構(gòu)建需要真實(shí)反映綜合變量的內(nèi)涵與邏輯結(jié)構(gòu),有效避免簡單線性相加等主觀賦權(quán)法對非客觀數(shù)據(jù)因素的依賴性。相比之下,PLS-SLVM從真實(shí)數(shù)據(jù)出發(fā),不要求所有條目間相互獨(dú)立,揭示條目間實(shí)際存在的相關(guān)關(guān)系和結(jié)構(gòu)形態(tài)。選擇客觀的權(quán)重賦值方式,有效避免人為干預(yù),經(jīng)過權(quán)重和得分的相互作用和反復(fù)調(diào)整,完成綜合變量的所有數(shù)值計(jì)算工作。PLS-SLVM的提出,突破了簡單線性相加的局限,提供了一種新的綜合變量的構(gòu)建方法。
2. SLVM。作為綜合變量構(gòu)建方法的模型基礎(chǔ),SLVM根據(jù)變量是否可以直接觀測,將模型中的變量分為可測變量和潛變量。SLVM的提出將變量是否可以直接觀測這一屬性和變量間的結(jié)構(gòu)清晰的展示出來。一階因子表示的是可測變量共同反映的某個方面,二階因子是一階因子的綜合體現(xiàn),反映的是一階因子共同受到的影響因素。比如,在評價企業(yè)家領(lǐng)導(dǎo)力、企業(yè)戰(zhàn)略績效、企業(yè)資本等問題時,二階因子可以作為綜合變量,反映這些評價課題不同方面共同收到的影響因素。SLVM的表達(dá)形式如下:
xjh=?姿jh?孜j+?著jh(1)
?孜j=?茁j?濁+?啄j(2)
(1)式為測量模型,它反映的是可測變量xjh與一階因子?孜j間的關(guān)系。?姿jh是載荷系數(shù),表示一階因子?孜j對可測變量xjh的影響。?著jh為第j個一階因子?孜j中第h個可測變量xjh的測量誤差,均值為0,方差為?啄2jh,且與一階因子?孜j不相關(guān)。
(2)式為結(jié)構(gòu)模型,它反映的是一階因子?孜j與二階因子?濁間的關(guān)系。?茁j是路徑系數(shù),表示二階因子?濁對一階因子?孜j的影響。?啄j為第j個一階因子?孜j的測量誤差,均值為0,方差為?啄2j。
3. PLS。為了避免聯(lián)合分布的假定,可以采用PLS估計(jì)SLVM中的因子得分和系數(shù)。算法的基本思想如下:
首先,標(biāo)準(zhǔn)化一階因子(?孜j-mj)的外部估計(jì)Yj。一階因子的外部估計(jì)是指利用可測變量的線性組合對一階因子進(jìn)行逼近。標(biāo)準(zhǔn)化一階因子(均值為0,標(biāo)準(zhǔn)差為1)以中心化的可測變量的線性組合表示:
Yj∝[?撞?棕jh(xjh-xjh)](1)
標(biāo)準(zhǔn)化一階因子最終可寫為:
Yj∝[?撞■jh(xjh-xjh)](2)
一階因子的估計(jì)為:
mj=?撞■jhxjh=Yj+mj(3)
■jh被稱為外生權(quán)重。
其次,標(biāo)準(zhǔn)化二階因子(?濁-m)的內(nèi)部估計(jì)Z。二階因子潛變量的內(nèi)部估計(jì)指的是利用因子間的某種數(shù)學(xué)關(guān)系,對一階因子的外部估計(jì)值進(jìn)行調(diào)整的過程。內(nèi)部估計(jì)Z被定義為:
Z∝?撞eiYi(4)
內(nèi)生權(quán)重ei指在模型中有箭頭連接的兩個因子的關(guān)系,它有路徑加權(quán)方法、重心方法、因子加權(quán)方法三種方法可以選擇,本文采用重心法,即ei等于Yj與Yi的相關(guān)系數(shù)的符號。
第三,更新一階因子與可測變量間、二階因子與一階因子間的權(quán)重。本文利用(7)式更新一階因子與可測變量間的權(quán)重?棕j,利用(8)式更新二階因子與一階因子間的權(quán)重e。
?棕j=(X′jXJ)-1X′jXJ(5)
e=(Y′jYJ)-1Y′jZJ(6)
初始的權(quán)重可以任意的賦值,然后進(jìn)行上述的迭代計(jì)算,直到收斂為止。常用的收斂判斷標(biāo)準(zhǔn)為:相鄰兩次的權(quán)重估計(jì)值相差小于10-5。
因此,PLS算法的迭代步驟如下:
步驟1設(shè)定初始權(quán)重?棕jh=1,計(jì)算向量Yj的初始值為?撞(xjh-xjh),通過(4)式,可以得到Z的估計(jì)值;
步驟2根據(jù)Z的估計(jì)值,通過公式(5)和(6),可以計(jì)算出新的權(quán)重?棕j和e;
步驟3利用計(jì)算得到的?棕j和e,依次通過(2)和(4),分別得到新的Yj和Z;
步驟4再回到步驟1,指導(dǎo)計(jì)算收斂為止,則最終得到的?棕j和e作為權(quán)重,最終得到的和作為一階因子Yj和Z二階因子得分。
三、 PLS-SLVM的研究結(jié)論
1. PLS放寬了對數(shù)據(jù)分布的要求。綜合變量構(gòu)建中的估計(jì)方法有最大似然(ML)估計(jì)法和偏最小二乘(PLS)估計(jì)法兩種方式。最大似然法固然可以估計(jì)出權(quán)重和系數(shù),但是要求數(shù)據(jù)服從對稱的聯(lián)合正態(tài)分布。但在實(shí)際研究中,數(shù)據(jù)多為不對稱的偏態(tài)分布。因此該方法科學(xué)性的基礎(chǔ)受到限制。偏最小二乘估計(jì)算法(PLS)通過內(nèi)外部關(guān)系調(diào)整、迭代,計(jì)算得到潛變量的值,對數(shù)據(jù)沒有聯(lián)合正態(tài)分布的要求,因此更適于企業(yè)管理和績效評價的實(shí)證研究。偏最小二乘(PLS)估計(jì)不要求數(shù)據(jù)服從正態(tài)分布,可以采用Bootstrap方法構(gòu)造置信區(qū)間,計(jì)算均值、標(biāo)準(zhǔn)差、置信上限和置信上限,構(gòu)造95%置信區(qū)間檢驗(yàn)各個參數(shù)的合理性(顯著性)。為驗(yàn)證大樣本情況下滿意度指數(shù)PLS估計(jì)的穩(wěn)健性與可行性,采用Bootstrap法進(jìn)行五組模擬實(shí)驗(yàn):根據(jù)滿意度指數(shù)模型生成樣本量為100 000的模擬數(shù)據(jù),分別利用Bootstrap法抽取樣本量為5 000、10 000、20 000、30 000和50 000的隨機(jī)子樣本,每組模擬重復(fù)500次抽樣。將每組模擬數(shù)據(jù)的模型估計(jì)結(jié)果平均值、全數(shù)據(jù)(100 000條)一次估計(jì)和模擬數(shù)據(jù)參數(shù)真值進(jìn)行比較,研究發(fā)現(xiàn)Bootstrap法隨機(jī)估計(jì)的方法優(yōu)于全數(shù)據(jù)的一次性估計(jì)。
2. 兼顧變量相關(guān)性,突出結(jié)構(gòu)狀態(tài)。簡單線性相加有兩種賦權(quán)方式:一種是默認(rèn)權(quán)重為1,假定不同可測變量與潛變量間、潛變量與潛變量間的關(guān)系相同;另一種是主觀賦權(quán),采用專家打分等方法對權(quán)重賦值。無論采用哪種賦權(quán)方式,可測變量與潛變量間、潛變量與潛變量間的權(quán)重均沒有從真實(shí)數(shù)據(jù)出發(fā),沒有考慮變量間的相關(guān)性。而且,這兩個賦權(quán)過程是相互獨(dú)立的,彼此互不影響。
PLS-SLVM對路徑系數(shù)和載荷系數(shù)的估計(jì)不是兩個相互獨(dú)立的過程。在全盤考慮條目間關(guān)系的基礎(chǔ)上,通過不斷的內(nèi)部調(diào)整,更新內(nèi)生權(quán)重,通過不斷的外部調(diào)整,更新外生權(quán)重,反復(fù)迭代,最終估計(jì)出路徑系數(shù)和載荷系數(shù)。不同可測變量與潛變量、不同潛變量間數(shù)量關(guān)系的明確量化突出了綜合變量的結(jié)構(gòu)形態(tài)。
3. 減少因子得分趨同的可能性。因子得分可以表現(xiàn)不同研究對象在某個方面的表現(xiàn),如果不同研究對象的某個因子得分相同,則說明研究對象在該方面的表現(xiàn)沒有區(qū)別。但是,也可能是方法本身造成因子得分的過度趨同。若二階因子宗氣指數(shù)得分過于趨同,則會影響綜合變量對結(jié)果的判斷和評價;若一階因子得分過于趨同,則不利于綜合變量排名的影響因素的探索,無法研究綜合變量得分相同的各一階因子的得分及構(gòu)成特點(diǎn),更不利于研究綜合變量得分不同的各一階因子的得分及構(gòu)成特點(diǎn)。
事實(shí)上,綜合變量構(gòu)建方法本身也會對因子得分產(chǎn)生影響,選擇二階因子模型可以更好的區(qū)分不同研究對象的各階因子的水平。這是因?yàn)?,二階因子模型計(jì)算因子得分的過程中要通過外部調(diào)整和內(nèi)部調(diào)整,利用可測變量與一階因子間的權(quán)重(載荷系數(shù))、一階因子與二階因子間的權(quán)重(路徑系數(shù))不斷調(diào)整外部估計(jì)和內(nèi)部估計(jì),迭代所得。而簡單線性相加則是對可測變量進(jìn)行權(quán)重為1的一次性加和,如果每個可測變量均采用量表打分的方式,取值范圍均為{1,2,3,4,5},更易出現(xiàn)因子得分趨同的結(jié)果。此外,二階因子模型中各個權(quán)重系數(shù)之間的差異也是增加因子得分區(qū)分度的因素之一。
4. 提高綜合變量分類準(zhǔn)確性。綜合變量構(gòu)建方法的好壞,直接影響綜合變量對不同結(jié)局的識別能力和分類效果。為了進(jìn)一步探討簡單線性相加方法和PLS-SLVM在這些方面的表現(xiàn),本文借助受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC),計(jì)算AUC和判對率,評價綜合變量的區(qū)分度和分類準(zhǔn)確性。
因子得分作為重要的估計(jì)結(jié)果之一,是繪制ROC曲線的基礎(chǔ)。因子得分的研究,并不止于比較絕對數(shù)值的大小,而在于對相對信息的分析和探索,關(guān)注不同研究對象的相對位置,因此,對因子得分取秩是獲得相對信息的途徑之一。無論是對因子得分本身還是取秩后進(jìn)行研究,PLS-SLVM都為綜合變量分類準(zhǔn)確性的提高提供了可能。研究表明,PLS-SLVM提高了綜合變量的判對率,增加了分類準(zhǔn)確性。
四、 結(jié)論
綜合變量構(gòu)建方法的好壞,關(guān)鍵在于多指標(biāo)結(jié)合為綜合指標(biāo)的統(tǒng)計(jì)方式的選擇。一種好的統(tǒng)計(jì)方式應(yīng)該放寬獨(dú)立性假定,突破主觀賦權(quán)的人為干預(yù),考慮真實(shí)數(shù)據(jù)的結(jié)構(gòu)特征。SLVM設(shè)定了可測變量與潛變量間、潛變量間的結(jié)構(gòu)關(guān)系。PLS算法不要求可測變量間相互獨(dú)立,完成了載荷系數(shù)、路徑系數(shù)及因子得分的估計(jì)。SLVM與PLS的結(jié)合,改進(jìn)了簡單線性相加在強(qiáng)獨(dú)立性假定和主觀賦權(quán)方面的不足。
研究表明,PLS-SLVM作為一種綜合變量的構(gòu)建方法,不僅在構(gòu)建過程中兼顧變量間的相關(guān)關(guān)系和結(jié)構(gòu)形態(tài),而且提升了綜合變量的分類準(zhǔn)確性,可以用來判斷或預(yù)測不同研究對象的所屬類別。
此外,偏最小二乘—二階因子模型作為一種非參數(shù)的估計(jì)方法,沒有分布假定,不必計(jì)算結(jié)構(gòu)模型中的所有關(guān)系。因此,當(dāng)樣本量較少時,不會出現(xiàn)無法識別的問題,而且會得到相對較高的統(tǒng)計(jì)功效。隨著樣本量的增加,偏最小二乘—二階因子模型的估計(jì)精度越高。當(dāng)存在缺失數(shù)據(jù)時,該算法在一定程度上具有較高的穩(wěn)健性。偏最小二乘—二階因子模型可以適用于度量數(shù)據(jù)、二分類數(shù)據(jù)等數(shù)據(jù)類型,但是在測度分類內(nèi)生變量時,存在一定的局限性。無論模型是否復(fù)雜,因子(潛變量)是通過單個還是多個可測變量進(jìn)行測度,因子與可測變量間關(guān)系是形成型還是反映型,偏最小二乘算法都較為適用。而且,隨著可測變量個數(shù)的增加,該算法的估計(jì)有偏性會降低。此外,與極大似然估計(jì)方法相比,盡管偏最小二乘估計(jì)算法沒有全局?jǐn)M合優(yōu)度評價指標(biāo),但是卻可以得到因子得分。當(dāng)樣本量足夠大時,可以借助Boostrap方法構(gòu)造置信區(qū)間,計(jì)算均值、標(biāo)準(zhǔn)差、置信上限和置信上限,構(gòu)造95%置信區(qū)間檢驗(yàn)各個參數(shù)的合理性(顯著性)。
但是,并不是所有的綜合變量構(gòu)建問題都可以用PLS-SLVM來解決。當(dāng)一階因子間存在中高度關(guān)聯(lián)性,一階因子測度的是同一個問題的同一個水平,二階因子能夠反映并解釋一階因子所受到的共同影響時,才考慮采用SLVM。尤其在樣本量較小、待估參數(shù)較多的情況下,PLS-SLVM可以保證模型的可識別性和模型的簡化。
參考文獻(xiàn):
[1] 侯杰泰,溫忠麟,成子娟.結(jié)構(gòu)方程模型及其應(yīng)用[M].北京:教育科學(xué)出版社,2004.
[2] 高文杰,高旭.基于SEM的我國重要城市現(xiàn)代化水平綜合評價模型研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2010,(18).
[3] 羅玉波,王玉翠.結(jié)構(gòu)方程模型在競爭力評價中的應(yīng)用綜述.技術(shù)經(jīng)濟(jì)與管理研究,2013,(3).
[4] 孫繼紅,楊曉江,繆榕楠.我國高等教育發(fā)展統(tǒng)計(jì)特征的PLS通徑模型分析.數(shù)理統(tǒng)計(jì)與管理,2010,(2).
[5] 王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京:國防工業(yè)出版社,1999.
基金項(xiàng)目:2012年中醫(yī)藥行業(yè)科研專項(xiàng)(項(xiàng)目號:2012468005)。
作者簡介:易丹輝(1948—),女,漢族,湖南省汨羅市人,中國人民大學(xué)統(tǒng)計(jì)學(xué)院教授、博士生導(dǎo)師,研究方向?yàn)轱L(fēng)險管理與保險、預(yù)測與決策;程豪(1989—),男,漢族,山西省長治市人,中國人民大學(xué)統(tǒng)計(jì)學(xué)院博士生,研究方向?yàn)榻Y(jié)構(gòu)方程模型、社會網(wǎng)絡(luò)、數(shù)據(jù)挖掘。
收稿日期:2015-12-12。