程 豪 ,易丹輝
(1.中國科協(xié)創(chuàng)新戰(zhàn)略研究院,北京100012;2.中國人民大學(xué):a.統(tǒng)計咨詢研究中心;b.統(tǒng)計學(xué)院,北京100872)
原PLS算法在外部估計和內(nèi)部估計中,利用線性回歸作為算法核心技術(shù),完成權(quán)重迭代過程。在利用PLS算法解決二階因子模型參數(shù)估計問題時,PLS自帶的無獨(dú)立性假定、無數(shù)據(jù)分布要求、兼顧變量間關(guān)系、所有數(shù)值計算結(jié)果客觀的優(yōu)點(diǎn),突破傳統(tǒng)綜合變量構(gòu)建方法的局限。但若樣本存在明確異質(zhì)性,數(shù)據(jù)存在離群點(diǎn),亦或是研究主題更關(guān)注數(shù)據(jù)全貌而非平均水平,原PLS將面臨瓶頸。此時,如果考慮將樣本集劃分為幾個同質(zhì)性的子集,或預(yù)先處理離群點(diǎn),亦或人為對原始數(shù)據(jù)取分位數(shù),則會增加冗余處理環(huán)節(jié),損失可用信息,影響研究結(jié)論。
因此,本文借助分位回歸具備容納異質(zhì)性樣本、不受極端值影響、完備展示數(shù)據(jù)全貌的優(yōu)點(diǎn),拓展PLS算法的使用范疇,提高參數(shù)估計能力和診斷能力。
以二階因子模型為例,其表達(dá)形式如式(1)和式(2):
式(1)為測量模型,它反映可測變量xjh與一階因子ξj間的關(guān)系。λjh是載荷系數(shù),表示一階因子ξj對可測變量xjh的影響。εjh為第j個一階因子ξj中第h個可測變量xjh的測量誤差,均值為0,方差為δ2jh,且與一階因子ξj不相關(guān)。
式(2)為結(jié)構(gòu)模型,它反映的是一階因子ξj與二階因子η間的關(guān)系。βj是路徑系數(shù),表示二階因子η對一階因子ξj的影響。δj為第j個一階因子ξj的測量誤差,均值為0,方差為
作為二階因子模型的參數(shù)估計算法,PLS包括外部估計、內(nèi)部估計和(內(nèi)、外部)權(quán)重更新三個環(huán)節(jié)。其中,權(quán)重更新過程的核心技術(shù)為線性回歸的普通最小二乘估計算法?;诜治换貧w的PLS算法以此為突破點(diǎn),用分位回歸取代線性回歸,通過設(shè)置多個嵌套循環(huán),完成不同分位數(shù)水平下的因子得分和系數(shù)的計算。算法步驟如下:
步驟1:初始權(quán)重ω0,tau和e0,tau設(shè)定為1;
步驟4:權(quán)重更新;
步驟4-1:設(shè)定分位數(shù)水平τ,設(shè)計嵌套循環(huán);
步驟 4-2:可測變量數(shù)m,循環(huán)計算
步驟5:反復(fù)迭代上述步驟,直到收斂為止。
其中,收斂判斷標(biāo)準(zhǔn)為:(1)最大迭代次數(shù)為200;(2)相鄰兩次的權(quán)重估計值相差小于10-5。
本文數(shù)據(jù)來自中國中醫(yī)科學(xué)院中醫(yī)基礎(chǔ)理論研究所、中國廣安門中醫(yī)院的中醫(yī)宗氣評估課題。該數(shù)據(jù)由59例老年組受訪者和10例青年組受試者通過可穿戴式技術(shù),完成心率、血氧、體溫、呼吸的連續(xù)自我監(jiān)測。連續(xù)監(jiān)測時間為2013年12月5日0點(diǎn)0時0分到2013年12月6日23點(diǎn)59分59秒,兩次監(jiān)測時間間隔為幾秒。
由于受試者具體參與監(jiān)測的起始時間不同,因此該數(shù)據(jù)具有監(jiān)測次數(shù)不相同、監(jiān)測時間不齊整的特點(diǎn)。為了攻克這兩點(diǎn)局限,避免受到監(jiān)測過程中可能出現(xiàn)的異?;蝈e誤數(shù)據(jù)的干擾,保留時間因素的影響,本文提出一種數(shù)據(jù)處理思路。將數(shù)據(jù)分為上午、下午和傍晚三個時間段,分別通過不同維度反映心率、血氧、體溫、呼吸水平,比如用中位數(shù)刻畫總體水平,最小值和95%分位數(shù)刻畫極值水平,其中95%分位數(shù)取代最大值。變異水平由四分位數(shù)差刻畫,即由75%分位數(shù)和25%分位數(shù)之差刻畫對應(yīng)指標(biāo)的變異水平。
中醫(yī)宗氣是由水谷精微化生,聚積胸中,與呼吸之氣相合發(fā)揮作用的氣。宗氣聚于兩乳之間的膻中。走息道而行呼吸,凡語言、聲音、嗅味、呼吸皆與宗氣有關(guān)。同時還有維持氣血運(yùn)行、維持心臟運(yùn)動、維持肢體體溫與活動能力的作用。經(jīng)過研究,通過可穿戴式技術(shù)、受試者自測獲得的理化指標(biāo),則從心率、血氧、體溫、呼吸四個方面完成對中醫(yī)宗氣模型的設(shè)計。圖1是經(jīng)過可測變量篩選后的結(jié)果,當(dāng)用這些可測變量時,可測變量與一階因子間系數(shù)(載荷系數(shù))較為顯著且符合醫(yī)學(xué)常識。為了方便后續(xù)表述,表1給出模型中涉及變量及符號說明。
圖1 理化指標(biāo)評估中醫(yī)宗氣模型
表1 中醫(yī)宗氣模型的變量對應(yīng)表
與原PLS相同,基于分位回歸的PLS算法包括可測變量與一階因子、一階因子與二階因子間相關(guān)系數(shù)的計算部分,通過相關(guān)系數(shù)的計算及符號的判斷,確定每一步迭代中的一階因子和二階因子的外部估計。經(jīng)過不斷的內(nèi)部調(diào)整和外部調(diào)整,更新內(nèi)生權(quán)重和外生權(quán)重,反復(fù)迭代,得到收斂的數(shù)值計算結(jié)果(路徑系數(shù)、載荷系數(shù)和因子得分)。作為重要的數(shù)值計算結(jié)果之一,路徑系數(shù)明確量化相應(yīng)結(jié)構(gòu)內(nèi)部二階因子與一階因子間的關(guān)系,突顯結(jié)構(gòu)關(guān)系的全貌。通過不同階因子的排列和單向箭頭的連接,圖2展示了原PLS算法和基于分位回歸的PLS算法對中醫(yī)宗氣模型的路徑系數(shù)估計結(jié)果。
圖2 中醫(yī)宗氣模型路徑圖
基于分位回歸的PLS估計所得路徑系數(shù)在一定程度上并沒有違背原PLS揭示的規(guī)律。(1)路徑系數(shù)的正負(fù)揭示了不同模型中二階因子宗氣與一階因子間關(guān)系的正(負(fù))向性?;诜治换貧w的PLS算法依然反映二階因子宗氣與一階因子心率、體溫和呼吸存在正向關(guān)系,與一階因子血氧存在負(fù)向關(guān)系,說明除血氧對宗氣評估的效應(yīng)為負(fù)外,其余一階因子對宗氣評估的效應(yīng)均表現(xiàn)為正向。(2)路徑系數(shù)的大小刻畫一階因子與二階因子間不同程度的數(shù)量關(guān)系。所有估計結(jié)果中,心率的路徑系數(shù)基本均為最大,呼吸次之,體溫次之,血氧的路徑系數(shù)為負(fù)。
不同的是,基于分位回歸的算法展示不同分位數(shù)下路徑系數(shù)的估計結(jié)果,反映數(shù)據(jù)信息全貌。(1)從低分位數(shù)到高分位數(shù),血氧(從-0.84到-0.44)和呼吸(從0.73到1.03)的絕對路徑系數(shù)逐漸增加。(2)當(dāng)分位數(shù)為0.10時,體溫的路徑系數(shù)(0.02)達(dá)到最小。說明低分位數(shù)時體溫對宗氣評估方面及在判斷受試者是否宗氣不足方面的貢獻(xiàn)最小。(3)當(dāng)分位數(shù)為0.75時,呼吸的路徑系數(shù)(0.95)出現(xiàn)大于心率(0.92)的情況。說明下四分位數(shù)時呼吸對宗氣評估方面具有最為重要的作用,在判斷受試者是否宗氣不足方面的貢獻(xiàn)最大。由此可推知,在宗氣評估方面,心肺功能(心率和呼吸)起著至關(guān)重要的作用,最能反映受試者宗氣足與不足的表征規(guī)律。表2(見下頁)從中醫(yī)宗氣模型中的載荷系數(shù)進(jìn)一步揭示不同分位數(shù)下變量間結(jié)構(gòu)關(guān)系全貌。
作為一種參數(shù)估計方法,基于分位回歸的PLS算法,在保留原PLS突破強(qiáng)獨(dú)立性假定、無數(shù)據(jù)分布要求、主觀賦權(quán)等優(yōu)點(diǎn)的同時,不必考慮數(shù)據(jù)是否具有異質(zhì)性,是否存在異常點(diǎn)的問題。在兼顧變量間的相關(guān)關(guān)系的前提下,反映不同分位點(diǎn)下的數(shù)據(jù)全貌和結(jié)構(gòu)關(guān)系,完整詮釋所評估主題的多層次內(nèi)涵。作為一種新的分析工具,基于分位回歸的PLS算法為用理化指標(biāo)評估中醫(yī)宗氣提供可能。至此,受試者可以通過可穿戴式檢測儀器、由民眾自主測量的模式,評估一部分中醫(yī)疑難雜癥。在減輕大夫診治負(fù)擔(dān)的同時,也節(jié)約了醫(yī)療資源,提高了醫(yī)學(xué)研究效率。這種操作上的便捷性,實(shí)現(xiàn)正常民眾的提前檢測和患者的定期檢測,可以隨時跟蹤自身的健康狀況和變化趨勢,起到疾病預(yù)防和警示的作用。
表2 中醫(yī)宗氣模型的載荷系數(shù)
但是,并不是所有適用于原PLS估計的數(shù)據(jù)均可以用基于分位回歸的PLS算法來解決。當(dāng)數(shù)據(jù)為分類或等級數(shù)據(jù)時,基于分位回歸的PLS算法可能出現(xiàn)無法識別的問題。經(jīng)嘗試,當(dāng)變量為1~5的量表數(shù)據(jù)時,該算法無法識別低分位(分位數(shù)小于0.3)模型的參數(shù)估計?;诜治换貧w的PLS算法對數(shù)據(jù)類型的要求,是分位回歸帶來的不可避免的方法局限。