国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分位數(shù)回歸在宜昌市帶狀皰疹就診費(fèi)用及其影響因素研究中的應(yīng)用*

2021-07-07 09:37胡躍華劉曉俊李貴文徐承中殷大鵬馮國雙
中國衛(wèi)生統(tǒng)計 2021年3期
關(guān)鍵詞:因變量位數(shù)回歸系數(shù)

胡躍華 丁 雄 蔣 蔚 劉曉俊 李貴文 徐承中 武 英 殷大鵬 馮國雙

【提 要】 目的 結(jié)合宜昌市帶狀皰疹就診費(fèi)用及其影響因素的應(yīng)用實(shí)例來介紹分位數(shù)回歸分析方法。方法 選取2018-2019年宜昌市健康管理大數(shù)據(jù)中心關(guān)于帶狀皰疹的數(shù)據(jù),采用多因素分位數(shù)回歸,分析不同分位數(shù)回歸下的偏回歸系數(shù)。結(jié)果 應(yīng)用實(shí)例結(jié)果發(fā)現(xiàn),不同分位數(shù)下針對帶狀皰疹就診費(fèi)用的影響因素的作用,同時也影響了不同分位數(shù)下在控制了其他因素影響后的就診費(fèi)用不同:性別對帶狀皰疹就診費(fèi)用在0.1~0.9百分位數(shù)上均沒有統(tǒng)計學(xué)意義;就診年份在回歸曲線之下能夠包含40%的數(shù)據(jù)點(diǎn)的時候,2019年就診費(fèi)用高于2018年的就診費(fèi)用;但是在回歸曲線之下能夠包含80%的數(shù)據(jù)點(diǎn)的時候,2019年就診費(fèi)用低于2018年的就診費(fèi)用。對于就診機(jī)構(gòu)對帶狀皰疹就診費(fèi)用的影響在0.3至0.9百分位數(shù)上均有統(tǒng)計學(xué)意義,而且整體呈上升趨勢,只有在0.9百分位數(shù)上有所回落。結(jié)論 不同分位數(shù)下影響因素作用大小不同,同時也導(dǎo)致了不同分位數(shù)下控制了其他因素影響后的就診費(fèi)用不同。讀者通過該應(yīng)用實(shí)例對分位數(shù)回歸分析方法有所了解,并能在以后的科研工作中正確選用分位數(shù)回歸模型,提高數(shù)據(jù)統(tǒng)計分析水平。

回歸分析目的在于確定自變量與因變量之間的關(guān)系,通過建立相應(yīng)的數(shù)學(xué)模型,以便觀察特定變量來預(yù)測研究者感興趣的變量[1]。但在很多情況下,模型殘差并不能滿足正態(tài)分布這個條件,使得線性回歸分析方法并不能很好地反映一個分布的全部狀況,進(jìn)而導(dǎo)致研究結(jié)論偏向反映中心位置,對非中性位置的情況的反映就會有所阻礙,從而導(dǎo)致研究重點(diǎn)被忽視。此時可以考慮采用分位數(shù)回歸,分別描述自變量對不同分位數(shù)下因變量的作用情況,還能觀察因變量在給定自變量下的各個分位數(shù)處的局部特征或完整分布特征,是經(jīng)典線性回歸補(bǔ)充的常用方法之一。

分位數(shù)回歸是把分位數(shù)的概念融入到了經(jīng)典線性回歸,其將條件分位數(shù)模型化為預(yù)測變量(自變量)的函數(shù)。隨著協(xié)變量的改變,經(jīng)典線性回歸通過最小二乘法估計的是因變量條件均值關(guān)于協(xié)變量的變化,而分位數(shù)回歸模型描述的是因變量條件分位數(shù)關(guān)于協(xié)變量的變化[2]。分位數(shù)回歸方法相對于經(jīng)典線性回歸方法,在處理有異常值的數(shù)據(jù)時更為穩(wěn)健,反應(yīng)的數(shù)據(jù)信息也更為全面。

目前國內(nèi)對帶狀皰疹的研究多是通過經(jīng)典線性回歸方法分析其臨床治療效果,對其就診費(fèi)用影響因素的研究較少。若采用經(jīng)典線性回歸通過最小二乘法來分析就診費(fèi)用的影響因素,其就只能估計影響因素對帶狀皰疹就診費(fèi)用的平均變化水平,且對研究資料要求嚴(yán)格。分位數(shù)回歸不對研究資料的分布作嚴(yán)格要求,且在分析過程中不僅可以體現(xiàn)整個帶狀皰疹就診費(fèi)用及其影響因素的各部分信息,還可以充分考慮極端值影響的特點(diǎn),進(jìn)而分析各個影響因素對高就診費(fèi)用和低就診費(fèi)用人群的影響差異及變化程度。因此,本文利用分位數(shù)回歸分析方法對帶狀皰疹患者的就診費(fèi)用及其影響因素進(jìn)行分析,探討不同分位數(shù)下影響因素對就診費(fèi)用的影響,闡述在特定條件下使用分位數(shù)回歸分析的必要性。

模型基本原理

1.分位數(shù)回歸的概念[3-5]:分位數(shù)回歸其實(shí)是一種被用來估計一組自變量X與因變量Y的分位數(shù)之間線性關(guān)系的建模方法。經(jīng)典線性回歸實(shí)際上研究的僅僅是因變量Y的條件期望,但在實(shí)際研究中,人們也關(guān)心自變量X與因變量Y分布的中位數(shù)和分位數(shù)之間的關(guān)系。它最早由Koenker和Bassett(1978)提出,相似于經(jīng)典的線性回歸估計量的計算原理,分位數(shù)回歸估計量的計算也是基于一種非對稱形式的絕對值殘差最小化,且中位數(shù)回歸(最小一乘回歸)運(yùn)用的是最小絕對值離差估計(least absolute deviations estimator,LAD)。分位數(shù)中的n分位即是把整個參考群體平均分成n個相等的部分,所謂的n分位數(shù)回歸,就是希望回歸曲線之下能夠包含n%的數(shù)據(jù)點(diǎn)。

2.分位數(shù)回歸模型公式原理[6-7]:首先假設(shè)隨機(jī)變量Y的分布函數(shù)為:F(y)=P(Y≤y)。則對于0<τ<1,那么這個隨機(jī)變量Y的第τ分位數(shù)為:

相同地,對于其余的第τ分位數(shù),minξ∈R∑i=1ρτ(yi-ξ)

3.分位數(shù)回歸參數(shù)估計方法:分位數(shù)回歸估計方法,即求得上述公式參數(shù)估計量的方法。有兩類:一類是直接優(yōu)化方法,例如單純形法、內(nèi)點(diǎn)法等;一類是參數(shù)化方法,例如結(jié)合MCMC(Markov Chain Monte Carlo)的貝葉斯估計方法。常用的計量經(jīng)濟(jì)和統(tǒng)計軟件都可以實(shí)現(xiàn)對分位數(shù)回歸模型的估計和假設(shè)檢驗(yàn),如SAS、Stata、R、Eviews等。這里不介紹這些估計方法的具體理論與步驟,有興趣的讀者可以參考相關(guān)的文獻(xiàn)。

應(yīng)用實(shí)例及結(jié)果解釋

本研究的數(shù)據(jù)信息由中國宜昌市健康管理大數(shù)據(jù)中心提供,該中心數(shù)據(jù)來自于宜昌市醫(yī)療機(jī)構(gòu)的臨床就診信息數(shù)據(jù)鏈,數(shù)據(jù)由患者的就診記錄組成,包括完整的就診基本信息、疾病史、檢查、診斷和處方信息等。該研究的病例資料是由所有18歲及以上帶狀皰疹患者組成,診斷日期在2018-2019年。獲得有效數(shù)據(jù)5370人次就診記錄。采用excel 2010對數(shù)據(jù)進(jìn)行整理清洗,使用SAS 9.4軟件進(jìn)行統(tǒng)計分析,利用R 3.6.0做不同分位數(shù)下偏回歸系數(shù)圖。此研究就診費(fèi)用(y)為因變量,同時選取年齡分組(x1)、性別(x2)、就診年份(x3)、現(xiàn)患其他疾病(x4)、就診機(jī)構(gòu)(x5)為自變量,見表1。下面結(jié)合實(shí)例詳細(xì)闡述分位數(shù)回歸的步驟。

表1 研究變量及定義

1.對因變量y做正態(tài)性檢驗(yàn),SAS程序如下:

procunivariatenormal;

var y;

run;

結(jié)果發(fā)現(xiàn)Kolmogorov-Smirnov檢驗(yàn)、Cramer-von Mises檢驗(yàn)、Anderson-Darling檢驗(yàn),P值均小于0.01,證明因變量“就診費(fèi)用”不滿足正態(tài)分布。

2.擬合不同分位數(shù)回歸

對因變量y不同影響因素分析采用多因素分位數(shù)回歸,分別模擬在P0.1,P0.2,P0.3,P0.4,P0.5,P0.6,P0.7,P0.8,P0.9分位數(shù)下的分位數(shù)回歸方程,記錄不同分位數(shù)回歸下的偏回歸系數(shù)。SAS程序如下:

procquantregci=resampling;

model y=x1x2x3x4x5/ quantile=0.1 to 0.9 by 0.1;

run;

“ci=”指定回歸系數(shù)置信區(qū)間的估計方法,選項有:①resampling重復(fù)抽樣法,這是最常用的一個選項;②rank通過倒轉(zhuǎn)等級分?jǐn)?shù)測試估計;③sparsity通過估計稀疏函數(shù)。

“quantile=”指定分位數(shù),如quantile=0.5,擬合中位數(shù)回歸,這是最常見的一種分位數(shù)回歸;quantile=0.1 to 0.9 by 0.1,分別擬合10%~90%的分位數(shù)回歸。

結(jié)果見表2。可見,在0.1和0.2分位數(shù)上,各個影響因素的偏回歸系數(shù)均為0;在0.3百分位數(shù)上,控制了“年齡分組”、“性別”、“就診年份”、“現(xiàn)患其他疾病”后,“就診機(jī)構(gòu)”對“就診費(fèi)用”影響有統(tǒng)計學(xué)意義(P<0.001);在0.4、0.5和0.8百分位數(shù)上,控制了其他影響因素后,只有“性別”因素沒有統(tǒng)計學(xué)意義,其余影響因素均有統(tǒng)計學(xué)意義(P<0.05);在0.6和0.7百分位數(shù)上,控制了其他影響因素后,只有“性別”“就診年份”因素沒有統(tǒng)計學(xué)意義,其余影響因素均有統(tǒng)計學(xué)意義(P<0.001);在0.9百分位上,在控制了其他影響因素后,只有“年齡分組”和“現(xiàn)患其他疾病”對“就診費(fèi)用”影響有統(tǒng)計學(xué)意義。

表2 帶狀皰疹就診費(fèi)用與不同影響因素分位數(shù)回歸分析

3.將各影響因素分位數(shù)回歸系數(shù)作變化趨勢圖。R語言代碼如下:

require(ggplot2)

dat<-read.csv(“E:/tmp/a.csv”)

ggplot(dat,aes(x,y))+

geom_point()+

geom_line()+

geom_ribbon(aes(ymin=a,ymax=b),alpha=0.2)+

labs(x=“quantile”,y=“beta”)

圖中,實(shí)線為在不同分位數(shù)上的偏回歸系數(shù),灰色區(qū)域?yàn)橄鄳?yīng)偏回歸系數(shù)的置信帶。所有的回歸系數(shù)和置信帶均調(diào)整其他影響因素。從結(jié)果可以看出,從0.1~0.9分位數(shù)上的偏回歸系數(shù)來看,“年齡分組”和“就診機(jī)構(gòu)”兩個影響因素偏回歸系數(shù)總體呈現(xiàn)逐漸增加的趨勢,“就診機(jī)構(gòu)”在0.9百分位數(shù)上有所回落;“性別”、“就診年份”和“現(xiàn)患其他疾病”三個影響因素偏回歸系數(shù)總體呈現(xiàn)逐漸下降的趨勢。見圖1。

圖1 各影響因素分位數(shù)回歸系數(shù)變化趨勢圖

小 結(jié)

通過本文中的應(yīng)用實(shí)例結(jié)果可以發(fā)現(xiàn),不同分位數(shù)下針對帶狀皰疹就診費(fèi)用的影響因素作用大小不同,同時也影響了不同分位數(shù)下在控制了其他因素影響后的就診費(fèi)用:性別對帶狀皰疹就診費(fèi)用在0.1~0.9百分位數(shù)上均沒有統(tǒng)計學(xué)意義;就診年份只在0.4和0.8百分位數(shù)上對就診費(fèi)用影響有統(tǒng)計學(xué)意義,而在其他百分位數(shù)上沒有統(tǒng)計學(xué)意義,考慮該結(jié)果可能與本研究選擇的就診年份比較接近有關(guān)。就診年份對帶狀皰疹就診費(fèi)用的影響從0.4和0.8百分位數(shù)上的偏回歸系數(shù)來看,在0.4百分位數(shù)偏回歸系數(shù)為12.79,P<0.05,表明在回歸曲線之下能夠包含40%的數(shù)據(jù)點(diǎn)的時候,2019年就診費(fèi)用高于2018年就診費(fèi)用;但是在0.8百分位數(shù)上偏回歸系數(shù)為-10.76,表明在回歸曲線之下能夠包含80%數(shù)據(jù)點(diǎn)的時候,2019年就診費(fèi)用低于2018年就診費(fèi)用。對于就診機(jī)構(gòu)對帶狀皰疹就診費(fèi)用的影響在0.3至0.9百分位數(shù)上均有統(tǒng)計學(xué)意義,而且整體呈上升趨勢,只有在0.9百分位數(shù)上有所回落。表示患者在三級醫(yī)院就診的費(fèi)用會高于私立醫(yī)院、一級醫(yī)院、二級醫(yī)院。由此可見,利用分位數(shù)回歸分析每一個影響因素對費(fèi)用的影響,不再像普通的線性回歸一樣只偏向反映中心位置的情況,而是能反映分布的全部狀況。需要在每一個分位數(shù)下具體情況具體分析。即便是同一個影響因素,在不同分位數(shù)下對就診費(fèi)用的影響作用大小也會出現(xiàn)不一樣的情況。

采用分位數(shù)回歸分析方法來估計參數(shù),有以下優(yōu)點(diǎn):分位數(shù)回歸的應(yīng)用條件更加寬松。經(jīng)典線性回歸的正態(tài)誤差假設(shè)能確保用最小二乘法可以得到最優(yōu)擬合,如果不做正態(tài)性假設(shè),也可以通過最小二乘法來分析數(shù)據(jù),但只能達(dá)到純粹描述的目的,僅可以做自變量對因變量的作用是否顯著的一個參考。而分位數(shù)回歸并無這一限制,因?yàn)橄鄬τ诮?jīng)典現(xiàn)象回歸只對因變量的條件期望進(jìn)行擬合,其不僅可以將研究重點(diǎn)放在因變量的任意條件分位數(shù)上,而且還能精確反應(yīng)因變量不同部分隨自變量變化的差異。在特定條件下比經(jīng)典線性回歸更加穩(wěn)健。如果模型中的殘差方差不齊或不滿足正態(tài)分布,此時采用分位數(shù)回歸比經(jīng)典線性回歸更加穩(wěn)健,因?yàn)榉治粩?shù)回歸對模型中的隨機(jī)誤差項的分布不做任何假定,且能夠抵抗數(shù)據(jù)中出現(xiàn)的離群值,還可以對全部分位數(shù)進(jìn)行建模分析。結(jié)論的豐富程度比較高。分位數(shù)回歸關(guān)注的是條件分位數(shù)函數(shù)的變化,因分位數(shù)τ不同,擬合出的條件分位數(shù)一般各不相同。假設(shè)數(shù)據(jù)是二維的,則擬合得到的τ條件分位數(shù)函數(shù)所代表的曲線將所有數(shù)據(jù)點(diǎn)分為兩部分,一部分在該曲線下方,占所有點(diǎn)的比例為τ,曲線上方的點(diǎn)占所有點(diǎn)的比例為1-τ。因此,擬合結(jié)果為一組曲線,按τ從小到大的順序依次從數(shù)據(jù)點(diǎn)的底部排列到頂部。如果我們對因變量的低尾部分感興趣,可以將注意力放在0≤τ≤0.5對應(yīng)的分位數(shù)回歸擬合結(jié)果上;如果對高尾部分比較感興趣,可以重點(diǎn)研究0.5≤τ≤1時的回歸結(jié)果[8]??傊?,分位數(shù)回歸給出一組曲線,能夠有足夠的信息來了解因變量的條件分布的全貌。在大樣本理論的基礎(chǔ)上,分位數(shù)回歸估計出來的參數(shù)具有漸進(jìn)更優(yōu)的性質(zhì)[3,7]。

猜你喜歡
因變量位數(shù)回歸系數(shù)
調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
五次完全冪的少位數(shù)三進(jìn)制展開
連續(xù)自然數(shù)及其乘積的位數(shù)分析
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
多元線性回歸的估值漂移及其判定方法
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
偏最小二乘回歸方法
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
基于分位數(shù)回歸的剪切波速變化規(guī)律