国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何用SAS軟件正確分析生物醫(yī)學科研資料XXIV. 結果變量為多值有序變量的高維列聯(lián)表資料的統(tǒng)計分析與SAS軟件實現(xiàn)(二)

2013-05-09 09:50鮑曉蕾王小利胡良平
中國醫(yī)藥生物技術 2013年4期
關鍵詞:置信區(qū)間賦值病程

鮑曉蕾,王小利,胡良平

·講座·

如何用SAS軟件正確分析生物醫(yī)學科研資料XXIV. 結果變量為多值有序變量的高維列聯(lián)表資料的統(tǒng)計分析與SAS軟件實現(xiàn)(二)

鮑曉蕾,王小利,胡良平

編者按

生物統(tǒng)計學是生物學領域科學研究和實際工作中必不可少的工具,在分子生物學迅速發(fā)展的今天,生物統(tǒng)計學更顯示出了它的重要性。實驗設計與數據統(tǒng)計分析是現(xiàn)代生物學的基石,是生物學研究者檢驗假說、尋找模式、建立生物學理論的有利工具,也是生物學研究者探索微觀和宏觀生物世界的必備基礎知識。對于每天甚至是每時每刻涌現(xiàn)的大量的、以天文數字計量的分子遺傳數據,必須借助統(tǒng)計學知識加以分析處理,才能從中獲得有意義的信息?!吧锒鄻有詳祿治觥笔情_展生物多樣性研究的一個重要方面,數據分析能力的高低極大地影響著我們對各種生態(tài)學現(xiàn)象認識的深度和廣度。現(xiàn)在,電子計算機的普及使得生物統(tǒng)計分析過程大大簡化,生物統(tǒng)計分析軟件包的普及將生物統(tǒng)計學從統(tǒng)計學家的書本里解放了出來,簡化了生物統(tǒng)計分析過程,使之成為生物學研究者的常用工具。本刊特邀軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心主任胡良平教授,以“如何用 SAS 軟件正確分析生物醫(yī)學科研資料”為題,撰寫系列統(tǒng)計學講座,希望該系列講座能對生物醫(yī)學科研工作者有所幫助。

對于結果變量為多值有序變量的高維列聯(lián)表資料可使用 CMH 校正的秩和檢驗或有序變量多重 logistic 回歸分析等統(tǒng)計分析方法。在上一期中,我們已經詳細介紹了CMH 校正的秩和檢驗。本期將詳細介紹多值有序變量的logistic 回歸分析。

1 原理

結果變量為多值有序變量的 logistic 回歸又稱為累計logistic 回歸。累積 logistic 回歸模型可視為二值變量logistic 回歸的擴展,其回歸模型可定義如下:

其中 y* 表示觀測現(xiàn)象的內在趨勢,不能被直接測量;ε 為誤差項。當結果變量有 J 個可能的結局,相應的取值為 y = 1、y = 2 …… y = J 時,共有 J – 1 個分界點將各相鄰類別分開。即:

若 y* ≤ μ1,則 y = 1;

若 μ1< y* ≤ μ2,則 y = 2;

……

若 y* > μJ–1,則 y = J。

給定 χ 值的累積概率可以按如下形式表示:

與二值變量的 logit變換相似,累積 logit 變換定義如下:

其中 1 – P(y ≤ j | χ) 即為 P(y ≥ j + 1 | χ),這樣就依次將 J 個可能的結局合并成兩個,從而進行 logistic 回歸分析。

相應地,累積概率可通過以下公式進行預測:

統(tǒng)計軟件在實際運行中,定義 β0j為各類中截距 α 與分界點 μj的綜合,所以上式就轉化為:

在使用不同軟件時,應該注意回歸系數符號的差別。

由上面的討論可以看出,若結果變量有 J 個可能的結局,則可獲得 J – 1 個累積 logit 函數(當進行統(tǒng)計分析時,若有 m 個截距項 β0j無統(tǒng)計學意義,則只能獲得J – m – 1 個累積 logit 函數)。累積 logistic 回歸模型對每一個累積 logit 函數各有一個不同的 β0j估計,然而對所有的累積 logit 函數,變量 χk卻有一個相同的 βk估計,因為其假設條件為自變量的作用與所有累積 logit 的截斷點無關。在此假設條件下,不同累積對數發(fā)生比的回歸線相互平行,只是截距參數有所不同。這被稱為成比例發(fā)生比假設條件或平行線假設條件。

運用累積 logistic 回歸模型首先需要對平行線假設條件進行檢驗。如果這一假設條件被拒絕,便說明自變量 χk對不同的 logit 有不同的 βk,因而說明累積 logistic 回歸模型不適合,需要采用其他模型來進行資料的分析,如可在模型中引入二次項或交互項。

2 變量賦值

在 logistic 回歸模型中,原因變量可以是連續(xù)型變量,也可以是二值變量、多值有序變量或多值名義變量。

如果原因變量是連續(xù)變量,一般不需要進行處理,可直接建立 logistic 回歸模型。但有時根據專業(yè)知識需對其進行分級以獲得更有實際意義的結果時,連續(xù)變量就轉換成了有序變量,此時可按影響結果變量由小到大的順序賦值為 1、2 ……,并將它當作連續(xù)型變量處理或直接引入啞變量,建立 logistic 回歸模型。比如在肺癌危險因素的病例-對照研究中,研究者往往感興趣的是年齡每增加 5 歲(根據專業(yè)知識和試驗目的決定)肺癌發(fā)病的危險性是基礎狀態(tài)時的多少倍,而年齡每增加 1 歲肺癌發(fā)病的危險性是基礎年齡時的多少倍往往沒有多大實際意義。

如果原因變量是二值變量,一般可按 0、1 賦值。

如果原因變量是多值名義變量,需引入啞變量(dummy variable),每個啞變量都是一個二值變量,所需啞變量的數目為多值名義變量的類別數減 1。如“血型”是一個多值名義變量,有 A、B、AB、O 四種,若以 O 型血為基準,需引入 3 個(4 – 1 = 3)啞變量來描述。令

SAS 程序如下,程序名為 example3。

則可得到下面的對應關系(表 1):

表1 用 3 個啞變量描述一個四值名義的血型變量

如果原因變量是多值有序變量,一般可按影響結果變量由小到大的順序賦值為 1、2 ……,并將它當作連續(xù)型變量處理,但這樣做有時并不科學,因為該有序變量每上升或下降一個等級對結果變量的影響并非總是“線性”的。若遇到有序原因變量按連續(xù)變量處理所得回歸效果不理想時,建議引入啞變量的方式來處理。

結果變量為多值有序變量,可按其程度或一般默認的順序由小到大地賦值為 1、2 ……。

【例 1】 在一項臨床試驗中,研究病程與依沙酰胺療效的關系。試驗在三所醫(yī)院中同時進行,具體療效數據見表 2,試對病程與治療效果之間的關系進行分析。

表2 病程與依沙酰胺療效的數據

程序說明:首先建立數據集,程序中的 a 表示試驗中心,a = 1 表示中心 1,a = 2 表示中心 2,a = 3 表示中心 3;b 表示病程,b = 1 表示 < 1 個月組,b = 2 表示 1 ~ 3 個月組,b = 3 表示 3 個月 ~ 5 年組,b = 4表示 > 5 年組;c 表示療效,c = 1 表示治愈,c = 2 表示好轉,c = 3 表示無效;變量 f 表示頻數。調用 logistic 過程進行有序變量多重 logistic 回歸分析。由于試驗中心是多值名義變量,需對其賦啞變量;病程是多值有序變量,可將其當成連續(xù)型變量直接賦值,但最好是對其賦啞變量。若自變量是二值變量,則只需直接賦值 0、1 即可。class 語句可實現(xiàn)對自變量自動賦啞變量,同時還能保證啞變量在回歸方程中同進同出。class a b 表示對 a、b 兩個因素均自動賦啞變量。選項param = ref 指定將其中的一個水平作為基準實現(xiàn)啞變量賦值,默認以輸入的該定性變量最后一個水平為基準。若想以其他水平為基準,比如希望以 a 的第一個水平為基準對因素 a 賦啞變量,則只需將語句改成 class a (ref = ‘1’) b/param = ref 即可。model 語句表示建模,等號前表示因變量,等號后表示自變量。選項 selection = stepwise 表示用逐步回歸法進行變量篩選,其默認的進入和剔除方程的顯著性水準為 0.05;若希望改變這一標準,可在選項后加入 sle = xx 和 sls = xx 選項,前者指定進入方程的標準,后者指定剔除方程的標準,xx 表示具體的數值(0 ~ 1 之間)。freq f指定 f 變量為頻數變量。

SAS 程序運行結果:

Class level information

以上是通過 class 語句對因素 a 和因素 b 自動賦啞變量的結果??梢钥吹?,兩因素均以最后一個水平為基準。以 a 因素為例,啞變量 a1 表示 a 因素的第一個水平相對于第三個水平進行分析;啞變量 a2 表示 a 因素的第二個水平相對于第三個水平進行分析。b 因素的啞變量意義類似。

Summary of stepwise selection

以上為逐步篩選法的篩選結果,最終只有因素 b 進入了回歸方程(χ2= 13.4863,P = 0.0037)。

Score test for the proportional odds assumption

以上為平行線假設的檢驗結果:χ2= 0.8909,P = 0.8276 > 0.05,說明資料滿足平行線假設。

Type 3 analysis of effects

以上是將因素 b 作為一個整體的假設檢驗結果:wald χ2= 13.5102,P = 0.0037 < 0.05,說明病程對療效的影響有統(tǒng)計學意義。

Analysis of maximum likelihood estimates

以上為參數估計及假設檢驗的結果。本例結果變量有 3個水平,故模型包含 2 個截距項。若 P1、P2和 P3分別表示治愈、好轉和無效發(fā)生的概率,則回歸方程為:

Odds ratio estimates

以上是對優(yōu)勢比的估計結果:OR1vs4= 2.576,其 95%置信區(qū)間為(1.445,4.592);OR2vs4= 2.473,其 95% 置信區(qū)間為(1.205,5.072);OR3vs4= 1.382,其 95% 置信區(qū)間為(0.830,2.302)。

統(tǒng)計及專業(yè)結論:病程對療效的影響有統(tǒng)計學意義(P = 0.0037 < 0.05),而試驗中心對療效的影響沒有統(tǒng)計學意義。OR1vs4= 2.576,其 95% 置信區(qū)間為(1.445,4.592),說明病程小于 1 個月的療效是病程大于 5 年療效的2.576倍;OR2vs4= 2.473,其 95% 置信區(qū)間為(1.205,5.072),說明病程為 1 ~ 3 個月的療效是病程大于 5 年療效的 2.473 倍;OR3vs4= 1.382,其 95% 置信區(qū)間為(0.830,2.302),說明病程為 3 個月 ~ 5 年的療效是病程大于 5 年療效的 1.382 倍。

[1] Hu LP. Statistics facing practical scientific issues -- (2) multi-factor designs and linear model analysis. Beijing: People’s Medical Publishing House, 2012:508-517. (in Chinese)

胡良平. 面向問題的統(tǒng)計學——(2)多因素設計與線性模型分析.北京: 人民衛(wèi)生出版社, 2012:508-517.

[2] Hu LP. Medical statistics-analysis of quantitative and qualitative data applying the triple-type theory. Beijing: People’s Military Medical Press, 2009:363-375. (in Chinese)

胡良平. 醫(yī)學統(tǒng)計學-運用三型理論分析定量與定性資料. 北京:人民軍醫(yī)出版社, 2009:363-375.

10.3969/cmba.j.issn.1673-713X.2013.04.014

100850 北京,軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心(鮑曉蕾、胡良平);100850 北京,軍事醫(yī)學科學院門診部(王小利)

胡良平,Email:lphu812@sina.com

猜你喜歡
置信區(qū)間賦值病程
鼻負壓置換治療對呼吸道合胞病毒肺炎患兒病程及病情的影響
Maxwell分布參數的最短置信區(qū)間研究
p-范分布中參數的置信區(qū)間
定數截尾場合Pareto分布形狀參數的最優(yōu)置信區(qū)間
強賦值幺半群上的加權Mealy機與加權Moore機的關系*
棗莊地區(qū)小兒支原體肺炎實驗室檢驗結果及流行特點的研究
算法框圖問題中的易錯點
兩組率同為100%或0%時率差置信區(qū)間估計的SAS實現(xiàn)*
利用賦值法解決抽象函數相關問題オ
針灸配合關節(jié)腔內注射治療膝關節(jié)滑膜炎的臨床療效觀察
梁山县| 军事| SHOW| 靖西县| 盱眙县| 应用必备| 县级市| 黄梅县| 清水河县| 汕尾市| 石屏县| 门头沟区| 长丰县| 桃源县| 曲水县| 葫芦岛市| 青阳县| 许昌市| 济南市| 清河县| 通海县| 蓬溪县| 平远县| 龙泉市| 特克斯县| 阿克苏市| 通渭县| 饶平县| 齐河县| 手游| 廉江市| 乡宁县| 西昌市| 同江市| 郁南县| 墨脱县| 房产| 灵台县| 河源市| 利津县| 灯塔市|