第二講中醫(yī)藥研究中統(tǒng)計分析應(yīng)遵循的基本思路

2023-05-25 07:19姚應(yīng)水

現(xiàn)代中藥研究與實踐 2023年2期

姚應(yīng)水

（1.皖南醫(yī)學(xué)院公共衛(wèi)生學(xué)院/慢性病防制研究所，安徽蕪湖 241002；2.安徽中醫(yī)藥高等?？茖W(xué)校臨床醫(yī)學(xué)系，安徽蕪湖 241002）

在中醫(yī)藥科學(xué)研究中，統(tǒng)計分析的正確選擇是得到可靠結(jié)論的基本保證。不同的統(tǒng)計分析方法有各自的應(yīng)用條件和適用范圍，實際應(yīng)用時，必須根據(jù)研究目的、資料的性質(zhì)、設(shè)計方案以及樣本含量大小等選擇適當(dāng)?shù)慕y(tǒng)計分析方法，以期達到統(tǒng)計分析為科學(xué)研究服務(wù)的目的[1]。研究者的統(tǒng)計學(xué)知識和分析策略對保障科研工作的科學(xué)性與嚴謹性具有重要作用。在中醫(yī)藥科學(xué)研究中，統(tǒng)計分析方法的選擇可遵循以下的基本原則：（1）研究分析的目的及意義；（2）反應(yīng)變量是單變量、雙變量還是多變量；（3）欲分析的資料是屬于計量資料、無序分類資料、有序分類資料中的哪種類型；（4）欲分析的資料所屬的設(shè)計方案，是完全隨機設(shè)計、配對設(shè)計、隨機區(qū)組設(shè)計、析因設(shè)計及其他的設(shè)計類型；（5）自變量（影響因素）是一個還是多個；（6）分類變量是幾個水平，即是一組、兩組、多組樣本；（7）欲分析的資料樣本量是否較大；（8）樣本量較小時，判斷資料是否滿足所選用的統(tǒng)計分析方法的應(yīng)用條件。

1 單變量計量資料的分析思路

1.1 樣本均數(shù)與已知總體均數(shù)比較

該類資料的統(tǒng)計分析步驟為：單變量分析；資料為計量資料；樣本均數(shù)與已知總體均數(shù)比較；先看樣本量大小，若樣本足夠大，則選用單樣本t/Z 檢驗（樣本均數(shù)與總體均數(shù)比較的t/Z 檢驗）；若樣本較?。╪ ＜ 50），則需要先判斷該資料是否符合正態(tài)分布，若資料符合正態(tài)分布，選用單樣本t檢驗；若不符合正態(tài)分布，則考慮變量變換或者選用非參數(shù)檢驗方法，即單樣本與總體中位數(shù)比較的Wilcoxon 符號秩和檢驗。樣本均數(shù)與已知總體均數(shù)比較的分析思路可參見圖1。

圖1 樣本均數(shù)與已知總體均數(shù)比較的分析思路示意圖

1.2 兩樣本均數(shù)比較

1.2.1 完全隨機設(shè)計/成組設(shè)計的兩樣本均數(shù)比較資料先判斷資料是否滿足正態(tài)性和方差齊性的條件，若資料符合正態(tài)分布和方差齊性，則選用兩樣本比較的t檢驗；若不滿足正態(tài)性或方差齊性的條件，則考慮變量變換，也可以選用兩樣本比較的Wilcoxon秩和檢驗。

1.2.2 配對設(shè)計樣本均數(shù)比較資料需先求差值，判斷差值是否符合正態(tài)分布；若符合正態(tài)分布，則選用配對t檢驗；若不符合正態(tài)分布，則考慮變量變換或者選用Wilcoxon 符號秩和檢驗。兩樣本均數(shù)比較的分析思路可參見圖2。

圖2 兩樣本均數(shù)/配對樣本均數(shù)比較的分析思路示意圖

1.3 多個樣本均數(shù)比較

單變量的多個樣本均數(shù)比較，完全隨機設(shè)計和隨機區(qū)組設(shè)計兩種情況較為常見。

1.3.1 完全隨機設(shè)計/成組設(shè)計的多個樣本均數(shù)比較若各組樣本服從正態(tài)分布，且方差齊性，則選用完全隨機設(shè)計的單因素方差分析（one-way ANOVA）。其檢驗結(jié)果若有統(tǒng)計學(xué)意義，則還需進行兩兩比較?？筛鶕?jù)研究目的在SNK-q檢驗、LSD-t檢驗、Dunnett-t檢驗等兩兩比較方法中選擇。若資料不滿足正態(tài)性與方差齊性的條件，則選用Kruskal-Wallis 秩和檢驗。同樣，檢驗結(jié)果有統(tǒng)計學(xué)意義時，通常需進一步兩兩比較（可參考相關(guān)書籍）[2]。

1.3.2 隨機區(qū)組設(shè)計的的多個樣本均數(shù)比較該類資料為單變量的比較，但涉及兩個分組因素，一個為處理因素，另一個為區(qū)組因素，也稱作配伍組。如果資料滿足正態(tài)性的條件，則采用隨機區(qū)組設(shè)計的雙因素方差分析，如果不滿足上述條件，則采用隨機區(qū)組設(shè)計資料的Friedman 秩和檢驗。

1.3.3 其他類型資料的方差分析主要有析因設(shè)計、重復(fù)測量資料的方差分析等。析因設(shè)計中最簡單的是兩因素兩水平的方差分析，此時觀察兩個因素，每個因素兩個水平，共有2×2 即4 種不同的因素水平組合，要分別計算兩個因素的效應(yīng)及因素間的交互作用效應(yīng)。而對于重復(fù)測量的資料，由于同一受試對象在不同時點的觀察值之間彼此不獨立，因此，這類資料的方差分析具有一定的特殊性，可進行單變量的方差分析，也可視不同時間點的觀測值為多個反應(yīng)變量，進行多變量分析（可參考相關(guān)書籍）[3-4]。

單變量計量資料多樣本均數(shù)比較的分析思路參見圖3。

圖3 多樣本均數(shù)比較的分析思路示意圖

2 單變量計數(shù)資料的分析思路

2.1 兩個率比較2×2 表資料的分析思路

（1）完全隨機設(shè)計兩樣本率的比較時，首先是考慮樣本含量n和理論頻數(shù)T，若n＜40 或T ＜1，選擇Fisher 精確概率法；如果n≥40，T ≥5 時選擇卡方檢驗；如果n≥40，出現(xiàn)1 ≤T ＜5 的情況，則選擇校正卡方檢驗。

（2）調(diào)查設(shè)計兩變量關(guān)聯(lián)性分析時，分析方法選擇同兩樣本率的比較一樣，不同的是要同時計算列聯(lián)系數(shù)，以考察關(guān)聯(lián)的密切程度。

（3）配對設(shè)計資料兩個率比較時，選擇McNemar 檢驗，變量關(guān)聯(lián)性選列聯(lián)系數(shù)分析。

2×2 表資料的分析思路參見圖4。

圖4 兩個率比較的分析思路示意圖

2.2 多個率或構(gòu)成比R×C 表格資料的分析思路

R×C 表資料可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌念悺?/p>

2.2.1 雙向無序R×C 表資料 R×C 表資料中兩個分類變量皆為無序分類變量時，①若研究目的為多個樣本率（或構(gòu)成比）的比較，可用行×列表資料的χ2檢驗；②若研究目的為分析兩個無序分類變量間是否存在關(guān)聯(lián)，宜用行×列表資料χ2的檢驗并計算Pearson 列聯(lián)系數(shù)，分析關(guān)聯(lián)的密切程度。

2.2.2 單向有序R×C 表資料單向有序R×C 表資料有兩種形式。

（1）R×C 表資料中的分組變量是有序的（如年齡組），而應(yīng)變量是無序的（如疾病的類型），其研究目的通常是分析有序分組變量間率或構(gòu)成比的差別。例如：分析不同年齡組某病患病率的差別，此種單向有序R×C 表資料可用行×列表資料的χ2檢驗進行分析。

（2）R×C 表資料中的分組變量為無序的（如藥物分甲、乙、丙三種），而應(yīng)變量是有序的（如藥物治療效果是治愈、有效、無效、惡化、死亡的等級），其研究目的為比較不同對比組的有序等級是否有差別。例如：甲、乙、丙三種療法的治療效果比較，此種單向有序R×C 表資料宜用秩轉(zhuǎn)換的非參數(shù)檢驗進行分析，即Kruskal-Wallis 秩和檢驗。

2.2.3 雙向有序?qū)傩韵嗤腞×C 表資料 R×C表資料中的兩個分類變量皆為有序且屬性相同。該種資料實際上是配對四格表資料的擴展，即水平數(shù)≥3的配伍資料，例如對同一批樣品用兩種檢測方法同時進行檢測，其檢測結(jié)果為-、±、+、++、+++。其研究目的通常是分析兩種檢測方法的一致性，此時宜用一致性檢驗或稱Kappa 檢驗。

2.2.4 雙向有序?qū)傩圆煌腞×C 表資料 R×C表資料中兩個分類變量皆為有序的，但屬性不同。對于該資料分三種情況。

（1）研究目的為分析等級分組變量之間應(yīng)變量有無差別時，例如分析不同年齡組（20 ～、30 ～、40 ～、50 及以上）患者療效（治愈、有效、無效）之間有無差別，可把該資料視為單向有序R×C 表資料，而選用Kruskal-Wallis 秩和檢驗。

（2）研究目的為分析兩個有序分類變量間是否存在相關(guān)關(guān)系，選用等級相關(guān)分析。

（3）研究目的為分析兩個有序分類變量間是否存在線性變化趨勢，宜用線性趨勢檢驗。

R×C 表資料的分析思路可參見圖5。

圖5 R×C 表資料的分析思路示意圖

3 單變量等級資料的分析思路

兩組配對設(shè)計的資料比較，可選Wilcoxon 符號秩和檢驗；成組設(shè)計/完全隨機設(shè)計的兩樣本等級資料比較，可選兩樣本比較的Wilcoxon 秩和檢驗或Mann-Whiney U 檢驗；若為成組設(shè)計/完全隨機設(shè)計的多個樣本等級資料比較，可選Kruskal-Wallis 秩和檢驗；隨機區(qū)組設(shè)計的多個樣本等級資料比較，選擇Fridman 秩和檢驗。

單變量等級資料的分析思路參見圖6。

圖6 等級資料的分析思路示意圖

4 雙變量資料的分析思路

4.1 直線相關(guān)分析

分析兩變量的相關(guān)關(guān)系時，先繪制散點圖，如果圖中提示兩變量有線性趨勢，且兩變量滿足雙變量正態(tài)分布，可選Pearson 直線相關(guān)分析；若兩變量不滿足雙變量的正態(tài)分布或是等級資料，可選Spearman秩相關(guān)分析。

4.2 直線回歸分析

分析兩變量的回歸關(guān)系時，先繪制散點圖，如果圖中提示兩變量有線性趨勢，且應(yīng)變量滿足正態(tài)分布時，可選直線回歸分析。

4.3 曲線回歸分析

分析兩變量的回歸關(guān)系時，若散點圖顯示兩變量的關(guān)系呈曲線趨勢，可進行曲線直線化變換，也可按曲線類型作相應(yīng)曲線回歸分析，如指數(shù)曲線、多項式曲線、成長曲線等分析方法。雙變量資料的分析思路參見圖7。

圖7 雙變量資料的分析思路示意圖

5 多因素分析的分析思路

5.1 多元線性回歸分析

多元線性回歸是直線回歸的擴展，研究的因變量只有一個，但是自變量卻有多個。在中醫(yī)藥研究中，常被用來篩選危險因素、分析交互效應(yīng)、控制混雜因素、預(yù)測與控制等。多元線性回歸分析的前提假定條件是線性、獨立、正態(tài)及方差齊性。在實際問題中，殘差分析常被用來考察資料是否滿足這四個前提條件。多元線性回歸方程=b0+b1X1+b2X2+…+bmXm，bi（i= 1、2、…、m）稱為因變量Y對自變量Xi的偏回歸系數(shù)，表示除自變量Xi以外的其余m-1個自變量都固定不變時，自變量Xi每變化一個單位，因變量Y平均變化的單位數(shù)值，確切地說，當(dāng)bi＞0時，自變量Xi每增加一個單位，因變量Y平均增加bi個單位；當(dāng)bi＜0 時，自變量Xi每增加一個單位，因變量Y平均減少bi個單位。標準化偏回歸系數(shù)常常用來比較各個自變量對反應(yīng)變量的貢獻大小。確定系數(shù)和調(diào)整的確定系數(shù)常常用于評價模型擬合效果的好壞。對整個回歸模型的假設(shè)檢驗一般采用方差分析，對各總體偏回歸系數(shù)是否為零的假設(shè)檢驗常采用t檢驗。當(dāng)建模時存在多個自變量時，自變量之間可能會存在著較強的相關(guān)性，即多重共線性現(xiàn)象，這種情況下會使模型參數(shù)估計值不穩(wěn)定或不易解釋。逐步篩選變量時一定程度上解決此類問題的最簡單的做法，其次可以利用主成分間的正交性即采用主成分回歸方法來解決共線性問題。多重線性回歸分析中篩選自變量的方法有前進法、后退法、逐步回歸法和最優(yōu)子集法等。用于篩選自變量的指標有殘差平方和、殘差均方、確定系數(shù)、調(diào)整的確定系數(shù)、Cp統(tǒng)計量等。

5.2 二分類Logistic 回歸分析

Logistic 回歸模型分析是多變量統(tǒng)計方法中的重要內(nèi)容，根據(jù)設(shè)計類型和構(gòu)建似然函數(shù)模型的不同，可分為非條件模型和條件模型兩類。自變量X1，X2，…，Xm可以是連續(xù)型變量，也可以是離散型變量，因變量是分類變量。該方法可以篩選危險因素、校正混雜因素、預(yù)測與判別。Logistic 回歸模型的參數(shù)估計常采用最大似然法，求得Logistic 回歸方程后，仍需對回歸方程和每個回歸系數(shù)進行假設(shè)檢驗?；貧w方程的檢驗一般可用似然比檢驗、Wald 卡方檢驗、記分檢驗等，回歸系數(shù)的假設(shè)檢驗常用Wald 卡方檢驗。為使建立的Logistic 回歸模型更為穩(wěn)定，需要對回歸自變量進行篩選，根據(jù)自變量的作用大小來決定是否將其引入回歸方程。Logistic 回歸模型的參數(shù)β和OR值有聯(lián)系：當(dāng)某自變量的回歸系數(shù)β＞0 時，其OR＞1，該因素為危險因素；當(dāng)β＜0 時，其OR＜1，該因素為保護因素；當(dāng)β＝0 時，其OR＝1，該因素對結(jié)果不起作用。Logistic 回歸分析結(jié)果報告應(yīng)包括：危險因素、相應(yīng)的檢驗統(tǒng)計量、P值、各因素的β、標準誤（SE）、各因素OR值及OR值的95%可信區(qū)間。

5.3 生存分析

生存分析是將終點事件的出現(xiàn)與否和達到終點所經(jīng)歷的時間相結(jié)合起來進行分析的方法，其主要特點是考慮了每個觀察對象達到終點所經(jīng)歷的時間長短。終點可以是死亡，也可以是疾病的發(fā)生，或者是藥物的治療效果等。生存率的估計有壽命表法和Kaplan-Meier 法，前者適用于大樣本資料，后者適用于小樣本。Cox 模型屬于比例風(fēng)險模型。模型中回歸系數(shù)βj的含義是變量Xj每改變一個單位，風(fēng)險函數(shù)增加exp （βj）倍。Cox 回歸分析可用于影響因素分析、校正混雜因素后的組間比較以及生存預(yù)測等[5]。

上述三種回歸模型形式比較相似，不同之處在于因變量的資料類型，若Y為數(shù)值變量資料，可考慮選用多元線性回歸分析；若Y為分類變量資料，特別是二分類變量，考慮選用Logistic 回歸分析；若Y為時間變量資料，則優(yōu)先選用Cox 比例風(fēng)險模型。這三種多因素分析模型中，對自變量未進行特別規(guī)定，既可以是數(shù)值變量，也可以是分類變量，但是當(dāng)自變量為無序多分類資料時，分析前要進行啞變量設(shè)置，以有利于結(jié)果的正確分析和解釋。

6 結(jié)論

數(shù)據(jù)管理和分析貫穿整個中醫(yī)藥研究過程中，不同類型的研究，數(shù)據(jù)管理和統(tǒng)計分析的方法及指標選擇不同，應(yīng)掌握每種具體方法的應(yīng)用條件，科學(xué)合理地選用，對中醫(yī)藥研究的順利實施至關(guān)重要。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

第二講 中醫(yī)藥研究中統(tǒng)計分析應(yīng)遵循的基本思路