梁明佩 潘明志 唐毓金 黃照河 黃研研
廣西醫(yī)學(xué)類科技期刊常見統(tǒng)計學(xué)錯誤淺析
梁明佩 潘明志 唐毓金 黃照河 黃研研
通過分析廣西醫(yī)學(xué)類科技期刊中常見的t/u檢驗、χ2檢驗錯誤類型,以具體的例子提醒廣大作者及編者要重視醫(yī)學(xué)科技論文中的統(tǒng)計學(xué)處理,以減少錯誤,提高論文的質(zhì)量。
科技期刊;醫(yī)學(xué)統(tǒng)計學(xué);錯誤分析
[作者]梁明佩、唐毓金、黃照河、黃研研,《右江醫(yī)學(xué)》編輯部;
潘明志(通訊作者),副編審,《右江醫(yī)學(xué)》編輯部。
統(tǒng)計學(xué)方法在醫(yī)學(xué)生物論文中的作用不言而喻,正確的統(tǒng)計學(xué)處理是確保論文結(jié)論經(jīng)得起時間考驗的重要保證,也是考量論文質(zhì)量的重要評價內(nèi)容之一。因此,統(tǒng)計學(xué)數(shù)據(jù)的客觀性和準(zhǔn)確性顯得極其重要。我們在前期調(diào)查了廣西醫(yī)學(xué)類科技期刊統(tǒng)計學(xué)的應(yīng)用現(xiàn)況,發(fā)現(xiàn)廣西醫(yī)學(xué)類科技期刊統(tǒng)計學(xué)使用現(xiàn)況與國內(nèi)其他期刊相似,使用的統(tǒng)計學(xué)方法計量資料主要有t/u檢驗、方差分析,計數(shù)資料主要有卡方檢驗,等級分組資料主要有秩和檢驗。同時我們在研究中也發(fā)現(xiàn)這些期刊在統(tǒng)計學(xué)使用過程中或多或少存在一些錯誤,下面將針對這些錯誤歸類進(jìn)行淺析,以引起編輯同行在以后的工作中更加重視統(tǒng)計學(xué)審查。
(一)t檢驗計算結(jié)果錯誤或判斷不確切
這類的情況在廣西的醫(yī)學(xué)類期刊出現(xiàn)相對多些。計算結(jié)果錯誤多數(shù)是編輯未認(rèn)真復(fù)核引起的,t檢驗的判斷一般先通過公式計算出t值,然后根據(jù)t值判斷P值大小,通??煞譃镻<0.05(有統(tǒng)計學(xué)意義)或P<0.01(有極顯著統(tǒng)計學(xué)意義)。如果應(yīng)該判斷為P<0.01而判斷為P<0.05則為判斷不確切。如表1即為t值計算結(jié)果錯誤,表2為t值判斷不確切。
表1兩組的樣本均為40例,作者目的是比較兩組治療后各種微量元素測量結(jié)果是否有差異,原結(jié)果P值判斷是正確的,但t值計算錯誤,括號外為原來的結(jié)果,而括號內(nèi)為正確的結(jié)果。出現(xiàn)這樣的錯誤應(yīng)該是編輯在審核修改過程中未對統(tǒng)計結(jié)果進(jìn)行復(fù)核,或缺乏統(tǒng)計學(xué)知識,從而隨作者原來的結(jié)果所致。而表2中各t值均比較大,經(jīng)查t界值表,P均<0.001,差異是有極顯著性統(tǒng)計學(xué)意義的,而非P<0.05,因此,作者在判斷上是不夠準(zhǔn)確的。
表1:兩組患者治療后微量元素測量比較(±s)
表1:兩組患者治療后微量元素測量比較(±s)
組別鈉 鉀 氯 鈣A組 135.69±4.92 3.78±0.78 99.52±7.23 1.93±0.55 B組 97.32±8.48 3.75±0.86 134.68±4.84 1.98±0.68 t 8.26(0.9256)7.15(0.1634)3.15(1.2486)2.01(0.3616)P?。?.05 >0.05?。?.05 >0.05
表2:60例患者治療前后血壓比較(mmHg)
(二)以兩兩t檢驗替代方差分析及q檢驗
這類錯誤在廣西醫(yī)學(xué)類期刊中相對少見。t檢驗每次只能比較二個平均數(shù),僅適用于單因素一、二水平的實驗設(shè)計類型。而對于單因素多水平或多因素多水平等的設(shè)計,則不宜使用t檢驗,因為這樣會破壞原來的整體設(shè)計,使結(jié)果出現(xiàn)假陽性的概率大大增加,其結(jié)果的可信度明顯下降。因此,對于多個樣本均數(shù)的比較,應(yīng)根據(jù)資料是否符合正態(tài)分布、總體方差是否齊來選擇統(tǒng)計學(xué)方法,如資料服從正態(tài)分布,且各組資料的總體方差齊,則選擇方差分析。我們看下面的例子(表3)。
表3:各組麻醉持續(xù)時間比較(±s)
表3:各組麻醉持續(xù)時間比較(±s)
組別 n 持續(xù)時間(min)Ⅰ組 40 118±13Ⅱ組 40 114±16Ⅲ組 40 111±12
本例采用方差分析結(jié)果為:F=2.60,P=0.0785>0.05,即各組間麻醉持續(xù)時間差異無統(tǒng)計學(xué)意義,沒有必要再進(jìn)一步兩兩q檢驗。而本如果采用兩兩比較t檢驗,其結(jié)果為ⅠvsⅡ:t=1.2271,P=0.2235;ⅠvsⅢ:t=2.5024,P=0.0144;ⅡvsⅢ:t=0.9487,P=0.3457。從結(jié)果看,Ⅰ組與Ⅲ組比較是有統(tǒng)計學(xué)意義的,這與采用方差分析的結(jié)果完全相反。
(三)誤以成組t檢驗替代配對t檢驗
配對設(shè)計主要有幾種情況:(1)同一受試對象處理前后的數(shù)據(jù);(2)同一受試對象兩個部位的數(shù)據(jù);(3)同一批樣本用兩種方法檢驗;(4)配對的兩個受試對象分別接受兩種處理所得到的數(shù)據(jù)。配對設(shè)計能縮小實驗對象間的個體差異,減少實驗誤差,提高效率。如將成組t檢驗替代配對t檢驗,則無形中擴(kuò)大了樣本數(shù)量,增大標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤,從而使P值也增大,這樣就有可能得出假陰性結(jié)果(從有統(tǒng)計學(xué)意義變?yōu)闊o統(tǒng)計學(xué)意義)。舉例(表4):
表4:患者治療前后AST變化情況(±s)
表4:患者治療前后AST變化情況(±s)
觀察時間 n AST(U/L)治療前 24 35.5±9.5治療后 24 28.5±8.1 t -3.232 P -0.002
本例是比較治療前后AST的變化,采用自身對照研究,錯誤采用兩樣本成組設(shè)計的t檢驗,把同一樣本視為兩個樣本,擴(kuò)大的觀察樣本,使得檢驗效能降低。本例正確的處理方法是通過原始數(shù)據(jù),計算出治療前后AST的差值平均值和差值標(biāo)準(zhǔn)差,采用配對t檢驗進(jìn)行處理,具體方法可查閱相關(guān)統(tǒng)計學(xué)書籍。
(四)誤用配對t檢驗替代重復(fù)測量方差分析
重復(fù)測量數(shù)據(jù)是臨床試驗中常用的數(shù)據(jù),是指同一觀察對象的同一指標(biāo)在多個不同時間點(3個或3個以上)進(jìn)行多次測量所獲得的資料,主要用來觀察受試對象的觀察指標(biāo)在不同時間點的動態(tài)變化情況,如觀察麻醉過程中的血壓、心率等的變化,都屬重復(fù)測量數(shù)據(jù)。該類數(shù)據(jù)常采用重復(fù)測量方差進(jìn)行分析。表5即為典型的多樣本重復(fù)測量的均數(shù)比較,如要比較A組(或B組)不同時間測量值是否有統(tǒng)計學(xué)差異,首選單因素重復(fù)測量資料的方差分析,推斷不同時間測得的總體均數(shù)是否相等,若不同時間測得的總體均數(shù)不相等或不全相等,則進(jìn)一步進(jìn)行不同時間兩兩比較。
表5:兩組患者PCEA期間鎮(zhèn)痛質(zhì)量評分(n=40,±s)
表5:兩組患者PCEA期間鎮(zhèn)痛質(zhì)量評分(n=40,±s)
組別 2h 4h 8h 24h 48h A組 0.6±0.5 1.5±0.6 1.6±0.7 1.7±0.7 1.7±0.8 B組 0.8±0.7 1.6±0.8 1.8±0.7 1.8±0.9 1.9±0.8
(一)誤將四格表χ2檢驗替代校正χ2檢驗或確切概率法
目前,關(guān)于四格表資料各種檢驗方法的應(yīng)用條件雖仍有不同意見,但一般可根據(jù)以下三種條件選擇:(1)總例數(shù)<40或最小的理論頻數(shù)<1,應(yīng)選擇“確切概率法”;(2)總例數(shù)≥40且最小的理論頻數(shù)≥1,但最小的理論頻數(shù)<5,應(yīng)選擇“校正法”;(3)總例數(shù)≥40且最小的理論頻數(shù)≥5,應(yīng)選擇“非校正法”。目前,在部分期刊中,誤將四格表χ2檢驗替代校正χ2檢驗或確切概率法的現(xiàn)象仍不少,但只要掌握好四格表資料的檢驗方法的應(yīng)用條件,該類錯誤是比較容易避免的。由于相關(guān)的報道比較多,在此不再舉例。
(二)誤將四格表χ2檢驗替代配對四格表χ2檢驗
舉例(表6),應(yīng)用高頻彩色多普勒超聲血流能量圖(PDI)與彈性成像兩種方法鑒別92個乳腺腫塊良惡性,比較兩種方法的鑒別情況。作者采用一般的四格表χ2檢驗,所得結(jié)果為χ2=11.52,P<0.01。而此例為比較典型的配對資料,應(yīng)采用配對四格表χ2檢驗,結(jié)果為卡方值(校正)=0.1379,P=0.7103。
表6:PDI與彈性成像兩種方法對乳腺腫塊良惡性診斷的對照(n=92)
(三)誤用χ2檢驗代替秩和檢驗
對于單向有序分類資料(等級資料),一般宜采用成組設(shè)計兩樣本比較的秩和檢驗(Wilcoxon兩樣本比較法)或用Ridit分析,但運用Ridit分析時要求樣本含量足夠大,因此,大多情況選擇秩和檢驗。舉例(表7),觀察兩組治療后的臨床效果。本例為典型的等級資料,經(jīng)Wilcoxon兩樣本比較秩和檢驗,u=-1.1099,P=0.2670。而不宜采用2×C表資料的χ2檢驗,因為2×C表資料的χ2檢驗不考慮等級的差別,只能說明各組的“構(gòu)成比”是否相同,而不宜判斷各組在程度上的差異。所以,對于單向有序分類資料,最好用秩和檢驗或Ridit分析進(jìn)行假設(shè)檢驗。此外,既往對應(yīng)本例,也有界定“治愈+顯效+好轉(zhuǎn)=總有效”之后,進(jìn)行四格表卡方檢驗的做法,檢驗結(jié)果為:χ2=2.2487,P=0.1337,看似統(tǒng)計判斷結(jié)果與Wilcoxon兩樣本比較秩和檢驗一致,但實際上兩者統(tǒng)計內(nèi)涵不同,四格表卡方檢驗是推斷兩組總體率有無差別,而Wilcoxon兩樣本比較秩和檢驗是推斷兩組總體分布是否相同,顯然,秩和檢驗或Ridit分析更能準(zhǔn)確地反映表7的實際情況,是更合適的統(tǒng)計學(xué)方法。
總之,以上所列舉的部分醫(yī)學(xué)統(tǒng)計學(xué)常見的錯誤類型,應(yīng)該說大部分還是可以避免的,這就需要廣大科研工作者及編者要加強(qiáng)自身統(tǒng)計學(xué)知識的積累,掌握最基本的統(tǒng)計學(xué)分析方法及經(jīng)典統(tǒng)計學(xué)方法的應(yīng)用。這樣通過對論文的二重把關(guān),統(tǒng)計學(xué)錯誤的概率就會小很多。但對于編輯也無法把握的統(tǒng)計學(xué)內(nèi)容,還是要聘請統(tǒng)計學(xué)專家審稿,這樣才能進(jìn)一步保證論文的科學(xué)性及結(jié)論的可靠性。[本文系2011年度廣西醫(yī)藥衛(wèi)生自籌經(jīng)費計劃項目(編號: 2011127)成果]
[1]潘明志,梁明佩,唐毓金,等.廣西14種醫(yī)學(xué)類科技期刊統(tǒng)計學(xué)應(yīng)用調(diào)查研究[J].右江醫(yī)學(xué),2014(4)
[2]邱春暉,郭明興,邱源.醫(yī)學(xué)論文中統(tǒng)計學(xué)方法的誤用及其防范措施[J].山東教育學(xué)院學(xué)報,2009(5)
[3]吳青.醫(yī)學(xué)論文中常見的統(tǒng)計學(xué)錯誤分析[J].山東醫(yī)學(xué)高等??茖W(xué)校學(xué)報,2008(4).
表7:兩組患者治療后臨床效果比較(n,%)