廣西醫(yī)學(xué)類科技期刊常見統(tǒng)計學(xué)錯誤淺析

2015-11-11 01:37:53梁明佩潘明志唐毓金黃照河黃研研

傳播與版權(quán) 2015年5期

關(guān)鍵詞：四格醫(yī)學(xué)類科技期刊

梁明佩　潘明志　唐毓金　黃照河　黃研研

梁明佩潘明志唐毓金黃照河黃研研

通過分析廣西醫(yī)學(xué)類科技期刊中常見的t/u檢驗、χ2檢驗錯誤類型，以具體的例子提醒廣大作者及編者要重視醫(yī)學(xué)科技論文中的統(tǒng)計學(xué)處理，以減少錯誤，提高論文的質(zhì)量。

科技期刊；醫(yī)學(xué)統(tǒng)計學(xué)；錯誤分析

［作者］梁明佩、唐毓金、黃照河、黃研研，《右江醫(yī)學(xué)》編輯部；

潘明志（通訊作者），副編審，《右江醫(yī)學(xué)》編輯部。

統(tǒng)計學(xué)方法在醫(yī)學(xué)生物論文中的作用不言而喻，正確的統(tǒng)計學(xué)處理是確保論文結(jié)論經(jīng)得起時間考驗的重要保證，也是考量論文質(zhì)量的重要評價內(nèi)容之一。因此，統(tǒng)計學(xué)數(shù)據(jù)的客觀性和準(zhǔn)確性顯得極其重要。我們在前期調(diào)查了廣西醫(yī)學(xué)類科技期刊統(tǒng)計學(xué)的應(yīng)用現(xiàn)況，發(fā)現(xiàn)廣西醫(yī)學(xué)類科技期刊統(tǒng)計學(xué)使用現(xiàn)況與國內(nèi)其他期刊相似，使用的統(tǒng)計學(xué)方法計量資料主要有t/u檢驗、方差分析，計數(shù)資料主要有卡方檢驗，等級分組資料主要有秩和檢驗。同時我們在研究中也發(fā)現(xiàn)這些期刊在統(tǒng)計學(xué)使用過程中或多或少存在一些錯誤，下面將針對這些錯誤歸類進(jìn)行淺析，以引起編輯同行在以后的工作中更加重視統(tǒng)計學(xué)審查。

一、t/u檢驗的常見錯誤

（一）t檢驗計算結(jié)果錯誤或判斷不確切

這類的情況在廣西的醫(yī)學(xué)類期刊出現(xiàn)相對多些。計算結(jié)果錯誤多數(shù)是編輯未認(rèn)真復(fù)核引起的，t檢驗的判斷一般先通過公式計算出t值，然后根據(jù)t值判斷P值大小，通?？煞譃镻＜0.05（有統(tǒng)計學(xué)意義）或P＜0.01（有極顯著統(tǒng)計學(xué)意義）。如果應(yīng)該判斷為P＜0.01而判斷為P＜0.05則為判斷不確切。如表1即為t值計算結(jié)果錯誤，表2為t值判斷不確切。

表1兩組的樣本均為40例，作者目的是比較兩組治療后各種微量元素測量結(jié)果是否有差異，原結(jié)果P值判斷是正確的，但t值計算錯誤，括號外為原來的結(jié)果，而括號內(nèi)為正確的結(jié)果。出現(xiàn)這樣的錯誤應(yīng)該是編輯在審核修改過程中未對統(tǒng)計結(jié)果進(jìn)行復(fù)核，或缺乏統(tǒng)計學(xué)知識，從而隨作者原來的結(jié)果所致。而表2中各t值均比較大，經(jīng)查t界值表，P均＜0.001，差異是有極顯著性統(tǒng)計學(xué)意義的，而非P＜0.05，因此，作者在判斷上是不夠準(zhǔn)確的。

表1:兩組患者治療后微量元素測量比較（±s）

組別鈉　鉀　氯　鈣A組　135.69±4.92　3.78±0.78　99.52±7.23　1.93±0.55 B組　97.32±8.48　3.75±0.86　134.68±4.84　1.98±0.68 t　8.26（0.9256）7.15（0.1634）3.15（1.2486）2.01（0.3616）P?。?.05　＞0.05?。?.05　＞0.05

表2:60例患者治療前后血壓比較（mmHg）

（二）以兩兩t檢驗替代方差分析及q檢驗

這類錯誤在廣西醫(yī)學(xué)類期刊中相對少見。t檢驗每次只能比較二個平均數(shù)，僅適用于單因素一、二水平的實驗設(shè)計類型。而對于單因素多水平或多因素多水平等的設(shè)計，則不宜使用t檢驗，因為這樣會破壞原來的整體設(shè)計，使結(jié)果出現(xiàn)假陽性的概率大大增加，其結(jié)果的可信度明顯下降。因此，對于多個樣本均數(shù)的比較，應(yīng)根據(jù)資料是否符合正態(tài)分布、總體方差是否齊來選擇統(tǒng)計學(xué)方法，如資料服從正態(tài)分布，且各組資料的總體方差齊，則選擇方差分析。我們看下面的例子（表3）。

表3:各組麻醉持續(xù)時間比較（±s）

組別　n　持續(xù)時間（min）Ⅰ組　40　118±13Ⅱ組　40　114±16Ⅲ組　40　111±12

本例采用方差分析結(jié)果為：F=2.60，P=0.0785＞0.05，即各組間麻醉持續(xù)時間差異無統(tǒng)計學(xué)意義，沒有必要再進(jìn)一步兩兩q檢驗。而本如果采用兩兩比較t檢驗，其結(jié)果為ⅠvsⅡ：t=1.2271，P=0.2235；ⅠvsⅢ：t=2.5024，P=0.0144；ⅡvsⅢ：t=0.9487，P=0.3457。從結(jié)果看，Ⅰ組與Ⅲ組比較是有統(tǒng)計學(xué)意義的，這與采用方差分析的結(jié)果完全相反。

（三）誤以成組t檢驗替代配對t檢驗

配對設(shè)計主要有幾種情況：（1）同一受試對象處理前后的數(shù)據(jù)；（2）同一受試對象兩個部位的數(shù)據(jù)；（3）同一批樣本用兩種方法檢驗；（4）配對的兩個受試對象分別接受兩種處理所得到的數(shù)據(jù)。配對設(shè)計能縮小實驗對象間的個體差異，減少實驗誤差，提高效率。如將成組t檢驗替代配對t檢驗，則無形中擴(kuò)大了樣本數(shù)量，增大標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤，從而使P值也增大，這樣就有可能得出假陰性結(jié)果（從有統(tǒng)計學(xué)意義變?yōu)闊o統(tǒng)計學(xué)意義）。舉例（表4）：

表4:患者治療前后AST變化情況（±s）

觀察時間　n　AST（U/L）治療前　24　35.5±9.5治療后　24　28.5±8.1 t -3.232 P -0.002

本例是比較治療前后AST的變化，采用自身對照研究，錯誤采用兩樣本成組設(shè)計的t檢驗，把同一樣本視為兩個樣本，擴(kuò)大的觀察樣本，使得檢驗效能降低。本例正確的處理方法是通過原始數(shù)據(jù)，計算出治療前后AST的差值平均值和差值標(biāo)準(zhǔn)差，采用配對t檢驗進(jìn)行處理，具體方法可查閱相關(guān)統(tǒng)計學(xué)書籍。

（四）誤用配對t檢驗替代重復(fù)測量方差分析

重復(fù)測量數(shù)據(jù)是臨床試驗中常用的數(shù)據(jù)，是指同一觀察對象的同一指標(biāo)在多個不同時間點（3個或3個以上）進(jìn)行多次測量所獲得的資料，主要用來觀察受試對象的觀察指標(biāo)在不同時間點的動態(tài)變化情況，如觀察麻醉過程中的血壓、心率等的變化，都屬重復(fù)測量數(shù)據(jù)。該類數(shù)據(jù)常采用重復(fù)測量方差進(jìn)行分析。表5即為典型的多樣本重復(fù)測量的均數(shù)比較，如要比較A組（或B組）不同時間測量值是否有統(tǒng)計學(xué)差異，首選單因素重復(fù)測量資料的方差分析，推斷不同時間測得的總體均數(shù)是否相等，若不同時間測得的總體均數(shù)不相等或不全相等，則進(jìn)一步進(jìn)行不同時間兩兩比較。

表5:兩組患者PCEA期間鎮(zhèn)痛質(zhì)量評分（n=40，±s）

組別　2h　4h　8h　24h　48h A組　0.6±0.5　1.5±0.6　1.6±0.7　1.7±0.7　1.7±0.8 B組　0.8±0.7　1.6±0.8　1.8±0.7　1.8±0.9　1.9±0.8

二、χ2檢驗常見錯誤

（一）誤將四格表χ2檢驗替代校正χ2檢驗或確切概率法

目前，關(guān)于四格表資料各種檢驗方法的應(yīng)用條件雖仍有不同意見，但一般可根據(jù)以下三種條件選擇：（1）總例數(shù)＜40或最小的理論頻數(shù)＜1，應(yīng)選擇“確切概率法”；（2）總例數(shù)≥40且最小的理論頻數(shù)≥1，但最小的理論頻數(shù)＜5，應(yīng)選擇“校正法”；（3）總例數(shù)≥40且最小的理論頻數(shù)≥5，應(yīng)選擇“非校正法”。目前，在部分期刊中，誤將四格表χ2檢驗替代校正χ2檢驗或確切概率法的現(xiàn)象仍不少，但只要掌握好四格表資料的檢驗方法的應(yīng)用條件，該類錯誤是比較容易避免的。由于相關(guān)的報道比較多，在此不再舉例。

（二）誤將四格表χ2檢驗替代配對四格表χ2檢驗

舉例（表6），應(yīng)用高頻彩色多普勒超聲血流能量圖（PDI）與彈性成像兩種方法鑒別92個乳腺腫塊良惡性，比較兩種方法的鑒別情況。作者采用一般的四格表χ2檢驗，所得結(jié)果為χ2=11.52，P＜0.01。而此例為比較典型的配對資料，應(yīng)采用配對四格表χ2檢驗，結(jié)果為卡方值（校正）=0.1379，P=0.7103。

表6:PDI與彈性成像兩種方法對乳腺腫塊良惡性診斷的對照（n=92）

（三）誤用χ2檢驗代替秩和檢驗

對于單向有序分類資料（等級資料），一般宜采用成組設(shè)計兩樣本比較的秩和檢驗（Wilcoxon兩樣本比較法）或用Ridit分析，但運用Ridit分析時要求樣本含量足夠大，因此，大多情況選擇秩和檢驗。舉例（表7），觀察兩組治療后的臨床效果。本例為典型的等級資料，經(jīng)Wilcoxon兩樣本比較秩和檢驗，u=-1.1099，P=0.2670。而不宜采用2×C表資料的χ2檢驗，因為2×C表資料的χ2檢驗不考慮等級的差別，只能說明各組的“構(gòu)成比”是否相同，而不宜判斷各組在程度上的差異。所以，對于單向有序分類資料，最好用秩和檢驗或Ridit分析進(jìn)行假設(shè)檢驗。此外，既往對應(yīng)本例，也有界定“治愈+顯效+好轉(zhuǎn)=總有效”之后，進(jìn)行四格表卡方檢驗的做法，檢驗結(jié)果為：χ2=2.2487，P=0.1337，看似統(tǒng)計判斷結(jié)果與Wilcoxon兩樣本比較秩和檢驗一致，但實際上兩者統(tǒng)計內(nèi)涵不同，四格表卡方檢驗是推斷兩組總體率有無差別，而Wilcoxon兩樣本比較秩和檢驗是推斷兩組總體分布是否相同，顯然，秩和檢驗或Ridit分析更能準(zhǔn)確地反映表7的實際情況，是更合適的統(tǒng)計學(xué)方法。

總之，以上所列舉的部分醫(yī)學(xué)統(tǒng)計學(xué)常見的錯誤類型，應(yīng)該說大部分還是可以避免的，這就需要廣大科研工作者及編者要加強(qiáng)自身統(tǒng)計學(xué)知識的積累，掌握最基本的統(tǒng)計學(xué)分析方法及經(jīng)典統(tǒng)計學(xué)方法的應(yīng)用。這樣通過對論文的二重把關(guān)，統(tǒng)計學(xué)錯誤的概率就會小很多。但對于編輯也無法把握的統(tǒng)計學(xué)內(nèi)容，還是要聘請統(tǒng)計學(xué)專家審稿，這樣才能進(jìn)一步保證論文的科學(xué)性及結(jié)論的可靠性。［本文系2011年度廣西醫(yī)藥衛(wèi)生自籌經(jīng)費計劃項目（編號: 2011127）成果］

［1］潘明志，梁明佩，唐毓金，等.廣西14種醫(yī)學(xué)類科技期刊統(tǒng)計學(xué)應(yīng)用調(diào)查研究［J］.右江醫(yī)學(xué)，2014（4）

［2］邱春暉，郭明興，邱源.醫(yī)學(xué)論文中統(tǒng)計學(xué)方法的誤用及其防范措施［J］.山東教育學(xué)院學(xué)報，2009（5）

［3］吳青.醫(yī)學(xué)論文中常見的統(tǒng)計學(xué)錯誤分析［J］.山東醫(yī)學(xué)高等?？茖W(xué)校學(xué)報，2008（4）.

表7:兩組患者治療后臨床效果比較（n，%）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

廣西醫(yī)學(xué)類科技期刊常見統(tǒng)計學(xué)錯誤淺析

一、t/u檢驗的常見錯誤

二、χ2檢驗常見錯誤

二、χ2檢驗常見錯誤