国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最大功效檢驗(yàn)判斷散落數(shù)據(jù)的歸屬*

2015-03-09 14:33:42中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系510080張晉昕
中國衛(wèi)生統(tǒng)計(jì) 2015年4期
關(guān)鍵詞:假設(shè)檢驗(yàn)遺漏犯錯(cuò)誤

中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 趙 志 張晉昕

基于最大功效檢驗(yàn)判斷散落數(shù)據(jù)的歸屬*

中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 趙 志 張晉昕△

目的給出醫(yī)學(xué)研究中進(jìn)行資料匯總時(shí)判斷散落資料歸屬的方法。方法按照最大功效檢驗(yàn)的思想,從Neyman-Pearson引理出發(fā),推導(dǎo)出遺漏資料歸屬假設(shè)檢驗(yàn)的拒絕域,據(jù)以得出判斷結(jié)果的P值,全部計(jì)算在SAS環(huán)境中實(shí)現(xiàn)。結(jié)果此處給出的方法在分析文中的實(shí)例時(shí),檢驗(yàn)功效為0.9956,獲得的歸屬判斷結(jié)果甚為可靠。結(jié)論實(shí)際工作中出現(xiàn)一份資料從總體中散落,不宜直接通過差異性假設(shè)檢驗(yàn)判別其歸屬,需用此處給出的假設(shè)檢驗(yàn)方法合理地進(jìn)行歸并。

資料歸屬 Neyman-Pearson引理 最大功效檢驗(yàn)

在臨床試驗(yàn)[1-2]、社會(huì)調(diào)查[3]等研究實(shí)踐中,錄入數(shù)據(jù)資料時(shí),有時(shí)會(huì)出現(xiàn)遺漏的情況。例如整理兩組人群資料,對(duì)A、B兩組資料分批錄入。但是隨后發(fā)現(xiàn)遺漏的部分資料還未錄入,而此時(shí)已經(jīng)難以分辨出這部分資料屬于A、B兩組中的哪一組,僅僅知道的是,這些遺漏的資料同屬于A組或同屬于B組。

試圖將這些資料歸并回所屬組別,一種比較容易想到的做法是:根據(jù)所研究的指標(biāo),將那些遺漏的資料數(shù)據(jù)分別與兩組資料數(shù)據(jù)進(jìn)行t檢驗(yàn),得到兩個(gè)P值,設(shè)其中只有一個(gè)P>0.05,另一個(gè)P<0.05,于是自然地將資料歸為沒有統(tǒng)計(jì)學(xué)意義(P>0.05)的那組。但是,當(dāng)研究的兩組人群指標(biāo)差異不是很大時(shí),兩次檢驗(yàn)都會(huì)沒有統(tǒng)計(jì)學(xué)意義;或者當(dāng)兩組人群指標(biāo)差異大,兩次t檢驗(yàn)都得出P<0.05的結(jié)果。此時(shí),若是直接比較兩個(gè)P值,將遺漏的資料歸為P值較大的那組,其判斷結(jié)果并不能令人信服。按照統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)的思維,為了較好控制決策所犯錯(cuò)誤的大小,應(yīng)通過一次假設(shè)檢驗(yàn)推斷出結(jié)論。Neyman-Pearson引理為解決此問題提供了思路。

最大功效檢驗(yàn)[4]

在進(jìn)行假設(shè)檢驗(yàn)時(shí),無論是決定接受還是拒絕原假設(shè),研究者都可能犯錯(cuò)誤。通常,要用犯錯(cuò)誤的概率來評(píng)價(jià)和比較假設(shè)檢驗(yàn)方法的優(yōu)劣。也就是如何控制這些犯錯(cuò)誤的概率,使得在某些情況下,所選檢驗(yàn)具有最小的犯錯(cuò)誤概率。

一般的做法是控制犯Ⅰ類錯(cuò)誤的概率,例如水平為α的檢驗(yàn)對(duì)所有可能的待檢驗(yàn)參數(shù)θ∈Θ0,允許犯Ⅰ類錯(cuò)誤的概率至多為α。在這樣的一類檢驗(yàn)中,一個(gè)好的檢驗(yàn)犯Ⅱ類錯(cuò)誤的概率也應(yīng)當(dāng)小,即當(dāng)θ∈Θc0時(shí)它的功效比較大。如果一個(gè)檢驗(yàn)犯Ⅱ類錯(cuò)誤的概率比這類檢驗(yàn)中所有其他檢驗(yàn)都小,它理應(yīng)是這個(gè)類中首選的檢驗(yàn)。這便是最大功效檢驗(yàn)(most powerful test,簡稱MP檢驗(yàn))。

對(duì)于一個(gè)需要進(jìn)行假設(shè)檢驗(yàn)的實(shí)際問題,想要得到最大功效檢驗(yàn)并不容易。下面的定理清楚地描述了原假設(shè)和備擇假設(shè)都只含一個(gè)關(guān)于樣本的概率分布(即H0和H1都是簡單假設(shè))的情況下,如何得到一個(gè)MP檢驗(yàn)。

定理(Neyman-Pearson引理)考慮檢驗(yàn)H0:θ=θ0對(duì)H1:θ=θ1,對(duì)于一個(gè)樣本x=(x1,x2,…,xn),相應(yīng)于θi的聯(lián)合概率密度函數(shù)或概率質(zhì)量函數(shù)是f(x|θi),i=0,1,利用一個(gè)拒絕域?yàn)镽的檢驗(yàn),R滿足對(duì)某個(gè)k≥0

而且

則滿足以上條件的檢驗(yàn)是一個(gè)MP檢驗(yàn)。

遺漏數(shù)據(jù)的假設(shè)檢驗(yàn)實(shí)施

針對(duì)兩組人群遺漏資料的歸類,通過Neyman-Pearson引理做出的檢驗(yàn)是很直觀的:假設(shè)研究者關(guān)心的統(tǒng)計(jì)指標(biāo)是均值,則判別遺漏數(shù)據(jù)歸屬時(shí),可以借助遺漏部分算出的均值與兩組總體均值的關(guān)系來推斷。建立假設(shè)時(shí),可以直接將H0和H1分別設(shè)為:遺漏數(shù)據(jù)所對(duì)應(yīng)的總體均值等于A組的總體均值以及等于B組的總體均值。這樣的檢驗(yàn)結(jié)果要么是拒絕原假設(shè),即遺漏數(shù)據(jù)來源于B組;要么不能夠拒絕原假設(shè),即沒有充分理由否定遺漏數(shù)據(jù)來源于A組。此時(shí),一定能給出一個(gè)判別的結(jié)果。而且,通過Neyman-Pearson引理得到的檢驗(yàn)還是最大功效的檢驗(yàn),保證了判別結(jié)果的可靠性。

將所要研究的問題抽象出來:現(xiàn)有兩組A、B服從正態(tài)分布的獨(dú)立樣本資料m份和n份

其中,u1-α為標(biāo)準(zhǔn)正態(tài)分布的1-α分位數(shù)。因此,得到水平為α下MP檢驗(yàn)的拒絕域?yàn)?/p>

(2)當(dāng)a>0,即σ2A<σ2B時(shí),由式(6)得

這里需要注意的是,在代入數(shù)據(jù)計(jì)算時(shí),需要將遺漏的數(shù)據(jù)與A組數(shù)據(jù)合并后求μA和這是由于以上推導(dǎo)出來的拒絕域是在原假設(shè)H0成立的條件下得到的。也就是說,此時(shí),遺漏的資料來自A組已被視作計(jì)算的前提。

舉 例

某一次調(diào)查擬了解兩個(gè)民族的肺活量水平。A、B民族的肺活量數(shù)據(jù)如表1所示。研究結(jié)束后,發(fā)現(xiàn)有12份調(diào)查表資料未被錄入數(shù)據(jù)庫,肺活量數(shù)據(jù)為2.65,2.78,2.79,2.85,2.88,3.14,2.98,2.99,3.05,3.08,3.15,3.22。可以確知的是這12名個(gè)體屬于同一民族,可否根據(jù)統(tǒng)計(jì)學(xué)知識(shí)判斷他們屬于哪一個(gè)民族?

表1 兩個(gè)民族人群的肺活量/L

由以上數(shù)據(jù)計(jì)算得到:

按照本文“遺漏數(shù)據(jù)的假設(shè)檢驗(yàn)實(shí)施”第(2)部分內(nèi)容建立假設(shè)并求得

進(jìn)一步通過SAS程序(見附錄)得到檢驗(yàn)的P值為0.17,也就是說,在顯著性水平α=0.05時(shí),不能夠拒絕原假設(shè),即遺漏資料屬于A民族。同時(shí),可以計(jì)算出檢驗(yàn)功效為0.9956,提示結(jié)論較可靠。

討 論

實(shí)際調(diào)查研究中,簡單的兩組人群資料獨(dú)立錄入結(jié)束后,遺漏的部分可以通過數(shù)理統(tǒng)計(jì)中的Neyman-Pearson引理將其合理地判給所屬的資料組別。并且,由于對(duì)應(yīng)的檢驗(yàn)是MP檢驗(yàn),故能夠在控制Ⅰ類錯(cuò)誤的前提下,使得犯Ⅱ類錯(cuò)誤的概率最小,為實(shí)際工作判別資料的歸屬提供了切實(shí)有效的方法。

另外,如果出現(xiàn)多組資料錄入后,遺漏了部分資料,本文所述方法尚不能夠奏效。此時(shí)可以嘗試通過判別分析或者其他一些算法分類器,如樸素貝葉斯(naive Bayes classifier)、支持向量機(jī)(support vector machines)等判斷資料的歸屬情況,但是這些方法都不能像假設(shè)檢驗(yàn)?zāi)菢?,在作出決策的同時(shí)控制犯錯(cuò)誤的概率水平。

[1]O′Leary E,Seow H,Julian J,et al.Data collection in cancer clinical trials:Too much of a good thing.Clinical Trials,2013,10(4):624-632.

[2]范彩霞,吳劍秋,寇瑩瑩,等.RDC Onsite-藥物臨床試驗(yàn)數(shù)據(jù)采集系統(tǒng)電子病例報(bào)告表常見疑問分析.藥學(xué)與臨床研究,2013,21(2):196-198.

[3]陳向明.資料的歸類和分析.社會(huì)科學(xué)戰(zhàn)線,1999,4:223-229.

[4]Casella G,Berger R L.統(tǒng)計(jì)推斷.第2版.張忠占,傅鶯鶯譯.北京:機(jī)械工業(yè)出版社,2010,356-358.

[5]韋博成.參數(shù)統(tǒng)計(jì)教程.北京:高等教育出版社,2006,18-20.

附錄 SAS假設(shè)檢驗(yàn)P值和功效計(jì)算程序

(責(zé)任編輯:郭海強(qiáng))

廣東省高等教育教學(xué)改革重點(diǎn)項(xiàng)目(2013-113-11)

△通信作者:張晉昕,E-mail:zhjinx@m(xù)ail.sysu.edu.cn

猜你喜歡
假設(shè)檢驗(yàn)遺漏犯錯(cuò)誤
來自動(dòng)物星球的挑戰(zhàn)(二)小五狼遺漏的線索
遺漏的光陰
鴨綠江(2021年17期)2021-11-11 13:03:41
智珠二則
吸取教育 少犯錯(cuò)誤
統(tǒng)計(jì)推斷的研究
雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
應(yīng)用品管圈降低腹腔鏡抗反流手術(shù)術(shù)前準(zhǔn)備遺漏率的實(shí)踐
犯錯(cuò)誤找家長
格尔木市| 华池县| 城步| 怀宁县| 平原县| 浮山县| 通化县| 闻喜县| 大邑县| 电白县| 延边| 洮南市| 江北区| 乐陵市| 普陀区| 灵武市| 冀州市| 通城县| 陈巴尔虎旗| 台南市| 绍兴县| 兴城市| 河南省| 郯城县| 商河县| 广州市| 福建省| 滦平县| 柞水县| 惠州市| 逊克县| 天峻县| 白水县| 吉安市| 前郭尔| 陆川县| 沭阳县| 苍溪县| 洪洞县| 西充县| 资中县|