顏玉炳 徐 航 陳小平
1 廈門大學(xué)附屬中山醫(yī)院,361004 福建 廈門;2 廈門市海滄醫(yī)院,361026 福建 廈門
單純隨機(jī)抽樣是按等概率原則直接從含有N個(gè)觀察單位的總體中抽取n個(gè)觀察單位組成樣本[1]。利用專業(yè)的統(tǒng)計(jì)軟件,如SPSS軟件中“數(shù)據(jù)(date)”菜單下的“選擇個(gè)案(select cases…)”模塊及SAS軟件的suveyselect過(guò)程均可實(shí)現(xiàn)單純隨機(jī)抽樣[2]。但這類專業(yè)軟件需要購(gòu)買,且需要專業(yè)人士來(lái)完成,導(dǎo)致普及率較低;因此大多數(shù)衛(wèi)生人員還是沿用抽簽、隨機(jī)數(shù)字表等傳統(tǒng)方法進(jìn)行單純隨機(jī)抽樣。Excel或WPS軟件是一款基礎(chǔ)應(yīng)用軟件,普及率高。本研究利用Excel或WPS軟件函數(shù)編制了單純隨機(jī)抽樣工具,為各層級(jí)研究人員提供了一種操作簡(jiǎn)單,易學(xué)易用的方法。
Excel軟件自帶抽樣方法是在“數(shù)據(jù)分析工具”模塊下,需要安裝“分析工具庫(kù)”加載項(xiàng)才能實(shí)現(xiàn)。加載項(xiàng)安裝后,在“數(shù)據(jù)”選項(xiàng)卡中會(huì)顯示出添加的“數(shù)據(jù)分析”功能,單擊“數(shù)據(jù)分析”按鈕,選擇“抽樣”分析工具使用即可應(yīng)用。因該抽樣功能是在“數(shù)據(jù)分析”模塊下,所以只適用于單變量數(shù)值型數(shù)據(jù)的抽樣,抽樣結(jié)果也無(wú)法顯示與該變量相關(guān)的其他信息,適用范圍較為狹窄。
首先設(shè)計(jì)一張“研究總體”的表格。表格包含:利用rand()函數(shù)給研究總體每條記錄賦給的隨機(jī)數(shù)字(A列),利用rank()函數(shù)對(duì)隨機(jī)數(shù)進(jìn)行排序并生成相應(yīng)的序號(hào)(B列),研究總體的基本信息(B列后)。見(jiàn)圖1。
圖1 研究總體的隨機(jī)數(shù)字和基本情況表
其次設(shè)計(jì)一張“研究樣本”的表格。表格包含從1到n的樣本編號(hào)(A列),利用vlookup()函數(shù)得到的樣本基本信息和擬抽取的樣本量(A列后)。見(jiàn)圖2。
圖2 研究總體的隨機(jī)抽樣結(jié)果
本文模擬100個(gè)樣本,4個(gè)變量來(lái)設(shè)計(jì)抽樣工具。
第一步:在“研究總體”表格的A2內(nèi)輸入=IF(C2<>"",RAND(),""),并通過(guò)復(fù)制粘貼的方法在A3至A101內(nèi)輸入公式,完成每個(gè)樣本的隨機(jī)數(shù)賦值;在B2輸入=IF(C2<>"",RANK(A2,A:A,1),""),并通過(guò)復(fù)制粘貼的方法在B3至B101內(nèi)輸入公式,完成每個(gè)樣本的隨機(jī)數(shù)排序賦值;C列至F列為研究總體的基本信息,研究者可直接將相關(guān)信息粘貼。
第二步:在“研究樣本”表格的A1和B1預(yù)留樣本量大小輸入格子;在A3至A102內(nèi)輸入1~100的數(shù)字;在B2輸入=IFERROR(IF($B$1 研究者只需修改擬抽取樣本數(shù),即可得到隨機(jī)樣本。如:擬抽取的樣本數(shù)改為13,結(jié)果如圖3。 圖3 樣本量為13的抽樣結(jié)果 單純隨機(jī)抽樣是概率抽樣最基本的抽樣方法,也是其他抽樣方法的基礎(chǔ)[1],在衛(wèi)生研究領(lǐng)域和實(shí)際工作中運(yùn)用廣泛,如傳染病漏報(bào)調(diào)查、疫苗接種率調(diào)查、病案質(zhì)量抽查、處方點(diǎn)評(píng)等。本研究通過(guò)Excel或WPS軟件函數(shù)設(shè)計(jì)的單純隨機(jī)抽樣工具,不僅可以實(shí)現(xiàn)樣本的抽取,還可將樣本信息全部列出,操作簡(jiǎn)單、易學(xué)易用,特別適用于沒(méi)有SPSS、SAS等專業(yè)統(tǒng)計(jì)軟件的研究人員使用,值得推廣。 Excel軟件“數(shù)據(jù)分析工具”模塊下的抽樣功能只能用于定量數(shù)據(jù)的抽樣,而本文介紹的抽樣方法適用于所有數(shù)據(jù)類型的抽樣。Excel或WPS軟件表格可容納1 048 576行和16 384列的數(shù)據(jù)量,理論上將文中制作過(guò)程中所提到的函數(shù)公式粘貼到表格的所有行和列中,即可實(shí)現(xiàn)百萬(wàn)級(jí)的數(shù)據(jù)抽樣,但這會(huì)影響抽樣的效率。研究者在根據(jù)本文介紹的方法設(shè)計(jì)抽樣工具時(shí),可先大致評(píng)估自己所能涉及的研究總體的數(shù)據(jù)量大小,再把公式填充到對(duì)應(yīng)表格中。經(jīng)測(cè)試,采用該抽樣工具從10萬(wàn)個(gè)總體數(shù)據(jù)中抽取1 000個(gè)樣本,需要70 s,從1萬(wàn)的總體數(shù)據(jù)中抽取1 000個(gè)樣本,需要10 s左右;同樣的抽樣工具,采用WPS軟件打開(kāi),2個(gè)抽樣過(guò)程均在2 s以內(nèi)完成,抽樣結(jié)果可以通過(guò)按F9鍵刷新進(jìn)行再次抽樣。 本研究介紹的抽樣方法較張建斌[3]、桂嘉偉[4]、李獻(xiàn)玉等[5]的方法更為簡(jiǎn)便,但也存在抽樣結(jié)果不可重現(xiàn)的缺點(diǎn)。對(duì)于 Excel或WPS軟件操作不夠熟練的人員,為了避免將工具中包含的公式和函數(shù)刪除,導(dǎo)致抽樣失敗,可將帶有公式和函數(shù)的“研究總體”表中的A列和B列隱藏或鎖定。3 小結(jié)