摘要:正確判斷異常值是進(jìn)行科學(xué)統(tǒng)計(jì)分析的前提,而在實(shí)際數(shù)據(jù)分析過程中,常常忽略對(duì)異常值的處理,或?qū)Ξ惓V抵匾暡粔?,甚至不清楚各種判別方法的適用條件。該文綜述了異常值的來源、常用的異常值判別方法的特點(diǎn)、分析步驟及判別標(biāo)準(zhǔn)。
關(guān)鍵詞:異常值,判別方法,藥品,質(zhì)量控制。
異常值通常是指實(shí)驗(yàn)中與預(yù)期有較大差距的值。USP中對(duì)異常值有明確的規(guī)定,記任何反常、不一致、可疑或模糊的觀察值均可稱為異常值。在藥品檢驗(yàn)過程中經(jīng)常會(huì)出現(xiàn)異常值,拒絕或保留一個(gè)明顯的異常值往往會(huì)導(dǎo)致資料處理困難,重者可能產(chǎn)生嚴(yán)重偏差。對(duì)異常數(shù)據(jù)進(jìn)行合理的發(fā)現(xiàn)和處理,對(duì)于保證藥品檢驗(yàn)結(jié)論的科學(xué)性、嚴(yán)謹(jǐn)性,從而保證人們使用藥物的安全性具有極為重要的意義。
1 異常值的來源
異常值來源一般有4種:①由實(shí)驗(yàn)設(shè)備不準(zhǔn)確、不穩(wěn)定造成的數(shù)據(jù)嚴(yán)重偏離真實(shí)值,不符合實(shí)際;②由操作技術(shù)、讀數(shù)習(xí)慣等人為客觀因素造成的數(shù)據(jù)不一致;③由數(shù)據(jù)記錄不清楚、感覺計(jì)數(shù)等人為主觀過失造成的假觀察值;④由實(shí)驗(yàn)中出現(xiàn)的小概率事件引起的數(shù)據(jù)不一致。
2 異常值檢測(cè)方法及其特點(diǎn)
異常值的檢驗(yàn)方法大多數(shù)屬于距離法, 常見的有奈爾檢驗(yàn)法、拉依達(dá)準(zhǔn)則法、肖維勒準(zhǔn)則法、羅曼諾夫準(zhǔn)則、格拉布斯檢驗(yàn)法、狄克遜檢驗(yàn)法、偏度-峰度檢驗(yàn)法、漢佩爾準(zhǔn)則、四分位數(shù)法以及魯棒回歸分析法。選擇合適的異常值檢驗(yàn)方法取決于樣本量大小和分布的假設(shè)。下面我們簡(jiǎn)要介紹各種異常值判斷法的適用情況及應(yīng)用優(yōu)缺點(diǎn)。
1)奈爾檢驗(yàn)法
奈爾檢驗(yàn)法適用于樣本量n>3,且要求數(shù)據(jù)集符合正態(tài)分布,該法的優(yōu)點(diǎn)是使用簡(jiǎn)便,缺點(diǎn)在于需要知道總體的標(biāo)準(zhǔn)差。
2)拉依達(dá)準(zhǔn)則法
拉依達(dá)準(zhǔn)則法適用于樣本量n>10,且要求數(shù)據(jù)集符合正態(tài)分布,優(yōu)點(diǎn)是使用簡(jiǎn)單,不需要查表,當(dāng)樣本量較大時(shí)適用。缺點(diǎn)是樣本量n≤10時(shí)不適用。
3)肖維勒準(zhǔn)則法
肖維勒準(zhǔn)則法適用于樣本量n>16,不需要數(shù)據(jù)集符合正態(tài)分布,它是拉依達(dá)準(zhǔn)則法改進(jìn)按本,該法的缺點(diǎn)是沒有概率理論,當(dāng)樣本量n過大時(shí)會(huì)失效。
4)羅曼諾夫準(zhǔn)則法
羅曼諾夫準(zhǔn)則法適用于樣本量n<20,要求數(shù)據(jù)集符合正態(tài)分布,其優(yōu)點(diǎn)是檢驗(yàn)效率高,缺點(diǎn)是隨著樣本量n的增大,靈敏度會(huì)逐漸降低。
5)格拉布斯檢驗(yàn)法
格拉布斯檢驗(yàn)法適用于樣本量n>6,要求數(shù)據(jù)集符合正態(tài)分布,其優(yōu)點(diǎn)是檢驗(yàn)效率高,缺點(diǎn)是樣本量n較小時(shí)或存在多個(gè)異常值接近時(shí)不適用。
6)狄克遜檢驗(yàn)法
狄克遜檢驗(yàn)法適用于樣本量3 7)偏度-峰度檢驗(yàn)法 偏度-峰度檢驗(yàn)法適用于樣本量n>3,要求數(shù)據(jù)集符合正態(tài)分布,其優(yōu)點(diǎn)時(shí)重復(fù)使用檢測(cè)多個(gè)異常值時(shí)具有非常好的效果,缺點(diǎn)是極端值英較為明顯的偏離樣本主體。 8)漢佩爾準(zhǔn)則法 漢佩爾準(zhǔn)則法適用于樣本量n>3,要求數(shù)據(jù)集符合正態(tài)分布,其優(yōu)點(diǎn)是使用簡(jiǎn)單,不需要查表,檢驗(yàn)效果很高,缺點(diǎn)是對(duì)異常值不夠敏感,判斷較為保守。 9)四分位數(shù)法 四分位數(shù)法適用于樣本量n>4,不要求數(shù)據(jù)集符合正態(tài)分布,其優(yōu)點(diǎn)是使用簡(jiǎn)單,不需要查表,檢驗(yàn)效果能夠控制,缺點(diǎn)是對(duì)樣本量要求較大,一般n>10時(shí)才具有較好的效果。 10)魯棒回歸分析法 魯棒回歸分析法適用于樣本量n>10,要求數(shù)據(jù)集符合正態(tài)分布,優(yōu)點(diǎn)是能夠同時(shí)檢驗(yàn)出樣本中的多個(gè)異常值,缺點(diǎn)是只適用于大樣本。 3 異常值判定標(biāo)準(zhǔn)和檢驗(yàn)步驟 異常值的準(zhǔn)確判別是確保數(shù)據(jù)分析正確,得到結(jié)果合理的首要前提,也是研究數(shù)據(jù)可靠的重要保障。所以科學(xué)地判斷異常值對(duì)各種實(shí)驗(yàn)尤為重要。怎樣把握異常判斷的標(biāo)準(zhǔn)?對(duì)于這一問題,目前尚無確切結(jié)論。 對(duì)于異常值的判斷,首先應(yīng)該對(duì)數(shù)據(jù)的來源進(jìn)行調(diào)查,如果可以確定是人員故障還是儀器故障等導(dǎo)致了異常值,則不論檢驗(yàn)結(jié)論是否為異常,均應(yīng)直接排除該值,不得用于后續(xù)的計(jì)算。但是,這類研究通常是不能確定的,這時(shí),再借助一些異常值的判斷,來找出這些異常值。但由于不同方法的精確度不一樣,對(duì)于一般的實(shí)驗(yàn)人員,也無法判斷應(yīng)采用哪種方法,對(duì)于這種兩難問題,處理的原則是:看減少一個(gè)或幾個(gè)異常數(shù)值對(duì)實(shí)驗(yàn)結(jié)果的影響究竟有多大;如果確定所測(cè)數(shù)據(jù)的反常值對(duì)原始結(jié)果的影響很大,則多項(xiàng)判別結(jié)果也一致,一般認(rèn)為該數(shù)值為異常值。 一般情況下,用反常值檢驗(yàn)法來判定異常值,需要采取以下步驟:①計(jì)算樣本容量,確定樣本量的大小;②對(duì)數(shù)據(jù)樣本從小到大進(jìn)行排序,找出兩端的極值;③確定數(shù)據(jù)是否為正態(tài)分布,或?qū)⑵滢D(zhuǎn)化為正態(tài)分布;④判斷數(shù)據(jù)是否需要轉(zhuǎn)換,然后再進(jìn)行反常值判斷;⑤選取1種常用或敏感程度較高的判別標(biāo)準(zhǔn)進(jìn)行判別;⑥根據(jù)判別結(jié)果的共性,判斷其是否為異常。 對(duì)于異常值檢驗(yàn),通常采用α為0.05或0.01這兩種標(biāo)準(zhǔn),但也有學(xué)者認(rèn)為應(yīng)采用更嚴(yán)格的α為0.01或0.005這兩種標(biāo)準(zhǔn)。不管α的大小如何,判斷結(jié)果是否認(rèn)為數(shù)據(jù)是異常值是不可避免的錯(cuò)誤。第1類錯(cuò)誤是指將正常數(shù)值視為不正常值而被拒絕,其發(fā)生概率為α(棄真存?zhèn)危?第2類錯(cuò)誤是指將不正常值視為正常值而被接受,其發(fā)生概率為β(棄偽存真),其概率通常為β<(1-α),又稱α作用函數(shù)。通常情況下,進(jìn)行異常值檢驗(yàn)時(shí),主要是為了減少犯第1類錯(cuò)誤的概率,所以在實(shí)際判別時(shí),應(yīng)正確選擇α值,以使結(jié)果更加合理。 4 小結(jié) 在藥品質(zhì)量控制中, 通過符合實(shí)驗(yàn)原理基礎(chǔ)上轉(zhuǎn)換的符合正態(tài)分布數(shù)據(jù)集, 一般選用 格拉布斯檢驗(yàn)、狄克遜檢驗(yàn)(極小樣本) 、漢佩爾準(zhǔn)則方法(大樣本)和四分位數(shù)法等,其他方法可輔助參考使用。 參考文獻(xiàn): [1]曹玲,吳莉,王玉,吳越.藥品檢驗(yàn)中常用的統(tǒng)計(jì)學(xué)方法及其應(yīng)用[J].中南藥學(xué),2019,17(09):1508-1513. [2]李曉斌. 中藥臨床試驗(yàn)肝腎功能指標(biāo)異常值的分析與評(píng)價(jià)[D].遼寧中醫(yī)藥大學(xué),2013. [3]牛曉輝. 新農(nóng)合住院費(fèi)用的分析及異常值篩檢方法研究[D].華中科技大學(xué),2012. 作者簡(jiǎn)歷:鐘蓓蓓(1994/01),女,江蘇省連云港人,本科,研究方向:質(zhì)量控制,風(fēng)險(xiǎn)管理,GMP (正大天晴藥業(yè)集團(tuán)南京順欣制藥有限公司 江蘇南京 211100)