王陽 馬少華 張曉紅
摘 要 通過在驗(yàn)證中使用“功效和樣本量”統(tǒng)計(jì)工具,確定更具有統(tǒng)計(jì)學(xué)意義的取樣數(shù)量,以避免由于取樣量不足導(dǎo)致的“第二類錯(cuò)誤”??捎檬孪仍O(shè)計(jì)及事后評價(jià)兩種思路來使用該工具。事先設(shè)計(jì):設(shè)定功效,求樣本量,根據(jù)所得樣本量設(shè)計(jì)取樣方案。事后評價(jià):已有樣本,求功效,根據(jù)所得功效是否足夠來判斷方案是否合理。
關(guān)鍵詞 功效和樣本量 驗(yàn)證方案設(shè)計(jì) 取樣合理性
中圖分類號:R951 文獻(xiàn)標(biāo)志碼:C 文章編號:1006-1533(2021)11-0075-03
Application of “power and sample size” in validation
WANG Yang*, MA Shaohua, ZHANG Xiaohong
(Shanghai Shyndec Pharmaceutical Co., Ltd., Shanghai 200040, China)
ABSTRACT To determine the more statistically significant number of samples using the “power and sample size”statistical tool in validation so as to avoid a type Ⅱ error caused by insufficient sample quantity. This tool can be used in two ways which are pre-design and post evaluation. Pre-design is to set the power, calculate the sample size and design the sampling scheme according to the sample size. Post evaluation is to calculate the power according to the existing samples and judge whether the scheme is reasonable based on whether the obtained effect is enough.
KEy WORDS power and sample size; verification scheme design; sampling rationality
在藥品生產(chǎn)質(zhì)量管理過程中,“驗(yàn)證”或“確認(rèn)”是不可避免的重要環(huán)節(jié),尤其是在工藝驗(yàn)證或性能確認(rèn)時(shí),常常會通過對產(chǎn)品的抽樣檢驗(yàn)來證明工藝適用性或性能可靠性。然而,在設(shè)計(jì)取樣方案時(shí),起草人經(jīng)常會遇到這樣的問題:“樣品數(shù)量的依據(jù)是什么?”“樣品數(shù)量太多了,QC實(shí)驗(yàn)室變成了驗(yàn)證實(shí)施的瓶頸?!比《嗌贅悠肥呛线m的,常常成為困擾驗(yàn)證人員的問題。
作為質(zhì)量管理人員,往往會從法規(guī)或者指南中尋找關(guān)于取樣方案的設(shè)計(jì)依據(jù),事實(shí)上,指南并不能給出明確的解答。以口服固體制劑的混合均勻性為例,美國食品藥品管理局(FDA)在2003年10月發(fā)布了“一項(xiàng)新的指導(dǎo)原則關(guān)于粉末混合和制劑完成品取樣和評估”(powder blends and finished dosage units-stratified inprocess dosage unit sampling and assessment)[1],中提出“樣本量:單位劑量1~10倍,一般不低于3倍取樣位置:粉末或顆粒混合一般取上、中、下三層,混合設(shè)備出料口處必須取樣,壓片或者膠囊填充開始和結(jié)束兩個(gè)時(shí)間點(diǎn)需取樣”。(雖然該文件已于2013年8月予以撤銷,對于階段性生產(chǎn)仍然有借鑒意義。)國家食品藥品監(jiān)督管理局組織編寫的《口服固體制劑GMP指南》中要求“混合均一度應(yīng)該控制在85%~115%或更嚴(yán)格的工藝指標(biāo),相對標(biāo)準(zhǔn)偏差不應(yīng)高于7.8,而對一般固體制劑,至少應(yīng)在上中下三個(gè)水平位置進(jìn)行多點(diǎn)取樣,每個(gè)點(diǎn)的取樣量應(yīng)該相對適中” [2]。由上可以看出,指南更多考慮的是取樣的位置是否具有代表性,對于樣品數(shù)量則未做明確規(guī)定。
本文介紹了在驗(yàn)證方案設(shè)計(jì)階段使用“功效和樣本量”統(tǒng)計(jì)工具,以更加科學(xué)地確定取樣數(shù)量,避免因取樣數(shù)量過少,導(dǎo)致總體樣本均值偏離預(yù)定標(biāo)準(zhǔn)的情況;或者用于評價(jià)一個(gè)取樣方案所得到的驗(yàn)證結(jié)果的可信度。
1 取樣因素分析
設(shè)計(jì)取樣方案是為了用樣本來探究總體的分布水平,所取的樣本在總體存在一定波動的情況下,可能會存在所取的樣品不能代表總體水平的風(fēng)險(xiǎn),也就是說也許總體水平波動較大,而由于取的樣品數(shù)據(jù)較少,導(dǎo)致通過樣本來估算整體出現(xiàn)失誤。這正好符合假設(shè)檢驗(yàn)的思路,所以可以使用假設(shè)檢驗(yàn)中的“功效和樣本量”來確定樣本數(shù)量是否足夠代表總體水平,或者說有多大的把握代表總體水平,這可以作為設(shè)計(jì)取樣數(shù)量的一個(gè)思路。已知假設(shè)檢驗(yàn)有四種可能,總結(jié)如下[3]。
從表1可以看出,假設(shè)檢驗(yàn)希望得到的結(jié)果是,實(shí)際為真時(shí),接受H0,實(shí)際為假時(shí),拒絕H0。功效就是當(dāng)確實(shí)存在顯著效應(yīng)時(shí)能夠?qū)⑵湔J(rèn)定的可能性,也就是能正確拒絕原假設(shè)錯(cuò)誤的能力,通俗地講就是當(dāng)原假設(shè)為假時(shí),有多大把握可以正確地拒絕原假設(shè)。功效越大,降低的是“納偽風(fēng)險(xiǎn)”,也就是“第二類錯(cuò)誤”。功效受到以下三個(gè)因素的影響[4]。
1)顯著性水平(a) 在其他條件不變的情形下,顯著性水平a增大,b隨之減小,檢驗(yàn)功效1-b隨之增強(qiáng)。
2)樣本量 在其他條件不變的情形下,增大樣本容量,可以提高檢驗(yàn)功效。
3)原假設(shè)與備擇假設(shè)的差異程度 若原假設(shè)與備擇假設(shè)之間的差異非常明顯,這時(shí)取偽的可能性較小,檢驗(yàn)功效增強(qiáng);反之,若原假設(shè)與備擇假設(shè)之間差異較小,就難以通過檢驗(yàn)將二者區(qū)分開來,從而影響檢驗(yàn)功效。
2 示例分析
2.1 事先設(shè)計(jì),用功效計(jì)算樣本量
在驗(yàn)證中,顯著性水平往往不變,對于單樣本,功效就受樣本量和樣品間的差異以及可接受標(biāo)準(zhǔn)影響。用功效來計(jì)算樣本量時(shí),需要先設(shè)定想要達(dá)到的功效,由于制藥行業(yè)的高風(fēng)險(xiǎn)性,一般來說,期望拒絕錯(cuò)誤假設(shè)的能力可以達(dá)到80%以上,所以一般假定功效在0.8以上。在驗(yàn)證中,往往需要證明的是總體在設(shè)定的可接受標(biāo)準(zhǔn)范圍內(nèi)圍繞均值進(jìn)行波動,所以,一般情況下設(shè)定原假設(shè)H0為樣本均值μ1等于總體均值μ0。
假設(shè)需要驗(yàn)證某一產(chǎn)品“總混”含量是否均勻,這時(shí),已知含量的可接受范圍為均值±1,而通過小試已知樣本含量的標(biāo)準(zhǔn)差(s)為0.8或者根據(jù)以往的取樣已知含量總體的標(biāo)準(zhǔn)差(σ)為0.8,由于產(chǎn)品的含量較低,總混混合均勻度是關(guān)鍵質(zhì)量屬性,所以期望功效是0.9,設(shè)計(jì)多少份取樣樣品合理呢?可以通過使用統(tǒng)計(jì)軟件Mintab 19以上版本中的“功效和樣本數(shù)量”工具[5],輸入條件選擇:差值(D)=1,功效值(W)=0.9,標(biāo)準(zhǔn)差(V)=0.8。
可以看出需要9份樣品才可以避免由于樣品量不夠?qū)е碌摹凹{偽風(fēng)險(xiǎn)”。這是通過功效來決定樣本數(shù)量。
2.2 事后評價(jià),用樣本量計(jì)算功效
當(dāng)不知道總體的標(biāo)準(zhǔn)差時(shí),不能用上述辦法預(yù)先判斷需要多少份樣品,可以先設(shè)計(jì)樣品數(shù)量較多的取樣方案,獲得一些檢驗(yàn)數(shù)據(jù),這時(shí),可以通過所得的樣品檢驗(yàn)結(jié)果來計(jì)算這個(gè)取樣方案下的功效是多少,從而評價(jià)取樣數(shù)量是否合適。只要在軟件對話框中輸入相應(yīng)信息即可。假如上述例子,已知含量的可接受范圍為均值±1,按照“總混”設(shè)備上、中、下位置各取2份樣品,得知樣品含量標(biāo)準(zhǔn)差為0.8,那么功效是多少呢?輸入條件選擇:樣本數(shù)量(S)=6,差值(D)=1,標(biāo)準(zhǔn)差(V)=0.8。
可以看出,此時(shí)的功效為0.689,意味著第二類錯(cuò)誤存在的概率為0.311。一般來說,總混混合均勻性對于藥品質(zhì)量是非常重要的,如果有31.1%的概率“納偽”,是不可以接受的。這是通過樣本數(shù)量來判斷功效。
通過上述舉例可以看出,通過使用“功效和樣本量”工具,可以通過既定條件及想要達(dá)到的功效求得樣本量來設(shè)計(jì)取樣方案,也可以通過已有樣本量的檢驗(yàn)結(jié)果來計(jì)算可達(dá)到的功效。通過假設(shè)檢驗(yàn)使取樣數(shù)量更合理,或者判斷原來的取樣方案下得到的結(jié)果有效性如何。這種方法適用于對任意取樣方案的檢驗(yàn)。而且,第二類錯(cuò)誤是由于總體波動存在而導(dǎo)致的,當(dāng)總體波動越大時(shí),對樣本量的檢驗(yàn)越有意義,而當(dāng)樣本結(jié)果標(biāo)準(zhǔn)差較小,且可接受范圍較大時(shí),則可不必進(jìn)行功效檢驗(yàn)。另外,需要特別指出的是,樣本量并不是越大越好,當(dāng)樣本量達(dá)到一定數(shù)量后,會導(dǎo)致本來很小的差異非常顯著。這種差異在實(shí)際工作中毫無意義,所以,功效與樣本的檢驗(yàn)在設(shè)計(jì)方案時(shí)是非常有意義的。
當(dāng)存在兩個(gè)待比較樣本同時(shí)取樣時(shí),例如同時(shí)分析兩種處方,同時(shí)比較兩臺總混機(jī)等,同樣可以使用“功效和樣本數(shù)量”中的雙樣本t來檢驗(yàn)給定的樣本數(shù)量是否有足夠的能力證明兩份樣品的均值是否真的存在差異,或者根據(jù)給定的功效來預(yù)計(jì)需要多少數(shù)量的樣本。與單樣本不同之處在于,此時(shí)的“標(biāo)準(zhǔn)差”是已有樣品的合并標(biāo)準(zhǔn)差或者兩個(gè)總體水平的標(biāo)準(zhǔn)差估計(jì)值。由于只是使用統(tǒng)計(jì)工具的不同,此處不再贅述。
3 結(jié)語
綜上所述,藥品生產(chǎn)或研發(fā)驗(yàn)證人員在設(shè)計(jì)取樣方案時(shí),可以在符合指南給出的取樣位置的基礎(chǔ)上,通過科學(xué)使用統(tǒng)計(jì)工具“功效和樣本量”使取樣數(shù)量更具科學(xué)性和有效性。
參考文獻(xiàn)
[1] FDA guidance 5381dft. Guidance for Industry Powder Blends and Finished Dosage Units - Stratified InProcess Dosage Unit Sampling and Assessment[EB/OL].(2011-02-25) [2020-12-14]. https://wenku.baidu.com/ view/66ac99eb81c758f5f61f677e.html.
[2] 國家食品藥品監(jiān)督管理局藥品認(rèn)證管理中心. 藥品GMP指南·口服固體制劑[M]. 北京: 中國醫(yī)藥科技出版社, 2011: 185.
[3] 全國質(zhì)量專業(yè)技術(shù)人員職業(yè)資格考試辦公室. 質(zhì)量專業(yè)理論與實(shí)務(wù)[M]. 北京: 中國人事出版社, 2011: 60.
[4] 葉仁道, 劉干, 薛潔. 統(tǒng)計(jì)學(xué)[M]. 西安: 西安電子科技大學(xué)出版社, 2016: 122.
[5] Minitab LLC. 用于估計(jì)的樣本數(shù)量的示例[EB/OL]. (2019-06-05) [2020-12-14]. https://support.minitab.com/zh-cn/ minitab/19/help-and-how-to/statistics/power-and-sample-size/ how-to/sample-size/sample-size-for-estimation/before-youstart/example/.