杜子芳,劉亞文,于煥杰
(1.中國人民大學 統(tǒng)計學院,北京 100872;2.對外經(jīng)濟貿(mào)易大學 統(tǒng)計學院,北京 100029)
k法是產(chǎn)品計量抽樣檢驗中的常用方法之一。對于其中的單側檢驗而言,在中心極限定理成立假設下,其抽樣檢驗方案(N,n,k)非常簡單,只需要確定n和k兩個參數(shù)即可。其中N為總體規(guī)模或批量,n是不放回簡單隨機抽樣方式的樣本量,k是單側檢驗時的判別依據(jù)—界值。
單側k法檢驗的現(xiàn)實背景是,μ0和μ1都是事先給定/規(guī)定/約定的值,分別稱為合格質(zhì)量水平和極限質(zhì)量水平。由于單側檢驗雖有下限與上限之分,但原理是一樣的,不妨只討論單側下限的計量檢驗的情形,即認定當產(chǎn)品質(zhì)量特性Y是數(shù)值型隨機變量時,其總體均值μ≥μ0時,認為該批產(chǎn)品是合格的,買方應予以接收;總體均值μ<μ1時,予以拒收。顯然 μ越大越好,買方不希望μ<μ0,更幾乎不準 μ<μ1。由于此時恒有(μ1<μ0),否則會因買方標準高于賣方標準,交易無法達成。但明顯地,當總體均值 μ1≤μ<μ0時,無法做出接收還是拒收的判斷。為了對一批產(chǎn)品做出要么接收要么拒收的決斷,基于第三方立場,人們提出了在μ1到μ0之間確定一個k值,修改檢驗或判定準則為:
針對和總體方差σ2已知的情形(注意這既非罕見的場合,在連續(xù)生產(chǎn)許多批產(chǎn)品的中后期階段尤其如此,亦非如統(tǒng)計學理論中的不符合現(xiàn)實的假設),W.A.Wallis上世紀50年代前就有十分完美的結果:
此即著名的Wallis經(jīng)典公式。自該公式面世以來,國內(nèi)外這方面的研究很少,國外近40年沒見新的文獻,幸而國內(nèi)還有少數(shù)學者還在關注。
對于總體方差未知的情形(這種場合常見于孤立批和連續(xù)批的初期階段,且十分吻合統(tǒng)計學的理論假設),Wallis W.A.于1947年也給出了一個看起來不錯且沿用至今的近似結果:
其推導過程為:
方差未知時應使用t分布解決問題,為此令:
也就是:
當 μ=μ0時,P(yˉ≥μ0+ts)=1-α
當 μ=μ1時,P(yˉ≥μ0+ts)=β
或
當 μ=μ0時,P(yˉ-μ0≥ts)=1-α
當 μ=μ1時,P(yˉ-μ0≥ts)=β
進一步:
當 μ=μ0時
當 μ=μ1時
顯然,μ=μ0時即服從自由度為n-1的中心t分布。
可是,μ=μ1時,由于不服從N(0,1)分布,從而服從自由度為n-1的非中心t分布。
方差為:
顯然:
當 μ=μ0時
當 μ=μ1時
不過二者方差是相等的。
因而:
類似地也可得:
盡管這個結果只是近似的,且該公式一面世,哥倫比亞大學統(tǒng)計學教研組就指出這個結果遠非準確,并以表的方式給出了一個具體比較。
然而令人訝異的是,這個公式竟然沿用至今,仍然活躍在國際標準和教科書中,似乎并未受到進一步的質(zhì)疑和挑戰(zhàn)。哥倫比亞大學統(tǒng)計學教研組的精確解主要從消除以正態(tài)分布近似t分布所產(chǎn)生誤差的角度,并非給出一個相應的替代方案。事實上,1979年,E.C.Schilling和D.J.Sommer1979年還基于Wallis經(jīng)典公式和近似公式制作了可用于對不合格品率或百單位缺陷數(shù)的檢驗用表,被用于ISO-3951-1981,并因此活躍于對新版ISO標準及各國標準之中。
癥結在于,人們在幾十年間里似乎沒有發(fā)現(xiàn)上述推導過程一開始就令k=μ0+ts是一處不顯眼的致命錯誤,因為仔細思考,從此式可以看出,k的定義只與μ0有關,而與 μ1無關,對比上述總體方差σ2已知時的公式 k=中,μ0與 μ1完全是對稱的情形,則不難知道漠視μ1的存在是不合理的。
事實上,數(shù)理統(tǒng)計似乎總是以原假設成立為優(yōu)先條件進行理論推導,不曾意識到對產(chǎn)品抽樣檢驗來說,原假設與備擇假設的地位是平等的,而且在計算過程里,忽視了本質(zhì)上兩個假設是允許同時成立的本原,否則Wallis經(jīng)典公式便不成立。
將k法的下限計量檢驗的判定規(guī)則更“準確”地表達為:
原假設成立即當 μ=μ0時
備擇假設成立即當 μ=μ1時
于是當總體/批方差σ2已知時,若服從標準正態(tài)分布;當 μ=μ1時也服從標準正態(tài)分布;則有:
聯(lián)立這兩個方程即可得到優(yōu)美無比的經(jīng)典公式。換個角度看,這說明在單側計量檢驗問題里原假設與備擇假設的地位是平等的,允許同時成立。這與統(tǒng)計學的判別分析相似,基于這樣的分析,可以給出一下推導:
設方差未知但相等,中心極限定理成立,將μ0與μ1一視同仁則:
于是:
這里的公式極其簡潔,完全可與總體方差已知時Wallis公式相媲美,且與Wallis公式的聯(lián)系十分清晰,只是以t分布代替標準正態(tài)分布而已。從檢索結果看,這個結果應歸功于中國學者。需要注意的是,這是精確的結果,比起前述教科書的近似結果:不僅精確而且簡潔,更容易解釋。
美中不足的是:
公式右邊存在以n為自變量的參數(shù),為了克服這一缺陷,國內(nèi)學者提出的解決方法大致有三種:
(1)基于t分布與標準正態(tài)分布的近似關系,直觀地提出了在Wallis公式中用樣本方差替代了總體方差的解決辦法;
(2)利用命名為動差法的解決辦法,逐漸加大n進行試調(diào)查,直至樣本方差穩(wěn)定,然后在Wallis公式中用樣本方差替代了總體方差;
(3)以假設值代入精確公式,算出相應參數(shù)的手段并編成表備查,現(xiàn)行國標即采用這種方法。
第一種解決方法實質(zhì)是以標準正態(tài)分布近似代替t分布,樣本量較小時弊端明顯;第二種解決方法關于總體方差的估計誤差較小,其樣本量必偏大;第三種是目前最好的解決辦法,但通過列出不同的有限的α,β等試算結果,編制成表讓使用者查表,既不靈活也比較繁瑣,更不適應當今計算機及軟件普及的情況。
針對第三種解決方法的這一瑕疵,本文發(fā)現(xiàn)編制表格本質(zhì)上屬于迭代,所以完全可以嘗試通過迭代法求得最終的n,步驟是:首先以 zα和 zβ代替 tα(n-1)和 tβ(n-1),求出一個n*,將n*代入等式右端 tα(n-1)和 tβ(n-1),求出新的n*;重復上述步驟直至n*穩(wěn)定下來不再變化為止。嘗試的結果表明,不論是初值是小還是大,不管離真值是遠還是近,收斂速度都很快。究其原因,應是得益于t分布與標準正態(tài)分布的高度近似,比較t分布和標準正態(tài)分布圖容易發(fā)現(xiàn),兩者差異的確不大,且差異隨n增加而快速減小。見圖1所示。
圖1 標準正態(tài)分布與t分布密度曲線
表1 第一例數(shù)值迭代過程表
在該例中,只經(jīng)過三步即得到收斂的結果(見表1),且與依近似公式:
所得樣本量結果一樣,但t值有所不同,近似的為0.46,依精確公式計算的為0.470727。
表2 第二例數(shù)值迭代過程表
如表2所示,3次迭代結果穩(wěn)定于:
但若依近似公式則為:
可見,在方差較大時,即使需要比較精密的檢驗時,兩者結果相差不大,這大概是Wallis近似公式能夠“長盛不衰”的緣故。但當方差較小時,兩者的差異是較大的:見表3所示,上例中的方差由256調(diào)到25,則依近似公式樣本量是7,依精確公式迭代是11。
將這些例子的結果與哥倫比亞大學統(tǒng)計教研室的結果進行比較發(fā)現(xiàn),精確公式比近似公式更加接近。其實由于Wallis近似公式:
表3 方差較小時的數(shù)值迭代過程表
公式右端第二項是一個只與α有關的常數(shù)項,與n無關,不會像精確公式那樣隨n增加而收斂于總體方差已知的Wallis經(jīng)典公式。這是很明顯的瑕疵。瑕疵源于:
本文進一步發(fā)現(xiàn),新的精確公式雖然結論正確,但推導過程卻也存在瑕疵。原本的判定原則:
當μ≥μ0時,認為該批產(chǎn)品是合格的;
當μ<μ1時,認為該批產(chǎn)品不合格。
與后來推出完美公式的k法的右側計量檢驗的判定規(guī)則:
當 μ=μ0時,P{yˉ≥k}=1-α
當 μ=μ1時,P{yˉ≥k}=β
并不具一一對應的等價性,很明顯,原本的規(guī)則中μ≥μ0和μ<μ1都是實數(shù)軸上的一個區(qū)間,而后來的μ=μ0和μ=μ1都是一個點。更何況:
事實上,演算表明k與μ0之間的概率遠小于理論上的0.5-α,足以表明所謂若服從標準正態(tài)分布的似是而非。
樣本量過大和過小都有弊端。如何合理確定樣本量是產(chǎn)品抽查檢驗方案的重要內(nèi)容之一??茖W的抽查檢驗有助于公平維護賣方和買方雙方的權益和利益,促進社會進步,減少交易糾紛,降低抽檢成本。鑒于產(chǎn)品質(zhì)量檢驗的重要性,對抽驗方案的哪怕些微改進都是很有益處的,對于正處在經(jīng)濟轉型產(chǎn)品升級由制造大國向制造強國奮進的中國來說,更具價值,附帶地還可能有助于爭取國際標準方面的話語權和存在感。同時,上面的推導雖然以產(chǎn)品檢驗為背景,但其方法可以推廣與任何基于給定兩類錯誤的如醫(yī)學試驗、風險控制等統(tǒng)計檢驗領域。
參考文獻:
[1]Lieberman G J,Resnikoff G J.Sampling Plans for Inspection by Variables[J].Journal of the American Statistical Association,1955,(50).
[2]Lieberman G J.Tables for One-Sided Statistical Tolerance Limits[J].Industrical Quality Control,1958,14(10).
[3]Hamxker H C.Acceptance Sampling for Percent Defective by Variables and by Attributes[J].Journal of Quality Technology,1979,11(3).
[4]Wetherill G B.Sequential Methods in Statistics[J].Chapman and Hall,London,1975.
[5]于善奇.統(tǒng)計方法引論[M].北京:北京工業(yè)大學出版社,2014.
[6]于善奇.抽樣檢驗與質(zhì)量控制[M].北京:北京大學出版社,1991.
[7]于善奇.單側限假設檢驗的理論與應用——GB/T14900—1994表3的設計方法[J].中國標準化,1996,(8).
[8]杜子芳.多元統(tǒng)計分析[M].北京:清華大學出版社,2016.
[9]馮長根,惠寧利.抽樣檢驗[M].北京:北京理工大學出版社,1992.
[10]厲晶晶,郭文.兩類錯誤條件下的樣本量選擇[J].統(tǒng)計與決策,2010,(15).
[11]劉建平.臨床試驗的樣本含量的計算[J].中國中西醫(yī)結合,2003,(7).
[12]沈其君,徐勇勇.假設檢驗的基本概念[M].北京:高等教育出版社,2004.
[13]馮士雍,倪嘉勛,鄒國華.抽樣調(diào)查理論與方法[M].北京:中國統(tǒng)計出版社,1998.
[14]杜子芳.抽樣技術及其應用[M].北京:清華大學出版社,1998.