趙成鋼
摘 要:在精密測量中,處理測試數(shù)據(jù)時,需要采用科學的方法剔除可疑離群數(shù)據(jù),以保證測量結(jié)果的可靠性。簡要論述了常用判斷準則——萊特(3δ判據(jù))、肖維勒、格拉布斯和t檢驗4個準則的相關內(nèi)容,從準則的定義出發(fā),比較了各準則之間的區(qū)別和聯(lián)系,并保留了數(shù)據(jù)域的寬窄,提高對其的理論認識,以便在日后的數(shù)據(jù)處理工作中更好地使用這些準則。
關鍵詞:精密測量;離群數(shù)據(jù);判斷準則;數(shù)據(jù)域
中圖分類號:TB114 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2015.10.003
1 判斷準則的數(shù)學形式
重復測量某物理量的精度n次,得測得值X1,X2……Xn;某測得值的殘余誤差的絕對值大于標準偏差δs與判別系數(shù)T之積,即:
.
由此可知,該誤差為粗大誤差,測得值Xd為離群數(shù)據(jù),應剔除。
式(1)中:
采取t檢驗準則時,剔除可疑離群數(shù)據(jù)Xd后,計算算術(shù)平均值和標準偏差為:
4個判斷準則都有與式(1)相同的判別式,只是其中的判別系數(shù)T不同而已。
2 判別系數(shù)T的確定
2.1 萊特準則
在萊特準則下,規(guī)定T=3顯然有其合理性。
對于服從正太分布的隨機誤差,任意區(qū)間(-Δ,Δ)的差落在該區(qū)間的概率為:
拉普拉斯函數(shù)為:
當Δ=3δ時,2φ(3δ/δ)=0.997 3. 這說明,其殘余誤差落在區(qū)間(-3δ,3δ)以外的概率僅為0.27%,即經(jīng)過370次測量才會出現(xiàn)一次,對于有限次測量來說,可以認為這是不可能發(fā)生的。由于3δ判據(jù)實質(zhì)上是建立在n→∞基礎上的,所以,當n有限時,特別是當n比較小時,這一判據(jù)并不是十分可靠的。同時,又因為δ是δ的估計值,δ的精密度與測量次數(shù)n有關,所以,在使用過程中,處理n比較大的數(shù)據(jù)群為好。
從另一個角度也可以說明,n取比較大的值為好。在等精度的n次重復測量中,如果只有一個測得值的殘余誤差|Xd-X|
超出某一界限±Tδ,而相應的概率Pa=1-2φ(T)=1/n,則按正態(tài)分布規(guī)律可知,此值的殘余誤差為正常超出,因為n個等精度測得值中出現(xiàn)一個的概率恰好是1/n.這說明,此值中含有隨機誤差,但是,不含疏忽誤差。如果按以上條件算出的概率Pa值小于1/n很多,則上述正常超出的可能性便會減小,而含有疏忽誤差的非正常超出的可能性便會增大。
對于萊特準則,可估算,取Pa=1-2φ(3)=1/n,則有n=1/(1-0.997 3)=370.
這說明,萊特準則可用于n比較大的測量數(shù)據(jù)群。經(jīng)驗表明,一般n≥50,即可選用萊特準則判別。
2.2 肖維勒準則
Pa為殘余誤差落在(-Tδ,Tδ)以外的概率,則:Pa=1-2φ(T).
規(guī)定當Pa=1/2n時,則判別該測得值的殘余誤差為含有疏忽誤差的非正常超出,所以,應將該值剔除。
由此可得:Pa=1-2φ(T)=1/2n.
其中,φ(T)=(2n-1)/4n.
由n和拉普斯函數(shù)可得肖維勒準則的T值。
由此可知,肖維勒準則是萊特準則的改進,T判別系數(shù)從定值修正為一個與n有關的參數(shù),n增加,T相應增大,n越小,保留數(shù)據(jù)域就越小。
對于肖維勒準則,可估算,取2φ(T)=(2n-1)/2n=0.975,則有n=20;取2φ(T)=(2n-1)/2n=0.997 3,則有n=185.
由此可知,肖維勒準則可用于測量次數(shù)比較少的數(shù)據(jù)群離群數(shù)據(jù)判別。經(jīng)驗表明,一般n=20-100,即可用肖維勒準則判別。
2.3 格拉布斯準則
由正太分布原理可知,選定一個危險率α.一般選5.0%,2.5%,1.0%,從而建立起T=λ(α,n)的函數(shù)關系。
在該函數(shù)關系中,λ(α,n)為測量次數(shù);n為危險率是α時的統(tǒng)計臨界值,可查λ(α,n)表而得。經(jīng)過分析后可知,λ(α,n)值隨α增大而減小,隨n增大而增大。
考慮到危險率α和測量次數(shù)n雙因子,給出了比較嚴格的結(jié)果[λ(α,n)來源推導復雜約],所以,該準則可用于測量次數(shù)n比較少的數(shù)據(jù)群可疑離群數(shù)據(jù)的判別中。
一般經(jīng)驗表明,該準則用于n≤25的測試數(shù)據(jù)群的可疑數(shù)據(jù)判別中。
2.4 t檢驗準則
t檢驗準則是應用分布原理合理檢驗測量數(shù)據(jù)的又一種方法。該準則與格拉布斯準則一樣,考慮到危險率α和測量次數(shù)n,建立起T=k(α,n)的函數(shù)關系。
在該函數(shù)關系中,k(α,n)為測量次數(shù);n為危險率是α時的統(tǒng)計臨界值,可查k(α,n)表而得。經(jīng)過分析可知,k(α,n)值隨α增大而減小,隨n增大而減小。
考慮到危險率α和測量次數(shù)n雙因子,給出了比較嚴格的結(jié)果[k(α,n)來源推導約],所以,該準則可用于測量次數(shù)比較少的數(shù)據(jù)群可疑離群數(shù)據(jù)的判別。
一般經(jīng)驗表明,該準則可用于n≤20的測試數(shù)據(jù)判別中。
那么,格拉布斯準則與t檢驗準則有什么關系呢?可以從計算標準偏差嚴格的較差公式出發(fā)進行推證:
令:
由λ(α,n)和k(α,n)數(shù)表可知,λ(α,n)隨n的增加單調(diào)增加,k(α,n)隨n的增加單調(diào)減少。當n增大到一定數(shù)字時,λ(α,n)>k(α,n).由式(15)可得,B>A,A>λ(α,n),則B>k(α,n).
由式(20)可知,在k(α,n)>λ(α,n)的情況下,計算并對照λ(α,n)表和k(α,n)表得,當A>λ(α,n)時,則B>k(α,n).
由此可知,t檢驗準則的保留數(shù)據(jù)域比格拉布斯準則窄,即如果可疑數(shù)據(jù)被格拉布斯準則剔除,那么,它也一定會被t檢驗準則剔除。
3 體會
以上各準則都是人為主觀擬定,但是,又都是以數(shù)據(jù)按正態(tài)分布為前提的。當偏離正太分布時,判斷的可行性將會受到影響,特別是測量次數(shù)減少時更不可靠。因此,對于可疑離群數(shù)據(jù),除了從測量結(jié)果中及時發(fā)現(xiàn)和利用剔除準則鑒別外,更重要的是提高工作人員的技術(shù)水平和工作質(zhì)量,保證不出現(xiàn)有較大誤差的離群數(shù)據(jù)。
另外,可依據(jù)測量準則度的要求和測量次數(shù)選擇判別準則。從上述準則間的聯(lián)系、數(shù)據(jù)域的寬窄和實踐操作經(jīng)驗來看,推薦當測量次數(shù)n≤50或n≥10作粗略判別時,可采用萊特(3δ判別)準則,在其他情況下,采用格拉布斯準則判別為好。
在有限的測量列中,當出現(xiàn)2個異常數(shù)據(jù)時,通??烧J為整個測量結(jié)果是在不正常條件下得到。鑒于此,應不斷改進和完善測量方法,重新進行有效測量。
〔編輯:白潔〕