(成都飛機工業(yè)(集團)有限責任公司檢驗檢測部,成都 610092)
在實驗室常使用標準物質(zhì)或質(zhì)量控制物質(zhì)、測量設(shè)備的期間核查、實驗室內(nèi)比對等方式對試驗過程進行監(jiān)控。同時,在 AC7101/1G:2019《NADCAP對所有材料實驗室的總體要求》的附錄中要求各申請專業(yè)每年度需按照一定頻次完成能力驗證和內(nèi)部比對試驗,對于一些專業(yè)還專門提出了對人員的內(nèi)部比對和對設(shè)備的內(nèi)部比對的頻次要求。為適應(yīng)中國合格評定國家認可委員會(CNAS)的“確保結(jié)果有效性”的要求、國家航空航天和國防合同方授信項目(NADCAP)的實驗室內(nèi)部比對要求,我實驗室將不同設(shè)備之間的比對、不同人員之間的比對、與外部實驗室的比對均納入計劃作為實驗室進行質(zhì)量控制的強有力的手段,以評價人員和(或)設(shè)備產(chǎn)生試驗結(jié)果的重復(fù)性,從而確定實驗室人員、設(shè)備能力,識別實驗室存在的問題,明確不同試驗者和(或)設(shè)備產(chǎn)生的試驗結(jié)果的離散程度。
對于上述比對試驗的結(jié)果,一直以來各個實驗室都有多種評價方法,導(dǎo)致評價結(jié)果五花八門。如何針對不同的試驗類型,制定切實可行的比對計劃,選取易于獲得的樣品,采取簡單、高效、科學(xué)的評價方法,是各實驗室都很關(guān)心的焦點。本文針對不同內(nèi)部比對試驗類型,比較了幾種不同的統(tǒng)計評價方法,得出了一些可供借鑒的結(jié)論。
如果使用已知認定值的樣品或已知平均值及其標準偏差的樣品或已知樣品參考值上下限范圍的樣品來進行比對試驗,那么一般實驗室會制定一個可接受范圍來評價比對試驗結(jié)果。
例如,AC 7101/1G:2019中規(guī)定在內(nèi)部比對試驗中,如果使用已知樣品參考值上下限范圍,那么所有測定值應(yīng)落在上下限范圍內(nèi);如果使用已知平均值及其標準偏差的樣品,那么該項目的所有測定值落在平均值±1倍的樣品標準偏差范圍內(nèi),就認為設(shè)備或者人員是合格的。如果測定值落在平均值±2倍標準偏差和±1倍標準偏差之間,就需要進行額外的測定和評價(見 AC 7101/1G:2019《NADCAP對所有材料實驗室的總體要求》附錄D.3.2.C.c.ii.)。
如果使用認定值(或其他準確參考值)的樣品,還可以使用F檢驗和t檢驗來檢驗有限數(shù)量樣品測定的平均值與標準樣品認定值(或其他準確參考值)有無顯著性差異[1],即判斷某種測定方法的分析結(jié)果是否可靠,見公式(1):
式中:t為統(tǒng)計量;μ為認定值;n為測定次數(shù);s為標準偏差;為測定值的平均值。
判斷標準:t≥t表,有顯著性差異,結(jié)果不可靠;t<t表,無顯著性差異,結(jié)果可靠。t表是根據(jù)之前設(shè)定的顯著性水平α,查自由度n-1的“t檢驗臨界值表”得到。
在實驗室進行內(nèi)部比對試驗時,大部分情況所使用的是未知參考值的樣品,特別是對于力學(xué)性能試驗,很難得到認定值已知的樣品。對于這種情況下的比對試驗,AC 7101/1G:2019中提到可以由實驗室來確定樣品的平均值和標準偏差,但至少要進行12次測定,然后再分別進行人員比對或設(shè)備比對。另外,實驗室也可以參照給標準物質(zhì)定值的方法,進行樣品的均勻性檢驗、穩(wěn)定性檢驗,剔除異常值后得出樣品的參考值分布。若能得到樣品的參考值及其分布,那比對試驗的結(jié)果就很容易進行判斷。
對于參考值未知的樣品,還可以使用F檢驗和t檢驗來比較不同分析人員的分析結(jié)果相符合的程度,即兩平均值之間是否有顯著性差異。但是對于使用F檢驗和t檢驗,推薦只針對二組值之間的比較,若用于多組數(shù)據(jù)的比較,計算量大,過程繁瑣。比如,在實驗室內(nèi)部有n名人員的情況下,要完成一次內(nèi)部的人員比對,若仍然采用該檢驗方法二二比較,就需要至少次的計算。以3個總體均值相等的檢驗為例,分別對兩總體均值相等性進行檢驗,需要進行3次檢驗,若每次檢驗的置信水平為95%,那么3次檢驗后,置信水平將降低為0.953=0.857,即只有85.7%,總體數(shù)目越多,置信水平越低,錯誤風險將變得太大[2],這將使得這種比較方法不再具有實際價值。
t值計算公式[1]為:
式中:x1為第1 組樣品測定值的平均值;x2為第2組樣品測定值的平均值;n1為第1組樣品的測定次數(shù);n2為第2 組樣品的測定次數(shù);S合為合并標準差。
S合計算見公式(3):
式中:S1為第1 組樣品測定值的標準差;S2為第2組樣品測定值的標準差。
判斷標準:t≥t表,表示二組平均值之間有顯著性差異;t<t表,表示二組平均值之間無顯著性差異。其中t表是根據(jù)之前設(shè)定的顯著性水平α,查自由度n1+n2-2的“t檢驗臨界值表”得到。在用t檢驗前,必須進行F檢驗,除非已知其方差一致。
有些實驗室將能力驗證的評價方法,運用到實驗室內(nèi)部比對中。CNAS-GL002:2018《能力驗證結(jié)果的統(tǒng)計處理和能力評價指南》以及GB/T 28043-2011《利用實驗室間比對進行能力驗證的統(tǒng)計方法》等指導(dǎo)性文件中提到有些統(tǒng)計量:中位值、標準化四分位距、穩(wěn)健變異系數(shù)、穩(wěn)健Z比分數(shù)等。這些統(tǒng)計量受極端值的影響較小,這種特性叫穩(wěn)健性。在對能力驗證的統(tǒng)計計算中,經(jīng)常使用Z比分數(shù),它是基于檢測結(jié)果符合正態(tài)分布的統(tǒng)計學(xué)原理,使用中位值和標準化四分位距的一種簡單的穩(wěn)健統(tǒng)計方法。應(yīng)用此法計算得到數(shù)據(jù)總體均值和總體標準差的估計值——中位值(med)和標準化四分位距(NIQR)。中位值和標準化四分位距是數(shù)據(jù)集中和分散的度量,與平均值和標準差相似。
對于單一樣品(第i個樣品)的測定結(jié)果xi而言,簡單的穩(wěn)健Z比分數(shù)(用Z表示)為:
式中:med(x)表示一組從小到大排列的x1,x2,…,xi,…,xn的中位值;NIQR(x)表示一組從小到大排列的x1,x2,…,xi,…,xn的標準化四分位距。
四分位距(IQR)、NIQR 的計算見公式(5)和公式(6):
式中:Q1為下四分位數(shù);Q3為上四分位數(shù)。
對一組由小到大排列的數(shù)據(jù):居于下四分之一位置的數(shù)據(jù)為下四分位數(shù)或低四分位數(shù)(Q1),該組數(shù)據(jù)的四分之一低于Q1,四分之三高于Q1;居于上四分之一位置的數(shù)據(jù)為上四分位數(shù)或高四分位數(shù)(Q3),該組數(shù)據(jù)的四分之一高于Q3,四分之三低于Q3。簡單來說,對于N個從小到大排列的數(shù)據(jù),中位值的位置位于(N+1)/2處,下四分位數(shù)Q1位于[(N+1)/2+1]/2 處,上四分位值Q3位于(N+1)/2+[(N+1)/2+1]/2-1處。
用Z比分數(shù)評定準則為:|Z|≤2,表明結(jié)果“滿意”,無需采取進一步措施;2<|Z|<3,表明結(jié)果“有問題”,產(chǎn)生警戒信號;|Z|≥3,表明結(jié)果“不滿意”,產(chǎn)生措施信號。
實驗室內(nèi)部的人員比對若使用穩(wěn)健統(tǒng)計的Z比分數(shù),參與評價的是每個個體多次測定得到的平均值,對參與統(tǒng)計分析的人員數(shù)量有一定要求,不能太少,并且每個參與者所用的試樣都應(yīng)均勻一致,穩(wěn)定可靠。
例如,26個操作者進行2024金屬材料拉伸比對試驗,每人重復(fù)3次,將每個操作者得到的抗拉強度平均值進行順序排列和計算,得到2024金屬材料抗拉強度的Z比分數(shù),見表1。表1中:IQR=Q3-Q1=472.92-470.08=2.84;NIQR=0.741 3×IQR=2.10。
從每個操作者的Z比分數(shù)可以看出:操作者24的Z比分數(shù)為2.22,位于2<|Z|<3,表明結(jié)果“有問題”,產(chǎn)生警戒信號,需對操作者24 的數(shù)據(jù)進行研究。
表1 2024金屬材料抗拉強度的Z 比分數(shù)Tab.1 Z-scores for tensile strength of 2024 metal material
采用穩(wěn)健統(tǒng)計的Z比分數(shù),對于多人的比對試驗結(jié)果計算,計算量不大,結(jié)果判斷科學(xué)、合理、直觀。使用Z比分數(shù)對實驗室能力進行評價,使用的超差判據(jù)|Z|≥3 的置信概率對應(yīng)于正態(tài)分布的99.73%,即測1 000次才出現(xiàn)2~3次超差,屬小概率。一般在一次試驗中是不可能出現(xiàn)的,一旦出現(xiàn)則屬于離群值。類似的,當2<|Z|<3時,表示概率約在95%~99%之間,出現(xiàn)的幾率也較小。一旦出現(xiàn)應(yīng)該周密地分析一下,是什么問題導(dǎo)致分散性加大。
參照標準GB/T 6379.2-2004《測量方法與結(jié)果的準確度(正確度與精密度)第2部分:確定標準測量方法重復(fù)性與再現(xiàn)性的基本方法》、ISO 5725-2:1994《測量方法與結(jié)果的準確度(正確度與精密度)第2部分:確定標準測量方法重復(fù)性與再現(xiàn)性的基本方法》、ASTM E 691-2018《開展實驗室間研究以確定試驗方法精度的規(guī)程》,為了研究一種測定方法的精密度,需要在多個協(xié)同實驗室間開展研究,即在多個實驗室之間采用同樣的方法對同一測定樣本進行相同水平的重復(fù)測定,對所有協(xié)同實驗室的數(shù)據(jù)進行重復(fù)性標準差和再現(xiàn)性標準差估計。這種檢驗結(jié)果一致性的方法,雖然是用在對測定方法精密度的研究中,本文也嘗試將這種方法用在實驗室內(nèi)部的比對試驗中。
在檢驗一致性的方法中,需用到曼德爾的h統(tǒng)計量和k統(tǒng)計量。h表示的是實驗室間一致性的統(tǒng)計量,k表示的是實驗室內(nèi)一致性的統(tǒng)計量。
對于每個個體采用公式(7)計算h值:
式中:d為單個個體偏差;為單個個體平均值的標準偏差。
d的計算見公式(8):
式中:p為參與比對的個體數(shù)目。
對每個個體采用公式(10)計算k值:
式中:s為單個個體的標準偏差;sr為材料的重復(fù)性標準偏差。
s的計算見公式(11):
式中:n為單個個體重復(fù)測定次數(shù);x為測定值。sr的計算見公式(12):
根據(jù)以上計算,可以計算得到每個個體的h和k值。取顯著性水平為0.5%,查0.5%顯著水平下h和k的極限值表,如果每個個體計算得到的h值和k值超過極限值或接近極限值,那么可以分析判斷該個體的比對試驗結(jié)果是否可以接受。
例如,對于上文提到的26個操作者,每人重復(fù)3次的2024金屬材料拉伸比對試驗,采用h和k統(tǒng)計量,重新進行了分析,2024金屬材料抗拉強度的h和k統(tǒng)計量見表2,表2中,操作者p=26,重復(fù)次數(shù)n=3,=2.19,sr=2.24。
表2 2024金屬材料抗拉強度的h 和k 統(tǒng)計量Tab.2 Statistic h and statistic k for tensile strength of 2024 metal material
對于同樣26 個操作者,重復(fù)3 次的情況,查0.5%顯著水平下h和k的極限值分別為2.62,2.23;查1%顯著水平下h和k的極限值分別為2.43,2.09;查5%顯著水平下h和k的極限值分別為1.90,1.71??梢娞岣唢@著性水平,試驗數(shù)據(jù)中超過極限值的異常數(shù)據(jù)會增多,這會增加實驗室不必要的成本。在實驗室可接受風險范圍內(nèi),一般對比查找0.5%顯著水平下h和k的極限值。對照表2可以發(fā)現(xiàn),操作者4的k統(tǒng)計量已經(jīng)超過極限值,其3次試驗數(shù)據(jù)重復(fù)性較差,并且操作者24的h統(tǒng)計量已經(jīng)接近極限值,其試驗數(shù)據(jù)雖然重復(fù)性較好,但與其他人的數(shù)據(jù)有差異,應(yīng)引起重視。對比上文用Z比分數(shù)得到的分析結(jié)果,可以發(fā)現(xiàn)操作者24的Z比分數(shù)為2.22,位于2<|Z|<3,表明結(jié)果“有問題”,產(chǎn)生警戒信號。這兩種分析結(jié)果都得出了同樣的結(jié)論,而且使用h和k統(tǒng)計量比用Z比分數(shù)更能發(fā)現(xiàn)試驗結(jié)果的重復(fù)性是否有問題。選取的置信水平稍有不同,導(dǎo)致使用Z比分數(shù)和使用h統(tǒng)計量進行判斷的結(jié)論稍有不同,但趨勢是一致的。
總的來說,對于實驗室內(nèi)部的比對試驗,本文嘗試摸索了針對不同的試驗類型,選取不同的適用統(tǒng)計評價方法。一般來說,若對比的樣本只有2個,比如是2臺設(shè)備之間的比對或2個人員的比對,那么就推薦使用“F檢驗和t檢驗”。若對比的樣本量較大,比如超過9個人員之間的比對,使用“穩(wěn)健統(tǒng)計的Z比分數(shù)”、“h統(tǒng)計量和k統(tǒng)計量”都是可行的,但需注意的是:①若使用Z比分數(shù),最好提前規(guī)劃好比對的個體樣本數(shù)目,否則計算復(fù)雜,易出錯。②在使用Z比分數(shù)時,參與計算的是單個個體重復(fù)測定后的平均值。③如果比對的樣本量超過6個,或條件允許,推薦使用“h統(tǒng)計量和k統(tǒng)計量”。h可以表示個體之間的一致性,k可以表示個體內(nèi)部的一致性。使用該統(tǒng)計方法,參與分析的不光有單次測定的數(shù)據(jù),還有個體的平均值??梢苑浅V庇^地發(fā)現(xiàn)問題。