李行洋,李 珩
(1.湖北水利水電職業(yè)技術(shù)學(xué)院,武漢 430070;2.華中農(nóng)業(yè)大學(xué),武漢 430070)
變形監(jiān)測,是利用測量專用儀器、方法對變形體的變形現(xiàn)象進(jìn)行監(jiān)測觀測的工作,具有重復(fù)性特征。當(dāng)在相同觀測條件下對某量進(jìn)行重復(fù)觀測時,如果不是變形體非實質(zhì)性的變化,而觀測誤差超出規(guī)定條件的預(yù)期,出現(xiàn)粗大誤差或粗差。含有粗大誤差的測量值即為異常值,也稱離群值或壞值[1]。測量中,將含有粗大誤差的測量值也稱為奇異值。粗大誤差的存在不僅大大影響測量成果的可靠性,而且給工作帶來難以估量的損失[2]。在進(jìn)行監(jiān)測數(shù)據(jù)處理前,需要用一定方法判斷測量列中是否含有粗大誤差,并將含有粗大誤差的奇異數(shù)據(jù)進(jìn)行剔除,再利用余下的正常數(shù)據(jù)對測量誤差參數(shù)進(jìn)行估計。相關(guān)文獻(xiàn)[3~4]提出了兩種利用觀測數(shù)據(jù)序列級差來判別奇異值的方法,但計算工作量大且判別的準(zhǔn)確性有待進(jìn)一步研究。其他常用的粗大誤差的統(tǒng)計判別準(zhǔn)則還有拉伊達(dá)準(zhǔn)則、格拉布斯準(zhǔn)則、肖維勒準(zhǔn)則、狄克遜準(zhǔn)則等[5],其中,拉伊達(dá)準(zhǔn)則又稱為“3σ”準(zhǔn)則,當(dāng)觀測次數(shù)小于10時,通常認(rèn)為其判別含有粗大誤差的可疑數(shù)據(jù)的可靠性不高;肖維勒準(zhǔn)則與拉伊達(dá)準(zhǔn)則的判別思路相似,但判別結(jié)果較為苛刻;格拉布斯準(zhǔn)則判別結(jié)論則與置信水平的選擇有著極大關(guān)系[6],且需要區(qū)分異常值為上側(cè)或下側(cè)、單側(cè)或雙側(cè)等情況;而狹克遜準(zhǔn)則是直接根據(jù)測得值的順序統(tǒng)計量按級差比方法進(jìn)行判別,也存在計算復(fù)雜的問題。本文介紹學(xué)生化殘差的蒙特卡洛模擬法、精細(xì)準(zhǔn)則、X2檢驗法,通過對變形監(jiān)測數(shù)據(jù)實例進(jìn)行奇異值檢驗,認(rèn)為基于學(xué)生化殘差計算的變形監(jiān)測資料奇異值檢驗方法既具有直觀性、有效性,而且還可以大大地減少計算工作量。
設(shè)對某量進(jìn)行n次獨立觀測,得到測量數(shù)據(jù)序列xi(i=1,2,…,n),則其算術(shù)平均值為
而殘差分別為
觀測值均方差估值為
構(gòu)造統(tǒng)計量
式中,yi為實驗學(xué)生化殘差,一般情況下可簡稱為學(xué)生化殘差。
積分區(qū)域Ω滿足
式中,a為選定的殘差限值,σ為觀測值的均方差。
參數(shù)a的取值范圍為
蒙特卡洛法的基本思想是,對于某一問題,建立與描述該問題相似的概率模型,并對模型進(jìn)行隨機(jī)模擬或統(tǒng)計抽樣,即產(chǎn)生一組分布與隨機(jī)模型相同的隨機(jī)數(shù),并以該隨機(jī)數(shù)的統(tǒng)計特征作為原始問題的近似解。
按照學(xué)生化殘差的蒙特卡洛模擬,設(shè)有n(n=3,4,…,50)個獨立服從N(0,1)分布的隨機(jī)數(shù),從中可以找出1個最大學(xué)生化殘差絕對值;如分別取出1 000 000n(n=3,4,…,50)個獨立服從N(0,1)分布的隨機(jī)數(shù),則依次可產(chǎn)生1 000 000個將此作升序排列且記為(y1,y2,…,y1000000),取的階梯經(jīng)驗分布函數(shù)作為分布函數(shù)F(x)的估計,即
經(jīng)驗分布函數(shù)具有單調(diào)非降、右連續(xù)及其他許多離散型隨機(jī)變量分布函數(shù)的一切性質(zhì),當(dāng)樣本容量充分大時,其與母體分布函數(shù)相當(dāng)接近。
按置信水平α=0.01或α=0.05研究經(jīng)驗函數(shù)^F(x)分別取0.99、0.95時所對應(yīng)的x值,即可構(gòu)成學(xué)生化殘差絕對值法剔除異常值的臨界值表1。
表1 學(xué)生化殘差絕對值臨界值表
在給定顯著性水平α下,查出臨界值L1-α(n);當(dāng)yi>L1-α(n)時,認(rèn)為 max|vi|對應(yīng)的xi為奇異值,應(yīng)剔除。否則,認(rèn)為該觀測序列中不包含有奇異值。
設(shè)測量數(shù)據(jù)序列xi(i=1,2,…n)服從N(μ,σ2),則服從湯普遜τ(n-2)分布,其概率密度函數(shù)為
最大實驗學(xué)生化殘差的統(tǒng)計分布函數(shù)滿足
劉智敏[7]計算出最大實驗學(xué)生化殘差絕對值的臨界值見表2。
表2 精細(xì)準(zhǔn)則臨界值表
在給定顯著性水平α下,若統(tǒng)計量
則認(rèn)為對應(yīng)的觀測值xi是奇異值,應(yīng)予剔除;否則,認(rèn)為該觀測序列中不包含有奇異值。
設(shè)測量數(shù)據(jù)序列xi(i=1,2,…,n)服從N(μ,σ2),由(4)式,得
顯然,當(dāng)vi較大時,其對的影響也較大,也就是的數(shù)值會增大。
考慮到
即有
故
在給定的顯著性水平α下,如,則認(rèn)為測量列xi(i=1,2,…,n)中有奇異值存在,應(yīng)剔除 max|vi|對應(yīng)的xi。否則,認(rèn)為該觀測序列中不包含有奇異值。
實例1。表3為某水利樞紐大壩J22-20測點橫縫開度年最大值的觀測數(shù)據(jù),假定觀測條件如年水位、溫度無顯著特殊變化,取置信水平α=0.01,現(xiàn)分析該觀測資料中是否存在奇異值。
表3 J22-20測點橫縫開度年最大值 單位:mm
分別用拉伊達(dá)準(zhǔn)則、格拉布斯準(zhǔn)則、肖維勒準(zhǔn)則、狹克遜準(zhǔn)則進(jìn)行判別,觀測序列數(shù)據(jù)中無奇異值存在;按文獻(xiàn)[3]介紹的兩種利用觀測數(shù)據(jù)序列級差來進(jìn)行判別,未發(fā)現(xiàn)觀測序列數(shù)據(jù)中有奇異值存在;利用學(xué)生化殘差的蒙特卡洛模擬檢驗法、精細(xì)檢驗法、X2檢驗法分別進(jìn)行檢驗,觀測序列數(shù)據(jù)中亦無奇異值存在。直觀來看,該觀測序列數(shù)據(jù)較為均勻,而無論采用上述介紹的何種方法,皆得出了相同的檢驗結(jié)論。
實例2。表4為某水利樞紐大壩19#壩段一測點正垂線一天中8個整時間點的切向位移觀測數(shù)據(jù),取置信水平α=0.05,現(xiàn)分析該觀測資料中是否存在奇異值。
表4 切向位移觀測數(shù)據(jù) 單位:mm
利用拉伊達(dá)準(zhǔn)則、狹克遜準(zhǔn)則、學(xué)生化殘差的X2檢驗法及文獻(xiàn)[3]介紹的兩種利用觀測數(shù)據(jù)序列級差來進(jìn)行判別,未發(fā)現(xiàn)觀測序列數(shù)據(jù)中有奇異值存在;而利用格拉布斯準(zhǔn)則、肖維勒準(zhǔn)則、學(xué)生化殘差的蒙特卡洛模擬檢驗法、精細(xì)檢驗法分別進(jìn)行檢驗,發(fā)現(xiàn)該觀測序列中第6個觀測數(shù)據(jù)是奇異值。
從上例試算來看,對同一問題如采用不同準(zhǔn)則進(jìn)行檢驗,可能得出不同的判別結(jié)果。比較其中幾種檢驗方法的臨界值,在同一置信水平前提下,拉伊達(dá)準(zhǔn)則要求較低,因此存在“漏判”的概率比較大;學(xué)生化殘差的X2檢驗法對于觀測數(shù)據(jù)的“波動”不是很明顯時,其判別奇異值的靈敏度也不高,也可能存在“漏判”的情況;肖維勒準(zhǔn)則要求較為苛刻,因此可能存在“誤判”的情況;狹克遜準(zhǔn)則及文獻(xiàn)[3]介紹的兩種利用觀測數(shù)據(jù)序列級差判別法,不僅計算較為復(fù)雜,亦可能存在“漏判”的情況;而格拉布斯準(zhǔn)則、學(xué)生化殘差的蒙特卡洛模擬檢驗法、精細(xì)檢驗法,都是直接考慮“大”殘差的情況,因此,檢驗效果較為可靠。
如進(jìn)一步比較格拉布斯準(zhǔn)則、學(xué)生化殘差的蒙特卡洛模擬檢驗法、精細(xì)檢驗法這三種檢驗方法,可以發(fā)現(xiàn)它們的檢驗思路有些類似,而且臨界值大小區(qū)別不甚明顯,但學(xué)生化殘差的蒙特卡洛模擬檢驗法、精細(xì)檢驗法計算的直觀性更強(qiáng),特別是在樣本量不是太大的情況下,蒙特卡洛模擬檢驗法與精細(xì)檢驗法的臨界值幾乎一樣。
在上例中,如剔除第6個觀測數(shù)據(jù)后再計算觀測值的均方差則為0.0331mm,與原觀測系列計算結(jié)果相比較,雖然觀測值的個數(shù)減少了,但觀測值的精度反而提高了。由此說明,在觀測數(shù)據(jù)處理中,適當(dāng)?shù)摹皣?yán)格”遠(yuǎn)比“漏判”更為有利。
變形監(jiān)測原始數(shù)據(jù),是進(jìn)行變形分析的重要基礎(chǔ)。對變形監(jiān)測原始數(shù)據(jù)是否存在奇異值進(jìn)行檢驗判別,無疑有著重要意義。對于同一問題,采用不同的判別準(zhǔn)則可能會得出不同的判別結(jié)果。從實踐來看,傳統(tǒng)的一些檢驗方法不是計算工作量太大,就是檢驗靈敏度不高。為了盡可能避免出現(xiàn)對變形監(jiān)測原始數(shù)據(jù)“漏判”、“誤判”的情況,在樣本量不是很大的情況下,采用學(xué)生化殘差的蒙特卡洛模擬法、精細(xì)檢驗法、X2檢驗法進(jìn)行檢驗具有較強(qiáng)的直觀性、簡便性。特別是當(dāng)觀測數(shù)據(jù)并不呈現(xiàn)特別跳躍性“波動”時,蒙特卡洛模擬法、精細(xì)檢驗法的有效性非常明顯;而當(dāng)觀測數(shù)據(jù)呈現(xiàn)特別跳躍性“波動”時,X2檢驗法的有效性也將進(jìn)一步顯現(xiàn)。
[1]費業(yè)泰.誤差理論與數(shù)據(jù)處理[M].北京:機(jī)械工業(yè)出版社,1987.
[2]於宗儔,魯林成.測量平差基礎(chǔ)[M].北京:測繪出版社,1983.
[3]黃聲享,等.變形監(jiān)測數(shù)據(jù)處理[M].武漢:武漢大學(xué)出版社,2003.
[4]王懷義,盧新民,吳 艷,等.烏魯瓦提混凝土面板壩安全監(jiān)測數(shù)據(jù)處理系統(tǒng)[J].土壩觀測與土工測試,2003,(3):29-32.
[5]熊艷艷,吳先球.粗大誤差四種判別準(zhǔn)則的比較和應(yīng)用[J].大物理實驗,2010,(1):66-68.
[6]董海鵬,花春飛.在大學(xué)物理實驗中應(yīng)用格羅布斯準(zhǔn)則判定粗大誤差[J].牡丹江大學(xué)學(xué)報,2011,(3):128-129.
[7]劉智敏.殘差性質(zhì)及其應(yīng)用[J].計量學(xué)報,1980,(1):198-212.