張 炎,劉立龍,蒙金龍,徐 勇,何廣煥,胡鵬程
(1. 桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541006;2.廣西空間信息與測(cè)繪重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541006;3.廣西建設(shè)職業(yè)技術(shù)學(xué)院 市政與交通學(xué)院,廣西 南寧 530007)
現(xiàn)今通過(guò)全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite System,GNSS)獲取地理信息數(shù)據(jù)已成為空間大地測(cè)量領(lǐng)域的一種重要手段,該技術(shù)所采集的高程值是以WGS-84參考橢球面為基準(zhǔn)的大地高[1-2]。實(shí)際工程中,常常采用以似大地水準(zhǔn)面為基準(zhǔn)的正常高,二者之間存在的差值,即為高程異常值[3]。外野采集的數(shù)據(jù)中往往存在一定的粗差,剔除粗差及選定合適的高程異常預(yù)測(cè)模型的擬合方法是在工程項(xiàng)目中完成測(cè)高工作的重要內(nèi)容[4]。對(duì)于觀測(cè)值中的粗差判別/剔除,目前常用的方法有格拉布斯(Grubbs)法則、t檢驗(yàn)法和穩(wěn)健估計(jì)法等,針對(duì)不同的樣本總量及所存異常值比例,選用不同的方法進(jìn)行粗差識(shí)別及剔除的效果也不盡相同[5-7]。韓紅超[8]利用Grubbs檢驗(yàn)法對(duì)某市的沉降監(jiān)測(cè)數(shù)據(jù)進(jìn)行粗差探測(cè)和剔除,證明了Grubbs法應(yīng)用于大量數(shù)據(jù)中的粗差探測(cè)的可行性,取得了良好的效果。在完成原始測(cè)量數(shù)據(jù)中的粗差剔除后,擬合方法的選擇也極為重要,常用的多面函數(shù)法、樣條曲線擬合法、支持向量機(jī)等在面對(duì)山峰突起且山體分布不規(guī)則的情況時(shí),所建高程異常擬合模型的效果不理想,其精度也難以滿足實(shí)際測(cè)繪生產(chǎn)的需求[9]。
本文提出一種改進(jìn)格拉布斯法(Improved Grubbs,IGrubbs)結(jié)合局部加權(quán)線性回歸(Local Weighted Linear Regression,LWLR)組合算法來(lái)構(gòu)建區(qū)域高程異常擬合模型。在原Grubbs的基礎(chǔ)上,引入自適應(yīng)迭代,構(gòu)建新的評(píng)判指標(biāo)參數(shù),來(lái)提高Grubbs法則對(duì)測(cè)量數(shù)據(jù)中粗差的判別及剔除效率。通過(guò)LWLR法對(duì)預(yù)處理后的高程異常數(shù)據(jù)進(jìn)行擬合,完成精度較高的區(qū)域高程異常預(yù)測(cè)模型的建立,為以后的測(cè)高工作提供一定的參考。
在樣本總體標(biāo)準(zhǔn)差未知的情況下,Grubbs通過(guò)對(duì)服從正態(tài)樣本或接近服從正態(tài)樣本的數(shù)據(jù)進(jìn)行異常判決[10-11]。計(jì)算公式如下:
(1)
(2)
在對(duì)測(cè)量數(shù)據(jù)中的粗差進(jìn)行判定及識(shí)別時(shí),若樣本方差偏大或偏小,將會(huì)存在對(duì)之后的樣本產(chǎn)生誤判或漏判的可能[12]。特別是在樣本中非零值估計(jì)偏差受異常值影響過(guò)大時(shí),會(huì)導(dǎo)致后續(xù)樣本總量偏低,發(fā)生錯(cuò)誤識(shí)別及判定的機(jī)率將會(huì)提高[13]。為了有效避免誤判及漏判的情況發(fā)生,對(duì)原Grubbs作出改進(jìn),具體如下:
① 引入自適應(yīng)迭代。以樣本長(zhǎng)度作為自適應(yīng)迭代參數(shù)進(jìn)行循環(huán)判定,從而確保樣本中所有數(shù)值得到充分檢驗(yàn)。
② 設(shè)定粗差剔除完成的指標(biāo)參數(shù)。在剔除粗差的過(guò)程中,以觀測(cè)值殘差與標(biāo)準(zhǔn)差的比值與Grubbs臨界值的差作為粗差剔除完成的指標(biāo)參數(shù)。在對(duì)測(cè)量數(shù)據(jù)的粗差識(shí)別及判定的過(guò)程中,當(dāng)樣本中所有數(shù)據(jù)均已低于對(duì)應(yīng)的Grubbs臨界值時(shí),表明當(dāng)前樣本中已不存在異常值,則退出自適應(yīng)迭代,不再進(jìn)行冗余運(yùn)算。指標(biāo)參數(shù)flag具體如下:
(3)
式中:數(shù)據(jù)組U為儲(chǔ)存所有樣本數(shù)據(jù)的動(dòng)態(tài)數(shù)組,Gi為最大偏離值,Gg為Grubbs臨界值與標(biāo)準(zhǔn)差的乘積,L為數(shù)據(jù)組U的樣本總量。
當(dāng)原始測(cè)量數(shù)據(jù)中存在粗差值時(shí),IGrubbs對(duì)其進(jìn)行識(shí)別及判定的具體步驟如下:
① 數(shù)據(jù)初步處理:原始樣本數(shù)據(jù)為存在粗差的所有測(cè)量點(diǎn),構(gòu)成三維(平面坐標(biāo)及高程異常)數(shù)組U,獲取每個(gè)高程異常值所對(duì)應(yīng)的平面坐標(biāo)的位置索引,將U中高程異常值按從小到大的順序排列,隨后計(jì)算U中樣本長(zhǎng)度L0,L0的大小即為自適應(yīng)迭代參數(shù)控制最大迭代次數(shù)T,從而保證樣本中所有數(shù)值得到充分檢驗(yàn)。
② 分配IGrubbs臨界值區(qū)間:IGrubbs臨界值區(qū)間由選定的置信區(qū)間及樣本長(zhǎng)度L決定,當(dāng)置信水平α=95.00%時(shí)則選取對(duì)應(yīng)95.00%置信區(qū)間的IGrubbs臨界值進(jìn)行異常值判定,隨著置信水平值的變大,其對(duì)應(yīng)的異常判定嚴(yán)密程度也更為強(qiáng)烈。通常情況下,置信區(qū)間的選取應(yīng)為適中狀態(tài),過(guò)高或過(guò)低均難以達(dá)到最佳的粗差識(shí)別目的。根據(jù)前者的研究經(jīng)驗(yàn),實(shí)驗(yàn)時(shí)在對(duì)高程異常數(shù)據(jù)中的粗差識(shí)別過(guò)程中選擇置信水平為95.00%或97.50%時(shí)置信區(qū)間所對(duì)應(yīng)的IGrubbs臨界值來(lái)作為粗差判定的標(biāo)準(zhǔn)。
圖1 IGrubb粗差剔除流程Fig.1 The process of gross error elimination based on IGrubbs method
在對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理后,利用LWLR法來(lái)構(gòu)建區(qū)域高程異常擬合模型。線性回歸法求的是具有小均方誤差的無(wú)偏估計(jì),回歸曲線受整體影響較大,易形成欠擬合現(xiàn)象[14-15]。與之相比,LWLR法的優(yōu)勢(shì)在于每一次迭代預(yù)測(cè)時(shí)都會(huì)更新權(quán)值,重新確定擬合系數(shù),從而使擬合面逐漸逼近真實(shí)值[16]。在著重考慮到局部點(diǎn)的同時(shí),也使局部以外的整體數(shù)據(jù)參與到擬合曲線中來(lái),更適用于非線性變化的高程異常數(shù)據(jù)的擬合及預(yù)測(cè)。具體內(nèi)容如下:
若存在m個(gè)高程擬合點(diǎn),(xi,yi)為擬合點(diǎn)平面坐標(biāo),f(xi,yi)為曲面擬合函數(shù),vi為殘差,ξi為對(duì)應(yīng)的高程異常值,則已知點(diǎn)與高程異常值的關(guān)系可表示為:
(4)
(5)
(6)
通過(guò)測(cè)量獲取的高程異常數(shù)據(jù)集來(lái)構(gòu)建一定范圍內(nèi)連續(xù)變化的坐標(biāo)曲面函數(shù),若選擇的擬合點(diǎn)分布不均勻或未選擇到能夠代表地形起伏的特征點(diǎn),則最終形成的擬合面將與實(shí)際相差較大。因此,在式(6)的基礎(chǔ)上,引入距離定權(quán)的權(quán)重矩陣W,以擬合點(diǎn)與檢核點(diǎn)的距離作為評(píng)判二者相關(guān)程度的標(biāo)準(zhǔn),使擬合函數(shù)能夠較為準(zhǔn)確地反映出周圍地形起伏變化的狀態(tài),從而有效降低擬合點(diǎn)遠(yuǎn)離檢核點(diǎn)對(duì)擬合模型產(chǎn)生的負(fù)面效果[17]。加入權(quán)重后的公式如下:
(7)
式中:本文選擇高斯核函數(shù)的權(quán)重作為其權(quán)重系數(shù)。
(8)
式中:di為檢核點(diǎn)到擬合點(diǎn)的距離,(xi,yi)為擬合點(diǎn)平面坐標(biāo),(ej,fj)為檢核點(diǎn)平面坐標(biāo),g為檢核點(diǎn)數(shù),k為波長(zhǎng)。
在工程測(cè)高工作中,粗差往往是難以避免的,若未能得到及時(shí)處理,將會(huì)對(duì)后期項(xiàng)目中待測(cè)點(diǎn)獲取的高程精度產(chǎn)生嚴(yán)重影響。本文利用IGrubbs-LWLR組合法來(lái)完成粗差的剔除及待測(cè)點(diǎn)的高程預(yù)測(cè)工作,建立較高精度的區(qū)域高程異常擬合模型。具體過(guò)程如下:
① 對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行初步處理,讀取數(shù)據(jù)集。
每名學(xué)生都必須參加出科考核,考核內(nèi)容包括病史詢問(wèn)、體格檢查、病歷書(shū)寫(xiě)及技能操作。除病歷書(shū)寫(xiě)外其他項(xiàng)均由總住院醫(yī)師負(fù)責(zé)考核,病歷書(shū)寫(xiě)由總住院醫(yī)師協(xié)助主治醫(yī)師實(shí)施考核。在考核中,總住院醫(yī)師應(yīng)關(guān)注每名學(xué)生的成績(jī),給出客觀、真實(shí)的評(píng)價(jià),指出學(xué)生存在的問(wèn)題,并給予相應(yīng)指導(dǎo);同時(shí)對(duì)于學(xué)生做得好的方面,給予表?yè)P(yáng)和鼓勵(lì),真正做到以考促學(xué)。4重視實(shí)習(xí)生反饋意見(jiàn),不斷改進(jìn)教學(xué)方法
② 記錄數(shù)據(jù)組所對(duì)應(yīng)位置索引并排序。選取置信區(qū)間,確定Grubbs臨界值區(qū)間。
④ 迭代開(kāi)始,對(duì)待檢點(diǎn)進(jìn)行粗差識(shí)別,調(diào)用格拉布斯臨界值λ(a,n),判斷該點(diǎn)的Gi是否大于λ(a,n)與標(biāo)準(zhǔn)差E的乘積,若Gi大于λ(a,n),將該點(diǎn)視為可疑值并記錄,保存該可疑點(diǎn);若Gi小于λ(a,n),則表明該檢測(cè)點(diǎn)中未含有粗差值,不做記錄及保存。
⑤ 對(duì)第一個(gè)待測(cè)點(diǎn)判別完成后,則迭代進(jìn)入下一個(gè)待測(cè)點(diǎn)的粗差識(shí)別工作,返回至步驟④中進(jìn)行。直到迭代次數(shù)達(dá)到最大值時(shí),訓(xùn)練樣本數(shù)據(jù)中的粗差判定完畢,統(tǒng)計(jì)訓(xùn)練樣本中含有粗差的數(shù)值,并對(duì)其進(jìn)行剔除,整理獲取新的訓(xùn)練樣本集。
⑥ 對(duì)剔除粗差后的訓(xùn)練數(shù)據(jù)集作出歸一化處理,利用LWLR法來(lái)構(gòu)建區(qū)域高程異常擬合模型。
⑦ 輸入預(yù)處理后的訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù),設(shè)置參數(shù)k初始值及最大迭代次數(shù)Tm。
⑩ 判斷當(dāng)前的均方誤差值是否滿足閾值或者達(dá)到最大迭代次數(shù),若滿足條件,迭代停止,記錄并保存當(dāng)前模型的相關(guān)系數(shù)及預(yù)測(cè)值,此時(shí)所構(gòu)建的區(qū)域高程異常擬合模型的精度最佳;若未滿足條件,更新參數(shù)k(k=k+0.05),重復(fù)步驟⑧、⑨,直至達(dá)到限定條件位置,輸出結(jié)果,迭代停止。
實(shí)驗(yàn)數(shù)據(jù)選定為廣西東北小范圍山地區(qū)域內(nèi)的采集的74個(gè)GNSS水準(zhǔn)重合點(diǎn)(四等水準(zhǔn)測(cè)量要求,部分點(diǎn)含有粗差),用于后期區(qū)域高程異常擬合模型建立及精度檢驗(yàn)。研究區(qū)域內(nèi)點(diǎn)位分布較為均勻,2個(gè)GNSS水準(zhǔn)重合點(diǎn)間隔在2.5 km范圍內(nèi),總區(qū)域覆蓋面積約為300 km2。均勻選取其中的59個(gè)GNSS水準(zhǔn)重合點(diǎn)作為模型的訓(xùn)練樣本集,剩余的15個(gè)重合點(diǎn)作為擬合模型精度的檢核點(diǎn)。
為確保擬合模型的精確度及可靠性,通過(guò)IGrubbs對(duì)參與模型構(gòu)建的高程異常值進(jìn)行預(yù)處理,剔除存在粗差的數(shù)據(jù)。同時(shí)選用傳統(tǒng)Grubbs作對(duì)比分析,設(shè)置不同的置信區(qū)間,對(duì)59個(gè)建模點(diǎn)進(jìn)行粗差探測(cè)/剔除,2種算法在α=99.5%的高置信水平下包含了低置信區(qū)間剔除的所有可疑點(diǎn)。最終,傳統(tǒng)Grubbs篩選出高程異常值分別為20.553、19.258、20.856 m的3個(gè)可疑點(diǎn),IGrubbs篩選出高程異常值分別為20.553、19.258、19.363、20.856、20.461 m的5個(gè)可疑點(diǎn)。具體的效果對(duì)比如表1所示。
表1 剔除點(diǎn)的檢核統(tǒng)計(jì)表Tab.1 The check statistics of elimination points 單位:m
為了檢驗(yàn)2種方法是否存在粗差誤判的情況,選用常規(guī)移去恢復(fù)法的二次曲面對(duì)疑似點(diǎn)周邊的數(shù)個(gè)GNSS水準(zhǔn)重合點(diǎn)進(jìn)行擬合,獲取疑似點(diǎn)的預(yù)測(cè)高程異常值。經(jīng)過(guò)對(duì)比分析發(fā)現(xiàn),34號(hào)點(diǎn)的真實(shí)值與預(yù)測(cè)值的差異較小,可認(rèn)定為誤判,對(duì)其進(jìn)行留存,其余4個(gè)疑似點(diǎn)存在的誤差均可作為粗差進(jìn)行剔除。二者最終的結(jié)果比較如表2所示。
表2 IGrubbs與Grubbs粗差剔除效果對(duì)比Tab.2 Comparison of gross error elimination effect between IGrubbs and Grubbs
在實(shí)驗(yàn)過(guò)程中,Grubbs在置信水平為90.0%時(shí)僅識(shí)別出1個(gè)誤差值,3個(gè)誤差值未識(shí)別出;相比于Grubbs,IGrubbs在置信水平為95.0%或97.5%時(shí)能夠較為準(zhǔn)確地識(shí)別出4個(gè)誤差值并進(jìn)行剔除。在另外2種相同情況下,誤差值的識(shí)別及判定效率均要優(yōu)于Grubbs。在利用IGrubbs對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理后,其剔除粗差前后的高程異常數(shù)據(jù)變化如圖2所示。
由圖2可知,在通過(guò)IGrubbs進(jìn)行粗差探測(cè)及剔除時(shí),發(fā)現(xiàn)參與后期建模的59個(gè)GNSS水準(zhǔn)重合點(diǎn)中存在4個(gè)偏離正常值的數(shù)值,其中存在的粗差與正常值的最小差值為0.27 m。若未及時(shí)對(duì)其進(jìn)行識(shí)別及剔除,將會(huì)嚴(yán)重影響后期所建擬合模型的預(yù)測(cè)精度。在對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理后,測(cè)試重合點(diǎn)及檢核點(diǎn)分布如圖3所示。
圖3 點(diǎn)位分布Fig.3 Distribution of points
在完成訓(xùn)練樣本數(shù)據(jù)的粗差識(shí)別及剔除后,通過(guò)LWLR法來(lái)建立區(qū)域高程異常擬合模型。建模前,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸一化處理,可提高算法的計(jì)算效率。將模型中的參數(shù)k初始值設(shè)置為0.5,最大迭代次數(shù)為70,通過(guò)迭代計(jì)算完成研究區(qū)域內(nèi)最適高程異常擬合模型的選擇,并預(yù)測(cè)出檢核點(diǎn)的高程異常值。在訓(xùn)練數(shù)據(jù)集及檢核點(diǎn)預(yù)測(cè)數(shù)據(jù)的基礎(chǔ)上,借助Matlab繪制出其相應(yīng)的三維效果圖(如圖4所示)。為近一步比較分析擬合模型的預(yù)測(cè)精度,分別利用傳統(tǒng)多面函數(shù)法、基于移去恢復(fù)法的二次曲面擬合來(lái)建立預(yù)測(cè)模型[19-20],對(duì)3種方法建模的預(yù)測(cè)結(jié)果進(jìn)行了統(tǒng)計(jì),其相應(yīng)的殘差值分布變化如圖5所示。
圖4 高程異常擬合三維圖Fig.4 Three-dimensional graph of elevation anomaly fitting
圖5 模型檢核點(diǎn)的殘差對(duì)比Fig.5 Residual comparison of model checkpoints
由圖5可以看出,傳統(tǒng)多面函數(shù)法建模的檢核點(diǎn)殘差波動(dòng)范圍最為明顯,穩(wěn)定性相對(duì)較差;IGrubbs-LWLR所對(duì)應(yīng)的殘差值的最大值及最小值均要優(yōu)于其他2種方法建立的擬合模型,變化更為趨近于0,擬合效果更為理想。為更加直觀地了解各模型的擬合效果,選擇外符合精度(檢核點(diǎn)的均方根誤差)作為模型精度的判定指標(biāo),具體如表3所示。
表3 不同擬合模型檢核點(diǎn)的預(yù)測(cè)結(jié)果Tab.3 Prediction results of different fitting model checkpoints
由表3可知,多面函數(shù)法殘差變化為-3.3~3.2 cm,基于移去恢復(fù)法的二次曲面擬合殘差變化為-2.7~2.9 cm,IGrubbs-LWLR建模的擬合殘差變化為-1.7~2.5 cm。相比之下,IGrubbs-LWLR的擬合殘差變化區(qū)間較小,外符合精度為±1.6 cm,其擬合模型預(yù)測(cè)的精準(zhǔn)度更高。表明針對(duì)小范圍的地形起伏較為明顯的區(qū)域,選用IGrubbs-LWLR來(lái)建立高程異常擬合模型具備一定的時(shí)效性及穩(wěn)定性。
為解決測(cè)量數(shù)據(jù)中粗差干擾及高程異常擬合模性構(gòu)建方法選擇的問(wèn)題,本文提出利用IGrubbs-LWLR來(lái)完成區(qū)域高程異常擬合模型的建立,結(jié)論如下:
① 在常規(guī)Grubbs法則的基礎(chǔ)上,引入自適應(yīng)迭代及判定粗差提出工作完成的指標(biāo)參數(shù),降低了其原先易發(fā)生漏判及誤判的概率,提高了該算法對(duì)樣本數(shù)劇中粗差識(shí)別及判定剔除的效率;
② 在對(duì)數(shù)據(jù)預(yù)處理后,選用LWLR法來(lái)構(gòu)建區(qū)域高程異常擬合預(yù)測(cè)模型,與傳統(tǒng)多面函數(shù)法、基于移去恢復(fù)法的二次曲面擬合法相比,其精度分別提高了38.5%、23.8%。表明IGrubbs-LWLR應(yīng)用于區(qū)域高程異常擬合模型的構(gòu)建具備一定的現(xiàn)實(shí)性。
當(dāng)前實(shí)驗(yàn)區(qū)域研究范圍有限,地勢(shì)變化較為簡(jiǎn)單,在之后的研究中,會(huì)將該方法應(yīng)用于更為復(fù)雜多變的區(qū)域來(lái)構(gòu)建擬合模型,同時(shí)也會(huì)對(duì)模型中的參數(shù)近一步優(yōu)化提取,提高擬合模型的穩(wěn)定性及時(shí)效性,為今后的測(cè)高工作提供更高的參考價(jià)值。