程 亮
(北京市地質(zhì)勘察技術(shù)院,北京 100143)
基坑監(jiān)測作為保證基坑工程安全、深入研究基坑結(jié)構(gòu)動態(tài)的重要方法,貫穿于整個基坑工程全壽命周期。基坑監(jiān)測工作過程中收集了大量數(shù)據(jù),但受多方面因素影響,基坑監(jiān)測數(shù)據(jù)集經(jīng)常會發(fā)生不同程度數(shù)據(jù)缺失的情況(張軍艦等,2020)。開展數(shù)據(jù)缺失的識別及填補方法的研究,對于完善監(jiān)測數(shù)據(jù)集具有顯著意義。
缺失數(shù)據(jù)填充方法較多,可基于回歸分析法、聚類分析法及神經(jīng)網(wǎng)絡(luò)算法等多種方式進(jìn)行填補。雷峰津等(2020)基于電網(wǎng)電能質(zhì)量監(jiān)測分析系統(tǒng)提出了一種基于相關(guān)分析的缺失數(shù)據(jù)填充方法,通過分析找到與采樣周期一致的強(qiáng)相關(guān)性指標(biāo),然后使用分段回歸的方法建立回歸模型。林楓等(2020)基于布谷鳥算法,研究提出了優(yōu)化的K_means 聚類填充算法。王磊等(2020)采用基于圖像數(shù)據(jù)結(jié)構(gòu)可視化的相關(guān)技術(shù),應(yīng)用小波變換與快速行進(jìn)算法進(jìn)行電成像數(shù)據(jù)空白帶填充和響應(yīng)畸變修復(fù),也取得了良好效果。分段回歸的方法準(zhǔn)確度較高,但是運行效率相對較低。布谷鳥算法優(yōu)化的K_means聚類算法是對傳統(tǒng)聚類算法的優(yōu)化改進(jìn),一定程度上解決了聚類算法無法度量缺失數(shù)據(jù)間的相似性問題。小波變換與快速行進(jìn)算法主要應(yīng)用于電成像測井?dāng)?shù)據(jù)處理,取得了不錯的效果。
針對基坑監(jiān)測數(shù)據(jù)的差異化特點和缺失值產(chǎn)生原因,應(yīng)結(jié)合工程實際情況進(jìn)行針對性的分析,進(jìn)而從數(shù)據(jù)自身出發(fā),選擇最為恰當(dāng)?shù)奶畛浞椒ǎΣ捎玫臄?shù)據(jù)填充方法給出適用性的解釋(施虹等,2020)。隨機(jī)森林方法作為一種集成學(xué)習(xí)方法,有學(xué)者將其利用在結(jié)構(gòu)損傷識別方面,可高準(zhǔn)確率識別多種脫空工況(謝坤明,2020),在我國陜北黃土高原典型黃土地貌區(qū)域的地貌分類中也取得了較好的結(jié)果(曹澤濤等,2020)。本文主要研究應(yīng)用隨機(jī)森林模型進(jìn)行數(shù)據(jù)填充的方法,探討了方法的適用性,并與其他填充方法進(jìn)行對比分析,以期達(dá)到合理、高效地填充基坑監(jiān)測缺失值的目的。
某基坑工程基坑面積約54000 m2。其中包含8棟主樓及其裙樓,地下車庫、人防車庫及配套用房。擬建建筑物±0.000 m的絕對標(biāo)高為18.6/18.5 m(主樓/地下車庫);現(xiàn)自然地面標(biāo)高為17.50~18.00 m,地形較為平坦。槽底絕對標(biāo)高為8.04~15.44 m,基坑開挖深度為2.56~9.96 m。
基坑側(cè)壁安全等級為二級和三級,基坑支護(hù)方案采用樁錨支護(hù)和掛網(wǎng)放坡支護(hù)型式。
已進(jìn)行的主要監(jiān)測項目:1)支護(hù)結(jié)構(gòu)頂部水平位移、沉降;2)基坑周邊地表豎向位移;3)地下水位觀測;4)錨桿軸力監(jiān)測;5)周邊建筑物沉降監(jiān)測;6)安全巡視。
監(jiān)測頻率:基坑開挖深度≤5 m,1次/2 d;基坑開挖深度5~10 m,1次/d。底板澆筑后時間,≤7 d,1次/2 d;7~14 d,1次/3 d;14~28 d,1次/5 d;>28 d,1次/10 d。
監(jiān)測點分布見圖1。
圖1 監(jiān)測點平面布置圖Fig. 1 Location of monitoring points
對于已經(jīng)取得的原始數(shù)據(jù),應(yīng)該從服務(wù)項目分析的角度出發(fā),從數(shù)據(jù)的使用目的、數(shù)據(jù)的可用性、數(shù)據(jù)充足程度(是否滿足分析的需要)以及數(shù)據(jù)的可靠度、數(shù)據(jù)質(zhì)量的好壞做出整體的判斷和評估。
就本項目而言,數(shù)據(jù)主要用于評估基坑的變形動態(tài),基坑監(jiān)測與工程施工的進(jìn)度一致,數(shù)據(jù)整體的連續(xù)性、可靠性都能夠得到保障,數(shù)據(jù)的精度嚴(yán)格按照既定的監(jiān)測方案及相關(guān)規(guī)范要求執(zhí)行,能夠滿足評估基坑安全及進(jìn)行項目分析的需要。
(1)產(chǎn)生缺失值的原因
缺失值是指在原始數(shù)據(jù)集中,因為各種原因產(chǎn)生的數(shù)據(jù)空缺或丟失。數(shù)據(jù)缺失在原始監(jiān)測數(shù)據(jù)集里較為常見,是在采集監(jiān)測類成果或進(jìn)行相關(guān)監(jiān)測任務(wù)時經(jīng)常遇到的問題。
監(jiān)測數(shù)據(jù)缺失值的發(fā)生有很多原因,對于基坑工程,比較常見的有:1)基坑監(jiān)測工作是隨著作業(yè)面觀測條件的完備而逐漸展開的,尤其是項目初期,存在部分點位無法監(jiān)測或者暫時不具備監(jiān)測條件的情況;2)實施監(jiān)測任務(wù)時場地條件受限。施工現(xiàn)場是動態(tài)變化的,個別點位在觀測時出現(xiàn)影響正常監(jiān)測的觀測障礙較為普遍;3)儀器動態(tài)監(jiān)測或人工監(jiān)測時出現(xiàn)的偶發(fā)采樣數(shù)據(jù)缺失。
(2)監(jiān)測數(shù)據(jù)的基礎(chǔ)特征
監(jiān)測數(shù)據(jù)的基礎(chǔ)特征是指監(jiān)測數(shù)據(jù)的一般性分類特性,數(shù)據(jù)是屬于數(shù)值型變量還是離散變量,應(yīng)根據(jù)數(shù)據(jù)的特點進(jìn)行初步劃分。
(3)與異常值的區(qū)別
異常值一般是指偏離正常值較多,且利用現(xiàn)有的理論或者觀測狀況不能給出合理解釋的一類數(shù)值或某些數(shù)據(jù)。統(tǒng)計意義上認(rèn)為良好的數(shù)據(jù)集應(yīng)該是符合正態(tài)分布規(guī)律的,偏離過大的數(shù)據(jù)就存在異常的可能。
異常值是客觀存在于所取得的數(shù)據(jù)集中的實際量,與缺失值有本質(zhì)區(qū)別。本文主要討論監(jiān)測數(shù)據(jù)缺失值的填補,暫不對異常值的辨識和處理進(jìn)行探討。
原始監(jiān)測數(shù)據(jù)缺失值處理所面臨的首要問題是缺失值的識別和分類。
主要包括識別不同字段的缺失值分布狀態(tài),比如缺失值的占比、缺失值出現(xiàn)位置等基本情況,然后根據(jù)初判結(jié)果分別進(jìn)行處理。
如果缺失值較多,單一分類內(nèi)缺失值占比較高,且對整體的數(shù)據(jù)分布不產(chǎn)生顯著的影響,考慮直接刪除。但此類情況需要謹(jǐn)慎使用,有條件的需要做多模型對比試驗分析,以確定缺失值直接刪除的合理區(qū)間(陳志江等,2021)。
如果缺失值較少,單一分類內(nèi)缺失值占比較低,對整體數(shù)據(jù)的影響不能忽略,則需要進(jìn)行填補,可以考慮采用均值、插值等多種方式進(jìn)行操作。
隨機(jī)森林也被稱作隨機(jī)決策森林,它是用于分類、回歸和其他類似任務(wù)的集成學(xué)習(xí)方法。它經(jīng)常被用作“黑盒子”模型,因為它們可以在廣泛的數(shù)據(jù)范圍內(nèi)生成合理的預(yù)測,而只需要很少的配置(馬源等,2017)。
該算法是通過在模型訓(xùn)練時構(gòu)造多個決策樹,并輸出分類結(jié)果,即單個樹的分類或均值預(yù)測(回歸模式下)。它的基本單元是決策樹,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的集成學(xué)習(xí)分支。隨機(jī)決策可以糾正普通決策樹過度擬合的訓(xùn)練集合,且性能通常優(yōu)于普通決策樹(石禮娟等,2017)。
以分類問題為例,首先根據(jù)分析數(shù)據(jù)集,使用自助法進(jìn)行采樣,生成n個訓(xùn)練集。n個訓(xùn)練集可以訓(xùn)練n個決策樹,故決策樹不必進(jìn)行修剪,可以保留全部數(shù)據(jù)集特征進(jìn)行訓(xùn)練。
每個訓(xùn)練集具有獨立分類器(即單獨的分類樹),利用其進(jìn)行分類。每個獨立分類器根據(jù)不同的分類指標(biāo)進(jìn)行分類決策,決策的形式是分類器內(nèi)部進(jìn)行投票。最終的結(jié)果匯總成為隨機(jī)森林的輸入結(jié)果,要依據(jù)各分類器投票情況來確定,獲得票數(shù)最多的類別就是森林的分類結(jié)果。由于每個分類器都是獨立的,99.9%不相關(guān)的分類器做出的預(yù)測結(jié)果涵蓋所有的情況,且互斥的分類結(jié)果會彼此抵消。將若干個弱分類器的分類結(jié)果進(jìn)行投票選擇,從而組成一個強(qiáng)分類器,少數(shù)優(yōu)秀的分類器的預(yù)測結(jié)果將會做出一個好的預(yù)測。
對于數(shù)據(jù)預(yù)測,一般是根據(jù)分類過程中構(gòu)造的回歸樹進(jìn)行決策的同時,采用待填充數(shù)據(jù)集的均值或者中位值作為預(yù)設(shè)值,使用全部數(shù)據(jù)構(gòu)建模型,構(gòu)建過程中記錄每組數(shù)據(jù)在決策樹中每一分支的分類路徑,搜索出與缺失值最為接近的路徑。路徑的長短表征了已知數(shù)據(jù)與待預(yù)測數(shù)據(jù)之間的相似程度,再根據(jù)相似度和權(quán)重大小進(jìn)行填補。
以基坑(H7—H58)號點樁頂豎向位移變化量為例,選取的監(jiān)測周期為2019年6月11日—2020年2月18日。
從H7—H58號點缺失值基本情況統(tǒng)計表(表1)和分布圖(圖 2)上看,H30—H32點缺失值的分布不集中,但占比高(27%~43.2%),這些樣本在數(shù)據(jù)分析時會被直接忽略,本次填充不涉及。其他數(shù)據(jù)列存在的缺失值均小于2.7%。缺失值占比略高,不影響整體數(shù)據(jù)分布,均可以進(jìn)行填充處理。H50—H58號點數(shù)據(jù)完整,無缺失。
圖2 H7-H58號點樁頂豎向位移缺失值可視化Fig.2 Missing value of vertical displacement visualization at h7-h58
表1 H7—H58號點樁頂豎向位移數(shù)據(jù)缺失情況統(tǒng)計表Tab. 1 Missing data of vertical top displacement of pile for H7-H58
從H7、H8、H9、H49點樁頂豎向位移監(jiān)測數(shù)據(jù)(圖3)可見,H7、H8、H9、H49點曲線上都存在間斷。
圖3 H7、H8、H9、H49點樁頂豎向位移原始數(shù)據(jù)散點圖Fig. 3 Basic vertical displacement data of H7, H8, H9 and H49
H7間斷(空缺)最為明顯,產(chǎn)生原因就是缺失值的存在(表2)
表2 H7、H8、H9、H49點存在缺失值的行統(tǒng)計表Tab. 2 Lines with missing values at H7, H8, H9 and H49
H7、H8、H9、H49點的數(shù)據(jù)統(tǒng)計分析結(jié)果見表3。
表3 H7、 H8、H9、H49號點樁頂豎向位移數(shù)據(jù)統(tǒng)計表Tab. 3 Statistics of vertical displacement of pile for H7, H8, H9, H49
R語言的MICE包提供了多種缺失值填充的方法,并對填充模式及方法做了封裝,便于實際工程調(diào)用。其可選模塊中可添加RandomForest包,利用隨機(jī)森林算法解決分類和回歸問題(米霖,2020),直接利用前處理后數(shù)據(jù)對該模型進(jìn)行缺失值填補。
根據(jù)填充結(jié)果(圖 4)可見,邊界處的數(shù)據(jù)填除H8號點外基本符合基坑變形的實際狀態(tài),且對邊界處的填補效果較好。數(shù)據(jù)列內(nèi)的填補結(jié)果除個別點位突出后,與周邊數(shù)據(jù)相關(guān)性較強(qiáng)。在填充后的曲線圖形上,還可以看到填補后數(shù)據(jù)分類性質(zhì)明顯,具有明顯的歸類特征,符合決策樹算法的歸類決策特點。
圖4 H7、H8、H9、H49點樁頂豎向位移缺失值隨機(jī)森林填充Fig. 4 Filling vertical displacement for missing values by random forest at H7, H8, H9 and H49
缺失值數(shù)據(jù)集通常也可以采用均值、插值、回歸等多種方式進(jìn)行填充(王愛國等,2016)。
以H7、H8、H9、H49點為例,樁頂豎向位移監(jiān)測數(shù)據(jù)填充結(jié)果見圖5。
均值填充是以控制所在列的空值以外數(shù)據(jù)的平均值進(jìn)行填充,以平均值填充后結(jié)果見圖5a??梢钥吹?,對缺失值用平均值進(jìn)行了填充,但對于H7、H8、H9號點2019年6月11日監(jiān)測數(shù)據(jù)的填充,初始值為0的情況下,0值之前點位填充平均值不符合實際。在中部連續(xù)出現(xiàn)的缺失,直接利用平均值填充,未考慮數(shù)據(jù)變化趨勢,其點位偏離較為明顯,也不盡合理。
同理,采用中位數(shù)填充(圖5b)結(jié)果與采用平均值填充情況類似。
KNN法(K- Nearest Neighbor法,即K最鄰近法)是以待求測點周圍若干已知測點值c1,c2, ...,ci為基準(zhǔn),來估計某其他時刻目標(biāo)點測量值cx的填充方法,本質(zhì)上也是一種考慮權(quán)重的插值填充方法。
其中,權(quán)重ω與距離d(鄰點與目標(biāo)點)成反比,即ω=1/d,n為已知測點的個數(shù)。
從填充結(jié)果(圖5c)看,待填充值在兩側(cè)的數(shù)據(jù)取值區(qū)間以內(nèi),與均值法相比,填充后曲線較為平滑,沒有出現(xiàn)明顯的數(shù)據(jù)偏離,與基坑變形動態(tài)情況基本相符。
圖5 H7、H8、H9、H49點樁頂豎向位移監(jiān)測數(shù)據(jù)填充結(jié)果Fig.5 vertical displacement 7 filled curves of H7, H8, H9 and H49
回歸分析假定目標(biāo)(待預(yù)測值作為因變量)和預(yù)測依據(jù)(已知觀測數(shù)據(jù)作為自變量)之間存在一定的因果關(guān)系,利用該假設(shè)進(jìn)行結(jié)果預(yù)測。一般適用于待預(yù)測值和已知觀測數(shù)據(jù)存在顯著關(guān)系的情況。回歸分析也能夠顯示出待預(yù)測值和已知觀測數(shù)據(jù)之間的關(guān)聯(lián)強(qiáng)度。
利用本次選取的數(shù)據(jù)集,缺失值列作為因變量,選取了多列不包含缺失值的列作為已知觀測數(shù)據(jù),進(jìn)行回歸分析,選取H11—H44號點中的完整數(shù)據(jù)集作為模型輸入,相關(guān)性分析結(jié)果見表4。
表4 H11—H44號點樁頂豎向位移數(shù)據(jù)相關(guān)性分析表Tab. 4 Correlation analysis of vertical displacement data of pile
通過分析結(jié)果可見,假定值出現(xiàn)的概率均大于0.05,說明采用回歸分析的已知數(shù)據(jù)集與待填補值之間的關(guān)聯(lián)程度低,不能支持?jǐn)?shù)據(jù)間具有因果關(guān)系的假設(shè),不適用于已知數(shù)據(jù)集與待填補值之間回歸模型的建立。
驗證該結(jié)果進(jìn)行缺失值填補(圖5d)可見,邊界處填充值為負(fù)值,小于初始值,與實際變形情況不符。中間缺失數(shù)據(jù)填充主要依據(jù)缺失值出現(xiàn)區(qū)間兩側(cè)的數(shù)值,不能夠很好反映整體的變形規(guī)律,在曲線上顯示局部偏離嚴(yán)重,后期分析使用時可能會造成局部誤差過大。填補結(jié)果都不理想,回歸分析填充方式不適用于本數(shù)據(jù)集。
(1)基于隨機(jī)森林算法的填充方式能夠判斷各分類的重要程度,優(yōu)選出強(qiáng)影響因素,結(jié)合權(quán)重進(jìn)行填充,填充結(jié)果較為理想。
(2)隨機(jī)森林沒有對數(shù)據(jù)集各特征參數(shù)進(jìn)行降維或壓縮,可以適應(yīng)大數(shù)據(jù)集、多特征的要求,最終采用投票的結(jié)果,可以最大限度地體現(xiàn)關(guān)鍵特征對模型的影響。
(3)隨機(jī)森林作為一種集成算法,不用單獨構(gòu)造測試集,可以依托數(shù)據(jù)集自動提取測試集,極大地簡化工作量,且能夠內(nèi)部進(jìn)行對比、評估。
(4)為了達(dá)到合理的填充結(jié)果,在填充操作前需要進(jìn)行必要的填充方式判斷,確定填充范圍后,還需要了解數(shù)據(jù)的基本統(tǒng)計特征。
監(jiān)測數(shù)據(jù)的處理作為基坑變形位移規(guī)律分析的重要前置環(huán)節(jié),不容忽視。應(yīng)該根據(jù)基坑工程的實際變形特征或趨勢,根據(jù)分析處理階段的不同,合理優(yōu)選適宜的數(shù)據(jù)處理方式,才能夠更好地利用現(xiàn)場實測數(shù)據(jù),讓數(shù)據(jù)更為全面、完整地提供給模型分析,更有助于實現(xiàn)科學(xué)、有效的分析判斷。