近年來,機器學(xué)習(xí)算法發(fā)展日新月異,逐漸滲透到各行業(yè)。本文就機器學(xué)習(xí)算法在涵洞狀態(tài)預(yù)測中的具體應(yīng)用展開系統(tǒng)性研究,包括應(yīng)用現(xiàn)狀、算法選擇、模型指標以及存在問題等內(nèi)容,以期對機器學(xué)習(xí)算法在涵洞研究領(lǐng)域的進一步發(fā)展和機器學(xué)習(xí)的進一步應(yīng)用有所幫助。
一、機器學(xué)習(xí)算法在涵洞狀態(tài)預(yù)測的應(yīng)用現(xiàn)狀
(一)算法選擇
國內(nèi)涵洞損傷與病害研究涵蓋涵洞病害特征、成因及防治、穩(wěn)定狀態(tài)、裂縫成因、受力變形特征及洞體淤堵檢測等。目前已采用支持向量機(SVM)算法預(yù)測公路涵洞震害,以地震烈度、場地類別、涵洞型式、洞口構(gòu)造、跨徑及長度等六因素為震害因子,預(yù)測準確率超70%,表現(xiàn)優(yōu)異。SVM算法在處理高維特征和非線性問題方面具有優(yōu)勢,但在處理多分類問題對涵洞震害影響方面存在挑戰(zhàn)。在實際應(yīng)用中,需要考慮建筑材料和山體滑坡等因素調(diào)整參數(shù)設(shè)置。
在國外,使用決策樹(DT)算法對約10萬個公路涵洞的使用狀態(tài)進行預(yù)測,結(jié)果顯示模型準確率達80%,而且通過使用該方法,涵洞維護的成本可降低約44%,DT算法簡單直觀、無需預(yù)處理、穩(wěn)健性高,但不足是對樣本變動敏感,對于涵洞可能遭受不同的自然和/或人為極端事件(如百年一遇的洪水、超載卡車駛過、未經(jīng)授權(quán)向附近溝渠傾倒廢物等)未納入考慮范圍。根據(jù)Adaboost算法對得克薩斯州10000座橋梁的預(yù)測研究顯示,ROC曲線面積在0.8以上,但此算法易出現(xiàn)過擬合情況。同時,相關(guān)研究分析對比了隨機森林(RF)、決策樹(DT)、支持向量機(SVM)、K近鄰算法(KNN)和人工神經(jīng)網(wǎng)絡(luò)(ANN)等算法在涵洞狀態(tài)預(yù)測中的表現(xiàn),對2555個涵洞的分析結(jié)果顯示RF準確率最高,為82%。
目前,健康監(jiān)測系統(tǒng)在橋梁、隧道和鐵路等大型基礎(chǔ)設(shè)施中的應(yīng)用已日趨成熟。這些系統(tǒng)主要依賴于傳感器網(wǎng)絡(luò)和數(shù)據(jù)采集技術(shù),實現(xiàn)對涵洞結(jié)構(gòu)和狀態(tài)的實時監(jiān)測。通過長期監(jiān)測和數(shù)據(jù)分析,我們能夠準確識別影響涵洞性能的關(guān)鍵因素,并提供針對性地預(yù)測和維修建議。然而,相較于其他領(lǐng)域,涵洞相關(guān)的研究數(shù)量仍顯不足。
(二)輸入變量選擇
涵洞的分類多樣,依據(jù)不同的標準可以進行多種劃分。按照建筑材料,涵洞可分為磚涵、石涵、混凝土涵以及鋼筋混凝土涵;從構(gòu)造形式上看,涵洞則分為圓管涵、拱涵、蓋板涵和箱涵。此外,根據(jù)填土情況的不同,涵洞還可以分為明涵和暗涵。明涵特指洞頂無填土的涵洞,適用于低路堤及淺溝渠處;而暗涵則是指洞頂有填土的涵洞,其最小填土厚度應(yīng)超過50cm,適用于高路堤及深溝渠處。
在國內(nèi),對涵洞損傷和狀態(tài)的研究主要集中在涵洞裂縫、蓋板狀態(tài)、洞身變形以及洞體淤堵等方面。這些研究所考慮的影響因子則包括場地類別、涵洞型式、洞口構(gòu)造以及涵洞跨徑等。這些研究旨在更深入地了解涵洞的性能和狀態(tài),以便更好地進行維護和管理。在國外,涵洞的研究重點與國內(nèi)相似,主要集中在涵洞變形裂縫、淤堵和剩余壽命等方面。研究所涉及的影響因子主要包括涵洞的物理特性(如尺寸、材料和形狀)、部分環(huán)境因素(以pH值為主)以及車流量等。例如,Gao、Fang和Iqbal等人對美國俄亥俄州約10萬條涵洞數(shù)據(jù)和得克薩斯州約1萬條橋梁數(shù)據(jù)進行了深入研究。然而,他們的結(jié)論顯示,目前數(shù)據(jù)庫所采集的數(shù)據(jù)和因子在實際建模過程中能發(fā)揮作用的僅占不到10%,主要涵蓋涵洞材料、尺寸、形狀和車流量等因素。
因此,本研究中機器學(xué)習(xí)模型的輸入變量涵蓋了涵洞材料、尺寸、形狀、使用年限、涵洞磨損情況以及pH值等多個方面。這些變量將作為模型訓(xùn)練和0yiUZ6putNMsKxF1dnzcdPJHbwLQH0y+imRpMMb+Dpw=分析的重要依據(jù),以實現(xiàn)對涵洞性能的精準預(yù)測和評估。
(三)模型評價指標
在此機器學(xué)習(xí)涵洞狀態(tài)預(yù)測模型(ML)的開發(fā)初期,我們選用了三種不同的機器學(xué)習(xí)算法,分別是人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVM)以及決策樹。這些模型的開發(fā)依賴于ODOTTIMS涵洞清單數(shù)據(jù)庫提供的數(shù)據(jù),該數(shù)據(jù)庫由ODOT于2018年發(fā)布。為了確保數(shù)據(jù)適用于機器學(xué)習(xí)模型的構(gòu)建,我們對下載的原始數(shù)據(jù)進行了預(yù)處理,具體采用了列表刪除(LD)和反距離加權(quán)(IDW)等技術(shù),使得數(shù)據(jù)能夠滿足ML模型開發(fā)的要求。ODOT最初使用的10分評級表被重新調(diào)整劃分為兩組,以清晰地標識涵洞是否需要接受檢查。其中,第一組涵洞得分在0至6分之間,表明這些涵洞需要接受檢查;而第二組涵洞得分在7至9分之間,表明這些涵洞狀況良好,無需進一步檢查。利用準確率(Accuracy)、召回率(Recall)、精確度(Precision)、F-分數(shù)(F1Score)和ROC曲線(ROCCurve)等評價指標對模型進行了初步評估,結(jié)果顯示,決策樹模型相較于其他兩種算法,展現(xiàn)出了更為優(yōu)越的性能。因此,決策樹(DT)算法被用于進一步的模型開發(fā)。
準確率(Accuracy)是衡量分類器性能的關(guān)鍵指標之一。具體而言,準確率代表了分類器在給定測試數(shù)據(jù)集中正確分類的樣本數(shù)與總樣本數(shù)之間的比率,它實質(zhì)上是預(yù)測正確的概率體現(xiàn)。然而,初步研究還發(fā)現(xiàn),涵洞評級數(shù)據(jù)的不平衡性對機器學(xué)習(xí)模型的準確率造成了顯著影響,數(shù)值從76%到85%不等。故準確率這一指標往往無法全面、準確地反映模型的預(yù)測能力。召回率(Recall)又稱真陽性率(TPR)或靈敏度(Sensitivity),召回率表示實際為正的樣本被判斷為正樣本的比例。召回率低意味著分類器會產(chǎn)生很多假負例(FalseNegative)預(yù)測,在本研究中,召回率為0.81,表現(xiàn)出色。精確度(Precision)的數(shù)值會受到假正例(FP)案例數(shù)量的影響,以涵洞狀況預(yù)測為例,和召回率類似,如果模型預(yù)測出大量涵洞狀況不佳,而實際上并非如此,這就導(dǎo)致了較低的精確度,因為模型預(yù)測了過多的涵洞狀況不佳,其代價是額外的實地考察和現(xiàn)場檢查。所以在模型選擇時,應(yīng)優(yōu)先考慮具有較高精確度的模型,如本模型精確度達0.73。F分數(shù)(F1score)的高低直接反映了分類器在減少假正例(FP)和假負例(FN)方面的能力。當F分數(shù)較高時,意味著模型能夠更準確地識別出實際的正例情況,同時減少了因誤報(即FP)帶來的干擾。因此,一個高F分數(shù)的模型在識別正例和避免誤報方面表現(xiàn)優(yōu)秀。F分數(shù)最佳為1,表示分類器完美識別,性能最佳;最差為0,則表明分類器無法識別,性能極差,本研究F分數(shù)接近0.8,性能較好。接收者工作特征曲線(ROCCurve)是描繪分類概率閾值從0到1變化時,召回率與誤報率(FPR)之間關(guān)系的圖形。為了將涵洞狀態(tài)預(yù)測模型性能與現(xiàn)有研究進行比較,使用了ROC曲線下的曲線面積(AUC)來進一步評估所開發(fā)的決策樹模型。AUC的取值范圍在0.5至1.0之間,其中0.5表示最差性能,1.0最佳。在此ML模型中,ROC曲線的性能表現(xiàn)較好。
總體研究結(jié)果顯示,采用建議的選擇性檢查方法,一年內(nèi)混凝土涵洞的檢查量可減少約50%。
二、機器學(xué)習(xí)算法在涵洞狀態(tài)預(yù)測的應(yīng)用問題
(一)數(shù)據(jù)選擇沒有標準化
雖然本研究中涵洞狀態(tài)預(yù)測分析模型表現(xiàn)較好,但仍存在亟待解決的問題,如當前涵洞數(shù)據(jù)采集工作缺乏統(tǒng)一的標準,不同地區(qū)往往根據(jù)自身需求或設(shè)備條件進行采集。單純從數(shù)據(jù)分析的角度來看,數(shù)據(jù)庫中接近90%的信息是非關(guān)鍵的,這導(dǎo)致了存儲空間的浪費。考慮到涵洞數(shù)量眾多,這種情況不僅使得數(shù)據(jù)存儲效率低下,還會在分析過程中增加前期數(shù)據(jù)清洗的工作量和運算成本,降低了數(shù)據(jù)處理和分析的效率與準確性。因此,制定統(tǒng)一的涵洞數(shù)據(jù)采集標準,優(yōu)化數(shù)據(jù)存儲和分析流程,對于提高涵洞管理的效率和準確性具有重要意義。
(二)數(shù)據(jù)量較少
在構(gòu)建現(xiàn)有的機器學(xué)習(xí)算法涵洞預(yù)測或分析模型時,研究者們通?;谘芯糠较蚝鸵延袛?shù)據(jù)來選取輸入變量,隨后由模型自行判定特征變量,鮮有研究對輸入變量的選擇過程進行深入分析,從而導(dǎo)致在確定涵洞狀態(tài)的關(guān)鍵影響因子方面仍有所不足。相較于橋梁、隧道等大型基礎(chǔ)設(shè)施,涵洞的研究相對匱乏,多數(shù)研究受限于較小的數(shù)據(jù)樣本量,這主要是由于未能充分整合不同維度的數(shù)據(jù)及復(fù)雜的數(shù)據(jù)采集、傳感、傳輸和存儲硬件要求。然而,現(xiàn)有技術(shù)已完全具備數(shù)據(jù)整合和擴容的能力。因此,加強數(shù)據(jù)整合工作有望深化和拓寬涵洞研究,為涵洞的安全高效運行提供更強有力的支持。
(三)實踐應(yīng)用受限
盡管機器視覺和健康監(jiān)測系統(tǒng)目前已經(jīng)得到了較好的發(fā)展,但是由于涵洞數(shù)量眾多且大多深埋于地下,其復(fù)雜的傳感、傳輸、存儲和分析過程在涵洞上的應(yīng)用前景仍然面臨著較大的阻力,這些系統(tǒng)在涵洞實踐應(yīng)用中的使用受到了一定的限制。為了克服這些挑戰(zhàn),我們需要進一步研究并優(yōu)化這些系統(tǒng),以適應(yīng)涵洞的特殊環(huán)境和需求,從而推動其在涵洞監(jiān)測和維護中的廣泛應(yīng)用。
三、結(jié)語
綜上所述,機器學(xué)習(xí)算法在涵洞狀態(tài)預(yù)測領(lǐng)域已取得研究成效,能基于多因素涵洞數(shù)據(jù)構(gòu)建預(yù)測模型,精準評估涵洞狀態(tài)。同時,機器學(xué)習(xí)算法能自動學(xué)習(xí)數(shù)據(jù)特征,挖掘潛在影響,為涵洞管理維護提供支持。然而,仍存在數(shù)據(jù)獲取整合難、數(shù)據(jù)質(zhì)量不一等問題,影響預(yù)測準確性。此外,涵洞狀態(tài)預(yù)測涉及復(fù)雜因素,算法和參數(shù)選擇需謹慎,需大量實驗驗證。
針對我國機器學(xué)習(xí)在涵洞狀態(tài)預(yù)測的應(yīng)用提出建議:第一,應(yīng)加強涵洞數(shù)據(jù)采集整理,統(tǒng)一數(shù)據(jù)標準,確保準確性完整性,利用數(shù)據(jù)清洗預(yù)處理技術(shù)提升數(shù)據(jù)質(zhì)量。第二,研究不同機器學(xué)習(xí)算法在涵洞狀態(tài)預(yù)測中的應(yīng)用,通過對比實驗選擇最佳算法和參數(shù)。第三,結(jié)合其他領(lǐng)域知識,引入新特征和方法,提高預(yù)測準確性。
(作者單位:廣州城建職業(yè)學(xué)院;基金項目:2023廣東省普通高校重點領(lǐng)域?qū)m梉新一代信息技術(shù)],編號:2023ZDZX1095。)