国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

閩江流域水質(zhì)預(yù)測模型研究

2023-04-29 21:56:06林閩微
信息系統(tǒng)工程 2023年8期

林閩微

摘要:良好的水環(huán)境是人類社會經(jīng)濟(jì)可持續(xù)發(fā)展的前提和必備因素,在河流水環(huán)境不斷被污染和破壞的前提下,水質(zhì)的預(yù)測工作格外關(guān)鍵,并且對河流水環(huán)境的研究和維護(hù)具有重大的基礎(chǔ)意義。使用XGBoost算法對閩江流域的水質(zhì)進(jìn)行預(yù)測。收集了大量的水質(zhì)監(jiān)測數(shù)據(jù),并使用XGBoost算法,結(jié)合有效的數(shù)據(jù)預(yù)處理操作,對數(shù)據(jù)進(jìn)行建模和分析。結(jié)果顯示,XGBoost算法在水質(zhì)預(yù)測方面具有很高的準(zhǔn)確性和可靠性。

關(guān)鍵詞:水質(zhì)預(yù)測;XGBoost算法;特征工程;建模分析

一、前言

隨著社會的快速發(fā)展,工業(yè)生產(chǎn)排放的廢水、日常生活排放的污水,及農(nóng)業(yè)生產(chǎn)的化肥濫用、畜牧業(yè)養(yǎng)殖的廢水等,都對自然環(huán)境的水質(zhì)造成了極大的危害。因此,加強(qiáng)水質(zhì)監(jiān)測和預(yù)測刻不容緩。良好的水質(zhì)監(jiān)測工作可以為監(jiān)管部門提供更好的決策依據(jù),踏踏實(shí)實(shí)地踐行“綠水青山就是金山銀山”的文明發(fā)展理念。

二、閩江水域預(yù)測研究現(xiàn)狀

閩江是福建的母親河,全長562公里,流域面積60,992平方公里,約占福建全省面積的一半。加強(qiáng)對該水域的水質(zhì)監(jiān)測和預(yù)測,對福建省的健康發(fā)展和保障當(dāng)?shù)厝嗣裆钯|(zhì)量有著極其重要的意義。在過去的幾十年中,許多學(xué)者和研究人員已經(jīng)對水質(zhì)進(jìn)行了研究和探索,開發(fā)了各種模型和算法來預(yù)測水質(zhì)變化。隨著數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的發(fā)展,越來越多的研究人員開始使用機(jī)器學(xué)習(xí)算法來預(yù)測水質(zhì)[1],從主流的ARIMA時間序列到一些常見的傳統(tǒng)機(jī)器算法,乃至深度學(xué)習(xí)算法層出不窮。

然而,傳統(tǒng)的ARIMA模型相對較為簡單,所要求使用的歷史數(shù)據(jù)是穩(wěn)定的,或者通過差分處理后是穩(wěn)定的,通過對數(shù)據(jù)進(jìn)行差分、移動平均等操作,試圖查找出歷史數(shù)據(jù)的周期性和趨勢,并剔除其中的噪音數(shù)據(jù),完成對數(shù)據(jù)內(nèi)在規(guī)律的分析及預(yù)測[2]。其本質(zhì)是捕捉數(shù)據(jù)之間的線性關(guān)系,而無法獲取內(nèi)部的非線性關(guān)系,因此預(yù)測效果相對不夠理想。在一些水系簡單的河流區(qū)域,此種方法的預(yù)測精度也能滿足要求。

當(dāng)下火熱的神經(jīng)網(wǎng)絡(luò)算法,其預(yù)測精度相對更高,模型的魯棒性更強(qiáng),可以人為搭建各種復(fù)雜的非線性網(wǎng)絡(luò)結(jié)構(gòu)模型,理論上可以擬合出任意程度的非線性結(jié)果,但是對數(shù)據(jù)量的要求相對較多,否則容易導(dǎo)致模型過擬合的情況[3]。同時,神經(jīng)網(wǎng)絡(luò)模型因?yàn)槠潺嫶蟮挠?jì)算量需要依賴于GPU來完成對數(shù)據(jù)的預(yù)測,以確保預(yù)測的實(shí)時性,這樣無形中增加了模型部署時設(shè)備的投入成本。另外,該模型的可解釋性較差,導(dǎo)致其在后期分析問題時劣勢比較明顯,難以提供有效的針對性處理措施建議。

對傳統(tǒng)機(jī)器學(xué)習(xí)而言,其計(jì)算量相對神經(jīng)網(wǎng)絡(luò)模型少,因此對設(shè)備的要求相對不高。同時,傳統(tǒng)機(jī)器學(xué)習(xí)所建立的模型,可以計(jì)算得到模型輸入的各個變量的權(quán)重大小,從而大大有利于后期的分析,便于相關(guān)決策部門針對產(chǎn)生污染的相關(guān)因素采取針對性措施,這樣不僅對水質(zhì)進(jìn)行預(yù)測,還可以進(jìn)行預(yù)防,掌握監(jiān)管的主動性[4]。XGBoost算法模型從誕生以來就是各種競賽項(xiàng)目的“大殺器”,具有高效、靈活和輕便的特點(diǎn),在數(shù)據(jù)挖掘、推薦系統(tǒng)等領(lǐng)域得到廣泛應(yīng)用。[5]

因此,綜合考慮,我們選擇了以XGBoost算法為基礎(chǔ)的傳統(tǒng)機(jī)器學(xué)習(xí)模型,并結(jié)合我們自身的數(shù)據(jù)特征工程,以實(shí)現(xiàn)對水質(zhì)進(jìn)行高精度預(yù)測,從而對水質(zhì)進(jìn)行有效的管理和保護(hù)。

三、數(shù)據(jù)采集和處理

我們收集了近幾年閩江某流域的一些水質(zhì)監(jiān)測站的記錄數(shù)據(jù),及各污染排放點(diǎn)的監(jiān)控?cái)?shù)據(jù),用以嘗試進(jìn)行各個指標(biāo)的排放數(shù)據(jù)預(yù)測。考慮到不同監(jiān)測站所監(jiān)測的指標(biāo)類型不盡相同,為提升后期算法模型的自適應(yīng)部署能力,我們考慮提取一些常見的公共預(yù)測指標(biāo)進(jìn)行事先設(shè)定。這樣構(gòu)建出來的模型,既能對某個指標(biāo)類型完成更精確的預(yù)測,也能避免訓(xùn)練出一些無意義的模型。同時,為了降低模型復(fù)雜度,我們隨機(jī)選擇了兩個相鄰的水質(zhì)監(jiān)測站及兩監(jiān)測站之間的污染排放點(diǎn)的監(jiān)控?cái)?shù)據(jù),利用上游的水質(zhì)監(jiān)測站及兩監(jiān)測站之間的污染排放數(shù)據(jù),來預(yù)測下游的水質(zhì)監(jiān)測站的水質(zhì)指標(biāo)。

(一)數(shù)據(jù)的分組處理

由于不同污染排放點(diǎn)所屬的企業(yè)規(guī)模、產(chǎn)品等存在差異,各自的排放指標(biāo)類型不盡相同,即有些企業(yè)的排放可能存在某個指標(biāo),而另外一些企業(yè)可能不存在該指標(biāo)。且企業(yè)規(guī)模大小不同,所排放的數(shù)據(jù)量級也可能存在較大差異。因此,需事先對污染排放點(diǎn)的監(jiān)測數(shù)據(jù)進(jìn)行分組處理,獲取屬于相同企業(yè)的排放數(shù)據(jù),以免在后期數(shù)據(jù)整合處理異常值和填充時造成錯誤。

(二)數(shù)據(jù)的頻率統(tǒng)一化處理

由于發(fā)現(xiàn)水質(zhì)監(jiān)測站的監(jiān)測頻率與污染排放點(diǎn)的監(jiān)測頻率不一致,我們對這些數(shù)據(jù)進(jìn)行了初步預(yù)處理,以將這些數(shù)據(jù)同步到統(tǒng)一的頻率記錄,方便后期的數(shù)據(jù)整合。具體是對數(shù)據(jù)進(jìn)行重采樣操作,整合成統(tǒng)一頻率后,再將這些不同來源的數(shù)據(jù)按照相同的時間點(diǎn)進(jìn)行合并。重采樣時,由于數(shù)據(jù)中存在一些異常數(shù)據(jù),需事先將負(fù)值和異常值替換成空值,以免影響重采樣的結(jié)果。

(三)提取有效字段的數(shù)據(jù)

在處理水質(zhì)監(jiān)測站的數(shù)據(jù)時,檢查發(fā)現(xiàn)可能存在水質(zhì)監(jiān)測站因改造或設(shè)備更新,導(dǎo)致某些監(jiān)測指標(biāo)的增減情況,即前期建模時存在某個監(jiān)測指標(biāo)數(shù)據(jù),而后期新數(shù)據(jù)無該監(jiān)測指標(biāo)數(shù)據(jù)。也可能存在前期建模時無某個監(jiān)測指標(biāo)數(shù)據(jù),而后期新數(shù)據(jù)卻存在監(jiān)測數(shù)據(jù)。對于新數(shù)據(jù)的預(yù)測,則不能事先刪除字段。因此,在前期建模時,可以先刪除無效字段(即無監(jiān)測數(shù)據(jù)的字段),但后期新數(shù)據(jù)納入預(yù)測時,應(yīng)只將0和空白替換成空值,而不能隨意刪除字段。這樣才能確保在數(shù)據(jù)建模時,所建模型為有效模型。在后期預(yù)測時納入的數(shù)據(jù),也只是選取與前期建模一致的字段數(shù)據(jù)。如預(yù)測時處理數(shù)據(jù)事先刪除無用字段,會導(dǎo)致預(yù)測時的字段數(shù)量與模型的字段數(shù)量不一致,導(dǎo)致無法預(yù)測。

(四)對數(shù)據(jù)缺失值和異常值的處理

數(shù)據(jù)重采樣后,如產(chǎn)生的新數(shù)值存在0,需替換成空值。而對超過一定閾值的異常值,一般采用蓋帽法,即將超出閾值的異常值直接重置為閾值。如將異常值直接替換成空值,會存在所有數(shù)據(jù)被替換成空值的情況。且部分字段的數(shù)據(jù)比較稀疏,且分布異常,替換成空值的操作容易導(dǎo)致數(shù)據(jù)分布的變化,數(shù)據(jù)趨向兩端。

(五)數(shù)據(jù)的填充處理

為確保數(shù)據(jù)的連續(xù)性及后期的正常預(yù)測,我們沒有對數(shù)據(jù)進(jìn)行隨意刪除,而是采用線性插值法對前面處理過的數(shù)據(jù)進(jìn)行填充,確保納入模型訓(xùn)練的數(shù)據(jù)是完整的。

(六)數(shù)據(jù)的特征工程處理

數(shù)據(jù)的特征工程是機(jī)器學(xué)習(xí)中模型獲得較高精度的一個極其重要的步驟。其目的是提取數(shù)據(jù)中的高級特征,以更深入挖掘數(shù)據(jù)之間的關(guān)聯(lián)。良好的特征工程可以大幅提升模型的預(yù)測精度。也正是因?yàn)槿绱耍覀兓ㄙM(fèi)了較大的精力,對前期初步預(yù)處理后的數(shù)據(jù),結(jié)合自身的業(yè)務(wù)特性,進(jìn)行了一些有效的特征提取操作,以通過人為的思路來獲取相對更為有效的高級特征數(shù)據(jù)。

1.對數(shù)據(jù)進(jìn)行周期性回溯。也就是按照周期規(guī)律(結(jié)合我們的業(yè)務(wù),考慮到企業(yè)日常工作的規(guī)律,設(shè)置為7天的周期),并向前追溯4周,初步生成一定周期的高級特征數(shù)據(jù),代碼操作如圖1。

2.對這些新生成的高級特征數(shù)據(jù),再分別計(jì)算其變化率、變化量及前幾周的均值,來獲取數(shù)據(jù)的變化趨勢,以從歷史的數(shù)據(jù)中提取數(shù)據(jù)的一些周期性變化特征。代碼操作如圖2。

四、模型的訓(xùn)練和預(yù)測

五、結(jié)語

上述實(shí)驗(yàn)結(jié)果表明,XGBoost算法在水質(zhì)預(yù)測問題中表現(xiàn)出了較好的性能。我們的模型可以準(zhǔn)確地預(yù)測水質(zhì)指標(biāo)的值,并且在處理大量數(shù)據(jù)時也具有很好的效率。因此,我們認(rèn)為XGBoost算法是一種可行的水質(zhì)預(yù)測方法。相比常規(guī)的ARIMA時間序列等算法來說,其納入了更多的數(shù)據(jù)進(jìn)行綜合考慮,不僅提升了模型的預(yù)測精度,更有利于后期的水質(zhì)污染的原因分析。同時,由于使用的是傳統(tǒng)的機(jī)器學(xué)習(xí)算法,其對計(jì)算機(jī)的配置要求不如深度學(xué)習(xí)算法高,可以很容易適配當(dāng)下的配置,無需進(jìn)行過多的設(shè)備升級,大大節(jié)省了成本。

當(dāng)然,我們也看到當(dāng)前的模型對部分監(jiān)測指標(biāo)的預(yù)測精度仍舊不太理想,還部分存在明顯的過擬合情況??赡芟鄳?yīng)的有效數(shù)據(jù)量不足,也可能影響該指標(biāo)的因素并未納入監(jiān)測,或者是所采用的特征工程并未提取到更為有效的高級特征。我們將來可以采取更多靈活的特征工程處理方式,比如結(jié)合PCA降維,納入氣象數(shù)據(jù)、水流速度等可能的影響因素,進(jìn)一步提升模型的預(yù)測效果[7]。

希望本文的研究可以為水質(zhì)預(yù)測領(lǐng)域的進(jìn)一步研究提供借鑒和參考。此外,還應(yīng)注意到,XGBoost算法在水質(zhì)預(yù)測問題中的應(yīng)用仍有很大的發(fā)展空間。例如,可以進(jìn)行更深化的特征工程來提高模型的精度,或者將XGBoost算法與其他算法結(jié)合使用,以提高模型的泛化能力和預(yù)測準(zhǔn)確度[8]。在未來的研究中,我們將繼續(xù)探索XGBoost算法在水質(zhì)預(yù)測領(lǐng)域中的應(yīng)用。此外,當(dāng)前的水質(zhì)預(yù)測模型大部分都是基于非機(jī)理模型的,導(dǎo)致其對突發(fā)的水質(zhì)污染難以提供及時的告警預(yù)知;同時,由于機(jī)理模型極高的復(fù)雜程度和巨大的投入,難以適應(yīng)實(shí)際的需求,我們也需要對水質(zhì)變化的規(guī)律繼續(xù)進(jìn)行深入研究,以期望能探索到真正實(shí)際有效的方法,為人類的健康和未來,提供堅(jiān)強(qiáng)的保障。

參考文獻(xiàn)

[1]張鵬,逄勇,石成春,等.閩江下游水質(zhì)變化趨勢分析[J].水資源保護(hù),2018,34(1):64-69.

[2]顧杰,王嘉,鄧俊暉,等.基于ARIMA模型與BP神經(jīng)網(wǎng)絡(luò)算法的水質(zhì)預(yù)測[J].凈水技術(shù),2020,39(6):73-82.

[3]李霖,王琨,劉強(qiáng),等.基于CNN的贛江水質(zhì)時空規(guī)律分析與預(yù)測[C]//2021年(第七屆)全國大學(xué)生統(tǒng)計(jì)建模大賽獲獎?wù)撐募ǘ?中國統(tǒng)計(jì)教育學(xué)會,2021.

[4]周信哲,陳永娟,蒲文鵬.機(jī)器學(xué)習(xí)在水質(zhì)預(yù)測中的應(yīng)用[C]//2020中國環(huán)境科學(xué)學(xué)會科學(xué)技術(shù)年會論文集(第四卷).《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司出版,2020.

[5]李天培,黃斌.基于XGBoost模型的水質(zhì)預(yù)測[J].環(huán)境科學(xué)研究,2019,32(3):549-556.

[6]Chen T,Guestrin C.XGBoost: A Scalable Tree Boosting System[arXiv.org].2016.

[7]田冰,陳國建.基于XGBoost的水質(zhì)綜合評價模型研究[J].水文,2019,39(4):83-88.

[8]李志明,劉福源,姚君,等.XGBoost分類算法在水質(zhì)評價中的應(yīng)用[J].水資源保護(hù),2017,33(2):115-119.

作者單位:中國人民大學(xué)

丹巴县| 巴南区| 七台河市| 洪湖市| 桦甸市| 永济市| 延川县| 利辛县| 和田市| 阜南县| 木里| 克山县| 南乐县| 灌阳县| 库车县| 喀喇| 舟山市| 上犹县| 金溪县| 淮阳县| 利津县| 闵行区| 新竹市| 富民县| 安仁县| 乌兰浩特市| 和顺县| 东乡| 娄烦县| 顺平县| 镇原县| 连州市| 开鲁县| 凤凰县| 阜平县| 兴化市| 贵港市| 庆阳市| 石泉县| 昌平区| 五大连池市|