段碧清
(中化環(huán)境控股有限公司,北京 100071)
如今,全球掀起了以數(shù)字化轉(zhuǎn)型升級為首要任務(wù)的新一輪工業(yè)變革,工業(yè)大數(shù)據(jù)作為引領(lǐng)這場變革的主要驅(qū)動力,已經(jīng)成為當今工業(yè)領(lǐng)域的熱點之一。新一代信息技術(shù)與工業(yè)的深度融合將促進工業(yè)領(lǐng)域的服務(wù)轉(zhuǎn)型和產(chǎn)品升級,重塑全球制造業(yè)的產(chǎn)業(yè)格局。為緊緊抓住這一重大歷史機遇,搶占新一輪競爭制高點,國家高度重視并作出長期性、戰(zhàn)略性部署,要求“加快發(fā)展先進制造業(yè),推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”。工業(yè)大數(shù)據(jù)是工業(yè)領(lǐng)域的核心要素,以大數(shù)據(jù)工業(yè)互聯(lián)網(wǎng)為基礎(chǔ),用云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等技術(shù)引領(lǐng)工業(yè)生產(chǎn)方式的變革,拉動工業(yè)經(jīng)濟的創(chuàng)新發(fā)展。工業(yè)大數(shù)據(jù)分析技術(shù)作為工業(yè)大數(shù)據(jù)的核心技術(shù)之一,可使工業(yè)大數(shù)據(jù)產(chǎn)品具備海量數(shù)據(jù)的挖掘能力、多源數(shù)據(jù)的集成能力、多類型知識的建模能力、多業(yè)務(wù)場景的分析能力、多領(lǐng)域知識的發(fā)掘能力等,對驅(qū)動企業(yè)業(yè)務(wù)創(chuàng)新和轉(zhuǎn)型升級具有重大作用。
結(jié)合水務(wù)行業(yè)自身的需求和特點,發(fā)現(xiàn)水務(wù)企業(yè)存在的主要問題和面臨的挑戰(zhàn)如下:①信息系統(tǒng)多且太分散,維護成本高;②數(shù)據(jù)標準不統(tǒng)一,無法實現(xiàn)統(tǒng)一共享,對數(shù)據(jù)的整合集成及互聯(lián)互通造成了阻礙,增加了信息整合的復(fù)雜度;③數(shù)據(jù)質(zhì)量存在不可靠問題;④數(shù)據(jù)來源復(fù)雜,終端多而分散,導(dǎo)致數(shù)據(jù)采集及存儲安全存在問題;⑤數(shù)據(jù)眾多,數(shù)據(jù)分析處理能力有限,無法有效進行更深層次的數(shù)據(jù)挖掘、利用和輔助決策支持。
水務(wù)大數(shù)據(jù)平臺建設(shè)時通過應(yīng)用新ⅠT 技術(shù),融合水行業(yè)需求,把“數(shù)字化” 應(yīng)用于公司治理與環(huán)境治理服務(wù)中,創(chuàng)造新型的管理與服務(wù)模式。在數(shù)據(jù)的價值創(chuàng)造與價值傳遞過程中,將價值鏈的更多環(huán)節(jié)轉(zhuǎn)化為戰(zhàn)略優(yōu)勢,實現(xiàn)技術(shù)、物質(zhì)、資金、人才、服務(wù)等資源的優(yōu)化配置,進一步提升管理精細化、為民服務(wù)精準化和水務(wù)企業(yè)管理現(xiàn)代化水平,數(shù)據(jù)驅(qū)動創(chuàng)新,將大數(shù)據(jù)技術(shù)能力轉(zhuǎn)化為企業(yè)發(fā)展的新動力[1]。
數(shù)據(jù)是新時代重要的生產(chǎn)要素,是國家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)是數(shù)據(jù)的集合,以容量大、類型多、速度快、精度準、價值高為主要特征,是推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力,是提升政府治理能力的新途徑,是重塑國家競爭優(yōu)勢的新機遇。“十四五” 時期是中國工業(yè)經(jīng)濟向數(shù)字經(jīng)濟邁進的關(guān)鍵時期,對大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提出了新的要求,產(chǎn)業(yè)將步入集成創(chuàng)新、快速發(fā)展、深度應(yīng)用、結(jié)構(gòu)優(yōu)化的新階段。隨著互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等信息通信技術(shù)的發(fā)展,描述和記錄人類社會空間、信息空間和網(wǎng)絡(luò)空間的數(shù)據(jù)快速增長,數(shù)據(jù)規(guī)模也越來越龐大。大數(shù)據(jù)的數(shù)據(jù)源包括網(wǎng)絡(luò)&社交媒體、智能設(shè)備生成的數(shù)據(jù)(由硬軟件自動生成的數(shù)據(jù),無人干擾,如電腦、醫(yī)療設(shè)備等)、感知數(shù)據(jù)(幾種傳感裝置用于測量物理量并將它轉(zhuǎn)換成信號)、事務(wù)數(shù)據(jù)(涉及描述數(shù)據(jù)的時間維度的事件,如財務(wù)和工作數(shù)據(jù))和物聯(lián)網(wǎng)數(shù)據(jù)(大量通過網(wǎng)絡(luò)連接的設(shè)備提供多種類型服務(wù)的同時,會產(chǎn)生大量的數(shù)據(jù)和信息)[2]。數(shù)據(jù)的形式包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。而在大數(shù)據(jù)領(lǐng)域,目前采集到的數(shù)據(jù)85%以上為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),只有少量的結(jié)構(gòu)化數(shù)據(jù)[3]。
大數(shù)據(jù)分析是運用云計算、機器學(xué)習(xí)算法等方法對大數(shù)據(jù)進行分析,從中找出可以幫助決策的隱藏模式和未知的相互關(guān)系及其他有用的信息過程[4]。此外,傳統(tǒng)的數(shù)據(jù)顯示方法也已不足以滿足當前大數(shù)據(jù)分析結(jié)果輸出的需求,因此為提升數(shù)據(jù)解釋、展示能力,數(shù)據(jù)可視化也逐漸被引入了大數(shù)據(jù)領(lǐng)域。
綜上所述,大數(shù)據(jù)具有數(shù)據(jù)量大、處理速度快及數(shù)據(jù)種類多樣等特點,但尚無統(tǒng)一的定義。大數(shù)據(jù)理論強調(diào)以問題為導(dǎo)向,尋找事物之間的相關(guān)性。大數(shù)據(jù)的處理思路包括數(shù)據(jù)采集、數(shù)據(jù)處理與關(guān)聯(lián)、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用:通過相應(yīng)采集技術(shù)對數(shù)據(jù)進行收集;運用人工智能方法對采集到的數(shù)據(jù)進行 “去噪” 及清洗處理,得到可靠的數(shù)據(jù);運用云計算技術(shù)和機器學(xué)習(xí)等方法對數(shù)據(jù)進行分析,得到數(shù)據(jù)模型;將得到的數(shù)據(jù)模型發(fā)布后傳遞給用戶,以幫助用戶制定決策。
化工污水處理企業(yè)承擔(dān)著中國化工園區(qū)上游企業(yè)化工污水處理任務(wù),是化工污水排入生態(tài)環(huán)境的最后一道屏障,承擔(dān)著保護生態(tài)環(huán)境的重要責(zé)任。利用大數(shù)據(jù)技術(shù)對化工污水處理企業(yè)日運行數(shù)據(jù)及歷史數(shù)據(jù)進行分析建模,形成藥劑、出水COD(化學(xué)需氧量)預(yù)測模型,從而預(yù)測和判斷目前進出水流量、主要污染物指標與藥劑添加量或電量能耗的關(guān)系,利用數(shù)據(jù)模型可以對水廠運營及藥劑投加提供指導(dǎo)建議,達到卓越運營降本增效的目標。
機器學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí)規(guī)律的過程,是從一系列原始數(shù)據(jù)中提取人們可以識別的特征,然后學(xué)習(xí)這些特征,通過不斷迭代、優(yōu)化,最終產(chǎn)生一個模型,使用這個模型可以實現(xiàn)機器代替人進行復(fù)雜問題的分析及決策。機器學(xué)習(xí)建模的方法,大致可以分為分析目標確立、數(shù)據(jù)處理與特征工程、模型建立及迭代、模型評估、模型應(yīng)用。
首先通過物聯(lián)網(wǎng)傳感器導(dǎo)出企業(yè)日運行數(shù)據(jù),對數(shù)據(jù)格式、字段類型、數(shù)據(jù)完整性進行初步校驗,然后以每月為單元對數(shù)據(jù)進行統(tǒng)計合并,形成以天為維度的統(tǒng)計分析數(shù)據(jù)。目前運營數(shù)據(jù)字段主要包括進水量、處理量、進水COD、進水SS(懸浮物)、進水氨氮、出水COD 等運營數(shù)據(jù)字段,詳見表1。
表1 主要污染物指標表
目前運營數(shù)據(jù)字段26 個,本次實驗以這部分數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進行測試。通過對原始數(shù)據(jù)的分析,并參考污水處理運行的一般規(guī)律對各個字段關(guān)聯(lián)性、相關(guān)性進行分析字段的選擇。進水數(shù)據(jù)與出水數(shù)據(jù)及加藥量、活性炭、電耗等消耗數(shù)據(jù)必然存在一定關(guān)聯(lián),具備數(shù)據(jù)分析的基本邏輯,可以進行數(shù)據(jù)分析算法模擬,這些數(shù)據(jù)可以作為數(shù)據(jù)分析選定字段屬性參與到數(shù)據(jù)建模中。本次實驗將運用系統(tǒng)每日運營上報數(shù)據(jù)特征進行人工數(shù)據(jù)模擬,然后根據(jù)模擬數(shù)據(jù)進行模型訓(xùn)練、測試及驗證,通過結(jié)合實際的數(shù)據(jù)分析對場景的理解,設(shè)想日常進水數(shù)據(jù)指標與出水數(shù)據(jù)指標存在數(shù)據(jù)關(guān)聯(lián),并對目前沒有收集到的屬性根據(jù)經(jīng)驗進行模擬評價,制作樣本數(shù)據(jù),利用已知的結(jié)果進行模型訓(xùn)練。評價方法是將歷史項目數(shù)據(jù)與實際運營經(jīng)驗相互結(jié)合制訂,隨著數(shù)據(jù)的不斷積累,屬性字段需要不斷進行優(yōu)化調(diào)整。
3.2.1 構(gòu)建預(yù)測模型
通過大數(shù)據(jù)平臺,進行數(shù)據(jù)加載、預(yù)處理、模型算子、模型應(yīng)用、性能評估,主要流程如下:原始數(shù)據(jù)導(dǎo)入→ⅠnceptorSQL 特征工程→Sophon 可視化建?!鶶ophon 輸出學(xué)習(xí)模型→測試數(shù)據(jù)輸入之前模型→最終結(jié)果。
3.2.2 數(shù)據(jù)建模
3.2.2.1 創(chuàng)建實驗
數(shù)據(jù)準備與導(dǎo)入通過數(shù)據(jù)集對污水運營數(shù)據(jù)進行導(dǎo)入。新建一個實驗項目,在實驗中加載進化工污水企業(yè)運營數(shù)據(jù)作為本次實驗的數(shù)據(jù)源,進行模型訓(xùn)練?;の鬯髽I(yè)運營數(shù)據(jù)是根據(jù)現(xiàn)有運營時間不斷增加,目前有3 組數(shù)據(jù),分別是1—4 月、1—5 月、1—6 月3 組不同數(shù)據(jù),根據(jù)不同數(shù)據(jù)進行模型訓(xùn)練,不斷增加數(shù)據(jù)量,提升模型準確性。
3.2.2.2 數(shù)據(jù)處理
對數(shù)據(jù)添加字符串索引、數(shù)據(jù)類型轉(zhuǎn)換算子,為數(shù)據(jù)添加設(shè)置角色算子,然后對樣本數(shù)據(jù)進行7∶3 切分,分為訓(xùn)練樣本和測試樣本,具體流程如圖1所示。
圖1 數(shù)據(jù)處理流程圖
3.2.2.3 算法選擇
利用人工智能算法預(yù)測藥劑添加量與進水COD、出水量COD、處理量、其他污染物指標、能耗等多個特征之間的關(guān)聯(lián)關(guān)系,通過對歷史數(shù)據(jù)的學(xué)習(xí),預(yù)測出特定條件下藥劑的添加量。對于機器學(xué)習(xí)而言,可以分為分類、聚類、回歸等分析方法,對本次實驗預(yù)測類型進行評估,分別選擇邏輯回歸、XGBoost 回歸、梯度提升回歸、隨機森林回歸算法進行嘗試,對計算結(jié)果與實際運營數(shù)據(jù)進行對比,然后進行模型預(yù)測準確度性能評估。首先選擇隨機森林回歸算法進行計算,隨機森林是以決策樹為基礎(chǔ)的一種更高級的算法,是目前機器學(xué)習(xí)分類問題中應(yīng)用最廣泛的算法之一。隨機森林是用隨機方式構(gòu)建的一個森林,而這個森林是由很多的相互不關(guān)聯(lián)的決策樹組成。本質(zhì)上屬于機器學(xué)習(xí)的一個分支稱為集成學(xué)習(xí),集成學(xué)習(xí)通過建立幾個模型組合來解決單一預(yù)測問題,它的工作原理是生成多個分類器/模型,各自獨立地學(xué)習(xí)和作出預(yù)測,這些預(yù)測最后結(jié)合成單預(yù)測,因此優(yōu)于任何一個單分類作出預(yù)測,隨機森林可以用于分類、回歸,每個決策樹都有一個自己的結(jié)果,選擇投票數(shù)最多的結(jié)果作為其最終結(jié)果。比如要判斷一個項目能否成功,會根據(jù)項目數(shù)據(jù)的特征生成很多個決策樹,每個決策樹都是獨立的,然后讓每個決策樹對一個項目能否成功進行決策,最后把所有決策樹的投票結(jié)果進行統(tǒng)計,得票最多的就作為該項目的最終計算結(jié)果,這個就是隨機森林的基本算法原理。實驗是想通過水質(zhì)輸入數(shù)據(jù)、處理完成輸出數(shù)據(jù),分析預(yù)測出添加PAC 藥劑的量,所以將進水、出水的特征數(shù)據(jù)作為輸入因子,添加藥劑量作為輸出因子,可以利用回歸算法擬合一個函數(shù),預(yù)測加藥量與輸入量(進水、出水等輸入數(shù)據(jù))之間的關(guān)系。通過XGBoost 回歸算法、隨機森林回歸對化工污水數(shù)據(jù)進行分析,分析預(yù)測結(jié)果如表2、表3 所示。
表2 XGBoost 回歸算法模型結(jié)果
表3 隨機森林回歸模型結(jié)果
3.2.2.4 性能評估
通過模型算法嘗試,然后利用性能回歸對模型進行性能評估,XGBoost 回歸算法及隨機森林回歸算法模型誤差對比如表4 所示。
表4 誤差對比表
3.2.3 模型輸出
訓(xùn)練好的模型,通過打包進行模型輸出,用于發(fā)布APⅠ(應(yīng)用程序編程接口),通過其他程序進行調(diào)用。
3.2.4 模型應(yīng)用
使用測試數(shù)據(jù)、利用PAC 加藥預(yù)測模型,將模擬的數(shù)據(jù)作為輸入數(shù)據(jù),將1—8 月的數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),通過學(xué)習(xí)與訓(xùn)練1—8 月數(shù)據(jù),可以預(yù)測將來需要添加的藥劑量,模型預(yù)測結(jié)果如圖2 所示。將模擬數(shù)據(jù)作為輸入數(shù)據(jù),可以預(yù)測出某種特定條件下PAC藥劑的投加量,基本達到了實驗預(yù)期效果。
圖2 模擬預(yù)測PAC 投加量計算結(jié)果
通過從化工污水處理企業(yè)日常運營過程中獲取原始數(shù)據(jù),然后對原始數(shù)據(jù)進行加工處理,并結(jié)合實際業(yè)務(wù)應(yīng)用場景的可能性進行數(shù)據(jù)特征選擇,設(shè)計數(shù)據(jù)分析場景。由于目前數(shù)據(jù)還不夠完整,數(shù)據(jù)量還不夠豐富,在日常污水處理的可檢測性、實時性等方面還存在很多不足及欠缺,所以本次實驗人為模擬了部分數(shù)據(jù)。利用大數(shù)據(jù)機器學(xué)習(xí)平臺,對數(shù)據(jù)進行分析處理、訓(xùn)練模型、模型測試,最后得到能夠預(yù)測加藥量的最終模型,使用最終訓(xùn)練后模型能夠預(yù)測在特定工廠運行的前提下需要增加的藥劑量。通過本次研究,驗證了化工污水運營數(shù)據(jù)利用現(xiàn)有的大數(shù)據(jù)、人工智能、機器學(xué)習(xí)等工具進行處理和分析的可行性,但是目前運營數(shù)據(jù)積累還比較少,數(shù)據(jù)獲取途徑還比較單一,數(shù)據(jù)結(jié)構(gòu)比較簡單,數(shù)據(jù)量還不夠大,可供測試的樣本用例有限,未來伴隨著企業(yè)數(shù)據(jù)收集手段、方法的不斷更新,運營類型數(shù)據(jù)不斷豐富,可分析場景會不斷增加,耗電、耗水及出水指標、環(huán)保指標等都可以作為分析預(yù)測的對象。通過本次實驗,對環(huán)保大數(shù)據(jù)分析方法、場景進行了有益的嘗試,獲得了較好的預(yù)測效果,但與實際業(yè)務(wù)運營的要求還是存在一定的距離,還需要在實際運營中不斷優(yōu)化完善。