■ 張俊杰
近年來,大數(shù)據(jù)快速興起。它和人工智能、云計(jì)算一起,成為智慧水務(wù)技術(shù)創(chuàng)新的一種標(biāo)志。但是能夠正確理解、認(rèn)識(shí)、應(yīng)用大數(shù)據(jù),把大數(shù)據(jù)挖掘真正應(yīng)用于生產(chǎn)經(jīng)營(yíng)和產(chǎn)銷差控制中的,卻寥寥無幾。原因是人們對(duì)大數(shù)據(jù)的認(rèn)識(shí)還停留在簡(jiǎn)單、膚淺的概念上,根本就沒掌握大數(shù)據(jù)的精髓和本質(zhì)。大數(shù)據(jù)本質(zhì)是為了獲取規(guī)律和見解,與獲取收集的數(shù)據(jù)量無關(guān),與數(shù)據(jù)是否恰當(dāng)、正確有關(guān)。因此,非常有必要對(duì)大數(shù)據(jù)的恰當(dāng)性和正確性進(jìn)行探討和研究,以便為未來大數(shù)據(jù)的挖掘和應(yīng)用提供一種嶄新的視野。
大數(shù)據(jù)(big data)是一個(gè)寬泛的概念,大數(shù)據(jù)不是數(shù)據(jù)大,這一點(diǎn)是公認(rèn)的。大數(shù)據(jù)本質(zhì)和精髓在于價(jià)值,而不是體量和規(guī)模。因此,辯證地看待大數(shù)據(jù)的體量才是科學(xué)的。就水務(wù)行業(yè)而言,大數(shù)據(jù)存在著數(shù)據(jù)體量不夠大、數(shù)據(jù)冗余、數(shù)據(jù)品質(zhì)差等諸多問題。因此,有必要對(duì)當(dāng)前水務(wù)大數(shù)據(jù)的現(xiàn)狀進(jìn)行分析。
圖1 水務(wù)大數(shù)據(jù)架構(gòu)圖
不論從產(chǎn)銷差控制與管理,還是從智慧水務(wù)角度看,水務(wù)大數(shù)據(jù)體量都不夠大。首先,對(duì)水務(wù)大數(shù)據(jù)理解和認(rèn)識(shí)上就有偏差,總以為水務(wù)大數(shù)據(jù)就是水務(wù)行業(yè)本身產(chǎn)生的大數(shù)據(jù),這顯然是欠妥的。從狹義上講,水務(wù)大數(shù)據(jù)是指水廠、生產(chǎn)、調(diào)度、管網(wǎng)、客服、營(yíng)業(yè)、施工、檢漏、搶維修、物資采購等部門,通過調(diào)度系統(tǒng)、壓力監(jiān)測(cè)系統(tǒng)、GIS 管網(wǎng)系統(tǒng)、DMA分區(qū)計(jì)量系統(tǒng)、ERP 資產(chǎn)管理系統(tǒng)、客戶服務(wù)系統(tǒng)、營(yíng)銷系統(tǒng)以及人工臺(tái)賬等各種途徑,采集的實(shí)時(shí)數(shù)據(jù),人工數(shù)據(jù)、電子報(bào)表數(shù)據(jù)集成的海量數(shù)據(jù)。
從狹義上看,只有少量數(shù)據(jù)是實(shí)時(shí)的,只是為滿足某項(xiàng)業(yè)務(wù)需要,缺乏統(tǒng)一的規(guī)劃和設(shè)計(jì),數(shù)據(jù)類型復(fù)雜、多樣存在著很大的局限性,難以滿足和支撐數(shù)據(jù)挖掘、應(yīng)用、決策的需求,導(dǎo)致了數(shù)據(jù)豐富,知識(shí)和信息貧乏的尷尬局面。
從廣義上講,水務(wù)大數(shù)據(jù)除了水務(wù)生產(chǎn)經(jīng)營(yíng)過程中產(chǎn)生的海量數(shù)據(jù)外,還應(yīng)包括與水務(wù)大數(shù)據(jù)緊密關(guān)聯(lián)的行業(yè)、領(lǐng)域以及企業(yè)內(nèi)部行為產(chǎn)生的大數(shù)據(jù)。諸如:電力、燃?xì)狻⑽鬯?、酒店、GOOGLE、高德、百度衛(wèi)星地圖以及年齡結(jié)構(gòu)、區(qū)域消費(fèi)水平、氣候環(huán)境、居民生活習(xí)慣、消費(fèi)行為產(chǎn)生的海量數(shù)據(jù)。
圖2 外部大數(shù)據(jù)架構(gòu)圖
從廣義上看,外部數(shù)據(jù)是滿足了水務(wù)大數(shù)據(jù)“大”的概念,補(bǔ)充和支撐了水務(wù)大數(shù)據(jù)的挖掘、應(yīng)用的需求,甚至對(duì)數(shù)據(jù)挖掘、轉(zhuǎn)化商業(yè)價(jià)值起著決定性的作用。例如,普查燃?xì)夂碗娏?shù)據(jù)地址和用氣量、用電量,對(duì)分析客戶用水量就有著很強(qiáng)的借鑒作用;打擊違章用水,可通過用戶用水量和排水量對(duì)比直接確定其是否存在違章用水等等。說明外部數(shù)據(jù)對(duì)水務(wù)大數(shù)據(jù)挖掘、應(yīng)用極其重要。
大數(shù)據(jù)的冗余和浪費(fèi)是大數(shù)據(jù)挖掘中常見一種現(xiàn)象,是阻撓和影響數(shù)據(jù)挖掘的一種因素,造成了數(shù)據(jù)和時(shí)間、精力的浪費(fèi),甚至有時(shí)候還會(huì)走彎路,受大數(shù)據(jù)的體量“大”的拖累,導(dǎo)致無法從大數(shù)據(jù)中挖掘出規(guī)律,進(jìn)行決策。海量數(shù)據(jù)的冗余根本原因在于盲目追崇大數(shù)據(jù),刻意在數(shù)據(jù)采集端、系統(tǒng)設(shè)計(jì)、開發(fā)上夸大了大數(shù)據(jù)作用,卻把大數(shù)據(jù)本質(zhì)拋諸腦后。諸如:DMA分區(qū)計(jì)量系統(tǒng)、管網(wǎng)壓力監(jiān)控系統(tǒng)以及大表遠(yuǎn)傳系統(tǒng)等諸如此類信息系統(tǒng),把正常半小時(shí)、每小時(shí)采集、發(fā)送1次非要設(shè)計(jì)為每分鐘采集1次,盲目追求數(shù)據(jù)集量級(jí),結(jié)果導(dǎo)致了海量數(shù)據(jù)冗余,給數(shù)據(jù)挖掘人員增加了苦惱。既造成數(shù)據(jù)浪費(fèi),又造成數(shù)據(jù)采集端電池能耗高??傊髷?shù)據(jù)挖掘不應(yīng)取決于數(shù)據(jù)量級(jí),而應(yīng)取決于數(shù)據(jù)恰當(dāng)和正確。
大數(shù)據(jù)的品質(zhì)是大數(shù)據(jù)挖掘最大的攔路虎。原因如下:一是數(shù)據(jù)采集方式多樣,受各種設(shè)備、通訊、人為因素的影響,數(shù)據(jù)失真度,正確性、品質(zhì)太差。諸如通訊中斷、解析錯(cuò)誤,儀表故障、人為失誤、修正、篡改等等,這些因素都是導(dǎo)致數(shù)據(jù)品質(zhì)差的主要因素。二是數(shù)據(jù)管理跟不上,總以為數(shù)據(jù)采集到了就可以挖掘,實(shí)際上這是極其錯(cuò)誤的。基于以上兩種因素,數(shù)據(jù)品質(zhì)即正確性才是大數(shù)據(jù)真正所需要的。數(shù)據(jù)體量再大,倘若品質(zhì)太差,冗余太多,就不具挖掘價(jià)值。因此,數(shù)據(jù)品質(zhì)才是大數(shù)據(jù)挖掘的靈魂。只有從數(shù)據(jù)采集端到數(shù)據(jù)管終端全壽命跟蹤管理數(shù)據(jù)、嚴(yán)控?cái)?shù)據(jù)質(zhì)量,在數(shù)據(jù)管理端實(shí)時(shí)數(shù)據(jù)審計(jì)和跟蹤,才能保障數(shù)據(jù)的品質(zhì)。
恰當(dāng)正確的數(shù)據(jù)是指數(shù)據(jù)集的體量要適當(dāng),能夠充分滿足數(shù)據(jù)挖掘的需求,且數(shù)據(jù)品質(zhì)即數(shù)據(jù)要可靠真實(shí),能夠代表事物發(fā)展的真實(shí)屬性和特征,能夠保證從大數(shù)據(jù)挖掘中尋找到規(guī)律和見解,并準(zhǔn)確地應(yīng)用到生產(chǎn)經(jīng)營(yíng)中,為決策分析,預(yù)測(cè)未來提供目標(biāo)和方向。
對(duì)數(shù)據(jù)挖掘人員來講,如何從海量數(shù)據(jù)中選擇恰當(dāng)、正確的數(shù)據(jù)用于挖掘分析這是個(gè)難題。因?yàn)椋緹o法得知多少量級(jí)的大數(shù)據(jù)才能滿足挖掘的需求。從以往對(duì)水務(wù)大數(shù)據(jù)挖掘經(jīng)驗(yàn)看,除了正常歸類、清洗外,仍有一定規(guī)律可循。首先,根據(jù)挖掘?qū)ο蠛蛻?yīng)用,選擇數(shù)據(jù)集的體量。其次,堅(jiān)持?jǐn)?shù)據(jù)量級(jí)從小到大的原則。假設(shè)一個(gè)或幾個(gè)數(shù)據(jù)能代表和反映事物本質(zhì)就選擇一個(gè)或幾個(gè)數(shù)據(jù)集。倘若無法滿足挖掘需求,則可以逐級(jí)提升數(shù)據(jù)的量級(jí)直到能滿足挖掘需求。最后,在數(shù)據(jù)采集端要控制和減少冗余數(shù)據(jù)產(chǎn)生的根源。比如,壓力監(jiān)測(cè)數(shù)據(jù)每小時(shí)數(shù)據(jù)體量就可以滿足日常監(jiān)測(cè)和數(shù)據(jù)挖掘需求,就沒必要設(shè)置成每1分鐘采集1次,人為造成海量冗余數(shù)據(jù)的產(chǎn)生。
應(yīng)根據(jù)挖掘的對(duì)象和目的選擇適當(dāng)?shù)拇髷?shù)據(jù)體量。有的需要幾TG,有的則需要幾十K、上百K數(shù)據(jù)即可。例如:客服系統(tǒng)數(shù)據(jù)、表具尺寸選型等挖掘則數(shù)據(jù)體量越大越好,而壓力優(yōu)化則要根據(jù)壓力波動(dòng)情況而定。大數(shù)據(jù)挖掘應(yīng)用如圖3所示。
圖3 大數(shù)據(jù)挖掘應(yīng)用圖
為了充分證明恰當(dāng)、正確數(shù)據(jù)才是大數(shù)據(jù)挖掘所需要的。在這里,以某市最不利點(diǎn)的壓力數(shù)據(jù)挖掘應(yīng)用為例。為了便于挖掘、分析,從壓力曲線中找到最不利點(diǎn)壓力的變化規(guī)律,數(shù)據(jù)挖掘人員采用12個(gè)月、連續(xù)24小時(shí)的壓力數(shù)據(jù),結(jié)果發(fā)現(xiàn)數(shù)據(jù)量太大,壓力曲線毫無規(guī)律可循。最后,決定以供水高峰2018年10月壓力數(shù)據(jù)為樣本。最不利點(diǎn)測(cè)壓點(diǎn)數(shù)據(jù)如圖4所示。
圖4 2018年10月二路車總站的圧力曲線
從上面壓力曲線可以看出,壓力曲線變化雜亂無章,毫無規(guī)律和特點(diǎn)。即使在波峰06:0~09:00和波谷23:00~05:00時(shí)段的波峰、波谷壓力曲線都無規(guī)律可循。這還是采用每小時(shí)的壓力數(shù)據(jù)。倘若大數(shù)據(jù)挖掘、分析采用5分鐘、15分鐘的壓力大數(shù)據(jù)分析,壓力曲線的波動(dòng)、變化更大,更難找出規(guī)律??梢?,大數(shù)據(jù)不是數(shù)據(jù)大,更不是每種數(shù)據(jù)都需要海量數(shù)據(jù),有價(jià)值數(shù)據(jù)夠用即可。
為了進(jìn)一步挖掘、分析最不利點(diǎn)管網(wǎng)壓力變化的規(guī)律和特性,大數(shù)據(jù)挖掘人員對(duì)海量的壓力數(shù)據(jù)進(jìn)行了拆解,縮短了壓力數(shù)據(jù)的周期,采用了上、下半月分析的思路,結(jié)果上、下月的壓力曲線呈現(xiàn)了明顯的規(guī)律和特點(diǎn),波峰、波谷的壓力變化顯露無疑。上半月壓力數(shù)據(jù)挖掘分析曲線如圖5所示。
圖5 2018年10月上旬最不利點(diǎn)二路車站圧力曲線
從上半月的壓力大數(shù)據(jù)挖掘曲線看,每天24小時(shí)的波峰、波谷供水時(shí)段與水廠調(diào)壓時(shí)間完全匹配。其中,波峰供水時(shí)段06:00~09:00和17:00~21:00,水廠多開一臺(tái)機(jī)組增壓;反之,波谷時(shí)段夜間22:00~05:00時(shí)段,水廠關(guān)停一臺(tái)機(jī)組或變頻調(diào)壓。另外,下午13:00~15:00花園路泵站高位水池進(jìn)行補(bǔ)水,導(dǎo)致13:00~15:00的管網(wǎng)壓力下降。可見,供水、用水和壓力變化規(guī)律和特點(diǎn)是完全一致的。下半月壓力數(shù)據(jù)挖掘分析曲線如圖6所示。
圖6 2018年11月下旬最不利點(diǎn)二路車總站圧力曲線
通過上、下月測(cè)壓點(diǎn)壓力曲線對(duì)比,波峰、波谷以及波峰、波谷以及13:00~15:00增壓站補(bǔ)水引起的管網(wǎng)壓力曲線變化趨勢(shì)完全吻合。
表具尺寸與選型對(duì)新裝水表是十分困難的,但對(duì)于在服役的水表進(jìn)行大數(shù)據(jù)挖掘分析卻是可行的。計(jì)量人員可通過大數(shù)據(jù)跟蹤、分析用水規(guī)律和特性,結(jié)合水表特性參數(shù)進(jìn)行分析和優(yōu)化。以DN80mm垂直螺翼遠(yuǎn)傳水表為例,從營(yíng)業(yè)系統(tǒng)統(tǒng)計(jì)報(bào)表顯示數(shù)據(jù),全年平均月用量為20865m3/m,平均小時(shí)流量為28.98m3/h,最大流量為41.67m3/h。查詢某品牌的DN80mm垂直螺翼水表的流量參數(shù),常用流量Q3為63m3/h,過載流量為78.75m3/h。如果根據(jù)表具尺寸與選型公式0.2Q3~1.5Q3選型,顯然表具口徑是合適的。
為了進(jìn)一步挖掘分析,保證選型準(zhǔn)確性,采用遠(yuǎn)傳大數(shù)據(jù)進(jìn)行跟蹤和分析,按照恰當(dāng)、正確大數(shù)據(jù)挖掘的原則,從遠(yuǎn)傳系統(tǒng)中采樣了200個(gè)小時(shí)的流量數(shù)據(jù),結(jié)果發(fā)現(xiàn)最大流量為為40.71m3/h,最小流量為0m3/h(系統(tǒng)故障),實(shí)際上最小流量為7.9m3/h,很顯然也滿足尺寸與選型公式0.2Q3~1.5Q3的要求。一段時(shí)間遠(yuǎn)傳流量數(shù)據(jù)圖如圖7所示。
圖7 一段時(shí)間遠(yuǎn)傳實(shí)時(shí)數(shù)據(jù)曲線分析
對(duì)全年每小時(shí)采樣數(shù)據(jù)進(jìn)行清理,剔除掉故障時(shí)段數(shù)據(jù),進(jìn)行進(jìn)一步挖掘分析,結(jié)果發(fā)現(xiàn),在全年運(yùn)行時(shí)間范圍內(nèi)34小時(shí)超多了常用流量63m3/h,2個(gè)小時(shí)超過了過載流量為78.75m3/h,最高流量達(dá)到了118.8m3/h。根據(jù)表具尺寸選型優(yōu)化公式0.2Q3~1.5Q3計(jì)算,顯然最大流量超出了1.5Q3,選型不合理。按照表具尺寸選型公式,應(yīng)該上浮一個(gè)等級(jí)。可見,一年的大數(shù)據(jù)即可滿足表具選型優(yōu)化的要求,沒有必要對(duì)2以上的數(shù)據(jù)挖掘分析。
從表具尺寸與選型案例看,顯然需要大數(shù)據(jù)量級(jí)更大一些,才能滿足表具選型的要求??梢?,大數(shù)據(jù)量級(jí)大小跟挖掘?qū)ο蠛托枨笥嘘P(guān),受大數(shù)據(jù)品質(zhì)影響,而不是由大數(shù)據(jù)本身來決定。
通過正、反兩個(gè)案例分析和論述,證明大數(shù)據(jù)挖掘應(yīng)根據(jù)挖掘的對(duì)象,需求、數(shù)據(jù)品質(zhì)選取。
由此可見,恰當(dāng)、正確的數(shù)據(jù)比數(shù)據(jù)量級(jí)更為重要。只要數(shù)據(jù)的體量、品質(zhì)能夠滿足數(shù)據(jù)挖掘應(yīng)用,滿足尋找規(guī)律和商業(yè)價(jià)值就是當(dāng)之無愧的大數(shù)據(jù)。數(shù)據(jù)挖掘人員要走出“大”的誤區(qū),避免受“大”的拖累。只有滿足挖掘?qū)ο蠛托枨蟮那‘?dāng)、正確、有價(jià)值的數(shù)據(jù)才是真正的大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)本質(zhì)在價(jià)值,而非量級(jí)。