国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在節(jié)水管理中的應(yīng)用

2019-07-29 03:09
長江科學(xué)院院報 2019年7期
關(guān)鍵詞:特征選擇數(shù)據(jù)挖掘波動

(北京大學(xué) 城市與環(huán)境學(xué)院,北京 100080)

1 研究背景

水資源是生產(chǎn)生活中不可或缺的戰(zhàn)略性資源,在促進(jìn)經(jīng)濟(jì)社會可持續(xù)發(fā)展中具有不可替代的作用[1-3]。我國面臨著水資源供需矛盾突出、用水效率不高等問題[4],嚴(yán)峻的水資源形勢迫使我們必須從戰(zhàn)略高度上充分認(rèn)識節(jié)水管理工作的重要性。

目前,我國節(jié)水管理主要面臨著以下問題[5]:在法律法規(guī)層面,可操作性不強(qiáng)、約束力度不大;在政策體制層面,難以形成以經(jīng)濟(jì)化手段為核心的市場管理制度;在計量監(jiān)測層面,缺乏針對性;在產(chǎn)業(yè)結(jié)構(gòu)層面,難以發(fā)揮水資源的調(diào)控作用。節(jié)水管理涉及到的行業(yè)廣泛、主體多元,從工農(nóng)業(yè)用水到生活生態(tài)用水,從企業(yè)單位到機(jī)關(guān)學(xué)校,不同用水主體的行為習(xí)慣和用水特點(diǎn)各不相同[5-6]。因此,節(jié)水管理需要結(jié)合不同主體的用水模式,向有針對性的差異化、精準(zhǔn)化管理轉(zhuǎn)型,從宏觀政策走向微觀手段,從省市政府走向企事業(yè)單位,從“一刀切”方式走向個性化方式。

為滿足節(jié)水管理新需求,水利部于2016年首次在全國開展了企事業(yè)單位的用水監(jiān)控工作,頒布了《國家重點(diǎn)監(jiān)控用水單位名錄》(第一批)[7]。該工作首次從微觀層面和用戶需求角度,客觀考察和評估用水戶的用水狀況,共從全國約800家企事業(yè)單位收集到約26萬個用水?dāng)?shù)據(jù),需采用專門的數(shù)據(jù)分析技術(shù)從中提取節(jié)水管理需要的信息[8-9],為改進(jìn)以后的數(shù)據(jù)采集方式和數(shù)據(jù)采集標(biāo)準(zhǔn)提供理論依據(jù),并為精準(zhǔn)化、差異化節(jié)水管理奠定科學(xué)基礎(chǔ)。

數(shù)據(jù)挖掘是通過對大量數(shù)據(jù)進(jìn)行分析處理,并從中尋找出有意義的模式和有價值的信息的過程[10],具有面向數(shù)據(jù)量巨大、自動或半自動發(fā)現(xiàn)數(shù)據(jù)內(nèi)在聯(lián)系等特點(diǎn)[11]。數(shù)據(jù)挖掘方法包括分類、估計、預(yù)測、聚類等分析模型[12]。數(shù)據(jù)挖掘在水科學(xué)的諸多領(lǐng)域中發(fā)揮著重要作用[13-17],聚類分析能夠在沒有事先定義類別的前提下依據(jù)不同特征將主體劃分為不同類型[9],在用水效率評價、水資源優(yōu)化配置等領(lǐng)域應(yīng)用已較為成熟[18-19],但在用水模式劃分領(lǐng)域的應(yīng)用還相對缺乏。

綜上,考慮到我國節(jié)水管理新需求,本文采用數(shù)據(jù)挖掘技術(shù)處理實(shí)測用水?dāng)?shù)據(jù),提取特征信息,劃分不同用水業(yè)務(wù)群,對精細(xì)化和差異化節(jié)水管理提出針對性建議,為提升水資源配置效率提供更加可靠的科學(xué)依據(jù)。

2 數(shù)據(jù)來源與研究方法

2.1 數(shù)據(jù)來源

本文選用《國家重點(diǎn)監(jiān)控用水單位名錄(第一批)》(以下簡稱《名錄》)中各單位實(shí)際用水?dāng)?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。《名錄》基于水利部發(fā)布的《關(guān)于加強(qiáng)重點(diǎn)監(jiān)控用水單位監(jiān)督管理工作的通知》[7],該通知于2016年發(fā)布,2017年末獲得首批數(shù)據(jù),實(shí)際取得713家單位的用水?dāng)?shù)據(jù)。數(shù)據(jù)集包含各單位的2016年實(shí)際用水量(WU act16)、2016年預(yù)計用水量(WU pre16)以及2017年預(yù)計用水量(WU pre17),數(shù)據(jù)總量共計26.02萬條,2017年及以后數(shù)據(jù)的收集受機(jī)構(gòu)改革影響而暫緩。用水單位行業(yè)分布如圖1所示,用水單位地域分布與各地區(qū)生產(chǎn)總值如圖2所示。

圖1 《名錄》中用水單位行業(yè)分布Fig.1 Industry distribution of water use units inthe monitoring list

圖2 《名錄》中用水單位地域分布與各地區(qū)生產(chǎn)總值Fig.2 Regional distribution of water use units andGDP of each province

《名錄》中單位行業(yè)劃分參考《國民經(jīng)濟(jì)行業(yè)分類》(GB/T 4754—2017)[20]中的二級行業(yè)分類。從圖1和圖2可見,《名錄》中單位行業(yè)類型齊全,電力、石化、鋼鐵、煤炭等高耗水行業(yè)[21]的單位數(shù)量較為豐富,在地域分布上與我國地方發(fā)展水平大體吻合,因此可以認(rèn)為該數(shù)據(jù)在行業(yè)和空間分布上有很強(qiáng)的代表性。本文選用此數(shù)據(jù)能夠從水資源需求取向入手,站在企事業(yè)單位的微觀層面,提取用水特征,從而區(qū)分不同用水模式,為差異化節(jié)水管理提供科學(xué)依據(jù)。

2.2 研究方法

本文采用數(shù)據(jù)挖掘技術(shù)中的聚類分析方法,對不同用水模式進(jìn)行分類、確定不同用水業(yè)務(wù)群,從而進(jìn)行差異化節(jié)水管理。聚類分析是將數(shù)據(jù)集中的樣本劃分為若干個不相交的類或簇,使得類別之外的數(shù)據(jù)差別盡可能大,類別之內(nèi)的數(shù)據(jù)差別盡可能小,是一種不依賴預(yù)先定義類的非監(jiān)督學(xué)習(xí)過程[12]。

由于用水特征與用水模式先前未知,具體算法選用基于DB index準(zhǔn)則進(jìn)行特征選擇的k-means算法。該方法是一種基于非監(jiān)督學(xué)習(xí)的特征選擇方法,試驗(yàn)結(jié)果表明該算法具有時間復(fù)雜性低、執(zhí)行效果好等特點(diǎn)[22]。特征選擇是從原始數(shù)據(jù)中提取特征的過程,選擇效果會直接影響分析模型的性能[23]。

表2 最先篩選出的特征Table 2 First three features selected

注:WSE為2016年實(shí)際用水與2016年預(yù)計用水比率;EW為2017年預(yù)計用水與2016年預(yù)計用水比率;Cv為2016年實(shí)際用水變異系數(shù);字符帶橫線為平均值

2.2.1 DB index準(zhǔn)則

依據(jù)DB index準(zhǔn)則[22]進(jìn)行特征選擇的核心思想是:利用類間距離和類內(nèi)離散度,構(gòu)建DB index作為判斷函數(shù)用于特征選擇,即

(1)

進(jìn)行特征選擇的過程如下:構(gòu)建特征集F,從F中依次刪除一個特征xi1,利用剩余特征計算相應(yīng)的DBk(i)值。當(dāng)DBk(i)最大時證明被刪除的特征xi1對于聚類效果影響程度最大,因而被篩選出來。重復(fù)上一步直至選擇出m個特征,即對全部特征進(jìn)行排序,選擇排序靠前的特征應(yīng)用于聚類模型。

2.2.2 k-means算法

k-means算法針對給定樣本集D={x1,x2,…,xm}和所得類別劃分C={C1,C2,…,Ck}構(gòu)建判別函數(shù)E用于衡量類別內(nèi)部的分散程度,即

(2)

A(k)=(DBk+1-DBk)/DBk。

(3)

當(dāng)使A(k)達(dá)到一個較小的值或接近于0,此時k為合適的類別數(shù)。

3 結(jié)果與討論

將原始用水?dāng)?shù)據(jù)進(jìn)行缺失值補(bǔ)充等數(shù)據(jù)預(yù)處理后,應(yīng)用多項(xiàng)式、指數(shù)函數(shù)、對數(shù)函數(shù)等非線性數(shù)據(jù)變換等手段,提取、構(gòu)建出用水?dāng)?shù)據(jù)的10維特征集,然后基于DB index準(zhǔn)則對特征集進(jìn)行特征選擇,將篩選出來的合適特征應(yīng)用到k-means算法,進(jìn)行用水模式的聚類。其結(jié)果為差異化節(jié)水管理提供科學(xué)依據(jù)。

3.1 計算結(jié)果

3.1.1 特征選擇

特征選擇結(jié)果如表1所示。將特征集輸入,用水類型劃分為5類,即k=5時滿足A(k)最小,以隨機(jī)抽取10%的訓(xùn)練集作為測試樣本,測試的分類結(jié)果與訓(xùn)練集的分類結(jié)果不同(混淆矩陣中非對角線上的值)計為分類錯誤,經(jīng)過多次測試,分類錯誤率趨于0.126 7,驗(yàn)證了該方法在本文數(shù)據(jù)集上的可用性。最先篩選出的特征如表2所示。

表1 特征選擇結(jié)果Table 1 Result of feature selection

注:分類錯誤率=分類錯誤的樣本總數(shù)/(測試樣本總數(shù)×抽取次數(shù))

如表1、表2所示,最先被篩選出來的特征分別是F9,F7,F(xiàn)6。其中:

2016年實(shí)際用水占預(yù)計用水的比率為

WSE=WU act16/WU pre16 ;

(4)

式(4)可從總體上衡量用水單位在2016年實(shí)際節(jié)水情況的現(xiàn)狀特征。

2017年預(yù)計用水占2016年預(yù)計用水比率為

EW=WU pre17/WU pre16 ;

(5)

式(5)可反映出單位綜合考慮了本年度實(shí)際用水情況和對于單位第二年發(fā)展情況的預(yù)計用水量變動情況,也就是單位節(jié)水的愿景特征。

實(shí)際用水量的變異系數(shù)(Cv)為

(6)

式(6)可用于衡量各單位在實(shí)際用水過程中的波動特征。

在F6被提取出后,3個特征涵蓋了數(shù)據(jù)集中的大部分信息,因此可以將其后篩選出的特征進(jìn)行舍棄。計算各個特征之間的相關(guān)系數(shù),形成特征相關(guān)性熱力圖如圖3,圖中顏色越深表示相關(guān)系數(shù)越高。經(jīng)計算3個特征之間的相關(guān)系數(shù)為{0.23,0.31,0.17},相關(guān)性程度不高,在熱力圖上屬于顏色較淺的低谷區(qū),獨(dú)立性強(qiáng)。從物理意義來看,篩選出來的特征可以分別表征重點(diǎn)監(jiān)控用水單位的現(xiàn)狀特征、愿景特征以及波動特征。因此可以認(rèn)為,無論是從信息保留率、特征相關(guān)性,還是從物理意義上來講,特征篩選效果較好,篩選出的特征可用于表征各單位的實(shí)際用水情況。

圖3 特征相關(guān)性熱力圖Fig.3 Heatmap of correlation among features

圖4 用水特征空間分布Fig.4 Regional distribution of the selected three features

結(jié)合表2和圖4,得到現(xiàn)狀特征均值為0.825 4,全國大多數(shù)城市的用水單位將實(shí)際用水量控制在計劃用水量之內(nèi),現(xiàn)狀特征值主要集中在[0.7,0.9];廣西百色、貴州畢節(jié)、西藏昌都等個別西南地區(qū)或有極大值出現(xiàn),節(jié)水能力稍弱。愿景特征均值為0.990 1,全國大多數(shù)單位的愿景特征集中在[0.8,1.0]之間,預(yù)期節(jié)水意愿充足;東北、東南部等個別城市愿景特征稍弱。波動特征均值為0.214 5,多數(shù)單位波動特征集中在[0.1,0.5]之間;東南沿海地區(qū)用水均勻,中西部和部分東北城市用水波動性較高。

3.1.2 用水模式分異

應(yīng)用特征選擇結(jié)果采用k-means算法進(jìn)行聚類,將各用水單位劃分為5種用水模式,F(xiàn)檢驗(yàn)的通過再次驗(yàn)證了聚類結(jié)果的可靠性,聚類結(jié)果如表3。

表3 聚類結(jié)果Table 3 Result of clustering

從表3結(jié)果看出,用水模式被劃分成5種,依據(jù)中心坐標(biāo)的特征值將各用水模式命名為:均衡擴(kuò)張型、均衡緊縮型、集中穩(wěn)定型、波動收縮型和波動擴(kuò)張型。由表4可知:用水模式屬于均衡緊縮型和集中穩(wěn)定型的行業(yè)較少,代表性有待考證;用水類型為波動收縮型的行業(yè)數(shù)量最多,包括黑色金屬冶煉和壓延加工業(yè)、化學(xué)原料和化學(xué)制品制造業(yè)等,該類型包括了大多數(shù)產(chǎn)能過剩的高耗水行業(yè);用水類型屬于波動擴(kuò)張型的行業(yè)有商業(yè)服務(wù)業(yè)、公共設(shè)施管理業(yè)、生物科技與生物化工等。

從圖5用水模式地域分布來看,絕大多數(shù)單位的用水模式是波動收縮型,波動擴(kuò)張型集中在北京、上海、山西、新疆等地,均衡擴(kuò)張型用水單位分布在上海、廣西、江西、青海等地,均衡緊縮型與集中穩(wěn)定型的用水模式在全國范圍內(nèi)分布極少。

表4 各用水模式下的用水單位所屬行業(yè)Table 4 Industries corresponding to each water-usepattern

注:*用水單位的行業(yè)劃分參考《國民經(jīng)濟(jì)行業(yè)分類》(GB/T 4754—2017),個別用水單位業(yè)務(wù)涵蓋多個行業(yè),無法做具體區(qū)分

圖5 用水模式地域分布Fig.5 Regional distribution of water-use pattern

3.2 分析討論

用水特征上,全國大多數(shù)城市的用水單位節(jié)水現(xiàn)狀較好,有一定的預(yù)期節(jié)水意愿,波動特征大體呈現(xiàn)由東南沿海向內(nèi)地增加的趨勢,可能與各地水資源稟賦和降水模式有關(guān)。

用水模式上,絕大多數(shù)單位的用水模式屬于波動收縮型,其次為波動擴(kuò)張型與均衡擴(kuò)張型。從行業(yè)分布來看,波動收縮型主要涵蓋產(chǎn)能過剩的鋼鐵、化工、石化、金屬等高耗水行業(yè),均衡擴(kuò)張型與波動擴(kuò)張型多為高新科技與服務(wù)業(yè)。在地域分布上,由于《名錄》本身在農(nóng)業(yè)、服務(wù)業(yè)的單位數(shù)量分布相對較少,因而全國各地的用水模式構(gòu)成較為單一,沒有明顯的分布規(guī)律。

產(chǎn)業(yè)結(jié)構(gòu)上,農(nóng)業(yè)的用水模式為集中穩(wěn)定型,工業(yè)的用水模式有其他4種用水類型,但主要的用水類型是波動收縮型,服務(wù)業(yè)的用水模式為波動擴(kuò)張型。隨著我國經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)升級,用水模式結(jié)構(gòu)勢必會隨之變化。但由于首批獲得的用水?dāng)?shù)據(jù)在行業(yè)分布、數(shù)據(jù)維度和時間跨度上都不夠豐富,算法本身只能得到一個局部最優(yōu)解而導(dǎo)致數(shù)據(jù)挖掘的結(jié)果具有一定的局限性[22]。因此希望后續(xù)研究能夠在算法選擇和數(shù)據(jù)豐富度方面加以改進(jìn),得到更多維度的用水特征,刻畫出更為完善的用水模式,建立起行業(yè)、產(chǎn)業(yè)結(jié)構(gòu)與用水模式之間更為穩(wěn)定的映射關(guān)系,探究各行業(yè)用水模式發(fā)展變化趨勢,據(jù)此來判斷各單位在所在行業(yè)中用水模式的相對位置,評價各省市用水模式的相對優(yōu)劣,并提出針對性的獎罰措施,為差異化節(jié)水管理提供科學(xué)依據(jù)。

4 結(jié)論與建議

4.1 結(jié) 論

本文結(jié)合我國節(jié)水管理現(xiàn)狀,應(yīng)用數(shù)據(jù)挖掘手段中的聚類分析,對我國首批重點(diǎn)監(jiān)控用水單位的實(shí)際用水?dāng)?shù)據(jù)進(jìn)行了用水特征的提取和用水模式的分異,主要得到以下結(jié)論:

(1)利用基于DB index準(zhǔn)則進(jìn)行特征選擇的k-means算法進(jìn)行用水?dāng)?shù)據(jù)的聚類分析,當(dāng)分類數(shù)k=5時,A(k) 最小。經(jīng)多次測試,穩(wěn)定的分類錯誤率較低,驗(yàn)證算法可用。

(2)最先篩選出3個特征為:現(xiàn)狀特征(WSE)、愿景特征(EW)、波動特征(Cv)。三者信息保留率高,相關(guān)性低,物理意義明確,可用于表征重點(diǎn)監(jiān)控用水單位的實(shí)際用水情況。除廣西百色、貴州畢節(jié)、西藏昌都等西南個別地區(qū)外,其余地區(qū)節(jié)水現(xiàn)狀較好,現(xiàn)狀特征集中在[0.7,0.9];除東北、東南部分地區(qū)外,多數(shù)地區(qū)預(yù)期節(jié)水意愿充足,愿景特征集中在[0.8,1.0];東南沿海地區(qū)用水相對均勻,中西部和部分東北城市用水波動性較高,波動特征集中在[0.1,0.5]。

(3)應(yīng)用篩選出的用水特征,采用k-means算法進(jìn)行用水模式分異,將各單位劃分成均衡擴(kuò)張型、均衡緊縮型、集中穩(wěn)定型、波動收縮型和波動擴(kuò)張型5種用水模式。其中波動收縮型在全國的分布數(shù)量最高,除個別行業(yè)以外,該用水模式涵蓋了大多數(shù)產(chǎn)能過剩的高耗水行業(yè),而波動擴(kuò)張型與均衡擴(kuò)張型則涵蓋了大部分高新科技與服務(wù)業(yè)。產(chǎn)業(yè)結(jié)構(gòu)上,農(nóng)業(yè)的用水模式為集中穩(wěn)定型,工業(yè)擁有其他4種用水類型,服務(wù)業(yè)的用水模式為波動擴(kuò)張型。

4.2 節(jié)水管理建議

為促進(jìn)節(jié)水管理向差異化、精準(zhǔn)化管理轉(zhuǎn)型,本文基于上述結(jié)論,結(jié)合不同主體的用水特征與用水模式,對節(jié)水管理提出針對性的建議。

在法律法規(guī)層面,需加強(qiáng)對用水企事業(yè)單位的實(shí)際用水研究,制定需求導(dǎo)向的節(jié)水管理法規(guī),對于不同的用水模式設(shè)立差異化的操作性指標(biāo),提升法規(guī)的可操作性。

在監(jiān)控指標(biāo)層面,設(shè)立針對性考核指標(biāo)與考核周期:對于均衡擴(kuò)張型、均衡緊縮型的行業(yè),適宜設(shè)置月均用水監(jiān)控指標(biāo);對于集中穩(wěn)定型的行業(yè),在每年用水高峰時段進(jìn)行重點(diǎn)監(jiān)控與考核;而對于波動收縮型和波動擴(kuò)張型的行業(yè),采取年度總量控制的監(jiān)控方式更為合適。

在政策體系層面:形成以經(jīng)濟(jì)化手段為核心的市場管理制度??梢岳酶鲉挝挥盟卣?,促使波動特征充足的用水單位與用水穩(wěn)定的單位進(jìn)行用水權(quán)交易,識別現(xiàn)狀特征和意愿特征均較高的單位進(jìn)行精準(zhǔn)定向的稅收優(yōu)惠政策和財政補(bǔ)貼,充分激發(fā)用水單位的節(jié)水熱情。

在產(chǎn)業(yè)結(jié)構(gòu)調(diào)整層面,建立起產(chǎn)業(yè)結(jié)構(gòu)與用水模式的映射關(guān)系,依據(jù)用水模式助力產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,判斷用水模式變化趨勢,使用水模式與創(chuàng)造產(chǎn)值相匹配,逐步提升用水效率,實(shí)現(xiàn)水資源的合理配置與可持續(xù)利用。

猜你喜歡
特征選擇數(shù)據(jù)挖掘波動
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
羊肉價回穩(wěn) 后期不會大幅波動
11月匯市:波動率降低 缺乏方向
微風(fēng)里優(yōu)美地波動
中國化肥信息(2019年3期)2019-04-25
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Kmeans 應(yīng)用與特征選擇
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
章丘市| 金门县| 旬阳县| 高雄县| 比如县| 松溪县| 阿克苏市| 得荣县| 永康市| 黎平县| 淮北市| 潢川县| 庆阳市| 锦州市| 东宁县| 娄烦县| 土默特左旗| 石门县| 广丰县| 湖口县| 繁昌县| 大城县| 芜湖市| 宣武区| 曲松县| 保靖县| 乳源| 射洪县| 古丈县| 建德市| 开江县| 柏乡县| 湖北省| 丹寨县| 万全县| 吴川市| 桑日县| 保山市| 阿坝县| 玉门市| 西畴县|