国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)分析的污染物追蹤預(yù)測(cè)算法*

2023-08-31 08:41:04潘欣玉張孝苗
關(guān)鍵詞:置信度貢獻(xiàn)率監(jiān)測(cè)點(diǎn)

潘欣玉 張孝苗

(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)

1 引言

現(xiàn)階段對(duì)于區(qū)域環(huán)保監(jiān)測(cè)點(diǎn)獲取的污染物數(shù)據(jù),其應(yīng)用主要是計(jì)算空氣污染指數(shù)[1],分析區(qū)域環(huán)境質(zhì)量,獲取污染物排放量[2]等方面。人工智能與大數(shù)據(jù)發(fā)展迅速,基于大數(shù)據(jù)分析方法對(duì)環(huán)保監(jiān)測(cè)點(diǎn)污染物數(shù)據(jù)[3]進(jìn)行主要污染物的提取,能夠追蹤到污染物排放較多的企業(yè)行業(yè)對(duì)其進(jìn)行有效監(jiān)控,為環(huán)境管理部門提供可靠的技術(shù)支持,而且也為大氣污染的預(yù)防奠定了基礎(chǔ)。

現(xiàn)階段針對(duì)獲取的污染物數(shù)據(jù)進(jìn)行關(guān)鍵污染物獲取的方法主要是應(yīng)用計(jì)算Person相關(guān)系數(shù)法[4]或污染分指數(shù)等數(shù)理知識(shí)進(jìn)行,然而此類方法結(jié)論過(guò)于依靠數(shù)據(jù)量情況,準(zhǔn)確性不能得到保證且計(jì)算過(guò)程復(fù)雜通用性不高。目前污染物追蹤工作中,主要有無(wú)人機(jī)遙感監(jiān)測(cè)大氣污染源追蹤定位[5]、PHP源代碼SQL 注入漏洞檢測(cè)方法[6],HYSPLIT 提供的聚類分析工具作聚類分析對(duì)比[7],存在著成本開(kāi)銷較大、精度較低、模式復(fù)雜適用性不高等問(wèn)題。針對(duì)上述問(wèn)題,結(jié)合PCA 算法[8]可在多維數(shù)據(jù)指標(biāo)中進(jìn)行主要成分提取的功能,以及關(guān)聯(lián)規(guī)則算法[9]可挖掘數(shù)據(jù)參數(shù)間關(guān)系的優(yōu)勢(shì)。我們提出了一種基于大數(shù)據(jù)分析污染物追蹤預(yù)測(cè)算法,可結(jié)合本文方法分析結(jié)果比對(duì)區(qū)域中各類型污染企行業(yè)排放物,實(shí)現(xiàn)主要污染物的追蹤預(yù)測(cè)。

2 相關(guān)工作

目前對(duì)于主要污染物的提取工作及追蹤工作主要有降維處理污染物數(shù)據(jù)及采用統(tǒng)計(jì)學(xué)方法計(jì)算空氣污染指數(shù)、Person系數(shù)、平均影響值。SVD[10~11]是一種矩陣奇異值分解技術(shù),Guiqian Liu 等[8]通過(guò)分解技術(shù)所得的低秩矩陣盡可能逼近原始矩陣,使得低維數(shù)據(jù)能夠充分反映原始高維數(shù)據(jù)的主要信息,得到可反映全局污染物信息的主要污染物。葉斯琪等[12]采用統(tǒng)計(jì)學(xué)方法獲得各個(gè)污染物的空氣污染分指數(shù)值,降序排列實(shí)現(xiàn)對(duì)各污染物所占比重的排序從而進(jìn)行主要污染物的提取。平均影響值(MIV)方法[13]通過(guò)計(jì)算各個(gè)污染物的平均影響值也可篩選出對(duì)污染物濃度影響較大的因素。文獻(xiàn)[14]采用的Person相關(guān)系數(shù)法,通過(guò)對(duì)監(jiān)測(cè)點(diǎn)所有監(jiān)測(cè)指標(biāo)數(shù)據(jù)的分析,借助于SPSS 軟件確定每種污染物的相關(guān)度,據(jù)相關(guān)度結(jié)果發(fā)現(xiàn)主要污染物指標(biāo)。

在主要污染物追蹤方面,可運(yùn)用統(tǒng)計(jì)方法和后向軌跡模擬對(duì)所獲數(shù)據(jù)進(jìn)行分析[7],在獲得地區(qū)污染物監(jiān)測(cè)數(shù)據(jù)后,模擬大氣氣團(tuán)后向軌跡以反映污染物在區(qū)域內(nèi)的傳輸特征,利用美國(guó)空氣資源實(shí)驗(yàn)室的HYSPLIT 模型[5]提供的聚類分析工具作聚類分析對(duì)比,分析大氣污染的輸送路徑及特征?;谖灮鹣x(chóng)算法[15~16]的大氣污染源追蹤定位方法[17]是由陳晨等人在2019 年提出的,原理是利用螢火蟲(chóng)算法對(duì)無(wú)人機(jī)遙感監(jiān)測(cè)[18]下污染源進(jìn)行追蹤定位,將螢火蟲(chóng)種群分為無(wú)數(shù)個(gè)單獨(dú)子群,根據(jù)各個(gè)子群之間信息交流找出污染源追蹤查詢最優(yōu)方案,實(shí)現(xiàn)大氣污染源追蹤定位。古添發(fā)等[19]應(yīng)用無(wú)線智能遙感監(jiān)測(cè)大氣污染源追蹤定位系統(tǒng)對(duì)污染物進(jìn)行追蹤溯源,樊東紅等[20]發(fā)明一種基于無(wú)線云傳感網(wǎng)的大氣污染物在線監(jiān)測(cè)系統(tǒng),設(shè)置有用戶終端、無(wú)線云傳感網(wǎng)[21]、系統(tǒng)分析及污染物監(jiān)測(cè)模塊等不同功能模塊,用戶終端通過(guò)訪問(wèn)數(shù)據(jù)總匯終端對(duì)大氣污染狀況及污染物源頭信息進(jìn)行了解控制。

3 基于大數(shù)據(jù)分析的污染物追蹤預(yù)測(cè)算法

本文提出基于大數(shù)據(jù)分析的污染物追蹤預(yù)測(cè)算法,首先對(duì)區(qū)域中主要大氣污染物進(jìn)行提取工作,在提取出區(qū)域主要污染物基礎(chǔ)上對(duì)主要污染物進(jìn)行追蹤。本文基于區(qū)域環(huán)保監(jiān)測(cè)點(diǎn)下真實(shí)數(shù)據(jù),應(yīng)用主成分分析方法(PCA 算法)進(jìn)行主要污染物提取工作,PCA 算法降維后依據(jù)各維度貢獻(xiàn)率大小,選取維度之和大于85%的污染物作為主要污染物,在提取出主要污染物的基礎(chǔ)上應(yīng)用關(guān)聯(lián)規(guī)則算法進(jìn)行關(guān)聯(lián)性發(fā)現(xiàn),定性提取出與主要污染物關(guān)系密切的污染物,定量發(fā)現(xiàn)排放量的關(guān)聯(lián)性。最終結(jié)合分析結(jié)果比對(duì)區(qū)域中各類型污染行業(yè)排放物,進(jìn)行污染物跟蹤。

3.1 基于PCA算法的關(guān)鍵污染物獲取

PCA 算法思想是通過(guò)構(gòu)造由原變量線性組合形成的新變量,使新變量在互不相關(guān)的前提下盡可能多地反映原始變量的信息,每個(gè)新的特征有其獨(dú)特的含義,將n 維特征映射到k 維上(k<n),這k 維特征是全新的正交特征,被稱為主成分。主成分是重新構(gòu)造出來(lái)的k 維特征,而不是簡(jiǎn)單地從n 維特征中去除其余n-k 維特征。每個(gè)新的特征有其獨(dú)特的含義,數(shù)據(jù)信息主要反映在方差上,方差較大的特征維度可以反映主要信息包含在原來(lái)的多個(gè)變量中,通常用累計(jì)方差貢獻(xiàn)率來(lái)衡量。一般選取累計(jì)貢獻(xiàn)率在75%~95%左右的維度作為PCA 降維的參考維度。本文對(duì)實(shí)際環(huán)保監(jiān)測(cè)點(diǎn)的數(shù)據(jù)樣本進(jìn)行主成分分析,環(huán)保監(jiān)測(cè)污染物指標(biāo)總共6種,通過(guò)主成分分析方法確立所有特性指標(biāo)的主成分,選定累計(jì)貢獻(xiàn)率85%作為參考維度,通過(guò)主成分確立出影響該區(qū)域大氣環(huán)境的主要污染物指標(biāo)。

式(1)中cov(Zi,Zj)為指標(biāo)Zi與Zj的協(xié)方差,解相關(guān)性系數(shù)矩陣的特征方程|R-λIm|=0,其中,λ=[λ1,λ2,…,λn] ,將求得的特征值排序,選取的出的主要污染物個(gè)數(shù)取決于累計(jì)方差貢獻(xiàn)率,通常累計(jì)方差貢獻(xiàn)率大于85%時(shí)對(duì)應(yīng)的前p個(gè)主成分便包含m個(gè)原始變量所能提供的絕大部分信息。方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率分別如式(2)、(3):

取前p 個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)成降維后的坐標(biāo)系Vp=[ ]V1,λV2,…,Vp,即主成分分析的解,據(jù)p 個(gè)主成分中特征值的大小,提取出主要污染物。

3.2 基于關(guān)聯(lián)規(guī)則算法的污染物排放量關(guān)聯(lián)性分析

污染物指標(biāo)不僅具有相關(guān)性關(guān)系,在排放量方面也具有關(guān)聯(lián)關(guān)系。為了挖掘這些指標(biāo)排放量的關(guān)聯(lián)關(guān)系,本文使用雙重關(guān)聯(lián)規(guī)則算法來(lái)分析。針對(duì)所獲得的環(huán)保監(jiān)測(cè)數(shù)據(jù)X,首先對(duì)六種環(huán)保指標(biāo)依據(jù)排放量數(shù)值情況進(jìn)行分段處理,將預(yù)處理后的數(shù)據(jù)集進(jìn)行雙重關(guān)聯(lián)規(guī)則關(guān)系發(fā)現(xiàn)。

本文對(duì)環(huán)保指標(biāo)排放量進(jìn)行關(guān)聯(lián)性分析,滿足支持度閾值的參數(shù)形成1_項(xiàng)頻繁關(guān)鍵詞集,支持度公式如下:

sup(a→b)表示關(guān)鍵詞集{a,b}的支持度;P(a∪b)表示關(guān)鍵詞集{a,b}在數(shù)據(jù)集中出現(xiàn)的概率0≤P(a∪b)≤1;num(a∪b)表示關(guān)鍵詞集{a,b}在數(shù)據(jù)集中出現(xiàn)的次數(shù);num(dataset)表示數(shù)據(jù)集中數(shù)據(jù)記錄的個(gè)數(shù)。所以設(shè)置支持度閾值時(shí),相對(duì)置信度而言可以小一點(diǎn),如果支持度閾值過(guò)大則結(jié)果準(zhǔn)確度不高。置信度反映了參數(shù)之間的關(guān)聯(lián)程度,設(shè)置置信度閾值時(shí)盡可能大一點(diǎn)。置信度公式如下:

其中,conf(a→b)表示關(guān)鍵詞集的置信度;P(b|a)表示在數(shù)據(jù)集中關(guān)鍵詞集{a}發(fā)生的情況下關(guān)鍵詞集{a,b}也同時(shí)發(fā)生的條件概率0 ≤P(b|a)≤1。關(guān)聯(lián)規(guī)則集是由所有k_項(xiàng)頻繁關(guān)鍵詞集得到的滿足置信度閾值的所有關(guān)聯(lián)規(guī)則組成的集合即為一個(gè)關(guān)聯(lián)規(guī)則集。若第y 個(gè)關(guān)聯(lián)規(guī)則為a[y]→b[y],則關(guān)聯(lián)規(guī)則集Rules={a[y]→b[y]},其中y=(1,2,…r),r為滿足條件的關(guān)聯(lián)規(guī)則的個(gè)數(shù)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)使用實(shí)際環(huán)保監(jiān)測(cè)數(shù)據(jù),數(shù)據(jù)來(lái)源于同一區(qū)域不同監(jiān)測(cè)點(diǎn)逐時(shí)刻監(jiān)測(cè)結(jié)果,共計(jì)8 個(gè)環(huán)保監(jiān)測(cè)點(diǎn),實(shí)驗(yàn)指標(biāo)有SO2,NO2,CO,O3,PM10,PM2.5六項(xiàng),共有69340條數(shù)據(jù)。

4.2 數(shù)據(jù)預(yù)處理

在進(jìn)行主要污染物提取之前,需對(duì)原始監(jiān)測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以提高后期數(shù)據(jù)分析的效率、準(zhǔn)確度,減少后期算法工作的計(jì)算量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)清洗主要內(nèi)容是去除無(wú)意義數(shù)據(jù)、檢查數(shù)據(jù)一致性、處理重復(fù)數(shù)據(jù);數(shù)據(jù)標(biāo)準(zhǔn)化主要原因是原始數(shù)據(jù)不同指標(biāo)之間數(shù)值尺度差別較大,為較少對(duì)算法結(jié)果影響,采用StandardScaler方法進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,將每一維特征均處理為均值為0方差為1的正態(tài)分布。

4.3 關(guān)鍵污染物獲取分析

應(yīng)用主成分分析法(PCA)對(duì)環(huán)保監(jiān)測(cè)數(shù)據(jù)進(jìn)行主成分提取,結(jié)果如表1所示。

表1 主成分分析后各維度貢獻(xiàn)率

表2 前三維度污染物比重分析

從各維度貢獻(xiàn)率中,可以看到,第一維度特征貢獻(xiàn)率為58.65238% ;第二維度貢獻(xiàn)率為18.100781%;第三個(gè)維度貢獻(xiàn)率為11.176773%;第四維度貢獻(xiàn)率為5.299373%;第五個(gè)維度貢獻(xiàn)率為4.715392%;第六維度貢獻(xiàn)率為2.055301。由六個(gè)維度貢獻(xiàn)率表明,前3 維度累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到87.929934%,大于85%,說(shuō)明這前3 維度特征已經(jīng)可以反映原始數(shù)據(jù)特征的絕大部分信息。

由選定的3 個(gè)主要特征與污染物變量之間的相關(guān)系數(shù)。其中,第一維度中所包含的污染物變量中PM2.5 變量的系數(shù)最大,為0.47035527,所以可以判定PM2.5對(duì)第一維度影響最大,為第一維主因子;第二維度中所包含的污染物變量中O3變量的系數(shù)最大,達(dá)到了0.81195894,所以可以判定O3對(duì)第二維度的影響最大,為第二維主因子;第三維度中所包含的原始變量SO2的系數(shù)最大,達(dá)到了0.90277818,為第三維主因子,可以判定該區(qū)域中主要污染物為PM2.5、O3、SO2。

4.4 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)驗(yàn)證污染物排放量的關(guān)聯(lián)性

首先對(duì)各污染物的數(shù)據(jù)進(jìn)行分段,再設(shè)置支持度10%,置信度50%進(jìn)行關(guān)聯(lián)規(guī)則關(guān)系發(fā)現(xiàn),結(jié)果及出現(xiàn)次數(shù)、支持度如表3所示。

表3 污染物排放量關(guān)聯(lián)關(guān)系表

由 表3 結(jié) 果 可 以 發(fā) 現(xiàn),O3與NO2,PM2.5 與NO2、CO、PM10 均具有較強(qiáng)關(guān)聯(lián)性,基于此污染物間關(guān)聯(lián)性結(jié)果,比對(duì)區(qū)域污染企業(yè)排放物,可實(shí)現(xiàn)污染物的追蹤。

5 結(jié)語(yǔ)

本文提出了一種基于大數(shù)據(jù)分析的污染物追蹤預(yù)測(cè)算法。針對(duì)獲取環(huán)保監(jiān)測(cè)數(shù)據(jù),首先進(jìn)行數(shù)據(jù)預(yù)處理,進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化操作。在關(guān)鍵污染物獲取部分應(yīng)用主成分分析算法對(duì)預(yù)處理后環(huán)保監(jiān)測(cè)數(shù)據(jù)進(jìn)行主成分提取,通過(guò)累計(jì)貢獻(xiàn)率,獲得關(guān)鍵污染物。針對(duì)關(guān)鍵污染物進(jìn)行關(guān)聯(lián)性發(fā)現(xiàn),挖掘出各污染物之間的關(guān)系。最終實(shí)現(xiàn)污染物的追蹤,可有效提高政府在環(huán)境治理中的宏觀調(diào)控能力。

猜你喜歡
置信度貢獻(xiàn)率監(jiān)測(cè)點(diǎn)
天津南港LNG接收站沉降監(jiān)測(cè)點(diǎn)位布設(shè)
煤氣與熱力(2022年4期)2022-05-23 12:44:56
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
撫河流域綜合治理監(jiān)測(cè)布局優(yōu)化
一種通用的裝備體系貢獻(xiàn)率評(píng)估框架
全站儀極坐標(biāo)法監(jiān)測(cè)點(diǎn)穩(wěn)定性分析方法研究
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
關(guān)于裝備體系貢獻(xiàn)率研究的幾點(diǎn)思考
我省舉辦家畜血吸蟲(chóng)病監(jiān)測(cè)點(diǎn)培訓(xùn)班
В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
中亞信息(2016年10期)2016-02-13 02:32:45
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
万宁市| 连南| 遂川县| 九龙坡区| 包头市| 南汇区| 新闻| 武胜县| 沭阳县| 华亭县| 桓台县| 新田县| 新和县| 石首市| 达孜县| 土默特左旗| 新化县| 乐昌市| 龙门县| 广河县| 历史| 长乐市| 如皋市| 拜泉县| 宜兰市| 武清区| 汕尾市| 泰安市| 鸡泽县| 昆明市| 玉环县| 敦煌市| 鹤岗市| 通山县| 南木林县| 长丰县| 阳信县| 西平县| 宁陵县| 岱山县| 丰县|