国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)規(guī)則的水利工程建設(shè)質(zhì)量安全監(jiān)管數(shù)據(jù)挖掘與分析

2018-12-15 05:31黃黎明肖久紅佘春勇吳陽鋒
中國水利 2018年22期
關(guān)鍵詞:度值置信度數(shù)據(jù)挖掘

黃黎明,肖久紅,佘春勇,吳陽鋒,張 帥

(1.浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心,310012,杭州;2.浙江財經(jīng)大學(xué)信息管理與工程學(xué)院,310018,杭州)

一、背景和意義

隨著我國經(jīng)濟的快速發(fā)展以及國家實施積極財政政策,水利工程基礎(chǔ)設(shè)施迎來了投資和建設(shè)高峰期。但由于水利工程施工周期長、建設(shè)難度大、涉及面廣,導(dǎo)致質(zhì)量和安全問題時有發(fā)生,影響了人民群眾生命財產(chǎn)安全。因此,加強水利工程建設(shè)質(zhì)量與安全監(jiān)管工作,改進監(jiān)管工作方法,提升政府監(jiān)管水平,顯得尤為重要和緊迫。

浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心作為省級水利工程質(zhì)量與安全監(jiān)督單位,依托信息化移動技術(shù)在全國率先推出了水利質(zhì)量安全監(jiān)督移動平臺。經(jīng)過一段時間的運行,該平臺積累了大量責(zé)任主體、工程質(zhì)量抽檢、事故調(diào)查處理、監(jiān)督處理依據(jù)等工程監(jiān)管數(shù)據(jù),但數(shù)據(jù)間的相互關(guān)聯(lián)性和模式還沒有被挖掘出來,歷史監(jiān)管數(shù)據(jù)無法為后續(xù)監(jiān)管工作提供有效指引。因此如何利用數(shù)據(jù)挖掘技術(shù)對現(xiàn)有水利工程監(jiān)管數(shù)據(jù)進行分析、挖掘并準確分析潛在的風(fēng)險模式和規(guī)律,以實現(xiàn)監(jiān)管高效化、工具智能化、管理創(chuàng)新化,是目前水利工程建設(shè)質(zhì)量安全監(jiān)管工作中急需解決的難題。

關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的重要方法之一,被廣泛運用于商務(wù)、政務(wù)、金融、醫(yī)療等領(lǐng)域中。本文以浙江省水利工程建設(shè)質(zhì)量安全監(jiān)管據(jù)為對象,運用R編程語言和Apriori關(guān)聯(lián)規(guī)則分析算法,對監(jiān)管數(shù)據(jù)中的主體單位類型、工程等別、工程類別、技術(shù)問題等屬性進行了深度關(guān)聯(lián)規(guī)則挖掘,并根據(jù)關(guān)聯(lián)規(guī)則挖掘結(jié)果對易發(fā)生技術(shù)問題的水利工程有關(guān)屬性進行了分析,最后結(jié)合實際情況對如何加強水利工程質(zhì)量與安全監(jiān)督管理提出了建議。

二、國內(nèi)外研究現(xiàn)狀

近年,隨著新一代信息技術(shù)的不斷發(fā)展,從海量數(shù)據(jù)中提取隱含的、具有潛在價值的信息或規(guī)律的數(shù)據(jù)挖掘技術(shù),在諸多領(lǐng)域得到了廣泛應(yīng)用。關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的重要方法之一,成為國內(nèi)外許多學(xué)者研究的熱點。Qodmanan等學(xué)者提出了一種基于遺傳算法的柔性關(guān)聯(lián)規(guī)則挖掘方法,該方法采用多目標適應(yīng)度代替支持度和置信度來評價規(guī)則。Beiranvand等學(xué)者提出采用多目標粒子群優(yōu)化算法和多目標透視求解數(shù)值關(guān)聯(lián)規(guī)則挖掘問題。國內(nèi)學(xué)者方匡南、謝邦昌就缺失數(shù)據(jù)處理問題,提出了利用聚類和關(guān)聯(lián)規(guī)則挖掘出關(guān)聯(lián)性來填補缺失數(shù)據(jù)。劉帥、楊英杰等人提出了一種基于改進模糊遺傳算法的關(guān)聯(lián)規(guī)則挖掘方法,拓寬了關(guān)聯(lián)規(guī)則的挖掘范圍,提高了算法效率。

針對政府安全監(jiān)督管理問題,國內(nèi)學(xué)者研究成果較為突出。韓紅旗提出了在水利工程管理中使用數(shù)據(jù)挖掘技術(shù),建立一個適合水利工程管理的模型。晁鳳英、杜樹新提出運用數(shù)據(jù)挖掘方法發(fā)現(xiàn)食品安全檢測數(shù)據(jù)中隱含的關(guān)聯(lián)規(guī)則,為食品安全監(jiān)管提供了決策支持,提高了監(jiān)管效率。王艷亮提出了利用數(shù)據(jù)挖掘技術(shù)建立包括監(jiān)管部門、礦山企業(yè)及基層職工三層結(jié)構(gòu)的礦山企業(yè)安全監(jiān)管信息系統(tǒng)模型。區(qū)晶瑩等學(xué)者認為數(shù)據(jù)挖掘技術(shù)可以從大量農(nóng)產(chǎn)品質(zhì)量安全監(jiān)督數(shù)據(jù)中提取有效信息,從而為政府監(jiān)管決策服務(wù)。

綜上所述,學(xué)者們的前期相關(guān)研究為本文研究奠定了基礎(chǔ),將關(guān)聯(lián)規(guī)則挖掘技術(shù)與水利工程建設(shè)質(zhì)量安全監(jiān)管相結(jié)合以獲得潛在的、有價值的風(fēng)險模式和規(guī)律,是提升水利工程建設(shè)質(zhì)量安全監(jiān)管工作效率和水平的有效手段。

三、本次實驗的數(shù)據(jù)來源和方法

1.數(shù)據(jù)來源

本次實驗數(shù)據(jù)來自浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心,共21 000條記錄。數(shù)據(jù)中包含了主體單位類型、工程地點、工程等別、工程性質(zhì)、工程用途、工程類別、建設(shè)狀態(tài)、總投資、問題描述和技術(shù)問題共10個屬性。

2.Apriori關(guān)聯(lián)規(guī)則

本次實驗采用Apriori算法進行關(guān)聯(lián)規(guī)則挖掘。Apriori算法是一種經(jīng)典的通過生成布爾型關(guān)聯(lián)規(guī)則頻繁項集以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,其過程可以分為兩個步驟:

(1)通過迭代檢索出數(shù)據(jù)庫中的所有頻繁項集,項集支持度不低于設(shè)定的最小閾值。

(2)利用頻繁項集構(gòu)造出滿足最小置信度的規(guī)則。

Apriori算法包含了支持度、置信度和提升度三個重要概念。

假設(shè)I={i1,i2, …,im} 是m個項(item)組成的集合。關(guān)聯(lián)規(guī)則是形如“A=>B”的蘊含式,其中A和B滿足A∈I,B∈I,且:

①支持度 (Support):表示項集{A,B}在總項集I中出現(xiàn)的概率,即P(A∪B),如公式1所示。其中,num(A∪B)表示含有項集{A,B}的個數(shù),num(I)表示總項集的個數(shù)。

②置信度(Confidence):表示在含有A 的項集中, 含有B 的可能性,即條件概率P(B/A),如公式2 所示。其中,P(A)表示A 總體發(fā)生的概率。

(3)提升度(Lift):表示含有 A 的條件下,同時含有B的概率與B總體發(fā)生的概率之比,如公式3所示。Lift>1表示A與B正相關(guān),Lift=1表示A與B相互獨立,Lift<1表示A與B負相關(guān)。

四、本次實驗設(shè)計與分析

1.數(shù)據(jù)預(yù)處理

為了提高實驗的準確度,挖掘出對水利工程監(jiān)管工作人員有輔助決策作用的關(guān)聯(lián)規(guī)則,首先去除了存在錯誤輸入和空缺的數(shù)據(jù)記錄。同時根據(jù)工程項目所在地,將工程地點歸類為浙江省11個地級市。根據(jù)數(shù)據(jù)分布情況,將“總投資”屬性的值離散化為“小規(guī)模”“中規(guī)?!焙汀按笠?guī)?!? 個等級,以符合關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)類型需要,如表1所示。最后根據(jù)“問題描述”屬性對技術(shù)問題進行合并歸類,共劃分為50個問題類別。表2和表3分別部分列出用于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的技術(shù)問題類別描述和實驗數(shù)據(jù)。

2.實驗結(jié)果與分析

分別指定50類問題作為規(guī)則的后項,然后通過編寫R語言程序并調(diào)用arules程序包Apriori關(guān)聯(lián)規(guī)則算法進行數(shù)據(jù)挖掘,以找出工程屬性與工程所存在技術(shù)問題之間的關(guān)聯(lián)性規(guī)則。為了保留更多關(guān)聯(lián)規(guī)則供后續(xù)挑選,設(shè)置最小支持度和最小置信度分別為0.003和0.1。考慮到挖掘出的關(guān)聯(lián)規(guī)則中以涉及問題40(施工用電不規(guī)范)和問題46(安全警示標志設(shè)置不符合規(guī)范要求)的規(guī)則居多,本文針對這兩類問題的關(guān)聯(lián)規(guī)則進行重點分析。

圖1是以問題40和46為后項的關(guān)聯(lián)規(guī)則散點圖。X軸和Y軸分別代表支持度值和置信度值。圖中的每一個小方塊代表一條關(guān)聯(lián)規(guī)則,小方塊的顏色代表提升度值,顏色越深,提升度值越大。由圖1可知,大部分關(guān)聯(lián)規(guī)則的置信度處在0.15~0.3之間,提升度大多高于1.5,表明挖掘出的關(guān)聯(lián)規(guī)則具有一定的實際指導(dǎo)意義。圖2是以問題40和46為后項的部分關(guān)聯(lián)規(guī)則的可視化圖。圖2中,圓的大小代表支持度值,顏色代表提升度值。圓越大表示支持度值越大,圓的顏色越深表示提升度值越大。從圖2中可以看到“{工程類別=農(nóng)水,工程用途=灌溉,工程地點=衢州市}=>{技術(shù)問題=46}”規(guī)則的支持度大且提升度高于2.5,表明衢州市用于灌溉的農(nóng)水類工程出現(xiàn) “安全警示標志設(shè)置不符合規(guī)范要求”問題的可能性很大,在進行水利工程質(zhì)量監(jiān)管時要重點關(guān)注。

表1 “總投資”類別的范圍區(qū)間設(shè)定

表2 技術(shù)問題類別描述(部分)

表4展現(xiàn)的是從挖掘結(jié)果中篩選出的部分具有代表性的關(guān)聯(lián)規(guī)則。其中規(guī)則1的提升度高達2.5649,表明相對于其他工程,金華市用于防洪的河道類工程出現(xiàn) “砌塊施工不滿足設(shè)計及規(guī)范要求”問題的概率顯著提升。其原因可能是用于防洪的河道類工程采用砌筑工藝易出現(xiàn)砌筑未按照施工方案施工、土方超挖欠挖和伸縮縫設(shè)置不符合設(shè)計要求等問題。規(guī)則4和規(guī)則6是同類工程出現(xiàn)不同技術(shù)問題的關(guān)聯(lián)規(guī)則。通過比較支持度值和置信度值,可以看出嘉興市農(nóng)水類工程的施工單位出現(xiàn) “安全警示標志設(shè)置不符合規(guī)范要求”問題的概率更高,監(jiān)管工作人員針對該類工程進行監(jiān)管時,要予以特別關(guān)注。實際分析中看到,規(guī)則6的提升度略大于1,表明該規(guī)則幾乎沒有實際應(yīng)用價值;而規(guī)則4的提升度達到1.6879,表明該規(guī)則具有較好的實際應(yīng)用價值,能為水利工程建設(shè)質(zhì)量安全監(jiān)管提供指導(dǎo)意義。

表3 實驗數(shù)據(jù)(部分)

圖1 以問題40和46為后項的關(guān)聯(lián)規(guī)則散點圖

圖2 以問題40和46為后項的關(guān)聯(lián)規(guī)則可視化圖(部分)

五、結(jié) 語

本文采用關(guān)聯(lián)規(guī)則挖掘方法和Apriori算法探究水利工程各種屬性與可能存在技術(shù)問題之間的隱含聯(lián)系。借助挖掘出的關(guān)聯(lián)規(guī)則可以有效輔助政府部門加強水利工程建設(shè)質(zhì)量安全監(jiān)管工作,提高監(jiān)管效率。如針對嘉興市農(nóng)水類工程施工單位,水利監(jiān)管人員需要重點檢查“工程安全警示標志設(shè)置是否符合規(guī)范要求”問題;針對杭州市新建引調(diào)水類工程,水利監(jiān)管人員需要重點檢查工程是否出現(xiàn)“施工用電不規(guī)范”問題。

表4 實驗結(jié)果中具有代表性的關(guān)聯(lián)規(guī)則(部分)

本次實驗過程中仍存在一些局限性。例如,由于浙江省水利質(zhì)量安全監(jiān)督移動平臺運行年份不長,獲取的數(shù)據(jù)量有限,導(dǎo)致挖掘的關(guān)聯(lián)規(guī)則準確度有待提升。在后續(xù)的研究中,將考慮把關(guān)聯(lián)規(guī)則挖掘與啟發(fā)式算法或其他數(shù)據(jù)挖掘技術(shù)相結(jié)合,以進一步提升數(shù)據(jù)挖掘的精度和準確度。 ■

猜你喜歡
度值置信度數(shù)據(jù)挖掘
探討公路項目路基連續(xù)壓實質(zhì)量檢測技術(shù)
置信度輔助特征增強的視差估計網(wǎng)絡(luò)
一種基于定位置信度預(yù)測的二階段目標檢測方法
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
基于空間句法的沈陽市北陵公園可達性分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
微博網(wǎng)絡(luò)較大度值用戶特征分析
平凉市| 宁化县| 达孜县| 五寨县| 泾阳县| 邵武市| 冀州市| 兴义市| 秭归县| 双柏县| 岫岩| 梨树县| 河西区| 新邵县| 台中县| 吕梁市| 黎城县| 安徽省| 宜宾县| 江孜县| 夏河县| 苍溪县| 龙川县| 来安县| 曲周县| 承德县| 仁布县| 淮北市| 化隆| 潜江市| 通榆县| 攀枝花市| 布尔津县| 湘阴县| 迭部县| 杭州市| 夏邑县| 内江市| 华容县| 新泰市| 余庆县|