黃黎明,肖久紅,佘春勇,吳陽鋒,張 帥
(1.浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心,310012,杭州;2.浙江財經(jīng)大學(xué)信息管理與工程學(xué)院,310018,杭州)
隨著我國經(jīng)濟的快速發(fā)展以及國家實施積極財政政策,水利工程基礎(chǔ)設(shè)施迎來了投資和建設(shè)高峰期。但由于水利工程施工周期長、建設(shè)難度大、涉及面廣,導(dǎo)致質(zhì)量和安全問題時有發(fā)生,影響了人民群眾生命財產(chǎn)安全。因此,加強水利工程建設(shè)質(zhì)量與安全監(jiān)管工作,改進監(jiān)管工作方法,提升政府監(jiān)管水平,顯得尤為重要和緊迫。
浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心作為省級水利工程質(zhì)量與安全監(jiān)督單位,依托信息化移動技術(shù)在全國率先推出了水利質(zhì)量安全監(jiān)督移動平臺。經(jīng)過一段時間的運行,該平臺積累了大量責(zé)任主體、工程質(zhì)量抽檢、事故調(diào)查處理、監(jiān)督處理依據(jù)等工程監(jiān)管數(shù)據(jù),但數(shù)據(jù)間的相互關(guān)聯(lián)性和模式還沒有被挖掘出來,歷史監(jiān)管數(shù)據(jù)無法為后續(xù)監(jiān)管工作提供有效指引。因此如何利用數(shù)據(jù)挖掘技術(shù)對現(xiàn)有水利工程監(jiān)管數(shù)據(jù)進行分析、挖掘并準確分析潛在的風(fēng)險模式和規(guī)律,以實現(xiàn)監(jiān)管高效化、工具智能化、管理創(chuàng)新化,是目前水利工程建設(shè)質(zhì)量安全監(jiān)管工作中急需解決的難題。
關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的重要方法之一,被廣泛運用于商務(wù)、政務(wù)、金融、醫(yī)療等領(lǐng)域中。本文以浙江省水利工程建設(shè)質(zhì)量安全監(jiān)管據(jù)為對象,運用R編程語言和Apriori關(guān)聯(lián)規(guī)則分析算法,對監(jiān)管數(shù)據(jù)中的主體單位類型、工程等別、工程類別、技術(shù)問題等屬性進行了深度關(guān)聯(lián)規(guī)則挖掘,并根據(jù)關(guān)聯(lián)規(guī)則挖掘結(jié)果對易發(fā)生技術(shù)問題的水利工程有關(guān)屬性進行了分析,最后結(jié)合實際情況對如何加強水利工程質(zhì)量與安全監(jiān)督管理提出了建議。
近年,隨著新一代信息技術(shù)的不斷發(fā)展,從海量數(shù)據(jù)中提取隱含的、具有潛在價值的信息或規(guī)律的數(shù)據(jù)挖掘技術(shù),在諸多領(lǐng)域得到了廣泛應(yīng)用。關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的重要方法之一,成為國內(nèi)外許多學(xué)者研究的熱點。Qodmanan等學(xué)者提出了一種基于遺傳算法的柔性關(guān)聯(lián)規(guī)則挖掘方法,該方法采用多目標適應(yīng)度代替支持度和置信度來評價規(guī)則。Beiranvand等學(xué)者提出采用多目標粒子群優(yōu)化算法和多目標透視求解數(shù)值關(guān)聯(lián)規(guī)則挖掘問題。國內(nèi)學(xué)者方匡南、謝邦昌就缺失數(shù)據(jù)處理問題,提出了利用聚類和關(guān)聯(lián)規(guī)則挖掘出關(guān)聯(lián)性來填補缺失數(shù)據(jù)。劉帥、楊英杰等人提出了一種基于改進模糊遺傳算法的關(guān)聯(lián)規(guī)則挖掘方法,拓寬了關(guān)聯(lián)規(guī)則的挖掘范圍,提高了算法效率。
針對政府安全監(jiān)督管理問題,國內(nèi)學(xué)者研究成果較為突出。韓紅旗提出了在水利工程管理中使用數(shù)據(jù)挖掘技術(shù),建立一個適合水利工程管理的模型。晁鳳英、杜樹新提出運用數(shù)據(jù)挖掘方法發(fā)現(xiàn)食品安全檢測數(shù)據(jù)中隱含的關(guān)聯(lián)規(guī)則,為食品安全監(jiān)管提供了決策支持,提高了監(jiān)管效率。王艷亮提出了利用數(shù)據(jù)挖掘技術(shù)建立包括監(jiān)管部門、礦山企業(yè)及基層職工三層結(jié)構(gòu)的礦山企業(yè)安全監(jiān)管信息系統(tǒng)模型。區(qū)晶瑩等學(xué)者認為數(shù)據(jù)挖掘技術(shù)可以從大量農(nóng)產(chǎn)品質(zhì)量安全監(jiān)督數(shù)據(jù)中提取有效信息,從而為政府監(jiān)管決策服務(wù)。
綜上所述,學(xué)者們的前期相關(guān)研究為本文研究奠定了基礎(chǔ),將關(guān)聯(lián)規(guī)則挖掘技術(shù)與水利工程建設(shè)質(zhì)量安全監(jiān)管相結(jié)合以獲得潛在的、有價值的風(fēng)險模式和規(guī)律,是提升水利工程建設(shè)質(zhì)量安全監(jiān)管工作效率和水平的有效手段。
本次實驗數(shù)據(jù)來自浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心,共21 000條記錄。數(shù)據(jù)中包含了主體單位類型、工程地點、工程等別、工程性質(zhì)、工程用途、工程類別、建設(shè)狀態(tài)、總投資、問題描述和技術(shù)問題共10個屬性。
本次實驗采用Apriori算法進行關(guān)聯(lián)規(guī)則挖掘。Apriori算法是一種經(jīng)典的通過生成布爾型關(guān)聯(lián)規(guī)則頻繁項集以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,其過程可以分為兩個步驟:
(1)通過迭代檢索出數(shù)據(jù)庫中的所有頻繁項集,項集支持度不低于設(shè)定的最小閾值。
(2)利用頻繁項集構(gòu)造出滿足最小置信度的規(guī)則。
Apriori算法包含了支持度、置信度和提升度三個重要概念。
假設(shè)I={i1,i2, …,im} 是m個項(item)組成的集合。關(guān)聯(lián)規(guī)則是形如“A=>B”的蘊含式,其中A和B滿足A∈I,B∈I,且:
①支持度 (Support):表示項集{A,B}在總項集I中出現(xiàn)的概率,即P(A∪B),如公式1所示。其中,num(A∪B)表示含有項集{A,B}的個數(shù),num(I)表示總項集的個數(shù)。
②置信度(Confidence):表示在含有A 的項集中, 含有B 的可能性,即條件概率P(B/A),如公式2 所示。其中,P(A)表示A 總體發(fā)生的概率。
(3)提升度(Lift):表示含有 A 的條件下,同時含有B的概率與B總體發(fā)生的概率之比,如公式3所示。Lift>1表示A與B正相關(guān),Lift=1表示A與B相互獨立,Lift<1表示A與B負相關(guān)。
為了提高實驗的準確度,挖掘出對水利工程監(jiān)管工作人員有輔助決策作用的關(guān)聯(lián)規(guī)則,首先去除了存在錯誤輸入和空缺的數(shù)據(jù)記錄。同時根據(jù)工程項目所在地,將工程地點歸類為浙江省11個地級市。根據(jù)數(shù)據(jù)分布情況,將“總投資”屬性的值離散化為“小規(guī)模”“中規(guī)?!焙汀按笠?guī)?!? 個等級,以符合關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)類型需要,如表1所示。最后根據(jù)“問題描述”屬性對技術(shù)問題進行合并歸類,共劃分為50個問題類別。表2和表3分別部分列出用于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的技術(shù)問題類別描述和實驗數(shù)據(jù)。
分別指定50類問題作為規(guī)則的后項,然后通過編寫R語言程序并調(diào)用arules程序包Apriori關(guān)聯(lián)規(guī)則算法進行數(shù)據(jù)挖掘,以找出工程屬性與工程所存在技術(shù)問題之間的關(guān)聯(lián)性規(guī)則。為了保留更多關(guān)聯(lián)規(guī)則供后續(xù)挑選,設(shè)置最小支持度和最小置信度分別為0.003和0.1。考慮到挖掘出的關(guān)聯(lián)規(guī)則中以涉及問題40(施工用電不規(guī)范)和問題46(安全警示標志設(shè)置不符合規(guī)范要求)的規(guī)則居多,本文針對這兩類問題的關(guān)聯(lián)規(guī)則進行重點分析。
圖1是以問題40和46為后項的關(guān)聯(lián)規(guī)則散點圖。X軸和Y軸分別代表支持度值和置信度值。圖中的每一個小方塊代表一條關(guān)聯(lián)規(guī)則,小方塊的顏色代表提升度值,顏色越深,提升度值越大。由圖1可知,大部分關(guān)聯(lián)規(guī)則的置信度處在0.15~0.3之間,提升度大多高于1.5,表明挖掘出的關(guān)聯(lián)規(guī)則具有一定的實際指導(dǎo)意義。圖2是以問題40和46為后項的部分關(guān)聯(lián)規(guī)則的可視化圖。圖2中,圓的大小代表支持度值,顏色代表提升度值。圓越大表示支持度值越大,圓的顏色越深表示提升度值越大。從圖2中可以看到“{工程類別=農(nóng)水,工程用途=灌溉,工程地點=衢州市}=>{技術(shù)問題=46}”規(guī)則的支持度大且提升度高于2.5,表明衢州市用于灌溉的農(nóng)水類工程出現(xiàn) “安全警示標志設(shè)置不符合規(guī)范要求”問題的可能性很大,在進行水利工程質(zhì)量監(jiān)管時要重點關(guān)注。
表1 “總投資”類別的范圍區(qū)間設(shè)定
表2 技術(shù)問題類別描述(部分)
表4展現(xiàn)的是從挖掘結(jié)果中篩選出的部分具有代表性的關(guān)聯(lián)規(guī)則。其中規(guī)則1的提升度高達2.5649,表明相對于其他工程,金華市用于防洪的河道類工程出現(xiàn) “砌塊施工不滿足設(shè)計及規(guī)范要求”問題的概率顯著提升。其原因可能是用于防洪的河道類工程采用砌筑工藝易出現(xiàn)砌筑未按照施工方案施工、土方超挖欠挖和伸縮縫設(shè)置不符合設(shè)計要求等問題。規(guī)則4和規(guī)則6是同類工程出現(xiàn)不同技術(shù)問題的關(guān)聯(lián)規(guī)則。通過比較支持度值和置信度值,可以看出嘉興市農(nóng)水類工程的施工單位出現(xiàn) “安全警示標志設(shè)置不符合規(guī)范要求”問題的概率更高,監(jiān)管工作人員針對該類工程進行監(jiān)管時,要予以特別關(guān)注。實際分析中看到,規(guī)則6的提升度略大于1,表明該規(guī)則幾乎沒有實際應(yīng)用價值;而規(guī)則4的提升度達到1.6879,表明該規(guī)則具有較好的實際應(yīng)用價值,能為水利工程建設(shè)質(zhì)量安全監(jiān)管提供指導(dǎo)意義。
表3 實驗數(shù)據(jù)(部分)
圖1 以問題40和46為后項的關(guān)聯(lián)規(guī)則散點圖
圖2 以問題40和46為后項的關(guān)聯(lián)規(guī)則可視化圖(部分)
本文采用關(guān)聯(lián)規(guī)則挖掘方法和Apriori算法探究水利工程各種屬性與可能存在技術(shù)問題之間的隱含聯(lián)系。借助挖掘出的關(guān)聯(lián)規(guī)則可以有效輔助政府部門加強水利工程建設(shè)質(zhì)量安全監(jiān)管工作,提高監(jiān)管效率。如針對嘉興市農(nóng)水類工程施工單位,水利監(jiān)管人員需要重點檢查“工程安全警示標志設(shè)置是否符合規(guī)范要求”問題;針對杭州市新建引調(diào)水類工程,水利監(jiān)管人員需要重點檢查工程是否出現(xiàn)“施工用電不規(guī)范”問題。
表4 實驗結(jié)果中具有代表性的關(guān)聯(lián)規(guī)則(部分)
本次實驗過程中仍存在一些局限性。例如,由于浙江省水利質(zhì)量安全監(jiān)督移動平臺運行年份不長,獲取的數(shù)據(jù)量有限,導(dǎo)致挖掘的關(guān)聯(lián)規(guī)則準確度有待提升。在后續(xù)的研究中,將考慮把關(guān)聯(lián)規(guī)則挖掘與啟發(fā)式算法或其他數(shù)據(jù)挖掘技術(shù)相結(jié)合,以進一步提升數(shù)據(jù)挖掘的精度和準確度。 ■