陳樹芳 李 娟 郭新鵬
(山東省射頻識別應用工程技術研究中心有限公司 濟南 250014)
電梯事故情報類信息數(shù)據挖掘與分析
陳樹芳 李 娟 郭新鵬
(山東省射頻識別應用工程技術研究中心有限公司 濟南 250014)
針對頻繁出現(xiàn)的電梯事故,收集近兩年電梯事故相關的情報類信息數(shù)據,采用統(tǒng)計分析、網絡分析、決策樹分析等數(shù)據分析技術,從時域和空域兩個維度提取電梯事故的發(fā)生時間-區(qū)域-電梯類型-傷人情況-直接原因等元素進行多角度多組合分析,發(fā)現(xiàn)電梯事故的分布規(guī)律以及事故各要素之間的關聯(lián)關系,為電梯事故預防以及相關機構決策提供支持。
電梯 數(shù)據分析 數(shù)據挖掘
隨著國民經濟的快速發(fā)展,電梯在社會生產生活中得到迅速普及,據不完全統(tǒng)計,截至2014年底我國電梯保有量已達到350萬臺。伴隨電梯的大規(guī)模使用,電梯事故越來越頻繁,電梯安全問題成為社會關注的焦點。
為了有效降低電梯事故,眾多專家學者進行了深入研究。王堅[1]、顧徐毅[2]、張偉[3]等從電梯安全評價方法研究入手,以期通過安全評價來提前預防電梯事故;高勇[4]、陳國華[5]、肖北雁[6]等從電梯檢驗檢測的角度出發(fā)探討了電梯事故預防的措施;何毅[7]、賴躍陽[8]、楊柏山[9]等從電梯的使用與管理角度探討了電梯事故與電梯的使用與管理之間的關系??v觀傳統(tǒng)電梯事故預防的研究,研究方向大多集中在電梯本身及電梯的使用與管理上,研究視角基本在微觀領域。如何從宏觀上把握電梯事故的發(fā)生規(guī)律,大數(shù)據分析挖掘技術的出現(xiàn),為電梯事故預防帶來了新的思路。
研究結合大數(shù)據挖掘分析技術[10-12],搜集近兩年全國范圍內關于電梯事故的相關新聞報道信息,提取電梯事故的發(fā)生時間-區(qū)域-電梯類型-傷人情況-直接原因等元素進行多角度數(shù)據分析挖掘,梳理電梯事故在時域和空域上的關聯(lián)規(guī)律,為電梯監(jiān)管機構、使用單位、維保單位提供技術支持。
信息社會的顯著特點是信息量爆炸式的增長,為數(shù)據分析挖掘奠定了基礎。廣義上講,數(shù)據分析挖掘流程主要包括業(yè)務理解、數(shù)據理解、數(shù)據準備、建模、模型評估、部署等環(huán)節(jié),結合研究思路,將工作重點放在數(shù)據準備和數(shù)據分析。將大量非結構化的電梯事故報道數(shù)據結構化是數(shù)據準備環(huán)節(jié)的核心任務,也是進行數(shù)據分析挖掘的前提。
互聯(lián)網的普及為我們搜集掌握大量科研數(shù)據提供了便捷通道,在數(shù)據準備環(huán)節(jié),選擇基于web新聞檢索的方式,收集整理2014年1月至2015年9月關于電梯事故的相關報道進行結構化處理??紤]到采集信息的權威性,在電梯事故信息搜集整理過程中,選擇人民網、新浪、網易、搜狐、騰訊等公眾熟知且具有一定影響力的大型網站作為信息采集源,此處電梯事故指的是包括墜梯、溜梯、沖頂、困人、夾人等在內的所有電梯故障。
1.1 新聞搜索引擎的選擇
使用搜索引擎是從互聯(lián)網快速獲取信息數(shù)據的有效手段。伴隨互聯(lián)網技術的快速發(fā)展,搜索引擎出現(xiàn)多樣化的發(fā)展趨勢,檢索功能不斷完善。目前國內主流綜合性搜索引擎有百度、好搜、搜狗等。在新聞檢索方面,除綜合性搜索引擎外,還出現(xiàn)了新浪新聞檢索、網易新聞檢索等功能型搜索引擎。
在電梯事故數(shù)據準備階段,主要考慮索引范圍、檢索時間段選擇、檢索多選擇等搜索功能,選擇主流搜索引擎為主,新聞類搜索引擎為輔助的信息檢索搜集方式。
對主流搜索引擎和新聞類搜索引擎的選擇主要考慮針對新聞檢索的功能是否完備,見表1,通過對比發(fā)現(xiàn)百度新聞檢索和新浪新聞檢索具有高級搜索定制功能,在結構化數(shù)據搜集整理階段選擇百度新聞高級檢索和新浪新聞高級檢索作為數(shù)據獲取工具。
表1 主流搜索引擎高級檢索功能對比功能搜索引擎 檢索時間范圍位置 結果顯示定制百度 有 有 有好搜 無 無 無搜狗 無 無 無新浪新聞 有 有 有網易新聞 無 無 無
1.2的選擇
選擇合適的檢索詞可以有效提高檢索準確度,擴大檢索覆蓋范圍。在選擇方面,主要考慮意義相近的詞匯進行組合,流程如圖1所示。
圖1 檢索整理流程
主要檢索詞匯示例:
電梯-扶梯-直梯;
事故-故障-墜梯-停機-沖頂-溜梯;
傷人-困人-致死。
1.3 數(shù)據清洗和結構化處理
根據數(shù)據有沒有統(tǒng)一結構可以將數(shù)據分為結構化數(shù)據和非結構化數(shù)據。在數(shù)據分析挖掘領域,研究對象一般是結構化數(shù)據。非結構化數(shù)據很難使用統(tǒng)計挖掘技術進行數(shù)據分析。目前互聯(lián)網上關于電梯事故的相關新聞均為非結構化數(shù)據,為數(shù)據挖掘帶來諸多不便。在完成電梯事故數(shù)據信息搜集之后,需要進行清洗和結構化處理。
根據后期數(shù)據挖掘分析的需要,將每一篇新聞報道按照事故發(fā)生時間、事故區(qū)域、事故電梯類型、傷人情況、直接原因等進行結構化處理,見表2。
表2 數(shù)據結構化處理
數(shù)據清洗的任務主要是剔除無效數(shù)據,對數(shù)據進行一致性檢驗。根據操作對象的不同可以分為機器清洗和人工清洗,研究選擇機器輔助清洗的方式,對電梯事故要素缺少的數(shù)據項以及重復的數(shù)據項進行剔除,并對各要素描述方式進行一致性檢查。
通過數(shù)據清洗和結構化處理,共采集到2014年1月至2015年9月共計169項(845條)有效電梯事故數(shù)據。
選擇spss modeler、excel等輔助分析工具,就電梯事故的發(fā)生區(qū)域分布-時間分布進行統(tǒng)計分析,以期發(fā)現(xiàn)事故規(guī)律及事故要素的內在聯(lián)系。
2.1 事故區(qū)域分布
對全國范圍內電梯事故的發(fā)生區(qū)域分布進行統(tǒng)計,在空域維度進行分析。圖2所示的是區(qū)域-事故頻次分布圖??梢钥闯觯娞菔鹿市侣剤蟮罃?shù)量統(tǒng)計排名前三的區(qū)域是北京、廣東、浙江,后三個區(qū)域為貴州、天津、云南,排除部分干擾項,分析整體規(guī)律,可以看出電梯事故的發(fā)生規(guī)律與區(qū)域發(fā)達程度成正比,發(fā)達地區(qū)電梯使用量高,相應的事故數(shù)也高。電梯事故報道區(qū)域分布分析需要考慮當?shù)厥鹿拾l(fā)生頻次、公眾關注程度等,可以推測事故報道較多的區(qū)域事故發(fā)生次數(shù)較多,且群眾關注度也高。
圖2 電梯事故區(qū)域分布
2.2 事故時間分布
在時域范圍內,對電梯事故發(fā)生趨勢進行統(tǒng)計分析,圖3所示為電梯事故整體趨勢,圖4所示為直梯事故和扶梯事故的發(fā)生趨勢。通過分析可以看出,全國電梯事故整體上成波浪趨勢。其中2014年7月份發(fā)生了湖北荊州扶梯吞人事件,2014年2月份前后是農歷春節(jié),2015年5月份是國際勞動節(jié),可以在一定程度上看出,電梯事故的發(fā)生受到社會公眾的關注、節(jié)假日等因素的影響,進一步分析可以得出,電梯事故與人的不確定因素或許存在密切關系,這與《特種設備 安全管理》[13]一書中關于電梯事故原因分析的觀點相一致。從圖4可以看出,直梯事故比扶梯事故次數(shù)發(fā)生更多,從而可以推測不同類型的電梯事故易發(fā)性不同。接下來將重點針對電梯傷人情況、區(qū)域分布、電梯類型、電梯直接原因等電梯事故主要元素之間的關聯(lián)關系進行深入挖掘分析。
圖3 電梯事故時間分布一
圖4 電梯事故時間分布二
根據上節(jié)關于電梯事故區(qū)域分布和時間分布的統(tǒng)計分析結論,本節(jié)利用網絡分析理論,對電梯傷人情況-電梯類型-事故區(qū)域進行組合,使用spss modeler繪制網絡分析圖,觀察電梯事故中電梯類型、事故原因以及事故區(qū)域之間的關聯(lián)關系。
圖5所示為電梯事故發(fā)生的“電梯類型-傷人情況-地區(qū)”網絡圖,可以看到節(jié)點度較高的有直梯、扶梯、困人、傷人、死人、無傷害等,其中直梯、困人兩個節(jié)點關聯(lián)度達到85,屬于強連接關系??梢钥吹剑陔娞蓊愋头植挤矫?,直梯度數(shù)遠高于扶梯;在傷人情況分布方面,困人情況度數(shù)遠高于其他情況。
表3和表4分別為網絡中的強連接和中等連接,直梯與死人的連接度達到27,說明相對扶梯,直梯更易致人死亡;扶梯與傷人的連接度為21,高于直梯與傷人的連接度,說明扶梯更易使人受傷。
圖5 電梯事故網絡圖
表3 強連接
表4 中等連接
通過網絡分析,發(fā)現(xiàn)電梯類型與電梯傷人情況有著重要的關聯(lián)關系,本節(jié)采用QUEST決策樹算法,以“電梯類型”和“電梯事故直接原因”作為輸入元素,以“傷人情況”作為輸出元素,進一步探究前者與后者之間的關聯(lián)關系。搭建QUEST數(shù)據流如圖6 QUEST數(shù)據流所示。
圖6 QUEST數(shù)據流
設置好QUEST決策樹算法規(guī)則,進行建模分析,如圖7、圖8所示。圖7為“電梯類型”和“事故直接原因”對“傷人情況”的影響重要性對比,可以看出,輸入元素“電梯類型”對輸出元素“傷人情況”的影響權重為0.54,輸入元素“事故直接原因”對輸出元素“傷人情況”的影響權重為0.46,前者影響力更大。
圖7 輸入元素重要性對比
圖8 輸入元素和輸出元素之間的關聯(lián)關系
圖8所示為QUEST決策樹分析模型。其中節(jié)點0為“傷人情況”分布,節(jié)點1和節(jié)點2為影響傷人情況的主要因素,包括直梯和扶梯,其中直梯對“傷人情況”整體貢獻度達到80%,這其中最主要的是困人(61.957%);扶梯對“傷人情況”的整體貢獻度在所有“傷人情況”中困人情況占到了20%,其中最主要的是傷人(78.261%)。節(jié)點3和節(jié)點4是“事故直接原因”對直梯傷人情況的貢獻度(31.783%)。導致直梯傷人的直接原因中設備故障及斷電情況的貢獻度超過66%,屬于主要因素,其中對困人的貢獻度達到71.053%;導致直梯傷人的直接原因中人為原因的貢獻度為13.913%,其中對死人情況的貢獻度達到62.500%。
大數(shù)據時代獲取電梯事故數(shù)據的方式多種多樣,互聯(lián)網上大量非結構化的電梯事故信息中蘊含著諸多有用信息。研究從時域和空域兩個維度,就電梯事故發(fā)生的時間-區(qū)域-電梯類型-傷人情況-直接原因等元素進行多角度多組合,使用統(tǒng)計分析、網絡分析、決策樹分析逐步深入,最終完成對電梯事故主要要素的建模分析,為電梯監(jiān)管部門、使用單位、維保單位以及公眾提供決策依據和技術支持,有利于降低和預防電梯事故的發(fā)生。
[1] 王堅,張國安.電梯安全風險的評價方法[J].中國特種設備安全,2012,28(03):51-54.
[2] 顧徐毅,朱昌明,張鵬,等.電梯系統(tǒng)綜合安全評價方法的研究[J].中國安全科學學報,2008,18(06):146-151.
[3] 張偉.基于改進AHP的老舊電梯安全風險評價分析[J].中國特種設備安全,2015,31(01):16-19.
[4] 高勇,屈名勝.抽樣檢驗在電梯定期檢驗中應用的可行性[J].中國特種設備安全,2013,29(07):36-38+41.
[5] 陳國華,蔡文杰,王新華,等.基于大樣本檢驗數(shù)據的電梯風險預評估方法[J].中國安全科學學報,2015,25(05):56-60.
[6] 肖北雁,王文彬.我國現(xiàn)行電梯監(jiān)督檢驗和定期檢驗規(guī)則的幾個問題[J].中國特種設備安全,2015,31(08):17-21.
[7] 何毅.中國電梯的安全狀況與安全管理制度[J].中國特種設備安全,2006,22(06):15-17.
[8] 賴躍陽,曾京軍.從一起電梯險兆事故談電梯的使用與管理[J].質量技術監(jiān)督研究,2014,(02):56-60.
[9] 楊柏山.電梯使用管理幾個突出問題的應對[J].中國特種設備安全,2013,29(12):65-66.
[10] 牛立東.基于數(shù)據挖掘法的礦井瓦斯聯(lián)動監(jiān)測[J].中國安全科學學報,2011,21(07):62-68.
[11] 胡文瑜,孫志揮,吳英杰.數(shù)據挖掘取樣方法研究[J].計算機研究與發(fā)展,2011,48(01):45-54.
[12] 李芳林,趙喜倉.數(shù)據挖掘在R&D統(tǒng)計中的應用分析[J].統(tǒng)計與決策,2008,(17):161-162.
[13] 韓樹新.特種設備安全管理[M].杭州:浙江科學技術出版社,2008:115-116.
[山東省科技發(fā)展計劃:2014GGX101041]
[國家科技支撐計劃:2014BAF07B03]
Data Analysis and Mining on Elevator Accident Information
Chen Shufang Li Juan Guo Xinpeng
(Shandong RFID Engineering Research Center Co.Ltd.Ji'nan 250014)
In order to avoid elevator accident, data analysis and mining on elevator accident information was carried out in this paper.Statistical analysis, network analysis and decision tree analysis were used to find the distribution of elevator accident and the relationship of the accident elements.This analysis might bring some help for the elevator accident prevention and policy decision.
Elevator Data analysis Data mining
X941
B
1673-257X(2016)09-0051-05
10.3969/j.issn.1673-257X.2016.09.013
陳樹芳(1988~),男,碩士,工程師,從事特種設備安全管理、數(shù)據挖掘及標準化方面的工作及研究。
(2015-11-12)