王冀 楊倩
摘要:該文希望通過數(shù)據(jù)挖掘技術(shù),科學合理地幫決策者尋找數(shù)據(jù)之間的規(guī)律,全面地分析交通數(shù)據(jù)信息之間隱含的內(nèi)在聯(lián)系,進一步科學合理地管理數(shù)據(jù),為交通運輸管理部門和用戶出行提供方便,為交通運輸?shù)男畔⒒l(fā)展起到促進作用。
關(guān)鍵詞:數(shù)據(jù)挖掘;交通;算法
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)12-2707-02
The Research of Data Mining Algorithm in Traffic Data Analysis and Data Mining
WANG Ji1, YANG Qian2
(1.Guizhou Vocational Technology Institute,Guiyang 550023, China; 2.Guizhou Polytechnic College of Communications,Guiyang 550008, China)
Abstract: This paper hopes through the data mining technology, seeks the laws between the data for decision makers scientifically and reasonably It analysis of relationship between traffic data implied information comprehensively, further manage data scientifically and reasonably, for traffic management departments and users to provide convenient transportation, and to promote information development for transportation.
Key words: data mining; traffic; arithmetic
隨著現(xiàn)代交通信息化技術(shù)的發(fā)展,數(shù)據(jù)的科學處理在交通發(fā)展過程中顯得越來越重要。通常,在交通系統(tǒng)的數(shù)據(jù)庫中存儲著海量數(shù)據(jù),需要用科學的方法進行數(shù)據(jù)的分析和管理,而一般的數(shù)據(jù)庫只是對數(shù)據(jù)進行查詢,得到的只是數(shù)據(jù)的表層信息,不能獲得數(shù)據(jù)中的隱含關(guān)系,不能得到隱藏在數(shù)據(jù)中的深層次的,有關(guān)數(shù)據(jù)之間關(guān)聯(lián)特性的預測信息。在信息技術(shù)高速發(fā)展的大數(shù)據(jù)時代,僅停留在表層處理的數(shù)據(jù)分析方式已經(jīng)不能適應(yīng)現(xiàn)代科技發(fā)展的需求,研究基于數(shù)據(jù)挖掘技術(shù)的交通數(shù)據(jù)分析處理技術(shù)已經(jīng)成為交通系統(tǒng)迫切需要解決的問題。
1 數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘是一個決策支持過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中但潛在有用的信息和知識的過程。數(shù)據(jù)挖掘?qū)ν诰蛑械拇罅繑?shù)據(jù)進行抽取、轉(zhuǎn)換、分析以及模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。數(shù)據(jù)挖掘的工作過程大致可分為:數(shù)據(jù)準備(data preparation),數(shù)據(jù)挖掘,以及結(jié)果的解釋和評價(interpretation and evaluation)三個部分。
2 數(shù)據(jù)挖掘技術(shù)在交通數(shù)據(jù)中的運用研究
在交通數(shù)據(jù)的處理中,由于交通信息的特點,交通數(shù)據(jù)量非常龐大,而且每天在迅速增多,歷史數(shù)據(jù)眾多,數(shù)據(jù)挖掘技術(shù)應(yīng)用在交通系統(tǒng)中主要是挖掘交通數(shù)據(jù)歷史知識,得出一些有用信息,提供給用戶,方便用戶出行,方便交通管理部門對數(shù)據(jù)進行管理。該文介紹常用的三種數(shù)據(jù)挖掘算法。
2.1 決策樹算法在交通數(shù)據(jù)中的運用
決策樹方法是數(shù)據(jù)挖掘方法中的一種重要的方法,該方法廣泛用于解決與分類相關(guān)的各種問題,屬于有指導的歸納學習算法。該方法著眼于從一組無次序、無規(guī)則的數(shù)據(jù)中歸納出一個分類描述,從中發(fā)現(xiàn)潛在的、具有商業(yè)價值的信息。
本算法在交通數(shù)據(jù)處理中可以應(yīng)用到實時路況數(shù)據(jù)挖掘中。實時路況數(shù)據(jù)庫如表1所示,其中影響到道路的通行有兩個屬性:天氣、是否為上班時間。在天氣屬性中,天氣屬性的可能取值為晴、小雨、大雨、冰雪等;是否為上班時間屬性取值為兩個:是或者否。將這些取值都作為關(guān)聯(lián)算法中的一個項,故關(guān)聯(lián)算法中的數(shù)據(jù)項集I為:{晴、小雨、大雨、冰雪、是上班時間、不是上班時間},分別用i來表示,則數(shù)據(jù)項集I為:{i1、i2、i3、i4、i5、i6}。最后得出實時路況的類別為:通路暢通、道路阻斷。并將其作為數(shù)據(jù)項i7、i8,加入到數(shù)據(jù)項集中。利用關(guān)聯(lián)規(guī)則找出i1i7、i2i7、i3i7、i4i7、i5i7、i6i7、的關(guān)聯(lián)支持度,得出為:i1i7=4、i2i7=4、i3i7=3、i4i7=1、i5i7=6、i6i7=6。
故從關(guān)聯(lián)規(guī)則支持度分析,屬于天氣屬性的和比是否為上班屬性的支持度大,故首先使用天氣屬性進行決策樹的分支;然后在利用是否為上班時間作為節(jié)點分支得到?jīng)Q策樹。
本算法中融合了關(guān)聯(lián)算法的思想,通過支持度的策略進行決策樹的節(jié)點分支,針對特定的交通實時路況數(shù)據(jù)庫進行決策樹分支??紤]到交通實時路況數(shù)據(jù)庫的無規(guī)律,復雜,比較凌亂的情況,對于決策樹的分支做了個改進,最終只考慮了道路通暢的情況,否則,如果將道路阻斷也考慮進去,最后導致決策樹所有的分支都能有兩種情況,通暢和阻斷,這是因為實時路況數(shù)據(jù)庫本身無規(guī)律決定的,不能肯定在什么情況下一定是什么狀態(tài),什么情況都有可能,故進行決策分支時,無法完全分開。
2.2 關(guān)聯(lián)規(guī)則算法在交通數(shù)據(jù)中的應(yīng)用
關(guān)聯(lián)規(guī)則挖掘算法主要是挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系,關(guān)聯(lián)規(guī)則用于分析購物籃、人口普查等系統(tǒng)數(shù)據(jù),已經(jīng)證明了能夠產(chǎn)生一些對實際問題有意義的規(guī)則。該文在分析關(guān)聯(lián)規(guī)則算法在交通數(shù)據(jù)中的應(yīng)用時,將該方法應(yīng)用到交通事故數(shù)據(jù)中,挖掘出交通事故中各個屬性的內(nèi)在聯(lián)系。endprint
關(guān)聯(lián)規(guī)則算法是挖掘交通數(shù)據(jù)中各種屬性常見的一種方法,比如駕駛員屬性、車輛屬性、天氣屬性等可能引起交通事故發(fā)生的原因之間的規(guī)則,從而得到規(guī)律,那么交通管理部門就可以對駕駛員、車輛、道路、天氣等因數(shù)的某些特征來判斷導致道路交通事故發(fā)生的可能性,從而指導交通管理部門的工作,減少事故的發(fā)生。
在關(guān)聯(lián)規(guī)則算法中常見的算法是Apriori算法。該算法是挖掘產(chǎn)生關(guān)聯(lián)規(guī)則所需要頻繁項集的基本算法,利用層次順序搜集的循環(huán)方法來完成頻繁項集的挖掘工作,這一循環(huán)方法就是利用K項集來產(chǎn)生(K+1)項集,例如在交通事故數(shù)據(jù)庫中,利用存在酒后駕車的記錄,來產(chǎn)生既存在酒后駕車也存在駕駛員文化水平因數(shù)的記錄,這樣遞歸產(chǎn)生,最后就能顯示出不同事故原因同時發(fā)生的幾率。
2.3 貝葉斯算法在交通路況的應(yīng)用
貝葉斯數(shù)據(jù)挖掘算法,主要是通過以往的知識利用概率來分析一件事發(fā)生的概念,這與交通實時路況預測相符,對于交通實時路況,主要是通過以往道路的路況,分析目前或者是以后一段時間內(nèi),道路路況如何,項目中,采用了貝葉斯網(wǎng)路推理,利用歷史數(shù)據(jù),推出以后的在特定情況下道路的路況。
交通實時路況是一個動態(tài)過程,隨機性和偶然性高,有可能通過對交通狀態(tài)的現(xiàn)狀和歷史進行綜合分析,推測它發(fā)生的可能??梢圆捎锰鞖狻⒔煌ㄊ鹿?、上班時間、車輛速度等作為貝葉斯網(wǎng)的變量。利用Y表示交通狀態(tài),有兩種可能:阻塞和暢通;利用A表示交通事故,有兩種可能:是和否;利用T表示上班時間,有兩種可能:是上班時間和不是上班時間;利用W表示天氣狀況,有兩種可能:天氣良好和天氣惡劣;利用S表示車輛速度,有兩種可能:緩慢和正常。利用上述五個變量可以組成貝葉斯網(wǎng)絡(luò)模型。有貝葉斯網(wǎng)絡(luò)模型推算出如果一條道路阻塞了,可以判定發(fā)生交通事故的概率。
3 小結(jié)
本章主要介紹了三種數(shù)據(jù)挖掘的算法在交通數(shù)據(jù)庫中的應(yīng)用,其中,利用決策樹算法和貝葉斯算法可以對交通運行狀況進行預測,利用關(guān)聯(lián)規(guī)則算法可以對交通事故原因進行分析和預測。交通系統(tǒng)數(shù)據(jù)庫龐大,數(shù)據(jù)量隨機性強,偶然性高,數(shù)據(jù)挖掘技術(shù)的引入可以提高數(shù)據(jù)資源的利用率,方便用戶出行,便于管理部門進行管理,促進交通運輸行業(yè)的發(fā)展。
參考文獻:
[1] 劉明亮.數(shù)據(jù)挖掘標準技術(shù)綜述.計算機應(yīng)用與研究[J],2008.
[2] 莫富強.基于領(lǐng)域知識的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習算法[J].計算機工程與應(yīng)用,2008(7).
[3] 董立巖.數(shù)據(jù)挖掘在交通事故分析中的應(yīng)用[J].吉林大學學報,2006(4).endprint
關(guān)聯(lián)規(guī)則算法是挖掘交通數(shù)據(jù)中各種屬性常見的一種方法,比如駕駛員屬性、車輛屬性、天氣屬性等可能引起交通事故發(fā)生的原因之間的規(guī)則,從而得到規(guī)律,那么交通管理部門就可以對駕駛員、車輛、道路、天氣等因數(shù)的某些特征來判斷導致道路交通事故發(fā)生的可能性,從而指導交通管理部門的工作,減少事故的發(fā)生。
在關(guān)聯(lián)規(guī)則算法中常見的算法是Apriori算法。該算法是挖掘產(chǎn)生關(guān)聯(lián)規(guī)則所需要頻繁項集的基本算法,利用層次順序搜集的循環(huán)方法來完成頻繁項集的挖掘工作,這一循環(huán)方法就是利用K項集來產(chǎn)生(K+1)項集,例如在交通事故數(shù)據(jù)庫中,利用存在酒后駕車的記錄,來產(chǎn)生既存在酒后駕車也存在駕駛員文化水平因數(shù)的記錄,這樣遞歸產(chǎn)生,最后就能顯示出不同事故原因同時發(fā)生的幾率。
2.3 貝葉斯算法在交通路況的應(yīng)用
貝葉斯數(shù)據(jù)挖掘算法,主要是通過以往的知識利用概率來分析一件事發(fā)生的概念,這與交通實時路況預測相符,對于交通實時路況,主要是通過以往道路的路況,分析目前或者是以后一段時間內(nèi),道路路況如何,項目中,采用了貝葉斯網(wǎng)路推理,利用歷史數(shù)據(jù),推出以后的在特定情況下道路的路況。
交通實時路況是一個動態(tài)過程,隨機性和偶然性高,有可能通過對交通狀態(tài)的現(xiàn)狀和歷史進行綜合分析,推測它發(fā)生的可能??梢圆捎锰鞖狻⒔煌ㄊ鹿?、上班時間、車輛速度等作為貝葉斯網(wǎng)的變量。利用Y表示交通狀態(tài),有兩種可能:阻塞和暢通;利用A表示交通事故,有兩種可能:是和否;利用T表示上班時間,有兩種可能:是上班時間和不是上班時間;利用W表示天氣狀況,有兩種可能:天氣良好和天氣惡劣;利用S表示車輛速度,有兩種可能:緩慢和正常。利用上述五個變量可以組成貝葉斯網(wǎng)絡(luò)模型。有貝葉斯網(wǎng)絡(luò)模型推算出如果一條道路阻塞了,可以判定發(fā)生交通事故的概率。
3 小結(jié)
本章主要介紹了三種數(shù)據(jù)挖掘的算法在交通數(shù)據(jù)庫中的應(yīng)用,其中,利用決策樹算法和貝葉斯算法可以對交通運行狀況進行預測,利用關(guān)聯(lián)規(guī)則算法可以對交通事故原因進行分析和預測。交通系統(tǒng)數(shù)據(jù)庫龐大,數(shù)據(jù)量隨機性強,偶然性高,數(shù)據(jù)挖掘技術(shù)的引入可以提高數(shù)據(jù)資源的利用率,方便用戶出行,便于管理部門進行管理,促進交通運輸行業(yè)的發(fā)展。
參考文獻:
[1] 劉明亮.數(shù)據(jù)挖掘標準技術(shù)綜述.計算機應(yīng)用與研究[J],2008.
[2] 莫富強.基于領(lǐng)域知識的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習算法[J].計算機工程與應(yīng)用,2008(7).
[3] 董立巖.數(shù)據(jù)挖掘在交通事故分析中的應(yīng)用[J].吉林大學學報,2006(4).endprint
關(guān)聯(lián)規(guī)則算法是挖掘交通數(shù)據(jù)中各種屬性常見的一種方法,比如駕駛員屬性、車輛屬性、天氣屬性等可能引起交通事故發(fā)生的原因之間的規(guī)則,從而得到規(guī)律,那么交通管理部門就可以對駕駛員、車輛、道路、天氣等因數(shù)的某些特征來判斷導致道路交通事故發(fā)生的可能性,從而指導交通管理部門的工作,減少事故的發(fā)生。
在關(guān)聯(lián)規(guī)則算法中常見的算法是Apriori算法。該算法是挖掘產(chǎn)生關(guān)聯(lián)規(guī)則所需要頻繁項集的基本算法,利用層次順序搜集的循環(huán)方法來完成頻繁項集的挖掘工作,這一循環(huán)方法就是利用K項集來產(chǎn)生(K+1)項集,例如在交通事故數(shù)據(jù)庫中,利用存在酒后駕車的記錄,來產(chǎn)生既存在酒后駕車也存在駕駛員文化水平因數(shù)的記錄,這樣遞歸產(chǎn)生,最后就能顯示出不同事故原因同時發(fā)生的幾率。
2.3 貝葉斯算法在交通路況的應(yīng)用
貝葉斯數(shù)據(jù)挖掘算法,主要是通過以往的知識利用概率來分析一件事發(fā)生的概念,這與交通實時路況預測相符,對于交通實時路況,主要是通過以往道路的路況,分析目前或者是以后一段時間內(nèi),道路路況如何,項目中,采用了貝葉斯網(wǎng)路推理,利用歷史數(shù)據(jù),推出以后的在特定情況下道路的路況。
交通實時路況是一個動態(tài)過程,隨機性和偶然性高,有可能通過對交通狀態(tài)的現(xiàn)狀和歷史進行綜合分析,推測它發(fā)生的可能??梢圆捎锰鞖?、交通事故、上班時間、車輛速度等作為貝葉斯網(wǎng)的變量。利用Y表示交通狀態(tài),有兩種可能:阻塞和暢通;利用A表示交通事故,有兩種可能:是和否;利用T表示上班時間,有兩種可能:是上班時間和不是上班時間;利用W表示天氣狀況,有兩種可能:天氣良好和天氣惡劣;利用S表示車輛速度,有兩種可能:緩慢和正常。利用上述五個變量可以組成貝葉斯網(wǎng)絡(luò)模型。有貝葉斯網(wǎng)絡(luò)模型推算出如果一條道路阻塞了,可以判定發(fā)生交通事故的概率。
3 小結(jié)
本章主要介紹了三種數(shù)據(jù)挖掘的算法在交通數(shù)據(jù)庫中的應(yīng)用,其中,利用決策樹算法和貝葉斯算法可以對交通運行狀況進行預測,利用關(guān)聯(lián)規(guī)則算法可以對交通事故原因進行分析和預測。交通系統(tǒng)數(shù)據(jù)庫龐大,數(shù)據(jù)量隨機性強,偶然性高,數(shù)據(jù)挖掘技術(shù)的引入可以提高數(shù)據(jù)資源的利用率,方便用戶出行,便于管理部門進行管理,促進交通運輸行業(yè)的發(fā)展。
參考文獻:
[1] 劉明亮.數(shù)據(jù)挖掘標準技術(shù)綜述.計算機應(yīng)用與研究[J],2008.
[2] 莫富強.基于領(lǐng)域知識的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習算法[J].計算機工程與應(yīng)用,2008(7).
[3] 董立巖.數(shù)據(jù)挖掘在交通事故分析中的應(yīng)用[J].吉林大學學報,2006(4).endprint