国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樹增強樸素貝葉斯分類器的出租車制動系統(tǒng)安全狀態(tài)預測?

2018-01-04 05:56程錦寶陳一鍇丁晶晶
計算機與數(shù)字工程 2017年12期
關鍵詞:貝葉斯決策樹分類器

程錦寶 石 琴 陳一鍇 丁晶晶

(1.合肥工業(yè)大學汽車與交通工程學院 合肥 230009)(2.合肥工業(yè)大學管理學院 合肥 230009)

基于樹增強樸素貝葉斯分類器的出租車制動系統(tǒng)安全狀態(tài)預測?

程錦寶1石 琴1陳一鍇1丁晶晶2

(1.合肥工業(yè)大學汽車與交通工程學院 合肥 230009)(2.合肥工業(yè)大學管理學院 合肥 230009)

制動系統(tǒng)故障是引發(fā)出租車交通事故的主要原因之一,預測出租車制動系統(tǒng)的安全狀態(tài)對于主管部門維護管理出租車、減少道路交通傷亡和經(jīng)濟損失具有重要意義。論文基于合肥某機動車安全技術檢測站提取的335組出租車制動系統(tǒng)檢測數(shù)據(jù),以品牌、使用年限和整備質(zhì)量為屬性變量,分別構(gòu)建樹增強樸素貝葉斯分類器模型、決策樹模型、K近鄰模型預測出租車制動系統(tǒng)的安全狀態(tài)。結(jié)果表明,樹增強樸素貝葉斯分類器模型的預測準確率、靈敏度、特異性均優(yōu)于決策樹模型和K近鄰模型,可準確預測出租車制動系統(tǒng)的安全狀態(tài)。

樹增強樸素貝葉斯;出租車制動系統(tǒng);安全狀態(tài)

1 引言

隨著城市交通系統(tǒng)的快速發(fā)展,出租車引發(fā)的道路交通事故受到越來越多的關注。2015年,我國共發(fā)生出租車交通事故4489起,造成750人死亡、4765人受傷,分別占生產(chǎn)經(jīng)營車輛交通事故的11.3%、3.9%和12.3%;而在所有機動車安全狀態(tài)不良引發(fā)的交通事故中,制動不良、制動失效的事故分別占53.5%和16.6%[1]。因此,學者們針對汽車制動系統(tǒng)故障與交通事故間的關系開展了一系列研究。劉靜等運用Logistics理論,建立了車輛機械故障與交通事故嚴重性之間的量化模型,指出相對于轉(zhuǎn)向失效、失去動力及其他機械故障,車輛制動失效導致人員死亡事故的概率較大[2]。駱穎哲運用灰聚類評價法,對汽車故障所引發(fā)交通事故風險等級進行評估,分析表明制動失效和制動不良易導致高風險等級的道路交通事故;并綜合運用層次分析法與模糊評價法,建立了汽車底盤故障事故模糊綜合評價模型,結(jié)果表明制動系統(tǒng)故障易導致重大交通事故[3]。

由上述研究可知,出租車制動系統(tǒng)的安全性與道路交通事故密切相關,預測出租車制動系統(tǒng)是否處于良好安全狀態(tài),加強對可能存在安全隱患車輛的維護管理,是提高出租車行駛安全性和減少道路交通事故的重要方法。

樹增強樸素貝葉斯(Tree Augmented Naive Bayesian,TAN)分類器作為樸素貝葉斯[4](Naive Bayesian)分類器的擴展,相比決策樹和K近鄰等機器學習算法,可有效利用變量之間的相關關系,整合專家知識經(jīng)驗,揭示模型預測的不準確性風險[5~6]。當前,在諸如醫(yī)學,社會學,食品安全等眾多領域,TAN分類器作為預測方法具有較好的表現(xiàn)[7~9]。然而,在車輛制動系統(tǒng)安全狀態(tài)預測領域還未見應用和報道。

本文基于2016年合肥某機動車安全技術檢測站1月份的294組出租車制動系統(tǒng)檢測數(shù)據(jù),運用相關性分析,選取基本信息中與制動系統(tǒng)安全狀態(tài)相關性較大的變量,作為TAN分類器模型的屬性變量。運用最大期望值算法(EM)構(gòu)建TAN分類器模型,用于預測車輛制動系統(tǒng)安全狀態(tài),并使用來自2月份的41組檢測數(shù)據(jù)檢驗該模型的預測精度。最后,通過與決策樹模型和K近鄰模型的對比,分析了三種方法的預測準確率、靈敏度和特異性。

2 數(shù)據(jù)集描述

采用合肥市某機動車安全技術檢測站2016年1~2月的353組出租車制動系統(tǒng)檢測數(shù)據(jù)作為研究樣本,依據(jù)樣本數(shù)據(jù)生成時間先后順序[9~10],選取1月份的294組(88.6%)數(shù)據(jù)作為訓練樣本,2月份的41組(11.4%)數(shù)據(jù)作為測試樣本。每個樣本數(shù)據(jù)包括車輛基本信息(車身顏色、車輛輪距、車輛品牌、車輛整備質(zhì)量、車輛使用年限等)和檢測結(jié)果數(shù)據(jù)(各軸制動力、左右輪制動力最大差值、各軸制動率、各軸不平衡率及駐車制動率等)。檢測結(jié)果數(shù)據(jù)中各軸制動率、不平衡率及駐車制動率等某一項不合格車輛,即視為制動系統(tǒng)安全狀態(tài)較差車輛,各項均合格車輛視為安全狀態(tài)良好車輛。

運用相關性分析,選取車輛基本信息中,與制動系統(tǒng)狀態(tài)相關系數(shù)絕對值大于0.1的三項[11],車輛品牌、使用年限和整備質(zhì)量作為TAN分類器模型的屬性變量。

3 基于TAN分類器的預測模型構(gòu)建

3.1 TAN分類器原理

TAN分類器是Friedman在Chow和Liu依賴樹的基礎上建立[12],是樸素貝葉斯分類器的樹形依賴擴展,能夠有效利用屬性變量之間的依賴信息,當屬性變量和類變量之間具有相對星形結(jié)構(gòu)更復雜的依賴結(jié)構(gòu)時,可得到更好的分類預測效果。

TAN分類器結(jié)構(gòu)中,類結(jié)點是每一個屬性結(jié)點的父結(jié)點,屬性結(jié)點之間形成一棵最大權(quán)重跨度樹。一個簡單的TAN分類器模型如圖1所示。

圖1 TAN分類器模型示意圖

TAN分類器結(jié)構(gòu)需要學習,學習過程如下:

1)在各屬性結(jié)點間建立無向邊,并計算屬性變量Xi、Xj之間的條件互信息:

其中,I(Xi,Xj|C)作為邊的權(quán)重,Xi、Xj表示屬性變量,C表示類變量,xi、xj表示屬性變量Xi、Xj的取值,c表示類變量C的取值。

2)依據(jù)不產(chǎn)生回路的原則,按照邊權(quán)重由大到小的順序選擇邊,直到選取n-1條邊,構(gòu)建最大權(quán)重跨度樹,其中,n為屬性變量數(shù)目。

3)選擇一個結(jié)點作為根節(jié)點,設置所有邊的方向是由根節(jié)點向外的方向,把無向樹轉(zhuǎn)變?yōu)橛邢驑洹?/p>

4)增加一個類結(jié)點及類結(jié)點指向所有屬性結(jié)點的有向邊[13]。

TAN分類器中,對于未知類別樣本X=(X1,…,Xn),由貝葉斯公式,計算其后驗概率p(c|x1,…,xn),選擇使其后驗概率最大的類變量取值c,作為類變量預測值:

其中,c作為類變量C的預測值,(X1,…,Xn)為屬性向量,c(x1,…,xn)表示在屬性向量 (X1,…,Xn)取值為x1,…,xn時類變量C的取值,GT表示在類變量C約束下(X1,…,Xn)的最大權(quán)重跨度樹,π(xi)是在最大權(quán)重跨度樹中 Xi的屬性父節(jié)點∏(Xi)的取值。

3.2 預測模型構(gòu)建

本文基于294組訓練樣本,采用R軟件使用最大期望值算法(EM)學習TAN分類器模型結(jié)構(gòu)及其參數(shù)[14],其結(jié)構(gòu)如圖2所示。所建TAN分類器模型中的變量包括車輛品牌、使用年限、整備質(zhì)量和安全狀態(tài),變量的含義及取值如表1所示。其中變量“安全狀態(tài)”為類變量,其他變量為屬性變量。

圖2 構(gòu)建的TAN分類器預測模型

表1 TAN分類器模型變量

3.3 TAN分類器模型預測效果檢驗

本文使用41組測試樣本檢驗所建TAN分類器模型預測效果。表2顯示了用于預測的出租車基本信息和模型預測結(jié)果。

表2 41組測試樣本的部分預測

結(jié)果表明,TAN分類器模型正確預測了41組中35組樣本安全狀態(tài),其預測準確度為85.4%,其預測靈敏度、特異性分別86.7%、83.3%(見表3),所建TAN分類器模型在預測出租車制動系統(tǒng)安全狀態(tài)良好與否方面具有良好表現(xiàn)。

表3 各模型預測結(jié)果對比

4 TAN分類器與其他預測方法的對比

4.1 決策樹

決策樹方法是以實例為基礎的歸納學習算法,采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同的屬性值判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論[15],從而生成決策樹分類模型,利用生成的模型對待分類樣本進行分類。本文采用CART決策樹算法中的Gini系數(shù)作為分支劃分標準:

其中,T為訓練樣本集,m為訓練樣本類別數(shù),pi為類別ci在樣本集T中的出現(xiàn)概率。

4.2 K近鄰

K近鄰方法是基于實例學習的非參數(shù)預測算法,通過計算待分類樣本與訓練樣本之間的距離,選出與待分類樣本距離最近的K個訓練樣本,K個樣本中出現(xiàn)次數(shù)最多的類別,即為該待分類樣本的預測類別。本文所用樣本間距離為歐氏距離:

其中,X、Y分別為待分類樣本和訓練樣本,d(X,Y)為樣本 X 、Y 之間的距離,(x1,…,xn)、(y1,…,yn)分別為 X、Y特征向量值。

4.3 各方法的預測效果對比

分別使用TAN分類器、決策樹和K近鄰方法構(gòu)建的模型,對41組測試樣本進行預測,預測結(jié)果如表3所示。本文以準確率、靈敏度和特異性為預測效果的評價指標,其中,準確率表示模型對全部樣本預測的正確率;靈敏度表示模型對實際狀態(tài)“良好”樣本的預測正確率;特異性表示模型對實際狀態(tài)“較差”樣本的預測正確率。

結(jié)果表明,所建TAN分類器模型的預測準確率相對于K近鄰模型提高了6.1%,相對于決策樹模型提高了3.0%;靈敏度相對于K近鄰模型提高了8.4%,相對于決策樹模型提高了30%;特異性相對于K近鄰模型提高了11.1%,與決策樹模型相同。體現(xiàn)了所建TAN分類器模型在預測方面的實用性及優(yōu)越性。

5 結(jié)語

本文基于2016年合肥某機動車安全技術檢測站的335組出租車檢測數(shù)據(jù),針對決策樹和K近鄰等機器學習算法,難以有效利用變量間相關關系、揭示模型預測不準確性風險的問題,運用期望最大化算法,構(gòu)建了用于預測出租車輛制動系統(tǒng)的安全狀態(tài)的TAN分類器模型,并通過與決策樹模型和K近鄰模型的預測效果對比,體現(xiàn)了所建TAN分類器模型在預測出租車制動系統(tǒng)安全狀態(tài)方面的實用性與優(yōu)越性,可為相關主管部門管理、維護出租車輛提供理論指導,預防因制動系統(tǒng)故障引發(fā)的道路交通事故。

[1]公安部交通管理局.中華人民共和國道路交通事故統(tǒng)計年報(2015年度)[R].無錫:公安部交通管理科學研究所,2016.Ministry of Public Security Traffic Administration Bureau.The People's Republic of China Road Traffic Accident Sta?tistics Annual Report(2015)[R].Wuxi:Ministry of Pub?lic Security Traffic Administration Science Research Insti?tute,2016.

[2]劉靜,馮忠祥,趙汝海.車輛機械故障與交通事故嚴重性關系模型[J].安徽理工大學學報,2016,36(1):25-29.LIU Jing,F(xiàn)ENG Zhongxiang,ZHAO Ruhai.The Model of Relationship between Vehicle Mechanical Failures and Accidents Severity[J].Journal of Anhui University of Sci?ence and Technology(Natural Science),2016,36(1):25-29.

[3]駱穎哲.汽車故障事故風險評價方法研究[D].哈爾濱:東北林業(yè)大學,2014.LUO Yingzhe.Research of Risk Evaluation Methodology of Automobile Failure Accident[D].Harbin:Northeast Forestry University,2014.

[4]PEARL J.A constraint propagation approach to probabilis?tic reasoning[A].In:KANAL L N,LEMMER J F.Pro?ceedings of the First Conference Annual Conference on Uncertainty in Artificial Intelligence[C]//Corvallis:AUAL Press,1988:31-42.

[5]BURITICA J A,TESFAMARIAM S.Consequence-based framework for electric power providers using Bayesian be?lief network[J].International Journal of Electrical Power and Energy Systems,2015,64(0):233-241.

[6]GENC O,DAG A.A Bayesian network-based data analyt?ical approach to predict velocity distribution in small streams[J].Journal of Hydroinformatics,2016,18(3):466-480.

[7]肖利洪,陳沛然,李梅,等.TAN貝葉斯網(wǎng)絡模型在前列腺癌中的預測研究[J].中華男科學雜志,2016,22(6):506-510.XIAO Lihong,CHEN Peiran,LI Mei,et al.Tree-Aug?mented Naive Bayesian network model for predicting pros?tate cancer[J].National Journal of Andrology,2016,22(6):506-510.

[8]伍杰華.基于樹狀樸素貝葉斯模型的社會網(wǎng)絡關系預測[J].計算機應用,2013,33(11):3134-3137.WU Jiehua.Tree augmented Naive Bayesians model for ties prediction in social networks[J].Journal of Computer Applications,2013,33(11):3134-3137.

[9]BOUZEMBRAK Y,MARVIN H J P.Prediction of food fraud type using data from Rapid Alert System for Food and Feed(RASFF)and Bayesian network modeling[J].Food Control,2016,(61):180-187.

[10]ZHANG Y,ZHAO H,HE X,et al.Bayesian prediction of earthquake network based on space-time influence do?main[J].Physica A,2016(445):138-149.

[11]SUN L,SHENOY P P.Using Bayesian networks for bankruptcy prediction:Some methodological issues[J].European Journal of Operational Research,2007,180(2):738-753.

[12]FRIEDMAN N,GEIGER D,GOLDSZMIDT M.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163.

[13]王雙成.貝葉斯網(wǎng)絡學習、推理與應用[M].上海:立信

會計出版社,2010:146-152.

WANG Shuangcheng.Learning,Inference and Applica?tion of Bayesian Network[M].Shanghai:LIXIN Accoun?tant Express,2010:146-152.

[14]DEMPSTER A P.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statis?tical Society.Series B:Methodological,1977,39(1):1-38.

[15]孫英云,何光宇,翟海青,等.一種基于決策樹技術的短期負荷預測算法[J].電工電能新技術,2004,23(3):55-59.SUN Yingyun,HE Guangyu,ZHAI Haiqing,et al.A short-term load forecasting method based on decisiontree approaches[J].Advanced Technology of Electrical Engineering and Energy,2004,23(3):55-59.

Prediction of the Working Condition of Taxi's Braking System based on Tree Augmented Naive Bayesian Classifier

CHENG Jinbao1SHI Qin1CHEN Yikai1DING Jingjing2
(1.School of Automotive and Transportation Engineering,Hefei University of Technology,Hefei 230009)(2.School of Management,Hefei University of Technology,Hefei 230009)

The malfunction of the braking system is a main cause of the taxis'accidents on the road,therefore,predicting the working condition of taxi's braking system is meaningful for the management and maintenance on the taxis,reducing the casualty and economic losses caused by traffic accidents.This study is based on the database of 335 cases which is extracted from one of the Hefei Motor Vehicles Safety Technology Inspection stations.Based on three basic vehicle parameters-age,brand and weight,this study builds Tree Augmented Naive Bayesian Classifier(TAN)model,Decision Tree(DT)model and K Nearest Neighbors(KNN)model to predict the working condition of taxi's braking system.The results show that the TAN model outperforms the other two mod?els with higher accuracy,sensitivity and specificity,thus with a good performance the proposed TAN model can be employed to pre?dict the working condition of taxi's braking system usefully.

tree augmented naive bayesian classifier(TAN),taxi's braking system,working condition

Class Number TP393

TP393

10.3969/j.issn.1672-9722.2017.12.029

2017年6月15日,

2017年7月19日

安徽省科技攻關計劃項目(編號:1501b042211)資助。

程錦寶,男,碩士研究生,研究方向:載運工具運用與交通安全。石琴,女,博士,教授,博士生導師,研究方向:車輛工程。陳一鍇,男,博士,副教授,碩士生導師,研究方向:車輛工程,結(jié)構(gòu)工程。丁晶晶,男,博士,副教授,碩士生導師,研究方向:統(tǒng)計與決策科學。

猜你喜歡
貝葉斯決策樹分類器
學貫中西(6):闡述ML分類器的工作流程
基于貝葉斯定理的證據(jù)推理研究
基于貝葉斯解釋回應被告人講述的故事
基于樸素Bayes組合的簡易集成分類器①
決策樹和隨機森林方法在管理決策中的應用
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
基于差異性測度的遙感自適應分類器選擇
決策樹學習的剪枝方法
決策樹多元分類模型預測森林植被覆蓋