国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

EM方法對缺失數(shù)據(jù)的處理及對MNL模型的影響

2017-06-01 11:29:32李綱周海軍郭姝娟左忠義
大連交通大學(xué)學(xué)報 2017年3期
關(guān)鍵詞:原始數(shù)據(jù)偏差交通

李綱, 周海軍, 郭姝娟,左忠義

(1.大連交通大學(xué) 交通運輸工程學(xué)院,遼寧 大連 116028; 2.大連海事大學(xué) 交通運輸管理學(xué)院,遼寧 大連 116026)*

EM方法對缺失數(shù)據(jù)的處理及對MNL模型的影響

李綱1,2, 周海軍1, 郭姝娟2,左忠義1

(1.大連交通大學(xué) 交通運輸工程學(xué)院,遼寧 大連 116028; 2.大連海事大學(xué) 交通運輸管理學(xué)院,遼寧 大連 116026)*

以印度尼西亞首都雅加達都市圈居民個人出行調(diào)查數(shù)據(jù)為例,研究EM數(shù)據(jù)修補方法對數(shù)據(jù)以及MNL模型的影響.首先,以原始數(shù)據(jù)為基礎(chǔ),通過人為刪除和EM修補分別獲得缺失數(shù)據(jù)和修補數(shù)據(jù).其次,通過Z檢驗,驗證EM修補后的數(shù)據(jù)更貼近原始數(shù)據(jù)特征.最后,以三組數(shù)據(jù)分別建立三組MNL模型,通過Z檢驗等對比分析,表明EM數(shù)據(jù)修補方法能很好地修正數(shù)據(jù)缺失對構(gòu)建模型造成的偏差,為交通政策的制定提供良好的數(shù)據(jù)基礎(chǔ).

數(shù)據(jù)修補方法;期望最大化(EM)算法;MNL模型;交通方式劃分;雅加達都市圈

0 引言

居民個人出行數(shù)據(jù)是城市交通規(guī)劃、設(shè)計、控制和研究工作的重要基礎(chǔ),但由于調(diào)查中的各種原因,獲得的個人出行數(shù)據(jù)通常是不完整的,這可能會給數(shù)據(jù)分析和研究結(jié)果帶來不利的影響,所以利用數(shù)據(jù)修補方法對其進行矯正變得非常重要.韓衛(wèi)國[1]等人敘述了數(shù)據(jù)的缺失方式和常用的修補方法,根據(jù)交通流量數(shù)據(jù)時間上的周期性和空間上的相關(guān)性,采用平均值方法、最大期望法和數(shù)據(jù)增量法等確定性和隨機性方法修補缺失數(shù)據(jù),分析了這些方法的優(yōu)缺點,并對修補結(jié)果進行比較.鄒曉芳[2]對交通流的故障數(shù)據(jù)進行有效識別及分析的基礎(chǔ)上,利用自適應(yīng)權(quán)重的兩階段故障數(shù)據(jù)修復(fù)組合模型,研究對故障數(shù)據(jù)進行修復(fù)的方法.Henrickson等[3]基于鏈?zhǔn)椒匠痰亩嘀夭逖a對美國華盛頓州際公路車檢器缺失數(shù)據(jù)進行處理,結(jié)果表明該方法對隨機缺失、日缺失和月缺失數(shù)據(jù)的修補效果均優(yōu)于傳統(tǒng)線性回歸法.目前對缺失數(shù)據(jù)修補方法的研究主要針對交通流檢測缺失數(shù)據(jù)展開[4],但針對居民出行數(shù)據(jù)的修補仍極為有限.

1 數(shù)據(jù)修補理論

1.1 數(shù)據(jù)缺失原因

調(diào)查中數(shù)據(jù)缺失產(chǎn)生的原因主要由兩個方面,其一是調(diào)查中由于各種因素形成的無回答,另外是在調(diào)查中得到不可使用的信息[5].

1.2 數(shù)據(jù)缺失機制

數(shù)據(jù)缺失機制描述的是獲取到的數(shù)據(jù)集中變量值和缺失數(shù)據(jù)之間的關(guān)系,是將缺失數(shù)據(jù)視為一個隨機變量并且有指定分布.其主要分為隨機缺失,完全隨機缺失和非隨機缺失三種形式.本文假定數(shù)據(jù)為隨機缺失[6].

1.3 數(shù)據(jù)缺失模式

數(shù)據(jù)缺失模式研究的主要內(nèi)容是缺失數(shù)據(jù) R 的分布.主要有單變量缺失、多變量缺失、單調(diào)缺失、任意缺失、文件匹配和因素分析六種模式[6].

1.4 EM修補方法

在統(tǒng)計上對數(shù)據(jù)缺失值的處理方法有三種:刪除法,填補法和不處理.刪除法對于缺失數(shù)據(jù)占較大比例時會導(dǎo)致錯誤的結(jié)論[7];而不處理的方法對一個沒有任何認知的總體情況下是不實用的,于是如何填補缺失的數(shù)據(jù)成為大量研究的對象.

EM(expectation maximization)數(shù)據(jù)修補方法是以觀測數(shù)據(jù)為基礎(chǔ),利用缺失數(shù)據(jù)與未缺失數(shù)據(jù)的內(nèi)在聯(lián)系等輔助信息以及缺失值的性質(zhì),給數(shù)據(jù)集中的缺失值提供一種預(yù)測分布的方法[8].一般分為E步和M步兩個步驟:

p(θ/Y) 表示參數(shù)θ基于觀測數(shù)據(jù)的觀測后驗分布;p(θ/Y,Z)表示添加數(shù)據(jù)Z后的關(guān)于θ的添加后驗分布;p(Z/θ,Y)表示在參數(shù)θ和觀測數(shù)據(jù)Y一定時,數(shù)據(jù)Z的條件分布.

假設(shè)θ(t)是經(jīng)過t次迭代之后第(t+1)步開始時后驗分布參數(shù)θ的估計值,則第(t+1)次的迭代為

E步:對p(θ/Y,Z)或者logp(θ/Y,Z) 關(guān)于Z的條件分布求期望值,目的是把Z積分掉:

(1)

M步:將E步中積分得到的Q(θ/θ(t),Y) 極大化,即求最大值,也即尋找一個值θ(t+1),使得:

(2)

經(jīng)過以上的E步和M步就會形成一次迭代θ(t)→θ(t+1),θ(t+1)∈M(θ(t)),M(θ(t))是在整個參數(shù)空間內(nèi)使得Q(θ/θ(t) ,Y)取得最大值的θ的每次迭代值所組成的集合.將E步和M步一直循環(huán),直至│θ(t-1)-θ(t)│或者│Q(θ((t+1)/θ(t),Y)-Q(θ(t)/θ(t),Y)│充分小而停止循環(huán)[9].相對于多重修補法,EM修補在實際中更加容易操作[10].

2 個人出行數(shù)據(jù)修補

本次研究選擇由JICA提供的印度尼西亞首都雅加達都市圈的居民個人出行調(diào)查數(shù)據(jù)作為研究基礎(chǔ)數(shù)據(jù),對其先分別隨機刪除實際中容易出現(xiàn)缺失值的4個變量,形成缺失數(shù)據(jù),再運用EM方法修補得到修補數(shù)據(jù),最后對三組數(shù)據(jù)進行對比分析.

2.1 完整數(shù)據(jù)

原始數(shù)據(jù)包括出行者特征和出行特征共37個變量,21 157條數(shù)據(jù).

2.2 缺失數(shù)據(jù)

利用SPSS隨機生成功能產(chǎn)生含有缺失值的數(shù)據(jù)集,即對原始數(shù)據(jù)中的年齡、性別、私家車的出行費用和出行時間分別隨機選擇10%,將其刪除,形成缺失數(shù)據(jù)集.缺失數(shù)據(jù)集的樣本數(shù)為13 943個,缺失率為34.1%.

2.3 修補數(shù)據(jù)

根據(jù)缺失數(shù)據(jù)的特性將其分為兩部分分別進行修補,對出行者特性中的缺失數(shù)據(jù),即家庭收入和出行者年齡,運用家庭類別、家庭成員數(shù)、每月支出、交通費用占支出比、職業(yè)、性別、個人收入變量進行修補.對出行特性中的缺失數(shù)據(jù),即小汽車的出行時間和費用,利用過路費和停車費以及各種交通方式的出行費用和時間進行修補.

2.4 修補前后數(shù)據(jù)對比分析

將完整數(shù)據(jù)、缺失數(shù)據(jù)和修補數(shù)據(jù)進行比較,如表1所示:

表1 修補前后數(shù)據(jù)對比分析

從期望值可以看出修補數(shù)據(jù)要比缺失數(shù)據(jù)更貼近原始數(shù)據(jù),標(biāo)準(zhǔn)差也是如此,說明修補數(shù)據(jù)離散度等統(tǒng)計特性比缺失數(shù)據(jù)更接近原始數(shù)據(jù).

為更為準(zhǔn)確的驗證數(shù)據(jù)修補前后的整體差異,本文采用獨立大樣本情況下的兩個總體均值之差的檢驗方法,即Z檢驗法對數(shù)據(jù)整體特征進行檢驗.

假設(shè)他們兩兩之間期望值無顯著差異, 當(dāng)兩個方差未知,分別用樣本方差替代,此時的檢驗統(tǒng)計量為:

(3)

表2 修補前后均值Z檢驗

完整數(shù)據(jù)和缺失數(shù)據(jù)在變量小汽車出行費用上Z值顯著(Z>1.96),說明缺失對數(shù)據(jù)估計帶來的明顯偏差.缺失數(shù)據(jù)和修補數(shù)據(jù)在出行費用上差異同樣顯著,但完整數(shù)據(jù)和修補數(shù)據(jù)均無顯著差異,這說明EM修補數(shù)據(jù)對缺失數(shù)據(jù)有很好地矯正作用,相比直接刪除缺失數(shù)據(jù),能更好地反映總體特征.

3 EM修補方法對MNL模型的影響

本次研究采用出行方式劃分中的非集計多項Logit模型(MNL)為研究對象.MNL模型采用隨機效用理論,即假設(shè)每個出行者都會選擇效用最高的選擇肢,其效用函數(shù)由兩部分組成:

(4)

Unj為個人n關(guān)于選擇枝j的效用;Vnj為能夠觀測到的因素構(gòu)成的效用確定項;εnj為不能觀測到的因素構(gòu)成的效用隨機項.假設(shè)每一個隨機εnj項彼此獨立且服從Gumbel分布,則第i個選擇肢被選中的概率為:

(5)

Xik為交通方式i的第k個說明要素(所需時間、費用等);ak為待定參數(shù);j為交通方式個數(shù);Ui為交通方式i的效用函數(shù);Pi為分擔(dān)率[11].

3.1 MNL模型的對比分析

以原始完整數(shù)據(jù)、缺失數(shù)據(jù)和修補數(shù)據(jù)為基礎(chǔ),分別建立三個MNL模型,進行參數(shù)標(biāo)定,結(jié)果如表3所示.

表3 三組數(shù)據(jù)模型參數(shù)對比

三個模型整體上標(biāo)定效果都很好,且整體特征大體一致.以摩托車為參照,對于公交車、小汽車和出租車,這三種交通方式的常數(shù)項均99%顯著.相對于摩托車,年齡越小的人越喜歡乘坐公交車,而年齡大的人更喜歡乘坐小汽車.家庭收入可以顯示出收入高的人群更愿意乘坐小汽車和出租車,其次是摩托車,最后是公交車.

與缺失數(shù)據(jù)模型相比,部分修補數(shù)據(jù)模型參數(shù)的期望值更接近原始數(shù)據(jù)模型.從標(biāo)準(zhǔn)差看,完整模型到缺失模型變量參數(shù)離散程度變大了,缺失數(shù)據(jù)修補后,變量參數(shù)離散程度明顯更接近原始數(shù)據(jù),反映出EM方法對模型較好的修補性.

3.2 修補前后MNL模型參數(shù)差異性檢驗

從統(tǒng)計意義上對其兩兩分別進行模型參數(shù)估計值的差異的顯著性檢驗,即Z檢驗,如表4所示.

以完整數(shù)據(jù)建立的模型和缺失數(shù)據(jù)建立的模型參數(shù)差異皆顯著,說明數(shù)據(jù)缺失對模型標(biāo)定已產(chǎn)生顯著性地影響,產(chǎn)生了不可忽視的偏差.修補數(shù)據(jù)模型和缺失數(shù)據(jù)模型在各個變量上的參數(shù)都具有顯著性差異,說明數(shù)據(jù)修補對構(gòu)建MNL模型產(chǎn)生了積極的影響.修補模型與完整模型也存在差異,這可能是因為EM修補法作為單一修補方式未考慮修補方法本身帶來的誤差.修補數(shù)據(jù)和原始數(shù)據(jù)的參數(shù)估計差異與缺失數(shù)據(jù)和原始數(shù)據(jù)的參數(shù)估計差異大部分方向相反,說明EM修補有效地修正了缺失數(shù)據(jù)對模型估計值產(chǎn)生的偏差,修補趨勢是趨于接近原始數(shù)據(jù)模型的,修補后的參數(shù)估計的標(biāo)準(zhǔn)差也證明了這一點.未來研究中,可以采用多重修補方法考慮數(shù)據(jù)修補所帶來的偏差.

4 結(jié)論

經(jīng)過對原始數(shù)據(jù)、缺失數(shù)據(jù)和修補數(shù)據(jù)的總體特征及以其分別建立的三個MNL模型參數(shù)的對比分析可知,在數(shù)據(jù)特征方面,EM修補方法對缺失數(shù)據(jù)所引起的偏差有較好的修正作用,可以在一定程度上還原原始數(shù)據(jù)的特征.比如在本文分析中,由于小汽車出行費用值的部分缺失,導(dǎo)致了整體出行費用均值顯著偏低,EM修補方法很好地對其進行修正.數(shù)據(jù)缺失對數(shù)據(jù)的整體特征的估計產(chǎn)生顯著性的影響,EM修補方法對其有明顯的修正作用.

在模型構(gòu)建方面,以缺失數(shù)據(jù)和修補數(shù)據(jù)所建的MNL模型的參數(shù)均與完整數(shù)據(jù)所建立的MNL模型參數(shù)有顯著性的差異,但從參數(shù)差異顯著性檢驗統(tǒng)計量Z值來看,修補數(shù)據(jù)和原始數(shù)據(jù)的差異與缺失數(shù)據(jù)和原始數(shù)據(jù)的差異方向相反,說明EM修補出有效地修正了缺失數(shù)據(jù)對模型估計值產(chǎn)生的偏差,修補趨勢是趨于貼近原始數(shù)據(jù)模型的,由此可知,數(shù)據(jù)缺失對MNL模型的參數(shù)估計產(chǎn)生顯著地偏差,而EM修補可以有效地緩解這一偏差.

無論從實踐還是原理方面,相對于簡單地刪除缺失數(shù)據(jù)的處理方法,EM修補方法可以挽救大量有價值的信息,為交通政策的制定提供良好的數(shù)據(jù)基礎(chǔ).

[1]韓衛(wèi)國,王勁峰,胡建軍.交通流量數(shù)據(jù)缺失值的插補方法[J].交通信息與安全,2005(1):39- 42.

[2]鄒曉芳.城市快速路交通流故障數(shù)據(jù)修復(fù)方法研究[D].北京:北京交通大學(xué),2014.

[3]HENRICKSONK,ZOUY,WANGY.FlexibleandRobustMethodforMissingLoopDetectorDataImputation[J].JournaloftheTransportationResearchRecord,2015(2527):29- 36.

[4]錢超,陳建勛,羅彥斌,等.基于隨機森林的公路隧道運營缺失數(shù)據(jù)插補方法[J].交通運輸系統(tǒng)工程與信息,2016(3):81- 87.

[5]馮麗紅.調(diào)查數(shù)據(jù)缺失值常用修補方法比較的實證分析[D].石家莊:河北經(jīng)貿(mào)大學(xué),2014.

[6]LITTLE,RUBIN.StatisticalAnalysiswithMissingData[M].NewYork:JohnWiley&Sons,Inc.,2002.

[7]KALTONGRAHAM.CompensatingforMissingSurveyData[M].AnnArbor:SurveyResearchCenter,1983.

[8]LIYB,LIZH,LIL.Missingtrafficdata:comparisonofimputationmethods[J].IETIntell.Transp.Syst.,2014(8)1:51- 57.

[9]龐新生.缺失數(shù)據(jù)插補處理方法的比較研究[J].統(tǒng)計與決策,2012(24):18- 22.

[10]李昌利,沈玉利.期望最大算法及其應(yīng)用[J].計算機工程與應(yīng)用,2008(29):61- 64.

[11]DUSˇANTEODOROVICANDMILANJANIC.TransportationEngineering-Theory,Practice,andModeling[M].London:Butterworth-Heinemann,2016.

EM Imputation to Missing Data and Its Effect on the MNL Model

LI Gang1,2,ZHOU Haijun1,GUO Shujuan2,ZUO Zhongyi1

(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)

This paper explores the influences of EM imputation on data and MNL models based on personal trip data collected in Jabodetabek metropolitan area, Indonesia. First, missing dataset and imputed dataset are obtained by manually deleting the cases of complete original data and EM imputation, respectively. Secondly, dataset by EM imputation is verified to be more close to the original dataset by statisticsZtest.Finally,theanalysissuchasZtestisconductedtocomparethreeMNLmodelsbuiltonoriginaldataset,missingdatasetandimputeddataset.TheresultrevealsthatEMimputationcaneffectivelycorrectthebiascausedbymissingdatainmodelingbuilding,whichcouldofferagooddatabaseforpolicymaking.

data imputation;expectation maximization (EM) algorithm;multinomial logit model;modal split;Jabodetabek metropolitan area

1673- 9590(2017)03- 0007- 05

2016- 10- 18

中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(3132016213)

李綱(1982-),男,高級工程師,博士,主要從事交通規(guī)劃和出行行為方面的研究E-mail:LIGangPE2012@hotmail.com.

A

猜你喜歡
原始數(shù)據(jù)偏差交通
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
繁忙的交通
童話世界(2020年32期)2020-12-25 02:59:14
如何走出文章立意偏差的誤區(qū)
兩矩形上的全偏差
小小交通勸導(dǎo)員
全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
關(guān)于均數(shù)與偏差
世界經(jīng)濟趨勢
自適應(yīng)兩級UKF算法及其在時變偏差估計中的應(yīng)用
呼伦贝尔市| 荔浦县| 垫江县| 南宁市| 定陶县| 阜城县| 佛冈县| 三江| 河南省| 左权县| 宜黄县| 尼玛县| 门源| 平潭县| 那坡县| 观塘区| 石景山区| 许昌市| 江山市| 伊金霍洛旗| 宿松县| 灯塔市| 香河县| 芷江| 桑日县| 德阳市| 浦江县| 淳化县| 丰宁| 墨玉县| 松潘县| 蒙阴县| 讷河市| 凤凰县| 曲麻莱县| 临沂市| 自贡市| 岢岚县| 宜城市| 安化县| 宁阳县|