許 鐵,高林杰,景 鵬,陳東清
(1.福建交通職業(yè)技術(shù)學(xué)院,福州350007;2.上海交通大學(xué)交通運(yùn)輸工程研究所,上海200052;3.福州大學(xué)管理學(xué)院,福州350002)
當(dāng)前城市交通擁擠狀況日益嚴(yán)重,這對(duì)城市交通規(guī)劃、交通需求預(yù)測(cè)提出新的挑戰(zhàn)。居民出行構(gòu)成了城市交通需求的基礎(chǔ),為研究此問(wèn)題,交通部門需對(duì)居民出行方式進(jìn)行調(diào)查。居民出行調(diào)查是指對(duì)交通規(guī)劃區(qū)域居民在一定時(shí)間內(nèi)的個(gè)人與家庭屬性、社會(huì)經(jīng)濟(jì)屬性以及出行方式進(jìn)行調(diào)查,其目的是掌握居民出行的流向、流量和出行方式等。居民出行調(diào)查可收集交通規(guī)劃中需要的基礎(chǔ)信息,是進(jìn)行交通需求預(yù)測(cè)和制定交通規(guī)劃方案的重要依據(jù)。
然而由于居民出行調(diào)查中存在較多不可控制的因素,各分區(qū)的抽樣率總存在差異,而且抽樣調(diào)查數(shù)據(jù)也具有特殊性,如何用少量的抽樣數(shù)據(jù)分析出代表普遍規(guī)律的出行特征,成為許多學(xué)者研究的重點(diǎn)。趙貝等(2010年)利用自組織理論對(duì)居民出行方式結(jié)構(gòu)進(jìn)行研究,指出自組織原理對(duì)居民出行方式選擇系統(tǒng)具有適用性[1]。鮮于建川等(2010年)利用遞歸聯(lián)立離散選擇模型研究了居民出行方式,研究結(jié)果對(duì)于出行需求預(yù)測(cè)具有指導(dǎo)意義[2]。馮樹(shù)民,慈玉生(2010年)利用BP神經(jīng)網(wǎng)絡(luò)對(duì)居民出行產(chǎn)生量進(jìn)行預(yù)測(cè)[3]。馮忠詳,劉浩學(xué)等(2010年)利用非集計(jì)方法構(gòu)建了農(nóng)村人口的出行方式選擇模型[4]。
但是由于居民出行方式選擇是一個(gè)典型的非線性系統(tǒng),受到影響因素眾多,建模相對(duì)復(fù)雜。支持向量機(jī)(Support Vector Machine,SVM)產(chǎn)生于20世紀(jì)90年代,是非線性建模的數(shù)據(jù)挖掘方法該方法可避免人工神經(jīng)網(wǎng)絡(luò)可能陷入局部極小點(diǎn)、網(wǎng)絡(luò)結(jié)構(gòu)難于確定的缺點(diǎn),具有更強(qiáng)的泛化能力,適合分析居民出行方式選擇這種復(fù)雜的行為。傳統(tǒng)關(guān)于SVM的參數(shù)選擇更多采用反復(fù)湊試的方法,來(lái)取得較好的模型效果,存在較大隨機(jī)性,且工作量較大。本文采用網(wǎng)格搜索方法選取支持向量機(jī)的參數(shù),在一定程度上解決了參數(shù)選擇的隨機(jī)性,構(gòu)建了居民出行方式選擇預(yù)測(cè)模型,并通過(guò)福州市居民出行專項(xiàng)調(diào)查數(shù)據(jù)進(jìn)行實(shí)證研究,為研究居民出行方式提供了新的思路;同時(shí)采用不同的核函數(shù),對(duì)比不同核函數(shù)的分類精度、模型估算時(shí)間,為選擇支持向量機(jī)核函數(shù)提供參考。
支持向量機(jī)(Support Vector Machine,SVM)是Vapnik教授等人在20世紀(jì)90年代提出的一種新的統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論[5],它是在小樣本情況下發(fā)展起來(lái)的,核心思想為尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小化。該方法通過(guò)非線性變換,在高維特征空間中把研究問(wèn)題線性化,而得到的卻是原樣本空間中問(wèn)題的非線性解,是一種非線性系統(tǒng)建模的新方法,克服一些傳統(tǒng)機(jī)器學(xué)習(xí)方法的不足。支持向量機(jī)模型主要用于回歸和分類,本文重點(diǎn)探討用于分類的支持向量機(jī)模型。
居民出行常見(jiàn)的出行方式不多,通過(guò)分析居民出行方式的影響因素,設(shè)計(jì)一定的調(diào)查問(wèn)卷,就能獲取居民出行的相關(guān)信息,收集的數(shù)據(jù)格式如表1。通過(guò)研究個(gè)體的出行方式,構(gòu)建居民出行方式選擇模型,如果構(gòu)建的模型能夠準(zhǔn)確對(duì)居民出行方式進(jìn)行劃分,則可用于預(yù)測(cè)居民出行方式,這對(duì)于研究居民出行方式選擇具有適用性。
表1 居民出行調(diào)查數(shù)據(jù)
基于支持向量機(jī)的居民出行方式選擇模型的任務(wù)就是要尋找一個(gè)分類機(jī),根據(jù)已有的m個(gè)數(shù)據(jù),模擬居民出行方式選擇的規(guī)律,并能夠?qū)π碌臉颖具M(jìn)行較準(zhǔn)確地分類。依照支持向量機(jī)的理論,可把m個(gè)樣本看成是n維空間的點(diǎn),如何在這n維空間中尋找超平面,盡可能準(zhǔn)確地把這些點(diǎn)分開(kāi)。同時(shí)對(duì)于一個(gè)新的樣本,也能準(zhǔn)確劃分,成為研究的重點(diǎn)。以下重點(diǎn)介紹支持向量機(jī)是如何尋找最優(yōu)超平面的。
1.1.1 二分類線性可分的標(biāo)準(zhǔn)最優(yōu)分類面
支持向量機(jī)理論是從線性可分情況下的最優(yōu)分類平面發(fā)展起來(lái)的,也是統(tǒng)計(jì)學(xué)習(xí)理論中最實(shí)用的部分[5]。對(duì)于給定的訓(xùn)練樣本集 (x1,y1),(x2,y2),…(xi,yi),其中 xi∈RN為N 維向量,yi∈{-1,1}在線性可分的情況下,在特征空間中構(gòu)造多個(gè)分割平面,這個(gè)超平面被定義為:
同時(shí),這個(gè)分類面能將兩類(1,-1)無(wú)誤差地完全分開(kāi),即滿足:
在滿足上述條件所有的分類面中,查找最優(yōu)超平面,這個(gè)最優(yōu)超平面滿足兩類的分類空隙dist最大,即每類距離超平面最近的樣本到超平面的距離之和最大。這個(gè)距離可表示為:
所以,求解最優(yōu)超平面問(wèn)題等價(jià)于在式(2)約束條件下,求式(3)的最大值,這樣建立線性支持向量機(jī)的問(wèn)題轉(zhuǎn)化為求解式(4)二次凸規(guī)劃問(wèn)題:
該約束優(yōu)化問(wèn)題可以用Lagrange方法求解,得到最優(yōu)超平面決策函數(shù)為:
1.1.2 二分類線性不可分的情況
對(duì)于線性不可分的問(wèn)題,Vapnik等人成功地引入了核空間理論,將低維輸入空間的數(shù)據(jù)通過(guò)非線性映射函數(shù)映射到高維屬性空間,從而把分類問(wèn)題轉(zhuǎn)化到高維屬性空間進(jìn)行,大多數(shù)輸入空間線性不可分問(wèn)題在屬性空間可以轉(zhuǎn)化為線性可分問(wèn)題。為了避免高維空間中的復(fù)雜計(jì)算,支持向量機(jī)采用了一個(gè)核函數(shù)k(x,y)代替高維空間中的內(nèi)積運(yùn)算φ(x)·φ(y),引入松弛變量,優(yōu)化問(wèn)題為:
引入拉格朗日函數(shù)將式(6)轉(zhuǎn)換為對(duì)偶形式:
1.1.3 居民出行方式的分類
居民出行方式選擇屬于多分類的問(wèn)題,可轉(zhuǎn)換成多個(gè)二類劃分問(wèn)題解決。對(duì)應(yīng)的每個(gè)二分類的決策函數(shù)為:
如果 fi(x)=1,則 x屬于第i類,如果 fi(x)=-1,則x不屬于第i類。故可得到多分類問(wèn)題的總判別函數(shù)為:
式(9)中,arg為選取指標(biāo)函數(shù),含義為:選取樣本點(diǎn)x對(duì)于決策函數(shù)fi(x)中值最大函數(shù)的指標(biāo)i對(duì)應(yīng)的類,作為樣本點(diǎn)所應(yīng)該歸屬的類。
在居民出行方式選擇中,可對(duì)居民常見(jiàn)的幾種出行方式分別賦予類別標(biāo)志,如把步行標(biāo)識(shí)為1,電動(dòng)車標(biāo)識(shí)為2,公交車標(biāo)識(shí)為3,私家車標(biāo)識(shí)為4等等,構(gòu)造4個(gè)二分類器,通過(guò)總判別函數(shù)就可以識(shí)別居民出行方式,例如:若 fi(x)=-1表示不屬于這種出行方式;若 fi(x)=1,M(X)=1,則代表屬于步行出行方式。
對(duì)于支持向量機(jī)分類器而言,核函數(shù)是決定分類器性能的關(guān)鍵因素,對(duì)函數(shù)的估計(jì)精度和速度都有一定的影響。常見(jiàn)的核函數(shù)類型有:線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)RBF、Sigmoid核函數(shù)等[6]。核函數(shù)可分為2類,全局核函數(shù)和局部核函數(shù)。全局核函數(shù)具有全局性,相距很遠(yuǎn)的數(shù)據(jù)點(diǎn)都可以對(duì)核函數(shù)的值產(chǎn)生影響,泛化能力強(qiáng),但是學(xué)習(xí)能力較弱,如線性核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù);局部核函數(shù)具有局部性,只有距離較近的數(shù)據(jù)對(duì)核函數(shù)的值才有影響,學(xué)習(xí)能力強(qiáng),但是泛化能力較弱,如徑向基核函數(shù)RBF。本文將重點(diǎn)探討這幾個(gè)核函數(shù)在居民出行預(yù)測(cè)模型中的應(yīng)用,分析它們的影響。
支持向量機(jī)的性能受到懲罰系數(shù)c的影響,在確定了核函數(shù)類型之后,還受到核參數(shù)(統(tǒng)一用 g表示)的影響。本文采用網(wǎng)格搜索方法進(jìn)行參數(shù)探索,把交叉驗(yàn)證意義下的支持向量機(jī)分類正確率作為目標(biāo)函數(shù),借助計(jì)算機(jī)強(qiáng)大的運(yùn)算功能自動(dòng)選擇參數(shù),得到最優(yōu)值下的懲罰系數(shù)值、核函數(shù)參數(shù)值,利用得到的參數(shù)重新訓(xùn)練和測(cè)試模型,如果都能得到較好的預(yù)測(cè)精度,則得到滿意的模型,否則重新分析問(wèn)題的影響因素,再次建模,直至得到滿意的模型。
網(wǎng)格搜索方法即把懲罰系數(shù)、核參數(shù)設(shè)置在一定范圍內(nèi),記,c∈(2m,2n),g∈(2p,2q),其中,m <n,p<q。通過(guò)組合,可以得到數(shù)組(c,g),計(jì)算每一組(c,g)下的分類正確率,得到最高分類準(zhǔn)確率下的參數(shù)(cbest,gbest),并用這組參數(shù)重新訓(xùn)練模型。
福州市是福建省省會(huì),地處我國(guó)東南沿海,是海峽西岸經(jīng)濟(jì)區(qū)三大中心城市之一。近年來(lái),福州市社會(huì)經(jīng)濟(jì)發(fā)展迅速,城市人口不斷增長(zhǎng),但城市交通矛盾日益尖銳,交通問(wèn)題成為一個(gè)亟需解決的難題。為了更加合理地規(guī)劃城市交通系統(tǒng),2008年福州市交通部門進(jìn)行了居民出行專項(xiàng)調(diào)查。本文通過(guò)數(shù)據(jù)預(yù)處理,選取了600個(gè)有效調(diào)查樣本進(jìn)行實(shí)證分析,部分居民出行調(diào)查數(shù)據(jù)如表2所示,相應(yīng)變量說(shuō)明如表3所示。
表2 2008年福州市居民出行調(diào)查部分?jǐn)?shù)據(jù)
表3 各變量說(shuō)明表
變量變量說(shuō)明職業(yè) 1:中小學(xué)生 2:大中專學(xué)生 3:機(jī)關(guān)事業(yè)單位 4:公司職員 5:家務(wù) 6:工人 7:私營(yíng)個(gè)體企業(yè)者 8:離退休人員 9:其他1:2 000以下 2:2 000~3 000 3:3 000~4 000 4:4 000~5 000 5:5 000~6 000 6:6 000~7 000 7:達(dá)到地點(diǎn)用地性質(zhì) 1:行政辦公 2:商業(yè)服務(wù) 3:旅館 4:文體游憩 5:工業(yè) 6:交通 7:施工場(chǎng)地 8:高校 9:中小學(xué)出行方式 1:步行 2:電動(dòng)車 3:公交車 4:私家車家庭月總收入
把600個(gè)樣本分成2部分,其中的450個(gè)樣本作為建模樣本,150個(gè)樣本作為測(cè)試樣本。以性別、年齡、職業(yè)、家庭月總收入、自行車擁有量、電動(dòng)車擁有量、私人小汽車擁有量、出行目的以及到達(dá)地點(diǎn)用地性質(zhì)作為輸入,以出行方式作為輸出訓(xùn)練模型。考慮到變量之間存在量綱的差別,以及個(gè)體之間存在較大差異,對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。本文把數(shù)據(jù)規(guī)整到[-2,2]之間,公式如下:
通過(guò)上式把變量規(guī)范化到[-2,2]之間,其中xmin為變量X的最小值,xmax為變量X的最大值。
利用Matlab 2009b編程實(shí)現(xiàn)模型計(jì)算,4種不同核函數(shù)的分類精度如表4所示,模型估計(jì)時(shí)間如表5所示。
表4 不同核函數(shù)SVM模型分類結(jié)果
分類精度是衡量本文構(gòu)建的居民出行方式預(yù)測(cè)模型的重要指標(biāo),含義為:模型分類結(jié)果中被正確劃分到某個(gè)類別的樣本占所有分類樣本的比重。計(jì)算公式如下:
如RBF核函數(shù)的建模樣本的分類精度為86.22%,也就說(shuō)在450個(gè)建模樣本中,有388個(gè)樣本被正確劃分到所屬類;測(cè)試樣本的分類精度為81.33%,即在150個(gè)測(cè)試樣本中,有122個(gè)樣本被正確劃分。
表5 不同核函數(shù)SVM模型計(jì)算時(shí)間/s
以上訓(xùn)練時(shí)間是指用網(wǎng)格搜索方法探索出最優(yōu)參數(shù)后,用選擇出來(lái)的懲罰系數(shù)C,核函數(shù)參數(shù)g進(jìn)行模型訓(xùn)練所用的時(shí)間;測(cè)試時(shí)間指的是,用最優(yōu)參數(shù)進(jìn)行模型測(cè)試所花的時(shí)間。從表5中可以看出,線性核函數(shù)訓(xùn)練時(shí)間和測(cè)試時(shí)間都是最短的,而Sigmoid核卻是最長(zhǎng)的。這4個(gè)核函數(shù)對(duì)SVM模型的估計(jì)時(shí)間都很短,相差較小,但是如果選擇網(wǎng)格搜索方法、遺傳算法、粒子群優(yōu)化算法等進(jìn)行參數(shù)選擇,程序的運(yùn)行時(shí)間將會(huì)存在較大差異。
由表4可知,多項(xiàng)式核函數(shù)和RBF核函數(shù)相對(duì)于其他2個(gè)核函數(shù)在分類準(zhǔn)確率上具有明顯優(yōu)勢(shì),多項(xiàng)式核函數(shù)屬于全局性核函數(shù),學(xué)習(xí)能力相對(duì)于RBF核函數(shù)較弱,但是泛化能力卻比 RBF核函數(shù)更強(qiáng);而RBF核函數(shù)是局部性核函數(shù),學(xué)習(xí)能力強(qiáng),泛化能力相對(duì)較弱,但相差不多,而學(xué)習(xí)能力明顯比多項(xiàng)式核函數(shù)高。從表5中,看出Sigmoid核的計(jì)算時(shí)間最長(zhǎng),線性核函數(shù)時(shí)間最短。Sigmoid核函數(shù)在4個(gè)核函數(shù)中,建模分類精度及測(cè)試分類精度都是最低的,這是因?yàn)橹挥挟?dāng)核函數(shù)對(duì)應(yīng)的矩陣為對(duì)稱、半正定矩陣時(shí)才能滿足 Mercer條件,Vapink[7]曾指出,在Sigmoid核函數(shù)中,當(dāng)參數(shù)取特定特值,Sigmoid核對(duì)應(yīng)的和矩陣非半正定,故在核函數(shù)的選擇中,不優(yōu)先使用Sigmoid核函數(shù)。結(jié)合表4、表5可知,在支持向量機(jī)模型的構(gòu)建中,關(guān)于核函數(shù)的選擇優(yōu)先考慮RBF核函數(shù),該核函數(shù)的學(xué)習(xí)能力、泛化能力都較強(qiáng),其次考慮選擇多項(xiàng)式核函數(shù)。
從模型計(jì)算結(jié)果可以看出,支持向量機(jī)方法對(duì)居民出行方式選擇具有較好的擬合效果,采用多項(xiàng)式核函數(shù)、RBF核函數(shù)構(gòu)建的模型,建模樣本和測(cè)試樣本的分類精度均達(dá)到80%以上,支持向量機(jī)方法在居民出行方式選擇預(yù)測(cè)中,有較高精度,利用本文構(gòu)建的居民出行方式選擇模型,能夠較準(zhǔn)確預(yù)測(cè)居民的出行方式,這對(duì)于規(guī)劃居民小區(qū)交通,合理配置交通系統(tǒng)有參考價(jià)值。
居民出行方式的選擇受到多方面因素影響,是一個(gè)典型的非線性問(wèn)題。支持向量機(jī)方法源于統(tǒng)計(jì)學(xué)習(xí)理論,經(jīng)過(guò)非線性映射,把樣本空間映射到高維特征空間,在高維特征空間利用一個(gè)線性超平面實(shí)現(xiàn)線性劃分。借助Mercer核展開(kāi)定理,通過(guò)升維,在高維空間把非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題,為預(yù)測(cè)居民出行方式提供了新的思路,通過(guò)本研究得出以下結(jié)論。
(1)本文利用多項(xiàng)式核函數(shù)、RBF核函數(shù)的支持向量機(jī)方法構(gòu)建了居民出行方式的選擇模型,建模樣本和測(cè)試樣本的分類精度均達(dá)到80%以上,分類的效果較好。所構(gòu)建的模型,能應(yīng)用于居民出行方式選擇的預(yù)測(cè),這對(duì)城市規(guī)劃交通系統(tǒng)有現(xiàn)實(shí)指導(dǎo)意義。從另一方面也說(shuō)明了居民出行方式選擇不僅受到個(gè)人屬性特征的影響(性別,職業(yè)等),還受到家庭屬性(擁有的交通工具、家庭收入),以及出行目的等因素的影響,這是一個(gè)復(fù)雜非線性的系統(tǒng),支持向量機(jī)理論適合這類問(wèn)題的研究。
(2)在支持向量機(jī)模型的構(gòu)建中,關(guān)于核函數(shù)的選擇優(yōu)先考慮RBF核函數(shù),該核函數(shù)的學(xué)習(xí)能力、泛化能力都較強(qiáng),其次考慮選擇多項(xiàng)式核函數(shù)。在今后的研究中,可考慮混合核函數(shù)的研究,構(gòu)建新的核函數(shù),綜合發(fā)揮RBF核函數(shù)學(xué)習(xí)能力強(qiáng)的優(yōu)勢(shì)以及多項(xiàng)式核函數(shù)泛化能力強(qiáng)的特性,提高支持向量機(jī)的性能。
[1]趙貝,趙淑芝.基于自組織理論的居民出行方式結(jié)構(gòu)模型[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2010,40(6):1523-1527.
[2]鮮于建川,雋志才.出行鏈與出行方式相互影響模式[J].上海交通大學(xué)學(xué)報(bào),2010,44(6):792-796.
[3]馮樹(shù)民,慈玉生.居民出行產(chǎn)生量BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2010,42(10):1624-1627.
[4]馮忠詳,劉浩學(xué).農(nóng)村人口出行方式選擇模型[J].交通運(yùn)輸工程學(xué)報(bào),2010,10(31):77-83.
[5]王定成.支持向量機(jī)建模預(yù)測(cè)與控制[M].北京:氣象出版社,2009:1-18.
[6]奉國(guó)和.SVM分類核函數(shù)及參數(shù)選擇比較[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):122-123.
[7]VAPNIK V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995:25-37.
長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版)2011年3期