武凱飛 鐘 鳴* 王慧妮 葛 靖 劉少博 馬曉鳳
(武漢理工大學(xué)智能交通系統(tǒng)研究中心1) 武漢 430063) (武漢理工大學(xué)國家水運(yùn)安全工程技術(shù)研究中心2) 武漢 430063) (水路公路交通安全控制與裝備教育部工程研究中心3) 武漢 430063)
城市交通與土地利用之間聯(lián)系緊密,土地利用決定了人員數(shù)量和貨物到發(fā)量,交通的發(fā)展使得土地利用特征發(fā)生變化[1].城市的土地開發(fā)使得區(qū)域出行量增加,交通需求也隨之增加(見圖1),在交通設(shè)施改善后,區(qū)域可達(dá)性提高,這又會促進(jìn)區(qū)域土地價格上升,進(jìn)而又會影響土地利用.如此循環(huán),直到達(dá)到飽和狀態(tài),區(qū)域的土地開發(fā)受到抑制.
圖1 土地利用與交通容量的關(guān)系
城市土地利用對城市交通的影響主要表現(xiàn)為,城市開發(fā)程度對交通量、交通方式的影響[2],城市土地利用模式對出行量、交通行為,以及公交系統(tǒng)的影響[3-5].城市交通對城市土地利用的影響主要表現(xiàn)在,城市交通系統(tǒng)的發(fā)展對城市空間形態(tài)的影響[6],交通系統(tǒng)對城市土地利用結(jié)構(gòu)的影響,城市交通系統(tǒng)對土地利用價格的影響[7-9].土地交通整體規(guī)劃模型綜合考慮了土地利用與交通系統(tǒng)之間的互動關(guān)系,為解決土地利用和城市交通問題提供了科學(xué)的依據(jù)[10].土地利用信息作為模型的輸入,對整體規(guī)劃模型有很大的影響.如果能夠?qū)⑼恋乩眯畔⒌牧6燃?xì)化,那么所得到的研究成果的精度也將大幅提高.對于土地利用信息的提取,國內(nèi)外學(xué)者都做了深入的研究.喬紅等[11-12]利用高分辨率遙感影像,通過影像融合的手段提取出了水域、植被、耕地、林地等地物信息.姚蓓蓓等[13]對大尺度范圍內(nèi)的土地覆蓋信息進(jìn)行提取,其總體分類精度達(dá)到86.49%,Kappa系數(shù)為0.836 7.Ahad等[14]利用遙感數(shù)據(jù)和GIS數(shù)據(jù)先提取地物信息,在加拿大最小人口調(diào)查單元的水平上進(jìn)行土地利用信息的分類,用地類型包括工業(yè)用地、商服用地、居住用地等,分類精度可以達(dá)到97.1%.Tuia等[15]從高分辨率的遙感影像中提取相關(guān)特征,利用支持向量機(jī)方法對其進(jìn)行分類,最終得到居住用地、商服用地等用地類型,分類精度達(dá)到95.93%.
國內(nèi)在土地利用分類的研究中,以提取地物信息為主,而非土地利用信息.地物信息是土地的自然屬性,而土地利用信息則是與社會經(jīng)濟(jì)活動相關(guān)的土地的經(jīng)濟(jì)屬性[16],二者不能等同.國外雖然有針對土地利用信息分類的研究,但這是建立在發(fā)達(dá)國家地塊內(nèi)土地利用種類單一的基礎(chǔ)上的.我國單個地塊內(nèi)可能包含多種土地利用類型,致使分類的難度加大,直接利用國外的研究成果對我國的城市土地利用信息進(jìn)行分類是不準(zhǔn)確的.國外相關(guān)研究的分類單元以人口調(diào)查單元為主,粒度比較大.本研究將研究單元精細(xì)化到單個建筑物層面,開展城市土地利用的精細(xì)分類研究,為土地交通整體規(guī)劃提供精細(xì)的土地利用信息.
城市的土地開發(fā)或土地使用性質(zhì)發(fā)生變化,對城市交通有重要的影響.不同的用地類型決定了交通量、出行距離、交通方式選擇和出行分布形態(tài)等,也對交通結(jié)構(gòu)有較大的影響[17].各種用地類型具有不同的交通特性,對交通的影響也有不同.居住用地的人均出行次數(shù)與人口規(guī)模成反比,出行目的、出行方式具有多樣性,對交通的影響具有峰期性和持續(xù)性[18].反過來,城市居住用地的布局、規(guī)模也受城市交通系統(tǒng)的性質(zhì)和服務(wù)水平的影響[19].商業(yè)服務(wù)用地對交通可達(dá)性要求較高,對停車設(shè)施等交通基礎(chǔ)設(shè)施的需求最大,該用地類型的交通吸引量和產(chǎn)生量都很大,出行方式也呈多樣化,對周邊道路造成了很大的交通壓力[20].因此,商業(yè)服務(wù)用地的選址大多都在交通樞紐點(diǎn)、街道交叉口等交通便利的地方[21].而工業(yè)物流用地產(chǎn)生的交通需求相對于其他用地類型來說比較穩(wěn)定,出行活動主要由上下班時間及業(yè)務(wù)特點(diǎn)決定[22].
在充分研究土地利用與交通規(guī)劃之間的交互關(guān)系后,依據(jù)《武漢市城市用地分類和代碼標(biāo)準(zhǔn)》來建立表1的分類體系.
表1 分類體系表
建筑物的形態(tài)特征表示建筑物的物理屬性,包括底面積、總建筑面積、周長、樓層數(shù)、容積率等[23].
建筑物的擴(kuò)展特征指通過描繪建筑物各種幾何邊界而獲得的特征,包括與封閉建筑物的面積最小的矩形、封閉建筑物的最小凸面、封閉建筑物的寬度最小的矩形及某建筑物的包絡(luò)矩形等相關(guān)的特征.
2.2.1單模型
決策樹算法是一種基本的分類算法,被廣泛應(yīng)用于各個領(lǐng)域.在分類過程中,決策樹基于特征對實(shí)例進(jìn)行分類,可以認(rèn)為是if-then規(guī)則的集合,或是特征空間與類空間的條件概率分布.在特征選擇過程中,利用信息增益來選出當(dāng)前最好的特征.
SVM算法[24]是一種常見的判別方法,可以用來進(jìn)行分類或回歸分析.其原理是在特征空間中找到能夠?qū)颖痉指糸_的超平面.該超平面是所有能夠分隔樣本的超平面中,與樣本的幾何間隔最大的超平面,以保證有充分大的確信度對訓(xùn)練數(shù)據(jù)進(jìn)行分類.
隨機(jī)森林是一種集成學(xué)習(xí)方法,基礎(chǔ)分類器是決策樹.所謂“森林”是決策樹的集合,即隨機(jī)森林建立了多個決策樹,并將它們合并在一起以獲得更準(zhǔn)確和穩(wěn)定的預(yù)測.它采用Bagging的思想,將多個弱分類器組成一個強(qiáng)分類器.
2.2.2基于Stacking思想的融合模型
本研究利用Stacking的思想[25-27]對單個模型進(jìn)行融合,以提高分類結(jié)果精度.在利用Stacking思想對模型進(jìn)行融合時,需要先用訓(xùn)練數(shù)據(jù)集構(gòu)建出決策樹、SVM、隨機(jī)森林模型,將其作為一級模型,而后將三個模型的輸出結(jié)果作為樣本特征,對其進(jìn)行整合,并把原始樣本標(biāo)記為新數(shù)據(jù)樣本標(biāo)記,生成新的訓(xùn)練集.選取Logistic Regression作為二級模型,利用新訓(xùn)練數(shù)據(jù)集訓(xùn)練該模型,最后利用該模型對樣本進(jìn)行預(yù)測,得到最終分類結(jié)果.
與單個模型的訓(xùn)練方式不同,利用Stacking思想進(jìn)行模型融合時,單個模型是利用K折交叉驗(yàn)證法來訓(xùn)練的,即將整個數(shù)據(jù)集分成訓(xùn)練集和測試集,再將訓(xùn)練集分成K份,其中K-1份用于訓(xùn)練模型,最后一份用于驗(yàn)證模型.融合模型的訓(xùn)練過程見圖2.一級模型中的驗(yàn)證集的預(yù)測結(jié)果作為二級模型中的訓(xùn)練樣本,其測試集的預(yù)測結(jié)果經(jīng)過加權(quán)平均后,成為二級模型的測試數(shù)據(jù)集.
圖2 融合模型訓(xùn)練過程
對測試集的預(yù)測結(jié)果進(jìn)行加權(quán)平均的公式如下,各個權(quán)重的確定是利用貪心的思想訓(xùn)練得到,即不斷改變?nèi)齻€模型的權(quán)重,取二級模型在測試集上的預(yù)測結(jié)果精度最高時所對應(yīng)的權(quán)重.
Pi=aPi1+bPi2+cPi3,i=1,2,…,6
式中:a,b,c為決策樹、SVM、隨機(jī)森林在測試集上的預(yù)測結(jié)果的權(quán)重;Pi1,Pi2,Pi3分別為各個模型將建筑物預(yù)測為第i種土地利用類型的概率.
空間位置關(guān)系分析可以用來檢驗(yàn)物體在空間上是否有聯(lián)系,當(dāng)物體在空間上有聯(lián)系時,可以認(rèn)為它們的用途是相同或相似的.研究使用Gabriel圖來做空間位置關(guān)系分析,并通過設(shè)置連線的閾值來提高聚類的精度.Gabriel圖可以依據(jù)建筑物之間的距離來連接建筑物,因此可以對建筑物進(jìn)行空間上的聚類,見圖3.當(dāng)點(diǎn)c不在以lab為直徑的圓內(nèi)時,點(diǎn)a與點(diǎn)b視為鄰近點(diǎn),可以用線連接.
圖3 Gabriel圖
當(dāng)|lab|2≥|lac|2+|lbc|2時,點(diǎn)c在圓內(nèi);
當(dāng)|lab|2<|lac|2+|lbc|2時,點(diǎn)c在圓外;
利用Gabriel圖進(jìn)行空間位置關(guān)系分析時,先在地塊內(nèi)把所有滿足Gabriel圖的條件的建筑物點(diǎn)連接起來,再通過設(shè)定閾值來判定是否需要斷開兩點(diǎn)之間的連接,由此可以得到多個空間上獨(dú)立的建筑群,且建筑群內(nèi)的建筑可以視為同一類型.閾值可以通過距離大小、建筑物特征差異來設(shè)定.若超過一定距離時,則需要斷開連接.當(dāng)距離在閾值內(nèi),但建筑物的特征差異顯著,則需要斷開連接.閾值的設(shè)定需要反復(fù)試驗(yàn),最終取能夠使分類精度達(dá)到最大的那個值.
建筑物數(shù)據(jù) 建筑物數(shù)據(jù)來源于商業(yè)機(jī)構(gòu),總共有24 544條,覆蓋范圍為整個武漢市江岸區(qū).每條數(shù)據(jù)包含8個字段:ID、建筑面積、建筑底面積、建筑周長、建筑樓層數(shù)、周長面積比、經(jīng)度、緯度,見圖4.
原始建筑物數(shù)據(jù)中,單個建筑物可能由于局部高度不同而被分成若干個建筑物,因此需要先將建筑物進(jìn)行融合.具體操作可以在ArcGIS軟件中進(jìn)行.建筑物融合后一些屬性發(fā)生改變,如建筑面積、周長、底面積為融合前各個建筑物的總和.
3.3.1特征提取
在融合建筑物后,對建筑物進(jìn)行形態(tài)分析,提取各種建筑物相關(guān)特征.在ArcGIS中,利用建筑物數(shù)據(jù),找出建筑物的最小幾何邊界即封閉建筑物的面積最小的矩形、封閉建筑物的最小凸面、封閉建筑物的寬度最小的矩形及某建筑物的包絡(luò)矩形等,將得到的屬性加到建筑物的原有屬性中.最終得到特征見表2的特征向量.
表2 特征向量表
3.3.2選擇樣本
經(jīng)過數(shù)據(jù)預(yù)處理和特征提取后,在建筑物數(shù)據(jù)集中選擇樣本.由于原始建筑物數(shù)據(jù)中沒有建筑物的類別,因此需要對照百度街景地圖和Google實(shí)景地圖來對建筑物進(jìn)行標(biāo)注,最后得到593個樣本.將樣本按8∶2的比例分為訓(xùn)練集和測試集.分別對訓(xùn)練集和測試集的特征向量做歸一化處理,使特征值的量綱一致,見表3.
表3 訓(xùn)練樣本表
3.3.3訓(xùn)練單模型
訓(xùn)練模型所用的決策樹、SVM、隨機(jī)森林算法來源于sklearn機(jī)器學(xué)習(xí)包.算法的主要參數(shù)值均通過貪心的思想來獲得,即取能使精度達(dá)到最高的參數(shù)值.在訓(xùn)練集上訓(xùn)練各個模型,并在測試集上進(jìn)行結(jié)果比較.各個算法的主要參數(shù)見表4~6.
表4 決策樹主要參數(shù)值
表5 SVM主要參數(shù)值
表6 隨機(jī)森林主要參數(shù)值
利用貪心的思想,不斷嘗試擁有不同數(shù)量子樹的隨機(jī)森林,找到能使結(jié)果精度達(dá)到最高的子樹數(shù)量.子樹數(shù)量與測試精度的關(guān)系圖見圖5.由圖5可知,在子樹數(shù)量達(dá)到25和37時,精度最高.子樹數(shù)量過多會使得模型過于復(fù)雜,因此選取25棵子樹.
圖5 子樹數(shù)量與精度變化
經(jīng)過訓(xùn)練后,將得到的模型在測試集上進(jìn)行實(shí)驗(yàn),得到各個算法的精度指標(biāo)見表7.
表7 算法精度表
由表7可知,三種算法的精度都在0.60以上,其中隨機(jī)森林算法的精度最高為0.71,模型的kappa系數(shù)為0.64,說明模型具有較好的一致性.
3.3.4訓(xùn)練融合模型
以上述決策樹、SVM、隨機(jī)森林算法為基礎(chǔ),利用3折交叉驗(yàn)證方法,訓(xùn)練出三個基礎(chǔ)模型.利用貪心算法來計算三個模型的權(quán)重值,取訓(xùn)練時測試數(shù)據(jù)集預(yù)測結(jié)果精度最高時所對應(yīng)的系數(shù).融合模型中的Logistic Regression模型的參數(shù)見表8.融合模型精度值變化見圖6,在系數(shù)為0.11,0.27,0.62時模型精度達(dá)到最高,精度為0.80.預(yù)測結(jié)果的混淆矩陣見表9.
表8 Logistic Regression主要參數(shù)值
圖6 融合模型精度變化
表9 融合模型的混淆矩陣
從融合模型的分類的結(jié)果來看,其分類精度達(dá)到了0.80.與單模型中的隨機(jī)森林模型相比,分類精度提高了0.09.其原因在于融合模型通過二級模型的訓(xùn)練,減少了單個模型預(yù)測結(jié)果的片面性對結(jié)果精度的影響,因而其分類精度得到提高.從融合模型的混淆矩陣中可以看出,融合模型居住類型、工業(yè)物流類型的判斷十分準(zhǔn)確.
3.3.5空間位置關(guān)系分析
對建筑物初步分類后,用Gabriel圖來判斷建筑物之間的鄰近關(guān)系,并結(jié)合建筑物的底面積、建筑面積及樓層數(shù)進(jìn)行判斷.Gabriel圖中點(diǎn)a與點(diǎn)b之間的距離需要設(shè)定閾值,若兩點(diǎn)之間的距離超過了閾值,則需要將將圖中a,b兩點(diǎn)之間的連線斷開,即點(diǎn)a與點(diǎn)b雖然在空間上是最近的,但由于距離太遠(yuǎn)而不能被認(rèn)為是相鄰的兩個建筑物.通過試驗(yàn)得到每個條件的取值與結(jié)果關(guān)系見圖7.
圖7 閾值取值與結(jié)果
由圖7可知,空間位置關(guān)系分析與特征差異閾值結(jié)合后,產(chǎn)生鄰近關(guān)系的判斷條件,即當(dāng)滿足樓層數(shù)差異超過6層,底面積差異大于2 000 m2,建筑面積差異大于4 000 m2,距離大于100 m中的任意一個條件時,在Gabriel圖中應(yīng)該將兩點(diǎn)之間的連線斷開.
條件閾值判斷前后建筑物的連接關(guān)系見圖8.由圖8可知,條件閾值使得屬性差異較大的建筑物的連接關(guān)系中被刪除,剩下的建筑物距離相近,屬性也相似,因此更有可能是同一類型的建筑物.
圖8 閾值判斷前后的連接關(guān)系
對測試集的輸出結(jié)果進(jìn)行上述的空間位置關(guān)系分析,將建筑物間的距離閾值定為100 m,建筑物的底面積差異閾值定為2 000 m2,將建筑物的建筑面積定為4 000 m2,將建筑物的樓層數(shù)差異定為6層.經(jīng)過空間位置關(guān)系分析后,得到建筑物的鄰近關(guān)系.采用投票的方法選出互相臨近的建筑物中,數(shù)量最多的那種建筑物類型作為該建筑群中所有建筑物的類型.經(jīng)過實(shí)驗(yàn)后,測試集的分類精度從原來的0.80提升到0.83.
輸出誤分類糾正后的混淆矩陣見表10.由表10可知,經(jīng)過誤分類糾正后居住類類、商業(yè)辦公類建筑物的分類精度有了較小的提升.
表10 誤分類前后的情況對比個
1) 本研究基于Stacking思想對決策樹、SVM、隨機(jī)森模型進(jìn)行融合,并利用LogisticRegression模型作為二級模型對城市土地利用類型進(jìn)行預(yù)測.該融合模型可以有效地提高分類精確度,精度最高達(dá)0.80.最后通過空間位置關(guān)系分析對分類結(jié)果進(jìn)行糾正,使得精度進(jìn)一步提高到0.83.
2) 與其他相關(guān)研究相比,本研究在對城市土地利用類型進(jìn)行分類時,將分類單元精細(xì)化到建筑物層面,從而極大得提高了土地利用信息的精細(xì)度,實(shí)現(xiàn)了為土地交通整體規(guī)劃模型提供精細(xì)的土地利用信息.
3) 由于數(shù)據(jù)的短缺,本研究提取的特征種類有限,更多的是從建筑物本身物理特征中衍生出新特征.在之后的研究中,可以增加數(shù)據(jù)的種類,從而提取豐富的特征來表示各種建筑物.比如,可以使用建筑物的紋理、滲透性等數(shù)據(jù).