国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于手機(jī)信令數(shù)據(jù)的用戶出行方式識別

2021-06-30 06:47:44曹曉蕊賴麗娜孟品超
關(guān)鍵詞:信令基站軌跡

曹曉蕊,賴麗娜,孟品超

(1.長春理工大學(xué) 理學(xué)院,長春 130022;2.長春市市政工程設(shè)計(jì)研究院,長春 130022)

交通出行方式識別是建立在基于位置的服務(wù)技術(shù)、智能終端設(shè)備基礎(chǔ)之上的一個新興的研究領(lǐng)域。通過識別用戶出行方式,可以掌握居民出行行為規(guī)律,分析交通狀況、緩解交通擁堵,針對車流量和人流量進(jìn)行規(guī)劃和調(diào)度,促進(jìn)城市交通系統(tǒng)的健康發(fā)展。

手機(jī)信令數(shù)據(jù)中包含用戶的時空信息,從中挖掘出的用戶軌跡數(shù)據(jù)作為移動對象的歷史活動數(shù)據(jù),可以提取出速度、加速度、出行時長、出行方式段距離等屬性信息,越來越多的國內(nèi)外學(xué)者開始將其運(yùn)用到出行方式識別領(lǐng)域。Anderson[1]采用隱馬爾可夫模型,以手機(jī)信號的強(qiáng)弱為依據(jù)判定目標(biāo)的出行方式,準(zhǔn)確率較低。S.Reddy等人[2]利用GPS與加速度傳感器獲得的特征數(shù)據(jù),構(gòu)建決策樹模型識別出行方式,并且通過實(shí)驗(yàn)對該方法的有效性進(jìn)行了驗(yàn)證。LeonStenneth等人[3]以GPS和GIS技術(shù)為基礎(chǔ),結(jié)合隨機(jī)森林算法進(jìn)行出行方式的識別研究,具有較高的識別準(zhǔn)確率。張鶴鵬等人[4]建立C4.5決策樹模型,從移動終端用戶的出行軌跡中選出速度、速度的百分位數(shù)、軌跡點(diǎn)數(shù)量占比、出行距離、停止率作為特征變量,判別用戶的出行方式,模型在區(qū)分機(jī)動車和非機(jī)動車時準(zhǔn)確率達(dá)到了90%以上。易立[5]基于智能手機(jī)采集數(shù)據(jù),結(jié)合改進(jìn)隨機(jī)森林算法設(shè)計(jì)了一個出行方式識別系統(tǒng),利用該系統(tǒng)可以進(jìn)行地鐵、自駕、公交車、自行車、跑步、步行、靜止七種出行方式的準(zhǔn)確識別。汪磊等人[6]基于智能手機(jī)采集的居民出行軌跡信息,提取用于識別不同出行方式的特征向量,最后建立了徑向基核函數(shù)支持向量機(jī)(SVM)分類器,并且以決策樹、BP神經(jīng)網(wǎng)絡(luò)為對照,結(jié)果表明SVM具有更好的識別性能。閆彭[7]利用AGPS手機(jī)捕捉出行者出行軌跡,并建立BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對步行、小汽車、公交車三種出行方式的識別。

考慮到聚類算法具有較強(qiáng)學(xué)習(xí)能力,同時基于各種出行方式,在出行距離、出行時耗、出行速度上具有“存在顯著差異但無法嚴(yán)格區(qū)分”的特征,本文將模糊推理與聚類算法結(jié)合,提出基于改進(jìn)模糊C均值聚類算法的出行方式識別模型,采用手機(jī)信令數(shù)據(jù),進(jìn)行用戶出行方式的判定。

1 用戶出行軌跡的獲取

出行軌跡是分析用戶出行行為、挖掘用戶出行特征的基礎(chǔ),基于手機(jī)信令數(shù)據(jù)、市區(qū)基站數(shù)據(jù)、開源地圖網(wǎng)站OpenStreetMap上的路網(wǎng)數(shù)據(jù),進(jìn)行道路匹配,可以將用戶實(shí)際的基站定位數(shù)據(jù)映射到直觀的數(shù)字地圖上,得到較為精確的用戶出行軌跡。

1.1 數(shù)據(jù)的層次化清洗

從通信網(wǎng)絡(luò)中獲取的手機(jī)信令數(shù)據(jù),包括加密手機(jī)卡號、時間戳、基站小區(qū)編號等字段,市區(qū)基站數(shù)據(jù)存儲在運(yùn)營商的蜂窩位置數(shù)據(jù)庫中,包括基站小區(qū)編號、經(jīng)緯度坐標(biāo)、基站范圍、基站類型等字段,將信令數(shù)據(jù)與基站數(shù)據(jù)匹配后的原始數(shù)據(jù)形式如圖1所示,具體數(shù)據(jù)字段含義如表1所示。

圖1 原始數(shù)據(jù)

表1 數(shù)據(jù)字段含義

由于原始手機(jī)信令數(shù)據(jù)量龐大,包含大量“臟”數(shù)據(jù),本文采用層次化清洗方法,具體步驟如下:

(1)將原始用戶信令數(shù)據(jù)與基站數(shù)據(jù)進(jìn)行匹配,保留加密手機(jī)卡號(simId)、日期(date)、時間(time)、基站編號(baseId)、基站經(jīng)度(lon)、基站緯度(lat)6個有效字段,將包含這6個字段的一條數(shù)據(jù)視為一條記錄,記為

(2)對匹配完的數(shù)據(jù)進(jìn)行常規(guī)清洗,刪除包含缺失字段的數(shù)據(jù)以及重復(fù)冗余數(shù)據(jù);

(3)清洗漂移數(shù)據(jù),依據(jù)simId提取單個用戶的所有記錄,依次計(jì)算連續(xù)兩條記錄l1,l2間的時間間隔Δt、距離d、速度v,將得到的速度值v與城市最大交通速度maxv比較,超過maxv則視為漂移數(shù)據(jù),刪除該條記錄;

(4)清洗乒乓數(shù)據(jù),將單個用戶連續(xù)三條記錄作為一個滑動窗口,若窗口中的連續(xù)記錄有如下三種特征:

①baseId發(fā)生改變,即發(fā)生了位置切換;

②第一條和第三條記錄的baseId一樣;

③三條記錄間的總時間間隔小于設(shè)定的閾值 T′。

則認(rèn)為發(fā)生了乒乓切換,需刪除第三條記錄并繼續(xù)滑動窗口,直到處理完所有記錄。

1.2 基于幾何關(guān)系分析算法的道路匹配

手機(jī)信令數(shù)據(jù)用基站定位坐標(biāo)近似代替用戶的實(shí)際位置,由于受到移動數(shù)據(jù)網(wǎng)絡(luò)定位精度的影響,會產(chǎn)生定位偏差,道路匹配是解決該問題的一種有效手段。本文采用“點(diǎn)到點(diǎn)”的幾何關(guān)系分析法,以從用戶記錄li中提取的基站定位坐標(biāo)Oi(l o ni,lati)為圓心,以匹配結(jié)果可接受的誤差值為半徑r,設(shè)定一個候選匹配道路結(jié)點(diǎn)范圍Q,在Q內(nèi)選擇距離Oi(l o ni,lati)最近的道路結(jié)點(diǎn)nodei(l o n′i,lat′i) ,替代用 戶原始的 基站定 位 坐標(biāo)Oi(l o ni,lati),即將nodei視為Oi在道路上的投影點(diǎn),并將用戶記錄更新為l′i={simIdi,datei,timei,baseIdi,lon′i,lat′i} 。 圖 2 展 示 的 是 對 某 一 個 用 戶 軌跡記錄做道路匹配前后的效果對比。

圖2 道路匹配前后對比圖

1.3 用戶出行軌跡的提取

對用戶軌跡點(diǎn)進(jìn)行道路匹配之后,重新計(jì)算任意兩條新記錄 l′1,l′2間的時間間隔 Δt′,距離 d′,速度v′,采用時空DBSCAN聚類算法識別用戶停留點(diǎn)及停留區(qū)域,進(jìn)而獲得用戶出行軌跡。

1.3.1 基于時空DBSCAN算法的軌跡點(diǎn)聚類

時空 DBSCAN(Density-Based Spatial Clustering of Application with Noise)是一種很典型的密度聚類算法,基于一組參數(shù)( )ε,T,MinPts來描述鄰域的樣本分布緊密程度。其中,ε是某一樣本的鄰域半徑閾值,T是時間閾值,MinPts是半徑為ε且時間閾值為T的鄰域中樣本個數(shù)的閾值。對于 用 戶j的 記 錄 集Lj={l ′1j,l′2j,...,l′nj} (j= 1,2,...,J),這三個參數(shù)組成對象l′ij(i=1,2,...,n)的時空鄰域Nε,T(l ′ij) ,鄰域中的樣本個數(shù)記為 Nij,給出如下定義:

核心對象:對于任一樣本 l′ij∈ Lj,如果其時空鄰域 Nε,T(l′ij) 至少包含 MinPts個樣本,即 Nij≥MinPts,則 l′ij是核心對象。

密 度 直 達(dá) :如 果 l′ij位 于 l′jj的 時 空 鄰 域 中 ,且 l′jj是 核 心 對 象 ,則 稱 l′ij由 l′jj密 度 直 達(dá) ,但 此 時 l′jj不由 l′ij密 度直達(dá) ,除非 l′ij也是核心 對象。

密 度 可 達(dá) :對 于 l′ij和 l′jj,如 果 存 在 樣 本 記 錄l′1j,l′2j,...,l′kj,滿 足 l′1j= l′ij,l′kj= l′jj,且 l′k+1j由 l′kj密 度直達(dá),則稱 l′jj由 l′ij密度可達(dá),即密度可達(dá)滿足傳遞 性 ,此 時 的 樣 本 記 錄 l′1j,l′2j,...,l′kj均 為 核 心 對 象 ,因?yàn)橹挥泻诵膶ο蟛拍苁蛊渌麡颖久芏戎边_(dá)。

那 么 ,對 于 用 戶 j的 記 錄 集 Lj={l′1j,l′2j,...,l′nj}(j =1,2,...,J),若任意選擇一個沒有類別的核心對 象 l′xj(x =1,2,...,n)作為種子,找到所有這個核心對象l′xj能夠密度可達(dá)的樣本集合,即得到一個聚類簇cxj,繼續(xù)選擇另一個沒有類別的核心對象l′yj(y =1,2,...,n)去尋找密度可達(dá)的樣本集合,則得到另一個聚類簇cyj,一直運(yùn)行到記錄Lj中的所有核心對象都有類別為止,則得到用戶j的聚類簇集Cj={c1j,c2j,...,cmj}(j =1,2,...,J),m是聚類形成的簇總數(shù)。

1.3.2 用戶軌跡點(diǎn)狀態(tài)的判別

用戶j的每一條記錄l′ij都有一種狀態(tài),即移動狀態(tài)或是停留狀態(tài)。經(jīng)過時空DBSCAN聚類算法處理后,得到用戶j的聚類簇集Cj={ }c1j,c2j,...,cmj(j=1,2,...,J),cij∈Cj( )i=1,2,...,m 可能是多點(diǎn)簇,也可能是單個離群點(diǎn)。由于用戶在移動過程中花費(fèi)時間較長,移動距離較遠(yuǎn),因而不易被聚為一類,故針對聚類結(jié)果,將離群點(diǎn)視為用戶軌跡中的移動點(diǎn),將聚類形成的多點(diǎn)簇視為停留區(qū)域。

停留區(qū)域分為短暫停留和長時停留兩種狀態(tài),給定時間閾值T0,對于停留區(qū)域cij∈Cj,計(jì)算cij內(nèi)軌跡點(diǎn)的最大時間間隔t0,若t0<T0,則判定該停留區(qū)域?yàn)槎虝和A魠^(qū)域,僅保留停留區(qū)域的第一個軌跡點(diǎn)作為停留點(diǎn);若t0≥T0,則判定為長時停留區(qū)域,取區(qū)域內(nèi)所有軌跡點(diǎn)的重心作為該停留區(qū)域的停留點(diǎn),用停留區(qū)域內(nèi)第一個軌跡點(diǎn)被定位的時間作為停留的開始時間,最后一個軌跡點(diǎn)被定位的時間作為停留的結(jié)束時間。

1.3.3 用戶出行軌跡的提取步驟

用戶的一次出行軌跡由兩個停留點(diǎn)及停留點(diǎn)間的所有移動點(diǎn)組成,對于用戶j的記錄集Lj={l ′1j,l′2j,...,l′nj}(j =1,2,...,J),用 戶 出 行 軌 跡 的 提取步驟如下:

(1)利用DBSCAN聚類算法形成聚類簇集Cj={c1j,c2j,...,cmj}(j= 1,2,...,J);

(2)識別軌跡點(diǎn)狀態(tài),對于 ?cij∈ Cj,將離群點(diǎn)記錄視為用戶軌跡中的移動點(diǎn),將聚類形成的多點(diǎn)簇視為停留區(qū)域;

(3)識別停留區(qū)域狀態(tài),給定時間閾值T0,對于停留區(qū)域cij∈Cj,計(jì)算停留區(qū)域cij內(nèi)軌跡點(diǎn)的最大時間間隔t,判斷cij是短暫還是長時停留區(qū)域;

(4)按時間順序排列得到的停留點(diǎn)及移動點(diǎn),依據(jù)OD點(diǎn)原則形成用戶j的出行軌跡序列Pj={p1j,p2j,...,phj}(j= 1,2,...,J),h 是用戶 j形成的軌跡總條數(shù)。

2 基于改進(jìn)模糊C均值聚類算法的出行方式識別模型

基于用戶出行軌跡,本文依據(jù)出行方式的先驗(yàn)知識構(gòu)建初始隸屬度函數(shù),利用馬氏距離取代歐氏距離,提出基于改進(jìn)模糊C均值聚類算法的出行方式識別模型,對步行、自行車、機(jī)動車三種出行方式進(jìn)行識別。

2.1 FCMA聚類分析

2.2 基于改進(jìn)FCMA的用戶出行方式識別模型

傳統(tǒng)的FCMA隨機(jī)初始化隸屬度矩陣U(0),使得對應(yīng)的初始類中心特征矩陣V(0)不具有代表性,可能影響聚類結(jié)果的正確性。本文提出改進(jìn)FCMA,不再隨機(jī)初始化隸屬度矩陣,而是基于先驗(yàn)知識(如表2所示),構(gòu)造每種出行方式在出行距離s、出行時耗t、平均行程速度vˉ上的隸屬度函數(shù),根據(jù)隸屬度函數(shù)計(jì)算初始隸屬度矩陣U(0),從而增大類中心被正確分配到各種出行方式的準(zhǔn)確率,提高算法的運(yùn)行效率。

表2 出行方式出行特征的先驗(yàn)知識

本文選用出行距離s、出行時間t、平均行程速度三種出行特征屬性表征步行、自行車、機(jī)動車三種出行方式,構(gòu)造9個隸屬度函數(shù),分別是:步行的出行距離W(s)、步行的出行時耗W(t)、步行的平均行程速度W()、自行車的出行距離B(s)、自行車的出行時耗B(t)、自行車的平均行程速度B()、機(jī)動車的出行距離C(s)、機(jī)動車的出行時耗C(t)、機(jī)動車的平均行程速度C(),每個隸屬度函數(shù)產(chǎn)生一個對應(yīng)的模糊集合,具體的隸屬度函數(shù)如下:

3 實(shí)驗(yàn)

基于上文提出的算法,本文結(jié)合長春市區(qū)某運(yùn)營商用戶的手機(jī)信令數(shù)據(jù),對步行、自行車、機(jī)動車三種出行方式進(jìn)行識別。

3.1 數(shù)據(jù)來源

所用實(shí)驗(yàn)數(shù)據(jù)是由某通信運(yùn)營商提供的用戶駐留樣本數(shù)據(jù),樣本數(shù)據(jù)包括兩部分,分別是吉林省所有基站數(shù)據(jù)和長春市區(qū)用戶在8月1日00:00至次日00:00產(chǎn)生的24小時手機(jī)信令數(shù)據(jù)。

3.2 參數(shù)設(shè)置

在清洗漂移數(shù)據(jù)時,考慮到長春市區(qū)的地鐵時速在60~80 km/h,故將城市最大交通速度maxv設(shè)為80 km/h。由于市區(qū)內(nèi)的基站密度較大,定位精度范圍一般在300~500 m,本文將候選匹配道路結(jié)點(diǎn)范圍Q的半徑r設(shè)為500 m。

基于交通領(lǐng)域?qū)⒊鲂卸x為居民單程移動距離超過500 m,時間超過15 min的移動行為,故本文將時空DBSCAN聚類算法中的時空鄰域半徑ε設(shè)為500 m,時間閾值T設(shè)為15 min。同時將乒乓數(shù)據(jù)判定的時間閾值T′以及長短時停留區(qū)域判定的時間閾值T0均設(shè)為15 min。而核心對象判斷閾值MinPts的設(shè)置需要考慮到數(shù)據(jù)源中不同手機(jī)用戶的信令數(shù)據(jù)在密度、軌跡點(diǎn)數(shù)量上均有較大差距,同時城區(qū)基站分布密集,故結(jié)合數(shù)據(jù)源的實(shí)際情況將閾值MinPts設(shè)為3。

綜合考慮所有訓(xùn)練結(jié)果,將改進(jìn)模糊C均值聚類算法中的m設(shè)為2.5,迭代終止閾值eps設(shè)為10。

3.3 改進(jìn)FCMA識別結(jié)果分析

在長春市區(qū)范圍內(nèi)隨機(jī)挑選出74名用戶,經(jīng)過數(shù)據(jù)清洗后,保留可用用戶軌跡共1 218條。

3.3.1 識別結(jié)果

74名用戶的單日出行量及出行方式占比統(tǒng)計(jì)如表3所示,表中數(shù)據(jù)顯示的出行量以及各種出行方式的比例構(gòu)成基本合理,其中機(jī)動車出行方式包含公交車、小汽車、輕軌三種出行方式,由于模糊推理基于的先驗(yàn)知識不能很好地區(qū)分這三種出行方式,故本文將這三種出行方式均視為機(jī)動車出行。

表3 出行方式判別結(jié)果

3.3.2 特征分析

考慮到模型識別出的三種出行方式的占比不平衡,以占比最少的機(jī)動車出行方式為基準(zhǔn),抽取60%的記錄,即從三種出行方式的出行記錄中分別隨機(jī)抽取179條記錄,分析三種出行方式的特征變量的分布情況,結(jié)果如圖3-圖5所示。

圖3 三種出行方式出行距離波動范圍

圖4 三種出行方式出行時耗波動范圍

圖5 三種出行方式平均行程速度波動范圍

結(jié)果顯示三種出行方式在出行距離s、出行時耗t、平均行程速度vˉ上的波動范圍較為合理,基本與各種出行方式的先驗(yàn)知識吻合,說明本文提出的改進(jìn)模糊C均值聚類模型適用于出行方式識別問題,模型所得到的出行方式識別數(shù)據(jù)具有一定可靠性,可以為交通領(lǐng)域其他方面的研究提供幫助。

4 結(jié)論

基于移動通信數(shù)據(jù)挖掘用戶出行信息是智能交通領(lǐng)域的一個重要研究方向,隨著智能手機(jī)的廣泛普及以及無線通信技術(shù)的發(fā)展,手機(jī)信令數(shù)據(jù)被廣泛應(yīng)用于交通領(lǐng)域,雖然手機(jī)信令數(shù)據(jù)的定位精度不及GPS定位數(shù)據(jù),但是其獲取成本較低且數(shù)據(jù)量大,更適用于交通領(lǐng)域的研究。

本文采用手機(jī)信令數(shù)據(jù)提出基于改進(jìn)模糊C均值聚類算法的出行方式識別模型,該模型具有較大的靈活性和可擴(kuò)展性,但是由于獲取的出行方式的先驗(yàn)知識有限,僅對步行、自行車、機(jī)動車三種方式進(jìn)行了識別。從用戶的出行軌跡中可以進(jìn)一步計(jì)算出加速度、平均速度期望、方差等特征變量,這些特征變量可以深入細(xì)化機(jī)動車出行方式,識別出公交車、小汽車等出行方式,是未來要深入研究的方向。

猜你喜歡
信令基站軌跡
軌跡
軌跡
SLS字段在七號信令中的運(yùn)用
移動信令在交通大數(shù)據(jù)分析中的應(yīng)用探索
軌跡
基于信令分析的TD-LTE無線網(wǎng)絡(luò)應(yīng)用研究
進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
中國三峽(2017年2期)2017-06-09 08:15:29
可惡的“偽基站”
基于GSM基站ID的高速公路路徑識別系統(tǒng)
LTE網(wǎng)絡(luò)信令采集數(shù)據(jù)的分析及探討
临澧县| 太仆寺旗| 泗水县| 蒲城县| 南皮县| 惠州市| 从江县| 三穗县| 阳山县| 临邑县| 江口县| 蓬溪县| 从化市| 靖江市| 昭平县| 上思县| 霍林郭勒市| 青田县| 临夏县| 泊头市| 双流县| 河曲县| 绥宁县| 阜康市| 阳谷县| 文昌市| 保亭| 金乡县| 西吉县| 本溪市| 扎鲁特旗| 泗水县| 尚志市| 乳山市| 庆云县| 长兴县| 英吉沙县| 潼南县| 廊坊市| 太湖县| 麻江县|