国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高速公路貨車收費數(shù)據(jù)庫的全息樣本遴選

2021-01-22 02:01:20黃秋實
關(guān)鍵詞:全息相似性收費

馬 暕, 黃秋實

(長安大學 經(jīng)濟與管理學院,西安 710064)

一、引言

在統(tǒng)計學范疇,很多時候研究者無法選擇所有數(shù)據(jù)進行調(diào)查,一般采用從整體中抽取樣本進行調(diào)研。抽樣即為了得到總體的某些特征及分布信息,按照一定規(guī)則,從總體中抽取若干個體進行觀察實驗的方法,抽取的個體即樣本。定理表明,當樣本容量足夠大時,樣本分布函數(shù)依概率收斂于總體分布函數(shù),這是用樣本推斷總體的理論依據(jù)。在目前的高速公路流量分析研究中,雖然大數(shù)據(jù)技術(shù)已不斷完善,但考慮到處理海量數(shù)據(jù)的冗繁性,大而全的數(shù)據(jù)并不一定比合理的樣本數(shù)據(jù)對流量分析研究更加方便,反而會在一定程度上造成人力、物力的浪費,這一點在下文處理國內(nèi)某省全年的高速公路收費流水數(shù)據(jù)庫時就有所體現(xiàn),因此抽樣仍是一種必不可少的研究手段。在目前的主流抽樣方式中,對樣本的選擇有一套傳統(tǒng)的方法,但這些選擇方法在實際高速公路流量分析中適用性不強,也很少有研究者能夠嚴格按照要求進行,樣本選擇存在一定的隨機性,導致分析結(jié)果存在一定程度的偶然性。針對此情況,從大數(shù)據(jù)角度出發(fā),運用大數(shù)據(jù)的處理方法,壓縮全年數(shù)據(jù),盡可能將完整的數(shù)據(jù)庫壓縮到一個可接受的最小樣本范圍,如果這個樣本能夠完整反映數(shù)據(jù)庫中的全部有用特征,壓縮后的樣本可認為是理想中的全息樣本。尋找到這個全息樣本,就可以在以后的高速公路流量分析中達到便于處理且真實反映全體特征的目的,有效節(jié)約人力、物力。

為了解決這個問題,本文主要論證如何選擇一個最能代表全年流量特征的全息樣本,以國內(nèi)某省高速路網(wǎng)一年的完整數(shù)據(jù)來分析,利用Python、SPSS、Matlab等軟件,找出一個能夠代表全年趨勢與特點的全息樣本,作為日后高速公路流量分析的數(shù)據(jù)樣本。確定樣本容量時,考慮到實際工作中使用的便捷與分析的直觀,選擇自然月份這一時間范圍作為樣本容量,在此基礎上將全年十二個月的數(shù)據(jù)單獨提取整理。為能全面反映交通流量的多維度特征,從數(shù)據(jù)庫中將字段分類,建立基于時間結(jié)構(gòu)、空間結(jié)構(gòu)、軸型結(jié)構(gòu)三個維度的相似評價體系,進而計算三種維度下的各月和周及天分時段車輛到達數(shù)據(jù)、OD分布數(shù)據(jù)、車軸組成數(shù)據(jù)與全年對應數(shù)據(jù)之間的距離接近度及形狀相似度,并通過熵值法賦予距離接近度和形狀相似度相應的權(quán)重,整合數(shù)據(jù),定義出不同樣本與全年數(shù)據(jù)之間的離散度。根據(jù)計算出的離散度,對不同樣本與全年的相似性排序,離散度最低的樣本可認為是符合要求的全息樣本。

關(guān)于高速公路收費流水數(shù)據(jù)庫全息樣本的研究,有不少學者研究與探討了高速公路收費數(shù)據(jù)庫與數(shù)據(jù)相似性度量。在高速公路收費數(shù)據(jù)庫研究方面,有的學者分析與高速公路流量相關(guān)的數(shù)據(jù)指標類型,有的運用收費數(shù)據(jù)庫進行預測分析研究。王維鳳等研究與公路流量關(guān)聯(lián)度較高的主要指標,并進行預測[1-2]。袁長偉對高速公路中的貨車流提出收費車型結(jié)合軸型的組合分層統(tǒng)計方法[3]。楊潔等采用動態(tài)時間彎曲距離作為相似性度量指標,分析城市干道交通流量信息[4]。楊春霞等以短時交通流預測為切入點,分析了流量數(shù)據(jù)[5-11]。胡閏秀和李夢雪提出基于收費數(shù)據(jù)的車型數(shù)據(jù)轉(zhuǎn)換方法來計算斷面交通量[12]。

而針對高速公路收費數(shù)據(jù)庫中的數(shù)據(jù),主流的定義更多是將其歸類到時間序列數(shù)據(jù)來討論,本文所探討的全息樣本遴選可認為是在高速公路收費數(shù)據(jù)庫中進行時間序列數(shù)據(jù)的相似性探究。自Agrawal等首次提出使用離散傅里葉變換將時間序列的時間域轉(zhuǎn)換為頻率域,并將其應用于時間序列相似性搜索開始,時間序列數(shù)據(jù)相似性度量的研究方法越來越豐富[13]。董曉莉等研究基于形態(tài)相似距離的時間序列相似性度量方法,并給出相應的距離公式,以度量時間序列的相似性[14-16]。弓晉麗針對城市道路交通流數(shù)據(jù),討論5種模式相似性距離的聚類效果[17]。陳海燕等綜述了常用的相似性度量方法[18]。董建華等主要通過PAC來判斷水質(zhì)相似度[19]。周永通過用戶簽到數(shù)據(jù)描繪用戶的軌跡路線,并對其興趣區(qū)域進行相似性度量[20]。Cha等為了獲得更多關(guān)于數(shù)據(jù)模式和特征的信息,考慮用一個帶冪的模糊測度來測算相似度[21]。李建勛等將時空數(shù)據(jù)趨勢狀態(tài)表征為圖像的結(jié)構(gòu)信息,以趨勢面圖像之間的相似度來表征時空數(shù)據(jù)的相似度[22]。Clapper等通過控制兩個結(jié)構(gòu)上可對齊的對象共享部分的比例,來確定相似性是否會對自由分類產(chǎn)生分級影響[23]。Liu Dong等基于相似性的偏好順序技術(shù),提出基于加權(quán)馬氏距離和灰色關(guān)聯(lián)分析的理想解決方案評估模型[24]。王慧通過面板數(shù)據(jù)的接近性和相似性判斷關(guān)聯(lián)度的方法進行公理化的證明[25]。

通過相關(guān)文獻的分析可以發(fā)現(xiàn),關(guān)于高速公路收費數(shù)據(jù)庫研究中,研究者多是直接運用數(shù)據(jù)庫或根據(jù)主觀判斷選擇樣本進行研究與分析,沒有學者系統(tǒng)討論樣本的選擇,這一現(xiàn)象在眾多的交通調(diào)查中非常普遍。關(guān)于時間序列數(shù)據(jù)相似性度量研究中,大多處于相似性證明方法的探究,屬于方法論的層面,未將時間序列數(shù)據(jù)相似性度量與具體的現(xiàn)實問題結(jié)合。針對這兩方面的問題,將時間序列數(shù)據(jù)的相似性探討運用到高速公路收費數(shù)據(jù)庫的樣本尋找中是本文擬討論的問題。通過現(xiàn)有較為成熟的距離接近度與形狀相似度兩種相似性度量方法,壓縮高速公路貨運收費流水數(shù)據(jù)庫,探尋能夠表示全年特征的最小全息樣本,從而為今后的交通流量分析研究提供一個合理的樣本選擇策略。

二、基礎概念

(一)全息樣本

全息片段概念用在高速公路交通流量分析領(lǐng)域,主要意在尋找一個可以代表全年交通流量特征的時間片段。尋找的這個時間片段要能代表這一年中交通流的各方面數(shù)據(jù)特征,例如到達時間分布、車軸結(jié)構(gòu)、OD數(shù)據(jù)分布等。樣本若想代表全年的交通流量特征,僅憑某一維度的數(shù)據(jù)衡量是不夠的,本文討論的全息樣本應基于多個維度的數(shù)據(jù)支持之上。倘若這個時間段的數(shù)據(jù)均符合要求,就可以把這個時間段稱為“全息樣本”。全息樣本的確定可以使研究者選取樣本時,能夠盡可能地排除主觀因素的影響,且不用對整體冗繁的數(shù)據(jù)再次篩選分析,大大節(jié)約交通預測過程中的人力、物力。在具體分析過程中,出于現(xiàn)實預測便于使用需要,也為了使結(jié)果更直觀且易于檢測,分別以月份、周數(shù)、天數(shù)為樣本區(qū)間來劃分一年的數(shù)據(jù),并以此求取分析離散度結(jié)果。

(二)形狀相似度與距離接近度

針對時間序列數(shù)據(jù)進行相似度分析,可采用灰色關(guān)聯(lián)分析基本思想中的兩大類方法:一是根據(jù)時間數(shù)據(jù)序列曲線幾何形狀的相似程度來判斷關(guān)聯(lián)程度的大小,二是根據(jù)時間數(shù)據(jù)序列的接近程度來判斷關(guān)聯(lián)程度的大小。對于空間中的向量而言,一方面向量夾角越小,表示相似程度越高,關(guān)聯(lián)程度越大;另一方面,兩向量之差的模長越小,表示兩組數(shù)據(jù)間的距離越小,關(guān)聯(lián)程度越大。因此,可以利用向量夾角和向量差的模長來描述相似性與接近性關(guān)聯(lián)度。

對兩組向量數(shù)據(jù)之間的夾角即形狀相似度可通過公式(1)計算

(1)

對兩組向量數(shù)據(jù)的模長即距離接近度可通過公式(2)計算

(2)

在上述公式中,表示兩條向量之間的內(nèi)積;‖xi(s)‖表示向量的模長;xi(0)表示全年度的年平均數(shù)據(jù)。

根據(jù)這些理論,對兩組面板數(shù)據(jù)之間的相似判斷分為數(shù)值接近度與形狀相似度兩個角度討論。對數(shù)值型數(shù)據(jù)主要根據(jù)歐氏距離討論兩組數(shù)據(jù)之間的接近程度,對比例型數(shù)據(jù)則主要根據(jù)向量夾角來討論兩組數(shù)據(jù)之間的形狀相似程度,并將得出的兩組結(jié)果進行熵值法加權(quán),得出樣本評分加以對比。

(三)離散度

采用上述方式處理數(shù)據(jù)后,通過熵權(quán)法確定不同維度形狀相似度與距離接近度的權(quán)重,并加權(quán)得到修正后的樣本相似度評分。

由于各項指標的計量單位不統(tǒng)一,在計算綜合指標前,先進行標準化處理,即把指標的絕對值轉(zhuǎn)化為相對值,從而解決各項指標的同質(zhì)化問題??紤]到Matlab進行熵值法運算時的適用性問題,選擇正向極值法作為標準化方法,如公式(3)所示

(3)

通過這種方法標準化的數(shù)據(jù)雖然一定程度上保留了原數(shù)據(jù)的差異化,但因為距離接近度與形狀相似度兩個數(shù)據(jù)屬于負向數(shù)據(jù),數(shù)值越大,表示對應的關(guān)聯(lián)度越低,因此將相似度評分計算結(jié)果定義為離散度,這一數(shù)值與關(guān)聯(lián)度相對應,離散度數(shù)值越大,表示關(guān)聯(lián)度越低,反之亦然。

三、數(shù)據(jù)說明與相似評價指標體系構(gòu)建

(一)數(shù)據(jù)說明

高速公路收費站數(shù)據(jù)以車輛在高速公路兩收費站間的一段行程作為一個體,數(shù)據(jù)中包括車輛的眾多運行信息,但其中有部分數(shù)據(jù)與流量分析相關(guān)性不強。整理與選擇數(shù)據(jù)庫中的可用數(shù)據(jù),表1為一個體中的有用數(shù)據(jù)字段。

表1 國內(nèi)某省高速收費公路數(shù)據(jù)字段說明

(二)相似評價指標體系構(gòu)建

基于全息樣本的多特征要求,本文考慮根據(jù)收費公路數(shù)據(jù)庫中字段,選擇構(gòu)建全息樣本相似評價指標體系。指標選擇方法主要根據(jù)分析中常用的“5W1H”法,即“Why、What、Where、When、Who、How”,并結(jié)合交通流量的實際特征與數(shù)據(jù)庫數(shù)據(jù)的具體內(nèi)容,考慮到運輸目的、運送人員、運輸貨物內(nèi)容等與本研究的契合度較低,且在收費數(shù)據(jù)庫中難以量化,選擇根據(jù)時間結(jié)構(gòu)、空間結(jié)構(gòu)、軸型結(jié)構(gòu)三個維度來構(gòu)建全息樣本相似評價指標體系。

圖1 評價指標體系

其中,由入口時間整理出來的平均分時段車輛到達數(shù)可作為時間結(jié)構(gòu)維度的主要考量數(shù)據(jù),即何時車輛進入收費站;由入口站點與出口站點整理出來的OD分布數(shù)據(jù)可作為空間結(jié)構(gòu)維度的主要考量數(shù)據(jù),即車輛由哪來、到哪去的問題;針對車輛運行的多個要素,如車型、車軸、車重等,考慮到近期國家提出的將收費方式轉(zhuǎn)變?yōu)榘摧S型收費的政策,選擇車軸分布數(shù)據(jù)作為最后一個要素維度,也就是軸型結(jié)構(gòu)維度的考量數(shù)據(jù),這一評價指標在一定程度上能夠代表運送貨物的車輛自身信息與車重信息。根據(jù)相關(guān)指標,確定后的全息樣本相似評價指標體系如圖1所示。

若兩組高速公路收費流水數(shù)據(jù)在三個維度的數(shù)據(jù)分布上均表現(xiàn)為距離接近、角度相似,就可以認為兩組數(shù)據(jù)符合相似性的定義。

四、實例分析

全息樣本討論以國內(nèi)某省2017年11月—2018年10月為期一年的27 330 513條高速公路貨運收費流水數(shù)據(jù)為依據(jù)進行分析。

(一)全息“月份”遴選

針對國內(nèi)某省為期一年的高速公路貨運收費流水數(shù)據(jù),排除一些錯誤數(shù)據(jù)后,運用SPSS軟件,以小時為單位,統(tǒng)計月平均分時段車輛到達數(shù)、月平均OD分布數(shù)據(jù)(175*156型矩陣)、月平均車軸構(gòu)成數(shù)據(jù)。對數(shù)據(jù)進行比例處理,因篇幅有限,具體數(shù)值及處理結(jié)果略。依據(jù)公式(1)(2),求取三個維度各月份與全年數(shù)據(jù)之間的距離接近度和形狀相似度,兩者用角度與距離表示,結(jié)果見表2。

表2 三維度平均形狀相似度與距離接近度數(shù)據(jù)(月)

針對表2的數(shù)據(jù),時間維度數(shù)據(jù)與結(jié)構(gòu)維度數(shù)據(jù)采用熵值法,對角度與距離進行加權(quán)運算,得出對應維度離散度得分,空間維度因OD矩陣無法求取角度數(shù)據(jù),故對OD數(shù)據(jù)距離結(jié)果進行歸一化處理,與其余兩維度保持統(tǒng)一度量。處理方式如下

(4)

處理后離散度得分見表3。

表3 三維度離散度得分(月)

圖2 三維度月離散度得分

由圖2可以發(fā)現(xiàn),三個維度雖然大致趨勢類似,但離散度最大和最小的月份有出入。其中,時間維度離散度最高的是二月,離散度最低的是三月;空間維度離散度最高的是九月,離散度最低的是四月;結(jié)構(gòu)維度離散度最高的是二月,離散度最低的是六月。這說明如果不是特定的研究需要,任意單一維度對全年的代表性均有一定瑕疵,不能完整反映交通流量的所有特征。綜合考慮三個維度,進行全息樣本遴選。

針對這個問題,對表3中的三個維度數(shù)據(jù)進行熵權(quán)法賦權(quán)處理,得到表4和表5。

表4 各指標權(quán)重得分(月)

表5 綜合維度離散度得分(月)

將表5的離散度得分反映到圖3。

圖3 綜合維度月離散度得分

由圖3可以發(fā)現(xiàn),三月是與全年離散度最低的月份,其次是四月與五月,而二月的數(shù)據(jù)則與全年數(shù)據(jù)有著較大的差別。在具體研究中,為了更精確的研究,可以采用三月的數(shù)據(jù)代表全年數(shù)據(jù)進行預測。

為驗證上文得出的結(jié)論,擬對幾個典型月份與全年數(shù)據(jù)進行圖表描述對比。通過分析全年各月份的離散度,決定選用一月、二月、三月、五月、九月、十一月的數(shù)據(jù)與全年對比,以便更直觀地體現(xiàn)全息月份的擬合度??梢园l(fā)現(xiàn),三月、五月與全年數(shù)據(jù)有較高擬合度,而離散度最高的二月則在數(shù)據(jù)量上差別較大,但趨勢均類似。

(二)全息“周”遴選

與全息月份遴選過程類似,繼續(xù)細分時間區(qū)間,根據(jù)常用日期所示的自然周進行相似度分析,即將2018年1月1—7日作為一周,結(jié)果見表6。

表6 三維度平均形狀相似度與距離接近度數(shù)據(jù)(周)

續(xù)表

針對表6的數(shù)據(jù),通過熵值法確定權(quán)重,得到表7和表8。

表7 各指標權(quán)重得分(周)

表8 綜合維度離散度得分(周)

考慮到周一級數(shù)據(jù)量較大,故將三維度獨自離散度數(shù)據(jù)整理,并結(jié)合表8,得到圖4所示離散度得分比較。

圖4 綜合維度周離散度得分

由表8可知,綜合維度下第8周離散度最大,第18周離散度最小,這一時間范圍的確定進一步佐證了全息月份遴選結(jié)果的可靠性,全息周樣本時間范圍與全息月樣本時間范圍出入不大。該全息樣本主要適用于可選數(shù)據(jù)區(qū)間較小時采用。在交通調(diào)查中,若只調(diào)查某一周數(shù)據(jù)來描述全年交通流狀態(tài),應避開6—10周這一區(qū)間,著重考慮第18周附近數(shù)據(jù)。

(三)全息“天”遴選

除全息月份、全息周樣本外,交通調(diào)查中最常用的是抽一周內(nèi)某一天去觀察交通流狀態(tài)。為了使樣本能夠更好地貼近顯示數(shù)據(jù),選擇周幾是一個很重要的問題。主要對全年數(shù)據(jù)按周幾屬性歸類,分“周一、周二、周三、周四、周五、周六和周天”七天進行離散度分析。具體計算過程同上文所述。

表9 三維度平均形狀相似度與距離接近度數(shù)據(jù)(天)

根據(jù)表9,通過熵值法確定權(quán)重,得到表10和表11。

表10 各指標權(quán)重得分(天)

表11 綜合維度離散度得分(天)

將表11計算的天離散度得分反映到圖5和圖6。

圖5 三維度天離散度得分

圖6 綜合維度天離散度得分

相較于全息月份與全息周,全息天的結(jié)果更明確。其中,在綜合維度下,周一是離散度最小的一天,周天的離散度則相對最大,與實際的認知相契合。故在實際交通調(diào)研全樣本中,若只能選取某一天的樣本進行交通流描述或預測,最好選取周一的數(shù)據(jù)。

五、結(jié)論與展望

(一)結(jié)論

通過對國內(nèi)某省高速公路收費站流水數(shù)據(jù)庫貨車數(shù)據(jù)的分析,測算每月貨車流量數(shù)據(jù)與全年貨車流量數(shù)據(jù)之間的離散度值,對月份排序,得出一個較為符合事實的全息樣本。

第一,建立一個基于時間結(jié)構(gòu)、空間結(jié)構(gòu)、軸型結(jié)構(gòu)三種維度的評價體系,并在高速公路收費站流水數(shù)據(jù)庫中,針對每個維度選擇一個較有代表性的字段作為分析比對字段。

第二,根據(jù)實際工作中的使用需要與可度量性,依次以自然月份、周、天為樣本時間區(qū)間,測算全息樣本離散度大小。

第三,探討不同維度下的全息樣本選擇方案,為特定目的的研究提供樣本選擇方案。并針對單維度衡量失真的情況,通過熵值法科學地對不同維度賦予權(quán)重,綜合得到各樣本在相似評價指標體系下的綜合離散度,為交通研究提供可靠的樣本選擇依據(jù)。

第四,綜合考慮評價體系中的三種維度后,在樣本區(qū)間為月份時,三月是作為全息樣本的最佳選擇,其次是四月、五月等離散度較低的月份,且其中離散度特別高的二月、一月不應作為樣本選取的考慮范圍。此外,在全息周的遴選過程中,第8周離散度最大,第18周離散度最小,這一時間范圍與以月份為樣本區(qū)間時遴選的結(jié)果出入不大。當著重考慮一周內(nèi)的哪一天更適合作為樣本時,在測算結(jié)果中發(fā)現(xiàn)周一是離散度最小的一天,周天的離散度則相對最大。

(二)展望

通過系統(tǒng)討論與分析,對各月與全年的相似程度進行度量,仍存在一些繼續(xù)研究的方向。第一,在實例分析中主要數(shù)據(jù)是國內(nèi)某省全年兩千萬余條數(shù)據(jù),數(shù)據(jù)量充足,但作為時間序列數(shù)據(jù)方面,時間跨度僅一年,涉及區(qū)域僅一省,成果存在一定程度的偶然性,可尋找更多年份、更多省份數(shù)據(jù)對現(xiàn)有結(jié)論進行佐證,得到普適性的結(jié)論。第二,目前研究主要是針對貨運數(shù)據(jù),若數(shù)據(jù)庫充足,可考慮分析客運數(shù)據(jù),并比價討論客貨運的區(qū)別。第三,全息月份是基于實際需要確定的最佳樣本選擇,后續(xù)在學術(shù)研究方面可通過時間序列數(shù)據(jù)的遍歷算法,尋找與全年數(shù)據(jù)庫相似度最高的最短全息樣本。

猜你喜歡
全息相似性收費
一類上三角算子矩陣的相似性與酉相似性
全息? 全息投影? 傻傻分不清楚
軍事文摘(2022年8期)2022-05-25 13:29:10
行政法上之不利類推禁止*——以一起登記收費案為例
法律方法(2021年4期)2021-03-16 05:35:10
淺析當代中西方繪畫的相似性
河北畫報(2020年8期)2020-10-27 02:54:20
全息欣賞:小學美術(shù)“欣賞·評述”學習新樣態(tài)
論高速公路收費服務水平的提高和收費服務設施的完善
中國公路(2017年10期)2017-07-21 14:02:37
Python與Spark集群在收費數(shù)據(jù)分析中的應用
全息技術(shù)在公共景觀設計中的應用研究
低滲透黏土中氯離子彌散作用離心模擬相似性
全息影像造就“立體新聞”——全息影像技術(shù)在傳媒領(lǐng)域中的應用
中國記者(2014年9期)2014-03-01 01:45:37
新巴尔虎右旗| 辽宁省| 鞍山市| 百色市| 上高县| 定西市| 民勤县| 香格里拉县| 申扎县| 肇东市| 宁乡县| 嘉峪关市| 息烽县| 姜堰市| 太康县| 贡嘎县| 奇台县| 颍上县| 和龙市| 龙井市| 呼和浩特市| 鹤山市| 海丰县| 红安县| 沈丘县| 定南县| 桦南县| 牙克石市| 宁蒗| 洪湖市| 娄烦县| 锡林浩特市| 怀来县| 百色市| 宝坻区| 武城县| 西畴县| 界首市| 三门县| 饶阳县| 平泉县|