摘 要:隨著移動設(shè)備和傳感器技術(shù)的快速發(fā)展,軌跡大數(shù)據(jù)已成為空間數(shù)據(jù)智能研究的關(guān)鍵數(shù)據(jù)源之一。該領(lǐng)域的研究涵蓋多源軌跡數(shù)據(jù)的獲取、融合、分析以及模式挖掘與知識發(fā)現(xiàn)的完整流程,在智慧城市、交通管理和位置服務(wù)等方面展現(xiàn)出巨大潛力。然而,軌跡數(shù)據(jù)的復(fù)雜性和多樣性帶來了處理、分析和利用方面的諸多挑戰(zhàn)。對軌跡數(shù)據(jù)的獲取與預(yù)處理、數(shù)據(jù)存儲、模式識別、預(yù)測分析等核心方法進(jìn)行了系統(tǒng)討論,總結(jié)了其在各類應(yīng)用場景中的最新進(jìn)展。探討了當(dāng)前研究中存在的主要挑戰(zhàn),對未來的研究方向進(jìn)行展望,為相關(guān)領(lǐng)域提供有價值的參考。
關(guān)鍵詞:空間數(shù)據(jù)智能;軌跡大數(shù)據(jù);數(shù)據(jù)分析
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1003-3106(2024)12-2735-09
0 引言
在信息技術(shù)飛速發(fā)展的今天,移動設(shè)備、傳感器和定位技術(shù)的廣泛應(yīng)用產(chǎn)生了海量的軌跡數(shù)據(jù)。這些數(shù)據(jù)記錄了人們的移動軌跡、行為模式及其與環(huán)境的交互,為理解復(fù)雜的空間行為和提升空間智能提供了寶貴的信息??臻g數(shù)據(jù)智能作為一種新興的研究領(lǐng)域,旨在通過數(shù)據(jù)分析和智能算法挖掘隱藏在大量空間數(shù)據(jù)中的有價值信息,以支持更精準(zhǔn)的決策和更智能的服務(wù)。
近年來,軌跡大數(shù)據(jù)處理和分析技術(shù)取得了顯著進(jìn)展。研究者們提出了多種方法用于軌跡數(shù)據(jù)的獲取、清洗、存儲和分析[1],在數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)在軌跡模式識別、行為預(yù)測和異常檢測等方面展現(xiàn)出了強大的能力。同時,空間數(shù)據(jù)智能的應(yīng)用場景不斷擴展,從傳統(tǒng)的交通管理到智慧城市建設(shè),甚至是個性化推薦系統(tǒng),都在利用軌跡數(shù)據(jù)的潛力[2]。
盡管取得了顯著進(jìn)展,軌跡大數(shù)據(jù)的處理和分析仍面臨諸多挑戰(zhàn)。數(shù)據(jù)的高維度和稀疏性、數(shù)據(jù)隱私問題以及數(shù)據(jù)融合的復(fù)雜性,都是當(dāng)前研究中的難點。此外,如何在多源數(shù)據(jù)背景下保持分析的準(zhǔn)確性和高效性,如何應(yīng)對軌跡數(shù)據(jù)中的噪聲和異常,也是亟待解決的問題。
針對上述問題,本文旨在系統(tǒng)梳理空間數(shù)據(jù)智能領(lǐng)域中軌跡大數(shù)據(jù)的研究進(jìn)展,涵蓋從數(shù)據(jù)存儲、預(yù)處理到分析和應(yīng)用的全流程。通過對現(xiàn)有方法和技術(shù)的深入探討,旨在揭示當(dāng)前研究的主要成就和不足,并提出未來研究的發(fā)展方向,以推動軌跡大數(shù)據(jù)與空間數(shù)據(jù)智能領(lǐng)域的進(jìn)一步發(fā)展。
1 軌跡大數(shù)據(jù)
軌跡大數(shù)據(jù)是指由多個移動對象(如車輛、人員、動物等)在空間和時間上生成的海量數(shù)據(jù)集,通常包含這些對象的地理位置和運動信息,能夠反映其移動路徑、速度、停留時間以及與環(huán)境的互動等特征。
1. 1 軌跡數(shù)據(jù)來源
軌跡數(shù)據(jù)的來源豐富多樣,涵蓋了多種能夠記錄對象位置和時間信息的設(shè)備及技術(shù)。首先,移動設(shè)備(如智能手機、可穿戴設(shè)備、GPS 設(shè)備等)通過內(nèi)置的傳感器,能夠精確捕捉并記錄移動對象的位置信息和運動軌跡。其次,傳感器網(wǎng)絡(luò)(如交通流量監(jiān)測器、環(huán)境監(jiān)測傳感器等)廣泛分布于城市基礎(chǔ)設(shè)施、交通道路等區(qū)域,持續(xù)采集與軌跡相關(guān)的數(shù)據(jù),為交通管理、環(huán)境監(jiān)控等提供支持。此外,社交媒體平臺上的位置標(biāo)記和用戶活動信息也是重要的補充數(shù)據(jù)源,能夠反映用戶的行為模式和移動路徑。這些多源數(shù)據(jù)共同構(gòu)成了豐富的軌跡數(shù)據(jù)基礎(chǔ),為相關(guān)研究和應(yīng)用提供了多維度的支持。
1. 2 軌跡數(shù)據(jù)內(nèi)容
軌跡數(shù)據(jù)通常可以分為兩大類:基于歐氏空間的軌跡和基于網(wǎng)絡(luò)的軌跡?;跉W式空間的軌跡由按一定順序排列的移動點構(gòu)成,這些點通常通過GPS 設(shè)備記錄,形成一個點序列,表示為T ={s1 ,s2 ,…,sn},其中每個點si 都包含位置pi 和時間ti,反映了對象在歐氏空間中的移動路徑。相對而言,基于網(wǎng)絡(luò)的軌跡則是在一個給定的網(wǎng)絡(luò)結(jié)構(gòu)上按照時間順序排列的移動記錄。網(wǎng)絡(luò)軌跡不僅包括時間信息,還包含一種用于描述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的數(shù)據(jù)類型,用于表示網(wǎng)絡(luò)中的靜態(tài)節(jié)點和移動點之間的相對位置。這樣的軌跡廣泛應(yīng)用于交通網(wǎng)絡(luò)、物流路徑規(guī)劃等領(lǐng)域,能夠更加準(zhǔn)確地反映對象在受限環(huán)境中的運動特征。
軌跡數(shù)據(jù)主要包含位置數(shù)據(jù)(包括經(jīng)度、緯度、高度等坐標(biāo)信息,描述對象在空間中的位置)、時間戳(每個位置數(shù)據(jù)點的時間標(biāo)記,用于跟蹤對象的移動路徑和時間序列)、運動信息(包括速度、加速度、方向等,描述對象的運動狀態(tài)和變化)、環(huán)境信息(可能包括溫度、濕度、天氣等環(huán)境條件,這些信息可以影響對象的移動行為和軌跡)。
1. 3 軌跡數(shù)據(jù)結(jié)構(gòu)
軌跡數(shù)據(jù)的結(jié)構(gòu)通常由三部分組成:軌跡點、軌跡線和軌跡段。軌跡點是軌跡數(shù)據(jù)的基本單元,包含了具體的位置坐標(biāo)和對應(yīng)的時間戳,用于記錄某個對象在特定時間的精確位置。軌跡線由多個軌跡點依時間順序連接而成,描繪了對象在空間中的完整運動路徑,反映其動態(tài)行為和移動軌跡。而軌跡段則是軌跡線中的某一特定部分,通常根據(jù)時間段、事件或特定行為進(jìn)行劃分,用于更精細(xì)地分析對象在某些時間或場景下的運動特征。這種多層次的結(jié)構(gòu)設(shè)計,有助于更深入地理解和挖掘?qū)ο蟮臅r空行為模式。
1. 4 軌跡數(shù)據(jù)特征
軌跡大數(shù)據(jù)作為大數(shù)據(jù)的一個典型實例,其多樣化的數(shù)據(jù)來源和復(fù)雜的數(shù)據(jù)結(jié)構(gòu)充分體現(xiàn)了大數(shù)據(jù)的4V 特征[3],即數(shù)據(jù)量(Volume)大、種類繁(Variety)多、速度(Velocity)快、價值密度(Veracity)低。具體的特點表現(xiàn)為大規(guī)模、高緯度、實時性以及時間空間相互關(guān)聯(lián)。
(1)大規(guī)模。軌跡大數(shù)據(jù)通常涉及大量數(shù)據(jù)點,每個數(shù)據(jù)點記錄了一個對象在特定時間和空間位置的信息。由于數(shù)據(jù)源的多樣性和數(shù)據(jù)采集的頻率,這些數(shù)據(jù)集可能非常龐大,達(dá)到TB 級別甚至PB 級別。
(2)高緯度。除了位置坐標(biāo),軌跡數(shù)據(jù)還可能包括時間戳、速度、加速度、方向、環(huán)境信息(如溫度、濕度)等。這些多維度的信息使得軌跡數(shù)據(jù)具有豐富的上下文和細(xì)節(jié)。
(3)實時性。軌跡數(shù)據(jù)可以是實時生成的,尤其是在動態(tài)環(huán)境中,如交通監(jiān)控系統(tǒng)中的實時交通流量數(shù)據(jù)。實時數(shù)據(jù)的處理和分析要求高效的數(shù)據(jù)處理能力和系統(tǒng)響應(yīng)速度。
(4)時間-空間關(guān)聯(lián)。軌跡數(shù)據(jù)在空間和時間上都有明確的關(guān)聯(lián),每個數(shù)據(jù)點不僅包含位置坐標(biāo),還與時間戳關(guān)聯(lián),形成時間序列數(shù)據(jù)。這種空間-時間關(guān)聯(lián)性使得軌跡數(shù)據(jù)可以反映移動對象的動態(tài)行為和模式。
1. 5 軌跡大數(shù)據(jù)關(guān)鍵技術(shù)
軌跡大數(shù)據(jù)處理涉及多項關(guān)鍵技術(shù),而數(shù)據(jù)存儲、軌跡索引與檢索,以及軌跡分析與挖掘是其中最核心的部分。采用的關(guān)鍵技術(shù)如圖1 所示。
數(shù)據(jù)存儲是軌跡大數(shù)據(jù)處理的基礎(chǔ),負(fù)責(zé)對海量的時空數(shù)據(jù)點進(jìn)行高效的收集、存儲和管理,為后續(xù)的數(shù)據(jù)處理與分析提供堅實的底層支持。在此基礎(chǔ)上,軌跡索引與檢索技術(shù)則發(fā)揮了至關(guān)重要的作用,通過建立高效的時空索引結(jié)構(gòu),在大規(guī)模數(shù)據(jù)集中可以實現(xiàn)快速查詢和定位。索引優(yōu)化了數(shù)據(jù)訪問路徑,使得復(fù)雜的時空范圍查詢、鄰近查詢以及軌跡相似性查詢等操作更加高效,為后續(xù)分析提供了精確且快速的數(shù)據(jù)提取能力。基于高效存儲和檢索的支持,軌跡分析與挖掘技術(shù)能夠在大規(guī)模軌跡數(shù)據(jù)中發(fā)現(xiàn)有價值的模式和信息。通過對軌跡數(shù)據(jù)的聚類、分類、預(yù)測和異常檢測等操作,挖掘出深層次的移動行為特征,幫助揭示軌跡背后的規(guī)律與趨勢。整體來看,三者共同構(gòu)建了一個高效的軌跡大數(shù)據(jù)處理與分析體系。
2 軌跡數(shù)據(jù)存儲
數(shù)據(jù)存儲是軌跡大數(shù)據(jù)處理的基礎(chǔ),負(fù)責(zé)收集、存儲和管理大量時空數(shù)據(jù)點。由于軌跡數(shù)據(jù)具備時空屬性和海量數(shù)據(jù),傳統(tǒng)存儲技術(shù)難以高效處理。為此,許多數(shù)據(jù)庫公司針對軌跡數(shù)據(jù)推出了可以存放軌跡信息的數(shù)據(jù)庫系統(tǒng),具體可分為時空數(shù)據(jù)庫、空間數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫、圖數(shù)據(jù)庫以及分布式文件系統(tǒng)。上述所提技術(shù)的特點及適用場景如表1所示。
軌跡數(shù)據(jù)的核心是時間和空間信息,因此,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫難以處理其復(fù)雜的時空關(guān)系,時序數(shù)據(jù)庫和空間數(shù)據(jù)庫成為主流解決方案。時序數(shù)據(jù)庫(如TimescaleDB[4]、InfluxDB[5])針對軌跡數(shù)據(jù)中的時間維度進(jìn)行優(yōu)化,能夠高效地存儲、檢索并處理大規(guī)模的時間序列數(shù)據(jù)。這類數(shù)據(jù)庫通過專門的時間戳索引結(jié)構(gòu)加速基于時間范圍的查詢,適合處理連續(xù)的時間軌跡信息??臻g數(shù)據(jù)庫(如PostGIS[6]、Oracle Spatial[10])通過內(nèi)置的地理數(shù)據(jù)類型與空間索引機制(如R 樹[11]、四叉樹[12]等),優(yōu)化了對空間位置相關(guān)數(shù)據(jù)的存儲與檢索能力,支持復(fù)雜的空間范圍查詢和空間計算(如距離、相交、包含等操作)。而時空數(shù)據(jù)庫則是將時序數(shù)據(jù)庫和空間數(shù)據(jù)庫進(jìn)行結(jié)合,如Zimányi 等[13]提出了一種名為MobilityDB的高效時空數(shù)據(jù)庫,專門用于存儲、查詢、分析和可視化移動對象的軌跡。這一數(shù)據(jù)庫基于PostgreSQL構(gòu)建,創(chuàng)新性地引入了多種新的數(shù)據(jù)類型,以便更精準(zhǔn)地表示移動對象的軌跡特征(如軌跡(trajectory)、時空點(spoint )、移動點(mpoint )和時空線(sline)),這些數(shù)據(jù)類型不僅可以存儲對象的位置信息,還能夠記錄速度、加速度等關(guān)鍵的時空屬性,為用戶提供了豐富的空間分析能力。通過MobilityDB,用戶能夠在復(fù)雜的時空數(shù)據(jù)環(huán)境中進(jìn)行高效的查詢和分析,快速獲取所需信息。同時,數(shù)據(jù)庫的可視化功能使得用戶可以直觀地理解移動對象的行為模式和趨勢,進(jìn)一步提升了數(shù)據(jù)的可用性和決策支持能力。這種數(shù)據(jù)庫的推出為相關(guān)領(lǐng)域的研究和應(yīng)用提供了強大的工具,推動了時空數(shù)據(jù)管理和分析技術(shù)的發(fā)展。
為了高效管理軌跡大數(shù)據(jù),數(shù)據(jù)存儲系統(tǒng)通常需要根據(jù)不同的數(shù)據(jù)特征和業(yè)務(wù)需求選擇合適的存儲結(jié)構(gòu)。
(1)列式存儲。對于寫入密集型的軌跡數(shù)據(jù)(如車輛實時位置上傳),列式存儲系統(tǒng)(如HBase[14])通過按列組織數(shù)據(jù),能夠提升數(shù)據(jù)寫入的性能,同時支持批量讀取操作。
(2)對象存儲。用于存儲非結(jié)構(gòu)化或半結(jié)構(gòu)化的軌跡數(shù)據(jù),尤其適合大規(guī)模日志、傳感器數(shù)據(jù)的存儲,提供高效的擴展性和持久性,并且便于長期歸檔和訪問。
(3)混合存儲架構(gòu)。在實際應(yīng)用中,軌跡數(shù)據(jù)系統(tǒng)可能采用多種存儲技術(shù)的組合。例如,時序數(shù)據(jù)庫處理時間序列信息,空間數(shù)據(jù)庫管理地理位置信息,分布式文件系統(tǒng)存儲原始軌跡日志,三者共同作用,適應(yīng)復(fù)雜的業(yè)務(wù)需求。
3 軌跡數(shù)據(jù)索引與檢索
軌跡數(shù)據(jù)索引與檢索技術(shù)是軌跡大數(shù)據(jù)處理中至關(guān)重要的技術(shù)之一,它通過建立高效的數(shù)據(jù)結(jié)構(gòu)和算法,能夠在海量時空數(shù)據(jù)中快速查找、定位、篩選相關(guān)的軌跡信息。軌跡數(shù)據(jù)的特殊性(時空數(shù)據(jù)點的連續(xù)性、移動性等)對索引結(jié)構(gòu)和檢索方法提出了極高的要求,傳統(tǒng)的索引技術(shù)難以滿足高效的軌跡數(shù)據(jù)查詢需求。因此,針對軌跡數(shù)據(jù)的特性,研究人員提出了多種適應(yīng)時空維度和大數(shù)據(jù)規(guī)模的索引結(jié)構(gòu)與檢索算法。
3. 1 軌跡檢索
軌跡檢索技術(shù)旨在通過對軌跡索引的高效利用,快速實現(xiàn)對軌跡數(shù)據(jù)的查詢和篩選。根據(jù)查詢的需求,常見的軌跡檢索技術(shù)可以分為以下幾類。
(1)時空范圍查詢。時空范圍查詢是最常見的軌跡查詢類型,用戶可以指定特定的時間段和空間區(qū)域,檢索經(jīng)過該區(qū)域的所有軌跡。這類查詢需要同時在時間和空間維度上進(jìn)行過濾,依賴于時空索引結(jié)構(gòu)。陳逸菲等[15]針對目標(biāo)對象與查詢發(fā)出者皆為不確定移動對象的情況,提出了一種時間區(qū)間上的距離范圍查詢,此類查詢搜索出數(shù)據(jù)集中在給定時間區(qū)間內(nèi),到查詢發(fā)出者距離不超過閾值的目標(biāo)對象,查詢結(jié)果中包含對象滿足查詢條件的有效時間段和匹配度,提出了3 種剪枝策略,給出了精煉和匹配度計算方法,在此基礎(chǔ)上設(shè)計了查詢處理算法。
(2)軌跡相似性查詢。軌跡相似性查詢是軌跡數(shù)據(jù)處理中一項核心技術(shù),旨在從海量的軌跡數(shù)據(jù)集中找出與目標(biāo)軌跡相似的軌跡[16]。這種查詢在交通模式識別、用戶行為分析、異常檢測、路徑規(guī)劃等領(lǐng)域具有廣泛應(yīng)用。軌跡相似性查詢不僅考慮軌跡的幾何形狀,還會結(jié)合軌跡的時間維度和運動模式等多種特征,以確定2 個或多個軌跡在不同場景下的相似性。軌跡相似度的度量是相似度查詢的核心問題。熊偉等[17]針對海量時空軌跡數(shù)據(jù)相似性查詢速度慢的問題,提出一種融合圖結(jié)構(gòu)的時空軌跡相似性查詢算法。從空間維和時間維將軌跡建模為圖結(jié)構(gòu)中的一條路徑,設(shè)計了一種同步匹配空間和時間距離的軌跡相似性度量函數(shù)。在此基礎(chǔ)上,設(shè)計了一種結(jié)合時間過濾的基于邊的倒排索引結(jié)構(gòu)支持軌跡時空相似性查詢,同時利用距離上界的剪枝策略提高查詢性能。計算返回的相似軌跡集合中每條軌跡的距離并進(jìn)行排序,得到相似度最高的前k 個軌跡。由于許多的軌跡攜帶大量文本信息,而空間軌跡相似性研究考慮的是距離方面,缺少對于文本信息的考慮。王坤明[18]針對這一問題,在空間相似性的基礎(chǔ)上增加對于文本相似性的考慮,同時將整個空間網(wǎng)格化,通過采用計算空間文本相似性上下限進(jìn)行范圍查詢,得到最終的結(jié)果,使得軌跡相似性查詢更全面,也更具有說服力。熊偉等[17]首次提出了Top-k 代表性相似子軌跡查詢問題,目的是在數(shù)據(jù)庫中搜索與查詢軌跡相似度最高的k 個代表性相似子軌跡。為了避免Top-k 結(jié)果中的冗余信息,采用了“代表性相似”概念,即每個軌跡只報告與查詢相似度最高的子軌跡。
(3)鄰近查詢。鄰近查詢是指在給定的軌跡數(shù)據(jù)集中,找到距離某一目標(biāo)點最近的軌跡或軌跡點。這類查詢廣泛應(yīng)用于導(dǎo)航、位置服務(wù)等場景。其中最具代表的為K-最近鄰(KNearest Neighbor,KNN)查詢,這類查詢方法通過計算軌跡數(shù)據(jù)集中與目標(biāo)點或目標(biāo)軌跡最接近的K 條軌跡,利用KD 樹等空間索引結(jié)構(gòu)可以顯著提升查詢效率。Cai 等[19]提出一種基于路網(wǎng)興趣點(Point of Interest,POI)分布的KNN 查詢方法,利用位置基礎(chǔ)服務(wù)(Location BasedServices,LBS),通過四叉樹索引技術(shù),將路網(wǎng)中的節(jié)點轉(zhuǎn)換成一個緊湊的層級網(wǎng)格體系。在此基礎(chǔ)上,用戶可以根據(jù)自己的實時位置和移動速度確定所在的具體節(jié)點,并以此節(jié)點為起點,在網(wǎng)絡(luò)中尋找最近的K 個POI。用戶能夠創(chuàng)建一個包含這K 個POI 的隱蔽區(qū)域,通過利用四叉樹索引技術(shù),將路網(wǎng)中的節(jié)點組織成一個輕量級的層次化網(wǎng)格結(jié)構(gòu)。該結(jié)構(gòu)能夠有效地劃分空間,便于高效管理和檢索。用戶首先根據(jù)當(dāng)前位置和速度向量,結(jié)合網(wǎng)格結(jié)構(gòu),計算出當(dāng)前所到達(dá)的節(jié)點。隨后,從該節(jié)點出發(fā),用戶在路網(wǎng)中執(zhí)行KNN 搜索,以找到距離當(dāng)前節(jié)點最近的K 個POI。為了保護(hù)隱私,用戶接著構(gòu)建一個覆蓋這K 個POI 的隱蔽區(qū)域。通過在查詢請求中注入一定數(shù)量的虛假查詢信息,即使服務(wù)器得到了查詢請求,也無法確定用戶的真實位置,有效提高了查詢的隱私性和安全性[20]。
(4)軌跡模式查詢。軌跡模式查詢的目標(biāo)是找到與某種特定軌跡模式相匹配的軌跡,通常用于模式識別和行為分析。例如,交通監(jiān)控系統(tǒng)可以通過軌跡模式查詢發(fā)現(xiàn)特定的交通模式(代表算法為模式匹配算法),這類查詢方法通常依賴于模式匹配算法,例如基于時間序列的模式匹配或空間模式匹配,通過對軌跡特征的識別和提取,找到符合模式的軌跡。
3. 2 軌跡數(shù)據(jù)索引
軌跡索引技術(shù)旨在通過構(gòu)建高效的數(shù)據(jù)結(jié)構(gòu),快速定位和查詢特定軌跡數(shù)據(jù)。軌跡數(shù)據(jù)的時空特性決定了它們與傳統(tǒng)數(shù)據(jù)有顯著不同,因此需要針對軌跡數(shù)據(jù)的特點,設(shè)計專門的索引方法。
在移動數(shù)據(jù)庫中,由于數(shù)據(jù)量巨大,單純依靠遍歷數(shù)據(jù)庫進(jìn)行查詢難以滿足性能要求,因此,軌跡數(shù)據(jù)的高效檢索依賴于數(shù)據(jù)索引。索引結(jié)構(gòu)能夠為移動數(shù)據(jù)庫中的對象提供快速且有針對性的訪問。通常情況下,軌跡數(shù)據(jù)庫中常用的索引結(jié)構(gòu)包括時間索引、空間索引以及時空索引,這些索引技術(shù)的描述及其優(yōu)缺點如表2 所示。
4 軌跡分析與挖掘
軌跡分析與挖掘是處理和理解時空數(shù)據(jù)的重要領(lǐng)域,旨在從大規(guī)模的軌跡數(shù)據(jù)中提取有價值的模式、知識和行為信息。這些技術(shù)已廣泛應(yīng)用于智能交通、城市規(guī)劃、行為預(yù)測、個性化推薦等領(lǐng)域。隨著軌跡數(shù)據(jù)規(guī)模、維度及復(fù)雜性的不斷增長,研究者開發(fā)了多種算法與技術(shù)來有效處理、分析和挖掘軌跡數(shù)據(jù)。
4. 1 軌跡數(shù)據(jù)預(yù)處理
在進(jìn)行軌跡分析與挖掘之前,通常需要對原始軌跡數(shù)據(jù)進(jìn)行預(yù)處理,以提高數(shù)據(jù)質(zhì)量和分析效率。預(yù)處理主要涉及以下幾個步驟:首先需要對數(shù)據(jù)進(jìn)行去噪處理,由于軌跡數(shù)據(jù)通常受到傳感器誤差、數(shù)據(jù)丟失或其他外部因素的影響,可能會包含噪聲,常用的去噪方法包括基于平滑算法和規(guī)則化方法。然后對缺失的數(shù)據(jù)進(jìn)行清理,由于采樣間隔不一致或數(shù)據(jù)丟失,軌跡數(shù)據(jù)可能存在不完整的情況。插值算法被用來填補缺失的數(shù)據(jù)點。最后對軌跡分段,有時需要將一條長軌跡分割成多個短軌跡,以便對不同行為模式進(jìn)行分析。分段方法通?;谒俣?、加速度、停留點等參數(shù)。
4. 2 軌跡模式挖掘
軌跡模式挖掘是指從大規(guī)模軌跡數(shù)據(jù)中發(fā)現(xiàn)有規(guī)律的移動模式或行為模式。這些模式可以幫助理解群體行為、交通模式以及個體的移動特征。常見的軌跡模式挖掘技術(shù)如下。
4. 2. 1 頻繁模式挖掘
頻繁模式挖掘旨在發(fā)現(xiàn)軌跡數(shù)據(jù)中出現(xiàn)頻率較高的子軌跡或模式。這種技術(shù)通常用于識別常見的移動路線或交通流量集中的區(qū)域。常用的方法包括:
(1)Apriori 算法[25]。最早用于市場籃球分析,后被擴展到軌跡挖掘中,用于發(fā)現(xiàn)頻繁的軌跡模式。
(2)PrefixSpan 算法[26]?;谛蛄心J酵诰虻乃悸?,用來尋找軌跡數(shù)據(jù)中的頻繁子序列。
4. 2. 2 聚類分析
軌跡聚類用于將相似的軌跡歸為一類,揭示群體行為模式。軌跡聚類技術(shù)需要同時考慮空間和時間維度,常用的聚類算法包括:
(1)基于密度的聚類。通過定義鄰域半徑和最小點數(shù),將軌跡數(shù)據(jù)劃分為不同的簇。該方法能夠處理具有噪聲和不規(guī)則形狀的軌跡數(shù)據(jù)。
(2)Kmeans 聚類[27]。雖然傳統(tǒng)的Kmeans 聚類只處理空間數(shù)據(jù),但通過引入時間維度的擴展(如Cosentino 等[28]提出的Spatial Transformer KMeans 聚類算法),可以用于時空軌跡的聚類。
(3)軌跡形狀相似聚類。通過使用Fréchet 距離、動態(tài)時間規(guī)整等度量方法,將具有相似形狀的軌跡聚集在一起,用于路徑相似性分析。
4. 2. 3 停留點檢測
停留點檢測旨在從軌跡數(shù)據(jù)中識別個體在某一特定區(qū)域的長時間停留。停留點的檢測可以幫助理解用戶的POI,并用于行為分析和興趣推薦。
(1)基于速度的檢測。通過分析軌跡中的速度變化,判斷個體是否在某一地點長時間停留。
(2)基于時空網(wǎng)格的檢測。將空間劃分為網(wǎng)格,通過軌跡點的密集度和駐留時間來檢測停留點。
4. 2. 4 移動模式挖掘
移動模式挖掘(如群體模式、周期性模式、順序模式等)專注于發(fā)現(xiàn)個體或群體在時間和空間中的規(guī)律性移動行為。
(1)群體模式。通過分析多個個體的軌跡,發(fā)現(xiàn)它們在某些時空區(qū)域內(nèi)存在一致的移動行為。常用于社交網(wǎng)絡(luò)分析、集體行為研究。
(2)周期性模式。通過檢測軌跡的時間規(guī)律,識別個體的日常行為模式。例如,周期性模式挖掘可以幫助發(fā)現(xiàn)用戶的日常通勤路線或特定時間段的交通擁堵情況。
4. 3 軌跡預(yù)測
軌跡預(yù)測是軌跡挖掘中的重要任務(wù),旨在預(yù)測未來某個時間點個體的可能位置,在智能交通、個性化推薦、物流管理等領(lǐng)域具有重要應(yīng)用價值。
4. 3. 1 基于統(tǒng)計模型的預(yù)測
(1)馬爾可夫模型[29]:利用軌跡數(shù)據(jù)中的時間依賴性,將個體的當(dāng)前位置與之前的狀態(tài)相關(guān)聯(lián)。通過計算狀態(tài)轉(zhuǎn)移概率,預(yù)測個體未來可能的軌跡。
(2)隱馬爾可夫模型(Hidden Markov Models,HMM)[30]:擴展馬爾可夫模型的能力,能夠處理隱含狀態(tài)下的軌跡變化情況,適用于具有多種行為模式的軌跡預(yù)測任務(wù)。
4. 3. 2 基于深度學(xué)習(xí)的預(yù)測
(1)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[31]:由于軌跡具有時序特性,被廣泛用于軌跡預(yù)測。RNN 能夠有效捕捉軌跡的時間依賴性,適合處理長期的軌跡序列。
(2 )長短期記憶(Long Short Term Memory,LSTM)[32]:LSTM 網(wǎng)絡(luò)是RNN 的變種,能夠克服普通RNN 在長期依賴中的梯度消失問題。LSTM 在軌跡預(yù)測中的表現(xiàn)尤為突出,適用于復(fù)雜的時空軌跡預(yù)測任務(wù)。
(3 )圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[33]:近年來,GNN 被引入到軌跡預(yù)測中,特別是對于交通網(wǎng)絡(luò)等圖結(jié)構(gòu)數(shù)據(jù),能夠有效建模節(jié)點之間的空間關(guān)系和軌跡傳播特性。
4. 3. 3 基于序列模式的預(yù)測
基于序列模式的預(yù)測主要用于從時間序列或其他有序數(shù)據(jù)中提取潛在的模式,并利用這些模式進(jìn)行未來趨勢或事件的預(yù)測,通過挖掘軌跡數(shù)據(jù)中的序列模式,可以推斷出個體的未來行為。例如,在交通預(yù)測中,可以根據(jù)歷史交通數(shù)據(jù)的序列模式預(yù)測未來的交通流量和擁堵情況。
4. 4 軌跡異常檢測
軌跡異常檢測旨在從軌跡數(shù)據(jù)中識別異常行為或異常模式,對于公共安全、異常事件檢測、交通監(jiān)控等應(yīng)用至關(guān)重要。
(1)基于密度的異常檢測。通過比較軌跡點的密度分布,判斷某個軌跡或軌跡片段是否為異常行為。
(2)基于統(tǒng)計的異常檢測。利用統(tǒng)計學(xué)方法,分析軌跡數(shù)據(jù)的分布特性,識別偏離正常分布的異常軌跡。例如,通過分析軌跡的運動速度、方向變化等屬性來檢測異常行為。
(3)基于機器學(xué)習(xí)的異常檢測。機器學(xué)習(xí)方法可以通過學(xué)習(xí)正常軌跡的特征,識別出與正常模式不同的異常軌跡[34]。深度學(xué)習(xí)模型也被用于軌跡異常檢測,能夠自動提取軌跡的高維特征。
5 結(jié)束語
隨著空間數(shù)據(jù)智能和軌跡大數(shù)據(jù)領(lǐng)域的持續(xù)進(jìn)步,軌跡大數(shù)據(jù)技術(shù)正逐步成熟和完善。未來,可以對以下技術(shù)領(lǐng)域進(jìn)行深入探索和研究。
(1)多維度融合分析。未來的軌跡大數(shù)據(jù)處理不僅局限于時空數(shù)據(jù)的分析,還將與其他維度的數(shù)據(jù)相結(jié)合,形成多維度數(shù)據(jù)融合分析,如結(jié)合用戶的活動軌跡與其行為模式進(jìn)行綜合分析,幫助智能推薦、個性化服務(wù)等領(lǐng)域的發(fā)展以及通過引入語義標(biāo)簽,提高軌跡分析的理解深度,揭示用戶出行的動機和背景,進(jìn)行語義化的軌跡分析。
(2)實時軌跡處理和邊緣計算。隨著物聯(lián)網(wǎng)的普及,未來將產(chǎn)生大量的實時軌跡數(shù)據(jù),需要更強大的實時處理能力。傳統(tǒng)的中心化計算模式難以滿足這樣的需求,邊緣計算和分布式處理技術(shù)將成為主流。
(3)隱私保護(hù)與數(shù)據(jù)安全。隨著軌跡數(shù)據(jù)應(yīng)用的深入,隱私泄露和數(shù)據(jù)安全問題日益受到關(guān)注。未來將需要更加嚴(yán)格的隱私保護(hù)技術(shù)[35],確保用戶的軌跡數(shù)據(jù)在分析和應(yīng)用中得到安全保護(hù)。引入差分隱私技術(shù),在保證數(shù)據(jù)分析準(zhǔn)確性的前提下,最大限度地保護(hù)用戶隱私。通過加密數(shù)據(jù)進(jìn)行計算,確保在數(shù)據(jù)分析過程中,敏感信息不會泄露。研究如何在不同機構(gòu)間實現(xiàn)安全的軌跡數(shù)據(jù)共享與計算(如聯(lián)邦學(xué)習(xí)),在多個數(shù)據(jù)源之間進(jìn)行聯(lián)合分析,保護(hù)數(shù)據(jù)隱私的同時提高數(shù)據(jù)利用率。
(4)自適應(yīng)軌跡挖掘算法。未來的軌跡挖掘算法需要能夠自適應(yīng)數(shù)據(jù)的變化和動態(tài)特征,具備更高的靈活性和自動化程度。特別是在數(shù)據(jù)分布不均或變化頻繁的場景下,算法需要動態(tài)調(diào)整,以適應(yīng)新的數(shù)據(jù)模式。隨著軌跡數(shù)據(jù)的不斷更新,未來的軌跡挖掘技術(shù)需要具備實時學(xué)習(xí)的能力,從新數(shù)據(jù)中不斷優(yōu)化模型。在動態(tài)環(huán)境下,自適應(yīng)聚類和預(yù)測技術(shù)可以隨時調(diào)整模型,以應(yīng)對軌跡模式的快速變化。
總體來看,軌跡大數(shù)據(jù)的未來發(fā)展將依托更強大的計算能力、智能算法和隱私保護(hù)機制,并通過跨領(lǐng)域的深度融合和應(yīng)用擴展,推動軌跡數(shù)據(jù)在空間數(shù)據(jù)智能領(lǐng)域的進(jìn)一步發(fā)展。
參考文獻(xiàn)
[1] WOLFSON O,XU B,CHAMBERLAIN S,et al. Moving Objects Databases:Issues and Solutions [C]∥Proceedings of the Tenth International Conference on Scientific and Statis tical Database Management. Capri:IEEE,1998:111-122.
[2] 宋軒,孟小峰,劉克. 空間數(shù)據(jù)智能技術(shù)發(fā)展及應(yīng)用分析[J]. 中國科學(xué)基金,2023,37(6):1039-1046.
[3] 高強,張鳳荔,王瑞錦,等. 軌跡大數(shù)據(jù):數(shù)據(jù)處理關(guān)鍵技術(shù)研究綜述[J]. 軟件學(xué)報,2017,28(4):959-992.
[4] SHEN C H,OUYANG Q Y,LI F B,et al. Lindorm TSDB:A Cloudnative Timeseries Database for Largescale Monitoring Systems[J]. Proceedings of the VLDB Endowment,2023,16(12):3715-3727.
[5] NAQVI S N Z,YFANTIDOU S. Time Series Databasesand InfluxDB [R]. BruxeUes:Université Libre de Bruxelles,2017.
[6] SHUKLA D,SHIVNANI C,SHAH D. Comparing Oracle Spatial and Postgres PostGIS[J]. International Journal of Computer Science & Communication,2016,7(6):95-100.
[7] MILLER J J. Graph Database Applications and Concepts with Neo4j[C]∥Proceedings of the Southern Association for Information Systems Conference. Atlanta:[s. n. ],2013:141-147.
[8] CHOI D J,BAEK Y H,LEE S M,et al. Design and Imple mentation of a Benchmarking System Based on ArangoDB[J ]. The Journal of the Korea Contents Association,2021,21(9):198-208.
[9] CHICHO B,MOHAMMED A O. An Empirical Comparison of Neo4j and Tigergraph Databases for Network Centrality[J]. Science Journal of University of Zakho,2023,11(2):190-201.
[10] ALAM M M,TORGO L,BIFET A. A Survey on Spatiotem poral Data Analytics Systems [EB / OL](2021 - 03 - 17)[2024-01-03]. https:∥arxiv. org / pdf / 2103. 09883.
[11] 宋?蛟,周佳悅,王龍浩,等. 采用R 樹和軌跡分段的HMM 高效地圖匹配方法[J]. 系統(tǒng)仿真學(xué)報,2023,35(2):339-349.
[12] 王浩,王江北,羅浩東,等. 基于改進(jìn)四叉樹和比例邊界有限元法的自適應(yīng)設(shè)計域拓?fù)鋬?yōu)化方法[J]. 中國機械工程,2024,35(5):904-915.
[13] ZIM?NYI E,SAKR M,LESUISSE A. MobilityDB:A Mo bility Database Based on PostgreSQL and PostGIS [J].ACM Transactions on Database Systems (TODS),2020,45(4):1-42.
[14] 王浩成. 基于HBase 的軌跡大數(shù)據(jù)管理研究[D]. 武漢:武漢大學(xué),2023.
[15] 陳逸菲,王玉芳,趙麗玲,等. 時間區(qū)間上的不確定移動對象距離范圍查詢[J]. 計算機系統(tǒng)應(yīng)用,2017,26(2):189-194.
[16] 王維澤. 大規(guī)模軌跡數(shù)據(jù)相似性查詢系統(tǒng)的研究與設(shè)計[D]. 大連:大連理工大學(xué),2021.
[17] 熊偉,熊淑怡,曹競之,等. 一種融合圖結(jié)構(gòu)的時空軌跡相似性查詢算法[J]. 應(yīng)用科學(xué)學(xué)報,2023,41(1):10-22.
[18] 王坤明. 基于學(xué)習(xí)的高效Topk 代表性相似子軌跡查詢[D]. 廣州:廣州大學(xué),2024.
[19] CAI Z, SHI W, LIU Y. MultiUAV Collaborative Monitoring for Highway Construction Site[J]. Journal of Intelligent & Fuzzy Systems,2019,38(13):3613-3626.
[20] 韋方良. 路網(wǎng)上kNN 查詢算法的研究[D]. 大連:大連海事大學(xué),2022.
[21] GUTTMAN A. Rtrees:A Dynamic Index Structure for Spatial Searching [J]. ACM SIGMOD Record,1984,14(2):47-57.
[22] 丁治國,朱學(xué)永,郭立,等. 自適應(yīng)多叉樹防碰撞算法研究[J]. 自動化學(xué)報,2010,36(2):237-241.
[23] LEUTENEGGER S T,LOPEZ M A,EDGINGTON J.STR:A Simple and Efficient Algorithm for Rtree Packing [C]∥Proceedings 13th International Conference on Data Engineering. Birmingham:IEEE,1997:497-506.
[24] FEKIHAL M,JALUTA I,SAINI D K. TB ± tree:Index Structure for Information Retrieval Systems [C]∥ 2015 Second International Conference on Computer Science,Computer Engineering,and Social Media. Lodz:IEEE,2015:182-186.
[25] HEGLAND M,DEDMAN J,HEGLAN M. The Apriori AlgorithmA Tutorial [J]. Mathematics and Computation in Imaging Science and Information Processing,2007(10):209-262.
[26] SARAF P P,SEDAMKAR R,RATHI S. PrefixSpan Algo rithm for Finding Sequential Pattern with Various Con straints[J]. International Journal of Applied Information Systems,2015,9(3):37-41.
[27] KRISHNA K,MURTY M N. Genetic Kmeans algorithm[J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),1999,29(3):433-439.
[28] COSENTINO R,BALESTRIERO R,BAHROUN Y,et al.Spatial Transformer Kmeans [C]∥2022 56th Asilomar Conference on Signals,Systems,and Computers. Pacific Grove:IEEE,2022:1444-1448.
[29] ROSS A,KIM J,MCKAY M,et al. The Economics of a National Anterior Cruciate Ligament Injury Prevention Program for Amateur Football Players:A Markov Model Analysis[J]. The Medical journal of Australia,2024,221(3):149-155.
[30] EDDY S R. Hidden Markov Models[J]. Current Opinion in Structural Biology,1996,6(3):361-365.
[31] KARITA S,CHEN N X,HAYASHI T,et al. A Comparative Study on Transformer vs RNN in Speech Applications[C]∥2019 IEEE Automatic Speech Recognition and Understanding Workshop. Singapore:IEEE,2019:449-456.
[32] YU Y,SI X S,HU C H,et al. A Review of Recurrent Neu ral Networks:LSTM Cells and Network Architectures[J].Neural Computation,2019,31(7):1235-1270.
[33] LAI K H,ZHA D C,ZHOU K X,et al. PolicyGNN:Aggrega tion Optimization for Graph Neural Networks[C]∥ Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York:ACM,2020:461-471.
[34] 柴曼妮. 基于注意力機制的車輛異常軌跡檢測[J]. 現(xiàn)代計算機,2024,30(3):71-75.
[35] 鄒彬. 云環(huán)境下大數(shù)據(jù)計算機處理技術(shù)應(yīng)用分析[J].信息與電腦(理論版),2023,35(24):16-18.
作者簡介
李任杰 男,(2001—),碩士研究生。主要研究方向:軌跡預(yù)測、數(shù)據(jù)挖掘、人工智能。
(通信作者)韓 楠 女,(1984—),博士,副教授。主要研究方向:時空數(shù)據(jù)庫、人工智能。
李 慶 男,(1997—),碩士研究生。主要研究方向:軌跡預(yù)測、移動數(shù)據(jù)挖掘、數(shù)據(jù)庫。
相東升 男,(2001—),碩士研究生。主要研究方向:數(shù)據(jù)挖掘、生物信息。
楊博淵 男,(2000—),碩士研究生。主要研究方向:人工智能、軌跡預(yù)測。
張杉彬 男,(1998—),碩士研究生。主要研究方向:軌跡預(yù)測、數(shù)據(jù)挖掘、軌跡大數(shù)據(jù)。
王家偉 男,(2001—),碩士研究生。主要研究方向:人工智能、生物信息、序列分類。
吳紹偉 男,(2001—),碩士研究生。主要研究方向:人工智能、大數(shù)據(jù)、時空數(shù)據(jù)庫。
黃 晨 男,(1999—),碩士研究生。主要研究方向:AI for DB、人工智能、時空數(shù)據(jù)庫。