曠暉 王俐
摘要:隨著我國手機普及率的不斷提高,發(fā)生公共安全事件時,相關(guān)人員有極大的可能與手機處于同一個空間,通過手機定位技術(shù)采集人員的位置信息,使用空間數(shù)據(jù)挖掘技術(shù)可有效地進行目標人員位置信息的追蹤和實現(xiàn)價值提取,能夠提高應急救援效率,升政府應急管理能力。該文以手機位置信息為研究對象,從推斷目標人員敏感信息為切入點,研究空間位置數(shù)據(jù)挖掘相關(guān)技術(shù),總結(jié)當前各類技術(shù)的特點和不足,并提出一種自適應聚類方法,能提高聚類精度,更有效地支持應急管理系統(tǒng),對提升相關(guān)部門應急管理能力有著重要意義。
關(guān)鍵詞:位置信息;數(shù)據(jù)挖掘;公共安全;應急管理
中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)35-0008-03
我們國家正處在一個快速發(fā)展的階段,從高鐵到地鐵,從城市建設(shè)到新農(nóng)村改造工程,從物流倉庫到大型工廠,各個地區(qū)各項建設(shè)如火如荼地開展著,另一方面,隨著城市化進程加快和人民生活水平的提高,高層建筑越來越多,人們聚集于住宅區(qū)、商場、影院及參加其他大型群體性活動或者外出旅游的概率也在不斷提高,各種風險隨之不斷積聚??梢园l(fā)現(xiàn),近年來國內(nèi)各種大型突發(fā)公共安全事件層出不窮。因此,公共安全事件發(fā)生前的預警、發(fā)生后及時高效的應急救援都非常重要,這既關(guān)乎公民的生命財產(chǎn)安全,也關(guān)系到老百姓對政府的信任和支持。當人群聚集過度引發(fā)踩踏事故,旅游遭遇地質(zhì)災害或極端天氣(如地震、山洪、泥石流),建筑物發(fā)生火災,各類礦場發(fā)生塌方事故等,都需要及時啟動應急響應進行救援。傳統(tǒng)的應急搜索設(shè)備如紅外探測儀、生命探測儀、聲波探測儀等雖各有所長,但對于大范圍的搜索定位還是比較困難的。而隨著移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國手機普及率不斷提高,發(fā)生公共安全事件時,相關(guān)人員有極大的可能與手機處于同一個空間,通過手機定位技術(shù)采集人員的位置信息,使用空間數(shù)據(jù)挖掘技術(shù)可有效地進行目標人員追蹤和實現(xiàn)價值提取,能夠提高應急救援效率,也使得政府公共安全治理能力得到進一步提升。
1 當前主流手機定位技術(shù)分析
目前手機定位主要采用基于通信網(wǎng)絡(luò)的方法如Cell-ID(小區(qū)標號)、TOA(到達時間)、TDOA(到達時差)[1]與AOA(到達方向角)等,需要三個以上的基站協(xié)同定位就可以獲得手機的位置信息,例如TDOA算法的測時差精度要達到納秒(ns)級,基線長度達到十公里量級能保證手機定位精度。針對地質(zhì)災害,區(qū)域范圍內(nèi)的基站往往不同程度地遭到損毀,無法通過該方法實施定位,這時往往使用多個應急通信車來協(xié)同開展定位,但其定位精度不高。針對上述問題,基于非均勻稀布陣列[2]的手機定位方法,對微弱信號探測能力強,對多個手機信號定位時,無須信號配對,能夠高精度、高分辨地進行定位獲取手機的位置,是未來手機定位技術(shù)的發(fā)展趨勢之一,對傳統(tǒng)手機定位方法起到有效補充的作用,手機定位示意如圖1所示。
非均勻稀布陣列使用車載形式,由兩部車組成定位系統(tǒng),機動性強,陣列易于展開,可以縮短定位時間。每部車上分別采用十米量級小孔徑稀布陣,由兩部車上的小陣列形成大孔徑稀布陣,可獲得高精度、高分辨的手機位置信息。其定位方法如圖2所示,在空間某一直線上不等間距地布置天線陣元,其有[M]個天線接收近場手機信號源從方位角[θ],距離[R0]輻射來的電磁波信號,根據(jù)陣列信號處理理論對隨機化陣列建立數(shù)學模型。
選擇第一個陣元作為坐標原點,建立[XY]坐標系,并將所有陣元所在的直線定為[X]軸。手機輻射信號的來波方位角[θ]定義為:射線[OT]以逆時針方向旋轉(zhuǎn)至坐標軸[Y]所掃過的角度為正向角度?;诜蔷鶆蛳〔缄嚵星蛎娌P涂色@得手機的位置信息,在不同的距離[R]和方位角[θ′]上掃描,計算空間譜:
其中,[N]為噪聲的協(xié)方差矩陣,[αR,θ′]為陣列流矢量,搜索手機輻射信號空間譜[PR,θ′]的峰值,此峰值對應的掃描距離和方位就是手機的距離[R]和方位信息[θ]。
從以上分析可以看到,通過多種方法獲取的位置信息,存在數(shù)據(jù)量巨大,誤差精度不同,數(shù)據(jù)復雜性的問題,傳統(tǒng)的數(shù)據(jù)處理方法已不再適宜。隨著信息技術(shù)的不斷發(fā)展,我們已然知道大數(shù)據(jù)技術(shù)對于處理復雜多維數(shù)據(jù)有著天然優(yōu)勢。因此使用數(shù)據(jù)挖掘技術(shù)對位置信息進行處理,能夠更加快速準確地提取到關(guān)鍵信息,從而對應急管理各方面起到重要作用。
2 基于位置信息的自適應聚類數(shù)據(jù)挖掘方法
基于位置信息的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中一項重要的決策支持技術(shù),關(guān)鍵在于從位置數(shù)據(jù)中挖取未知卻有用的關(guān)聯(lián)信息,提供給應急管理決策支持系統(tǒng)。位置信息的數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從具有高維度、巨量、非線性等特性的位置數(shù)據(jù)中提取有用信息與知識的過程。在研究位置信息數(shù)據(jù)挖掘方法中,刑學鋒[3]等人從位置信息的來源、挖掘和應用三個方面入手,提出了符合運營商特點的方案建議;王樹良[4]等人在大數(shù)據(jù)背景下思考空間數(shù)據(jù)挖掘,分析了空間數(shù)據(jù)在大數(shù)據(jù)中的基礎(chǔ)地位,分析了空間大數(shù)據(jù)面臨的垃圾多、污染重、利用難的現(xiàn)狀,剖析了空間大數(shù)據(jù)蘊含的價值;白嗣東[5]研究了室內(nèi)定位系統(tǒng)在線階段以加權(quán)的鄰近算法,根據(jù)訓練數(shù)據(jù)的統(tǒng)計分析給出定位算法參數(shù)的選定數(shù)值,并且分析了各個參數(shù)對定位性能的影響情況。
基于位置信息的數(shù)據(jù)挖掘算法眾多,主要有統(tǒng)計分析方法、關(guān)聯(lián)分析法、神經(jīng)網(wǎng)絡(luò)法、聚類分析法等。其中:1)統(tǒng)計分析方法是一種較為傳統(tǒng)的數(shù)據(jù)挖掘方法,它基于數(shù)學模型或概率模型來提取位置信息中的知識,具有大量成熟算法,但統(tǒng)計分析方法不會將位置信息所具有的特性限制因素進行考慮,因此該方法對手機位置的特性挖掘不足;2)關(guān)聯(lián)分析方法是采用關(guān)聯(lián)規(guī)則或頻繁項集來對不同數(shù)據(jù)集中的隱藏信息進行提取,能夠揭示數(shù)據(jù)挖掘中所涉及的有趣聯(lián)系;3)神經(jīng)網(wǎng)絡(luò)法中基本的成分是神經(jīng)元模型,通過神經(jīng)元接收來自其他多個神經(jīng)傳遞過來的輸入信號,并通過帶權(quán)重的連接進行傳遞,與神經(jīng)元的閾值進行比較再通過激活函數(shù)進行神經(jīng)元的輸出,在廣泛的領(lǐng)域得到應用,但其模型隨著深度的增加,參數(shù)量會非常巨大;4)聚類分析方法是一種研究最多,應用最廣的數(shù)據(jù)挖掘方法,它通過無標記訓練樣本的學習來為位置數(shù)據(jù)的分析提供基礎(chǔ)。聚類分析方法又包括基于劃分的聚類方法、基于層次的聚類方法、基于網(wǎng)格的聚類方法、基于圖的聚類方法和基于模型的聚類分法等。其中,基于劃分的聚類方法主要有K均值算法,它將數(shù)據(jù)對象集劃分到不同的子集中,使個每個數(shù)據(jù)恰好只有一個子集中,此聚類方法相對比較簡單;基于層次的聚類方法通過形成一棵樹來嵌套簇的集簇,除葉點外,樹中每一個結(jié)點都是子女的并,而樹根是包含所有對象的簇,雖然該方法仍有較多應用,但與其他聚類方法相比相對較老;基于網(wǎng)格的聚類方法創(chuàng)建網(wǎng)格單元集合能夠有效地組織數(shù)據(jù),并通過數(shù)據(jù)屬性將數(shù)據(jù)分割成多個區(qū)間,且每個數(shù)據(jù)被指派到一個網(wǎng)格單元中,由鄰近的稠密單元組成簇來實現(xiàn)數(shù)據(jù)的聚類。該聚類方法對低維數(shù)據(jù)非常有效,聚類過程高效,時間和空間復雜度低,但是隨著位置數(shù)據(jù)維底的增加,網(wǎng)絡(luò)單元的個數(shù)會呈指數(shù)級增加,因此對于高維數(shù)據(jù),基于網(wǎng)絡(luò)的聚類效果將會很差;基于圖的聚類方法利用圖的性質(zhì)和特性來對數(shù)據(jù)進行聚類,比如利用稀疏化鄰近度圖來保留數(shù)據(jù)與其最近鄰之間的聯(lián)系、定義不同數(shù)據(jù)之間的相似度來共享最近鄰個數(shù)、定義核心數(shù)據(jù)并構(gòu)建環(huán)繞它們的簇、提供兩個簇是否合并的復雜評估等,該方法簡單、速度快,即便存在噪聲也能夠有效地聚類空間數(shù)據(jù),但對于高維度數(shù)據(jù)會出現(xiàn)大量聚類錯誤;基于模型的聚類方法為每個簇建立一個模型,并采用此模型對數(shù)據(jù)進行最佳擬合,常常使用概率統(tǒng)計模型和神經(jīng)網(wǎng)絡(luò)模型分別進行概念聚類和自組織聚類。