国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于過程發(fā)現(xiàn)的RFID數(shù)據(jù)軌跡生成方法

2022-05-12 09:25馮健文
現(xiàn)代計算機 2022年5期
關(guān)鍵詞:分段軌跡語義

馮健文

(韓山師范學院教務處,潮州 521041)

0 引言

附帶射頻識別(RFID)技術(shù)的移動對象應用,如身份證、通行卡、消費卡、手環(huán)、電子手表等已廣泛應用于社會各領(lǐng)域,從移動對象RFID時 空 軌 跡(RFID spatio-temporal trajectories,RFID-STR)數(shù)據(jù)中挖掘移動對象的移動模式與規(guī)律,具有重要的社會和應用價值。

某次RFID-STR數(shù)據(jù)代表移動對象的一次業(yè)務應用,如上班打卡考勤。從業(yè)務點關(guān)聯(lián)的角度看,RFID-STR 數(shù)據(jù)分為兩類:一是多點軌跡(MRFID-STR),軌跡中各業(yè)務點明顯屬于某個業(yè)務流程,數(shù)據(jù)格式和語義一致,例如安裝GPS 設備的出租車、公交車、物流等;另一類是單點軌跡(SRFID-STR),軌跡中只包含單個業(yè)務點數(shù)據(jù),不同的軌跡間沒有明顯的關(guān)聯(lián)和約束,且可能存在數(shù)據(jù)格式和語義異構(gòu),即無業(yè)務流程特征。

當前對于單點軌跡的研究多屬于單個業(yè)務點的特征分析。復旦大學從一卡通共享數(shù)據(jù)庫中查詢統(tǒng)計大學生消費水平,為貧困生認定和困難補助發(fā)放提供依據(jù)。大連醫(yī)科大學以時間為序把一卡通消費記錄整合成為每個人在校園內(nèi)不同場所的消費信息,使用SPSS 分析學生的消費占比,結(jié)果反映學生的消費特征和性別對消費的影響。蘇州大學用SQL Server 2005 BI工具的ID3 決策樹算法和OLAP 聯(lián)機分析處理技術(shù)對學生消費情況、熱水消費情況以及商戶營業(yè)狀況分析用于改進業(yè)務管理。哈爾濱工程大學采用支持向量機對校園卡消費流水進行分類,利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)學生校園卡的消費模式。西北大學采用Apriori 算法挖掘貧困生數(shù)據(jù)特征支持貧困生評定工作。

上述研究屬于局部優(yōu)化分析,即以一個業(yè)務點或一類業(yè)務點為分析對象,并結(jié)合用戶的信息進行分析,結(jié)果只對某個或某類業(yè)務點有意義,并沒有考慮業(yè)務點的關(guān)聯(lián)影響。而軌跡間隱含的全局性信息對管理決策部門有著重大價值。例如食堂可分析學生消費特征,加上學生其他業(yè)務點活動特征,可幫助食堂優(yōu)化供應菜單和時間。因此,研究把單點軌跡數(shù)據(jù)轉(zhuǎn)化為具有業(yè)務流程關(guān)聯(lián)的多點軌跡數(shù)據(jù),對全局分析宏觀管理決策支持有重要意義。

過程發(fā)現(xiàn)(process discovery)技術(shù)可從信息系統(tǒng)日志數(shù)據(jù)中發(fā)現(xiàn)用戶的業(yè)務活動過程模型,并結(jié)合其他信息發(fā)現(xiàn)潛在的有價值知識。本文基于過程發(fā)現(xiàn)技術(shù)研究RFID 數(shù)據(jù)軌跡預處理技術(shù),提出RFID-STR數(shù)據(jù)類型定義,重點介紹數(shù)據(jù)軌跡分段方法和生成框架,解決無業(yè)務流程特征軌跡數(shù)據(jù)分析問題,為軌跡數(shù)據(jù)知識挖掘提供高質(zhì)量數(shù)據(jù)。

1 RFID-STR數(shù)據(jù)類型

1.1 RFID-STR原始數(shù)據(jù)定義

RFID-STR 原始數(shù)據(jù)為={ p|i= 1,},其中軌跡點p=(R,B,X,t)為四元組,分別代表RFID 標簽、業(yè)務點、屬性信息、時間戳。業(yè)務點包含業(yè)務點的地理空間信息、業(yè)務類型等。屬性信息包含交易金額、經(jīng)手人、交易內(nèi)容等。

1.2 校準軌跡定義

RFID-STR 原始數(shù)據(jù)來源于多個RFID 業(yè)務應用,存在數(shù)據(jù)格式、語義等差異,在挖掘前必須進行校準,以得到規(guī)范統(tǒng)一的軌跡數(shù)據(jù)。把原始數(shù)據(jù)轉(zhuǎn)化為校準軌跡數(shù)據(jù),一般包括數(shù)據(jù)清洗、軌跡分段、路網(wǎng)匹配的校準軌跡數(shù)據(jù)預處理流程。

1.3 數(shù)據(jù)庫軌跡定義

RFID-STR 校準軌跡通常包括巨量詳細記錄,例如電子飯卡應用,用戶點餐明細對于只關(guān)注業(yè)務點類型的挖掘無意義,就需要壓縮處理以減少數(shù)據(jù)量、提高處理效率。常用基于路網(wǎng)和基于軌跡的壓縮方法。

1.4 語義軌跡定義

RFID-STR 數(shù)據(jù)軌跡只有賦予業(yè)務應用和用戶行為理解,才有挖掘價值,在數(shù)據(jù)庫軌跡上加上語義就產(chǎn)生了RFID-STR知識。

2 RFID-STR數(shù)據(jù)軌跡分段方法

校準軌跡是產(chǎn)生軌跡知識的基礎,其中軌跡分段是校準軌跡數(shù)據(jù)生成的關(guān)鍵方法,本文引入過程發(fā)現(xiàn)的思想建立基于時間閥值的軌跡分段方法。RFID 軌跡分段目標實際上是要得到在一個時間區(qū)間的軌跡點集合。因此尋找分段點就是通過時間閥值參數(shù)來劃分軌跡點集合。

首先把經(jīng)過清洗的軌跡數(shù)據(jù)映射到業(yè)務應用中,業(yè)務應用活動關(guān)聯(lián)RFID 業(yè)務點,業(yè)務應用活動可以由具備業(yè)務流程聯(lián)系的多個業(yè)務點構(gòu)成,如快遞物流;也可能是無業(yè)務流程特征的多個業(yè)務點構(gòu)成,如學生校園RFID 應用。活動的執(zhí)行事件是RFID 標簽在業(yè)務點的一次操作行為,即軌跡點P。同個RFID 標簽在時間區(qū)間的軌跡點形成了一個業(yè)務過程,即軌跡點序列P…P。基于過程發(fā)現(xiàn)的軌跡分段方法是從軌跡數(shù)據(jù)中尋找同個RFID 標簽的軌跡點序列集合,集合中任意兩個軌跡點的時間戳距離滿足時間閥值的要求。采用過程發(fā)現(xiàn)的方法可以發(fā)現(xiàn)用戶在某個時間段的行為軌跡,尤其是能處理無業(yè)務流程特征的多個業(yè)務點類型數(shù)據(jù)。

3 RFID-STR數(shù)據(jù)軌跡生成框架

RFID-STR 數(shù)據(jù)軌跡生成的目標是輸入原始軌跡數(shù)據(jù),經(jīng)過校準軌跡、數(shù)據(jù)庫軌跡處理,輸出語義軌跡作為軌跡特征知識挖掘的數(shù)據(jù)源。

①從分布式環(huán)境中抽取RFID-STR原始軌跡數(shù)據(jù);②經(jīng)過數(shù)據(jù)清洗后,采用基于時間閥值的過程發(fā)現(xiàn)技術(shù)進行軌跡分段,并通過路網(wǎng)匹配方法關(guān)聯(lián)軌跡與業(yè)務點地理位置信息,得到校準軌跡;③根據(jù)業(yè)務點類型進行軌跡壓縮得到數(shù)據(jù)庫軌跡,提高數(shù)據(jù)價值密度和存取效率;最后根據(jù)行為理解方法建立不同主題的語義軌跡數(shù)據(jù)。

圖1 RFID-STR數(shù)據(jù)軌跡生成框架

4 應用案例

以某高校一卡通系統(tǒng)RFID 數(shù)據(jù)為實例闡述RFID-STR 數(shù)據(jù)軌跡生成過程。該校在校生約2萬人,分為四個校區(qū),一卡通應用主要涉及38個業(yè)務點,覆蓋了校園內(nèi)教學、學習和生活設施。各業(yè)務點業(yè)務特征如表1所示,業(yè)務數(shù)據(jù)分布在6個原始軌跡數(shù)據(jù)庫,全部為單點軌跡數(shù)據(jù)。

表1 一卡通系統(tǒng)業(yè)務點特征

4.1 校準軌跡生成

選取時間范圍為2012—2014年數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、軌跡分段和路網(wǎng)匹配得到校準軌跡。數(shù)據(jù)量變化如表2所示。

表2 校準軌跡生成數(shù)據(jù)量變化(單位:條)

(1)數(shù)據(jù)清洗。原始軌跡數(shù)據(jù)約2875萬條,經(jīng)過字段不一致、去除重復等數(shù)據(jù)清洗后為2849 萬條,再次對數(shù)據(jù)合并處理得到1264 萬條,典型數(shù)據(jù)合并例子是把2小時內(nèi)同個用戶在同個食堂的消費數(shù)據(jù)合并為一條消費總數(shù),減少無意義的數(shù)據(jù)冗余,提高處理效率。

(2)軌跡分段。采取以時間閥值參數(shù)方法,得到某用戶在一個時間區(qū)間的軌跡點集合,即把多個單點軌跡集合轉(zhuǎn)換為有時間關(guān)聯(lián)的多點軌跡集合,為后續(xù)發(fā)現(xiàn)用戶潛在模式打下基礎。例如以1 天24 小時為時間閥值參數(shù),經(jīng)過軌跡分段后,得到用戶活動軌跡640萬條。

(3)路網(wǎng)匹配。把業(yè)務點與地理信息結(jié)合,得到具有地理特征的用戶活動圖。例如把校區(qū)匹配表1的業(yè)務點,可得到用戶校區(qū)活動軌跡。

4.2 數(shù)據(jù)庫軌跡生成

進一步對校準軌跡進行數(shù)據(jù)壓縮和主題分類,可得到不同主題數(shù)據(jù)集市模型。

(1)數(shù)據(jù)壓縮。把重復的用戶活動軌跡進行壓縮,得到代表活動軌跡5萬條,大大提高了分析效率,當然代價是丟失了軌跡頻度。

(2)主題分類。根據(jù)應用主題建立數(shù)據(jù)集,例如“消費特征主題”數(shù)據(jù)集包含了有消費數(shù)據(jù)的軌跡,屬性信息至少包括用戶標識、業(yè)務點、發(fā)生時間、消費額,以及維度明細數(shù)據(jù)包括用戶信息、活動信息、時間信息、消費額信息。

4.3 語義軌跡生成

在數(shù)據(jù)庫軌跡基礎上,結(jié)合RFID 移動對象用戶行為可理解性和管理層管理應用需要,進行目的性的軌跡處理,可得到有價值的語義軌跡。

例如,對“消費特征主題”數(shù)據(jù)集的軌跡進行分析,了解學生校內(nèi)消費行為模式。設時間閥值參數(shù)為1 天,得到存在學生1 天消費相關(guān)數(shù)據(jù)庫軌跡。以消費額區(qū)間分析,可知學生消費金額特征,如圖2 所示。學生平均日均消費7.95元,大部分學生日均消費集中在5—30元。

圖2 學生消費金額特征

進一步,要了解學生的超市消費特征。選取第二校區(qū)的超市業(yè)務點H,設置消費時間區(qū)間,其分時消費特征如表3所示。

表3 業(yè)務點H分時消費特征

可發(fā)現(xiàn)學生常在19:00—24:00 到超市消費。再分析與H 關(guān)聯(lián)的前后活動業(yè)務點軌跡,發(fā)現(xiàn)學生喜歡在食堂C、D和圖書館B 之后到超市H消費。因此,可給H 點標上“晚上消費頻繁”的語義標簽,此外從安全角度還可標上“晚上注意周邊擁擠”的標簽。上述語義分析對于學校后勤和學生管理部門,要注意控制校內(nèi)物價水平;對保衛(wèi)部門,要在晚上注意監(jiān)控業(yè)務點周邊的交通擁擠情況,尤其是從圖書館到超市的道路;對業(yè)務點H,要提高晚上的供應質(zhì)量和數(shù)量,同時也要分析消費額少的時間段情況,另外0:00—3:00還有消費額,是不符合學校管理規(guī)定的,所以業(yè)務點H要進行整改。

5 結(jié)語

在人工智能時代,物聯(lián)網(wǎng)應用產(chǎn)生海量數(shù)據(jù),挖掘知識輔助管理部門決策已成為常態(tài)。本文通過研究附帶RFID 標簽物體的軌跡數(shù)據(jù)生成方法,把單點軌跡轉(zhuǎn)為具有關(guān)聯(lián)特征的多點軌跡,并根據(jù)應用需求,生成有價值的語義軌跡,對下一步提取用戶行為特征知識,研究移動趨勢、移動行為、異常行為和移動對象之間的聯(lián)系等特征有重要作用。

猜你喜歡
分段軌跡語義
韓國語“容入-離析”關(guān)系表達及認知語義解釋
2018年—2020年山西省普通高考成績分段統(tǒng)計表
淺談求軌跡方程中的增解與漏解
無從知曉
分段函數(shù)的常見題型及其解法
例談分段函數(shù)單調(diào)性問題的解決
捕捉物體運動軌跡
尋求分段函數(shù)問題的類型及解法
普兰店市| 白水县| 道孚县| 宜兰县| 武功县| 新源县| 剑阁县| 蒙城县| 隆昌县| 明星| 确山县| 察雅县| 深泽县| 双城市| 新津县| 衡水市| 凌源市| 镶黄旗| 瑞安市| 黑山县| 富裕县| 浠水县| 平阳县| 青阳县| 介休市| 德昌县| 邵武市| 黄大仙区| 南宁市| 龙江县| 永平县| 和林格尔县| 左云县| 民权县| 阿克陶县| 鹤峰县| 新竹市| 视频| 岢岚县| 绩溪县| 吉水县|