王超
(1.南京郵電大學信息化建設與管理辦公室,江蘇南京 210023;2.南京郵電大學智慧校園研究中心,江蘇南京 210023)
信息追溯廣泛應用于食品安全和生產(chǎn)經(jīng)營[1-2],特別的,信息追溯可以在流調(diào)中搞明白在過去一定的時間段,重點人群的行動軌跡、遇到的人和發(fā)生的事[3-4]。有別于食品追溯[5]等,將獲知某人在過去一段時間內(nèi)的行為軌跡定義為行為追溯。行為追溯數(shù)據(jù)獲取的難點有以下兩方面:一方面,一般情況下每個人完整的行為軌跡只有他自己知道,并且隨著時間的推移,記憶會逐漸模糊,長期不梳理會導致數(shù)據(jù)丟失或錯誤。另一方面,存儲在個人穿戴設備的行為軌跡信息也可能是部分的(如僅有位置信息沒有動作信息)、間斷的(有時未穿戴設備)、分散且難以集中獲?。ǘ嘣O備信息不互通也不能開放查詢)的等。在高校場景中對在校師生進行行為追溯雖然人員名單相對固定,但是數(shù)據(jù)采集設備多種多樣,人員管理分散,數(shù)據(jù)處理的專業(yè)水平參差不齊,具有一定的挑戰(zhàn)。
數(shù)據(jù)是行為追溯的基礎,為了提高追溯的準確性,需要從多個維度統(tǒng)計數(shù)據(jù)。過去,這些數(shù)據(jù)往往分散在不同的系統(tǒng),然后分別導出表格,通過U盤、郵件、即時通信軟件等形式發(fā)給專人匯總進而進行查詢、分析和匯報。存在問題如下:一是數(shù)據(jù)實效性差,某一個環(huán)節(jié)不能及時發(fā)送數(shù)據(jù)會導致整體工作延期;二是數(shù)據(jù)安全性弱,數(shù)據(jù)文件在互聯(lián)網(wǎng)環(huán)節(jié)中常常不加密轉(zhuǎn)發(fā),有時直接發(fā)在群里,對無關人員暴露,導致數(shù)據(jù)泄露;三是數(shù)據(jù)準確性不能保證,在處理數(shù)據(jù)的時候可能出現(xiàn)復制粘貼導致的數(shù)據(jù)缺失、重復、公式用錯等問題;四是數(shù)據(jù)質(zhì)量不穩(wěn)定,在表格填寫時,大小寫、空格、表格類型不一致都會給后期數(shù)據(jù)處理帶來不便。高校數(shù)據(jù)中臺作為智慧校園的重要組成部分,解決了數(shù)據(jù)分散、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等問題,有效支撐上層應用的建設。依托數(shù)據(jù)中臺的行為追溯,不僅可以支撐流調(diào)場景,還可以繪制師生畫像,高效地輔助學校精準決策。
本文介紹基于數(shù)據(jù)中臺的行為追溯系統(tǒng)設計與應用。首先,闡述行為追溯系統(tǒng)的基本原理和功能;然后,探究如何基于數(shù)據(jù)中臺構(gòu)建行為追溯系統(tǒng),并詳細介紹其設計流程、技術架構(gòu)和實現(xiàn)方式;最后,將通過實際案例,闡述行為追溯系統(tǒng)在高校中的應用與價值,并對未來的發(fā)展方向做出展望。
行為追溯系統(tǒng)是一種能夠記錄參與者活動并提供分析反饋的軟件系統(tǒng)。其基本原理是從不同來源收集數(shù)據(jù),將數(shù)據(jù)存儲到數(shù)據(jù)庫中,然后分析了解用戶行為和事件的關系。行為追溯系統(tǒng)可以拆分為數(shù)據(jù)輸入、存儲、流轉(zhuǎn)、處理、展示等幾個環(huán)節(jié),如圖1所示,接下來將從具體環(huán)節(jié)入手進行設計。
圖1 行為追溯系統(tǒng)組成部分
數(shù)據(jù)輸入是整個系統(tǒng)最關鍵的環(huán)節(jié),數(shù)據(jù)是一切的基礎。要做到數(shù)據(jù)輸入的自動化、智能化,讓使用者能夠方便快捷地錄入和管理數(shù)據(jù)。首先分析需要哪些數(shù)據(jù),然后考慮數(shù)據(jù)輸入的形式。行為追溯的基本要素是人物和事件,區(qū)域內(nèi)出現(xiàn)的人和事都是系統(tǒng)的關注對象。在高校場景中,首先需要統(tǒng)計一張完整的人員基本信息表,應至少包含學工號、姓名、性別、身份證號、手機號、學院等字段,不僅需要包括在冊的人員數(shù)據(jù),臨時訪客更應重點關注。其次,事件信息包括門禁出入、刷卡消費、任教上課、監(jiān)控抓拍等。把以上信息通過自動化手段或人工輸入的形式錄入到行為追溯系統(tǒng),減輕重復性工作量,為工作帶來便利。
已經(jīng)接入數(shù)據(jù)中臺的數(shù)據(jù)可以直接對接使用,以適宜的頻率定時同步,不能自動對接的數(shù)據(jù),在行為追溯系統(tǒng)中設置錄入模塊,單條或者以文件模板的形式,由相應的管理員和負責人錄入并建立審核機制。
數(shù)據(jù)存儲時應優(yōu)先保證多副本以不間斷提供高可用服務,最好定期備份在異地。系統(tǒng)應記錄數(shù)據(jù)的錄入時間、錄入人、修改時間、修改人等關鍵信息,記錄完整的數(shù)據(jù)修改日志,對數(shù)據(jù)存儲進行全流程監(jiān)控防止數(shù)據(jù)丟失和篡改等。從中臺同步的數(shù)據(jù)應當優(yōu)先在數(shù)據(jù)源中進行修改然后在行為追溯系統(tǒng)中進行同步,行為追溯系統(tǒng)中特有的數(shù)據(jù)也可同步至數(shù)據(jù)中臺供其他系統(tǒng)調(diào)用,此時數(shù)據(jù)中臺可承擔一部分數(shù)據(jù)備份的作用。
對于私有化存儲所在的服務器需要配置好網(wǎng)絡準入規(guī)則、定期修改密碼、接入安全設備管理。對于身份證號、位置信息和手機號等敏感數(shù)據(jù)進行加密存儲??s小運維人員范圍、簽訂數(shù)據(jù)保密協(xié)議、建立健全數(shù)據(jù)庫審計,非必要不直接操作數(shù)據(jù)庫修改數(shù)據(jù)。隨著數(shù)據(jù)量的不斷增加,還要優(yōu)化物理硬件和數(shù)據(jù)庫參數(shù),保證數(shù)據(jù)查詢和存儲的效率。
數(shù)據(jù)流轉(zhuǎn)時要兼顧便捷性和安全性,為防止多個數(shù)據(jù)源造成數(shù)據(jù)口徑不一致,各單位都要統(tǒng)一在行為追溯系統(tǒng)取數(shù)據(jù)。建立非必要不下載的觀念,簡單的統(tǒng)計工作可以直接在系統(tǒng)內(nèi)完成,如果下載,系統(tǒng)自動為文件加密,密碼在系統(tǒng)中經(jīng)過多重的身份校驗后提取。
支持在系統(tǒng)中對數(shù)據(jù)集合創(chuàng)建快照然后生成分享鏈接,鏈接的查看權(quán)限可以指定到人或群組。分享鏈接設置有效期后自動失效,對于某些字段可以創(chuàng)建脫敏規(guī)則。在保證數(shù)據(jù)安全的情況下,極大提高數(shù)據(jù)流轉(zhuǎn)的效率和靈活性。
數(shù)據(jù)處理主要包括以下幾點:一是數(shù)據(jù)自動統(tǒng)計,預置一些常用的處理規(guī)則,并能夠自定義規(guī)則處理數(shù)據(jù)(SQL);二是數(shù)據(jù)匹配,批量數(shù)據(jù)匹配補全,類似于辦公軟件中的VLOOKUP公式;三是數(shù)據(jù)篩選,滿足多種條件如相等、不相等、包含、不包含。對于上述的數(shù)據(jù)處理工作可以編寫腳本并定時執(zhí)行,然后自動發(fā)送郵件提醒結(jié)果。對于重要指標配置通知告警,及時關注數(shù)據(jù)變化。數(shù)據(jù)處理的主旨是讓數(shù)據(jù)管理員從重復的數(shù)據(jù)勞動中解放出來,讓重復性的操作自動化。
數(shù)據(jù)展示使用數(shù)據(jù)大屏展示一些關鍵指標,為決策提供數(shù)據(jù)支撐,要求能手動配置指標項和拖拽位置大小,定制展示主題顏色,更重要的是能授權(quán)哪些人看哪些大屏?;跀?shù)據(jù)中臺的數(shù)據(jù)展示可以展示數(shù)據(jù)的動態(tài)變化,對于展示的指標可以點擊下轉(zhuǎn)到詳細信息。
系統(tǒng)采用主流的SpringBoot編寫后端,React編寫前端,Postgres數(shù)據(jù)庫存儲結(jié)構(gòu)化數(shù)據(jù),結(jié)合手工行為追溯描述系統(tǒng)實現(xiàn),模塊間數(shù)據(jù)流向如圖2所示。
圖2 行為追溯系統(tǒng)中數(shù)據(jù)流向示意圖(虛線表示可選的流向)
手工錄入通常以天為單位,管理員向各個數(shù)據(jù)提供者索要數(shù)據(jù),然后整合到一張大表中。數(shù)據(jù)輸入基本依賴文件互傳和表格軟件內(nèi)復制粘貼來實現(xiàn)。通常的做法是,首先按日期創(chuàng)建文件夾,然后把數(shù)據(jù)文件移入文件夾然后改名,以備查備份;接著準備一個新表格,將獲取的數(shù)據(jù)文件中的數(shù)據(jù)內(nèi)容以無格式形式粘貼進來,進行手動去空格、去重、大小寫轉(zhuǎn)換等處理。數(shù)據(jù)采集的過程往往費時費力:一是,各數(shù)據(jù)提供者不能及時提供數(shù)據(jù)需要反復提醒催促;二是,數(shù)據(jù)提供者不夠細心、水平有限,不能按模板提供數(shù)據(jù)、格式混亂。并且,數(shù)據(jù)的輸入整理是重復性工作,有時也會出現(xiàn)疏漏造成數(shù)據(jù)不準。
行為追溯系統(tǒng)的數(shù)據(jù)錄入模塊需要解決上述問題,提供以下功能:
1)在線收集功能。對預先定義的群組內(nèi)成員發(fā)放問卷快捷收集,保證數(shù)據(jù)收集輸入工作平穩(wěn)、快捷、有序。
2)自動提醒功能。提前預設每天要收集的項目,分配好責任人、聯(lián)系方式、時間節(jié)點和通知規(guī)則,責任人需要在規(guī)定時間內(nèi)按照要求上傳收集到的信息,否則會收到提醒信息。
3)自動檢測功能。對于責任人上傳文件的字段內(nèi)容進行自動檢測,提醒上傳者哪些地方數(shù)據(jù)可能有異常,按照提示自行修改。
4)自動清洗功能。在錄入數(shù)據(jù)時進行校驗和清洗,如去空格、手機號格式校驗、身份證格式校驗、身份證最后一位X自動轉(zhuǎn)大寫等。導入數(shù)據(jù)時某些字段缺失的,如僅有身份證號,在系統(tǒng)中自動按人員基本信息表進行匹配補全。匹配不上且存在手機號的,電話溝通確認身份再由相關管理員補錄。實在不能確認身份的,則進行特殊標記,由相關責任人督辦查人。
5)單條錄入和批量導入功能。單條輸入時允許自動聯(lián)想和自動補全;多條導入時應準備好導入模板,提供導入預覽和導入確認環(huán)節(jié)。
6)移動端適配。數(shù)據(jù)輸入適配各種形式的網(wǎng)頁端,界面應當清晰明了,提供移動端適配方便隨時隨地錄入。
手工階段通常將各文件存儲在本地電腦,或?qū)⑽募鎯υ诩用艿脑瓶臻g中,便于后續(xù)的分享。行為追溯系統(tǒng)為解決上述問題將數(shù)據(jù)集中存儲在高可用部署的結(jié)構(gòu)化數(shù)據(jù)庫中,每天進行定時備份。
手工階段的數(shù)據(jù)流轉(zhuǎn)通常依賴即時通信軟件建群,在群內(nèi)共享數(shù)據(jù)。要求每個人只能看到與自己相關的數(shù)據(jù),但是群內(nèi)共享導致數(shù)據(jù)的無關暴露,文件下載后還會存在本地有數(shù)據(jù)泄露的風險。此外,因為即時通信軟件本身的不嚴肅性,用戶可能會將群內(nèi)軟件隨意分享給他人,毫無監(jiān)控手段。進階的,可以使用遠程辦公軟件,建立加密團隊,為每個人每個文件夾設置操作權(quán)限,文件下載后只有自己的賬號能夠打開,方便快捷,極大地提高了安全性。
行為追溯系統(tǒng)的數(shù)據(jù)流轉(zhuǎn)模塊需要解決上述問題,也要提供遠程辦公軟件類似的功能,首先系統(tǒng)是限制白名單訪問的,對每一份數(shù)據(jù)建立權(quán)限控制模型,限制數(shù)據(jù)查看、編輯、移動、下載等行為。此外,行為追溯系統(tǒng)是私有化本地部署,數(shù)據(jù)不上云更加安全。
手工階段往往要處理多張表格,按照一定的規(guī)則整合起來,進行一系列公式、篩選最終得到需要的數(shù)據(jù),然后進行決策。
行為追溯系統(tǒng)將重復操作組合成腳本,能夠一鍵運行和定時執(zhí)行,配合數(shù)據(jù)展示模塊讓使用者對數(shù)據(jù)有宏觀和微觀的理解,強有力地支撐各項決策。
手工階段的數(shù)據(jù)展示包括定制化大屏或通用的數(shù)據(jù)展示大屏,前者只是單純的數(shù)據(jù)展示,后者能與數(shù)據(jù)聯(lián)動在頁面中數(shù)據(jù)下鉆。但是數(shù)據(jù)是分散的,數(shù)據(jù)展示前要先進行數(shù)據(jù)導入。
行為追溯系統(tǒng)天然地將所有數(shù)據(jù)整合起來,接入數(shù)據(jù)中臺,數(shù)據(jù)一旦變化能很快地刷新展示,通過自定義大屏展示內(nèi)容,給大屏配置操作權(quán)限,使用起來靈活方便。
行為追溯系統(tǒng)使用范圍廣泛,可以支撐流調(diào)或繪制師生畫像。
1)流調(diào)。當行為追溯系統(tǒng)接入了門禁出入、刷卡消費、任教上課、監(jiān)控抓拍、核酸明細等數(shù)據(jù)后,首先能夠根據(jù)重點人員名單查人員軌跡,然后根據(jù)軌跡中的重要地點和時間查附近時空出現(xiàn)的人員,滿足流調(diào)的一般場景。
2)師生畫像。行為追溯系統(tǒng)可以繪制每位師生的時空軌跡,統(tǒng)計出某人經(jīng)常出入的場所,比如某個人經(jīng)常出入圖書館,可以簡單判斷他是一個愛學習的人。此外,除了時空信息還可以記錄如消費種類和金額、借閱書籍詳情、逗留時間等進行進一步研究。
行為追溯系統(tǒng)的核心是數(shù)據(jù)的錄入、存儲、流轉(zhuǎn)、處理、展示,在這個數(shù)據(jù)為王的信息時代,只要收集到數(shù)據(jù),在合法合規(guī)的前提下,更多的應用場景等待挖掘。
為解決行為追溯過程中的困難和不便,設計了基于數(shù)據(jù)中臺的行為追溯系統(tǒng),針對數(shù)據(jù)的輸入、存儲、流轉(zhuǎn)、處理、展示等方面進行建設性優(yōu)化,有效地簡化行為追溯復雜度,讓管理者從重復工作中解放出來,讓結(jié)果更加真實可信,給未來決策提供強有力的保證。本系統(tǒng)充分經(jīng)過充分論證,能為其他領域設計行為追溯系統(tǒng)提供參考借鑒。