摘要:為了更直觀、全面、高效地了解一卡通系統(tǒng)運(yùn)行及用戶用卡狀況。以所在單位為例,設(shè)計和實(shí)現(xiàn)了一卡通大數(shù)據(jù)挖掘及可視化系統(tǒng)?;谝豢ㄍń灰仔畔?、終端設(shè)備位置、地理位置圖等信息,采用Python為主要工具配合各開源模塊設(shè)計了數(shù)據(jù)挖掘和結(jié)果可視化平臺。實(shí)驗證明該系統(tǒng)能夠幫助多角度多形式地了解一卡通系統(tǒng)運(yùn)行狀況、用卡習(xí)慣等,進(jìn)而提高決策水平。該系統(tǒng)可為高校大數(shù)據(jù)深度應(yīng)用提供參考。
關(guān)鍵詞:一卡通;大數(shù)據(jù);數(shù)據(jù)挖掘;可視化;地理信息系統(tǒng)
中圖分類號:TP391.1 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)31-0100-02
Design of Data Mining and Visualization System Based on Campus Card System
YAO Li-juan
(Chengdu Textile College, Chengdu 611731, China)
Abstract: For more intuitive, comprehensive, and efficient understanding of the health of the campus card system and the trading conditions, take our college as an example, a big data mining and visualization system was designed and implemented. Based on card trading information, terminal equipment location, and combined with GIS information system, this scheme implemented data mining and visualization system, based on the python analytics platform. This system could establish a multi-angle and multi-form understanding of the health of a card system, then improve the level of decision-making. This system could provide reference for the deep applications of big data in colleges.
Key words: campus card system; big data; data mining; visualization; GIS
1 背景
隨著高校信息化建設(shè)日益深入,各種教務(wù)、后勤、服務(wù)、采購等系統(tǒng)的建立,教育信息化水平有了大幅度的提高。校園“一卡通”系統(tǒng)是智慧校園[1]的重要組成部分,以信息卡作為數(shù)據(jù)載體。一卡通作為傳統(tǒng)的身份識別介質(zhì),由于和“人”進(jìn)行了有效綁定,因此可以通過各種終端設(shè)備,在上下課考勤、門禁出入、注冊報到、刷卡消費(fèi)等場景中普遍得以應(yīng)用[2]。由于,對校園卡應(yīng)用數(shù)據(jù)進(jìn)行分析和挖掘[3-4],可以對用卡者的消費(fèi)行為、生活習(xí)慣、出勤情況和校園的公共服務(wù)情況、教學(xué)狀況等方面進(jìn)行規(guī)律分析。進(jìn)而通過這些信息,校園各部門管理者可以指導(dǎo)教學(xué)方案、教學(xué)質(zhì)量、課程安排、道路規(guī)劃等方面的調(diào)整。其中數(shù)據(jù)可視化技術(shù)可以讓用戶通過視覺感知,更清晰直觀、方便快速地抓住數(shù)據(jù)的信息,輔助管理者做出高效的決策。
因此校園卡應(yīng)用數(shù)據(jù)的挖掘和分析、可視化成為智慧校園下一步發(fā)展的關(guān)鍵環(huán)節(jié)。本文基于采用python分析平臺[5]設(shè)計和實(shí)現(xiàn)了一卡通大數(shù)據(jù)挖掘可視化系統(tǒng)[6]。運(yùn)用數(shù)據(jù)挖掘技術(shù)對校園卡應(yīng)用數(shù)據(jù),結(jié)合終端設(shè)備位置,對一卡通系統(tǒng)運(yùn)行狀況進(jìn)行了可視化展示。
2 基于一卡通系統(tǒng)的數(shù)據(jù)挖掘
2.1 一卡通系統(tǒng)的數(shù)據(jù)特點(diǎn)
本校已經(jīng)建成了一卡通物聯(lián)網(wǎng)平臺,推動一卡通服務(wù)向移動化、多元化服務(wù)轉(zhuǎn)變,促進(jìn)學(xué)校教學(xué)、管理、生活的信息化、智能化、自動化。本文使用的數(shù)據(jù)來自本校校園一卡通所產(chǎn)生的交易流水?dāng)?shù)據(jù),主要包括以下數(shù)據(jù)見表1。該數(shù)據(jù)存儲在Oracle數(shù)據(jù)庫中,通過python接口程序讀出去除隱私數(shù)據(jù)后,以文本格式文件分日期存放。
2.2 基于scikit-learn的數(shù)據(jù)挖掘
scikit-learn是基于python語言的一個開源的機(jī)器學(xué)習(xí)工具包。它通過python的模塊NumPy, SciPy和Matplotlib等庫實(shí)現(xiàn)高效的算法應(yīng)用,并且涵蓋了幾乎所有主流機(jī)器學(xué)習(xí)算法,包括回歸 (Regression)、降維 (Dimensionality Reduction)、分類 (Classfication)、聚類 (Clustering)等。Sklearn 采用流水線機(jī)制實(shí)現(xiàn)了對全部步驟的流式化封裝和管理,因此代碼量顯著減少,非常適合數(shù)據(jù)挖掘算法原型開發(fā)。sklearn中的大部分函數(shù)可以歸為估計器(Estimator)和轉(zhuǎn)化器(Transformer)兩類,通過pipline可以很方便地建立大數(shù)據(jù)處理流程。
2.3 基于python平臺的可視化
Django 是一個由 Python 編寫的一個開放源代碼的 Web 應(yīng)用框架。Django 開發(fā)之初就嚴(yán)格按照 MVC 設(shè)計規(guī)范,引入MVC設(shè)計模式。Django負(fù)責(zé)處理網(wǎng)站開發(fā)中通用的部分,因此利用django可以以專注于編寫應(yīng)用程序,非常適合本項目可視化這種低強(qiáng)度的web應(yīng)用。
對于圖表的顯示,項目采用EChart js圖標(biāo)庫,該庫是純Javascript,兼容大部分的瀏覽器,底層依賴輕量級的Canvas類庫,可以利用js和ajax技術(shù)可以非常容易地提供生動、可交互,數(shù)據(jù)可視化圖表。圖表定義采用xml能滿足該平臺的需求,而且有充分的可擴(kuò)展性。
對于地圖部分,為了以后拓展校園地圖方面的進(jìn)一步應(yīng)用,項目采用了mapbox gl js作為地圖支持框架。Mapbox GL JS有著出色顯示效果的前端地圖框架,并且其前端代碼是開源的,實(shí)現(xiàn)了豐富的交互功能。Mapbox的地圖,可以多層疊加,采用geojson等可以非常方便對關(guān)注地點(diǎn)進(jìn)行自定義。系統(tǒng)通過構(gòu)造校園平面圖可以方便在其上實(shí)現(xiàn)豐富多彩的數(shù)據(jù)展示和交互功能。
2.4 基于docker的計算平臺部署
數(shù)據(jù)挖掘是一項數(shù)據(jù)驅(qū)動的技術(shù),圍繞數(shù)據(jù)各個部門可以根據(jù)不同的需求開發(fā)各自的應(yīng)用。各個應(yīng)用產(chǎn)生新的數(shù)據(jù)又可以驅(qū)動新的應(yīng)用產(chǎn)生。云計算技術(shù)[7]的伸縮性為數(shù)據(jù)挖掘提供了很好的支撐。本部門已經(jīng)實(shí)驗性搭建了基于Docker的云中心及管理平臺,Docker的使用使應(yīng)用開發(fā)者更加關(guān)注于解決問題,無需考慮軟件兼容、系統(tǒng)發(fā)布部署的問題。管理中心提供了標(biāo)準(zhǔn)的管理端口、服務(wù)也采用REST進(jìn)行標(biāo)準(zhǔn)化,也有利于應(yīng)用間的數(shù)據(jù)共享和利用。利用該技術(shù)可以快速搭建測試基于數(shù)據(jù)驅(qū)動的大數(shù)據(jù)應(yīng)用。
3 基于一卡通的數(shù)據(jù)挖掘及可視平臺設(shè)計
3.1 系統(tǒng)總體構(gòu)架設(shè)計
基于一卡通的數(shù)據(jù)挖掘及可視平臺數(shù)據(jù)挖掘平臺基于 docker分布式部署的python大數(shù)據(jù)計算平臺。平臺滿足從一卡通的業(yè)務(wù)數(shù)據(jù)的歷史和運(yùn)行數(shù)據(jù)挖掘出數(shù)據(jù)中隱含的有價值信息。隨著采集的深入,數(shù)據(jù)量巨大,配置在docker上可以使系統(tǒng)具有高度的可伸縮性,充分合理地安排運(yùn)行資源。系統(tǒng)主要由數(shù)據(jù)倉庫模塊、數(shù)據(jù)挖掘和統(tǒng)計分析模塊、可視化模塊組成。圖1給出了大數(shù)據(jù)挖掘平臺系統(tǒng)模塊結(jié)構(gòu):
首先數(shù)據(jù)總線接口:接口模塊的功能為從一卡通系統(tǒng)中采集實(shí)時交易運(yùn)行數(shù)據(jù),然后歷史存儲在本地數(shù)據(jù)文件型數(shù)據(jù)庫中,既可以保證了交易數(shù)據(jù)的實(shí)時性也可以滿足隸屬數(shù)據(jù)的挖掘需要?;趐ython的數(shù)據(jù)挖掘平臺:采樣python為開發(fā)工具,python 以 sci- learn-kit 為數(shù)據(jù)挖掘工具,Django為web服務(wù)框架能夠較快地實(shí)現(xiàn)系統(tǒng)原型滿足低強(qiáng)度的應(yīng)用?;趀chart mapbox的可視化界面:基于B/S結(jié)構(gòu)的web富客戶端,基于mapbox.gl和echart等js庫實(shí)現(xiàn)豐富可視化功能,以GIS以校園地理圖為背景,然后獲取終端位置信息,圖層疊加后即為所需的終端設(shè)備信息顯示。
3.2 校園一卡通可視化主題
1)實(shí)時交易可視化:校園卡的刷卡記錄能反映出食堂、實(shí)驗室、門禁宿舍、浴室等校園熱點(diǎn)區(qū)域的人流量情況。通過將校園卡用戶的消費(fèi)數(shù)據(jù)轉(zhuǎn)換成具有人流量信息和地址編號的時間序列,利用實(shí)時交易數(shù)據(jù)可以對當(dāng)前用卡情況進(jìn)行可視化展示。在地圖上可以顯示出熱點(diǎn)交易信息,用多種echart圖表顯示數(shù)據(jù)。
2)人流量預(yù)測[8]可視化:利用歷史數(shù)據(jù)輸入到各種預(yù)測模型對模型進(jìn)行訓(xùn)練,獲得模型之后可以利用實(shí)時數(shù)據(jù)對給定時間段人流量進(jìn)行預(yù)測。本文結(jié)合大量歷史數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理后,載入人流量預(yù)測模型進(jìn)行訓(xùn)練,從而進(jìn)行人流量的預(yù)測。相對于以往采用計算機(jī)視覺的方法,該方法更能適合校園基本固定人群和人群行為模式相對固定的特點(diǎn),還能利用該特點(diǎn)提高預(yù)測精度。進(jìn)一步結(jié)合教務(wù)課程安排信息和教室位置信息可以估計出人流量通過的路線和擁堵情況。進(jìn)而對特定時間特定地點(diǎn)的人流進(jìn)行預(yù)測。圖2給出了實(shí)時交易及讓人流量可視化的效果。
3)多個系統(tǒng)數(shù)據(jù)聯(lián)合展示:借助地圖顯示平臺對地理位置相關(guān)的數(shù)據(jù)進(jìn)行綜合顯示。
下圖為該基于一卡通的數(shù)據(jù)挖掘及可視平臺效果。中間為校園一角,實(shí)時交易熱點(diǎn)區(qū)域用不同顏色顯示,地圖可以縮放,變換視角,配合mapbox的漫游交互,設(shè)定路線可以在地圖中瀏覽數(shù)據(jù),周圍為echart實(shí)現(xiàn)的實(shí)時統(tǒng)計數(shù)據(jù)圖。
4 結(jié)束語
隨著智慧校園的建設(shè),校園卡應(yīng)用數(shù)據(jù)對智慧校園的建設(shè)及大數(shù)據(jù)深度應(yīng)用有著至關(guān)重要的作用。本文采用python平臺采用數(shù)據(jù)挖掘技術(shù)模塊和web服務(wù)模塊設(shè)計和實(shí)現(xiàn)了一卡通大數(shù)據(jù)挖掘及可視化系統(tǒng)。并進(jìn)行了實(shí)時交易及人流量預(yù)測可視化。實(shí)驗證明該系統(tǒng)能夠幫助多角度多形式地了解一卡通系統(tǒng)運(yùn)行狀況。下一步還將對數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)融合、可視化主題做進(jìn)一步優(yōu)化。
參考文獻(xiàn):
[1] 徐強(qiáng).向智慧化邁進(jìn)——高校智慧校園一卡通建設(shè)研究[J].科技經(jīng)濟(jì)導(dǎo)刊,2021,29(16):29-30.
[2] 倪國英,石宇.大數(shù)據(jù)在高校后勤信息化建設(shè)中應(yīng)用與探究[J].產(chǎn)業(yè)創(chuàng)新研究,2020(6):142-143.
[3] 牟國棟,楊洪萬.智慧校園環(huán)境下校園一卡通數(shù)據(jù)管理的分析與探討[J].信息技術(shù)與信息化,2021(3):209-211.
[4] 迎梅.大數(shù)據(jù)時代的數(shù)據(jù)挖掘與應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(6):51-52.
[5] 馮艷茹.Python語言在大數(shù)據(jù)分析中的應(yīng)用[J].電腦知識與技術(shù),2020,16(24):72-73,80.
[6] 盧弘杰.大數(shù)據(jù)可視化與可視分析[J].電腦知識與技術(shù),2021,17(8):27-29.
[7] 楊武.混合云平臺的設(shè)計及實(shí)現(xiàn)[J].電腦知識與技術(shù),2021,17(11):77-78.
[8] 謝貴才,段磊,蔣為鵬,等.多尺度時序依賴的校園公共區(qū)域人流量預(yù)測[J].軟件學(xué)報,2021,32(3):831-844.
【通聯(lián)編輯:謝媛媛】
收稿日期:2021-06-20
基金項目:四川省教育廳科研項目:面向校園的大數(shù)據(jù)系統(tǒng)及云技術(shù)研究(項目編號:17ZB0016)
作者簡介:姚莉娟(1978—),女,四川成都人,講師,學(xué)士,主要研究方向為大數(shù)據(jù)處理技術(shù)、網(wǎng)絡(luò)安全。