于春花
摘要:基于校園一卡通系統(tǒng)建立數(shù)據(jù)倉庫,通過對數(shù)據(jù)集分析確定應(yīng)用系統(tǒng)中的主題,并對其進(jìn)行維度設(shè)定,一次創(chuàng)建維度表和事實表,最后設(shè)計出用于數(shù)據(jù)挖掘的多維數(shù)據(jù)系統(tǒng)架構(gòu),探索數(shù)據(jù)挖掘在一卡通多維數(shù)據(jù)庫系統(tǒng)中的應(yīng)用。
關(guān)鍵詞:一卡通數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;多維數(shù)據(jù)模型
1.引言
“校園一卡通”系統(tǒng)[1](以下簡稱一卡通系統(tǒng))是我校校園信息化建設(shè)的一項基礎(chǔ)工程。目前,我院已實現(xiàn)利用一卡通系統(tǒng)對學(xué)校中的各類身份認(rèn)證、消費進(jìn)行統(tǒng)一管理。作為一套服務(wù)全院師生的管理系統(tǒng),在系統(tǒng)設(shè)計及建設(shè)時,側(cè)重于它的業(yè)務(wù)功能實現(xiàn)方面,沒有過多考慮對其數(shù)據(jù)進(jìn)行分析。一卡通系統(tǒng)是一套數(shù)據(jù)庫應(yīng)用系統(tǒng),存放著大量和學(xué)生行為有關(guān)的數(shù)據(jù)。如果能對這些數(shù)據(jù)進(jìn)行系統(tǒng)的分析挖掘,發(fā)現(xiàn)其中存在的規(guī)律及問題,對將來我院的管理工作具有重要的指導(dǎo)意義。
一卡通系統(tǒng)設(shè)備廣泛分布在校園內(nèi)的食堂、超市、水房、公寓、圖書館、校醫(yī)院等地點。因此,產(chǎn)生的數(shù)據(jù)可以從側(cè)面反應(yīng)出個人的行為特點、生活軌跡、興趣愛好、群體的活動規(guī)律等潛在信息。本文中,我們利用濰坊學(xué)院一卡通系統(tǒng)產(chǎn)生的數(shù)據(jù),結(jié)合數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等相關(guān)技術(shù)進(jìn)行初步分析,從應(yīng)用層面討論數(shù)據(jù)分析在校園的研究與實現(xiàn)。
2.校園一卡通系統(tǒng)與數(shù)據(jù)倉庫[2]
2.1校園一卡通數(shù)據(jù)當(dāng)前存在的問題
目前,我校一卡通系統(tǒng)雖有多種信息查詢功能,但僅僅是對數(shù)據(jù)及報表進(jìn)行查詢,無法完成對整個一卡通系統(tǒng)的數(shù)據(jù)分析,并根據(jù)實際情況給決策者提供良好的決策支持[3],主要存在以下幾個方面問題:[4]
數(shù)據(jù)量大:目前一卡通系統(tǒng)產(chǎn)生的信息主要有基本信息、消費信息、圖書借閱信息、機(jī)房上機(jī)記錄、身份認(rèn)證類刷卡信息、開水淋浴用水信息等。加之在校生眾多,且每學(xué)年都在增加,迄今為止,數(shù)據(jù)庫文件已超過30G。對如此大數(shù)據(jù)量進(jìn)行數(shù)據(jù)操作,在數(shù)據(jù)清洗、數(shù)據(jù)分析上都存在一定的難度。
數(shù)據(jù)零散、標(biāo)準(zhǔn)不統(tǒng)一:學(xué)院整個一卡通系統(tǒng)是由多個應(yīng)用子系統(tǒng)組成,在系統(tǒng)設(shè)計及建設(shè)時期沒有過多的考慮數(shù)據(jù)操作問題,同時也沒有對數(shù)據(jù)格式的標(biāo)準(zhǔn)性、數(shù)據(jù)的聯(lián)通交互方式做出約定。在一卡通系統(tǒng)運行階段,與第三方應(yīng)用系統(tǒng)進(jìn)行單向?qū)樱驗闆]有數(shù)據(jù)倉庫,各個應(yīng)用系統(tǒng)獨立運行。這對數(shù)據(jù)分析及決策支持帶來一定的困難,同時也為對數(shù)據(jù)的整合與加工處理增加了難度。
數(shù)據(jù)的整合與轉(zhuǎn)換:一卡通系統(tǒng)數(shù)據(jù)分析需要對整個系統(tǒng)的數(shù)據(jù)進(jìn)行分析,因此需要建立數(shù)據(jù)倉庫對所有的業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)的整合與轉(zhuǎn)換,使之符合數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)與要求,以便進(jìn)行數(shù)據(jù)分析。
2.2 校園一卡通數(shù)據(jù)倉庫的設(shè)計目標(biāo)
基于校園一卡通數(shù)據(jù)的數(shù)據(jù)倉庫設(shè)計目標(biāo)就是設(shè)計數(shù)據(jù)模型、有效的清洗整合資源、根據(jù)管理者和用戶的需要構(gòu)建數(shù)據(jù)分析平臺。在設(shè)計的數(shù)據(jù)模型中,完成歷史數(shù)據(jù)和實時數(shù)據(jù)的自動抽取、清洗、轉(zhuǎn)換,實現(xiàn)基于維度的信息展示和分析,彌補我校在數(shù)據(jù)挖掘方面的不足,同時為更深層次的數(shù)據(jù)挖掘提供數(shù)據(jù)平臺。
2.3 一卡通數(shù)據(jù)倉庫多維數(shù)據(jù)模型[5]的構(gòu)建
數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、且隨著時間而變化的數(shù)據(jù)集合。它能將我校分散的、異構(gòu)的原始業(yè)務(wù)系統(tǒng)操作數(shù)據(jù)及外部數(shù)據(jù)源進(jìn)行抽取、清洗、轉(zhuǎn)化為集中統(tǒng)一、可分析性的信息。通過從不同的維度進(jìn)行數(shù)據(jù)的抽取、匯總和分析,將數(shù)據(jù)重新組織成面向全局的多維數(shù)據(jù)模型,結(jié)合數(shù)據(jù)挖掘技術(shù),能夠靈活的面向用戶和管理者的需求,并提供決策支持。
自我校一卡通系統(tǒng)建立至今,一卡通應(yīng)用系統(tǒng)已存在海量數(shù)據(jù),為有效利用其中的信息資源,需構(gòu)建基于多維數(shù)據(jù)庫的數(shù)據(jù)倉庫系統(tǒng)。針對不同類別(譬如卡戶行為類、消費類)的數(shù)據(jù)建立多維數(shù)據(jù)集,每個多維數(shù)據(jù)集數(shù)據(jù)模型均包括一個事實數(shù)據(jù)表以及一個或多個維度表。多維數(shù)據(jù)模型是最常用的數(shù)據(jù)倉庫的數(shù)據(jù)模型,多維數(shù)據(jù)模型最典型的數(shù)據(jù)模式包括星型模式、雪花模式和事實星座模式。在星型模式中,核心是事實表,每個維度直接聯(lián)接到事實表上。雪花模式是星型模式的擴(kuò)展,其中某些維表被規(guī)范化,進(jìn)一步分解到附加表(維表)中。
事實星座模式又稱為星系模式,因為數(shù)據(jù)倉庫由多個主題構(gòu)成,復(fù)雜的應(yīng)用一般用到多個事實共享表,而維表是公共的,可以共享,這種模式可以看做星型模式的匯集。校園一卡通系統(tǒng)中,消費信息、醫(yī)療信息、考勤信息、圖書借閱信息等分別作為星型模式的事實表,他們分別是單獨的主題域。經(jīng)過對比與分析,這些主題的維度既有公共的維度,也有子系統(tǒng)特點的維度,如圖1所示。如各個主題域都有公共的維度一卡通用戶信息、POS機(jī)信息、時間維。而每個主題域又有本系統(tǒng)的特點維度:消費主題域有消費類型的維度,醫(yī)療主題域有醫(yī)療類型的維度,圖書借還主題域有圖書信息的維度等。因此,多維數(shù)據(jù)庫模型中建立事實星座和公共維度,有利于對一個以上的業(yè)務(wù)過程進(jìn)行分析,從而構(gòu)建學(xué)生在校內(nèi)的生活行為軌跡。
2.4 一卡通數(shù)據(jù)分析系統(tǒng)的架構(gòu)
數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),成功的數(shù)據(jù)挖掘的關(guān)鍵之一就是通過訪問準(zhǔn)確、完整和集成的數(shù)據(jù),才能進(jìn)行深層次的分析,尋求有益的信息。而這些正是數(shù)據(jù)倉庫所能提供的(圖2),數(shù)據(jù)倉庫不僅是集成數(shù)據(jù)的一種方式,而且數(shù)據(jù)倉庫的聯(lián)機(jī)分析功能―OLAP還為數(shù)據(jù)挖掘提供了一個極佳的操作平臺。如果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘進(jìn)行有效的聯(lián)結(jié),將會給數(shù)據(jù)挖掘帶來各種便利和功能。[7]數(shù)據(jù)分析系統(tǒng)建設(shè)主要分為三個主要部分,如圖3所示:
(1)數(shù)據(jù)融合處理:校園一卡通系統(tǒng)的數(shù)據(jù)來源于各個業(yè)務(wù)系統(tǒng)、
異構(gòu)的原始業(yè)務(wù)系統(tǒng)操作數(shù)據(jù)及外部數(shù)據(jù)源,這些數(shù)據(jù)結(jié)構(gòu)各異,因此數(shù)據(jù)倉庫首先要對這些數(shù)據(jù)進(jìn)行有效的整合,建立數(shù)據(jù)抽取、清理機(jī)制,摒棄冗余的、沒有價值的信息。經(jīng)過轉(zhuǎn)換、綜合、把有價值的數(shù)據(jù)裝載至數(shù)據(jù)倉庫。
(2)建立數(shù)據(jù)倉庫:根據(jù)設(shè)計的數(shù)據(jù)倉庫模型,建立多維數(shù)據(jù)庫模型。通過對子系統(tǒng)數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換,在數(shù)據(jù)倉庫內(nèi)部建立各個業(yè)務(wù)系統(tǒng)的多維數(shù)據(jù)集,同時根據(jù)業(yè)務(wù)系統(tǒng)完善公共維度的信息。
(3)數(shù)據(jù)挖掘和展示:通過數(shù)據(jù)挖掘技術(shù)針對不同業(yè)務(wù)系統(tǒng)設(shè)計不同的算法,結(jié)合統(tǒng)計查詢工具,為前端用戶提供多維的數(shù)據(jù)展示,發(fā)現(xiàn)數(shù)據(jù)中的潛在模式,并以這些模式為基礎(chǔ)做出預(yù)測。[6]
3.數(shù)據(jù)挖掘技術(shù)在一卡通系統(tǒng)中的應(yīng)用
通過對數(shù)據(jù)倉庫中一卡通消費信息數(shù)據(jù)集進(jìn)行聚類分析,如圖4所示,聚類數(shù)為5,聚類樣本為2016年9月至2016年12月的共6077820條記錄,算法采用K-Means算法,聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。具體算法如下:
算法:K -Means
輸入:簇的數(shù)目k和包含n個對象的數(shù)據(jù)庫
輸出:k個簇,使平方誤差準(zhǔn)則最小
方法:
1)從N個對象中隨機(jī)選取K個對象作為簇中心
2)對剩余的每個對象測量其到每個簇的距離,并把它歸到最近的簇的類;
3)重新計算已經(jīng)得到的各個類的簇;
4)迭代2~3步直至新的簇與原簇相等或小于指定閾值,算法結(jié)束;
k-means 算法的工作過程如下:首先從n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然 后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
通過分析工具對這些數(shù)據(jù)進(jìn)行有效的管理和組織,并挖掘其中的信息價值??蔀閷W(xué)校的管理工作、貧困生篩查、經(jīng)營分析等工作提供真實準(zhǔn)確的依據(jù),便于做出合理正確的決策。
(1)現(xiàn)金充值人數(shù)高峰期預(yù)測。
在分析過程中,以現(xiàn)金充值業(yè)務(wù)為方向,綜合充值金額及時間,得到每個月的人數(shù)峰值,從時間維度下鉆,可以得出結(jié)論,每周初,現(xiàn)金充值人次基本為當(dāng)周最多,節(jié)假日視假期性質(zhì)決定最后一天或者多天充值筆數(shù)開始回升,節(jié)后充值筆數(shù)會有一段時期的爆發(fā)期,持續(xù)3天左右,然后依照周初筆數(shù)最多規(guī)律進(jìn)行浮動,如圖5所示:
(2)貧困生篩選
高校貧困生認(rèn)定體系結(jié)構(gòu)不完整,有些真正的貧困生有自卑心理,強(qiáng)烈的自尊心導(dǎo)致他們開不了口。[8]而依據(jù)各地民政部門開具證明作為認(rèn)定標(biāo)準(zhǔn)存在諸多弊端。校園卡作為學(xué)生在校消費的重要支付手段,在很大程度上較為客觀的反映了學(xué)生的真實經(jīng)濟(jì)狀況,如圖6所示。因此,立足于數(shù)據(jù)倉庫的貧困生篩選能夠很好的為學(xué)院貧困生篩選提供事實依據(jù)。
貧困生篩選的目的是通過對消費數(shù)據(jù)集分析,將消費水平遠(yuǎn)低于學(xué)院大部分同學(xué)的群體篩選出來,進(jìn)行經(jīng)濟(jì)補助。為保證篩選數(shù)據(jù)的準(zhǔn)確性,我們首先排除掉消費次數(shù)過少的數(shù)據(jù),同時考慮到女生食量較小,同時存在晚飯只吃水果的情況,將男女生分別核算。在數(shù)據(jù)分析上,我們分兩個步驟來進(jìn)行:
首先采用加權(quán)平均值法,將每個同學(xué)的早餐、午餐、晚餐分別設(shè)定權(quán)重。經(jīng)過問卷調(diào)查大部分同學(xué)早餐2.5-5元,午餐8.5-11元、晚餐7-9元,設(shè)定早餐權(quán)重0.2,午餐權(quán)重0.45,晚餐權(quán)重0.35。將每餐的金額乘以相應(yīng)的權(quán)重求和再平均之后,得到一個加權(quán)平均值。
第二步以月為單位,將每個學(xué)生的加權(quán)平均值匯總再平均,然后引入聚類算法,設(shè)定高中低貧困四檔消費水平。處于貧困檔的學(xué)生,我們認(rèn)定為經(jīng)濟(jì)水平較弱,消費能力過低,存在家庭貧困的可能。為貧困生認(rèn)定提供事實依據(jù)。
(3)用戶關(guān)聯(lián)度及心理健康
大學(xué)生作為一個特殊群體,在日常生活和學(xué)習(xí)中往往面對著各種心理壓力,時間長久會對學(xué)業(yè)、事業(yè)、身心健康造成損害。伴隨著學(xué)院對學(xué)生心理健康的愈加重視,分析用戶關(guān)聯(lián)度及學(xué)生心理健康迫在眉睫。
一卡通系統(tǒng)產(chǎn)生的數(shù)據(jù)具有時空特性,每個記錄都包含參與用戶、時間、地點,關(guān)系密切的用戶可能會頻繁的在同一個時間段內(nèi)出現(xiàn)在同一個地點。因此,從用戶的軌跡數(shù)據(jù)出發(fā)對數(shù)據(jù)進(jìn)行分析,可以發(fā)現(xiàn)生活中在相近的時間內(nèi)出現(xiàn)在相同地點的用戶。如果兩個用戶多次同時訪問同一地點,會產(chǎn)生多地點相同、時間間隔較小的行為記錄。即產(chǎn)生了多對關(guān)聯(lián)性較高的行為記錄,如圖7所示:
在校內(nèi),關(guān)聯(lián)度較高的用戶大多存在強(qiáng)校內(nèi)社交關(guān)系,一般為室友、同班同學(xué)或其它熟絡(luò)關(guān)系。大部分同學(xué)和其它同學(xué)存在一定的關(guān)聯(lián)度,關(guān)聯(lián)度是小團(tuán)體朋友圈的展現(xiàn)。如果一個用戶和任何人的關(guān)聯(lián)度都很低,從客觀數(shù)據(jù)事實上來說,該用戶不與同學(xué)一起就餐、上自習(xí)、去圖書館、洗澡、回寢室等。從行為上而言,該同學(xué)性格孤僻、不合群,甚至于心理不健康,需要進(jìn)行心理輔導(dǎo)。
4結(jié)束語
本文介紹了基于濰坊學(xué)院一卡通系統(tǒng)數(shù)據(jù)倉庫的設(shè)計,以及針對構(gòu)建的多維數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)挖掘方式。選取真實的用戶數(shù)據(jù),對濰坊學(xué)院現(xiàn)金充值高峰期、貧困生篩選、用戶關(guān)聯(lián)度及心理健康進(jìn)行了分析。
在數(shù)據(jù)倉庫中,根據(jù)模型和算法可以按照外部認(rèn)定條件來做出判定,譬如不常去上課、不常去圖書館的同學(xué)掛科率比較高;餐廳每天都會售罄的菜品比較受歡迎,每天都會賣剩的菜品不受學(xué)生喜愛。卻很難去發(fā)現(xiàn)事情發(fā)生轉(zhuǎn)向的因素和時間:一個學(xué)生因故消沉繼而成績一落千丈,一間圖書館自習(xí)室因空調(diào)及照明故障導(dǎo)致學(xué)生預(yù)約率遠(yuǎn)低于平均值。數(shù)據(jù)挖掘得到的不僅僅是歷史數(shù)據(jù)的結(jié)論,更是對未來一段時間事物發(fā)展的預(yù)測。下一步工作中,我們將結(jié)合學(xué)生的成績,研究影響學(xué)生成績的因素,尋找成績波動的規(guī)律,以期在教學(xué)方面提供助力。
參考文獻(xiàn):
[1]張敬濤,李向陽,鄒秀香.校園一卡通系統(tǒng)的應(yīng)用研究[ J].山東師范大學(xué)學(xué)報(自然科學(xué)版),2008,23(3):126-129.
[2]李昭智.決策支持與數(shù)據(jù)倉庫系統(tǒng)[M].北京:電子工業(yè)出版社,2001.4:16
[3]許兆新,周雙娥,郝燕玲.決策支持系統(tǒng)相關(guān)技術(shù)綜述展[J].計算機(jī)應(yīng)用研究,2001,(2):35-39
[4]賴靜.基于云南林業(yè)職業(yè)技術(shù)學(xué)院一卡通的數(shù)據(jù)分析系統(tǒng)[D].電子科技大學(xué)。2012
[5]戴浩.基于業(yè)務(wù)元數(shù)據(jù)的多維建模系統(tǒng)設(shè)計與實現(xiàn)[ J].計算機(jī)工程與設(shè)計,2010,31[24]:5248-5252.
[6]王玉芬.張治斌.李長江.數(shù)據(jù)倉庫在高校決策支持中的應(yīng)用研究[J].陜西理工學(xué)院學(xué)報,2007,23(4)18-19
[7]商新娜,孫連英,彭濤.校園一卡通數(shù)據(jù)倉庫系統(tǒng)[J].計算機(jī)系統(tǒng)應(yīng)用,2012,21(3)21-22
[8]韋崇崗一種卨校資助信息化管理法的實現(xiàn)內(nèi)江師范學(xué)院學(xué)報,2011,26(2):65-67
(Endnotes)
[1]王玉芬.張治斌.李長江.數(shù)據(jù)倉庫在高校決策支持中的應(yīng)用研究[J].陜西理工學(xué)院學(xué)報,2007,23(4)18-19
[2]韋崇崗一種卨校資助信息化管理法的實現(xiàn)內(nèi)江師范學(xué)院學(xué)報,2011,26(2):65-67