屈莉莉 董艷 于楊
摘 要:基于高校貧困生精準(zhǔn)資助管理中建設(shè)數(shù)據(jù)倉庫的必要性,從數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計,多源異構(gòu)數(shù)據(jù)源的存儲與管理,數(shù)據(jù)倉庫的建模過程與方法,精準(zhǔn)資助數(shù)據(jù)分析的多維屬性與主要模型等方面對面向高校貧困生精準(zhǔn)資助的數(shù)據(jù)倉庫系統(tǒng)進(jìn)行了深入研究,能夠有效支撐數(shù)據(jù)綜合查詢、多維分析和數(shù)據(jù)挖掘,提高高等院校學(xué)生資助管理的科學(xué)決策水平。
關(guān)鍵詞:高等學(xué)校;貧困大學(xué)生;精準(zhǔn)資助;數(shù)據(jù)倉庫
中圖分類號:G640 文獻(xiàn)標(biāo)識碼:A 文章編號:1002-4107(2018)08-0055-03
目前我國的貧困大學(xué)生資助體系日漸完善,基本解決了經(jīng)濟(jì)困難學(xué)生的就學(xué)問題[1]。高校資助工作緊跟國家信息化建設(shè)的步伐,貸款與資助全部實行網(wǎng)絡(luò)化管理,各高?;窘ǔ蓪W(xué)生資助管理信息系統(tǒng)。但大數(shù)據(jù)給高校資助工作帶來了巨大的挑戰(zhàn)[2-3],大數(shù)據(jù)要求數(shù)據(jù)能充分發(fā)揮其外部性并通過與某些相關(guān)數(shù)據(jù)交叉融合產(chǎn)生遠(yuǎn)大于簡單加和的巨大價值,數(shù)據(jù)挖掘技術(shù)的不斷更新與應(yīng)用使得大數(shù)據(jù)發(fā)揮的作用日漸強(qiáng)大,因此,在高校的學(xué)生管理中應(yīng)加強(qiáng)數(shù)據(jù)利用與處理的能力,強(qiáng)化大數(shù)據(jù)意識,完善各項制度保障[4]。
數(shù)據(jù)倉庫之父W.H.Inmon在其經(jīng)典著作Building the Data Warehouse(《構(gòu)建數(shù)據(jù)倉庫》)一書中指出,“數(shù)據(jù)倉庫是面向主題的、集成的、非易失的、隨時間變化的用來支持管理人員決策的數(shù)據(jù)集合”。因此,利用數(shù)據(jù)倉庫技術(shù),高??梢詫崿F(xiàn)對多源異質(zhì)數(shù)據(jù)的采集、匯聚與分析。以主體多元化、內(nèi)容多維化、方法多樣化的數(shù)據(jù)倉庫系統(tǒng)為平臺,利用在線分析處理和數(shù)據(jù)挖掘工具,更全面了解學(xué)生的真實生活狀態(tài)和經(jīng)濟(jì)水平,使貧困生評定資助的結(jié)果更為綜合客觀,數(shù)據(jù)倉庫系統(tǒng)將作為實現(xiàn)高校學(xué)生精準(zhǔn)資助管理體系的基礎(chǔ)與工作機(jī)制。
一、設(shè)計高校貧困生精準(zhǔn)資助的數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)
搭建數(shù)據(jù)倉庫系統(tǒng)的目的是要形成一個存儲和使用數(shù)據(jù)的集成環(huán)境,這種體系化的環(huán)境可以把分散的或者結(jié)構(gòu)等不一致的數(shù)據(jù)轉(zhuǎn)化為集中的、一致的信息,進(jìn)一步分析解決問題,輔助決策以提高工作效率。參考通用的數(shù)據(jù)倉庫系統(tǒng)并結(jié)合高校貧困生精準(zhǔn)資助管理的需求,本文設(shè)計的高校貧困生精準(zhǔn)資助數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)如圖1所示,該數(shù)據(jù)倉庫系統(tǒng)由四個部分構(gòu)成:(1)數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉[5]。(2)建立數(shù)據(jù)倉庫,數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心和關(guān)鍵。(3)數(shù)據(jù)分析主要指OLAP(在線分析處理On-Line Analysis Processing)和數(shù)據(jù)挖掘。OLAP服務(wù)實現(xiàn)多角度、多層次的多維數(shù)據(jù)組織與分析;數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中發(fā)現(xiàn)有潛在價值和規(guī)律的知識和模式[6-7]。OLAP是一種求證性的分析工具,一般由用戶預(yù)先設(shè)定一些假設(shè),然后使用OLAP去驗證這些假設(shè),被動地進(jìn)行數(shù)據(jù)分析;而數(shù)據(jù)挖掘是一種挖掘性的分析工具,它主要是利用各種挖掘算法主動地去挖掘大量數(shù)據(jù)中蘊(yùn)含的規(guī)律和模式,主動地進(jìn)行數(shù)據(jù)分析。
(4)前端展現(xiàn)與應(yīng)用,包括各種數(shù)據(jù)報表、數(shù)據(jù)查詢、數(shù)據(jù)分析與應(yīng)用管理等工具,與其他高校資助管理系統(tǒng)的功能進(jìn)行集成。
二、高校貧困生精準(zhǔn)資助數(shù)據(jù)倉庫系統(tǒng)關(guān)鍵技術(shù)
數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫的構(gòu)建、基于OLAP與數(shù)據(jù)挖掘的數(shù)據(jù)分析等關(guān)鍵技術(shù)構(gòu)成。
(一)建立高校貧困生精準(zhǔn)資助的數(shù)據(jù)倉庫
1.多源異構(gòu)的數(shù)據(jù)源
數(shù)據(jù)源一般分為內(nèi)部信息和外部信息。為實現(xiàn)高校貧困生的精準(zhǔn)資助需要對學(xué)生的家庭信息、消費情況、學(xué)習(xí)成績、是否貸款、是否獲得獎學(xué)金等信息進(jìn)行全面的采集。
學(xué)生資助管理系統(tǒng):將現(xiàn)行的學(xué)生資助管理系統(tǒng)中已認(rèn)定的貧困生記錄作為主要的標(biāo)簽數(shù)據(jù)源,在多種數(shù)據(jù)挖掘模型建立過程中均需要與真實的資助結(jié)果進(jìn)行比較,進(jìn)行模型的訓(xùn)練進(jìn)而建立有效的精準(zhǔn)資助辨識模型。
學(xué)生基本信息數(shù)據(jù)庫:獲取在校學(xué)生基本信息,學(xué)生的出生年月、院系、專業(yè)、班級、聯(lián)系電話、家庭住址和聯(lián)系電話、郵編等。其中,對于分析學(xué)生貧困情況有意義的屬性,例如,可以通過家庭住址這一內(nèi)容大體判斷該生是否出生在貧困地區(qū)或經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)。
學(xué)生教務(wù)系統(tǒng)數(shù)據(jù)庫:獲取學(xué)生成績信息分析受資助學(xué)生的學(xué)習(xí)情況。對貧困生的界定和相關(guān)資助措施中一般都會涉及學(xué)生的成績,國家和學(xué)校會優(yōu)先資助品學(xué)兼優(yōu)的貧困學(xué)生。如果貧困生接受資助卻不努力學(xué)習(xí)的話,學(xué)校有義務(wù)對其進(jìn)行教育,對于屢教不改者,可以相應(yīng)調(diào)整其受益的貧困資金數(shù)額甚至取消貧困資格。
學(xué)生獎學(xué)金管理數(shù)據(jù)庫:獲取學(xué)生所得獎學(xué)金和助學(xué)金情況,計入貧困等級考慮因素。對于學(xué)習(xí)成績優(yōu)異的學(xué)生來說,除了貧困補(bǔ)助,還可以獲得國家勵志獎學(xué)金、優(yōu)秀學(xué)生獎學(xué)金等助學(xué)基金,這些相加的總額可能已經(jīng)大于維持正常生活的經(jīng)濟(jì)需求,因此可以對貧困等級做適當(dāng)?shù)恼{(diào)整,給其他同樣貧困的學(xué)生更多機(jī)會。
學(xué)生一卡通消費記錄數(shù)據(jù)庫:校園一卡通集刷卡消費、身份識別、圖書借閱、考勤功能等于一體,可以通過網(wǎng)絡(luò)技術(shù)對學(xué)生的一卡通數(shù)據(jù)進(jìn)行收集整理,獲取學(xué)生在校園內(nèi)食堂和超市消費記錄,通過消費水平推測學(xué)生的貧困程度。
學(xué)生申請貧困資助的證明材料:從家庭收入支出、家庭成員關(guān)系、父母身體狀態(tài)(是否健康,醫(yī)療支出等)和工作情況、是否為低保戶等方面大體了解學(xué)生的家庭背景。上學(xué)期間是否貸款,以及貸款金額、年限,都可以在一定程度上反映學(xué)生的經(jīng)濟(jì)生活來源。但必須確保所填信息真實可靠,并結(jié)合實際走訪和調(diào)查加以審核確認(rèn)。
學(xué)生網(wǎng)絡(luò)消費行為記錄:隨著電子商務(wù)產(chǎn)業(yè)的發(fā)展,學(xué)生吃飯可選擇外賣訂餐或者掃碼支付費用,因此僅通過一卡通消費數(shù)據(jù)分析得出的結(jié)果可能是片面的、不完整的,需要進(jìn)一步將網(wǎng)購記錄、外賣記錄、支付寶和微信等第三方支付記錄融入到學(xué)生經(jīng)濟(jì)水平分析和貧困等級評定之中。
對上述與高校貧困生評定相關(guān)的數(shù)據(jù)進(jìn)行存儲與管理。數(shù)據(jù)抽?。磾?shù)據(jù)清洗)是清除各數(shù)據(jù)來源中的噪聲干擾和對數(shù)據(jù)挖掘無用的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換是將雜亂的數(shù)據(jù)變?yōu)榻y(tǒng)一的形式,如相同意義字段名的轉(zhuǎn)換、編碼的轉(zhuǎn)換、單位的統(tǒng)一、冗余數(shù)據(jù)的消除等;同時為了壓縮海量數(shù)據(jù),將源數(shù)據(jù)中的數(shù)據(jù)遷移到數(shù)據(jù)倉庫或者數(shù)據(jù)集市時要按照一定的維度(時間維、地點維等)進(jìn)行匯總。同時,上述多個系統(tǒng)均為高校重要的應(yīng)用系統(tǒng),如果不便于直接連接其數(shù)據(jù)庫進(jìn)行大數(shù)據(jù)量操作,可以采用先編寫數(shù)據(jù)庫腳本或者中間件程序,通過批量連接查詢導(dǎo)出的方式,實現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)存儲。
2.數(shù)據(jù)倉庫建模
(1)數(shù)據(jù)倉庫的數(shù)據(jù)建模過程。數(shù)據(jù)倉庫的數(shù)據(jù)建模主要分為四個階段。
業(yè)務(wù)建模。劃分高校學(xué)生管理的整體業(yè)務(wù),進(jìn)行各個部門之間業(yè)務(wù)工作的界定,厘清其間關(guān)系。與學(xué)生資助管理相關(guān)的部門主要包括:教務(wù)處、學(xué)生處、財務(wù)處以及學(xué)生所在學(xué)院系。深入了解各個部門內(nèi)具體業(yè)務(wù)流程并將其程序化,提出和改進(jìn)業(yè)務(wù)部門與學(xué)生資助管理相關(guān)的工作流程并規(guī)范化。
領(lǐng)域概念建模。抽取關(guān)鍵業(yè)務(wù)概念并將之抽象化。按照業(yè)務(wù)主線聚合類似的分組概念。細(xì)化分組概念,厘清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。厘清分組概念之間的關(guān)聯(lián),形成完整的領(lǐng)域概念模型。
邏輯建模。對概念模型中的信息進(jìn)行實體化,定義實體與實體之間的關(guān)系,實體的屬性內(nèi)容等。即定義具體表的作用,表與表的約束,表的字段,形成實體關(guān)系聯(lián)系。
物理建模。確定數(shù)據(jù)的存儲結(jié)構(gòu)、索引策略、數(shù)據(jù)存放位置及存儲分配等。全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法;了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時間要求等,對時間和空間效率進(jìn)行平衡和優(yōu)化;了解外部存儲設(shè)備的特性,如分塊原則、塊大小的規(guī)定、設(shè)備的I/O特性等。
尤其是基于大數(shù)據(jù)架構(gòu),以分布式文件系統(tǒng)和非結(jié)構(gòu)化數(shù)據(jù)庫實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲,采用交互式分析和流處理工具的分布式數(shù)據(jù)倉庫系統(tǒng)可大幅提高數(shù)據(jù)存儲和數(shù)據(jù)服務(wù)的效率。
(2)數(shù)據(jù)倉庫的數(shù)據(jù)建模方法。數(shù)據(jù)倉庫邏輯模型的建模由核心事實表和一組維度表組成,主要包括星型模型和雪花模型。星型模型的維度表直接跟事實表連接;而雪花模型中的一些細(xì)粒度維度表不是直接與事實表連接,而是通過粗粒度的維度表中轉(zhuǎn)。星型模型查詢性能好,而雪花模型將使數(shù)據(jù)存儲更加規(guī)范化,減少數(shù)據(jù)冗余,易于維護(hù)和節(jié)省存儲空間。但為了滿足高性能的響應(yīng)要求,可以增加冗余、隱藏表之間的約束等反第三范式的操作。
(二)高校貧困生精準(zhǔn)資助的數(shù)據(jù)分析
1.分析高校貧困生精準(zhǔn)資助的屬性因素。除應(yīng)考慮大學(xué)生家庭收入和消費情況等傳統(tǒng)思維,隨著互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展,電話費,網(wǎng)絡(luò)購物的次數(shù)、網(wǎng)購商品種類和件數(shù)等也在一定程度上反映出學(xué)生的經(jīng)濟(jì)水平,因此應(yīng)探究更加全面的影響貧困等級的關(guān)聯(lián)因素。主要包括:是否為低保戶,是否為農(nóng)村戶口,是否為單親,是否為獨生子女,是否父母重病,是否獲得獎學(xué)金,是否申請到貸款,是否勤工助學(xué),一卡通和外賣就餐月均消費,網(wǎng)購月均消費,網(wǎng)購平均每月奢侈品件數(shù),電話費月消費等。
2.高校貧困生精準(zhǔn)資助的數(shù)據(jù)分析方法。通過OLAP操作,統(tǒng)計分析學(xué)生的基本資料(身份信息、家庭情況、成績信息、獎學(xué)金信息等)和各類花銷細(xì)分信息(衣食住行等);篩選關(guān)鍵性能指標(biāo):每月、每年的各類消費金額;從不同維度進(jìn)行切片、切塊和鉆取,獲取學(xué)生資助管理工作所需的分析結(jié)果。OLAP系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)最主要的應(yīng)用之一,專門設(shè)計用于支持復(fù)雜的分析統(tǒng)計操作,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便高校里從事學(xué)生管理的教師能夠準(zhǔn)確掌握在校學(xué)生的貧困情況,了解學(xué)生的真實需求,制定正確的資助方案。
采用層次分析法等多屬性評價方法計算影響貧困生評定的多層次因素,對致貧因素指標(biāo)進(jìn)行權(quán)重的定量測算;再收集各項指標(biāo)數(shù)據(jù),通過TOPSIS(Technique for Order Preference by Similarity to Ideal Solution,逼近理想解排序法)或模糊綜合評判等方法,對學(xué)生貧困程度進(jìn)行打分排序。
對數(shù)據(jù)倉庫中的各類消費進(jìn)行聚類分析。以學(xué)生食堂消費、外賣消費、網(wǎng)絡(luò)消費、學(xué)習(xí)成績排名、家庭情況等多項與“貧困生等級評定”相關(guān)的屬性作為聚類分析的數(shù)據(jù),進(jìn)行兩階段聚類。第一階段是粗類,分為貧困生和非貧困生;第二階段是細(xì)聚類,高校貧困生按照貧困程度可以享受國家每年每人4000元、3000元和1500元不等的補(bǔ)貼政策,以此為依據(jù)再對貧困生分為一等、二等和三等3個細(xì)類。
基于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)高校貧困生精準(zhǔn)資助管理中的有潛在價值的模式。進(jìn)行多因素關(guān)聯(lián)分析從而得到與貧困程度聯(lián)系最密切的影響因素。通過設(shè)定合適的最小支持度和最小置信度,得到一定數(shù)量的顯著關(guān)聯(lián),找出數(shù)據(jù)之間的關(guān)聯(lián)性,并驗證其有效性,簡化判斷貧困等級工作的步驟,加大資助認(rèn)定的精確度,為以后的貧困生資助工作提供更科學(xué)可靠的依據(jù)。
使用預(yù)測模型對學(xué)生資助進(jìn)行動態(tài)預(yù)警監(jiān)控。動態(tài)監(jiān)測與大學(xué)生貧困相關(guān)的若干關(guān)鍵指標(biāo),例如,食堂和外賣消費金額陡然降低、學(xué)習(xí)成績突然下降等情況可能會與該生家庭情況突遭變故有密切關(guān)聯(lián),應(yīng)迅速發(fā)現(xiàn)新情況并進(jìn)一步深入探究,為實現(xiàn)動態(tài)資助管理工作提供及時準(zhǔn)確的支持。
利用決策樹方法對未知貧困類別的大學(xué)生進(jìn)行有效的分類。決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,構(gòu)造決策樹的目的是從一組無次序、無規(guī)則的事例中找出多個屬性和貧困等級認(rèn)定間的關(guān)系,以便用它來預(yù)測將來某些學(xué)生屬性記錄的類別。
為幫助家庭貧困的學(xué)子順利完成學(xué)業(yè),為國家培養(yǎng)更多不論出身的優(yōu)秀人才,提高貧困生評定的精準(zhǔn)性勢在必行。數(shù)據(jù)倉庫系統(tǒng)為高校貧困生精準(zhǔn)資助提供了更廣泛的數(shù)據(jù)源和更科學(xué)的分析方法,可作為高校貧困生精準(zhǔn)資助動態(tài)管理的支持平臺。
參考文獻(xiàn):
[1]陳乃車,曾劍,唐聞捷.提升高校資助育人成效的路徑探
析[J].教育研究,2017,(5).
[2]林佳佳.河北省高校貧困生救助問題研究[D].石家莊:河
北師范大學(xué),2017.
[3]董魯皖龍.高校貧困生資助如何精準(zhǔn)有效?[N]. 中國教育 報,2017-01-24.
[4]陶俊清.大數(shù)據(jù)背景下的高校資助工作創(chuàng)新研究[J].東華
大學(xué)學(xué)報:社會科學(xué)版,2015,(1).
[5]劉佳易.校園卡應(yīng)用數(shù)據(jù)分析[D].北京:北京化工大學(xué),2015.
[6]崔鳳.基于聚類算法的教育資助系統(tǒng)的設(shè)計與實現(xiàn)[D].長
沙:湖南大學(xué),2016.
[7]饒亮.改進(jìn)的Apriori算法在貧困生助學(xué)系統(tǒng)中的應(yīng)用
[D].哈爾濱:哈爾濱工程大學(xué),2011.