劉海苑
摘要:由于目前高校貧困生信息缺乏動(dòng)態(tài)的調(diào)整,導(dǎo)致貧困生認(rèn)定缺乏科學(xué)、有效數(shù)據(jù)支撐。該研究通過對(duì)一卡通消費(fèi)記錄的分析及挖掘,讓貧困生鑒定人員能夠根據(jù)學(xué)生的的學(xué)號(hào)、姓名等信息查詢出該學(xué)生具體消費(fèi)信息以及統(tǒng)計(jì)信息,并以此作為貧困生認(rèn)定的一個(gè)重要參考。同時(shí)可以挖掘出貧困生的一些共同特征,并以此作為制定貧困生認(rèn)定標(biāo)準(zhǔn)的參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;貧困生認(rèn)定;輔助系統(tǒng)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)24-0005-03
Research on the Support System of Poor Students Identification Based on Data Mining
LIU Hai-yuan
(Guangdong University of Finance & Economics, Guangzhou 510320,China)
Abstract:Currently because of lack of information Poor College Students dynamic adjustment, poor students identified lack scientific data to support effectively. This research on consumer cards by analyzing and mining its records for person who identify poor students are able to check out the students'total and detail consumer records by the student's school number, name and other information, and the result as an important reference for poor students identified . While this research can dig out some poor students common features, and as a reference to develop the poor students qualified standards.
Key words:data mining; poor student qualification; assist system
1 研究背景
近年來高校招生規(guī)模越來越大,貧困生的數(shù)量也不斷上升,高校貧困生問題日益受到政府高度重視和社會(huì)普遍關(guān)注。目前高校貧困生認(rèn)定方法仍處在完善的過程中,貧困生認(rèn)定機(jī)制還不夠科學(xué)、不完善。隨著教育信息化建設(shè)在高校的不斷深入,許多高校已建立起了一系列功能日臻完善的校園一卡通系統(tǒng)。校園一卡通系統(tǒng)能夠提供消費(fèi)繳費(fèi)、身份識(shí)別以及信息管理等功能,其中消費(fèi)繳費(fèi)功能較全面地反映持卡人在學(xué)校生活期間的總體消費(fèi)額度和結(jié)構(gòu)情況。由于高校學(xué)生的生活消費(fèi)基本上集中在校園內(nèi)部,因此可以通過校園卡的消費(fèi)數(shù)據(jù)分析來輔助推測(cè)、評(píng)判學(xué)生(家庭)的經(jīng)濟(jì)狀況。
2 研究內(nèi)容
基于數(shù)據(jù)挖掘的貧困生認(rèn)定輔助系統(tǒng)以校園一卡通食堂消費(fèi)數(shù)據(jù)為分析對(duì)象,利用數(shù)據(jù)挖掘知識(shí)進(jìn)行分析,將學(xué)生校因卡在食堂的消費(fèi)水平引入到貧困生評(píng)價(jià)標(biāo)準(zhǔn),主要包括以下幾個(gè)方面的工作:
1)學(xué)生基本信息的采集。數(shù)據(jù)采集需要全面性,如果采集的基礎(chǔ)數(shù)據(jù)信息十分有限,將直接導(dǎo)致不能實(shí)現(xiàn)部分挖掘工作。因此需要采集些重要字段的數(shù)據(jù),將原本孤立的數(shù)據(jù)源有機(jī)地結(jié)合起來,綜合探討。
2)數(shù)據(jù)選擇和轉(zhuǎn)換。校園卡數(shù)據(jù)庫的數(shù)據(jù)龐大,僅僅一年多的交易數(shù)據(jù)量就超過300萬條,如此龐大的數(shù)據(jù)需要先進(jìn)行選擇數(shù)據(jù),再進(jìn)行轉(zhuǎn)換,如計(jì)算,求平均值等等。在分析研究數(shù)據(jù)過程當(dāng)中,將能真實(shí)反映學(xué)生消費(fèi)情況的數(shù)據(jù)建立數(shù)據(jù)倉庫。
3)利用數(shù)據(jù)挖掘和關(guān)聯(lián)分析OLAP方法,先建立可供數(shù)據(jù)分析的數(shù)據(jù)平臺(tái)環(huán)境,然后在此基礎(chǔ)上,建立數(shù)據(jù)倉庫、數(shù)據(jù)模型,利用數(shù)據(jù)挖掘技術(shù)解決學(xué)院系部、專業(yè)、家庭收入狀況等指標(biāo)的多維分析問題,用圖表分析和關(guān)聯(lián)分析的方法對(duì)知識(shí)進(jìn)行發(fā)現(xiàn),最終為高校管理決策者對(duì)貧困生進(jìn)行資助提供數(shù)據(jù)支撐,科學(xué)合理改進(jìn)評(píng)價(jià)機(jī)制。
3 系統(tǒng)設(shè)計(jì)
3.1 系統(tǒng)架構(gòu)設(shè)計(jì)
系統(tǒng)采用數(shù)據(jù)倉庫+數(shù)據(jù)挖掘+J2EE+ORACLE組成的解決方案。其中數(shù)據(jù)倉庫實(shí)現(xiàn)決策主體數(shù)據(jù)的集成、存儲(chǔ)和管理,數(shù)據(jù)挖掘用以挖掘數(shù)據(jù)倉庫中的知識(shí)并加入模型庫實(shí)現(xiàn)多個(gè)廣義模型的組合輔助決策。系統(tǒng)的主要框架模型如圖1所示。
3.2 系統(tǒng)功能模塊
貧困認(rèn)定輔助系統(tǒng)由系統(tǒng)登錄、個(gè)人信息、用戶管理、消費(fèi)查詢、統(tǒng)計(jì)查詢、數(shù)據(jù)挖掘六個(gè)模塊組成,如圖2所示。
4 數(shù)據(jù)處理
4.1 數(shù)據(jù)導(dǎo)入
導(dǎo)入的消費(fèi)流水?dāng)?shù)據(jù)是從2014年1月3日 至 2015年01月3日廣州某大學(xué)一卡通的消費(fèi)數(shù)據(jù)。Oracle數(shù)據(jù)庫的導(dǎo)出命令語句為:exp system/manager@TEST file=d:\ daochu.dmp full=y owner=(ykt_cur) 其中導(dǎo)出的是數(shù)據(jù)庫用戶ykt_cur的數(shù)據(jù),導(dǎo)出文件格式為“.dmp”,導(dǎo)出文件大小為2.01G。Oracle數(shù)據(jù)庫的導(dǎo)入命令語句為:imp ykt_cur/1234@FANG full=y file=d:\ daochu.dmp ignore=y 導(dǎo)入的文件為“daochu.dmp”,導(dǎo)入后的Oracle數(shù)據(jù)大概有16G。
4.2 數(shù)據(jù)整理
由于數(shù)據(jù)量比較龐大,所以導(dǎo)入的消費(fèi)流水表按時(shí)間段進(jìn)行分段存儲(chǔ),一共有62張表,導(dǎo)入的數(shù)據(jù)表還包括一張?jiān)O(shè)備表,一張顧客表,一張部門表。新建統(tǒng)計(jì)表,對(duì)導(dǎo)入的數(shù)據(jù)進(jìn)行處理存儲(chǔ)。首先對(duì)62張流水表進(jìn)行循環(huán)讀取不同的顧客號(hào),把所有不同的顧客號(hào)存儲(chǔ)到統(tǒng)計(jì)表。之后對(duì)統(tǒng)計(jì)表中的每一個(gè)顧客號(hào),在62張流水?dāng)?shù)據(jù)表中進(jìn)行循環(huán)累加消費(fèi)額,讀取每一張表的消費(fèi)總額的sql語句為:“select sum(amount) from 流水?dāng)?shù)據(jù)表名 where custid=顧客號(hào)”,其中“amount”屬性字段為流水?dāng)?shù)據(jù)中每一筆交易的發(fā)生額,“custid”為顧客號(hào)屬性字段。把每一個(gè)顧客號(hào)累加后的數(shù)據(jù)作為年消費(fèi)額再更新到統(tǒng)計(jì)表中。用同樣的方法,計(jì)算每一個(gè)顧客號(hào)的早餐消費(fèi)總額,讀取消費(fèi)流水表中早餐消費(fèi)總額的sql語句為:“select sum(amount) from 流水?dāng)?shù)據(jù)表名 where custid=顧客號(hào) and acctime<=090000 and acctime>= 063000”,其中“acctime”是消費(fèi)時(shí)間屬性字段,計(jì)算的是從早上六點(diǎn)三十分到早上九點(diǎn)這段時(shí)間一卡通的消費(fèi)總額。
計(jì)算每一個(gè)顧客號(hào)的午餐消費(fèi)總額,讀取消費(fèi)流水表中午餐消費(fèi)總額的sql語句為:“select sum(amount) from 流水?dāng)?shù)據(jù)表名 where custid=顧客號(hào) and acctime<=130000and acctime>=103000”,其中“acctime”是消費(fèi)時(shí)間屬性字段,計(jì)算的是從早上十點(diǎn)三十分到下午一點(diǎn)這段時(shí)間一卡通的消費(fèi)總額。
計(jì)算每一個(gè)顧客號(hào)的晚餐消費(fèi)總額,讀取消費(fèi)流水表中晚餐消費(fèi)總額的sql語句為:“select sum(amount) from 流水?dāng)?shù)據(jù)表名 where custid=顧客號(hào) and acctime<=190000and acctime>=163000”,其中“acctime”是消費(fèi)時(shí)間屬性字段,計(jì)算的是從下午四點(diǎn)三十分到晚上七點(diǎn)這段時(shí)間一卡通的消費(fèi)總額。
計(jì)算每一個(gè)顧客號(hào)的在飯?zhí)孟M(fèi)總額,讀取消費(fèi)流水表中飯?zhí)孟M(fèi)總額的sql語句為:“select sum(AMOUNT) as cost from 流水?dāng)?shù)據(jù)表名 where custid =顧客號(hào) and devphyid in (select devphyid from 設(shè)備表 where devicename like '%飯%')”,其中“devphyid”是設(shè)備號(hào)屬性字段,devicename為設(shè)備名屬性字段,對(duì)所有設(shè)備名包含“飯”字的設(shè)備發(fā)生的流水消費(fèi)額進(jìn)行累加統(tǒng)計(jì),得到每一個(gè)顧客一年在飯?zhí)玫南M(fèi)總額。
計(jì)算每一個(gè)顧客號(hào)的消費(fèi)總天數(shù),讀取消費(fèi)總天數(shù)的sql語句為: “select count(distinct accdate) from 流水?dāng)?shù)據(jù)表名where custid =顧客號(hào)”,其中accdate是消費(fèi)日期屬性字段,計(jì)算的是每一個(gè)顧客在一年中的消費(fèi)總天數(shù)。
對(duì)每一個(gè)統(tǒng)計(jì)出來的字段值更新到統(tǒng)計(jì)表中,同時(shí)把顧客表,部門表的有用信息更新到統(tǒng)計(jì)表,做成具有信息完整的統(tǒng)計(jì)表。同時(shí)新建權(quán)限表、用戶表,為后期系統(tǒng)設(shè)計(jì)打好基礎(chǔ)。
5 數(shù)據(jù)挖掘的結(jié)果分析
本研究中主要使用Sqlserver 2008工具對(duì)數(shù)據(jù)進(jìn)行挖掘,并對(duì)挖掘出來的對(duì)各個(gè)結(jié)果進(jìn)行說明及分析,并對(duì)學(xué)校的貧困認(rèn)定管理人員提出建設(shè)性建議。
5.1 預(yù)測(cè)月平均消費(fèi)
以月平均消費(fèi)為預(yù)測(cè)值,以年均、性別、學(xué)院、早餐消費(fèi)、午餐消費(fèi)、晚餐消費(fèi)、所獲獎(jiǎng)學(xué)金類型作為輸入列,用決策樹算法對(duì)月平均消費(fèi)進(jìn)行挖掘,得到?jīng)Q策樹如圖3所示??梢钥闯?011級(jí)的學(xué)生為分界點(diǎn),月平均消費(fèi)可以作為兩類預(yù)測(cè)。其原因可能為拿到的消費(fèi)數(shù)據(jù)為2014年整一年的數(shù)據(jù),在這一年中,2011級(jí)的學(xué)生的人數(shù)比較多,但是大部分都出去其他地方實(shí)習(xí)或工作,只有一小部分留在學(xué)校,發(fā)生比較多的消費(fèi)記錄。月均消費(fèi)的依賴關(guān)系網(wǎng)絡(luò)如下頁圖4所示,所有的輸入列都與預(yù)測(cè)列有一定的關(guān)系。月均消費(fèi)依賴關(guān)系網(wǎng)絡(luò)的最強(qiáng)鏈接如下頁圖5所示。以2011級(jí)的學(xué)生為分界點(diǎn),對(duì)月均消費(fèi)的預(yù)測(cè)值分別為:
①GRADE = '2011'
現(xiàn)有的事例: 1152
缺失的事例: 0
MONTHCOST = 371.652+0.398*(AFTERNOON-305.094)
②GRADE 不等于 '2011'
現(xiàn)有的事例: 11077
缺失的事例: 0
MONTHCOST=303.678-12.371*(SCORE-0.474)+0.119*(NIGHT-494.677)-0.020*(AFTERNOON-562.111)
其中GRADE表示年級(jí),AFTERNOON表示午餐消費(fèi),SCORE表示獲得獎(jiǎng)學(xué)金類型,SCORE=0表示沒獲得獎(jiǎng)學(xué)金。
5.2 不同性別與不同貧困類型學(xué)生月均消費(fèi)統(tǒng)計(jì)
OLAP展示不同性別與不同貧困類型學(xué)生月均消費(fèi)。圖底端的pool屬性的1、2、3、空白分別表示一星貧困生、二星貧困生、三星貧困生、不是貧困生??梢缘玫綗o論是否貧困生,男生月均消費(fèi)都要比女生月均消費(fèi)高。如圖6所示:
圖6 不同性別與不同貧困類型學(xué)生月均消費(fèi)圖
6 結(jié)束語
本文具體論述了貧困認(rèn)定輔助系統(tǒng)的主要功能和實(shí)現(xiàn)方法,重點(diǎn)討論了系統(tǒng)設(shè)計(jì)、數(shù)據(jù)處理以及數(shù)據(jù)挖掘結(jié)果分析。目前基于該模型的系統(tǒng)處于實(shí)驗(yàn)階段,功能、安全等方面還需要提高和完善,下一步將繼續(xù)對(duì)系統(tǒng)進(jìn)行調(diào)優(yōu)及功能補(bǔ)充。
參考文獻(xiàn):
[1] 趙炳起. 高校貧困生認(rèn)定機(jī)制——優(yōu)化與重構(gòu)[J]. 教育財(cái)會(huì)研究, 2006, 13(4): 20-26.
[2] 李從松. 中國大學(xué)貧困生研究[M]. 武漢: 湖北人民出版社, 2003, 250-251.
[3] 錢能, 趙建春. 河海大學(xué)加大幫扶貧困生工作力度[N]. 中國教育報(bào), 2005-03-01: 1-1.
[4] John HuntChris Loftus. Guide to J2EE:Enterprise Java[M]. 周立斌, 譯. 北京: 清華大學(xué)出版社, 2004, 105-120.
[5] 宋善德, 郭飛. 基于Java的WEB數(shù)據(jù)庫連接池技術(shù)的研究J]. 計(jì)算機(jī)工程與應(yīng)用, 2002, 60(8): 58-61.
[6] 林杰斌, 劉明德, 陳湘. 數(shù)據(jù)挖掘與OLAP 理論與實(shí)務(wù)[M]. 北京: 清華大學(xué)出版, 2003, 140-145.
[7] 唐菁, 張前. 基于 Web 的文本挖掘[J]. 計(jì)算機(jī)工程與應(yīng)用, 2002, 40(21): 198-201.