莫媛媛+顧明言+張輝宜
摘 要:為解決當(dāng)前高校在家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定方面缺少直觀數(shù)據(jù)佐證的問題,本文基于在校學(xué)生的一卡通消費(fèi)數(shù)據(jù),結(jié)合譜聚類算法與支持向量機(jī)的優(yōu)點(diǎn),探索了一種數(shù)據(jù)量化的家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定方法。首先,對(duì)原始數(shù)據(jù)的每筆消費(fèi)記錄進(jìn)行標(biāo)記并采用譜聚類算法對(duì)預(yù)處理后的學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行聚類分析;然后依據(jù)聚類結(jié)果生成數(shù)據(jù)篩選規(guī)則,剔除離群樣本,提取有效的日常消費(fèi)數(shù)據(jù);最后,選取不同的特征構(gòu)建特征向量并輸入到支持向量機(jī)(Support Vector Machine,SVM)中訓(xùn)練家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定模型。實(shí)驗(yàn)結(jié)果表明,本文研究的方法能準(zhǔn)確地區(qū)分出在校生的經(jīng)濟(jì)困難程度,在校生的消費(fèi)信息能較客觀地反映出學(xué)生的家庭經(jīng)濟(jì)情況,該方法將為高校經(jīng)濟(jì)困難學(xué)生認(rèn)定工作提供一種有效的輔助手段。
關(guān)鍵詞:譜聚類算法;特征提?。籗VM;經(jīng)濟(jì)困難學(xué)生認(rèn)定模型
中圖分類號(hào):G647 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2017)15-0048-04
一、引言
近年來(lái),我國(guó)對(duì)高校經(jīng)濟(jì)困難學(xué)生的資助力度逐漸增強(qiáng),各個(gè)高校主要通過經(jīng)濟(jì)困難生資助體系給予經(jīng)濟(jì)困難學(xué)生群體幫助。[1]但資助體系中經(jīng)濟(jì)困難學(xué)生的認(rèn)定過程受諸多因素的影響,比如:認(rèn)定標(biāo)準(zhǔn)難以統(tǒng)一;定性因素、主觀因素多,客觀依據(jù)少,不可避免會(huì)出現(xiàn)認(rèn)定范圍和等級(jí)的偏差;缺少科學(xué)審查和復(fù)核辦法;對(duì)虛報(bào)家庭經(jīng)濟(jì)狀況的行為缺乏有效監(jiān)督等等。同時(shí)經(jīng)濟(jì)困難學(xué)生的認(rèn)定涉及教育機(jī)會(huì)公平、維護(hù)高校和社會(huì)穩(wěn)定的重要問題。[2-3]那么如何才能更加公平、公正、客觀地評(píng)定呢?眾所周知,學(xué)生在學(xué)校使用的校園卡可以直觀地體現(xiàn)學(xué)生的生活水平,已有部分高校開始對(duì)學(xué)生校園一卡通的消費(fèi)行為數(shù)據(jù)進(jìn)行研究,并使用數(shù)據(jù)挖掘技術(shù)中的聚類算法和規(guī)則分析算法對(duì)校園一卡通數(shù)據(jù)進(jìn)一步分析。[4-5] 王德才等人利用SVM和Apriori關(guān)聯(lián)規(guī)則算法分析學(xué)生校園一卡通消費(fèi)行為數(shù)據(jù);[6]羅擁軍等人采用基于FP-Growth算法尋找學(xué)生的貧困度與一卡通數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的依據(jù);[7]黃劍等人利用決策樹數(shù)據(jù)挖掘算法分析學(xué)生校園中的消費(fèi)行為習(xí)慣內(nèi)在關(guān)聯(lián)關(guān)系和變化趨勢(shì),以便于調(diào)整學(xué)校餐飲服務(wù);[8]徐劍等人利用K-means算法對(duì)一卡通的消費(fèi)數(shù)據(jù)進(jìn)行了聚類分析,并用關(guān)聯(lián)規(guī)則算法分析了學(xué)生的消費(fèi)數(shù)據(jù)與學(xué)生成績(jī)之間的關(guān)聯(lián)關(guān)系;[9]姜楠等人也利用數(shù)據(jù)挖掘的K-means算法對(duì)學(xué)生消費(fèi)行為進(jìn)行消費(fèi)習(xí)慣聚類分析,并對(duì)聚類結(jié)果進(jìn)行了評(píng)估,最后也采用關(guān)聯(lián)規(guī)則算法進(jìn)行學(xué)習(xí)行為關(guān)聯(lián)度分析。[10]K-means算法在緊湊的超球形分布的數(shù)據(jù)集合上有很好的性能,然而當(dāng)數(shù)據(jù)結(jié)構(gòu)是非凸的,或數(shù)據(jù)點(diǎn)彼此交疊嚴(yán)重時(shí),K-均值算法往往會(huì)失效,而且算法的迭代最優(yōu)方法不能保證收斂到全局最優(yōu)解。[11]而另一種聚類算法——譜聚類算法克服了K-means算法的缺點(diǎn),具有識(shí)別非凸分布聚類的能力,適合于求解實(shí)際問題,不會(huì)陷入局部最優(yōu)解,且能避免數(shù)據(jù)的過高維數(shù)所造成的奇異性問題。[12-13]譜聚類算法是一種基于兩點(diǎn)間相似關(guān)系的方法,已被成功應(yīng)用于語(yǔ)音識(shí)別、視頻分割、圖像分割、VLSI設(shè)計(jì)、網(wǎng)頁(yè)劃分等領(lǐng)域。[14-16]目前大部分高校對(duì)學(xué)生一卡通的數(shù)據(jù)分析多用于研究在校行為分析,對(duì)于經(jīng)濟(jì)困難學(xué)生的認(rèn)定分析,缺少一些直觀、可信度較高的數(shù)據(jù)作為支撐,多為定性分析,無(wú)量化指標(biāo)。
本文研究了一種基于譜聚類與支持向量機(jī)的經(jīng)濟(jì)困難學(xué)生認(rèn)定方法,首先對(duì)學(xué)生行為數(shù)據(jù)進(jìn)行規(guī)范化處理,采用譜聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類;通過對(duì)聚類結(jié)果進(jìn)行分析,從中選取合適的特征及樣本數(shù)據(jù);然后采用不同的核函數(shù)構(gòu)建基于支持向量機(jī)的經(jīng)濟(jì)困難學(xué)生認(rèn)定模型。
二、理論基礎(chǔ)
1.譜聚類算法
三、實(shí)驗(yàn)數(shù)據(jù)處理及分析
實(shí)驗(yàn)使用的數(shù)據(jù)存在兩個(gè)方面的問題:一方面在數(shù)據(jù)采集、傳輸?shù)倪^程中常會(huì)造成數(shù)據(jù)缺失或者數(shù)據(jù)冗余,而數(shù)據(jù)的質(zhì)量直接影響到認(rèn)定模型訓(xùn)練結(jié)果的好壞,所以需要對(duì)原始數(shù)據(jù)進(jìn)行規(guī)范化處理;另一方面,不同學(xué)生的消費(fèi)情況存在一定的差異——不同年級(jí)、專業(yè)由于課程安排不同(實(shí)習(xí)、外出交流學(xué)習(xí)等),往往很多學(xué)生一學(xué)期內(nèi)刷卡消費(fèi)的天數(shù)會(huì)出現(xiàn)很大的差別;同一個(gè)人在不同時(shí)期,消費(fèi)金額也會(huì)有較大的懸殊,因此,需要采用有效的方法對(duì)學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行處理,以得到學(xué)生的真實(shí)消費(fèi)數(shù)據(jù)。
針對(duì)這兩個(gè)問題,分別采用以下解決方法:①去除冗余數(shù)據(jù),綜合學(xué)工、卡機(jī)等其他信息來(lái)源,對(duì)信息缺失的數(shù)據(jù)進(jìn)行補(bǔ)全;然后,根據(jù)刷卡機(jī)所屬的部門,梳理出在校生主要的消費(fèi)去向有餐廳、超市、水果店、書店、精品店、打印、水費(fèi)、電費(fèi)、網(wǎng)費(fèi)、醫(yī)療費(fèi),關(guān)聯(lián)消費(fèi)數(shù)據(jù)及卡機(jī)信息,對(duì)每筆消費(fèi)進(jìn)行標(biāo)記;最后,對(duì)學(xué)生消費(fèi)數(shù)據(jù)按日匯總,生成日常消費(fèi)樣本數(shù)據(jù)。②使用譜聚類算法對(duì)學(xué)生的日消費(fèi)數(shù)據(jù)進(jìn)行聚類,利用聚類結(jié)果,對(duì)原始數(shù)據(jù)進(jìn)行過濾,剔除離群樣本,篩選出有效的日常消費(fèi)數(shù)據(jù)。文中從三年的一卡通數(shù)據(jù)中隨機(jī)選出20萬(wàn)條消費(fèi)數(shù)據(jù),經(jīng)規(guī)范化處理后選取10000條日消費(fèi)數(shù)據(jù)用于譜聚類分析。
1.實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
購(gòu)買禮品、就醫(yī)花費(fèi)等消費(fèi)存在偶發(fā)性且不具備普遍性,電費(fèi)為公攤消費(fèi)無(wú)法體現(xiàn)個(gè)體用電情況,購(gòu)書、打印、水費(fèi)、網(wǎng)費(fèi)常為一次刷卡,使用較長(zhǎng)的時(shí)間后才會(huì)出現(xiàn)二次消費(fèi),不適合作為細(xì)粒度的分析。綜上,本文對(duì)日常消費(fèi)數(shù)據(jù)中與生活息息相關(guān)的餐飲、超市、水果消費(fèi)數(shù)據(jù)進(jìn)行聚類,以歸納出過高過低等異常消費(fèi)數(shù)據(jù)的規(guī)則。
文中采用以下幾步對(duì)樣本數(shù)據(jù)進(jìn)行聚類:首先,建立消費(fèi)數(shù)據(jù)樣本集合X={x1,x2,…,xn},其中,xi=[j1,j2,j3]為第i個(gè)日消費(fèi)數(shù)據(jù)樣本,j1、j2、j3分別為日餐飲、超市、水果消費(fèi)額。對(duì)所有的樣本數(shù)據(jù),使用公式(1)計(jì)算樣本數(shù)據(jù)的相似矩陣W;然后,根據(jù)公式(2)計(jì)算對(duì)角矩陣D,并利用公式(3)計(jì)算拉普拉斯矩陣,再利用公式(4)進(jìn)行歸一化處理;而后,計(jì)算矩陣L的特征值及特征向量,選取前4個(gè)特征向量構(gòu)建特征矩陣V;最后,使用K-Means算法對(duì)特征矩陣進(jìn)行聚類。根據(jù)學(xué)生消費(fèi)情況,將聚類數(shù)目設(shè)置為4,分別表示異常消費(fèi)、較低消費(fèi)、中等消費(fèi)、較高消費(fèi)。使用MATLAB工具函數(shù)對(duì)日消費(fèi)數(shù)據(jù)進(jìn)行聚類,結(jié)果如圖1所示。
從圖1可知,消費(fèi)額處于中間部分的數(shù)據(jù)占有較大的比例,文中將此部分?jǐn)?shù)據(jù)設(shè)定為合理的消費(fèi)并選取較低消費(fèi)數(shù)據(jù)、較高消費(fèi)數(shù)據(jù)作為有效消費(fèi)區(qū)間 。從原始數(shù)據(jù)中篩選出滿足上述條件的消費(fèi)數(shù)據(jù)作為在校生的正常消費(fèi)數(shù)據(jù),然后求取每個(gè)學(xué)生的日均消費(fèi)數(shù)據(jù)。從三年經(jīng)濟(jì)困難學(xué)生名單中選擇有家庭經(jīng)濟(jì)狀況調(diào)查的輕微困難學(xué)生600人、中等困難學(xué)生 300人、特別困難學(xué)生120人及隨機(jī)挑選出非經(jīng)濟(jì)困難學(xué)生2040人的日常消費(fèi)數(shù)據(jù),按上述規(guī)則過濾并對(duì)不同類別(餐廳、超市、水果店、書店、精品店、打印、水費(fèi)、電費(fèi)、網(wǎng)費(fèi)等)的消費(fèi)做均值處理,獲取共3060條日均消費(fèi)數(shù)據(jù);選用前兩年2040條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)輸入到SVM訓(xùn)練分類模型,剩余部分作為測(cè)試數(shù)據(jù)。
2.分類模型的訓(xùn)練與結(jié)果分析
特征的選取與核函數(shù)的選擇在訓(xùn)練基于支持向量機(jī)的分類模型中具有至關(guān)重要的作用,將決定分類模型在實(shí)際應(yīng)用中的好壞,為了比較全面地了解不同的特征、核函數(shù)對(duì)分類模型效果的影響,實(shí)驗(yàn)中做了如下設(shè)置:分別選取三組不同類型的消費(fèi)數(shù)據(jù)作為特征數(shù)據(jù),第一組數(shù)據(jù)包含餐廳、超市、水果店消費(fèi),另外兩組數(shù)據(jù)設(shè)置如表1所示;分別采用線性內(nèi)積函數(shù)、多項(xiàng)式內(nèi)積函數(shù)、徑向基內(nèi)積函數(shù),并且選用相同的函數(shù)參數(shù)來(lái)訓(xùn)練模型。
實(shí)驗(yàn)使用MATLAB中的SVM工具箱進(jìn)行分類模型的訓(xùn)練和測(cè)試。與餐飲消費(fèi)相比,其他類別的消費(fèi)額很小,其數(shù)值差異較大,文中采用對(duì)數(shù)函數(shù)對(duì)三組樣本數(shù)據(jù)進(jìn)行歸一化處理,對(duì)數(shù)底為2。將分別選用歸一化處理后的三組數(shù)據(jù)通過SVM分類器進(jìn)行訓(xùn)練,其中每個(gè)分類器選用三個(gè)不同的核函數(shù),訓(xùn)練完成后共生成三組9個(gè)不同的分類器。將與訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的測(cè)試集分別輸入三組SVM分類器中進(jìn)行測(cè)試,不同分類模型的認(rèn)定準(zhǔn)確率如表2、3、4所示。
從上述表1、2、3、4中可以得到以下三個(gè)方面的分析結(jié)果:
①通過在校生的日常消費(fèi)數(shù)據(jù)能較準(zhǔn)確地區(qū)分出經(jīng)濟(jì)困難生與非經(jīng)濟(jì)困難生;利用日消費(fèi)數(shù)據(jù)鑒別經(jīng)濟(jì)困難生困難程度的準(zhǔn)確率整體較低,但認(rèn)定特別困難學(xué)生的準(zhǔn)確率相對(duì)較高;使用三種不同的核函數(shù)對(duì)經(jīng)濟(jì)困難生認(rèn)定的準(zhǔn)確率存在一定的差異,但總體差別較??;使用餐廳、超市、水果店、水費(fèi)、網(wǎng)費(fèi)特征數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率最高,使用所有類別特征數(shù)據(jù)進(jìn)行鑒別的正確率最低。
②使用包含水費(fèi)、網(wǎng)費(fèi)消費(fèi)特征的數(shù)據(jù)訓(xùn)練出的分類模型的識(shí)別準(zhǔn)確率較不包含這些特征的分類器的高。由于禮品、就醫(yī)花費(fèi)等消費(fèi)存在偶發(fā)性;電費(fèi)屬于公攤消費(fèi)無(wú)法體現(xiàn)個(gè)體消費(fèi)情況,學(xué)校圖書館藏較大能基本滿足在校生的借閱需求,在校生購(gòu)書消費(fèi)率較低,這些不確定因素使禮品、就醫(yī)、電費(fèi)等特征干擾了評(píng)定模型的準(zhǔn)確性,以至于使用所有類別數(shù)據(jù)進(jìn)行訓(xùn)練的分類模型的鑒別正確率較低。
③在校生大都來(lái)自于普通家庭,大多未申請(qǐng)經(jīng)濟(jì)困難的在校生的消費(fèi)行為與輕微困難學(xué)生的消費(fèi)情況差之甚微,以至于兩者容易分到彼此的類別中,這是造成輕微困難學(xué)生認(rèn)定準(zhǔn)確率較低的原因之一;且造成學(xué)生家庭特別困難諸如突發(fā)性的自然災(zāi)害、家庭出現(xiàn)重大變故等客觀因素?zé)o法從歷史消費(fèi)行為中體現(xiàn),這是導(dǎo)致難以根據(jù)日常消費(fèi)數(shù)據(jù)精確區(qū)分在校生家庭困難程度的因素之一。
四、結(jié)論
本文使用譜聚類算法對(duì)在校生的日常消費(fèi)數(shù)據(jù)進(jìn)行聚類以篩選出真實(shí)的消費(fèi)數(shù)據(jù),并構(gòu)建基于SVM的經(jīng)濟(jì)困難生認(rèn)定模型。實(shí)驗(yàn)結(jié)果表明,本文采用的方法能較好地區(qū)分出在校生是否為經(jīng)濟(jì)困難學(xué)生,在校生的消費(fèi)信息能較客觀地體現(xiàn)出學(xué)生的家庭經(jīng)濟(jì)情況,該數(shù)據(jù)量化的認(rèn)定方法將為高校經(jīng)濟(jì)困難學(xué)生評(píng)定工作提供一種有效的輔助手段。
參考文獻(xiàn):
[1]陳健,梁思影.高校貧困生認(rèn)定、資助體系評(píng)析[J].高校輔導(dǎo)員學(xué)刊,2010(1): 24-27.
[2]秦微微.基于數(shù)據(jù)挖掘技術(shù)的高校貧困生評(píng)判指標(biāo)的選取[D].東北師范大學(xué),2015.
[3]張沂紅.基于校園卡系統(tǒng)的學(xué)生困難認(rèn)定輔助評(píng)判系統(tǒng)的研究與實(shí)現(xiàn)[D].山東大學(xué), 2010.
[4]王春雁,白雪.高校校園卡系統(tǒng)應(yīng)用現(xiàn)狀及趨勢(shì)淺析[J].中國(guó)教育信息化(高教職教), 2011(11): 83-87.
[5]王雪飛.數(shù)據(jù)挖掘在高校貧困生校園卡流水?dāng)?shù)據(jù)中的應(yīng)用研究[D].東北師范大學(xué), 2014.
[6]王德才.數(shù)據(jù)挖掘在校園卡消費(fèi)行為分析中的研究與應(yīng)用[D].哈爾濱工程大學(xué), 2010.
[7]羅擁軍,羅云芳,陸元路.基于 FP-Growth算法的高校貧困生輔助辨識(shí)系統(tǒng)研究與應(yīng)用[J].廣西職業(yè)技術(shù)學(xué)院學(xué)報(bào),2016(1):1-4.
[8]黃劍.基于決策樹數(shù)據(jù)挖掘算法的大學(xué)生消費(fèi)數(shù)據(jù)分析[J].電腦與信息技術(shù),2015(5):44-45.
[9]徐劍.基于一卡通數(shù)據(jù)的消費(fèi)行為與成績(jī)的關(guān)聯(lián)性研究分析[D].南昌大學(xué),2010.
[10]姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)及學(xué)習(xí)行為分析[J].微型電腦應(yīng)用, 2015(2):35-38.
[11]王婷.基于半監(jiān)督集成的遙感圖像的分割和分類[D].西安電子科技大學(xué),2009.
[12]楊曉靜.基于流形學(xué)習(xí)的數(shù)據(jù)聚類與可視化[D].西安電子科技大學(xué),2012.
[13]Arbib M A. The handbook of brain theory and neural networks[M].MIT press, 2003.
[14]Jordan F R B M I. Blind one-microphone speech separation: A spectral learning approach[C].Advances in Neural Information Processing Systems 17: Proceedings of the 2004 Conference.MIT Press,2005,17: 65.
[15]Odobez J M, Gatica-Perez D, Guillemot M. Video shot clustering using spectral methods[C].3rd Workshop on Content-Based Multimedia Indexing (CBMI).2003(EPFL-CONF-82933).
[16]Malik J, Belongie S, Leung T, et al. Contour and texture analysis for image segmentation[J]. International journal of computer vision,2001,43(1):7-27.
[17]周林,平西建,徐森,張濤.基于譜聚類的聚類集成算法[J].自動(dòng)化學(xué)報(bào),2012(8): 1335-1342.
[18]彭艷斌,艾解清.基于譜聚類波段選擇的高光譜圖像分類[J].光電工程,2012(2):63-67.
[19]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000(1):32-42.
(編輯:王天鵬)