周麗娜 李劍
摘要: 高等教育體制改革的不斷深入和發(fā)展促進了我國高等教育規(guī)模不斷擴大,高校學生人數(shù)逐年增加,由此積累的大量助學信息亟須分析整合。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要分支,主要側(cè)重于確定數(shù)據(jù)庫中不同領(lǐng)域間的聯(lián)系,找出滿足給定支持度和置信度的多個域之間的依賴關(guān)系,能為幫困助學數(shù)據(jù)分析提供很好的技術(shù)支持。本文就是通過對數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則的研究,對家庭經(jīng)濟困難學生在校期間的綜合表現(xiàn)與就業(yè)去向進行關(guān)聯(lián),從中得到輔助學校學工部門有針對性地開展幫困助學工作的建議。
關(guān)鍵詞: 數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則學生助學系統(tǒng)
1.引言
隨著我國高等教育體制改革的不斷深入和發(fā)展,全國高等教育在學總?cè)藬?shù)已逾千萬,這標志著我國高等教育進入了國際公認的大眾化發(fā)展階段。在招生規(guī)模不斷擴大的同時,家庭經(jīng)濟困難學生的問題日益突出。經(jīng)濟有困難的學生能否順利入學并完成學業(yè),已成為社會普遍關(guān)心的問題。
為解決家庭經(jīng)濟困難學生的學習問題,政府和高校經(jīng)過多年的努力,建立起一套以國家助學貸款為主體的高校貧困學生資助政策體系。國家從2000年開始推行國家助學貸款制度,經(jīng)過這些年的工作,各高校學生工作部門都積累了大量與貸款學生有關(guān)的原始數(shù)據(jù),包括學生的基本信息、在校期間的文化課成績信息、獲獎助學金信息、參加學校的勤工助學的工作情況信息及就業(yè)去向信息等,而且這些數(shù)據(jù)會隨著學校招生規(guī)模的不斷擴大、辦學時間的增長而繼續(xù)增加。
2.關(guān)聯(lián)規(guī)則
2.1數(shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則。
數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進行研究和開發(fā)的結(jié)果。數(shù)據(jù)挖掘最早出現(xiàn)在第11屆國際聯(lián)合人工智能學術(shù)會議上,它又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務中要找的模式類型。一般地,數(shù)據(jù)挖掘任務可以分兩類:描述和預測。描述性挖掘任務刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般特性;預測性挖掘任務在當前數(shù)據(jù)上進行推斷,以進行預測。
數(shù)據(jù)挖掘在學生的招生與就業(yè)工作中發(fā)揮著作用。有學者通過對歷年的招生信息的分析研究,提出了修改招生計劃的指導意見,變被動招生為主動招生。在就業(yè)工作方面,也有人通過對歷年學生的在校表現(xiàn)和就業(yè)情況進行綜合分析,提出有相應的分類指導意見。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要分支,最初其研究對象為交易數(shù)據(jù)庫,主要目的就是發(fā)現(xiàn)交易數(shù)據(jù)庫中交易項目之間是否存在某種關(guān)系,后來又推廣到關(guān)系型數(shù)據(jù)庫,主要目的是從數(shù)據(jù)庫中挖掘出項集之間的關(guān)聯(lián)規(guī)則。規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量。
關(guān)聯(lián)規(guī)則的挖掘主要包括以下兩個主要過程:首先是找出所有頻繁項集,這些項集出現(xiàn)的頻率至少和預定義的最小支持計數(shù)一樣。其次是由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則:找出的關(guān)聯(lián)規(guī)則必須滿足最小支持度和最小置信度。
2.2關(guān)聯(lián)規(guī)則分類。
根據(jù)分類的標準不同,關(guān)聯(lián)規(guī)則可以有以下幾種分類方式:基于規(guī)則中處理的變量類別分類、基于規(guī)則中數(shù)據(jù)的抽象層次分類和基于規(guī)則中涉及的數(shù)據(jù)維數(shù)分類。
根據(jù)規(guī)則中處理的變量的值,可以將規(guī)則分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則。布爾型關(guān)聯(lián)規(guī)則顯示了這些變量之間的關(guān)系,而量化關(guān)聯(lián)規(guī)則通常是在處理數(shù)值型數(shù)據(jù)時對數(shù)值進行分段量化得來的。根據(jù)規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則,兩者的區(qū)別在于是否涉及不同層次的數(shù)據(jù)項。如果不涉及不同層次的數(shù)據(jù)項,得到的是單層關(guān)聯(lián)規(guī)則。在不同抽象層次中挖掘出的關(guān)聯(lián)規(guī)則稱為多層關(guān)聯(lián)規(guī)則。根據(jù)關(guān)聯(lián)規(guī)則所涉及的數(shù)據(jù)維數(shù)不同,可以分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。如果關(guān)聯(lián)規(guī)則各項僅涉及一個維度,則稱之為單維關(guān)聯(lián)規(guī)則。如果關(guān)聯(lián)規(guī)則涉及兩個或兩個以上維度,則稱之為多維關(guān)聯(lián)規(guī)則。
3.助學系統(tǒng)關(guān)聯(lián)規(guī)則挖掘
通過開展助學工作,學校已基本形成了助學貸款、獎學金、困難補助、勤工助學和社會助學等五大幫困助學措施,同時也積累了相當多的與助學有關(guān)的信息。通過初步分析,可能影響學生就業(yè)的諸方面因素有:學生的獎學金獲得情況、貸款額度、勤工助學表現(xiàn)、學歷、專業(yè),等等。助學系統(tǒng)關(guān)聯(lián)規(guī)則挖掘就是希望對以上因素進行分析,找到一些有實際指導意義的規(guī)則。整個助學系統(tǒng)數(shù)據(jù)挖掘大體上分成數(shù)據(jù)的搜集、清理、集成、變換等預處理工作和關(guān)聯(lián)規(guī)則挖掘工作。
3.1助學系統(tǒng)數(shù)據(jù)預處理。
3.1.1數(shù)據(jù)采集
助學系統(tǒng)涉及學校的多個部門,如學生處負責管理獎學金評定等;招生與就業(yè)指導辦公室負責管理學生的生源信息和就業(yè)信息;財務處負責管理學生的助學貸款信息等;教務處負責管理學生的學籍信息和成績信息等。勤工助學因為涉及多個部門,由設(shè)置勤工助學崗位的部門或?qū)W院負責對學生的日常考核,匯總工作則由學生處負責完成。
3.1.2數(shù)據(jù)清理
收集到的學校學生信息有其自身的特點:數(shù)據(jù)比較完整、數(shù)據(jù)值的可信度比較高,但是由于有些原始數(shù)據(jù)是由人工處理完成的,空值的出現(xiàn)不可避免。比如就業(yè)信息表中,就有部分記錄信息不完整。通常正常畢業(yè)的學生采集的數(shù)據(jù)基本上比較完整,而對于休學、延學、參軍、結(jié)業(yè)等不能按時完成學業(yè)的學生來說,就業(yè)系統(tǒng)中只會保存他們的一些最基本信息。對于這些空值可以考慮將這些信息從就業(yè)信息表中移除出去或用約定方法進行數(shù)據(jù)填充。
同時由于各部門處理數(shù)據(jù)的側(cè)重點、操作人員的處理習慣等各有不同,造成即使是相同的信息也會出現(xiàn)不同表示。例如同樣是表示專業(yè)名稱信息,有些部門使用專業(yè)名稱全稱,而有些則使用簡稱。對于這樣的情況,可以通過給出標準數(shù)據(jù),將其他數(shù)據(jù)統(tǒng)一改寫成標準數(shù)據(jù)形式。
3.1.3數(shù)據(jù)集成
數(shù)據(jù)集成則是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合、存放在一個一致的數(shù)據(jù)存儲中。將多個數(shù)據(jù)源中的數(shù)據(jù)集成起來,能夠減少或避免結(jié)果數(shù)據(jù)集中數(shù)據(jù)的冗余和不一致性。由于歷史和技術(shù)普及等多方面的原因,造成數(shù)據(jù)存儲有多種形式。比如就業(yè)信息多以DBF文件格式存儲,而在學校內(nèi)部,辦公處理軟件的使用率比較高,多數(shù)老師習慣于將數(shù)據(jù)以Excel電子表格或Word文檔形式進行保存。助學系統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)也是以上述幾種格式為主。在進行數(shù)據(jù)挖掘前需要對這些以不同形式存儲的數(shù)據(jù)進行處理,轉(zhuǎn)換成單一形式。
3.1.4數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換或歸并已構(gòu)成一個適合數(shù)據(jù)挖掘的描述形式,用更抽象、更高層次的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象,將有關(guān)屬性數(shù)據(jù)按比例投影到特定小范圍之中。助學系統(tǒng)的各數(shù)據(jù)表的屬性通常有大量的不同的屬性值,這時就應當進行進一步概化。
如學生貸款信息中“貸款金額”,該屬性就存在大量不同的值,貸款金額在很大程度上反映了學生的家庭經(jīng)濟狀況。為了使該信息適用于數(shù)據(jù)挖掘,就需要對年均貸款額進行概化。在助學系統(tǒng)數(shù)據(jù)挖掘中,要找出學生在校表現(xiàn)與就業(yè)信息的關(guān)聯(lián),就離不開就業(yè)單位信息。但是學生的就業(yè)單位重復率低,存在大量不同的就業(yè)單位信息。在挖掘中就不能直接使用就業(yè)單位信息,將就業(yè)單位按性質(zhì)進行分類后該數(shù)據(jù)就比較適合進行數(shù)據(jù)挖掘了。除了上面提到的一些需要概化處理的信息外,還有勤工助學考核信息、專業(yè)信息、生源地、就業(yè)地、成績、性別和本專科類別等也需要加以處理。
3.2生成關(guān)聯(lián)規(guī)則。
對數(shù)據(jù)進行清理和轉(zhuǎn)換后,再通過“學號”匹配可以將助學系統(tǒng)的各數(shù)據(jù)表連接成信息總表,這時的數(shù)據(jù)可以更為有效地進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘。
關(guān)聯(lián)規(guī)則的生成是整個系統(tǒng)的核心工作。應用數(shù)據(jù)挖掘技術(shù)對收集的助學系統(tǒng)數(shù)據(jù)進行挖掘分析,可以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的有用的知識,并將其提取出來供學校和相關(guān)教師參考。經(jīng)典Apriori算法的基本思想將關(guān)聯(lián)規(guī)則的生成大體上劃分成了兩步:產(chǎn)生頻繁集和生成強關(guān)聯(lián)規(guī)則。
在搜索頻繁k項集時,首先要找出頻繁1項集。在完成對數(shù)據(jù)的預處理后,求取頻繁1項集只需簡單地掃描信息總表,對每個項的出現(xiàn)次數(shù)計數(shù),生成候選1項集。再通過設(shè)置最小支持度計數(shù),篩選生成頻繁1項集。找到頻繁1項集后,通過將頻繁1項集與自己進行連接生成候選2項集。再對得到的候選2項集的出現(xiàn)進行計次,滿足最小支持度計數(shù)的予以保留,生成頻繁2項集。依此類推生成頻繁k項集。當頻繁k項集生成以后,對于任意一個頻繁k項集,找出其中所有可能的真子集,作為關(guān)聯(lián)規(guī)則的前件,計算相應規(guī)則的置信度。當某一規(guī)則的置信度大于給定的最小置信度時,輸出該規(guī)則。
3.3規(guī)則分析。
通過挖掘系統(tǒng)生成的規(guī)則,首先需進行符號轉(zhuǎn)換,將之前預處理時編碼化的數(shù)據(jù)還原成原始信息。得到轉(zhuǎn)換后的規(guī)則應該進行理解和分析。通過初步分析,挖掘出的規(guī)則大致可以分成符合預先設(shè)想的和之前未被發(fā)現(xiàn)的兩類。
例如曾獲得過獎學金并且貸款額度中等的學生比未獲獎學金且貸款額度中的支持度小,說明前者的人數(shù)較后者少;同時前者的置信度高說明獲得獎學金的同學有更多的就業(yè)機會。這些都符合先驗知識。而有些規(guī)則無法用先驗知識解釋,比如同樣是參加勤工助學活動,在寧波女生就業(yè)比例比男生高。這從一個側(cè)面說明女生同男生相比,更傾向于在自己熟悉的環(huán)境中就業(yè)。
4.結(jié)語
本文以寧波工程學院助學系統(tǒng)為依托,深入開展了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘工作。首先,完成了助學系統(tǒng)的數(shù)據(jù)預處理。通過對原始數(shù)據(jù)的清理、集成和轉(zhuǎn)換,將這些數(shù)據(jù)初步加工成適用于關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)。其次,完成關(guān)聯(lián)規(guī)則挖掘算法的實現(xiàn),建立針對以上預處理數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘系統(tǒng),在引入挖掘原始數(shù)據(jù)后進行數(shù)據(jù)挖掘。最后,利用挖掘系統(tǒng)對收集的數(shù)據(jù)進行關(guān)聯(lián)分析,生成關(guān)聯(lián)規(guī)則。學生通過對關(guān)聯(lián)規(guī)則的理解和分析,產(chǎn)生對貧困生就業(yè)有指導性價值的意見。
參考文獻:
[1]R.Agrawal,R.Srikant.Fast Algorithms for Mining Association Rules[C].In:Proceedings of the 20th International Conference on Very Large Databases.Santiago,Chile,1994:487-499.
[2]Jiawei Han,Micheline Kamber.范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[3]王登.數(shù)據(jù)挖掘技術(shù)及其在高校素質(zhì)教育應用中的探討[J].現(xiàn)在電子技術(shù),2007,4:95-97.
[4]劉鵬,孫莉,趙潔,等.數(shù)據(jù)挖掘技術(shù)在高校人力資源管理中的應用研究[J].計算機工程與應用,2008,44(10):201-233.
[5]康振華,趙燕麗,周金剛.數(shù)據(jù)挖掘在高校就業(yè)工作中的應用研究[J].中國科教創(chuàng)新導刊,2007,474:86-87.
基金項目:寧波市教育科學規(guī)劃課題2009-46。