胡祖輝+施佺
摘 要】
網(wǎng)絡(luò)對(duì)于學(xué)生的學(xué)習(xí)既有正面作用,又有負(fù)面作用。為了制定合理、有效的網(wǎng)絡(luò)管理措施,本研究以學(xué)生上網(wǎng)數(shù)據(jù)和學(xué)生成績(jī)數(shù)據(jù)為研究對(duì)象,采用決策樹(shù)、關(guān)聯(lián)規(guī)則、邏輯回歸三種數(shù)據(jù)挖掘方法對(duì)學(xué)生上網(wǎng)行為相關(guān)屬性與學(xué)生學(xué)習(xí)質(zhì)量之間的關(guān)系進(jìn)行了研究。研究結(jié)果表明,學(xué)生上網(wǎng)行為的相關(guān)屬性如“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”等均對(duì)學(xué)生的學(xué)習(xí)質(zhì)量有不同程度的影響,且均呈現(xiàn)負(fù)相關(guān)關(guān)系。其中,“上網(wǎng)時(shí)長(zhǎng)”是影響學(xué)習(xí)質(zhì)量的主要因素,可以根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的關(guān)鍵數(shù)據(jù)節(jié)點(diǎn),制定相應(yīng)的網(wǎng)絡(luò)管理措施限制學(xué)生過(guò)度上網(wǎng)。三種數(shù)據(jù)挖掘方法都較好地實(shí)現(xiàn)了預(yù)期效果,得出的結(jié)論基本一致,其中關(guān)聯(lián)規(guī)則挖掘算法的總體性能最好,決策樹(shù)算法的總體性能略好于邏輯回歸算法。
【關(guān)鍵詞】 高校學(xué)生;上網(wǎng)行為分析;數(shù)據(jù)挖掘;決策樹(shù);關(guān)聯(lián)規(guī)則;邏輯回歸
【中圖分類號(hào)】 G40-057 【文獻(xiàn)標(biāo)識(shí)碼】 A 【文章編號(hào)】 1009-458x(2017)02-0026-07
一、引言
在信息技術(shù)時(shí)代,網(wǎng)絡(luò)的普及一方面給高校學(xué)生的學(xué)習(xí)和生活帶來(lái)了極大的便利,另一方面也導(dǎo)致了一些學(xué)生出現(xiàn)過(guò)度上網(wǎng)甚至沉迷網(wǎng)絡(luò)的問(wèn)題??梢哉f(shuō),網(wǎng)絡(luò)是把雙刃劍,利用好了可以充分借助網(wǎng)絡(luò)教育資源拓展學(xué)習(xí)時(shí)空,促進(jìn)學(xué)習(xí)交流;利用不好則會(huì)使學(xué)生沉迷于網(wǎng)絡(luò)虛擬世界,浪費(fèi)寶貴的學(xué)習(xí)時(shí)間,影響正常學(xué)習(xí)。對(duì)網(wǎng)絡(luò)的管理,高校既不能放任不管,也不能簡(jiǎn)單地限制上網(wǎng)。由于學(xué)生在校上網(wǎng)都要通過(guò)學(xué)校的網(wǎng)關(guān),因此學(xué)生上網(wǎng)數(shù)據(jù)能夠真實(shí)地反映學(xué)生的上網(wǎng)行為。利用學(xué)生上網(wǎng)數(shù)據(jù)對(duì)學(xué)生的上網(wǎng)行為進(jìn)行分析研究具有可行性,可以為制定合理、有效的網(wǎng)絡(luò)管理措施提供決策支持。
教育數(shù)據(jù)內(nèi)涵廣泛,學(xué)生上網(wǎng)數(shù)據(jù)和課程考試成績(jī)數(shù)據(jù)都屬于教育數(shù)據(jù)。上網(wǎng)數(shù)據(jù)中蘊(yùn)含了學(xué)生上網(wǎng)行為的客觀事實(shí)屬性,成績(jī)數(shù)據(jù)中蘊(yùn)含了學(xué)生學(xué)習(xí)質(zhì)量的客觀事實(shí)屬性。根據(jù)一般經(jīng)驗(yàn),學(xué)生過(guò)度上網(wǎng)會(huì)影響學(xué)習(xí)質(zhì)量。這一論斷是否正確,學(xué)生上網(wǎng)行為與學(xué)習(xí)質(zhì)量之間是否存在更多的關(guān)聯(lián),這些問(wèn)題都需要利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生上網(wǎng)數(shù)據(jù)和成績(jī)數(shù)據(jù)進(jìn)行綜合分析,這正是本研究的意義所在。
二、教育數(shù)據(jù)挖掘相關(guān)研究
教育數(shù)據(jù)挖掘(Educational Data Mining,簡(jiǎn)稱“EDM”)是運(yùn)用數(shù)據(jù)挖掘方法從來(lái)自教育系統(tǒng)的原始數(shù)據(jù)中提取出有意義信息的過(guò)程,這些信息可以為教育者、學(xué)習(xí)者、教育管理者、教育軟件開(kāi)發(fā)者和教育研究者等提供服務(wù)(李婷, 等, 2010)。教育數(shù)據(jù)挖掘是計(jì)算機(jī)科學(xué)、教育學(xué)和統(tǒng)計(jì)學(xué)相結(jié)合而形成的一個(gè)交叉學(xué)科,如圖1所示(Romero & Ventura, 2013)。
從圖1中可以看到,三個(gè)學(xué)科兩兩交叉形成了數(shù)字化學(xué)習(xí)、學(xué)習(xí)分析、數(shù)據(jù)挖掘與人工智能等研究領(lǐng)域。這些研究領(lǐng)域與教育數(shù)據(jù)挖掘密切相關(guān),且在一定程度上體現(xiàn)了教育數(shù)據(jù)挖掘的內(nèi)涵(Bousbia & Belamri, 2014)。
教育活動(dòng)與教育數(shù)據(jù)密切關(guān)聯(lián),教育活動(dòng)必然產(chǎn)生教育數(shù)據(jù)。在出現(xiàn)教育數(shù)據(jù)挖掘之前,教育活動(dòng)與教育數(shù)據(jù)之間的聯(lián)系是單向的,教育數(shù)據(jù)中蘊(yùn)含的信息沒(méi)有得到有效利用。教育數(shù)據(jù)挖掘與應(yīng)用的過(guò)程就是從教育活動(dòng)所產(chǎn)生的數(shù)據(jù)中發(fā)現(xiàn)知識(shí),再利用這些知識(shí)來(lái)改善教育活動(dòng)的循環(huán)過(guò)程(周慶, 等, 2015)。這個(gè)循環(huán)過(guò)程使得教育活動(dòng)與教育數(shù)據(jù)之間建立起雙向循環(huán)反饋,有助于不斷改進(jìn)教育活動(dòng),提高教育質(zhì)量。教育數(shù)據(jù)挖掘模型如圖2所示(García, Romero, Ventura, & Castro, 2011)。
由圖2可見(jiàn),教育數(shù)據(jù)挖掘的主要流程包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和結(jié)果分析四個(gè)步驟。數(shù)據(jù)采集是從教育環(huán)境中獲取數(shù)據(jù)并按照數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行初步轉(zhuǎn)換、存儲(chǔ)的過(guò)程。數(shù)據(jù)采集解決數(shù)據(jù)來(lái)源的問(wèn)題,是數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)預(yù)處理是采用數(shù)據(jù)清理、數(shù)據(jù)合并、數(shù)據(jù)變換、數(shù)據(jù)歸約等方法將原始數(shù)據(jù)處理成適用于數(shù)據(jù)挖掘或有益于提高數(shù)據(jù)挖掘效果的數(shù)據(jù)形式。數(shù)據(jù)挖掘是整個(gè)模型的核心,是運(yùn)用統(tǒng)計(jì)分析、人工智能、機(jī)器學(xué)習(xí)等方法,從大量數(shù)據(jù)中挖掘出隱含的、有價(jià)值的信息的過(guò)程。常用的數(shù)據(jù)挖掘方法有決策樹(shù)、聚類分析、關(guān)聯(lián)規(guī)則、回歸分析、神經(jīng)網(wǎng)絡(luò)、時(shí)序分析等。結(jié)果分析是采用評(píng)價(jià)指標(biāo)對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià)和分析,具體評(píng)價(jià)指標(biāo)包括查準(zhǔn)率、查全率、正確率、顯著性等。
由于教育數(shù)據(jù)挖掘具有重要意義,因此,教育數(shù)據(jù)挖掘與應(yīng)用已經(jīng)成為一個(gè)研究熱點(diǎn)。早在2008年,來(lái)自美國(guó)、德國(guó)、加拿大、澳大利亞、荷蘭等國(guó)的研究人員就成立了國(guó)際教育數(shù)據(jù)挖掘工作組。在該組織的大力推動(dòng)下,2008年在加拿大召開(kāi)了第一屆教育數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議,至今已舉辦了九屆。同時(shí),該組織于2011年設(shè)立了國(guó)際教育數(shù)據(jù)挖掘網(wǎng)站,并成功創(chuàng)辦了專門(mén)的電子期刊——教育數(shù)據(jù)挖掘雜志(Journal of Educational Data Mining,簡(jiǎn)稱“JEDM”)。該組織給出了教育數(shù)據(jù)挖掘的定義:教育數(shù)據(jù)挖掘是一個(gè)新興的學(xué)科,該學(xué)科專注于研究用于探索來(lái)自教育系統(tǒng)獨(dú)特的和不斷增長(zhǎng)的大規(guī)模數(shù)據(jù)的數(shù)據(jù)挖掘方法(Pechenizkiy et al., 2011)。Antonenko等(2012)使用聚類分析方法對(duì)Web服務(wù)器日志數(shù)據(jù)進(jìn)行了研究,分析了學(xué)生的在線學(xué)習(xí)行為,并對(duì)利用聚類分析作為教育數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)和局限性進(jìn)行了探討。Guruler等(2014)使用決策樹(shù)方法對(duì)高校學(xué)生成績(jī)的影響因素進(jìn)行了研究,并基于微軟的數(shù)據(jù)分析服務(wù)技術(shù)構(gòu)建了一個(gè)名為“學(xué)生知識(shí)發(fā)現(xiàn)”的教育數(shù)據(jù)挖掘系統(tǒng)。Agarwal等(2012)使用支持向量機(jī)、線性回歸、邏輯回歸、決策樹(shù)等多種數(shù)據(jù)挖掘方法對(duì)學(xué)生數(shù)據(jù)進(jìn)行了分析,并對(duì)分析結(jié)果進(jìn)行了比較。Parack等(2012)使用Apriori關(guān)聯(lián)規(guī)則算法和K-means聚類分析算法對(duì)學(xué)生的學(xué)術(shù)成果數(shù)據(jù)進(jìn)行了研究,分析了考試成績(jī)、考勤、實(shí)踐環(huán)節(jié)等因素對(duì)學(xué)術(shù)成果的影響。舒忠梅等(2014)采用回歸分析和決策樹(shù)方法對(duì)大學(xué)生滿意度調(diào)查數(shù)據(jù)進(jìn)行了分析,研究學(xué)生特征和學(xué)習(xí)經(jīng)歷與滿意度之間的關(guān)系。施佺等(2016)使用關(guān)聯(lián)規(guī)則和聚類分析方法對(duì)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了研究,并提出了網(wǎng)絡(luò)學(xué)習(xí)過(guò)程監(jiān)管的教育數(shù)據(jù)挖掘模型。陳益均等(2013)使用K-means聚類分析算法對(duì)學(xué)生上網(wǎng)行為與英語(yǔ)四級(jí)通過(guò)率之間的關(guān)系進(jìn)行了研究,發(fā)現(xiàn)學(xué)生英語(yǔ)四級(jí)通過(guò)率與上網(wǎng)行為中的下載流量、在線時(shí)長(zhǎng)、使用費(fèi)用等有明顯關(guān)聯(lián)。吳淑蘋(píng)(2013)在對(duì)教師網(wǎng)絡(luò)學(xué)習(xí)行為特征、表現(xiàn)形式和學(xué)習(xí)過(guò)程等進(jìn)行分析的基礎(chǔ)上,采用時(shí)序分析方法對(duì)教師網(wǎng)絡(luò)學(xué)習(xí)行為進(jìn)行了分析和預(yù)測(cè)。吳青等(2014)運(yùn)用J48決策樹(shù)算法對(duì)不同風(fēng)格網(wǎng)絡(luò)學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)行為特征進(jìn)行了研究,并構(gòu)建了學(xué)習(xí)風(fēng)格模型?;诮逃龜?shù)據(jù)挖掘的在線學(xué)習(xí)預(yù)警研究已經(jīng)成功應(yīng)用于實(shí)踐,包括美國(guó)普渡大學(xué)的課程警示系統(tǒng)、Desire2Learn公司的學(xué)生成功系統(tǒng)、可汗學(xué)院的學(xué)習(xí)儀表盤(pán)等(王林麗, 等, 2016)。
教育數(shù)據(jù)挖掘具有實(shí)際應(yīng)用價(jià)值,政府、高校和企業(yè)都很重視教育數(shù)據(jù)挖掘。2012年美國(guó)教育部教育技術(shù)辦公室發(fā)布了一份《通過(guò)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》的研究報(bào)告,對(duì)美國(guó)國(guó)內(nèi)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析的研究及應(yīng)用情況進(jìn)行了總結(jié),并提出了進(jìn)一步發(fā)展的意見(jiàn)建議(Bienkowski, Feng, & Means, 2012)。哈佛大學(xué)、斯坦福大學(xué)、耶魯大學(xué)等世界知名高校都啟動(dòng)了教育數(shù)據(jù)挖掘相關(guān)研究計(jì)劃。一些企業(yè)已經(jīng)開(kāi)發(fā)出了教育數(shù)據(jù)挖掘相關(guān)產(chǎn)品,如美國(guó)Knewton公司、英國(guó)Pearson公司、加拿大Desire2Learn公司等。國(guó)內(nèi)很多高校也開(kāi)始關(guān)注教育數(shù)據(jù)挖掘研究與應(yīng)用。2014年5月,電子科技大學(xué)成立了教育大數(shù)據(jù)研究所,并已經(jīng)完成了數(shù)據(jù)一體化平臺(tái)、學(xué)生畫(huà)像系統(tǒng)等多個(gè)研究。2015年9月,中國(guó)統(tǒng)計(jì)信息服務(wù)中心和曲阜師范大學(xué)共同成立了中國(guó)教育大數(shù)據(jù)研究院,并聯(lián)合十余所高校和教育研究機(jī)構(gòu)發(fā)起“中國(guó)教育大數(shù)據(jù)發(fā)展促進(jìn)計(jì)劃”,提出了推動(dòng)中國(guó)教育大數(shù)據(jù)發(fā)展的路線圖。
三、數(shù)據(jù)挖掘模型構(gòu)建
1. 數(shù)據(jù)采集
本研究以高校學(xué)生上網(wǎng)數(shù)據(jù)和課程考試成績(jī)數(shù)據(jù)為研究對(duì)象。從學(xué)生管理系統(tǒng)中提取某年級(jí)在籍本科學(xué)生數(shù)據(jù)6,725條記錄,從教務(wù)管理系統(tǒng)中提取相應(yīng)學(xué)生成績(jī)數(shù)據(jù)401,278條記錄,從網(wǎng)絡(luò)管理系統(tǒng)中提取相應(yīng)學(xué)生某月上網(wǎng)數(shù)據(jù)506,361條記錄。
2. 數(shù)據(jù)預(yù)處理
(1)成績(jī)數(shù)據(jù)。由于每個(gè)學(xué)生選修的課程和學(xué)分不一樣,因此,為了準(zhǔn)確衡量每個(gè)學(xué)生的綜合學(xué)習(xí)質(zhì)量,引入GPA(Grade Point Average,平均績(jī)點(diǎn))進(jìn)行成績(jī)?cè)u(píng)定。首先將百分制和等級(jí)成績(jī)都折算成績(jī)點(diǎn),考試成績(jī)與績(jī)點(diǎn)的關(guān)系如表1所示。
然后對(duì)每個(gè)學(xué)生的所有課程績(jī)點(diǎn)和學(xué)分進(jìn)行加權(quán)平均運(yùn)算得到平均績(jī)點(diǎn):
(1)經(jīng)過(guò)計(jì)算平均績(jī)點(diǎn),每個(gè)學(xué)生只有1條成績(jī)數(shù)據(jù)記錄。這樣成績(jī)數(shù)據(jù)的記錄總數(shù)就由原來(lái)的401,278條記錄減少為6,725條記錄,與學(xué)生數(shù)據(jù)記錄總數(shù)一致,成績(jī)數(shù)據(jù)量大大減少。根據(jù)數(shù)據(jù)挖掘需要,采用等頻分箱法進(jìn)一步對(duì)成績(jī)數(shù)據(jù)進(jìn)行離散化處理,即按照平均績(jī)點(diǎn)由小到大進(jìn)行排序,取中間值將學(xué)生綜合學(xué)習(xí)質(zhì)量等分為“成績(jī)較差”和“成績(jī)較好”兩個(gè)成績(jī)類別。
(2)上網(wǎng)數(shù)據(jù)。首先利用數(shù)據(jù)庫(kù)分組查詢,按學(xué)號(hào)匯總得到每個(gè)學(xué)生的“在線時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”。這樣處理后得到的上網(wǎng)數(shù)據(jù)匯總記錄總數(shù)小于學(xué)生數(shù)據(jù)記錄總數(shù),因?yàn)槊總€(gè)學(xué)生最多有1條上網(wǎng)匯總記錄,但是客觀上存在部分學(xué)生一個(gè)月都不在校上網(wǎng)的情況。學(xué)生不在校上網(wǎng)的原因可能是因病請(qǐng)假或外出實(shí)習(xí),具體原因可由院系管理人員作進(jìn)一步了解。
(3)學(xué)生數(shù)據(jù)。保留學(xué)生數(shù)據(jù)中的主要字段,如“學(xué)號(hào)”“姓名”“院系”“專業(yè)”“班級(jí)”等,去除不必要字段,減少數(shù)據(jù)量。然后以學(xué)生數(shù)據(jù)為基礎(chǔ),將預(yù)處理后的學(xué)生上網(wǎng)數(shù)據(jù)和課程成績(jī)平均績(jī)點(diǎn)數(shù)據(jù)通過(guò)“學(xué)號(hào)”進(jìn)行關(guān)聯(lián),得到學(xué)生數(shù)據(jù)、上網(wǎng)數(shù)據(jù)和課程成績(jī)平均績(jī)點(diǎn)數(shù)據(jù)三者的合并數(shù)據(jù)集。合并后的數(shù)據(jù)集作為樣本數(shù)據(jù),以“學(xué)號(hào)”為關(guān)鍵字段,唯一標(biāo)識(shí)每條記錄。
3. 相關(guān)分析
在進(jìn)行數(shù)據(jù)挖掘之前,首先采用相關(guān)分析來(lái)研究上網(wǎng)與學(xué)習(xí)兩者之間的關(guān)系。相關(guān)分析是研究?jī)蓚€(gè)變量之間相關(guān)性強(qiáng)弱及方向的一種統(tǒng)計(jì)方法。通常使用相關(guān)系數(shù)來(lái)定量描述兩個(gè)變量之間的線性關(guān)系,取值范圍為-1~1,相關(guān)系數(shù)大于0為正相關(guān),相關(guān)系數(shù)小于0為負(fù)相關(guān)。
根據(jù)不同數(shù)據(jù)的特點(diǎn),通常采用3個(gè)相關(guān)系數(shù)來(lái)描述相關(guān)性,分別為Pearson相關(guān)系數(shù)、Spearman等級(jí)相關(guān)系數(shù)和Kendall等級(jí)相關(guān)系數(shù)。使用SPSS作為數(shù)據(jù)分析工具,分別以“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為統(tǒng)計(jì)變量與“平均績(jī)點(diǎn)”作相關(guān)分析,計(jì)算兩者的相關(guān)系數(shù),結(jié)果如表2所示。
從表2可以看出,3個(gè)相關(guān)系數(shù)雖然數(shù)值不同,但是得出的結(jié)論是一致的。由此可以看到:①“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”與“平均績(jī)點(diǎn)”之間的相關(guān)系數(shù)均為負(fù)值,即均呈負(fù)相關(guān)關(guān)系;②顯著性均為0,在0.01的置信度上,相關(guān)性不顯著;③與其他指標(biāo)相比,“上網(wǎng)時(shí)長(zhǎng)”與“平均績(jī)點(diǎn)”的相關(guān)系數(shù)絕對(duì)值最大,表明其與“平均績(jī)點(diǎn)”的相關(guān)性最強(qiáng),即“上網(wǎng)時(shí)長(zhǎng)”是影響學(xué)習(xí)質(zhì)量的主要因素。由此可見(jiàn),過(guò)度上網(wǎng)會(huì)影響學(xué)習(xí)這個(gè)論斷是成立的。但如何區(qū)分合理上網(wǎng)與過(guò)度上網(wǎng),具體的尺度如何把握,還需要進(jìn)行數(shù)據(jù)挖掘。
4. 數(shù)據(jù)挖掘
根據(jù)數(shù)據(jù)預(yù)處理結(jié)果,樣本數(shù)據(jù)被分為“成績(jī)較好”和“成績(jī)較差”兩個(gè)類別。將“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為屬性,通過(guò)數(shù)據(jù)挖掘研究各個(gè)屬性對(duì)樣本成績(jī)分類的影響。本研究使用SSAS作為數(shù)據(jù)挖掘工具,采用決策樹(shù)、關(guān)聯(lián)規(guī)則和邏輯回歸三種方法來(lái)進(jìn)行數(shù)據(jù)挖掘。
(1)決策樹(shù)
決策樹(shù)作為一種監(jiān)督學(xué)習(xí)算法,主要用于分類和預(yù)測(cè)建模。決策樹(shù)通過(guò)不斷細(xì)化的分支,將錯(cuò)綜復(fù)雜的數(shù)據(jù)分為若干類型(牟冬梅, 等, 2016)。通過(guò)決策樹(shù)分析,最終可形成一個(gè)樹(shù)形結(jié)構(gòu),每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)輸出,每個(gè)葉子節(jié)點(diǎn)代表一種類別。將“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績(jī)類別”既作為輸入值又作為預(yù)測(cè)值。將樣本總數(shù)的70%作為訓(xùn)練集,剩余的30%作為測(cè)試集。為避免決策樹(shù)分支過(guò)多,出現(xiàn)過(guò)擬合現(xiàn)象,將算法復(fù)雜度參數(shù)Complexity_Penalty設(shè)為0.8,以抑制決策樹(shù)的生長(zhǎng),達(dá)到剪枝的目的。決策樹(shù)分析結(jié)果如圖3所示。
從圖3可以看出,“上網(wǎng)時(shí)長(zhǎng)”被作為決策樹(shù)每個(gè)節(jié)點(diǎn)的最優(yōu)分支屬性,最佳分割點(diǎn)分別為238.987、191.192、159.328。在根節(jié)點(diǎn)中,全部學(xué)生樣本按照成績(jī)類別被等分為兩個(gè)部分,灰色表示成績(jī)較好類別,白色表示成績(jī)較差類別。從圖中所有節(jié)點(diǎn)的圖例可以直觀地看出,上網(wǎng)時(shí)長(zhǎng)越長(zhǎng),成績(jī)較好學(xué)生的比例越小,成績(jī)較差學(xué)生的比例越大,反之亦然。如在上網(wǎng)時(shí)長(zhǎng)大于等于238.987的節(jié)點(diǎn)中,成績(jī)較差學(xué)生的比例達(dá)到79.82%。由此可以得出結(jié)論: ①“上網(wǎng)時(shí)長(zhǎng)”是影響學(xué)習(xí)質(zhì)量的主要因素;②上網(wǎng)時(shí)長(zhǎng)與學(xué)習(xí)質(zhì)量呈現(xiàn)負(fù)相關(guān)關(guān)系,即上網(wǎng)時(shí)長(zhǎng)越長(zhǎng),成績(jī)?cè)讲?;③上網(wǎng)時(shí)長(zhǎng)的關(guān)鍵分割點(diǎn)是238.987、191.192、159.328,可以考慮采取上網(wǎng)時(shí)長(zhǎng)階梯計(jì)費(fèi)等措施限制過(guò)度上網(wǎng)。
(2)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘算法用于發(fā)現(xiàn)事物屬性特征之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則是形如X->Y的蘊(yùn)涵式,其中X稱為前件,Y稱為后件。關(guān)聯(lián)規(guī)則挖掘中有幾個(gè)重要的概念:項(xiàng)集、頻繁項(xiàng)集、支持度、置信度、重要性。項(xiàng)集為事物屬性特征的集合,如“成績(jī)類別=1”“總流量>=56.01”等。頻繁項(xiàng)集是在數(shù)據(jù)集中出現(xiàn)頻率較高的項(xiàng)集。對(duì)于規(guī)則X->Y,支持度為(X,Y)/T,置信度為(X,Y)/X。其中,T表示項(xiàng)集的事務(wù)集合,(X,Y)表示T中同時(shí)包含X和Y的事務(wù)的個(gè)數(shù),X表示T中包含X的事務(wù)的個(gè)數(shù)。支持度表示規(guī)則的可能性大小,置信度表示規(guī)則的條件概率,也稱為概率。重要性用于衡量規(guī)則的有效性,重要性值越大,規(guī)則前件和后件的相關(guān)性越強(qiáng)。關(guān)聯(lián)規(guī)則挖掘是從事務(wù)集合中挖掘出滿足支持度和置信度最低閾值要求的所有關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘可以大致分為兩步:第一步是基于事務(wù)集合生成頻繁項(xiàng)目集,第二步是基于頻繁項(xiàng)目集生成滿足最低置信度的關(guān)聯(lián)規(guī)則。將“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績(jī)類別”既作為輸入值又作為預(yù)測(cè)值。由于關(guān)聯(lián)規(guī)則挖掘要求數(shù)據(jù)為離散型數(shù)據(jù),因此將連續(xù)型輸入值的數(shù)據(jù)類型設(shè)置為“Discretized”,以自動(dòng)進(jìn)行離散化。將樣本總數(shù)的70%作為訓(xùn)練集,剩余的30%作為測(cè)試集。為保證關(guān)聯(lián)規(guī)則挖掘效果,將算法的最大項(xiàng)集大小參數(shù)Maximum_Itemset_Size設(shè)置為2,最小概率參數(shù)Minimum_Probability設(shè)置為0.6。關(guān)聯(lián)規(guī)則挖掘結(jié)果如圖4所示。
根據(jù)圖4關(guān)聯(lián)規(guī)則挖掘結(jié)果,整理得到詳細(xì)的關(guān)聯(lián)規(guī)則如表3所示。
從圖4和表3可以看出,影響學(xué)習(xí)質(zhì)量的因素有“上網(wǎng)時(shí)長(zhǎng)”“出流量”“總流量”“入流量”,如規(guī)則1中學(xué)生上網(wǎng)時(shí)長(zhǎng)大于等于255.84小時(shí),其成績(jī)有84.0%的概率屬于“成績(jī)較差”類別;規(guī)則5中學(xué)生上網(wǎng)出流量小于1.01GB,其成績(jī)有62.5%的概率屬于“成績(jī)較好”類別;規(guī)則6中學(xué)生上網(wǎng)總流量大于等于56.01GB,其成績(jī)有62.5%的概率屬于“成績(jī)較差”類別;規(guī)則7中學(xué)生上網(wǎng)入流量大于等于48.34GB,其成績(jī)有61.9%的概率屬于“成績(jī)較差”類別。與其他屬性相比,“上網(wǎng)時(shí)長(zhǎng)”的置信度和重要性最高,因此,“上網(wǎng)時(shí)長(zhǎng)”仍然是影響學(xué)習(xí)質(zhì)量的主要因素。上網(wǎng)時(shí)長(zhǎng)的關(guān)鍵分割點(diǎn)為255.84、190.44、150.14、69.85。可以看出,關(guān)聯(lián)規(guī)則挖掘的結(jié)果與決策樹(shù)分析結(jié)果大體一致。
(3)邏輯回歸
回歸分析是通過(guò)建立回歸模型來(lái)確定兩種或兩種以上變量間的因果關(guān)系。邏輯回歸是對(duì)線性回歸模型的擴(kuò)展,可用于分類與預(yù)測(cè)分析。設(shè)因變量為y,影響y的n個(gè)自變量為x1,x2,...,xn,p為事件發(fā)生的概率,1-p為事件不發(fā)生的概率, p/(1-p)取自然對(duì)數(shù)ln(p/(1-p)),得到邏輯回歸模型為:
由式(2)可得:
式中為常數(shù),(i=1,…, n)為邏輯回歸系數(shù)。
將“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績(jī)類別”既作為輸入值又作為預(yù)測(cè)值。將樣本總數(shù)的70%作為訓(xùn)練集,剩余的30%作為測(cè)試集。邏輯回歸分析結(jié)果如表4所示。
從表4可以看出,影響學(xué)習(xí)質(zhì)量的因素有“上網(wǎng)時(shí)長(zhǎng)”“出流量”“總流量”,如上網(wǎng)出流量在46.334GB到178.196GB之間的學(xué)生,其傾向于“成績(jī)較差”類別的概率為80%,上網(wǎng)時(shí)長(zhǎng)在190.133小時(shí)到361.467小時(shí)之間的學(xué)生,其傾向于“成績(jī)較差”類別的概率為76.92%。分?jǐn)?shù)表示自變量與因變量之間因果關(guān)系的強(qiáng)度。表4中的分析結(jié)果顯示,“上網(wǎng)時(shí)長(zhǎng)”仍然是影響學(xué)習(xí)質(zhì)量的主要因素。上網(wǎng)時(shí)長(zhǎng)的關(guān)鍵分割點(diǎn)為190.133、140.440、90.746,這與前兩種分析方法得到的結(jié)論基本一致。此外,“出流量”也成為一個(gè)影響學(xué)習(xí)質(zhì)量的重要因素,這與前兩種分析方法的結(jié)論不一致,這個(gè)結(jié)論的有效性可以通過(guò)對(duì)相關(guān)學(xué)生進(jìn)行抽樣調(diào)查分析進(jìn)行驗(yàn)證。
四、結(jié)果評(píng)價(jià)
首先對(duì)三種數(shù)據(jù)挖掘方法進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)包括查準(zhǔn)率、查全率、正確率、F值等。查準(zhǔn)率為算法識(shí)別正確的正面樣本數(shù)與所有識(shí)別為正面的樣本數(shù)的比值,用于衡量算法的精密度。查全率為算法識(shí)別正確的正面樣本數(shù)與樣本中所有正面樣本數(shù)的比值,反映算法的靈敏度,也稱為召回率。正確率為算法識(shí)別正確的觀點(diǎn)數(shù)與樣本總數(shù)的比值,反映算法的準(zhǔn)確度。F值為查準(zhǔn)率與查全率的調(diào)和平均值,其取值范圍在0到1之間,用于衡量算法的總體性能。查準(zhǔn)率所描述的精密度與正確率所描述的準(zhǔn)確度具有不同的含義。精密度是指多次重復(fù)測(cè)定同一輸入值時(shí)各測(cè)定值之間彼此相符合的程度,用來(lái)表示隨機(jī)誤差的大小。準(zhǔn)確度是指在一定條件下多次測(cè)定的平均值與其真值相符合的程度,用來(lái)表示系統(tǒng)誤差的大小。
在本研究中,設(shè)TP(Ture Positive)為實(shí)際成績(jī)較好而分類預(yù)測(cè)結(jié)果也為成績(jī)較好的樣本數(shù),F(xiàn)P(False Positive)為實(shí)際成績(jī)較好但分類預(yù)測(cè)結(jié)果為成績(jī)較差的樣本數(shù),TN(True Negative)為實(shí)際成績(jī)較差而分類預(yù)測(cè)結(jié)果也為成績(jī)較差的樣本數(shù),F(xiàn)N(False Negative)為實(shí)際成績(jī)較差但分類預(yù)測(cè)結(jié)果為成績(jī)較好的樣本數(shù),則有如下定義(Wikipedia, 2016):
為了更準(zhǔn)確地衡量算法的總體性能,有必要將正確率考慮在內(nèi),借鑒F值的調(diào)和平均值計(jì)算方法,定義精確度為正確率與F值的調(diào)和平均值,即:
精確度可以全面反映算法的精密度、靈敏度、準(zhǔn)確度,更準(zhǔn)確地描述算法的總體性能好壞。
根據(jù)決策樹(shù)、關(guān)聯(lián)規(guī)則、邏輯回歸三種方法的數(shù)據(jù)挖掘建模結(jié)果,采用樣本總體的30%測(cè)試集進(jìn)行測(cè)試,分別計(jì)算相應(yīng)的評(píng)價(jià)指標(biāo)值。計(jì)算結(jié)果如表5所示。
從表5可以看出,查準(zhǔn)率:關(guān)聯(lián)規(guī)則>決策樹(shù)>邏輯回歸;查全率:邏輯回歸>決策樹(shù)>關(guān)聯(lián)規(guī)則;正確率:邏輯回歸>決策樹(shù)>關(guān)聯(lián)規(guī)則,F(xiàn)值和精確度的計(jì)算結(jié)果均為:關(guān)聯(lián)規(guī)則>決策樹(shù)>邏輯回歸。三種算法都較好地實(shí)現(xiàn)了數(shù)據(jù)挖掘和分類預(yù)測(cè)效果,得出的結(jié)論基本一致,各項(xiàng)指標(biāo)都接近或超過(guò)60%,尤其是關(guān)聯(lián)規(guī)則的查準(zhǔn)率超過(guò)了80%。綜合考慮算法的總體性能,關(guān)聯(lián)規(guī)則挖掘算法的總體性能最好,決策樹(shù)算法的總體性能略好于邏輯回歸,兩者相差不大。
五、結(jié)論
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)是寶貴的資源,充分挖掘和利用教育數(shù)據(jù)中蘊(yùn)含的信息,有助于改善教育活動(dòng)。本研究首先對(duì)學(xué)生上網(wǎng)數(shù)據(jù)和成績(jī)數(shù)據(jù)進(jìn)行相關(guān)分析,然后采用三種數(shù)據(jù)挖掘方法對(duì)學(xué)生上網(wǎng)行為的相關(guān)屬性與學(xué)生成績(jī)的內(nèi)在關(guān)系進(jìn)行研究,得出了以下結(jié)論:①學(xué)生上網(wǎng)行為的相關(guān)屬性“上網(wǎng)時(shí)長(zhǎng)”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”對(duì)學(xué)習(xí)質(zhì)量都有不同程度的影響,且均呈現(xiàn)負(fù)相關(guān)關(guān)系,適度上網(wǎng)有利于學(xué)習(xí),過(guò)度上網(wǎng)影響學(xué)習(xí);②“上網(wǎng)時(shí)長(zhǎng)”是影響學(xué)習(xí)質(zhì)量的主要因素,即兩者負(fù)相關(guān)關(guān)系強(qiáng)度最強(qiáng),應(yīng)予以重點(diǎn)關(guān)注;③綜合三種算法的挖掘結(jié)果,“上網(wǎng)時(shí)長(zhǎng)”的關(guān)鍵分割點(diǎn)為248、190、150、90、70,其中“上網(wǎng)時(shí)長(zhǎng)”超過(guò)190小時(shí)會(huì)對(duì)學(xué)習(xí)質(zhì)量產(chǎn)生顯著負(fù)面影響,超過(guò)248小時(shí)會(huì)產(chǎn)生嚴(yán)重負(fù)面影響,應(yīng)據(jù)此制定合理的網(wǎng)絡(luò)管理措施,引導(dǎo)學(xué)生健康上網(wǎng);④不同的數(shù)據(jù)挖掘方法在算法性能和挖掘結(jié)論上可能存在差異,需要根據(jù)實(shí)際情況選擇合適的算法,并合理設(shè)置算法參數(shù),保證結(jié)論的正確性和有效性。網(wǎng)絡(luò)環(huán)境是教育環(huán)境的重要組成部分。通過(guò)上網(wǎng)行為分析和數(shù)據(jù)挖掘,可以為制定合理、有效的網(wǎng)絡(luò)管理策略提供決策支持服務(wù),讓網(wǎng)絡(luò)真正成為學(xué)生學(xué)習(xí)的良好輔助工具。
[參考文獻(xiàn)]
陳益均,殷莉. 2013. 基于數(shù)據(jù)挖掘的學(xué)生成績(jī)影響模型的研究[J]. 現(xiàn)代教育技術(shù),23(1):94-96.
李婷,傅鋼善. 2010. 國(guó)內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢(shì)分析[J]. 現(xiàn)代教育技術(shù)(10):21-25.
牟冬梅,任珂. 2016. 三種數(shù)據(jù)挖掘算法在電子病歷知識(shí)發(fā)現(xiàn)中的比較[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),32(6):102-109.
舒忠梅,徐曉東. 2014. 學(xué)習(xí)分析視域下的大學(xué)生滿意度教育數(shù)據(jù)挖掘及分析[J]. 電化教育研究(5):39-44.
施佺,錢(qián)源,孫玲. 2016. 基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過(guò)程監(jiān)管研究[J]. 現(xiàn)代教育技術(shù),26(6):87-93.
吳淑蘋(píng). 2013. 基于數(shù)據(jù)挖掘的教師網(wǎng)絡(luò)學(xué)習(xí)行為分析與研究[J]. 教師教育研究,25(3):47-55.
吳青,羅儒國(guó). 2014. 基于網(wǎng)絡(luò)學(xué)習(xí)行為的學(xué)習(xí)風(fēng)格挖掘[J]. 現(xiàn)代遠(yuǎn)距離教育,(1):54-62.
王林麗,葉洋,楊現(xiàn)民. 2016. 基于大數(shù)據(jù)的在線學(xué)習(xí)預(yù)警模型設(shè)計(jì)——“教育大數(shù)據(jù)研究與實(shí)踐專欄”之學(xué)習(xí)預(yù)警篇[J]. 現(xiàn)代教育技術(shù),26(7):5-11.
周慶,牟超,楊丹. 2015. 教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J]. 軟件學(xué)報(bào)(11):3026-3042.
Agarwal, S., Pandey, G. N. & Tiwari, M. D. (2012). Data Mining in Education: Data Classification and Decision Tree Approach. International Journal of e-Education, e-Business, e-Management and e-Learning, 2(2), 140-144.
Antonenko, P. D., Toy, S. & Niederhauser, D. S. (2012). Using Cluster Analysis for Data Mining in Educational Technology Research. Educational Technology Research and Development, 60(3), 383-398.
Bienkowski, M., Feng, M. & Means, B. (2012). Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief. Washington:U.S. Department of Education, Office of Educational Technology.
Bousbia, N. & Belamri, I. (2014). Which Contribution Does EDM Provide to Computer-Based Learning Environments. Educational Data Mining, 524, 3-28.
García, E., Romero, C., Ventura, S. & Castro, C. D. (2011). A Collaborative Educational Association Rule Mining Tool. Internet and Higher Education, 14(2), 77-88.
Guruler, H. & Istanbullu, A. (2014). Modeling Student Performance in Higher Education Using Data Mining. Educational Data Mining, 524, 105-124.
Pechenizkiy, M., et al. (2011 July). International Educational Data Mining Society. from http://www.educationaldatamining.org.
Parack, S., Zahid, Z. & Merchant, F. (2012). Application of Data Mining in Educational Databases for Predicting Academic Trends and Patterns. IEEE International Conference on Technology Enhanced Education,1-4.
Romero, C. & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery, 3(1), 12-27.
Wikipedia. (2016, August 6). Precision and recall. from https://en.wikipedia.org/wiki/Precision_and_recall.