摘要:在目前學(xué)校傳統(tǒng)的教學(xué)模式中,針對(duì)學(xué)生各科成績(jī)進(jìn)行深層次的分析應(yīng)用的不多,傳統(tǒng)的成績(jī)分析也有一定的局限性,分析結(jié)果缺少創(chuàng)新點(diǎn),本文介紹了利用Microsoft聚類算法,將學(xué)生英語(yǔ)一級(jí)成績(jī)數(shù)據(jù)進(jìn)行預(yù)處理和集成,利用Microsoft SQL Server BI平臺(tái)進(jìn)行聚類,對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行挖據(jù)分析。通過(guò)試驗(yàn)結(jié)果分析,打破原有成績(jī)分析得局限,使現(xiàn)有數(shù)據(jù)體現(xiàn)更好的價(jià)值,從而輔助教學(xué)管理者做出相應(yīng)決策,更好地提高教學(xué)質(zhì)量。
關(guān)鍵詞:數(shù)據(jù)挖掘;Microsoft聚類算法;成績(jī)分析
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)09-0001-02
1 引言
以前我們?nèi)粘=虒W(xué)中各種科目的成績(jī)數(shù)據(jù)沒(méi)有得到利用,沒(méi)有將數(shù)據(jù)潛在的特征挖掘出來(lái),在信息化大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘能把這些數(shù)據(jù),經(jīng)過(guò)篩選和預(yù)處理,使用算法進(jìn)行分析根據(jù)數(shù)據(jù)分析,找出相關(guān)聯(lián)的特征,將有相近特征的數(shù)據(jù)進(jìn)行分類,通過(guò)研究各類的特征,有助于發(fā)掘出潛在規(guī)律,對(duì)教學(xué)和老師具有指導(dǎo)作用。本文利用聚類分析方法能從數(shù)據(jù)中找出相關(guān)的特征或模式,可以幫助學(xué)校針對(duì)不同學(xué)生的學(xué)習(xí)狀況,制定針對(duì)性的教學(xué)策略,輔助學(xué)校進(jìn)行教學(xué)管理。
2 Microsoft 聚類分析算法
數(shù)據(jù)挖掘中聚類是對(duì)數(shù)據(jù)信息分組,把相似屬性的數(shù)據(jù)信息放在一個(gè)類別里。
Microsoft SQL Server BI數(shù)據(jù)挖掘智能平臺(tái)中,應(yīng)用聚類分析算法有兩種選擇,這兩種算法的選擇可以通過(guò)CLUSTERING_METHOD參數(shù)設(shè)置來(lái)完成,一種是EM算法。另外一個(gè)算法就是K-means算法。
Microsoft聚類分析算法支持多種處理優(yōu)化方法,通過(guò)設(shè)置 CLUSTER_COUNT 參數(shù)的值可以確定聚類的數(shù)目,也就是分類的數(shù)量。這個(gè)數(shù)量確定了聚類結(jié)果的精確性,其默認(rèn)值是10,在這次實(shí)驗(yàn)中,采用默認(rèn)值聚類分析后數(shù)據(jù)相似性很大,類比之間差異度就減弱了,因此默認(rèn)值10的實(shí)驗(yàn)結(jié)果參考價(jià)值不大。經(jīng)過(guò)反復(fù)論證,結(jié)合學(xué)校專業(yè)特征和學(xué)生特征,嘗試參數(shù)值為7,聚類結(jié)果發(fā)現(xiàn)類3和類1專業(yè)基本一致,類2和類5中的專業(yè)基本一致,這樣特征類似不具備分析價(jià)值,缺少差異性。設(shè)置CLUSTER_COUNT 參數(shù)為3,進(jìn)行聚類分析,發(fā)現(xiàn)會(huì)計(jì)和計(jì)算機(jī)這兩個(gè)專業(yè)的學(xué)生一般都是分開(kāi)進(jìn)行教學(xué)的,而聚類要求同一個(gè)簇當(dāng)中的對(duì)象必須要具有足夠的相似性,所以這個(gè)聚類太過(guò)籠統(tǒng),需要重新進(jìn)行分類。通過(guò)實(shí)驗(yàn)對(duì)比,對(duì)最后的聚類結(jié)果數(shù)據(jù)統(tǒng)計(jì)對(duì)比分析,結(jié)合多年的學(xué)生管理的工作經(jīng)驗(yàn)判斷,當(dāng)類的初始值為5時(shí)效果比較理想,所以本文設(shè)定類的初始值為5。
3 聚類算法在學(xué)生成績(jī)分析中的應(yīng)用
3.1 數(shù)據(jù)采集轉(zhuǎn)化
本文研究的是英語(yǔ)一級(jí)考試成績(jī)和學(xué)生其他因素之間的關(guān)聯(lián)關(guān)系。因此,把英語(yǔ)一級(jí)成績(jī)當(dāng)成研究指標(biāo),為了讓實(shí)驗(yàn)結(jié)果完整和精確,試驗(yàn)數(shù)據(jù)抽取了我們學(xué)校五個(gè)專業(yè)不同層次的學(xué)生三年在校的各科成績(jī),經(jīng)過(guò)預(yù)處理保留有效信息1354條。針對(duì)預(yù)處理后的學(xué)生原始成績(jī)數(shù)據(jù),結(jié)合試驗(yàn)需求,對(duì)原始的數(shù)據(jù)進(jìn)行集成和轉(zhuǎn)化,轉(zhuǎn)化為專業(yè)課平均成績(jī)、公共課平均成績(jī)、英語(yǔ)平均成績(jī)、英語(yǔ)一級(jí)成績(jī)、英語(yǔ)一級(jí)考試學(xué)期、專業(yè)類別等試驗(yàn)所用的數(shù)據(jù)信息。
3.2 構(gòu)建英語(yǔ)一級(jí)合格客體的聚類分析模型
將預(yù)處理后一級(jí)通過(guò)的815個(gè)信息利用SQL Server BI數(shù)據(jù)挖掘向?qū)?chuàng)建和使用聚類分析,通過(guò)挖掘模型查看器,可以看到該分類下,各個(gè)屬性和屬性值的發(fā)生概率,以此來(lái)觀察分類的特征情況,對(duì)英語(yǔ)一級(jí)合格群體聚類后的分類特征圖如下:
3.2.1 類1特征如圖1所示。
對(duì)類1特征圖進(jìn)行分析,軟件與信息服務(wù)專業(yè)學(xué)生在高一的第二學(xué)期或者高二第一學(xué)期通過(guò)英語(yǔ)一級(jí)較為普遍,從特征圖明顯看出該部分學(xué)生的入學(xué)成績(jī)、公共基礎(chǔ)課、專業(yè)課程的成績(jī)都比較高。而數(shù)控專業(yè)學(xué)生在高二的兩個(gè)學(xué)期通過(guò)英語(yǔ)一級(jí)考試的群體有明顯的特征就是學(xué)生的公共課成績(jī)和英和英語(yǔ)課程平時(shí)期末的平均成績(jī)屬于中等水平,并且群體比例和他們專業(yè)三二分段班級(jí)人數(shù)數(shù)量接近。
特征圖中看到媒體傳播專業(yè)學(xué)生的英語(yǔ)一級(jí)成績(jī)普遍較低,大部分是在高二開(kāi)始才能通過(guò),大部分是在高二第二學(xué)期通過(guò),這部分學(xué)生的英語(yǔ)平均成績(jī)大部分處于60分上下這個(gè)階段,專業(yè)課、公共基礎(chǔ)課以及入學(xué)成績(jī)也是中等水平,該專業(yè)能在高二第一學(xué)期通過(guò)英語(yǔ)一級(jí)的學(xué)生,他們的專業(yè)課程和公共課成績(jī)整體水平較高。
3.2.2類3特征如圖2所示。
從類3特征圖分析,汽修專業(yè)學(xué)生在高二第二學(xué)期和高三第一學(xué)期通過(guò)英語(yǔ)一級(jí)的這部分學(xué)生,他們的各科成績(jī)都是普遍較低,能在高二第一學(xué)期就通過(guò)英語(yǔ)一級(jí)的學(xué)生,他們的專業(yè)課程反而是比較好。這就說(shuō)明這部分學(xué)生學(xué)習(xí)能力較強(qiáng),學(xué)科成績(jī)均衡。
綜上所述,觀察合格群體分類特征圖,分類特征比較明顯,主要分析學(xué)生英語(yǔ)一級(jí)的通過(guò)學(xué)期和專業(yè)兩個(gè)變量屬性值,媒體傳播、汽修、數(shù)控三個(gè)專業(yè)通過(guò)學(xué)期在3.0-5.0這一個(gè)范圍的概率較大,軟件與信息服務(wù)和會(huì)計(jì)顯示的通過(guò)學(xué)期在2.0-3.0這個(gè)范圍概率較大。
對(duì)合格各類分析類簇內(nèi)的共性和類簇之間的差異性,比較每一類各變量的值,橫向角度找出英語(yǔ)一級(jí)成績(jī)和其他變量的關(guān)聯(lián)關(guān)系。發(fā)現(xiàn)通過(guò)學(xué)期的值越小,入學(xué)成績(jī)和公共課程成績(jī)?cè)礁撸鷮I(yè)課程關(guān)聯(lián)度不大,反而汽修、數(shù)控專業(yè)部分學(xué)生入學(xué)成績(jī)和公共課成績(jī)不高,但是專業(yè)課成績(jī)較高。
4 結(jié)果分析及建議
依據(jù)聚類結(jié)果的分析,具體建議如下:
1)我們學(xué)校軟件與信息服務(wù)專業(yè)、數(shù)控專業(yè)的部分班級(jí)是“三二分段”中高職連貫培養(yǎng),該部分學(xué)生入學(xué)整體分?jǐn)?shù)較高,因此,教務(wù)科可以對(duì)“三二分段”中高職連貫培養(yǎng)班級(jí)入學(xué)成績(jī)?cè)谥械纫陨蠈W(xué)生可以鼓勵(lì)他們?cè)诟咭坏诙W(xué)期報(bào)考英語(yǔ)一級(jí)考試,對(duì)于入學(xué)成績(jī)?cè)诤细窕蛘咭韵碌膶W(xué)生建議他們?cè)诟叨谝粚W(xué)期報(bào)考英語(yǔ)一級(jí)考試,以此提高英語(yǔ)一級(jí)通過(guò)率。
2)針對(duì)汽修、數(shù)控、媒體傳播和會(huì)計(jì)專業(yè)學(xué)生,入學(xué)成績(jī)和英語(yǔ)平均成績(jī)低于合格水平的,學(xué)校在第一學(xué)期開(kāi)始,針對(duì)數(shù)控和汽修專業(yè)非“三二分段”中高職連貫培養(yǎng)班級(jí)可以增加英語(yǔ)課時(shí)量,利用課余時(shí)間安排英語(yǔ)選修課程班,集中培訓(xùn),強(qiáng)化知識(shí),在第三學(xué)期報(bào)考,提高通過(guò)率,減少他們報(bào)考次數(shù)。
3)媒體傳播專業(yè)和會(huì)計(jì)專業(yè)由于學(xué)生女生較多,他們?nèi)雽W(xué)成績(jī)中等,有一定基礎(chǔ),安排教學(xué)能力較好的教師,并且在第二學(xué)期可以適當(dāng)增加英語(yǔ)課時(shí)量,在報(bào)考前進(jìn)行篩選,提高英語(yǔ)學(xué)習(xí)能力保證一級(jí)通過(guò)率。
4)針對(duì)“三二分段”中高職連貫培養(yǎng)班級(jí)中入學(xué)成績(jī)和公共課程以及專業(yè)課程比較優(yōu)秀的學(xué)生,第二學(xué)期通過(guò)英語(yǔ)一級(jí)后,鼓勵(lì)他們?cè)诘谌龑W(xué)期報(bào)考二級(jí),并且引導(dǎo)他們參與競(jìng)賽活動(dòng),擴(kuò)展知識(shí)的深度和廣度,取得更大進(jìn)步。
5 結(jié)語(yǔ)
綜上所述,SQL Server BI數(shù)據(jù)挖掘向?qū)碌木垲惙治?,通過(guò)實(shí)驗(yàn)結(jié)合實(shí)際,設(shè)定參數(shù)為5類,提高聚類的精確性。依據(jù)聚類結(jié)果分析,結(jié)合學(xué)生的實(shí)際專業(yè)情況和對(duì)英語(yǔ)不同的掌握情況,選擇不同的方式方法來(lái)對(duì)其英語(yǔ)能力進(jìn)行提高。聚類分析的結(jié)果不僅讓學(xué)生自身了解到自己在班級(jí)或年級(jí)中的位置,而且能總結(jié)出某類學(xué)生在共性上的不足之處,進(jìn)而教育者采取相應(yīng)的教育手段,可以很好地做到注重學(xué)生的個(gè)性化教育和輔導(dǎo),因教學(xué)需求而動(dòng)態(tài)調(diào)整課程,以此提升學(xué)生成績(jī)和教學(xué)質(zhì)量,讓更多的學(xué)生通過(guò)英語(yǔ)一級(jí)考證。
參考文獻(xiàn):
[1] 李杰.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用研究[D].西安: 西安石油大學(xué),2010.
[2] 周濤.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(12):100-110.
[3] 陶彬賢.聚類算法分析及其在學(xué)生成績(jī)分析中的應(yīng)用[D].安徽師范大學(xué),2011.
[4] 張貴元.數(shù)據(jù)挖掘技術(shù)在中職學(xué)生成績(jī)分析中的應(yīng)用研究[D]. 廣東技術(shù)師范學(xué)院,2018.
【通聯(lián)編輯:光文玲】