寇小鴻
摘要:結(jié)合實際工作將模糊聚類的理論應(yīng)用于教師評價中,對數(shù)據(jù)進行了預(yù)處理,將清洗后的數(shù)據(jù)經(jīng)過多次迭加,得到科學(xué)的分類。聚類結(jié)果為三類,其中第三類的教師教學(xué)水平最高,對課程投入較好;第二類的教師的教學(xué)水平較好,教師的教學(xué)風(fēng)格比較受學(xué)生們喜愛;第一類教師的水平一般,課程難度卻相對簡單。運用逐步聚類方法分析教師教學(xué)質(zhì)量,從而為具有不同教學(xué)特征的教學(xué)質(zhì)量評價提供一定的參考。
關(guān)鍵詞:模糊聚類;教學(xué)質(zhì)量;數(shù)據(jù)挖掘
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2015)36-0092-03
高校是教學(xué)科研和培養(yǎng)人才的重要場所,教師資源作為高校中最重要的資源,對高校的生存和發(fā)展具有決定性影響。近年來,社會對教師的工作質(zhì)量和效率提出了更高要求。學(xué)生對教師的評價在從中扮演著一個極為重要的角色,它把學(xué)生對教師在教學(xué)過程中遇到的問題反饋給教師,教師對一些在教學(xué)過程中出現(xiàn)的問題進行調(diào)整,從而達到最理想的教學(xué)模式。高校教師評價研究是高校師資隊伍建設(shè)的重要環(huán)節(jié),也是高等教育改革與發(fā)展的最為重要的基石。教師評價不僅僅是一種客觀性評價,而且是用于診斷教學(xué)中存在的問題,以利于進一步改進教師的工作,為他們提供培訓(xùn)和自我發(fā)展的機會[1]。
本文以寧波大紅鷹學(xué)院機電學(xué)院師生評教作為研究對象,運用數(shù)據(jù)挖局中模糊聚類的方法處理這些數(shù)據(jù)。從這些數(shù)據(jù)中挖掘出有價值的信息,進行不斷的歸納總結(jié),分析出教師在教學(xué)任務(wù)中存在利與弊。從而達到更深層次的教學(xué)質(zhì)量,全面提高教師的教學(xué)素質(zhì)。
1 研究方法
Zadeh提出的模糊集理論為軟劃分提供了充分有力的分析工具, 人們開始用模糊的方法來處理一些聚類問題,并稱之為模糊聚類分析,由于模糊聚類得到的樣本類別程度的不確定,體現(xiàn)了樣本類屬的中介性,即建立起了樣本對于類別的不確定性的描述,又能客觀地反映現(xiàn)實,從而成為現(xiàn)代聚類分析研究的主流。模糊聚類能夠有效對類與類之間有聯(lián)系的數(shù)據(jù)集進行分類,能夠提高算法的尋優(yōu)的概率[2]。
1.1 研究的數(shù)據(jù)
本課題的原始數(shù)據(jù)資料來源于寧波大紅鷹學(xué)院某學(xué)院的數(shù)據(jù),收集了2014—2015學(xué)年第二學(xué)期教師評價的數(shù)據(jù)6000個。通過計算機將服務(wù)器ACCESS數(shù)據(jù)庫中的數(shù)據(jù),提取到EXCEL文件中,錄入到EXCEL中,如表1。
1.2 數(shù)據(jù)的清洗和簡化
數(shù)據(jù)清洗的目的不只是要消除錯誤、冗余和數(shù)據(jù)噪聲,還要將按不同的、不兼容的規(guī)則所得的各種數(shù)據(jù)集一致起來[3]。
數(shù)據(jù)簡化是在對發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)模型,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度的精簡數(shù)據(jù)量。由于教師和學(xué)生數(shù)量過多,本文隨即抽取了100個教師和教師所對應(yīng)的100個學(xué)生。并且以9個指標(biāo)來評價老師X1,X2…,X9。每個指標(biāo)分為四個等級,A B C D,其中A最高4分,B其次3分,C為2分,D為1分。
1.3數(shù)據(jù)的變換
數(shù)據(jù)變換是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換來減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、歸約、切換和投影等操作。
根據(jù)簡化后的數(shù)據(jù),計算每一個老師的每一個指標(biāo)的平均數(shù),表2為最終整理得到的最終數(shù)據(jù)。
(X1表示為該任課老師對教學(xué)非常投入;X2表示為該老師的教學(xué)能力和水平很高;X3表示為任課老師的總體滿意程度高;X4表示為該課程較難掌握;X5表示非常投入的學(xué)習(xí)該門課程;X6表示為通過課程學(xué)習(xí),我收獲很大;X7表示為學(xué)習(xí)完該門課程后,我的收獲很大;X8表示為該課程的設(shè)置價值較高;X9表示為對課程的總體滿意程度高。)
1.4根據(jù)所選的凝聚點,每個樣品按最近凝聚點分成幾類
若與該數(shù)接近的整數(shù)為[k],則將樣本[xi]歸入[k]類([1≤k≤K])。其中由表2中可得,
[MI=min1≤i≤nSUMi]=1.11319,[MA=max1≤i≤nSUMi]= 6.0087,[.]表示取整運算。對于[k]值的選取,根據(jù)醫(yī)學(xué)知識的經(jīng)驗以及反復(fù)上機調(diào)試實驗,將100個樣本初始分為3類較為合適,根據(jù)公式(1)、(2),在DPS軟件系統(tǒng)中進行初始分類。
1.5根據(jù)分類結(jié)果,再找出新的凝聚點
計算與上一組的凝聚點差異,若差異小于摸個設(shè)定值,則認為分類合理,過程結(jié)束。若差異大于設(shè)定值則分類不合理,繼續(xù)按照前面方法進行分類。
因為選取的樣品數(shù)量比較多,所以本文采用的是重心法[5],初始凝聚點采用該樣品的均值,計算公式為:
其中[gj]([j=1,2,...m])為第k類([1≤k≤K])類的重心坐標(biāo),[nk]為第k類的樣本數(shù)。那么,根據(jù)(3)式計算初始分類的重心,得到凝聚點,由重心計算公式得到初始分類重心坐標(biāo)如表3。
1.6 將所有的樣本按最近凝聚點歸類
這里,[ni]為第[i]個樣本組的樣本數(shù),[xi]為其均值,[x]為N個樣本的總均值,m為N個樣本所分類的組數(shù),[N=i=1mni],S為樣本[xi]與類凝聚點的距離。
從計算公式上可以看出,當(dāng)[ni=1]時,[S]為[N]個樣本分[N]組的總離差平方和;當(dāng)[ni≥2]時,此時[S]則為[N]個樣本被分為[m]組的組間平方和。根據(jù)方差分析的思想。如果分類正確,那么同類樣品的離差平方和應(yīng)當(dāng)較小,即組內(nèi)的同質(zhì)性就越大,異質(zhì)性就越小,類間離差平方和應(yīng)當(dāng)較大,即組內(nèi)的同質(zhì)性就越小,異質(zhì)性就越大。計算所有樣本到每一個類凝聚點的距離,并將樣本歸入到最近凝聚點所在的類[6]。
1.7修改分類,使分類趨于合理
本文將采用成批修改法,其步驟如下:在樣品初始分類后,計算每一類的重心,并將重心作為新的凝聚點,重新將樣品按最近的新凝聚點聚類。如果新的分類結(jié)果和原始分類有差異,再計算新的凝聚點,并重新進行分類,如無差異則分類終止。這樣一直重新分類直到所有樣品不再變動類別為止[7]。經(jīng)過七次迭代得到的結(jié)果,如表4。
2 逐步聚類結(jié)果及結(jié)果分析
在DPS軟件中完成上述逐步聚類算法的整個過程,包括初始分類、每次迭代后各個樣本的類別,與距凝聚點的距離、最終分類結(jié)果見表5。聚類結(jié)果是,其中第一類樣本12個,第二類樣本66個,第三類樣本22個。
(X1表示為該任課老師對教學(xué)非常投入;X2表示為該老師的教學(xué)能力和水平很高;X3表示為對任課老師的總體滿意程度高;X4表示為該課程較難掌握;X5表示非常投入的學(xué)習(xí)該門課程;X6表示為通過課程學(xué)習(xí),我收獲很大;X7表示為學(xué)習(xí)完該門課程后,我的收獲很大;X8表示為該課程的設(shè)置價值較高;X9表示為對課程的總體滿意程度高。)
由表5可以得出:
1、第三類的教師水平最好,尤其是對教學(xué)非常投入,教學(xué)水平和能力很高,很受學(xué)生歡迎,但所教課程也有一定的難度,教師的教學(xué)經(jīng)驗豐富,由于課程難度較大導(dǎo)致學(xué)生對于知識的理解和吸收相對較低,所以本文覺得這類課程通常為專業(yè)必修課,課程時間安排比較緊湊,同學(xué)消化課程內(nèi)容又相對較慢,另外由于學(xué)生的一些個人因素,使得同學(xué)對這類課程失去學(xué)習(xí)的興趣,老師在上課的時候雖然把各類知識重點都講到了,但是巨大的內(nèi)容還是讓學(xué)生感覺到學(xué)習(xí)壓力。所以這類教師應(yīng)該更加注重創(chuàng)新化教育,從學(xué)校培養(yǎng)人才計劃的方向,從學(xué)生的角度出發(fā),根據(jù)學(xué)生的自身能力安排課程。否則再好的師資力量,再好的課本,也無法教出優(yōu)質(zhì)的學(xué)生。
2、第二類教師的水平較高。課程難度卻相對簡單,學(xué)生相對來說也比較容易接受這類課程,并且收獲也不小。教師的教學(xué)風(fēng)格比較受學(xué)生們喜愛,學(xué)生接受知識的速度也較快,使得教師和同學(xué)之間的關(guān)系比較融洽,這類教師可能是一些年輕教師。學(xué)生和教師之間的溝通很重要,而這類教師又善于改變課堂教學(xué)模式,從學(xué)生角度出發(fā),使得枯燥的課堂環(huán)境變成一個理想的吸收知識的海洋。
3、第一類的教師水平一般,并且而師資力量相對來說比較薄弱,學(xué)生的學(xué)習(xí)熱情更不夠高,無法激起對這門課程的興趣。本文認為這類課程通常為選修課,由于這類課程性質(zhì)的特殊性,使得很多學(xué)生覺得這類課程可學(xué)可不學(xué),通常是為修滿學(xué)分而學(xué),因此這類教師應(yīng)該忽略課程特殊性問題,所開課程應(yīng)該轉(zhuǎn)移課堂外為主,而不是傳統(tǒng)的課堂PPT模式,多增加學(xué)生團隊合作,動手能力,使乏味的課堂增加一些年輕人的活力。比如電影賞析這類課程,不是一味地在課堂上放電影,然后寫觀后感,在欣賞完好看的 電影后,而是讓學(xué)生自己拿起工具去拍一部微電影,哪怕是一段小視頻,同時在某一節(jié)課堂上與同學(xué)們分享他們的勞動成果。
3逐步聚類方法的討論
本文采用的模糊聚類中逐步聚類法優(yōu)缺點。
逐步聚類法是在一個平面層次上對所有的樣本先做出某一種較為粗略的分類,然后按照最小距離值進行修正,通過算法的迭代執(zhí)行,得到一個較為合理的聚類分類。其運算量小,能用于處理龐大的樣本數(shù)據(jù),也為實時處理提供了一定可能性。
缺點是它傾向于識別密度相近的,距離和大小相近的聚類,不能識別分布形狀比較錯綜復(fù)雜的聚類,它要求類別數(shù)目K可以合理地估計,且初始聚類中心的選擇和噪聲會對聚類結(jié)果產(chǎn)生很大影響,一旦初始值選擇的不好,可能無法得到有效的聚類結(jié)果。還需要用戶預(yù)先指定聚類個數(shù)。
由于實際問題的復(fù)雜性和數(shù)據(jù)的多樣性,使得無論采用哪一種算法都只能解決某一方面的問題。因此,我們應(yīng)該根據(jù)具體問題具體分析的原則,選擇適合自己的聚類算法。
參考文獻:
[1] 石娟.高校教育質(zhì)量發(fā)展性評價的研究與實踐[J].現(xiàn)代教育管理,2009(1):65-67
[2] 張維朋.基于模糊聚類的數(shù)據(jù)挖掘在臨床檢驗信息系統(tǒng)中的應(yīng)用研究[J]. 電腦知識與技術(shù),2009,5(23).
[3] 陳明浩.模糊分析學(xué)新論[M].北京:科學(xué)出版社,2009
[4] 唐啟義,馮明光.實用統(tǒng)計分析及其DPS數(shù)據(jù)處理系統(tǒng)[M].北京:科學(xué)出版社,2013
[5] 朱星宇,陳勇強. SPSS多元統(tǒng)計分析方法及應(yīng)用[M]. 北京:清華大學(xué)出版社,2011
[6] 張旭鵬,孫莉,于佳涵,等. 基于聚類分析和神經(jīng)網(wǎng)絡(luò)的風(fēng)電場日前功率預(yù)測研究[J].黑龍江科技信息,2015(29):29-29
[7] 李遠成 陰培培 趙銀. 基于模糊聚類的推測多線程劃分算法[J].計算機學(xué)報,37(3):580-592