瞿華禮,樊秀龍
(安徽廣播電視大學(xué) 宣城分校, 安徽 宣城 242000)
?
基于聚類分析的遠(yuǎn)程開放教育滯留生研究
——以宣城廣播電視大學(xué)為例
瞿華禮,樊秀龍
(安徽廣播電視大學(xué) 宣城分校, 安徽 宣城 242000)
利用現(xiàn)有的挖掘技術(shù)中的K-means聚類分析對開放教育滯留生的數(shù)據(jù)進(jìn)行了分析,對開放教育中收集到的兩類滯留生的數(shù)據(jù),根據(jù)滯留的性質(zhì)不同,分別設(shè)置了不同的觀測變量,利用K-means聚類分析,劃分出聚類中心,得出了影響學(xué)生滯留的關(guān)鍵性因素。
數(shù)據(jù)挖掘;聚類;滯留生
如今的國家開放大學(xué)(簡稱國開)實(shí)行的是一種師生準(zhǔn)分離狀態(tài)的遠(yuǎn)程開放教育。開放教育實(shí)行學(xué)分制,學(xué)籍有效期八年,最短學(xué)習(xí)年限不少于兩年半,學(xué)生在學(xué)籍有效期內(nèi)修滿專業(yè)學(xué)分即可獲得畢業(yè)證書。本課題擬將在最短學(xué)習(xí)年限和學(xué)籍有效期八年之間的時間內(nèi)的學(xué)生,定義為滯留生。本文研究的對象僅限于本科層次的學(xué)生,文中所指的滯留生包括已修滿課程學(xué)分獲得畢業(yè)資格,卻欲申請學(xué)位而延遲畢業(yè)的本科學(xué)生和未修滿課程學(xué)分卻超出最短學(xué)習(xí)年限并在學(xué)籍有效期內(nèi)的學(xué)生。
各級電大都要面對滯留生的問題,較高的滯留率會增加遠(yuǎn)程開放教育的辦學(xué)成本,會加大基層電大的管理負(fù)擔(dān),也不利于學(xué)生學(xué)習(xí)信念的堅(jiān)定。目前,對遠(yuǎn)程開放教育學(xué)生滯留原因卻鮮有相關(guān)深入的研究。
從電大管理的實(shí)際情況上看,滯留生總量較大,有關(guān)于滯留生的年級、專業(yè)和滯留的原因更加多樣復(fù)雜。實(shí)踐經(jīng)驗(yàn)和已有研究表明,工學(xué)矛盾、心理預(yù)期、學(xué)習(xí)能力、工作狀況、家庭狀況等,專業(yè)設(shè)置、課程資源、教學(xué)質(zhì)量、師資條件、技術(shù)支持等,都是可能導(dǎo)致滯留或輟學(xué)的影響因素。[1]另外,滯留生個人因就業(yè)行業(yè)變動、居住地和工作地點(diǎn)變動等原因造成整個滯留生管理工作難度加大,從大力改進(jìn)教學(xué)管理和提升教學(xué)服務(wù)質(zhì)量,并以學(xué)生為中心出發(fā),督促學(xué)生盡快完成學(xué)業(yè),挖掘?qū)W生滯留規(guī)律[2],采取切實(shí)有效的措施使滯留率降至最低,將會推動遠(yuǎn)程開放教育教學(xué)管理及服務(wù)制度更健康的發(fā)展,也將使遠(yuǎn)程開放教育理論體系得以完善。
數(shù)據(jù)挖掘(Data Mining) 指從海量隨機(jī)的有噪聲的數(shù)據(jù)中提取隱含在其中的卻又潛在有用的信息和知識的過程,它也被稱為知識發(fā)現(xiàn)。[3]數(shù)據(jù)挖掘技術(shù)揭示事物的規(guī)律與聯(lián)系,指導(dǎo)未來的活動。它已被應(yīng)用于多個領(lǐng)域,包括教育行業(yè)。
數(shù)據(jù)挖掘是一項(xiàng)應(yīng)用性很強(qiáng)的技術(shù),許多大型的數(shù)據(jù)庫廠商,如微軟,ORACLE等都有數(shù)據(jù)挖掘工具。在眾多企業(yè)中,IBM以它的Intelligent Miner走在了這項(xiàng)技術(shù)研發(fā)的前列[4],本文所用的統(tǒng)計(jì)分析工具就是IBM SPSS Statistics Version 22.0。本文運(yùn)用了K-means聚類算法對數(shù)據(jù)進(jìn)行分析。聚類算法使用迭代技術(shù)將數(shù)據(jù)分為包含類似特征的組,這些分組有利于識別數(shù)據(jù)異常及預(yù)測將來的活動。K-Means算法使用距離度量值將數(shù)據(jù)分到給其聚類中心最近的分類,它較適合分類任務(wù)。
例如,在實(shí)際應(yīng)用中,我們可以用聚類分析的方法分析市場,給市場中的消費(fèi)者進(jìn)行分類,針對不同的消費(fèi)者喜好推出不同的營銷策略從而增加營業(yè)收益。
(一)數(shù)據(jù)來源
項(xiàng)目組選取了離2016最近的三個畢業(yè)季,根據(jù)電大的最短學(xué)習(xí)年限,即選取了宣城廣播電視大學(xué)2012秋本科、2013春本科、2013秋本科,它們分別在2015年春季、2015年秋季、2016年春季畢業(yè)。選取的時間段因?yàn)檠芯糠椒ㄋ鶝Q定的。研究方法采用了問卷調(diào)查法,即對有滯留生的班級發(fā)放問卷或邀請班主任根據(jù)學(xué)生情況填寫問卷,如果選取的學(xué)生入學(xué)年限過長,信息會遺失且可用的樣本數(shù)會少,滯留生會隨著時間的延長逐漸畢業(yè),失去統(tǒng)計(jì)分析的意義[5],根據(jù)學(xué)生首次滯留來收集信息,一位學(xué)生多學(xué)期滯留則不重復(fù)進(jìn)入樣本。
利用電大教學(xué)點(diǎn)管理平臺的“相關(guān)查詢”“學(xué)籍相關(guān)查詢”“教學(xué)點(diǎn)人數(shù)統(tǒng)計(jì)報(bào)表”統(tǒng)計(jì)出每個招生季的本科生數(shù)目,利用電大打印平臺的“畢業(yè)審核”“畢業(yè)申請花名冊”可以得出每學(xué)期的畢業(yè)人數(shù),根據(jù)下載報(bào)表中的學(xué)號,剔除往季的滯留生,即不在樣本內(nèi)的三個季的學(xué)生,就是各季首次畢業(yè)的學(xué)生數(shù)。招生人數(shù)減首次畢業(yè)的學(xué)生數(shù),即為樣本各季滯留學(xué)生數(shù)。根據(jù)平臺統(tǒng)計(jì)本研究應(yīng)該得到的滯留生樣本數(shù)據(jù)是452條,三季招生總數(shù)為876人,滯留率=滯留生樣本數(shù)/樣本總數(shù),本研究的滯留率為51.5%。
(二)數(shù)據(jù)整理
通過走訪分校內(nèi)涉及樣本班級的所有班主任,填寫問卷,在452條的數(shù)據(jù)樣本里,離世1人,明確表示退學(xué)者25人,缺新華社采像照片4人,因特殊數(shù)據(jù)較少,不納入觀察,滯留生樣本還有422人。筆者將觀察樣本分為兩類:一類學(xué)分已滿延期申請學(xué)位的滯留生,二類學(xué)分不滿的滯留生,分別研究造成滯留的原因。根據(jù)宣城廣播電視大學(xué)教務(wù)管理檔案,三個招生季中,一類有77人,全部納入觀察;二類中去除離世和退學(xué)者,將余下的345人納入觀察。
根據(jù)筆者十余年在開放教育一線的工作實(shí)踐,本研究在一類問卷中,將班級、畢業(yè)設(shè)計(jì)/論文、學(xué)位課程、學(xué)位英語、時間因素、地點(diǎn)因素、學(xué)習(xí)體驗(yàn)、主動學(xué)習(xí)效果作為觀測值,旨在通過數(shù)據(jù)分析得出最能影響學(xué)生申請學(xué)位的關(guān)鍵點(diǎn)和主要原因。在二類問卷中,項(xiàng)目組將班級、畢業(yè)設(shè)計(jì)/論文、教育部網(wǎng)考、網(wǎng)上作業(yè)、傳統(tǒng)筆試作為觀測值。
問卷在數(shù)據(jù)化的過程中,班級分別為3、2、1來為13秋季班、13春季班、12秋季班取值,其他觀察量用1表示此觀察量“已通過”或“被該觀測量影響”。本研究中設(shè)計(jì)的觀測體系如下表所示:
表1 開放教育滯留生觀測體系
本研究針對研究的兩類對象分別采用了不同的觀測指標(biāo),這是由于學(xué)分已滿和學(xué)分未滿的根本性差別,這樣更能從不同角度分析滯留原因。
本研究的數(shù)據(jù)采用統(tǒng)計(jì)軟件IBM SPSS 22.0進(jìn)行K-means聚類分析[6-7]。
(一)一類滯留生分析
根據(jù)聚類分析的步驟,項(xiàng)目組根據(jù)研究目標(biāo)將除班級外的7個指標(biāo)全部納入觀測,考察各個變量的影響程度,標(biāo)簽觀測量選定為專業(yè)班級,迭代最大次數(shù)設(shè)置為10,根據(jù)主要影響學(xué)分已滿學(xué)生滯留原因主要有學(xué)位課程、畢業(yè)設(shè)計(jì)和學(xué)位外語,筆者將數(shù)據(jù)聚為三類,統(tǒng)計(jì)的結(jié)果要求顯示初始聚類中心、方差分析表和每個觀測量的聚類信息,結(jié)果見表2。
表2 一類滯留生最終聚類中心距離最終聚類中心之間的距離
從表2可以看出,聚類中心之間的距離還是比較大的,分類的結(jié)果較理想。
表3 一類滯留生最終聚類中心最終聚類中心
表4 一類滯留生個案分布每個聚類中的個案數(shù)量
從最終的聚類中心看出,學(xué)生三項(xiàng)申請學(xué)位的條件均未達(dá)到時,主要因?yàn)榫嚯x因素和學(xué)習(xí)體驗(yàn)因素造成的,當(dāng)距離成為主要原因,學(xué)生不能到學(xué)校參加學(xué)習(xí),學(xué)習(xí)體驗(yàn)自然不如意。根據(jù)統(tǒng)計(jì)結(jié)果顯示,這類學(xué)生有17人;學(xué)生的學(xué)位英語未通過而畢業(yè)設(shè)計(jì)和學(xué)位課程通過者,主要影響因素為主動學(xué)習(xí)效果。主動學(xué)習(xí)效果不好可以理解為自學(xué)效果不佳或本身基礎(chǔ)比較薄弱,這類學(xué)生有42人,在整個群體中占較大比重,可見學(xué)位英語對申請學(xué)位影響較大;在第三個聚類中,畢業(yè)設(shè)計(jì)影響比較的學(xué)生有18人,由此比較可知,畢業(yè)設(shè)計(jì)的影響程度比學(xué)位英語影響程度較弱。
(二)二類滯留生分析
同一類滯留生分析過程一樣,項(xiàng)目組將除班級外的4個指標(biāo)全部納入觀測,標(biāo)簽觀測量選定為專業(yè)班級,迭代最大次數(shù)設(shè)置為10,筆者將數(shù)據(jù)聚為三類,統(tǒng)計(jì)的結(jié)果要求顯示初始聚類中心、每個觀測量的聚類信息。
表5 二類滯留生最終聚類中心最終聚類中心
表6 二類滯留生個案分布每個聚類中的個案數(shù)量
從分析的結(jié)果上看,第二類滯留生聚類的346個樣本中,聚類2中的個案數(shù)量最多,248人。從最終的聚類中心可以看出,教育部統(tǒng)考影響因素最大。
本文研究了遠(yuǎn)程開放教育本科學(xué)生滯留的原因,按學(xué)分已滿和學(xué)分未滿兩類進(jìn)行分別分析,可以得出基本結(jié)論:學(xué)位英語成為申請學(xué)位者的最大障礙,教育部網(wǎng)考的兩門課中,其中一門是大學(xué)英語A或大學(xué)英語B,網(wǎng)考也是在學(xué)分未滿中的滯留生中占了相對較高的影響比重。根據(jù)基本數(shù)據(jù)分析的結(jié)果,我們可以建議教學(xué)管理部門可以針對英語這門課程多分配教學(xué)時間,也可以進(jìn)行相關(guān)的專門培訓(xùn)或集中輔導(dǎo)來解決這個問題。宣城電大在教育部網(wǎng)考方面多年來一直堅(jiān)持向?qū)W生提供考前強(qiáng)化輔導(dǎo)服務(wù),取得了一定的效果。
滯留生的大量存在,對辦學(xué)成本和教職人員分配也造成了較大的影響,尤其是跟滯留生最接近的班主任老師,給一線的電大教職員工帶來了大量的隱性工作量。這是學(xué)校的管理者值得重視的問題。
[1] 朱祖林,畢磊,齊新安,等.現(xiàn)代遠(yuǎn)程教育輟學(xué)率的挖掘分析:基于安徽地區(qū)1999-2009年數(shù)據(jù)[J].遠(yuǎn)程教育雜志,2011(4):18-26.
[2] 畢悅.遠(yuǎn)程開放教育學(xué)生滯留率問題研究[J].科教文匯,2014(4):91-92.
[3] 韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012:316-320.[4] 王海濤.常用數(shù)據(jù)挖掘算法研究[J].電子設(shè)計(jì)工程,2011(19):90-91.
[5] 張琳琳.電大開放教育遺留生問題研究綜述[J].北京廣播電視大學(xué)學(xué)報(bào),2012(2):30-32.
[6] 張文彤,鄺春偉.SPSS統(tǒng)計(jì)分析基礎(chǔ)教程[M].北京:高等教育出版社,2015:32-33.
[7] 謝龍漢,尚濤.SPSS統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2014:231-239.
[責(zé)任編輯 李潛生]
On the Retention Students of Distance Open Education Based on the Clustering Analysis——Taking Xuancheng Branch for Example
QU Hua-li,FAN Xiu-long
(Xuancheng Branch,Anhui Radio and TV University, Xuancheng Anhui 242000, China)
By using the K-means clustering analysis in the existing mining technology, the paper analyzes the data of the retention students of distance open education. Based on the data of two types of the retention students and the differences of the retention nature, different observed variables are set up. The key factors causing the retention are found by adopting the K-means clustering analysis and then dividing the centers of clustering.
data mining; clustering; retention students
2016-05-19
安徽廣播電視大學(xué)青年教師科研基金(項(xiàng)目編號:qn15-18)。
瞿華禮(1980-),女,安徽霍邱人,講師。研究方向:數(shù)據(jù)挖掘。
G728;TP311
A
1008-6021(2016)04-0057-03