楊 超
(遼寧民族師范高等??茖W(xué)校 民族文化與職業(yè)教育系,遼寧 沈陽 110032)
學(xué)生成績(jī)作為檢驗(yàn)教師教學(xué)效果的產(chǎn)物,直接反映學(xué)生對(duì)知識(shí)的掌握情況及教師的教學(xué)水平.近些年,有關(guān)教學(xué)的探索更多關(guān)注于新的教學(xué)手段,針對(duì)教學(xué)效果的分析,尤其是有關(guān)分析方法的研究較少.隨著人工智能和大數(shù)據(jù)時(shí)代的到來,為教師利用數(shù)據(jù)統(tǒng)計(jì)分析手段,從大量的學(xué)生成績(jī)中提取重要數(shù)據(jù),發(fā)現(xiàn)成績(jī)中隱藏的問題,提高學(xué)生成績(jī),提供了新的思路.本文中嘗試引入R語言對(duì)學(xué)生成績(jī)進(jìn)行統(tǒng)計(jì)分析[1-3],為教學(xué)人員探索新的統(tǒng)計(jì)方法提供參考.
數(shù)據(jù)分析是指采用合適方法對(duì)從海量數(shù)據(jù)中收集的大量數(shù)據(jù)進(jìn)行分析、整理、歸納,抽取有價(jià)值的信息的過程.R語言作為一種強(qiáng)大的編程語言,不僅可提供大量多樣的數(shù)據(jù)統(tǒng)計(jì)分析方式,還可生成圖例,其主要特點(diǎn)有:
(1)開源免費(fèi)的軟件可從官網(wǎng)下載,安裝簡(jiǎn)單快捷,而且其強(qiáng)大的R語言包均可根據(jù)需要從網(wǎng)上下載,支持多操作系統(tǒng)環(huán)境;
(2)具有強(qiáng)大可自定義樣式的繪圖功能,可利用函數(shù)將統(tǒng)計(jì)分析的計(jì)算數(shù)據(jù)生成想要的圖,并根據(jù)修改函數(shù)中的參數(shù),自定義圖樣式;
(3)操作流程簡(jiǎn)單,無需編寫大量代碼,用戶只要了解所需函數(shù)的參數(shù)意義,即可生成對(duì)應(yīng)圖例.
數(shù)據(jù)源是R語言進(jìn)行統(tǒng)計(jì)分析的核心資源.考慮到大學(xué)課程成績(jī)存在一定主觀性,相比之下小學(xué)期末考試更嚴(yán)格、更真實(shí),成績(jī)趨于客觀,因此本研究選擇沈陽市某小學(xué)四年級(jí)期末考試成績(jī)作為數(shù)據(jù)源進(jìn)行統(tǒng)計(jì)分析.
根據(jù)教學(xué)人員的需要,從眾多列成績(jī)中選取主要數(shù)據(jù)信息,包括序號(hào)(num)、姓名(name)、班級(jí)(class)、數(shù)學(xué)(math)、語文(chn)、英語(eng),將收集的數(shù)據(jù)存為.xls文件或.csv文件.收集數(shù)據(jù)時(shí),出現(xiàn)的缺失值可刪除或按空缺值等方式處理.
R語言支持.xls、.csv和.txt等多種文件類型導(dǎo)入.導(dǎo)入文件前需要加載對(duì)應(yīng)的R語言包,編寫代碼時(shí)需將導(dǎo)入文件賦值給變量,導(dǎo)入的變量類型以數(shù)據(jù)框形式存在.本文以導(dǎo)入.xls文件為例,利用R語言read_excel()函數(shù)實(shí)現(xiàn)導(dǎo)入代碼如下:
library(read_excel)
scores<- read_excel(scoresdata.xlsx)
導(dǎo)入后查看數(shù)據(jù),見圖1.
數(shù)據(jù)共105行,查看變量?jī)?nèi)容時(shí)R語言僅顯示10行,隱藏95行.每列除顯示導(dǎo)入數(shù)據(jù)時(shí)填寫的列名外,還顯示屬性類型,其中name為字符型,其余均為數(shù)據(jù)框.
讀入數(shù)據(jù)后,需對(duì)有用數(shù)據(jù)進(jìn)行提取運(yùn)算.例如,在統(tǒng)計(jì)分析成績(jī)時(shí),姓名、序號(hào)、班級(jí)等屬性不應(yīng)參加統(tǒng)計(jì)分析,但無這些屬性就無法進(jìn)行歸類統(tǒng)計(jì)分析,在眾多數(shù)據(jù)中提取所要數(shù)據(jù),可應(yīng)用R語言中c()函數(shù)將所需數(shù)據(jù)連接在一起,通過如下代碼提取數(shù)據(jù):
> scores.data <- scores[c(4:6)]
> scores.data
“scores[c(4:6)]”表示提取scores變量中4~6列的數(shù)據(jù)賦值給變量scores.data.
學(xué)生成績(jī)是反映教學(xué)成果的客觀數(shù)據(jù).目前,大多數(shù)學(xué)校采取Excel錄入、匯總、計(jì)算的方式管理與分析學(xué)生成績(jī),雖能計(jì)算出需要的最終數(shù)據(jù),但是缺乏對(duì)成績(jī)的客觀分析與直觀反映.針對(duì)這一問題,本文提出了基于R語言的統(tǒng)計(jì)分析方法以提高教學(xué)效果[4-6].
3.1.1 統(tǒng)計(jì)成績(jī)信息
傳統(tǒng)數(shù)據(jù)計(jì)算一般通過Excel表格分列對(duì)各科進(jìn)行求和、求平均值、求最大值和最小值的分類計(jì)算,工作略顯繁瑣.這里以沈陽某小學(xué)四年級(jí)成績(jī)?yōu)槔瑢?3名學(xué)生成績(jī)導(dǎo)入R語言環(huán)境中,導(dǎo)入的數(shù)據(jù)變量以數(shù)據(jù)框的形式存在.R語言可通過summary()函數(shù)完成各科成績(jī)的初步計(jì)算,實(shí)現(xiàn)代碼如下:
summary(scores[c(4:6)])
生成的計(jì)算數(shù)據(jù)見圖2.
通過生成數(shù)據(jù)可直觀看到,在整個(gè)四年級(jí)數(shù)學(xué)、語文和英語三科考試成績(jī)中,除最大值、最小值和平均值外,還計(jì)算出科目成績(jī)的中間值(Median)、1/4位數(shù)(1st Qu.)和3/4位數(shù)(3st Qu.),為分析、了解學(xué)生整體情況提供了便捷的數(shù)據(jù)計(jì)算服務(wù),提高了教學(xué)決策的準(zhǔn)確性.
3.1.2 繪制成績(jī)箱形圖
為更加直觀地向決策者提供數(shù)據(jù)依據(jù),R語言boxplot()函數(shù)可根據(jù)導(dǎo)入的成績(jī)數(shù)據(jù)生成箱形圖,即根據(jù)數(shù)據(jù)的分布情況生成統(tǒng)計(jì)圖.上述通過summary()函數(shù)計(jì)算出各科成績(jī)的重要屬性值,生成的箱形圖如圖3所示,實(shí)現(xiàn)運(yùn)行代碼如下:
boxplot(math~ class, data=scores)
boxplot(chn ~ class, data=scores)
boxplot(eng~ class, data=scores)
箱形圖將計(jì)算得到的描述性統(tǒng)計(jì)量進(jìn)行更直觀地展示.圖3中分別顯示各班級(jí)數(shù)學(xué)、語文、英語成績(jī)與班級(jí)的信息:長(zhǎng)方形外部的上下兩條橫線分別表示該班級(jí)的最高分和最低分,長(zhǎng)方形的上下邊框分別表示該班級(jí)成績(jī)的1/4位數(shù)(1st Qu.)和3/4位數(shù)(3st Qu.),長(zhǎng)方形內(nèi)部黑橫線表示該班級(jí)成績(jī)的中間數(shù),圖形中的空心白圓點(diǎn)表示異常數(shù)據(jù).除箱形圖規(guī)定的線形和圖形含義外,還可從圖形中看到隱藏的信息,例如長(zhǎng)方形的面積大小決定該班級(jí)本科目成績(jī)是否在某成績(jī)段集中,如果面積過大表示成績(jī)涉及范圍較大.
3.1.3 繪制成績(jī)直方圖
R語言的強(qiáng)大不僅體現(xiàn)在便捷的數(shù)據(jù)計(jì)算,還體現(xiàn)在可依據(jù)頻數(shù)生成可視的直方圖[7].根據(jù)導(dǎo)入的數(shù)學(xué)、語文和英語成績(jī),利用R語言的hist()函數(shù)、lines()函數(shù)和rug()函數(shù)生成整體成績(jī)直方圖,如圖4所示,運(yùn)行代碼如下:
hist(math, freq=FALSE)
lines(density(math), col='blue')
rug(jitter(math))
通過成績(jī)直方圖可直觀看出,橫坐標(biāo)為成績(jī)段,縱坐標(biāo)為密度,各科成績(jī)圖形及密度曲線由分?jǐn)?shù)段人數(shù)決定.數(shù)學(xué)成績(jī)除個(gè)別學(xué)生,大部分均已及格,并且在及格人數(shù)中很多學(xué)生的成績(jī)集中在85分以上,90分以上偏多;語文成績(jī)雖呈正態(tài)分布趨勢(shì),但是存在一些成績(jī)不及格的學(xué)生,大部分學(xué)生在65~90分之間,80分以上偏多;英語成績(jī)分布呈現(xiàn)兩極化,成績(jī)不及格和90分以上的均偏多,60~80分之間學(xué)生較少.
成績(jī)是檢驗(yàn)教學(xué)成果的重要指標(biāo).有效利用技術(shù)手段從大量的成績(jī)中發(fā)現(xiàn)科目之間的關(guān)聯(lián),挖掘隱藏信息,是提升成績(jī)、提高教學(xué)效果的重要方式.利用R語言cor()函數(shù),可從導(dǎo)入的數(shù)據(jù)中發(fā)現(xiàn)科目之間的相關(guān)性,為決策者提供分析依據(jù).運(yùn)行代碼如下:
cor(scores[,subjects])
生成的相關(guān)性數(shù)據(jù)見圖5.
通常認(rèn)為,數(shù)學(xué)成績(jī)好的小學(xué)生語文和英語的成績(jī)都不會(huì)很差.通過R語言各科成績(jī)的相關(guān)性分析看出,數(shù)學(xué)與語文、數(shù)學(xué)與英語的相關(guān)系數(shù)均超過了0.6,根據(jù)統(tǒng)計(jì)學(xué)的規(guī)定,相關(guān)系數(shù)區(qū)域0.6~0.8屬于有很強(qiáng)的相關(guān)性,說明在該年級(jí)中數(shù)學(xué)學(xué)得好的學(xué)生,其數(shù)學(xué)成績(jī)與語文成績(jī)、英語成績(jī)存在一定的相關(guān)性.通過R語言生成的成績(jī)相關(guān)性如圖6所示,運(yùn)行代碼如下:
pairs(scores[,subjects])
利用starts()函數(shù)可根據(jù)學(xué)生的成績(jī)生成星圖,教學(xué)人員通過星圖可直觀了解學(xué)生是否偏科、是否優(yōu)秀.本文中生成的星圖如圖7所示,運(yùn)行代碼如下:
stars(scores)
星圖一般表示多個(gè)相互獨(dú)立的變量個(gè)體,每個(gè)連接角與中心點(diǎn)的軸線越長(zhǎng),數(shù)值就越大,生成的星圖就越大,各科成績(jī)分別對(duì)著數(shù)據(jù)的維度.圖7中,第一排第二個(gè)學(xué)生、第二排第二個(gè)學(xué)生,以及第八排第二個(gè)到第七個(gè)學(xué)生,這些學(xué)生成績(jī)相對(duì)優(yōu)異;第三排第五個(gè)和最后一排第一個(gè)學(xué)生存在偏科問題.
R語言是對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的技術(shù)手段,從文中小學(xué)四年級(jí)成績(jī)統(tǒng)計(jì)分析結(jié)果來看,軟件的應(yīng)用既可滿足教學(xué)人員對(duì)數(shù)據(jù)的計(jì)算需求,也可生成直觀視圖為教學(xué)人員提供參考依據(jù),同時(shí)所生成的視圖還顯示了數(shù)據(jù)中的隱藏信息.從應(yīng)用與實(shí)際需求的角度來看,采用R語言統(tǒng)計(jì)分析學(xué)生成績(jī)的應(yīng)用策略可行,對(duì)教學(xué)未來發(fā)展方向起到一定指導(dǎo)作用.