葉惠仙
摘 要: 在大數(shù)據(jù)的今天,Python豐富的工具包在科學(xué)計(jì)算、文件處理、數(shù)據(jù)可視化等領(lǐng)域越來越凸顯其價(jià)值。使用Python對(duì)學(xué)院招生的生源地信息數(shù)據(jù)進(jìn)行篩選,清洗,統(tǒng)計(jì)、分析得到可視化圖像數(shù)據(jù)。通過這些數(shù)據(jù),采用算法對(duì)下一年學(xué)院招生數(shù)進(jìn)行預(yù)測,給招生管理提供數(shù)據(jù)支持,也為學(xué)院長遠(yuǎn)的招生規(guī)劃提供參考。
關(guān)鍵詞: Python; 招生; 生源地; 算法; 行為預(yù)測
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2018)11-102-05
Abstract: In big data's today, Python's rich toolkits are increasingly highlighting their value in areas such as scientific computing, file processing, and data visualization. Use Python to filter, clean, statistical, and analyze the data of the students' enrollment information to obtain visual image data. With these data, algorithm is used to predict the number of college enrollment in the next year, providing data support for enrollment management, and also providing reference for the college's long-term enrollment plan.
Key words: Python; enrollment; student source; algorithm; behavior prediction
0 引言
Python是目前市面上用于大數(shù)據(jù)分析的優(yōu)先選擇,Python數(shù)據(jù)分析功能強(qiáng)大、全面,從數(shù)據(jù)抽取、收集整理、分析挖掘及展示,都可以在同一種 Python里實(shí)現(xiàn),避免了開發(fā)程序的切換,Python的數(shù)據(jù)挖掘能力和產(chǎn)品構(gòu)建能力兼而有之,是跨平臺(tái)且開源的技術(shù)、成本又小。南大教育基金會(huì)通過數(shù)據(jù)分析出被受資助的學(xué)生對(duì)像,就直接將補(bǔ)款打入學(xué)生餐卡,而學(xué)生無需填表,不用審核,而避免了“假”貧困生;Knewton利用大數(shù)據(jù)分析來幫助學(xué)生設(shè)計(jì)個(gè)性化課程,讓課程和教科書能夠適應(yīng)每個(gè)學(xué)生的差異,學(xué)生可以按照自己的節(jié)奏來控制學(xué)習(xí)進(jìn)度,面不受到周圍其他學(xué)生的行業(yè)影響[1]。
大數(shù)據(jù)正在成為促進(jìn)組織創(chuàng)新、產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)發(fā)展的強(qiáng)大驅(qū)動(dòng)力。其中,教育領(lǐng)域被認(rèn)為是一個(gè)大數(shù)據(jù)的重要應(yīng)用領(lǐng)域,研究大數(shù)據(jù)應(yīng)用與教育領(lǐng)域的深度融合,是我國教育發(fā)展的現(xiàn)實(shí)需求和未來趨勢。
1 Python在數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)時(shí)代,通過數(shù)據(jù)分析挖掘數(shù)據(jù)的價(jià)值,Pythony就是很好的選擇,它包含了Numpy、Pandas、Matplotlib、Scipy 、Ipython等主要數(shù)據(jù)分析庫,當(dāng)掌握并熟悉了這些數(shù)據(jù)分析庫的使用方法后,對(duì)于一個(gè)幾千萬行的csv數(shù)據(jù)的處理用Pandas只需要不到十秒,而且使用的代碼行更少[2]。大數(shù)據(jù)技術(shù)將要做的數(shù)據(jù)及面臨的問題定義為測量、收集、分析和報(bào)告,從而對(duì)招生資源以及安排力度進(jìn)行重新調(diào)整,對(duì)歷年在招生過程中產(chǎn)生的海量數(shù)據(jù)進(jìn)行解釋和分析,以評(píng)估學(xué)院進(jìn)展,預(yù)測未來表現(xiàn),發(fā)現(xiàn)潛在的問題,大數(shù)據(jù)實(shí)質(zhì)上是對(duì)應(yīng)用者在應(yīng)用過程中所產(chǎn)生的海量數(shù)據(jù)進(jìn)行系統(tǒng)性的分析,以實(shí)現(xiàn)掌握規(guī)律及預(yù)測行為表現(xiàn)的目的。本文采用的技術(shù)路線如圖1所示。
2 基于python的學(xué)院招生生源地大數(shù)據(jù)分析
伴隨近8年來全國高考報(bào)名人數(shù)總體的下降,錄取規(guī)模的持續(xù)增加,錄取率呈快速增長態(tài)勢,隨著高校錄取率的不斷提高,延緩了高考參與人數(shù)下降的造成的影響,錄取率是有上線的,從2020年開始每年100%的入學(xué)率,也很難再保持每年700萬以上的大學(xué)畢業(yè)生數(shù)量了。那么也就意味著學(xué)校招生供應(yīng)總量也會(huì)很快下降,以后不僅社會(huì)招生難度在加大,學(xué)校招生也會(huì)進(jìn)入到白熱化。未來10年,對(duì)生源的爭奪會(huì)愈演愈烈,所以要對(duì)生源地?cái)?shù)據(jù)分析提前布局,了解我院生源分布情況,在提高學(xué)院自身的辦學(xué)水平的同時(shí)開展長遠(yuǎn)的招生規(guī)劃[3]。
當(dāng)前福建省高考生源正也呈現(xiàn)下降的趨勢如表1所示。家長和考生都更加傾向于知名度高的名牌高校,高校尤其是農(nóng)林院校之間的生源競爭正在日趨白熱化,招生工作面臨著各種各樣的挑戰(zhàn),學(xué)生的個(gè)性化選擇與高校傳統(tǒng)專業(yè)設(shè)置之間的不匹配導(dǎo)致很多專業(yè)無人問津,學(xué)生錄取后不報(bào)到的現(xiàn)象日益嚴(yán)重。如何在這場巨大的、徹底的、顛覆性的變革中有效地利用大數(shù)據(jù)發(fā)掘招生數(shù)據(jù)的相關(guān)性,尋找到招生的新途徑,使高校招生工作更具有實(shí)效性與科學(xué)性?,F(xiàn)對(duì)我院 2010、2011、2012、2013、2014、2015、2016、2017年所有入學(xué)新生相關(guān)數(shù)據(jù)進(jìn)行分析,并從中發(fā)現(xiàn)規(guī)律并找到有用的信息,用來掌握本院的招生宣傳方式的側(cè)重點(diǎn)。表1為我省2010年—2018年高考考生數(shù)。
本文基于python的學(xué)院招生生源地大數(shù)據(jù)分析—以福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院為例,在學(xué)院歷年招生信息數(shù)據(jù)中,使用Python工具作為數(shù)據(jù)分析與挖掘軟件,分析學(xué)生報(bào)到的高考生源地各地區(qū)報(bào)名情況,把生源地形成圖例進(jìn)行對(duì)比與分析。
2.1 用python來做我校招生數(shù)據(jù)的科學(xué)分析
在眾多的數(shù)據(jù)中,python提供了功能強(qiáng)大的三大模塊:Numpy、Pandas以及Matplotlib。numpy提供了多維數(shù)組對(duì)象 ndarray,能直接對(duì)數(shù)組執(zhí)行數(shù)學(xué)和元素級(jí)別的運(yùn)算;Pandas主要提供快速便捷地處理結(jié)構(gòu)化數(shù)據(jù)的大量數(shù)據(jù)結(jié)構(gòu)和函數(shù)。matplotlib用于繪制數(shù)據(jù)圖表, ipython能夠極大提高python的編程速度,還用于交互式數(shù)據(jù)處理。Scipy內(nèi)有用于解決科學(xué)計(jì)算中各種標(biāo)準(zhǔn)問題域的各種包[4],本文用到的是ipython的Jupyter Notebook作為IDE。提取出所需的數(shù)據(jù),并將它可視化。
2.1.1 讀取我校原始數(shù)據(jù)
如圖2為我校招生原始的EXCEL格式的一部分?jǐn)?shù)據(jù),對(duì)我校自2010年至2017年在福建省各城市及省外的招生人數(shù)、各年招生總?cè)藬?shù)進(jìn)行讀取。首先導(dǎo)入matplotlib、pandas、numpy模塊,讀取數(shù)據(jù)代碼,代碼如下:
#coding:utf-8
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import string
from pylab import *
df=pd.read_csv('data.csv',delimiter=',')
df.columns=['num','name','sex','addre','mail','tele',
'address','major','colle']
2.1.2 讀取數(shù)據(jù)代碼
def city(cy):
num=0
bools=[]
for i in df.addre:
if i.find(cy)!=-1:
bools.append(True)
else:
bools.append(False)
a=df [bools]
for x in list(a['addre']):
if cy in x:
num+=1
return num
2.1.3 以地區(qū)城市為判斷進(jìn)行篩選、計(jì)算并用可視化實(shí)現(xiàn)
mpl.rcParams['font.sans-serif']=['SimHei']
plt.style.use('ggplot')
plt.figure(figsize=(24,12))
plt.plot(x,y),
plt.xlabel(u'地區(qū)')
plt.ylabel(u'人數(shù)')
plt.title(u'各城市招生情況')
plt.legend()
plt.title(u'招生人數(shù)')
plt.ylabel(u'人數(shù)')
plt.xlabel(u'年份')
plt.bar(x,y,fc='c')
結(jié)果如圖4所示:
由圖4可知,在每年的招生人數(shù)中,福州地區(qū)的人數(shù)近幾年來都是最多,而廈門與省外的人數(shù)都較少,原因可能是我校處于距福州市區(qū)40公里的南郊相思嶺校區(qū)及在市區(qū)內(nèi)另有一個(gè)校區(qū)的原因,地理位置在招生中起到了一定的相對(duì)優(yōu)勢,離家里近,假期回家方便;從這個(gè)因素就可得出在招生力度上這兩個(gè)區(qū)域應(yīng)為重點(diǎn);而廈門的人數(shù)少,可能是因?yàn)閺B門本身在經(jīng)濟(jì)上與福州不相上下,且又是個(gè)旅游城市。省外的招生人數(shù)較少,原因可能是高職校是普通的院校,若是普通專業(yè)特色性又不強(qiáng),吸引外省的考生的誘因就沒那么強(qiáng),故也是招生人較少的原因。 泉州、漳州與南平這三個(gè)市區(qū)報(bào)考的人數(shù)相當(dāng),我市泉州,漳州是良好的水果生產(chǎn)基地,如平和的蜜柚,莆田的枇杷,龍眼都極具代表性。南平地區(qū)的食用菌,蓮子等農(nóng)業(yè)類的生產(chǎn)也極具特色,這也利于農(nóng)業(yè)院校招生。故這三個(gè)地區(qū)是我院招生宣傳的重點(diǎn)所在。
2.2 對(duì)2018年生源地招生人數(shù)預(yù)測
Python為我們提供了一個(gè)機(jī)器學(xué)習(xí)模塊:sklearn,scikit-learn是Python的一個(gè)開源機(jī)器學(xué)習(xí)模塊,它建立在Numpy、Pandas、Scipy和matplotlib模塊之上能夠?yàn)橛脩籼峁└鞣N機(jī)器學(xué)習(xí)算法接口,可以讓用戶簡單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。本次預(yù)測采用KNN算法加樸素貝葉斯算法。
2.2.1 KNN算法
K最近鄰(k-Nearest Neighbor,KNN)分類算法,當(dāng)測試對(duì)象的屬性和某個(gè)訓(xùn)練對(duì)象的屬性完全匹配時(shí),便可以對(duì)其進(jìn)行分類。KNN是通過測量不同特征值之間的距離進(jìn)行分類。它的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于該類別,其中K通常是不大于10的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象[5]。該方法在定義類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。在KNN中,通過計(jì)算對(duì)象間距離作為各個(gè)對(duì)象之間的非相似性指標(biāo),避免了對(duì)象之間的匹配問題,在這里距離使用曼哈頓距離公式如公式⑴所示:
同時(shí),KNN通過依據(jù)K個(gè)對(duì)象中占優(yōu)的類別進(jìn)行決策,而不是單一的對(duì)象類別決策。
2.2.2 樸素貝葉斯分類算法
貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。而樸素貝葉斯分類是貝葉斯分類中最見的一種分類方法。它依據(jù)研究對(duì)象的某些特征來推斷出該研究對(duì)象屬于該研究領(lǐng)域的哪個(gè)類別[6]。樸素貝葉斯分類算法它的核心是貝葉斯公式如公式⑵所示:
同時(shí)樸素貝葉斯能多處理多分類任務(wù),適合增量式訓(xùn)練,尤其是數(shù)據(jù)量超出內(nèi)存時(shí),可以一批批的去增量訓(xùn)練。
from sklearn import neighbors
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
導(dǎo)入算法庫代碼
for i in df.city:
city_num[]
num_d[]
city_num_g[]
num_d_g[]
knn=neighbors.KNeighborsClassifier()
train_x=[]
train_y=[]
test_x=[]
test_y=[]
cou=int(len(city_num))
train_x=city_num[0:cou]
train_y=num_d[0:cou]
test_x=city_num[cou:]
test_y=num_d[cou:]
train_x1=city_num1[0:cou]
train_y1=num_d[0:cou]
test_x1=city_num1[cou:]
test_y1=num_d[cou:]
設(shè)置訓(xùn)練集代碼
if sum(tra1)/len(tra1)>=9:
print '學(xué)院在'+ `i`+'招生300人以上的機(jī)率為90%~100%‘
elif sum(tra1)/len(tra1)>=8:
print '學(xué)院在'+`i`+'招生300人以上的機(jī)率為80%~89%‘
elif sum(tra1) / len(tra1)>=7:
print '學(xué)院在'+`i`+'招生300人以上的機(jī)率為70%~89%‘
elif sum(tra1) / len(tra1)>=6:
print '學(xué)院在'+`i`+'招生300人以上的機(jī)率為60%~69%'
else:
print '學(xué)院在'+`i`+'招生300人以上的機(jī)率很小
print '學(xué)院2018年招生的人數(shù)為‘+n+以上
2018我院生源地招生信息情況與招生總數(shù)預(yù)測代碼結(jié)果如下:
學(xué)院在福州招生300人以上的機(jī)率為90%~100%
學(xué)院在泉州招生300人以上的機(jī)率為90%~100%
學(xué)院在莆田招生300人以上的機(jī)率為60%~69%
學(xué)院在廈門招生300人以上的機(jī)率很小
學(xué)院在三明招生300人以上的機(jī)率為90%~100%
學(xué)院在龍巖招生300人以上的機(jī)率為60%~69%
學(xué)院在漳州招生300人以上的機(jī)率為70%~79%
學(xué)院在南平招生300人以上的機(jī)率為80%~89%
學(xué)院在寧德招生300人以上的機(jī)率為90%~100%
學(xué)院在外省招生300人以上的機(jī)率很小
學(xué)院2018年招生的人數(shù)為2350以上。
由此可見,學(xué)院由于地處福州,一些經(jīng)濟(jì)較落后的城市考生,會(huì)有較大的機(jī)率選擇。福州省會(huì)城市的地理位置是吸引考生的原因之一,學(xué)院可在莆田、龍巖和廈門加強(qiáng)宣傳。而對(duì)于外省,由于地理位置及學(xué)院本身是高職院校,知名度及影響力不足,故招生人數(shù)相對(duì)較少且是一種常態(tài),則可從學(xué)院辦學(xué)理念及創(chuàng)新模式上提高省外考生報(bào)考量。而對(duì)于泉州,漳州,南平,寧德等地區(qū)需要常態(tài)化的招生宣傳。
3 大數(shù)據(jù)分析在教育方面展望
高校招生工作應(yīng)借助各種信息平臺(tái)的力量實(shí)現(xiàn)借力打力,更應(yīng)該把數(shù)據(jù)信息收集及處理放在首要位置,助力于高校推廣宣傳、計(jì)劃投放、專業(yè)設(shè)置、學(xué)生錄取等招生過程的改進(jìn)。
學(xué)院招生規(guī)模能促進(jìn)學(xué)校與生源、企業(yè)用人單位的雙向溝通,增強(qiáng)學(xué)校向心力和凝聚力,塑造優(yōu)秀的學(xué)校文化。不少院校采取自主招生的辦法,在當(dāng)下有“二元制”招生模式,這樣做容易將生源融入到校園文化,因?yàn)閷W(xué)校文化是學(xué)校的靈魂,它是一種以價(jià)值觀為核心對(duì)全體師生進(jìn)行學(xué)校意識(shí)教育的微觀文化體系[7]。學(xué)校管理人員和生源認(rèn)同學(xué)校文化,不僅會(huì)自覺學(xué)習(xí)掌握科技知識(shí)和技能,而且會(huì)增強(qiáng)主人翁意識(shí)、質(zhì)量意識(shí)、創(chuàng)新意識(shí)。從而培養(yǎng)大家的敬業(yè)精神、革新精神和社會(huì)責(zé)任感,形成上上下下自學(xué)科技知識(shí),自覺發(fā)明創(chuàng)造的良好氛圍.故高職院校招生工作還可以從以下幾個(gè)方面進(jìn)行改進(jìn)。
⑴ 高職院校擴(kuò)大招生計(jì)劃和轉(zhuǎn)變辦學(xué)模式。
⑵ 完善招生制度,提升招生效率的策略。
⑶ 增強(qiáng)高職院校自身內(nèi)涵建設(shè)。
⑷ 根據(jù)專業(yè)設(shè)置進(jìn)行單獨(dú)招生。
⑸ 加強(qiáng)就業(yè)指導(dǎo),以就業(yè)促招生。
⑹ 突出職業(yè)特色,深化教育教學(xué)改革,明確學(xué)校發(fā)展定位。
通過大數(shù)據(jù)進(jìn)行招生分析,能夠?yàn)槊恳凰盒?chuàng)設(shè)一個(gè)量身定做的環(huán)境和個(gè)性化的招生規(guī)程,還能創(chuàng)建一個(gè)早期預(yù)警系統(tǒng)以發(fā)現(xiàn)潛在的風(fēng)險(xiǎn),為學(xué)院的多年招生提供一個(gè)富有挑戰(zhàn)性而非減少的招生規(guī)模。因此,有識(shí)之士預(yù)言未來的學(xué)院招生也將是大數(shù)據(jù)驅(qū)動(dòng)的新時(shí)代。我們應(yīng)該積極迎接這個(gè)新時(shí)代,感知和記錄更大規(guī)模和更多種類的數(shù)據(jù),并且通過對(duì)這些數(shù)據(jù)的分析和處理,深度挖掘蘊(yùn)含其中的核心價(jià)值。
4 總結(jié)
本文從應(yīng)用視角出發(fā)詮釋Python的概念內(nèi)涵,通過梳理,把握大數(shù)據(jù)在教育領(lǐng)域應(yīng)用的態(tài)勢。在實(shí)踐解析方面,結(jié)合我院歷年校招生信息數(shù)據(jù),實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用驅(qū)動(dòng)下的我院招生生源地?cái)?shù)據(jù)分析。大數(shù)據(jù)招生數(shù)據(jù)的分析應(yīng)用遠(yuǎn)不止這些,可對(duì)學(xué)生報(bào)到率做出分析,可對(duì)區(qū)域生源做出分析,可對(duì)報(bào)考院校原因進(jìn)生分析,本文只從報(bào)考考生生源地一個(gè)角度利用Python來分析我院學(xué)生生源地情況,以及預(yù)測我院的招生人數(shù)。進(jìn)而找到今后招生工作的宣傳重點(diǎn),及發(fā)現(xiàn)可挖掘數(shù)據(jù)。這些應(yīng)用只是大數(shù)據(jù)應(yīng)用的冰山一角,今后可從多個(gè)角度對(duì)學(xué)院的招生,管理及其他方面用大數(shù)據(jù)技術(shù)分析提取更多有關(guān)于教育的信息,為學(xué)校的發(fā)展貢獻(xiàn)微薄之力。
參考文獻(xiàn)(References):
[1] 聶晶.Python在大數(shù)據(jù)挖掘和分析中的應(yīng)用優(yōu)勢[J].廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2018.1(24).
[2] 劉海濤,林燕妮.大數(shù)據(jù)時(shí)代語言研究的方法和趨向[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2018.39(1):72-83
[3] 鄧廣彪.預(yù)測性大數(shù)據(jù)分析在高校招生中的應(yīng)用研究[J].微型電腦應(yīng)用,2017.33(11)
[4] 朝樂門,邢春,曉張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢[J].計(jì)算機(jī)科學(xué),2018.1:1-13
[5] 陳偉,李紅,王維.一種基于Python的K-means聚類算法分析[J].數(shù)字技術(shù)與應(yīng)用,2017.10:118-119
[6] MatchingTools: A Python library for symbolic effective field theory calculations Juan C. Criado Computer Physics Communications,2018.227.
[7] 韓志豪.人工智能背景下的Python教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2018.7:76-81