羅加美, 牛 森, 安俊宇, 薛建新
(上海第二工業(yè)大學(xué) 計算機與信息工程學(xué)院,上海201209)
2018 年10 月,教育部發(fā)布的《深化本科教育教學(xué)改革相關(guān)意見》提出要建立健全本科生學(xué)業(yè)導(dǎo)師制度,讓符合條件的教師幫助學(xué)生制訂更具個性化的培養(yǎng)方案和學(xué)業(yè)生涯規(guī)劃。本科生學(xué)業(yè)導(dǎo)師制度,是對學(xué)生進行生涯規(guī)劃教育和引導(dǎo)[1]。
目前,在全員協(xié)同育人理念下,更加突顯學(xué)業(yè)導(dǎo)師制度意義重大。已有眾多的高等院校開展了學(xué)業(yè)導(dǎo)師制度,在專業(yè)的個性化培養(yǎng)學(xué)生方面有了顯著提升。當前,針對學(xué)業(yè)導(dǎo)師制度的研究主要集中在思想政治理論探討上,樊奔[2]結(jié)合自身實踐,針對目前高校本科生導(dǎo)師制度的人才培養(yǎng)效果,剖析了制度實施過程中存在的主要問題和困難,并提出了自己的觀點和理念。匙芳廷等[3]指出本科生導(dǎo)師制對大學(xué)生創(chuàng)新教育和實踐能力培養(yǎng)方面的優(yōu)點以及如何加強本科生導(dǎo)師制度建設(shè)的方法和手段;宋懷濤等[4]提出構(gòu)建突出專業(yè)價值的本科生導(dǎo)師制度培養(yǎng)模式,將本科生導(dǎo)師培養(yǎng)與專業(yè)的特點和學(xué)生的興趣相結(jié)合,培養(yǎng)學(xué)生的職業(yè)精神; 閆冬春等[5]提出了學(xué)業(yè)導(dǎo)師指導(dǎo)下的“三位驅(qū)動”生成實習(xí)模式,包括就業(yè)、考研和畢業(yè)論文的三位模式。然而,當前的研究還缺少確定的、可以量化的指標來衡量學(xué)業(yè)導(dǎo)師制度對學(xué)生成績帶來的積極影響。
2016 年上海第二工業(yè)大學(xué)開始出臺學(xué)業(yè)導(dǎo)師制度的相關(guān)實施辦法,至今已經(jīng)產(chǎn)生了充足的研究數(shù)據(jù)。對于學(xué)生成績而言,學(xué)業(yè)導(dǎo)師制度對其應(yīng)當具有積極作用,并可能對不同的學(xué)生群體產(chǎn)生不同的作用程度,如某學(xué)生對“數(shù)據(jù)結(jié)構(gòu)與算法”課程興趣頗深且獲得了好成績,那么他更大概率會對學(xué)業(yè)導(dǎo)師在該方面的指導(dǎo)更專注,從而在下學(xué)期的“算法設(shè)計與分析”課程中取得比無學(xué)業(yè)導(dǎo)師更高的成績。在此基礎(chǔ)上,通過分析引入學(xué)業(yè)導(dǎo)師制度前后智能科學(xué)與技術(shù)專業(yè)的某班級成績變化,提出了基于多元線性回歸的機器學(xué)習(xí)評價方法,對學(xué)生的成績進行預(yù)測分析,從而對學(xué)業(yè)導(dǎo)師制度的評價進行精確的量化。
通過多元線性回歸算法,將某幾門專業(yè)基礎(chǔ)課程成績作為特征數(shù)據(jù),訓(xùn)練模型預(yù)測此后開展的專業(yè)課程成績,其中特征中使用的課程發(fā)生時間早于標簽所使用的課程成績。因此,將未引入導(dǎo)師制度的成績作為訓(xùn)練集,引入導(dǎo)師制度的成績作為測試集。這里假設(shè)每門課的打分制度是一致的,又因為選入特征的課程為更早開展的課程,受導(dǎo)師制度影響小于或遠小于標簽所使用的課程,故訓(xùn)練集和測試集的特征基本是分布一致的。而標簽之間的分布區(qū)別主要受導(dǎo)師制度的影響,因此使用訓(xùn)練集得到的模型對測試集進行預(yù)測,預(yù)測值與真實值的差距即為導(dǎo)師制度的影響程度。最后,通過真實的班級成績數(shù)據(jù),可以證明學(xué)業(yè)導(dǎo)師制度在我校實施以來所取得的成效顯著。
多元線性回歸是線性回歸重要的組成部分,被廣泛應(yīng)用在眾多的科學(xué)研究中[6-8]。一般多元線性回歸模型的基本形式[9-10]為:
式中: y 為因變量; xi為自變量, i ∈(1,2,··· ,p),是數(shù)據(jù)的p 維屬性特征; wi為回歸系數(shù), i ∈(1,2,··· ,p), 其決定了因變量和自變量間的線性關(guān)系;b 為偏移誤差項。
對于一個具有n 組數(shù)據(jù),p 個維度特征的現(xiàn)實問題,此多元線性回歸模型可以寫成如下的矩陣形式:
在多元線性回歸模型求解過程中,利用最小二乘法對W 和B 進行參數(shù)的估計。若將w 和b 合并形成向量?w = (w;b),則矩陣X 就變成了最后一個元素恒為1 的n×(p+1)大小的矩陣,即為:
通過線性回歸模型的參數(shù)估計,分別對w 求導(dǎo),可得的如下公式:
為了分析學(xué)業(yè)導(dǎo)師制度對學(xué)生成績的影響程度,結(jié)合機器學(xué)習(xí)模型,提出了基于多元線性回歸的分析評價方法,如圖1 所示。
整個評價方法流程分為5 個階段,包括數(shù)據(jù)預(yù)處理、特征篩選、模型訓(xùn)練、交叉驗證和預(yù)測分析等。技術(shù)流程如下:
(1)數(shù)據(jù)預(yù)處理。由于部分課程學(xué)生缺考,原始數(shù)據(jù)中存在缺失值的情況。在此數(shù)據(jù)預(yù)處理階段,主要利用計算平均值的方式來補全缺失值。計算公式為
式中: ˉx 為缺失值;xi為數(shù)據(jù)中同一屬性值相同的完全變量。
(2)特征篩選。選出某一門課程,將其與預(yù)測的目標課程計算Pearson 相關(guān)系數(shù),得到對目標影響較大的課程作為特征數(shù)據(jù)集D。r 的計算公式如下:
式中: xi,yi分別代表X 和Y 數(shù)據(jù)的第i 條記錄;N表示記錄的個數(shù)。
(3)模型訓(xùn)練。利用2014、2015 年未引入學(xué)業(yè)導(dǎo)師的學(xué)生課程數(shù)據(jù),指定3 門專業(yè)課程作為目標,通過特征篩選,分別生成模型的訓(xùn)練集和測試集。然后,根據(jù)多元線性回歸模型的理論進行參數(shù)估計,得到回歸模型。
(4)交叉驗證。在交叉驗證階段,為了保證模型訓(xùn)練、參數(shù)評估的準確性,采用5 折交叉驗證方法,從而優(yōu)化模型的參數(shù)。
(5)預(yù)測分析。在訓(xùn)練好的回歸模型基礎(chǔ)上,對引入本科生學(xué)業(yè)導(dǎo)師制度的學(xué)生課程成績進行預(yù)測,進而去比較預(yù)測值和真實值之間的變化情況,從而評估學(xué)業(yè)導(dǎo)師制度的重要性程度。
圖1 基于多元線性回歸的機器學(xué)習(xí)評價方法流程Fig.1 The processes of evaluation method of machine learning based on multiple linear regression
使用了2014—2017 年我校引入本科生學(xué)業(yè)導(dǎo)師制度前后某班級學(xué)生的各科成績數(shù)據(jù), 其中2014、2015 年為未引入學(xué)業(yè)導(dǎo)師制度的成績數(shù)據(jù),2016、2017 年為引入學(xué)業(yè)導(dǎo)師制度后的成績數(shù)據(jù)。原始數(shù)據(jù)中包含了174 人,共36 門課程的成績。在特征篩選階段,選擇了7 門主要課程為目標,其中2014、2015 年為訓(xùn)練集共79 條數(shù)據(jù),2016、2017 年為驗證集共95 條數(shù)據(jù)。由于整體數(shù)據(jù)量較小,采用5 折交叉驗證來保證模型訓(xùn)練的有效性,并利用平均絕對誤差和均方根誤差來衡量模型訓(xùn)練的誤差。整個實驗過程利用Python3.7 語言進行編程,在anaconda 集成環(huán)境中進行開發(fā)實現(xiàn)。
將2014、2015 年的數(shù)據(jù)作為未引入導(dǎo)師制度時的訓(xùn)練集,同時將2016、2017 年的數(shù)據(jù)作為引入導(dǎo)師制度后的測試集,共使用3 組特征和標簽進行實驗分析。根據(jù)提出的機器學(xué)習(xí)分析框架,經(jīng)過數(shù)據(jù)預(yù)處理階段,在特征篩選階段,通過每個學(xué)生的課程成績,根據(jù)培養(yǎng)計劃中課程的聯(lián)系,利用Pearson相關(guān)系數(shù)計算得出“數(shù)據(jù)結(jié)構(gòu)與算法”“離散數(shù)學(xué)”“算法設(shè)計與分析”“概率論與數(shù)理統(tǒng)計”“模式識別”“人工智能”和“計算機組成原理”等7 門課程之間的相關(guān)系數(shù),如表1 所示。
根據(jù)表1 中的課程相關(guān)系數(shù),選擇相似度閾值≥0.4 為條件,進行特征數(shù)據(jù)的篩選。在此基礎(chǔ)上,在模型訓(xùn)練和模型驗證中作如下的實驗設(shè)置:
表1 課程間的相關(guān)系數(shù)表Tab.1 The correlation coefficient between courses
(1)利用“數(shù)據(jù)結(jié)構(gòu)與算法”“離散數(shù)學(xué)”和“概率論與數(shù)理統(tǒng)計”3 門課的成績作為特征,預(yù)測“算法設(shè)計與分析”的課程成績。
(2)利用“數(shù)據(jù)結(jié)構(gòu)與算法”“算法設(shè)計與分析”“離散數(shù)學(xué)”“概率論與數(shù)理統(tǒng)計”和“計算機組成原理”5 門課的成績作為特征,預(yù)測“人工智能”的課程成績。
(3) 利用“人工智能”“離散數(shù)學(xué)”“計算機組成原理”和“概率論與數(shù)理統(tǒng)計”4 門課的成績作為特征,預(yù)測“模式識別”的課程成績。
根據(jù)3.2 中的3 個實驗設(shè)置,在模型訓(xùn)練階段,根據(jù)多元線性回歸模型訓(xùn)練的過程,參數(shù)估計、誤差分析、預(yù)測值與真實值之間對比結(jié)果分別如表2~4 所示。
在表2 中, 根據(jù)實驗設(shè)置(1) 中的特征數(shù)據(jù),分別得出了多元線性回歸方程中的系數(shù)分別為0.205、0.201 和0.44, 偏移項為5.525。依據(jù)估計參數(shù)可計算出模型訓(xùn)練的平均絕對誤差和均方根誤差分別為4.924 和6.508。同時,可計算出每位同學(xué)在此基礎(chǔ)上“算法設(shè)計與分析”課程的成績分布。根據(jù)預(yù)測出的成績可計算出課程預(yù)測的及格率和優(yōu)良率分別為86.7%和2.2%。通過預(yù)測值和真實值之間的對比,可以發(fā)現(xiàn)在引入學(xué)業(yè)導(dǎo)師制后,“算法設(shè)計與分析”課程在及格率和優(yōu)良率上分別提高了10%和22.2%。
在表3 中, 根據(jù)實驗設(shè)置(2) 中選擇的特征數(shù)據(jù),可得出多元線性回歸模型中的估計參數(shù)系數(shù)分別為0.255、0.218、0.248、0.308 和?0.041,偏移項值為3.555。依據(jù)估計參數(shù)可計算出模型訓(xùn)練的平均絕對誤差和均方根誤差分別為5.358 和6.568。同時,可計算出“人工智能”課程的學(xué)生成績分布。根據(jù)預(yù)測的成績分布,得到預(yù)測的及格率和優(yōu)良率分別為96.6%和25.6%。通過與真實值對比,可以發(fā)現(xiàn)在引入學(xué)業(yè)導(dǎo)師制度后,“人工智能”課程學(xué)生在優(yōu)良率上提升了13.3%。
在表4 中, 根據(jù)實驗設(shè)置(3)要求的特征數(shù)據(jù),可訓(xùn)練出多元線性回歸模型中的系數(shù)參數(shù)分別為0.424、0.279、0.06 和0.039,偏移項值為14.035。根據(jù)估計的模型參數(shù),可得出模型訓(xùn)練的平均絕對誤差和均方誤差分別為4.108 和5.066。同時,可以計算出“模式識別”課程學(xué)生的成績分布,得出預(yù)測的及格率和優(yōu)良率分別為94.4%和20%。通過與真實的值進行比較,發(fā)現(xiàn)在引入學(xué)業(yè)導(dǎo)師制度后,“模式識別”課程學(xué)生的及格率和優(yōu)良率分別提高了3.4%和6.6%。
表2 “算法設(shè)計與分析”課程預(yù)測參數(shù)評估和值對比表Tab.2 Parameters estimation and value comparison on Algorithms Design Techniques and Analysis
表3 “人工智能”課程預(yù)測參數(shù)評估和值對比表Tab.3 Parameters estimation and value comparison on Artificial Intelligence
表4 “模式識別”課程預(yù)測參數(shù)評估和值對比表Tab.4 Parameters estimation and value comparison on Pattern Recognition
為了進一步分析學(xué)業(yè)導(dǎo)師制度的積極影響,下面以“算法設(shè)計與分析”課程為例,分析各個成績階段分數(shù)的變化情況,分別如圖2~5 所示。
在圖2~5 中, 左圖為課程訓(xùn)練集的成績分布,右圖為課程測試集的成績分布。在圖2~4 中,及格學(xué)生的分數(shù)、成績在x ≥80 分,70 ≤x < 80 分間的成績平均提高了0.82 和3.07 分、11.08 和15.62分、2.69 和3.93 分。由此可以發(fā)現(xiàn)在學(xué)業(yè)導(dǎo)師制度影響下,學(xué)生的“算法設(shè)計與分析”課程的總體成績都有所提升。在圖5 中, 成績在60 ≤x < 70 分的學(xué)生成績提升了?2.86 分和?3.96 分。直觀地發(fā)現(xiàn),成績60 ≤x < 70 分的學(xué)生分數(shù)在引入學(xué)業(yè)導(dǎo)師制度后,這部分學(xué)生的分數(shù)有所下降,但通過進一步分析,可知道學(xué)業(yè)導(dǎo)師制引入后,該門課程的整體及格率提升了10%。這部分學(xué)生大多是學(xué)業(yè)導(dǎo)師制度實施前不及格的部分。進一步也證實了學(xué)業(yè)導(dǎo)師制度對學(xué)生課程成績影響的積極作用。
圖2 “算法設(shè)計與分析”成績及格學(xué)生的分數(shù)提升分布Fig.2 The distribution of increased scores of students passed on Algorithms Design Techniques and Analysis
圖3 “算法設(shè)計與分析”成績≥80 分的學(xué)生分數(shù)提升分布Fig.3 The distribution of increased scores of students‘scores ≥80 on Algorithms Design Techniques and Analysis
圖4 “算法設(shè)計與分析”成績≥70 分且<80 分的學(xué)生分數(shù)提升分布Fig.4 The increased distribution of scores of students‘scores ≥70&<80 on Algorithms Design Techniques and Analysis
圖5 “算法設(shè)計與分析”成績≥60 分且<70 分學(xué)生的分數(shù)提升分布Fig.5 The distribution of increased scores of students scores ≥60&<70 on Algorithms Design Techniques and Analysis
本科生學(xué)業(yè)導(dǎo)師制度讓學(xué)生在導(dǎo)師的影響下獲得更具個性化的培養(yǎng)方案和學(xué)業(yè)生涯規(guī)劃。在實施學(xué)業(yè)導(dǎo)師制度前后學(xué)生的課程成績數(shù)據(jù)基礎(chǔ)上,提出了基于多元線性回歸的機器學(xué)習(xí)分析框架。通過實驗分析和對比,發(fā)現(xiàn)在學(xué)業(yè)導(dǎo)師制度實施后,無論在課程的及格率、優(yōu)良率和整體分數(shù)上,都有了很大的提高??梢妼W(xué)業(yè)導(dǎo)師制度可以極大提高學(xué)生學(xué)習(xí)的積極主動性。
目前的研究與分析更偏向于實行學(xué)業(yè)導(dǎo)師制度的計算機相關(guān)專業(yè)學(xué)生或工科學(xué)生,且局限于對學(xué)習(xí)成績的影響。今后可以進一步分析其他專業(yè)方向的學(xué)生,研究該制度在其他學(xué)科上的影響程度,并進一步涵蓋學(xué)生的競賽、升學(xué)、就業(yè)等全方位影響。