孫杰
摘要 針對(duì)學(xué)生成績預(yù)測(cè)過程中預(yù)測(cè)方法過于復(fù)雜、涉及數(shù)據(jù)集過于龐大的問題,本文提出了基于高斯樸素貝葉斯算法的學(xué)生成績預(yù)測(cè)。本文采集選修《大學(xué)生計(jì)算機(jī)基礎(chǔ)》共計(jì)465名本科生的三次平時(shí)測(cè)驗(yàn)成績作為樣本集,并劃分為訓(xùn)練集和測(cè)試集,采用交叉驗(yàn)證的策略避免過擬合問題。結(jié)果表明,基于高斯樸素貝葉斯算法的預(yù)測(cè)模型在測(cè)試集上預(yù)測(cè)的精度達(dá)到92%,樸素貝葉斯方法可以直接基于平時(shí)測(cè)驗(yàn)成績預(yù)測(cè)學(xué)生的最終考試成績。另外,實(shí)驗(yàn)發(fā)現(xiàn),樣本集的數(shù)據(jù)分布越是接近于正態(tài)分布,預(yù)測(cè)精度越高,再剔除60分以下測(cè)驗(yàn)成績之后,預(yù)測(cè)精度達(dá)到96%。
關(guān)鍵詞:樸素貝葉斯算法; 成績預(yù)測(cè); 大學(xué)生;成績
中圖分類號(hào):TP181? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)20-0023-04
Application of Gaussian Naive Bayes Algorithm in College Students' Performance Prediction
SUN Jie
(School of applied technology China Institute of Labor Relations, Beijing 100048, China)
Abstract: In order to solve the problem that the prediction method is too complex and the data set is too large in the process of student performance prediction, this paper proposes a student performance prediction method based on Gaussian naive Bayes algorithm. In this paper, we collect the three test results about 465 samples in “computer foundation of college students”, and divide them into training set and test set. We use cross validation strategy to avoid over fitting problem. The results show that the prediction accuracy of the prediction model based on Gaussian naive Bayes algorithm reaches 92% in the test set, and the naive Bayesian method can directly predict the students final test scores based on the practice at ordinary times. In addition, it is found that the closer the data distribution of the sample set is to the normal distribution, the higher the prediction accuracy is. After eliminating the test scores below 60 points, the prediction accuracy reaches 96%.
Key words: naive bayesian algorithm; performance prediction; college students
近年來,學(xué)生成績預(yù)測(cè)的研究成為研究者關(guān)注的焦點(diǎn)。一般來講,課程期末考試成績占課程最終成績的比重較大,故期末考試成績的優(yōu)劣直接影響學(xué)生的評(píng)優(yōu)甚至畢業(yè),因此,通過合理的手段提前預(yù)測(cè)課程的期末成績,將有助于任課教師實(shí)施針對(duì)性的教學(xué),對(duì)學(xué)習(xí)困難的學(xué)生加以幫助,對(duì)學(xué)習(xí)成績優(yōu)異的學(xué)生加以提高。
由于在線學(xué)習(xí)的發(fā)展,關(guān)于網(wǎng)絡(luò)學(xué)習(xí)環(huán)境下的學(xué)生成績預(yù)測(cè)研究也有了新的發(fā)展,如在網(wǎng)絡(luò)課程學(xué)習(xí)中基于學(xué)生學(xué)習(xí)行為的成績預(yù)測(cè)[1],以及綜合考慮在線學(xué)習(xí)者的學(xué)習(xí)背景、家庭環(huán)境,以及學(xué)習(xí)者的行為特征,基于各類分類算法優(yōu)劣的比較,進(jìn)行成績預(yù)測(cè)的研究[2-3];第二類是基于獨(dú)立算法或多算法融合的成績預(yù)測(cè)研究,如:基于七門主干課成績,通過貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行參數(shù)學(xué)習(xí),并最終應(yīng)用于學(xué)生成績的預(yù)測(cè)[4];“基于模糊聚類和支持向量回歸的成績預(yù)測(cè)”[5]一文,不僅提出了成績預(yù)測(cè)的一種融合算法,而且指出“現(xiàn)有的成績預(yù)測(cè)模型往往過度使用不同類型的屬性”的問題;劉毓等人[6]首先用相關(guān)分析法計(jì)算了基礎(chǔ)課程成績與目標(biāo)課程成績的相關(guān)系數(shù),選取了與目標(biāo)課程成績相關(guān)度高的基礎(chǔ)課程成績作為輸入項(xiàng),然后引入遺傳算法對(duì)反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化,實(shí)現(xiàn)學(xué)生目標(biāo)課程成績預(yù)測(cè);陳曦等人[7]在構(gòu)建課程知識(shí)圖譜的基礎(chǔ)上,計(jì)算各課程在知識(shí)層面的相似度,并融入?yún)f(xié)同過濾學(xué)生成績預(yù)測(cè)方法;以及基于多元回歸和決策樹模型的學(xué)生成績預(yù)測(cè)研究[8],等等。
樸素貝葉斯算法使用簡單,在各類研究中效果良好,故而在研究中大量出現(xiàn)。如基于樸素貝葉斯方法的文本分類研究[9],結(jié)合樸素貝葉斯算法與Bootstrapping方法的語義標(biāo)注研究[10],改進(jìn)樸素貝葉斯算法并應(yīng)用于入侵檢測(cè)的研究[11]。另外,在與其他算法結(jié)合應(yīng)用的過程中也表現(xiàn)出了良好的分類效果[12-15]。本課題研究將學(xué)生成績預(yù)測(cè)的數(shù)據(jù)收集范圍限定在某一門課程之內(nèi),減少了數(shù)據(jù)收集的難度;利用樸素貝葉斯方法,使用經(jīng)驗(yàn)知識(shí)不斷修正預(yù)測(cè)結(jié)果,從而保證預(yù)測(cè)結(jié)果更趨緊于客觀評(píng)價(jià)。