国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹在大學(xué)外語等級(jí)考試成績分析中的應(yīng)用

2022-06-02 13:18王淵志
關(guān)鍵詞:決策樹成績

王淵志

摘 要:隨著數(shù)字化在教育考試領(lǐng)域的不斷推進(jìn),考試成績數(shù)據(jù)分析已成為考試管理領(lǐng)域的一大課題。本文以寧波市大學(xué)外語等級(jí)考試成績數(shù)據(jù)為基礎(chǔ),利用決策樹模型挖掘出影響考試成績的關(guān)鍵因素,為高校進(jìn)一步提高大學(xué)外語教學(xué)水平提供科學(xué)有效的參考。

關(guān)鍵詞:大學(xué)外語等級(jí)考試;成績;決策樹

中圖分類號(hào):G424.74? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? 文章編號(hào):1674-2346(2022)01-0096-05

1? ? 大學(xué)外語等級(jí)考試成績分析的意義

大學(xué)外語等級(jí)考試是教育部考試中心負(fù)責(zé)實(shí)施的全國性的教學(xué)考試,目的在于對(duì)高校學(xué)生實(shí)際外語應(yīng)用能力進(jìn)行客觀、準(zhǔn)確的測量,這項(xiàng)考試因?yàn)轭}目設(shè)計(jì)科學(xué)合理、考務(wù)流程規(guī)范,在社會(huì)上認(rèn)可度很高,很多用人單位將該考試成績作為招錄工作人員的重要參考依據(jù)之一。對(duì)學(xué)校而言,考試成績既直接體現(xiàn)了學(xué)生的學(xué)習(xí)效果,又能評(píng)價(jià)教師日常教學(xué)水平。因此各個(gè)高校對(duì)于大學(xué)外語等級(jí)考試的成績十分關(guān)注,如何提高大學(xué)外語等級(jí)考試成績,推進(jìn)外語教學(xué),從而提升學(xué)生的實(shí)際外語水平成為眾多高校追求的目標(biāo)。

目前,學(xué)校使用教育部考試中心研發(fā)的大學(xué)外語等級(jí)考試考務(wù)管理系統(tǒng),主要包括報(bào)名信息錄入、照片采集、試場編排、準(zhǔn)考證打印、缺考違紀(jì)數(shù)據(jù)錄入、成績導(dǎo)入等功能,對(duì)系統(tǒng)數(shù)據(jù)往往停留在查詢、增刪等基礎(chǔ)的應(yīng)用方面,個(gè)別學(xué)校通過導(dǎo)出到EXCEL功能,進(jìn)行簡單的成績統(tǒng)計(jì),得出的結(jié)果往往比較單一,數(shù)據(jù)的價(jià)值沒有完全被開發(fā)。如果把數(shù)據(jù)挖掘技術(shù)應(yīng)用于成績分析,可以幫助學(xué)校深入了解學(xué)生各項(xiàng)成績之間的關(guān)聯(lián),找出影響成績的各項(xiàng)因素,對(duì)于提高教學(xué)質(zhì)量,提升人才培養(yǎng)水平大有幫助。

2? ? 決策樹分類方法介紹

本文采用分類方法中的代表-決策樹算法,嘗試對(duì)影響考試成績幾個(gè)關(guān)鍵要素進(jìn)行分析。分類方法的定義如下:找出同類事物共同性質(zhì)的特征性知識(shí)和不同事物之間的差異性特征知識(shí)?;跊Q策樹的分類算法是一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,即從一系列無序無規(guī)則的元組中推導(dǎo)出分類規(guī)則,以樹的形式呈現(xiàn)。決策樹采用自頂至下的貪婪算法,在其內(nèi)部結(jié)點(diǎn)選擇分類效果最優(yōu)的屬性向下分支,直到這棵樹能明確地分類訓(xùn)練樣本,或所有屬性都被使用。決策樹中比較著名的是C4.5 算法。通過這種算法得出的結(jié)論很容易把邏輯上的關(guān)系以一種非常直觀的方法清晰地表達(dá)出來。對(duì)于判斷因素少、邏輯組合較為簡單的項(xiàng)目尤為適合。決策樹尤其擅長處理非數(shù)值型數(shù)據(jù),數(shù)據(jù)預(yù)處理工作量相對(duì)較少。

采用決策樹技術(shù)進(jìn)行分類包含兩個(gè)步驟:(1)使用訓(xùn)練樣本構(gòu)造并優(yōu)化一棵決策樹,搭建模型。從實(shí)際應(yīng)用上看,這個(gè)過程就是從樣本中獲取知識(shí),進(jìn)行機(jī)器學(xué)習(xí)的過程。(2)依靠構(gòu)造完成的決策樹對(duì)輸入數(shù)據(jù)進(jìn)行分類。從根結(jié)點(diǎn)依次判斷輸入記錄的屬性值,直至某個(gè)葉結(jié)點(diǎn)停止,從而找到該記錄對(duì)應(yīng)的類。其中建樹與剪枝環(huán)節(jié)是建立決策樹模型的關(guān)鍵步驟。

3? ? 決策樹在大學(xué)英語四級(jí)成績分析中的應(yīng)用

大學(xué)外語等級(jí)考試的開考科目包括英語四級(jí)、英語六級(jí)、日語四級(jí)、日語六級(jí)、法語四級(jí)等。目前全國每次均有近1000萬人參加考試,其中寧波市報(bào)考人數(shù)達(dá)到10萬人,在浙江省內(nèi)居首位。報(bào)考人數(shù)最多科目為英語四級(jí),本文主要以2019年下半年寧波市英語四級(jí)考試成績作為分析樣本。

該樣本包括考試成績記錄41222條,來自寧波16所高校。按學(xué)校層次分為重點(diǎn)本科、普通本科、高職??婆c成教四大類,按專業(yè)類別分為理工類、醫(yī)藥類、人文類、經(jīng)管類、藝術(shù)體育類五大類。

本文借助Visual Studio SSDT+SQL Server工具,采用決策樹算法,對(duì)報(bào)考數(shù)據(jù)中的學(xué)校類別、考生專業(yè)、入學(xué)年級(jí)、性別、考生學(xué)歷等項(xiàng)目進(jìn)行挖掘分析,找出關(guān)聯(lián)特征,為高校改進(jìn)教學(xué)安排提供參考。主要包括以下幾個(gè)步驟:(1)對(duì)報(bào)考數(shù)據(jù)進(jìn)行預(yù)數(shù)理,即去除無關(guān)字段,離散化保留字段;(2)將報(bào)考數(shù)據(jù)分類為訓(xùn)練集與測試集,并通過SSDT中的決策樹算法建立挖掘模型;(3)模型準(zhǔn)確率驗(yàn)證。

3.1? ? 數(shù)據(jù)預(yù)處理

為了獲得數(shù)據(jù)挖掘所需的凈化數(shù)據(jù),必須對(duì)海量數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)清理,本文使用SQLSEVER2014軟件實(shí)現(xiàn)。

(1)去除不相關(guān)字段。由于數(shù)據(jù)直接從系統(tǒng)中導(dǎo)出,數(shù)據(jù)整齊,數(shù)據(jù)噪聲情況不存在。但數(shù)據(jù)集合中共有35個(gè)字段,這些字段給挖掘提供了海量的信息,但是如果使用過多的字段作為輸入值,反而會(huì)使挖掘結(jié)果可讀性下降,影響到最終結(jié)果的獲取和分析,有必要去掉數(shù)據(jù)集中與數(shù)據(jù)挖掘關(guān)系不大的字段,如班級(jí)、班級(jí)名稱、校區(qū)、編排座位等信息,保留了其中專業(yè)名稱、年級(jí)、性別、準(zhǔn)考證號(hào)(標(biāo)志數(shù)據(jù)的主鍵)、總分、缺考、報(bào)名學(xué)校、學(xué)歷名稱等字段供挖掘使用。

(2)所屬學(xué)校歸類。16所高校按照學(xué)校層次可分為重點(diǎn)本科、普通本科、高職??婆c成教四大類,將報(bào)名學(xué)校列替換為學(xué)校類別。

(3)專業(yè)歸類。由于考生就讀專業(yè)較多,不利于數(shù)據(jù)挖掘,根據(jù)專業(yè)性質(zhì)歸為理工類、醫(yī)藥類、人文類、經(jīng)管類、藝體類5種。

(4)總分離散化處理。由于總分為連續(xù)數(shù)值,不適合決策樹算法。新增“是否通過”與“是否優(yōu)秀”字段??偡执笥诘扔?25分,“是否通過”為真??偡执笥诘扔?50,“是否優(yōu)秀”為真。

3.2? ? 創(chuàng)建挖掘項(xiàng)目

使用 VS2017新建Analysis Service多維數(shù)據(jù)和數(shù)據(jù)挖掘項(xiàng)目,在關(guān)聯(lián)數(shù)據(jù)源后,選取70%的記錄作為訓(xùn)練集,指定挖掘結(jié)構(gòu)為決策樹,采用“準(zhǔn)考證”為主鍵,選擇“學(xué)校類別”、“專業(yè)類別”、“入學(xué)年級(jí)”、“性別”、“考生學(xué)歷”作為輸入列,選擇“是否缺考”、“是否通過”、“是否優(yōu)秀”作為可預(yù)測列,生成通過率、優(yōu)秀率與實(shí)考率3個(gè)挖掘模型,從而發(fā)現(xiàn)通過率、優(yōu)秀率、實(shí)考率與輸入字段之間的規(guī)律。

3.3? ? 驗(yàn)證模型準(zhǔn)確性

為了保證模型具有較好的精確度和健壯性,將剩余的30%的數(shù)據(jù)視為測試集,用來測試和驗(yàn)證模型是否準(zhǔn)確。經(jīng)驗(yàn)證,通過率、優(yōu)秀率、實(shí)考率的測試結(jié)果預(yù)測概率超過80%,說明模型結(jié)果真實(shí)可靠。

4? ? 決策樹分析

由于生成的決策樹模型對(duì)應(yīng)的規(guī)則較多,且樹型較大。本文以通過率、優(yōu)秀率、實(shí)考率為例,從模型中抽取出一些強(qiáng)關(guān)聯(lián)型規(guī)則加以分析。

4.1? ? 通過率決策樹分析

部分強(qiáng)關(guān)聯(lián)規(guī)則:

IF 年級(jí)=“19級(jí)” then 通過率在65%左右

IF 年級(jí)=“19級(jí)”and 學(xué)校類別=“重點(diǎn)本科”then 通過率接近90%

IF 年級(jí)=“19級(jí)”and 學(xué)校類別=“重點(diǎn)本科” and 專業(yè)類別=“經(jīng)管類”then 通過率超過97%

IF 年級(jí)=“19級(jí)”and 學(xué)校類別<>“重點(diǎn)本科”then 通過率在60%以上

IF 年級(jí)〈〉“19級(jí)” then 通過率不到25%

IF 年級(jí)〈〉“19級(jí)”,學(xué)校類別<>“重點(diǎn)本科” then 通過率僅有12%

可以發(fā)現(xiàn),決定大學(xué)英語四級(jí)能否通過的首要因素是考生的年級(jí)。根據(jù)現(xiàn)行政策,考生第一學(xué)年允許報(bào)考英語四級(jí),因此多數(shù)考生都不會(huì)放棄第一學(xué)年考試的機(jī)會(huì),而且由于剛?cè)雽W(xué),學(xué)習(xí)熱情較高。反觀19級(jí)以前的考生,這些考生大多是重考生,未能在首次考試中一次性通過,一般而言英語基礎(chǔ)不夠扎實(shí),而英語學(xué)科需要長期積累,基礎(chǔ)不實(shí)的考生往往再次考試通過率也比較低。

對(duì)于19級(jí)考生,學(xué)校類別決定了通過率。重點(diǎn)本科的通過率明顯高于其他類別的考生。顯然,重點(diǎn)本科的生源素質(zhì)確實(shí)是高于其他層次考生,生源素質(zhì)直接影響了四級(jí)的通過率,這與日常經(jīng)驗(yàn)得出的判斷是一致的。對(duì)于普通學(xué)??忌詣e因素對(duì)通過率起了關(guān)鍵的作用,女生的通過率比男生高出15個(gè)百分點(diǎn)。對(duì)于重點(diǎn)本科學(xué)生,就讀于經(jīng)管與人文專業(yè)的考生的通過率要高于其他學(xué)科。

4.2? ? 優(yōu)秀率決策樹分析

部分強(qiáng)關(guān)聯(lián)規(guī)則:

IF 學(xué)校類別=“重點(diǎn)本科”then 優(yōu)秀率在30%以上

IF 學(xué)校類別=“重點(diǎn)本科”專業(yè)類別=“人文”then 優(yōu)秀率在40%以上

IF 學(xué)校類別=“重點(diǎn)本科”專業(yè)類別=“經(jīng)管”then 優(yōu)秀率在45%以上

決定大學(xué)英語四級(jí)優(yōu)秀率的首要因素是學(xué)校的類別。重點(diǎn)本科高校聚集了大批最優(yōu)秀的考生,這類考生參加四級(jí)考試優(yōu)秀率自然要遠(yuǎn)遠(yuǎn)高于其他類別學(xué)校的考生。其中重點(diǎn)本科高校的考生,修讀人文與經(jīng)管類學(xué)科的優(yōu)秀率要高于其他學(xué)科,藝體類的考生優(yōu)秀率最低。高職??瓶忌苤朴谏此刭|(zhì),優(yōu)秀率很低,只有極個(gè)別的人文學(xué)科考生達(dá)到了優(yōu)秀,而非人文專業(yè)的無一優(yōu)秀。

4.3? ? 實(shí)考率決策樹分析

部分強(qiáng)關(guān)聯(lián)規(guī)則:

IF 年級(jí)=“19”then 實(shí)考率在95%以上

IF 年級(jí)=“19” 學(xué)校類別〈〉“成教”then 實(shí)考率接近97%

IF 年級(jí)〈〉“19”then 實(shí)考率在 80%以上

IF 年級(jí)=“18”then 實(shí)考率在 85%以上

決定實(shí)考率高低的首要因素還是年級(jí),這與通過率的首要因素保持一致。19級(jí)的考生,第一次參加考試,往往比較重視這項(xiàng)考試。而19級(jí)前的考生,往往是多次參加考試,其對(duì)考試的重視程度不如19級(jí)的考生,因此缺考人數(shù)明顯增加。對(duì)于19級(jí)的考生而言,成教學(xué)生與其他全日制學(xué)生產(chǎn)生了明顯的差異。成教學(xué)生英語基礎(chǔ)較差,考生自信心不足,無法認(rèn)真對(duì)待這項(xiàng)考試,因此有一半考生放棄了考試。全日制學(xué)生首次報(bào)名缺考比較少。對(duì)于19級(jí)的全日制學(xué)校的學(xué)生而言,性別依然是決定到實(shí)考率的關(guān)鍵因素,女生的實(shí)考率要比男生高出3個(gè)百分點(diǎn)。

5? ? 結(jié)語

影響通過率首要因素是考生年級(jí),第一學(xué)年的考生通過率明顯高于其他年級(jí)。影響優(yōu)秀率首要因素是考生學(xué)校類別,重點(diǎn)高校的考生優(yōu)秀率明顯高于其他類別。影響實(shí)考率首要因素是考生年級(jí),第一學(xué)年考生的實(shí)考率明顯高于其他年級(jí)。

實(shí)驗(yàn)表明,3個(gè)模型的預(yù)測準(zhǔn)確率超過80 %,分析結(jié)果也符合現(xiàn)實(shí)認(rèn)知。當(dāng)然該模型還存在不足,比如對(duì)成績庫中相關(guān)字段選取過程人為因素較大,未采用更為先進(jìn)的算法等,都值得進(jìn)一步研究。

參考文獻(xiàn)

[1]袁樂泉,朱亞輝.基于隨機(jī)森林的大學(xué)英語四級(jí)通過率預(yù)測模型[J].電子測試,2021(4):54-55.

[2]葉澤俊.基于數(shù)據(jù)挖掘的大學(xué)英語四級(jí)通過率預(yù)測建模研究[J].長春師范大學(xué)學(xué)報(bào),2019(12):8.

[3]欒紅波.數(shù)據(jù)挖掘在大學(xué)英語教學(xué)和測評(píng)中的研究與應(yīng)用[D].北京:北京郵電大學(xué),2017:22-25.

The Application of Decision Tree in the Analysis of College Foreign Language Test Scores

WANG Yuan-zhi

(Ningbo Education Examinations Authority,Ningbo,Zhejiang 315000,China)

Abstract: With the continuous advancement of digitalization in the field of education examinations,the analysis of examination result data has become a major topic in the field of examination management.Based on the scores data of Ningbo’s College Foreign Language Test,this paper uses the Decision Tree model to dig out the key factors that affect test scores so as to provide scientific and effective reference for colleges and universities to further improve college foreign language teaching.

Key words: College Foreign Language Test;score;Decision Tree

猜你喜歡
決策樹成績
簡述一種基于C4.5的隨機(jī)決策樹集成分類算法設(shè)計(jì)
一種改進(jìn)的MEP決策樹剪枝算法
決策樹學(xué)習(xí)的剪枝方法
如何轉(zhuǎn)化后進(jìn)生并提高他們的英語成績
論如何提高高中化學(xué)成績
剖析累進(jìn)評(píng)分法對(duì)體育成績評(píng)定的必要性及其應(yīng)用
影響高中體育特長生成績的因素及對(duì)策分析
電子商務(wù)通識(shí)課程考試成績多維度分析
中學(xué)生時(shí)間管理自我監(jiān)督對(duì)成績的影響分析
決策樹在施工項(xiàng)目管理中的應(yīng)用
磐石市| 伊宁县| 商都县| 周宁县| 滁州市| 二手房| 双牌县| 黎城县| 公安县| 垫江县| 勐海县| 丰台区| 满城县| 石柱| 行唐县| 绥滨县| 赤水市| 赫章县| 自治县| 凤冈县| 恩平市| 怀远县| 读书| 会同县| 吉木萨尔县| 峨山| 新郑市| 澳门| 炎陵县| 九台市| 朝阳县| 柳河县| 华蓥市| 台南市| 南昌市| 会泽县| 和顺县| 无锡市| 泽州县| 青铜峡市| 青河县|