国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹的大學英語等級考試成績研究

2017-10-26 17:16毛雪吟沈良忠
電腦知識與技術 2017年22期
關鍵詞:考試成績決策樹聽力

毛雪吟 沈良忠

摘要:高校學生的大學英語等級考試水平反映了該校的英語教學水平,某些高校甚至將其直接跟學位證書掛鉤。為了了解不同學院間英語等級考試成績的特點,該文針對浙江某高校共1839名學生的英語四、六級考試成績,通過決策樹分析實現(xiàn)四級成績不同學院之間的橫向比較和六級成績同一學院的縱向比較,發(fā)現(xiàn)了各學院英語等級考試成績的特點,為英語教學的教師安排和教學重點知識講授提供科學依據(jù),幫助學生提高英語等級考試成績。

關鍵詞:數(shù)據(jù)挖掘;Weka;決策樹;C4.5;英語等級考試

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)22-0016-02

1概述

教育部高等教育司統(tǒng)一組織的全國大學英語四、六級等級考試,其主要目的就在于全面考核已修完大學英語四個學期的學生是否達到教學大綱所規(guī)定的各項指標,內容包括聽力理解、閱讀理解和寫作與翻譯三個部分。因此,英語等級考試的成績不僅是學生畢業(yè)就業(yè)時英語聽說讀寫能力的有力證明,更是高校自身英語教學水平高低的體現(xiàn)?,F(xiàn)階段,英語等級考試成績在學生畢業(yè)時依然具有很高的信度和效度,不少企業(yè)甚至將其作為員工招聘的硬性條件之一,而且學生出國留學考雅思、GRE等都要具備較好的英語應用能力。因此,不少學者對英語等級考試的成績開展研究,希望能夠找到提高英語等級考試成績的一些教學策略。王芙蓉針對英語等級四級考試成績,利用SPSS Clementine 12.0作為數(shù)據(jù)挖掘工具分析得出聽力單項成績的高低對四級成績是否合格有很重要的作用,閱讀成績的作用僅次于聽力,寫作的影響程度最小。范珣珣基于Weka軟件中的決策樹算法進行挖掘,發(fā)現(xiàn)學生高考成績、性別、對英語的學習態(tài)度、努力程度、與英語老師的關系和英語四級成績之間存在潛在的關系。劉紅保用決策樹C4.5算法從成績分析,非成績分析,院校性質三方面加實現(xiàn)了對CET-4成績分類挖掘。本文以浙江某高校為例,應用決策樹技術來分析該校英語等級四、六級等級考試成績中聽力理解、閱讀理解、寫作與翻譯3個部分與等級成績之間的關系,并通過對兩個不同學院之間英語四級成績的橫向比較和同一學院英語六級成績的縱向比較為學校英語教學教師安排和教學重點知識講授提供科學決策依據(jù),達到進一步深化英語教學改革,提高英語教學水平,提高學生考試成績的目的。

2決策樹的介紹

決策樹算法屬于數(shù)據(jù)挖掘中的分類算法,通過對某一帶有類標記的數(shù)據(jù)集的訓練,產生一棵二叉樹或者多叉樹。決策樹每個內部節(jié)點表示在一個屬性上的測試,每個分枝表示一個測試輸出,而每個樹葉節(jié)點代表類或類分布。在構建決策樹時,需要使用剪枝來檢測和剪去訓練數(shù)據(jù)中的噪聲和孤立點,從而提高在未知數(shù)據(jù)上分類的準確性。決策樹的構建過程中,最重要的就是分裂節(jié)點的選擇。ID3算法在樹的分裂節(jié)點上選擇具有最高信息增益的節(jié)點作為當前的分裂節(jié)點,因為該節(jié)點的分裂將使得分裂得到的結果劃分中的樣本分類所需的信息量最小。

假設對訓練數(shù)據(jù)集S按類別屬性C進行劃分,則其分類信息熵為:

其中,m表示類別標號的數(shù)量,pi表示第i個類別在整個訓練元組中出現(xiàn)的概率,取值為屬于此類別元組數(shù)量除以訓練總元組的數(shù)量。假設將訓練數(shù)據(jù)集S按條件屬性A進行劃分,則條件屬性A對s進行劃分相對C的分類信息熵為:

其中,v為條件屬性A的取值數(shù)量。屬性A分裂數(shù)據(jù)集S的信息增益記為:

由于ID3算法對屬性的計算僅僅支持離散型,因此C4.5算法針對ID3算法做了改進,不僅支持連續(xù)型屬性的分裂,而且在分裂節(jié)點時選擇具有最高信息增益率的屬性節(jié)點。C4.5算法中屬性A分裂數(shù)據(jù)集s的信息增益率記為:

3大學英語等級考試分析

高校每年都要進行春、秋兩次全國英語等級考試,經過多年的積累之后保存了大量等級考試成績數(shù)據(jù)。這些等級考試成績數(shù)據(jù)背后是否隱藏著與英語教學相關的一些規(guī)律,是非常值得研究的內容。因此,筆者通過收集教務系統(tǒng)的等級考試成績數(shù)據(jù),基于Weka軟件中的決策樹算法對其進行分析。

3.1數(shù)據(jù)收集與預處理

由于英語四、六級等級考試是在每年的6月和12月考試,有的學生只參加一次四、六級考試就達到425分,即通過等級考試;有的學生參加多次四、六級考試,都沒有通過。因此,通過四、六級考試的學生,選取通過時的分數(shù);參加多次還沒有通過的學生,選取他們多次考試的最高分。此處選取14級共1839條學生的英語四級考試成績和1008條英語六級考試成績作為分析對象。

Weka軟件中決策樹算法可以選用J48,對應的是C4.5算法,支持對于連續(xù)型屬性的處理,但是對于類別屬性還是要做離散化的處理,即是否通過等級考試。目前,英語四、六級等級考試的總分是710分,及格分數(shù)是425,按照劉靜等在英語等級考試中數(shù)據(jù)離散化處理方法,將英語等級考試成績總分大于425分記為“P”,否則記為“N”。經過以上預處理之后,英語四、六級等級考試成績的形式如表1所示:

3.2四級成績的橫向比較

為了查看不同學院之間四級成績的差異性,選取管理學院和會計學院兩個學院14級學生的英語等級四級成績進行比較。管理學院14級學生共377人,通過四級人數(shù)為228人,通過率為76.39%;會計學院14級學生共562人,通過四級人數(shù)為430人,通過率為76.51%。通過Weka中的J48算法運行,得到以下兩個不同的決策樹,如圖1所示:

通過圖1的比較發(fā)現(xiàn),兩個學院的決策樹根節(jié)點存在差異:管理學院根結點為閱讀,而會計學院根結點為聽力。這也就意味著閱讀是影響管理學院學生能否通過四級的關鍵因素,管理學院的學生應該加強對閱讀的訓練。會計學院的根結點為聽力,然后兩個子節(jié)點都是閱讀,并且在通過考試的同學中有83.26%的人是靠聽力取得大于139分的分數(shù),再拿下多于136分的閱讀理解順利通過的。說明會計學院通過英語四級的學生主要共性是在做好聽力的同時做好閱讀。因此建議會計學院的學生應該加強對聽力和閱讀的訓練。

3.3六級成績的縱向分析

為了了解四、六級可能存在的差異,選擇管理學院的英語四級和英語六級進行縱向比較,也將兩類成績生成的決策樹進行比較分析,如圖2所示:

通過圖2的比較發(fā)現(xiàn),管理學院英語四級的決策樹的根結點為閱讀,但它的英語六級決策樹根結點為聽力,這說明英語四級和六級在考試的側重點上還是有所不同。在六級考試中詞匯量的廣度更大、文章篇幅增大閱讀的速度需要更快、單位時間內的閱讀量。2016年6月英語四級考試聽力部分新增短文聽力三篇,英語六級考試聽力部分新增演講/講座聽力三篇,增加了聽力的難度,因此需要加強聽力訓練,只有把這個重點模塊訓練好,再配合好的寫譯,會有很高的通過率。

5結束語

本文利用決策樹算法對英語等級考試成績進行了深入分析,其提取的分類規(guī)則對大學生英語學習有著重要的指導作用,通過考試成績的橫向比較和縱向比較闡述了不同學院之間在英語成績方面的特點,為各個學院在開展英語教學的時候提供了合理安排教師資源,適時調整教學方法的參考意見。各位同學也可以根據(jù)自己的實際學習情況,參考決策樹生成的結果,找出自己學習薄弱環(huán)節(jié),進行針對性的學習訓練,對可以通過大學英語四、六級等級考試的一些歷史規(guī)則有所了解,為自己制定正確的英語學習計劃和目標提供參考。endprint

猜你喜歡
考試成績決策樹聽力
考試成績轉換成偏態(tài)分布量化成績的算法
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
Units 1—2 聽力練習
Units 3—4 聽力練習
Units 5—6 聽力練習
Units 7—8 聽力練習
基于決策樹的出租車乘客出行目的識別
因子分析法在高中地理考試成績分析中的應用
基于肺癌CT的決策樹模型在肺癌診斷中的應用
武邑县| 韶关市| 霍林郭勒市| 承德市| 西峡县| 菏泽市| 巢湖市| 抚州市| 新巴尔虎右旗| 武强县| 兴化市| 松潘县| 景宁| 垫江县| 卫辉市| 体育| 昌黎县| 岢岚县| 株洲县| 淅川县| 茂名市| 玉林市| 赤壁市| 鄱阳县| 伊春市| 南和县| 沙洋县| 舟山市| 师宗县| 大悟县| 高雄市| 中方县| 高清| 大新县| 闻喜县| 婺源县| 江西省| 天柱县| 宣威市| 丘北县| 霍城县|