基于C4.5決策樹算法的網(wǎng)絡學習行為研究

2016-10-31 21:32馬偉杰

科教導刊·電子版 2016年23期

馬偉杰

摘要網(wǎng)絡學習行為研究，是網(wǎng)絡教育研究的重要組成部分。采用先進的人工智能技術(shù)對網(wǎng)絡學習者的行為特征進行智能評價和預測，成為一個新興交叉研究領(lǐng)域。采用C4.5決策樹算法構(gòu)建網(wǎng)絡學習者行為特征系統(tǒng)，挖掘行為特征和學習效果關(guān)系的歷史數(shù)據(jù)，建立學習效果-行為特征智能評價模型。通過實驗仿真發(fā)現(xiàn)，C4.5決策樹算法取得了較為理想的分類預測效果。

關(guān)鍵詞 C4.5算法決策樹網(wǎng)絡學習行為

中圖分類號：TP311.13 文獻標識碼：A

0引言

網(wǎng)絡學習系統(tǒng)以其開放的網(wǎng)絡平臺、多媒體數(shù)字化的學習資源、靈活自主的學習方式為人們提供了一種新型的學習平臺，可以滿足不同的學習者在不同的學習時間的個別化學習的需求。但大多數(shù)只是將教學資源放到了網(wǎng)絡上，沒有考慮到學習者的個性化特征。師生之間缺乏交流和反饋功能，教師難以對學生學習的過程進行控制，而學習者自己由于能力所限，也難以對學習過程進行自我控制，導致學習者信息迷航、情緒低下、學習熱情衰減等問題，嚴重影響學習效果。因此，師生雙方都迫切希望能夠建立提供個性化的推薦和指導的學習系統(tǒng)。

個性化指導的本質(zhì)就是根據(jù)不同學生的個性特征提供有針對性的服務。因此，其最基本也是最首要的問題就是如何對學生的行為進行分析，并從中挖掘?qū)W生的學習特征。學習者的個性特征直接影響著學習者的學習行為和學習效果。本文研究決策樹方法的經(jīng)典算法C4.5算法，將其應用于網(wǎng)絡學習者的網(wǎng)絡學習行為，建立數(shù)據(jù)挖掘模型，合理將網(wǎng)絡學習者分類，進而改進網(wǎng)絡學習系統(tǒng)的設計方案。

1 C4.5決策樹算法

決策樹是判斷給定樣本與某種屬性相關(guān)聯(lián)的決策過程的一種表示方法，從數(shù)據(jù)中生成分類器的一個特別有效的方法是生成一顆決策樹，該方法廣泛應用于數(shù)據(jù)挖掘和機器學習等領(lǐng)域，用來解決與分類相關(guān)的問題。決策樹表示法是應用最廣泛的邏輯方法。目前生成決策樹方法的算法主要有三種：CART算法，ID3算法，C4.5算法。其中C4.5算法具有分類速度快且精度高的特點，是發(fā)展得比較完善的一種決策樹算法。

C4.5算法是構(gòu)造決策樹分類器的一種有效算法，并最終可以形成產(chǎn)生式規(guī)則。C4.5算法的輸入是一張關(guān)系表，由若干不同的屬性及若干數(shù)據(jù)元組（稱為訓練樣本）組成。屬性分為兩部分：一部分作為判定對象屬性（判定樹中的非葉節(jié)點）；另一部分作為分類對象屬性（判定樹中的葉節(jié)點）。C4.5算法采用信息熵的方法，比較各個判定對象屬性的信息增益率的大小，選擇信息增益率最大的屬性進行分類，遞歸生成一個判定樹。

設|S|為訓練集S的樣本總數(shù)，共有m類樣本Ci（i=1，2，3，…，m，），|Ci|為類Ci中的樣本數(shù)，設Pi=|Ci|/|S|是任意樣本屬于Ci的概率，訓練樣本分類屬性的總信息熵E（S1，S2，…，Sm）的計算公式為：

E（S1，S2，…，Sm）=-（pi*log2（pi））……………………公式（1）

設屬性A具有v個不同值{a1，a2，…，av}，可以用屬性A將S劃分為個子集{S1，S2，…，Sm}，其中Si包含S中這樣一些樣本，它們在A上具有值aj（j=1，2，…，v）。設|Sij|為Si類中Cj的樣本數(shù)，以屬性A為分類所需的期望熵E（A）的計算公式為：

E（A）= （|S1j|+|S2j|+…+|Smj|）*E（S1j，S2j，…，Smj）/|S|……公式（2）

屬性A相對于類別集合C的信息增益Gain（C，A）的計算公式為：

Gain（C，A）=E（S1，S2，…，Sm）€HaE（A）………………公式（3）

屬性A相對于類別集合C的信息增益率GainRatio（C，A）的計算公式為：

GainRatio（C，A）=Gain（C，A）/E（S1j，S2j，…，Smj）……公式（4）

2 C4.5算法在個性化網(wǎng)絡學習中的應用

2.1問題定義與數(shù)據(jù)預處理

網(wǎng)絡學習行為的評定，一方面要根據(jù)網(wǎng)絡學習者的的學習基礎(chǔ)，同時還要結(jié)合每位學習者的具體表現(xiàn)和實際情況，包括學習動機、學習策略。根據(jù)學習者的學習基礎(chǔ)、學習動機以及學習策略，建立C4.5決策樹的分類預測模型，實現(xiàn)對網(wǎng)絡學習行為特征進行評價。其實質(zhì)是：運用C4.5算法進行數(shù)據(jù)挖掘，獲得分類規(guī)律，即學習策略與學習行為特征之間的關(guān)系；推導出分類規(guī)則，即學習行為特征智能評價模型。文中網(wǎng)絡學習行為數(shù)據(jù)的采集采用問卷調(diào)查與web服務器端日志獲取兩種方法，學習者的學習動機與學習基礎(chǔ)采用問卷調(diào)查的方式來獲得，學習策略通過web日志獲取。

我們對計算機學院2013級210名學生2015-2016學年的《操作系統(tǒng)》網(wǎng)絡課程的學習行為建立數(shù)據(jù)表，進行分析和處理。其中包括字段：學號、學習基礎(chǔ)、學習動機、學習策略和行為特征。

對數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約等技術(shù)，去掉數(shù)據(jù)集中的噪聲和不相關(guān)的信息，將數(shù)據(jù)源的數(shù)據(jù)類型與值轉(zhuǎn)換成統(tǒng)一的格式。

對行為特征等級屬性作處理：根據(jù)實際情況，將行為特征劃分為四種類型：

（1）變通型（用A表示）：該類學生有著自主學習的經(jīng)理和能力，自我管理和自治能力較強，在學習過程中可以不受學習固定路徑的限制，自助選擇學習的知識點進行學習；

（2）順應型（用B表示）：該類學生習慣于傳統(tǒng)教育模式，但缺乏學習的積極性，在學習策略上無主見，主要取決于網(wǎng)絡學習系統(tǒng)提供的學習策略和學習路徑安排；

（3）補充型（用C表示）：該類學生喜歡學習，對課程有興趣，但基礎(chǔ)差，若在學習策略上符合要求，能夠按照既定的目標和路徑學習；

（4）逆反型（用D表示）：該類學生學習基礎(chǔ)中等偏下，無學習動機，學習常常受外在動力的驅(qū)動。

定義學習基礎(chǔ)：根據(jù)實際情況，將學習基礎(chǔ)劃分為優(yōu)良、中等、差三等，其中優(yōu)良表示問卷測試得分為介于80與100之間，中等得分介于60與79之間，差是低于60分。

定義學習策略：根據(jù)實際情況，將學習策略劃分為合格、不合格兩類。

定義學習動機：根據(jù)實際情況，將學習動機劃分為強、中等和弱三類。

數(shù)據(jù)預處理完成后，得到數(shù)據(jù)轉(zhuǎn)換后的網(wǎng)絡學習者學習行為信息表，如表1所示。由于記錄太多，表1僅顯示部分記錄。

我們隨機抽取預處理后的數(shù)據(jù)（共210個數(shù)據(jù)）2/3的數(shù)據(jù)，即140個數(shù)據(jù)樣本，作為C4.5算法的訓練集，剩下的1/3的數(shù)據(jù)，即70個數(shù)據(jù)樣本，作為測試集。

2.2構(gòu)造決策樹

數(shù)據(jù)預處理后，開始歸納決策樹，此過程使用數(shù)據(jù)預處理得到的訓練集。根據(jù)前述的C4.5算法，將屬性學習策略、學習動機、學習基礎(chǔ)作為算法的對象屬性，將屬性行為特征作為目標屬性，利用信息增益率的定義將屬性進行排列，具有最高信息增益率的屬性選作給定集合的測試屬性。創(chuàng)建一個根結(jié)點，并以該屬性標記，對屬性的每個值創(chuàng)建分枝，然后遞歸建樹，可構(gòu)造一棵決策樹，算法具體處理過程如下：

訓練樣本數(shù)據(jù)集中，共有140個元組，其中行為特征等級屬性（屬性值為A，B，C，D）每個屬性值所對應的子集中元組個數(shù)分別為S1=26，S2=30，S3=50，S4= 34。為了計算每一個決策屬性的信息增益，首先利用公式計算集合S分類的總信息熵：

E=（S1，S2，S3，S4）=E（26，30，50，34） =€Halog2€Halog2€Halog2€Halog2=1.035

然后計算每一個決策屬性的期望信息熵。

對屬性“學習策略”，當學習策略=合格。

E=（S11，S21，S31，S41）=€Halog2€Halog2€Halog2€Halog2=1.234

當學習策略=不合格

E=（S12，S22，S32，S42）=€Halog2=0

由此得出學習策略的熵值

E（CL）=E（S11，S21，S31，S41）+E（S12，S22，S32，S42）=1.086

因此“學習策略”的信息增益為：

Gain（CL）=E（S1，S2，S3，S4）€HaE（TY）=0.059

屬性“學習策略”的信息增益率為：

GainRatio（CL）=Gain（CL）/（S1，S2，S3，S4）=0.052

同理得到屬性“學習動機”、“學習基礎(chǔ)”的信息增一律分別為：

GainRatio（DJ）=0.049，GainRatio（JC）=0.041。

由于屬性“學習策略”具有最大的信息增益率值，故而選擇該屬性作為決策樹的根節(jié)點。對于每一個分支，重復上述步驟生成決策樹。如圖1所示。因篇幅有限，只畫出第一層次單位的決策樹。

2.3分類規(guī)則提取

從決策樹中提取一等，二等，三等類的規(guī)則。分類規(guī)則如下：

（1）if學習策略=“合格” and 學習動機=“強” and 學習基礎(chǔ)=“優(yōu)良” then 行為特征為A；

（2）if學習策略=“合格” and 學習動機=“強” and學習基礎(chǔ)=“中等” then行為特征為B；

（3）if學習策略=“合格” and 學習動機=“中等” and學習基礎(chǔ)=“差” then 行為特征為C；

（4）if（學習策略=“合格”）or （學習動機=“中等” and學習基礎(chǔ)=“差”學習基礎(chǔ)=“差”）then 行為特征為D。

3結(jié)語

在目前都迫切希望能夠建立提供個性化的推薦和指導的網(wǎng)絡學習系統(tǒng)的情況下，引入數(shù)據(jù)挖掘理論中的決策樹算法，對網(wǎng)絡學習系統(tǒng)中網(wǎng)絡學習者訪問行為進行分析，建立網(wǎng)絡學習行為特征模型。實驗表明應用此數(shù)據(jù)挖掘算法構(gòu)造簡單、能正確分類，處理速度較快，有利于設計個性化的網(wǎng)絡學習資源、適應性的學習過程、靈活的學習平臺。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于C4.5決策樹算法的網(wǎng)絡學習行為研究