馬偉杰
摘 要 網(wǎng)絡學習行為研究,是網(wǎng)絡教育研究的重要組成部分。采用先進的人工智能技術(shù)對網(wǎng)絡學習者的行為特征進行智能評價和預測,成為一個新興交叉研究領(lǐng)域。采用C4.5決策樹算法構(gòu)建網(wǎng)絡學習者行為特征系統(tǒng),挖掘行為特征和學習效果關(guān)系的歷史數(shù)據(jù),建立學習效果-行為特征智能評價模型。通過實驗仿真發(fā)現(xiàn),C4.5決策樹算法取得了較為理想的分類預測效果。
關(guān)鍵詞 C4.5算法 決策樹 網(wǎng)絡學習行為
中圖分類號:TP311.13 文獻標識碼:A
0引言
網(wǎng)絡學習系統(tǒng)以其開放的網(wǎng)絡平臺、多媒體數(shù)字化的學習資源、靈活自主的學習方式為人們提供了一種新型的學習平臺,可以滿足不同的學習者在不同的學習時間的個別化學習的需求。但大多數(shù)只是將教學資源放到了網(wǎng)絡上,沒有考慮到學習者的個性化特征。師生之間缺乏交流和反饋功能,教師難以對學生學習的過程進行控制,而學習者自己由于能力所限,也難以對學習過程進行自我控制,導致學習者信息迷航、情緒低下、學習熱情衰減等問題,嚴重影響學習效果。因此,師生雙方都迫切希望能夠建立提供個性化的推薦和指導的學習系統(tǒng)。
個性化指導的本質(zhì)就是根據(jù)不同學生的個性特征提供有針對性的服務。因此,其最基本也是最首要的問題就是如何對學生的行為進行分析,并從中挖掘?qū)W生的學習特征。學習者的個性特征直接影響著學習者的學習行為和學習效果。本文研究決策樹方法的經(jīng)典算法C4.5算法,將其應用于網(wǎng)絡學習者的網(wǎng)絡學習行為,建立數(shù)據(jù)挖掘模型,合理將網(wǎng)絡學習者分類,進而改進網(wǎng)絡學習系統(tǒng)的設計方案。
1 C4.5決策樹算法
決策樹是判斷給定樣本與某種屬性相關(guān)聯(lián)的決策過程的一種表示方法,從數(shù)據(jù)中生成分類器的一個特別有效的方法是生成一顆決策樹,該方法廣泛應用于數(shù)據(jù)挖掘和機器學習等領(lǐng)域,用來解決與分類相關(guān)的問題。決策樹表示法是應用最廣泛的邏輯方法。目前生成決策樹方法的算法主要有三種:CART算法,ID3算法,C4.5算法。其中C4.5算法具有分類速度快且精度高的特點,是發(fā)展得比較完善的一種決策樹算法。
C4.5算法是構(gòu)造決策樹分類器的一種有效算法,并最終可以形成產(chǎn)生式規(guī)則。C4.5算法的輸入是一張關(guān)系表,由若干不同的屬性及若干數(shù)據(jù)元組(稱為訓練樣本)組成。屬性分為兩部分:一部分作為判定對象屬性(判定樹中的非葉節(jié)點);另一部分作為分類對象屬性(判定樹中的葉節(jié)點)。C4.5算法采用信息熵的方法,比較各個判定對象屬性的信息增益率的大小,選擇信息增益率最大的屬性進行分類,遞歸生成一個判定樹。
設|S|為訓練集S的樣本總數(shù),共有m類樣本Ci(i=1,2,3,…,m,),|Ci|為類Ci中的樣本數(shù),設Pi=|Ci|/|S|是任意樣本屬于Ci的概率,訓練樣本分類屬性的總信息熵E(S1,S2,…,Sm)的計算公式為:
E(S1,S2,…,Sm)=-(pi*log2(pi))……………………公式(1)
設屬性A具有v個不同值{a1,a2,…,av},可以用屬性A將S劃分為個子集{S1,S2,…,Sm},其中Si包含S中這樣一些樣本,它們在A上具有值aj(j=1,2,…,v)。設|Sij|為Si類中Cj的樣本數(shù),以屬性A為分類所需的期望熵E(A)的計算公式為:
E(A)= (|S1j|+|S2j|+…+|Smj|)*E(S1j,S2j,…,Smj)/|S|……公式(2)
屬性A相對于類別集合C的信息增益Gain(C,A)的計算公式為:
Gain(C,A)=E(S1,S2,…,Sm)€HaE(A)………………公式(3)
屬性A相對于類別集合C的信息增益率GainRatio(C,A)的計算公式為:
GainRatio(C,A)=Gain(C,A)/E(S1j,S2j,…,Smj)……公式(4)
2 C4.5算法在個性化網(wǎng)絡學習中的應用
2.1問題定義與數(shù)據(jù)預處理
網(wǎng)絡學習行為的評定,一方面要根據(jù)網(wǎng)絡學習者的的學習基礎(chǔ),同時還要結(jié)合每位學習者的具體表現(xiàn)和實際情況,包括學習動機、學習策略。根據(jù)學習者的學習基礎(chǔ)、學習動機以及學習策略,建立C4.5決策樹的分類預測模型,實現(xiàn)對網(wǎng)絡學習行為特征進行評價。其實質(zhì)是:運用C4.5算法進行數(shù)據(jù)挖掘,獲得分類規(guī)律,即學習策略與學習行為特征之間的關(guān)系;推導出分類規(guī)則,即學習行為特征智能評價模型。文中網(wǎng)絡學習行為數(shù)據(jù)的采集采用問卷調(diào)查與web服務器端日志獲取兩種方法,學習者的學習動機與學習基礎(chǔ)采用問卷調(diào)查的方式來獲得,學習策略通過web日志獲取。
我們對計算機學院2013級210名學生2015-2016學年的《操作系統(tǒng)》網(wǎng)絡課程的學習行為建立數(shù)據(jù)表,進行分析和處理。其中包括字段:學號、學習基礎(chǔ)、學習動機、學習策略和行為特征。
對數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約等技術(shù),去掉數(shù)據(jù)集中的噪聲和不相關(guān)的信息,將數(shù)據(jù)源的數(shù)據(jù)類型與值轉(zhuǎn)換成統(tǒng)一的格式。
對行為特征等級屬性作處理:根據(jù)實際情況,將行為特征劃分為四種類型:
(1)變通型(用A表示):該類學生有著自主學習的經(jīng)理和能力,自我管理和自治能力較強,在學習過程中可以不受學習固定路徑的限制,自助選擇學習的知識點進行學習;
(2)順應型(用B表示):該類學生習慣于傳統(tǒng)教育模式,但缺乏學習的積極性,在學習策略上無主見,主要取決于網(wǎng)絡學習系統(tǒng)提供的學習策略和學習路徑安排;
(3)補充型(用C表示):該類學生喜歡學習,對課程有興趣,但基礎(chǔ)差,若在學習策略上符合要求,能夠按照既定的目標和路徑學習;
(4)逆反型(用D表示):該類學生學習基礎(chǔ)中等偏下,無學習動機,學習常常受外在動力的驅(qū)動。
定義學習基礎(chǔ):根據(jù)實際情況,將學習基礎(chǔ)劃分為優(yōu)良、中等、差三等,其中優(yōu)良表示問卷測試得分為介于80與100之間,中等得分介于60與79之間,差是低于60分。
定義學習策略:根據(jù)實際情況,將學習策略劃分為合格、不合格兩類。
定義學習動機:根據(jù)實際情況,將學習動機劃分為強、中等和弱三類。
數(shù)據(jù)預處理完成后,得到數(shù)據(jù)轉(zhuǎn)換后的網(wǎng)絡學習者學習行為信息表,如表1所示。由于記錄太多,表1僅顯示部分記錄。
我們隨機抽取預處理后的數(shù)據(jù)(共210個數(shù)據(jù))2/3的數(shù)據(jù),即140個數(shù)據(jù)樣本,作為C4.5算法的訓練集,剩下的1/3的數(shù)據(jù),即70個數(shù)據(jù)樣本,作為測試集。
2.2構(gòu)造決策樹
數(shù)據(jù)預處理后,開始歸納決策樹,此過程使用數(shù)據(jù)預處理得到的訓練集。根據(jù)前述的C4.5算法,將屬性學習策略、學習動機、學習基礎(chǔ)作為算法的對象屬性, 將屬性行為特征作為目標屬性,利用信息增益率的定義將屬性進行排列,具有最高信息增益率的屬性選作給定集合的測試屬性。創(chuàng)建一個根結(jié)點,并以該屬性標記,對屬性的每個值創(chuàng)建分枝,然后遞歸建樹,可構(gòu)造一棵決策樹,算法具體處理過程如下:
訓練樣本數(shù)據(jù)集中,共有140個元組,其中行為特征等級屬性(屬性值為A,B,C,D)每個屬性值所對應的子集中元組個數(shù)分別為S1=26,S2=30,S3=50,S4= 34。為了計算每一個決策屬性的信息增益,首先利用公式計算集合S分類的總信息熵:
E=(S1,S2,S3,S4)=E(26,30,50,34) =€Halog2€Halog2€Halog2€Halog2=1.035
然后計算每一個決策屬性的期望信息熵 。
對屬性“學習策略”,當學習策略=合格。
E=(S11,S21,S31,S41)=€Halog2€Halog2€Halog2€Halog2=1.234
當學習策略=不合格
E=(S12,S22,S32,S42)=€Halog2=0
由此得出學習策略的熵值
E(CL)=E(S11,S21,S31,S41)+E(S12,S22,S32,S42)=1.086
因此“學習策略”的信息增益為:
Gain(CL)=E(S1,S2,S3,S4)€HaE(TY)=0.059
屬性“學習策略”的信息增益率為:
GainRatio(CL)=Gain(CL)/(S1,S2,S3,S4)=0.052
同理得到屬性“學習動機”、“學習基礎(chǔ)”的信息增一律分別為:
GainRatio(DJ)=0.049,GainRatio(JC)=0.041。
由于屬性“學習策略”具有最大的信息增益率值,故而選擇該屬性作為決策樹的根節(jié)點。對于每一個分支,重復上述步驟生成決策樹。如圖1所示。因篇幅有限,只畫出第一層次單位的決策樹。
2.3分類規(guī)則提取
從決策樹中提取一等,二等,三等類的規(guī)則。分類規(guī)則如下:
(1)if學習策略=“合格” and 學習動機=“強” and 學習基礎(chǔ)=“優(yōu)良” then 行為特征為A;
(2)if學習策略=“合格” and 學習動機=“強” and學習基礎(chǔ)=“中等” then行為特征為B;
(3)if學習策略=“合格” and 學習動機=“中等” and學習基礎(chǔ)=“差” then 行為特征為C;
(4)if(學習策略=“合格”)or (學習動機=“中等” and學習基礎(chǔ)=“差”學習基礎(chǔ)=“差”)then 行為特征為D。
3結(jié)語
在目前都迫切希望能夠建立提供個性化的推薦和指導的網(wǎng)絡學習系統(tǒng)的情況下,引入數(shù)據(jù)挖掘理論中的決策樹算法,對網(wǎng)絡學習系統(tǒng)中網(wǎng)絡學習者訪問行為進行分析,建立網(wǎng)絡學習行為特征模型。實驗表明應用此數(shù)據(jù)挖掘算法構(gòu)造簡單、能正確分類,處理速度較快,有利于設計個性化的網(wǎng)絡學習資源、適應性的學習過程、靈活的學習平臺。