国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于C4.5決策樹算法的網(wǎng)絡學習行為研究

2016-10-31 21:32馬偉杰
科教導刊·電子版 2016年23期
關(guān)鍵詞:決策樹學習策略增益

馬偉杰

摘 要 網(wǎng)絡學習行為研究,是網(wǎng)絡教育研究的重要組成部分。采用先進的人工智能技術(shù)對網(wǎng)絡學習者的行為特征進行智能評價和預測,成為一個新興交叉研究領(lǐng)域。采用C4.5決策樹算法構(gòu)建網(wǎng)絡學習者行為特征系統(tǒng),挖掘行為特征和學習效果關(guān)系的歷史數(shù)據(jù),建立學習效果-行為特征智能評價模型。通過實驗仿真發(fā)現(xiàn),C4.5決策樹算法取得了較為理想的分類預測效果。

關(guān)鍵詞 C4.5算法 決策樹 網(wǎng)絡學習行為

中圖分類號:TP311.13 文獻標識碼:A

0引言

網(wǎng)絡學習系統(tǒng)以其開放的網(wǎng)絡平臺、多媒體數(shù)字化的學習資源、靈活自主的學習方式為人們提供了一種新型的學習平臺,可以滿足不同的學習者在不同的學習時間的個別化學習的需求。但大多數(shù)只是將教學資源放到了網(wǎng)絡上,沒有考慮到學習者的個性化特征。師生之間缺乏交流和反饋功能,教師難以對學生學習的過程進行控制,而學習者自己由于能力所限,也難以對學習過程進行自我控制,導致學習者信息迷航、情緒低下、學習熱情衰減等問題,嚴重影響學習效果。因此,師生雙方都迫切希望能夠建立提供個性化的推薦和指導的學習系統(tǒng)。

個性化指導的本質(zhì)就是根據(jù)不同學生的個性特征提供有針對性的服務。因此,其最基本也是最首要的問題就是如何對學生的行為進行分析,并從中挖掘?qū)W生的學習特征。學習者的個性特征直接影響著學習者的學習行為和學習效果。本文研究決策樹方法的經(jīng)典算法C4.5算法,將其應用于網(wǎng)絡學習者的網(wǎng)絡學習行為,建立數(shù)據(jù)挖掘模型,合理將網(wǎng)絡學習者分類,進而改進網(wǎng)絡學習系統(tǒng)的設計方案。

1 C4.5決策樹算法

決策樹是判斷給定樣本與某種屬性相關(guān)聯(lián)的決策過程的一種表示方法,從數(shù)據(jù)中生成分類器的一個特別有效的方法是生成一顆決策樹,該方法廣泛應用于數(shù)據(jù)挖掘和機器學習等領(lǐng)域,用來解決與分類相關(guān)的問題。決策樹表示法是應用最廣泛的邏輯方法。目前生成決策樹方法的算法主要有三種:CART算法,ID3算法,C4.5算法。其中C4.5算法具有分類速度快且精度高的特點,是發(fā)展得比較完善的一種決策樹算法。

C4.5算法是構(gòu)造決策樹分類器的一種有效算法,并最終可以形成產(chǎn)生式規(guī)則。C4.5算法的輸入是一張關(guān)系表,由若干不同的屬性及若干數(shù)據(jù)元組(稱為訓練樣本)組成。屬性分為兩部分:一部分作為判定對象屬性(判定樹中的非葉節(jié)點);另一部分作為分類對象屬性(判定樹中的葉節(jié)點)。C4.5算法采用信息熵的方法,比較各個判定對象屬性的信息增益率的大小,選擇信息增益率最大的屬性進行分類,遞歸生成一個判定樹。

設|S|為訓練集S的樣本總數(shù),共有m類樣本Ci(i=1,2,3,…,m,),|Ci|為類Ci中的樣本數(shù),設Pi=|Ci|/|S|是任意樣本屬于Ci的概率,訓練樣本分類屬性的總信息熵E(S1,S2,…,Sm)的計算公式為:

E(S1,S2,…,Sm)=-(pi*log2(pi))……………………公式(1)

設屬性A具有v個不同值{a1,a2,…,av},可以用屬性A將S劃分為個子集{S1,S2,…,Sm},其中Si包含S中這樣一些樣本,它們在A上具有值aj(j=1,2,…,v)。設|Sij|為Si類中Cj的樣本數(shù),以屬性A為分類所需的期望熵E(A)的計算公式為:

E(A)= (|S1j|+|S2j|+…+|Smj|)*E(S1j,S2j,…,Smj)/|S|……公式(2)

屬性A相對于類別集合C的信息增益Gain(C,A)的計算公式為:

Gain(C,A)=E(S1,S2,…,Sm)€HaE(A)………………公式(3)

屬性A相對于類別集合C的信息增益率GainRatio(C,A)的計算公式為:

GainRatio(C,A)=Gain(C,A)/E(S1j,S2j,…,Smj)……公式(4)

2 C4.5算法在個性化網(wǎng)絡學習中的應用

2.1問題定義與數(shù)據(jù)預處理

網(wǎng)絡學習行為的評定,一方面要根據(jù)網(wǎng)絡學習者的的學習基礎(chǔ),同時還要結(jié)合每位學習者的具體表現(xiàn)和實際情況,包括學習動機、學習策略。根據(jù)學習者的學習基礎(chǔ)、學習動機以及學習策略,建立C4.5決策樹的分類預測模型,實現(xiàn)對網(wǎng)絡學習行為特征進行評價。其實質(zhì)是:運用C4.5算法進行數(shù)據(jù)挖掘,獲得分類規(guī)律,即學習策略與學習行為特征之間的關(guān)系;推導出分類規(guī)則,即學習行為特征智能評價模型。文中網(wǎng)絡學習行為數(shù)據(jù)的采集采用問卷調(diào)查與web服務器端日志獲取兩種方法,學習者的學習動機與學習基礎(chǔ)采用問卷調(diào)查的方式來獲得,學習策略通過web日志獲取。

我們對計算機學院2013級210名學生2015-2016學年的《操作系統(tǒng)》網(wǎng)絡課程的學習行為建立數(shù)據(jù)表,進行分析和處理。其中包括字段:學號、學習基礎(chǔ)、學習動機、學習策略和行為特征。

對數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約等技術(shù),去掉數(shù)據(jù)集中的噪聲和不相關(guān)的信息,將數(shù)據(jù)源的數(shù)據(jù)類型與值轉(zhuǎn)換成統(tǒng)一的格式。

對行為特征等級屬性作處理:根據(jù)實際情況,將行為特征劃分為四種類型:

(1)變通型(用A表示):該類學生有著自主學習的經(jīng)理和能力,自我管理和自治能力較強,在學習過程中可以不受學習固定路徑的限制,自助選擇學習的知識點進行學習;

(2)順應型(用B表示):該類學生習慣于傳統(tǒng)教育模式,但缺乏學習的積極性,在學習策略上無主見,主要取決于網(wǎng)絡學習系統(tǒng)提供的學習策略和學習路徑安排;

(3)補充型(用C表示):該類學生喜歡學習,對課程有興趣,但基礎(chǔ)差,若在學習策略上符合要求,能夠按照既定的目標和路徑學習;

(4)逆反型(用D表示):該類學生學習基礎(chǔ)中等偏下,無學習動機,學習常常受外在動力的驅(qū)動。

定義學習基礎(chǔ):根據(jù)實際情況,將學習基礎(chǔ)劃分為優(yōu)良、中等、差三等,其中優(yōu)良表示問卷測試得分為介于80與100之間,中等得分介于60與79之間,差是低于60分。

定義學習策略:根據(jù)實際情況,將學習策略劃分為合格、不合格兩類。

定義學習動機:根據(jù)實際情況,將學習動機劃分為強、中等和弱三類。

數(shù)據(jù)預處理完成后,得到數(shù)據(jù)轉(zhuǎn)換后的網(wǎng)絡學習者學習行為信息表,如表1所示。由于記錄太多,表1僅顯示部分記錄。

我們隨機抽取預處理后的數(shù)據(jù)(共210個數(shù)據(jù))2/3的數(shù)據(jù),即140個數(shù)據(jù)樣本,作為C4.5算法的訓練集,剩下的1/3的數(shù)據(jù),即70個數(shù)據(jù)樣本,作為測試集。

2.2構(gòu)造決策樹

數(shù)據(jù)預處理后,開始歸納決策樹,此過程使用數(shù)據(jù)預處理得到的訓練集。根據(jù)前述的C4.5算法,將屬性學習策略、學習動機、學習基礎(chǔ)作為算法的對象屬性, 將屬性行為特征作為目標屬性,利用信息增益率的定義將屬性進行排列,具有最高信息增益率的屬性選作給定集合的測試屬性。創(chuàng)建一個根結(jié)點,并以該屬性標記,對屬性的每個值創(chuàng)建分枝,然后遞歸建樹,可構(gòu)造一棵決策樹,算法具體處理過程如下:

訓練樣本數(shù)據(jù)集中,共有140個元組,其中行為特征等級屬性(屬性值為A,B,C,D)每個屬性值所對應的子集中元組個數(shù)分別為S1=26,S2=30,S3=50,S4= 34。為了計算每一個決策屬性的信息增益,首先利用公式計算集合S分類的總信息熵:

E=(S1,S2,S3,S4)=E(26,30,50,34) =€Halog2€Halog2€Halog2€Halog2=1.035

然后計算每一個決策屬性的期望信息熵 。

對屬性“學習策略”,當學習策略=合格。

E=(S11,S21,S31,S41)=€Halog2€Halog2€Halog2€Halog2=1.234

當學習策略=不合格

E=(S12,S22,S32,S42)=€Halog2=0

由此得出學習策略的熵值

E(CL)=E(S11,S21,S31,S41)+E(S12,S22,S32,S42)=1.086

因此“學習策略”的信息增益為:

Gain(CL)=E(S1,S2,S3,S4)€HaE(TY)=0.059

屬性“學習策略”的信息增益率為:

GainRatio(CL)=Gain(CL)/(S1,S2,S3,S4)=0.052

同理得到屬性“學習動機”、“學習基礎(chǔ)”的信息增一律分別為:

GainRatio(DJ)=0.049,GainRatio(JC)=0.041。

由于屬性“學習策略”具有最大的信息增益率值,故而選擇該屬性作為決策樹的根節(jié)點。對于每一個分支,重復上述步驟生成決策樹。如圖1所示。因篇幅有限,只畫出第一層次單位的決策樹。

2.3分類規(guī)則提取

從決策樹中提取一等,二等,三等類的規(guī)則。分類規(guī)則如下:

(1)if學習策略=“合格” and 學習動機=“強” and 學習基礎(chǔ)=“優(yōu)良” then 行為特征為A;

(2)if學習策略=“合格” and 學習動機=“強” and學習基礎(chǔ)=“中等” then行為特征為B;

(3)if學習策略=“合格” and 學習動機=“中等” and學習基礎(chǔ)=“差” then 行為特征為C;

(4)if(學習策略=“合格”)or (學習動機=“中等” and學習基礎(chǔ)=“差”學習基礎(chǔ)=“差”)then 行為特征為D。

3結(jié)語

在目前都迫切希望能夠建立提供個性化的推薦和指導的網(wǎng)絡學習系統(tǒng)的情況下,引入數(shù)據(jù)挖掘理論中的決策樹算法,對網(wǎng)絡學習系統(tǒng)中網(wǎng)絡學習者訪問行為進行分析,建立網(wǎng)絡學習行為特征模型。實驗表明應用此數(shù)據(jù)挖掘算法構(gòu)造簡單、能正確分類,處理速度較快,有利于設計個性化的網(wǎng)絡學習資源、適應性的學習過程、靈活的學習平臺。

猜你喜歡
決策樹學習策略增益
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
基于單片機的程控增益放大器設計
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于Multisim10和AD603的程控增益放大器仿真研究
決策樹和隨機森林方法在管理決策中的應用
高中生數(shù)學自主學習策略探討
基于決策樹的出租車乘客出行目的識別
一種使用反向?qū)W習策略的改進花粉授粉算法
基于肺癌CT的決策樹模型在肺癌診斷中的應用
基于微博的移動學習策略研究
江西省| 喜德县| 长治市| 镇宁| 灵台县| 天水市| 神木县| 遵义市| 新干县| 股票| 怀安县| 松滋市| 通城县| 固始县| 仲巴县| 杭锦后旗| 忻城县| 韩城市| 德令哈市| 刚察县| 长岭县| 南昌市| 榆树市| 锦州市| 乳源| 西畴县| 济源市| 仙游县| 达尔| 漯河市| 疏附县| 辽阳市| 禹城市| 荃湾区| 莆田市| 江津市| 镇赉县| 海安县| 高雄县| 门头沟区| 龙井市|