王芳 林龍成
摘要:當(dāng)下“互聯(lián)網(wǎng)+教育”已成為熱門話題,傳統(tǒng)教學(xué)方式已無法滿足在線學(xué)習(xí)的需要。如何借助教育數(shù)據(jù)挖掘技術(shù),促進學(xué)生個性化學(xué)習(xí),成為教師關(guān)注的熱點。對此,文中在研究了現(xiàn)有學(xué)習(xí)風(fēng)格模型的基礎(chǔ)上,使用Felder-Silverman模型進行學(xué)習(xí)風(fēng)格表示,并提出了基于遺傳算法和K-means聚類算法的學(xué)習(xí)者學(xué)習(xí)風(fēng)格分析方法,該方法彌補了K-means算法容易陷入局部最優(yōu)解的不足。最后,分別采用傳統(tǒng)K-means和GA-K-means分別對學(xué)習(xí)風(fēng)格數(shù)據(jù)進行分析,實驗結(jié)果表明,本文提出的GA-K-means算法在穩(wěn)定性和有效性方面都明顯好于傳統(tǒng)K-means聚類算法,對學(xué)習(xí)者學(xué)習(xí)風(fēng)格的分析更加準(zhǔn)確與全面,有利于教師在教學(xué)過程中分析學(xué)生的學(xué)習(xí)風(fēng)格,為學(xué)生提供個性化的學(xué)習(xí)支持和學(xué)習(xí)服務(wù)。
關(guān)鍵詞:遺傳算法;K-means聚類算法;個性化學(xué)習(xí);學(xué)習(xí)風(fēng)格分析
中圖分類號:TP301.6 文獻標(biāo)識碼:A 文章編號:1007-9416(2019)12-0106-03
0 引言
當(dāng)下,“互聯(lián)網(wǎng)+教育”已成為熱門話題,以機器學(xué)習(xí)和深度學(xué)習(xí)為技術(shù)支撐,對個性化學(xué)習(xí)進行了重塑和再造,了解學(xué)習(xí)者學(xué)習(xí)風(fēng)格是進行個性化學(xué)習(xí)的前提。本文在分析已有學(xué)習(xí)風(fēng)格模型的基礎(chǔ)上,設(shè)計了適用于在線學(xué)習(xí)環(huán)境的學(xué)習(xí)風(fēng)格模型,提出了基于遺傳算法的K-means聚類分析算法,彌補了K-means容易陷入局部最優(yōu)解的不足,并利用該算法對學(xué)習(xí)風(fēng)格數(shù)據(jù)進行分析,得到不同學(xué)習(xí)群體的屬性,為個性化學(xué)習(xí)推薦提供基礎(chǔ)。
1 學(xué)習(xí)風(fēng)格表示
從學(xué)習(xí)者的角度來看,學(xué)習(xí)風(fēng)格(Learning Style,LS)被認為是影響學(xué)習(xí)者學(xué)習(xí)活動的最主要偏好。在已有的學(xué)習(xí)風(fēng)格模型中,常用的有Kolb學(xué)習(xí)風(fēng)格模型、Honey Mumford學(xué)習(xí)風(fēng)格模型和Felder-Silverman學(xué)習(xí)風(fēng)格模型。
本文使用Felder-Silverman學(xué)習(xí)風(fēng)格模型,按照四個維度對學(xué)習(xí)者偏好進行分類:主動與反思、感知與直覺、視覺與言語、順序與全局,學(xué)習(xí)風(fēng)格向量定義為:
LSi=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
式(1)中表示第i個學(xué)習(xí)者在第1個維度的得分。
本文通過問卷調(diào)查的方法,采集學(xué)生的學(xué)習(xí)風(fēng)格數(shù)據(jù)。設(shè)計了學(xué)習(xí)風(fēng)格量表,用于評估四個學(xué)習(xí)風(fēng)格維度,學(xué)習(xí)風(fēng)格量表由44個問題組成,每題從兩個選項(“a”或“b”)選擇一個。這些問題根據(jù)不同的維度分為四組,每組11個問題。表1是隨機抽取的4位學(xué)習(xí)者的問卷結(jié)果。
每個維度的分數(shù)是通過較大的數(shù)減較小的數(shù)來計算的,后面是較大數(shù)對應(yīng)的風(fēng)格類型所代表的字母。表1中學(xué)習(xí)者1的學(xué)習(xí)風(fēng)格結(jié)果為(3a,5b,7b,9a),對應(yīng)該學(xué)習(xí)者的學(xué)習(xí)風(fēng)格類型為“感知型+言語型+反思型+順序型”。本文將每個維度的學(xué)習(xí)風(fēng)格得分結(jié)果映射到1到12的實數(shù),如圖1所示,5b對應(yīng)9,則學(xué)習(xí)者1的學(xué)習(xí)風(fēng)格向量可以表示為LS1=(4,9,10,2)。
2 基于遺傳算法和K-means算法的GA-K-means算法設(shè)計
遺傳算法(Genetic Algorithm,GA)是一種借鑒生物界自然選擇和自然遺傳機制的隨機搜索算法。遺傳算法被廣泛應(yīng)用于提高人工智能技術(shù)的性能。結(jié)合遺傳算法能夠?qū)ふ胰肿顑?yōu)解的優(yōu)勢,本文利用遺傳算法初始化K-means的初始聚類中心點,提出基于遺傳算法的K-means聚類算法GA-K-means。
2.1 傳統(tǒng)K-means算法
K-means算法,也被稱為k-均值算法,是基于距離的聚類算法,采用距離作為相似性的評價指標(biāo),兩個數(shù)據(jù)點的距離越近,則相似度越大。計算樣本間的距離公式有歐氏距離、曼哈頓距離、余弦相似度等,其中最常用的是歐氏距離。
K-means算法基本思想是通過迭代將數(shù)據(jù)集劃分為不同的類簇,使得用不同類簇的均值來代表相應(yīng)各類樣本中心時所得的總體方差最小。誤差平方和準(zhǔn)則函數(shù)公式為:
(2)
式(2)中E表示樣本空間中所有數(shù)據(jù)點到聚類中的平方誤差的總和。p表示數(shù)據(jù)對象,Ci表示第i個類簇,mi表示第i個類簇的平均值。
2.2 優(yōu)化后的GA-K-means算法的具體流程
GA-K-means是在K-means聚類中利用遺傳算法選擇最優(yōu)的初始種子。
如圖2所示,首先系統(tǒng)生成初始種群,用于尋找全局最優(yōu)初始種子,遺傳算法對當(dāng)前種群進行選擇、交叉和變異等遺傳操作,不斷更新種群,直到滿足停止條件;然后根據(jù)輸出的初始聚類中心,使用K-means算法進行聚類,輸出聚類結(jié)果。
2.3 染色體編碼
本文采用實數(shù)編碼方式,使遺傳算法更接近問題空間,便于設(shè)計專門問題的遺傳算子,執(zhí)行較大空間的遺傳搜索,緩解“組合爆炸”的問題,改善了遺傳算法的計算復(fù)雜度。每個染色體由K個學(xué)習(xí)者學(xué)習(xí)風(fēng)格向量組成,K表示聚類中心數(shù)目,我們設(shè)定K值為5。每個染色體是一個1*20的實數(shù)序列,染色體的結(jié)構(gòu)如表2所示,前4位表示第一聚類中心的學(xué)習(xí)風(fēng)格向量,依次類推,最后4位表示第五聚類中心的學(xué)習(xí)風(fēng)格向量。
2.4 初始化種群
本文隨機初始化100組聚類中心,每組聚類中心由5個隨機的學(xué)習(xí)風(fēng)格向量組成。遺傳算法經(jīng)過一代又一代的進化來尋找最佳的染色體。在每一代中,它們通過使用遺傳算子從當(dāng)前種群中產(chǎn)生一個新種群。
2.5 適應(yīng)度函數(shù)設(shè)計
適應(yīng)度函數(shù)是促使遺傳算法收斂到最優(yōu)解的一個因素。我們選擇總最小距離函數(shù)作為染色體強度的適應(yīng)度函數(shù),以找到K-means算法的最優(yōu)初始種子。適應(yīng)度函數(shù)定義如下:
(3)
式(3)中Gi表示第i個聚類,Lj表示屬于Gi的學(xué)習(xí)者,LSj表示第j個學(xué)習(xí)者Lj的學(xué)習(xí)風(fēng)格向量,gj表示Gj的聚類中心。適應(yīng)度函數(shù)Fit表示每個學(xué)習(xí)者到各自聚類中心的距離的和。適應(yīng)度函數(shù)Fit越小,說明初始聚類中心的選擇越好。
在本算法中,將迭代100次作為停止標(biāo)準(zhǔn)之一。100代以后,以適應(yīng)值最小的染色體作為最終輸出。同時還設(shè)計了以下停止條件:如果最佳染色體的適應(yīng)值連續(xù)10代不變,則遺傳算法的過程將停止。
2.6 遺傳算子選擇
本文使用選擇、交叉、變異算子,交叉算子通過雙親染色體交換有意義的遺傳物質(zhì)來產(chǎn)生兩個新的后代,變異算子通過向種群中引入一個全新的成員來維持種群的遺傳多樣性。
2.6.1 選擇算子
選擇操作通過適應(yīng)度選擇優(yōu)質(zhì)個體,拋棄劣質(zhì)個體,體現(xiàn)了“適者生存”的生物法則。常見的選擇操作主要有:輪盤賭選擇、排序選擇、最優(yōu)個體保存及隨機聯(lián)賽選擇。本文采用輪盤賭選擇方式,某染色體被選的概率Pc為:
Pc=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)
式(4)中f(xi)表示第i個染色體的適應(yīng)度值;∑f(xi)表示種群中所有染色體適應(yīng)度值之和。
2.6.2 交叉算子
交叉是指兩個染色體按照某種方式交換部分基因信息,從而產(chǎn)生兩個新的染色體。常用的交叉方法有:單點交叉、雙點交叉、均勻交叉及算術(shù)交叉。本文使用單點交叉,從其中可能的三個交叉點P1、P2、P3、P4中隨機選擇一個交叉點。交叉操作如圖3所示,其中P2是所選交叉點。
2.6.3 變異算子
變異是指以一定概率隨機改變?nèi)旧w編碼串中部分基因值,形成新的個體。常用的變異方法有:基本位變異、均勻變異、二元變異及高斯變異。本文采用基本位變異方法,從五種可能性(I到V)中選擇一個隨機基因組(四位),并根據(jù)學(xué)習(xí)風(fēng)格情境,使用相反選擇答案得到的4位編碼串替換它。變異操作如圖4所示,IV基因被反向基因組(7 8 10 6)替換。
2.7 K-means聚類
(1)以遺傳算法得到的最優(yōu)解作為初始聚類中心。(2)計算所有數(shù)據(jù)對象到這k個初始聚類中心的距離,并將數(shù)據(jù)劃歸到離其最近的那個中心所在的類。(3)重新計算已經(jīng)得到的各個簇的質(zhì)心,作為新的聚類中心。(4)計算公式(2)中的準(zhǔn)則函數(shù)E,若E不滿足,重復(fù)第2、3步,直到聚類的中心不再移動,輸出聚類結(jié)果。
3 實證分析
為了檢驗本文提出的算法的有效性及對學(xué)生學(xué)習(xí)風(fēng)格進行分析,本文使用MATLAB進行仿真實驗,實驗環(huán)境的硬件配置為Inter(R)Core(TM)i5-3470 CPU@3.20GHz 4.00GB,開發(fā)環(huán)境為 MATLAB R2016a。
3.1 實驗一:有效性分析
本文為了對學(xué)習(xí)者學(xué)習(xí)風(fēng)格進行分析,提出一種基于遺傳算法和K-means聚類算法GA-K-means的分析算法。下面采用傳統(tǒng)K-means和優(yōu)化后的GA-K-means分別對學(xué)習(xí)風(fēng)格數(shù)據(jù)進行分類,驗證本文提出的GA-K-means算法的有效性。實驗結(jié)果如圖5所示。
可以看出,傳統(tǒng)K-means算法雖然收斂速度快,但是容易陷入局部最優(yōu)解,而本文提出的GA-K-means算法則能夠避免早熟現(xiàn)象,且收斂平穩(wěn),收斂效果明顯優(yōu)于傳統(tǒng)K-means算法。
為了進一步驗證算法的有效性,對傳統(tǒng)K-means算法和本文提出的GA-K-means算法分別進行10次實驗,實驗結(jié)果如表3所示。其中匹配度計算公式(5)為:
匹配度=每次實驗都被分到同一類別的學(xué)習(xí)者個數(shù)/學(xué)習(xí)者總數(shù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
從表3可以看出,由于傳統(tǒng)K-means算法對初始聚類中心的選擇比較敏感,導(dǎo)致每次聚類結(jié)果都有很大差異,10次實驗結(jié)果的匹配度較低,而本文提出的GA-K-means算法匹配度較高,具有較好的穩(wěn)定性。
3.2 實驗二:結(jié)果分析
學(xué)習(xí)者學(xué)習(xí)風(fēng)格聚類結(jié)果如表4所示。
可以看出,學(xué)習(xí)者被分為五類:學(xué)習(xí)群體1(直覺+視覺+主動+全局)、學(xué)習(xí)群體2(感知+視覺+主動+全局)、學(xué)習(xí)群體3(感知+言語+反思+順序)、學(xué)習(xí)群體4(直覺+言語+主動+全局)以及學(xué)習(xí)群體5(感知+視覺+反思+全局)。學(xué)習(xí)群體1的學(xué)習(xí)者喜歡通過圖表、視頻等方式學(xué)習(xí)新知識,能夠很好的安排自己的學(xué)習(xí)過程。他們傾向于與人討論,參與團隊合作,在做中學(xué)的過程中尋找問題的答案,更有創(chuàng)新性;學(xué)習(xí)群體2的學(xué)習(xí)者傾向于按照教師提供的學(xué)習(xí)路徑進行學(xué)習(xí),他們習(xí)慣于學(xué)習(xí)微課視頻等,然后在與同學(xué)交流過程中掌握知識;學(xué)習(xí)群體3的學(xué)習(xí)者傾向于通過文字信息獲得知識,如教學(xué)PPT、導(dǎo)學(xué)案等,他們會邊學(xué)習(xí)邊思考,而不是與其他同學(xué)交流;學(xué)習(xí)群體4的學(xué)習(xí)者喜歡學(xué)習(xí)新的知識,有創(chuàng)新性,擅長理解抽象的概念,喜歡解決復(fù)雜有難度的問題;學(xué)習(xí)群體5的學(xué)習(xí)者傾向與通過視頻、圖表、圖片等獲得知識,注重細節(jié),有耐心,能夠按部就班的完成學(xué)習(xí)任務(wù)。
4 結(jié)語
本文在分析學(xué)習(xí)者學(xué)習(xí)風(fēng)格表示和傳統(tǒng)K-means算法的基礎(chǔ)上,提出了基于遺傳算法和K-means聚類算法的學(xué)習(xí)者學(xué)習(xí)風(fēng)格分析方法。該方法彌補了K-means在尋找全局最優(yōu)解方面的不足,結(jié)合遺傳算法對學(xué)習(xí)者學(xué)習(xí)風(fēng)格進行分析研究。實驗結(jié)果表明,本文提出的GA-K-means算法在穩(wěn)定性和有效性方面都明顯好于傳統(tǒng)K-means聚類算法,對學(xué)習(xí)者學(xué)習(xí)風(fēng)格的分析更加準(zhǔn)確與全面,有利于教師在教學(xué)過程中分析學(xué)生的學(xué)習(xí)風(fēng)格,為學(xué)生提供個性化的學(xué)習(xí)支持和學(xué)習(xí)資源。
參考文獻
[1] 王維,董永權(quán),胡玥.基于大數(shù)據(jù)的個性化學(xué)習(xí)分析模型構(gòu)建[J].黑龍江畜牧獸醫(yī),2019(20):166-169.
[2] Bourkoukou O,Essaid El Bachari,Mohamed El Adnani. A Recommender Model in E-learning Environment[J].Arabian Journal for Science & Engineering,2016,42(2):1-11.
[3] 劉婷.基于粒子群和K-均值聚類算法的學(xué)生心理分析方法研究[J].電子設(shè)計工程,2018,6(19):75-79.
[4] 喬興媚,楊娟.學(xué)習(xí)風(fēng)格用戶模型分類及其自適應(yīng)策略[J].現(xiàn)代教育技術(shù),2019,29(01):100-106.
Study on Learning Style Analysis Based on Genetic Algorithm and K-means Algorithm
WANG Fang,LIN Long-cheng
(Nantong Health Branch,Jiangsu Union Technical Institute,Nantong? Jiangsu? 226010)
Abstract:At present, "Internet + education" has become a hot topic. Traditional teaching methods can no longer meet the needs of online learning. With the help of education data mining technology, how to promote students' personalized learning has become a hot topic of teachers' attention. In this paper, on the basis of studying the existing learning style model, we use the Felder Silverman model to express the learning style, and propose a learning style analysis method based on genetic algorithm and K-means clustering algorithm, which makes up for the shortage that K-means algorithm is easy to fall into the local optimal solution. Finally, the traditional K-means and GA-K-means are used to analyze the learning style data respectively. The experimental results show that the GA-K-means algorithm proposed in this paper is significantly better than the traditional K-means clustering algorithm in terms of stability and effectiveness. The analysis of the learning style of learners is more accurate and comprehensive, which is beneficial for teachers to analyze students' learning style in the teaching process and provide personalized learning support and learning resources.
Key words:Genetic algorithm;K-means clustering algorithm;personalized learning;learning style analysis