摘 要:本文的目的是實(shí)現(xiàn)在基于混合式課堂中,學(xué)生通過線上學(xué)習(xí)而產(chǎn)生的短消息文本的聚類算法比較。首先通過手機(jī)QQ聊天記錄的收集獲得我們需要的短消息文本;然后使用最經(jīng)典的k-means算法對(duì)我們的短消息文本進(jìn)行聚類,通過對(duì)聚類結(jié)果的分析了解到學(xué)生對(duì)本節(jié)內(nèi)容的疑惑,對(duì)小組中學(xué)生活躍的程度比較,以及學(xué)生的情感變化等研究。通過對(duì)文本的聚類可以大大的提高了教師的工作效率,減輕了教師的負(fù)擔(dān),更能夠有的放矢的針對(duì)某組的具體問題進(jìn)行因材施教的教學(xué)。
關(guān)鍵詞:k-means算法;混合式教學(xué);短消息文本
DOI:10.16640/j.cnki.37-1222/t.2017.01.194
1 引言
華南師范大學(xué)的李克東教授認(rèn)為,混合式學(xué)習(xí)是我們教學(xué)中多種形式的混合:線上線下的混合,過程性評(píng)價(jià)和終結(jié)性評(píng)價(jià)的混合,學(xué)生與學(xué)生共同探討的混合。[1]隨著信息時(shí)代的到來,以及我們線上學(xué)習(xí)的推廣,產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)的增長之快,數(shù)量之大是難以想象的。這些數(shù)據(jù)蘊(yùn)含的信息也是我們所不能想象的,對(duì)文本的處理以及有很多年的歷史了,是相對(duì)比較成熟的了,但把它有效的應(yīng)用到我們混合式學(xué)習(xí)中是本文檔一個(gè)創(chuàng)新點(diǎn)。隨著學(xué)生線上學(xué)習(xí)而產(chǎn)生了大量的短消息文本數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行聚類從而發(fā)現(xiàn)學(xué)生的問題及不足,教師通過整理可以大大增加課堂的效率,而且可以通過學(xué)生的問題有的放矢的整理出適合本班的教輔材料。
2 短消息文本的介紹
由于我們使用的語料是學(xué)生的聊天記錄,它屬于短消息文本,其具有字?jǐn)?shù)少,表達(dá)不明確,書寫不規(guī)范的特點(diǎn)。然而從這些語言表達(dá)少,又不規(guī)范的的短消息文本中識(shí)別其語義還是有一定難度的。其次由于短消息文本是學(xué)生們討論的過程,所以其口語化十分嚴(yán)重,例如現(xiàn)在網(wǎng)絡(luò)中使用較廣泛的“債見”;“好咩”;“歐克”;“鴨梨”等。
(1)不規(guī)范性:短消息文本由于是截取學(xué)生的聊天記錄,聊天的過程是在一種輕松愉悅的情況下進(jìn)行的,然而書寫出來并沒有正式郵件那么規(guī)范,會(huì)出現(xiàn)錯(cuò)誤的編寫,用語不規(guī)范等特點(diǎn)。如不規(guī)范縮略語(圍脖一微博)(曬一share)等。
(2)不確定性:由于聊天是大家彼此交流互動(dòng)的過程,不同于以往的信件存在固定的主題,圍繞一個(gè)話題展開的,我們短信息文本存在話題的不確定性。
通過以上介紹我們可以了解到短消息的不規(guī)范性、不確定性口語化等特點(diǎn)都給我們聚類帶來了一定的困難。如何不依賴以往詞庫排除不規(guī)范性帶來的干擾而更好的挖掘最新的,有用的信息。如何利用短消息文本自身的特點(diǎn)提高聚類質(zhì)量。如何在海量數(shù)據(jù)聚類中保證算法執(zhí)行的效率等都是值得研究的問題。
3 文本的預(yù)處理
收集到的預(yù)料是同學(xué)們使用自然語言描述的,計(jì)算機(jī)無法直接識(shí)別它的意思,因此要將TXT格式轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的數(shù)據(jù)格式。
(1)文本的去噪:收集到的文本已TXT形式進(jìn)行保存,從文本中去除與內(nèi)容無關(guān)的的標(biāo)記,主要為后面分詞做準(zhǔn)備。
(2)文本分詞:對(duì)文本進(jìn)行分詞,本文只有使用的是中科院的分詞系統(tǒng),基于字符串匹配的分詞技術(shù)。
(3)文本的表示:文本進(jìn)行分詞后再把它表示為計(jì)算機(jī)可以識(shí)別的格式,本文采用的文本模型:向量空間模型。
(4)文本特征提?。喊凑找欢ǖ囊?guī)則從原來的文本特征集合中選出一部分最有效的特征。
4 使用K-Means進(jìn)行聚類
本文之所以選用k-means算法,是由于該算法是一個(gè)應(yīng)用比較廣泛而且較為成熟的聚類算法了它是由MacQueen提出的一種非監(jiān)督實(shí)時(shí)聚類算法,能夠處理大量的數(shù)據(jù),而且相對(duì)于其他算法來說比較簡單易行。該算法的特別之處在于算法運(yùn)行前必須先指定聚類數(shù)目K及初始聚類中心和收斂條件或者迭代次數(shù)。[2]根據(jù)一定的相似性度量標(biāo)準(zhǔn),將每一條數(shù)據(jù)分配到最近的聚類中心,形成新的類,然后以每一類的平均矢量作為這一類的新的聚類中心,將數(shù)據(jù)重新分配,反復(fù)迭代直到類收斂或達(dá)到最大的迭代次數(shù)。
K一Means算法描述[3]:輸入數(shù)據(jù):聚類簇的個(gè)數(shù)為K,其中包含了n個(gè)數(shù)據(jù)對(duì)象樣本集。輸出結(jié)果:滿足目標(biāo)函數(shù)K的聚類才能才能結(jié)束。
(1)初始聚類中心是由已知的n個(gè)數(shù)據(jù)對(duì)象中隨機(jī)選取的k個(gè)。
(2)將剩余的樣本點(diǎn)依次計(jì)算它與聚類中心的相似度,(在不同的應(yīng)用中可選擇不同的距離函數(shù)來衡量其相似度)將其相似度最近的分為一類。(3)要計(jì)算各個(gè)聚類的Mean值,可由步驟(2)得到的新的聚類集合計(jì)算。(4)重復(fù)步驟(2)(3)直到所有聚類的Mean值不再改變,聚類結(jié)束。
K-Means聚類算法最大的優(yōu)點(diǎn)是運(yùn)算比較交單,并且算法簡單快速。對(duì)于處理大數(shù)據(jù)有很強(qiáng)的伸縮性,時(shí)間復(fù)雜度近于線性。
K-means主要的缺點(diǎn)如下:(1)運(yùn)行速度。雖然通常情況下,k-means執(zhí)行的循環(huán)次數(shù)要少于數(shù)據(jù)對(duì)象的個(gè)數(shù)。但是對(duì)于不好的情況,它的時(shí)間復(fù)雜度將是超級(jí)多項(xiàng)式的。(2)K值的選取。在k-means中對(duì)于K值的選取是十分關(guān)鍵的,因?yàn)樵诔绦蜻\(yùn)行前要先給定K的大小。K值選取的不同,劃分的結(jié)果就不相同。(3)初始化K個(gè)中心點(diǎn)。它的的初始選取對(duì)于劃分結(jié)果亦非常關(guān)鍵。K-means對(duì)于數(shù)據(jù)不同的維度“一視同仁”,缺乏輕重之分。
5 算法的評(píng)價(jià)
聚類技術(shù)是沒有預(yù)先設(shè)定或者定義類別情況下進(jìn)行的一種無監(jiān)督的學(xué)習(xí)方法。因此,對(duì)聚類結(jié)果進(jìn)行客觀、有效的評(píng)價(jià)一直都是比較困難的。根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)不同一般分為兩類:①基于人工進(jìn)行判定;②利用目標(biāo)函數(shù)進(jìn)行判定。本文以人工進(jìn)行判定,其評(píng)定方法主要有F值、平均準(zhǔn)確率、熵等。
6 總結(jié)
本文通過使用K一Means算法對(duì)在混合式教學(xué)中學(xué)生線上產(chǎn)生的短消息文本進(jìn)行聚類,可以把學(xué)生一些不懂的問題聚類出來,可以大大減少教師工作量,提高工作效率。教師可以通過仔細(xì)研究聚類結(jié)果并且進(jìn)行總結(jié),在下一次上課時(shí)候有的放矢的給學(xué)生們進(jìn)行講解。
參考文獻(xiàn):
[1]王元彬.混合式學(xué)習(xí)的設(shè)計(jì)與應(yīng)用研究[D].山東:山東師范大學(xué)教育技術(shù)系,2006:p10.
[2]Jean-Francois Aujol,Antonin Chambolle. Dual Norms and Image Decomposition Models[J]. International Journal of Computer Vision , 2005 .
[3]王樂.短語消息聚類相關(guān)技術(shù)研究[D].國防科學(xué)技術(shù)大學(xué),2008.
基金項(xiàng)目:云南師范大學(xué)研究生科研創(chuàng)新基金項(xiàng)目“基于PMVS的三維重建點(diǎn)云模型修復(fù)研究”(YJS201663)
作者簡介:周赟(1989-),女,山東蓬萊人,碩士研究生,研究方向:混合式教學(xué)。