張 瑩 宋 磊 韓 丹 蔡永明
濟(jì)南大學(xué)商學(xué)院 山東濟(jì)南 250022
自美國(guó)麻省理工學(xué)院2001年啟動(dòng)開放課程運(yùn)動(dòng)后,各國(guó)200多所名校逐漸加入開放課程體系。近年來,國(guó)內(nèi)網(wǎng)絡(luò)教育平臺(tái)進(jìn)入飛速發(fā)展時(shí)期,目前較著名的平臺(tái)主要有網(wǎng)易公開課、MOOC學(xué)院、Coursera等。大量?jī)?yōu)質(zhì)課程資源在各大學(xué)習(xí)平臺(tái)聚集,涵蓋國(guó)內(nèi)外高校開設(shè)的精品開放課程,學(xué)習(xí)者可以通過網(wǎng)絡(luò)挑選課程并進(jìn)行自主學(xué)習(xí)。然而,面對(duì)海量的學(xué)習(xí)資源,學(xué)習(xí)者如何快速找到適合自己的課程資源成為一大難題。學(xué)習(xí)者大多通過課程簡(jiǎn)介選擇課程,很多人往往花費(fèi)了數(shù)小時(shí)之后才發(fā)現(xiàn)課程內(nèi)容、講授方式并不適合自己。因此,急需一種方法幫助學(xué)習(xí)者快速、有效地把握課程內(nèi)容、講課風(fēng)格及講授質(zhì)量。
在網(wǎng)絡(luò)課程內(nèi)容評(píng)價(jià)方面,早有研究者從各個(gè)角度給出評(píng)判。宋志明[1]提出傳承知識(shí)、啟迪智慧,滿足學(xué)習(xí)者的學(xué)習(xí)需求是網(wǎng)絡(luò)公開課的主要目的。劉進(jìn)軍(2011)[2]提出要建立完善的評(píng)價(jià)體系,實(shí)行學(xué)生和專家打分評(píng)價(jià)的模式。孫傳遠(yuǎn)(2013)分析愛課程網(wǎng)的評(píng)論內(nèi)容得出了開放課程質(zhì)量評(píng)價(jià)的八個(gè)維度,給出正面或負(fù)面的評(píng)價(jià)傾向[3]。上述研究主要停留在人工評(píng)價(jià)方面,面對(duì)海量課程信息該方法費(fèi)時(shí)費(fèi)力,效率不高。本文利用LDA文本挖掘技術(shù)通過抽取用戶評(píng)論的主題,獲取課程的內(nèi)容主題及用戶評(píng)論的情感傾向,為后來學(xué)習(xí)者提供課程選擇的重要依據(jù)。
潛在狄利克雷分配模型LDA是由DavidM.Blei等人在2003年提出的一種概率主題模型。其在PLSA基礎(chǔ)上,增加了文檔-主題分布及主題-特征詞的Dirichlet共軛先驗(yàn),生成一種更完備的概率主題模型。其貝葉斯生成圖如圖1所示。圖中,K為主題個(gè)數(shù),M為文檔總數(shù),Nm是第m個(gè)文檔的單詞總數(shù)。 是每個(gè)主題下詞的多項(xiàng)分布的 Dirichlet先驗(yàn)參數(shù),是每個(gè)文檔下主題的多項(xiàng)分布的 Dirichlet先驗(yàn)參數(shù)。Zm,n是第m個(gè)文檔中n個(gè)詞的主題,Wm,n是m個(gè)文檔中的n個(gè)詞。兩個(gè)隱含變量 m和 k分別表示第m個(gè)文檔下的主題分布和第k個(gè)主題下的單詞分布,前者是k維(k為主題總數(shù))向量,后者是v維向量(v為詞典中單詞的總數(shù))。
圖1 LDA貝葉斯生成模型圖
文檔的生成過程可描述為:首先,依據(jù)參數(shù) ,生成文檔-主題多項(xiàng)式分布 和主題-單詞多項(xiàng)式分布 ;其次,對(duì)第m篇文檔,隨機(jī)抽樣 得到文檔中每個(gè)詞的主題分布 m;根據(jù)所得每個(gè)詞所在的主題k,隨機(jī)抽樣 k到主題上的一個(gè)單詞。持續(xù)該過程直到生成整篇文檔。
本文以網(wǎng)易公開課浙江大學(xué)《王陽(yáng)明心學(xué)》為研究對(duì)象,該課程共9集,由浙江大學(xué)董平老師主講,目前在網(wǎng)易公開課平臺(tái)上有5874人參與學(xué)習(xí),579人跟帖評(píng)論。自課程站點(diǎn)(http://open.163.com/movie/2011/10/F/G/ M7GF17HPS_M7GHGQTFG.html)利用火車頭軟件抓取該頁(yè)面中的用戶評(píng)論數(shù)據(jù),部分評(píng)論數(shù)據(jù)如下面圖2所示:
圖2 《王陽(yáng)明心學(xué)》網(wǎng)絡(luò)評(píng)論數(shù)據(jù)
為保證分類過程中各環(huán)節(jié)的透明化,以減少中間過程的不可控因素,因此分詞方法主要采用中科院ICTCLAS分詞系統(tǒng)進(jìn)行分詞,經(jīng)過分詞、去除重復(fù)詞匯和停用詞、以及網(wǎng)頁(yè)非文字符號(hào),生成分析語料庫(kù)。對(duì)模型進(jìn)行訓(xùn)練以獲取最優(yōu)參數(shù)的設(shè)定,將LDA模型中超參數(shù) 和 設(shè)為默認(rèn)值 =50/k,=0.01,迭代次數(shù)設(shè)置為1000次。本文采用困惑度結(jié)合肉眼觀察結(jié)果,模型主題數(shù)最終確定為4個(gè)。從主題分布上看,比較突出的主題詞是“王陽(yáng)明”,查看相關(guān)主題詞主要有:“不錯(cuò)”、“內(nèi)容”、“平淡”、“唯心”……,分析可見該課程隸屬唯心主義范疇,內(nèi)容尚可,講課風(fēng)格比較平淡。
對(duì)網(wǎng)絡(luò)課程的在線評(píng)論進(jìn)行主題抽取,能快速獲取評(píng)論中的有效信息內(nèi)容,為后來學(xué)習(xí)者和主講教師提供了重要的參考依據(jù)。不足之處在于,受分詞影響,主題挖掘僅能獲取零散的用戶評(píng)論中的情感詞,未能全面刻畫課程不同緯度的精確情感傾向。因此,下一步擬針對(duì)網(wǎng)絡(luò)課堂在線評(píng)論展開意見挖掘研究。
[1]宋志明.視頻公開課“中國(guó)傳統(tǒng)哲學(xué)通論”建設(shè)的經(jīng)驗(yàn)與體會(huì)[J].中國(guó)大學(xué)教學(xué),2012,(1):13-15.
[2]劉進(jìn)軍.視頻公開課:有挑戰(zhàn)才有價(jià)值[J].中國(guó)教育網(wǎng)絡(luò),2011,(7):20.
[3]孫傳遠(yuǎn),劉玉梅.中國(guó)大學(xué)視頻公開課評(píng)價(jià)——基于愛課程網(wǎng)“精彩評(píng)論”的內(nèi)容分析研究[J].現(xiàn)代教育技術(shù),2013,23(12):91-95.