顧婭軍 賈小林
摘要:現(xiàn)在基于互聯(lián)網(wǎng)的“教”和“學(xué)”發(fā)展得非常迅速,同時(shí)網(wǎng)絡(luò)爬蟲、數(shù)據(jù)挖掘等技術(shù)也逐漸變得成熟,但是目前國內(nèi)外業(yè)界還缺少利用這些技術(shù)捕捉多種學(xué)習(xí)資源,并進(jìn)行綜合分析和可視反饋的系統(tǒng)。平臺(tái)充分地利用了selenium框架、采用cookie的登錄方式,構(gòu)建了用于數(shù)據(jù)挖掘的自動(dòng)化爬蟲,完成了關(guān)于學(xué)習(xí)成績、教學(xué)視頻時(shí)長等數(shù)據(jù)的爬取工作;接著使用Dash框架和Python語言以及相關(guān)的工具包搭建了可視化平臺(tái),完成了關(guān)于學(xué)習(xí)成績、教學(xué)視頻時(shí)長等數(shù)據(jù)的分析及可視化展示,并以此為資源的使用者提供合適的學(xué)習(xí)及教學(xué)設(shè)計(jì)建議。
關(guān)鍵詞:教學(xué)資源;數(shù)據(jù)挖掘;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)預(yù)處理;可視化
中圖分類號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)03-0008-03
Abstract: Now the "teaching" and "learning" based on the Internet has been growin grapidly, at the same time web crawler、data mining technology is also become mature gradually, At present, the domestic and foreign industry still lacks the system that uses these technologies to capture the use information of various learning resources and carry out comprehensive analysis and visual feedback. This platform makes use of selenium framework and cookie login method to build automatic crawler for data mining, and completes the crawling work of data such as learning scores and teaching video duration.Then, the Dash framework, Python language and relevant toolkits were used to build a visualization platform, complete the analysis and visual display of data such as academic performance, instructional video duration, etc., and provide appropriate learning and instructional design advice to resource users.
Key words:teaching resources; data mining;web crawler;data preprocessing; visualization
1引言
隨著互聯(lián)網(wǎng)的發(fā)展,基于網(wǎng)絡(luò)的“教”和“學(xué)”發(fā)展得非常迅速,特別是受2020年新冠疫情的影響,網(wǎng)絡(luò)教學(xué)呈現(xiàn)百花齊放的態(tài)勢,傳統(tǒng)的教師授課被打破;同時(shí)網(wǎng)絡(luò)爬蟲、數(shù)據(jù)挖掘等技術(shù)也逐漸變得成熟,在多個(gè)領(lǐng)域均有不錯(cuò)的表現(xiàn)。2016 年,我國教育部印發(fā)《教育信息化“十三五”規(guī)劃》明確提出“積極利用大數(shù)據(jù)等新技術(shù),采集和分析學(xué)生的日常學(xué)習(xí)情況,優(yōu)化教學(xué)模式,大幅提升信息化服務(wù)教育教學(xué)與管理的能力?!钡悄壳皣鴥?nèi)外業(yè)界對(duì)網(wǎng)絡(luò)教學(xué)資源的使用數(shù)據(jù)進(jìn)行捕捉并對(duì)其使用效能進(jìn)行綜合化分析的研究還較少。
本平臺(tái)以網(wǎng)絡(luò)課程《單片機(jī)原理與應(yīng)用》課程為例,用數(shù)據(jù)挖掘的自動(dòng)化爬蟲技術(shù)獲得其網(wǎng)絡(luò)教學(xué)資源使用數(shù)據(jù),利用selenium獲得的視頻數(shù)據(jù)、成績數(shù)據(jù)并進(jìn)行預(yù)處理,對(duì)成績和視頻數(shù)據(jù)進(jìn)行分析反饋,以直觀、可視化的方式為教師提供合適的教學(xué)設(shè)計(jì)建議,為學(xué)生推薦其弱勢科目。希望通過本文的拋磚引玉,為我國的網(wǎng)絡(luò)資源使用分析發(fā)展研究提供參考。
2網(wǎng)絡(luò)資源使用數(shù)據(jù)的爬取與預(yù)處理
網(wǎng)絡(luò)教學(xué)資源的利用,可以從很多數(shù)據(jù)上進(jìn)行反饋,比如學(xué)生觀看視頻的時(shí)間、作業(yè)成績、每道題的得分、論壇留言等。本平臺(tái)采用的爬蟲框架是selenium;它本身可以加載瀏覽器驅(qū)動(dòng),模擬用戶操作,然后把需求的靜態(tài)頁面加載進(jìn)來,相對(duì)傳統(tǒng)爬蟲框架比較簡單。
采集數(shù)據(jù)信息工作中爬蟲的流程包括:
1)確定要爬取網(wǎng)站的URL地址,將其放入網(wǎng)絡(luò)爬蟲的List。
2) 將List里的URL進(jìn)行DNS解析,獲取的該URL對(duì)應(yīng)的主機(jī)IP。
3) 通過selenium的driver.get(URL)函數(shù)將URL地址將其頁面(也就是這個(gè)頁面的HTML或者asp)加載下來。
4) 在用selenium的工具依照id選擇抽取,或者是根據(jù)class抽取等來獲得想要的數(shù)據(jù)。
5) 抽取結(jié)果按照設(shè)計(jì)的數(shù)據(jù)格式保存到csv格式的文件或數(shù)據(jù)庫中。
2.1 網(wǎng)絡(luò)資源使用數(shù)據(jù)的爬取
2.1.1學(xué)生視頻觀看數(shù)據(jù)的爬取
整個(gè)程序流程主要包括:請(qǐng)求數(shù)據(jù)、解析數(shù)據(jù)、保存數(shù)據(jù)。
1)請(qǐng)求數(shù)據(jù)。采用的是Selenium+Chromedriver的方式,Chrome為模擬瀏覽器。使用chrome瀏覽器的開發(fā)者工具分析目標(biāo)網(wǎng)頁的頁面結(jié)構(gòu),確定進(jìn)行數(shù)據(jù)請(qǐng)求的方法。首先通過Chrome()函數(shù)確定爬蟲程序Chromedriver的文件位置以及請(qǐng)求參數(shù);然后使用driver.get()函數(shù)請(qǐng)求目標(biāo)網(wǎng)站的URL,獲得網(wǎng)頁數(shù)據(jù)。
2)分析數(shù)據(jù)。使用Chrome瀏覽器,定位數(shù)據(jù)的位置,即通過開發(fā)者工具確定我們要爬取的數(shù)據(jù)的標(biāo)簽或者id,如:課程的章節(jié)信息位于標(biāo)簽內(nèi)且它用于區(qū)分的class是chaptername。然后通過selenium的.xpath()函數(shù)根據(jù).//span[contains(@class, "chaptertitle-")]/text()篩選定位到該數(shù)據(jù)并取得章節(jié)的文本值,轉(zhuǎn)化為字符串后返回該值。
3)保存數(shù)據(jù)。將爬蟲程序完全運(yùn)行后獲得的數(shù)據(jù)以sqlite格式進(jìn)行保存。(如圖1所示)
2.1.2? 其他學(xué)習(xí)資源數(shù)據(jù)的爬取
與學(xué)生視頻觀看數(shù)據(jù)的爬取方法類似,改變爬蟲的選取規(guī)則,選取不同的字段,即可獲得學(xué)生的成績數(shù)據(jù)、每道題的得分?jǐn)?shù)據(jù)。分別如圖2、3所示。
2.2 數(shù)據(jù)預(yù)處理
通過爬蟲工作獲得本平臺(tái)所要的原始數(shù)據(jù)后,需要對(duì)原始數(shù)據(jù)進(jìn)行一系列的運(yùn)算和分析,為后面的可視化做準(zhǔn)備:
1)若某學(xué)生因缺考導(dǎo)致成績數(shù)據(jù)為空,這時(shí)進(jìn)行空值填0的操作。
2)在將原始的成績數(shù)據(jù)經(jīng)過處理后,從數(shù)據(jù)庫種查詢并讀取出成績數(shù)據(jù),將其轉(zhuǎn)化為DataFrame數(shù)據(jù)類型,然后分別統(tǒng)計(jì)歌詞測試成績的及格人數(shù)和不及格人數(shù)、計(jì)算最高分和最低分,平均分,并對(duì)每道題的分值計(jì)算。
通過以上數(shù)據(jù)爬取和預(yù)處理,可以從目標(biāo)網(wǎng)站獲取到需要的數(shù)據(jù)資料:學(xué)生觀看教學(xué)視頻時(shí)長、學(xué)生考試成績、學(xué)生每道題得分情況。
3 可視化分析
根據(jù)大量事例表明,學(xué)習(xí)者往往對(duì)一個(gè)配有突出顏色和色彩的圖形印象深刻。將純數(shù)字或者是文字的數(shù)據(jù)采用圖表的呈現(xiàn)方式,有助于提高用戶對(duì)其印象,研究表明越是具有顯著吸引力的圖表和圖形色彩,越能提高用戶對(duì)數(shù)據(jù)的印象。一般來說,圖的記憶程度遠(yuǎn)遠(yuǎn)高于純數(shù)字的數(shù)據(jù)。本平臺(tái)在學(xué)生界面和老師界面分別給出數(shù)據(jù)分析結(jié)果及反饋建議。
3.1 學(xué)生界面
為了增加平臺(tái)對(duì)學(xué)生的吸引性和鼓勵(lì)學(xué)生們形成良好的競爭,平臺(tái)從趣味性下手,為學(xué)生界面設(shè)計(jì)了當(dāng)下年輕一輩喜歡的段位展示系統(tǒng),以此來表現(xiàn)他在班級(jí)所處的排名,該系統(tǒng)符合年輕人的審美標(biāo)準(zhǔn)的同時(shí)也會(huì)讓那些因?yàn)槎挝惶偷膶W(xué)生,從而有開始努力學(xué)習(xí)的動(dòng)力;而高段位的同學(xué)則會(huì)因?yàn)楸3之?dāng)前段位而不斷努力學(xué)習(xí)。
學(xué)生排名系統(tǒng)其影響排名的高低的因素非常多,本平臺(tái)采用Fisher–Yates隨機(jī)置亂算法,綜合考慮各單元的學(xué)習(xí)成績和觀看課程視頻的時(shí)間,按照不同的權(quán)重計(jì)算后得到最后排名。相對(duì)于傳統(tǒng)的直接按照成績分?jǐn)?shù)排名相比,該排名系統(tǒng)弱化了名次的影響采用段位的機(jī)制,而且從多方面考量,不再是以單一的成績數(shù)據(jù)作為評(píng)判標(biāo)準(zhǔn)。
Fisher–Yates隨機(jī)置亂算法又被人們稱作高納德置亂算法,按照常人思維來說就是生成一個(gè)有限集合的隨機(jī)排列。因?yàn)樗惴ㄊ菬o偏的,所以每個(gè)排列都是等可能的,F(xiàn)isher–Yates隨機(jī)置亂算法需要的時(shí)間正比于要隨機(jī)置亂的數(shù),不需要額為的存儲(chǔ)空間開銷。這里主要用于對(duì)影響排名的參數(shù)進(jìn)行權(quán)重的隨機(jī)分配。
首先我們確定了影響排名的因素為:4次自測題的成績,3部分教學(xué)內(nèi)容的觀看教學(xué)視頻總時(shí)長;一共7個(gè)參數(shù)分別記為x1,x2,x3,x4,x5,x6,x7。經(jīng)過洗牌算法得到的權(quán)重序列記為w1~w7。學(xué)生的綜合分?jǐn)?shù)記為y,則f(x)=y,即有如下公式:
同時(shí)系統(tǒng)有9個(gè)段位,從高到低依次為:倔強(qiáng)青銅、不屈白銀、榮耀黃金、尊貴鉑金、璀璨鉆石、超凡大師、杰出大師、至尊星耀、最強(qiáng)王者。設(shè)學(xué)生的綜合分?jǐn)?shù)上限是MaxY,則有如下劃分(表1)。
學(xué)生的段位顯示如圖4所示。
平臺(tái)構(gòu)建了學(xué)生的學(xué)習(xí)模型,給出學(xué)生的段位構(gòu)成雷達(dá)圖(如圖5所示),學(xué)生可以從雷達(dá)圖中看出自己的薄弱章節(jié),觀察了解自己的學(xué)習(xí)過程。平臺(tái)通過學(xué)生因人而異的學(xué)習(xí)診斷與個(gè)性化反饋信息,學(xué)習(xí)進(jìn)度和能力水平,推薦個(gè)性化學(xué)習(xí)材料,進(jìn)而提高班級(jí)教學(xué)質(zhì)量。
3.2 教師界面
傳統(tǒng)的分析考試成績僅僅是靠表格數(shù)據(jù),而且重點(diǎn)是放在了比較排名次上。新的評(píng)價(jià)體系淡化評(píng)價(jià)的甄別、選拔功能,強(qiáng)化評(píng)價(jià)的診斷、改進(jìn)與激勵(lì)功能。通過可視化量化進(jìn)行總體成績分析,更容易找出班級(jí)存在的問題,開出有效建議與精確指導(dǎo)的“藥劑”,才是應(yīng)該是分析班級(jí)成績真正價(jià)值所在。
3.2.1課程成績的可視化
在教師界面,使用者可以直觀地看到本課程的4次自測題及格情況統(tǒng)計(jì)(如圖6所示),發(fā)現(xiàn)該班級(jí)的同學(xué)在單片機(jī)原理與應(yīng)用的自測題2和自測題3的測試中,不及格人數(shù)比較偏多,說明這兩次測試的知識(shí)點(diǎn),該班級(jí)掌握情況比較差,希望教學(xué)者能夠重視起來,加強(qiáng)這部分的知識(shí)講解。對(duì)于總體來說該班級(jí)對(duì)于單片原理與應(yīng)用這門課程的知識(shí)掌握不算太好,有待加強(qiáng)。
3.2.2 學(xué)生每道題的得分情況分析
以自測題2為例,教學(xué)者可以看出題目10的掌握情況不是很好(如圖7所示),占班級(jí)7/8的人沒有拿到此題的分?jǐn)?shù);相對(duì)于其他,該班級(jí)對(duì)題目4,掌握得比較好,因?yàn)榘嗉?jí)3/4的人都拿到了此題的分?jǐn)?shù),所下教學(xué)者可以針對(duì)此次掌握的較差的題目相應(yīng)的知識(shí)點(diǎn)提醒學(xué)生進(jìn)行重點(diǎn)復(fù)習(xí)。
3.2.3 成績和觀看教學(xué)視頻時(shí)長關(guān)系的可視化分析
學(xué)生在觀看完成所有視頻課程之后完成相應(yīng)的測試,學(xué)生成績應(yīng)該與學(xué)生觀看課程視頻時(shí)長有關(guān)。一般來說,觀看相對(duì)應(yīng)教學(xué)視頻時(shí)間越長,對(duì)應(yīng)的測試成績應(yīng)該越高。
通過對(duì)本平臺(tái)學(xué)生成績及學(xué)習(xí)時(shí)間的統(tǒng)計(jì),教學(xué)者可以得出一個(gè)有趣的結(jié)果:并不是觀看教學(xué)視頻時(shí)間越長,成績就一定會(huì)越高,但是成績高的同學(xué),觀看視頻的時(shí)間普遍偏長。
與學(xué)生交流了解到:雖然有的學(xué)生質(zhì)量看的視頻多,但是并沒有認(rèn)真學(xué)習(xí)內(nèi)容,甚至有播放視頻時(shí)學(xué)生沒有在電腦旁的情況,導(dǎo)致成績不理想。所以成績和視頻時(shí)間的關(guān)系并非存在簡單的線性關(guān)系,觀看視頻時(shí)長越長是成績好的一個(gè)必要條件。影響成績的還有其他因素,比如學(xué)生觀看視頻的質(zhì)量、視頻講解的質(zhì)量等,如何提高學(xué)生觀看視頻的質(zhì)量以及教學(xué)組織的質(zhì)量,都值得教學(xué)者在后期教學(xué)中進(jìn)一步探討。
4 結(jié)論
本平臺(tái)對(duì)網(wǎng)絡(luò)課程《單片機(jī)原理與應(yīng)用》的學(xué)習(xí)視頻時(shí)長、學(xué)習(xí)成績等進(jìn)行分析,不僅可以通過對(duì)學(xué)生的學(xué)習(xí)進(jìn)度和能力水平進(jìn)行診斷,給出個(gè)性化反饋信息、推薦個(gè)性化學(xué)習(xí)材料,而且可幫助老師改進(jìn)課程的組織和指導(dǎo)能力,開發(fā)出更符合學(xué)生學(xué)習(xí)方式和習(xí)慣的教學(xué)資源,也可以為教育管理提供可靠的評(píng)價(jià)依據(jù),進(jìn)而采取有效的管理控制方式。
參考文獻(xiàn):
[1] 毛照道. 基于學(xué)習(xí)行為分析的慕課建設(shè)策略研究——以《交互式電子白板教學(xué)應(yīng)用》課程為例[J]. 教育現(xiàn)代化, 2017,4(29): 202-204,210.
[2] 張鈞薦. 基于F-Y置亂和Z-Z置亂的兩種圖像加密算法[D].大連:大連理工大學(xué),2019.
[3] 沈麗梅. 基于高校精品課程的網(wǎng)絡(luò)學(xué)習(xí)行為分析研究[J].科教文匯, 2009,8(24):29,214.
[4] 劉鵑梅,羊四清. MOOC環(huán)境下成人高等教育教學(xué)資源共享模式構(gòu)建[J].電腦知識(shí)與技術(shù), 2020,12(16):1-2.
[5] 張鸰. 數(shù)據(jù)挖掘技術(shù)在線上教學(xué)評(píng)價(jià)中的應(yīng)用[J].電腦知識(shí)與技術(shù), 2018,14(29):6-8.
【通聯(lián)編輯:王力】