任紅霞
摘要:文章針對(duì)電大在線平臺(tái)優(yōu)秀教學(xué)資源利用率不高,如何高效學(xué)習(xí)的問題,提出了把挖掘技術(shù)應(yīng)用于電大開放教育中,處理學(xué)生應(yīng)用電大在線平臺(tái)的數(shù)據(jù)問題,通過分析隱性數(shù)據(jù)得到有用的知識(shí),優(yōu)化教學(xué)資源,有利于教師決策教學(xué)。
關(guān)鍵詞:WEB挖掘;開放教育;信息處理
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)18-4312-02
電大遠(yuǎn)程教育中,基于網(wǎng)絡(luò)的教學(xué)模式運(yùn)行多年,大量的優(yōu)秀資源利用率不高,學(xué)生想學(xué)習(xí)苦于找不到相應(yīng)資源,地市電大教師只好引導(dǎo)學(xué)生網(wǎng)上學(xué)習(xí),但效果不佳。網(wǎng)絡(luò)課程產(chǎn)生大量數(shù)據(jù),如:學(xué)生網(wǎng)上學(xué)習(xí)行為,電大在線平臺(tái)的應(yīng)用情況等,這些數(shù)據(jù)十分分散,缺乏結(jié)構(gòu)化,如何找出這些隱性數(shù)據(jù)間的關(guān)系,是提高開放教育教學(xué)質(zhì)量的關(guān)鍵技術(shù),讓學(xué)生了解他要學(xué)習(xí)的知識(shí)網(wǎng)上有哪些資源,這些資源的利用情況,同一專業(yè)的其它學(xué)生學(xué)了哪些知識(shí),從海量的數(shù)據(jù)中找到學(xué)生學(xué)習(xí)有用的信息,提高學(xué)生的學(xué)習(xí)效率,節(jié)約寶貴的時(shí)間。
1 Web挖掘技術(shù)
數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取有用的知識(shí),Web挖掘也叫Web數(shù)據(jù)挖掘,是網(wǎng)絡(luò)和數(shù)據(jù)挖掘相結(jié)合,通過分析Web頁面及后臺(tái)數(shù)據(jù)庫中相關(guān)的數(shù)據(jù),找出隱含的知識(shí)。Web挖掘分為Web內(nèi)容的挖掘、Web結(jié)構(gòu)的挖掘和Web使用挖掘。
1.1 Web挖掘應(yīng)用于開放教育
開放教育中幾乎所有的教學(xué)活動(dòng)都通過網(wǎng)絡(luò)進(jìn)行,學(xué)生學(xué)習(xí)行為、師生的交互均記錄在電大在線平臺(tái)的日志和數(shù)據(jù)庫中,產(chǎn)生大量的數(shù)據(jù)文件,如何有效的分析和組織這些數(shù)據(jù),作為電大教育的教育評(píng)價(jià)、教學(xué)決策和個(gè)性化學(xué)習(xí)依據(jù)。用Web挖掘技術(shù)分析這些數(shù)據(jù),能很好解決開放教育中“數(shù)據(jù)豐富,知識(shí)貧乏”的現(xiàn)象。
算法是數(shù)據(jù)挖掘的核心,Web挖掘算法和數(shù)據(jù)挖掘算法基本相同,常用的有:回歸分析、貝葉斯分析、決策樹算法、聚類分析、關(guān)聯(lián)規(guī)則算法等等。Web挖掘工具依據(jù)適用性、易用性和兼容性的原則,選擇Google公司開發(fā)的Google Analytics,因?yàn)樗敲赓M(fèi)的網(wǎng)絡(luò)分析工具,功能強(qiáng)大、簡(jiǎn)單實(shí)用,能統(tǒng)計(jì)和分析網(wǎng)站訪問者、訪問量、訪問內(nèi)容等,還能生成報(bào)表。
1.2 Web挖掘的教學(xué)特點(diǎn)
基于Web挖掘的教學(xué)突出特點(diǎn)是:
1)交互性強(qiáng),體現(xiàn)在學(xué)生與教師、教師與教師、教師與專家的交互。
2)動(dòng)態(tài)性強(qiáng),各種學(xué)習(xí)資源都是動(dòng)態(tài)的,都能下載和上傳,最新信息也動(dòng)態(tài)更新,學(xué)生能及時(shí)找到最新的資源和信息。
3)易實(shí)現(xiàn)協(xié)作學(xué)習(xí),學(xué)生根據(jù)劃分的學(xué)習(xí)小組協(xié)作完成課題項(xiàng)目等,非常方便。
4)易實(shí)現(xiàn)個(gè)性化學(xué)習(xí),學(xué)生根據(jù)自己的學(xué)習(xí)時(shí)間和習(xí)慣安排學(xué)習(xí)計(jì)劃,該技術(shù)也會(huì)根據(jù)學(xué)生的安排構(gòu)建動(dòng)態(tài)教學(xué)內(nèi)容。學(xué)生不再被動(dòng)地接受知識(shí),會(huì)主動(dòng)獲取相關(guān)信息,該技術(shù)會(huì)推薦相關(guān)的學(xué)習(xí)資源和學(xué)習(xí)建議,真正實(shí)現(xiàn)因材施教。
1.3 Web挖掘?qū)嵗?/p>
1)Web服務(wù)器日志挖掘
這里以Web日志挖掘?yàn)槔?,電大在線平臺(tái)應(yīng)用的是Web服務(wù)器,所以我們談?wù)刉eb服務(wù)器日志挖掘。Web服務(wù)器日志是指在服務(wù)器在運(yùn)行時(shí)生成的日志文件,如:代理日志、訪問日志、引用日志、錯(cuò)誤日志等。Web服務(wù)器將客戶的請(qǐng)求發(fā)出的同時(shí)又把本次的請(qǐng)求寫入日志,所以說Web服務(wù)器日志忠實(shí)地記錄著用戶訪問網(wǎng)站的蹤跡。它包含用戶訪問的IP地址、用戶的域名、時(shí)間和日期、訪問網(wǎng)頁的連接、訪問方法、訪問結(jié)果(成功、失敗、錯(cuò)誤)、被訪問頁的文件名等。
2)日志挖掘的任務(wù)
日志挖掘的主要任務(wù)是統(tǒng)計(jì)查詢分析和智能查詢分析。
統(tǒng)計(jì)查詢分析主要進(jìn)行網(wǎng)站點(diǎn)擊、客戶和流量的分析。統(tǒng)計(jì)查詢分析是低次層的數(shù)據(jù)分析,它是深層次數(shù)據(jù)分析的基礎(chǔ),其結(jié)果對(duì)于優(yōu)化站點(diǎn)結(jié)構(gòu)、提高系統(tǒng)性能和市場(chǎng)決策有很大的幫助。
智能查詢分析通過發(fā)現(xiàn)數(shù)據(jù)庫中的規(guī)則、模式和其他知識(shí),根據(jù)序列模式和關(guān)聯(lián)規(guī)則進(jìn)行聚類分析,把分析結(jié)果智能推薦給用戶,據(jù)此把用戶分類,并根據(jù)分類后用戶的公共屬性分配不同的商務(wù)活動(dòng)。
3)Web服務(wù)器日志挖掘的過程
Web服務(wù)器日志記錄著訪問該Web服務(wù)器的數(shù)據(jù)流信息,保存著每次訪問Web頁面的日志項(xiàng)。其挖掘的過程大體分為數(shù)據(jù)預(yù)處理、挖掘算法實(shí)施、模式分析、可視化四個(gè)階段。數(shù)據(jù)預(yù)處理就是刪除一些與挖掘算法無關(guān)的數(shù)據(jù),根據(jù)用戶的IP地址、訪問路徑、會(huì)話、注冊(cè)信息等識(shí)別用戶。把預(yù)處理的數(shù)據(jù)根據(jù)挖掘算法進(jìn)行模式識(shí)別,以序列模式挖掘?yàn)槔f明,它主要應(yīng)用于會(huì)話內(nèi)部的網(wǎng)頁間的時(shí)間相關(guān)性問題,通過Web挖掘技術(shù)分析日志,找出用戶訪問頻繁的序列,得到結(jié)果。Web日志挖掘過程如圖1。
圖1Web日志挖掘過程
當(dāng)用戶向服務(wù)器發(fā)出請(qǐng)求后,服務(wù)器端根據(jù)用戶的IP地址、瀏覽器類型和請(qǐng)求的URL等信息返回到客戶端,如有錯(cuò)誤將返回錯(cuò)誤代碼,最后生成日志文件,包括訪問信息和錯(cuò)誤信息。
2 Web服務(wù)器日志挖掘系統(tǒng)
Web服務(wù)器日志挖掘系統(tǒng)由創(chuàng)建模式庫、實(shí)時(shí)智能推薦和管理員指導(dǎo)模塊組成。創(chuàng)建模式庫模塊是根據(jù)Web日志挖掘算法找出用戶的瀏覽模式,并維護(hù)和更新用戶的行為模式。實(shí)時(shí)智能推薦模塊是根據(jù)模式庫中的模式和用戶的瀏覽行為實(shí)時(shí)并智能地推薦用戶感興趣的內(nèi)容。管理員指導(dǎo)模塊幫助網(wǎng)管人員優(yōu)化網(wǎng)站結(jié)構(gòu),方便用戶,提高網(wǎng)站訪問量。
模式庫的創(chuàng)建過程。把Web服務(wù)器日志、Web文檔等數(shù)據(jù)源經(jīng)過數(shù)據(jù)預(yù)處理,生成用戶會(huì)話文件,把這些會(huì)話文件經(jīng)過Web日志挖掘算法的處理,找出用戶的訪問模式(如頁面聚類、用戶聚類、頻繁訪問頁組等),把這些訪問模式存于模式庫中,如發(fā)現(xiàn)與事實(shí)不符或有偏差,達(dá)不到預(yù)期結(jié)果,可根據(jù)反饋重復(fù)以上過程,甚至重開始。因此說創(chuàng)建模式庫是一個(gè)循環(huán)往復(fù)的過程,需要專家參與。
智能推薦過程。根據(jù)當(dāng)前用戶的訪問情況,在模式庫中查找與之相匹配的模式,并動(dòng)態(tài)地推薦頁面集合,這些都是用戶感興趣并還未訪問到的頁面,這些推薦和用戶的請(qǐng)求集成在一起智能地推薦給用戶。
開放教育中使用的電大在線平臺(tái)包括以下基本模塊:公開討論區(qū),網(wǎng)上會(huì)議室,網(wǎng)上教學(xué)活動(dòng)、校務(wù)公開、教學(xué)軟件、教學(xué)資源、網(wǎng)上作業(yè)與考核、模擬實(shí)驗(yàn)等。學(xué)生利用該平臺(tái)進(jìn)行學(xué)習(xí)、做作業(yè)、互動(dòng)交流等。系統(tǒng)管理員負(fù)責(zé)上傳教學(xué)資源、作業(yè)和實(shí)驗(yàn),收集和處理學(xué)習(xí)結(jié)果和反饋等。根據(jù)學(xué)生訪問信息、作業(yè)和測(cè)試結(jié)果,對(duì)其進(jìn)行個(gè)性化服務(wù)。
電大的學(xué)生都是用學(xué)號(hào)和密碼進(jìn)行身份驗(yàn)證的,初始密碼都是8位的出生日期,只有身份驗(yàn)證通過后才能網(wǎng)上做作業(yè)、網(wǎng)上學(xué)習(xí)、BBS討論等。學(xué)生的所有網(wǎng)上學(xué)習(xí)行為都被系統(tǒng)記錄在學(xué)生訪問日志文件里,存在服務(wù)器的數(shù)據(jù)庫中。該教學(xué)平臺(tái)的日志記錄中除有用數(shù)據(jù)外還包括很多影響挖掘準(zhǔn)確性的多媒體信息,如何去除這些無關(guān)數(shù)據(jù),這里我們用SQL語句清除這些垃圾記錄:
Delete From IISlog Where Target like‘%.jpg;
Delete From IISlog Where Target like‘%.gif;
Delete From IISlog Where Target like‘%.avi;
以上的操作是數(shù)據(jù)凈化。去除那些與挖掘無關(guān),甚至響挖掘結(jié)果的數(shù)據(jù),其后進(jìn)行用戶識(shí)別,從海量數(shù)據(jù)中找出屬于同一學(xué)生的記錄,并迅速找出與該學(xué)生相對(duì)應(yīng)的挖掘結(jié)果和推薦集。會(huì)話識(shí)別根據(jù)不同時(shí)間段的用戶訪問信息生成不同的用戶會(huì)話,以區(qū)分不同的時(shí)間段的用戶訪問。最后進(jìn)行路徑補(bǔ)充,采用一些啟發(fā)性規(guī)則對(duì)不完整的用戶訪問序列,結(jié)合網(wǎng)頁拓?fù)溥M(jìn)行推理,補(bǔ)全訪問路徑,還可以把數(shù)據(jù)挖掘結(jié)果轉(zhuǎn)存到Excel文件中,以圖表方式表示挖掘結(jié)果。
3結(jié)束語
根據(jù)Web挖掘產(chǎn)生的結(jié)果進(jìn)行資源的推薦、網(wǎng)站結(jié)構(gòu)的改善、個(gè)性化服務(wù)的完善,高質(zhì)量地決策教學(xué)。在電大開放教育教學(xué)系統(tǒng)中應(yīng)用Web挖掘技術(shù)能提高系統(tǒng)的個(gè)性化服務(wù)水平,根據(jù)學(xué)生的知識(shí)結(jié)構(gòu)和學(xué)習(xí)風(fēng)格進(jìn)行個(gè)性化教學(xué),以提高學(xué)生學(xué)習(xí)的積極性和主動(dòng)性。
參考文獻(xiàn):
[1]余強(qiáng),張海盛.個(gè)性化Web信息服務(wù)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2006(2).
[2]張娥,鄭斐峰,馮耕中.Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)成用研究,2004 (2).
[3]漩寶林,申展,張川,等.結(jié)合網(wǎng)站內(nèi)容和結(jié)構(gòu)進(jìn)行的Web日志挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2004(8).