高海波 李志超 蘭玲 劉義柯
摘 要: 結(jié)合Web數(shù)據(jù)挖掘在E-learning平臺(tái)中的應(yīng)用,分析了Web數(shù)據(jù)挖掘的基本過程與關(guān)鍵技術(shù),提出了一種基于Web挖掘的個(gè)性化學(xué)習(xí)平臺(tái)模型,并闡述了Web挖掘在平臺(tái)中的應(yīng)用及其個(gè)性化搜索引擎的實(shí)現(xiàn)。
關(guān)鍵詞: E-learning應(yīng)用平臺(tái); Web數(shù)據(jù)挖掘; 個(gè)性化學(xué)習(xí); 個(gè)性化搜索引擎
中圖分類號(hào):TP392;G434 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2013)09-05-03
0 引言
計(jì)算機(jī)通信技術(shù)的日益強(qiáng)大支撐了建設(shè)學(xué)習(xí)型社會(huì)的需求,遠(yuǎn)程教育借助它的靈活性與選擇性漸漸走進(jìn)人們身邊,成為學(xué)習(xí)的一種普遍方式。自1996年我國(guó)開通了“中國(guó)教育與科研計(jì)算機(jī)網(wǎng)”,開放、靈活的E-learning便迅速被人們所接受并應(yīng)用于各種網(wǎng)絡(luò)學(xué)校和遠(yuǎn)程教育之中。
隨著時(shí)間的推移,人們要求不僅僅只是遠(yuǎn)距離的教學(xué),更多的是個(gè)性化的學(xué)習(xí)。個(gè)性化教育理論認(rèn)為,學(xué)習(xí)過程應(yīng)是針對(duì)學(xué)生個(gè)性特點(diǎn)和發(fā)展?jié)撃芏扇∏‘?dāng)?shù)姆椒ā⑹侄?、?nèi)容、起點(diǎn)、進(jìn)程、評(píng)價(jià)方式等,促使學(xué)生各方面獲得充分、自由、和諧發(fā)展的過程[1]。但是目前的遠(yuǎn)程教育學(xué)習(xí)系統(tǒng)并不令人滿意,首先是系統(tǒng)缺乏智能性,學(xué)習(xí)系統(tǒng)面對(duì)的用戶并非是一類人,而是不同背景、不同目的、不同時(shí)期的一系列請(qǐng)求,面對(duì)這些請(qǐng)求,缺乏智能化的系統(tǒng)就難以實(shí)現(xiàn)因材施教;其次是缺乏有效的監(jiān)督機(jī)制和有效的學(xué)習(xí)幫助支持,導(dǎo)致學(xué)生偏離學(xué)習(xí)目標(biāo)、遇到困難時(shí)不能及時(shí)得到幫助;再者是有用的教學(xué)資源沒有被有效利用,造成了資源的極大浪費(fèi)?!耙匀藶楸尽钡慕逃砟畹闹饾u普及,個(gè)性化學(xué)習(xí)方案總體上應(yīng)該做到學(xué)習(xí)資源的多維性、學(xué)習(xí)價(jià)值追求的多重性、學(xué)習(xí)風(fēng)格的獨(dú)特性、學(xué)習(xí)過程的終身性和學(xué)習(xí)方式的自主性。
基于Web智能的網(wǎng)絡(luò)教育是現(xiàn)代遠(yuǎn)程教育的一種重要手段,其可以通過網(wǎng)絡(luò)來營(yíng)造虛擬的學(xué)習(xí)環(huán)境,在一個(gè)平臺(tái)上向?qū)W生提供豐富的學(xué)習(xí)資源,從而幫助學(xué)生開展基于資源的探究式學(xué)習(xí);在虛擬的學(xué)習(xí)環(huán)境中,教師和學(xué)生、學(xué)生與學(xué)生間可以方便地進(jìn)行同步或異步的交互。數(shù)據(jù)挖掘便是實(shí)現(xiàn)Web智能網(wǎng)絡(luò)教育的重要方法,主要是通過獲取學(xué)習(xí)者在Web上的學(xué)習(xí)過程行為數(shù)據(jù),如訪問信息、時(shí)間、次數(shù)及喜好等,經(jīng)過挖掘流程處理,得到學(xué)習(xí)者的模式規(guī)律,從而給學(xué)習(xí)者提供良好的個(gè)性化服務(wù)[2]。
1 Web數(shù)據(jù)挖掘相關(guān)分析
1.1 Web數(shù)據(jù)挖掘基本過程
Web是一個(gè)強(qiáng)大的交互環(huán)境,所以Web事務(wù)度量就需要數(shù)據(jù)的獲取與處理,Web數(shù)據(jù)挖掘指的是從大量的、不完全的、蘊(yùn)含的、模糊的WWW資源上提取隱含在其中有用的信息和知識(shí)的過程。其處理對(duì)象是大量的業(yè)務(wù)數(shù)據(jù),目的是為了提取有價(jià)值的知識(shí),提高信息利用率。Web數(shù)據(jù)挖掘又被稱為資料探勘或者數(shù)據(jù)采礦,是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。根據(jù)大量業(yè)務(wù)數(shù)據(jù)的不同類型,Web數(shù)據(jù)挖掘可以分為:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘[3]。其中,Web內(nèi)容挖掘是挖掘Internet的頁面和后臺(tái)交易數(shù)據(jù)庫(kù),包括結(jié)構(gòu)化的數(shù)據(jù)挖掘與非結(jié)構(gòu)化的數(shù)據(jù)挖掘。無論是哪種數(shù)據(jù)挖掘,都是為了尋找隱藏著的、大量的、有價(jià)值的信息,并且為Web提供更好的服務(wù)。
以下給出Web數(shù)據(jù)挖掘的基本流程。
⑴ 目標(biāo)數(shù)據(jù)采集:數(shù)據(jù)采集就是要記錄用戶訪問行為。數(shù)據(jù)來源包括服務(wù)器端、客戶端和代理端。為了有效地實(shí)施挖掘算法,僅僅采集數(shù)據(jù)是不夠的,還需要進(jìn)行下一步操作:預(yù)處理。
⑵ 預(yù)處理:目標(biāo)數(shù)據(jù)經(jīng)過預(yù)處理才能有效的實(shí)施挖掘算法,也就是從目標(biāo)數(shù)據(jù)集中除去明顯錯(cuò)誤數(shù)據(jù)和冗余的數(shù)據(jù),進(jìn)一步精簡(jiǎn)所選數(shù)據(jù)的有效部分,并將數(shù)據(jù)轉(zhuǎn)化為有效形式。數(shù)據(jù)的預(yù)處理的質(zhì)量與Web挖掘的效率是緊密相關(guān)的。內(nèi)容包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、事務(wù)識(shí)別及路徑補(bǔ)充等。
⑶ 模式發(fā)現(xiàn)與分析:模式發(fā)現(xiàn)就是對(duì)預(yù)處理后的數(shù)據(jù)實(shí)施具體的、合理的挖掘算法或綜合應(yīng)用不同的算法。其最終目的是發(fā)現(xiàn)用戶的訪問模式,預(yù)先為用戶設(shè)定學(xué)習(xí)內(nèi)容類別。模式分析的目的是根據(jù)實(shí)際應(yīng)用,通過觀察和選擇,將模式發(fā)現(xiàn)的統(tǒng)計(jì)結(jié)果、規(guī)則和模型轉(zhuǎn)換為知識(shí),經(jīng)過篩選后用來指導(dǎo)實(shí)際應(yīng)用,也就是在預(yù)先的類別中再次為用戶提供個(gè)性化資源和學(xué)習(xí)支持服務(wù)。
⑷ 用戶反饋:利用數(shù)據(jù)挖掘與學(xué)習(xí)內(nèi)容綁定等各種技術(shù),學(xué)習(xí)者的學(xué)習(xí)過程會(huì)是以可視化方式進(jìn)行指導(dǎo)。
1.2 相關(guān)算法分析
協(xié)同過濾這一概念最早出現(xiàn)在1992年,由Goldberg、Nicols、Oki及Terry提出,隨著大大小小系統(tǒng)的應(yīng)用,協(xié)同過濾推薦迅速成為Web數(shù)據(jù)挖掘中一種很受歡迎的技術(shù)。該技術(shù)分析用戶興趣,在用戶群中找到指定用戶的相似用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)[4-6]。
相似性計(jì)算是協(xié)同過濾推薦算法中最關(guān)鍵的一步,傳統(tǒng)的相似度計(jì)算方法有三種。
⑴ 余弦相似性
把用戶評(píng)分看做n維項(xiàng)目空間的向量,用戶間的相似性通過向量間的余弦夾角度量,設(shè)用戶i和用戶j在n維項(xiàng)目空間上的評(píng)分分別表示為向量k,e,則用戶i和用戶j之間的相似性為:
Sin(i,j)=cos(k,e)= ⑴
⑵ 修正的余弦相似性
余弦相似性度量方法中沒有考慮不同用戶的評(píng)分尺度問題,修正的余弦相似性度量方法通過減去用戶對(duì)項(xiàng)目的平均評(píng)分來改善上述缺陷,設(shè)經(jīng)用戶i和用戶j共同評(píng)分的項(xiàng)目集合,則用戶i和用戶j用戶之間的相似性為:
Sin= ⑵
其中,Rij代表用戶i對(duì)項(xiàng)目c的評(píng)分,和分別表示用戶i和j對(duì)項(xiàng)目的平均評(píng)分。
⑶ 相關(guān)相似性
設(shè)經(jīng)用戶i和用戶j共同評(píng)分的項(xiàng)目集合用Iij表示,則用戶i和用戶j之間的相似性sin(i,j),通過Pearson相關(guān)系數(shù)度量:
歸根結(jié)底,三種相似方法均為基于向量的相似度計(jì)算方式,進(jìn)行對(duì)象屬性之間的嚴(yán)格匹配。
余弦相似性度量方法把用戶評(píng)分看作一個(gè)向量,用向量的余弦夾角度量用戶間的相似性,然而沒有包含用戶評(píng)分的統(tǒng)計(jì)特征;修正的余弦相似性方法在余弦相似性基礎(chǔ)上,減去了用戶對(duì)項(xiàng)目的平均評(píng)分,然而該方法更多體現(xiàn)的是用戶之間的相關(guān)性而非相似性。相關(guān)性和相似性是兩個(gè)不同的概念,相似性反應(yīng)的是聚合特點(diǎn),而相關(guān)性反映的是組合特點(diǎn);相似相關(guān)性方法,依據(jù)雙方共同評(píng)分的項(xiàng)目進(jìn)行用戶相似性評(píng)價(jià),如果用戶間的所有評(píng)分項(xiàng)目均為共同評(píng)分項(xiàng)目,那么相似相關(guān)性和修正的余弦相似性是等同的,用戶對(duì)共同評(píng)分的項(xiàng)目集稀少,使得相似相關(guān)性評(píng)價(jià)方法實(shí)際不可行。
2 基于Web數(shù)據(jù)挖掘的個(gè)性化學(xué)習(xí)系統(tǒng)模型
基于Web數(shù)據(jù)挖掘的個(gè)性化學(xué)習(xí)系統(tǒng)采用的是三層B/S模型,如圖1所示。
個(gè)性化與智能化功能模塊的實(shí)現(xiàn)都是以Web為基礎(chǔ)的。服務(wù)器是一個(gè)核心,用戶通過客戶端發(fā)送一系列請(qǐng)求,Web服務(wù)器作出相應(yīng)的響應(yīng),也就是在后臺(tái)數(shù)據(jù)庫(kù)中查詢信息,查詢到的信息再返回給Web服務(wù)器,最后服務(wù)器通過網(wǎng)頁的形式呈現(xiàn)及反饋給用戶。
2.1 主要功能模塊分析與設(shè)計(jì)
基于Web數(shù)據(jù)挖掘的個(gè)性化學(xué)習(xí)系統(tǒng)主要是由學(xué)習(xí)者、學(xué)習(xí)者個(gè)人秘書、管理員、個(gè)性化推薦引擎及教學(xué)資源等模塊構(gòu)成。其中系統(tǒng)的核心部分是“學(xué)習(xí)者個(gè)人秘書”。當(dāng)學(xué)習(xí)者通過身份驗(yàn)證后,便會(huì)進(jìn)入個(gè)人的學(xué)習(xí)頁面?!皩W(xué)習(xí)者個(gè)人秘書”根據(jù)學(xué)習(xí)者的訪問習(xí)慣和學(xué)習(xí)者提交的要求等信息進(jìn)行自動(dòng)整合(這里主要是由用戶信息收集和用戶信息建模兩個(gè)模塊來實(shí)現(xiàn)),并進(jìn)行內(nèi)部建模,形成一套完整的學(xué)習(xí)方案,并對(duì)此方案進(jìn)行資源調(diào)度,進(jìn)而反饋給學(xué)習(xí)者所需的資源信息。“學(xué)習(xí)者個(gè)人秘書”也就是所謂的個(gè)性化處理引擎,它主要由四個(gè)模塊組成:用戶信息收集、用戶信息建模、個(gè)性化學(xué)習(xí)方案、學(xué)習(xí)資源調(diào)度。該個(gè)性化學(xué)習(xí)系統(tǒng)方案構(gòu)建如圖2所示。
⑴ 用戶信息收集模塊
信息收集模塊是實(shí)現(xiàn)在線學(xué)習(xí)個(gè)性化服務(wù)的基礎(chǔ),它收集用戶請(qǐng)求,跟蹤用戶的行為,結(jié)合用戶數(shù)據(jù)庫(kù)中事先存放的用戶個(gè)性化特征數(shù)據(jù),經(jīng)過預(yù)處理,對(duì)用戶信息建模提供個(gè)性化的策略。
⑵ 用戶信息建模模塊
信息建模模塊則是運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)這些信息進(jìn)行分析,不斷更新或者初始化用戶數(shù)據(jù)庫(kù)中動(dòng)態(tài)部分,以生成個(gè)性化推薦策略并發(fā)送給個(gè)性化學(xué)習(xí)方案模塊。
⑶ 個(gè)性化學(xué)習(xí)方案模塊
學(xué)習(xí)方案模塊是“學(xué)習(xí)者個(gè)人秘書”的核心模塊,它結(jié)合前面提供的一系列用戶特征信息,并進(jìn)行整合后自動(dòng)生成一套教學(xué)方案,把教學(xué)方案中所需要調(diào)度的資源傳遞給資源調(diào)度模塊。
⑷ 資源調(diào)度模塊
資源調(diào)度模塊是根據(jù)教學(xué)方案中需要調(diào)度的資源從視頻庫(kù)、作業(yè)庫(kù)、試題庫(kù)等資源庫(kù)中調(diào)度并反饋給用戶。其中,資源庫(kù)中保存學(xué)習(xí)者的基本信息、學(xué)習(xí)歷史、訪問歷史、對(duì)知識(shí)的掌握情況、學(xué)習(xí)喜好等個(gè)性特征。學(xué)生的個(gè)性特征也分為靜態(tài)信息與動(dòng)態(tài)信息。如學(xué)生的姓名、性別、年齡、ID、密碼等都屬于靜態(tài)信息,如學(xué)習(xí)歷史、學(xué)生做過的練習(xí)和測(cè)試題的答案、學(xué)習(xí)者的知識(shí)結(jié)構(gòu)等都屬于動(dòng)態(tài)信息。學(xué)生的個(gè)性化特征信息是實(shí)施個(gè)性化教學(xué)策略的基礎(chǔ)。
總之,整個(gè)個(gè)性化在線學(xué)習(xí)系統(tǒng)就是通過數(shù)據(jù)挖掘技術(shù),把用戶在學(xué)習(xí)過程的所有行為記錄下來,并結(jié)合用戶數(shù)據(jù)庫(kù),從中挖掘出用戶個(gè)性化學(xué)習(xí)特征,為個(gè)性化教學(xué)策略的產(chǎn)生提供可靠的依據(jù)。在本文,學(xué)習(xí)者個(gè)人秘書個(gè)性化引擎的加入,主要是實(shí)現(xiàn)個(gè)性化學(xué)習(xí)系統(tǒng)中視頻主導(dǎo)、測(cè)驗(yàn)穿插、在線交流、引導(dǎo)學(xué)習(xí)等功能。其中視頻能提取該集視頻所具有的知識(shí)點(diǎn),作為關(guān)鍵字在知識(shí)樹中進(jìn)行串聯(lián)。知識(shí)樹是惟一呈現(xiàn)給用戶的學(xué)習(xí)接口,讓用戶不再注重于選擇何種視頻、哪位老師所教,達(dá)到最快的學(xué)習(xí)效率。再就是測(cè)驗(yàn)穿插,是在用戶不主動(dòng)去做測(cè)驗(yàn)的時(shí)候,類似強(qiáng)制于用戶做測(cè)驗(yàn),否則無法進(jìn)入下階段測(cè)試。概括來說,學(xué)習(xí)者個(gè)人秘書模型設(shè)計(jì)實(shí)現(xiàn)以下功能:記錄學(xué)習(xí)者進(jìn)行的所有學(xué)習(xí)活動(dòng);定時(shí)給予用戶學(xué)習(xí)建議與誤區(qū)糾正;能主動(dòng)與其他學(xué)習(xí)者的學(xué)習(xí)秘書進(jìn)行交流;記錄每次學(xué)習(xí)周期,學(xué)習(xí)者的學(xué)習(xí)路線。
2.2 Web數(shù)據(jù)挖掘在系統(tǒng)中的應(yīng)用
數(shù)據(jù)挖掘是開發(fā)Web智能的學(xué)習(xí)系統(tǒng)的關(guān)鍵所在,它對(duì)個(gè)性化學(xué)習(xí)模型的構(gòu)建、個(gè)性化的學(xué)習(xí)資源的提供、個(gè)性化學(xué)習(xí)的指導(dǎo)、系統(tǒng)性能的改進(jìn)等方面應(yīng)用非常多。
⑴ 個(gè)性化學(xué)習(xí)模型的構(gòu)建
學(xué)習(xí)者模型的構(gòu)建本就是根據(jù)學(xué)習(xí)者不同的個(gè)性特征參數(shù),對(duì)學(xué)生學(xué)習(xí)活動(dòng)進(jìn)行跟蹤,并且記錄學(xué)生學(xué)習(xí)的相關(guān)信息,如:學(xué)生經(jīng)常訪問的URL的次數(shù)、停留時(shí)間、訪問的課程數(shù)等等。Web數(shù)據(jù)挖掘用去噪和模式進(jìn)行“模式發(fā)現(xiàn)”,得到學(xué)生學(xué)習(xí)的個(gè)性特征,建立、完善學(xué)生學(xué)習(xí)模型,建立學(xué)生個(gè)性數(shù)據(jù)庫(kù),為不同的學(xué)生提供智能、個(gè)性的學(xué)習(xí)策略。
⑵ 個(gè)性化學(xué)習(xí)資源的提供
在系統(tǒng)進(jìn)行模式發(fā)現(xiàn)后,需要為學(xué)生從后臺(tái)數(shù)據(jù)庫(kù)中調(diào)度學(xué)習(xí)資源,這時(shí)候就需要系統(tǒng)將學(xué)生無關(guān)及學(xué)生不感興趣的資源進(jìn)行篩選。Web數(shù)據(jù)挖掘中的統(tǒng)計(jì)分析技術(shù)可以根據(jù)學(xué)生經(jīng)常訪問的頁面推測(cè)學(xué)生下一步的行為,推測(cè)出其感興趣的相關(guān)資源,從而減少學(xué)生的搜索時(shí)間,合理提供備用資源。
⑶ 個(gè)性化學(xué)習(xí)的指導(dǎo)
一個(gè)好的學(xué)習(xí)系統(tǒng)能適應(yīng)的并不只是一類人,而是不同背景,不同能力,不同目的的人,因?yàn)槊總€(gè)人的學(xué)習(xí)能力、興趣、習(xí)慣以及基礎(chǔ)都有很大的差異。若采取進(jìn)入系統(tǒng)平臺(tái)前讓用戶提交測(cè)試用戶屬性信息的一些表單,初始化學(xué)生學(xué)習(xí)特征,但是其中的屬性卻是時(shí)刻變動(dòng)的,普通的學(xué)習(xí)系統(tǒng)無法做到隨機(jī)應(yīng)變。利用Web數(shù)據(jù)挖掘技術(shù),挖掘用戶的使用數(shù)據(jù)日志,分析用戶的瀏覽趨勢(shì),從而形成一組按時(shí)間排序的會(huì)話,預(yù)測(cè)用戶未來的訪問模式并做及時(shí)的指導(dǎo)。這樣針對(duì)不同類型的用戶,系統(tǒng)可以安排特定的內(nèi)容,做到真正意義上的“因材施教”。
⑷ 系統(tǒng)性能的改進(jìn)
Web數(shù)據(jù)挖掘技術(shù)提供網(wǎng)站構(gòu)架及用戶的使用信息,管理員可以根據(jù)這些信息,控制Web緩存、負(fù)載平衡和網(wǎng)絡(luò)構(gòu)架等問題,從而做到了系統(tǒng)的安全性與穩(wěn)定性。
3 結(jié)束語
基于Web數(shù)據(jù)挖掘的個(gè)性化學(xué)習(xí)系統(tǒng)研究,以“個(gè)性化E-learning系統(tǒng)研究與實(shí)現(xiàn)”課題為背景,實(shí)現(xiàn)了Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用、學(xué)習(xí)知識(shí)點(diǎn)概念相關(guān)性的算法分析與設(shè)計(jì)、且構(gòu)建一個(gè)基于Web的學(xué)習(xí)者模型,闡述系統(tǒng)研究思路,并完成了系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)應(yīng)用。在一定基礎(chǔ)上為在線學(xué)習(xí)系統(tǒng)的個(gè)性化應(yīng)用提供理論與推廣參考價(jià)值。同時(shí),本文雖取得了具體的應(yīng)用效果,但在個(gè)性化學(xué)習(xí)資源的組織與動(dòng)態(tài)呈現(xiàn)上未能與學(xué)習(xí)者模型聯(lián)系,以呈現(xiàn)針對(duì)不同用戶的個(gè)性化學(xué)習(xí)內(nèi)容頁面。這將是今后需要進(jìn)一步研究的問題。
參考文獻(xiàn):
[1] 陶劍文.基于多Agent的協(xié)作式網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)模型研究[J].計(jì)算機(jī)時(shí)代,2006.7:64-66
[2] 單蓉.一種基于用戶瀏覽行為更新的興趣模型[J].電子設(shè)計(jì)工程,20l0.4:61-62
[3 唐遠(yuǎn)洋,黃爾嘉.知識(shí)挖掘技術(shù)與網(wǎng)絡(luò)教育資源的組織[J]. 情報(bào)資料工作,2005.4:107-109
[4] 游文,葉水生.電子商務(wù)推薦系統(tǒng)中的協(xié)同過濾推薦[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006.9:97-99
[5] 邱明虹,何躍.從Web日志中挖掘用戶興趣路徑算法改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2008.26:129-131
[6] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009.7:1682-1687
[7] 朱明.數(shù)據(jù)挖掘[M].中國(guó)科學(xué)技術(shù)大學(xué)出版社,2008.