国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web數(shù)據(jù)挖掘在遠(yuǎn)程教育個(gè)性化中的應(yīng)用研究

2010-07-25 08:43:56巫莉莉張波李濤
微型電腦應(yīng)用 2010年2期
關(guān)鍵詞:日志頁面數(shù)據(jù)挖掘

巫莉莉,張波,李濤

0 引言

遠(yuǎn)程教育是計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)在遠(yuǎn)程教育領(lǐng)域中的應(yīng)用。它是建立在現(xiàn)代信息技術(shù)平臺上的一種教學(xué)模式,是傳統(tǒng)教育的一種補(bǔ)充[1]。隨著當(dāng)今計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,遠(yuǎn)程教育正在逐步展示著它的優(yōu)勢。遠(yuǎn)程教育可以建構(gòu)起一種理想的學(xué)習(xí)環(huán)境,在這種虛擬空間中學(xué)習(xí),學(xué)生可以根據(jù)自己的需要進(jìn)行有選擇、有目的學(xué)習(xí)和提高。學(xué)生之間圍繞當(dāng)前學(xué)習(xí)的主題討論交流,形成各自的理解,并表達(dá)自己解決問題的不同思路,相互分享各自的思維,相互評價(jià),充分發(fā)揮了學(xué)生學(xué)習(xí)的能動(dòng)性和自主性,也體現(xiàn)了教師在教學(xué)過程中的指導(dǎo)性。

遠(yuǎn)程教育作為一種學(xué)習(xí)手段,使用于高等教育、職業(yè)教育和成人教育,它更是一種提供終身教育的良好手段。其教育對象存在著極大的差異性,主要體現(xiàn)在:個(gè)人學(xué)習(xí)目標(biāo)不同、學(xué)習(xí)能力不同、認(rèn)識風(fēng)格不同。這就必然決定了遠(yuǎn)程教育必然是一種個(gè)別化的教育,遠(yuǎn)程教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)[2]。

然而,現(xiàn)有的遠(yuǎn)程教育教學(xué)系統(tǒng)中仍然存在教學(xué)模式單一、動(dòng)態(tài)交互能力不強(qiáng)、個(gè)人學(xué)習(xí)缺乏有效的引導(dǎo)等問題?,F(xiàn)有的遠(yuǎn)程教育平臺大多不能解決個(gè)別化學(xué)習(xí)的需求,所以也就無法對學(xué)習(xí)者實(shí)施個(gè)性化的遠(yuǎn)程學(xué)習(xí)服務(wù)。

1 Web數(shù)據(jù)挖掘

我們可以將Web數(shù)據(jù)挖掘一般地定義為:從與WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息。一般地,Web數(shù)據(jù)挖掘可分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘[3]。

1.1 Web內(nèi)容挖掘

Web內(nèi)容挖掘是對Web頁面內(nèi)容進(jìn)行挖掘。主要包括:

(1)從WWW上智能地提取信息的搜索工具;

(2)數(shù)據(jù)庫方法:把半結(jié)構(gòu)化的Web信息重構(gòu)得更結(jié)構(gòu)化一些,然后就可以使用標(biāo)準(zhǔn)化的數(shù)據(jù)庫查詢機(jī)制和數(shù)據(jù)挖掘方法進(jìn)行分析。

(3)對HTML頁面內(nèi)容進(jìn)行挖掘,對頁面中的文本進(jìn)行文本挖掘,對頁面中的多媒體信息進(jìn)行多媒體信息挖掘。包括對頁面內(nèi)容進(jìn)行分類、聚類以及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。

Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘研究的是Web文檔的鏈接結(jié)構(gòu),揭示蘊(yùn)含在這些文檔結(jié)構(gòu)中的有用模式,處理的數(shù)據(jù)是Web結(jié)構(gòu)數(shù)據(jù)。文檔間的超鏈接反映了文檔間的某種聯(lián)系,如包含、從屬、引用等[4]。其中比較有代表性的工具是Page Rank和CLEVER ,它們正是利用了文檔間的鏈接信息查找相關(guān)的Web 頁[5]。

Web使用挖掘

Web使用挖掘是對用戶訪問Web時(shí)在服務(wù)器留下的訪問記錄進(jìn)行挖掘,即對用戶訪問Web站點(diǎn)的存取方式進(jìn)行挖掘。挖掘的對象是在服務(wù)器上包括Server Log Data等日志。挖掘的手段是:①路徑分析;②關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn);③聚類和分類。

Web使用挖掘可以從Web服務(wù)器那里自動(dòng)發(fā)現(xiàn)用戶存取Web頁面的模式,得出群體用戶或單個(gè)用戶的訪問模式和興趣[6]。

2 Web數(shù)據(jù)挖掘在遠(yuǎn)程教育個(gè)性化中的應(yīng)用

基于Web的數(shù)據(jù)挖掘一般流程經(jīng)過數(shù)據(jù)的采集、預(yù)處理、模式發(fā)現(xiàn)、模式的分析及其應(yīng)用幾個(gè)過程[7],見圖1所示。

圖1 Web數(shù)據(jù)挖掘流程

2.1 數(shù)據(jù)采集

遠(yuǎn)程教育站點(diǎn)能提供大量有用的信息。在遠(yuǎn)程學(xué)習(xí)中,學(xué)生以學(xué)號登錄系統(tǒng),系統(tǒng)根據(jù)學(xué)號記錄學(xué)習(xí)行為,信息包括網(wǎng)絡(luò)日志(學(xué)習(xí)者登錄IP、學(xué)習(xí)者訪問URL、訪問時(shí)間、資源類型等)和相應(yīng)的學(xué)習(xí)記錄(學(xué)習(xí)者的學(xué)號、訪問的課程、訪問時(shí)間、停留時(shí)間等)[8]。

2.2 數(shù)據(jù)預(yù)處理

對數(shù)據(jù)進(jìn)行預(yù)處理,去除原始數(shù)據(jù)中的無關(guān)信息,并識別用戶,對用戶的訪問進(jìn)行會話識別和事務(wù)識別,為數(shù)據(jù)挖掘做準(zhǔn)備。

(1)濾掉多余的記錄,合并相關(guān)數(shù)據(jù)并將不恰當(dāng)?shù)幕蛉哂嗟臄?shù)據(jù)項(xiàng)從數(shù)據(jù)集里清除。將Web服務(wù)器日志文件中記錄的網(wǎng)頁請求按照IP地址和訪問時(shí)間排列,可以過濾掉對圖形、圖象、聲音文件的訪問,這可以通過判斷文件的擴(kuò)展名來實(shí)現(xiàn),或者是將圖形、圖象等文件轉(zhuǎn)換成可以進(jìn)行分析的數(shù)據(jù)格式。其中要注意Web日志中status域的值是200才表明訪問成功,可以只取這個(gè)值的記錄;

(2)識別會話,標(biāo)簽通過惟一的會話ID關(guān)聯(lián)點(diǎn)擊流記錄,驗(yàn)證事件次數(shù)與描述該會話的記錄是否保持邏輯一致性。在對Web日志記錄掃描過程中,對于每一個(gè)來自不同IP地址的請求,都分配在一個(gè)表中,不同的IP地址表明不同的用戶。為了生成會話,我們可以設(shè)置一個(gè)閾值,例如,半個(gè)小時(shí),如果對同一個(gè)IP地址,一條日志記錄同下一條記錄之間的時(shí)間間隔不大于該閾值,則認(rèn)為這兩條記錄屬于同一個(gè)會話;

(3)根據(jù)用戶在每個(gè)頁面停留的時(shí)間,依據(jù)一個(gè)時(shí)間閾值,小于20秒或者大于600秒就表示對訪問的當(dāng)前頁面沒有興趣,大于20秒或者小于600秒就表示有興趣,保留有興趣的記錄。

2.3 模式發(fā)現(xiàn)

(1)統(tǒng)計(jì)分析。通過分析學(xué)習(xí)者日志文件以及服務(wù)器數(shù)據(jù)庫中的數(shù)據(jù),讀出各種統(tǒng)計(jì)分析描述,如學(xué)習(xí)者在某頁面上停留的平均時(shí)間,學(xué)生作業(yè)及考試統(tǒng)計(jì)信息等等。

(2)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)。通過關(guān)聯(lián)規(guī)則對學(xué)生學(xué)習(xí)行為和學(xué)習(xí)記錄進(jìn)行挖掘,計(jì)算出它們之間的關(guān)聯(lián)程度,發(fā)現(xiàn)各門學(xué)科之間以及學(xué)習(xí)者興趣知識點(diǎn)之間潛在的聯(lián)系,并動(dòng)態(tài)地呈現(xiàn)給學(xué)生。

(3)分類聚類。對用戶進(jìn)行分類聚類,根據(jù)聚類結(jié)果,可以將學(xué)生劃分成不同的類型,將學(xué)習(xí)興趣和學(xué)習(xí)習(xí)慣相似度大的學(xué)生劃分為一組,教師可根據(jù)每組學(xué)生的具體明確的情況,對教學(xué)做出適當(dāng)?shù)恼{(diào)整,真正做到因材施教。

(4)序列模式。序列是指在時(shí)間戳有序的事務(wù)集中挖掘訪問Web網(wǎng)頁的先后順序的模式,可以尋找用戶頻繁出現(xiàn)的序列,預(yù)測學(xué)習(xí)者行為,主動(dòng)提供其需要的資源。

2.4 模式的分析和應(yīng)用

通過模式發(fā)現(xiàn)之后,生成的規(guī)則數(shù)目龐大,表達(dá)晦澀,得不到很好的利用,這就需要對模式進(jìn)行分析評價(jià),通過模式分析和應(yīng)用技術(shù)處理,選擇學(xué)習(xí)者易于理解和接受的方式顯現(xiàn)出來,在學(xué)習(xí)者學(xué)習(xí)過程中以可指導(dǎo)其學(xué)習(xí)和個(gè)性化的發(fā)展,具體應(yīng)用如下:

(1)構(gòu)建學(xué)習(xí)者個(gè)性特征庫。根據(jù)學(xué)習(xí)者不同的特征參數(shù),對學(xué)生學(xué)習(xí)活動(dòng)進(jìn)行跟蹤,記錄與學(xué)習(xí)相關(guān)的信息。包括經(jīng)常訪問的 URL、停留時(shí)間、訪問次數(shù)等等,建立個(gè)性特征庫,為不同的學(xué)習(xí)者提供個(gè)性化服務(wù);

(2)為學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)資源。針對不同類型的學(xué)習(xí)者,在個(gè)性特征庫的基礎(chǔ)上,通過調(diào)整遠(yuǎn)程教育系統(tǒng)的網(wǎng)頁結(jié)構(gòu),過濾與學(xué)習(xí)者無關(guān)及不感興趣的資源。利用統(tǒng)計(jì)分析技術(shù)的可以根據(jù)學(xué)習(xí)者經(jīng)常訪問的頁面來預(yù)測其進(jìn)一步的學(xué)習(xí)行為,主動(dòng)提供其需要的學(xué)習(xí)資源,減少學(xué)習(xí)者的等待時(shí)間;

(3)個(gè)性化學(xué)習(xí)指導(dǎo)。不同的學(xué)習(xí)者其個(gè)人學(xué)習(xí)能力、興趣和學(xué)習(xí)習(xí)慣、努力程度等,都存在著一定的差異。對于每一個(gè)學(xué)習(xí)者,比如可以根據(jù)平時(shí)在學(xué)習(xí)某門課程時(shí)經(jīng)常訪問的知識點(diǎn)做出統(tǒng)計(jì),然后定期或在考試前主動(dòng)將這些知識點(diǎn)提供給學(xué)習(xí)者,增強(qiáng)其對該知識點(diǎn)的記憶,做到個(gè)性化的學(xué)習(xí)指導(dǎo)。

3 遠(yuǎn)程教育個(gè)性化模型

基于遠(yuǎn)程教育平臺,結(jié)合Web數(shù)據(jù)挖掘技術(shù),了解和掌握學(xué)生學(xué)習(xí)的興趣、瀏覽模式、學(xué)習(xí)狀況、需要的導(dǎo)航幫助等,獲得有利于遠(yuǎn)程教育的新鮮模式和規(guī)則,指導(dǎo)教學(xué)材料的安排、課件的設(shè)計(jì)和改進(jìn),提高遠(yuǎn)程教育的質(zhì)量,構(gòu)建一個(gè)完善的網(wǎng)上虛擬教學(xué)系統(tǒng),使學(xué)生的遠(yuǎn)程教育學(xué)習(xí)模式更加智能化、個(gè)性化。

設(shè)計(jì)目標(biāo)

設(shè)計(jì)個(gè)性化的學(xué)習(xí)模式,優(yōu)化現(xiàn)有遠(yuǎn)程教育平臺。主要設(shè)計(jì)目標(biāo)如下:

1.根據(jù)學(xué)生的瀏覽模式重構(gòu)頁面之間的超鏈接,根據(jù)訪問流量情況,發(fā)現(xiàn)學(xué)生的需要和興趣,對需求強(qiáng)烈的網(wǎng)頁提供優(yōu)化,將更快、更有效的訪問方式展現(xiàn)給學(xué)生;

2.根據(jù)關(guān)聯(lián)分析可挖掘出隱藏在數(shù)據(jù)之間的關(guān)聯(lián)性,比如某些課程之間隱藏的某種相關(guān)性。教師以及教育管理者可根據(jù)這些重要信息來指導(dǎo)教學(xué)、修正試題難度系數(shù)等;

3.針對不同的學(xué)生,由聚類分析得知不同類型學(xué)生的興趣和愛好,向?qū)W生動(dòng)態(tài)提供瀏覽的建議,提供遠(yuǎn)程教育個(gè)性化服務(wù)。

體系結(jié)構(gòu)設(shè)計(jì)

從設(shè)計(jì)目標(biāo)來分析,個(gè)性化的遠(yuǎn)程教育平臺在邏輯上可以分為三個(gè)層次,即數(shù)據(jù)獲取/管理層、數(shù)據(jù)存儲層與數(shù)據(jù)分析/應(yīng)用層。

系統(tǒng)框架結(jié)構(gòu)設(shè)計(jì)框圖如圖2所示:

圖2 系統(tǒng)框架結(jié)構(gòu)

1.?dāng)?shù)據(jù)獲取/管理層

數(shù)據(jù)獲取/管理層主要是是應(yīng)用的用戶接口部分,它擔(dān)負(fù)著用戶與應(yīng)用間的對話功能以及實(shí)現(xiàn)對Web服務(wù)器的管理功能。通過用戶訪問遠(yuǎn)程教育系統(tǒng),獲取用戶信息、Web日志信息等,實(shí)現(xiàn)數(shù)據(jù)采集功能;同時(shí),系統(tǒng)管理員也可以通過Web服務(wù)器對系統(tǒng)進(jìn)行管理。

2.?dāng)?shù)據(jù)存儲層

數(shù)據(jù)存儲層是進(jìn)行Web數(shù)據(jù)挖掘的主體,用于存儲用戶信息庫、Web日志庫、試題庫等數(shù)據(jù)。這些數(shù)據(jù)根據(jù)目標(biāo)進(jìn)行抽取,經(jīng)清理、轉(zhuǎn)換等預(yù)處理,并按主題組織存放。

3.?dāng)?shù)據(jù)分析/應(yīng)用層

數(shù)據(jù)分析/應(yīng)用層是面向系統(tǒng)的管理者,運(yùn)用數(shù)據(jù)挖掘算法對已經(jīng)預(yù)處理的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)有利于優(yōu)化遠(yuǎn)程教育以及學(xué)習(xí)個(gè)性化的模式,并對模式進(jìn)行分析評價(jià),應(yīng)用于遠(yuǎn)程教育系統(tǒng)。

應(yīng)用模型設(shè)計(jì)

根據(jù)系統(tǒng)設(shè)計(jì)目標(biāo),應(yīng)用模型設(shè)計(jì)結(jié)構(gòu)如圖3所示。

圖3 應(yīng)用模型設(shè)計(jì)結(jié)構(gòu)

根據(jù)設(shè)計(jì)目標(biāo)數(shù)據(jù)來源于知識庫,經(jīng)過數(shù)據(jù)采集后,在將這些數(shù)據(jù)經(jīng)過數(shù)據(jù)清理、轉(zhuǎn)換等預(yù)處理,并結(jié)合Web數(shù)據(jù)挖掘技術(shù)進(jìn)行模式發(fā)現(xiàn),并分析和評價(jià)。再選取合適的規(guī)則應(yīng)用到遠(yuǎn)程教育系統(tǒng)中,構(gòu)建個(gè)性化的遠(yuǎn)程教育模式。其中與Web數(shù)據(jù)挖掘的結(jié)合研究是該模型實(shí)現(xiàn)的重點(diǎn)。

5 結(jié)論

將Web數(shù)據(jù)挖掘技術(shù)和遠(yuǎn)程教育充分的結(jié)合,利用現(xiàn)有的數(shù)據(jù)資源,運(yùn)用數(shù)據(jù)挖掘算法找到課程之間、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)等之間的聯(lián)系。通過研究獲得有利的規(guī)則并應(yīng)用到現(xiàn)有遠(yuǎn)程教育平臺中,完善遠(yuǎn)程教育模式中出現(xiàn)的不足,使學(xué)生的學(xué)習(xí)從單純的被動(dòng)信息索取轉(zhuǎn)變?yōu)橹鲃?dòng)信息獲取,讓遠(yuǎn)程教育更加個(gè)性化、智能化,發(fā)揮出遠(yuǎn)程教育更大的優(yōu)勢。

[1] 王開源.高?,F(xiàn)代遠(yuǎn)程教育的發(fā)展現(xiàn)狀分析與探討[J] .科技教育創(chuàng)新,2009,(6):242.

[2] 劉彤.Web數(shù)據(jù)挖掘技術(shù)在個(gè)性化遠(yuǎn)程教育平臺中的應(yīng)用[J] . 科技信息,2008,(21):62.

[3] 韓家煒,孟小峰,王靜,李盛恩. Web挖掘研究[J] . 計(jì)算機(jī)研究與發(fā)展, 2001,4(38):406-407.

[4] 宋愛波,董逸生,吳文明等.Web挖掘研究綜述[J] .計(jì)算機(jī)科學(xué),2001,11 (28):15.

[5] 李國慧.Web數(shù)據(jù)挖掘研究[J] . 電腦知識與技術(shù),2008,(4):592.

[6] 王實(shí),高文,李錦濤.Web數(shù)據(jù)挖掘[J] . 計(jì)算機(jī)科學(xué), 2000,4(27):28-29.

[7] 張建宇,葉長青. 基于Web的數(shù)據(jù)挖掘在遠(yuǎn)程教育個(gè)性化學(xué)習(xí)授導(dǎo)中的應(yīng)用[J] . 教育技術(shù)導(dǎo)刊,2005,(10):29.

[8] 邱曉輝. 基于Web數(shù)據(jù)挖掘的個(gè)性化遠(yuǎn)程教育系統(tǒng)的構(gòu)建[J] . 中國教育技術(shù)裝備,2007,(12):82.

猜你喜歡
日志頁面數(shù)據(jù)挖掘
刷新生活的頁面
一名老黨員的工作日志
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
游學(xué)日志
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
一種基于粗集和SVM的Web日志挖掘模型
基于GPGPU的離散數(shù)據(jù)挖掘研究
同一Word文檔 縱橫頁面并存
沙田区| 稷山县| 武宁县| 卢氏县| 临清市| 绥中县| 镇康县| 延安市| 田林县| 杭锦旗| 安仁县| 会泽县| 冀州市| 永修县| 湘潭县| 伽师县| 凤阳县| 吉安市| 和政县| 德清县| 赫章县| 东乡| 凤山县| 阜城县| 禄劝| 伊金霍洛旗| 孝感市| 江门市| 水城县| 罗定市| 岳西县| 阜宁县| 泸水县| 舒城县| 普格县| 金华市| 罗平县| 阿克苏市| 陆河县| 都匀市| 姚安县|