国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的研究熱點與發(fā)展趨勢—基于CitespaceⅡ的可視化分析

2013-03-16 07:51白若微
關(guān)鍵詞:數(shù)據(jù)挖掘可視化聚類

白若微,張 萍,周 榕

陜西師范大學(xué)教育學(xué)院,西安 710062

遠(yuǎn)程教育在依靠現(xiàn)代網(wǎng)絡(luò)傳輸海量信息資源、為學(xué)習(xí)者提供便利通信服務(wù)的同時,又面臨學(xué)習(xí)個體信息獲取途徑繁雜、學(xué)習(xí)資源推送缺乏針對性、教學(xué)評價手段單一等諸多問題。數(shù)據(jù)挖掘技術(shù)進(jìn)入遠(yuǎn)程教育領(lǐng)域,為解決上述難題提供了新的契機。近年來,基于數(shù)據(jù)挖掘的個性化、智能化遠(yuǎn)程教育研究不斷深入,利用Web日志挖掘技術(shù)提高遠(yuǎn)程教育個性化服務(wù)質(zhì)量、運用決策樹實現(xiàn)智能化資源推送等研究如火如荼。該文借助CitespaceⅡ軟件,對近10年內(nèi)遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的現(xiàn)有研究進(jìn)行可視化分析,以便直觀、形象地展現(xiàn)數(shù)據(jù)挖掘在遠(yuǎn)程教育中應(yīng)用的熱點問題、研究前沿以及發(fā)展趨勢。

1 數(shù)據(jù)來源與研究方法

1.1 樣本選擇

我國有關(guān)數(shù)據(jù)挖掘的研究由來已久,且研究文獻(xiàn)數(shù)量豐富,但將數(shù)據(jù)挖掘應(yīng)用到遠(yuǎn)程教育領(lǐng)域的研究卻相對滯后。為了較全面地反映遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀,該文以中國全文數(shù)據(jù)庫(CNKI)為樣本來源,以“主題”為檢索項,以“數(shù)據(jù)挖掘”及“遠(yuǎn)程教育”為檢索式,以精確的匹配模式對2001-2011年間的文獻(xiàn)進(jìn)行檢索,共得到有效樣本198篇,其中包括133篇期刊論文、61篇博碩士論文和4篇會議論文。

1.2 研究方法

CitespaceⅡ是基于Java編程語言的信息可視化軟件[1],它由美國德雷克賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院陳超美博士研究開發(fā),可用于探測和分析學(xué)科研究前沿的變化趨勢以及研究前沿與其知識基礎(chǔ)之間、不同研究前沿之間的相互關(guān)系[2]。該研究利用CitespaceⅡ3.4.R1.public 繪制知識圖譜,將檢索到的研究樣本題錄以reforks格式導(dǎo)出并以“download_***.txt”格式命名。由于Citespace目前只識別美國科學(xué)情報研究所數(shù)據(jù)庫中的文獻(xiàn)格式(ISI),因此在進(jìn)行可視化數(shù)據(jù)處理之前,須利用CitespaceⅡ3.4.R1.public自帶的轉(zhuǎn)換工具將研究樣本題錄進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,方可導(dǎo)入CitespaceⅡ進(jìn)行科學(xué)信息處理。

2 可視化分析

2.1 近10年載文數(shù)量分布

圖1 發(fā)文數(shù)量變化圖

從圖1所示的載文數(shù)量變化來看,遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的研究文獻(xiàn)總體數(shù)量偏少,但從年份來看卻保持平穩(wěn)較快的增長趨勢。

數(shù)據(jù)挖掘進(jìn)入遠(yuǎn)程教育領(lǐng)域的初期,為改善遠(yuǎn)程教育的諸多問題提供了新思路和新方法,因而吸引了大批研究者的關(guān)注。隨著數(shù)據(jù)挖掘理論與技術(shù)的進(jìn)步與完善,相關(guān)研究在2004-2005年出現(xiàn)了較大幅度增長。但此后,遠(yuǎn)程教育領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的相關(guān)研究進(jìn)入了高原期,甚至在2008年、2010年出現(xiàn)下滑。分析可知:研究者對新技術(shù)具有敏銳的洞察力,并試圖結(jié)合其他學(xué)科的理論與方法來促進(jìn)遠(yuǎn)程教育的發(fā)展。但數(shù)據(jù)挖掘的深入研究要求研究者具有較高的技術(shù)素養(yǎng),而大部分遠(yuǎn)程教育研究者無法跨越數(shù)據(jù)挖掘技術(shù)的門檻,導(dǎo)致研究停滯不前。因此,遠(yuǎn)程教育應(yīng)用數(shù)據(jù)挖掘技術(shù)相關(guān)研究的發(fā)展迫切需要多學(xué)科合作的研究隊伍,期待理論研究者與技術(shù)開發(fā)人員的有效整合。

2.2 研究熱點分析

文獻(xiàn)題錄中的關(guān)鍵詞是作者對文章主旨的概括和凝煉,借助Citespace對文獻(xiàn)中的高頻關(guān)鍵詞進(jìn)行分析,能夠有效揭示遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的研究熱點。分析時,首先將單個時間分區(qū)設(shè)定為1年,即得到11個單位時間分區(qū);之后在“Node type”面板中選擇“keyword”進(jìn)行聚類分析,同時閾值分別設(shè)定為(2,2,20)、(2,2,20)、(3,2,20),表示關(guān)鍵詞出現(xiàn)次數(shù)大于2,關(guān)鍵詞共現(xiàn)次數(shù)大于2,關(guān)鍵詞間相似系數(shù)大于0.2。通過此條件共得到33個關(guān)鍵詞節(jié)點和42條關(guān)鍵詞間的連線(如圖2所示),以及出現(xiàn)頻次居于前10位的關(guān)鍵詞列表(如表1所示)與中心中介度居于前10位的關(guān)鍵詞列表(如表2所示)。

圖2 相關(guān)研究文獻(xiàn)關(guān)鍵詞共現(xiàn)知識圖譜

表1 頻次前10位的關(guān)鍵詞

表2 中心中介度前10位的關(guān)鍵詞

圖2中,圓圈顏色代表關(guān)鍵詞出現(xiàn)的相應(yīng)年份,圓圈大小代表關(guān)鍵詞出現(xiàn)的次數(shù),圓圈越大說明此關(guān)鍵詞出現(xiàn)的次數(shù)越多。其中,外圈顏色為紫色的節(jié)點表示在整個圖譜中起決定作用的關(guān)鍵節(jié)點,它反映了一個關(guān)鍵詞在整個網(wǎng)絡(luò)中作為“媒介”的能力,也就是占據(jù)其他兩個節(jié)點之間最短路徑的能力(即關(guān)鍵詞的中心中介度)[3]。一個關(guān)鍵詞的中介中心度越強(外圈紫色的厚度代表其中介中心度的強弱),意味著它控制的關(guān)鍵詞之間的信息流越多[4]。

由圖2可以看出,主要有10個較明顯的聚類,各聚類以“數(shù)據(jù)挖掘”和“遠(yuǎn)程教育”為核心緊密聯(lián)系,充分表明了這10個關(guān)于遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究之間具有密切關(guān)系,且呈現(xiàn)出各聚類間相互交叉、融合的特點和趨勢。結(jié)合表1、表2可以得出,“數(shù)據(jù)挖掘”是出現(xiàn)頻次最高的關(guān)鍵詞(即圖譜中最大的節(jié)點),而出現(xiàn)頻次僅次于“數(shù)據(jù)挖掘”的“遠(yuǎn)程教育”,以其中介中心度1.09居于中介中心度排序首位。此外,“關(guān)聯(lián)規(guī)則”、“個性化學(xué)習(xí)”、“Web挖掘”、“Web日志”等關(guān)鍵詞也很突出,這充分反映了2001-2011年遠(yuǎn)程教育應(yīng)用數(shù)據(jù)挖掘技術(shù)相關(guān)研究的關(guān)注點和發(fā)展趨勢。

2.2.1 “數(shù)據(jù)挖掘”聚類分析 圖2中“數(shù)據(jù)挖掘”聚類直接聚集了“網(wǎng)絡(luò)教學(xué)”、“信息處理”、“聚類分析”、“知識發(fā)現(xiàn)”、“數(shù)據(jù)預(yù)處理”、“xml”等關(guān)鍵詞,并與“關(guān)聯(lián)規(guī)則”、“學(xué)習(xí)風(fēng)格”、“遠(yuǎn)程教育”、“Web日志挖掘”、“決策樹”等關(guān)鍵詞直接相連,反映了遠(yuǎn)程教育領(lǐng)域應(yīng)用數(shù)據(jù)挖掘的主要技術(shù)。

①“關(guān)聯(lián)規(guī)則”。關(guān)聯(lián)規(guī)則能夠?qū)θ菀缀鲆暻冶砻媛?lián)系并不緊密的教學(xué)行為、知識篇章、教學(xué)成果進(jìn)行有效聚類,揭示各信息間的潛在聯(lián)系,為遠(yuǎn)程教育決策提供科學(xué)依據(jù)。肖志明[5]將關(guān)聯(lián)規(guī)則應(yīng)用到遠(yuǎn)程教育的教學(xué)評價中,探尋教學(xué)質(zhì)量和效果與眾多影響因素之間的相關(guān)性,從而為教學(xué)部分的決策提供學(xué)科信息;王新穎[6]等則利用關(guān)聯(lián)規(guī)則的多層次、超圖分割聚類方法對網(wǎng)頁和用戶進(jìn)行聚類,使得高針對性輔導(dǎo)、答疑成為可能。

②“決策樹”。它采用“分而治之”的方法,從上向下將問題劃分為若干子集,并進(jìn)行分類、聚類及效益預(yù)測(在遠(yuǎn)程教育中常用到ID3算法和C4.5算法)。例如:運用決策樹方法,從學(xué)生歷史學(xué)習(xí)記錄出發(fā),通過分析學(xué)生學(xué)習(xí)知識點的效果及知識點所調(diào)用資源的屬性關(guān)系,找出具有相似學(xué)習(xí)特征的某類學(xué)生在學(xué)習(xí)某一知識點時資源選擇的規(guī)律,從而給具有相似特性的學(xué)生組織課件提供決策參考[7]。

③“Web日志挖掘”。與Web內(nèi)容挖掘及Web結(jié)構(gòu)挖掘不同,Web日志挖掘面向用戶和Web交互過程中抽取出來的第二手?jǐn)?shù)據(jù)。通過Web日志挖掘可以發(fā)現(xiàn)相似學(xué)習(xí)群體、資源頁面之間的鏈接關(guān)系,不僅為個性化、智能化遠(yuǎn)程教學(xué)奠定基礎(chǔ),而且有利于遠(yuǎn)程教學(xué)的各項管理工作。

2.2.2 “遠(yuǎn)程教育”聚類分析 “遠(yuǎn)程教育”直接聚集了“個性化服務(wù)”、“Web日志挖掘”、“數(shù)據(jù)倉庫”、“個性化”、“Web數(shù)據(jù)挖掘”等關(guān)鍵詞,與“數(shù)據(jù)挖掘”、“個性化學(xué)習(xí)”、“個性分析引擎”、“個性化學(xué)習(xí)系統(tǒng)”等關(guān)鍵詞直接相連,直觀揭示了遠(yuǎn)程教育利用數(shù)據(jù)挖掘技術(shù)發(fā)展的趨勢—個性化?;ヂ?lián)網(wǎng)豐富了學(xué)習(xí)資源種類,加快了知識傳播速度,但遠(yuǎn)程學(xué)習(xí)者面對海量資源卻很難尋找到適合自身需要與發(fā)展的信息。實現(xiàn)個性化教學(xué)是遠(yuǎn)程教育發(fā)展不變的宗旨,是現(xiàn)實社會對遠(yuǎn)程教育提出的新要求,是提高遠(yuǎn)程教育質(zhì)量的關(guān)鍵點,也是將遠(yuǎn)程教育與數(shù)據(jù)挖掘鏈接的紐帶。

“遠(yuǎn)程教育”聚類的研究通常在闡釋數(shù)據(jù)挖掘相關(guān)技術(shù)的基礎(chǔ)上,提出較為完整的個性化遠(yuǎn)程服務(wù)系統(tǒng)的結(jié)構(gòu)設(shè)計模型。例如:運用Web日志挖掘建立學(xué)習(xí)者數(shù)據(jù)倉庫,發(fā)掘?qū)W習(xí)者潛在信息,并利用Web挖掘?qū)崿F(xiàn)個性化引擎,構(gòu)建從個性化資源推送到多元化教學(xué)評價的個性化遠(yuǎn)程學(xué)習(xí)系統(tǒng)。

2.3 高被引作者分析

科學(xué)文獻(xiàn)的作者是科學(xué)研究活動的主體,學(xué)科領(lǐng)域內(nèi)的優(yōu)秀研究人員往往能夠引領(lǐng)學(xué)科發(fā)展的方向[8]。高被引文獻(xiàn)的作者通常是某領(lǐng)域中具有較高影響力的研究者,其主要研究成果可以體現(xiàn)該領(lǐng)域某階段的研究熱點與趨勢。利用Citespace對高被引文獻(xiàn)的作者進(jìn)行分析,能夠發(fā)現(xiàn)遠(yuǎn)程教育中數(shù)據(jù)挖掘應(yīng)用研究的核心研究力量。

在Citespace軟件中,設(shè)定“Node Types”為“Author”,選擇記錄的前50%進(jìn)行聚類分析,共得到305個節(jié)點與131條連線(如圖3所示)。由圖3可以看到,各個節(jié)點在圖中分布零散,即表明各個研究力量相對獨立,很少有學(xué)科、校際或科研團隊間的合作,圖中僅有的幾個聚類也均為校內(nèi)或項目組內(nèi)的合作。

圖3 研究作者合作知識圖譜

由圖3可以直觀發(fā)現(xiàn)幾個較為突出的研究團隊,能夠發(fā)掘出遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)相關(guān)研究的核心作者。上海交通大學(xué)計算機科學(xué)與工程系的申瑞民教授與他的學(xué)生舒蓓、王加俊發(fā)表的“個性化的遠(yuǎn)程學(xué)習(xí)模型”居于被引頻次之首。該研究系統(tǒng)敘述了個性化遠(yuǎn)程學(xué)習(xí)模型PDLM的原理和構(gòu)成,構(gòu)建了PDLM系統(tǒng)解決方案,為從根本上解決遠(yuǎn)程學(xué)習(xí)者被動獲得知識的矛盾提供了極為重要的思路[9]。董逸生教授等在“基于Weblog的模式發(fā)現(xiàn)及應(yīng)用的研究”一文中,系統(tǒng)地提出了Weblog挖掘的原型,討論了用戶瀏覽模式的發(fā)現(xiàn)算法,并構(gòu)建了Adaptive Web自適應(yīng)Web站點系統(tǒng)[10],開拓了Web站點設(shè)計研究的視野。楊炳儒教授帶領(lǐng)他的團隊于2002年發(fā)表“基于Web的文本挖掘”一文,在Web文本挖掘分析研究的基礎(chǔ)上,給出了一個基于Web文本挖掘的結(jié)構(gòu)模型圖,并提出了智能化、個性化的現(xiàn)代遠(yuǎn)程教育系統(tǒng)結(jié)構(gòu)模型,對個性化獲取信息的研究產(chǎn)生了重要的指導(dǎo)作用。

2.4 研究前沿與發(fā)展趨勢分析

“研究前沿是科學(xué)研究中最先進(jìn)、最有發(fā)展?jié)摿Φ难芯恐黝}或研究領(lǐng)域”[11]?!癈itespaceⅡ所定義的研究前沿強調(diào)的是新趨勢和突變的特征,并用Kleinberg突現(xiàn)檢測算法獲取的突現(xiàn)詞來表示研究前沿”[12]。利用Citespace對突現(xiàn)詞進(jìn)行聚類分析,可判斷遠(yuǎn)程教育領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的研究前沿。

Citespace可視化軟件具有兩種不同的視圖顯示方式,即聚類視圖和時區(qū)視圖,時區(qū)視圖的顯示方式突出共引網(wǎng)絡(luò)節(jié)點隨時間變化的結(jié)構(gòu)關(guān)系[13]。在“Term Type”面板中選擇“BurstTerms”,“Node Types”中選擇“keyword”,三個閾值分別設(shè)置為(2,2,15)、(2,2,20)、(3,2,20),并選擇 Pathfinder算法,在“Layout”面板上選擇“Timezone”,得到遠(yuǎn)程教育中數(shù)據(jù)挖掘相關(guān)研究文獻(xiàn)突現(xiàn)關(guān)鍵詞的網(wǎng)絡(luò)節(jié)點時區(qū)視圖(如圖4所示)。

通過圖4可以看出,遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的突現(xiàn)詞主要有個性化、關(guān)聯(lián)規(guī)則、Web數(shù)據(jù)挖掘、現(xiàn)代開放教育、文本數(shù)據(jù)挖掘,等,這與圖1繪制的研究熱點基本一致?!皞€性化分析引擎”首次將數(shù)據(jù)挖掘與遠(yuǎn)程教育個性化學(xué)習(xí)服務(wù)連接起來,成為2001年前后的研究熱點之一。2002-2005年,決策樹、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘的相關(guān)算法開始有效應(yīng)用于遠(yuǎn)程教育研究。2006年之后,利用歷史網(wǎng)頁獲取信息的“Web挖掘”以及利用深層次分析技術(shù)將數(shù)據(jù)上升為信息的“知識管理”成為遠(yuǎn)程教育研究的新熱點。2009年前后,粗糙集作為分析學(xué)習(xí)者個人認(rèn)知能力的有效工具,將遠(yuǎn)程教育智能化測評研究推向高潮。2010年至今,開放教育研究受到眾多研究者的青睞,開放多媒體教學(xué)系統(tǒng)成為遠(yuǎn)程教育中數(shù)據(jù)挖掘應(yīng)用研究的新領(lǐng)域。

圖4 相關(guān)研究文獻(xiàn)突現(xiàn)關(guān)鍵詞的網(wǎng)絡(luò)節(jié)點時區(qū)視圖

3 總結(jié)建議

該文通過對遠(yuǎn)程教育中數(shù)據(jù)挖掘相關(guān)研究文獻(xiàn)進(jìn)行可視化分析,得出以下結(jié)論:

①隨著信息技術(shù)的日新月異,數(shù)據(jù)挖掘與遠(yuǎn)程教育均取得了長足的進(jìn)步,但“個性化”始終是數(shù)據(jù)挖掘改善遠(yuǎn)程教育質(zhì)量的關(guān)鍵點與著力點。

②數(shù)據(jù)挖掘促進(jìn)了遠(yuǎn)程教育的發(fā)展,并在應(yīng)用研究中獲得自身的完善與進(jìn)步,可謂互利共贏。從早期應(yīng)用關(guān)聯(lián)規(guī)則、決策樹等方法靜態(tài)收集信息,到利用Web挖掘動態(tài)獲取遠(yuǎn)程教育信息,再到利用粗糙集對學(xué)習(xí)者認(rèn)知進(jìn)行智能化挖掘,這不僅印證了遠(yuǎn)程教育的發(fā)展歷程,也展現(xiàn)了數(shù)據(jù)挖掘的前進(jìn)足跡。

③遠(yuǎn)程教育中數(shù)據(jù)挖掘技術(shù)的研究具有十分重要的價值,但相關(guān)成果的總體數(shù)量仍明顯不足,且研究力量孤立、分散,因此期待更多研究者的投入與關(guān)注,以及不同學(xué)科、不同研究團隊的有效合作。

[1]陳超美.CiteSpaceⅡ:科學(xué)文獻(xiàn)中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009,(3):401-421

[2]周金俠.基于CitespaceⅡ的信息可視化文獻(xiàn)的量化分析[J].情報學(xué)報,2011,(1):98-112

[3]張靈芝.1998年以來中國高等教育研究熱點及其知識可視化圖譜分析—基于CSSCI高等教育類論文關(guān)鍵詞的分析[J].高教探索,2012,(2):41-46

[4]Small H.The synthesis of specialty narratives from cocitationclusters[J].J of the Am Soc for Inform Sci,1986,37(3):97-110

[5]肖志明.關(guān)聯(lián)規(guī)則在遠(yuǎn)程教育教學(xué)評價中的應(yīng)用[J].中國遠(yuǎn)程教育,2012,(9):39-42

[6]王新穎,王向麗,張文華.基于關(guān)聯(lián)規(guī)則的聚類挖掘在遠(yuǎn)程教育中的應(yīng)用[J].現(xiàn)代遠(yuǎn)距離教育,2008,(4):12-14

[7]李家文,姚君遺,楊善林.基于決策樹方法的個性化課件資源選擇[J].教育信息化,2003,(6):43-44

[8]孫海生.作者關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)及實證研究[J].情報雜志,2012,(9):63-67

[9]舒蓓,申瑞民,王加?。畟€性化的遠(yuǎn)程學(xué)習(xí)模型[J].計算機工程與應(yīng)用,2001,(9):90-96

[10]宋愛波,董逸生.基于Weblog的模式發(fā)現(xiàn)及應(yīng)用的研究[J].小型微型計算機系統(tǒng),2002,(11):1332-1335

[11]陳仕吉.科學(xué)研究前沿探測方法綜述[J].現(xiàn)代圖書情報技術(shù),2009,(9):28-33

[12]Chen C.Searching for intellectual turning points:Progressive Knowledge Domain Visualization[J].Proc Nat Acad Sci,2004,101(Suppl):5303-5310

[13]張士靖,杜建,周志超,等.信息素養(yǎng)領(lǐng)域演進(jìn)路徑、研究熱點與前沿的可視化分析[J].大學(xué)圖書館學(xué)報,2010,(5):101-106

猜你喜歡
數(shù)據(jù)挖掘可視化聚類
基于CiteSpace的足三里穴研究可視化分析
思維可視化
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于CGAL和OpenGL的海底地形三維可視化
基于K-means聚類的車-地?zé)o線通信場強研究
“融評”:黨媒評論的可視化創(chuàng)新
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實現(xiàn)
基于改進(jìn)的遺傳算法的模糊聚類算法
电白县| 林甸县| 米林县| 西乡县| 清水县| 株洲县| 开平市| 武城县| 青阳县| 斗六市| 石楼县| 宁远县| 扶风县| 左权县| 调兵山市| 富民县| 怀仁县| 喀喇沁旗| 平原县| 宁陵县| 长葛市| 连平县| 安乡县| 鲁山县| 大余县| 垣曲县| 大渡口区| 自治县| 铜川市| 淮阳县| 南开区| 武鸣县| 阿荣旗| 临朐县| 房产| 和平县| 南开区| 阳原县| 石家庄市| 土默特右旗| 诏安县|