国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識發(fā)現(xiàn)(KD)研究熱點與前沿的信息可視化分析

2011-07-16 08:25:30郭凌輝武漢大學(xué)信息管理學(xué)院武漢430072
圖書館理論與實踐 2011年8期
關(guān)鍵詞:主題詞熱點數(shù)據(jù)挖掘

●郭凌輝(武漢大學(xué) 信息管理學(xué)院,武漢 430072)

1 前言

知識發(fā)現(xiàn)(KD)是計算機科學(xué)發(fā)展最快的領(lǐng)域之一。

知識發(fā)現(xiàn)(KD)就是從大量數(shù)據(jù)中提取出可信的、新穎的、潛在有用的并能被人理解的模式的高級處理過程。[1]知識發(fā)現(xiàn)一個重要步驟是數(shù)據(jù)挖掘(DM),數(shù)據(jù)挖掘是從數(shù)據(jù)中提取知識的實際過程。在實踐中,人們通常把數(shù)據(jù)挖掘(DM)、知識發(fā)現(xiàn)(KD)以及數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)看做同義語。隨著信息時代和知識經(jīng)濟的到來,KD理論和技術(shù),已成為計算機應(yīng)用的重點領(lǐng)域,知識發(fā)現(xiàn)的研究范圍在不斷擴大,研究熱度不斷升溫。

近年來,國內(nèi)外知識發(fā)現(xiàn)研究學(xué)者對知識發(fā)現(xiàn)的研究現(xiàn)狀、前沿與熱點、發(fā)展趨勢等進(jìn)行了一定程度的研究。如楊炳儒等(2005) 認(rèn)為目前國際上KDD的研究主要是以知識發(fā)現(xiàn)的任務(wù)描述、知識評價與知識表示為主線,以有效的知識發(fā)現(xiàn)算法為中心,這是在相當(dāng)長的一段時間內(nèi)保持的主流基調(diào)。[2]Krzysztof J.Cios,LukaszA.Kurgan(2006) 認(rèn)為,除了設(shè)計和實施一個新的DMKD框架之外,還需要更多的實際行動。它包括設(shè)計一種高性能的新一代數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)具備復(fù)合數(shù)據(jù)挖掘方法,能從海量復(fù)雜數(shù)據(jù)中特別是多媒體數(shù)據(jù)中挖掘有用的知識,并能可視化分析結(jié)果。[3]孫吉紅和焦玉英(2006) 認(rèn)為知識發(fā)現(xiàn)研究的重點領(lǐng)域和趨勢集中在:文本挖掘、數(shù)據(jù)挖掘(查詢)語言的設(shè)計、數(shù)據(jù)立方的數(shù)據(jù)挖掘、概念知識庫挖掘、基于可視化的知識發(fā)現(xiàn)、復(fù)雜數(shù)據(jù)類型挖掘的新方法、可伸縮的數(shù)據(jù)挖掘方法。除此之外,知識發(fā)現(xiàn)與數(shù)據(jù)隱私保護(hù)和信息安全、開發(fā)知識發(fā)現(xiàn)語言、專項挖掘查詢語言及其優(yōu)化等領(lǐng)域也是數(shù)據(jù)挖掘未來發(fā)展的趨勢。[4]黃紫菲(2006) 則認(rèn)為,目前,國外對KDD的研究主要有:對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統(tǒng)的統(tǒng)計學(xué)回歸法在KDD中的應(yīng)用;KDD與數(shù)據(jù)庫的緊密結(jié)合。在應(yīng)用方面包括KDD商業(yè)軟件工具不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng),而不是孤立的過程。[5]靳展(2008) 認(rèn)為知識發(fā)現(xiàn)的研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及各種學(xué)科之間的相互滲透。[6]楊炳儒(2008)認(rèn)為當(dāng)前KD&DM研究的趨向主要有:原有理論方法的深化與拓展;復(fù)雜類型(系統(tǒng))數(shù)據(jù)挖掘成為熱點;新技術(shù)方法的引入(其他學(xué)科領(lǐng)域的滲透);理論融合交叉性研究;強化基礎(chǔ)理論研究等。[7]李進(jìn)華(2009)認(rèn)為網(wǎng)格環(huán)境下的分布式知識發(fā)現(xiàn)將朝著更廣范圍與更大規(guī)模的數(shù)據(jù)集、更豐富的知識發(fā)現(xiàn)工具、更加智能化的知識發(fā)現(xiàn)調(diào)度策略、更高程度自動化的知識發(fā)現(xiàn)流程、更加個性化的知識服務(wù)等方面發(fā)展。[8]

前述有關(guān)研究基本均是定性分析,是主觀思辯的結(jié)果。筆者擬在相關(guān)文獻(xiàn)研究的基礎(chǔ)上,基于科學(xué)計量學(xué)的方法,從科學(xué)知識圖譜的角度,對近年來國際上對知識發(fā)現(xiàn)(KD) 前沿主流研究領(lǐng)域與相關(guān)熱點問題進(jìn)行初步的以定量分析為主,定性分析為輔的探析,希望對知識發(fā)現(xiàn)(KD)的研究有所裨益。

2 數(shù)據(jù)來源與研究方法

本文所使用的數(shù)據(jù),全部來源于美國的科學(xué)情報研究所(Institute for Scientific Information,縮寫為ISI) 出版的Web of Science數(shù)據(jù)庫中的 (SCI-EXPANDED,SSCI,A&HCI,CPCI-S,CPCI-SSH) 文獻(xiàn)。數(shù)據(jù)的檢索策略是“TS(主題)=Knowledge discovery AND 語言 =(English)AND文獻(xiàn)類型 =(Article) 數(shù)據(jù)庫 =SCI-EXPANDED,SSCI,A&HCI AND入庫時間 =1986-2009,檢索結(jié)果為3987條文獻(xiàn)記錄,數(shù)據(jù)下載日期為2010年3月10日。

本文采用以定量分析為主的科學(xué)知識圖譜的繪制方法,[9,10]借助陳超美博士開發(fā)的信息可視化軟件Citespace,[11]形象地展示出國際KD研究的熱點與前沿。通過繪制科學(xué)知識圖譜,可以將知識和信息中令人注目的最前沿領(lǐng)域或?qū)W科制高點,以可視化的圖像直觀地展現(xiàn)出來,幫助人們挖掘、分析和顯示科學(xué)知識以及它們之間相互關(guān)系,并能夠較為直觀地識別學(xué)科前沿的演進(jìn)路徑及學(xué)科領(lǐng)域的經(jīng)典基礎(chǔ)文獻(xiàn)。分析共被引作者,可以發(fā)現(xiàn)該學(xué)科的重要核心人物及相互之間的學(xué)術(shù)親緣關(guān)系。[12,13]此外,CiteSpace還具有關(guān)鍵詞聚類和膨脹詞探測功能,以此便可確定某研究領(lǐng)域的前沿領(lǐng)域和發(fā)展趨勢。

3 結(jié)果分析

3.1 國際知識發(fā)現(xiàn)研究的關(guān)鍵節(jié)點文獻(xiàn)與作者

我們將1986—2009年發(fā)表的全部3987篇“知識發(fā)現(xiàn)”的題錄數(shù)據(jù)輸入Citespace軟件中,這些題錄數(shù)據(jù)主要包括標(biāo)題、關(guān)鍵詞、摘要和參考文獻(xiàn)等。選擇網(wǎng)絡(luò)節(jié)點確定為參考文獻(xiàn),將1986—2009年這24年跨度分為8個時間分區(qū)(每3年一個分區(qū)),閾值分別設(shè)置為 (2,2,20),(4,3,20),(4,3,20),運行Citespace軟件,得到國際知識發(fā)現(xiàn)研究共引網(wǎng)絡(luò)知識圖譜(見圖1)。字體越大表明越是重要的節(jié)點文獻(xiàn)。

圖1 國際知識發(fā)現(xiàn)(KD)研究的關(guān)鍵節(jié)點文獻(xiàn)

通過圖1我們可以清晰地看到國際知識發(fā)現(xiàn)研究領(lǐng)域經(jīng)典文獻(xiàn)之間的共被引關(guān)系。在這張圖譜中我們可以看到6個最突出的關(guān)鍵節(jié)點文獻(xiàn)。根據(jù)陳超美博士的定義,共引網(wǎng)絡(luò)圖譜中的關(guān)鍵節(jié)點是圖譜中連接2個以上不同聚類,且相對中心度和被引頻次較高的節(jié)點。這些節(jié)點可能成為網(wǎng)絡(luò)中由一個時間段向另一個時間段過度的關(guān)鍵點。[14]從知識領(lǐng)域的角度看,關(guān)鍵節(jié)點文獻(xiàn)一般是提出重要的新理論或是具有重大理論創(chuàng)新的經(jīng)典文獻(xiàn),也是最有可能形成科學(xué)研究前沿?zé)狳c的文獻(xiàn)。

從圖1可以看出,按照節(jié)點在共引網(wǎng)絡(luò)中的大小,視圖中最突出的是Agrawal R,Imielinski T和Swami A(1993) 年發(fā)表的《Miningassociationrules betweensets of items in large databases》。在該文中,Agrawal等首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,其核心方法是基于頻集理論的遞推方法。關(guān)聯(lián)規(guī)則是Agrawal等人提出的數(shù)據(jù)挖掘領(lǐng)域中的一個重要課題,它是描述在一個交易中物品之間同時出現(xiàn)的規(guī)律的知識模式。關(guān)聯(lián)規(guī)則的分析方法用于隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系。所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項集的形式表示。關(guān)聯(lián)規(guī)則可以揭示事物之間的聯(lián)系,也用于購物籃分析,金融服務(wù)和科學(xué)數(shù)據(jù)分析等。[15]

并列排在第一位的作者是QuinlanJ R,他在1993年出版了《C4.5:Programs for Machine Learning》一書。決策樹方法在機器學(xué)習(xí)、知識發(fā)現(xiàn)等領(lǐng)域具有廣泛應(yīng)用。在該書中,他提出了ID方法的改進(jìn)版本C4.5算法。C4.5決策樹算法的核心思想是利用信息熵原理,選擇信息增益率最大的屬性作為分類屬性,遞歸地構(gòu)造決策樹的分枝,完成決策樹的構(gòu)造。[16,17]

排在第三位的是Agrawal R和Srikant R 1994年發(fā)表的Fast algorithms for mining association rules in large databases一文,文中Agrawal等人提出了著名的Apriori算法,改進(jìn)了1993年提出的算法中支持度的計算方法,利用支持度的單調(diào)性來對候選項集進(jìn)行剪枝,從而大大減少了候選項集的數(shù)量和計算時間,其后的許多關(guān)聯(lián)規(guī)則算法都是基于Apriori算法或者是其變種。[18,19]

此外,Breiman L,Friedman J H,Olshen R A,Stone C J在1984年出版的Classification and Regression Trees[20]一書提出了分類與回歸樹算法CART(Classification and RegressionTree),Quinlan J R在1986年發(fā)表的《Induction ofdecision trees》[21]一文提出了 ID3決策樹算法。

以上這些文獻(xiàn)都是國際知識發(fā)現(xiàn)(KD)研究中的關(guān)鍵文獻(xiàn),在知識發(fā)現(xiàn)知識圖譜中均處于較重要的中心位置,對推動國際知識發(fā)現(xiàn)研究起了重要作用。而這些文獻(xiàn)的作者是國際知識發(fā)現(xiàn)研究的重要節(jié)點文獻(xiàn)作者。

3.2 國際知識發(fā)現(xiàn)的研究熱點

關(guān)鍵詞在一篇文章中所占的篇幅雖然不大,但卻是文章的核心與精髓,是文章主題的高度概括和凝練,因此對文章的關(guān)鍵詞進(jìn)行分析,頻次高的關(guān)鍵詞常被用來確定一個研究領(lǐng)域的熱點問題。[22,23]Citespace是一個由Java語言編寫的基于共引分析的引文網(wǎng)絡(luò)可視化軟件。運行該軟件時,可以選擇使用關(guān)鍵路徑(pathfinder)算法或最小生成樹(minimumspanning trees)算法對科學(xué)文獻(xiàn)引文共引網(wǎng)絡(luò)的路徑進(jìn)行分析和處理,并可以通過顯示高頻關(guān)鍵詞來確定國際KD研究的主要研究領(lǐng)域和研究熱點。

我們將1986—2009年發(fā)表的全部3987篇“KD”相關(guān)文獻(xiàn)數(shù)據(jù)輸入到Citespace軟件中,網(wǎng)絡(luò)節(jié)點確定為關(guān)鍵詞(keyword),主題詞來源選擇標(biāo)題(title)、摘要(abstract)和關(guān)鍵詞(descriptors與identifiers),詞項選擇名詞短語(noun phrases),調(diào)節(jié)Citespace閾值為 (2,2,20),(4,3,20),(4,3,20),選擇pathfinder算法,經(jīng)整理生成主題詞被引頻次大于10的主題詞列表(見表2) 以及圖2所示的國際KD研究熱點領(lǐng)域知識圖譜。

表2 “KD”研究文獻(xiàn)出現(xiàn)頻次〉50的主題詞

圖2 國際KD研究的研究熱點知識圖譜

圖2顯示的是高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖,從圖2和表2中可以清晰地看出,出現(xiàn)頻次最高的主題詞是knowledge discovery,出現(xiàn)的頻次達(dá)541次;其次是datamining,出現(xiàn)的頻次為305次,表明數(shù)據(jù)挖掘與知識發(fā)現(xiàn)不可分割,數(shù)據(jù)挖掘也是國際KD研究的核心和基點。高頻主題詞反映出國際KD研究的其他主要熱點領(lǐng)域還包括drug discovery(藥物發(fā)現(xiàn))、prior knowledge(先驗知識)、neural network(神經(jīng)網(wǎng)絡(luò))、associationrule(關(guān)聯(lián)規(guī)則)等。數(shù)據(jù)挖掘技術(shù)為新藥發(fā)現(xiàn)提供一種新的思路和方法。數(shù)據(jù)挖掘技術(shù)能夠幫助科研人員在大的數(shù)據(jù)庫中發(fā)現(xiàn)隱含的知識,更好、更快、更有效地決策,增強競爭力,加快藥物研發(fā)速度,提高藥物研發(fā)水平。此外neuralnetwork(神經(jīng)網(wǎng)絡(luò))、associationrule(關(guān)聯(lián)規(guī)則)也是當(dāng)前知識發(fā)現(xiàn)領(lǐng)域人們研究的熱點。

3.3 國際知識發(fā)現(xiàn)的研究前沿和發(fā)展趨勢

同樣是針對1986—2009年發(fā)表的全部3987篇“KD”相關(guān)文獻(xiàn)的題錄數(shù)據(jù),我們利用Citespace軟件中提供的膨脹詞探測(burst detection) 技術(shù)和算法,通過考察詞頻的時間分布,將其中頻次變化率高的詞(burstterm)從大量的主題詞中探測出來,依據(jù)詞頻的變動趨勢,而不僅僅是頻次的高低,來確定國際KD研究的前沿領(lǐng)域和發(fā)展趨勢。24網(wǎng)絡(luò)節(jié)點選擇為(keyterm),并選擇膨脹詞短語(burstphrases),閾值選擇默認(rèn)值 (2,2,20),(4,3,20),(4,3,20),點擊探測膨脹詞(findburstphrases),通過運行Citespace軟件,探測出的膨脹詞居于前7位的是,false discovery rate(錯誤發(fā)現(xiàn)率)、pharmaceutical industry(醫(yī)藥產(chǎn)業(yè))、gene expression data(基因表達(dá)數(shù)據(jù))、bindingsite(結(jié)合點位)、clusteringalgorithm(聚類算法)、genetic algorithm(遺傳算法)、potential discovery(潛能發(fā)現(xiàn))??梢哉J(rèn)為,這些方向是近年來國際知識發(fā)展研究的前沿領(lǐng)域,代表著國際知識發(fā)現(xiàn)研究的發(fā)展趨勢。

[1] Fayyad UM.Advances in Knowledge Discovery and Data Mining[M].AAAi/MITPress,1996.

[2] 楊炳儒,等.基于內(nèi)在認(rèn)知機理的知識發(fā)現(xiàn)理論及其應(yīng)用[J].自然科學(xué)進(jìn)展,2005,15(12):107互115.

[3] KrzysztofJ Cios,LukaszA Kurgan.Trendsin Data Mining and Knowledge Discovery[M].Springer Berlin/Heidelberg,2006:6互32.

[4] 孫吉紅,焦玉英.知識發(fā)現(xiàn)及其發(fā)展趨勢研究[J].情報理論與實踐,2006,29(5):528互531.

[5] 黃紫菲.內(nèi)容分析與知識發(fā)現(xiàn)的比較研究[J].情報理論與實踐,2006,29(5):524互527.

[6] 靳展.基于語義Web的知識發(fā)現(xiàn)方法研究[D].哈爾濱:哈爾濱工程大學(xué),2008.

[7] 楊炳儒.知識發(fā)現(xiàn)領(lǐng)域中當(dāng)今面臨的五類重大問題[J].中國工程科學(xué),2008,11(11):76互83.

[8] 李進(jìn)華.網(wǎng)格環(huán)境下的分布式知識發(fā)現(xiàn)研究進(jìn)展[J].情報理論與實踐,2009,32(11):120互124.

[9] 陳悅,劉則淵.悄然興起的科學(xué)知識圖譜[J].科學(xué)學(xué)研究,2005,23(2):149互154.

[10] 侯海燕,等.當(dāng)代國際科學(xué)學(xué)研究熱點演進(jìn)趨勢知識圖譜 [J].科研管理,2006,27(3):90互96.

[11] Visualizing Patterns and Trends in Scienific Literature.[EB/OL]. [2010互03互14].http://cluster.cis.drexel.edu/~cchen/citespace/.

[12] Chen C. Measuring the movement of a research paradigm[J]. Proc.of SPIE- IST: Visualization and Data-Analysis,2005 (17互18):5669.

[13] Chen C.Searching for intellectual turning points:progressive know ledgedomainvi sualization [J].Proc.Nat.l Acad.Sc.iUSA,2004 (101) :5303互5310.

[14] ChenC.The centrality of pivotal points in the evolution of the scientific networks[C]//in proceedings of the international conference on intelligent user interfaces(IUI2005).San Diego,CA,2005:37互43.

[15] R Agrawal.Mining Association Rules Between Sets of Items in Large Databases[C].Washington:Proceedings of the ACMSIG MOD International Conference Management of Data,1993:207互216.

[16] Quilan JR.C4.5:Programs for Machine Learning[M].San Mateo,CA:Morgan Kaufman Publisher,1993:10互51.

[17] 李強.創(chuàng)建決策樹算法的比較研究—ID3,C4.5,C5.0算法的比較 [J].甘肅科學(xué)學(xué)報,2006(12):84互87.

[18] Agrwal R,SrikanR.Fast Algorithms for Mining Association Rules in Large Databases[C].Proceedings of the Twentieth International Conference on Very Large Databases,Santiago,Chile 1994,9:487互499.

[19] 王卉,張紅君.關(guān)聯(lián)挖掘研究綜述[J].軟件導(dǎo)刊,2009(3):7互8.

[20] Breiman L,et al.Classification and Regression Tree[M].Wadsworth,Inc.1984.

[21] QuinlanJR.Induction of decision trees[J].Machine Learning,1986(1):81互106.

[22] Bailon-Moreno R,etal.Analy sis of the field of physical chemistry of surfactants with the unified scienc to metric mode.l fit of relational and activity indicators[J].Sciento metrics,2005,63 (2):259互276.

[23] BelvauxG,WolseyLA.Bc-prod:aspecialized branch-and-cutsystem forlot-sizing problems[J].Management Science,2000,46 (5):724互738.

[24] 欒春娟,等.國際科技政策研究熱點與前沿的可視化分析 [J].科學(xué)學(xué)研究,2009,127(2):240互243.

猜你喜歡
主題詞熱點數(shù)據(jù)挖掘
熱點
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
熱點
車迷(2019年10期)2019-06-24 05:43:28
結(jié)合熱點做演講
快樂語文(2018年7期)2018-05-25 02:32:00
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀(jì)的Ei主題詞
我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀(jì)的Ei主題詞
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
正阳县| 公安县| 平原县| 东乡族自治县| 鹤壁市| 乐都县| 皮山县| 武山县| 宜宾县| 弋阳县| 晋城| 鹰潭市| 中宁县| 肇东市| 苍山县| 察隅县| 临西县| 昌黎县| 蒲江县| 洱源县| 奇台县| 独山县| 正宁县| 仁寿县| 昆明市| 五河县| 灵丘县| 拜城县| 邵东县| 阿巴嘎旗| 门源| 吉安市| 安西县| 卫辉市| 布尔津县| 沛县| 广东省| 蒲城县| 高台县| 吐鲁番市| 鹤岗市|