国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Citespace的大數(shù)據(jù)研究可視化分析

2015-09-21 10:59:59趙建保黃曉斌廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計算機系廣州50507中山大學(xué)資訊管理學(xué)院廣州50006
圖書館理論與實踐 2015年10期
關(guān)鍵詞:數(shù)據(jù)處理熱點數(shù)據(jù)挖掘

●趙建保,黃曉斌(.廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計算機系,廣州50507;.中山大學(xué)資訊管理學(xué)院,廣州50006)

基于Citespace的大數(shù)據(jù)研究可視化分析

●趙建保1,黃曉斌2
(1.廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計算機系,廣州510507;2.中山大學(xué)資訊管理學(xué)院,廣州510006)

大數(shù)據(jù);CiteSpace;可視分析;知識圖譜

以ISI Web of Knowledge數(shù)據(jù)庫中2008~2014年間大數(shù)據(jù)為主題的1547條引文為研究對象,并以CiteSpace作為信息可視化工具,繪制了國家、機構(gòu)和研究熱點知識圖譜,揭示了大數(shù)據(jù)的學(xué)科屬性、研究力量、研究演進(jìn)和研究熱點.

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起,信息化與工業(yè)化的深度融合,數(shù)據(jù)產(chǎn)生已經(jīng)從被動轉(zhuǎn)向了自動階段,數(shù)據(jù)源越來越多,數(shù)據(jù)精度越來越高,數(shù)據(jù)呈現(xiàn)了規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、真實性(Veracity)、價值性(value)、匯聚性(Aggregate)的特征,大數(shù)據(jù)必將廣泛應(yīng)用于金融、商業(yè)、科學(xué)研究、消費行業(yè)等領(lǐng)域.已有的數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)分析模式已難以滿足大數(shù)據(jù)的需求,理清學(xué)界業(yè)界近幾年大數(shù)據(jù)研究力量、研究路徑和研究熱點,對科研管理、決策和開發(fā)尤其必要.

1 文獻(xiàn)檢索與計量分析

2014年8月27日使用檢索式為"TOPIC:(big+data)Timespan:2008-2014.Indexes:SCI-EXPANDED, CPCI-S,CPCI-SSH."對Web of Science進(jìn)行主題檢索,2008~2014年共發(fā)表1547篇文獻(xiàn);其中2008~2011年72篇,2012~2014年1475篇;2012年233篇,2013年859篇,2014年383篇,從2012年以來大數(shù)據(jù)研究力量驟增,研究成果較2011年增長了9倍多.

從WoS提供的研究領(lǐng)域劃分看,計算機科學(xué)881篇,工程536篇,電信125篇,說明大數(shù)據(jù)學(xué)科性質(zhì)是計算機科學(xué)技術(shù).從文獻(xiàn)類型方面會議論文(PROCEEDINGS PAPER)807篇,期刊論文(ARTICLE)472篇,其他類型文獻(xiàn)279篇.

2 大數(shù)據(jù)研究力量分析

設(shè)置CiteSpace參數(shù)生成2008~2014年間國家合作圖譜,顯示了大數(shù)據(jù)研究主要有美國(572篇)、中國(248篇)、德國(72篇)、英國、韓國、澳大利亞、日本等,美國和中國大數(shù)據(jù)研究起步較早,發(fā)文量較大.從國家合作看,國家間合作普遍開始于2013年之后,國家間合作呈現(xiàn)非網(wǎng)絡(luò)結(jié)構(gòu),說明國家間合作以單邊合作為主,多邊合作較少.

設(shè)置Citespace參數(shù)生成機構(gòu)合作圖譜,顯示國內(nèi)外主要大數(shù)據(jù)研究機構(gòu)有中國科學(xué)院、麻省理工學(xué)院、南加利福尼亞大學(xué)和加州大學(xué)洛杉磯分校等,研究機構(gòu)發(fā)文量統(tǒng)計如表1所示.

表1 研究機構(gòu)發(fā)文量排名

可劃分為以中國科學(xué)院、麻省理工學(xué)院和南加利福尼亞大學(xué)三大學(xué)術(shù)合作群體.其中,中國科學(xué)院與北京大學(xué)、北京理工大學(xué)等研究機構(gòu)開展了合作,麻省理工學(xué)院與加州理工學(xué)院(CALTECH)、卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)等研究機構(gòu)開展了合作,南加利福尼亞大學(xué)跟加州大學(xué)洛杉磯分校(Univ Calif Los Angeles)等研究機構(gòu)開展了合作.

從大數(shù)據(jù)研究的代表人物看,排前3位的分別是Jeffrey Dean、Tom White和Angela Hung Byers.Jeffrey Dean是Google公司Knowledge Group研究員, 2009年當(dāng)選美國工程院院士,研究方向為大規(guī)模分布式系統(tǒng)、信息檢索、機器學(xué)習(xí)等.1999年加入Google后參與了Google廣告服務(wù)系統(tǒng)、Google爬蟲、索引和查詢服務(wù)系統(tǒng)、MapReduce、BigTable等眾多Google的核心產(chǎn)品設(shè)計和實現(xiàn).主要學(xué)術(shù)研究成果有和等.其中的谷歌學(xué)術(shù)顯示的被引數(shù)高達(dá)11505次,影響力極高.Tom White是暢銷書的作者,從2007年2月?lián)蜛pache Hadoop項目負(fù)責(zé)人,是A-pache軟件基金會的成員之一.Angela Hung Byers是2011年麥肯錫全球研究院調(diào)研報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》的項目負(fù)責(zé)人.

3大數(shù)據(jù)研究演進(jìn)分析

演進(jìn)路徑是研究領(lǐng)域的知識基礎(chǔ)和前沿隨時間演進(jìn)的動態(tài)過程.知識基礎(chǔ)以經(jīng)典文獻(xiàn)和關(guān)鍵文獻(xiàn)為骨架構(gòu)成,為研究領(lǐng)域演進(jìn)提供動力和基礎(chǔ).2008~ 2013年經(jīng)典文獻(xiàn)如表2所示.

表2 大數(shù)據(jù)研究領(lǐng)域經(jīng)典文獻(xiàn)

結(jié)合WoS 大數(shù)據(jù)文獻(xiàn)分布規(guī)律,參照新興技術(shù)研究的特點和發(fā)展范式,可把2014 年之前的大數(shù)據(jù)研究劃分為萌生期(1980 ~2008) 和快速發(fā)展期(2009~2013) 二個階段。

萌生期(1980~2008 年)。1980 年3 月, Alvin Toffler 在《第三次浪潮》一書中預(yù)言大數(shù)據(jù)將是“第三次浪潮的華彩樂章”。2008 年1 月,Google 公司Jeffrey Dean 和Sanjay Ghemawat 在發(fā)表了

以谷歌大數(shù)據(jù)處理為例介紹了MapReduce 編程模型在處理各種大數(shù)據(jù)任務(wù)的可用性及數(shù)據(jù)處理模式,即程序員通過指定Map 函數(shù)和Reduce 函數(shù),底層系統(tǒng)會自動實現(xiàn)大規(guī)模集群的并行計算,并自動處理機器故障和調(diào)度機間的通信,有效地利用網(wǎng)絡(luò)和磁盤資源。[1]9 月Nature 推出了大數(shù)據(jù)專刊正式提出了大數(shù)據(jù)概念,[2]Doug Howe等在??邪l(fā)表文章,提出應(yīng)對生物學(xué)大數(shù)據(jù)的3項行動倡議,即出版物和數(shù)據(jù)庫之間的數(shù)據(jù)交換、建立權(quán)威的數(shù)據(jù)標(biāo)準(zhǔn)和設(shè)置數(shù)據(jù)策劃崗位.Clifford Lynch??邪l(fā)表評論,闡述了實現(xiàn)數(shù)據(jù)重用的前提是保存數(shù)據(jù),討論了數(shù)據(jù)管理的體制與機制.[3]12月,Bryant、Katz和Lazowska三位信息領(lǐng)域資深科學(xué)家聯(lián)合"計算社區(qū)聯(lián)盟(Computing Community Consortium)"發(fā)表了《大數(shù)據(jù)計算:商務(wù)、科學(xué)和社會領(lǐng)域的革命性突破》白皮書,闡述了在數(shù)據(jù)驅(qū)動的研究背景下,解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn).由此可見,在大數(shù)據(jù)萌生期主要研究重點是大數(shù)據(jù)的應(yīng)用前景及面臨的技術(shù)問題.

快速發(fā)展期(2009~2013年).2009年6月, Schatz在中介紹了基于MapReduce的CloudBurst并行算法用于分析人體基因組數(shù)據(jù)的良好性能;10月,Hadoop開源項目負(fù)責(zé)人Tom White著《Hadoop權(quán)威指南》,全面介紹了MapReduce編程技術(shù)及部署要求,為MapReduce的后續(xù)研究和應(yīng)用提供了權(quán)威指導(dǎo);同月,微軟研究院副總裁Tony Hey博士在一書中通過分析眾多數(shù)據(jù)密集型科學(xué)研究實例提出了科學(xué)研究的第四范式,即科學(xué)研究將從以計算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心;2010年1月,Jeffrey Dean在中闡述了MapReduce在大數(shù)據(jù)處理中具有良好的容錯性、異構(gòu)存儲系統(tǒng)加載和處理數(shù)據(jù)的便捷性以及為執(zhí)行復(fù)雜函數(shù)提供了良好的架構(gòu);6月,Ekanayake在中提出了支持跌代計算的MapReduce編程模型Twister及體系結(jié)構(gòu),并比較了Twister、Hadoop與DryadLING在海量數(shù)據(jù)并行處理的性能.9月Schadt等發(fā)表文章,以生命科學(xué)中基因組大數(shù)據(jù)為例提出了云計算和異構(gòu)計算來處理海量和高維數(shù)據(jù)集的方案.2011年2月Science雜志出版??饕懻摿丝茖W(xué)研究中大數(shù)據(jù)的問題及其重要性.[4]3月Trelles等發(fā)表文章指出計算節(jié)點間的數(shù)據(jù)通信將成為生物信息學(xué)研究中瓶頸,提出了通過云計算和異構(gòu)框架克服硬件瓶頸(如開發(fā)高速并行I/O來縮短存儲與計算間的路徑,整合光電通信技術(shù)提高高維數(shù)據(jù)傳輸速度),而通過多處理器來克服軟件瓶頸.[5]5月麥肯錫全球研究院Byers等發(fā)布調(diào)研報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,分析了大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域,明確提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略.同年5月EMC公司董事長兼首席執(zhí)行官喬圖斯在EMC World 2011拉斯維加斯大會主題為"云計算適逢大數(shù)據(jù)",闡述了云計算與大數(shù)據(jù)的理念和技術(shù)趨勢.6月由EMC贊助的IDC數(shù)字宇宙研究《從混沌中提取價值》提到三點重要論斷:全球數(shù)據(jù)量大約每兩年翻一番;2010年全球數(shù)據(jù)量跨入ZB時代,預(yù)計2011年全球數(shù)據(jù)量將達(dá)到1.8ZB;未來全球數(shù)據(jù)增速將會維持,預(yù)計到2020年全球數(shù)據(jù)量將達(dá)到令人恐怖的35ZB.[6]10月Gartner將大數(shù)據(jù)列入2012年十大戰(zhàn)略新興技術(shù).2012年1月,瑞士達(dá)沃斯世界經(jīng)濟論壇發(fā)布報告《大數(shù)據(jù),大影響》指出數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別.2012年3月美國奧巴馬政府推出了大數(shù)據(jù)研究和發(fā)展計劃投資兩億多美元推動大數(shù)據(jù)相關(guān)的采集、組織、分析、決策工具及技術(shù)研究,計劃將大數(shù)據(jù)技術(shù)用于高科技領(lǐng)域.5月,Tom White在書中介紹了構(gòu)建可靠、可擴展的Apache Hadoop分布式系統(tǒng),為程序員分析數(shù)據(jù)和管理員配置和運行Hadoop集群提供了權(quán)威指導(dǎo).在第三版中也增加了MapReduce API、MapReduce2和YARN的部分.5月微軟研究院的SurajitChaudhuri在中描述了基于大數(shù)據(jù)和云計算的數(shù)據(jù)管理研究面臨隱私保護(hù)(Data Privacy)、近似查詢結(jié)果(Approximate Results)、數(shù)據(jù)探索與分析(Data Exploration To Enable Deep Analytics)、企業(yè)數(shù)據(jù)集成(Enterprise Data Enrichment)、面向租戶進(jìn)行性能隔離(Performance Isolation For Multi-Tenancy)的6個挑戰(zhàn).12月,Chen等在發(fā)表文章,采用文獻(xiàn)計量學(xué)研究了商務(wù)智能分析領(lǐng)域的演進(jìn)、應(yīng)用、前沿及研究框架.2013年3月,Cukier在一書中,前瞻性地指出大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,分三個部分講述了大數(shù)據(jù)時代的思維變革、商業(yè)變革和管理變革.明確指出放棄對因果關(guān)系的渴求而關(guān)注相關(guān)關(guān)系,大數(shù)據(jù)的核心就是預(yù)測.書中展示了谷歌、微軟、亞馬遜、IBM等大數(shù)據(jù)先鋒們最具價值的應(yīng)用案例.4月,Murdoch在中討論大數(shù)據(jù)在衛(wèi)生保健中的應(yīng)用,借助經(jīng)濟模型強調(diào)了應(yīng)用中將面臨的機遇和挑戰(zhàn),建議通過加強病人和醫(yī)生數(shù)據(jù)的收集來提高衛(wèi)生保健的服務(wù)質(zhì)量和效率.6月,Marx在中介紹了生命科學(xué)大數(shù)據(jù)的增長態(tài)勢,指出了存儲和分析異構(gòu)復(fù)雜數(shù)據(jù)面臨的挑戰(zhàn)以及云計算在生命科學(xué)大數(shù)據(jù)的應(yīng)用.由此可見,在大數(shù)據(jù)快速發(fā)展期主要研究重點是大數(shù)據(jù)處理的生態(tài)系統(tǒng)構(gòu)建及業(yè)界學(xué)界的行業(yè)產(chǎn)業(yè)應(yīng)用實踐.

歷經(jīng)Toffler的大數(shù)據(jù)預(yù)言,Dean、White、Byers、Murdoch等一大批研究者的研究探索,大數(shù)據(jù)研究主題以大數(shù)據(jù)的應(yīng)用前景、大數(shù)據(jù)概念、大數(shù)據(jù)生態(tài)系統(tǒng)構(gòu)建和業(yè)界學(xué)界應(yīng)用落地為主線,呈現(xiàn)了大數(shù)據(jù)研究與大數(shù)據(jù)應(yīng)用交織演進(jìn)的態(tài)勢.可以預(yù)見,2014年后,大數(shù)據(jù)研究開始轉(zhuǎn)向行業(yè)領(lǐng)域應(yīng)用系統(tǒng)集成、大數(shù)據(jù)分析、管理及生態(tài)系統(tǒng)優(yōu)化方向.

4 大數(shù)據(jù)研究熱點分析

研究熱點可通過引文的主題詞出現(xiàn)頻率來探測.設(shè)置CiteSpace參數(shù)生成2012~2014大數(shù)據(jù)研究熱點圖譜(見下圖).

圖2012 ~2014大數(shù)據(jù)研究熱點圖譜

圖譜中的方形結(jié)點表示主題詞,文字是主題詞標(biāo)簽,節(jié)點的大小代表出現(xiàn)的頻次.從研究熱點的年度分布看,2012年大數(shù)據(jù)研究的熱點是hadoop生態(tài)系統(tǒng),2013年度熱點是異構(gòu)數(shù)據(jù)的管理和可視化技術(shù), 2014年研究熱點是大數(shù)據(jù)分析及生態(tài)系統(tǒng)的完善和體系化.將熱點主題詞進(jìn)行同義詞合并,得出大數(shù)據(jù)研究主要主題詞排序,依次是大數(shù)據(jù)(big data)、大數(shù)據(jù)分析(big data analytics)、云計算(cloud computing)、mapreduce、數(shù)據(jù)挖掘(data mining)、hadoop、大數(shù)據(jù)應(yīng)用(big data application)、模型(model)、機器學(xué)習(xí)(machine learning)、大數(shù)據(jù)時代(big data era)、系統(tǒng)(systems)和社交媒體(social media),big data(大數(shù)據(jù))的節(jié)點最大,這跟本身是檢索主題詞有關(guān).(見表3).

表32012 ~2014大數(shù)據(jù)研究熱點

熱點詞big data analytics(大數(shù)據(jù)分析)指根據(jù)分析主題需求,基于云計算技術(shù),采用數(shù)據(jù)挖掘、機器學(xué)習(xí)、統(tǒng)計分析等數(shù)據(jù)分析方法,發(fā)現(xiàn)大數(shù)據(jù)價值的過程.從大數(shù)據(jù)分析支撐技術(shù)來看,大數(shù)據(jù)中絕大部分都是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫缺乏可擴展性已經(jīng)無法進(jìn)行分析處理,而以mapreduce實現(xiàn)分析處理和以GFS、HDFS為代表的分布式文件系統(tǒng)具有良好的橫向擴展能力,現(xiàn)已成為大數(shù)據(jù)分析的主流技術(shù).大數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程的核心,通過分析過程發(fā)掘大數(shù)據(jù)價值并將其應(yīng)用到推薦系統(tǒng)、商業(yè)智能、決策支持等諸多領(lǐng)域.熱點詞cloud computing(云計算)為大數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析等提供支撐和基礎(chǔ)平臺.云計算是一種大規(guī)模的分布式模型,通過網(wǎng)絡(luò)將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務(wù)、存儲方式等傳遞給終端用戶,[7]最典型的就是以分布式文件系統(tǒng)GFS、批處理技術(shù)mapreduce、分布式數(shù)據(jù)庫BigTable為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop.云計算從技術(shù)層面強調(diào)單個節(jié)點的計算能力最大化,大數(shù)據(jù)從效用層面強調(diào)數(shù)據(jù)價值最大化.熱點詞mapreduce是Google公司和Hadoop開源軟件框架共有的核心計算模型.大數(shù)據(jù)處理模式主要有流處理和批處理兩種,流處理是直接處理,而批處理則是先存儲后處理.流處理應(yīng)用場景主要有網(wǎng)頁點擊數(shù)的實時統(tǒng)計、傳感器網(wǎng)絡(luò)、金融中的高頻交易等,比較代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等.批處理模式應(yīng)用場景主要有離線和近線處理,mapreduce是最具代表性的批處理模式,其核心思想在于"分而治之",把計算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計算,有效地避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通信開銷.mapreduce將運行大規(guī)模集群上的復(fù)雜的并行計算過程高度地抽象為Map和Reduce兩個函數(shù),mapreduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理. Map任務(wù)從輸入中解析出鏈/值(Key/Value)對集合,然后對這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤.Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后會根據(jù)key值進(jìn)行排序,將具有相同Key值的組織在一起,最后用戶自定義的Reduce函數(shù)會作用于這些排好序的結(jié)果并輸出最終結(jié)果.[8]data mining(數(shù)據(jù)挖掘)是數(shù)據(jù)分析師針對業(yè)務(wù)分析需求,利用各種分析工具從海量數(shù)據(jù)中挖掘出隱含的、未知的、對決策有潛在價值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程.數(shù)據(jù)挖掘的任務(wù)有分類與回歸、聚類、關(guān)聯(lián)規(guī)則、時序模式、偏差檢測五個方面.數(shù)據(jù)挖掘過程包括定義挖掘目標(biāo)、數(shù)據(jù)取樣、數(shù)據(jù)探索、預(yù)處理、模式發(fā)現(xiàn)、模型構(gòu)建、模型評價七個步驟,常用的數(shù)據(jù)挖掘工具有SAS Enterprise Miner、SPSSClementine、IBMMiner、MATLAB、WEKA.[9]熱點詞Hadoop是目前最為流行的大數(shù)據(jù)處理平臺,已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem),Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標(biāo)準(zhǔn).

從大數(shù)據(jù)處理流程來看,大數(shù)據(jù)處理流程可劃分為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋四個階段,[10]研究熱點中大數(shù)據(jù)分析、云計算、mapreduce和數(shù)據(jù)挖掘都屬于大數(shù)據(jù)分析環(huán)節(jié).從大數(shù)據(jù)生態(tài)系統(tǒng)來看,大數(shù)據(jù)分析和數(shù)據(jù)挖掘都屬于大數(shù)據(jù)分析的范疇,是實現(xiàn)大數(shù)據(jù)價值的前提,云計算和mapreduce都屬于云計算的范疇,為大數(shù)據(jù)提供了存儲和分布式計算,由此說明,支撐大數(shù)據(jù)系統(tǒng)的基礎(chǔ)平臺和大數(shù)據(jù)分析是大數(shù)據(jù)研究的最熱門主題.

[1]Dean J,Ghemawat S.Mapreduce:Simplified data processing on large clusters[J].Communications of TheACM,2008,51(1):107-113.

[2]Nature.Big data:Science in the petabyte Era[EB/OL]. [2014-10-13].http://www.nature.com/nature/journal/ v455/n7209/edsumm/e080904-01.html.

[3]Lynch C.Big data:How do your data grow?[J]. nature,2008(455):28-29.

[4]Science.Special online collection:dealing with big data [EB/OL].[2014-10-13].http://www.sciencemag. org/site/special/data/.

[5]Trelles O,et al.Big data,but are we ready?[J]. NatureReviews Genetics,2011(12):224.

[6]IDC.Extracting Value from Chaos[EB/OL].[2014-09-18].http://www.emc.com/collateral/analyst-reports/ idc-extracting-value-from-chaos-ar.pdf.

[7]Foster I,et al.Cloud computing and grid computing 360-degree compared[C]//Proceedings of the Grid Computing Environments Workshop 2008(GCE'08). Austin:IEEE,2008:1-10.

[8]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

[9]張良均,等.數(shù)據(jù)挖掘:實用案例分析[M].北京:機械工業(yè)出版社,2013,6.

[10]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,40(6):957-972.

G250.252;G255.76

B

1005-8214(2015)10-0054-04

本文系2010年國家社會科學(xué)基金項目"網(wǎng)頁內(nèi)容分析與挖掘的企業(yè)競爭情報方法研究"(項目編號: 10BTQ034),廣東省教育科學(xué)"十二五"規(guī)劃教育信息技術(shù)研究專項課題"構(gòu)建適應(yīng)項目化教學(xué)的網(wǎng)絡(luò)課程系統(tǒng)研究"(項目編號:12JXN020)的成果之一.

趙建保(1978-),男,廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計算機系講師,研究方向:可視化、可視分析和Web工程;黃曉斌(1961-),男,中山大學(xué)資訊管理學(xué)院教授,博士生導(dǎo)師,研究方向:競爭情報、網(wǎng)絡(luò)信息開發(fā)利用.

2014-11-17[責(zé)任編輯]劉丹

猜你喜歡
數(shù)據(jù)處理熱點數(shù)據(jù)挖掘
熱點
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
熱點
車迷(2019年10期)2019-06-24 05:43:28
結(jié)合熱點做演講
快樂語文(2018年7期)2018-05-25 02:32:00
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
熱點
中國記者(2014年6期)2014-03-01 01:39:53
九寨沟县| 莫力| 宁远县| 易门县| 许昌县| 清徐县| 永福县| 右玉县| 武隆县| 满洲里市| 琼结县| 六安市| 冕宁县| 望都县| 漠河县| 上蔡县| 察隅县| 沾益县| 铜川市| 昆明市| 石泉县| 楚雄市| 垦利县| 根河市| 澄城县| 乐山市| 隆昌县| 东海县| 琼结县| 青田县| 吴忠市| 新化县| 榆树市| 镇巴县| 同江市| 湘潭县| 墨脱县| 伊宁县| 曲松县| 金塔县| 阳原县|