唐燕++韓愛慶++張寶瑛++張未未
摘要:該文以CNKI為數(shù)據(jù)源,對2009年-2016年高校大數(shù)據(jù)相關(guān)文獻進行計量分析。通過文獻數(shù)量、文獻機構(gòu)來源、文獻發(fā)表期刊、關(guān)鍵詞詞頻分析,以及關(guān)鍵詞共詞矩陣、知識圖譜的分析,分析出高校大數(shù)據(jù)相關(guān)研究情況和研究熱點,為今后科研人員開展研究提供參考。
關(guān)鍵詞:高校;大數(shù)據(jù);文獻計量學;知識圖譜
中圖分類號: G250.2 文獻標識碼: A 文章編號:1009-3044(2016)26-0010-04
Bibliometric Analysis of Big Data in Colleges and Universities in China in 2009-2016
TANG Yan, HAN Ai-qing, ZHANG Bao-ying,ZHANG Wei-wei
(Information Center, Beijing University of Chinese Medicine, Beijing 100029,China)
Abstract:This article introduce the bibliometrics analysis of big data related literature in colleges and universities in 2009-2016. Through the bibliometrics analysis of the literature and literature sources, literature journal, CO word matrix of keyword analysis, keyword, knowledge mapping analysis, draw the data related researches and the research hot spot, which can provide the reference for future researchers.
Keyword: University; big data; bibliometrics method; knowledge mapping
1研究背景
隨著云計算、互聯(lián)網(wǎng)的發(fā)展,人類社會已經(jīng)進入大數(shù)據(jù)時代。大數(shù)據(jù)包括各個系統(tǒng)中數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),也包括由社交媒體、郵件、視頻、音頻、文檔信息和網(wǎng)頁所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)已經(jīng)成功應用于政治、經(jīng)濟、文化、社會等各領(lǐng)域,已成為一個事關(guān)國家發(fā)展的產(chǎn)業(yè)。2012 年3 月29 日,美國政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議(Big Data Research and Development Initiative)”,以推進從大量的、復雜的數(shù)據(jù)集合中獲取知識和洞見的能力,并承諾政府將為此投資超2 億美元,許多重要國家機構(gòu)都將參與其中。2012 年7 月10 日,聯(lián)合國發(fā)布大數(shù)據(jù)政務(wù)白皮書《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》,指出各國政府應當使用極大豐富的數(shù)據(jù)資源,更好地響應社會和經(jīng)濟指標。日本總務(wù)省于2012 年7 月新發(fā)布“活躍ICT日本”新綜合戰(zhàn)略,提出正針對大數(shù)據(jù)推廣的現(xiàn)狀、發(fā)展動向、面臨問題等進行探討,以期對解決社會公共問題做出貢獻。
同時,大數(shù)據(jù)正在給零售行業(yè)帶來深刻的變革,比如美國的亞馬遜,中國的阿里巴巴、騰訊等企業(yè)。電商利用大數(shù)據(jù)預測人們的購買行為,預知消費趨勢,并對人們未來的選擇做出一些推薦。大數(shù)據(jù)也影響著每個人的工作、生活和學習。生活中,人們基于大數(shù)據(jù)的移動應用隨時叫到出租車;甚至有數(shù)據(jù)分析家分析Facebook上的信息,來判斷戀人們是否會分手。
大數(shù)據(jù)技術(shù)的目標就是從這些數(shù)據(jù)中挖掘信息、判斷趨勢、提高效益?!按髷?shù)據(jù)”是繼物聯(lián)網(wǎng)、云計算之后IT 產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。如何在教育信息化領(lǐng)域充分理解并迎接大數(shù)據(jù)技術(shù)帶來的機遇和挑戰(zhàn),利用海量數(shù)據(jù)來挖掘信息、判斷趨勢、提高效率?這是高校信息化部門未來建設(shè)數(shù)字化校園過程中的必由之路。
高校信息系統(tǒng)也是數(shù)據(jù)生產(chǎn)大戶。麥肯錫全球研究中心的最新數(shù)據(jù)顯示,僅2009 年,美國國家教育部的某信息系統(tǒng)的數(shù)據(jù)庫就膨脹至269 P 字節(jié)(1 個P 字節(jié)等于10 億個M 字節(jié))。在中國的高校里,學生的學籍、選課、成績、借書、BB平臺、科研系統(tǒng)、實習情況、就業(yè)情況、上網(wǎng)、論壇、微博、一卡通、門禁等都會產(chǎn)生大量數(shù)據(jù);教師的OA系統(tǒng)、基本信息、科研情況、講座、上課課件、視頻、遠程教育課程等也會產(chǎn)生大量數(shù)據(jù);實驗設(shè)備、機房、實驗室、圖書等信息,也會產(chǎn)生大量數(shù)據(jù)。所以高校信息系統(tǒng)通常龐大、復雜,經(jīng)過多年運營,已經(jīng)積累了很多數(shù)據(jù),這就是高校信息系統(tǒng)中的大數(shù)據(jù)。
高校中的大數(shù)據(jù)有很高的教學與科研價值,通過大數(shù)據(jù)分析,為學校管理部門提供科學的決策支持,幫助教學管理部門優(yōu)化教學資源配置,優(yōu)化招生、就業(yè)指導等工作。在這個信息非常寶貴的時代,高校的師生們都將從大數(shù)據(jù)技術(shù)中受益。本文采用文獻計量學方法,對我國2009年至2016年大數(shù)據(jù)在高校的相關(guān)文獻進行統(tǒng)計分析,旨在了解該領(lǐng)域的研究現(xiàn)狀、研究熱點和發(fā)展趨勢,為科研人員和技術(shù)人員提供參考。
2 數(shù)據(jù)來源與處理方法
2.1數(shù)據(jù)來源
本文選擇CNKI中國知網(wǎng)數(shù)據(jù)庫作為檢索數(shù)據(jù)來源,檢索策略為:(主題=大數(shù)據(jù) 或big data) 并且 (摘要=高校 或 大學)。檢索時間范圍為:2009年至2016年的數(shù)據(jù),共檢索出1340條記錄,檢索時間截止2016年3月9日。
本研究分析的文獻均來自于國內(nèi)學術(shù)期刊、會議論文和學位論文,剔除新聞、短訊、消息、會議通知等文獻,并經(jīng)過人工篩選剔除不屬于大數(shù)據(jù)和高校主題相關(guān)的研究文獻以及資料不全、數(shù)據(jù)缺失的文獻。經(jīng)過篩選共有1258篇文獻與本文研究領(lǐng)域相關(guān),作為文獻研究數(shù)據(jù)。其中,期刊論文1143,學位論文89篇,會議論文26篇。
2.2分析方法
本文應用計量分析法分析文獻發(fā)表年度分布、文獻發(fā)表地區(qū)分布、文獻機構(gòu)來源分布、文獻發(fā)表期刊等情況;并進一步研究文獻的高頻關(guān)鍵詞,分析關(guān)鍵詞共詞矩陣,繪制高頻關(guān)鍵詞知識圖譜,探討高校大數(shù)據(jù)的研究熱點和研究前沿。
在研究過程中利用Excel、Access軟件對檢索到的文獻數(shù)據(jù)進行數(shù)據(jù)分析前期的數(shù)據(jù)清洗、數(shù)據(jù)管理;使用SATI3.2軟件進行信息的抽取,使用Ucinet軟件生成數(shù)據(jù)文件,并通過NetDraw進行知識圖譜的可視化展示。
3 文獻計量分析
3.1文獻年度發(fā)表數(shù)量分布
對研究文獻按年度統(tǒng)計文獻數(shù)量,結(jié)果顯示:2009年文獻5篇,2010年4篇,2011年7篇,2012年9篇,2013年86篇,2014年336篇,2015年739篇,2016年截至3月9日發(fā)表文章58篇,另有15篇年代不詳。統(tǒng)計結(jié)果如表1所示。通過文獻數(shù)量可以看出,2012年以前,國內(nèi)大數(shù)據(jù)技術(shù)在高校中的應用比較少,尚處于萌芽狀態(tài);2013年開始增長,2014之后迅猛發(fā)展,2015年文章數(shù)占2009-2016.3月文獻總數(shù)的一半多。
表1 2009-2015年高校大數(shù)據(jù)相關(guān)文獻數(shù)量
3.2 文獻來源機構(gòu)分布
分析文獻的來源機構(gòu),可以為該領(lǐng)域各科研機構(gòu)的科研成果、學術(shù)水平提供科學依據(jù)。本文提取文獻中作者的所在機構(gòu),并將同一學校不同部門、更名機構(gòu)合并為同一機構(gòu),分析機構(gòu)來源情況。分析得出,文獻來源于619個科研機構(gòu),并按發(fā)文量由高到低排列,位于前12位的機構(gòu)及發(fā)文量如表2所示:
表2 高校大數(shù)據(jù)發(fā)文量前12名的機構(gòu)分布
通過表2可以看出發(fā)文量較高的大學主要位于上海、北京、南京、廣州等這些經(jīng)濟比較發(fā)達的地區(qū),大部分是重點大學,這些高校在大數(shù)據(jù)方面的研究開展較早,投入較多,研究基礎(chǔ)較好。
使用Access軟件,對不同機構(gòu)之間的合作發(fā)文情況進行統(tǒng)計,機構(gòu)間合作發(fā)文95篇,占總文獻數(shù)的7.1%。單個機構(gòu)發(fā)文數(shù)量遠遠高于合作發(fā)文,目前不同機構(gòu)在高校大數(shù)據(jù)方面的合作還比較少。
3.3文獻發(fā)表期刊分析
選擇1143篇期刊文獻,經(jīng)過統(tǒng)計,共發(fā)表在518種不同的期刊上,發(fā)文量排名靠前的期刊分別為《中國教育網(wǎng)絡(luò)》26篇,《農(nóng)業(yè)讀書情報學刊》22篇,《中國教育信息化》17篇,《蘭臺世界》17篇。統(tǒng)計發(fā)表文獻數(shù)量排在前十的期刊,如表3所示,這些期刊占518種期刊的1.93%,但是發(fā)文量共162篇,占全部期刊文獻的14.11%。說明這些期刊中發(fā)表高校大數(shù)據(jù)方面的文章較多,是高校大數(shù)據(jù)研究的重要陣地。
表3 國內(nèi)高校大數(shù)據(jù)相關(guān)文獻排名前10的期刊分布
3.4 文獻關(guān)鍵詞分析
文獻的關(guān)鍵詞一般有3-5個詞或詞組組成,能體現(xiàn)出文章的核心思想。對關(guān)鍵詞進行分析,找出高頻關(guān)鍵詞,發(fā)現(xiàn)研究領(lǐng)域的熱點問題。本文共提取1258篇論文中的關(guān)鍵詞4853個,整理、合并部分意思相同的關(guān)鍵詞,頻率最高的29個關(guān)鍵詞如表4所示:
表4 高校大數(shù)據(jù)相關(guān)高頻關(guān)鍵詞
從表4中可以看出,“大數(shù)據(jù)”詞頻最高, “高校圖書館”、“高?!?、“思想政治教育”、“MOOC”、“數(shù)據(jù)挖掘”“互聯(lián)網(wǎng)、互聯(lián)網(wǎng)+”等關(guān)鍵詞出現(xiàn)的頻率也較高,可以看出這些都是大數(shù)據(jù)在高校的研究熱點。
但是,單個關(guān)鍵詞的詞頻不能夠說明關(guān)鍵詞之間的關(guān)系,還需要進一步進行關(guān)鍵詞共詞分析的研究。
3.5 關(guān)鍵詞共詞分析
關(guān)鍵詞共詞分析是對關(guān)鍵詞兩兩統(tǒng)計其在同一片篇文獻中出現(xiàn)的次數(shù),構(gòu)建共詞矩陣,進行聚類分析,從而找出關(guān)鍵詞之間的聯(lián)系,進一步解釋該領(lǐng)域研究熱點之間的聯(lián)系和結(jié)構(gòu)關(guān)系[4]。
本文使用Excel中的“數(shù)據(jù)透視表”功能,創(chuàng)建所有關(guān)鍵詞共詞矩陣,選擇矩陣中關(guān)鍵詞詞頻較高的部分數(shù)據(jù),顯示在表5中。
上面的共詞矩陣中,對角線顯示單個關(guān)鍵詞在文獻中出現(xiàn)的次數(shù)(注:此處關(guān)鍵詞沒有進行人工整理、合并),其他單元格顯示行和列對應的兩個關(guān)鍵詞同時出現(xiàn)在文獻中的次數(shù)。該矩陣以對角線為對稱軸對稱,沿對角線方向,矩陣上下部分數(shù)據(jù)完全一致。
為了研究高頻關(guān)鍵詞之間的關(guān)系,將表5所示的共詞矩陣導入到Ucinet軟件中,生成*.h的數(shù)據(jù)文件,并通過NetDraw可視化軟件繪制關(guān)鍵詞之間的知識圖譜,生成如圖1所示的高校大數(shù)據(jù)關(guān)鍵詞知識圖譜。
在圖1中,不同的節(jié)點代表不同的關(guān)鍵詞,節(jié)點的大小說明了關(guān)鍵詞的中介中間性。處于整個圖中心位置的“大數(shù)據(jù)”關(guān)鍵詞,節(jié)點最大,說明位置最為重要。節(jié)點之間線條的粗細程度代表了節(jié)點表示的關(guān)鍵詞共現(xiàn)的次數(shù)的多少。線條越粗,說明兩個關(guān)鍵詞共現(xiàn)的次數(shù)較多,關(guān)系較為密切。
圖1中,關(guān)鍵詞“大數(shù)據(jù)”位于核心位置,是這兩年研究的重點?!案咝D書館”、“高?!薄ⅰ八枷胝谓逃?、“MOOC”、“數(shù)據(jù)挖掘”“互聯(lián)網(wǎng)、互聯(lián)網(wǎng)+”等關(guān)鍵詞,也是大數(shù)據(jù)在高校領(lǐng)域的研究熱點。
4 結(jié)論
綜上所述,通過對2009年-2016年CNKI上高校大數(shù)據(jù)相關(guān)文獻進行計量分析法、內(nèi)容分析法和可視化分析法,得出以下結(jié)論:
文獻數(shù)量上,2012年以前,研究較少,處于萌芽狀態(tài);2013年開始增長,2014之后迅猛發(fā)展。文獻的數(shù)量與大數(shù)據(jù)在我國的發(fā)展相吻合。媒體將2013年稱為中國的“大數(shù)據(jù)元年”。這一年,大數(shù)據(jù)開始走向各行各業(yè),阿里、百度等企業(yè)與政府簽署了戰(zhàn)略合作框架協(xié)議,推動大數(shù)據(jù)在政府統(tǒng)計中的應用。教育、醫(yī)療等行業(yè)也認識到大數(shù)據(jù)對于解決面臨的種種問題具有重要戰(zhàn)略價值,大數(shù)據(jù)技術(shù)在各行業(yè)的研究應用逐步增多。從數(shù)據(jù)可以看出,從2013年開始,大數(shù)據(jù)技術(shù)與高校相關(guān)的文獻迅速增多,大數(shù)據(jù)在高校的研究與應用越來越多。
從文獻發(fā)表期刊可以看出,近年來雖然文獻數(shù)量快速增長,但是,發(fā)文期刊主要集中在教育信息化、教育教學、圖書情報方面。高校大數(shù)據(jù)研究集中在教育、情報圖書館、計算機科學領(lǐng)域,具有學科交叉性,但是目前對大數(shù)據(jù)的研究還處在初期的理論、概念、設(shè)計方面的研究,大數(shù)據(jù)技術(shù)的深入研究、行業(yè)的實際應用方面還比較薄弱。
通過關(guān)鍵詞詞頻分析、共詞矩陣、知識圖譜的分析,可以看出在高校圍繞大數(shù)據(jù)開展的熱點研究主要集中在三個方面:
1) 大數(shù)據(jù)在高校圖書館、信息服務(wù)、知識服務(wù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘方面的研究;
2) 大數(shù)據(jù)在人才培養(yǎng)、高等教育方面引起的變革,以及MOOC教學模式的引入也是研究的熱點內(nèi)容;
3) 大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)技術(shù)在高校管理的信息化、數(shù)字化,以及建設(shè)數(shù)據(jù)中心,建設(shè)智慧校園中必不可少的。也是高校大數(shù)據(jù)的研究熱點。
總之,高校大數(shù)據(jù)的相關(guān)研究已經(jīng)取得了一些成果,今后科研人員還需要注重研究的深度,注重大數(shù)據(jù)關(guān)鍵技術(shù)在高校中的應用的研究,將理論成果向?qū)嵺`應用轉(zhuǎn)化,為高校、乃至整個教育行業(yè)帶來深遠的影響。
參考文獻:
[1] Spiroski,Mirko.Relative Citation Ratio of Top Twenty Macedonian Biomedical Scientists in PubMed:A New Metric that Uses Citation Rates to Measure Influence at the Article Level[J].Open access Macedonian journal of medical sciences,2016,4(2):187-93.
[2] Huang,Ying,Schuehle,Jannik,Porter,Alan L.A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for Big Data[J].SCIENTOMETRICS,2015,105(3).
[3] Bragge,Johanna,Korhonen,Pekka,Wallenius,Hannele.Scholarly communities of research in multiple criteria decision making:a bibliometric research profiling study[J].international journal of information technology & decision making,2012,11(2):401-426.
[4] 楊瑞仙.大數(shù)據(jù)研究的文獻計量分析[J].情報科學,2015,33(8):152-156.
[5] 桑慶兵.大數(shù)據(jù)在高校的應用與思考[J].南通紡織職業(yè)技術(shù)學院學報(綜合版),2013,13(2):84-87. (下轉(zhuǎn)第16頁)
(上接第13頁)
[6] 姜開達,章思宇,孫強.基于Hadoop 的校園網(wǎng)站日志系統(tǒng)設(shè)計與實現(xiàn)[C].中國高等教育學會教育信息化分會第十二次學術(shù)年會論文集,2014(11).
[7] 崔雷,鄭華川.關(guān)于從MEDLINE數(shù)據(jù)庫中進行知識抽取和挖掘的研究進展[J].情報學報,2003(4):425-433.
[8] 楊繹.基于文獻計量的“大數(shù)據(jù)”研究[J].圖書館雜志,2012,33(9):29-32.
[9]李賀,袁翠敏,李亞峰.基于文獻計量的大數(shù)據(jù)研究綜述[J].情報科學,2014,32(6):148-155.
[10] 侯元元,黃裕榮,張紅,等.基于文獻計量的我國大數(shù)據(jù)研究進展分析[J].圖書情報工作,2014,58(12):204-208.