摘 要:文章從文獻計量分析的角度,定量分析了計算機領域的2311995篇文獻,對國內計算機領域的主要研究機構、主要研究學者及該領域的研究熱點行了統(tǒng)計與分析,構建了國內計算機領域研究熱點的知識圖譜,并對圖譜進行了分析和解讀,以期獲取我國計算機領域的研究熱點有哪些,有哪些主要的研究機構,他們各自關心的研究主題又有哪些,等等。
關鍵詞:知識圖譜;計算機;研究熱點;數(shù)據(jù)分析
中圖分類號:TP39 文獻標識碼:A
Abstract:This paper quantitatively analyses 2311995 articles in the fields of computer science,from the view of literature metrology,collecting and examining data about major research institutions,main computer research scholars and the hot domains in this field,mapping knowledge research focus in the field in China,and analyzing and interpreting the spectrum to obtain what are the research hot domains,which are the main research institutions,and what their respective topics of research are concerned with,etc.in the field of Computer Science in China.
Keywords:knowledge spectrum;computer;hot domains;data analysis
1 引言(Introduction)
當今社會,計算機的應用已滲透到社會的各個領域,正在日益改變著傳統(tǒng)的工作、學習和生活的方式,推動著社會的科學計算,成為國民經濟基礎性、先導性、戰(zhàn)略性、支柱性產業(yè),是中國搶占國際經濟制高點的重要引擎[1]。但是計算機領域的學科發(fā)展現(xiàn)狀如何,該領域的研究熱點有哪些目前還沒有系統(tǒng)全面的研究。
中國知網(wǎng)是全球最大的知識門戶網(wǎng)站,集期刊、報紙、博士碩士學位論文、會議論文、圖書、年鑒、多媒體教育教學素材為一體的知識服務網(wǎng)站。本文以中國最大中文期刊數(shù)據(jù)庫——中國知網(wǎng)的海量數(shù)據(jù)為基礎,利用SPSS統(tǒng)計軟件,以及知識圖譜的方法和工具對計算機領域的主要學術機構、學者、論文關鍵詞等數(shù)據(jù)進行了統(tǒng)計分析,以期獲取我國計算機領域的研究熱點有哪些,有哪些主要的研究機構,最主要的學者和他們的團隊成員有哪些,他們各自關心的研究主題又有哪些等。
2 研究方法(Research method)
文獻計量學方法是對文獻和文獻工作進行定量研究的方法[2],它采用數(shù)學語言進行定量分析,以數(shù)學公式或圖形來表現(xiàn)規(guī)律,對問題的陳述及計算都采用簡明的數(shù)學符號,從而簡化和加速了思維過程[3],具有深刻的描述性能和高度的概括能力[4]。使用可視化的方式,即用科學知識圖譜的研究方法來定量,并且形象直觀地監(jiān)測與評價學科的發(fā)展,正是科學計量學、文獻計量學、信息計量學等近10多年來一直共同關注的一個問題,而且也已經取得了很大進展[5]。
本文利用文獻計量學及知識圖譜的理念及技術對計算機領域的上百萬篇文章進行定量統(tǒng)計分析。
3 研究步驟(Research steps)
3.1 數(shù)據(jù)來源
本文所統(tǒng)計分析的原始數(shù)據(jù)源自于中國知網(wǎng)數(shù)據(jù)庫,選擇對中國知網(wǎng)所收錄的計算機相關領域2311995篇核心期刊文獻進行統(tǒng)計分析,這些數(shù)據(jù)具有較高的準確性和權威性,是有價值的研究數(shù)據(jù)。
核心期刊是指某學科(或某領域)的核心期刊,是指那些發(fā)表該學科(或該領域)論文較多、使用率(含被引率、摘轉率和流通率)較高、學術影響較大的期刊[6]。由于核心期刊是期刊中學術水平較高的刊物,對核心期刊中收錄的計算機領域研究文獻進行檢索分析,可以更準確的獲得計算機領域的研究熱點[7]。
3.2 數(shù)據(jù)獲取及預處理
(1) 數(shù)據(jù)檢索
進入中國知網(wǎng)(CNKI)期刊數(shù)據(jù)庫,在學科專輯導航中選擇“計算機硬件技術”“計算機軟件及計算機應用”“互聯(lián)網(wǎng)技術”“自動化技術”“數(shù)據(jù)庫”等計算機學科,共檢索到2311995篇相關文獻。
(2) 數(shù)據(jù)預處理
通過數(shù)據(jù)檢索,檢索出計算機領域的核心期刊文獻之后,利用知網(wǎng)的文獻題錄導出功能,把文獻的題名、作者、單位、關鍵詞等題錄數(shù)據(jù)導出,把所有的題錄數(shù)據(jù)進行匯總[8],共得到2311995條題錄數(shù)據(jù),對導出的原始數(shù)據(jù)進行整合,便于之后對數(shù)據(jù)的分析。
3.3 數(shù)據(jù)統(tǒng)計與分析
3.3.1 單項關鍵詞統(tǒng)計
對數(shù)據(jù)預處理后,通過對獲取到的題錄數(shù)據(jù)中關鍵詞進行分列處理,其次對分列后的關鍵詞進行整合,進而統(tǒng)計高頻關鍵詞[9]。選取前幾位的高頻關鍵詞包括“數(shù)據(jù)庫、單片機、計算機、神經網(wǎng)絡、遺傳算法、數(shù)據(jù)挖掘、網(wǎng)絡安全、仿真、PLC、數(shù)據(jù)采集、無線傳感器網(wǎng)絡、教學改革、故障診斷、云計算、圖像處理、電子商務”等關鍵詞。通過這些高頻關鍵詞,可以看出計算機領域的關注點。高頻關鍵詞分布見圖1。
3.3.2 關鍵詞共現(xiàn)統(tǒng)計
共現(xiàn)分析是將各種信息載體中的共現(xiàn)信息定量化的分析方法[10],可深刻、精確地挖掘隱含的或潛在的有用的文本知識,發(fā)現(xiàn)研究對象之間的親疏關系,揭示研究對象所代表的學科或主體的結構與變化[11]。
選取計算機相關學科所收錄的2311995篇文獻的前四個關鍵詞進行關鍵詞共現(xiàn)統(tǒng)計,構建關鍵詞共現(xiàn)網(wǎng)絡。通過關鍵詞共現(xiàn)網(wǎng)絡,可以發(fā)現(xiàn),計算機領域的研究主題包括:計算機網(wǎng)絡安全、計算機的應用、利用神經網(wǎng)絡進行故障診斷、神經網(wǎng)絡及遺傳算法在數(shù)據(jù)挖掘中的應用、單片機與無線傳感器、單片機與數(shù)據(jù)采集、基于云計算的數(shù)據(jù)挖掘、數(shù)據(jù)庫與計算機網(wǎng)絡等。關鍵詞共現(xiàn)網(wǎng)絡詳見圖2。
3.3.3 作者單位統(tǒng)計
對檢索到的2311995條題錄數(shù)據(jù),利用Excel軟件對作者單位進行分列匯總,按單位發(fā)表文獻數(shù)量排序,發(fā)文篇數(shù)最多的為清華大學,其次為上海交通大學,排第三位的是浙江大學,發(fā)表文獻頻次從高到低前20位依次為:清華大學、上海交通大學、浙江大學、西北工業(yè)大學、華中科技大學、哈爾濱工業(yè)大學、國防科技大學、武漢大學、北京航空航天大學、東南大學、西安交通大學、華南理工大學、南京航空航天大學、同濟大學、天津大學、重慶大學、中國科學技術大學、華中理工大學、東北大學、西安電子科技大學。發(fā)文數(shù)量居前20位的機構基本上為我國的重點本科院校。前二十名單位詳見圖3。
3.3.4 作者統(tǒng)計
統(tǒng)計文獻中作者出現(xiàn)頻次可以分析得出計算機領域的領軍人物[12]。使用獲得的2311995條題錄數(shù)據(jù),統(tǒng)計其中作者的出現(xiàn)頻次,統(tǒng)計得到排序前十五名的作者,依次為:王士同、楊靜宇、于戈、周明全、趙海、王耀南、蔡自興、陳志剛、桂衛(wèi)華、潘泉、李仁發(fā)、楊炳儒、周明天、吳敏、王汝傳。
這些高產作者均是計算機、信息技術領域的知名學者,排在前五位的作者簡介:王士同,教授(博導),原江南大學信息學院院長,現(xiàn)任江南大學數(shù)媒學院首席教授;楊靜宇,南京理工大學模式識別與智能系統(tǒng)國家重點學科學術帶頭人、博士生導師;于戈,現(xiàn)任東北大學計算機軟件與理論研究所所長,2015年12月16日起任計算機科學與工程學院執(zhí)行院長,一級教授,博士生導師;周明全,教授,博士生導師。北京師范大學信息科學與技術學院院長,教育部虛擬現(xiàn)實應用工程研究中心主任,教育部計算機科學與技術委員會軟件工程教學指導委員會委員。趙海,現(xiàn)任東北大學計算機科學與工程學院計算機系統(tǒng)結構研究所教授、博士生導師,學科責任教授,面向先進裝備制造業(yè)嵌入式技術實驗室(省教育廳重點實驗室)主任,享受國務院特殊津貼。相繼創(chuàng)建了東大新業(yè)信息技術股份有限公司、沈陽市科技局無線傳感器網(wǎng)絡重點實驗室、沈陽市發(fā)改委物聯(lián)網(wǎng)應用基礎研究工程實驗室等?,F(xiàn)任中國民主同盟中央委員、民盟遼寧省委副主委、遼寧省政協(xié)常委,曾任沈陽市人民政府參事、沈陽市委咨詢委員會委員。曾獲遼寧省第二批百千萬人才工程百人層次人選、遼寧省優(yōu)秀博士學位論文指導教師、沈陽市青年專業(yè)技術人才、沈陽市優(yōu)秀科技工作者稱號。
4 結論(Conclusion)
通過對計算機領域的2311995篇研究文獻的文獻計量學實證研究得出:計算機領域的主要研究機構集中于我國的重點本科院校,研究領域主要集中在“數(shù)據(jù)庫、單片機、計算機、神經網(wǎng)絡、遺傳算法、數(shù)據(jù)挖掘”等方面。隨著人工智能技術的發(fā)展,與之相關的計算機網(wǎng)絡安全、計算機的應用、利用神經網(wǎng)絡進行故障診斷、神經網(wǎng)絡及遺傳算法在數(shù)據(jù)挖掘中的應用、單片機與無線傳感器、單片機與數(shù)據(jù)采集、基于云計算的數(shù)據(jù)挖掘、數(shù)據(jù)庫與計算機網(wǎng)絡等主題成為計算機領域的關注熱點。
參考文獻(References)
[1] Mohanapriya D.,Mahesh K..A novel foreground region analysis using NCP-DBP texture pattern for robust visual tracking[J].MULTIMEDIA TOOLS AND APPLICATIONS,2017,76(24):25731-25748.
[2] Chen Wang,Hongxun Yao,Xiaoshuai Sun.Anomaly detection based on spatio-temporal sparse representation and visual attention analysis[J].Multimedia Tools and Applications,2017,76(5):6263-6279.
[3] Luming Zhang,Yang Yang,Rongrong Ji,et al.Special issue on "visual semantic analysis with weak supervision"[J].Multimedia Systems,2017,23(1):1-3.
[4]吳運兵,陰愛英,林開標,等.基于多數(shù)據(jù)源的知識圖譜構建方法研究[J].福州大學學報(自然科學版),2017,45(03):329-335.
[5] 吳運兵,楊帆,賴國華,等.知識圖譜學習和推理研究進展[J].小型微型計算機系統(tǒng),2016,37(09):2007-2013.
[6] 蘇永浩,張馳,程文亮,等.CLEQS——基于知識圖譜構建的跨語言實體查詢系統(tǒng)[J].計算機應用,2016,36(S1):204-206;223.
[7] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發(fā)展,2016,53(03):582-600.
[8] 劉知遠,孫茂松,林衍凱,等.知識表示學習研究進展[J].計算機研究與發(fā)展,2016,53(02):247-261.
[9] 王曉陽,鄭驍慶,肖仰華.智慧搜索中的實體與關聯(lián)關系建模與挖掘[J].通信學報,2015,36(12):17-27.
[10] 楊良斌.數(shù)據(jù)挖掘領域研究現(xiàn)狀與趨勢的可視化分析[J].圖書情報工作,2015,59(S2):142-147.
[11] 王巍巍,王志剛,潘亮銘,等.雙語影視知識圖譜的構建研究[J].北京大學學報(自然科學版),2016,52(01):25-34.
[12] 詹川.大數(shù)據(jù)研究的知識圖譜分析[J].圖書館論壇,2015,
35(04):84-91.
作者簡介:
張小娟(1981-),女,碩士,講師.研究領域:信息組織與信息檢索,文獻計量,知識圖譜,數(shù)據(jù)分析.