国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學習領(lǐng)域研究熱點與前沿演進

2019-10-18 02:57張???/span>趙文斌葉權(quán)慧
軟件導刊 2019年9期
關(guān)鍵詞:機器學習

張??? 趙文斌 葉權(quán)慧

摘 要:基于CiteSpace采用文獻計量法,分析總結(jié)機器學習領(lǐng)域近十年研究熱點與技術(shù)前沿演進。研究結(jié)果顯示,該領(lǐng)域熱點算法有Classification(分類算法)、Support Vector Machine(支持向量機)等,熱點框架有sorFlow、Caffe、PaddlePaddle等;數(shù)據(jù)庫、序列等突變詞共同組成了近十年的研究新興領(lǐng)域。

關(guān)鍵詞:CiteSpace;科學知識圖譜;機器學習;前沿演進;文獻計量法

DOI:10. 11907/rjdk. 191877 開放科學(資源服務(wù))標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2019)009-0005-04

Research Hotspots and Frontier Evolution in the Field of Machine Learning

——Visual Analysis Based on CiteSpace

ZHANG Fu-jun,ZHAO Wen-bin,YE Quan-hui,GAO Xue,WAN Hao

(Computer Science and Engineering,Shandong University of Science and Technology, Qingdao 266590, China)

Abstract: In order to acquaintance?the gradual progress?of research hotspots and technology?forward position?in the field of machine learning in recent ten years, this paper uses Cite Space's bibliometric method to analyze?the results. It is found that hot algorithms include classification (classification algorithm), support vector machine (support vector machine), and so on; hot frameworks include sorFlow, Caffe, Paddle Paddle etc. Mutation words such as databases and sequences have together made up?a new and developing domain of study?in the past decade.

Key Words: CiteSpace; mapping knowledge domain; machine learning; evolution of frontier; bibliometric method

0 引言

隨著科學技術(shù)的不斷發(fā)展,所需處理的數(shù)據(jù)量也呈幾何倍數(shù)增長[1],海量數(shù)據(jù)的復雜性和快速變化給人們檢索有價值的信息帶來了許多新問題,由此知識可視化研究方法應運而生[2]。當前,國際上被廣泛應用的知識可視化軟件[3]有Thomson Reuters 公司開發(fā)的Pajek[4],以及陳超美教授團隊研發(fā)的 CiteSpace[5]等。在空間上,圖譜分析軟件可以通過共現(xiàn)以及社會網(wǎng)絡(luò)分析等方法分析文獻所屬區(qū)域,機構(gòu)、作者等結(jié)構(gòu)關(guān)系;在時間上,通過動態(tài)的時間維度,繪制“知識發(fā)展進程譜”,直觀展示知識演變進程[6]。隨著人工智能應用的日益廣泛與機器學習技術(shù)的不斷精進,相關(guān)研究也不斷深入,只有了解和把握學科發(fā)展前沿動態(tài),積極探究學科研究熱點才能對該領(lǐng)域研究整體方向有更加準確的定位。本文利用文獻計量學方法對機器學習關(guān)鍵詞進行共現(xiàn)分析和突變分析,挖掘機器學習研究熱點,并對機器學習文獻作耦合分析,進行領(lǐng)域前沿挖掘。

1 研究設(shè)計

1.1 數(shù)據(jù)來源

研究的原始數(shù)據(jù)來源于 Web of Science 平臺上的核心合集數(shù)據(jù)庫,包括SCI-EXPANDED、SSCI、A&HCI、CPCI-S、ESCI、CCR-EXPANDED、IC)。為確保研究數(shù)據(jù)的客觀性和全面性,選擇Machine Learning為檢索主題詞,檢索策略為:數(shù)據(jù)庫選擇Web of Science核心合集,輸入主題詞TS=“machine learning”,選擇檢索時間跨度為2008-2018年;將文獻類型精煉為“ARTICLE”,篩選得到34 835條檢索結(jié)果;選擇導出數(shù)據(jù)格式為全著錄格式分次下載(每次下載條目<=500),CiteSpaces規(guī)定格式 download*.txt 命名,保存在同一個文件 data 內(nèi),作為繪制圖譜的基礎(chǔ)數(shù)據(jù),并在同一文件夾建立project。

1.2 研究方法與工具

文獻計量分析主要以文獻為數(shù)據(jù)源,包括搜集、整理和分析三大基本過程。本文以Web of Science數(shù)據(jù)庫中2008-2018年機器學習論文作為數(shù)據(jù)源,對其作除重清洗,并以不同的視角和維度進行計量分析。知識圖譜分析是可視化分析的一個分類,是將分析結(jié)果以節(jié)點和連線的形式展現(xiàn)出來,節(jié)點代表被研究對象,連線表示兩個研究對象之間的關(guān)系強度,使得分析結(jié)果更加美觀和直接。本文運用的知識圖譜工具是由美國 Drexel大學陳超美博士基于Java 平臺開發(fā)的 CiteSpace,該軟件可對科學文獻的新趨勢和新動態(tài)進行識別與可視化分析,被廣泛應用于科學文獻計量領(lǐng)域?;贑iteSpace運用文獻計量學方法挖掘機器學習領(lǐng)域的時空分布、作者合作網(wǎng)絡(luò)、研究熱點及研究前沿。

2 機器學習研究熱點與前沿趨勢分析

2.1 研究熱點分析

關(guān)鍵詞是對文獻主旨內(nèi)容與作者意圖的概括,是文獻中的核心和精髓。某領(lǐng)域的研究熱點往往是指在某一階段該領(lǐng)域文獻出現(xiàn)的高頻次、高中心度以及高突現(xiàn)強度的主題詞。共詞分析法基于該領(lǐng)域近十年文獻繪制機器學習領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜,并統(tǒng)計其中高頻次關(guān)鍵詞,明確近十年機器學習領(lǐng)域研究熱點,進而分析其演化發(fā)展過程。將數(shù)據(jù)導入 CiteSpace,調(diào)整參數(shù)后結(jié)果如圖1所示(見封三彩圖)。

機器學習領(lǐng)域關(guān)鍵詞共現(xiàn)知識圖譜中共有節(jié)點N(42)個,連線E(94)條,中心度(Density=0.109 2)。首先圈的大小代表著該關(guān)鍵詞在2008-2018年這10年間出現(xiàn)的頻率,圈從大到小依次為: machine learning(機器學習)、classification(分類)、support vector machine(支持向量機)、algorithm(算法)、model(模型)、neural network(神經(jīng)網(wǎng)絡(luò))、system(系統(tǒng))等等。由于該文獻主要研究機器學習,因此第一個關(guān)鍵詞沒有分析意義,也即classification(分類)、support vector machine(支持向量機)、algorithm(算法)、model(模塊)、neural network(神經(jīng)網(wǎng)絡(luò))、system(系統(tǒng))等組成了近十年機器學習的研究熱點。每一個圈最外圍的紫色越重,則證明該關(guān)鍵詞的中心性越高,說明該關(guān)鍵詞在近十年研究中起到了不可或缺的作用,例如圖中紫色最深的為分類,說明分類這個詞足以稱為該領(lǐng)域的熱點詞,有著重要貢獻,代表了研究熱點。點與點之間的連線顏色表明這兩個詞首次共現(xiàn)的年份,連線的粗細則證明了這兩個關(guān)鍵詞的聯(lián)系緊密程度,聯(lián)系越緊密連線越粗,否則相反,從圖1中可以看出,classification(分類)和support vector machine(支持向量機)這兩個關(guān)鍵詞的連線為深藍色,也即這兩個關(guān)鍵詞首次共現(xiàn)的時間是2008年。將圖1聚類后如圖2所示(見封三彩圖)。

將關(guān)鍵詞進行聚類后,出現(xiàn)了六大類,這其中最大的群集(#0)有9個成員,輪廓值為0.488。它被LLR標記為users skill level(用戶技能水平),由TFIDF算法得出的標簽是classifing(分類),最活躍的聚類引用是論文Scheduling Jobs with an Exponential Sum-of-Actual-Processing-time- based Learning Effect[12]。

第二大聚類(#1)有9名成員,輪廓值為0.671。它被稱為由LLID算法得到classifying human physical activity (人體力活動),由TFIDF算法標記為 machine(機器分類)。其中最活躍的文章是Machine Learning Methods for Classifying Human Physical Activity from On-body Accelerometers[13]。

將上述CiteSpaces中提供的數(shù)據(jù)進行整理統(tǒng)計如表1所示。

由于本文研究的主題就是機器學習,因此排名第一的machine learning可以忽略,其熱點詞可分為兩大類:algorithm(算法)、framework(框架)。這些熱點詞僅僅是最基本的詞匯,本文將逐一分析,以找出近十年機器學習領(lǐng)域的研究熱點。

近十年流行的機器學習算法中,表1中呈現(xiàn)的有如下:

(1)表中排名第二的熱點詞classification(分類算法)。分類算法中有一種很簡單且目前也很流行的算法為樸素貝葉斯分類。樸素貝葉斯的思想基礎(chǔ)是:對于給出的待分類項,求解在此項出現(xiàn)的條件下各類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。其主要應用于論文分類處理、輿情分析等。

(3)表中排名第三的熱點詞support vector machine(支持向量機)。支持向量機(SVM)是二元分類算法,給定一組兩種類型的N維地方點,SVM產(chǎn)生一個(N - 1)維超平面到這些點并分成2組。假設(shè)你有兩種類型的點,且它們是線性可分的。 SVM將找到一條直線將這些點分成2種類型,并且這條直線會盡可能地遠離所有點。當下使用support vector machine(支持向量機)處理的主要問題為商業(yè)廣告顯示、面部識別剪接位點處理、數(shù)據(jù)量差大的圖片處理等。

(4)表中排第八位的熱點詞regression(回歸算法)?;貧w算法中的邏輯回歸是一種強大的統(tǒng)計方法。通過估算使用邏輯運算的概率,測量分類依賴變量和一個(或多個)獨立變量之間的關(guān)系,是累積的邏輯分布情況。目前,邏輯回歸主要用于車流分析、使用評分、衡量營銷活動的成功率等。

(5)表中排名第六的熱點詞 neural network(神經(jīng)網(wǎng)絡(luò))。屬于神經(jīng)網(wǎng)絡(luò)的算法有很多,近十年比較突出的為遞歸神經(jīng)網(wǎng)絡(luò),實際上遞歸神經(jīng)網(wǎng)絡(luò)是兩種人工神經(jīng)網(wǎng)絡(luò)的總稱, 一種是時間遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network),另一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)。隨著電腦硬件的不斷提升,可以處理的神經(jīng)網(wǎng)絡(luò)層數(shù)不斷加深,這為后續(xù)研究Deep Learning(深度學習)打下了基礎(chǔ)。

(6)表中排名第十六的熱點詞 random forest(隨機森林)。隨機森林算法結(jié)合了多個樹,使用隨機挑選的數(shù)據(jù)子集,以提升決策樹的分析準確率。隨機森林算法的優(yōu)勢在于能夠處理大規(guī)模數(shù)據(jù)集,以及大量看似不相關(guān)的數(shù)據(jù),可以用于風險評估和客戶信息分析。

目前,機器學習領(lǐng)域的Deep Learning(深度學習)受到廣泛關(guān)注。Deep Learning(深度學習)領(lǐng)域常用四大框架: ①TensorFlow,它最初由谷歌的Machine Intelligence research organization 中Google Brain Team的研究人員和工程師開發(fā);②Neon,它是Nervana開發(fā)的基于Python的深度學習庫,它易于使用,同時性能也處于最高水準;③Caffe,它是一個重在表達性、速度和模塊化的深度學習框架,由 Berkeley Vision and Learning Center和社區(qū)貢獻者共同開發(fā);④DeepLearning4J,它和ND4J、DataVec、Arbiter及RL4J一樣,都是Skymind Intelligence Layer的一部分。

2.2 研究前沿演進分析

利用CiteSpace中突變檢測(Burst Detection)功能,對近十年全部文獻中的關(guān)鍵詞探測出突變詞術(shù)語,利用詞頻的時間分布、變化趨勢并結(jié)合詞頻,找出該領(lǐng)域研究前沿演進[14]。2008-2018 年機器學習研究領(lǐng)域突變詞如表2所示。

在2008-2018年期間共出現(xiàn)了12個突變詞,分別為database (數(shù)據(jù)庫)、sequence(序列)、framework(框架)、deep learning (深度學習)、segmentation(分割處理)、image(鏡像)即圖像識別、genetic algorithm(遺傳算法)、pattern recognition(模式識別)、scheduling(時序安排)、learning effect(學習效果)、pattern(模式)、decision tree(決策樹),這些突變詞共同組成了近十年機器學習領(lǐng)域的研究前沿和研究新興領(lǐng)域。

將這12個關(guān)鍵詞分為兩個時間段,以更好地呈現(xiàn)機器學習在這十年中的前沿演進。2008-2009年,機器學習相關(guān)研究還僅僅停留在Decision Tree(決策樹)和Pattern(模式)方面,主要原因在于當時硬件設(shè)備不能滿足數(shù)據(jù)運算要求。隨著技術(shù)的不斷更新和計算機硬件設(shè)備的發(fā)展,2010-2011年,機器學習的研究重點也發(fā)生了變化,Scheduling(時序安排)、Learning Effect(學習效果)這兩個詞占據(jù)了研究前沿位置,機器學習迎來了一個全新的研究領(lǐng)域。2014-2015年,framework(框架)再度成為當時的研究熱點,主要研究框架有TensorFlow、Keras、Caffe等,這些框架為神經(jīng)網(wǎng)絡(luò)發(fā)展和后續(xù)深度學習打下了基礎(chǔ)。

2016-2018年,研究者更傾向于機器學習的進一步探索,也即對多層神經(jīng)網(wǎng)絡(luò)進行深入發(fā)掘,機器學習領(lǐng)域來到了Deep Learning (深度學習)時代,許多學者相繼提出了新的算法模型,例如卷積神經(jīng)網(wǎng)絡(luò)、深層神經(jīng)網(wǎng)絡(luò)、深層信念網(wǎng)絡(luò)等,同時深度學習也開始應用于不同的領(lǐng)域,如圖像物體分類、Image(鏡像)即圖像識別、Segmentation(分割處理)、Pattern Recognition(模式識別)等不同層面。由此可知,目前機器學習領(lǐng)域的研究側(cè)重點在深度學習領(lǐng)域,深度學習仍處于不斷發(fā)展和應用階段,深度學習領(lǐng)域更快速、便捷、合適的算法也有待進一步研究和提出。

3 結(jié)語

本文通過在Web of Science核心合集下載2008-2018年的文獻數(shù)據(jù),結(jié)合機器學習、知識圖譜、研究前沿的相關(guān)理論與技術(shù)構(gòu)建機器學習知識圖譜。研究結(jié)論為:根據(jù)知識圖譜共現(xiàn)和表中信息將近十年的熱點按Algorithm(算法)和Framework(框架)兩大類進行分析,熱點算法有:Classification(分類算法)、Support Vector Machine(支持向量機)、Regression(回歸算法)、Neural Network(神經(jīng)網(wǎng)絡(luò))、Random Forest(隨機森林)等;熱點框架有:sorFlow、Caffe、PaddlePaddle等。數(shù)據(jù)庫、序列、框架、深度學習、分割、鏡像、遺傳算法、模式識別、時序安排、學習效果、決策樹,這些突變詞共同組成了近十年機器學習領(lǐng)域的研究前沿和研究新興領(lǐng)域。

在前期準備工作時,由于數(shù)據(jù)庫所提供的論文作者都是拼音簡寫,使得數(shù)據(jù)核對十分繁瑣且容易出錯,希望Web of Science數(shù)據(jù)庫在收錄文章時能使用作者全稱,以保證查詢的精準性。

參考文獻:

[1] 機器學習發(fā)展現(xiàn)狀及應用的研究[EB/OL]. http://zgkjsz.com/page/2018/0601/3608221.shtml.

[2] 史紀元. 基于CiteSpaceⅢ輸血醫(yī)學研究領(lǐng)域知識圖譜分析[D]. 西安:第四軍醫(yī)大學,2015.

[3] 杜文龍. 引文分析軟件的應用比較分析研究[D]. 西安:西北大學,2013.

[4] 李杰,陳超美. CiteSpace:科技文本挖掘及可視化[M]. 北京:首都經(jīng)濟貿(mào)易大學出版社,2016.

[5] 劉則淵,陳超美,侯海燕,等. 邁向科學學大變革的時代[J]. 科學學與科學技術(shù)管理,2009,30(7):5-12.

[6] 趙玉鵬. 基于知識圖譜的機器學習研究前沿探析[J]. 情報雜志, 2012,31(4):28-31.

[7] 焦李成,楊淑媛,劉芳,等. 神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J]. 計算機學報,2016,39(8):1697-1716.

[8] 張福俊,周忠學,尹燕霞,等. 青島理工大學基于SCI論文的文獻計量學分析[J]. 青島理工大學學報,2013,34(4):115-119.

[9] ZHANG Y. I-TASSER: fully automated protein structure prediction in CASP8[J]. ?Proteins Structure Function & Bioinformatics, 2009,77(Supplement S9):100-113.

[10] LIU Q, WANG J. A one-layer recurrent neural network with a discontinuous hard-limiting activation function for quadratic programming[J]. ?IEEE Transactions on Neural Networks, 2008,19(4):558-70.

[11] MALLAPRAGADA P K, JIN R, JAIN A K, et al. SemiBoost: boosting for semi-supervised learning[J]. ?IEEE Transactions on Pattern Analysis & Machine Intelligence,2009,31(11):2000-2014.

[12] WANG J B, SUN L H, SUN L Y. Scheduling jobs with an exponential sum-of-actual-processing-time-based learning effect[J]. ?Computers & Mathematics with Applications,2010,60(9):2673-2678.

[13] NNINI A,SABATINI A M.Machine learning methods for classifying human physical activity from on-body accelerometers[J]. ?Sensors,2010,10(2):1154-1175.

[14] 張福俊,葉權(quán)慧,于路云. 基于知識圖譜的海洋科學領(lǐng)域技術(shù)機會分析[J]. 科技管理研究,2017,37(24):165-170.

[15] CHANG C C, LIN C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011(2):1-27.

[16] DEPRISTO M A,BANKS E,POPLIN R E,et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data[J]. ?Nature Genetics,2011,43(5):491-8.

[17] HUANG G B,ZHOU H,DING X,et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems Man & Cybernetics Part B, 2012, 42(2):513-529.

[18] 張???,劉桂仁,劉謙,等. 山東省國內(nèi)專利文獻計量學分析[J]. 科技管理研究,2013,33(1):60-63.

[19] 王聲培,云雅娟. 洛特卡定律、普賴斯定律和我國數(shù)學科學文獻[J]. 圖書情報工作,1994(3):21-24.

[20] 張??? 基于SCI論文引證的學術(shù)期刊信息服務(wù)——以《山東科技大學學報(自然科學版)》為例[J]. 山東科技大學學報:自然科學版,2013,32(5):107-110.

[20] 于路云. 基于知識圖譜的國際海洋習研究前沿與技術(shù)機會分析[D]. 青島:山東科技大學,2017.

[21] 張潤,王永濱. 機器學習及其算法和發(fā)展研究[J]. 中國傳媒大學學報:自然科學版, 2016,23(2):10-18.

(責任編輯:孫 娟)

猜你喜歡
機器學習
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應用
基于支持向量機的金融數(shù)據(jù)分析研究
扶余县| 孟津县| 千阳县| 营山县| 邢台市| 平南县| 商洛市| 济南市| 河北区| 吉水县| 普定县| 新源县| 铁岭县| 威远县| 千阳县| 库车县| 大城县| 克东县| 石狮市| 蒙城县| 资兴市| 绥滨县| 哈巴河县| 古浪县| 广南县| 蒲江县| 五河县| 迁西县| 蓬溪县| 朝阳市| 略阳县| 乌兰察布市| 灵寿县| 西平县| 都匀市| 鄂托克旗| 工布江达县| 扬州市| 蒙城县| 山阴县| 玉树县|