特征工程研究領(lǐng)域發(fā)展趨勢的可視化分析

2020-09-08 08:17馬利星

北京信息科技大學(xué)學(xué)報(自然科學(xué)版) 2020年4期

馬利星,胡敏

(北京信息科技大學(xué) 信息管理學(xué)院，北京 100192)

0 引言

隨著大數(shù)據(jù)時代的到來，人們對數(shù)據(jù)價值的挖掘越來越重視，相關(guān)研究工作如火如荼地進行著，數(shù)據(jù)挖掘算法在各行各業(yè)得到廣泛應(yīng)用。無論是人為提取特征的機器學(xué)習(xí)，還是自動學(xué)習(xí)特征的深度學(xué)習(xí)，特征都發(fā)揮著重要的作用。特征作為算法的輸入直接影響著模型結(jié)果的好壞，能否獲得有用特征至關(guān)重要。而特征工程的目的就是獲取重要特征。特征工程保障了高質(zhì)量的輸入，有利于得到良好的輸出結(jié)果。

特征工程是在實踐中發(fā)展起來的關(guān)于構(gòu)建有效特征集的一系列方法的綜合，對于不同的研究問題，使用的技術(shù)略有不同。很少有人對此進行專門研究。特征工程常與算法一起使用，絕大多數(shù)研究是針對某個具體的研究問題，探究合適的特征工程方法，以便訓(xùn)練出更好的模型。查閱更多的特征工程相關(guān)文獻，有助于提出創(chuàng)新性的特征處理方法。

為了系統(tǒng)全面地了解國內(nèi)外關(guān)于特征工程的研究，本文采用文獻計量學(xué)的方法，借助CiteSpace軟件對相關(guān)中外文文獻進行可視化分析，了解特征工程的研究進展情況，掌握研究的知識基礎(chǔ)和熱點問題，為特征工程的相關(guān)研究提供理論參考。

1 研究工具與方法

CiteSpace是由美國德雷賽爾大學(xué)計算機與情報學(xué)學(xué)院陳超美教授開發(fā)的一款能夠繪制科學(xué)知識圖譜的信息可視化軟件。自CiteSpace開發(fā)至今，其在科技論文、學(xué)位論文、學(xué)術(shù)專著等研究中得到了廣泛應(yīng)用，用戶數(shù)量十分龐大。該軟件有很多功能。作者、機構(gòu)、國家的共現(xiàn)分析不僅可以得到各個節(jié)點的發(fā)文量，還能看出節(jié)點之間的合作關(guān)系。通過對詞頻、詞語時間趨勢、詞匯的網(wǎng)絡(luò)屬性等關(guān)鍵詞共現(xiàn)分析可以得到某領(lǐng)域的研究熱點和趨勢。參考文獻或作者共被引分析可以反映某研究問題的知識基礎(chǔ)和研究前沿[1]。本研究使用的軟件版本為CiteSpace 5.6.R2。本文利用該軟件繪制了關(guān)于特征工程領(lǐng)域的研究國家、研究作者、文獻關(guān)鍵詞的知識圖譜，并對圖譜所反映出的特征工程研究態(tài)勢與熱點進行深入分析。

2 數(shù)據(jù)來源與處理

為了全面了解特征工程的研究情況，需要對國內(nèi)外的特征工程研究成果進行分析。在收集相關(guān)文獻資料時，選擇從中國知識信息資源最豐富的數(shù)字化學(xué)習(xí)平臺——中國知網(wǎng)CNKI(China National Knowledge Infrastructure)中獲取中文文獻，選擇從收錄了全球最具學(xué)術(shù)影響力高質(zhì)量期刊的數(shù)據(jù)庫——Web of Science核心合集中獲取外文文獻。在CNKI中，選擇專業(yè)檢索，輸入檢索條件TI=‘特征工程’ OR KY=‘特征工程’，經(jīng)過刪除無關(guān)文獻，得到2006-2020年的173篇中文文獻，檢索日期為2020年3月4日。在Web of Science核心合集數(shù)據(jù)庫中，進行主題檢索，輸入檢索條件“Feature Engineering”，選擇文獻類型article和review，經(jīng)過篩選得到2008-2020年的555篇外文文獻，檢索日期為2020年2月28日。

為了滿足軟件使用要求，CNKI導(dǎo)出的數(shù)據(jù)文本格式選擇“Refworks”，Web of Science核心合集數(shù)據(jù)庫導(dǎo)出的數(shù)據(jù)文本選擇“其他文件格式”中的“純文本”格式，文本命名格式為“download_XXX”。另外，CNKI下載的數(shù)據(jù)需要進行格式轉(zhuǎn)換。將處理好的數(shù)據(jù)加載到CiteSpace軟件中，通過選擇不同的功能繪制相應(yīng)的知識圖譜。

3 知識圖譜繪制與結(jié)果分析

3.1 各年度中外文發(fā)文量對比分析

通過各年度發(fā)文量可以看出某研究主題的發(fā)展情況和研究熱度變化。因此，本文對關(guān)于特征工程的173篇中文文獻和555篇外文文獻進行統(tǒng)計對比并繪制了柱形圖，如圖1所示。從圖中可以看出，2006-2014年間關(guān)于特征工程的研究成果非常少，2015年開始發(fā)文量明顯增加，且保持較高的增長率，外文發(fā)文量約為中文發(fā)文量的3倍，說明國外關(guān)于特征工程的研究較多。發(fā)文量增加的原因是因為基于機器學(xué)習(xí)的研究方法受到研究者們的青睞，在多個領(lǐng)域展開了使用機器學(xué)習(xí)方法解決學(xué)科領(lǐng)域問題的研究，特征工程作為構(gòu)建復(fù)雜特征集的方法，應(yīng)用于眾多研究中。例如，文本情感傾向性分析的一類重要研究思路是采用有監(jiān)督的機器學(xué)習(xí)方法，它的核心就是特征工程[2]。

3.2 主要研究國家分析

為了詳細了解各個國家關(guān)于特征工程研究成果的多少及其重要程度，對獲得的555篇外文文獻進行國家共現(xiàn)分析，其結(jié)果如圖2所示。節(jié)點大小代表發(fā)文量，節(jié)點文字的大小與發(fā)文量成正比，節(jié)點之間的連線粗細表示合作的強度。各個國家的發(fā)文量數(shù)據(jù)來自CiteSpace的統(tǒng)計結(jié)果。圖中節(jié)點最大的國家是中國，發(fā)文量為190篇，占比約34%，美國次之，發(fā)文量為167篇，占比約30%。發(fā)文量排名第三的國家是澳大利亞，僅發(fā)文37篇，與前兩名差距較大。比較可得中國和美國對特征工程的研究較多，成果卓著。

研究國家的影響力水平可以通過中介中心性這一重要的指標來衡量。根據(jù)CiteSpace提供的各個國家中介中心性的數(shù)據(jù)，對特征工程研究中介中心性排名前10的國家進行統(tǒng)計，如表1所示。美國的中介中心性排名第一，在特征工程研究領(lǐng)域占有重要地位。中國的發(fā)文量雖然最多，但中介中心性為美國的7/10，說明我國需要提高發(fā)文的質(zhì)量，加強創(chuàng)新性研究。中介中心性排名第三的國家是意大利，雖然發(fā)文量僅有9篇，但其研究成果的影響力超過了發(fā)文量較多的澳大利亞、西班牙、加拿大、英國。在表中，處于后三位的國家雖然中介中心性相同，但卡塔爾的發(fā)文量是法國和葡萄牙的一半，說明卡塔爾在該研究領(lǐng)域發(fā)表的文章影響力較強。由此可見，在進行科學(xué)研究時，評價研究作者或國家的科研水平，不能只關(guān)注發(fā)表論文的數(shù)量，更應(yīng)該注重論文的質(zhì)量，注重其研究成果的影響力。

表1 關(guān)于特征工程研究中介中心性前10的國家

3.3 作者共被引分析

通過研究論文被引情況，可以發(fā)現(xiàn)該領(lǐng)域較有影響力的研究作者。作者共被引分析是對論文和參考文獻中作者之間的關(guān)系進行分析。為了解特征工程領(lǐng)域的研究作者論文被引情況，對獲得的555篇外文文獻進行作者共被引分析，結(jié)果如表2、圖3所示。表中共被引次數(shù)和中介中心性的數(shù)據(jù)均來自CiteSpace的統(tǒng)計結(jié)果。圖中節(jié)點的大小代表被引用次數(shù)，節(jié)點文字表示作者信息?？梢钥闯龉脖灰螖?shù)排名第一的作者是LeCun Y，排名第二的作者是Bengio Y；從中介中心性的角度分析，Bengio Y發(fā)表的論文在特征工程研究領(lǐng)域中影響力更大。這兩位作者是深度學(xué)習(xí)領(lǐng)域最具影響力的科學(xué)家Yann LeCun和Yoshua Bengio，他們和Geoffrey Hinton并稱為深度學(xué)習(xí)三巨頭，共同獲得2018年圖靈獎。在眾多論文中，Yann LeCun關(guān)于卷積神經(jīng)網(wǎng)絡(luò)、反向傳播學(xué)習(xí)、文檔識別的論文被引用次數(shù)較多，Yoshua Bengio關(guān)于梯度消失、表示學(xué)習(xí)的論文被引用次數(shù)較多。另外，3人在紀念人工智能提出60周年時，首次合作的綜述文章《Deep Learning》被引次數(shù)非常高。該篇論文不僅闡述了深度學(xué)習(xí)的基本原理和核心優(yōu)勢，還詳細介紹了CNN、分布式特征表示、RNN及其不同的應(yīng)用，并對深度學(xué)習(xí)技術(shù)的未來發(fā)展進行展望[3]。

表2 外文文獻作者共被引次數(shù)前10名統(tǒng)計表

為了解關(guān)于特征工程國內(nèi)作者的研究情況，對173篇中文文獻和555篇外文文獻的國內(nèi)作者發(fā)文情況進行統(tǒng)計匯總。借助CNKI的“分組瀏覽：作者”功能和Web of Science核心合集的“分析檢索結(jié)果：作者”功能，統(tǒng)計了研究作者所在的機構(gòu)和關(guān)于特征工程研究成果的被引次數(shù)，統(tǒng)計結(jié)果如表3所示。表中含有英文名的表示作者發(fā)表了關(guān)于特征工程的外文文獻。表中研究成果被引次數(shù)最高的作者是劉挺，該作者是哈爾濱工業(yè)大學(xué)教授，入選國家“萬人計劃”科技創(chuàng)新領(lǐng)軍人才，主要研究方向為自然語言處理和社會計算。在研究情感分析問題時，首次對中文微博語料進行細致的特征工程建設(shè)，提出了基于詞典規(guī)則的情感評分新特征。曾與同單位的劉懷軍和車萬翔進行合作研究，使用特征工程解決中文語義角色標注問題，在英文語義角色標注特征的基礎(chǔ)上,提出了一些更有效的新特征和組合特征[4]。另一位科研成果較多的作者是來自大連理工大學(xué)的林鴻飛教授。在關(guān)于特征工程的文獻中，采用神經(jīng)網(wǎng)絡(luò)的方法進行生物醫(yī)學(xué)文獻的知識挖掘研究，具體研究問題有化學(xué)名與疾病間的關(guān)系、蛋白質(zhì)間相互作用、生物醫(yī)學(xué)事件觸發(fā)識別等，為生物醫(yī)學(xué)領(lǐng)域研究發(fā)展做出貢獻。通過被引分析找到重要的研究作者可以迅速有效地了解某研究領(lǐng)域的研究進展與熱點。

表3 國內(nèi)作者中外文文獻被引次數(shù)前10名統(tǒng)計表

3.4 關(guān)鍵詞共現(xiàn)和聚類分析

文獻的關(guān)鍵詞反映了一篇文獻的核心內(nèi)容及重要信息，是對文獻內(nèi)容的高度概括和凝練。通過 CiteSpace軟件對文獻中的關(guān)鍵詞進行分析可以展現(xiàn)關(guān)鍵字共現(xiàn)網(wǎng)絡(luò)圖譜，并確定基于文獻計量學(xué)視角的熱點研究領(lǐng)域[5]。對關(guān)于特征工程的173篇中文文獻進行關(guān)鍵詞共現(xiàn)和聚類分析，結(jié)果如圖4所示。聚類序號與聚類內(nèi)包含的節(jié)點數(shù)量成反比，最大的聚類用“#0”標記，聚類名稱用關(guān)鍵詞命名。圖中共有13個聚類，涵蓋了特征工程研究的所屬領(lǐng)域、模型算法與應(yīng)用：①聚類#0數(shù)據(jù)挖掘、#2機器學(xué)習(xí)、#4深度學(xué)習(xí)主要是從宏觀的角度表示特征工程所屬的領(lǐng)域范圍。數(shù)據(jù)挖掘使用機器學(xué)習(xí)算法和深度學(xué)習(xí)算法，無論是人為提取特征的機器學(xué)習(xí)，還是自動學(xué)習(xí)特征的深度學(xué)習(xí)，關(guān)于特征的研究都是其中必不可少的部分。②聚類#3 xgboost、#5模型融合、#6最大熵分類器、#7決策樹、#8因子分解機、#10信息抽取、#12 svm、#13 sequence to sequence主要是從構(gòu)建模型的角度說明特征工程經(jīng)常與決策樹、svm、xgboost等算法一同使用。模型融合是采用兩種或兩種以上算法構(gòu)建復(fù)雜模型解決某研究問題。最大熵分類器是自然語言處理領(lǐng)域進行語義角色標注常用的方法。因子分解機(FM,factorization machine)模型因為能夠有效解決高維數(shù)據(jù)特征組合的稀疏問題且具有較高的預(yù)測精度和計算效率,在廣告點擊率預(yù)測和推薦系統(tǒng)領(lǐng)域被廣泛研究和應(yīng)用[6]。sequence to sequence簡稱Seq2Seq，是一種在輸入序列與目標序列長度不一致時采用的模型，可用于機器翻譯、文本摘要、會話建模、圖像描述等。③聚類#1協(xié)議識別、#15手勢識別主要從研究問題的角度表明特征工程常用于解決網(wǎng)絡(luò)協(xié)議和圖像識別問題。其中，協(xié)議識別、xgboost、深度學(xué)習(xí)研究持續(xù)的時間最長，從2006年一直到2019年。因子分解機的研究從2016年持續(xù)至今，是特征工程研究領(lǐng)域的一個前沿問題。

通過關(guān)鍵詞聚類可得到多個研究主題。為了解各個研究主題的時間跨度，對555篇外文文獻進行聚類分析，選擇CiteSpace的時間線視圖方式，結(jié)果如圖5所示。圖中展示了2014—2020年特征工程相關(guān)研究的發(fā)展情況，共得到8個聚類，聚類名稱從文獻的標題中提取。其中，聚類#4中文網(wǎng)上健康咨詢、#6環(huán)境輔助生活系統(tǒng)、#7元素組成可歸納為特征工程的應(yīng)用場景這一研究主題。下面將詳細地分析得到的6個研究主題。

1)深度學(xué)習(xí)。深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法，通過組合低層特征形成更加抽象的高層表示(屬性類別或特征)，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[7]，解決了人工選取特征的繁復(fù)冗雜和高維數(shù)據(jù)的維度災(zāi)難問題。深度模型是實現(xiàn)特征學(xué)習(xí)的重要手段，深度學(xué)習(xí)和特征工程具有密不可分的關(guān)系，在深度學(xué)習(xí)的研究中都會涉及特征提取的問題。從圖中可看出深度學(xué)習(xí)這一研究主題的時間跨度最長，從2014年開始持續(xù)至今。它是當(dāng)前學(xué)術(shù)研究的熱點之一，已經(jīng)成功地應(yīng)用于語音識別、圖像識別等各個領(lǐng)域。

2)遷移學(xué)習(xí)。從圖中可看出遷移學(xué)習(xí)研究的時間跨度是2016-2019年。遷移學(xué)習(xí)作為一個新興的研究領(lǐng)域，主要研究集中在算法方面。莊福振等[8]按照遷移學(xué)習(xí)方法采用的技術(shù)將其分為基于特征選擇方法、基于特征映射方法和基于權(quán)重方法3大類。由此可看出遷移學(xué)習(xí)的大部分研究與特征工程相關(guān)。隨著遷移學(xué)習(xí)研究的不斷深入，特征工程理論將得到豐富和發(fā)展。

3)實體識別。實體識別即命名實體識別，從圖中可看出相關(guān)研究持續(xù)時間較長。命名實體識別是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分。特征是影響命名實體識別的重要因素。多數(shù)情況下，命名實體識別系統(tǒng)使用的是基于統(tǒng)計和基于規(guī)則知識的混合方法[9]。其中，基于統(tǒng)計的方法與特征工程密切相關(guān)，對特征選取的要求較高。張祝玉等[10]在基于條件隨機場的中文命名實體識別研究中，通過特征選取與組合的對比實驗，得出在訓(xùn)練時應(yīng)優(yōu)先選擇貢獻度大的特征，同時還表明使用組合特征可以提升系統(tǒng)的性能。

4)預(yù)處理機制。從圖中可看出預(yù)處理機制研究的時間跨度是2016-2018年。雖然相關(guān)研究持續(xù)時間較短，但預(yù)處理是特征工程中的重要組成部分，包括針對單個特征的歸一化、離散化、缺失值處理等，還有針對多個特征的降維和特征選擇方法。在不同的研究問題中，預(yù)處理會影響到模型的結(jié)果，研究者們根據(jù)數(shù)據(jù)的特點采用合適的預(yù)處理方法，以便得到更好的結(jié)果。

5)學(xué)習(xí)過程。學(xué)習(xí)過程包括深度學(xué)習(xí)過程和機器學(xué)習(xí)過程。兩者都離不開特征工程。特征工程與深度學(xué)習(xí)的關(guān)系在前文已進行詳細描述，此處不再贅述。對于機器學(xué)習(xí)而言，輸入特征的質(zhì)量直接影響著模型結(jié)果的好壞，通過特征工程可以得到有效的特征集，高質(zhì)量的輸入才能得到理想的結(jié)果。目前，機器學(xué)習(xí)已在各個領(lǐng)域得到廣泛應(yīng)用，但也面臨著一些挑戰(zhàn)。針對機器學(xué)習(xí)分類器存在的特征分類錯誤、精度低、過擬合等問題，Uddin Muhammad Fahim等[11]提出了一種新的算法融合和特征工程邏輯表單元的構(gòu)造方案，使結(jié)果得到改善。

6)特征工程的應(yīng)用場景。特征工程作為提取有效特征集的方法論已廣泛地應(yīng)用于各行各業(yè)當(dāng)中。近年來，關(guān)于網(wǎng)上健康咨詢、元素組成、環(huán)境輔助生活系統(tǒng)國外的研究較多。在虛擬醫(yī)療行業(yè)，在線健康咨詢已產(chǎn)生大量的醫(yī)療數(shù)據(jù)，一部分研究者通過特征工程和深度神經(jīng)網(wǎng)絡(luò)進行醫(yī)療實體識別研究，挖掘這些數(shù)據(jù)的價值，增強在線醫(yī)療的可持續(xù)性。在材料化學(xué)領(lǐng)域，一部分研究者將深度學(xué)習(xí)應(yīng)用于元素組成的研究，通過深度神經(jīng)網(wǎng)絡(luò)模型自動捕捉不同元素之間的物理和化學(xué)相互作用和相似性，從而更準確、更快地預(yù)測材料的性能。環(huán)境輔助生活是一個新興的多學(xué)科領(lǐng)域，針對子女無力看護老人這一社會問題，很多研究者利用人工智能技術(shù)設(shè)計了環(huán)境輔助生活系統(tǒng)，通過各種不同的監(jiān)測儀器獲取數(shù)據(jù)，對使用者的狀態(tài)和環(huán)境對象進行分析并做出即時反應(yīng)。其中，根據(jù)傳感器收集的數(shù)據(jù)能否提取有效特征關(guān)乎著能否正確識別特定的活動，可見特征工程的研究至關(guān)重要。Ni Qin等[12]對環(huán)境輔助生活系統(tǒng)中需要識別的主要活動、傳感器的設(shè)置、數(shù)據(jù)預(yù)處理和特征提取的方法進行了分類。

綜上所述，特征工程與深度學(xué)習(xí)、機器學(xué)習(xí)密不可分，在協(xié)議識別、遷移學(xué)習(xí)、實體識別等研究中扮演著重要角色。特征工程作為提取有效特征集的方法論在各個領(lǐng)域得到廣泛應(yīng)用。

4 結(jié)束語

本文以特征工程的相關(guān)文獻為研究對象，從中國知網(wǎng)CNKI獲得173篇中文文獻，從Web of Science核心合集數(shù)據(jù)庫獲得555篇外文文獻，使用CiteSpace軟件繪制多個知識圖譜并進行分析解讀。通過統(tǒng)計各年度中外文發(fā)文量發(fā)現(xiàn)自2015年以來特征工程研究領(lǐng)域的文獻逐年遞增，并保持較高的增長率，這說明特征工程研究越來越受到研究者的關(guān)注。通過研究國家共現(xiàn)分析發(fā)現(xiàn)中國和美國的發(fā)文量約占總數(shù)的64%，雖然中國的發(fā)文量高于美國，但研究成果的影響力較弱，這說明中國需要提高發(fā)文的質(zhì)量。通過對研究作者們進行分析得出LeCun Y、Bengio Y、劉挺、林鴻飛是研究領(lǐng)域內(nèi)較有影響力的代表人物。通過對關(guān)鍵詞共現(xiàn)和聚類分析得出特征工程在各個學(xué)科領(lǐng)域得到廣泛應(yīng)用，國內(nèi)外所涉及的熱門研究主題有所不同。國內(nèi)的研究熱點主要有協(xié)議識別、xgboost、深度學(xué)習(xí)。國外的研究熱點主要有深度學(xué)習(xí)、遷移學(xué)習(xí)、實體識別。研究前沿是因子分解機和深度學(xué)習(xí)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡