馬利星,胡 敏
(北京信息科技大學(xué) 信息管理學(xué)院,北京 100192)
隨著大數(shù)據(jù)時代的到來,人們對數(shù)據(jù)價值的挖掘越來越重視,相關(guān)研究工作如火如荼地進行著,數(shù)據(jù)挖掘算法在各行各業(yè)得到廣泛應(yīng)用。無論是人為提取特征的機器學(xué)習(xí),還是自動學(xué)習(xí)特征的深度學(xué)習(xí),特征都發(fā)揮著重要的作用。特征作為算法的輸入直接影響著模型結(jié)果的好壞,能否獲得有用特征至關(guān)重要。而特征工程的目的就是獲取重要特征。特征工程保障了高質(zhì)量的輸入,有利于得到良好的輸出結(jié)果。
特征工程是在實踐中發(fā)展起來的關(guān)于構(gòu)建有效特征集的一系列方法的綜合,對于不同的研究問題,使用的技術(shù)略有不同。很少有人對此進行專門研究。特征工程常與算法一起使用,絕大多數(shù)研究是針對某個具體的研究問題,探究合適的特征工程方法,以便訓(xùn)練出更好的模型。查閱更多的特征工程相關(guān)文獻,有助于提出創(chuàng)新性的特征處理方法。
為了系統(tǒng)全面地了解國內(nèi)外關(guān)于特征工程的研究,本文采用文獻計量學(xué)的方法,借助CiteSpace軟件對相關(guān)中外文文獻進行可視化分析,了解特征工程的研究進展情況,掌握研究的知識基礎(chǔ)和熱點問題,為特征工程的相關(guān)研究提供理論參考。
CiteSpace是由美國德雷賽爾大學(xué)計算機與情報學(xué)學(xué)院陳超美教授開發(fā)的一款能夠繪制科學(xué)知識圖譜的信息可視化軟件。自CiteSpace開發(fā)至今,其在科技論文、學(xué)位論文、學(xué)術(shù)專著等研究中得到了廣泛應(yīng)用,用戶數(shù)量十分龐大。該軟件有很多功能。作者、機構(gòu)、國家的共現(xiàn)分析不僅可以得到各個節(jié)點的發(fā)文量,還能看出節(jié)點之間的合作關(guān)系。通過對詞頻、詞語時間趨勢、詞匯的網(wǎng)絡(luò)屬性等關(guān)鍵詞共現(xiàn)分析可以得到某領(lǐng)域的研究熱點和趨勢。參考文獻或作者共被引分析可以反映某研究問題的知識基礎(chǔ)和研究前沿[1]。本研究使用的軟件版本為CiteSpace 5.6.R2。本文利用該軟件繪制了關(guān)于特征工程領(lǐng)域的研究國家、研究作者、文獻關(guān)鍵詞的知識圖譜,并對圖譜所反映出的特征工程研究態(tài)勢與熱點進行深入分析。
為了全面了解特征工程的研究情況,需要對國內(nèi)外的特征工程研究成果進行分析。在收集相關(guān)文獻資料時,選擇從中國知識信息資源最豐富的數(shù)字化學(xué)習(xí)平臺——中國知網(wǎng)CNKI(China National Knowledge Infrastructure)中獲取中文文獻,選擇從收錄了全球最具學(xué)術(shù)影響力高質(zhì)量期刊的數(shù)據(jù)庫——Web of Science核心合集中獲取外文文獻。在CNKI中,選擇專業(yè)檢索,輸入檢索條件TI=‘特征工程’ OR KY=‘特征工程’,經(jīng)過刪除無關(guān)文獻,得到2006-2020年的173篇中文文獻,檢索日期為2020年3月4日。在Web of Science核心合集數(shù)據(jù)庫中,進行主題檢索,輸入檢索條件“Feature Engineering”,選擇文獻類型article和review,經(jīng)過篩選得到2008-2020年的555篇外文文獻,檢索日期為2020年2月28日。
為了滿足軟件使用要求,CNKI導(dǎo)出的數(shù)據(jù)文本格式選擇“Refworks”,Web of Science核心合集數(shù)據(jù)庫導(dǎo)出的數(shù)據(jù)文本選擇“其他文件格式”中的“純文本”格式,文本命名格式為“download_XXX”。另外,CNKI下載的數(shù)據(jù)需要進行格式轉(zhuǎn)換。將處理好的數(shù)據(jù)加載到CiteSpace軟件中,通過選擇不同的功能繪制相應(yīng)的知識圖譜。
通過各年度發(fā)文量可以看出某研究主題的發(fā)展情況和研究熱度變化。因此,本文對關(guān)于特征工程的173篇中文文獻和555篇外文文獻進行統(tǒng)計對比并繪制了柱形圖,如圖1所示。從圖中可以看出,2006-2014年間關(guān)于特征工程的研究成果非常少,2015年開始發(fā)文量明顯增加,且保持較高的增長率,外文發(fā)文量約為中文發(fā)文量的3倍,說明國外關(guān)于特征工程的研究較多。發(fā)文量增加的原因是因為基于機器學(xué)習(xí)的研究方法受到研究者們的青睞,在多個領(lǐng)域展開了使用機器學(xué)習(xí)方法解決學(xué)科領(lǐng)域問題的研究,特征工程作為構(gòu)建復(fù)雜特征集的方法,應(yīng)用于眾多研究中。例如,文本情感傾向性分析的一類重要研究思路是采用有監(jiān)督的機器學(xué)習(xí)方法,它的核心就是特征工程[2]。
為了詳細了解各個國家關(guān)于特征工程研究成果的多少及其重要程度,對獲得的555篇外文文獻進行國家共現(xiàn)分析,其結(jié)果如圖2所示。節(jié)點大小代表發(fā)文量,節(jié)點文字的大小與發(fā)文量成正比,節(jié)點之間的連線粗細表示合作的強度。各個國家的發(fā)文量數(shù)據(jù)來自CiteSpace的統(tǒng)計結(jié)果。圖中節(jié)點最大的國家是中國,發(fā)文量為190篇,占比約34%,美國次之,發(fā)文量為167篇,占比約30%。發(fā)文量排名第三的國家是澳大利亞,僅發(fā)文37篇,與前兩名差距較大。比較可得中國和美國對特征工程的研究較多,成果卓著。
研究國家的影響力水平可以通過中介中心性這一重要的指標來衡量。根據(jù)CiteSpace提供的各個國家中介中心性的數(shù)據(jù),對特征工程研究中介中心性排名前10的國家進行統(tǒng)計,如表1所示。美國的中介中心性排名第一,在特征工程研究領(lǐng)域占有重要地位。中國的發(fā)文量雖然最多,但中介中心性為美國的7/10,說明我國需要提高發(fā)文的質(zhì)量,加強創(chuàng)新性研究。中介中心性排名第三的國家是意大利,雖然發(fā)文量僅有9篇,但其研究成果的影響力超過了發(fā)文量較多的澳大利亞、西班牙、加拿大、英國。在表中,處于后三位的國家雖然中介中心性相同,但卡塔爾的發(fā)文量是法國和葡萄牙的一半,說明卡塔爾在該研究領(lǐng)域發(fā)表的文章影響力較強。由此可見,在進行科學(xué)研究時,評價研究作者或國家的科研水平,不能只關(guān)注發(fā)表論文的數(shù)量,更應(yīng)該注重論文的質(zhì)量,注重其研究成果的影響力。
表1 關(guān)于特征工程研究中介中心性前10的國家
通過研究論文被引情況,可以發(fā)現(xiàn)該領(lǐng)域較有影響力的研究作者。作者共被引分析是對論文和參考文獻中作者之間的關(guān)系進行分析。為了解特征工程領(lǐng)域的研究作者論文被引情況,對獲得的555篇外文文獻進行作者共被引分析,結(jié)果如表2、圖3所示。表中共被引次數(shù)和中介中心性的數(shù)據(jù)均來自CiteSpace的統(tǒng)計結(jié)果。圖中節(jié)點的大小代表被引用次數(shù),節(jié)點文字表示作者信息??梢钥闯龉脖灰螖?shù)排名第一的作者是LeCun Y,排名第二的作者是Bengio Y;從中介中心性的角度分析,Bengio Y發(fā)表的論文在特征工程研究領(lǐng)域中影響力更大。這兩位作者是深度學(xué)習(xí)領(lǐng)域最具影響力的科學(xué)家Yann LeCun和Yoshua Bengio,他們和Geoffrey Hinton并稱為深度學(xué)習(xí)三巨頭,共同獲得2018年圖靈獎。在眾多論文中,Yann LeCun關(guān)于卷積神經(jīng)網(wǎng)絡(luò)、反向傳播學(xué)習(xí)、文檔識別的論文被引用次數(shù)較多,Yoshua Bengio關(guān)于梯度消失、表示學(xué)習(xí)的論文被引用次數(shù)較多。另外,3人在紀念人工智能提出60周年時,首次合作的綜述文章《Deep Learning》被引次數(shù)非常高。該篇論文不僅闡述了深度學(xué)習(xí)的基本原理和核心優(yōu)勢,還詳細介紹了CNN、分布式特征表示、RNN及其不同的應(yīng)用,并對深度學(xué)習(xí)技術(shù)的未來發(fā)展進行展望[3]。
表2 外文文獻作者共被引次數(shù)前10名統(tǒng)計表
為了解關(guān)于特征工程國內(nèi)作者的研究情況,對173篇中文文獻和555篇外文文獻的國內(nèi)作者發(fā)文情況進行統(tǒng)計匯總。借助CNKI的“分組瀏覽:作者”功能和Web of Science核心合集的“分析檢索結(jié)果:作者”功能,統(tǒng)計了研究作者所在的機構(gòu)和關(guān)于特征工程研究成果的被引次數(shù),統(tǒng)計結(jié)果如表3所示。表中含有英文名的表示作者發(fā)表了關(guān)于特征工程的外文文獻。表中研究成果被引次數(shù)最高的作者是劉挺,該作者是哈爾濱工業(yè)大學(xué)教授,入選國家“萬人計劃”科技創(chuàng)新領(lǐng)軍人才,主要研究方向為自然語言處理和社會計算。在研究情感分析問題時,首次對中文微博語料進行細致的特征工程建設(shè),提出了基于詞典規(guī)則的情感評分新特征。曾與同單位的劉懷軍和車萬翔進行合作研究,使用特征工程解決中文語義角色標注問題,在英文語義角色標注特征的基礎(chǔ)上,提出了一些更有效的新特征和組合特征[4]。另一位科研成果較多的作者是來自大連理工大學(xué)的林鴻飛教授。在關(guān)于特征工程的文獻中,采用神經(jīng)網(wǎng)絡(luò)的方法進行生物醫(yī)學(xué)文獻的知識挖掘研究,具體研究問題有化學(xué)名與疾病間的關(guān)系、蛋白質(zhì)間相互作用、生物醫(yī)學(xué)事件觸發(fā)識別等,為生物醫(yī)學(xué)領(lǐng)域研究發(fā)展做出貢獻。通過被引分析找到重要的研究作者可以迅速有效地了解某研究領(lǐng)域的研究進展與熱點。
表3 國內(nèi)作者中外文文獻被引次數(shù)前10名統(tǒng)計表
文獻的關(guān)鍵詞反映了一篇文獻的核心內(nèi)容及重要信息,是對文獻內(nèi)容的高度概括和凝練。通過 CiteSpace軟件對文獻中的關(guān)鍵詞進行分析可以展現(xiàn)關(guān)鍵字共現(xiàn)網(wǎng)絡(luò)圖譜,并確定基于文獻計量學(xué)視角的熱點研究領(lǐng)域[5]。對關(guān)于特征工程的173篇中文文獻進行關(guān)鍵詞共現(xiàn)和聚類分析,結(jié)果如圖4所示。聚類序號與聚類內(nèi)包含的節(jié)點數(shù)量成反比,最大的聚類用“#0”標記,聚類名稱用關(guān)鍵詞命名。圖中共有13個聚類,涵蓋了特征工程研究的所屬領(lǐng)域、模型算法與應(yīng)用:①聚類#0數(shù)據(jù)挖掘、#2機器學(xué)習(xí)、#4深度學(xué)習(xí)主要是從宏觀的角度表示特征工程所屬的領(lǐng)域范圍。數(shù)據(jù)挖掘使用機器學(xué)習(xí)算法和深度學(xué)習(xí)算法,無論是人為提取特征的機器學(xué)習(xí),還是自動學(xué)習(xí)特征的深度學(xué)習(xí),關(guān)于特征的研究都是其中必不可少的部分。②聚類#3 xgboost、#5模型融合、#6最大熵分類器、#7決策樹、#8因子分解機、#10信息抽取、#12 svm、#13 sequence to sequence主要是從構(gòu)建模型的角度說明特征工程經(jīng)常與決策樹、svm、xgboost等算法一同使用。模型融合是采用兩種或兩種以上算法構(gòu)建復(fù)雜模型解決某研究問題。最大熵分類器是自然語言處理領(lǐng)域進行語義角色標注常用的方法。因子分解機(FM,factorization machine)模型因為能夠有效解決高維數(shù)據(jù)特征組合的稀疏問題且具有較高的預(yù)測精度和計算效率,在廣告點擊率預(yù)測和推薦系統(tǒng)領(lǐng)域被廣泛研究和應(yīng)用[6]。sequence to sequence簡稱Seq2Seq,是一種在輸入序列與目標序列長度不一致時采用的模型,可用于機器翻譯、文本摘要、會話建模、圖像描述等。③聚類#1協(xié)議識別、#15手勢識別主要從研究問題的角度表明特征工程常用于解決網(wǎng)絡(luò)協(xié)議和圖像識別問題。其中,協(xié)議識別、xgboost、深度學(xué)習(xí)研究持續(xù)的時間最長,從2006年一直到2019年。因子分解機的研究從2016年持續(xù)至今,是特征工程研究領(lǐng)域的一個前沿問題。
通過關(guān)鍵詞聚類可得到多個研究主題。為了解各個研究主題的時間跨度,對555篇外文文獻進行聚類分析,選擇CiteSpace的時間線視圖方式,結(jié)果如圖5所示。圖中展示了2014—2020年特征工程相關(guān)研究的發(fā)展情況,共得到8個聚類,聚類名稱從文獻的標題中提取。其中,聚類#4中文網(wǎng)上健康咨詢、#6環(huán)境輔助生活系統(tǒng)、#7元素組成可歸納為特征工程的應(yīng)用場景這一研究主題。下面將詳細地分析得到的6個研究主題。
1)深度學(xué)習(xí)。深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,通過組合低層特征形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[7],解決了人工選取特征的繁復(fù)冗雜和高維數(shù)據(jù)的維度災(zāi)難問題。深度模型是實現(xiàn)特征學(xué)習(xí)的重要手段,深度學(xué)習(xí)和特征工程具有密不可分的關(guān)系,在深度學(xué)習(xí)的研究中都會涉及特征提取的問題。從圖中可看出深度學(xué)習(xí)這一研究主題的時間跨度最長,從2014年開始持續(xù)至今。它是當(dāng)前學(xué)術(shù)研究的熱點之一,已經(jīng)成功地應(yīng)用于語音識別、圖像識別等各個領(lǐng)域。
2)遷移學(xué)習(xí)。從圖中可看出遷移學(xué)習(xí)研究的時間跨度是2016-2019年。遷移學(xué)習(xí)作為一個新興的研究領(lǐng)域,主要研究集中在算法方面。莊福振等[8]按照遷移學(xué)習(xí)方法采用的技術(shù)將其分為基于特征選擇方法、基于特征映射方法和基于權(quán)重方法3大類。由此可看出遷移學(xué)習(xí)的大部分研究與特征工程相關(guān)。隨著遷移學(xué)習(xí)研究的不斷深入,特征工程理論將得到豐富和發(fā)展。
3)實體識別。實體識別即命名實體識別,從圖中可看出相關(guān)研究持續(xù)時間較長。命名實體識別是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分。特征是影響命名實體識別的重要因素。多數(shù)情況下,命名實體識別系統(tǒng)使用的是基于統(tǒng)計和基于規(guī)則知識的混合方法[9]。其中,基于統(tǒng)計的方法與特征工程密切相關(guān),對特征選取的要求較高。張祝玉等[10]在基于條件隨機場的中文命名實體識別研究中,通過特征選取與組合的對比實驗,得出在訓(xùn)練時應(yīng)優(yōu)先選擇貢獻度大的特征,同時還表明使用組合特征可以提升系統(tǒng)的性能。
4)預(yù)處理機制。從圖中可看出預(yù)處理機制研究的時間跨度是2016-2018年。雖然相關(guān)研究持續(xù)時間較短,但預(yù)處理是特征工程中的重要組成部分,包括針對單個特征的歸一化、離散化、缺失值處理等,還有針對多個特征的降維和特征選擇方法。在不同的研究問題中,預(yù)處理會影響到模型的結(jié)果,研究者們根據(jù)數(shù)據(jù)的特點采用合適的預(yù)處理方法,以便得到更好的結(jié)果。
5)學(xué)習(xí)過程。學(xué)習(xí)過程包括深度學(xué)習(xí)過程和機器學(xué)習(xí)過程。兩者都離不開特征工程。特征工程與深度學(xué)習(xí)的關(guān)系在前文已進行詳細描述,此處不再贅述。對于機器學(xué)習(xí)而言,輸入特征的質(zhì)量直接影響著模型結(jié)果的好壞,通過特征工程可以得到有效的特征集,高質(zhì)量的輸入才能得到理想的結(jié)果。目前,機器學(xué)習(xí)已在各個領(lǐng)域得到廣泛應(yīng)用,但也面臨著一些挑戰(zhàn)。針對機器學(xué)習(xí)分類器存在的特征分類錯誤、精度低、過擬合等問題,Uddin Muhammad Fahim等[11]提出了一種新的算法融合和特征工程邏輯表單元的構(gòu)造方案,使結(jié)果得到改善。
6)特征工程的應(yīng)用場景。特征工程作為提取有效特征集的方法論已廣泛地應(yīng)用于各行各業(yè)當(dāng)中。近年來,關(guān)于網(wǎng)上健康咨詢、元素組成、環(huán)境輔助生活系統(tǒng)國外的研究較多。在虛擬醫(yī)療行業(yè),在線健康咨詢已產(chǎn)生大量的醫(yī)療數(shù)據(jù),一部分研究者通過特征工程和深度神經(jīng)網(wǎng)絡(luò)進行醫(yī)療實體識別研究,挖掘這些數(shù)據(jù)的價值,增強在線醫(yī)療的可持續(xù)性。在材料化學(xué)領(lǐng)域,一部分研究者將深度學(xué)習(xí)應(yīng)用于元素組成的研究,通過深度神經(jīng)網(wǎng)絡(luò)模型自動捕捉不同元素之間的物理和化學(xué)相互作用和相似性,從而更準確、更快地預(yù)測材料的性能。環(huán)境輔助生活是一個新興的多學(xué)科領(lǐng)域,針對子女無力看護老人這一社會問題,很多研究者利用人工智能技術(shù)設(shè)計了環(huán)境輔助生活系統(tǒng),通過各種不同的監(jiān)測儀器獲取數(shù)據(jù),對使用者的狀態(tài)和環(huán)境對象進行分析并做出即時反應(yīng)。其中,根據(jù)傳感器收集的數(shù)據(jù)能否提取有效特征關(guān)乎著能否正確識別特定的活動,可見特征工程的研究至關(guān)重要。Ni Qin等[12]對環(huán)境輔助生活系統(tǒng)中需要識別的主要活動、傳感器的設(shè)置、數(shù)據(jù)預(yù)處理和特征提取的方法進行了分類。
綜上所述,特征工程與深度學(xué)習(xí)、機器學(xué)習(xí)密不可分,在協(xié)議識別、遷移學(xué)習(xí)、實體識別等研究中扮演著重要角色。特征工程作為提取有效特征集的方法論在各個領(lǐng)域得到廣泛應(yīng)用。
本文以特征工程的相關(guān)文獻為研究對象,從中國知網(wǎng)CNKI獲得173篇中文文獻,從Web of Science核心合集數(shù)據(jù)庫獲得555篇外文文獻,使用CiteSpace軟件繪制多個知識圖譜并進行分析解讀。通過統(tǒng)計各年度中外文發(fā)文量發(fā)現(xiàn)自2015年以來特征工程研究領(lǐng)域的文獻逐年遞增,并保持較高的增長率,這說明特征工程研究越來越受到研究者的關(guān)注。通過研究國家共現(xiàn)分析發(fā)現(xiàn)中國和美國的發(fā)文量約占總數(shù)的64%,雖然中國的發(fā)文量高于美國,但研究成果的影響力較弱,這說明中國需要提高發(fā)文的質(zhì)量。通過對研究作者們進行分析得出LeCun Y、Bengio Y、劉挺、林鴻飛是研究領(lǐng)域內(nèi)較有影響力的代表人物。通過對關(guān)鍵詞共現(xiàn)和聚類分析得出特征工程在各個學(xué)科領(lǐng)域得到廣泛應(yīng)用,國內(nèi)外所涉及的熱門研究主題有所不同。國內(nèi)的研究熱點主要有協(xié)議識別、xgboost、深度學(xué)習(xí)。國外的研究熱點主要有深度學(xué)習(xí)、遷移學(xué)習(xí)、實體識別。研究前沿是因子分解機和深度學(xué)習(xí)。