国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于年度高頻關(guān)鍵詞的研究熱點提取與可視化研究

2020-12-17 03:31高勁松黃梅付家煒
現(xiàn)代情報 2020年12期
關(guān)鍵詞:趨勢分析研究熱點

高勁松 黃梅 付家煒

收稿日期:2020-06-03

基金項目:中央高校基本科研業(yè)務(wù)費自由探索項目“面向用戶的文物信息資源知識服務(wù)研究”(項目編號:CCNU20A06025);華中師范大學(xué)信息管理學(xué)院研究生自主科研項目“電子商務(wù)相似用戶評論推薦研究”。

作者簡介:高勁松(1966-),女,教授,博士生導(dǎo)師,研究方向:情報學(xué)、圖書館學(xué)。黃梅(1992-),女,碩士研究生,研究方向:可視化。付家煒(1994-),男,博士研究生,研究方向:知識管理與知識服務(wù)。

摘? 要:[目的/意義]能以簡潔的可視化來追蹤某學(xué)科研究熱點隨時間的變化趨勢,對于掌握學(xué)科研究熱點的動向具有重要意義。詞頻分析法是學(xué)科研究熱點分析方法之一,目前存在眾多的基于詞頻分析的可視化工具,但是這些可視化工具能夠以簡潔的可視化形式清晰地展現(xiàn)年度熱點關(guān)鍵詞存在局限性。[方法/過程]因此本文提出通過學(xué)科領(lǐng)域年度發(fā)文量與學(xué)科全部發(fā)文量的比值來衡量年度熱點關(guān)鍵詞對總年度熱點關(guān)鍵詞貢獻(xiàn)率的可視化方法:基于年度貢獻(xiàn)率與二八定律設(shè)定并調(diào)整閾值參數(shù)來控制年度高頻關(guān)鍵詞的呈現(xiàn)數(shù)量,將選取的年度高頻關(guān)鍵詞按照詞頻大小與年份依次排序以實現(xiàn)研究熱點可視化。[結(jié)果/結(jié)論]以“關(guān)聯(lián)數(shù)據(jù)”領(lǐng)域為例進行實證研究,通過分析本文方法提取的高頻關(guān)鍵詞與現(xiàn)有高頻詞閾值算法的匹配情況,對比本文方法與Citespace共現(xiàn)圖譜的可視化呈現(xiàn)效果,對本文方法的可行性進行檢驗與評價。

關(guān)鍵詞:可視化;高頻關(guān)鍵詞;詞頻分析;研究熱點;趨勢分析

DOI:10.3969/j.issn.1008-0821.2020.12.013

〔中圖分類號〕G250.252? 〔文獻(xiàn)標(biāo)識碼〕A? 〔文章編號〕1008-0821(2020)12-0130-10

Research on Hot Spot Extraction and Visualization

Based on Annual High-frequency Keywords

Gao Jinsong? Huang Mei? Fu Jiawei

(School of Information Management,Central China Normal University,Wuhan 430079,China)

Abstract:[Purpose/Significance]It is of great significance to follow the trend of research hotspots in a subject with simple visualization in order to grasp the trend of research hotspots in a subject.Word frequency analysis is one of the hotspot analysis methods of subject research.Currently,there are many visualization tools based on word frequency analysis,but there are limitations that these visualization tools can clearly display the annual hot keywords in a concise visual form.[Method/Process]Therefore,this paper proposed a visualization method to measure the contribution rate of annual hot keywords to the total annual hot keywords by the ratio of the annual amount of articles in the subject area to the total amount of articles in the subject:based on the annual contribution rate and the 80/20 law,the threshold parameters were set and adjusted to control the number of annual high-frequency keywords presented,and the selected annual high-frequency keywords were sorted in order of word frequency and year to achieve visualization of research hotspots.[Result/Conclusion]Taking the field of“l(fā)inked data”as an example to conduct empirical research,by analyzing the matching of the extracted high-frequency keywords with the existing high-frequency keyword extraction methods and comparing the visualization method presented in this paper with Citespaces co-occurrence knowledge map,Test and evaluate the feasibility of this method was.

Key words:visualization;high frequency keywords;word frequency analysis;research hotspots;trend analysis

信息可視化通過可視化圖形的表現(xiàn)形式揭示數(shù)據(jù)中隱含的信息和規(guī)律以增強人的認(rèn)知能力[1]。隨著各個學(xué)科研究的不斷深入,科技研究文獻(xiàn)不斷增多,在浩如煙海的科技文獻(xiàn)資源中用可視化的形式展現(xiàn)研究熱點與發(fā)展趨勢,為科研人員進行研究決策提供了便利。文獻(xiàn)關(guān)鍵詞是文獻(xiàn)核心內(nèi)容的高度概括,濃縮并提煉了文獻(xiàn)的主題、內(nèi)容與研究方法。研究人員的研究多數(shù)需要參考前人的研究成果,通常某學(xué)科關(guān)鍵詞在短時間內(nèi)不會憑空產(chǎn)生與消失,而是處于動態(tài)變化的過程,詞頻的波動與社會現(xiàn)象和情報現(xiàn)象之間存在著內(nèi)在的聯(lián)系,一定的社會現(xiàn)象和情報現(xiàn)象要引起一定的詞頻波動現(xiàn)象[2-3]。如果某一關(guān)鍵詞或主題詞在其所在領(lǐng)域的文獻(xiàn)中反復(fù)出現(xiàn),則可反映出該關(guān)鍵詞或主題詞所表現(xiàn)的研究主題是該領(lǐng)域的研究熱點[4]。通過統(tǒng)計關(guān)鍵詞、主題詞、篇名詞等核心詞匯在某一類學(xué)術(shù)文獻(xiàn)中所出現(xiàn)的頻次,可以判別該學(xué)術(shù)領(lǐng)域的研究熱點、知識結(jié)構(gòu)和發(fā)展趨勢[5]。因此一般認(rèn)為,某時段學(xué)術(shù)論文的高頻關(guān)鍵詞即是該時段的研究熱點[6,13]。

目前已經(jīng)有很多可視化工具以關(guān)鍵詞為基礎(chǔ)來分析學(xué)科領(lǐng)域研究熱點與發(fā)展趨勢,如Citespace、Ucinet、SciMAT、NEViewer等,對學(xué)科領(lǐng)域研究熱點與發(fā)展趨勢分析有重要的幫助,并取得了優(yōu)秀成果。雖然這些工具在文獻(xiàn)計量學(xué)的詞頻分析與可視化方面較為完善,但是仍然存在可視化呈現(xiàn)的不足之處,如可視化顯示信息過多且復(fù)雜,用戶感知存在困難等。

因此本文用每年發(fā)文量與全部發(fā)文量比值來權(quán)衡年度高頻關(guān)鍵詞對研究熱點的貢獻(xiàn),統(tǒng)計年度文獻(xiàn)的關(guān)鍵詞詞頻并排序,然后截取一定量的高頻關(guān)鍵詞,按照頻次的高低依次從上往下排序并嵌入時間進行可視化呈現(xiàn)來分析學(xué)科研究熱點與發(fā)展趨勢。

1? 相關(guān)研究

1.1? 詞頻分析

詞頻分析法是利用能夠解釋或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞,在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點和發(fā)展動向的文獻(xiàn)計量方法[4]。詞頻分析法是情報分析方法之一,已經(jīng)在文獻(xiàn)計量學(xué)相關(guān)研究上得到了廣泛的應(yīng)用。傅柱等[7]使用詞頻分析法分析國內(nèi)外知識研究熱點。歐陽博等[8]使用關(guān)鍵詞詞頻分析綜述國外信息系統(tǒng)持續(xù)使用模型應(yīng)用現(xiàn)狀。邱均平等[9]與鞏永強等[10]嘗試使用詞頻率,即年度關(guān)鍵詞詞頻與年度總文獻(xiàn)數(shù)量之比來分析熱點關(guān)鍵詞的變化趨勢。奉國和等[11]對關(guān)鍵詞賦予時間權(quán)值來研究學(xué)科熱點關(guān)鍵詞與變化趨勢。

基于詞頻分析法衍生出來的共詞分析、聚類分析等研究熱點的方法受到了眾多學(xué)者的關(guān)注。共現(xiàn)分析的研究主要包括:陳勇躍等[12]劃分各時間段分別提取臨床醫(yī)學(xué)高頻關(guān)鍵詞,使用Ucinet 6.0工具分別對各時間段進行共現(xiàn)網(wǎng)絡(luò)可視化追蹤臨床醫(yī)學(xué)研究熱點與趨勢的變化;盧新元等[13]使用Citespace將國內(nèi)知識轉(zhuǎn)移的高頻關(guān)鍵詞進行共現(xiàn)網(wǎng)絡(luò)圖與時區(qū)網(wǎng)絡(luò)圖來分析研究熱點;劉自強等[14]基于關(guān)鍵詞的時間標(biāo)簽分層構(gòu)建共詞網(wǎng)絡(luò)圖譜,實現(xiàn)時序共詞網(wǎng)絡(luò)的動態(tài)可視化,并以國內(nèi)圖情領(lǐng)域“數(shù)據(jù)挖掘”為例進行實證研究。聚類分析的研究主要包括:高勁松等[15]使用SPSS對高頻關(guān)鍵詞進行聚類來分析國內(nèi)外關(guān)聯(lián)數(shù)據(jù)的研究主題;劉自強等[2]通過關(guān)鍵詞群總頻次與年度發(fā)文量的比重情況構(gòu)建時間序列,然后以可視化形式追蹤關(guān)鍵詞群的發(fā)展趨勢,并以“競爭情報”領(lǐng)域為例進行實證研究;施蕭蕭等[16]使用SPSS、Ucinet工具分別進行共現(xiàn)與主題聚類來分析國外顛覆性創(chuàng)新研究熱點。

近年來,多數(shù)學(xué)者集中于對高頻關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)與主題聚類的相關(guān)研究,而對單個關(guān)鍵詞的變化趨勢與可視化的相關(guān)研究相對較少。聚類分析是在高頻關(guān)鍵詞共現(xiàn)關(guān)系的基礎(chǔ)上進行的聚類,關(guān)鍵詞共現(xiàn)關(guān)系體現(xiàn)了研究內(nèi)容的耦合,即兩兩關(guān)鍵詞同時出現(xiàn)在同一篇文獻(xiàn),各種聚類算法在不同程度上存在一定的不足導(dǎo)致聚類結(jié)果存在偏差、信息過度擬合等問題,而研究學(xué)科領(lǐng)域的研究熱點與變化趨勢僅以研究熱點的共現(xiàn)與主題分析有些不合理,單個關(guān)鍵詞的變化也應(yīng)當(dāng)被考慮,從而更加充分地分析學(xué)科研究熱點與變化趨勢。

1.2? 文本可視化

文本可視化旨在將文本中復(fù)雜的或者難以通過文字表達(dá)的內(nèi)容和規(guī)律以視覺符號的形式表達(dá)出來,通過與視覺信息的交互,使人們能夠快速地獲取文本可視圖中所隱含的關(guān)鍵信息[17]?,F(xiàn)有的文本詞頻可視化技術(shù)已經(jīng)相當(dāng)成熟,其中以標(biāo)簽云為代表的詞頻可視化已經(jīng)得到了較好的應(yīng)用。標(biāo)簽云[18]圖采用TF-IDF來計算詞頻的重要性,文字的大小表示詞語的重要性,然后按照一定的規(guī)律排列,如關(guān)鍵詞的頻度遞減來進行布局。另一種常用的文本可視化即樹圖(TreeMap)[19],使用嵌套的長方形來表示不同層次,以長方形的方向表示不同層次的變換,并以長方形的大小來表示節(jié)點的重要性,例如在Web of Science數(shù)據(jù)庫中對選中的文獻(xiàn)采用了TreeMap可視化展現(xiàn)的形式。

為了體現(xiàn)文本的變化趨勢,有學(xué)者結(jié)合時間與詞頻可視化方式來呈現(xiàn)熱點詞隨時間變化的情況。將標(biāo)簽云與時間相結(jié)合形成可視化的主要有:Text Flow標(biāo)簽云時間軸模型圖、主題河流圖、SparkClouds圖等[17,20]。Text Flow標(biāo)簽云時間軸模型圖與主題河流圖[21]是將主題標(biāo)簽云與時間模型相結(jié)合,是文本流系統(tǒng)(Text Flow)中的其中兩種詞頻可視化形式。SparkClouds圖[22]即在標(biāo)簽云的每個詞語下方引入折線圖以表示每個詞語隨著時間的使用頻度而變化。

綜上所述,詞頻分析法在研究熱點與發(fā)展趨勢方面的應(yīng)用非常普遍,但是詞頻演變可視化的相關(guān)研究相對較少。為了彌補基于高頻關(guān)鍵詞分析研究熱點與趨勢變化可視化的不足,本文將時間年度與現(xiàn)有詞頻文本可視化方式相結(jié)合來探討熱點關(guān)鍵詞的發(fā)展態(tài)勢,期望能夠豐富基于時間的詞頻可視化呈現(xiàn)形式,為研究學(xué)科熱點與趨勢提供一定的參考。

2? 基于年度高頻關(guān)鍵詞的研究熱點提取與可視化方法

本文結(jié)合時間年度與詞頻可視化來追蹤學(xué)科領(lǐng)域研究熱點關(guān)鍵詞的變化,采用研究熱點關(guān)鍵詞所在時間節(jié)點的詞頻高低與位次來展現(xiàn)學(xué)科領(lǐng)域的研究熱點的發(fā)展動態(tài)。文本詞頻可視化一般經(jīng)過信息收集、數(shù)據(jù)預(yù)處理、知識表示、視覺呈現(xiàn)、用戶與信息圖的交互等過程[17,23]。本文提出的年度高頻關(guān)鍵詞可視化方法也遵循這樣的過程,其主要包括3個部分:高頻關(guān)鍵詞提取、可視化呈現(xiàn)、可視化分析。本文提出的可視化方法過程如圖1所示。

2.1? 高頻關(guān)鍵詞提取

學(xué)科領(lǐng)域文獻(xiàn)的關(guān)鍵詞頻次越高則說明學(xué)者對該關(guān)鍵詞研究方向關(guān)注度就越高,通過獲得高頻關(guān)鍵詞的發(fā)展趨勢可以掌握學(xué)科領(lǐng)域文獻(xiàn)研究熱點的變化。界定高頻關(guān)鍵詞的數(shù)量來判斷研究熱點的方法有很多,如自定義選取、齊普夫第二定律、普賴斯公式等,自定義選取的方法雖然存在主觀性,但是使用較多,而齊普夫第二定律與普賴斯公式較為客觀,但是也存在不適用的情況[24]。有學(xué)者發(fā)現(xiàn)關(guān)鍵詞每年的累積頻次都達(dá)到或超過當(dāng)年關(guān)鍵詞總頻次的20%,符合集中分散的二八定律[25]。楊愛青等[26]嘗試使用g指數(shù)來截取研究熱點高頻關(guān)鍵詞的數(shù)量并用二八定律與齊普夫第二定律對截取的高頻關(guān)鍵詞進行驗證。劉奕杉等[24]通過對個人知識管理領(lǐng)域的研究熱點高頻關(guān)鍵詞閥值選取進行實證分析發(fā)現(xiàn),二八定律相對于其他方法截取高頻關(guān)鍵詞更合適。多數(shù)研究者采用傳統(tǒng)熱點關(guān)鍵詞界定的方式提取總文獻(xiàn)高頻關(guān)鍵詞進行熱點研究,而關(guān)鍵詞具有繼承性,傳統(tǒng)研究熱點界定方式很少考慮每年文獻(xiàn)數(shù)量對熱點關(guān)鍵詞的影響。在不同年份學(xué)科領(lǐng)域的文獻(xiàn)數(shù)量存在變動的情況下,隨著文獻(xiàn)數(shù)量的變動,高頻關(guān)鍵詞的頻次會發(fā)生相應(yīng)的改變,高頻關(guān)鍵詞的數(shù)量也會有所不同。通過收集與歸納文獻(xiàn)的關(guān)鍵詞發(fā)現(xiàn):一般情況下,學(xué)科領(lǐng)域在年度發(fā)文數(shù)量與對應(yīng)的年度高頻關(guān)鍵詞數(shù)量存在正向關(guān)系。因此本文將時間年度與研究熱點相結(jié)合,將每年文獻(xiàn)數(shù)量與總文獻(xiàn)數(shù)量比值作為每年高頻關(guān)鍵詞對研究熱點的貢獻(xiàn)值,但是可視化關(guān)鍵詞數(shù)量有限,還需要設(shè)定參數(shù)閾值α使其能夠按照年度貢獻(xiàn)值的比例來計算年度高頻關(guān)鍵詞的選取數(shù)量,在此基礎(chǔ)上根據(jù)總年度高頻關(guān)鍵詞的二八定律來調(diào)整閾值α的取值,使得提取的所有年度高頻關(guān)鍵詞能與總年度高頻關(guān)鍵詞詞頻總和占全部關(guān)鍵詞的詞頻總和約為20%的高頻關(guān)鍵詞匹配。年度高頻關(guān)鍵詞的熱點關(guān)鍵詞數(shù)量選取表達(dá)式為:

x=αniN(100≤α≤N)

其中,ni表示收集文獻(xiàn)第i年度的發(fā)文數(shù)量,N表示收集文獻(xiàn)的總數(shù)量,α為參數(shù),x為第i年可視化關(guān)鍵詞個數(shù)。

2.2? 可視化呈現(xiàn)

人類從外界獲得的信息大約有80%以上來自于視覺系統(tǒng)[27-28]。在大數(shù)據(jù)環(huán)境下,可視化表達(dá)對情報產(chǎn)品的數(shù)據(jù)表達(dá)的便利性、易讀性、生動性和可傳播性方面具有很大的應(yīng)用潛力[29]。在浩如煙海的文獻(xiàn)資料中,一張圖勝千言、一張圖讀懂系列等可視化案例對于科學(xué)人員對學(xué)科領(lǐng)域追蹤研究熱點與發(fā)展趨勢具有重要作用。文本可視化呈現(xiàn)重要的任務(wù)就是將處理過后的文本數(shù)據(jù)采用合適的視覺編碼來呈現(xiàn)文本信息的特征,文本內(nèi)容的視覺編碼主要包括尺寸、顏色、形狀、方位等[17]。在文本可視化中詞語的頻度通常用字體大小來表示,不同的文本使用不同的顏色加以區(qū)分。本文在提取年度高頻關(guān)鍵詞并按照頻次大小依次排序,然后分別根據(jù)每年高頻關(guān)鍵詞的貢獻(xiàn)值選取適合的α參數(shù)閾值并計算呈現(xiàn)的關(guān)鍵詞數(shù)量,將選取的年度高頻關(guān)鍵詞按照詞頻大小與對應(yīng)字體大小進行展現(xiàn),頻次越高則對應(yīng)的字體就越大,相同的關(guān)鍵詞采用相同的顏色,不同關(guān)鍵詞使用不同的顏色加以區(qū)分,最后在時間軸上分別將年度高頻關(guān)鍵詞按照詞頻大小依次進行排列展現(xiàn)。

2.3? 可視化分析

由于科學(xué)人員的研究需要參考前人的研究成果,而關(guān)鍵詞是文獻(xiàn)核心內(nèi)容的高度概括,一般情況下短時間內(nèi)某學(xué)科領(lǐng)域研究熱點關(guān)鍵詞不會憑空產(chǎn)生與消失,而是隨著時間呈現(xiàn)動態(tài)的變化,因此學(xué)科領(lǐng)域研究熱點關(guān)鍵詞具有繼承性,所以能通過學(xué)科領(lǐng)域研究熱點關(guān)鍵詞的變化來預(yù)測研究熱點的發(fā)展趨勢[2]。本文提出基于時間的高頻關(guān)鍵詞可視化方法是按年度提取高頻關(guān)鍵詞,而年度高頻關(guān)鍵詞的年度分布、頻次大小與排序的位次的變化則反應(yīng)了研究熱點關(guān)鍵詞的變化,因此對學(xué)科領(lǐng)域年度高頻關(guān)鍵詞可視化分析內(nèi)容主要包括高頻關(guān)鍵詞分類分析、高頻關(guān)鍵詞的年度分布分析、高頻關(guān)鍵詞的熱度分析等,進而掌握學(xué)科領(lǐng)域研究熱點與發(fā)展趨勢。

3? 實證研究

3.1? 數(shù)據(jù)收集與預(yù)處理

為了對本文提出的基于年度高頻關(guān)鍵詞的研究熱點可視化方法進行驗證,以近10年來國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點發(fā)展趨勢為例進行可視化展示。在CNKI數(shù)據(jù)庫中以“關(guān)聯(lián)數(shù)據(jù)”進行關(guān)鍵詞檢索,文獻(xiàn)類型選擇期刊、學(xué)位和會議論文,時間跨度為2010—2019年。通過對初始收集的文獻(xiàn)進行清洗,共收集了899篇文獻(xiàn),圖2為“關(guān)聯(lián)數(shù)據(jù)”的年度發(fā)文量與文獻(xiàn)分布情況。由圖2所示,互聯(lián)網(wǎng)與信息技術(shù)的快速發(fā)展,推動了關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的相關(guān)研究,2010—2013年關(guān)聯(lián)數(shù)據(jù)的相關(guān)研究文獻(xiàn)快速逐年增長,到2013之后增長速度有所放慢,2016年達(dá)到了頂峰。2017年關(guān)聯(lián)數(shù)據(jù)的相關(guān)研究開始出現(xiàn)下降的趨勢,說明科研人員對關(guān)聯(lián)數(shù)據(jù)的研究關(guān)注度有所減弱。因此追蹤關(guān)聯(lián)數(shù)據(jù)研究熱點的變化趨勢,科學(xué)合理地分析研究熱點的變化對于今后的研究具有重要的意義。

將收集的文獻(xiàn)根據(jù)年份劃分,使用Bicomb2分別對每年的文獻(xiàn)進行關(guān)鍵詞提取、清洗并統(tǒng)計排序,依據(jù)本文提出選取關(guān)鍵詞的公式分別計算每年顯示關(guān)鍵詞個數(shù),再根據(jù)總年度高頻關(guān)鍵詞頻次總和前20%的關(guān)鍵詞可得α=120。由于使用“關(guān)聯(lián)數(shù)據(jù)”進行關(guān)鍵詞檢索,因此本次呈現(xiàn)的可視化去除了“關(guān)聯(lián)數(shù)據(jù)”,則每年顯示關(guān)鍵詞的詞頻與數(shù)量如表1所示。

3.2? 關(guān)聯(lián)數(shù)據(jù)領(lǐng)域年度高頻關(guān)鍵詞可視化

本文使用Python中的Matplotlib包將經(jīng)過處理之后的年度熱點關(guān)鍵詞數(shù)據(jù),按照關(guān)鍵詞頻次高低依次在時間軸上排列,即關(guān)鍵詞頻次較高的在上方,關(guān)鍵詞頻次較低的在下方。關(guān)鍵詞詞頻的高低與顯示的關(guān)鍵詞字體大小相對應(yīng),即關(guān)鍵詞頻次高顯示的字體就大,而關(guān)鍵詞頻次低則顯示的字體就小,不同關(guān)鍵詞使用不同的顏色,呈現(xiàn)結(jié)果如圖3所示。

由圖3可知,關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域每年關(guān)鍵詞的排列長短反應(yīng)了這段時間內(nèi)每年發(fā)文量的一個變化趨勢,2016年的發(fā)文總量在這10年中是最多的,2010年發(fā)文量最少。2010—2016年關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域逐年增長,到2016年達(dá)到了頂峰,之后發(fā)文量開始下降。關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的發(fā)文趨勢反應(yīng)了科研人員對這個領(lǐng)域關(guān)注的變化,而關(guān)鍵詞的頻次與位次的變化,則反應(yīng)具體研究方向的變化。根據(jù)圖3對關(guān)聯(lián)數(shù)據(jù)領(lǐng)域進行如下分析。

3.2.1? 關(guān)聯(lián)數(shù)據(jù)領(lǐng)域高頻關(guān)鍵詞的分類分析

圖3中的高頻關(guān)鍵詞具有明顯的類別特征,這些關(guān)鍵詞大致可分為應(yīng)用領(lǐng)域與研究方向兩大類。從表征應(yīng)用領(lǐng)域的關(guān)鍵詞:圖書館、數(shù)字圖書館、機構(gòu)知識庫、數(shù)字人文、非物質(zhì)文化遺產(chǎn)等可以看出關(guān)聯(lián)數(shù)據(jù)主要應(yīng)用在這些領(lǐng)域。表征研究方向又可分為兩大類,一類是關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)理論與技術(shù),如語義網(wǎng)的相關(guān)技術(shù)、RDF等。另一類是具有目標(biāo)性的關(guān)鍵詞,如資源整合、知識組織、知識服務(wù)、發(fā)現(xiàn)知識、關(guān)聯(lián)數(shù)據(jù)發(fā)布等,這些目標(biāo)性關(guān)鍵詞主要是使用關(guān)聯(lián)數(shù)據(jù)的技術(shù)和思想開展相關(guān)的研究。

3.2.2? 關(guān)聯(lián)數(shù)據(jù)領(lǐng)域高頻關(guān)鍵詞的分布分析

在關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域中語義網(wǎng)始終貫穿于近10年間,在2014年語義網(wǎng)的字體最大說明頻次最高,在2010—2017年語義網(wǎng)是每年出現(xiàn)頻次最高的關(guān)鍵詞,直到2018年被知識圖譜取代,2019年被本體取代,但是相對其他關(guān)鍵詞頻次還是比較高。本體在2012年開始出現(xiàn),在后來的相關(guān)研究中出現(xiàn)頻次相對其他關(guān)鍵詞都比較高。由此得出語義網(wǎng)、本體等熱點關(guān)鍵詞與關(guān)聯(lián)數(shù)據(jù)關(guān)系密切,這些關(guān)鍵詞是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域研究的基礎(chǔ)。圖書館、數(shù)字圖書館等關(guān)鍵詞相對其他應(yīng)用領(lǐng)域關(guān)鍵詞年度分布較為均勻且頻次都比較高,由此說明了基于關(guān)聯(lián)數(shù)據(jù)的相關(guān)研究很大程度上應(yīng)用于圖書館、數(shù)字圖書館領(lǐng)域。表征研究方向的關(guān)鍵詞如知識組織、知識服務(wù)、知識發(fā)現(xiàn)、資源整合等關(guān)鍵詞頻次與分布較為均勻,但是知識組織、資源整合相對于知識服務(wù)、知識發(fā)現(xiàn)出現(xiàn)頻次較高,由此得出基于關(guān)聯(lián)數(shù)據(jù)的相關(guān)研究方向主要為知識組織、資源整合等。分析高頻關(guān)鍵詞的年度分布與頻次,可以得出關(guān)聯(lián)數(shù)據(jù)領(lǐng)域相關(guān)研究的側(cè)重點,期望給今后從事關(guān)聯(lián)數(shù)據(jù)研究人員提供參考。

3.2.3? 關(guān)聯(lián)數(shù)據(jù)領(lǐng)域高頻關(guān)鍵詞的熱度分析

通過年度高頻關(guān)鍵詞基于時間的排序與詞頻變化來揭示關(guān)鍵詞的熱度。根據(jù)文獻(xiàn)關(guān)鍵詞具有繼承性,本文將關(guān)鍵詞熱度主要劃分為新興型、穩(wěn)定型、衰退型3大類。

1)新興型關(guān)鍵詞。新興狀態(tài)的關(guān)鍵詞表現(xiàn)為近一段時間突然出現(xiàn)的關(guān)鍵詞或是這段時間持續(xù)出現(xiàn)。在本文關(guān)聯(lián)數(shù)據(jù)可視化圖中發(fā)展?fàn)顟B(tài)較好的關(guān)鍵詞主要包括BTBFRME(The Bibliographic Framework Initiative)、大數(shù)據(jù)、數(shù)字人文、知識圖譜、非物質(zhì)文化遺產(chǎn)等,其中BTBFRME、數(shù)字人文、知識圖譜這些關(guān)鍵詞在近幾年出現(xiàn)并且頻次相對較高或排序相對靠前則表現(xiàn)明顯的新興型特征。BTBFRME是國際上新的編目規(guī)則,在近年來受到學(xué)者的關(guān)注?;陉P(guān)聯(lián)數(shù)據(jù)對圖書館資源的組織和整合體現(xiàn)了優(yōu)勢,因此更多學(xué)者借鑒關(guān)聯(lián)數(shù)據(jù)在圖書館的應(yīng)用將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于數(shù)字人文,組織、整合數(shù)字人文的相關(guān)數(shù)據(jù)。近年來隨著知識圖譜的不斷應(yīng)用與發(fā)展,學(xué)者注重將關(guān)聯(lián)數(shù)據(jù)組織、整合的信息或知識通過知識圖譜來呈現(xiàn),便于用戶理解、發(fā)現(xiàn)和快速吸收信息或知識。

2)穩(wěn)定型關(guān)鍵詞。穩(wěn)定狀態(tài)的關(guān)鍵詞表現(xiàn)為在整個分析時間段關(guān)鍵詞的頻次與排序相對穩(wěn)定。在本文關(guān)聯(lián)數(shù)據(jù)可視化圖中有代表穩(wěn)定狀態(tài)的關(guān)鍵詞主要有語義網(wǎng)、本體、圖書館、數(shù)字圖書館、知識組織等,而語義網(wǎng)、本體、圖書館呈現(xiàn)穩(wěn)定狀態(tài)較為明顯。雖然眾多學(xué)者致力于將關(guān)聯(lián)數(shù)據(jù)與語義網(wǎng)、本體相結(jié)合來組織和整合圖書館資源,但是由于圖書館資源龐大且復(fù)雜,而用戶不斷追求圖書館服務(wù)、服務(wù)的質(zhì)量與水平等,因此在相關(guān)研究中關(guān)聯(lián)數(shù)據(jù)與語義網(wǎng)、本體、圖書館的關(guān)系相對穩(wěn)定。

3)衰退型關(guān)鍵詞。衰退狀態(tài)的關(guān)鍵詞表現(xiàn)為在開始前幾年出現(xiàn)或是在前幾年持續(xù)出現(xiàn)一段時間而后幾年就消失了,呈現(xiàn)衰退狀態(tài)的關(guān)鍵詞主要有網(wǎng)絡(luò)數(shù)據(jù)、科學(xué)數(shù)據(jù)等。近年來隨著計算機的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式增長,網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)成為常態(tài)化,而研究者更多關(guān)注于對網(wǎng)絡(luò)大數(shù)據(jù)的分析。而科學(xué)數(shù)據(jù)是一門新興學(xué)科,但是由于相關(guān)的理論、技術(shù)基礎(chǔ)還比較薄弱,因此較少受到學(xué)者的關(guān)注。

由以上可視化與分析可知關(guān)聯(lián)數(shù)據(jù)在10年內(nèi)研究熱點關(guān)鍵詞處于動態(tài)變化的過程,年度高頻關(guān)鍵詞的頻次與排序呈現(xiàn)上下波動的形式,通過本文提出可視化方法來追蹤學(xué)科領(lǐng)域熱點關(guān)鍵詞的發(fā)展態(tài)勢,希望能為科學(xué)人員的選題提供一定的參考意義。但是本文提出的可視化方法僅是基于統(tǒng)計方式并在此基礎(chǔ)上進行的分析,由于篇幅有限未能對本文可視化方法與內(nèi)容分析法相結(jié)合進行全面的論述。

3.3? 本文方法可行性分析

1)高頻關(guān)鍵詞提取方法的可行性

為了驗證本文提取高頻關(guān)鍵詞方法的可行性,對本文提取高頻關(guān)鍵詞的方法與現(xiàn)有其他方法進行分析。將收集的關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的全部文獻(xiàn),使用Bicomb2工具進行關(guān)鍵詞的提取,對初始提取的關(guān)鍵詞進行清洗。由于本實驗是以“關(guān)聯(lián)數(shù)據(jù)”為檢索詞進行的檢索,因此高頻關(guān)鍵詞選取過程中不考慮該詞詞頻。高頻關(guān)鍵詞選取的方法主要包括齊普夫第二定律、普賴斯公式、二八定律、g指數(shù)等[21,23]。使用齊普夫第二定律獲取的高頻關(guān)鍵詞數(shù)量為5,使用普賴斯公式獲取的高頻關(guān)鍵詞數(shù)量為94,使用g指數(shù)獲得的高頻關(guān)鍵詞數(shù)量為25,根據(jù)二八定律獲取的高頻關(guān)鍵詞數(shù)量為32,由此可知本次實驗根據(jù)齊普夫第二定律獲取的高頻關(guān)鍵詞數(shù)量偏少,根據(jù)普賴斯公式獲得的高頻關(guān)鍵詞數(shù)量過多,而g指數(shù)與二八定律獲取的高頻關(guān)鍵詞數(shù)量較為合適,但相對于g指數(shù)、二八定律獲取的高頻關(guān)鍵詞相對較多、涵蓋的范圍比較廣,因此本文選取二八定律來分析本文提出年度高頻關(guān)鍵詞的研究熱點方法的可行性。選取高頻關(guān)鍵詞的詞頻之和占所有關(guān)鍵詞總詞頻的20.05%可得32個高頻關(guān)鍵詞,即關(guān)鍵詞詞頻大于等于10,詞頻總和為743,截取的高頻關(guān)鍵詞如表2所示。

通過對圖3與表2的熱點關(guān)鍵詞對照發(fā)現(xiàn):表2中語義網(wǎng)、本體、圖書館、RDF、數(shù)字圖書館、書目數(shù)據(jù)、知識組織等頻次都比較高,在圖3中這些關(guān)鍵詞分布的年份較為均勻,但是頻次與位次會發(fā)生不同程度的變動。本文可視化方法中展現(xiàn)的高頻關(guān)鍵詞都能與表2中統(tǒng)計的高頻關(guān)鍵詞與之匹配,即本文提出的可視化方法設(shè)定參數(shù)閾值α控制高頻關(guān)鍵詞與二八定律獲取的高頻關(guān)鍵詞能匹配,如果出現(xiàn)兩者間有少量不匹配的關(guān)鍵詞則可通過再次合并相似關(guān)鍵詞或者適當(dāng)調(diào)整閾值α來提高匹配度,由此可以得出本文提出的年度高頻關(guān)鍵詞方法具有一定的可行性。

2)研究熱點可視化方法的可行性

為了檢驗本文可視化的可行性,將本文可視化與Citespace工具繪制的共現(xiàn)知識圖譜中的高頻關(guān)鍵詞的研究熱點進行對比分析。對收集的文獻(xiàn)數(shù)據(jù)使用Citespace工具對關(guān)鍵詞基于詞頻的共現(xiàn)展示,詞頻閾值選擇2,得到關(guān)鍵詞共現(xiàn)知識圖譜如圖4所示。在關(guān)鍵詞共現(xiàn)知識圖譜中,節(jié)點與標(biāo)簽字體大小代表關(guān)鍵詞共現(xiàn)頻次大小,節(jié)點間連線的粗細(xì)代表關(guān)鍵詞之間共現(xiàn)關(guān)系的強弱,節(jié)點間連線的顏色代表關(guān)鍵詞之間建立共現(xiàn)的年份,由共現(xiàn)知識圖譜(圖4)可以看出在關(guān)聯(lián)數(shù)據(jù)領(lǐng)域高頻關(guān)鍵詞主要有語義網(wǎng)、圖書館、本體、RDF、數(shù)字圖書館、知識組織、資源聚合、知識服務(wù)、知識發(fā)現(xiàn)、BIBFRAME、書目數(shù)據(jù)等,與網(wǎng)絡(luò)數(shù)據(jù)共現(xiàn)的關(guān)鍵詞連線顏色較深則表明了網(wǎng)絡(luò)數(shù)據(jù)共現(xiàn)年份出現(xiàn)較早,與數(shù)字人文、非物質(zhì)文化遺產(chǎn)共現(xiàn)的關(guān)鍵詞連線顏色比較淺則表明了數(shù)字人文、非物質(zhì)文化遺產(chǎn)等關(guān)鍵詞是近年來新出現(xiàn)的研究熱點,語義網(wǎng)、數(shù)字圖書館、圖書館、知識組織、知識服務(wù)、知識發(fā)現(xiàn)等關(guān)鍵詞共現(xiàn)連線顏色有深有淺則代表了這些關(guān)鍵詞在前后年份都有分布,這與本文可視化研究熱點結(jié)果基本一致,這表明了本文可視化方法具有一定的可行性。雖然本文可視化方法不僅能追蹤年度高頻關(guān)鍵詞研究熱點的變化,還能展示學(xué)科領(lǐng)域文獻(xiàn)數(shù)量的分布,但是本文可視化方法未能充分體現(xiàn)關(guān)鍵詞之間的共現(xiàn)關(guān)系。

4? 結(jié)? 語

本文以基于年度高頻關(guān)鍵詞的研究熱點提取與可視化方法為主要研究內(nèi)容,在對近年來詞頻分析與文本可視化領(lǐng)域研究現(xiàn)狀進行深入探析的基礎(chǔ)上,發(fā)現(xiàn)相關(guān)領(lǐng)域?qū)τ谠~頻演變趨勢和研究熱點變遷可視化的研究有所不足。因而本文提出了將時間要素與頻度要素相結(jié)合的研究熱點分析策略,首先構(gòu)建基于年度高頻關(guān)鍵詞進行領(lǐng)域研究熱點分析的過程模型,在計算關(guān)鍵詞高頻閾值的基礎(chǔ)上,通過尺寸、顏色、形狀、方位等要素對年度高頻關(guān)鍵詞進行視覺編碼,并通過年度高頻詞在時間軸下的視覺呈現(xiàn)實現(xiàn)研究熱點的提取與可視化。在過程模型構(gòu)建的基礎(chǔ)上,本文以近10年來國內(nèi)“關(guān)聯(lián)數(shù)據(jù)”領(lǐng)域的研究熱點演變趨勢為例,對提出的研究熱點提取與可視化方法進行驗證。實驗結(jié)果表明,本文提出的基于年度高頻關(guān)鍵詞的研究熱點可視化方法與以Citespace為代表的詞頻可視化工具相比,在關(guān)鍵詞高頻閾值計算和年度熱點詞的視覺呈現(xiàn)等方面均體現(xiàn)一定的優(yōu)勢和較強的可行性。但是,本文提出的研究熱點可視化方法對于高頻關(guān)鍵詞之間的共現(xiàn)關(guān)系未能進行全面充分挖掘地,因此在未來的研究中,還需對本方法進行進一步優(yōu)化與完善。

參考文獻(xiàn)

[1]任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014,25(9):1909-1936.

[2]劉自強,王效岳,白如江.基于時間序列模型的研究熱點分析預(yù)測方法研究[J].情報理論與實踐,2016,39(5):27-33.

[3]鄧珞華.詞頻分析——一種新的情報分析研究方法[J].大學(xué)圖書館通訊,1988,(2):18-25.

[4]邱均平,溫芳芳.近五年來圖書情報學(xué)研究熱點與前沿的可視化分析——基于13種高影響力外文源刊的計量研究[J].中國圖書館學(xué)報,2011,37(2):51-60.

[5]張勤.詞頻分析法在學(xué)科發(fā)展動態(tài)研究中的應(yīng)用綜述[J].圖書情報知識,2011,(2):95-98,128.

[6]余豐民,林彥汝.基于關(guān)鍵詞詞頻統(tǒng)計的學(xué)科研究熱點漂移程度模型構(gòu)建及實證分析[J].情報理論與實踐,2020,43(2):100-105.

[7]傅柱,王曰芬,陳必坤.國內(nèi)外知識流研究熱點:基于詞頻的統(tǒng)計分析[J].圖書館學(xué)研究,2016,(14):2-12,21.

[8]歐陽博,劉坤鋒,楊海娟.國外信息系統(tǒng)持續(xù)使用模型應(yīng)用研究綜述[J].現(xiàn)代情報,2017,37(8):171-177.

[9]邱均平,丁敬達(dá).1999—2008年我國圖書館學(xué)研究的實證分析(下)[J].中國圖書館學(xué)報,2009,35(6):79-87,118.

[10]鞏永強,劉莉.基于詞頻分析法的情報學(xué)研究熱點透析[J].圖書館學(xué)研究,2011,(13):9-13.

[11]奉國和,孔泳欣.基于時間加權(quán)關(guān)鍵詞詞頻分析的學(xué)科熱點研究[J].情報學(xué)報,2020,39(1):100-110.

[12]陳勇躍,田文芳,吳金紅.主題領(lǐng)域研究熱點跟蹤及趨勢預(yù)測的可視化分析方法研究[J].情報理論與實踐,2017,40(6):117-121.

[13]盧新元,張恒,王馨悅,等.基于科學(xué)計量學(xué)的國內(nèi)企業(yè)知識轉(zhuǎn)移研究熱點和前沿分析[J].情報科學(xué),2019,37(3):169-176.

[14]劉自強,岳麗欣,許海云,等.時序共詞網(wǎng)絡(luò)構(gòu)建及其動態(tài)可視化研究[J].情報學(xué)報,2020,39(2):186-198.

[15]高勁松,劉洪秋.基于知識圖譜的國內(nèi)外關(guān)聯(lián)數(shù)據(jù)研究分析[J].情報科學(xué),2018,36(3):117-124.

[16]施蕭蕭,張慶普.基于共詞分析的國外顛覆性創(chuàng)新研究現(xiàn)狀及發(fā)展趨勢[J].情報學(xué)報,2017,36(7):748-759.

[17]唐家渝,劉知遠(yuǎn),孫茂松.文本可視化研究綜述[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2013,25(3):273-285.

[18]Viégas F B,Wattenberg M.Timelines Tag Clouds and the Case for Vernacular Visualization[J].interactions,2008,15(4):49-52.

[19]Johnson B,Shneiderman B.Tree-maps:A Space-filling Approach to the Visualization of Hierarchical Information Structures[M].IEEE,1991.

[20]湯斯亮,程璐,邵健,等.基于概率主題建模的新聞文本可視化綜述[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2015,27(5):771-782.

[21]Cui W,Liu S,Tan L,et al.Textflow:Towards Better Understanding of Evolving Topics in Text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.

[22]Lee B,Riche N H,Karlson A K,et al.Sparkclouds:Visualizing Trends in Tag Clouds[J].IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182-1189.

[23]馬創(chuàng)新,陳小荷.文本的可視化知識表示[J].情報科學(xué),2017,35(3):122-127.

[24]劉奕杉,王玉琳,李明鑫.詞頻分析法中高頻詞閾值界定方法適用性的實證分析[J].數(shù)字圖書館論壇,2017,(9):42-49.

[25]邱均平,丁敬達(dá),周春雷.1999—2008年我國圖書館學(xué)研究的實證分析(上)[J].中國圖書館學(xué)報,2009,35(5):72-79.

[26]楊愛青,馬秀峰,張風(fēng)燕,等.g指數(shù)在共詞分析主題詞選取中的應(yīng)用研究[J].情報雜志,2012,31(2):52-55,74.

[27]Ren L.Research on Interaction Techniques in Information Visualization[Ph.D.Thesis].Beijing:The Chinese Academy of Sciences,2009(in Chinese with English Abstract).

[28]Card S K,Mackinlay J D,Shneiderman B.Readings in Information Visualization:Using Vision To Think[J].San Francisco:Morgan-Kaufmann Publishers,1999:1-712.

[29]張迪,趙亞娟,趙慧敏,等.情報產(chǎn)品可視化展示模式和方法研究[J].情報理論與實踐,2020,43(2):66-71.

(責(zé)任編輯:陳? 媛)

猜你喜歡
趨勢分析研究熱點
我國職業(yè)教育師資研究熱點可視化分析
近五年我國職業(yè)教育研究熱點綜析及未來展望
高校微課教學(xué)現(xiàn)狀及未來發(fā)展趨勢研究
自閉癥譜系障礙兒童的教育干預(yù)
基于社會網(wǎng)絡(luò)分析的我國微課研究探析
中國電子檔案袋研究熱點及發(fā)展趨勢
比如县| 贺兰县| 宜城市| 陕西省| 瑞金市| 游戏| 马公市| 炎陵县| 开鲁县| 城口县| 盐城市| 定陶县| 宾川县| 墨江| 诸暨市| 江阴市| 葫芦岛市| 武冈市| 龙陵县| 习水县| 仙桃市| 惠东县| 乐平市| 依兰县| 巴林右旗| 石楼县| 科尔| 博爱县| 东宁县| 华坪县| 铜鼓县| 宣武区| 上虞市| 类乌齐县| 北票市| 田阳县| 卢龙县| 化隆| 花莲市| 柏乡县| 屏东市|