華旦草 安培浚 肖仙桃
收稿日期:2020-08-21
基金項(xiàng)目:2020年中國(guó)科學(xué)院文獻(xiàn)情報(bào)能力建設(shè)專(zhuān)項(xiàng)“科技領(lǐng)域戰(zhàn)略情報(bào)研究咨詢(xún)體系建設(shè)”(項(xiàng)目編號(hào):E0290001)。
作者簡(jiǎn)介:華旦草(1996-),女,碩士研究生,研究方向:科學(xué)前沿識(shí)別與探測(cè)。肖仙桃(1965-),女,研究館員,碩士生導(dǎo)師,研究方向:文獻(xiàn)計(jì)量學(xué)。
通訊作者:安培浚(1979-),女,副研究員,碩士生導(dǎo)師,研究方向:地球科學(xué)科技發(fā)展戰(zhàn)略研究,災(zāi)害評(píng)價(jià)與風(fēng)險(xiǎn)管理研究。
摘 要:[目的/意義]本文從科學(xué)前沿概念出發(fā),對(duì)當(dāng)前已有的基于文本內(nèi)容的科學(xué)前沿探測(cè)方法進(jìn)行梳理總結(jié),為科學(xué)前沿探測(cè)方法的發(fā)展提供基本參考和啟發(fā)。[方法/過(guò)程]對(duì)科學(xué)前沿相關(guān)概念、基于文本內(nèi)容的科學(xué)前沿探測(cè)方法進(jìn)行了系統(tǒng)的總結(jié),分析了現(xiàn)有探測(cè)方法的優(yōu)缺點(diǎn)。[結(jié)果/結(jié)論]對(duì)科學(xué)前沿極其相近概念做出進(jìn)一步辨析,總結(jié)目前方法存在的問(wèn)題,并提出未來(lái)發(fā)展的建議。
關(guān)鍵詞:科學(xué)前沿探測(cè);詞頻分析;共詞分析;文本挖掘
DOI:10.3969/j.issn.1008-0821.2021.01.020
〔中圖分類(lèi)號(hào)〕G250.252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2021)01-0169-09
Research Progress of Scientific Frontier Detection
Methods Based on Text Content
Hua Dancao1,2 An Peijun1* Xiao Xiantao1
(1.Northwest Institute of Eco-Environment and Resources,Chinese Academy of Sciences,
Lanzhou 730000,China;
2.Information and Archives Management,School of Economics and Management,University of Chinese
Academy of Sciences,Beijing 100190,China)
Abstract:[Purpose/Significance]Starting from the concept of scientific frontiers,this article summarizes the existing scientific frontier detection methods based on text content,and provides basic reference and inspiration for the development of scientific frontier detection methods.[Methods/Process]A systematic summary of the relevant concepts of scientific frontiers and scientific frontier detection methods based on text content,and the advantages and disadvantages of existing text-based detection methods and composite detection methods were analyzed.[Results /Conclusions]Make a further analysis of the scientific frontier and its similar concepts,summarized the shortcomings of the existing methods,and put forward suggestions for future development.
Key words:scientific frontier detection;word frequency analysis;co-word analysis;text mining
隨著信息技術(shù)的不斷發(fā)展,機(jī)器自動(dòng)處理與學(xué)習(xí)的大數(shù)據(jù)時(shí)代、智能化時(shí)代來(lái)臨,加速了科學(xué)知識(shí)創(chuàng)新、科研信息流動(dòng)和學(xué)科交叉融合,并呈現(xiàn)出復(fù)雜多樣的發(fā)展趨勢(shì)。準(zhǔn)確識(shí)別科學(xué)前沿,把握學(xué)科發(fā)展趨勢(shì),正在成為科學(xué)規(guī)劃與科學(xué)預(yù)見(jiàn)迫切需要解決的關(guān)鍵問(wèn)題,文本挖掘技術(shù)發(fā)展與開(kāi)放獲取的實(shí)現(xiàn),使得獲取論文文本的難度大大降低,基于文本內(nèi)容進(jìn)行科學(xué)前沿探測(cè)識(shí)別的方法迎來(lái)了新的發(fā)展機(jī)遇。
通過(guò)對(duì)Web of Science和中國(guó)知網(wǎng)(CNKI)兩大檢索平臺(tái)中與“科學(xué)前沿識(shí)別”和“文本內(nèi)容探測(cè)”相關(guān)的國(guó)內(nèi)外文獻(xiàn)檢索,遴選出與圖書(shū)情報(bào)學(xué)領(lǐng)域和計(jì)算機(jī)領(lǐng)域中有關(guān)科學(xué)前沿識(shí)別的中文文獻(xiàn)339篇,英文文獻(xiàn)687篇,檢索截至2020年4月25日,獲得如圖1所示的相關(guān)論文發(fā)文趨勢(shì)圖。從圖中可以看出,相關(guān)研究在2000年以前發(fā)展相對(duì)緩慢,國(guó)外從2005年前后,國(guó)內(nèi)在2010年前后,相關(guān)主題研究得到快速發(fā)展。通過(guò)綜合分析現(xiàn)有文獻(xiàn)發(fā)現(xiàn),已有研究中很少對(duì)基于文本內(nèi)容的探測(cè)方法進(jìn)行精確劃分以及詳細(xì)描述。鑒于此,本文從科學(xué)前沿概念出發(fā),對(duì)當(dāng)前已有的基于文本內(nèi)容的科學(xué)前沿探測(cè)方法進(jìn)行梳理總結(jié),為科學(xué)前沿探測(cè)方法的發(fā)展提供基本參考和啟發(fā)。
1 科學(xué)前沿及相關(guān)概念辨析
目前科學(xué)前沿還沒(méi)有清晰標(biāo)準(zhǔn)的定義,與之相近的“研究熱點(diǎn)”和“新興主題(新興技術(shù))”之間的界限也十分模糊。
1.1 科學(xué)前沿定義的發(fā)展
科學(xué)前沿最早是由Price D J[1]于1965年提出,他認(rèn)為學(xué)科領(lǐng)域的論文會(huì)被一組新論文通過(guò)參考文獻(xiàn)緊密聯(lián)系起來(lái),這些被積極引用的論文發(fā)展迅速,將這些活躍論文定義為科學(xué)研究前沿,并具有時(shí)效性,會(huì)隨著時(shí)間發(fā)生變化。
在此之后,對(duì)科學(xué)前沿的定義主要分為兩類(lèi):一類(lèi)是將科學(xué)前沿定義為通過(guò)引文分析得到的較為宏觀文獻(xiàn)或文獻(xiàn)集。Small H等[2]認(rèn)為科學(xué)前沿是共被引文獻(xiàn)聚類(lèi)得出的論文集,展現(xiàn)了科學(xué)領(lǐng)域內(nèi)的“高水平活動(dòng)”。Garfield E[3]認(rèn)為科學(xué)前沿是近3年的共被引聚類(lèi)的核心文獻(xiàn)集以及施引核心文獻(xiàn)集的最新文獻(xiàn)集。Persson O[4]認(rèn)為科學(xué)前沿是核心被引文獻(xiàn)的施引文獻(xiàn)集,其中施引文獻(xiàn)構(gòu)成科學(xué)前沿,而被引文獻(xiàn)構(gòu)成其知識(shí)基礎(chǔ)。Morris S A等[5]將科學(xué)前沿定義為被一組固定的、與時(shí)間無(wú)關(guān)的基本文獻(xiàn)持續(xù)引用的文獻(xiàn)集。另一類(lèi)則是將科學(xué)前沿定義為源于文本內(nèi)容分析得到的較為微觀的詞組或主題。這是由于科學(xué)前沿來(lái)源于新的科學(xué)發(fā)現(xiàn)或研究進(jìn)展,通常伴隨著某些文本內(nèi)容的顯著變化。Braam R R等[6]定義科學(xué)前沿是被不同知識(shí)及社會(huì)背景的科學(xué)研究者們共同關(guān)注的一系列相關(guān)研究問(wèn)題和概念。Chen C[7]認(rèn)為科學(xué)前沿是一組突然爆發(fā)的主題及潛在研究方向,強(qiáng)調(diào)其新穎性和突然爆發(fā)的特點(diǎn)。Upham S P等[8]認(rèn)為科學(xué)前沿是在科技領(lǐng)域中動(dòng)態(tài)變化最快、最受研究者關(guān)注的研究主題。他們將科學(xué)前沿分為5類(lèi):發(fā)展中的(Growing)、新興的(Emerging)、收縮的(Shrinking)、穩(wěn)定的(Stable)以及既存的(Existing)科學(xué)前沿。
通過(guò)以上表述可以發(fā)現(xiàn),科學(xué)前沿定義內(nèi)涵豐富,很難被準(zhǔn)確描述,筆者認(rèn)為科學(xué)前沿是源于最新科學(xué)發(fā)現(xiàn)或研究進(jìn)展的,能在短時(shí)間內(nèi)迅速引起領(lǐng)域內(nèi)科學(xué)家的高度關(guān)注的,能代表科學(xué)發(fā)展的難點(diǎn)、熱點(diǎn)與未來(lái)趨勢(shì)的研究主題。
1.2 科學(xué)前沿相關(guān)概念
與科學(xué)前沿的相近概念有研究熱點(diǎn)、新興主題(新興技術(shù))。研究熱點(diǎn)是熱度高的研究主題,當(dāng)前有很多研究人員關(guān)注和研究,在領(lǐng)域文獻(xiàn)中反復(fù)出現(xiàn)。不少學(xué)者將研究熱點(diǎn)視為發(fā)生頻率高的一類(lèi)主題,并通過(guò)社交媒體數(shù)據(jù)對(duì)其進(jìn)行探測(cè)。新興主題(新興技術(shù))在學(xué)科領(lǐng)域中,會(huì)隨著時(shí)間逐漸推移被越來(lái)越多的學(xué)者討論并在實(shí)踐中不斷豐富其內(nèi)容。Rotolo D等[9]將新興技術(shù)定義為具有新穎性、快增長(zhǎng)性、連貫性、顯著影響以及不確定性的技術(shù)。Wang Q[10]則認(rèn)為新興主題是具有強(qiáng)新穎性、較快增長(zhǎng)性、連貫性和一定影響力的研究主題。
研究熱點(diǎn)最為明顯的特征是極高的關(guān)注度、討論度與參與度,在領(lǐng)域中的體量相對(duì)較大,較易通過(guò)傳統(tǒng)的文獻(xiàn)計(jì)量方法識(shí)別。新興主題最為重要的特征是新穎性與快增長(zhǎng)性,因此需要利用針對(duì)其特性的情報(bào)分析方法識(shí)別??茖W(xué)前沿相比起研究熱點(diǎn)和新興主題,具有更高的價(jià)值和創(chuàng)新程度,需要更針對(duì)性的情報(bào)分析與探測(cè)方法,識(shí)別難度也更大。
從三者的關(guān)系來(lái)看:科學(xué)前沿和新興主題新穎性高于研究熱點(diǎn),但研究熱點(diǎn)受到的關(guān)注度高于科學(xué)前沿與新興主題。有些研究熱點(diǎn)關(guān)注度雖高,但無(wú)法排除是研究人員對(duì)該主題跟風(fēng)所導(dǎo)致的。鐘鎮(zhèn)在探討研究熱點(diǎn)和研究前沿之間的關(guān)系時(shí),認(rèn)為前沿選題有很大概率成為下一階段的熱點(diǎn)選題[11],因此研究熱點(diǎn)范圍大于科學(xué)前沿,即隨著時(shí)間推移,科學(xué)前沿的持續(xù)發(fā)展會(huì)吸引眾多研究人員加入,最終成為下一階段的研究熱點(diǎn),也可能由于理論缺乏或發(fā)展不利,最終消亡[12];新興主題是當(dāng)下新出現(xiàn)且具有未來(lái)發(fā)展?jié)摿Φ难芯恐黝},它與科學(xué)前沿相近,都是研究人員對(duì)未知領(lǐng)域的探索,存在一定的重疊。但新興主題可能發(fā)展成為科學(xué)前沿,也可能因?yàn)榘l(fā)展不利而消亡,三者之間呈現(xiàn)動(dòng)態(tài)變化的過(guò)程。
由以上表述可以得出科學(xué)前沿的特征有:①新穎性:科學(xué)前沿多為近期產(chǎn)生,有穩(wěn)定發(fā)展的潛力。②集中性:顯性科學(xué)前沿會(huì)在短期內(nèi)獲得大量研究人員關(guān)注,相關(guān)研究數(shù)量增加。③高價(jià)值性:這是科學(xué)前沿的核心特征,前沿研究代表了研究領(lǐng)域未來(lái)發(fā)展趨勢(shì)及研究走向,代表了所在領(lǐng)域急需解決的問(wèn)題,能夠?yàn)轭I(lǐng)域?qū)<一驅(qū)W者提供研究參考或情報(bào)支持,因此蘊(yùn)含極大的研究?jī)r(jià)值。
2 文本內(nèi)容探測(cè)方法
科學(xué)前沿產(chǎn)生于科學(xué)發(fā)展過(guò)程中的新發(fā)現(xiàn)或新研究進(jìn)展,自然伴隨著某些文本內(nèi)容的變化。為揭示科學(xué)前沿的深層內(nèi)涵,國(guó)內(nèi)外不斷嘗試通過(guò)語(yǔ)義和文本挖掘的方法探測(cè)科學(xué)前沿,因此,通過(guò)文本內(nèi)容來(lái)探測(cè)科學(xué)前沿的可行性很高。基于文本內(nèi)容探測(cè)方法的過(guò)程可以歸納為:根據(jù)數(shù)據(jù)源的文本內(nèi)容構(gòu)建分析語(yǔ)料庫(kù)、提煉內(nèi)容標(biāo)識(shí)、選擇指標(biāo)、詞匯聚類(lèi)分析領(lǐng)域結(jié)構(gòu)、識(shí)別科學(xué)前沿、分析呈現(xiàn)結(jié)果。主要的文本內(nèi)容探測(cè)方法有詞頻分析法、共詞分析法和文本挖掘法。
2.1 詞頻分析法
詞頻分析前沿探測(cè)主要是通過(guò)統(tǒng)計(jì)主題詞的詞頻或者詞頻變化率來(lái)探測(cè)和識(shí)別科學(xué)前沿主題。通過(guò)給定閾值的詞頻反映某研究領(lǐng)域變化,詞頻越高,表示科學(xué)前沿的出現(xiàn)引起研究人員的注意越多,相關(guān)研究和產(chǎn)出文獻(xiàn)越多,因此對(duì)詞頻變化進(jìn)行跟蹤可以在一定程度探測(cè)到前沿。潘若愚等[13]通過(guò)網(wǎng)絡(luò)爬蟲(chóng)收集近十年國(guó)內(nèi)外文本挖掘領(lǐng)域的關(guān)鍵詞,使用詞頻分析法探測(cè)研究熱點(diǎn)與前沿趨勢(shì)。畢奕侃等[14]通過(guò)對(duì)2008—2018年CSSCI收錄的統(tǒng)計(jì)學(xué)領(lǐng)域研究論文關(guān)鍵詞的熱度和潛力兩個(gè)維度探測(cè)研究前沿及其動(dòng)態(tài)演化。
然而關(guān)鍵詞詞頻分析法易受同義詞和近義詞影響,而且只能追蹤單個(gè)詞的變化,詞頻變化速率的計(jì)算復(fù)雜,篩選高頻詞匯進(jìn)行分析會(huì)忽略可能代表新興研究趨勢(shì)和潛在前沿的低頻詞,廖鵬飛等[15]就從被忽略的長(zhǎng)尾關(guān)鍵詞中探尋新興研究前沿。
由于研究前沿的出現(xiàn)通常伴隨著詞頻密度的改變,為避免詞頻分析法中閾值設(shè)置過(guò)于主觀的問(wèn)題,Kleinberg J[16]提出突現(xiàn)詞檢測(cè)算法(Burst Detection Algorithm),他認(rèn)為單位時(shí)間內(nèi)出現(xiàn)頻次的增長(zhǎng)率突然加大的詞顯得十分重要,并將其稱(chēng)為突現(xiàn)詞。Chen C[7]利用突現(xiàn)詞檢測(cè)算法從題目、摘要、關(guān)鍵詞和文獻(xiàn)記錄中提取突現(xiàn)術(shù)語(yǔ),探測(cè)科學(xué)前沿。突現(xiàn)詞檢測(cè)方法被引入科學(xué)前沿探測(cè),涌現(xiàn)出大量相關(guān)研究。Li M等[17]通過(guò)對(duì)關(guān)鍵詞和突現(xiàn)詞進(jìn)行關(guān)聯(lián)規(guī)則挖掘(ARM-KB),并結(jié)合共詞分析法探測(cè)到納米級(jí)抗癌藥研究的科學(xué)前沿。He X R等[18]使用突發(fā)詞檢測(cè)算法分析關(guān)鍵詞和參考文獻(xiàn),得到有序加權(quán)平均(OWA)算子研究的新興研究趨勢(shì)。周耀林等[19]對(duì)2011年以來(lái)國(guó)際圖情領(lǐng)域大數(shù)據(jù)領(lǐng)域的關(guān)鍵詞進(jìn)行突發(fā)詞檢測(cè),得到該領(lǐng)域的前沿主題。突發(fā)詞檢測(cè)的數(shù)據(jù)源不僅局限于論文文獻(xiàn),王興旺等[20]基于多類(lèi)數(shù)據(jù)源(科技論文、專(zhuān)利、科技輿情),使用詞頻分析和突發(fā)詞檢測(cè)法探測(cè)出車(chē)聯(lián)網(wǎng)技術(shù)的基礎(chǔ)研究前沿和技術(shù)研發(fā)前沿。
突發(fā)詞檢測(cè)需要一定時(shí)間的數(shù)據(jù)積累,其效果不僅受閾值選擇的限制,而且對(duì)詞的來(lái)源要求較高,通過(guò)預(yù)處理的突發(fā)詞檢測(cè)才會(huì)比較有意義,無(wú)形中增加了方法的復(fù)雜度。僅使用關(guān)鍵詞詞頻分析或者突發(fā)詞檢測(cè)都會(huì)切斷被分析詞與文獻(xiàn)之間的語(yǔ)義聯(lián)系,缺乏關(guān)聯(lián)性,難以表現(xiàn)科學(xué)前沿的知識(shí)結(jié)構(gòu)。
2.2 共詞分析法
共詞分析一般以文本中的關(guān)鍵詞為分析單元,根據(jù)在同一個(gè)文本主體中的詞或短語(yǔ)共同出現(xiàn)的情況,統(tǒng)計(jì)共同出現(xiàn)的次數(shù)。通常認(rèn)為共現(xiàn)次數(shù)越多,兩者之間的聯(lián)系越為緊密。由于研究主題通常由一組相互關(guān)聯(lián)的詞匯構(gòu)成,因此可以根據(jù)詞匯間的共詞關(guān)系,對(duì)文獻(xiàn)集的詞匯進(jìn)行聚類(lèi)分析,生成詞匯簇,跟蹤詞匯簇在不同時(shí)期的發(fā)展變化,從而探測(cè)科學(xué)前沿。
Callon M等[21]提出一種根據(jù)主題詞聚類(lèi)簇之間的密度和向心度作為關(guān)聯(lián)強(qiáng)度數(shù)據(jù)并可視化展示的共詞分析技術(shù)。Rip A等[22]對(duì)10年內(nèi)生物技術(shù)領(lǐng)域的論文進(jìn)行共詞分析,探測(cè)出該領(lǐng)域的現(xiàn)狀和科學(xué)前沿,并指出識(shí)別科學(xué)前沿要結(jié)合科學(xué)計(jì)量方法和專(zhuān)家認(rèn)知分析。Besselaar P V D等[23]通過(guò)抽取論文標(biāo)題中的詞語(yǔ)后構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),通過(guò)聚類(lèi)分析,探測(cè)到凝聚態(tài)物理研究領(lǐng)域內(nèi)和領(lǐng)域間的新興研究領(lǐng)域。Ravikumar S等[24]發(fā)現(xiàn)共詞分析能從更微觀的角度分析研究發(fā)展趨勢(shì),成為描述學(xué)科或領(lǐng)域發(fā)展現(xiàn)狀與態(tài)勢(shì)的重要定量分析方法。共詞分析在一定程度上展現(xiàn)知識(shí)結(jié)構(gòu)的變化,直觀揭示研究主題和研究領(lǐng)域,對(duì)科學(xué)前沿的描述比傳統(tǒng)詞頻分析法準(zhǔn)確,因此越來(lái)越多的研究者采用共詞分析方法來(lái)識(shí)別科學(xué)前沿:如蔡運(yùn)荃等[25]通過(guò)共詞分析法構(gòu)建共詞知識(shí)圖譜,探測(cè)我國(guó)高等教育領(lǐng)域研究前沿;趙麗梅等[26]以共詞分析為基本研究框架,揭示大數(shù)據(jù)背景下數(shù)字圖書(shū)館研究領(lǐng)域的前沿趨勢(shì)。許曉陽(yáng)等[27]改造關(guān)鍵詞共現(xiàn)識(shí)別模型,將論文和專(zhuān)利相結(jié)合,使用研究主題年齡和研究主題關(guān)注作者數(shù)量?jī)蓚€(gè)指標(biāo)來(lái)識(shí)別研究前沿。
然而共詞分析法也存在缺陷,有研究通過(guò)共詞分析對(duì)表面效度[28]與有效性[29]進(jìn)行檢驗(yàn)時(shí)發(fā)現(xiàn)前沿探測(cè)存在明顯的語(yǔ)料數(shù)量依賴(lài)性,基于題名和關(guān)鍵詞而探測(cè)到的前沿與該科學(xué)領(lǐng)域研究者所共同認(rèn)可的前沿之間的相關(guān)性并不高,側(cè)面說(shuō)明關(guān)鍵詞共詞分析依舊無(wú)法完整保留語(yǔ)義聯(lián)系,僅通過(guò)關(guān)鍵詞進(jìn)行前沿探測(cè)無(wú)法保證結(jié)果具有很高的有效性。共詞分析對(duì)分析詞的頻次有一定的要求,若分析文本量不足或內(nèi)部相關(guān)性不高,導(dǎo)致共詞分析矩陣過(guò)于稀疏,無(wú)法獲得較好的聚類(lèi)效果,忽略低頻詞中存在的科學(xué)前沿,且共詞分析法分析的詞間關(guān)系不能完全代表主題之間的相關(guān)關(guān)系,影響前沿探測(cè)結(jié)果的準(zhǔn)確性。
2.3 文本挖掘法
由于詞頻分析和共詞分析都出現(xiàn)分析詞與文獻(xiàn)之間的語(yǔ)義聯(lián)系被切斷的問(wèn)題,為保證語(yǔ)義聯(lián)系,學(xué)術(shù)界提出通過(guò)直接從文獻(xiàn)的文本內(nèi)容獲取分析詞的文本挖掘方法?;谖谋就诰虻目茖W(xué)前沿探測(cè)方法多為無(wú)監(jiān)督文本挖掘算法,基于全自動(dòng)化或半自動(dòng)化系統(tǒng),在科學(xué)前沿探測(cè)時(shí)相對(duì)簡(jiǎn)單高效,使分析結(jié)果更加準(zhǔn)確、可靠。目前用于科學(xué)前沿探測(cè)的方法主要的發(fā)展有:非相關(guān)知識(shí)發(fā)現(xiàn)、新興趨勢(shì)探測(cè)(Emerging Trend Detection)、主題模型,SAO結(jié)構(gòu)和其他機(jī)器學(xué)習(xí)方法。
1)非相關(guān)知識(shí)發(fā)現(xiàn)由Swanson D R[30]首次提出,是指從表面沒(méi)有任何聯(lián)系的文獻(xiàn)內(nèi)容中識(shí)別出新穎的、尚未被發(fā)現(xiàn)的、潛在有用的關(guān)聯(lián)。這種方法摒棄了傳統(tǒng)的引文分析方法,利用自然語(yǔ)言處理技術(shù)對(duì)科技文獻(xiàn)內(nèi)容進(jìn)行深入分析,從中發(fā)現(xiàn)相關(guān)知識(shí)點(diǎn),進(jìn)而發(fā)現(xiàn)潛在的知識(shí)關(guān)聯(lián)[31]。
這些潛在知識(shí)關(guān)聯(lián)自發(fā)現(xiàn)之后經(jīng)過(guò)進(jìn)一步研究論證發(fā)展成為科學(xué)前沿,然而非相關(guān)知識(shí)發(fā)現(xiàn)方法在具體的實(shí)施過(guò)程受到許多限制,存在發(fā)現(xiàn)效率低,在知識(shí)發(fā)現(xiàn)過(guò)程中需要專(zhuān)家解讀,其結(jié)論需要專(zhuān)業(yè)人士進(jìn)行驗(yàn)證的問(wèn)題。
2)新興趨勢(shì)探測(cè)由Kontostathis A[32]正式提出,其認(rèn)為發(fā)現(xiàn)某一特定領(lǐng)域中的熱點(diǎn)與焦點(diǎn)的動(dòng)態(tài)趨勢(shì),并在探測(cè)到最新的發(fā)展趨勢(shì)時(shí)主動(dòng)提示的過(guò)程便是新興趨勢(shì)探測(cè)。該方法首先將主題用一組時(shí)間特性關(guān)聯(lián)的特征表示,然后根據(jù)這些特征用文本挖掘技術(shù)進(jìn)行主題抽取,隨著時(shí)間推移用一定的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)關(guān)聯(lián)主題,構(gòu)建主題演化路徑并判斷其趨勢(shì),預(yù)測(cè)新興趨勢(shì)[33]。Tu Y N等[34]根據(jù)知識(shí)老化理論,提出新穎指數(shù)(NI)和已發(fā)表量指數(shù)(PVI)判斷新興主題。鐘輝新[35]總結(jié)新興趨勢(shì)探測(cè)方法,分析存在的問(wèn)題,提出基于新生詞與知識(shí)圖譜的探測(cè)方法。
但從主題內(nèi)容和語(yǔ)義角度來(lái)看,ETD的方法還不夠成熟和完善:第一,主題領(lǐng)域的界定局限于詞頻和詞共現(xiàn)方法,沒(méi)有從語(yǔ)義角度聚類(lèi)形成主題領(lǐng)域;第二,許多特征可以從文獻(xiàn)中提取,在其他文本數(shù)據(jù)中無(wú)法提取,這些特征無(wú)法放入ETD模型中,導(dǎo)致數(shù)據(jù)來(lái)源單一;第三,沒(méi)有形成全面的評(píng)價(jià)指標(biāo)體系,不能從多方面展現(xiàn)前沿主題特征;最后,不同ETD模型評(píng)價(jià)標(biāo)準(zhǔn)不一,無(wú)法保證探測(cè)準(zhǔn)確度。
3)概率主題模型由Blei D M等[36]在概率隱性語(yǔ)義索引模型(Probabilistic Latent Semantic Indexing,PLSI)的基礎(chǔ)上提出了LDA(Latent Dirichlet Allocation)模型。該方法通過(guò)模擬文檔生成的機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)分類(lèi)和降維,利用Dirichlet概率分布和Gibb抽樣,從詞、主題和文檔三層貝葉斯概率模型識(shí)別文檔集中潛在的主題詞信息。Wang X等[37]在LDA模型的基礎(chǔ)上加入“主題—時(shí)間”分布,提出了主題隨時(shí)間變化而變化的主題模型(Topic Over Time,TOT)。Wu Q等[38]融合內(nèi)容共現(xiàn)理論和聚類(lèi)分析指標(biāo)構(gòu)建了主題分割模型ATNLDA。
這種直接利用文獻(xiàn)中的詞來(lái)生成主題分布的方法提出后受到學(xué)術(shù)界的廣泛關(guān)注,不少研究者通過(guò)LDA主題模型識(shí)別探測(cè)各個(gè)領(lǐng)域的科學(xué)前沿。徐路路等[39]使用基于PLDA模型與多數(shù)據(jù)源融合相關(guān)性分析的新興主題探測(cè)方法探測(cè)出石墨烯領(lǐng)域新興主題。侯捷[40]提出改進(jìn)用戶(hù)詞典生成算法結(jié)合優(yōu)化后LDA主題模型,對(duì)我國(guó)管理科學(xué)學(xué)科的研究領(lǐng)域前沿進(jìn)行探測(cè)分析。馮佳等[41]通過(guò)LDA模型抽取研究主題,采用主題強(qiáng)度和主題新穎度兩個(gè)指標(biāo)識(shí)別科學(xué)前沿主題,并基于本體概念映射實(shí)現(xiàn)科學(xué)前沿主題的語(yǔ)義分析。張暉等[42]采用LDA主題模型從文獻(xiàn)熱度評(píng)價(jià)模型挖掘的科研文獻(xiàn)中識(shí)別出學(xué)科的前沿?zé)狳c(diǎn),并將探測(cè)出的科學(xué)前沿與Altmetric獲取的數(shù)據(jù)集比較。劉博文等[43]通過(guò)使用LDA主題模型對(duì)碳納米管領(lǐng)域的基金項(xiàng)目和論文進(jìn)行分析,從主題強(qiáng)度、主題新穎度和主題相似度3個(gè)指標(biāo)探測(cè)出前沿主題。顏端武等[44]利用LDA主題模型生成各個(gè)時(shí)間窗的研究主題,根據(jù)研究主題關(guān)聯(lián)篩選并構(gòu)建石墨烯領(lǐng)域主題演化路徑,探測(cè)出領(lǐng)域三大研究前沿。
主題模型法無(wú)需專(zhuān)門(mén)詞表,難點(diǎn)是如何確定核心詞,如果未對(duì)文本進(jìn)行預(yù)處理,很多高頻但意義不強(qiáng)的噪音詞匯就會(huì)影響分類(lèi)效果。而且主題模型分類(lèi)數(shù)目確定有較大主觀性,相似度閾值設(shè)定離不開(kāi)較強(qiáng)的專(zhuān)業(yè)背景知識(shí),不可避免地會(huì)影響到聚類(lèi)效果,進(jìn)而影響到主題探測(cè)效果。
4)SAO結(jié)構(gòu)是Subject-Action-Object的縮寫(xiě),即主謂賓結(jié)構(gòu),是文本語(yǔ)義挖掘的方法之一。最初由Yoon J等[45]為彌補(bǔ)專(zhuān)利引文分析的不足,給目標(biāo)問(wèn)題尋找解決方案而提出。SAO結(jié)構(gòu)基于研究?jī)?nèi)容構(gòu)建語(yǔ)義關(guān)系,更能表征內(nèi)容之間具體的關(guān)系。因此在表達(dá)語(yǔ)義的同時(shí),還可以有效地展示語(yǔ)句元素之間的語(yǔ)義關(guān)系[46],進(jìn)而可以規(guī)避基于關(guān)鍵詞的文本分析的不足,從而獲得一個(gè)更加完整的語(yǔ)義理解。研究者們通過(guò)提取文本內(nèi)容中的SAO結(jié)構(gòu),在保留原本語(yǔ)義聯(lián)系的基礎(chǔ)上進(jìn)行分析,找到新興的解決方案,進(jìn)而發(fā)現(xiàn)相關(guān)的科學(xué)前沿。李欣等[47]對(duì)SAO結(jié)構(gòu)中的主/客體對(duì)象和關(guān)系進(jìn)行語(yǔ)義層面的消歧和相似度計(jì)算,進(jìn)而準(zhǔn)確地揭示新興主題演化過(guò)程中存在的規(guī)律和特征。SAO雖多用于探測(cè)新興技術(shù),但是基于文本內(nèi)容的探測(cè)方法在科技文獻(xiàn)方面依舊適用。黃魯成等[48]通過(guò)篩選出突現(xiàn)文獻(xiàn)后,使用SAO相似度方法更準(zhǔn)確地提煉出研究主題,最終達(dá)到識(shí)別新興研究主題的目的。
SAO結(jié)構(gòu)不易受同形異義詞和同義詞的影響,能更好地表達(dá)主題間的直接關(guān)系,更加準(zhǔn)確地判斷文獻(xiàn)的相似性。SAO結(jié)構(gòu)雖然可以利用軟件輔助提取,但對(duì)所有的信息不加區(qū)分,提取效果并不令人滿(mǎn)意,為獲取更好的效果,需要人工加以修正,這在某種程度上降低了SAO結(jié)構(gòu)提取的客觀性。
5)除去以上常用的文本挖掘方法,還有部分學(xué)者使用有監(jiān)督的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法等識(shí)別探測(cè)科學(xué)前沿。例如采取結(jié)構(gòu)風(fēng)險(xiǎn)最小化,綜合考慮了模型復(fù)雜度等特征,具備較好的靈活性和模型適用性,算法簡(jiǎn)潔的支持向量機(jī)(SVM)方法:徐路路等[49]利用機(jī)器學(xué)習(xí)中常用的支持向量機(jī)時(shí)序分析方法進(jìn)行預(yù)測(cè),進(jìn)一步改進(jìn)粒子群優(yōu)化算法,提高科學(xué)前沿探測(cè)的準(zhǔn)確性。董放等[50]提出一種基于LDA-SVM論文多分類(lèi)時(shí)序數(shù)據(jù),使用ARIMA進(jìn)行預(yù)測(cè)未來(lái)論文變化趨勢(shì),從而推測(cè)技術(shù)發(fā)展趨勢(shì)的研究方法,來(lái)識(shí)別工程科技領(lǐng)域的新興技術(shù)。
應(yīng)用范圍最廣的是基于各類(lèi)神經(jīng)網(wǎng)絡(luò)的模型,神經(jīng)網(wǎng)絡(luò)采取經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略,探測(cè)準(zhǔn)確度高。李松等[51]針對(duì)神經(jīng)網(wǎng)絡(luò)存在的缺陷,提出一種用于優(yōu)化的改進(jìn)時(shí)序預(yù)測(cè)模型——遺傳算法(GA,Genetic Algorithm),克服神經(jīng)網(wǎng)絡(luò)在連接權(quán)值和閾值選擇上的隨機(jī)性,提高準(zhǔn)確度。Lee C等[52]利用前饋多層神經(jīng)網(wǎng)絡(luò)的方法,并結(jié)合兩個(gè)量化指標(biāo)以識(shí)別新興技術(shù)。
有監(jiān)督的機(jī)器學(xué)習(xí)方法雖然在一定程度上降低識(shí)別探測(cè)的風(fēng)險(xiǎn),提高準(zhǔn)確度,但訓(xùn)練速率較慢,可解釋性不強(qiáng),對(duì)訓(xùn)練數(shù)據(jù)依賴(lài)很強(qiáng),無(wú)法將訓(xùn)練出的模型使用在其他學(xué)科領(lǐng)域,因此在前沿探測(cè)方面的實(shí)際應(yīng)用依舊不多。
2.4 引文—文本內(nèi)容復(fù)合探測(cè)方法
基于文本內(nèi)容的探測(cè)無(wú)法克服單一方法的局限性,為了更準(zhǔn)確地探測(cè)科學(xué)前沿,學(xué)術(shù)界提出將基于引文的探測(cè)方法與文本內(nèi)容挖掘復(fù)合的新方法探測(cè)科學(xué)前沿,并進(jìn)行了大量的研究工作?;谝牡奶綔y(cè)方法主要包括共被引(Co-citation)分析法、文獻(xiàn)耦合(Bibliographic Coupling)分析法和直接引用(Direct Citation)分析法。這些方法通過(guò)分析文獻(xiàn)間的相互引證關(guān)系,可以繪制出前沿相關(guān)的可視化知識(shí)圖譜直接展現(xiàn)文獻(xiàn)間相互關(guān)系的演化,在利用引文聚類(lèi)方法識(shí)別研究主題等方面具有重要作用。
Braam R R[6]最早提出將詞和共被引結(jié)合起來(lái),通過(guò)共被引關(guān)系聚類(lèi)形成文獻(xiàn)簇,使用標(biāo)引詞、標(biāo)題和摘要組成的詞集相似度分析識(shí)別相同主題的文獻(xiàn)簇,探測(cè)出前沿主題。Besselaar P V D等[23]提出一種若兩篇文獻(xiàn)含有相同的主題詞與參考文獻(xiàn),就假定這兩篇文獻(xiàn)在主題上有一定的相似性的詞匯—參考文獻(xiàn)共現(xiàn)的方法。Chen C開(kāi)發(fā)的CiteSpace[7]將主題詞與引文信息結(jié)合起來(lái)生成異構(gòu)網(wǎng)絡(luò),將時(shí)區(qū)視圖(Timezone Views)與聚類(lèi)視圖(Cluster Views)互補(bǔ)來(lái)揭示研究前沿。侯海燕等[53]以科學(xué)計(jì)量學(xué)領(lǐng)域?yàn)槔仁褂霉脖灰治龇ǐ@得該領(lǐng)域高被引核心文獻(xiàn),再使用共詞分析探測(cè)前沿領(lǐng)域,最終通過(guò)科學(xué)計(jì)量學(xué)前沿知識(shí)圖譜,探測(cè)出科學(xué)計(jì)量學(xué)領(lǐng)域前沿課題及重點(diǎn)研究方法。Boyack K W等[54]提出了一種從文獻(xiàn)標(biāo)題和摘要中提取主題詞,將主題詞看作特殊引文,然后使用文獻(xiàn)耦合方法構(gòu)建矩陣探測(cè)科學(xué)前沿的復(fù)合方法,獲得更好的前沿探測(cè)效果。Liu X等[55]結(jié)合文本挖掘與文獻(xiàn)計(jì)量方法提出了一種加權(quán)混合聚類(lèi)模型方法,并對(duì)ISI 2002—2006年的大規(guī)模期刊數(shù)據(jù)進(jìn)行分析,結(jié)果表明該方法可用于發(fā)現(xiàn)并識(shí)別不同研究領(lǐng)域的新興趨勢(shì)。周麗英等[56]提出了一種結(jié)合關(guān)鍵詞共現(xiàn)矩陣與關(guān)鍵詞—參考文獻(xiàn)共現(xiàn)矩陣來(lái)增強(qiáng)共詞分析效果的方法,能更精準(zhǔn)地預(yù)測(cè)前沿主題,揭示科學(xué)結(jié)構(gòu)與演化過(guò)程。
從以上研究可以看出復(fù)合分析法在科學(xué)前沿識(shí)別方面是對(duì)單一識(shí)別方法的完善改進(jìn),能夠更加精確地識(shí)別科學(xué)前沿主題。但這種方法依舊存在不足:第一,復(fù)合方法對(duì)數(shù)據(jù)的處理程度較單一識(shí)別方法復(fù)雜得多,不僅要對(duì)引文進(jìn)行分析處理,還需對(duì)文本內(nèi)容進(jìn)行分析,二者結(jié)合增加運(yùn)算復(fù)雜度,應(yīng)用時(shí)變得更加繁瑣、復(fù)雜。第二,復(fù)合分析方法需要對(duì)從文本內(nèi)容提取出的詞和引文計(jì)算各自相似度,想要獲得總體相似度必須先對(duì)引文和提取文本兩種不同的相似度進(jìn)行加權(quán)處理。加權(quán)數(shù)值的設(shè)定具有很大的主觀性,需要反復(fù)調(diào)試,難以避免出現(xiàn)因權(quán)值設(shè)定不同而導(dǎo)致研究前沿探測(cè)效果差異很大的情形,在應(yīng)用過(guò)程中受到很大限制。第三,不同學(xué)科、不同主題的權(quán)值設(shè)定差異較大,沒(méi)有普遍適用的標(biāo)準(zhǔn)化識(shí)別指標(biāo)體系,因此探測(cè)方法不一定能在跨學(xué)科的背景下獲得更好的效果。
3 文本內(nèi)容探測(cè)方法對(duì)比及存在的問(wèn)題
通過(guò)分析,對(duì)比得出基于文本的主要探測(cè)方法的概念、主要方法、優(yōu)勢(shì)與不足,如表1所示。
通過(guò)表1可以看出,基于文本內(nèi)容的前沿探測(cè)方法主要存在以下問(wèn)題:
1)探測(cè)過(guò)程中缺少統(tǒng)一的識(shí)別指標(biāo):由于科學(xué)前沿至今還沒(méi)有統(tǒng)一定義,因此前沿探測(cè)方法需要自行設(shè)立指標(biāo)對(duì)分析詞進(jìn)行取舍,因此無(wú)論是詞頻分析常用的Top50,以及共詞分析常用的二八定律、主題模型常用的保留前10個(gè)主題詞或是其他方法中需要通過(guò)人工修正,研究者一定程度上的主觀意愿會(huì)影響識(shí)別效果。一些主觀選擇會(huì)導(dǎo)致處于低頻詞中的潛在科學(xué)前沿和未被關(guān)注的隱形科學(xué)前沿被遺漏。基于文本挖掘的自然語(yǔ)言處理算法在探測(cè)科學(xué)前沿時(shí),由于沒(méi)有統(tǒng)一指標(biāo),無(wú)法保證探測(cè)效果,結(jié)果仍需專(zhuān)家解讀。
2)探測(cè)方法忽視語(yǔ)義關(guān)聯(lián):除去SAO結(jié)構(gòu)方法,基于文本內(nèi)容探測(cè)前沿的方法大多選擇從已有的文本內(nèi)容提取表達(dá)主旨的詞匯并對(duì)其進(jìn)行分析,提取方法多為主觀選擇(關(guān)鍵詞)、頻次選擇(突現(xiàn)詞)和統(tǒng)計(jì)分析選擇(主題詞)。這些方法或多或少地切斷了詞與文獻(xiàn)之間的語(yǔ)義關(guān)聯(lián),單純使用主題詞不足以正確表達(dá)文獻(xiàn)真實(shí)內(nèi)容,缺少連貫性,忽視語(yǔ)義關(guān)聯(lián)的方法也會(huì)導(dǎo)致無(wú)法解決同義詞近義詞干擾,從而降低準(zhǔn)確度。
3)數(shù)據(jù)源無(wú)法交叉融合:已有的方法研究中,對(duì)多源數(shù)據(jù)融合的前沿探測(cè)研究較少。由于期刊論文和專(zhuān)利文獻(xiàn)已有多個(gè)規(guī)模龐大的結(jié)構(gòu)化數(shù)據(jù)庫(kù),目前科學(xué)前沿探測(cè)的數(shù)據(jù)主要以數(shù)據(jù)庫(kù)內(nèi)的文獻(xiàn)為分析對(duì)象,很少涉及其他數(shù)據(jù)源。然而科學(xué)前沿并不只存在于期刊論文和專(zhuān)利文獻(xiàn)數(shù)據(jù)中,因此探測(cè)出的科學(xué)前沿準(zhǔn)確度不高。
4 科學(xué)前沿識(shí)別方法未來(lái)發(fā)展建議
自使用詞頻分析法進(jìn)行科學(xué)前沿探測(cè)以來(lái),基于文本內(nèi)容的科學(xué)前沿探測(cè)方法不斷發(fā)展。源于文獻(xiàn)計(jì)量的突現(xiàn)詞檢測(cè)方法與共詞分析法是目前應(yīng)用最為廣泛的方法,基于文本挖掘的相關(guān)方法依舊在不斷發(fā)展,基于文本內(nèi)容探測(cè)科學(xué)前沿方法已成為探測(cè)科學(xué)前沿的主要方法之一。通過(guò)對(duì)比分析目前已有的各種方法,針對(duì)未來(lái)發(fā)展提出如下建議:
1)明確科學(xué)前沿定義和指標(biāo)。從科學(xué)前沿概念的發(fā)展過(guò)程中不難看出,隨著探測(cè)方法的變化,前沿的定義也在發(fā)生變化。由于缺乏統(tǒng)一的指標(biāo),目前的探測(cè)過(guò)程中主要使用“文本表征詞獲取+文獻(xiàn)計(jì)量分析+專(zhuān)家咨詢(xún)”的方式衡量前沿探測(cè)結(jié)果,受專(zhuān)家影響較大;重要閾值設(shè)定也多為主觀選擇。目前常用的主題模型也并非真正用于“探測(cè)”前沿,而是對(duì)文本內(nèi)容進(jìn)行前期處理,實(shí)際探測(cè)方法依舊是詞頻分析與共詞分析。理應(yīng)打破從方法決定前沿的固有模式,提出一種脫離于方法的指標(biāo)用于衡量前沿,才能從根本上解決探測(cè)方法過(guò)于依賴(lài)主觀選擇的問(wèn)題。
2)語(yǔ)義分析與前沿探測(cè)方法融合。語(yǔ)義關(guān)系分析方法,不僅可以對(duì)文獻(xiàn)進(jìn)行全文本分析獲得更為精確的語(yǔ)義信息,還可以將SAO結(jié)構(gòu)等語(yǔ)義分析方法融入前沿探測(cè)方法,用以保證在識(shí)別探測(cè)過(guò)程中的語(yǔ)義關(guān)聯(lián),保證連貫性,獲得更好的探測(cè)效果。
3)數(shù)據(jù)源從單一型變?yōu)榛旌闲汀kS著信息技術(shù)不斷發(fā)展,未來(lái)可增強(qiáng)多源數(shù)據(jù)交叉分析。整合科技規(guī)劃文本、基金項(xiàng)目、研究報(bào)告等針對(duì)科學(xué)發(fā)展進(jìn)程中邊緣問(wèn)題的數(shù)據(jù),以支持科學(xué)前沿探測(cè)。未來(lái)前沿識(shí)別探測(cè)需要增強(qiáng)多源數(shù)據(jù)的深度交叉融合,發(fā)現(xiàn)隱藏的知識(shí)關(guān)聯(lián)信息,明確知識(shí)發(fā)展脈絡(luò),有助于“隱形”科學(xué)前沿的識(shí)別。
參考文獻(xiàn)
[1]Price D J.Networks of Scientific Papers[J].Science,1965,149(3683):510-515.
[2]Small H,C G B.The Structure of Scientific Literatures:Identifying and Graphing Specialties[J].Science Studies,1974,(1):17-40.
[3]Garfield E.The New 1956—1965 Social-science Citation Index.1.Analysis of 1988 Research Fronts and the Citation-classics that Made Them Possible[J].Current Contents,1989,(41):2-8.
[4]Persson O.The Intellectual Base and Research Fronts of JASIS 1986—1990[J].Journal of the American Society for Information Science,1994,45(1):31-38.
[5]Morris S A,Yen G,Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the American Society for Information Science and Technology,2003,54(5):413-422.
[6]Braam R R,Moed H F,Raan A F J V.Mapping of Science by Combined Co-Citation and Word Analysis.II:Dynamical Aspects[J].Journal of the American Society for Information Science,1991,42(4).
[7]Chen C.CiteSpace Ⅱ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[8]Upham S P,Small H.Emerging Research Fronts in Science and Technology:Patterns of New Knowledge Development[J].Scientometrics,2010,83(1):15-38.
[9]Rotolo D,Hicks D,Martin B R.What is an Emerging Technology?[J].Research Policy,2015,44(10):1827-1843.
[10]Wang Q.A Bibliometric Model for Identifying Emerging Research Topics[J].Journal of the Association for Information Science and Technology,2018,69(2):290-304.
[11]鐘鎮(zhèn).從高被引與零被引論文的引文結(jié)構(gòu)差異看Research Front與Research Frontier的區(qū)別[J].圖書(shū)情報(bào)工作,2015,59(8):87-96.
[12]羅瑞,許海云,董坤.領(lǐng)域前沿識(shí)別方法綜述[J].圖書(shū)情報(bào)工作,2018,62(23):119-131.
[13]潘若愚,姚浩浩,朱克毓.基于詞頻統(tǒng)計(jì)分析國(guó)內(nèi)外文本挖掘的研究熱點(diǎn):第十二屆(2017)中國(guó)管理學(xué)年會(huì)[C]//中國(guó)天津,2017.
[14]畢奕侃,韓毅.關(guān)鍵詞時(shí)間分布特征視角下的研究前沿探測(cè)研究[J].西華大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2020,39(2):105-114.
[15]廖鵬飛,李明鑫,萬(wàn)鋒.基于長(zhǎng)尾關(guān)鍵詞的領(lǐng)域新興前沿探尋模型構(gòu)建研究[J].情報(bào)雜志,2020,39(3):51-55.
[16]Kleinberg J.Bursty and Hierarchical Structure in Streams[J].Data Mining and Knowledge Discovery,2003,7(4):373-397.
[17]Li M,Chu Y.Explore the Research Front of a Specific Research Theme Based on a Novel Technique of Enhanced Co-word Analysis[J].Journal of Information Science,2016,43(6):725-741.
[18]He X R,Wu Y,Yu D,et al.Exploring the Ordered Weighted Averaging Operator Knowledge Domain:A Bibliometric Analysis[J].International Journal of Intelligent Systems,2017,32(11):1151-1166.
[19]周耀林,柴昊,趙躍.國(guó)際圖情領(lǐng)域大數(shù)據(jù)研究現(xiàn)狀與趨勢(shì)探析[J].圖書(shū)館雜志,2019,38(12):16-27.
[20]王興旺,董玨,余婷婷,等.基于多種類(lèi)型信息計(jì)量分析的前沿技術(shù)預(yù)測(cè)方法研究[J].情報(bào)雜志,2018,37(10):70-75.
[21]Callon M,JJP C,WA T.From Translations to Problematic Networks- an Introduction to Co-word Analysis[J].Social Science Information,1983,22(2):191-235.
[22]Rip A,JP C.Co-word Maps of Biotechnology:An Example of Cognitive Scientometrics[J].Scientometrics,1984,6(6):381-400.
[23]Besselaar P V D,Heimeriks G.Mapping Research Topics Using Word-reference Co-occurrences:A Method and an Exploratory Case Study[J].Scientometrics,2006,68(3):377-393.
[24]Ravikumar S,Agrahari A,Singh S N.Mapping the Intellectual Structure of Scientometrics:A Co-word Analysis of the Journal Scientometrics(2005—2010)[J].Scientometrics,2015,102(1):929-955.
[25]蔡運(yùn)荃,李保強(qiáng).基于共詞分析的我國(guó)高等教育研究前沿探討——來(lái)自14種高等教育核心期刊近5年的文獻(xiàn)計(jì)量分析[J].現(xiàn)代教育管理,2017,(5):44-50.
[26]趙麗梅,張花.我國(guó)大數(shù)據(jù)時(shí)代數(shù)字圖書(shū)館研究前沿分析——基于共詞分析的視角[J].情報(bào)科學(xué),2019,37(3):97-104.
[27]許曉陽(yáng),鄭彥寧,劉志輝.論文和專(zhuān)利相結(jié)合的研究前沿識(shí)別方法研究[J].圖書(shū)情報(bào)工作,2016,60(24):97-106.
[28]周文杰,張彤彤,高沖.共詞分析預(yù)測(cè)研究前沿的表面效度研究:基于自然語(yǔ)言處理[J].高校圖書(shū)館工作,2018,38(2):17-21.
[29]周文杰.研究前沿探測(cè)的效標(biāo)關(guān)聯(lián)效度研究:基于自然語(yǔ)言處理[J].圖書(shū)與情報(bào),2018,(1):1-7.
[30]Swanson D R.Undiscovered Public Knowledge[J].The Library Quarterly,1986,56(2):103-118.
[31]白如江,冷伏海,廖君華.科學(xué)研究前沿探測(cè)主要方法比較與發(fā)展趨勢(shì)研究[J].情報(bào)理論與實(shí)踐,2017,40(5):33-38.
[32]Kontostathis A.A Survey of Emerging Trend Detection in Textual Data Mining[J].2003.
[33]Le M,Ho T,Nakamori Y.Detecting Emerging Trends from Scientific Corpora[J].International Journal of Knowledge and Systems Sciences,2005,2(2):53-59.
[34]Tu Y N,Seng J.Indices of Novelty for Emerging Topic Detection[J].Information Processing & Management,2012,48(2):303-325.
[35]鐘輝新.新興趨勢(shì)探測(cè)研究綜述[J].現(xiàn)代情報(bào),2017,37(12):162-167.
[36]Blei D M,A Y Ng,Jordan M I,et al.Latent Dirichlet Allocation[J].Journal of? Machine? Learning Research,2003,3(4-5):993-1022.
[37]Wang X,Mccallum A.Topics Over Time:A Non-Markov Continuous-time Model of Topical Trends:ACM,2006.
[38]Wu Q,Zhang C,An X.Topic Segmentation Model Based on ATNLDA and Co-occurrence Theory and Its Application in Stem Cell Field[J].Journal of Information Science,2013,39(3):319-332.
[39]徐路路,王效岳,白如江.基于PLDA模型與多數(shù)據(jù)源融合相關(guān)性分析的新興主題探測(cè)研究——以石墨烯領(lǐng)域?yàn)槔齕J].情報(bào)理論與實(shí)踐,2018,41(4):63-69.
[40]侯捷.基于文本挖掘的管理科學(xué)學(xué)科研究熱點(diǎn)及前沿發(fā)現(xiàn)與分析[D].北京:北京工業(yè)大學(xué),2019.
[41]馮佳,張?jiān)魄?基于LDA和本體的科學(xué)前沿識(shí)別與分析方法研究[J].情報(bào)理論與實(shí)踐,2017,40(8):49-54.
[42]張暉,楊小彥,趙旭劍,等.基于社會(huì)網(wǎng)絡(luò)關(guān)注度的學(xué)科前沿?zé)狳c(diǎn)挖掘[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2018,50(3):46-52.
[43]劉博文,白如江,周彥廷,等.基金項(xiàng)目數(shù)據(jù)和論文數(shù)據(jù)融合視角下科學(xué)研究前沿主題識(shí)別——以碳納米管領(lǐng)域?yàn)槔齕J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(8):114-122.
[44]顏端武,蘇瓊,張馨月.基于時(shí)序主題關(guān)聯(lián)演化的科學(xué)領(lǐng)域前沿探測(cè)研究[J].情報(bào)理論與實(shí)踐,2019,42(7):144-150.
[45]Yoon J,Park H,Kim K.Identifying Technological Competition Trends for R&D Planning Using Dynamic Patent Maps:SAO-based Content Analysis[J].Scientometrics,2013,94(1):313-331.
[46]Choi S,Yoon J,Kim K,et al.SAO Network Analysis of Patents for Technology Trends Identification:A Case Study of Polymer Electrolyte Membrane Technology in Proton Exchange Membrane Fuel Cells[J].Scientometrics,2011,88(3):863-883.
[47]李欣,謝前前,黃魯成,等.基于SAO結(jié)構(gòu)語(yǔ)義挖掘的新興技術(shù)演化軌跡研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2018,39(1):17-31.
[48]黃魯成,張璐,吳菲菲,等.基于突現(xiàn)文獻(xiàn)和SAO相似度的新興主題識(shí)別研究[J].科學(xué)學(xué)研究,2016,34(6):814-821.
[49]徐路路,王芳.基于支持向量機(jī)和改進(jìn)粒子群算法的科學(xué)前沿預(yù)測(cè)模型研究[J].情報(bào)科學(xué),2019,37(8):22-28.
[50]董放,劉宇飛,周源.基于LDA-SVM論文摘要多分類(lèi)新興技術(shù)預(yù)測(cè)[J].情報(bào)雜志,2017,36(7):40-45.
[51]李松,劉力軍,解永樂(lè).遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的短時(shí)交通流混沌預(yù)測(cè)[J].控制與決策,2011,26(10):1581-1585.
[52]Lee C,Kwon O,Kim M,et al.Early Identification of Emerging Technologies:A Machine Learning Approach Using Multiple Patent Indicators[J].Technological Forecasting and Social Change,2018,127:291-303.
[53]侯海燕,劉則淵,欒春娟.基于知識(shí)圖譜的國(guó)際科學(xué)計(jì)量學(xué)研究前沿計(jì)量分析[J].科研管理,2009,30(1):164-170.
[54]Boyack K W,Klavans R.Co-citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?[J].Journal of the American Society for Information Science and Technology,2010,61(12):2389-2404.
[55]Liu X,Yu S,Janssens F,et al.Weighted Hybrid Clustering By Combining Text Mining and Bibliometrics on a Large-scale Journal Database[J].Journal of the American Society for Information Science and Technology,2010.
[56]周麗英,冷伏海,左文革.引文耦合增強(qiáng)的共詞分析方法改進(jìn)研究——以ESI農(nóng)業(yè)科學(xué)研究主題劃分為例[J].情報(bào)理論與實(shí)踐,2015,38(11):120-125.
(責(zé)任編輯:陳 媛)