国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的領(lǐng)域新興交叉主題識別研究

2024-11-04 00:00:00齊世杰串麗敏趙靜娟張輝賈倩
數(shù)字圖書館論壇 2024年9期

摘要:準(zhǔn)確識別學(xué)科交叉前沿主題,有助于了解學(xué)科發(fā)展脈絡(luò),發(fā)掘領(lǐng)域重點發(fā)展方向,為未來創(chuàng)新性、突破性研究提供參考。提出一種識別新興交叉主題的方法。首先,提出一種結(jié)合學(xué)科多樣性和學(xué)科凝聚性的論文學(xué)科交叉性計算方法;其次,利用該方法篩選出具有高學(xué)科交叉性的論文,獲得潛力論文數(shù)據(jù)集;再次,采用結(jié)合領(lǐng)域詞典改進(jìn)的LDA模型進(jìn)行研究主題識別;最后,通過構(gòu)建融合新穎性、突破性和影響力的多維度新興主題測量模型,識別出新興交叉主題。選擇作物智能育種領(lǐng)域進(jìn)行實證分析,識別出4個新興交叉主題,通過資料分析法驗證方法的有效性,對基于論文數(shù)據(jù)識別新興交叉主題的方法研究與實踐具有參考價值。

關(guān)鍵詞:學(xué)科交叉研究;新興主題識別;主題建模;作物智能育種

中圖分類號:G353.1 DOI:10.3772/j.issn.1673-2286.2024.09.004

引文格式:齊世杰,串麗敏,趙靜娟,等. 基于主題模型的領(lǐng)域新興交叉主題識別研究:以作物智能育種為例[J]. 數(shù)字圖書館論壇,2024,20(9):38-47.

*本研究得到北京市農(nóng)林科學(xué)院科技創(chuàng)新能力建設(shè)專項“基于學(xué)科交叉的農(nóng)業(yè)‘火花技術(shù)’早期探測方法與實證研究”(編號:KJCX20240313)、北京市農(nóng)林科學(xué)院科技創(chuàng)新能力建設(shè)專項“智庫型農(nóng)業(yè)情報研究與服務(wù)能力提升”(編號:KJCX20230208)、北京市農(nóng)林科學(xué)院科技創(chuàng)新能力建設(shè)專項“面向科研管理的情報研究與服務(wù)能力提升”(編號:KJCX20230210)資助。

學(xué)科交叉融合是解決當(dāng)今世界復(fù)雜問題的重要途徑之一,也是創(chuàng)新之源。它不僅能夠催生新興交叉研究方向,更是突破性技術(shù)的重要源頭。準(zhǔn)確探測領(lǐng)域新興交叉主題,有助于從根源上厘清學(xué)科內(nèi)在的發(fā)展機(jī)制與軌跡,及時追蹤領(lǐng)域交叉創(chuàng)新趨勢,進(jìn)而捕捉新的領(lǐng)域研究增長點,輔助科研管理決策者預(yù)先布局突破性創(chuàng)新的方向,為發(fā)展新質(zhì)生產(chǎn)力提供有價值的客觀依據(jù)。

學(xué)者們已就如何從科技文本中探測各類研究主題開展大量研究,其中新興主題和學(xué)科交叉主題是關(guān)注的熱點,但現(xiàn)有研究多將研究主題的學(xué)科交叉性和新興性分開獨立研究,將新興性與交叉性相結(jié)合的主題識別研究尚不多見。在早期,學(xué)科交叉是新興主題形成的內(nèi)在驅(qū)動力之一,更是探測學(xué)科生長點的重要手段[1-2]。因此,從學(xué)科交叉融合的視角對新興主題進(jìn)行探測,能夠從根源上增加發(fā)現(xiàn)創(chuàng)新性研究的機(jī)會,挖掘突破性的創(chuàng)新方向和潛在高價值點。

種業(yè)科技創(chuàng)新催生農(nóng)業(yè)新質(zhì)生產(chǎn)力。全球種業(yè)科技已進(jìn)入“生物技術(shù)+人工智能+大數(shù)據(jù)信息技術(shù)”的智能育種時代,通過人工智能決策系統(tǒng)可以設(shè)計最佳育種方案,進(jìn)而定向、高效改良和培育作物新品種。而我國尚處于起步階段,存在部分前沿和交叉領(lǐng)域基礎(chǔ)研究和底盤技術(shù)的原始創(chuàng)新能力不足的問題。基于此,本文從學(xué)科交叉性角度入手,識別新興交叉主題,并以智能育種領(lǐng)域為例論證方法的有效性和可行性,研究結(jié)果對于我國智能育種領(lǐng)域的發(fā)展有一定啟發(fā)意義。

1 相關(guān)研究

1.1 新興主題的概念及特征

新興主題由Matsumura等[3]在2002年提出,指某研究領(lǐng)域中由多個關(guān)鍵詞或詞組表示的新主題,代表極具發(fā)展?jié)摿Φ难芯糠较蚧蜈厔?。Rotolo等[4]將新興主題的特征歸納為極強(qiáng)的新穎性、相對快速的增長、一致性、突出的影響、不確定性和模糊性。2018年,Wang[5]認(rèn)為新興主題是具有新穎性和一定連貫性、能產(chǎn)生較大科學(xué)影響力且發(fā)展速度相對較快的主題,主要特征包括新穎性、增長性、一致連貫性和科學(xué)影響力。Xu等[6]指出,新興主題的特點主要體現(xiàn)在時間維度和創(chuàng)新維度上。

1.2 新興主題識別方法

新興主題識別主要包括主題探測和新興特征測度兩大重要內(nèi)容,主題識別方法由基于引用關(guān)系向著基于文本內(nèi)容的趨勢發(fā)展。新興主題識別方法主要包括以下3類。①基于引文網(wǎng)絡(luò)的識別方法,即基于論文的直接引用關(guān)系、共被引關(guān)系和耦合關(guān)系進(jìn)行主題識別。例如:Small[7]提出利用共被引關(guān)系識別新興主題;Chen[8]將引文與詞法分析結(jié)合,聯(lián)合引文分析和爆破檢測識別新興主題。該方法關(guān)注論文之間的知識傳承,但引用關(guān)系往往具有一定的時滯性,導(dǎo)致研究及時性有所欠缺。②基于文本挖掘的識別方法,即基于文本內(nèi)容挖掘出語義關(guān)聯(lián)的信息,從而發(fā)現(xiàn)主題,具體包括主題模型、SAO結(jié)構(gòu)抽取、知識圖譜等方法。其中主題模型應(yīng)用最為廣泛,LDA及其改進(jìn)模型,如LDA2vec、動態(tài)LDA算法,取得了良好的效果。此外,一些研究還融合關(guān)鍵詞的詞頻、文獻(xiàn)與詞關(guān)聯(lián)關(guān)系進(jìn)行主題識別,以提高主題建模的可解釋性[9]。但該方法存在主題詞太過泛化,與文本特有的學(xué)科領(lǐng)域契合度不高的問題。③融合引文網(wǎng)絡(luò)和文本內(nèi)容的識別方法。例如:白敬毅等[10]基于引文網(wǎng)絡(luò),提出新穎性、增長性、影響力等測度指標(biāo),利用LDA模型和多維尺度分析識別新興主題;Xu等[11]利用動態(tài)影響模型提取主題結(jié)構(gòu)及增長性和影響力等指標(biāo),使用多任務(wù)最小二乘支持向量機(jī)識別不同主題。以上方法可以消減時滯性帶來的誤差,但主題的學(xué)科領(lǐng)域契合度不足的問題仍有待解決,現(xiàn)有研究也尚未提及學(xué)科交叉性這一識別角度。

1.3 學(xué)科交叉測度方法

學(xué)科交叉測度指標(biāo)大致可分為學(xué)科多樣性指標(biāo)和學(xué)科凝聚性指標(biāo)。學(xué)科多樣性指標(biāo)測度角度包括學(xué)科豐富性、平衡性和差異性,測度方法包括信息熵、布里淵指數(shù)、學(xué)科集成化指數(shù)、跨領(lǐng)域引用指數(shù)、RaoStirling指數(shù)。學(xué)科多樣性指標(biāo)測度主要以論文及引用文獻(xiàn)為基礎(chǔ),對所屬期刊的學(xué)科類別進(jìn)行分析,以RaoStirling指數(shù)最為常用,但其對于學(xué)科共現(xiàn)網(wǎng)絡(luò)較為依賴,存在計算繁瑣、更新困難、無評判準(zhǔn)則等局限。學(xué)科凝聚性指標(biāo)通常側(cè)重于社會網(wǎng)絡(luò)分析,常用指標(biāo)包括網(wǎng)絡(luò)密度和平均路徑長度、學(xué)科凝聚度、中介中心性等。此外,也有學(xué)者將學(xué)科多樣性和學(xué)科凝聚性指標(biāo)融合,形成綜合測算指標(biāo)。例如:Rafols等[12]融合學(xué)科多樣性和網(wǎng)絡(luò)一致性測度了單篇論文的學(xué)科交叉性;陳賽君等[13]基于Stirling多樣性和致密性構(gòu)建了Φ指標(biāo)。

綜上可知,在論文學(xué)科交叉測度方面,融合學(xué)科多樣性和學(xué)科凝聚性是一種有效方法。在新興主題識別方面,融入學(xué)科交叉性識別新興領(lǐng)域方向是一種新思路。因此,本文從學(xué)科交叉角度入手,先篩選高學(xué)科交叉性論文形成潛力論文數(shù)據(jù)集,再通過多特征指標(biāo)和主題挖掘?qū)崿F(xiàn)新興主題識別,為明晰科技創(chuàng)新方向、加快發(fā)展新質(zhì)生產(chǎn)力提供助力。

2 研究設(shè)計

首先,提出融合學(xué)科多樣性和凝聚性的論文學(xué)科交叉綜合測度指標(biāo)TDC指數(shù),通過測算定量篩選出具有高學(xué)科交叉性的潛力論文;其次,基于領(lǐng)域詞表優(yōu)化的LDA模型對潛力論文集進(jìn)行主題識別;再次,結(jié)合時間特征、論文自身特征和網(wǎng)絡(luò)特征,從新穎性、突發(fā)性和影響力3個維度構(gòu)建新興主題識別模型;最后,選取智能育種領(lǐng)域進(jìn)行實證研究,識別領(lǐng)域中的新興交叉主題。研究框架如圖1所示。

2.1 論文學(xué)科共現(xiàn)網(wǎng)絡(luò)構(gòu)建

論文和參考文獻(xiàn)的學(xué)科分類是建立學(xué)科共現(xiàn)矩陣的前提。本研究中論文數(shù)據(jù)來自科睿唯安Web of Science數(shù)據(jù)庫,Web of Science中JCR(JournaI Citation Reports)分類體系的認(rèn)可度高且應(yīng)用廣泛,因此以其中的256個學(xué)科類別為分類依據(jù),將論文映射至各個學(xué)科。

首先,通過Web of Science數(shù)據(jù)庫下載論文的字段信息,提取學(xué)科、參考文獻(xiàn)等字段建立數(shù)據(jù)表;其次,對JCR中的期刊和其所屬學(xué)科類別信息,以及期刊縮寫與期刊全稱信息進(jìn)行提取,構(gòu)建期刊-學(xué)科類別對照表;再次,基于該對照表,將論文的參考文獻(xiàn)根據(jù)其所在期刊映射至相應(yīng)的學(xué)科類別;最后,根據(jù)參考文獻(xiàn)-學(xué)科映射結(jié)果,建立論文-參考文獻(xiàn)學(xué)科共現(xiàn)網(wǎng)絡(luò)。

2.2 學(xué)科交叉論文提取

識別高學(xué)科交叉性論文是新興交叉主題識別的前提,當(dāng)前學(xué)科交叉測度內(nèi)容主要包括學(xué)科多樣性和凝聚性。Rao-Stirling指數(shù)是學(xué)科多樣性測度中較為成熟的指標(biāo)。Zhang等[14]在其基礎(chǔ)上進(jìn)一步改進(jìn),提出TD(True-Diversity)指標(biāo),其學(xué)科間區(qū)分度較高,受到學(xué)界的廣泛關(guān)注。學(xué)科凝聚性方面,中介中心性指標(biāo)應(yīng)用較為廣泛,在學(xué)科交叉測度中具有良好的效果[15]。

綜合考慮學(xué)科多樣性和學(xué)科凝聚性,參考TD指標(biāo)和中介中心性指標(biāo),以單篇論文為計算單位,通過兩指標(biāo)乘積的方式計算得到論文的學(xué)科交叉綜合指數(shù)TDC,據(jù)此對論文的學(xué)科交叉性進(jìn)行全面評估。TD、中介中心性、TDC指標(biāo)的計算方法如式(1)~式(4)所示。

基于論文的學(xué)科映射,可得到學(xué)科的概率pi和pj,借助學(xué)科共現(xiàn)網(wǎng)絡(luò),利用余弦相似度計算兩個學(xué)科在學(xué)科網(wǎng)絡(luò)中的相對距離dij。將學(xué)科矩陣導(dǎo)入UCINET軟件,計算得每篇論文的中介中心性。將每篇論文的中介中心性指標(biāo)和TD指標(biāo)值相乘得到綜合指數(shù)TDC。

2.3 基于LDA的主題建模

LDA模型由Blei等[16]于2003年提出,是一種無監(jiān)督機(jī)器學(xué)習(xí)的文本挖掘方法。該模型能夠?qū)φ撐倪M(jìn)行內(nèi)容層面的語義分析,但存在各個主題詞之間的語義關(guān)聯(lián)性較小、可解讀性不強(qiáng)的問題[17]。通過加入智慧農(nóng)業(yè)領(lǐng)域詞表規(guī)范主題詞作為用戶詞典,擴(kuò)充領(lǐng)域詞匯,輔助主題解釋,提高LDA主題詞準(zhǔn)確度。

主題數(shù)目確定是文本主題抽取的關(guān)鍵步驟,關(guān)系到結(jié)果的好壞。困惑度(Perplexity)和一致性(Coherence)是目前最優(yōu)主題數(shù)目評估方法中效果較好的指標(biāo)[18]。困惑度代表了主題歸屬的不確定性,值越小效果越好;一致性表征了主題的連貫性,值越大代表結(jié)果越好[19]。綜合困惑度和一致性確定主題數(shù)目,以提高準(zhǔn)確性,同時能夠避免主題數(shù)目過多造成的過擬合現(xiàn)象。困惑度和一致性計算方法如式(5)~式(7)所示。

在LDA模型主題建模過程中,通過設(shè)定最優(yōu)主題數(shù)目、迭代次數(shù)等參數(shù)訓(xùn)練模型,會生成主題-文檔矩陣,每篇論文對應(yīng)一個主題概率分布,選擇其中概率最高的主題作為每篇論文的主題,以此判定論文的主題歸屬。

2.4 新興主題識別

圍繞新興主題“新”和“興”兩個主要特征,以主題的時間屬性、引用屬性和關(guān)鍵詞共現(xiàn)屬性為特征要素,構(gòu)建融合新穎性、突發(fā)性和影響力3個維度的測度模型。

(1)新興主題測度指標(biāo)。針對新興主題特征,構(gòu)建三維新興主題測度框架體系。①主題新穎性。以論文的發(fā)表年份表征時間維度上的“新”,主題下論文的平均發(fā)表時間越晚,新穎性越強(qiáng)[20],計算方法為主題下所有論文發(fā)表年份之和除以論文數(shù)量。②主題突發(fā)性。打破研究主題現(xiàn)有狀態(tài)的突增現(xiàn)象是判斷研究主題新興與否的直觀依據(jù)[1]。Kleinberg[21]提出突發(fā)詞監(jiān)測算法來揭示新興主題。該算法能夠探測出短時間內(nèi)頻率急劇上升的突發(fā)詞,由此確定某個領(lǐng)域的新興趨勢和潛在熱點,受到廣泛應(yīng)用。選用該突發(fā)詞監(jiān)測算法作為主題突發(fā)性維度的指標(biāo)。③主題影響力。從主題強(qiáng)度、引用強(qiáng)度和增長性3個方面綜合度量主題影響力。其中:主題強(qiáng)度由某主題下研究論文數(shù)量占比表示,能夠直觀體現(xiàn)主題的研究熱度;引用強(qiáng)度由主題下所有論文的被引頻次的均值表示,體現(xiàn)某研究主題在同行間的影響力;增長性指標(biāo)是主題下所有論文數(shù)量的平均年增長率,體現(xiàn)了一個主題隨時間的推移,受到的關(guān)注度的變化情況。新興主題測度指標(biāo)及含義見表1。

(2)新興主題測度模型。根據(jù)指標(biāo)的量綱和取值范圍,選擇不同數(shù)據(jù)處理方式進(jìn)行指標(biāo)歸一化。新穎性指標(biāo)計算中將發(fā)表年份(1980—2030年)分散到0~1范圍內(nèi)處理,突發(fā)性、影響力及二級指標(biāo)均采用最大-最小值法進(jìn)行歸一化。采用客觀賦權(quán)法和線性疊加的方法,構(gòu)建主題測度模型。

3 實證分析

3.1 數(shù)據(jù)采集與處理

通過Web of Science和InCites平臺進(jìn)行論文數(shù)據(jù)采集。InCites平臺是基于Web of Science核心合集建立的科研分析平臺,提供多個國家的多種學(xué)科分類體系,有助于科研人員的多維度分析與數(shù)據(jù)篩選。

借助專家咨詢,對智能育種進(jìn)行主題拆解與詞匯整合,組建檢索式如下:TS=((smart agriculture OR digital agriculture OR digitization OR intelligence OR big data OR artificial intelligence OR machine learning OR deep learning OR neural network OR Internet of Things OR cloud compute OR information technology OR genome information OR image analysis OR AI)and breed)。利用InCites平臺,選擇Crop Science學(xué)科類別,文獻(xiàn)類型限定為Article和Review,時間范圍是2018年1月1日—2023年12月31日,檢索時間是2024年1月15日。共得到文獻(xiàn)檢索記錄6 752條,經(jīng)過人工篩選,最終確定6 315篇論文為數(shù)據(jù)源,下載年份、標(biāo)題、摘要、關(guān)鍵詞等字段,同時下載其參考文獻(xiàn)用于學(xué)科交叉性計算。

3.2 智能育種領(lǐng)域?qū)W科交叉論文提取

(1)指標(biāo)計算。提取6 315篇論文與參考文獻(xiàn)的期刊全稱,按照J(rèn)CR形成參考文獻(xiàn)-學(xué)科映射對和論文-參考文獻(xiàn)學(xué)科映射對,利用德溫特數(shù)據(jù)分析工具(Derwent Data Analyzer,DDA)生成學(xué)科共現(xiàn)矩陣。結(jié)合Leydesdorff等[22]提出的全局學(xué)科距離矩陣,編程計算學(xué)科余弦相似度、學(xué)科出現(xiàn)的概率以及TD指標(biāo)值,并將學(xué)科共現(xiàn)矩陣導(dǎo)入UCINET,計算論文的中介中心性,最終得到每篇論文的TDC指數(shù)。

(2)篩選高學(xué)科交叉性論文。計算6 315篇論文的TDC指數(shù)(見表2),統(tǒng)計并繪制分值分布直方圖(見圖2)。結(jié)合直方圖判讀原文可知,大多數(shù)論文的TDC指數(shù)集中于20~60,大于60的論文學(xué)科交叉性較高。因此,提取數(shù)值大于60的808篇論文作為新興主題識別的潛力論文數(shù)據(jù)集。

3.3 智能育種領(lǐng)域基于LDA模型的主題識別

(1)數(shù)據(jù)預(yù)處理。針對潛力論文數(shù)據(jù)集,抽取數(shù)據(jù)集中每篇論文的標(biāo)題、摘要和關(guān)鍵詞字段作為語料庫,將專家共同構(gòu)建的智能育種領(lǐng)域的關(guān)鍵詞表定義為用戶詞典,同時加入停用詞表,利用Python jieba軟件包對語料進(jìn)行分詞,進(jìn)行去除停用詞、詞形歸并和詞干提取等數(shù)據(jù)預(yù)處理,通過擴(kuò)充用戶詞典與停用詞表優(yōu)化分詞效果,提高主題詞提取的準(zhǔn)確率。

(2)主題識別。借助Python的gensim庫,對語料進(jìn)行LDA模型訓(xùn)練,設(shè)置迭代20次,獲取主題-文檔矩陣、主題詞-文檔矩陣,并基于pyLDAvis庫開發(fā)工具對主題進(jìn)行可視化展示。

根據(jù)智能育種領(lǐng)域的數(shù)據(jù)規(guī)模,設(shè)定候選主題數(shù)目K范圍為2~10,步長為1,迭代計算主題的一致性和困惑度,繪制曲線圖(見圖3~圖4)。可見,主題數(shù)目為5個時,一致性達(dá)到第一個峰值;當(dāng)主題數(shù)目為9個時,一致性數(shù)值達(dá)最高點,但困惑度降低。結(jié)合主題分析結(jié)果,K=9時,出現(xiàn)過擬合現(xiàn)象。通過對一致性和困惑度的綜合判斷,發(fā)現(xiàn)主題數(shù)目為5個時,主題識別的效果較好,因此,確定最佳主題數(shù)目為5個。

依據(jù)構(gòu)建的主題-文檔矩陣、主題詞-文檔矩陣,通過Python程序調(diào)取5個主題及所對應(yīng)的論文、主題詞,選取每個主題下概率較高的主題詞作為主題的核心特征詞,統(tǒng)計整理各主題的TOP 15核心特征詞,如表3所示。

3.4 智能育種領(lǐng)域新興交叉主題識別

3.4.1 新興主題識別

根據(jù)提出的多維度新興主題測度指標(biāo),計算智能育種領(lǐng)域每個交叉研究主題的新穎性、突發(fā)性和影響力的指標(biāo)值,為了能夠突出新涌現(xiàn)的新興主題,減弱影響力的長期積累效果,將新穎性、突發(fā)性和影響力的權(quán)重分別設(shè)置為0.4、0.4和0.2,按照最大-最小值法歸一化,計算得到5個主題的總分?jǐn)?shù),結(jié)果見表4。

從新穎性來看,農(nóng)情智能監(jiān)測、作物智能生產(chǎn)管理、作物生長/生產(chǎn)預(yù)測的論文發(fā)表年份較近,平均年份為2020年;從突發(fā)性來看,圖像處理技術(shù)及應(yīng)用、作物智能生產(chǎn)管理、作物生長/生產(chǎn)預(yù)測主題的熱度增長較快,是迅速引起關(guān)注的熱點主題;從影響力來看,下一代測序技術(shù)/分子標(biāo)記技術(shù)、農(nóng)情智能監(jiān)測、圖像處理技術(shù)及應(yīng)用的研究論文數(shù)量較多,是智能育種領(lǐng)域持續(xù)受關(guān)注的研究主題。

綜合各項指標(biāo)得分來看,5個主題中作物智能生產(chǎn)管理分?jǐn)?shù)最低,得分為0.599,且與其他4個主題的分?jǐn)?shù)差距較大,故選取研究主題新興性綜合得分在0.8以上的主題,即下一代測序技術(shù)/分子標(biāo)記技術(shù)、圖像處理技術(shù)及應(yīng)用、農(nóng)情智能監(jiān)測和作物生長/生產(chǎn)預(yù)測為新興主題。

3.4.2 新興主題解讀

結(jié)合專家咨詢與文獻(xiàn)判讀,對新興主題內(nèi)容進(jìn)行深入解讀,以準(zhǔn)確提煉主題方向,也為方法的驗證環(huán)節(jié)提供可靠性的事實依據(jù)。

(1)下一代測序技術(shù)/分子標(biāo)記技術(shù)。生物育種與現(xiàn)代信息技術(shù)加速融合,大數(shù)據(jù)、人工智能開始應(yīng)用于基因型檢測、分子標(biāo)記、表型處理等方面,正在成為輔助育種、提高育種效率的重要手段。①下一代測序技術(shù)。下一代測序技術(shù)的發(fā)展和應(yīng)用推動了全基因組范圍內(nèi)的基因測序和表觀遺傳修飾位點鑒定與功能機(jī)制研究,是作物智能育種的基礎(chǔ)。一方面,人工智能有助于對基因組數(shù)據(jù)展開深度分析,如土壤菌落的基因組鑒定[23]、小麥品種的轉(zhuǎn)錄組鑒定與對比[24]、鷹嘴豆重組自交系的基因分型[25]等。將基因型的鑒定與機(jī)器學(xué)習(xí)相結(jié)合來預(yù)測表型是新興方向,如Monreal等[26]利用16SrDNA下一代測序技術(shù),分析土壤細(xì)菌群落的組成和相對豐度,建立了一個生態(tài)功能概念模型。Liu等[27]通過比較高光合效率小麥品種BN207與其親本的光合生理和轉(zhuǎn)錄組,發(fā)現(xiàn)了影響光合效率的關(guān)鍵基因。②分子標(biāo)記技術(shù)。標(biāo)記輔助選擇思想在全基因組范圍內(nèi)的擴(kuò)展是智能育種的重要組成部分。分子標(biāo)記技術(shù)與人工智能技術(shù)的結(jié)合主要表現(xiàn)為基因型到表型的預(yù)測,如抗病性、產(chǎn)量和品質(zhì)等,相關(guān)研究通過機(jī)器學(xué)習(xí)算法分析基因型和表型數(shù)據(jù)、融入大數(shù)據(jù)的精準(zhǔn)育種模式、智能育種平臺的構(gòu)建以及育種策略的優(yōu)化。Shin等[28]利用基因分型測序方法對油棕種間雜交和回交后代進(jìn)行分析,通過單標(biāo)記-性狀關(guān)聯(lián)分析鑒定了與性狀相關(guān)的分子標(biāo)記及影響脂肪酸合成的關(guān)鍵候選基因,并利用兩種機(jī)器學(xué)習(xí)算法評估分子標(biāo)記對表型值的預(yù)測能力。還有研究者基于智能育種平臺自動化獲取與解析基因型和表型數(shù)據(jù),以及羽衣甘藍(lán)、香菇、木薯等的QTL(Quantitative Trait Locus)快速定位性狀[29-31]。

(2)圖像處理技術(shù)及應(yīng)用。圖像處理技術(shù)是推動農(nóng)業(yè)信息化發(fā)展與智能化賦能的關(guān)鍵技術(shù)之一,研究主題主要涉及光譜、熱紅外、遙感衛(wèi)星等成像技術(shù)在作物分類/種子識別、病蟲害識別、雜草識別、作物生長/產(chǎn)量預(yù)測等方面的應(yīng)用。①作物分類/種子識別。通過結(jié)合深度學(xué)習(xí)算法、圖像處理與遙感技術(shù)對作物進(jìn)行識別。Liu等[32]建立了一種基于高光譜特征融合的油菜品種精準(zhǔn)識別模型,識別率高于93.71%。②病蟲害識別。利用光譜遙感技術(shù)獲取蟲害作物的光譜特征,結(jié)合機(jī)器學(xué)習(xí)建立估測模型,識別多種病蟲害。目前,小麥條銹病與葉銹病耦合識別[33]、油菜莖上黃斑細(xì)球絳蟲子實體密度識別[34]、小麥赤霉病識別[35]等方面都已有相關(guān)研究。③土壤特征及土地適宜性評價。Ismaili等[36]基于多種機(jī)器學(xué)習(xí)算法驗證了物候參數(shù)對土壤適宜性預(yù)測影響最大。

(3)農(nóng)情智能監(jiān)測。農(nóng)情智能監(jiān)測是智慧農(nóng)業(yè)的重要組成部分,基于無線傳感器網(wǎng)絡(luò)、遠(yuǎn)程遙感技術(shù)、智能農(nóng)業(yè)平臺等,實現(xiàn)對農(nóng)田環(huán)境、作物生長、氣象氣候和農(nóng)業(yè)管理等方面的實時監(jiān)測和評估,以提高農(nóng)作物產(chǎn)量和質(zhì)量,降低生產(chǎn)成本和風(fēng)險。①農(nóng)田環(huán)境監(jiān)測。采用土壤墑情儀[37]、土壤分析儀[38]、土壤溫度傳感器[39]等工具,對土壤環(huán)境和養(yǎng)分含量進(jìn)行監(jiān)測。Kelly等[40]研究了農(nóng)田土壤水分監(jiān)測對灌溉用水效率的影響。Zhang等[41]構(gòu)建了土壤質(zhì)地和總碳預(yù)測模型,分析了美國土壤質(zhì)地和總碳的短期變化特征。②農(nóng)作物生長監(jiān)測。通過植被指數(shù)測量[42]、作物生理參數(shù)測量[43]、遙感技術(shù)[44]等,對作物的生長狀態(tài)、葉綠素含量等進(jìn)行監(jiān)測。Qi等[45]基于無人機(jī)多光譜圖像特征與植被指數(shù)構(gòu)建了花生葉綠素預(yù)測模型,為最優(yōu)作物類型選取、肥效評價及種植密度管理提供決策支持。③氣象氣候監(jiān)測。利用氣象傳感器、衛(wèi)星遙感等,對溫度、濕度、降水量、風(fēng)速等進(jìn)行監(jiān)測。Cheng等[46]基于新一代全球降水測量衛(wèi)星、植被指數(shù)和地表溫度提出了一種新型的綜合遙感干旱指數(shù),用于監(jiān)測氣象干旱和農(nóng)業(yè)生態(tài)干旱。④農(nóng)業(yè)管理措施監(jiān)測,涉及灌溉量、施肥量、病蟲害等信息監(jiān)測。Qian等[47]提出了一種基于遙感的長短期記憶模型,用于亞像素尺度農(nóng)田秋冬灌溉程度的實時監(jiān)測,有助于精準(zhǔn)管控灌溉時間與灌溉用水量。

(4)作物生長/生產(chǎn)預(yù)測。作物生長/生產(chǎn)預(yù)測是農(nóng)業(yè)大數(shù)據(jù)分析、圖像識別技術(shù)、遙感技術(shù)和深度學(xué)習(xí)等多種技術(shù)綜合應(yīng)用的結(jié)果。①基于大數(shù)據(jù)和人工智能算法,開發(fā)作物生長及預(yù)測模型。García-Martínez等[48]基于RGB圖像特征構(gòu)建了玉米種植密度預(yù)測模型。Kumar等[49]基于圖像處理與隨機(jī)森林算法,構(gòu)建了冬小麥耐旱性預(yù)測模型。②作物物質(zhì)含量預(yù)測。Cho等[50]構(gòu)建了甜瓜固溶體濃度和水分含量的預(yù)測模型。此外,基于神經(jīng)網(wǎng)絡(luò)的作物葉片鉬、銅等重金屬含量的預(yù)測模型可用于作物施肥與灌溉的精準(zhǔn)監(jiān)控[51]。③作物產(chǎn)量預(yù)測。相關(guān)學(xué)者基于圖像識別技術(shù)分別構(gòu)建了水稻[52]、小麥[53]等的產(chǎn)量預(yù)測模型,為精準(zhǔn)調(diào)控作物產(chǎn)量影響因素、優(yōu)化作物生產(chǎn)模式與管理等提供支撐。

3.5 結(jié)果有效性驗證

新興主題識別是一種預(yù)估性工作,沒有可衡量識別結(jié)果準(zhǔn)確性的通用定量標(biāo)準(zhǔn)。本研究參考郝雯柯等[54]的驗證方法,采用資料分析法驗證文本分類領(lǐng)域新興主題識別結(jié)果的科學(xué)性。應(yīng)繼鋒等[55]在《第5代(5G)作物育種技術(shù)體系》中提到:基于基因型大數(shù)據(jù)、表型大數(shù)據(jù)、環(huán)境大數(shù)據(jù)構(gòu)建的基因型-表型-環(huán)境模型,以及人工智能技術(shù),特別是圖像識別技術(shù)、數(shù)字化圖像處理技術(shù)等現(xiàn)代技術(shù)的快速發(fā)展將作物育種引向了新的階段?!?023全球農(nóng)業(yè)研究熱點前沿》提到了機(jī)器視覺在農(nóng)業(yè)生產(chǎn)中的應(yīng)用、多源遙感技術(shù)在作物產(chǎn)量估測中的應(yīng)用、無人機(jī)遙感在農(nóng)業(yè)監(jiān)測中的應(yīng)用、智慧農(nóng)業(yè)決策支持系統(tǒng)、基于深度學(xué)習(xí)的作物病害自動識別等熱點前沿方向[56]。汪海等[57]關(guān)注作物表型-環(huán)境大數(shù)據(jù)獲取解析(新一代傳感器、作物表型高通量獲取設(shè)施裝備、物聯(lián)網(wǎng)和表型智能解析)、多重組學(xué)大數(shù)據(jù)分析、多維大數(shù)據(jù)驅(qū)動的智能育種預(yù)測模型構(gòu)建、育種大數(shù)據(jù)存儲管理與應(yīng)用等。

綜合來看,本研究識別出的智能育種領(lǐng)域新興交叉主題基本貼合了上述相關(guān)表述,證明了本文方法的有效性與準(zhǔn)確性。

4 結(jié)語

本研究基于智能育種領(lǐng)域的科技論文數(shù)據(jù),通過學(xué)科交叉性測度、LDA主題抽取和新興性測度,共識別出4個研究主題。論文的創(chuàng)新性主要在于:①提出了融合學(xué)科多樣性與凝聚性的TDC指數(shù),用于學(xué)科交叉性測度;②利用農(nóng)業(yè)詞表對LDA模型進(jìn)行修正,提高領(lǐng)域的適用性;③在學(xué)科交叉性測度基礎(chǔ)上,構(gòu)建了包含3個維度的新興主題測度模型,完成新興交叉主題識別。

需要指出的是,文中所提方法可以拓展至其他學(xué)科領(lǐng)域,須構(gòu)建對應(yīng)學(xué)科和領(lǐng)域的專業(yè)詞表進(jìn)行模型訓(xùn)練與優(yōu)化,進(jìn)行多領(lǐng)域?qū)嶒灲Y(jié)果的交叉驗證。同時還可以豐富數(shù)據(jù)源,進(jìn)一步引入專著、專利等科技文本,使數(shù)據(jù)源多樣化。隨著科學(xué)研究的交叉程度日趨加深,未來可以重點關(guān)注如何從更多維度或機(jī)制層面客觀地識別新興方向,提高主題表達(dá)的準(zhǔn)確度,深入開展對學(xué)科交叉新興領(lǐng)域的分析與研究,助力面向重大需求的交叉創(chuàng)新方向的科學(xué)布局,培育發(fā)展各領(lǐng)域的新質(zhì)生產(chǎn)力。

參考文獻(xiàn)

[1] 張雪,張志強(qiáng),朱冬亮. 基于時間序列分析的潛在學(xué)科交叉前沿主題識別研究[J]. 情報理論與實踐,2024,47(4):152-162.

[2] 楊金慶,張力. 學(xué)科交叉視角下新興主題識別特征分析:以醫(yī)學(xué)信息學(xué)為例[J]. 情報工程,2021,7(4):3-12.

[3] MATSUMURA N,MATSUO Y,OHSAWA Y,et al. Discovering emerging topics from WWW[J]. Journal of Contingencies and Crisis Management,2002,10(2):73-81.

[4] ROTOLO D,HICKS D,MARTIN B R. What is an emerging technology?[J]. Research Policy,2015,44(10):1827-1843.

[5] WANG Q. A bibliometric model for identifying emerging research topics[J]. Journal of the Association for Information Science and Technology,2018,69(2):290-304.

[6] XU H Y,WINNINK J,YUE Z H,et al. Multidimensional scientometric indicators for the detection of emerging research topics[J]. Technological Forecasting and Social Change,2021, 163:120490.

[7] SMALL H. Co-citation in the scientific literature:a new measure of the relationship between two documents[J]. Journal of the American Society for Information Science,1973,24(4):265-269.

[8] CHEN C M. CiteSpace II:detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[9] XU M,LI G J,WANG X D. Detecting emerging topics by exploiting probability burst and association rule mining:a case study of library and information science[J]. Malaysian Journal of Library Information Science,2020,25(1):47-66.

[10] 白敬毅,顏端武,陳瓊. 基于主題模型和曲線擬合的新興主題趨勢預(yù)測研究[J]. 情報理論與實踐,2020,43(7):130-136,193.

[11] XU S,HAO L Y,AN X,et al. Emerging research topics detection with multiple machine learning models[J]. Journal of Informetrics,2019,13(4):100983.

[12] RAFOLS I,MEYER M. Diversity and network coherence as indicators of interdisciplinarity:case studies in bionanoscience[J]. Scientometrics,2010,82(2):263-287.

[13] 陳賽君,陳智高. 學(xué)科領(lǐng)域交叉性及對其測度的Φ指標(biāo):以我國科學(xué)學(xué)研究領(lǐng)域為例[J]. 科學(xué)學(xué)與科學(xué)技術(shù)管理,2014,35(5):3-12.

[14] ZHANG L,ROUSSEAU R,GL?NZEL W. Diversity of references as an indicator of the interdisciplinarity of journals:taking similarity between subject fields into account[J]. Journal of the Association for Information Science and Technology,2016,67(5):1257-1265.

[15] LEYDESDORFF L. Betweenness centrality as an indicator of the interdisciplinarity of scientific journals[J]. Journal of the American Society for Information Science and Technology,2007,58(9):1303-1319.

[16] BLEI D,NG A,JORDAN M. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.

[17] 張彪,吳紅,高道斌,等. 基于潛在高被引論文與高價值專利的創(chuàng)新前沿識別研究[J]. 圖書情報工作,2022,66(18):72-83.

[18] 閆盛楓. 融合詞向量語義增強(qiáng)和DTM模型的公共政策文本時序建模與演化分析:以“大數(shù)據(jù)領(lǐng)域”為例[J]. 情報科學(xué),2021,39(9):146-154.

[19] 馮艷銘,郝志梅,董春櫟. 基于LDA模型的老年人生活滿意度主題挖掘與文本實證分析[J]. 華北理工大學(xué)學(xué)報(社會科學(xué)版),2024,24(2):19-25.

[20] SCHMIEDEL T,MüLLER O,VOM BROCKE J. Topic modeling as a strategy of inquiry in organizational research:a tutorial with an application example on organizational culture[J]. Organizational Research Methods,2019,22(4):941-968.

[21] KLEINBERG J. Bursty and hierarchical structure in streams[J]. Data Mining and Knowledge Discovery,2003,7(4):373-397.

[22] LEYDESDORFF L,CARLEY S,RAFOLS I. Global maps of science based on the new Web-of-Science categories[J]. Scientometrics,2013,94(2):589-593.

[23] MA Y,QIU C W,F(xiàn)AN Y,et al. Genome-wide association and transcriptome analysis reveals candidate genes for potassium transport under salinity stress in wheat[J]. Environmental and Experimental Botany,2022,202:105034.

[24] XU P D,XIE S Q,LIU W B,et al. Comparative genomics analysis provides new strategies for bacteriostatic ability of Bacillus velezensis HAB-2[J]. Frontiers in Microbiology,2020,11:594079.

[25] AMALRAJ A,TAYLOR J,BITHELL S,et al. Mapping resistance to Phytophthora root rot identifies independent loci from cultivated(Cicer arietinum L.)and wild(Cicer echinospermum P.H. Davis)chickpea[J]. TAG. Theoretical and Applied Genetics. Theoretische und Angewandte Genetik,2019,132(4):1017-1033.

[26] MONREAL C M,ZHANG J. An ecological function conceptual model for bacterial communities with high relative abundance in an unplanted and canola(Brassica napus)planted Podzol[J]. Rhizosphere,2018,5:26-31.

[27] LIU H J,ZHU Q D,PEI X X,et al. Comparative analysis of the photosynthetic physiology and transcriptome of a highyielding wheat variety and its parents[J]. The Crop Journal,2020,8(6):1037-1048.

[28] SHIN M G,ITHNIN M,VU W T,et al. Association mapping analysis of oil palm interspecific hybrid populations and predicting phenotypic values via machine learning algorithms[J]. Plant Breeding,2021,140(6):1150-1165.

[29] REN J,LIU Z Y,DU J T,et al. Fine-mapping of a gene for the lobed leaf,BoLl,in ornamental kale(Brassica oleracea L. var. acephala)[J]. Molecular Breeding,2019,39(3):40-45.

[30] LEE H Y,MOON S,RO H S,et al. Analysis of genetic diversity and population structure of wild strains and cultivars using genomic SSR markers in Lentinula edodes[J]. Mycobiology,2020,48(2):115-121.

[31] ALMEIDA COSTA N,DA SILVA AZêVEDO H S F,DA SILVA L M,et al. Molecular characterization and core collection evaluation of Manihot esculenta Crantz[J]. Bioscience Journal,2020,36:22-35.

[32] LIU F,WANG F,WANG X Q,et al. Rapeseed variety recognition based on hyperspectral feature fusion[J]. Agronomy,2022,12(10):2350.

[33] WANG H L,JIANG Q,SUN Z Y,et al. Identification of stripe rust and leaf rust on different wheat varieties based on image processing technology[J]. Agronomy,2023,13(1):260-265.

[34] BOUSSET L,PALERME M,LECLERC M,et al. Automated image processing framework for analysis of the density of fruiting bodies of Leptosphaeria maculans on oilseed rape stems[J]. Plant Pathology,2019,68(9):1749-1760.

[35] MAO R,WANG Z C,LI F L,et al. GSEYOLOX-s:an improved lightweight network for identifying the severity of wheat fusarium head blight[J]. Agronomy,2023,13(1):242-247.

[36] ISMAILI M,KRIMISSA S,NAMOUS M,et al. Assessment of soil suitability using machine learning in arid and semi-arid regions[J]. Agronomy,2023,13(1):165-168.

[37] CHAKRABORTY M,MALKANI A,BISWAS K. Handheld soil moisture meter using polymer coated sensor[J]. IEEE Instrumentation Measurement Magazine,2019,22(5):24-29.

[38] HAO J,LI F S,JIANG X Y,et al. Improvement approach for determination of cadmium at trace levels in soils by handheld X-ray fluorescence analyzers[J]. Spectrochimica Acta Part B:Atomic Spectroscopy,2023,206:106711.

[39] LIU M. Modified monitoring system of soil temperature based on ARM[J]. Environmental Technology Innovation,2021,21:101346.

[40] KELLY T D,F(xiàn)OSTER T,SCHULTZ D M,et al. The effect of soil-moisture uncertainty on irrigation water use and farm profits[J]. Advances in Water Resources,2021,154:103982.

[41] ZHANG Y K,HARTEMINK A E. Quantifying short-range variation of soil texture and total carbon of a 330-ha farm[J]. CATENA,2021,201:105200.

[42] KRISHNAN S,INDU J. Assessing the potential of temperature/vegetation index space to infer soil moisture over Ganga Basin[J]. Journal of Hydrology,2023,621:129611.

[43] QIU Q,ZHENG C F,WANG W P,et al. A new strategy in observer modeling for greenhouse cucumber seedling growth[J]. Frontiers in Plant Science,2017,8:1297.

[44] REBOUH N Y,MOHAMED E S,POLITYKO P M,et al. Towards improving the precision agriculture management of the wheat crop using remote sensing:a case study in central non-black earth region of Russia[J]. The Egyptian Journal of Remote Sensing and Space Sciences,2023,26(3):505-517.

[45] QI H X,WU Z Y,ZHANG L,et al. Monitoring of peanut leaves chlorophyll content based on drone-based multispectral image feature extraction[J]. Computers and Electronics in Agriculture,2021,187:106292.

[46] CHENG Y J,ZHANG K,CHAO L J,et al. A comprehensive drought index based on remote sensing data and nested copulas for monitoring meteorological and agroecological droughts:a case study on the Qinghai-Tibet Plateau[J]. Environmental Modelling Software,2023,161:105629.

[47] QIAN X M,QI H W,SHANG S H,et al. Deep learning-based near-real-time monitoring of autumn irrigation extent at subpixel scale in a large irrigation district[J]. Agricultural Water Management,2023,284:108335.

[48] GARCíA-MARTíNEZ H,F(xiàn)LORES-MAGDALENO H,KHALIL-GARDEZI A,et al. Digital count of corn plants using images taken by unmanned aerial vehicles and cross correlation of templates[J]. Agronomy,2020,10(4):469.

[49] KUMAR D,KUSHWAHA S,DELVENTO C,et al. Affordable phenotyping of winter wheat under field and controlled conditions for drought tolerance[J]. Agronomy,2020, 10(6):882.

[50] CHO B H,LEE K B,HONG Y,et al. Determination of internal quality indices in oriental melon using snapshottype hyperspectral image and machine learning model[J]. Agronomy,2022,12(9):2236.

[51] MURADYAN V,TEPANOSYAN G,ASMARYAN S,et al. Estimating Mo,Cu,Ni,Cd contents in the crop leaves growing on small land plots using satellite data[J]. Communications in Soil Science and Plant Analysis,2020,51(11):1457-1468.

[52] YANG M,XU X G,LI Z Y,et al. Remote sensing prescription for rice nitrogen fertilizer recommendation based on improved NFOA model[J]. Agronomy,2022,12(8):1804-1810.

[53] LI L,HASSAN M A,YANG S R,et al. Development of imagebased wheat spike counter through a faster R-CNN algorithm and application for genetic studies[J]. The Crop Journal,2022,10(5):1303-1311.

[54] 郝雯柯,楊建林. 基于語義表示和動態(tài)主題模型的社科領(lǐng)域新興主題預(yù)測研究[J]. 情報理論與實踐,2023,46(2):184-193.

[55] 應(yīng)繼鋒,劉定富,趙健. 第5代(5G)作物育種技術(shù)體系[J]. 中國種業(yè),2020(10):1-3.

[56] 孫巍,李周晶,馬曉敏,等. 2023全球農(nóng)業(yè)研究熱點前沿分析解讀[J]. 農(nóng)學(xué)學(xué)報,2024,14(3):5-9.

[57] 汪海,賴錦盛,王海洋,等. 作物智能設(shè)計育種:自然變異的智能組合和人工變異的智能創(chuàng)制[J]. 中國農(nóng)業(yè)科技導(dǎo)報,2022,24(6):1-8.

作者簡介

齊世杰,女,碩士,助理研究員,研究方向:科學(xué)計量學(xué)、文本挖掘。

串麗敏,女,博士,副研究員,通信作者,研究方向:智能知識服務(wù)技術(shù),E-mail:Chuanll@agri.ac.cn。

趙靜娟,女,碩士,副研究員,研究方向:科技情報研究。

張輝,男,碩士,助理研究員,研究方向:智能知識服務(wù)技術(shù)。

賈倩,女,碩士,助理研究員,研究方向:科技情報分析技術(shù)。

Emerging Cross Topic Recognition in the Field Based on Topic Models: Taking Intelligent Crop Breeding as an Example

QI ShiJie CHUAN LiMin ZHAO JingJuan ZHANG Hui JIA Qian

(Institute of Data Science and Agricultural Economics, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, P. R. China)

Abstract: Accurately identifying cutting-edge interdisciplinary topics helps to understand the development context of disciplines, explore key development directions in the field, and provide references for future innovative and breakthrough research. The article proposes a method for identifying emerging cross topics. Firstly, a method for calculating the interdisciplinary degree of a paper is proposed, which combines disciplinary diversity and cohesion. By using this method, papers with high interdisciplinary degree are selected to obtain potential datasets. Then, the study utilizes an improved LDA model combined with domain dictionaries to identify research topics. Finally, by constructing a multidimensional emerging topic measurement model that integrates novelty, breakthrough, and influence, the study identifies emerging cross topics. This study conducts empirical analysis in the field of intelligent crop breeding, identifies 4 emerging cross topics, and validates the effectiveness of the method through literature analysis. The research findings offer valuable insights for the research and application of identifying emerging cross topics based on scientific papers.

Keywords: Interdisciplinary Research; Emerging Topic Recognition; Topic Modeling; Intelligent Crop Breeding

(責(zé)任編輯:王瑋)

伊金霍洛旗| 唐山市| 开化县| 西林县| 寻乌县| 新龙县| 赤水市| 万全县| 崇信县| 淮安市| 天祝| 丹阳市| 吴旗县| 宜黄县| 尼玛县| 塘沽区| 阿城市| 平乐县| 察隅县| 犍为县| 永新县| 怀来县| 静海县| 博乐市| 修武县| 娄烦县| 错那县| 含山县| 称多县| 镇康县| 合江县| 常州市| 璧山县| 兰西县| 偃师市| 八宿县| 天镇县| 奉新县| 南京市| 肥西县| 仙居县|