国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的石斛研究可視化分析與構(gòu)建①

2022-06-28 10:06:36李石榮符茂勝周先存王成佘德勇
關(guān)鍵詞:石斛圖譜可視化

李石榮, 符茂勝, 周先存, 王成, 佘德勇

1.皖西學(xué)院 電子與信息工程學(xué)院,安徽 六安 237012; 2.霍山縣天下澤雨生物科技發(fā)展有限公司,安徽 六安 237200; 3.皖西學(xué)院 生物與制藥工程學(xué)院,安徽 六安 237012

特色植物資源以其獨特的藥用價值和商用價值而備受政府的關(guān)注,在國民經(jīng)濟中具有重要的作用.十九屆四中全會《決定》提出: 要強化提高人民健康水平的制度保障,堅持以基層為重點、預(yù)防為主、防治結(jié)合、中西醫(yī)并重[1].山區(qū)作為中藥材產(chǎn)業(yè)的重要基地,因其獨特的地理位置而擁有豐富的石斛、天麻等多種特色植物資源[2].特色植物資源的研究與開發(fā)可促進山區(qū)的經(jīng)濟發(fā)展、增加就業(yè)崗位和提高國民收入.目前,對特色植物的研究成果較多,任剛等[3]對鐵皮石斛的葉子中所含的主要化學(xué)成分進行了研究,并首次提取了若干化合物; 袁青松等[4]針對環(huán)境溫度、種子品種對天麻抽薹特性的影響進行了相關(guān)的研究,得出烏天麻和紅天麻的種子在發(fā)育過程中抽薹生產(chǎn)的最佳溫度; 張宗源等[5]主要研究了組蛋白乙?;煞謱`芝的生長、多糖和酸生物合成等方面的影響,得出可通過人為調(diào)控靈芝生長發(fā)育過程進而影響靈芝酸生物合成組蛋白乙?;?/p>

石斛作為特色植物資源中一種名貴的中藥材而受到研究學(xué)者和機構(gòu)的廣泛關(guān)注.當前對石斛的研究大部分僅限于氣候、土壤、地理位置或成分分析等內(nèi)容[6-8],在信息化建設(shè)發(fā)展上相對滯后,如何利用智能化手段挖掘石斛資源潛在的數(shù)據(jù)信息,構(gòu)建“一張圖”綜合服務(wù)平臺,有利于優(yōu)化產(chǎn)業(yè)結(jié)構(gòu),便于政府和企業(yè)對石斛資源進行優(yōu)化整合和決策管理,有利于促進新時期地區(qū)產(chǎn)業(yè)的經(jīng)濟發(fā)展.隨著計算機網(wǎng)絡(luò)和大數(shù)據(jù)處理技術(shù)的不斷發(fā)展,近些年來,基于大數(shù)據(jù)的知識圖譜可視化分析得到了廣泛的研究和應(yīng)用[9-15].將知識圖譜應(yīng)用于日常生活和行業(yè)發(fā)展是未來的發(fā)展趨勢.目前,知識圖譜可視化在智慧教育、智能醫(yī)療和智慧農(nóng)業(yè)等多個領(lǐng)域已經(jīng)實現(xiàn)了成功的應(yīng)用[16-22].侯夢薇等[16]指出醫(yī)學(xué)知識圖譜在臨床決策知識、語義檢索等醫(yī)療服務(wù)中具有重要的意義,通過集成術(shù)語構(gòu)建大規(guī)模的知識圖譜可解決醫(yī)療中存在的資源不足和需求矛盾等重要問題.Chen等[18]提出了一種KnowEdu系統(tǒng),利用神經(jīng)序列標記算法提取教學(xué)概念,通過概率關(guān)聯(lián)規(guī)則挖掘教育領(lǐng)域的重要信息.陳曦等[19]指出基于課程知識圖譜的預(yù)測算法可降低預(yù)測誤差,獲得更好的學(xué)生成績預(yù)測效果.侯麗等[20]對我國農(nóng)業(yè)重金屬污染現(xiàn)狀進行了知識圖譜可視化研究,為農(nóng)田污染的治理提供了智慧決策.杜師博等[21]對國內(nèi)景觀評價方法進行了可視化分析,直觀地揭示了國內(nèi)景觀評價方法的發(fā)展現(xiàn)狀、研究熱點和動態(tài)方向,為政府和商家提供了智慧性決策方案.王友發(fā)等[22]總結(jié)了近20年智能制造研究的熱點并對前沿進行挖掘,提出了未來智能制造的可能發(fā)展方向.

目前知識圖譜已經(jīng)在多個行業(yè)中實現(xiàn)了成功的研究和應(yīng)用,然而關(guān)于特色植物資源的圖譜應(yīng)用卻很少,尤其是關(guān)于石斛的知識圖譜可視化分析的研究文獻更少.石斛作為一種特色植物資源在國民經(jīng)濟和社會發(fā)展中具有重要的作用,本文基于CNKI數(shù)據(jù)庫中有關(guān)石斛的文獻,利用大數(shù)據(jù)技術(shù)對獲取的數(shù)據(jù)進行知識抽取和融合,實現(xiàn)面向石斛的大數(shù)據(jù)知識圖譜可視化分析,可直觀地描述石斛資源政策、產(chǎn)業(yè)和研究方向的相關(guān)信息.實驗選取了與石斛研究相關(guān)的作者、機構(gòu)和關(guān)鍵詞等內(nèi)容進行了相應(yīng)的知識圖譜可視化分析,根據(jù)分析的結(jié)果并通過分詞和詞性標注來進行針對性的信息抽取,通過半監(jiān)督訓(xùn)練實現(xiàn)經(jīng)驗數(shù)據(jù)打標簽,最后將打標整理好的數(shù)據(jù)存入數(shù)據(jù)庫并導(dǎo)入Neo4j平臺實現(xiàn)知識圖譜的構(gòu)建.實驗結(jié)果表明: 近20年來有關(guān)石斛的文獻研究經(jīng)歷了“緩慢增長、快速增長和穩(wěn)定波動”3個階段; 作者與機構(gòu)的聚類網(wǎng)呈現(xiàn)“一主網(wǎng)集中、多小網(wǎng)分散”的關(guān)系,有關(guān)石斛研究的大部分作者和機構(gòu)之間存在合作關(guān)系,石斛研究的科研單位主要與石斛生長的地理位置有關(guān),石斛研究的作者和機構(gòu)隨著時間的變化也會有所變動; 關(guān)鍵詞共現(xiàn)和聚類分析結(jié)果顯示: 有關(guān)石斛研究的聚類關(guān)鍵詞可主要聚集為5大類,即糖尿病、多糖、石斛、遺傳穩(wěn)定性和數(shù)據(jù)挖掘.聚類糖尿病主要側(cè)重于石斛的中醫(yī)療效、免疫功能等內(nèi)容; 聚類多糖主要側(cè)重于石斛主要成分、采收期、提取工藝等內(nèi)容; 聚類石斛主要側(cè)重于石斛的種類、栽培技術(shù)、產(chǎn)業(yè)推廣等內(nèi)容; 聚類遺傳穩(wěn)定性主要側(cè)重于石斛的組織培養(yǎng)、遺傳基因、光合作用等內(nèi)容; 聚類數(shù)據(jù)挖掘主要側(cè)重于石斛的中醫(yī)傳承輔助平臺、用藥規(guī)律、關(guān)聯(lián)規(guī)則等內(nèi)容.關(guān)鍵詞聚類圖譜可視化結(jié)果分別從石斛的藥用、成分、屬性、遺傳性和智能數(shù)據(jù)分析方面對石斛研究進行系統(tǒng)性的分析和展示,對熱點的分析也反映了近20年來研究機構(gòu)對石斛研究重點的遷移變化.根據(jù)石斛研究知識圖譜可視化分析的結(jié)果,利用Python網(wǎng)絡(luò)爬蟲抓取知網(wǎng)摘要關(guān)鍵詞,根據(jù)分詞和詞性標注建立信息抽取訓(xùn)練模型,通過經(jīng)驗分析和半監(jiān)督訓(xùn)練對數(shù)據(jù)進行打標簽,最后將整理好的打標數(shù)據(jù)存入數(shù)據(jù)庫并導(dǎo)入Noe4j平臺,實現(xiàn)具有石斛研究針對性的知識圖譜結(jié)果.本文不僅基于Citespace軟件實現(xiàn)了石斛研究知識圖譜可視化分析,而且根據(jù)分析的結(jié)果建立半監(jiān)督訓(xùn)練信息抽取模型,最終構(gòu)建了針對石斛研究的知識圖譜.

本文利用CNKI數(shù)據(jù)庫關(guān)于石斛研究的數(shù)據(jù)資源,結(jié)合Citespace軟件對石斛的研究動態(tài)、機構(gòu)合作、摘要關(guān)鍵詞與熱點等內(nèi)容做圖譜分析,構(gòu)建了面向石斛資源研究的“一張圖”.得到的圖譜可以為有關(guān)石斛研究人員和機構(gòu)的研究方向提供參考性建議,為有關(guān)地方政府和商戶提供重要的決策信息和指導(dǎo),對促進石斛研究、提高石斛的產(chǎn)業(yè)化、帶動地方經(jīng)濟的發(fā)展和提高國民收入具有重要的意義.

1 知識圖譜可視化分析與構(gòu)建原理

1.1 可視化分析

本文利用Citespace軟件對知網(wǎng)數(shù)據(jù)進行可視化處理,流程圖如圖1所示.可視化過程主要分為4個步驟: 數(shù)據(jù)準備、參數(shù)設(shè)置、聚類分析與圖譜分析.

圖1 可視化分析流程圖

1.1.1 數(shù)據(jù)準備

從CNKI數(shù)據(jù)庫下載的數(shù)據(jù)并不能直接應(yīng)用于Citespace軟件進行分析,可通過軟件自帶數(shù)據(jù)轉(zhuǎn)換功能,對數(shù)據(jù)進行格式轉(zhuǎn)換.建立兩個文件夾,分別用于存儲原始數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù).

1.1.2 參數(shù)設(shè)置

Citespace軟件在建立項目過程中需要對參數(shù)進行設(shè)置,主要參數(shù)為時間分割、節(jié)點閾值篩選、網(wǎng)絡(luò)精簡、強度關(guān)聯(lián).

1.1.2.1 時間分割

時間分割的主要功能是對分析的數(shù)據(jù)在時間段上進行分割,確定時間跨度,分析石斛在各個時間段的主要研究熱度和變化趨勢.

1.1.2.2 節(jié)點閾值篩選

節(jié)點閾值篩選主要用于在設(shè)定的時間段內(nèi)提取所需對象的個數(shù).閾值篩選包括在增加規(guī)模因子k的基礎(chǔ)上,通過g指數(shù)進行排名修正實現(xiàn)對知識單元的抽?。綖?/p>

(1)

其中k為規(guī)模因子,分別取10,20,30,…依次進行嘗試;ci為第i文獻被引用次數(shù).

1.1.2.3 網(wǎng)絡(luò)精簡

Citespace軟件中主要提供了兩種網(wǎng)絡(luò)精簡算法,尋徑網(wǎng)絡(luò)(pathfinder network,PFNET)算法和最小生成樹(minimum spanning tree,MST)算法.

1.1.2.3.1 PFNET算法

PFNET網(wǎng)絡(luò)算法的主要結(jié)構(gòu)由兩個參數(shù)確定,基于閔氏距離的網(wǎng)絡(luò)節(jié)點路徑長度r和滿足三角不等式的連接數(shù)量最大值q.當r=2時,距離測度為歐氏距離.測度空間確定時,三角不等式的關(guān)系可定義為

(2)

式中,wij表示第i和j節(jié)點之間的連接權(quán)重,wnknk+1表示第nk和nk+1節(jié)點之間的連接權(quán)重,k=1,2,3,….當?shù)趇=n1和j=nk時,備選路徑將經(jīng)過所有節(jié)點,該網(wǎng)絡(luò)包含所有中間連線.若備選路線權(quán)重小于wij的值,那么等式不成立,第i和j節(jié)點之間的連接線將被刪除.q參數(shù)主要用于備選路線,取[2,N-1]內(nèi)任意整數(shù),N為節(jié)點的個數(shù).當r→∞時,q=N-1,網(wǎng)絡(luò)可實現(xiàn)最大裁剪能力.

1.1.2.3.2 MST算法

最小生成樹算法的構(gòu)造是利用連通網(wǎng)構(gòu)造實現(xiàn)代價最小的生成樹.給定一個無向圖G=(V,E),V和E分別表示數(shù)字頂點集和邊集,若存在邊集T為E的子集并且為無循環(huán)圖,同時滿足等式(2)且值最小,則T為滿足該條件的最小生成樹.

(3)

式中(i,j)表示頂點i和j連接的邊,w(i,j)表示(i,j)的權(quán)重.

無論是采用MST算法還是PFNET算法,目的都是希望對生成的網(wǎng)絡(luò)進行裁剪,降低網(wǎng)絡(luò)的復(fù)雜性和提高圖譜的可讀性.與PFNET算法相比,MST算法得到的圖譜會更加簡潔清晰,但丟失的節(jié)點信息更多.對于圖譜過于龐大和混亂時,需要選擇PFNET算法得到的修剪效果會更好.

1.1.2.4 強度關(guān)聯(lián)

Citespace軟件提供了網(wǎng)絡(luò)分布中用于計算連接強度的cosine算法,如公式(4):

(4)

標準化后的數(shù)值在0~1之間,其中cij表示節(jié)點i和j共現(xiàn)次數(shù),si表示節(jié)點i共現(xiàn)的頻次,sj表示節(jié)點j共現(xiàn)的頻次.

1.1.3 聚類分析

Citespace主要利用最大期望(EM)聚類算法對網(wǎng)絡(luò)節(jié)點進行聚類處理.首先,將所有節(jié)點隨機地分配到K個聚類簇中; 其次,統(tǒng)計每個節(jié)點在K個聚類簇中的分布比例; 再次,求出模型所需的參數(shù).輸入m個樣本觀察數(shù)據(jù)x=(x(1),x(2),…,x(m)),找到樣本的模型參數(shù)θ,極大化模型的對數(shù)似然函數(shù)為

(5)

由于觀察數(shù)據(jù)中存在未觀察到的隱含數(shù)據(jù)z=(z(1),z(2),…,z(m)),此時極大化模型的似然函數(shù)可變?yōu)?/p>

(6)

為求出模型參數(shù),對式子進行縮放可得

(7)

Qi(z(i))為未知的分布,根據(jù)詹森不等式,由上式可以得到

(8)

公式(6)中包含隱含數(shù)據(jù)的對數(shù)似然下界,通過去掉常數(shù)部分,可將極大化對數(shù)似然下界表示為

(9)

最后,將得到的每個詞分別分配給K聚類簇的概率,選取K個數(shù)值中最大值作為該詞所屬的聚類簇.

Citespace提供了從標題、關(guān)鍵詞和摘要中提取聚類命名,提供的算法主要有潛語義索引算法、假設(shè)檢驗算法和互信息算法,可提取研究術(shù)語并強調(diào)研究特征.

1.1.4 圖譜分析

選擇合適的研究術(shù)語、時間分割跨度、閾值、精簡算法進行可視化顯示,借助軟件提供的可視化工具選項對圖譜進行美化,也可以利用提供的網(wǎng)絡(luò)計算功能對圖譜網(wǎng)絡(luò)進行深度分析,最后對分析的結(jié)果進行驗證.

1.2 知識圖譜構(gòu)建

本文利用信息抽取技術(shù)、半監(jiān)督學(xué)習(xí)算法和Neo4j平臺等相結(jié)合方法對知網(wǎng)數(shù)據(jù)庫近20年的文獻作者、機構(gòu)、年份和關(guān)鍵詞等進行處理,構(gòu)建針對石斛研究領(lǐng)域的知識圖譜.

1.2.1 信息抽取

知識圖譜的構(gòu)建離不開對實體進行識別,借助詞性標簽,從有關(guān)石斛的摘要內(nèi)容中提取重要詞語.當需要的關(guān)鍵詞語跨越多個詞語時,僅僅利用詞性標簽是不夠的,需要解析句子中的詞語之間的依賴關(guān)系即依賴解析.如提取關(guān)鍵詞和修飾詞、提取復(fù)合詞、提取詞語之間的標點符號等.圖譜實體之間的關(guān)系抽取也需要使用依賴解析,提取實體關(guān)系需要構(gòu)建實體與關(guān)系之間的架構(gòu).

1.2.2 半監(jiān)督學(xué)習(xí)算法

半監(jiān)督學(xué)習(xí)充分將監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的優(yōu)勢相結(jié)合,通過少量的數(shù)據(jù)樣本對總體數(shù)據(jù)進行訓(xùn)練,降低人工成本和提高工作效率.本文利用Bootstrapping算法對石斛研究關(guān)鍵詞語進行關(guān)系抽取,對數(shù)據(jù)進行訓(xùn)練后實現(xiàn)標簽設(shè)置.主要步驟有:

1) 人工標記少量石斛研究相關(guān)數(shù)據(jù)作為種子集并訓(xùn)練一個初始實體識別模型;

2) 設(shè)定條件概率閾值,將實體識別模型對未標記數(shù)據(jù)進行預(yù)測處理獲取數(shù)據(jù)關(guān)系標簽和概率大小,當輸出概率大于閾值時,將數(shù)據(jù)標記為可靠數(shù)據(jù)并組成一個可靠集;

3) 當該可靠集數(shù)據(jù)大于500條時,將可靠集與種子集合并成一個新的標注數(shù)據(jù)集,重新訓(xùn)練獲取實體識別模型;

4) 重復(fù)上述步驟,直至結(jié)束.

1.2.3 Neo4j平臺顯示

選擇Neo4j作為知識圖譜構(gòu)建平臺,將提取的實體和關(guān)系進行打標簽并整理好,導(dǎo)入數(shù)據(jù)庫并在Neo4j平臺中顯示.

2 實驗結(jié)果與分析

由于Citespace軟件對CNKI的數(shù)據(jù)分析功能有限,本實驗就文獻的概況、作者與機構(gòu)分析、關(guān)鍵詞與熱點分析等幾個部分內(nèi)容作重點分析,最后利用半監(jiān)督模型訓(xùn)練后在Neo4j平臺構(gòu)建知識圖譜.

2.1 數(shù)據(jù)收集和處理

本文在中國知網(wǎng)下載了有關(guān)石斛的文獻,選取主體為“石斛”進行檢索,時間、作者、單位等條件不限,初步統(tǒng)計文獻有9 024篇,刪除檢索結(jié)果中的新聞、會議通知和重復(fù)等內(nèi)容,最終獲得文獻共計5 729篇作為本次實驗的基礎(chǔ)數(shù)據(jù).

本文是基于石斛的知識圖譜可視化分析,主要就研究領(lǐng)域的作者、機構(gòu)、關(guān)鍵詞等核心內(nèi)容進行分析與篩選,展示石斛在不同階段研究關(guān)注的熱點、發(fā)展動態(tài)等,揭示未來的石斛發(fā)展趨勢.

2.2 文獻基礎(chǔ)分析

不同年份關(guān)于石斛研究的文獻數(shù)量可以反映出該領(lǐng)域研究的熱點和趨勢,從圖2中可以看出有關(guān)石斛近20年研究文獻的變化趨勢,有關(guān)石斛的研究經(jīng)歷了3個階段: 緩慢增長、快速增長和穩(wěn)定波動.

緩慢增長階段: 2001-2011年,有關(guān)石斛的研究文獻在10年內(nèi)從約100篇穩(wěn)步增長到約400篇,石斛瀕危問題得到了較好的解決,關(guān)于石斛的商業(yè)化生產(chǎn)仍處于起步階段,關(guān)于石斛的研究、種植和銷售等方面引起了廣大研究學(xué)者和政府部門人員的關(guān)注[23].

快速增長階段: 2012-2015年,石斛的研究文獻在這個時間段內(nèi)實現(xiàn)了快速增長,2015年達到了約800篇,關(guān)于石斛的研究和商業(yè)化處于快速發(fā)展時期,期間如鐵皮石斛、霍山石斛等品種在中藥研究、品種培育和商業(yè)推廣等方面取得了眾多成果[24-25].

穩(wěn)定波動階段: 2016-2019年,石斛的研究文獻在這個期間處于緩慢增長和波動階段,關(guān)于石斛的研究和商業(yè)化基本上處于成熟階段,石斛未來的研究朝向多元化和智能化發(fā)展[26].

文獻的來源期刊可直接反映石斛研究的熱點,如圖3所示,有關(guān)石斛研究的文獻期刊主要為與中藥材和農(nóng)業(yè)發(fā)展相關(guān)的期刊.

圖2 石斛相關(guān)文獻發(fā)表量年度趨勢

圖3 石斛研究文獻期刊分布

2.3 作者與研究機構(gòu)分析

作者是研究石斛的主體,作者之間的聯(lián)系可以觀察出在石斛研究過程中的合作交流情況,運用Citespace軟件可以獲得關(guān)于石斛研究的作者圖譜原圖、MST圖譜和PFNET圖譜.如圖4-圖6所示,原圖譜、MST圖譜和PFNET圖譜的節(jié)點均為799個,連線分別為1 419,710和1 105個,網(wǎng)絡(luò)密度分別為0.004 5,0.002 2和0.003 5.與原圖譜相比,MST圖譜和PFNET圖譜更加清晰簡捷,但部分節(jié)點信息會被省略,與PFNET圖譜相比,MST圖譜丟失了更多的結(jié)構(gòu)信息.

圖4 作者圖譜原圖

圖5 MST作者圖譜

圖6 PFNET作者圖譜

統(tǒng)計核心作者的發(fā)文數(shù)量,有關(guān)石斛研究的發(fā)文量大于20篇的作者共有42人,從圖5-圖6中可以看出作者之間的關(guān)系主要分為幾大聚類關(guān)系,大部分作者之間存在一種合作研究關(guān)系.表1展示了石斛研究的主要作者,從圖5-圖6圖譜中可以發(fā)現(xiàn),這些作者在整個石斛的研究過程中起到重要的作用.其中陳乃富、魏剛、郭順星等作者組成了一張較大的研究關(guān)系網(wǎng),而宋希強、李澤生等作者各自組成了較小的研究關(guān)系網(wǎng),石斛研究領(lǐng)域作者關(guān)系網(wǎng)呈現(xiàn)的是“大網(wǎng)集中,多網(wǎng)分散”的趨勢.表2給出的是作者在不同時間段對石斛研究的主要內(nèi)容變化,體現(xiàn)石斛研究演變趨勢.

表1 石斛研究部分核心作者發(fā)文量統(tǒng)計表

表2 作者石斛研究主要內(nèi)容變化

機構(gòu)是石斛研究的主要平臺,石斛研究的主要機構(gòu)包括科研院校、研究所和企業(yè)等.圖7為MST算法處理的機構(gòu)知識圖譜,可以發(fā)現(xiàn)有關(guān)石斛的研究基本上為科研院校和研究所,其中郭順星研究員所在的中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院藥用植物研究所、魏剛研究員所在的廣州中醫(yī)藥大學(xué)和陳乃富教授所在的皖西學(xué)院生物與制藥工程學(xué)院等單位均為石斛主要的研究和發(fā)文機構(gòu),圖譜結(jié)果可以看出研究機構(gòu)之間的合作關(guān)系強度.從圖譜結(jié)果的側(cè)面分析可以得出,廣州中醫(yī)藥大學(xué)發(fā)文數(shù)量最高達到了189篇,其余包括皖西學(xué)院在內(nèi)的9家研究機構(gòu)發(fā)文量也突破了100篇,體現(xiàn)了這些高校和科研院所對石斛研究的深度.

圖7 研究機構(gòu)知識圖譜

由于作者是研究機構(gòu)的主體,基于時序的作者知識圖譜可視化分析可直接反映出研究機構(gòu)在石斛領(lǐng)域的變化情況.圖8給出的是通過聚類得到的近20年來機構(gòu)基于時序的知識圖譜可視化圖.聚類結(jié)果主要是通過對關(guān)鍵詞進行聚類分析獲取,每個聚類結(jié)果中包含多個關(guān)鍵詞,不影響作者的時序圖譜.時序圖譜可以看出研究機構(gòu)對石斛研究的參考文獻從什么時間開始出現(xiàn)、聚類結(jié)果對應(yīng)的研究機構(gòu)所出成果從哪些年份開始增多以及聚類結(jié)果在哪些年份關(guān)注度開始降低等內(nèi)容.從圖8中可以看出,郭順星、陳曉梅等所在的中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院藥用植物研究所從2000年開始就已對石斛的栽培生長、主要成分和基因分析等內(nèi)容進行了研究并持續(xù)至今,在石斛研究領(lǐng)域具有一定的廣度和深度; 羅建平、劉詠等所在的合肥工業(yè)大學(xué)生物與食品工程學(xué)院主要從2005年開始對霍山石斛的原球莖、多糖等進行了研究; 陳乃富、韓邦興等所在的皖西學(xué)院主要從2009年開始對霍山石斛的生長栽培、遺傳性和藥用性等進行了研究; 李澤生、李桂琳等所在的云南省德宏熱帶農(nóng)業(yè)科學(xué)研究所主要從2011年開始對石斛的生長、產(chǎn)業(yè)化等內(nèi)容進行了研究.

圖8 研究機構(gòu)主體知識圖譜時序圖

圖9展示了近20年來根據(jù)時間段對石斛研究的主要研究院所關(guān)聯(lián)強度顯示圖.可以發(fā)現(xiàn)廣西壯族自治區(qū)農(nóng)科院花卉研究所和云南農(nóng)業(yè)大學(xué)園林園藝學(xué)院是最早開始研究石斛的研究所和高校,這與廣西、云南地理環(huán)境和盛產(chǎn)石斛有關(guān),但持續(xù)時間僅到2007年.聯(lián)系最強的前三個單位是安徽農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院、貴州師范大學(xué)生命科學(xué)學(xué)院和皖西學(xué)院生物與制藥工程學(xué)院,這與貴州金釵石斛和安徽霍山石斛的藥用價值高和近些年得到政府和科研院所的重視有關(guān).時間最近的兩個單位為皖西學(xué)院生物與制藥工程學(xué)院和浙江工業(yè)大學(xué),這也體現(xiàn)了近幾年來這兩個單位對石斛的研究成果較多.

圖9 石斛研究機構(gòu)關(guān)聯(lián)強度圖

多數(shù)石斛的生長與地理位置具有較強的關(guān)系.表3為我國主要的幾種石斛與地理位置、生長環(huán)境關(guān)系統(tǒng)計表.表3中可以看出球花石斛、霍山石斛和鐵皮石斛等不同品種所在的生長地區(qū)有所差異,主要與不同品種石斛對生長環(huán)境的要求各不相同有關(guān),這與圖7、圖9所示的研究機構(gòu)知識圖譜和關(guān)聯(lián)強度圖相契合.石斛研究機構(gòu)主要以云南、安徽、廣西、四川和貴州等少數(shù)省份為主,部分經(jīng)濟發(fā)達地區(qū)如北京、廣州等城市的少數(shù)研究機構(gòu)在石斛研究領(lǐng)域也有所涉及.

表3 石斛種類與地理位置統(tǒng)計表

2.4 關(guān)鍵詞與熱點分析

2.4.1 關(guān)鍵詞共現(xiàn)分析

圖10 石斛研究關(guān)鍵詞共現(xiàn)圖譜原圖

關(guān)鍵詞是表達文獻核心內(nèi)容的重要信息,也是研究該領(lǐng)域重點的提煉,在一定程度上可以反映該領(lǐng)域的研究發(fā)展方向和研究的方法技術(shù).運用Citespace軟件可以生成有關(guān)石斛研究的關(guān)鍵詞共現(xiàn)知識圖譜,如圖10-圖12所示,分別為圖譜原圖、MST圖譜和PFNET圖譜.由于圖譜中的關(guān)鍵詞較多,得到的原圖圖譜比較龐大和混亂,MST算法和PFNET算法可解決這個問題.如圖11所示,MST圖譜可以展示有關(guān)石斛研究的核心關(guān)鍵詞,其中鐵皮石斛、多糖、組織培養(yǎng)等是石斛研究的重要關(guān)鍵詞,關(guān)鍵詞部分主要涉及到石斛的品種、培育生長、成分提取與分析、藥用價值和產(chǎn)業(yè)化等內(nèi)容.石斛的品種主要分為鐵皮石斛、霍山石斛和金釵石斛等,其中鐵皮石斛需要生長在海拔較高的山谷和樹木上,霍山石斛需要生長在海拔較高的懸崖峭壁石縫中或古樹上; 鐵皮石斛的花、莖、葉均可入藥,而金釵石斛只有莖可以入藥; 石斛中的多糖可用于治療糖尿病,其中霍山石斛的藥用滋陰功能較其他兩種石斛更強; 霍山石斛由于需要野生栽培,故其產(chǎn)業(yè)化推廣應(yīng)用最差.

圖11 石斛研究關(guān)鍵詞共現(xiàn)MST圖譜

圖12 石斛研究關(guān)鍵詞共現(xiàn)PFNET圖譜

2.4.2 關(guān)鍵詞聚類分析

Citespace軟件中關(guān)于關(guān)鍵詞聚類時間線的可視化視圖可用于描繪聚類時間的關(guān)系以及聚類中文獻的歷史跨度.如圖13所示,有關(guān)石斛研究的關(guān)鍵詞聚類大體分為11類,本文重點分析糖尿病、多糖、石斛、遺傳穩(wěn)定性和數(shù)據(jù)挖掘5大聚類.

從聚類結(jié)果來看,聚類結(jié)構(gòu)較顯著(聚類模塊值為0.58),聚類較合理(聚類平均輪廓值為0.52).下面著重分析實驗得到的5個聚類.

圖13 關(guān)鍵詞知識圖譜時序圖

1) 糖尿?。饕獌?nèi)容有作用機制、降糖降脂、大鼠模型、免疫、脂多糖、抗炎等.可以看出從2000年開始研究石斛中所含的重要成分對糖尿病的作用機制,到2004年左右開始通過對糖尿病模型大鼠進行實驗,2007年開始提出了中醫(yī)藥療法,2012年開始研究石斛對降低人體血糖、抗炎和提高免疫力均有一定的療效,2017年開始提出西洋參、靈芝等中藥對改善糖尿病具有一定的效果.

2) 多糖.主要內(nèi)容有含量測定、采收期、提取工藝、原球莖等.2000年開始研究石斛多糖含量測定技術(shù)和成分提取方法,2005年開始研究石斛多糖抗氧化性能對抗衰老的作用,2015年開始研究石斛活性多糖對提高人體白細胞數(shù)量和提高免疫力等功效,2018年開始研究并提出鐵皮石斛花中含有的多糖具有抗脂質(zhì)過氧化作用和提高人體免疫力.

3) 石斛.主要內(nèi)容有鐵皮石斛、產(chǎn)品質(zhì)量、栽培技術(shù)、采收加工、產(chǎn)業(yè)開發(fā)等.該部分為類別涵蓋最多的一類聚類,該聚類合并了鐵皮石斛和霍山石斛等聚類關(guān)鍵詞,并首先對石斛的品種進行分類,對比不同品種石斛的品質(zhì)質(zhì)量; 其次對不同石斛的栽培技術(shù)進行研究,實現(xiàn)人工產(chǎn)業(yè)化栽培并進行專業(yè)的采收加工; 最后實現(xiàn)石斛產(chǎn)品的產(chǎn)業(yè)化推廣,推動地方經(jīng)濟建設(shè)的發(fā)展.

4) 遺傳穩(wěn)定性.主要內(nèi)容有組織培養(yǎng)、可控環(huán)境、遺傳多樣性、光合作用、篩選、適應(yīng)性等內(nèi)容.主要研究石斛在不同條件下遺傳穩(wěn)定性及蒴果之間的差異及有關(guān)遺傳穩(wěn)定性的問題.

5) 數(shù)據(jù)挖掘.主要內(nèi)容有中醫(yī)傳承輔助平臺、用藥規(guī)律、關(guān)聯(lián)規(guī)則、因子分析等.關(guān)于石斛數(shù)據(jù)挖掘的主要時間節(jié)點在2016年國務(wù)院發(fā)布《中國的中醫(yī)藥》白皮書后,強調(diào)要著力推動中醫(yī)藥發(fā)展,實現(xiàn)中醫(yī)藥健康養(yǎng)生文化的創(chuàng)新性.主要利用臨床數(shù)據(jù)信息的基礎(chǔ)數(shù)據(jù)庫對石斛在藥物進行描述性分析和系統(tǒng)聚類分析時,分析石斛在臨床治療上的療效.

圖13所示的關(guān)鍵詞共現(xiàn)時間線聚類圖譜中包含1 500多個節(jié)點和3 500多條連接線,圖譜可視性較弱,為提高圖譜可視性,可通過提高(c,cc,ccv)參數(shù),得到如圖14所示的圖譜.

圖14 關(guān)鍵詞知識圖譜簡化時序圖

簡化圖譜的節(jié)點和連接線降低為237個和462條,簡化后的圖譜聚類結(jié)果與原圖譜相似,可以看出聚類的結(jié)果重點圍繞石斛的品種、成分、生長、癥狀治療、遺傳特性和數(shù)據(jù)挖掘等重點內(nèi)容.與圖13相比,圖14中可以更清晰地看出每個聚類開始出現(xiàn)的時間、哪些年份聚類成果開始增多以及哪些年份關(guān)注度開始降低等內(nèi)容,圖譜隱藏的信息更多.

2.4.3 熱點分析

熱點可以反映出一段時間內(nèi)科研院所對該領(lǐng)域研究的動態(tài)變化過程.如圖15所示,運用Citespace軟件可以生成有關(guān)石斛研究的熱點可視化圖,共有26個突變型關(guān)鍵詞,強度在5.124 5到18.254 4之間,年度在2000-2019年.

從圖15中可以看出,石斛研究的起點較早、時間的跨度較長,有關(guān)石斛的研究熱點數(shù)量較多、強度較突出,雖然部分核心研究熱點未能展示出來,但從側(cè)面可以看出石斛領(lǐng)域研究和產(chǎn)業(yè)化的發(fā)展歷程.首先,有關(guān)石斛研究出現(xiàn)最早的熱點為DNA指紋圖譜和多糖,主要研究石斛的特征和所含主要成分; 其次是石斛的品種和培育,主要是對石斛進行更深層次的研究,將石斛納入中醫(yī)藥領(lǐng)域; 再次是石斛產(chǎn)業(yè)的需求分析,將石斛進一步推廣應(yīng)用,帶動就業(yè)和經(jīng)濟發(fā)展; 最后著重就市場上研究和應(yīng)用價值較高的鐵皮石斛進行深度研究,提取的多糖可以用于提高人體免疫力和降低血糖.

2.5 知識圖譜構(gòu)建結(jié)果

基于半監(jiān)督訓(xùn)練的知識圖譜構(gòu)建可以彌補Citespace軟件的缺點,它可以根據(jù)石斛研究的特點構(gòu)建針對性的實體關(guān)系抽取模型.圖16為基于半監(jiān)督學(xué)習(xí)訓(xùn)練模型并在Neo4j平臺中構(gòu)建的知識圖譜顯示結(jié)果.圖中選取了作者、發(fā)表期刊、關(guān)鍵詞、研究單位、2018年5種實體進行訓(xùn)練,可以清晰地看出5種實體之間的關(guān)系.鐵皮石斛、多糖、免疫調(diào)節(jié)等關(guān)鍵詞內(nèi)容是2018年的主要研究對象,每個研究對象對應(yīng)的作者、期刊和研究單位可以在圖中清晰地顯示.通過可視化結(jié)果分析、半監(jiān)督訓(xùn)練模型來進行實體識別和數(shù)據(jù)打標,構(gòu)建的圖譜可以較好地展示石斛領(lǐng)域的研究關(guān)系網(wǎng).

圖16 基于半監(jiān)督訓(xùn)練的知識圖譜構(gòu)建圖

3 總結(jié)

本文主要通過Citespace軟件對知網(wǎng)有關(guān)石斛文獻的摘要和關(guān)鍵詞數(shù)據(jù)進行知識圖譜可視化分析,并基于半監(jiān)督訓(xùn)練實現(xiàn)石斛領(lǐng)域的知識圖譜構(gòu)建.結(jié)果表明,有關(guān)石斛的研究呈現(xiàn)了“緩慢增長、快速增長和緩慢波動”的過程,有關(guān)石斛的研究趨于成熟化并傾向于專業(yè)化; 研究文獻來源分布廣泛,具有較強的專業(yè)性和地方性特色; 通過作者與機構(gòu)的聚類圖譜可以發(fā)現(xiàn),有關(guān)石斛研究的大部分作者和機構(gòu)具有相互合作關(guān)系,呈現(xiàn)較強關(guān)聯(lián)性,研究的科研單位更多與地理位置有關(guān),少數(shù)發(fā)達地區(qū)城市有關(guān)研究機構(gòu)在石斛領(lǐng)域也有所涉及; 通過關(guān)鍵詞和熱點的聚類分析發(fā)現(xiàn)整個石斛產(chǎn)業(yè)的發(fā)展變化趨勢,分別從石斛的醫(yī)療效果、成分分析與提取、產(chǎn)業(yè)化推廣、遺傳分析和數(shù)據(jù)挖掘等聚類部分較好地看出了石斛研究的核心方向.構(gòu)建的知識圖譜可以通過半監(jiān)督學(xué)習(xí)對實體進行知識抽取和打標,實現(xiàn)針對性的石斛研究知識圖譜可視化.由于訓(xùn)練和打標過程中需要人工選取實體和確定關(guān)系,工作量較大,下一步研究將嘗試結(jié)合自然語言處理、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等算法實現(xiàn)實體抽取和圖譜構(gòu)建.

猜你喜歡
石斛圖譜可視化
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
飛鼠與石斛
繪一張成長圖譜
基于CGAL和OpenGL的海底地形三維可視化
35 種石斛蘭觀賞價值評價
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
金釵石斛化學(xué)成分的研究
中成藥(2018年5期)2018-06-06 03:11:56
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動對接你思維的知識圖譜
如东县| 宜黄县| 湖南省| 莱阳市| 张家港市| 景泰县| 察隅县| 和龙市| 嘉禾县| 黄平县| 和静县| 宣恩县| 安多县| 无极县| 藁城市| 定襄县| 徐汇区| 同江市| 左权县| 兰溪市| 锡林浩特市| 长宁县| 梓潼县| 揭阳市| 祁门县| 临西县| 治县。| 鄱阳县| 卓资县| 陕西省| 大宁县| 龙南县| 昭苏县| 农安县| 贵阳市| 锡林郭勒盟| 攀枝花市| 内丘县| 新晃| 龙陵县| 习水县|