范建華,梁敏,劉布鳴,2
?
基于雙聚類的近10年羅漢果研究熱點可視化分析
范建華1,梁敏1,劉布鳴1,2
1.廣西中醫(yī)藥研究院,廣西南寧 530022;2.廣西中藥質(zhì)量標(biāo)準(zhǔn)研究重點實驗室,廣西南寧 530022
采用雙聚類和可視化法分析近10年羅漢果研究,了解其研究熱點及趨勢。計算機(jī)檢索中國知識資源總庫(CNKI)2007年1月-2016年12月羅漢果相關(guān)研究,檢索時間為2017年2月20日。采用BICOMB、NetDraw、gCLUTO及SPSS19.0軟件對納入文獻(xiàn)進(jìn)行雙聚類和可視化分析,提取關(guān)鍵詞并繪制社會關(guān)系網(wǎng)絡(luò)圖、可視化矩陣、山峰圖和多維尺度分析圖,分析高頻關(guān)鍵詞間的關(guān)聯(lián)。最終納入文獻(xiàn)723篇,其中2012-2016年該領(lǐng)域年發(fā)文量約為70篇;關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖包括76個關(guān)鍵詞,其中“羅漢果皂苷”“羅漢果甜苷”“提取工藝”“組培苗”“栽培技術(shù)”“品種”“生長發(fā)育”等處于核心地位;可視化矩陣和山峰圖表明,該領(lǐng)域研究主題主要可分為6類;研究熱點動態(tài)演化表明,“羅漢果花”“飲料”“總黃酮”“基因表達(dá)”“基因克隆”“酶”“凋亡”“羅漢果籽油”等將成為后續(xù)研究熱點。本研究揭示了近10年羅漢果研究逐漸成熟,正向深層次拓展。
羅漢果;雙聚類;可視化;BICOMB;gCLUTO;Ucinet;SPSS;數(shù)據(jù)挖掘
羅漢果為葫蘆科植物羅漢果(Swingle)C. Jeffrey ex A.M. Lu et Z.Y.Zhang的干燥果實,具有清熱潤肺、利咽開音、滑腸通便等功效[1],為廣西道地藥材,主要分布于永福、臨桂、興安、全州、資源、龍勝、融安、金秀等地[2],1987年,原衛(wèi)生部將羅漢果列為藥食同源品種,并將“中藥現(xiàn)代化研究與產(chǎn)業(yè)化開發(fā)”列入國家發(fā)展重點項目。目前,可視化軟件CiteSpace已逐漸應(yīng)用于中醫(yī)研究領(lǐng)域[3],但采用圖形雙聚類可視化軟件gCLUTO和Ucinet的NetDraw的研究鮮有報道。本研究從三維立體角度,利用可視化矩陣和山峰圖等,展現(xiàn)羅漢果文獻(xiàn)高頻關(guān)鍵詞聚類關(guān)系,揭示近10年該領(lǐng)域研究現(xiàn)狀和熱點,為后續(xù)研究與開發(fā)提供依據(jù)。
計算機(jī)檢索中國知識資源總庫(CNKI)2007年1月-2016年12月羅漢果相關(guān)研究。采用精確檢索,主題詞為“羅漢果”,檢索時間為2017年2月20日。納入以羅漢果為研究對象的文獻(xiàn)。排除新聞、指南、摘要、論文中沒有關(guān)鍵詞等類型的文獻(xiàn),重復(fù)發(fā)表的文獻(xiàn)取最早發(fā)表的1篇。必要時查看全文。將檢出文獻(xiàn)以endnote格式導(dǎo)出,獲取題目、摘要、關(guān)鍵詞等信息。
采用中國醫(yī)科大學(xué)信息管理與信息系統(tǒng)(醫(yī)學(xué))系開發(fā)的數(shù)據(jù)挖掘工具書目共現(xiàn)分析系統(tǒng)(BICOMB)[4]對納入文獻(xiàn)的關(guān)鍵詞、發(fā)表年份、作者等進(jìn)行統(tǒng)計分析。繪制發(fā)表年份與發(fā)文量趨勢圖。
關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語言詞匯,在導(dǎo)入下載題錄之前,先對題錄中的關(guān)鍵詞進(jìn)行歸并與規(guī)范化處理,對獲得的關(guān)鍵詞進(jìn)行清洗合并,找出羅漢果領(lǐng)域高頻關(guān)鍵詞,利用高頻關(guān)鍵詞分別構(gòu)建共現(xiàn)矩陣、詞篇矩陣、相異矩陣,把共現(xiàn)矩陣導(dǎo)入Ucinet軟件的NetDraw,形成以##h為擴(kuò)展名的文件,最后繪制出關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜。
社會網(wǎng)絡(luò)分析是研究社會關(guān)系的重要研究方法,在學(xué)術(shù)熱點分析方面有著獨特的優(yōu)勢。將社會網(wǎng)絡(luò)分析方法應(yīng)用到共詞分析,可以探討一個學(xué)科或主題的研究結(jié)構(gòu)[5]。圖中每一個節(jié)點代表一個關(guān)鍵詞,節(jié)點的連線數(shù)顯示與其他關(guān)鍵詞共現(xiàn)的次數(shù),連線越粗,表明關(guān)鍵詞之間的共現(xiàn)次數(shù)越多,關(guān)系越密切;節(jié)點越大、中心度越高,與其共現(xiàn)的關(guān)鍵詞也越多,反之則處于邊緣位置。
雙聚類方法即對數(shù)據(jù)的行和列同時進(jìn)行聚類,可同時使用對象及其屬性來提取它們的聯(lián)合信息。在數(shù)據(jù)挖掘或文獻(xiàn)計量學(xué)中應(yīng)用雙聚類分析在很大程度上克服了傳統(tǒng)聚類分析方法的缺陷[6]。本研究應(yīng)用gCLUTO軟件,能夠?qū)崿F(xiàn)行與列同時聚類,因此,雙向聚類分析可以反映出高頻關(guān)鍵詞的對應(yīng)關(guān)系,可用于總結(jié)該領(lǐng)域的學(xué)科基礎(chǔ)結(jié)構(gòu)和近期研究熱點。將詞篇矩陣導(dǎo)入gCLUTO軟件,聚類方法采用Repeated Bisection,相似性函數(shù)選擇Cosin,判別函數(shù)選擇2,聚類數(shù)量根據(jù)聚類結(jié)果的優(yōu)劣進(jìn)行調(diào)整,形成山峰圖。圖中山丘的體積越大,表示該類別所含關(guān)鍵詞數(shù)量越多,山丘越高,則該類別類內(nèi)相似性越大,山丘頂部顏色有紅、黃、綠、淺藍(lán)和深藍(lán)5種,所代表的類內(nèi)相似度標(biāo)準(zhǔn)差依次增高[7]。
采用Create Matrix Visualization創(chuàng)建可視化矩陣。矩陣原始數(shù)據(jù)值用顏色表示,白色代表接近零值,逐漸加深的紅色代表較大的值,紅色深淺表示關(guān)鍵詞出現(xiàn)的頻次高低。由于行與列同時聚類,可視化矩陣可以直觀顯示出各類別所包含的高頻關(guān)鍵詞。
將高頻關(guān)鍵詞共現(xiàn)矩陣導(dǎo)入統(tǒng)計軟件SPSS19.0,根據(jù)Spearman系數(shù)生成相似矩陣,用1減去矩陣中的每個數(shù)值,得到相異矩陣,劃出關(guān)鍵詞多維尺度聚類群體。利用多元統(tǒng)計方法中的因子分析、聚類分析、多維尺度分析等,可以根據(jù)關(guān)鍵詞中的距離,對羅漢果領(lǐng)域研究中的重要關(guān)鍵詞或主題詞進(jìn)行相應(yīng)分類,從而歸納出研究熱點,了解其演變。
初檢獲得文獻(xiàn)787篇,經(jīng)篩選,最終納入文獻(xiàn)723篇。文獻(xiàn)發(fā)表年份趨勢圖(見圖1)表明,由2007年86篇逐漸下降至2009年56篇低位。隨著國家“九五”“十五”“十一五”的“中藥現(xiàn)代化研究與產(chǎn)業(yè)化開發(fā)”重點項目,以及2011年《廣西壯族自治區(qū)壯瑤醫(yī)藥振興計劃(2011-2020年)》相關(guān)政策出臺,羅漢果研究逐漸受到研究機(jī)構(gòu)重視。在國家統(tǒng)一部署下,開展廣西第四次中藥壯瑤藥普查,建設(shè)壯瑤藥種質(zhì)資源庫,建設(shè)壯瑤藥資源監(jiān)測和信息網(wǎng)絡(luò),建設(shè)一批規(guī)范化、標(biāo)準(zhǔn)化、規(guī)?;碾u血藤、羅漢果、廣豆根、兩面針、虎杖等大宗壯瑤藥材生產(chǎn)基地。2011年發(fā)文量達(dá)90篇,而后穩(wěn)定至70篇/年左右,表明羅漢果研究逐漸成熟,向深層次方向拓展。
圖1 2007-2016年羅漢果相關(guān)文獻(xiàn)發(fā)表情況
本研究對部分近義詞、同義詞進(jìn)行相應(yīng)的合并處理,獲得1592個有效關(guān)鍵詞,使用BICOMB軟件統(tǒng)計關(guān)鍵詞出現(xiàn)>5次的有77個,去除最高頻關(guān)鍵詞“羅漢果”,其余76個高頻關(guān)鍵詞在一定程度上反映了該學(xué)科領(lǐng)域的研究主題和熱點。導(dǎo)入76×76共詞矩陣,借助Ucinet的NetDraw可視化軟件繪制出羅漢果研究中76個關(guān)鍵詞所形成的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖,見圖2。“羅漢果皂苷”“羅漢果甜苷”“提取工藝”“組培苗”“栽培技術(shù)”“品種”“生長發(fā)育”等關(guān)鍵詞位于共現(xiàn)網(wǎng)絡(luò)的核心地位,節(jié)點較大,連線的數(shù)量最多,對其他關(guān)鍵詞的影響最深,是研究機(jī)構(gòu)持續(xù)關(guān)注的熱點。同時,“羅漢果花”“飲料”“總黃酮”“凋亡”“酶”等,隨著研究深入,可能成為后續(xù)研究的主要關(guān)注點。
可視化矩陣示意圖見圖3,其中左側(cè)表示高頻關(guān)鍵詞分類,圖右側(cè)對應(yīng)列出高頻關(guān)鍵詞,圖上方表示對關(guān)鍵詞來源的聚類。聚0類(11個):病毒病、植株根部、病蟲害防治、根結(jié)線蟲病、生產(chǎn)管理、組培苗、草質(zhì)藤本植物、果實蠅、藤蔓、土壤、評價。聚1類(13個):糖尿病、自由基、抗氧化活性、羅漢果提取物、小鼠、力竭運動、總黃酮、羅漢果葉、凋亡、基因表達(dá)、酶、基因克隆、序列分析。聚2類(12個):蛋白酶、產(chǎn)量、品質(zhì)、技術(shù)措施、快速繁殖、組織培養(yǎng)、生根、愈傷組織、莖尖、保存、生長發(fā)育、栽培技術(shù)。聚3類(13個):品種、永??h、種植面積、種植、農(nóng)業(yè)、產(chǎn)業(yè)、發(fā)展、氣候條件、化痰止咳、遺傳背景、多倍體、果實、葫蘆科。聚4類(13個):飲料、工藝、質(zhì)量控制、紫外分光光的法、高效液相色譜法、羅漢果皂苷、含量測定、貯藏、抑菌、穩(wěn)定性、羅漢果果汁、鮮羅漢果、正交試驗。聚5類(14個):氣相色譜-質(zhì)譜法、無仔羅漢果、鑒定、羅漢果花、響應(yīng)面法、提取工藝、多糖、分離、羅漢果甜苷、研究、應(yīng)用、化學(xué)成分、藥理作用、綜述。
圖2 2007-2016年羅漢果相關(guān)文獻(xiàn)高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖
圖3 2007-2016年羅漢果相關(guān)文獻(xiàn)可視化矩陣示意圖
采用gCLUTO軟件得到雙聚類結(jié)果的可視化山峰圖見圖4。6座山峰較為獨立,分布明顯,表明聚類效果較好,圖中數(shù)字為聚類號,即1代表類1;0號山峰高度最高,代表其內(nèi)部相似度最高,類內(nèi)標(biāo)準(zhǔn)差最低,聚類效果最好,主題集中程度也高。根據(jù)圖3和圖4的聚類結(jié)果,2007-2016年羅漢果領(lǐng)域文獻(xiàn)研究主要集中在以下6個類別。第0類:根結(jié)線蟲病、花葉病毒病、果實蠅等是羅漢果種植生產(chǎn)管理過程中常見病蟲害,因此,在組培苗移栽前必須對植株根部和土壤進(jìn)行施藥、土壤曝曬,在果棚內(nèi)懸掛誘捕器、黃色誘蟲板[8]。第1類:羅漢果或羅漢果葉提取物在小鼠力竭運動、抗氧化、清除自由基的藥理作用[9],在酶促進(jìn)下對提取物的基因克隆、基因表達(dá)的序列分析,為研究羅漢果甜苷生物合成與基因調(diào)控奠定基礎(chǔ)[10]。第2類:采取系列技術(shù)措施、栽培技術(shù)提高羅漢果的產(chǎn)量、品質(zhì)及保存,以羅漢果組培苗為材料,探討羅漢果微莖尖培養(yǎng)及其快速繁殖的方法,為大規(guī)模生產(chǎn)羅漢果優(yōu)質(zhì)種苗提供科學(xué)依據(jù)和支撐技術(shù)[11]。第3類:永福縣的氣候條件非常適宜羅漢果種植,但品種的選擇影響到當(dāng)?shù)剞r(nóng)業(yè)及產(chǎn)業(yè)發(fā)展,因此,為了選育出具有更強(qiáng)大雜交優(yōu)勢和多倍體優(yōu)勢的新型多倍體無籽羅漢果品種,必須大量地選擇雜交親本和在雜交后代中進(jìn)行大量篩選,弄清雜交后代及其親本的遺傳背景[12]。第4類:羅漢果飲料或果汁的加工工藝研制,運用正交試驗方法,使用紫外、高效液相等手段,對羅漢果皂苷進(jìn)行含量測定,在貯藏過程對飲料穩(wěn)定性、抑菌等方面的質(zhì)量控制[13]。第5類:響應(yīng)面法優(yōu)化從羅漢果花或無籽羅漢果中分離羅漢果甜苷、多糖的提取工藝,采用氣相色譜-質(zhì)譜法進(jìn)行化學(xué)成分鑒定,及羅漢果甜苷的藥理作用研究[14]。
圖4 2007-2016年羅漢果相關(guān)文獻(xiàn)雙聚類山峰圖
將納入文獻(xiàn)分為2007-2011年和2012-2016年2個階段,各階段主題比較情況見表1,并分別繪制多維尺度分析圖,見圖5、圖6。為還原該領(lǐng)域研究主題的動態(tài)發(fā)展過程,保證新近出現(xiàn)的、時間較短、頻次較低的關(guān)鍵詞進(jìn)入分析范圍,本研究將出現(xiàn)頻次≥3的關(guān)鍵詞納入統(tǒng)計分析范圍,盡量確保該研究領(lǐng)域關(guān)鍵詞動態(tài)演變準(zhǔn)確性。表1和圖5、圖6顯示,2個階段有部分研究主題相同,表明這些研究主題近10年一直是該領(lǐng)域研究熱點。而部分主題如“羅漢果花”“飲料”“總黃酮”“基因表達(dá)”“基因克隆”“酶”“凋亡”“龍勝縣”“羅漢果籽油”“肝纖維化”“肺熱”“大腸經(jīng)”等,隨著研究的深入,可能成為新的研究熱點。
表1 2007-2016年羅漢果相關(guān)文獻(xiàn)2個階段主題比較情況
注:第1階段:2007-2011年;第2階段:2012-2016年
圖5 2007-2011年關(guān)鍵詞多維尺度分析圖
圖6 2012-2016年關(guān)鍵詞多維尺度分析圖
關(guān)鍵詞是表述論文的主題且具有實質(zhì)意義的詞匯,當(dāng)2個關(guān)鍵詞同時出現(xiàn)時,之間肯定存在相關(guān)性,且同時出現(xiàn)次數(shù)越多,這種關(guān)系就越密切,高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析圖將其關(guān)聯(lián)充分體現(xiàn)出來。本研究中“羅漢果皂苷”“羅漢果甜苷”“提取工藝”“組培苗”“栽培技術(shù)”“品種”“生長發(fā)育”“研究”等位于共現(xiàn)網(wǎng)絡(luò)的核心地位,節(jié)點較大、連線數(shù)量最多,對其他關(guān)鍵詞影響最深,是研究機(jī)構(gòu)持續(xù)關(guān)注的熱點。
雙聚類分析方法將行和列結(jié)合起來,聚類的同時充分考慮列屬性的特點,在行和列2個方向上進(jìn)行聚類分析,來發(fā)現(xiàn)子矩陣或穩(wěn)定的類,在數(shù)據(jù)挖掘中應(yīng)用雙聚類分析,在很大程度上克服了傳統(tǒng)聚類分析方法的缺陷。為揭示羅漢果領(lǐng)域研究主題的動態(tài)發(fā)展過程,本研究將2007-2016年分為2007-2011年和2012-2016年2個階段,將出現(xiàn)頻次≥3的關(guān)鍵詞納入統(tǒng)計分析范圍,分別繪制多維尺度分析圖,結(jié)合2個階段關(guān)鍵詞演變對比表,動態(tài)展示了羅漢果領(lǐng)域關(guān)鍵詞演變,隨著時間推移和研究深度擴(kuò)展,“羅漢果花”“飲料”“總黃酮”“基因表達(dá)”“基因克隆”“酶”“凋亡”“龍勝縣”“羅漢果籽油”“肝纖維化”“肺熱”“大腸經(jīng)”等將是下一階段關(guān)注重點。
本研究僅選取CNKI作為數(shù)據(jù)來源,對處理含義相近關(guān)鍵詞的合并、類別數(shù)目和聚類效果的選擇方面,依賴并取決于作者自身相關(guān)學(xué)科的專業(yè)知識和主觀判斷,研究結(jié)果可能導(dǎo)致偏倚,存在一定局限性。因此,后續(xù)研究應(yīng)當(dāng)采取多庫檢索方式,避免數(shù)據(jù)失真;對于關(guān)鍵詞的清洗合并、類別判斷、聚類結(jié)果的解讀等,應(yīng)咨詢該領(lǐng)域?qū)<?;同時也可以采用其他軟件,對結(jié)果進(jìn)行對比分析,從而驗證雙聚類的效果。
本研究采用雙聚類方法和可視化形式,從三維立體角度,利用關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖、可視化矩陣和山峰圖等,展現(xiàn)了羅漢果文獻(xiàn)高頻關(guān)鍵詞與文獻(xiàn)之間的聚類關(guān)系,其結(jié)果更直觀、可視性更強(qiáng)。本研究總結(jié)并分析近10年羅漢果相關(guān)研究現(xiàn)狀和發(fā)展趨勢,揭示該領(lǐng)域的學(xué)科基礎(chǔ)結(jié)構(gòu)和研究熱點,可將該研究方法推廣到中醫(yī)藥科研領(lǐng)域的學(xué)科發(fā)展評價中。
[1] 國家藥典委員會.中華人民共和國藥典:一部[M].北京:中國醫(yī)藥科技出版社,2015:212.
[2] 梁啟成,鐘鳴.中國壯藥學(xué)[M].南寧:廣西民族出版社,2005:361.
[3] 郭棟,童元元,黃生權(quán),等.基于數(shù)據(jù)挖掘的枸杞研究熱點分析[J].中國中醫(yī)藥信息雜志,2016,23(9):48-51.
[4] 崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報技術(shù),2008,24(8):70-75.
[5] 劉啟元,葉鷹.文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實現(xiàn):以中外圖書情報學(xué)為例[J].信息資源管理學(xué)報,2012,2(1):50-58.
[6] 楊穎,崔雷.雙聚類方法在同被引分析中應(yīng)用的研究[EB/OL]. [2017-01-22].http://www.cnki.net/kcms/detail/31.1108.G2.20170122.1022.008.html.
[7] MATT R, MARK N. gCLUTO documentation[EB/OL].[2017-04-10]. http:// glaros.dtc.umn.edu/gkhome/fetch/sw/gcluto/OLD/manual/index.html.
[8] 蔣水元,李鋒,李虹,等.羅漢果組培苗規(guī)范化種植生產(chǎn)操作規(guī)程(SOP)[J].廣西植物,2007,27(6):867-872.
[9] 李海云,王秀麗,潘英明,等.羅漢果不同溶劑提取物抗氧化及清除活性氧自由基作用[J].廣西植物,2008,28(5):698-702.
[10] 蒙姣榮,陳本勇,黎起秦,等.羅漢果法呢基焦磷酸合成酶基因的克隆及其序列分析[J].中草藥,2011,42(12):2512-2517.
[11] 吳群英,李伯林,李景云.羅漢果微莖尖組織培養(yǎng)與快速繁殖[J].種 子,2013,32(4):116-121.
[12] 韋榮昌,李虹,蔣建剛,等.多倍體無籽羅漢果及其親本遺傳背景的ISSR分析[J].園藝學(xué)報,2012,39(2):387-394.
[13] 譚冬明,石相莉,呂新印.高效液相色譜法測定羅漢果飲料中甜苷V的含量[J].中國食品添加劑,2015(6):178-179.
[14] 陳陽,楊小生,楊娟.響應(yīng)面法優(yōu)化羅漢果多糖的提取工藝及其抗氧化活性研究[J].食品科技,2016,41(8):180-184.
Visualization Study on Hot Spots of Research on SiraitiaeFructus in Recent Ten Years Based on Double Clustering Analysis
FAN Jian-hua1, LIANG Min1, LIU Bu-ming1,2
To use double clustering analysis and visualization method to analyze the research on Siraitiae Fructus in recent ten years; To know the hot spots and trend of research.Relevant research about Siraitiae Fructus in CNKI from January of 2007 to December of 2016 was retrieved by computers, and the retrieval time was February 20th, 2017. BICOMB, NetDraw, gCLUTO and SPSS19.0 software were used to conduct double clustering analysis and visualization analysis for included articles. Keywords were analyzed, and social network graph, visualization matrix, peak image and multidimensional scaling analysis map were drawn. Correlation among high-frequency key words were analyzed.Totally723 articles were included, among which 70 articles were issued during 2012–2016; 76 key words were obtained by key word co-occurrence network map, among which mogroside, MOG, extraction process, tissue culture, cultivation technology, varieties, growth and development were in the core position; visualization and the peak image showed that the topics in this research field could be divided into 6 categories; research hotspot dynamic evolution showed that Siraitiae Fructus flower, beverage, total flavonoids, gene expression, gene cloning, enzyme, apoptosis, and Siraitiae Fructus seed oil would be the hot spots of further study.This study reveals that the research on Siraitiae Fructus in the recent ten years are becoming mature, and expand to deep level.
Siraitiae Fructus; double clustering analysis; visualization; BICOMB; gCLUTO; Ucinet; SPSS; data mining
10.3969/j.issn.1005-5304.2017.11.022
R2-05;R282.71
A
1005-5304(2017)11-0091-05
(2017-05-17;編輯:向宇雁)
廣西科學(xué)研究與技術(shù)開發(fā)重大專項(桂科重1355001-4、14124002-11)
劉布鳴,E-mail:liubuming@aliyun.com