馬宇馳 牟冬梅 楊鑫禹
優(yōu)化關(guān)鍵詞利用策略的共詞分析研究*
馬宇馳1牟冬梅2楊鑫禹3
(1. 吉林財(cái)經(jīng)大學(xué)圖書(shū)館,長(zhǎng)春 130117;2. 吉林大學(xué)第一醫(yī)院,長(zhǎng)春 130021;3. 吉林大學(xué)公共衛(wèi)生學(xué)院,長(zhǎng)春 130021)
本文提出關(guān)鍵詞利用策略的優(yōu)化方案,解決小數(shù)量級(jí)概念失焦、關(guān)鍵詞組概念缺失等問(wèn)題,優(yōu)化共詞分析結(jié)果,以發(fā)現(xiàn)潛在研究熱點(diǎn),拓展研究熱點(diǎn)主題識(shí)別的深度。關(guān)鍵詞利用策略優(yōu)化方案在高頻詞共詞分析的基礎(chǔ)上,引入關(guān)鍵詞與關(guān)鍵詞組相結(jié)合的處理方案,通過(guò)調(diào)整數(shù)據(jù)集范圍,實(shí)現(xiàn)共詞分析結(jié)果優(yōu)化。實(shí)證部分以“主動(dòng)健康”主題為例,使用DDA軟件,完成基于關(guān)鍵詞利用策略優(yōu)化方案的共詞分析,探測(cè)主動(dòng)健康的學(xué)科主題熱點(diǎn)。在初始發(fā)現(xiàn)的5類(lèi)研究領(lǐng)域、12個(gè)熱點(diǎn)之外,基于關(guān)鍵詞利用策略優(yōu)化方案的共詞分析擴(kuò)展識(shí)別了7個(gè)潛在熱點(diǎn)話題,補(bǔ)充發(fā)現(xiàn)5個(gè)復(fù)合詞組表達(dá)的研究概念。關(guān)鍵詞利用策略優(yōu)化方案令小數(shù)量級(jí)概念聚焦形成類(lèi)團(tuán),在聚類(lèi)過(guò)程中得到表達(dá),令關(guān)鍵詞組代表的概念得到完整呈現(xiàn)。
共詞分析;關(guān)鍵詞;關(guān)鍵詞組;主動(dòng)健康;優(yōu)化方案;DDA
學(xué)科知識(shí)結(jié)構(gòu)揭示模型將學(xué)科知識(shí)結(jié)構(gòu)模塊分為低中高三個(gè)層級(jí),其中對(duì)關(guān)鍵詞、主題詞、標(biāo)題詞、特征詞等節(jié)點(diǎn)的共詞分析是揭示中層級(jí)知識(shí)結(jié)構(gòu)的主要技術(shù)方法,在數(shù)據(jù)整合與智慧服務(wù)領(lǐng)域起到發(fā)現(xiàn)學(xué)科研究熱點(diǎn)、探究學(xué)科發(fā)展進(jìn)程的作用[1]。結(jié)合時(shí)間軸屬性,共詞分析能在縱向上反映一段時(shí)間內(nèi)專(zhuān)業(yè)領(lǐng)域的動(dòng)態(tài)發(fā)展演化歷程,在橫向上反映某個(gè)時(shí)間節(jié)點(diǎn)靜態(tài)知識(shí)單元分布結(jié)構(gòu)[2],揭示了領(lǐng)域的基本特征,對(duì)該領(lǐng)域的研究人員有重要的指導(dǎo)作用[3]。共詞分析方法基本分為6個(gè)環(huán)節(jié),即確定分析問(wèn)題、術(shù)語(yǔ)詞源選擇、高頻詞選定、術(shù)語(yǔ)相關(guān)計(jì)算、多元統(tǒng)計(jì)分析及統(tǒng)計(jì)結(jié)果分析[4]。共詞分析結(jié)果的展示主要有聚類(lèi)樹(shù)圖、戰(zhàn)略坐標(biāo)及社會(huì)網(wǎng)絡(luò)圖譜等方式,聚類(lèi)樹(shù)圖展現(xiàn)學(xué)科領(lǐng)域的主題結(jié)構(gòu),戰(zhàn)略坐標(biāo)展現(xiàn)各主題在整個(gè)學(xué)科結(jié)構(gòu)上的重要性或特性,社會(huì)網(wǎng)絡(luò)圖譜展現(xiàn)各主題內(nèi)部關(guān)系[5]。
對(duì)于共詞分析的改良優(yōu)化,學(xué)者從多個(gè)環(huán)節(jié)進(jìn)行探索,積累了豐厚的研究成果。李綱等[6]通過(guò)在關(guān)鍵詞統(tǒng)計(jì)和計(jì)數(shù)過(guò)程中使用改進(jìn)加權(quán)算法,實(shí)現(xiàn)了為關(guān)鍵詞重要性加權(quán),而后采取混合關(guān)鍵詞策略,選取低頻關(guān)鍵詞和突發(fā)詞,優(yōu)化了共詞聚類(lèi)效果以及關(guān)鍵詞網(wǎng)絡(luò)共現(xiàn)效果[7]。傅柱等[8]就共詞分析詞源選擇述評(píng)了元數(shù)據(jù)取詞與全文自動(dòng)標(biāo)引取詞的研究現(xiàn)狀,就術(shù)語(yǔ)規(guī)范化問(wèn)題述評(píng)了基于受控詞典與基于人工方式的方案。楊麗等[9]應(yīng)用自然語(yǔ)言的處理方法,考察了除關(guān)鍵詞以外的分析單元,提取了題名、摘要及全文的高頻詞,識(shí)別動(dòng)物學(xué)領(lǐng)域的研究熱點(diǎn)。李鋒[10]提出了在選詞個(gè)數(shù)范圍內(nèi)的高頻區(qū)全部采納、中低頻區(qū)按2:1實(shí)行配額采納的兼顧中低頻關(guān)鍵詞的選詞方案。徐坤等[11]提出次高頻詞概念,利用次高頻詞進(jìn)行了領(lǐng)域研究?jī)?nèi)容的聚類(lèi)分析,在揭示領(lǐng)域研究熱點(diǎn)上具有較好效果。余本功等[12]針對(duì)文獻(xiàn)層面和詞層面“同量不同質(zhì)”、高頻孤立詞等問(wèn)題,提出基于文獻(xiàn)多屬性加權(quán)的共詞分析方法。唐曉波等[13]抽取并融合文本的詞語(yǔ)特征和詞權(quán)重特征,對(duì)文本聚類(lèi),提取關(guān)鍵詞識(shí)別主題并進(jìn)行分析。滕廣青等[14]對(duì)科技信息多維復(fù)合分析演進(jìn)過(guò)程進(jìn)行歸納,總結(jié)通過(guò)多數(shù)據(jù)源更全面地識(shí)別領(lǐng)域知識(shí)或技術(shù)前沿。
但現(xiàn)有共詞分析研究仍然存在一定的局限。胡昌平等[15]指出,傳統(tǒng)的詞源選定、關(guān)鍵詞提取方法忽略了關(guān)鍵詞本身的特征,未充分發(fā)揮共詞分析的優(yōu)勢(shì),大量的強(qiáng)共現(xiàn)關(guān)系由中頻詞與高頻詞或中頻詞與中頻詞構(gòu)成,截取高頻詞進(jìn)行共詞分析對(duì)重要關(guān)系的保留情況不能令人滿意。詞語(yǔ)可以是關(guān)鍵詞、主題詞或自然語(yǔ)言處理下的全文標(biāo)引等不同元數(shù)據(jù),不論來(lái)自何種分析單元,關(guān)鍵詞詞頻及共現(xiàn)強(qiáng)度的冪律分布都帶來(lái)難以調(diào)和的局限,導(dǎo)致共詞分析在發(fā)現(xiàn)熱點(diǎn)與全面概括兩項(xiàng)目標(biāo)難以達(dá)到平衡[16]。犧牲低頻關(guān)鍵詞,基于高頻詞進(jìn)行共詞分析可以發(fā)現(xiàn)主題熱點(diǎn),但不能很好地探查學(xué)科全貌;針對(duì)低頻詞分析有助于探查隱含主題或前沿?zé)狳c(diǎn),然而人工降低截取關(guān)鍵詞的詞頻閾值受人為影響大,也無(wú)法在發(fā)現(xiàn)重點(diǎn)和認(rèn)識(shí)全貌中求得合理的平衡。
針對(duì)上述問(wèn)題,筆者將關(guān)口前移,在聚類(lèi)前提出關(guān)鍵詞利用策略的優(yōu)化方案,從而拓展研究熱點(diǎn)主題識(shí)別的廣度與深度,以期實(shí)現(xiàn)對(duì)共詞分析理論的進(jìn)一步完善和方法的進(jìn)一步優(yōu)化。
高頻詞閾值選取方法主要有自定義選取法(頻次選取法、前N位選取法、中心度選取法)、高低頻詞界定公式選取法、普賴斯公式選取法及混合選取法[17]。然而無(wú)論采取何種方法,現(xiàn)有的共詞分析都位于截取關(guān)鍵詞步驟與聚類(lèi)分析步驟之間,囿于聚類(lèi)分析中類(lèi)團(tuán)形成的客觀過(guò)程以及關(guān)鍵詞表義能力的局限,關(guān)鍵詞分析往往存在如下缺陷。①高頻關(guān)鍵詞聚類(lèi)效果不足,在類(lèi)團(tuán)劃分過(guò)程中出現(xiàn)“馬太效應(yīng)”。概念(Concept)是學(xué)科領(lǐng)域內(nèi)科學(xué)共同體共享的基本知識(shí)單元,通過(guò)術(shù)語(yǔ)的形式被語(yǔ)言符號(hào)限定或表達(dá)出來(lái),這些術(shù)語(yǔ)之間的相關(guān)強(qiáng)度決定了共詞分析聚類(lèi)的結(jié)果與形態(tài)。觀察聚類(lèi)過(guò)程可知,起初不存在明顯確定的聚類(lèi)中心,各組分在逐步形成類(lèi)團(tuán)時(shí)傾向發(fā)生強(qiáng)者愈強(qiáng)的吸引效應(yīng)[4]。致使與某個(gè)個(gè)體相關(guān)密切的其他成員會(huì)被吞噬納入“超級(jí)類(lèi)團(tuán)”,強(qiáng)大的類(lèi)團(tuán)變得愈發(fā)強(qiáng)大,弱小類(lèi)團(tuán)地位愈加無(wú)法突出,導(dǎo)致小數(shù)量級(jí)的類(lèi)團(tuán)無(wú)法脫出,失去表達(dá)信息的機(jī)會(huì),最終使得以這些術(shù)語(yǔ)為載體的概念得不到有效的呈現(xiàn)。②關(guān)鍵詞表達(dá)不完整,關(guān)鍵詞組表達(dá)的復(fù)雜概念缺失。概念被術(shù)語(yǔ)表達(dá),具有語(yǔ)義信息的術(shù)語(yǔ)按一定的邏輯結(jié)構(gòu)組成文獻(xiàn),這些邏輯不僅包含物理順序的先后關(guān)系,還存在句法篇章上的支配從屬關(guān)系與隱含的語(yǔ)義聯(lián)系[18]。關(guān)鍵詞分析中以詞組形式凝練的概念,被拆分成單獨(dú)的單詞歸檔統(tǒng)計(jì),導(dǎo)致詞組切割,語(yǔ)義呈現(xiàn)不完善,重要信息不完整,概念的完整性受限,使得最終的分析結(jié)果不全面。
針對(duì)關(guān)鍵詞分析的主要問(wèn)題,提出關(guān)鍵詞利用策略優(yōu)化方案,實(shí)現(xiàn)對(duì)關(guān)鍵詞的深入開(kāi)發(fā)和對(duì)其攜帶信息的充分挖掘。關(guān)鍵詞利用策略優(yōu)化方案是指在獲取數(shù)據(jù)集步驟之后、執(zhí)行聚類(lèi)分析步驟之前,在挖掘“超級(jí)類(lèi)團(tuán)”核心概念的一次分析基礎(chǔ)上,通過(guò)多粒度、多角度的透視,調(diào)整數(shù)據(jù)集范圍,進(jìn)行二次聚類(lèi)分析,聚焦小數(shù)量級(jí)關(guān)鍵詞所代表的概念;隨后引入關(guān)鍵詞組,進(jìn)行三次分析,增加由詞組單元呈現(xiàn)的科學(xué)概念。
(1)調(diào)整數(shù)據(jù)集范圍,聚焦小數(shù)量級(jí)關(guān)鍵詞所代表的概念。關(guān)鍵詞、熱點(diǎn)都來(lái)自論文作者的實(shí)際工作,并非在科技論文寫(xiě)作時(shí)預(yù)先固定,因此“關(guān)鍵詞-文獻(xiàn)數(shù)據(jù)記錄-熱點(diǎn)”組成的網(wǎng)絡(luò)往往是立體的,具有高自由度、高復(fù)雜度的特性,并不嚴(yán)格遵循一對(duì)一關(guān)系或一對(duì)多關(guān)系。在考慮去掉高頻關(guān)鍵詞時(shí),提出“最大化去除”原則,以文獻(xiàn)數(shù)據(jù)記錄為最小單位,在文獻(xiàn)數(shù)據(jù)集層面進(jìn)行調(diào)整。其優(yōu)勢(shì)在于去掉引起“超級(jí)類(lèi)團(tuán)”的高頻關(guān)鍵詞的同時(shí),同樣移除了其來(lái)源文獻(xiàn)數(shù)據(jù)記錄中包含的其他關(guān)鍵詞,實(shí)現(xiàn)了對(duì)與“超級(jí)類(lèi)團(tuán)”高度相關(guān)關(guān)鍵詞的限制,使“超級(jí)類(lèi)團(tuán)”的清除更加徹底。進(jìn)而更多地讓位給前期被吸入“超級(jí)類(lèi)團(tuán)”中、未得到體現(xiàn)的關(guān)鍵詞及其代表的研究熱點(diǎn),使整個(gè)發(fā)掘過(guò)程更加充分深入。
將關(guān)口前移,在聚類(lèi)開(kāi)始之前進(jìn)行優(yōu)化操作,將位于頭部“超級(jí)類(lèi)團(tuán)”的核心概念所對(duì)應(yīng)的文獻(xiàn)數(shù)據(jù)集刪除,使其余“弱勢(shì)類(lèi)團(tuán)”得以免于吸入“超級(jí)類(lèi)團(tuán)”,小數(shù)量級(jí)關(guān)鍵詞所代表的概念有機(jī)會(huì)在聚類(lèi)過(guò)程中被充分表達(dá),弱化了聚類(lèi)過(guò)程中量級(jí)較大關(guān)鍵詞引起的“馬太效應(yīng)”,使聚類(lèi)結(jié)果能夠更加豐富和全面地展示學(xué)科研究潛在熱點(diǎn)。
(2)引入關(guān)鍵詞組,增加由詞組單元呈現(xiàn)的科學(xué)概念的表達(dá)。關(guān)鍵詞組以多角度、更全面反映領(lǐng)域主題為目的,可以是作者與關(guān)鍵詞的組合,也可以是關(guān)鍵詞與其他詞的組合;可由數(shù)據(jù)庫(kù)商提供、計(jì)算機(jī)程序自動(dòng)標(biāo)引,也可由作者及領(lǐng)域?qū)<胰斯そM配。引入關(guān)鍵詞組的共詞分析能夠利用關(guān)鍵詞組類(lèi)似于主題詞組配的特性,通過(guò)詞組的形態(tài)保留研究的核心主題,從不同視角補(bǔ)充主題信息,以最貼近研究者本意的形式多維度地全面描述研究主題。
關(guān)鍵詞利用策略優(yōu)化方案在標(biāo)準(zhǔn)的共詞分析的基礎(chǔ)上,遵循“數(shù)據(jù)導(dǎo)入→優(yōu)化關(guān)鍵詞數(shù)據(jù)處理→聚類(lèi)分析、識(shí)別熱點(diǎn)→整合熱點(diǎn)、形成最終探測(cè)結(jié)果”的過(guò)程,其最終結(jié)果由3個(gè)識(shí)別結(jié)果匯總而成:①對(duì)檢索獲得的原始數(shù)據(jù)集執(zhí)行普遍采用的高頻詞共詞分析,所獲得的初步發(fā)現(xiàn)的熱點(diǎn);②調(diào)整數(shù)據(jù)集范圍,在高頻關(guān)鍵詞共詞分析之外,剝離原始數(shù)據(jù)集中詞頻數(shù)排行靠前概念對(duì)應(yīng)的文獻(xiàn)數(shù)據(jù)集,對(duì)剩余文獻(xiàn)數(shù)據(jù)集內(nèi)的關(guān)鍵詞執(zhí)行第二次分析,聚焦相對(duì)小數(shù)量級(jí)概念所代表的細(xì)節(jié)熱點(diǎn);③引入關(guān)鍵詞組視角,對(duì)來(lái)自原始數(shù)據(jù)集的關(guān)鍵詞組執(zhí)行第三次聚類(lèi)分析,通過(guò)不破壞概念的方案,透視作者在選題、構(gòu)思、實(shí)驗(yàn)、分析等各環(huán)節(jié)的研究思維,發(fā)現(xiàn)主題脈絡(luò),獲得補(bǔ)充熱點(diǎn)信息。將三步的探測(cè)結(jié)果相結(jié)合,使全部文獻(xiàn)數(shù)據(jù)集蘊(yùn)含的科學(xué)信息得到更充分體現(xiàn),最終填補(bǔ)聚類(lèi)過(guò)程中“超級(jí)類(lèi)團(tuán)”導(dǎo)致的潛在信息遺漏,提供還原作者科研意圖的信息發(fā)現(xiàn)與學(xué)科熱點(diǎn)探測(cè)服務(wù)。
我國(guó)自2016年至今陸續(xù)發(fā)布《“健康中國(guó)2030”規(guī)劃綱要》《“十三五”衛(wèi)生與健康科技創(chuàng)新專(zhuān)項(xiàng)規(guī)劃》《健康中國(guó)行動(dòng)(2019—2030年)》等文件,以增進(jìn)健康為導(dǎo)向,推動(dòng)以疾病治療為中心向健康提升為中心的轉(zhuǎn)變,研發(fā)健康管理解決方案,從注重“治已病”向“治未病”過(guò)渡,制定實(shí)施主動(dòng)健康計(jì)劃[19-21]。主動(dòng)健康的研究是實(shí)施“健康中國(guó)”行動(dòng)的重要組成部分,著眼當(dāng)前是為人民謀幸福、謀健康,展望長(zhǎng)遠(yuǎn)是為民族謀復(fù)興、謀發(fā)展。通過(guò)實(shí)證研究評(píng)測(cè)關(guān)鍵詞利用策略優(yōu)化方案對(duì)共詞分析的提升效果,同時(shí)分析國(guó)外主動(dòng)健康相關(guān)研究進(jìn)展,以期為我國(guó)健康服務(wù)與管理領(lǐng)域相關(guān)研究提供參考借鑒。
選取數(shù)據(jù)來(lái)自Web of Science(WoS)核心合集,以“健康自主管理”(health self-management)、“主動(dòng)醫(yī)療”(proactive medicine)、“主動(dòng)干預(yù)”(proactive intervention)、“主動(dòng)健康”(proactive health、positive health)、“疾病預(yù)防性治療”(preventive treatment of disease)、“健康促進(jìn)行為”(health promotion behavior)、“自我護(hù)理”(self-care)為檢索詞,布爾邏輯檢索詞為“或”(OR),限制語(yǔ)種為“英語(yǔ)”,時(shí)間跨度為“1900—2020”,索引包含SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH、ESCI。共檢索到文獻(xiàn)4?493篇,構(gòu)成本研究的原始數(shù)據(jù)。
將上述原始數(shù)據(jù)以文本形式導(dǎo)入,將每條文獻(xiàn)記錄內(nèi)容按作者、摘要、作者地址、作者關(guān)鍵詞等提取,寫(xiě)入對(duì)應(yīng)字段,生成DDA數(shù)據(jù)集。在分析之前對(duì)原始數(shù)據(jù)進(jìn)行清洗,剔除可能導(dǎo)致分析結(jié)果失準(zhǔn)的“DEAN”4類(lèi)數(shù)據(jù):數(shù)據(jù)庫(kù)內(nèi)重復(fù)或多個(gè)數(shù)據(jù)庫(kù)檢索結(jié)果合并之后的重復(fù)記錄(Duplicates),不符合檢索需求的文獻(xiàn)類(lèi)型記錄(Errors),不同數(shù)據(jù)分類(lèi)和標(biāo)引規(guī)范下的相同概念關(guān)鍵詞(Alias),對(duì)研究熱點(diǎn)造成干擾的低頻關(guān)鍵詞或子網(wǎng)絡(luò)(Noises)[22]。
本次實(shí)驗(yàn)應(yīng)用的工具Derwent Data Analyzer(DDA)是由科睿唯安和喬治亞理工學(xué)院共同研發(fā)的信息情報(bào)分析和挖掘軟件。統(tǒng)計(jì)“WoS入藏號(hào)”,確保該字段內(nèi)的每個(gè)對(duì)象出現(xiàn)次數(shù)為且僅為1,結(jié)果中不存在重復(fù)記錄。統(tǒng)計(jì)“文獻(xiàn)類(lèi)型”字段,確保記錄的文獻(xiàn)均為學(xué)術(shù)信息本身,不包含書(shū)目、傳記、案例報(bào)告或數(shù)據(jù)集等,符合本次實(shí)驗(yàn)需求。處理近義關(guān)鍵詞和同義關(guān)鍵詞,清洗“關(guān)鍵詞”字段,最終得到原始數(shù)據(jù)集關(guān)鍵詞列表(見(jiàn)表1),共有關(guān)鍵詞6?786個(gè),其中頻次為1的關(guān)鍵詞有4?701個(gè)。
最終采取混合選取法[17]:按高低頻詞分界公式[23]確定高頻詞范圍,計(jì)算截取關(guān)鍵詞降序排列的前96個(gè),考慮研究需要及結(jié)果易讀性,經(jīng)多次預(yù)實(shí)驗(yàn),應(yīng)用前N位選取法截取排名前40的關(guān)鍵詞進(jìn)行分析。
觀察預(yù)處理數(shù)據(jù),首位關(guān)鍵詞“自我護(hù)理/自我醫(yī)療”(self-care)頻次4?076,數(shù)量和時(shí)間維度優(yōu)勢(shì)突出,其余高頻關(guān)鍵詞所代表的概念難以在其覆蓋之下的分析中得到充分體現(xiàn),因此考慮刪除包含“self-care”關(guān)鍵詞的部分文獻(xiàn)數(shù)據(jù)集。
(1)調(diào)整數(shù)據(jù)集范圍。利用DDA調(diào)整數(shù)據(jù)集范圍的功能,在原始數(shù)據(jù)集(包含關(guān)鍵詞“self-care”的文獻(xiàn)記錄)基礎(chǔ)之上調(diào)整生成子數(shù)據(jù)集(不包含關(guān)鍵詞“self-care”的文獻(xiàn)記錄),為調(diào)整數(shù)據(jù)集范圍的共詞分析提供數(shù)據(jù)準(zhǔn)備。
(2)引入關(guān)鍵詞組。關(guān)鍵詞組提取自WoS數(shù)據(jù)集中的“Keywords Plus”字段。該字段是由計(jì)算機(jī)程序?qū)γ科恼聟⒖嘉墨I(xiàn)的標(biāo)題內(nèi)容進(jìn)行自動(dòng)標(biāo)引而生成,數(shù)量多、含義廣,可以有效探討學(xué)科領(lǐng)域的知識(shí)結(jié)構(gòu)[24],能夠從方法、技術(shù)等視角補(bǔ)充領(lǐng)域主題信息[25]。將其寫(xiě)入DDA特定字段,并移除其中“rights reserved”“current study”等無(wú)實(shí)義類(lèi)型詞組以及“control group”“descriptive statistics”等描述實(shí)驗(yàn)操作的語(yǔ)義類(lèi)型的詞組,進(jìn)行引入關(guān)鍵詞組的共詞分析。
關(guān)鍵詞利用策略優(yōu)化方案下的實(shí)證研究共執(zhí)行了三次分析,最終的呈現(xiàn)結(jié)果來(lái)自三次共詞分析結(jié)果的整合匯總。第一次是對(duì)于完整原始數(shù)據(jù)集執(zhí)行的普遍采用的高頻詞共詞分析,確保了“自我護(hù)理/自我醫(yī)療”(self-care)核心概念所代表的熱點(diǎn)得到充分的呈現(xiàn),保證核心重要概念熱點(diǎn)不丟失。第二次共詞分析將關(guān)口前移,通過(guò)聚類(lèi)前的優(yōu)化操作,以預(yù)實(shí)驗(yàn)結(jié)合人工經(jīng)驗(yàn)的模式移除了“超級(jí)類(lèi)團(tuán)”(超級(jí)關(guān)鍵詞)“self-care”,使小數(shù)量級(jí)概念類(lèi)團(tuán)得到體現(xiàn),成功識(shí)別出潛在研究熱點(diǎn)。第三次共詞分析引入提取自WoS數(shù)據(jù)集中“Keywords Plus”字段的關(guān)鍵詞組,憑借不同于第一、第二次共詞分析關(guān)鍵詞且同樣具備探查學(xué)科領(lǐng)域知識(shí)結(jié)構(gòu)作用的分析素材,明晰了熱點(diǎn)側(cè)重方向,拓寬了所發(fā)現(xiàn)研究熱點(diǎn)的廣度。將第一次共詞分析發(fā)現(xiàn)的研究熱點(diǎn)同第二、第三次經(jīng)過(guò)關(guān)鍵詞利用策略優(yōu)化方案處理的共詞分析新增研究熱點(diǎn)進(jìn)行對(duì)比,形成表2,并在下文具體分析。
2.4.1 原始數(shù)據(jù)集未經(jīng)優(yōu)化的共詞分析結(jié)果
第一次對(duì)原始數(shù)據(jù)集執(zhí)行未經(jīng)優(yōu)化的高頻詞共詞分析方法,確定了5類(lèi)基本研究領(lǐng)域,對(duì)應(yīng)識(shí)別了12個(gè)研究熱點(diǎn)(見(jiàn)表2):①護(hù)理學(xué)研究領(lǐng)域識(shí)別出“自主鍛煉活動(dòng)”(self-care maintenance)、“癥狀和體征監(jiān)測(cè)”(self-care monitoring)、“癥狀和體征應(yīng)對(duì)”(self-care management)3個(gè)熱點(diǎn);②臨床醫(yī)學(xué)研究領(lǐng)域識(shí)別出“糖尿病癥狀管理”(diabetes)、“心力衰竭癥狀管理”(heart failure)2個(gè)熱點(diǎn);③醫(yī)學(xué)信息學(xué)研究領(lǐng)域識(shí)別出“遠(yuǎn)程醫(yī)療”(telemedicine)、“移動(dòng)醫(yī)療”(Internet)兩個(gè)熱點(diǎn);④心理學(xué)研究領(lǐng)域識(shí)別出“抑郁癥狀”(depression)、“焦慮”(anxiety)、“職業(yè)倦怠”(burnout)3個(gè)熱點(diǎn);⑤公共衛(wèi)生學(xué)研究領(lǐng)域識(shí)別出“醫(yī)護(hù)人員自身屬性”(empowerment)、“ 社區(qū)患者/家屬健康教育”(health promotion)2個(gè)熱點(diǎn)。
2.4.2 調(diào)整數(shù)據(jù)集范圍的共詞分析結(jié)果
第二次分析是基于關(guān)鍵詞利用策略優(yōu)化方案的調(diào)整數(shù)據(jù)集范圍的實(shí)驗(yàn)。對(duì)比第一次共詞分析的熱點(diǎn)識(shí)別效果,它移除了“self-care”關(guān)鍵詞所代表“超級(jí)類(lèi)團(tuán)”所對(duì)應(yīng)的文獻(xiàn)數(shù)據(jù)集,弱化了聚類(lèi)過(guò)程中“self-care”“超級(jí)類(lèi)團(tuán)”對(duì)諸如“戒煙主動(dòng)干預(yù)”(smoking cessation、proactive intervention)、“感知健康狀況”(perceived health status)、“口腔保健干預(yù)”(oral health)、“個(gè)人健康記錄”(personal health record)、“同情疲勞”(compassion fatigue)、“護(hù)理人員素養(yǎng)”(health education)和“營(yíng)養(yǎng)與運(yùn)動(dòng)康復(fù)”(nutrition、physical activity)等小數(shù)量級(jí)概念的吸引效應(yīng),聚焦了7個(gè)小數(shù)量級(jí)關(guān)鍵詞所代表的概念,令其成功地在聚類(lèi)過(guò)程形成類(lèi)團(tuán),在結(jié)果中得到表達(dá)。在原始數(shù)據(jù)固定的前提下,關(guān)鍵詞利用策略優(yōu)化方案發(fā)揮了聚焦小數(shù)量級(jí)概念,拓展學(xué)科潛在熱點(diǎn)探測(cè)廣度的優(yōu)勢(shì)。
2.4.3 引入關(guān)鍵詞組的共詞分析結(jié)果
第三次的分析是基于關(guān)鍵詞利用策略優(yōu)化方案的引入關(guān)鍵詞組的實(shí)驗(yàn)。對(duì)比第一次共詞分析的熱點(diǎn)識(shí)別效果,優(yōu)勢(shì)體現(xiàn)在:引入了“認(rèn)知障礙”(cognitive impairment)、“血糖控制”(glycemic control)、“心理計(jì)量學(xué)”(psychometric properties)、“健康相關(guān)生活質(zhì)量”(health-related quality)、“專(zhuān)業(yè)護(hù)理人員”(health care providers)等關(guān)鍵詞組的方案,不分解、不破壞作者科研概念的完整度,避免以詞組形式凝練表現(xiàn)出的概念被拆分成單獨(dú)的單詞歸檔統(tǒng)計(jì),以致語(yǔ)義信息不完善、重要信息不完整。在識(shí)別出研究對(duì)象之外,捕獲了更多關(guān)于熱點(diǎn)的側(cè)重方向、應(yīng)用技術(shù)、發(fā)生場(chǎng)景等起補(bǔ)充作用的信息,發(fā)現(xiàn)了健康自主管理的“認(rèn)知障礙”側(cè)重、糖尿病研究的“血糖控制與主動(dòng)干預(yù)”、醫(yī)學(xué)信息學(xué)的“心理計(jì)量學(xué)應(yīng)用”等5個(gè)熱點(diǎn)補(bǔ)充。在原始數(shù)據(jù)固定的前提下,關(guān)鍵詞利用策略優(yōu)化方案發(fā)揮了保留關(guān)鍵詞組概念,明晰學(xué)科熱點(diǎn)側(cè)重方向,擴(kuò)展學(xué)科熱點(diǎn)探測(cè)深度的優(yōu)勢(shì)。
本次實(shí)證分析在第一次共詞分析初始發(fā)現(xiàn)的5類(lèi)研究領(lǐng)域、12個(gè)熱點(diǎn)之外,經(jīng)關(guān)鍵詞利用策略優(yōu)化方案處理后第二次及第三次共詞分析擴(kuò)展識(shí)別了7個(gè)潛在熱點(diǎn)話題,補(bǔ)充發(fā)現(xiàn)了5個(gè)復(fù)合詞組表達(dá)的研究概念。對(duì)領(lǐng)域主題熱點(diǎn)的拓展,擴(kuò)充了概念數(shù)目,使之達(dá)到原有的2倍。
針對(duì)共詞分析研究中高頻詞分析聚類(lèi)不足,類(lèi)團(tuán)劃分過(guò)程中“馬太效應(yīng)”突出,以及獨(dú)立關(guān)鍵詞分裂了詞組表達(dá)信息,使主題不完整的問(wèn)題,提出了關(guān)鍵詞利用策略優(yōu)化方案。通過(guò)調(diào)整數(shù)據(jù)集范圍削弱了聚類(lèi)過(guò)程中類(lèi)團(tuán)間的馬太效應(yīng)。在原始數(shù)據(jù)集高頻詞共詞分析的基礎(chǔ)上,基于調(diào)整之后的數(shù)據(jù)集成功聚焦小數(shù)量級(jí)概念,發(fā)現(xiàn)多個(gè)潛在研究熱點(diǎn),拓展了研究熱點(diǎn)的識(shí)別廣度。此外,引入關(guān)鍵詞組具有熱點(diǎn)補(bǔ)充作用。通過(guò)詞組間攜帶的組配特性,從語(yǔ)義的層面保留了作者的科研意圖,在研究對(duì)象范圍不變的情況下補(bǔ)充得出更多研究熱點(diǎn)信息,擴(kuò)展了識(shí)別的深度。綜上所述,關(guān)鍵詞利用策略優(yōu)化方案令小數(shù)量級(jí)關(guān)鍵詞代表的概念聚焦,關(guān)鍵詞組代表的概念呈現(xiàn)完整,從多維度、多角度豐富了共詞分析結(jié)果。通過(guò)調(diào)整數(shù)據(jù)集范圍,借助軟件DDA的創(chuàng)建數(shù)據(jù)子集功能,分析人員能夠自由選擇過(guò)濾某些“干擾”強(qiáng)的關(guān)鍵詞,放大知識(shí)單元分析的細(xì)節(jié),進(jìn)一步增益了對(duì)知識(shí)全貌的還原。引入關(guān)鍵詞組有助于獲得隱含的主題信息,在相當(dāng)數(shù)量的高頻關(guān)鍵詞處理的基礎(chǔ)上,融入表意更豐富的關(guān)鍵詞組,是對(duì)共詞分析的有益增補(bǔ)。不過(guò),本文仍然存在一定局限,在剝離靠前概念對(duì)應(yīng)的文獻(xiàn)集時(shí),仍需以預(yù)實(shí)驗(yàn)結(jié)合人工經(jīng)驗(yàn)的模式判斷剝離分界程度,而且共詞分析在得到研究熱點(diǎn)主題后,需要返回原始論文中進(jìn)行學(xué)科領(lǐng)域認(rèn)知與內(nèi)容分析,對(duì)內(nèi)容的概括與認(rèn)知程度取決于研究執(zhí)行者的學(xué)術(shù)經(jīng)驗(yàn)。
[1] 牟冬梅,鄭曉月,琚沅紅,等. 學(xué)科知識(shí)結(jié)構(gòu)揭示模型構(gòu)建[J]. 圖書(shū)情報(bào)工作,2017,61(12):6-13.
[2] 鐘偉金,李佳. 共詞分析法研究(一)——共詞分析的過(guò)程與方式[J]. 情報(bào)雜志,2008(5):70-72.
[3] 黃月,王鑫. 基于高維稀疏聚類(lèi)的知識(shí)結(jié)構(gòu)識(shí)別研究[J]. 現(xiàn)代情報(bào),2019,39(12):72-80.
[4] 李綱,巴志超. 共詞分析過(guò)程中的若干問(wèn)題研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2017,43(4):93-113.
[5] 楊穎. 基于共詞分析的學(xué)科結(jié)構(gòu)可視化研究[D]. 沈陽(yáng):中國(guó)醫(yī)科大學(xué),2010.
[6] 李綱,李軼. 一種基于關(guān)鍵詞加權(quán)的共詞分析方法[J]. 情報(bào)科學(xué),2011,29(3):321-324,332.
[7] 李綱,李昱瑤,謝子霖,等. 混合關(guān)鍵詞選擇策略對(duì)共詞分析效果的影響研究[J]. 情報(bào)理論與實(shí)踐,2017,40(11):110-116.
[8] 傅柱,王曰芬. 共詞分析中術(shù)語(yǔ)收集階段的若干問(wèn)題研究[J]. 情報(bào)學(xué)報(bào),2016,35(7):704-713.
[9] 楊麗,張彤彤,周文杰. 共詞分析識(shí)別研究熱點(diǎn)的效標(biāo)關(guān)聯(lián)效度研究:基于自然語(yǔ)言處理[J]. 圖書(shū)與情報(bào),2018(1):15-19.
[10] 李鋒. 兼顧中低頻關(guān)鍵詞的共詞分析實(shí)踐——以圖書(shū)情報(bào)學(xué)高被引文章為例[J]. 圖書(shū)館雜志,2018,37(4):34-42.
[11] 徐坤,畢強(qiáng). 次高頻關(guān)鍵詞的選擇及在共詞分析中的應(yīng)用[J]. 情報(bào)理論與實(shí)踐,2019,42(5):148-152.
[12] 余本功,王龍飛,陳楊楠,等. 基于文獻(xiàn)多屬性加權(quán)的共詞分析方法研究[J]. 情報(bào)科學(xué),2019,37(1):122-128.
[13] 唐曉波,李津. 在線健康社區(qū)信息需求主題分析[J]. 數(shù)字圖書(shū)館論壇,2019(2):12-17.
[14] 滕廣青,葉心,郭思月,等. 科技信息分析從單一維度到多維復(fù)合的演進(jìn)[J]. 數(shù)字圖書(shū)館論壇,2019(12):2-8.
[15] 胡昌平,陳果. 科技論文關(guān)鍵詞特征及其對(duì)共詞分析的影響[J]. 情報(bào)學(xué)報(bào),2014,33(1):23-32.
[16] 楊建林. 關(guān)鍵詞選擇策略及其對(duì)共詞分析的影響[J]. 情報(bào)學(xué)報(bào),2014,33(10):1083-1090.
[17] 劉奕杉,王玉琳,李明鑫. 詞頻分析法中高頻詞閾值界定方法適用性的實(shí)證分析[J]. 數(shù)字圖書(shū)館論壇,2017(9):42-49.
[18] 郭紅梅,張智雄. 基于圖挖掘的文本主題識(shí)別方法研究綜述[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2015,41(6):97-108.
[19] 中共中央 國(guó)務(wù)院印發(fā)《“健康中國(guó)2030”規(guī)劃綱要》[EB/OL].[2021-12-01]. http://www.gov.cn/zhengce/2016-10/25/content_5124174.htm.
[20] 關(guān)于印發(fā)《“十三五”衛(wèi)生與健康科技創(chuàng)新專(zhuān)項(xiàng)規(guī)劃》的通知[EB/OL].[2021-12-01]. http://www.most.gov.cn/tztg/201706/t20170613_133484.html.
[21] 新華社. 聚焦“治未病”健康指標(biāo)納入政府考核——權(quán)威解讀健康中國(guó)行動(dòng)有關(guān)文件[EB/OL].[2021-12-01]. https://baijiahao.baidu.com/s?id=1639124386954279536&wfr=spider&for=pc.
[22] 潘瑋,鄭鵬,黃錦泉,等.基于數(shù)據(jù)清洗“DEAN”流程的健康信息領(lǐng)域研究熱點(diǎn)探測(cè)[J]. 現(xiàn)代情報(bào),2018,38(10):73-77.
[23] 孫清蘭. 高頻詞與低頻詞的界分及詞頻估算法[J]. 中國(guó)圖書(shū)館學(xué)報(bào),1992(2):78-81,95-96.
[24] 章娟,盧祖洵,段志光. Web of Science數(shù)據(jù)庫(kù)中Keywords Plus的準(zhǔn)確性研究——以患者依從性研究論文為例[C]. 第一屆兩岸三地科學(xué)計(jì)量學(xué)與信息計(jì)量學(xué)研討會(huì)論文集,西安:中國(guó)科學(xué)學(xué)與科技政策研究會(huì),中國(guó)科學(xué)技術(shù)信息研究所,2013.
[25] ZHANG J,YU Q,ZHENG F,et al. Comparing keywords plus of WOS and author keywords:a case study of patient adherence research[J]. Journal of the Association for Information Science and Technology,2016,67(4):967-972.
Research on Co-word Analysis Based on Keyword Optimization
MA YuChi1MU DongMei2YANG XinYu3
( 1. Library of Jilin University of Finance and Economics, Changchun 130117, P. R. China; 2. The First Hospital of Jilin University, Changchun 130021, P. R. China; 3. School of Public Health, Jilin University, Changchun 130021, P. R. China )
This paper propose a keyword optimization plan to solve the problems of small-scale concept defocus and keyword group concept missing, optimize the results of co-word analysis, and expand the breadth and depth of research hotspots recognition. The keyword optimization mode is based on the high-frequency word co-word analysis, introduces the processing method of combining keywords and keyword groups, and obtains the optimization of the co-word analysis results by adjusting the range of the data set. The empirical part takes the topic of “proactive health” as an example, uses DDA software to complete a co-word analysis based on the keyword optimization plan, and detects the research hotspots of proactive health. A keyword optimization plan is proposed, which optimizes the co-word analysis by adjusting the scope of the data set and introducing keyword group recognition. In the empirical research part, in addition to the 5 types of research fields and 12 hotspots initially discovered, the co-word analysis based on the keyword optimization plan expanded to identify 7 potential hotspots and supplemented the discovery of 5 research concepts expressed by compound phrases. The keyword optimization mode enables small-scale concepts to focus on forming clusters, which can be expressed in the clustering process, and also enables the concepts represented by keyword groups to be fully presented.
Co-word Analysis; Keywords; Keyword Groups; Proactive Health; Optimization Plan; DDA
(2021-12-01)
G250.252
10.3772/j.issn.1673-2286.2021.12.006
馬宇馳,牟冬梅,楊鑫禹. 優(yōu)化關(guān)鍵詞利用策略的共詞分析研究[J]. 數(shù)字圖書(shū)館論壇,2021(12):34-40.
馬宇馳,男,1989年生,碩士,助理館員,研究方向:數(shù)據(jù)整合與智慧服務(wù)。
牟冬梅,女,1970年生,博士,教授,通信作者,研究方向:醫(yī)學(xué)數(shù)據(jù)整合與智慧服務(wù),E-mail:moudm@jlu.edu.cn。
楊鑫禹,女,1996年生,博士研究生,研究方向:醫(yī)學(xué)數(shù)據(jù)整合與智慧服務(wù)。
*本研究得到國(guó)家自然科學(xué)基金項(xiàng)目“信息鏈視域下電子病歷數(shù)據(jù)驅(qū)動(dòng)健康服務(wù)供給側(cè)決策的路徑與模式研究”(編號(hào):71974074)資助。