胡玉寧 李小濤 朱學(xué)芳
(1.濱州醫(yī)學(xué)院醫(yī)學(xué)人文研究中心 煙臺(tái) 264003;2.南京航空航天大學(xué)科技信息研究所 南京 210016;3.南京大學(xué)信息管理學(xué)院 南京 210023)
隨著科學(xué)研究進(jìn)入第四范式時(shí)代,各領(lǐng)域科學(xué)家與計(jì)算機(jī)科學(xué)家協(xié)同研究工作需求,從科學(xué)數(shù)據(jù)中發(fā)現(xiàn)理論與知識(shí),推動(dòng)和豐富科學(xué)發(fā)現(xiàn)成為這一新型科研范式的特點(diǎn)[1]。知識(shí)發(fā)現(xiàn)作為知識(shí)情報(bào)服務(wù)的表現(xiàn)形式之一,旨在通過(guò)對(duì)大量信息的科學(xué)、有效、定量分析,獲取和揭示相關(guān)學(xué)科或領(lǐng)域知識(shí)的生產(chǎn)與流動(dòng)、離散與重組、交叉與融合特征和過(guò)程,以輔助學(xué)科領(lǐng)域的科學(xué)研究工作者或科研管理工作人員熟悉、掌握知識(shí)發(fā)展脈絡(luò)軌跡,識(shí)別學(xué)科領(lǐng)域的研究熱點(diǎn),探測(cè)研究前沿和發(fā)展趨勢(shì),并作出科學(xué)評(píng)價(jià)以輔助決策過(guò)程[2]。鑒于知識(shí)本身的復(fù)雜系統(tǒng)性和學(xué)科交叉滲透的資源融合性,如果采取單一方法、單一視角進(jìn)行知識(shí)發(fā)現(xiàn)分析,只能獲取對(duì)分析對(duì)象的局部或者片面的認(rèn)知。如何更加科學(xué)、全面、客觀、準(zhǔn)確地描述和揭示科學(xué)知識(shí)結(jié)構(gòu)的特征和知識(shí)主題的演化規(guī)律,確保知識(shí)發(fā)現(xiàn)能夠最大程度地回歸和呈現(xiàn)科學(xué)研究的真實(shí)世界,成為情報(bào)人員優(yōu)化和提升情報(bào)服務(wù)工作的目標(biāo)和追求。圖情學(xué)界近來(lái)愈發(fā)認(rèn)識(shí)到多源數(shù)據(jù)融合的關(guān)鍵性和重要性,關(guān)于融合(又或復(fù)合、混合)方法的研究逐漸受到關(guān)注,在新方法、新技術(shù)方面進(jìn)行了有益的探索和研究。但整體來(lái)看,多源數(shù)據(jù)融合方法在具體的實(shí)踐中還有很多細(xì)節(jié)需要探討,在理論探索和數(shù)據(jù)優(yōu)化的方法創(chuàng)新方面仍有較大的提升空間。
通過(guò)文獻(xiàn)回顧性分析發(fā)現(xiàn),圖情領(lǐng)域已形成了以傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)方法為發(fā)端,以科學(xué)知識(shí)圖譜方法為支撐,進(jìn)一步深化和突出文本挖掘和復(fù)雜網(wǎng)絡(luò)方法的發(fā)展軌跡,科學(xué)知識(shí)圖譜方法逐步向共詞、共引及各種可視化技術(shù)、數(shù)據(jù)挖掘技術(shù)相融合的方向發(fā)展,未來(lái)科學(xué)知識(shí)圖譜方法的發(fā)展趨勢(shì)是多方法、多源數(shù)據(jù)和多數(shù)據(jù)處理方法的融合[3]。近年來(lái),融合引文特征和內(nèi)容特征的知識(shí)發(fā)現(xiàn)方法成為學(xué)界研究的重點(diǎn),比利時(shí)研究者P.Glenisson等認(rèn)為融合內(nèi)容分析和引文分析的方法是一種有價(jià)值的工具,利用參考文獻(xiàn)的信息能夠進(jìn)一步提高科學(xué)結(jié)構(gòu)劃分的準(zhǔn)確程度[4]。比利時(shí)研究者F.Janssens等利用統(tǒng)計(jì)方法將獲取的參考文獻(xiàn)-文獻(xiàn)矩陣和詞-文獻(xiàn)矩陣進(jìn)行了融合,證明將引文和內(nèi)容兩類(lèi)特征融合一起的方法提高了領(lǐng)域主題分類(lèi)或知識(shí)結(jié)構(gòu)劃分的效果[5],并利用期刊數(shù)據(jù)集對(duì)基本科學(xué)指標(biāo)數(shù)據(jù)庫(kù)(Essential Science Indicators,ESI)分類(lèi)進(jìn)行了研究[6]。國(guó)內(nèi)學(xué)者張琳等基于“文本-引文”的混合聚類(lèi)方法,選取了“心理學(xué)、社會(huì)學(xué)和教育學(xué)領(lǐng)域”用于科學(xué)結(jié)構(gòu)研究,在期刊核心聚類(lèi)的基礎(chǔ)上抽取源于子類(lèi)期刊文獻(xiàn)的標(biāo)題、摘要和關(guān)鍵詞的詞條進(jìn)行標(biāo)注,將引文信息和文獻(xiàn)內(nèi)容特征進(jìn)行了融合分析[7]。韓毅等在對(duì)引文網(wǎng)絡(luò)分析方法的整合研究進(jìn)展中提到,期刊網(wǎng)絡(luò)是對(duì)科學(xué)知識(shí)交流系統(tǒng)的載體化表征,參考文獻(xiàn)則代表了相關(guān)研究?jī)?nèi)容和主題的背景知識(shí),因此可以通過(guò)期刊網(wǎng)絡(luò)和參考文獻(xiàn)的交叉集合來(lái)定義一個(gè)研究領(lǐng)域或者專(zhuān)業(yè),將引文和內(nèi)容詞相結(jié)合對(duì)知識(shí)結(jié)構(gòu)進(jìn)行細(xì)分和揭示,可以彌補(bǔ)二者各自的不足[8]。
以上研究為進(jìn)一步深化知識(shí)發(fā)現(xiàn)融合分析方法的相關(guān)研究帶來(lái)諸多啟示,但需要關(guān)注的是,在具體的選擇不同來(lái)源、不同類(lèi)型數(shù)據(jù)融合后的知識(shí)網(wǎng)絡(luò)往往數(shù)據(jù)規(guī)模龐大,大規(guī)模節(jié)點(diǎn)的聚類(lèi)分析不僅對(duì)人類(lèi)視覺(jué)系統(tǒng)帶來(lái)較大負(fù)擔(dān),也導(dǎo)致數(shù)據(jù)可視化展示的質(zhì)量和效果難以保證。在圖情領(lǐng)域的相關(guān)知識(shí)圖譜可視化的應(yīng)用研究中,大都依賴于可視化工具本身的聚類(lèi)算法,相關(guān)的參數(shù)選擇和設(shè)定在很大程度上依賴專(zhuān)家經(jīng)驗(yàn)的主觀判別,且往往受限于特定分析對(duì)象,缺乏一定的普適性。因此,在數(shù)據(jù)預(yù)處理的環(huán)節(jié),如何對(duì)數(shù)據(jù)集進(jìn)行優(yōu)化以最大程度地減少對(duì)有價(jià)值信息的折損,這是融合數(shù)據(jù)方法進(jìn)行知識(shí)發(fā)現(xiàn)研究的重要基礎(chǔ)和關(guān)鍵核心。本文通過(guò)選取兩類(lèi)不同的文獻(xiàn)特征項(xiàng),即文獻(xiàn)的主題詞和引文信息,通過(guò)數(shù)理方法“并行”融合,并對(duì)融合后的知識(shí)網(wǎng)絡(luò)進(jìn)行量化測(cè)度研究,以期在知識(shí)網(wǎng)絡(luò)的數(shù)據(jù)優(yōu)化、量化測(cè)度方面進(jìn)行方法學(xué)的探索,為進(jìn)一步提高知識(shí)發(fā)現(xiàn)服務(wù)的科學(xué)性、有效性提供方法學(xué)借鑒。
本文選取期刊文獻(xiàn)的主題詞和引文兩種實(shí)體特征項(xiàng)作為數(shù)據(jù)融合的來(lái)源,圖1展示了融合主題詞-引文的知識(shí)發(fā)現(xiàn)過(guò)程。首先,實(shí)現(xiàn)文獻(xiàn)主題詞和引文兩類(lèi)特征項(xiàng)的數(shù)據(jù)融合過(guò)程,基于隸屬關(guān)系構(gòu)建兩類(lèi)一模知識(shí)網(wǎng)絡(luò),即文獻(xiàn)-主題詞關(guān)聯(lián)的一模知識(shí)網(wǎng)絡(luò)和文獻(xiàn)-引文關(guān)聯(lián)的一模知識(shí)網(wǎng)絡(luò),再次,基于耦合關(guān)系和矩陣轉(zhuǎn)換實(shí)現(xiàn)主題詞-引文二模知識(shí)網(wǎng)絡(luò)的構(gòu)建,第三階段采用熵值方法定義耦合熵指數(shù),并利用耦合熵指數(shù)對(duì)主題詞-引文知識(shí)耦合系統(tǒng)進(jìn)行量化和測(cè)度,第四階段是選取實(shí)證案例,開(kāi)展基于主題詞-引文耦合熵的知識(shí)演化實(shí)證分析,包括對(duì)系統(tǒng)耦合因子交互作用的量化測(cè)度、識(shí)別強(qiáng)鏈接耦合因子團(tuán)體,并利用可視化技術(shù)和工具繪制知識(shí)圖譜,進(jìn)行案例的知識(shí)可視化及量化解讀(見(jiàn)圖1)。
圖1融合主題詞-引文的知識(shí)發(fā)現(xiàn)過(guò)程圖
本文以生物醫(yī)學(xué)數(shù)據(jù)庫(kù)PubMed和科睿唯安WOS為基礎(chǔ)數(shù)據(jù)源,以“乳腺小葉癌病因?qū)W”主題的文獻(xiàn)數(shù)量906篇為原始數(shù)據(jù)集,提取引文和主題元數(shù)據(jù)分別得到了3 089種刊名簡(jiǎn)寫(xiě)和1 695個(gè)主題詞組成的變量集合(包含4 784個(gè)變量,占據(jù)5 235 855個(gè)數(shù)據(jù)元素)。對(duì)主題詞集的基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),詞頻小于10次的主題詞共1 501個(gè),占整個(gè)主題詞變量集合的88.6%,頻次在51-100之間的主題詞占整個(gè)主題詞集比例8.7%,選取頻次大于10次的主題詞集,同時(shí)剔除對(duì)文獻(xiàn)內(nèi)容的揭示能力相對(duì)有限的特征詞,最終獲取177個(gè)主題詞作為進(jìn)一步分析的數(shù)據(jù)集。
2.3.1定義耦合熵指數(shù)
由主題詞集和引文刊集構(gòu)成的2-模知識(shí)網(wǎng)絡(luò)是一個(gè)知識(shí)耦合系統(tǒng),系統(tǒng)要素包含主題詞和引文期刊名稱(chēng),要素之間通過(guò)共現(xiàn)關(guān)系形成了一個(gè)復(fù)雜交互的耦合系統(tǒng),每個(gè)主題詞和引文期刊之間可視作一項(xiàng)耦合因子。為規(guī)避混合2-模矩陣聚類(lèi)分析時(shí)對(duì)耦合強(qiáng)度取值規(guī)模的依賴,同時(shí)為了進(jìn)一步量化和測(cè)度耦合因子之間的交流和聯(lián)系程度,本文基于信息熵相關(guān)理論和熵值方法,提出“耦合熵”指標(biāo),用來(lái)測(cè)度耦合因子之間的耦合強(qiáng)度,系統(tǒng)熵流來(lái)源于主題詞-引文期刊這個(gè)知識(shí)耦合系統(tǒng)中的各項(xiàng)耦合因子。設(shè)主題詞集V中有m個(gè)主題詞,引文期刊集C中有n種期刊,由主題詞和引文期刊構(gòu)成的混合2-模矩陣中每個(gè)矩陣元素代表一項(xiàng)耦合因子,耦合強(qiáng)度數(shù)值表示為Xij(i=1,2,3,…,m;j=1,2,3,…,n)。那么,在指定的年度y里,對(duì)于每一項(xiàng)耦合因子(Vi,Cj)的耦合強(qiáng)度表示為(Xij,y)。
采用熵值方法進(jìn)行計(jì)算應(yīng)注意以下兩個(gè)問(wèn)題,第一,熵值方法具有一定的應(yīng)用范圍和限制條件,由于確定各指標(biāo)數(shù)據(jù)的差異性是熵值法的核心,這就要求客觀數(shù)據(jù)具有較高的準(zhǔn)確性與完整性,因此具有完整的樣本數(shù)據(jù)集是使用熵值法進(jìn)行評(píng)價(jià)的前提條件,否則就無(wú)法根據(jù)各指標(biāo)數(shù)據(jù)所反映的信息差異確定其熵值[9]。第二,針對(duì)于本研究的樣本數(shù)據(jù),由主題詞和引文期刊構(gòu)成知識(shí)耦合系統(tǒng)中,耦合強(qiáng)度數(shù)值越大,耦合因子的熵流越大,由于熵值方法要保留原始數(shù)據(jù)之間的差異性,需要對(duì)熵值進(jìn)行歸一化處理,歸一化的方法就是除以耦合因子對(duì)最大值的對(duì)數(shù)。因此,耦合熵指數(shù)的數(shù)學(xué)計(jì)算公式可以表示為:
(1)
2.3.2融合主題詞-引文知識(shí)耦合系統(tǒng)的知識(shí)演化分析
為了揭示和展現(xiàn)乳腺小葉癌案例文獻(xiàn)的高頻主題詞的時(shí)間演化特征,描述和呈現(xiàn)主題詞和引文之間的耦合交互和交叉關(guān)系,基于耦合熵指數(shù)量化呈現(xiàn)高頻主題詞集的時(shí)間演化圖譜,以洞察高頻詞集在整個(gè)窗口的演化特征,為進(jìn)一步準(zhǔn)確探測(cè)學(xué)科知識(shí)演化主題特異詞做數(shù)據(jù)準(zhǔn)備。具體步驟如下:
a.選取主題詞集,解析主題詞-引文耦合二模知識(shí)網(wǎng)絡(luò)。首先,根據(jù)前文所述,選取主題詞頻次大于10次的194個(gè)高頻詞集,剔除17個(gè)特征詞,以剩余177個(gè)主題詞為進(jìn)一步分析的主題詞數(shù)據(jù)集。其次,采用自編程序?qū)θ橄傩∪~癌案例文獻(xiàn)集六個(gè)時(shí)間窗口的主題詞-引文刊名二模初始矩陣進(jìn)行解析,以177個(gè)高頻詞組成的主題詞集作為從初始矩陣析出新矩陣的行變量源,分別生成對(duì)應(yīng)時(shí)間窗口的主題詞-引文刊名二模子矩陣。在這個(gè)過(guò)程中,定義行變量源主題詞集m={m1,m2,…,mi},其中i={1,177}。定義時(shí)間窗口主題詞-引文刊名二模初始矩陣為M= {M1,M2,…,Mi},解析后的六個(gè)子矩陣表示為M'={M'1,M'2,…,M'j},其中j={1,6}。定義六個(gè)子矩陣的主題詞集m'={m'1a,m'2b,m'2c,m'4d,m'5e,m'6f},其中a={1,739},b={1,670},c={1,565},d={1,624},e={1,535},f={1,337}。子矩陣解析規(guī)則為,以2013年度子矩陣為例,若m'1a∈m,m'1a所在矩陣結(jié)構(gòu)保留,m'1a¢m,m'1a所在矩陣結(jié)構(gòu)消除。
b.計(jì)算耦合熵指數(shù)。為分析177個(gè)高頻詞組成的主題詞集中,每個(gè)詞符隨時(shí)間進(jìn)程與引文的耦合交互和交叉關(guān)系,計(jì)算每個(gè)主題詞分別在六個(gè)時(shí)間窗口內(nèi)的耦合熵指數(shù),用來(lái)表示每個(gè)主題詞在某年度與引文期刊耦合交互和交叉作用的程度。根據(jù)前文中對(duì)耦合熵指數(shù)的定義和數(shù)學(xué)原理,耦合熵取值范圍應(yīng)在0到1之間。
c.耦合熵指數(shù)分級(jí)劃分。將每個(gè)主題詞在六個(gè)時(shí)間窗口內(nèi)的耦合熵指數(shù)的數(shù)值分布劃分為六個(gè)區(qū)間,定義色階圖例規(guī)則,繪制熱力圖。
按照以上步驟和要求,計(jì)算得出乳腺小葉癌案例文獻(xiàn)主題詞集中177個(gè)高頻主題詞的年度耦合熵指數(shù),按照頻序降序排列位于前10位的主題詞耦合熵指數(shù)如表1所示。為了更加直觀、清晰地探測(cè)和研究177個(gè)核心主題詞在整個(gè)時(shí)間窗的時(shí)序演化規(guī)律,按照時(shí)間切片對(duì)主題詞的耦合熵指數(shù)進(jìn)行等級(jí)劃分并繪制圖譜。
表1 全部時(shí)間窗主題詞耦合熵指數(shù)(頻序排名前10)
按照定義的耦合熵指數(shù)分級(jí)劃分規(guī)則,運(yùn)用熱力圖譜進(jìn)行了可視化展示,描述和呈現(xiàn)了主題詞和引文之間的耦合交互和交叉關(guān)系,較為直觀地展示了融合主題詞和引文刊名的二模知識(shí)系統(tǒng)的時(shí)間演化特征。
熱力圖是以特殊高亮的形式呈現(xiàn)區(qū)域特征分布的一種制圖形式,在本研究中,按照定義的耦合熵指數(shù)分級(jí)劃分規(guī)則,可以運(yùn)用熱力圖譜進(jìn)行可視化展示,用來(lái)直觀地描述和呈現(xiàn)主題詞和引文之間的耦合交互和交叉關(guān)系,展示融合主題詞和引文刊名的二模知識(shí)系統(tǒng)的時(shí)間演化特征。比如,可以用2013-2018年六個(gè)時(shí)間窗口作為橫坐標(biāo)軸,以乳腺小葉癌主題詞集中177個(gè)高頻詞的頻序號(hào)碼作為縱坐標(biāo)軸,這樣就能構(gòu)建出一個(gè)熱力圖譜。具體來(lái)說(shuō),從圖譜面板的橫向分析,每條色階演化圖譜代表了每個(gè)主題詞在六年內(nèi)與引文期刊的耦合熵指數(shù)變化情況,色階的顏色深淺程度代表了主題詞-引文期刊耦合因子對(duì)之間的熵流情況。顏色強(qiáng)弱變換表明由主題詞所表征的學(xué)科主題類(lèi)別與引文期刊所映射的學(xué)科類(lèi)別之間的耦合強(qiáng)度變化程度強(qiáng)弱。那么如何根據(jù)熱力圖中區(qū)域顏色的變化來(lái)理解它所表現(xiàn)出來(lái)的知識(shí)演化特征呢?
如果區(qū)域的顏色較深,就表明主題詞所表征的學(xué)科主題類(lèi)別與引文期刊所映射的學(xué)科類(lèi)別耦合程度較強(qiáng),在共同揭示學(xué)科主題和表征科學(xué)知識(shí)結(jié)構(gòu)方面吻合度較高,具有較高的一致性,二者形成的學(xué)科組合就代表了該研究領(lǐng)域較為成熟和穩(wěn)定的學(xué)科子類(lèi)和知識(shí)結(jié)構(gòu)。圖譜中顏色分布不均勻的區(qū)域就表明了主題詞所表征的學(xué)科主題類(lèi)別與引文期刊所映射的學(xué)科類(lèi)別耦合程度隨時(shí)間進(jìn)度呈現(xiàn)不同程度的波動(dòng)情況,說(shuō)明主題詞和引文期刊共同揭示學(xué)科主題和表征科學(xué)知識(shí)結(jié)構(gòu)的一致性存在差異和分化現(xiàn)象,這可能預(yù)示著學(xué)科主題類(lèi)別正處于演化過(guò)程,包括存在一定程度的突變、轉(zhuǎn)向、交叉等特征,以及逐漸形成新的、穩(wěn)定的主題。從圖譜面板縱向分析,可以了解各年度的熱詞分布情況。比如,可以用白色的色階表示某個(gè)主題詞在相應(yīng)年度中沒(méi)有出現(xiàn),那么結(jié)合橫軸的時(shí)間演化進(jìn)程就可以得知,從白色到漸進(jìn)色的轉(zhuǎn)變就能夠表明了一個(gè)主題詞逐漸成為研究熱點(diǎn),進(jìn)入穩(wěn)定的知識(shí)結(jié)構(gòu)的過(guò)程,相反的,從漸進(jìn)色轉(zhuǎn)變?yōu)榘咨?,表明一個(gè)學(xué)科研究主題的逐漸衰落和消亡過(guò)程。
綜合上文所述,耦合熵指數(shù)越大,表明主題詞所表征的學(xué)科主題類(lèi)別與引文期刊所映射的學(xué)科類(lèi)別耦合程度越強(qiáng),在共同揭示學(xué)科主題和表征科學(xué)知識(shí)結(jié)構(gòu)方面吻合度越高,具有較高耦合熵指數(shù)的主題詞-刊名耦合因子對(duì)就代表了該研究領(lǐng)域較為成熟和穩(wěn)定的學(xué)科子類(lèi)和知識(shí)結(jié)構(gòu)。對(duì)于學(xué)科知識(shí)演化分析研究而言,那些具有潛在突變性的耦合因子對(duì)更加具有揭示潛在研究前沿、探測(cè)科學(xué)知識(shí)結(jié)構(gòu)的功能,對(duì)這部分突變性的耦合因子對(duì)的識(shí)別和分析更加具有情報(bào)分析價(jià)值。因此,考慮到對(duì)學(xué)科新興主題探測(cè)和知識(shí)結(jié)構(gòu)動(dòng)態(tài)描述的情報(bào)分析需求,應(yīng)重點(diǎn)關(guān)注識(shí)別和捕捉學(xué)科知識(shí)演化中的突變主題。
對(duì)于一個(gè)獨(dú)立的主題詞而言,其耦合熵指數(shù)在時(shí)間維度上的變化體現(xiàn)了該主題詞與所有刊名耦合因子對(duì)耦合程度的變化規(guī)律,表明了由主題詞所表征的學(xué)科主題類(lèi)別與引文期刊所映射的學(xué)科類(lèi)別之間的耦合程度。對(duì)于兩個(gè)或多個(gè)主題詞而言,耦合熵指數(shù)的數(shù)據(jù)離散程度體現(xiàn)了不同主題詞與刊名耦合因子對(duì)耦合程度的差異狀況,表明了由主題詞所表征的學(xué)科主題類(lèi)別與引文期刊所映射的學(xué)科類(lèi)別共同揭示學(xué)科主題結(jié)構(gòu)一致性水平。其中,耦合熵指數(shù)的離散程度較大表明相關(guān)耦合因子對(duì)共同揭示的學(xué)科主題和知識(shí)結(jié)構(gòu)一致性水平較低。從知識(shí)演化角度分析,這種具有突變性的耦合因子對(duì)可能表征和揭示了相關(guān)學(xué)科主題和知識(shí)結(jié)構(gòu)的突變、轉(zhuǎn)向、交叉和融合。那么,如何衡量和識(shí)別學(xué)科知識(shí)演化過(guò)程中具有潛在突變性的耦合因子對(duì)呢?
2.4.1耦合熵指數(shù)的數(shù)據(jù)離散程度分析:突變性耦合因子對(duì)的初步識(shí)別
a.基于離散系數(shù)的耦合熵指數(shù)離散程度描述。數(shù)據(jù)的離散程度與集中趨勢(shì)是統(tǒng)計(jì)學(xué)中描述數(shù)據(jù)分布的兩個(gè)特征,離散程度反映的是各變量值遠(yuǎn)離其中心值的程度,本文選取離散系數(shù)對(duì)主題詞耦合熵指數(shù)的數(shù)據(jù)離散程度進(jìn)行描述和分析,以實(shí)現(xiàn)突變性耦合因子對(duì)的初步識(shí)別,乳腺小葉癌案例的177個(gè)主題詞集耦合熵指數(shù)的統(tǒng)計(jì)指標(biāo)量化數(shù)據(jù)如表2所示。
表2 乳腺小葉癌案例主題詞耦合熵指數(shù)相關(guān)統(tǒng)計(jì)指標(biāo)量化一覽表(部分展示)
表2展示了乳腺小葉癌案例主題詞集中15個(gè)主題詞耦合熵指數(shù)的相關(guān)統(tǒng)計(jì)指標(biāo)量化數(shù)據(jù)。將主題詞按照耦合熵指數(shù)離散系數(shù)大小排序,并定義V(r)為離散系數(shù)的秩序。在選取的15個(gè)主題詞中,1-10號(hào)主題詞離散系數(shù)秩序也相應(yīng)位居前十,在177個(gè)高頻詞集中的頻序f(r)分布在{139,175}之間,這表明離散系數(shù)較大的主題詞可能較為集中地分布在詞集中的較低頻次序段范圍。但同時(shí)要注意到以下現(xiàn)象,11-13號(hào)主題詞離散系數(shù)秩序分別為52、58、61,在177個(gè)高頻詞集中的頻序f(r)分別為33、46、47。14-15號(hào)主題詞離散系數(shù)秩序分別為129、138,在177個(gè)高頻詞集中的頻序f(r)分別為154、176。從11-15號(hào)主題詞離散系數(shù)秩序與所在詞集的頻序分布情況,可知某些具有較高離散系數(shù)秩序的主題詞在詞集中同樣具有較高的頻序,某些具有較低離散系數(shù)秩序的主題詞在詞集中的頻序也較低。
從主題詞耦合熵指數(shù)離散系數(shù)秩序和主題詞集頻序分布的情況,帶給我們這樣的啟示和思考:基于離散系數(shù)衡量主題詞-引文刊名耦合熵指數(shù)的變異程度,雖然可以衡量不同主題詞耦合熵指數(shù)的數(shù)據(jù)離散程度,能夠識(shí)別出一些具有潛在突變性的耦合因子對(duì),比如發(fā)現(xiàn)了諸如序號(hào)1-10號(hào)這類(lèi)離散系數(shù)較大的主題詞集中地分布在詞集中的較低頻次序段范圍,但是不能很好的解釋“某些具有較高離散系數(shù)秩序的主題詞在詞集中同樣具有較高的頻序(如11-13號(hào))”,“某些具有較低離散系數(shù)秩序的主題詞在詞集中的頻序也較低(如14-15號(hào))”這兩種“數(shù)據(jù)失靈”的情況。序號(hào)11-13號(hào)所代表的一類(lèi)主題詞,本身屬于詞集高頻詞匯,雖然離散系數(shù)絕對(duì)值較大,但反映了其突變的相對(duì)差異較小。而那些本身分布在頻序相對(duì)較低的主題詞,雖然離散系數(shù)絕對(duì)值較小,但反映了其突變的相對(duì)差異較大??梢?jiàn),主題詞-引文刊名耦合因子對(duì)是否具有潛在突變性,不僅與離散系數(shù)有關(guān),還與主題詞在詞集的頻域分布有關(guān)。因此,對(duì)全面、精準(zhǔn)識(shí)別潛在突變性耦合因子而言,離散系數(shù)并不是一個(gè)理想、穩(wěn)定的指標(biāo),頻序是一個(gè)不容忽視的影響因素。
b. 突變系數(shù):一個(gè)有效識(shí)別突變性耦合因子對(duì)的測(cè)量指標(biāo)。為解決離散系數(shù)識(shí)別潛在突變性耦合因子對(duì)時(shí)“數(shù)據(jù)失靈”的情況,本文提出“突變系數(shù)”并進(jìn)行如下定義:突變系數(shù)CM(Coefficient of Mutation)為主題詞詞頻頻序與主題詞耦合熵指數(shù)離散系數(shù)秩序的比值。數(shù)學(xué)表達(dá)式為:
(2)
由數(shù)學(xué)表達(dá)式可以看出,CM是個(gè)非零值。若f(r)>V(r),則CM>1,表明主題詞的耦合熵指數(shù)離散系數(shù)越大,在詞集頻域分布中越是靠近低頻區(qū)域,突變系數(shù)越大,耦合因子對(duì)具有潛在突變性的可能性越大。若f(r) 按照突變系數(shù)的計(jì)算方法,計(jì)算乳腺小葉癌案例的177個(gè)主題詞的突變系數(shù),有77個(gè)主題詞的突變系數(shù)在1-10之間,占詞集的43.5%。突變系數(shù)大于1的主題詞共92個(gè),占詞集比例大約為52%。根據(jù)突變系數(shù)的定義,系數(shù)取值大于1作為判定是否具有潛在突變性的臨界值,因此,系數(shù)取值大于1的主題詞及其相應(yīng)引文刊名即是通過(guò)突變系數(shù)識(shí)別得出的具有潛在突變性的耦合因子對(duì)。表3列舉了突變系數(shù)排名前15的主題詞集列表,從主題詞所屬學(xué)科類(lèi)別來(lái)看,主要涵蓋研究技術(shù)(流行病學(xué)相關(guān)研究設(shè)計(jì)和方法)、遺傳學(xué)過(guò)程(基因表達(dá)調(diào)控、遺傳結(jié)構(gòu))、心理生理學(xué)、腫瘤、指示劑和試劑、治療學(xué)、信息科學(xué)等多學(xué)科主題。 表3 乳腺小葉癌案例高突變系數(shù)主題詞集列表(排名前15) 根據(jù)突變系數(shù)所識(shí)別的由92個(gè)主題詞及其相應(yīng)引文刊名組成的具有潛在突變性的耦合因子對(duì),分別析出乳腺小葉癌案例的主題詞-引文刊名耦合二模矩陣。相關(guān)矩陣信息如表4所示,可以看出,2013年度的矩陣規(guī)模最大,數(shù)據(jù)元素?cái)?shù)據(jù)為87 740個(gè)。 表4 突變性耦合因子對(duì)(主題詞-刊名)矩陣基本信息表 2.4.2融合主題詞-引文的乳腺小葉癌案例學(xué)科知識(shí)的可視化呈現(xiàn) 通過(guò)突變系數(shù)有效識(shí)別突變性耦合因子對(duì)(主題詞-刊名)矩陣,基于獲取的不同時(shí)間窗的主題詞-刊名耦合二模矩陣,作為學(xué)科知識(shí)可視化的基本數(shù)據(jù)源。表5呈現(xiàn)了部分2013-2018年主題詞-引文刊名突變性耦合因子對(duì)組成的10×10的矩陣列表。知識(shí)網(wǎng)絡(luò)的“?!笔侵腹?jié)點(diǎn)的集合,模數(shù)則指網(wǎng)絡(luò)中所包含節(jié)點(diǎn)集合類(lèi)型的種數(shù)。在2-模網(wǎng)中,不同于1-模網(wǎng)“因果性”分析的思路,它提供了一種“交互”的視角,凸顯雙向交互作用,這種研究方式是溝通現(xiàn)象與本質(zhì)、變化與動(dòng)力的橋梁[10],啟示我們要通過(guò)關(guān)注節(jié)點(diǎn)之間“關(guān)系”的角度進(jìn)行知識(shí)網(wǎng)絡(luò)分析。 在可視化過(guò)程中,設(shè)置圖譜中圓形節(jié)點(diǎn)為主題詞,方形節(jié)點(diǎn)為期刊,兩種節(jié)點(diǎn)間的連線表述主題詞與期刊間的耦合強(qiáng)度,耦合強(qiáng)度越高,連線越粗,選取知識(shí)圖譜工具Netdraw采用K-core提取網(wǎng)絡(luò)中最核心的區(qū)域。圖2展示了2013-2018年六年時(shí)間窗乳腺小葉癌病因?qū)W研究的靜態(tài)知識(shí)圖譜,也可以按照時(shí)間分年度呈現(xiàn)知識(shí)圖譜,形成的知識(shí)圖譜是基于融合主題詞-刊名2-模耦合網(wǎng)絡(luò),圖3呈現(xiàn)了2018年乳腺小葉癌病因?qū)W方面的知識(shí)圖譜,通過(guò)分析,可以發(fā)現(xiàn)融合主題詞-刊名的2-模知識(shí)網(wǎng)絡(luò)呈現(xiàn)以下特點(diǎn): 表5 2013-2018年突變性耦合因子對(duì)(主題詞-引文刊名)二模矩陣(10×10) 圖2 乳腺小葉癌案例融合主題詞-刊名高耦合矩陣的知識(shí)圖譜(2013-2018年) 圖3 乳腺小葉癌案例融合主題詞-刊名高耦合矩陣的知識(shí)圖譜(2018年) a.圖譜中存在以主題詞為中心和以期刊名稱(chēng)為中心的兩種不同類(lèi)型聚類(lèi)分布。以期刊名稱(chēng)為中心的聚類(lèi)較多,以主題詞為中心的聚類(lèi)較少,兩個(gè)類(lèi)型的聚類(lèi)分布在圖譜中呈現(xiàn)錯(cuò)落交叉,具有高耦合強(qiáng)度的期刊和主題詞之間形成了線條較粗的鏈接。 b.圖譜中存在“連接橋”性質(zhì)的節(jié)點(diǎn)。關(guān)系網(wǎng)絡(luò)中的“橋(bridge)”用來(lái)描述和界定兩點(diǎn)之間存在這樣的關(guān)系:如果去掉該關(guān)系連接,整個(gè)網(wǎng)絡(luò)將分割成為兩個(gè)獨(dú)立的子網(wǎng)絡(luò)結(jié)構(gòu),即兩個(gè)子網(wǎng)絡(luò)結(jié)構(gòu)代表的群體之間僅通過(guò)唯一關(guān)系相連接。在現(xiàn)實(shí)的網(wǎng)絡(luò)中,橋往往是信息的通道,作為資源交換的關(guān)節(jié)點(diǎn),能夠控制資源的傳輸,具有重要的意義。“橋”屬于網(wǎng)絡(luò)結(jié)構(gòu)中弱關(guān)系的一種表現(xiàn)形式,這種弱關(guān)系的重要性主要體現(xiàn)為在不同的群體、網(wǎng)絡(luò)、成員之間建立了紐帶關(guān)系,搭建了信息傳輸?shù)耐ǖ溃梢允垢蟮木W(wǎng)絡(luò)達(dá)到結(jié)構(gòu)上的凝聚性。網(wǎng)絡(luò)結(jié)構(gòu)中的強(qiáng)關(guān)系往往存在于群體、網(wǎng)絡(luò)結(jié)構(gòu)的內(nèi)部,因此將一個(gè)網(wǎng)絡(luò)中的不同群體、子網(wǎng)絡(luò)、成員凝結(jié)在一起的關(guān)系類(lèi)型主要是弱關(guān)系[11]。如圖4呈現(xiàn)的2018年度知識(shí)圖譜中就存在“J CLIN ONCOL”“Radiotherapy, Adjuvant”“Computational Biology”的橋節(jié)點(diǎn)。期刊類(lèi)型的橋節(jié)點(diǎn)表示相應(yīng)的期刊是網(wǎng)絡(luò)中的重要信息傳播樞紐,不同的主題詞通過(guò)期刊橋節(jié)點(diǎn)連接在一起,表示與該期刊相連的期刊-主題詞組合共同組成了以該期刊為中心的學(xué)科主題融合群,顯示出學(xué)科融合的趨勢(shì)。主題詞類(lèi)型的橋節(jié)點(diǎn)表示相應(yīng)的主題詞是網(wǎng)絡(luò)中的重要信息傳播樞紐,不同的期刊刊名通過(guò)主題詞橋節(jié)點(diǎn)連接在一起,表示與該主題詞相連的主題詞-期刊刊名組合共同組成了以該主題詞為中心的學(xué)科主題交叉群,顯示出學(xué)科交叉擴(kuò)散的趨勢(shì)。關(guān)注具有連接橋性質(zhì)的節(jié)點(diǎn),能夠在一定程度上了解學(xué)科融合和交叉發(fā)展的趨勢(shì)。 為驗(yàn)證和評(píng)價(jià)本文提出的融合主題詞-引文的知識(shí)發(fā)現(xiàn)方法在揭示科學(xué)知識(shí)結(jié)構(gòu)和知識(shí)主題演化規(guī)律方面的效果,本研究運(yùn)用專(zhuān)家訪談法,采取面對(duì)面訪談、電話和電子郵件等途徑,選取6位國(guó)內(nèi)三甲醫(yī)院的乳腺腫瘤方面的臨床專(zhuān)家,進(jìn)行專(zhuān)家訪談。專(zhuān)家意見(jiàn)表明,通過(guò)2013—2018年檢索的有關(guān)期刊、主題詞的分析,基本符合目前乳腺癌臨床研究的發(fā)展趨勢(shì)。本研究案例乳腺小葉癌病因?qū)W知識(shí)演化分析圖譜顯示基本涵蓋了乳腺腫瘤領(lǐng)域的動(dòng)態(tài)進(jìn)展,目前乳腺腫瘤研究領(lǐng)域的重點(diǎn)在腫瘤干細(xì)胞研究、免疫治療、腫瘤微環(huán)境、腫瘤遺傳、治療抵抗,尋找新的治療靶點(diǎn)和開(kāi)發(fā)靶向治療藥物等方面,相關(guān)研究已經(jīng)從早期的流行病學(xué)層面的病因?qū)W延伸到了基因組學(xué)層面,對(duì)于治療的藥物也從化學(xué)藥物往針對(duì)于特定突變基因的靶向藥物方向發(fā)展,提示了人們對(duì)疾病的認(rèn)識(shí)及治療更上了一個(gè)新的臺(tái)階,也為今后的科研和臨床治療帶來(lái)一定啟示。 本文構(gòu)建了融合主題詞-引文的知識(shí)發(fā)現(xiàn)理論模型,提出耦合熵指數(shù)的概念,對(duì)主題詞-引文知識(shí)耦合系統(tǒng)進(jìn)行量化測(cè)度,選取乳腺小葉癌案例開(kāi)展了基于主題詞-引文耦合熵的演化分析,提出一個(gè)有效識(shí)別突變性耦合因子對(duì)的測(cè)量指標(biāo)——突變系數(shù)。研究發(fā)現(xiàn),耦合熵指數(shù)可作為2-模知識(shí)耦合系統(tǒng)的量化測(cè)度指標(biāo),突變系數(shù)可有效識(shí)別具有潛在突變性的耦合因子對(duì),兩項(xiàng)指標(biāo)對(duì)數(shù)據(jù)的優(yōu)化處理能有效降低2-模知識(shí)耦合網(wǎng)絡(luò)的復(fù)雜性;具有較高耦合熵指數(shù)的主題詞-刊名耦合因子對(duì)代表了較為成熟和穩(wěn)定的學(xué)科子類(lèi)和知識(shí)結(jié)構(gòu),具有突變性的耦合因子對(duì)表征和揭示了相關(guān)學(xué)科主題和知識(shí)結(jié)構(gòu)的突變、轉(zhuǎn)向、交叉和融合。 科學(xué)知識(shí)圖譜作為揭示學(xué)科發(fā)展脈絡(luò)、評(píng)估學(xué)科領(lǐng)域發(fā)展情況的一種工具,對(duì)結(jié)果本身的理解和判讀需要借助專(zhuān)家經(jīng)驗(yàn)進(jìn)行判讀,因此,對(duì)科學(xué)知識(shí)圖譜結(jié)果本身的評(píng)估缺乏統(tǒng)一的金標(biāo)準(zhǔn)。這一現(xiàn)象出現(xiàn)的根本原因是“真實(shí)數(shù)據(jù)(ground truth)”的缺乏,即現(xiàn)實(shí)情況下也不存在知識(shí)圖譜的“標(biāo)準(zhǔn)答案”。即便是領(lǐng)域?qū)<遥瑢?zhuān)家意見(jiàn)和經(jīng)驗(yàn)也存在主觀差異,每個(gè)專(zhuān)家對(duì)心目中領(lǐng)域知識(shí)圖譜的結(jié)構(gòu)和細(xì)節(jié)也不盡相同。雖然科學(xué)知識(shí)圖譜結(jié)果的精確定量評(píng)估缺乏統(tǒng)一的方法和工具,但從本研究融合主題詞-引文的知識(shí)發(fā)現(xiàn)方法的結(jié)果分析,專(zhuān)家反饋結(jié)果良好,融合主題詞-引文的知識(shí)發(fā)現(xiàn)方法可以從宏觀、中觀、微觀多種維度了解學(xué)科知識(shí)演化特征、規(guī)律和趨勢(shì),是對(duì)已有的知識(shí)發(fā)現(xiàn)和分析方法的有效補(bǔ)充。2.5 結(jié)果的專(zhuān)家反饋和評(píng)估
3 結(jié)語(yǔ)和展望