国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法

2022-11-23 12:03:44陸泉曹越陳靜
情報(bào)學(xué)報(bào) 2022年10期
關(guān)鍵詞:類團(tuán)共詞標(biāo)引

陸泉,曹越,陳靜

(1.武漢大學(xué)信息資源研究中心,武漢 430072;2.武漢大學(xué)大數(shù)據(jù)研究院,武漢 430072;3.華中師范大學(xué)信息管理學(xué)院,武漢 430079)

1 引言

作為內(nèi)容分析的基礎(chǔ)研究方法之一,共詞分析法主要通過高度表征文獻(xiàn)內(nèi)容的特征詞共現(xiàn)的統(tǒng)計(jì)學(xué)特征來揭示研究成果的總體內(nèi)容特征,進(jìn)而分析學(xué)科領(lǐng)域的知識結(jié)構(gòu)和研究熱點(diǎn)。經(jīng)過三十多年的發(fā)展,該方法已廣泛應(yīng)用于圖書情報(bào)、人工智能和醫(yī)藥衛(wèi)生等學(xué)科,成為領(lǐng)域研究熱點(diǎn)探測等的重要定量分析方法[1]。

目前共詞分析的主要方法是從限定的領(lǐng)域文獻(xiàn)集合里,按照一定的指標(biāo)或方法[2-4]抽取核心詞匯,對由詞匯共現(xiàn)特征構(gòu)建的共詞相關(guān)矩陣進(jìn)行多維尺度分析和硬聚類分析。然而上述方法存在兩個(gè)主要的缺陷:一是共現(xiàn)和不共現(xiàn)的詞對都存在著一定的語義關(guān)聯(lián)性,但現(xiàn)有研究通常僅以共現(xiàn)頻次作為度量詞對相關(guān)性的依據(jù),缺乏對詞對語義相關(guān)關(guān)系的揭示;二是硬聚類方法自身具備的排斥性使一個(gè)詞匯只能歸入一個(gè)類團(tuán)中,但對于學(xué)科領(lǐng)域的研究而言,一個(gè)特征詞會(huì)在與該詞有關(guān)聯(lián)的多個(gè)熱點(diǎn)主題下出現(xiàn),傳統(tǒng)的硬聚類方法使詞匯的主題歸屬單一化和絕對化[5]。

為有效彌補(bǔ)上述缺陷,本文提出基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法,以領(lǐng)域內(nèi)的文獻(xiàn)集合為知識背景,利用fastText詞嵌入模型學(xué)習(xí)核心詞匯的語義特征向量,通過對向量空間的運(yùn)算度量詞對的語義相關(guān)強(qiáng)度,結(jié)合共現(xiàn)相關(guān)強(qiáng)度構(gòu)建語義加權(quán)的共詞相關(guān)矩陣,以改善詞對相關(guān)性度量的效果;引入模糊C均值聚類算法,結(jié)合因子降維對語義加權(quán)共詞矩陣進(jìn)行模糊聚類分析,實(shí)現(xiàn)詞匯主題歸屬的多元化,能夠提高類團(tuán)的信息質(zhì)量并揭示類團(tuán)的外部聯(lián)系,以克服硬聚類算法的不足,為改進(jìn)共詞分析方法提供新的思路。

2 相關(guān)研究工作

法國文獻(xiàn)計(jì)量學(xué)家Callon等[6]在1983年首次提出了共詞分析方法,作為能夠快速揭示學(xué)科知識結(jié)構(gòu)和領(lǐng)域研究熱點(diǎn)的經(jīng)典方法,幾十年來國內(nèi)外學(xué)者對其進(jìn)行了許多的研究和優(yōu)化。相關(guān)工作主要集中在分析單元的選擇、核心詞匯的確定、詞匯差異化處理、共詞矩陣的構(gòu)建和共詞矩陣的分析等五個(gè)方面。下文對各個(gè)方面的研究工作進(jìn)行闡述。

2.1 分析單元的選擇

在共詞分析方法中,分析單元通常從能夠有效揭示文獻(xiàn)主題的詞匯中進(jìn)行選擇,主要包括作者自標(biāo)引關(guān)鍵詞、統(tǒng)一標(biāo)引主題詞、標(biāo)題和摘要提取詞及正文特征詞等。作者自標(biāo)引關(guān)鍵詞由于在語義概括上的靈活性、新穎性和研究實(shí)施時(shí)的便利性,已成為共詞分析最常用的分析單元,不過自標(biāo)引關(guān)鍵詞的選擇存在一定的隨意性和主觀性,對最終的分析結(jié)果可能會(huì)產(chǎn)生影響。統(tǒng)一標(biāo)引的主題詞一般由專業(yè)的標(biāo)引專家所標(biāo)引,具有更高的權(quán)威性和穩(wěn)定性。如鐘偉金[7]對比了關(guān)鍵詞和主題詞在共詞聚類分析中的效果,提出包括合并同義詞、去除貶義詞和通用詞以及保護(hù)新穎詞等多種提升自標(biāo)引關(guān)鍵詞聚類效果的方法。

有關(guān)研究者嘗試從標(biāo)題、摘要及正文等途徑抽取特征詞,以彌補(bǔ)標(biāo)引詞在數(shù)量上受到限制的缺陷。例如,唐曉波等[8]、趙國榮等[9]分別采用分詞技術(shù)和組塊分析法從標(biāo)題中提取詞或短語對作者自標(biāo)引關(guān)鍵詞進(jìn)行補(bǔ)充,巴志超等[10]采用LDA(la‐tent Dirichlet allocation)模型從文獻(xiàn)正文中抽取表征能力較強(qiáng)的特征詞進(jìn)行共現(xiàn)分析。

2.2 核心詞匯的確定

研究者通常只選取小部分詞匯作為核心詞匯進(jìn)行共詞分析,最直接的方式是篩選高頻詞,其思路是假定在研究領(lǐng)域內(nèi)出現(xiàn)次數(shù)越多的詞匯相對越重要。常用的高頻詞確定方法主要有三類:一是經(jīng)驗(yàn)判定法[11],研究者基于研究內(nèi)容結(jié)合學(xué)科經(jīng)驗(yàn)確定高頻詞閾值;二是基于Donohue[12]結(jié)合齊普夫第二定律提出的高頻低頻詞界分公式;三是采用普賴斯公式法對高低頻詞進(jìn)行界定[13]。楊愛青等[14]引入詞頻g指數(shù),安興茹[15]提出高頻詞閾值F計(jì)算公式,對高頻詞篩選方法進(jìn)行了補(bǔ)充。

不過Serrano等[16]研究認(rèn)為,依據(jù)頻次閾值對復(fù)雜共詞網(wǎng)絡(luò)進(jìn)行簡化,可能會(huì)導(dǎo)致網(wǎng)絡(luò)在整體多尺度上的特征信息被忽略,胡昌平等[17]也證明高頻詞矩陣會(huì)丟失大量重要的共現(xiàn)關(guān)系。為此,研究者從多個(gè)角度對核心詞匯的確定方法進(jìn)行了改進(jìn):一是以傳統(tǒng)詞頻為基礎(chǔ)進(jìn)行優(yōu)化[2,18-19];二是提出新的指標(biāo)抽取核心詞匯,如基于詞語貢獻(xiàn)度[20]、詞匯領(lǐng)域度[21]、加權(quán)信息熵[22]和網(wǎng)絡(luò)節(jié)點(diǎn)中心性[23]等。Zhao等[24]還探討了基于頻次和網(wǎng)絡(luò)節(jié)點(diǎn)指標(biāo)等不同度量選取核心詞匯對揭示領(lǐng)域研究熱點(diǎn)的影響,為研究者在不同環(huán)境下有效選取度量指標(biāo)提供指導(dǎo)。

2.3 詞匯差異化處理

對于在文獻(xiàn)中出現(xiàn)頻次相同的詞匯,傳統(tǒng)共詞分析方法以相同的權(quán)值進(jìn)行衡量,并未區(qū)分詞匯之間的差異性。但這種假定不符合客觀實(shí)際,例如,不同詞性、位置的詞匯對于表達(dá)文獻(xiàn)主題的貢獻(xiàn)程度顯然是不同的[25]。因而,許多研究者考慮詞匯間“同量不同質(zhì)”現(xiàn)象,對詞匯加權(quán)以體現(xiàn)其不同的重要程度來改善共詞分析方法的效果。例如,馬續(xù)補(bǔ)等[26]基于詞匯在標(biāo)題、正文等文本中的不同位置對詞匯進(jìn)行加權(quán)處理;陸泉等[27]結(jié)合不同信息生產(chǎn)者的詞匯頻次及詞匯間語義依存關(guān)系進(jìn)行差異化處理;李海林等[28]基于關(guān)鍵詞的先后順序,對關(guān)鍵詞進(jìn)行重要度加權(quán)。近年來,有關(guān)研究者關(guān)注詞匯的“時(shí)間”屬性差異,例如,周鑫等[29]基于移動(dòng)平均法構(gòu)建詞頻變化率模型,奉國和等[30]引入Logistic函數(shù)設(shè)計(jì)時(shí)間賦權(quán)詞頻分析模型,以動(dòng)態(tài)地揭示學(xué)科研究熱點(diǎn)及變化趨勢。

2.4 共詞矩陣的構(gòu)建

傳統(tǒng)共詞分析方法通?;诠铂F(xiàn)頻次來反映詞對的相關(guān)強(qiáng)度,以此構(gòu)建共詞矩陣。同時(shí),為了提高共詞矩陣的信息含量,研究者一般采用Ochiia系數(shù)[26]、相互包容系數(shù)[31]或點(diǎn)互信息[32]等統(tǒng)計(jì)學(xué)指標(biāo)對詞對共現(xiàn)頻次進(jìn)行包容化處理。

然而,從整個(gè)領(lǐng)域文獻(xiàn)集合來看,僅計(jì)算共現(xiàn)相關(guān)強(qiáng)度,會(huì)缺乏對詞對語義相關(guān)關(guān)系的揭示。因此,有研究者考慮在共詞網(wǎng)絡(luò)中融入詞對的語義信息。例如,Zhou等[33]利用word2vec模型將關(guān)鍵詞轉(zhuǎn)化為詞向量進(jìn)行語義關(guān)聯(lián)度量;王玉林等[34]采用基于知識單元的細(xì)粒度共詞分析方法將語義信息結(jié)合到共詞分析中;Feng等[35]基于領(lǐng)域本體計(jì)算概念間的語義距離,生成語義矩陣;周萌等[36]則結(jié)合同義詞典和領(lǐng)域?qū)<医o定的關(guān)系詞,構(gòu)建了融入語義關(guān)系類型的細(xì)粒度共詞網(wǎng)絡(luò),從而更全面地揭示領(lǐng)域的整體、微觀知識結(jié)構(gòu)和研究熱點(diǎn)。

2.5 共詞矩陣的分析

共詞矩陣分析是共詞分析的核心環(huán)節(jié),研究者通常采用因子分析[37]、多維尺度分析[38]、聚類分析[28]和復(fù)雜網(wǎng)絡(luò)分析[39]等方法對共詞矩陣做進(jìn)一步處理,以提取學(xué)科領(lǐng)域的研究熱點(diǎn)。其中聚類分析應(yīng)用最廣泛,比較常用的做法是基于SPSS[34]、VOSviewer[19]和gCLUTO[40]等軟件內(nèi)嵌的聚類算法進(jìn)行共詞聚類。有關(guān)研究者還引入了新的聚類方法,如AP(affinity propagation)聚類算法[41]和關(guān)聯(lián)規(guī)則挖掘模型[42],霍朝光等[43]則綜合node2vec表示學(xué)習(xí)和t-SNE聚類算法,實(shí)現(xiàn)了細(xì)粒度的關(guān)鍵詞集群發(fā)現(xiàn)。

但是,以上聚類方法均屬于硬聚類,忽略了詞匯歸屬的多元性,一定程度上會(huì)造成類團(tuán)內(nèi)部信息和外部聯(lián)系的丟失。針對此問題,目前研究者大多停留在理論探討層面,典型的方法研究有邵作運(yùn)等[44]引入的懲罰性矩陣分解算法(penalized matrix decomposition,PMD)和孫海生[5]采用的連邊社團(tuán)檢測算法。不過上述方法涉及大量的數(shù)學(xué)運(yùn)算和復(fù)雜的參數(shù)調(diào)整,計(jì)算成本較高。

鑒于傳統(tǒng)共詞分析中未考慮詞對的語義關(guān)聯(lián)以及忽視了詞對主題歸屬多元性等方面的不足,本文提出基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法。不同于傳統(tǒng)共詞分析基于共現(xiàn)頻次反映詞對的相關(guān)強(qiáng)度,本文利用詞嵌入模型從標(biāo)題和摘要中學(xué)習(xí)關(guān)鍵詞的語義信息,構(gòu)建語義加權(quán)共詞矩陣,以綜合共現(xiàn)特征與語義關(guān)聯(lián)來改善詞對相關(guān)性的度量效果;通過因子降維與模糊C均值聚類對加權(quán)共詞矩陣進(jìn)行模糊聚類分析,實(shí)現(xiàn)詞匯主題歸屬的多元化,避免硬聚類分析造成類團(tuán)內(nèi)部信息和外部聯(lián)系丟失的問題。

3 基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法

本文提出的基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法以作者自標(biāo)引關(guān)鍵詞為分析單元。在選取高頻關(guān)鍵詞和次高頻關(guān)鍵詞作為核心詞匯后,借助深度學(xué)習(xí)思想和模糊理論,首先利用fastText模型學(xué)習(xí)關(guān)鍵詞的詞向量表征;挖掘詞對的語義關(guān)聯(lián)信息后,結(jié)合共現(xiàn)相關(guān)信息構(gòu)建語義加權(quán)的共詞相關(guān)矩陣;之后對加權(quán)共詞矩陣進(jìn)行因子降維,依據(jù)提取的因子數(shù)獲取粗類數(shù)作為聚類數(shù)的范圍上限[45];采用模糊C均值聚類算法對降維矩陣進(jìn)行聚類分析,得到關(guān)鍵詞與聚類簇團(tuán)的隸屬度矩陣;通過截取隸屬度閾值將單個(gè)詞匯歸入與之相關(guān)的一個(gè)或多個(gè)類團(tuán)中,實(shí)現(xiàn)關(guān)鍵詞模糊聚類,更加客觀合理地揭示領(lǐng)域研究熱點(diǎn)及熱點(diǎn)間的聯(lián)系。本文提出的基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法的基本流程如圖1所示。

圖1 基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法的基本流程

3.1 關(guān)鍵詞預(yù)處理

由于作者自標(biāo)引關(guān)鍵詞是對文獻(xiàn)內(nèi)容的濃縮和提煉,本文采用自標(biāo)引關(guān)鍵詞作為分析單元。經(jīng)過合并同義詞、停用詞刪除等處理后,根據(jù)高頻低頻詞界分公式、詞頻g指數(shù)篩選高頻關(guān)鍵詞和次高頻關(guān)鍵詞,選取這兩類關(guān)鍵詞作為核心關(guān)鍵詞構(gòu)建共詞矩陣。

高頻低頻詞界分公式是Donohue[12]根據(jù)齊普夫第二定律提出的高頻詞閾值確定方法,具體計(jì)算方法為

其中,T為高頻詞的詞頻閾值;I1表示詞頻為1的關(guān)鍵詞數(shù)量。根據(jù)此界分公式提取領(lǐng)域文獻(xiàn)的高頻關(guān)鍵詞。不過作者自標(biāo)引關(guān)鍵詞的選擇存在隨意性和不確定性,所以詞頻為1的關(guān)鍵詞數(shù)量較多[46],代入界分公式得到的閾值T較大,導(dǎo)致篩選出的高頻關(guān)鍵詞往往較少,難以對學(xué)科領(lǐng)域的研究熱點(diǎn)開展深入有效的分析。

因此,為了在一定程度上克服數(shù)據(jù)對象自身存在的缺陷,本文借鑒徐坤等[47]引入的次高頻詞概念,在基于界分公式提取高頻關(guān)鍵詞后,對剩余關(guān)鍵詞采用詞頻g指數(shù)選取次高頻關(guān)鍵詞,將高頻關(guān)鍵詞和次高頻關(guān)鍵詞合并作為領(lǐng)域核心關(guān)鍵詞開展研究,以增強(qiáng)核心關(guān)鍵詞選擇的合理性。詞頻g指數(shù)[14]的定義為,將關(guān)鍵詞按照頻次降序排列,選取前g個(gè)關(guān)鍵詞,使前g個(gè)關(guān)鍵詞的累計(jì)詞頻大于等于g2,前(g+1)個(gè)關(guān)鍵詞的累計(jì)詞頻小于(g+1)2。具體計(jì)算方法為

其中,F(xiàn)i表示關(guān)鍵詞i的出現(xiàn)頻次。

3.2 語義加權(quán)共詞相關(guān)矩陣構(gòu)建

立足語義關(guān)聯(lián)視角,本文結(jié)合共現(xiàn)相關(guān)關(guān)系和語義相關(guān)關(guān)系對核心詞對的相關(guān)強(qiáng)度進(jìn)行度量,構(gòu)建語義加權(quán)的共詞相關(guān)矩陣。對于共現(xiàn)相關(guān)關(guān)系的度量,首先根據(jù)3.1節(jié)中獲取的N個(gè)領(lǐng)域核心關(guān)鍵詞構(gòu)建詞頻共現(xiàn)矩陣,之后采用Ochiia系數(shù)方法[48]對詞對頻次進(jìn)行包容處理,得到共現(xiàn)相關(guān)矩陣E,計(jì)算公式為

其中,Eij表示關(guān)鍵詞i和關(guān)鍵詞j之間的共現(xiàn)相關(guān)強(qiáng)度;Ci表示關(guān)鍵詞i的出現(xiàn)頻次,Cj表示關(guān)鍵詞j的出現(xiàn)頻次,Cij表示關(guān)鍵詞i和關(guān)鍵詞j共同出現(xiàn)的頻次。

對于詞對語義相關(guān)關(guān)系的度量,本文采用大規(guī)模文本語料庫的方法,借助關(guān)鍵詞在文本中的上下文信息來挖掘語義知識。由于標(biāo)題和摘要是文獻(xiàn)內(nèi)容的梗概,且題錄信息的結(jié)構(gòu)化數(shù)據(jù)易于獲取,因此本文抽取領(lǐng)域文獻(xiàn)的標(biāo)題和摘要文本構(gòu)建語料庫,基于fastText詞嵌入模型生成核心關(guān)鍵詞的詞向量表征,通過計(jì)算詞向量之間的余弦相似度度量關(guān)鍵詞之間的語義相關(guān)性。fastText模型[49]是Face‐book在2016年開源的用于生成詞向量和文本分類的技術(shù),該模型在skip-gram模型的基礎(chǔ)上加以改進(jìn),在訓(xùn)練中文詞向量的場景下融入了子字信息,對輸入上下文的每一個(gè)詞采用基于詞n-gram格式進(jìn)行分解,實(shí)現(xiàn)字向量建模,并將分解處理后得到的所有n-gram向量和原詞的詞向量通過average-pool‐ing方式進(jìn)行融合,以學(xué)習(xí)獲得更加精細(xì)的詞向量。fastText模型與Zhou等[33]采用的word2vec模型相比,在生成詞向量表征時(shí)速度更快,并且可以解決OOV(out of vocabulary)問題,尤其在罕見詞向量生成方面,fastText能夠訓(xùn)練出語義更準(zhǔn)確、質(zhì)量更高的詞向量。對于關(guān)鍵詞i和關(guān)鍵詞j的詞向量vi、vj,本文采用余弦相似度算法[50]度量詞對的語義相關(guān)性,

其中,Pij表示關(guān)鍵詞i與關(guān)鍵詞j的語義相關(guān)強(qiáng)度;||vi||、||vj||分別是向量vi和向量vj的歐幾里得范數(shù)。計(jì)算得到的Pij值越大,表示關(guān)鍵詞i和關(guān)鍵詞j之間的語義相關(guān)性越高。

為了在共詞分析中考慮語義關(guān)聯(lián)信息,本文引入依賴集中度參數(shù)λ將詞對的語義相關(guān)強(qiáng)度和共現(xiàn)相關(guān)強(qiáng)度進(jìn)行結(jié)合,構(gòu)建語義加權(quán)共詞矩陣S。具體計(jì)算公式為

其中,N表示所有的領(lǐng)域核心關(guān)鍵詞;Cik表示關(guān)鍵詞i與關(guān)鍵詞k的共現(xiàn)頻次。通過上述方法對關(guān)鍵詞進(jìn)行語義關(guān)聯(lián)分析,將語義知識融入共詞矩陣中,彌補(bǔ)僅以共現(xiàn)特征難以準(zhǔn)確度量詞對相關(guān)強(qiáng)度的缺陷。

3.3 關(guān)鍵詞模糊聚類

模糊C均值聚類(fuzzy C-means,F(xiàn)CM)算法[51]是在k-means算法的基礎(chǔ)上引入模糊理論所形成的模糊聚類算法。不同于硬聚類下樣本對象與類簇間非此即彼的隸屬性質(zhì),F(xiàn)CM算法采用柔性劃分的策略,通過隸屬度函數(shù)來描述樣本對象和類簇間的不確定性關(guān)系,不僅能夠提升聚類算法的魯棒性,也可以提高聚類結(jié)果劃分的彈性。隸屬度函數(shù)是表示元素隸屬于集合的程度的函數(shù),在模糊理論中該函數(shù)的值域由集合{0,1}擴(kuò)展為連續(xù)區(qū)間[0,1],因此在模糊聚類時(shí)各樣本對象能夠以不同的隸屬度同時(shí)隸屬于不同的類簇。通過設(shè)置隸屬度閾值,可將各樣本劃分到與其相關(guān)的多個(gè)類簇中。

給定樣本對象集合X=(x1,x2,…,xn),其中每個(gè)樣本對象xi包含d維特征,n是集合中樣本對象的數(shù)目。FCM算法將X劃分為c個(gè)類,U為樣本對象與類團(tuán)間的隸屬度矩陣,[k1,k2,…,kc]為c個(gè)聚類中心。FCM聚類算法的目標(biāo)優(yōu)化函數(shù)為

其中,m是模糊控制參數(shù);uij表示樣本對象xi在第j類團(tuán)中的隸屬度;||xi-kj||表示樣本對象xi和聚類中心kj之間的歐幾里得距離。在滿足約束條件的情況下使用拉格朗日乘數(shù)法對目標(biāo)優(yōu)化函數(shù)進(jìn)行求解,推算得到FCM迭代更新隸屬度矩陣和聚類中心的公式,

為了在一定程度上解決FCM算法的聚類數(shù)目需要人為預(yù)先設(shè)定的問題,本文對3.2節(jié)中N×N維的語義加權(quán)共詞矩陣S進(jìn)行因子降維,依據(jù)提取到的因子數(shù)Q獲取粗類數(shù)作為聚類數(shù)目的范圍上限。

同時(shí),經(jīng)過因子降維得到的N×Q維的關(guān)鍵詞旋轉(zhuǎn)成分矩陣,其特征維度由高維的領(lǐng)域核心關(guān)鍵詞轉(zhuǎn)化為低維的公共因子,抽取出了語義加權(quán)共詞矩陣的本質(zhì)結(jié)構(gòu),并且提高了特征的解釋能力,因此本文選擇降維后的旋轉(zhuǎn)成分矩陣作為模糊C均值聚類算法的輸入。FCM算法的具體步驟如下。

算法1模糊C均值聚類

輸入:聚類數(shù)c(c≤Q),初始聚類中心,初始隸屬度矩陣,核心關(guān)鍵詞旋轉(zhuǎn)成分矩陣,模糊控制參數(shù)m,終止誤差ε。

輸出:隸屬度矩陣。

Step1.根據(jù)式(7)更新隸屬度矩陣。

Step2.根據(jù)式(8)更新聚類中心。

Step3.根據(jù)式(6)計(jì)算目標(biāo)函數(shù)的值,若|J(μ)-J(μ-1)|<ε,則算法終止;否則,返回Step1,繼續(xù)迭代更新。

通過對輸出的隸屬度矩陣進(jìn)行分析,合理截取隸屬度閾值,將關(guān)鍵詞劃分到與之相關(guān)的一個(gè)或多個(gè)類團(tuán)中,實(shí)現(xiàn)關(guān)鍵詞模糊聚類;通過對聚類簇團(tuán)進(jìn)行主題歸納,揭示領(lǐng)域的研究熱點(diǎn)及聯(lián)系。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)來源與處理

為了驗(yàn)證本文提出的基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法的效果,選擇“感染性疾病學(xué)和傳染病學(xué)”為研究領(lǐng)域,選定相關(guān)文獻(xiàn)進(jìn)行實(shí)證分析。為保證收集文獻(xiàn)的權(quán)威性,本文以《中國科技核心期刊目錄》(2020版)中該學(xué)科領(lǐng)域下的8種學(xué)術(shù)期刊為文獻(xiàn)來源刊,8種核心期刊分別是《新發(fā)傳染病電子雜志》《傳染病信息》《微生物與感染》《中國感染控制雜志》《中國感染與化療雜志》《中華傳染病雜志》《中華臨床感染病雜志》和《中華實(shí)驗(yàn)和臨床感染病雜志電子版》。以中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(China Biology Medicine,CBM)為檢索平臺(tái),限定年限為2015—2020年,檢索到5684篇文獻(xiàn)。人工去除通訊稿、征文稿以及會(huì)議記錄等非學(xué)術(shù)類期刊文獻(xiàn)并去重后,共獲取5373篇有效期刊文獻(xiàn),提取文獻(xiàn)題錄數(shù)據(jù)中的作者自標(biāo)引關(guān)鍵詞、標(biāo)題和摘要等內(nèi)容開展后續(xù)分析。

4.2 關(guān)鍵詞抽取

針對題錄數(shù)據(jù)中的作者自標(biāo)引關(guān)鍵詞,通過同義詞合并、停用詞刪除等預(yù)處理操作,共得到8275個(gè)唯一自標(biāo)引關(guān)鍵詞,經(jīng)過詞頻統(tǒng)計(jì),繪制關(guān)鍵詞詞頻對數(shù)分布圖,如圖2所示。關(guān)鍵詞詞頻對數(shù)分布符合線性分布(R2=0.8065,p<5×10-30),表明關(guān)鍵詞的詞頻分布總體具有冪律分布特性,即存在一小部分關(guān)鍵詞是該領(lǐng)域的核心概念,并且領(lǐng)域研究主題的集中性比較明顯[52]。

圖2 作者自標(biāo)引關(guān)鍵詞詞頻對數(shù)分布

將I1=5844代入高頻低頻詞界分公式(公式(1)),計(jì)算得到高頻詞閾值T約為107,根據(jù)此閾值只抽取到20個(gè)高頻關(guān)鍵詞,詞量較少。針對余下的關(guān)鍵詞,采用公式(2)抽取到54個(gè)次高頻關(guān)鍵詞。將高頻關(guān)鍵詞和次高頻關(guān)鍵詞合并,共獲取74個(gè)領(lǐng)域核心關(guān)鍵詞,其累計(jì)詞頻占比為27.59%,滿足二八定律,表明將兩類關(guān)鍵詞合并作為核心關(guān)鍵詞是客觀合理的。核心關(guān)鍵詞及其詞頻如表1所示。

4.3 結(jié)果與分析

根據(jù)獲取的領(lǐng)域核心關(guān)鍵詞構(gòu)建詞頻共現(xiàn)矩陣,按照公式(3),利用Ochiia系數(shù)方法將詞頻共現(xiàn)矩陣轉(zhuǎn)化為共現(xiàn)相關(guān)矩陣E(74×74),當(dāng)兩個(gè)關(guān)鍵詞不共現(xiàn)時(shí),共現(xiàn)相關(guān)強(qiáng)度為0。將全部自標(biāo)引關(guān)鍵詞作為自定義詞典,采用python語言的jieba庫對文獻(xiàn)題錄數(shù)據(jù)中的標(biāo)題和摘要進(jìn)行分詞,構(gòu)建文本語料庫;利用fastText模型在該語料庫上訓(xùn)練詞向量,模型訓(xùn)練的相關(guān)參數(shù)設(shè)定:無監(jiān)督訓(xùn)練模式為skipgram,詞嵌入維度dim=200,學(xué)習(xí)率lr=0.05,循環(huán)次數(shù)epoch=5。經(jīng)過訓(xùn)練,獲取74個(gè)核心關(guān)鍵詞的詞向量,如關(guān)鍵詞“醫(yī)院感染”轉(zhuǎn)化為實(shí)值分布[-0.322946,0.24874386,-0.01921216,-0.0047568,0.12811267,…,-0.02404686]。之后按照公式(4)度量詞對的語義相關(guān)強(qiáng)度,基于公式(5)將詞對的共現(xiàn)相關(guān)強(qiáng)度和語義相關(guān)強(qiáng)度進(jìn)行結(jié)合,構(gòu)建語義加權(quán)共詞相關(guān)矩陣S(74×74)。

利用SPSS 25.0,選擇主成分方法、協(xié)方差矩陣和最大方差法對語義加權(quán)共詞矩陣進(jìn)行因子降維,并基于特征值數(shù)提取因子數(shù),設(shè)置最大收斂迭代次數(shù)為25。最終經(jīng)過18次迭代,提取出13個(gè)公共因子,累計(jì)方差貢獻(xiàn)率為86.916%。降維得到的關(guān)鍵詞旋轉(zhuǎn)成分矩陣(74×13)的一部分如表2所示,表中數(shù)值代表對應(yīng)行的關(guān)鍵詞在相應(yīng)因子下的載荷值。

表2 關(guān)鍵詞旋轉(zhuǎn)成分矩陣(部分)

將關(guān)鍵詞旋轉(zhuǎn)成分矩陣輸入FCM聚類算法中進(jìn)行關(guān)鍵詞模糊聚類,相關(guān)參數(shù)設(shè)定:模糊控制參數(shù)m=1.5,終止誤差ε=10-7,最大更新迭代次數(shù)maxiter=10000。由于選擇提取到的因子數(shù)作為粗類數(shù)來代表聚類數(shù)目的上限,因此本文將FCM算法的聚類數(shù)目c(c≤13)設(shè)置為10。經(jīng)過234次更新迭代后,算法停止,圖3是FCM算法目標(biāo)函數(shù)的迭代數(shù)值折線圖,算法在迭代40次左右時(shí)趨于穩(wěn)定。

圖3 FCM算法目標(biāo)函數(shù)優(yōu)化結(jié)果

為了清晰地展現(xiàn)模糊聚類下詞匯主題歸屬的多元性,本文針對輸出的隸屬度矩陣(74×10)采用python的seaborn庫繪制熱力圖進(jìn)行可視化呈現(xiàn),如圖4所示,橫軸方向代表74個(gè)核心關(guān)鍵詞,縱軸方向代表10個(gè)聚類簇團(tuán)。各個(gè)關(guān)鍵詞在10個(gè)類團(tuán)中的隸屬度有大有小,且總和為1,圖中單元格顏色越深,表明對應(yīng)關(guān)鍵詞在相應(yīng)類團(tuán)中的隸屬度越大。通過繪制熱力圖,各關(guān)鍵詞在10個(gè)類團(tuán)中的隸屬度分布一目了然,且有所側(cè)重,較好地解決了硬聚類算法下詞匯與類團(tuán)的隸屬單一化和絕對化問題。

表1 領(lǐng)域核心關(guān)鍵詞序號及詞頻

通過分析各個(gè)關(guān)鍵詞的隸屬度分布,并結(jié)合圖4中10個(gè)類團(tuán)下的隸屬度分段集中情況,在劃分模糊聚類結(jié)果時(shí)本文將隸屬度閾值設(shè)置為0.3,即各個(gè)類團(tuán)取隸屬度大于等于0.3的關(guān)鍵詞作為該類團(tuán)下的元素;若某個(gè)關(guān)鍵詞在10個(gè)類團(tuán)下的隸屬度都小于0.3,則將該關(guān)鍵詞歸入擁有最大隸屬度的類團(tuán)。

圖4 關(guān)鍵詞隸屬度矩陣熱力圖

根據(jù)上述步驟,本文將提取到的“感染性疾病學(xué)和傳染病學(xué)”領(lǐng)域近5年的研究熱點(diǎn)歸納為10類,具體如表3所示:①醫(yī)務(wù)人員感染預(yù)防與控制;②細(xì)菌性感染和炎癥;③醫(yī)院獲得性感染;④疾病診療和預(yù)防醫(yī)學(xué);⑤新發(fā)突發(fā)傳染病和疑難感染?。虎弈退幈硇图盎蛐头治觯虎呒?xì)菌耐藥性;⑧條件致病菌;⑨急慢性肝病;⑩結(jié)核病及其病原體。通過FCM算法模糊聚類所提取出的10個(gè)類團(tuán),覆蓋了感染性疾病學(xué)科近些年來所表現(xiàn)出的新發(fā)再現(xiàn)傳染病威脅、不斷出現(xiàn)的細(xì)菌耐藥問題以及病毒性肝炎防治成效等方面[53-54],能夠有效反映“感染性疾病學(xué)、傳染病學(xué)”領(lǐng)域的研究熱點(diǎn)。

表3 “感染性疾病學(xué)和傳染病學(xué)”領(lǐng)域的研究熱點(diǎn)

4.4 對比實(shí)驗(yàn)與分析

為了進(jìn)一步檢驗(yàn)本文提出的基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法的有效性和優(yōu)越性,將傳統(tǒng)共詞分析方法[55]與本文所提方法從詞對相關(guān)性度量和關(guān)鍵詞聚類效果等兩方面進(jìn)行對比。

4.4.1 詞對相關(guān)性度量對比

傳統(tǒng)共詞分析方法通常采用Equivalence系數(shù)或者Ochiia系數(shù)等基于共現(xiàn)頻次的統(tǒng)計(jì)學(xué)指標(biāo)來反映詞對的相關(guān)強(qiáng)度[56],因此繪制同一類團(tuán)下的關(guān)鍵詞Ochiia系數(shù)共現(xiàn)網(wǎng)絡(luò)和語義加權(quán)共詞網(wǎng)絡(luò)對詞對相關(guān)性度量進(jìn)行對比分析。圖5是表3中類團(tuán)9“急慢性肝病”主題的知識圖譜,該類團(tuán)中關(guān)鍵詞個(gè)數(shù)最多且詞匯間語義關(guān)系較復(fù)雜,能夠更加直觀地凸顯出語義加權(quán)對于改善詞對相關(guān)性度量的效果。圖5中節(jié)點(diǎn)間有無連線代表關(guān)鍵詞之間是否存在相關(guān)性,連線的粗細(xì)則代表關(guān)鍵詞對相關(guān)強(qiáng)度的大小。

在揭示詞對相關(guān)關(guān)系方面,傳統(tǒng)共詞分析方法以關(guān)鍵詞的共現(xiàn)性建立相關(guān)關(guān)系,如圖5a所示,關(guān)鍵詞“丙型肝炎”“慢性丙型肝炎”和“慢性乙型肝炎”兩兩不共現(xiàn),關(guān)鍵詞“肝細(xì)胞癌”和“肝功能衰竭”之間也不共現(xiàn),所以,在傳統(tǒng)共詞分析方法中,關(guān)鍵詞“丙型肝炎”“慢性丙型肝炎”和“慢性乙型肝炎”三者之間,以及關(guān)鍵詞“肝細(xì)胞癌”和“肝功能衰竭”之間不存在相關(guān)性(圖5中節(jié)點(diǎn)之間沒有連線),但這種結(jié)果顯然是不合理的。而在圖5b的語義加權(quán)共詞網(wǎng)絡(luò)中,盡管上述關(guān)鍵詞之間沒有直接的共現(xiàn)相關(guān)關(guān)系,但仍然具有一定的語義相關(guān)強(qiáng)度,表明語義加權(quán)共詞網(wǎng)絡(luò)能夠更加充分、客觀地反映關(guān)鍵詞之間的相關(guān)關(guān)系。

在計(jì)算詞對相關(guān)強(qiáng)度方面,Ochiia系數(shù)共現(xiàn)網(wǎng)絡(luò)中,與關(guān)鍵詞“肝功能衰竭”相關(guān)強(qiáng)度最高的前3個(gè)關(guān)鍵詞分別是(乙型肝炎病毒,慢性乙型肝炎,慢性丙型肝炎);而在語義加權(quán)共詞網(wǎng)絡(luò)中,關(guān)鍵詞“肝功能衰竭”相關(guān)強(qiáng)度最高的前3個(gè)關(guān)鍵詞是(肝細(xì)胞癌,肝硬化,乙型肝炎),顯然后者更加準(zhǔn)確。

以上分析表明,與傳統(tǒng)的基于共現(xiàn)頻次的度量方法相比,本文所提出的將語義關(guān)聯(lián)信息和共現(xiàn)相關(guān)信息進(jìn)行結(jié)合的方法更能充分、準(zhǔn)確地度量關(guān)鍵詞之間的相關(guān)性,為改善共詞分析效果提供了支撐。

4.4.2 關(guān)鍵詞聚類效果對比

層次聚類是共詞分析中使用最多、研究最為充分的聚類算法之一[57],近年來也常被作為經(jīng)典的共詞聚類方法開展對比實(shí)驗(yàn)[10]。將4.3節(jié)中構(gòu)建的核心關(guān)鍵詞共現(xiàn)相關(guān)矩陣E(74×74)轉(zhuǎn)化為相異矩陣,導(dǎo)入SPSS 25.0,采用層次聚類法進(jìn)行聚類分析,聚類方法選擇“組間連接”,度量標(biāo)準(zhǔn)選擇“區(qū)間:平方歐幾里得距離”,最終將74個(gè)關(guān)鍵詞聚成了8類。生成的聚類樹狀圖如圖6所示。

從圖6層次聚類結(jié)果來看,其聚類粒度過粗,一方面導(dǎo)致類團(tuán)信息質(zhì)量較差,以類團(tuán)1為例,該類團(tuán)下的關(guān)鍵詞“手衛(wèi)生”“多重耐藥菌”和“呼吸機(jī)相關(guān)肺炎”等內(nèi)涵差異較大,導(dǎo)致難以準(zhǔn)確解讀類團(tuán)的具體研究主題,類團(tuán)6和類團(tuán)8也存在類似的問題;另一方面造成不同類團(tuán)下的詞匯數(shù)量極度不平衡問題,導(dǎo)致存在一些不必要或無意義的聚類簇團(tuán),例如,類團(tuán)7下的關(guān)鍵詞“慢性丙型肝炎”和“基因型”并不具備成團(tuán)含義。此外,層次聚類結(jié)果中一個(gè)關(guān)鍵詞只能屬于特定的一類,這種硬聚類方法無法揭示類團(tuán)之間的聯(lián)系。

在FCM模糊聚類結(jié)果中,本文采用UCIENT和NetDraw軟件繪制模糊聚類結(jié)果的網(wǎng)絡(luò)拓?fù)鋱D,來直觀地揭示研究熱點(diǎn)及其之間的聯(lián)系,如圖7所示。圖中箭頭的指向?yàn)楦鱾€(gè)聚類中心,箭頭上的數(shù)字代表該關(guān)鍵詞與所指向類團(tuán)的隸屬度大小。

從圖7可以看出,F(xiàn)CM模糊聚類下每個(gè)類團(tuán)主題清晰,不同類團(tuán)下詞匯數(shù)量均衡,類團(tuán)內(nèi)部信息質(zhì)量高、含義充分,且不同類團(tuán)間存在主題上的關(guān)聯(lián)。例如,類團(tuán)4和類團(tuán)5通過關(guān)鍵詞“流行病學(xué)”建立了聯(lián)系,表明針對以新型冠狀病毒肺炎、艾滋病及手足口病等為代表的新發(fā)突發(fā)傳染病和疑難感染病進(jìn)行有效的診療和預(yù)防,是近年來該領(lǐng)域研究的著力點(diǎn)[54];同時(shí),類團(tuán)6、類團(tuán)7和類團(tuán)8通過關(guān)鍵詞“藥敏試驗(yàn)”“病原菌”建立了聯(lián)系,表明針對條件致病菌進(jìn)行耐藥表型及基因型分析是目前檢測病原菌耐藥機(jī)制的重要方法[58]。

圖7 FCM關(guān)鍵詞模糊聚類網(wǎng)絡(luò)拓?fù)鋱D

相比于傳統(tǒng)的層次聚類算法,F(xiàn)CM模糊聚類下10個(gè)聚類簇團(tuán)的研究主題不僅具體準(zhǔn)確,而且彼此之間具有較好的區(qū)分性。同時(shí),類團(tuán)之間通過關(guān)鍵詞的主題歸屬多元性建立了的聯(lián)系,豐富了類團(tuán)所能表達(dá)的含義,進(jìn)一步凸顯了模糊聚類方法的優(yōu)越性。

5 結(jié)語

針對已有共詞分析方法中存在的度量詞對相關(guān)性時(shí)忽略詞匯間的語義關(guān)聯(lián)、硬聚類算法使詞匯主題歸屬單一化等問題,本文提出基于語義關(guān)聯(lián)與模糊聚類的共詞分析方法。通過引入深度學(xué)習(xí)思想和模糊理論,一方面,基于fastText詞嵌入模型對抽取的領(lǐng)域核心關(guān)鍵詞學(xué)習(xí)語義向量表征,將詞對的語義關(guān)聯(lián)信息和共現(xiàn)相關(guān)信息進(jìn)行結(jié)合構(gòu)建語義加權(quán)共詞矩陣,彌補(bǔ)僅以共現(xiàn)頻次難以準(zhǔn)確度量詞對相關(guān)強(qiáng)度的不足;另一方面,采用模糊C均值聚類算法,結(jié)合因子降維對語義加權(quán)共詞矩陣進(jìn)行關(guān)鍵詞模糊聚類,實(shí)現(xiàn)詞匯主題歸屬的多元性,進(jìn)而提高聚類結(jié)果劃分的質(zhì)量,揭示聚類簇團(tuán)之間的聯(lián)系。最后,本文以“感染性疾病學(xué)和傳染病學(xué)”類期刊文獻(xiàn)開展實(shí)證分析,從多個(gè)方面驗(yàn)證了本文所提方法的有效性和優(yōu)越性,揭示了感染性疾病學(xué)科近5年的10個(gè)研究熱點(diǎn)及其聯(lián)系。

本文的不足之處在于,因?yàn)镕CM聚類算法的效果依賴于隨機(jī)選擇的初始聚類中心,所以如何選定初始聚類中心以避免聚類結(jié)果的不穩(wěn)定性是后續(xù)研究重點(diǎn)。另外,還可以探索不同語義關(guān)聯(lián)分析方法是否有助于提升語義加權(quán)共詞矩陣的構(gòu)建效果。

猜你喜歡
類團(tuán)共詞標(biāo)引
基于PubMed數(shù)據(jù)庫病人報(bào)告結(jié)局研究熱點(diǎn)的共詞聚類分析
檔案主題標(biāo)引與分類標(biāo)引的比較分析
基于突變檢測與共詞分析的深閱讀新興趨勢分析
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
基于共詞知識圖譜技術(shù)的國內(nèi)VLC可視化研究
基于關(guān)鍵詞共詞分析的我國親子關(guān)系熱點(diǎn)研究
基于共詞分析和可視化的我國神經(jīng)病學(xué)領(lǐng)域熱點(diǎn)監(jiān)測
國際電子學(xué)習(xí)研究主題演化分析*
圖書館論壇(2015年2期)2015-01-03 01:43:00
基于共詞分析的近十年國內(nèi)網(wǎng)絡(luò)團(tuán)購研究熱點(diǎn)分析
深泽县| 莒南县| 海丰县| 永修县| 二连浩特市| 高唐县| 桃园县| 绩溪县| 三亚市| 九龙县| 九龙城区| 洪泽县| 团风县| 惠水县| 玉树县| 承德县| 永嘉县| 九江县| 岳西县| 梨树县| 津市市| 兖州市| 沁阳市| 平定县| 佳木斯市| 玉屏| 陆河县| 井陉县| 南丹县| 手机| 姜堰市| 云南省| 台东县| 迁安市| 永春县| 犍为县| 马公市| 望都县| 永和县| 泾源县| 克什克腾旗|