,
共現(xiàn)分析是對兩個(gè)及以上能夠表達(dá)某一學(xué)科領(lǐng)域研究主題或方向的特征項(xiàng)(如主題詞、引文、作者等)在同一篇文獻(xiàn)中出現(xiàn)的現(xiàn)象進(jìn)行分析。出現(xiàn)的頻次越多,表明這些特征項(xiàng)的關(guān)系越密切、距離越近[1]。作為內(nèi)容分析的常用方法之一,共現(xiàn)分析常與SPSS中的系統(tǒng)聚類分析結(jié)合使用[2]。但目前對原始矩陣、相似性度量和類間距離計(jì)算方法[3]的選擇尚存在爭議。
原始矩陣的類型可選擇共現(xiàn)矩陣或特征項(xiàng)-來源文獻(xiàn)矩陣。共現(xiàn)矩陣是對稱矩陣的行列均是特征項(xiàng),單元格的數(shù)字則是行特征項(xiàng)和對應(yīng)列特征項(xiàng)共同出現(xiàn)的次數(shù);特征項(xiàng)-來源文獻(xiàn)矩陣,其行列分別為特征項(xiàng)及其來源文獻(xiàn),若特征項(xiàng)在文獻(xiàn)中出現(xiàn)則值為1,否則為0。相似性度量是矩陣標(biāo)準(zhǔn)化的手段,通過度量使得相似者愈加相似,不相似者愈加不相似,用以衡量個(gè)體之間的距離。而類間距離計(jì)算方法可衡量類與類之間的距離,距離最小的兩個(gè)小類被合并成為一類。SPSS 提供的類間距離測度方法有組間(內(nèi))連接、最大(小)距離和離差平方和法(簡稱Ward法)等。有研究表明,國內(nèi)學(xué)者應(yīng)用共現(xiàn)分析的方法存在問題[4]。筆者調(diào)研發(fā)現(xiàn),國內(nèi)學(xué)者進(jìn)行文獻(xiàn)聚類共現(xiàn)分析應(yīng)用最廣泛的是共現(xiàn)矩陣。共現(xiàn)矩陣轉(zhuǎn)化為相關(guān)矩陣的過程中,最常用的相似系數(shù)是ochiai系數(shù),最受歡迎的聚類方法是類間計(jì)算方法選擇Ward和組間連接法,度量方法為平方歐式距離。詞篇矩陣大多選用ochiai系數(shù),聚類方法選擇組間或組內(nèi)聯(lián)接法。
本文旨在通過實(shí)例分析,比較矩陣類型、各種聚類方法和參數(shù)之間的差異,以期得到共現(xiàn)聚類分析規(guī)范的最佳方法。
OHSUMED實(shí)驗(yàn)集是由使用MEDLINE的新手醫(yī)生根據(jù)106個(gè)主題進(jìn)行檢索得出的。他們根據(jù)病人的信息以及自己的信息需求,由檢索人員檢索問題,然后由另一組醫(yī)生評價(jià)檢索到的每篇文獻(xiàn)與提問之間的相關(guān)性,評價(jià)等級包括明確相關(guān)、可能相關(guān)和不相關(guān)三個(gè)級別。
這些明確相關(guān)的提問-文獻(xiàn)對可作為我們分類研究的金標(biāo)準(zhǔn)。
1.2.1 收集樣本
瀏覽OHSUMED數(shù)據(jù)集,從中選擇相關(guān)文獻(xiàn)數(shù)據(jù)中的5個(gè)Queries(以下簡稱檢索主題),見表1。從PubMed數(shù)據(jù)庫中檢索,輸出各個(gè)檢索主題的xml格式文件。
表1 各問題明確相關(guān)文獻(xiàn)分布
1.2.2 處理數(shù)據(jù)
將OHSUMED數(shù)據(jù)導(dǎo)入BICOMB[5],選擇提取主要主題詞-副主題詞,生成詞篇矩陣和共詞矩陣。進(jìn)一步利用Matlab軟件實(shí)現(xiàn)共詞矩陣的ochiai系數(shù)、pearson系數(shù)、cosine系數(shù)和spearman系數(shù)的相似矩陣,轉(zhuǎn)換為相應(yīng)的相異矩陣,便于聚類分析。
1.2.3 聚類分析
將詞篇矩陣和共詞相異矩陣輸入SPSS進(jìn)行系統(tǒng)聚類分析。對于詞篇矩陣,選擇以下系統(tǒng)聚類方法和參數(shù)搭配:組間聯(lián)接法+ochiai[6]、組間聯(lián)接法+jaccard,最大距離法+ochiai[7]、最大距離法+jaccard,組內(nèi)聯(lián)接法+ochiai[8]、組內(nèi)聯(lián)接法+jaccard,最小距離法+ochiai、最小距離法+jaccard,將系統(tǒng)聚類的結(jié)果導(dǎo)入Excel進(jìn)行對應(yīng)類的整理。對于4種共詞相似系數(shù)處理矩陣和原始共詞矩陣,分別以ochiai系數(shù)[9]、pearson系數(shù)[10]、jaccard系數(shù)、cosine系數(shù)[11]和原始共詞矩陣在SPSS中選擇以下系統(tǒng)聚類和參數(shù)搭配:Ward法+平方歐氏距離[10]、組間聯(lián)接法+平方歐氏距離[12]、組內(nèi)聯(lián)接法+平方歐氏距離[13]、組間聯(lián)接法+歐氏距離[14]等,累計(jì)20種組配方法。
1.2.4 各種選擇組合后聚類效果的評價(jià)與比較
本次研究選擇的指標(biāo)主要有基于金標(biāo)準(zhǔn)F值、基于簇F值和熵(Entropy)[15]。
1.2.4.1 基于金標(biāo)準(zhǔn)F值
對于任何人工主題Pj和聚類簇Ci:
1.2.4.2 基于簇F值
1.2.4.3 熵值
針對語料X上的聚類結(jié)果C={C1,C2,…,Cm}中的每一個(gè)簇Ci,計(jì)算簇Ci的熵。
將檢索獲得的104篇文獻(xiàn),導(dǎo)入BICOMB進(jìn)行處理共獲得187個(gè)主要主題詞+主要副主題詞,且文獻(xiàn)間無重復(fù),并得出共詞矩陣和詞篇矩陣。
利用Matlab將共詞矩陣轉(zhuǎn)化為ochiai系數(shù)、pearson系數(shù)、spearman系數(shù)、cosine系數(shù) 4種相關(guān)系數(shù)矩陣,將相似矩陣轉(zhuǎn)換為相異矩陣,計(jì)算公式為:相異矩陣=1-相似矩陣,其中spearman 系數(shù)和pearson 系數(shù)所得矩陣為負(fù)值矩陣。本文采用的是SPSS中的Z得分標(biāo)準(zhǔn)化和重新標(biāo)度到0-1兩種方式進(jìn)行標(biāo)準(zhǔn)處理。
將詞篇矩陣和相異(似)矩陣進(jìn)行SPSS系統(tǒng)聚類,選擇上述參數(shù)和方法,聚類結(jié)果如表2所示。
表2 詞篇矩陣組內(nèi)聯(lián)接法+ochiai系數(shù)聚類群集(部分)
已知基于金標(biāo)準(zhǔn)(簇)F值越大(0.8左右),熵值越小(0.2左右),聚類結(jié)果越好。與所選相關(guān)系數(shù)相比,詞篇矩陣聚類結(jié)果受類間距離計(jì)算方法的影響更大,最小距離法和組間聯(lián)接法聚類效果最好,見表3-4。
表3 類間計(jì)算方法對詞篇矩陣結(jié)果的影響
表4 相關(guān)系數(shù)對詞篇矩陣聚類結(jié)果的影響
相比之下,共詞矩陣聚類結(jié)果與輸入SPSS前所選用的相關(guān)系數(shù)關(guān)系較大,而與聚類過程中選擇的參數(shù)關(guān)系較小,spearman系數(shù)和pearson系數(shù)、cosine系數(shù)聚類效果較好,如表5-表6。
表5 類間計(jì)算方法及參數(shù)對共詞矩陣聚類效果的影響
表6 相關(guān)系數(shù)對共詞矩陣聚類結(jié)果的影響
針對每種相似系數(shù)的每種聚類評價(jià)指標(biāo),分別計(jì)算其平均得分,如圖1所示。從圖1可看出,F(xiàn)值最高、熵值最低的是共詞矩陣的spearman系數(shù),其次是詞篇矩陣的兩種系數(shù)。從總體趨勢看,詞篇矩陣的聚類結(jié)果較為穩(wěn)定,共詞矩陣聚類效果會因?yàn)橄嗨葡禂?shù)的差異而大幅度上下波動。
圖1 相似系數(shù)聚類結(jié)果得分平均值
就總體平均值而言,詞篇矩陣得分要優(yōu)于共現(xiàn)矩陣,見表7。
表7 兩種矩陣得分平均值
熵值波動的主要原因是大類現(xiàn)象。大類現(xiàn)象指人工判定為N類的文檔集合,通過系統(tǒng)分析聚類為N類后,無法看到文檔在聚類結(jié)果中的正確分布,反而看到一個(gè)非常大的類和若干小類。如選用ochiai相似系數(shù)矩陣、ward法、斐方度量聚類,文中187個(gè)主要主題詞-副主題詞中有166個(gè)被囊括在一個(gè)大類里,而其他的類里只分別涵蓋了5、6、5、5個(gè)詞。對比可知,該大類涵蓋了5個(gè)原先分類標(biāo)準(zhǔn)的主題詞,因此聚類結(jié)果散亂、熵值高。該現(xiàn)象在系統(tǒng)聚類分析中屬正?,F(xiàn)象,可通過調(diào)整聚類類別數(shù)以改善聚類結(jié)果。
3.2.1 矩陣類型
從某種程度上說,共詞矩陣是一種相似(相異)矩陣,而詞篇矩陣是二值(0,1)陣,每行的數(shù)值可看作是該樣本的性質(zhì)變量。實(shí)際上,共詞矩陣可通過詞篇矩陣與其轉(zhuǎn)置矩陣相乘得到,但不少學(xué)者認(rèn)為在轉(zhuǎn)化過程中其信息量有所損失。所以在所得聚類結(jié)果中,共詞矩陣并不能很好地還原原先類,且結(jié)果得分波動幅度很大。
2010年崔雷[16]和賴院根[17]就提出SPSS系統(tǒng)聚類中矩陣類型的思考。SPSS要求輸入的是case-variance(樣本-變量)形式的矩陣,即詞篇矩陣,聚類選項(xiàng)中數(shù)據(jù)類型選擇的是“binary”。目前也有很多學(xué)者習(xí)慣使用共現(xiàn)矩陣的相似或相異矩陣,雖然可以得出聚類結(jié)果,實(shí)際上這在原理上是行不通的。相似(相異)矩陣本身就是一種相似距離,如果導(dǎo)入SPSS中按照聚類步驟,數(shù)據(jù)變換、對象之間的距離計(jì)算和層次聚類,計(jì)算得到的是“距離的距離”,其聚類結(jié)果的正確性尚有待考證。在必須使用共現(xiàn)矩陣進(jìn)行系統(tǒng)聚類時(shí),可參照文獻(xiàn)[3]的方法對算法進(jìn)行相應(yīng)修改,避免相似性的重復(fù)測量。
3.2.2 相關(guān)系數(shù)
從結(jié)果分析可以看出,相關(guān)系數(shù)的選擇對聚類結(jié)果影響較大,尤其是對于共詞矩陣。在作者同被引分析方面,Loet Leydesdorff 曾于2006年提出[18],對于對稱矩陣(如共詞矩陣)不應(yīng)再使用任何相關(guān)性度量,因?yàn)槠浔旧硪咽且环N相似(相異)距離。
從原理上看,相關(guān)度量可分為相似性度量(如pearson 系數(shù)和cosine系數(shù))和相異性度量(如歐幾里得距離)。對于不同的矩陣應(yīng)根據(jù)其分布特點(diǎn)選擇不同的相關(guān)度量。
Pearson相關(guān)系數(shù)適合用于服從正態(tài)分布時(shí)且在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。Cosine系數(shù)與ochiai系數(shù)原理相同,二者區(qū)別在于ochiai系數(shù)一般應(yīng)用于(0,1)矩陣,cosine系數(shù)一般用于距離矩陣,但實(shí)際應(yīng)用中,國內(nèi)學(xué)者常將二者混淆,出現(xiàn)如“計(jì)算共現(xiàn)矩陣的ochiai系數(shù)矩陣”之類的方法。而且cosine相似系數(shù)有時(shí)易與Jaccard 系數(shù)的推廣形式Tanimoto系數(shù)混淆,也應(yīng)區(qū)別對待。Spearman 秩相關(guān)系數(shù)應(yīng)用于對不服從正態(tài)分布的數(shù)據(jù)、原始等級數(shù)據(jù)、總體分布類型未知的數(shù)據(jù),對原始變量分布不作要求。本研究中spearman秩相關(guān)系數(shù)所的聚類結(jié)果較好,因其不符合正態(tài)分布,亦非二元變量。歐氏(歐幾里得)平方距離是一種相異性度量,SPSS中使用ward法聚類時(shí),要求使用該度量。
對于類間距離計(jì)算方法的選擇,就本研究結(jié)果來看,詞篇矩陣最好選擇最小距離法或組間聯(lián)接法,但類間計(jì)算方法對相似(異)矩陣的影響不大,使用時(shí)應(yīng)注意結(jié)合矩陣特點(diǎn)選擇聚類方法。如選用Ward法時(shí)應(yīng)選擇歐氏距離平方作為度量。相似(異)數(shù)據(jù)不宜選用斐方度量等,若選擇不當(dāng),會對結(jié)果產(chǎn)生很大影響,甚至扭曲結(jié)果。
本文針對國內(nèi)目前SPSS共現(xiàn)聚類分析常見的問題和爭議,對其應(yīng)用過程中應(yīng)選擇的矩陣類型、相似系數(shù)和類間計(jì)算方法及其搭配方式進(jìn)行了研究。SPSS系統(tǒng)聚類的過程中,詞篇矩陣比共詞矩陣在穩(wěn)定性和聚類結(jié)果方面效果更好,應(yīng)作為聚類分析的首選矩陣。Spearman系數(shù)的適用范圍較為廣泛,在不可獲得詞篇矩陣的情況下,對共現(xiàn)矩陣的處理方式應(yīng)結(jié)合其具體分布和相關(guān)系數(shù)的原理科學(xué)選擇。