国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SPSS的共現(xiàn)聚類分析參數(shù)選擇的實(shí)例研究

2016-03-21 08:59,
關(guān)鍵詞:類間共詞主題詞

,

共現(xiàn)分析是對兩個(gè)及以上能夠表達(dá)某一學(xué)科領(lǐng)域研究主題或方向的特征項(xiàng)(如主題詞、引文、作者等)在同一篇文獻(xiàn)中出現(xiàn)的現(xiàn)象進(jìn)行分析。出現(xiàn)的頻次越多,表明這些特征項(xiàng)的關(guān)系越密切、距離越近[1]。作為內(nèi)容分析的常用方法之一,共現(xiàn)分析常與SPSS中的系統(tǒng)聚類分析結(jié)合使用[2]。但目前對原始矩陣、相似性度量和類間距離計(jì)算方法[3]的選擇尚存在爭議。

原始矩陣的類型可選擇共現(xiàn)矩陣或特征項(xiàng)-來源文獻(xiàn)矩陣。共現(xiàn)矩陣是對稱矩陣的行列均是特征項(xiàng),單元格的數(shù)字則是行特征項(xiàng)和對應(yīng)列特征項(xiàng)共同出現(xiàn)的次數(shù);特征項(xiàng)-來源文獻(xiàn)矩陣,其行列分別為特征項(xiàng)及其來源文獻(xiàn),若特征項(xiàng)在文獻(xiàn)中出現(xiàn)則值為1,否則為0。相似性度量是矩陣標(biāo)準(zhǔn)化的手段,通過度量使得相似者愈加相似,不相似者愈加不相似,用以衡量個(gè)體之間的距離。而類間距離計(jì)算方法可衡量類與類之間的距離,距離最小的兩個(gè)小類被合并成為一類。SPSS 提供的類間距離測度方法有組間(內(nèi))連接、最大(小)距離和離差平方和法(簡稱Ward法)等。有研究表明,國內(nèi)學(xué)者應(yīng)用共現(xiàn)分析的方法存在問題[4]。筆者調(diào)研發(fā)現(xiàn),國內(nèi)學(xué)者進(jìn)行文獻(xiàn)聚類共現(xiàn)分析應(yīng)用最廣泛的是共現(xiàn)矩陣。共現(xiàn)矩陣轉(zhuǎn)化為相關(guān)矩陣的過程中,最常用的相似系數(shù)是ochiai系數(shù),最受歡迎的聚類方法是類間計(jì)算方法選擇Ward和組間連接法,度量方法為平方歐式距離。詞篇矩陣大多選用ochiai系數(shù),聚類方法選擇組間或組內(nèi)聯(lián)接法。

本文旨在通過實(shí)例分析,比較矩陣類型、各種聚類方法和參數(shù)之間的差異,以期得到共現(xiàn)聚類分析規(guī)范的最佳方法。

1 研究材料與方法

1.1 研究材料

OHSUMED實(shí)驗(yàn)集是由使用MEDLINE的新手醫(yī)生根據(jù)106個(gè)主題進(jìn)行檢索得出的。他們根據(jù)病人的信息以及自己的信息需求,由檢索人員檢索問題,然后由另一組醫(yī)生評價(jià)檢索到的每篇文獻(xiàn)與提問之間的相關(guān)性,評價(jià)等級包括明確相關(guān)、可能相關(guān)和不相關(guān)三個(gè)級別。

這些明確相關(guān)的提問-文獻(xiàn)對可作為我們分類研究的金標(biāo)準(zhǔn)。

1.2 研究方法

1.2.1 收集樣本

瀏覽OHSUMED數(shù)據(jù)集,從中選擇相關(guān)文獻(xiàn)數(shù)據(jù)中的5個(gè)Queries(以下簡稱檢索主題),見表1。從PubMed數(shù)據(jù)庫中檢索,輸出各個(gè)檢索主題的xml格式文件。

表1 各問題明確相關(guān)文獻(xiàn)分布

1.2.2 處理數(shù)據(jù)

將OHSUMED數(shù)據(jù)導(dǎo)入BICOMB[5],選擇提取主要主題詞-副主題詞,生成詞篇矩陣和共詞矩陣。進(jìn)一步利用Matlab軟件實(shí)現(xiàn)共詞矩陣的ochiai系數(shù)、pearson系數(shù)、cosine系數(shù)和spearman系數(shù)的相似矩陣,轉(zhuǎn)換為相應(yīng)的相異矩陣,便于聚類分析。

1.2.3 聚類分析

將詞篇矩陣和共詞相異矩陣輸入SPSS進(jìn)行系統(tǒng)聚類分析。對于詞篇矩陣,選擇以下系統(tǒng)聚類方法和參數(shù)搭配:組間聯(lián)接法+ochiai[6]、組間聯(lián)接法+jaccard,最大距離法+ochiai[7]、最大距離法+jaccard,組內(nèi)聯(lián)接法+ochiai[8]、組內(nèi)聯(lián)接法+jaccard,最小距離法+ochiai、最小距離法+jaccard,將系統(tǒng)聚類的結(jié)果導(dǎo)入Excel進(jìn)行對應(yīng)類的整理。對于4種共詞相似系數(shù)處理矩陣和原始共詞矩陣,分別以ochiai系數(shù)[9]、pearson系數(shù)[10]、jaccard系數(shù)、cosine系數(shù)[11]和原始共詞矩陣在SPSS中選擇以下系統(tǒng)聚類和參數(shù)搭配:Ward法+平方歐氏距離[10]、組間聯(lián)接法+平方歐氏距離[12]、組內(nèi)聯(lián)接法+平方歐氏距離[13]、組間聯(lián)接法+歐氏距離[14]等,累計(jì)20種組配方法。

1.2.4 各種選擇組合后聚類效果的評價(jià)與比較

本次研究選擇的指標(biāo)主要有基于金標(biāo)準(zhǔn)F值、基于簇F值和熵(Entropy)[15]。

1.2.4.1 基于金標(biāo)準(zhǔn)F值

對于任何人工主題Pj和聚類簇Ci:

1.2.4.2 基于簇F值

1.2.4.3 熵值

針對語料X上的聚類結(jié)果C={C1,C2,…,Cm}中的每一個(gè)簇Ci,計(jì)算簇Ci的熵。

2 結(jié)果與分析

2.1 矩陣處理結(jié)果

將檢索獲得的104篇文獻(xiàn),導(dǎo)入BICOMB進(jìn)行處理共獲得187個(gè)主要主題詞+主要副主題詞,且文獻(xiàn)間無重復(fù),并得出共詞矩陣和詞篇矩陣。

利用Matlab將共詞矩陣轉(zhuǎn)化為ochiai系數(shù)、pearson系數(shù)、spearman系數(shù)、cosine系數(shù) 4種相關(guān)系數(shù)矩陣,將相似矩陣轉(zhuǎn)換為相異矩陣,計(jì)算公式為:相異矩陣=1-相似矩陣,其中spearman 系數(shù)和pearson 系數(shù)所得矩陣為負(fù)值矩陣。本文采用的是SPSS中的Z得分標(biāo)準(zhǔn)化和重新標(biāo)度到0-1兩種方式進(jìn)行標(biāo)準(zhǔn)處理。

2.2 SPSS聚類結(jié)果

將詞篇矩陣和相異(似)矩陣進(jìn)行SPSS系統(tǒng)聚類,選擇上述參數(shù)和方法,聚類結(jié)果如表2所示。

表2 詞篇矩陣組內(nèi)聯(lián)接法+ochiai系數(shù)聚類群集(部分)

2.3 Matlab計(jì)算結(jié)果

已知基于金標(biāo)準(zhǔn)(簇)F值越大(0.8左右),熵值越小(0.2左右),聚類結(jié)果越好。與所選相關(guān)系數(shù)相比,詞篇矩陣聚類結(jié)果受類間距離計(jì)算方法的影響更大,最小距離法和組間聯(lián)接法聚類效果最好,見表3-4。

表3 類間計(jì)算方法對詞篇矩陣結(jié)果的影響

表4 相關(guān)系數(shù)對詞篇矩陣聚類結(jié)果的影響

相比之下,共詞矩陣聚類結(jié)果與輸入SPSS前所選用的相關(guān)系數(shù)關(guān)系較大,而與聚類過程中選擇的參數(shù)關(guān)系較小,spearman系數(shù)和pearson系數(shù)、cosine系數(shù)聚類效果較好,如表5-表6。

表5 類間計(jì)算方法及參數(shù)對共詞矩陣聚類效果的影響

表6 相關(guān)系數(shù)對共詞矩陣聚類結(jié)果的影響

針對每種相似系數(shù)的每種聚類評價(jià)指標(biāo),分別計(jì)算其平均得分,如圖1所示。從圖1可看出,F(xiàn)值最高、熵值最低的是共詞矩陣的spearman系數(shù),其次是詞篇矩陣的兩種系數(shù)。從總體趨勢看,詞篇矩陣的聚類結(jié)果較為穩(wěn)定,共詞矩陣聚類效果會因?yàn)橄嗨葡禂?shù)的差異而大幅度上下波動。

圖1 相似系數(shù)聚類結(jié)果得分平均值

就總體平均值而言,詞篇矩陣得分要優(yōu)于共現(xiàn)矩陣,見表7。

表7 兩種矩陣得分平均值

3 討論

3.1 熵值上下波動的主要原因

熵值波動的主要原因是大類現(xiàn)象。大類現(xiàn)象指人工判定為N類的文檔集合,通過系統(tǒng)分析聚類為N類后,無法看到文檔在聚類結(jié)果中的正確分布,反而看到一個(gè)非常大的類和若干小類。如選用ochiai相似系數(shù)矩陣、ward法、斐方度量聚類,文中187個(gè)主要主題詞-副主題詞中有166個(gè)被囊括在一個(gè)大類里,而其他的類里只分別涵蓋了5、6、5、5個(gè)詞。對比可知,該大類涵蓋了5個(gè)原先分類標(biāo)準(zhǔn)的主題詞,因此聚類結(jié)果散亂、熵值高。該現(xiàn)象在系統(tǒng)聚類分析中屬正?,F(xiàn)象,可通過調(diào)整聚類類別數(shù)以改善聚類結(jié)果。

3.2 影響聚類結(jié)果的主要因素

3.2.1 矩陣類型

從某種程度上說,共詞矩陣是一種相似(相異)矩陣,而詞篇矩陣是二值(0,1)陣,每行的數(shù)值可看作是該樣本的性質(zhì)變量。實(shí)際上,共詞矩陣可通過詞篇矩陣與其轉(zhuǎn)置矩陣相乘得到,但不少學(xué)者認(rèn)為在轉(zhuǎn)化過程中其信息量有所損失。所以在所得聚類結(jié)果中,共詞矩陣并不能很好地還原原先類,且結(jié)果得分波動幅度很大。

2010年崔雷[16]和賴院根[17]就提出SPSS系統(tǒng)聚類中矩陣類型的思考。SPSS要求輸入的是case-variance(樣本-變量)形式的矩陣,即詞篇矩陣,聚類選項(xiàng)中數(shù)據(jù)類型選擇的是“binary”。目前也有很多學(xué)者習(xí)慣使用共現(xiàn)矩陣的相似或相異矩陣,雖然可以得出聚類結(jié)果,實(shí)際上這在原理上是行不通的。相似(相異)矩陣本身就是一種相似距離,如果導(dǎo)入SPSS中按照聚類步驟,數(shù)據(jù)變換、對象之間的距離計(jì)算和層次聚類,計(jì)算得到的是“距離的距離”,其聚類結(jié)果的正確性尚有待考證。在必須使用共現(xiàn)矩陣進(jìn)行系統(tǒng)聚類時(shí),可參照文獻(xiàn)[3]的方法對算法進(jìn)行相應(yīng)修改,避免相似性的重復(fù)測量。

3.2.2 相關(guān)系數(shù)

從結(jié)果分析可以看出,相關(guān)系數(shù)的選擇對聚類結(jié)果影響較大,尤其是對于共詞矩陣。在作者同被引分析方面,Loet Leydesdorff 曾于2006年提出[18],對于對稱矩陣(如共詞矩陣)不應(yīng)再使用任何相關(guān)性度量,因?yàn)槠浔旧硪咽且环N相似(相異)距離。

從原理上看,相關(guān)度量可分為相似性度量(如pearson 系數(shù)和cosine系數(shù))和相異性度量(如歐幾里得距離)。對于不同的矩陣應(yīng)根據(jù)其分布特點(diǎn)選擇不同的相關(guān)度量。

Pearson相關(guān)系數(shù)適合用于服從正態(tài)分布時(shí)且在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。Cosine系數(shù)與ochiai系數(shù)原理相同,二者區(qū)別在于ochiai系數(shù)一般應(yīng)用于(0,1)矩陣,cosine系數(shù)一般用于距離矩陣,但實(shí)際應(yīng)用中,國內(nèi)學(xué)者常將二者混淆,出現(xiàn)如“計(jì)算共現(xiàn)矩陣的ochiai系數(shù)矩陣”之類的方法。而且cosine相似系數(shù)有時(shí)易與Jaccard 系數(shù)的推廣形式Tanimoto系數(shù)混淆,也應(yīng)區(qū)別對待。Spearman 秩相關(guān)系數(shù)應(yīng)用于對不服從正態(tài)分布的數(shù)據(jù)、原始等級數(shù)據(jù)、總體分布類型未知的數(shù)據(jù),對原始變量分布不作要求。本研究中spearman秩相關(guān)系數(shù)所的聚類結(jié)果較好,因其不符合正態(tài)分布,亦非二元變量。歐氏(歐幾里得)平方距離是一種相異性度量,SPSS中使用ward法聚類時(shí),要求使用該度量。

對于類間距離計(jì)算方法的選擇,就本研究結(jié)果來看,詞篇矩陣最好選擇最小距離法或組間聯(lián)接法,但類間計(jì)算方法對相似(異)矩陣的影響不大,使用時(shí)應(yīng)注意結(jié)合矩陣特點(diǎn)選擇聚類方法。如選用Ward法時(shí)應(yīng)選擇歐氏距離平方作為度量。相似(異)數(shù)據(jù)不宜選用斐方度量等,若選擇不當(dāng),會對結(jié)果產(chǎn)生很大影響,甚至扭曲結(jié)果。

4 結(jié)語

本文針對國內(nèi)目前SPSS共現(xiàn)聚類分析常見的問題和爭議,對其應(yīng)用過程中應(yīng)選擇的矩陣類型、相似系數(shù)和類間計(jì)算方法及其搭配方式進(jìn)行了研究。SPSS系統(tǒng)聚類的過程中,詞篇矩陣比共詞矩陣在穩(wěn)定性和聚類結(jié)果方面效果更好,應(yīng)作為聚類分析的首選矩陣。Spearman系數(shù)的適用范圍較為廣泛,在不可獲得詞篇矩陣的情況下,對共現(xiàn)矩陣的處理方式應(yīng)結(jié)合其具體分布和相關(guān)系數(shù)的原理科學(xué)選擇。

猜你喜歡
類間共詞主題詞
基于OTSU改進(jìn)的布匹檢測算法研究
關(guān)鍵詞的提取與確定
基于貝葉斯估計(jì)的多類間方差目標(biāo)提取*
《中國醫(yī)學(xué)計(jì)算機(jī)成像雜志》2020 年第26 卷主題詞索引
基于類間區(qū)分度的屬性約簡方法*
基于突變檢測與共詞分析的深閱讀新興趨勢分析
基于改進(jìn)最大類間方差法的手勢分割方法研究
基于Matlab的共詞矩陣構(gòu)造
《中國骨與關(guān)節(jié)雜志》2016 年第五卷英文主題詞索引
基于共詞知識圖譜技術(shù)的國內(nèi)VLC可視化研究
桐庐县| 鄂托克前旗| 乌什县| 博乐市| 阿合奇县| 洪江市| 福安市| 中宁县| 榆树市| 得荣县| 中超| 新巴尔虎左旗| 昌黎县| 石楼县| 太湖县| 新乡县| 沙洋县| 长葛市| 当阳市| 张家界市| 汉川市| 长春市| 宁城县| 岐山县| 德庆县| 松溪县| 社会| 韩城市| 罗田县| 霍城县| 临安市| 广南县| 黑山县| 醴陵市| 绥宁县| 江油市| 昌吉市| 尚义县| 太原市| 花莲县| 玉树县|