冒純麗,曹春萍
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上?!?00093)
?
基于PubMed的共詞聚類分析方法
冒純麗,曹春萍
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海200093)
摘要針對(duì)傳統(tǒng)共詞聚類分析法中共詞矩陣構(gòu)建不能全面反映主題詞之間的關(guān)聯(lián)問題,提出了基于高頻主題詞共現(xiàn)于同一篇文獻(xiàn)多種格式內(nèi)容構(gòu)建共詞矩陣的方法,針對(duì)傳統(tǒng)聚類算法對(duì)于類團(tuán)非球狀且類團(tuán)大小相異較大導(dǎo)致聚類效果不理想等問題,利用改進(jìn)的CRUE聚類算法對(duì)共詞矩陣聚類。并對(duì)PubMed中肺癌領(lǐng)域相關(guān)文獻(xiàn)進(jìn)行共詞聚類分析,實(shí)驗(yàn)論證了改進(jìn)后共詞聚類分析方法的可行性。
關(guān)鍵詞共詞聚類分析;共詞矩陣;CRUE聚類;PubMed
PubMed是美國(guó)國(guó)立衛(wèi)生研究院(NIH)下屬美國(guó)國(guó)立醫(yī)學(xué)圖書館(NLM)開發(fā)的因特網(wǎng)檢索系統(tǒng),建立在國(guó)家生物醫(yī)學(xué)信息中心(NCBI)平臺(tái)上[1]。PubMed數(shù)據(jù)庫(kù)主要來源為Medline。Medline是美國(guó)國(guó)立醫(yī)學(xué)圖書館生產(chǎn)的國(guó)際性綜合生物醫(yī)學(xué)信息書目數(shù)據(jù)庫(kù)。Medline文獻(xiàn)數(shù)據(jù)庫(kù)作為當(dāng)前全球最權(quán)威的生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng),是全世界醫(yī)學(xué)研究者、圖書情報(bào)人員最常用的檢索工具。醫(yī)療研究者通常以PubMed中相關(guān)文獻(xiàn)為數(shù)據(jù)來源,通過共詞聚類分析方法對(duì)文獻(xiàn)處理挖掘該領(lǐng)域研究現(xiàn)狀與熱點(diǎn)。
共詞聚類分析法是基于內(nèi)容分析的一種方法,共詞聚類分析法通過挖掘文獻(xiàn)的主題詞,選取出現(xiàn)頻次高于一定閾值的主題詞作為高頻主題詞,統(tǒng)計(jì)高頻主題詞對(duì)在同一篇文獻(xiàn)(txt格式)主題詞列表中共現(xiàn)情況來構(gòu)建共詞矩陣,對(duì)共詞矩陣中主題詞之間的共現(xiàn)情況進(jìn)行聚類,分析聚類結(jié)果得到主題詞之間相關(guān)關(guān)系,進(jìn)而分析得到主題詞所代表的學(xué)科和主題結(jié)構(gòu)變化[2-5]。共詞聚類分析方法關(guān)鍵點(diǎn)在于共詞矩陣的構(gòu)建以及聚類算法的選取,共詞矩陣的構(gòu)建過程和聚類算法的聚類過程將直接影響到最后的分析結(jié)果,目前共詞分析方法在構(gòu)建共詞矩陣和聚類的時(shí)候都存在一些問題,具體如下:
(1)共詞矩陣構(gòu)建問題。共詞矩陣構(gòu)建依賴于高頻主題詞的共現(xiàn)分析,傳統(tǒng)共詞矩陣根據(jù)兩兩高頻主題詞在同一篇txt格式文獻(xiàn)中的共現(xiàn)情況構(gòu)造,如果兩個(gè)高頻主題詞在同一篇txt格式文獻(xiàn)的主題詞中共同出現(xiàn),則共現(xiàn)次數(shù)加一。主題詞是一篇文獻(xiàn)核心內(nèi)容的濃縮和提煉,很大程度上代表了文獻(xiàn)的研究?jī)?nèi)容和主題,通過統(tǒng)計(jì)高頻主題詞在文獻(xiàn)主題詞中的共現(xiàn)情況構(gòu)造共詞矩陣是必要的。但該方法同樣存在缺陷,txt格式文獻(xiàn)并不包含全文內(nèi)容,pdf全文內(nèi)容所包含的信息量遠(yuǎn)大于txt格式文獻(xiàn),兩個(gè)高頻主題詞在txt文獻(xiàn)主題詞中未共同出現(xiàn),并不代表這兩個(gè)高頻主題詞之間沒有聯(lián)系,其有可能在全文pdf內(nèi)容中共出現(xiàn)。因此傳統(tǒng)共詞矩陣構(gòu)建只注重高頻主題詞在txt格式文獻(xiàn)主題中共現(xiàn)情況忽略其在全文內(nèi)容中的共現(xiàn)情況,需要改進(jìn)。
(2)聚類算法問題。對(duì)共詞矩陣進(jìn)行聚類運(yùn)算,通過計(jì)算高頻主題詞之間的距離分析得到高頻主題詞二維空間抽象分布圖,圖中的點(diǎn)代表高頻主題詞,兩個(gè)點(diǎn)間的距離代表高頻主題詞之間的抽象距離。圖1左圖為主題詞分布呈球狀,右圖為非球狀。以往研究者在做共詞矩陣聚類分析時(shí)習(xí)慣將共詞矩陣導(dǎo)入SPSS[6],采用K-means[7]聚類或者系統(tǒng)聚類,其中系統(tǒng)聚類法根據(jù)合并兩類類間距離的不同分為組間連接、組內(nèi)連接、中位數(shù)聚類法、最近鄰元素、Ward法等,此類聚類算法適用于主題詞分布呈現(xiàn)球狀的共詞矩陣聚類,對(duì)于類團(tuán)非球狀和類團(tuán)大小相異很大的聚類效果不理想。通常高頻主題詞分布呈現(xiàn)圖1右圖所示不規(guī)則形狀,因此本文選取適合處理非球狀的聚類算法進(jìn)行聚類。
圖1 主題詞二維空間距離分布圖
針對(duì)以上兩個(gè)問題,本文提出了相應(yīng)解決方案。
針對(duì)共詞矩陣構(gòu)建問題,由于本文的數(shù)據(jù)來源為PubMed,PubMed中同一篇文獻(xiàn)格式包括txt,xml,pdf等,主題詞存在于該文獻(xiàn)xml格式中,本文在批量導(dǎo)出xml格式文獻(xiàn)的同時(shí)通過技術(shù)手段批量下載對(duì)應(yīng)pdf全文文獻(xiàn),統(tǒng)計(jì)高頻主題詞對(duì)在xml格式文獻(xiàn)主題詞中共現(xiàn)情況加權(quán)結(jié)合高頻出題詞對(duì)在pdf格式文獻(xiàn)中共現(xiàn)情況構(gòu)造共詞矩陣,通過此類方法構(gòu)造共詞矩陣將解決傳統(tǒng)共詞分析方法在構(gòu)建共詞矩陣時(shí),只注重主題詞而忽略全文內(nèi)容導(dǎo)致共詞矩陣不能深層次反映主題詞之間聯(lián)系的問題。
針對(duì)聚類算法適用性不強(qiáng)問題,本文利用CRUE層次聚類算法對(duì)共詞矩陣進(jìn)行聚類挖掘研究熱點(diǎn),CRUE聚類算法解決了對(duì)于類團(tuán)非球狀和類團(tuán)大小相異較大所引起的聚類效果不理想的問題。
1共詞矩陣構(gòu)建方法改建
1.1傳統(tǒng)共詞矩陣構(gòu)建方法
傳統(tǒng)共詞分析方法中給定txt文獻(xiàn)集T={t1,t2,…,tm},高頻主題詞集K={k1,k2,…,kn},主題詞ki和kj共現(xiàn)頻率為f(ki:kj)。
定義1共詞矩陣是對(duì)稱矩陣,且行、列均為代表了重要知識(shí)點(diǎn)的高頻主題詞,矩陣中的元素為兩兩高頻主題詞在txt文獻(xiàn)集中出現(xiàn)次數(shù)之和。共詞矩陣C如式(1)所示。
(1)
其中
傳統(tǒng)的共詞分析法算法流程如下:
(1)提取高頻主題詞。提取txt文獻(xiàn)集T的主題詞,選取出現(xiàn)頻次高于一定閾值的主題詞作為高頻主題詞,得到高頻主題詞集K;
(2)構(gòu)造共詞矩陣。統(tǒng)計(jì)高頻主題詞集K中兩兩主題詞共出現(xiàn)次數(shù),構(gòu)造共詞矩陣C,由于共詞矩陣中主題詞的頻次懸殊可能對(duì)后續(xù)的分析結(jié)果造成不必要的影響,研究者通常借用Ochiia系數(shù)[8]對(duì)共詞矩陣進(jìn)行處理,使其轉(zhuǎn)化為相關(guān)矩陣R。
(2)
1.2改進(jìn)后的共詞矩陣構(gòu)建方法
本文從PubMed檢索系統(tǒng)上獲取肺癌相關(guān)的文獻(xiàn)進(jìn)行分析研究,該系統(tǒng)數(shù)據(jù)庫(kù)中同一篇文章的格式有xml,pdf等,xml格式的文獻(xiàn)包含了文章的主題詞且主題詞與主題詞之間用標(biāo)識(shí),pdf格式的文獻(xiàn)包含了該文章的實(shí)體研究?jī)?nèi)容。本文通過技術(shù)手段挖掘出xml格式中的高頻主題詞,統(tǒng)計(jì)高頻主題詞在xml中的共現(xiàn)情況加權(quán)結(jié)合高頻主題詞在pdf中的共現(xiàn)情況構(gòu)造共詞矩陣。給定xml文獻(xiàn)集X={x1,x2,…,xm},給定pdf文獻(xiàn)集P={p1,p2,…,pm},對(duì)每個(gè)關(guān)鍵詞ki(1≤i≤n)設(shè)置一個(gè)權(quán)值v(0≤v≤1),具體設(shè)定值根據(jù)實(shí)際分析確定。步驟如下:
(1)批量獲取pdf文獻(xiàn)。
1)使用Jsoup挖取全文pdf下載地址。本文使用Jsoup[9]來解析xml文獻(xiàn),Jsoup是Java的xml解析器,Jsoup可直接解析xml、html文本內(nèi)容,它提供了一套省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。使用Jsoup挖掘出xml標(biāo)記集中
2)使用HttpClient實(shí)現(xiàn)全文pdf下載。HttpClient是Apache Jakarta Common 下的子項(xiàng)目,用來提供高效的、功能豐富的支持 HTTP 協(xié)議的客戶端編程工具包,并且它支持 HTTP 協(xié)議最新的版本和建議。通過HttpClient中的Get(url)方法獲取鏈接并下載。此處url為:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC號(hào)/pdf。本文只需在程序中循環(huán)m(m篇文獻(xiàn))次執(zhí)行此url將得到的字符流保存到本地即可下載m篇pdf文獻(xiàn)。
(2)提取高頻主題詞。
通過Jsoup挖掘出文章
(3)構(gòu)造共詞矩陣。
1)主題詞ki(1≤i≤n)和kj(1≤j≤n)根據(jù)在同一篇文獻(xiàn)兩種格式xd和pd中共現(xiàn)情況賦予不同共現(xiàn)頻率,若詞對(duì)在文獻(xiàn)xd的主題詞中共出現(xiàn),則共現(xiàn)頻率加1,若詞對(duì)在文獻(xiàn)pd中共出現(xiàn),則共現(xiàn)頻率加0.5。詞對(duì)共現(xiàn)頻率計(jì)算公式為
(3)
2)主題詞ki在同一篇文獻(xiàn)兩種格式xd和pd中出現(xiàn)頻率計(jì)算公式為
(4)
3)相關(guān)矩陣R中的元素rij計(jì)算公式為
(5)
2共詞矩陣聚類算法改進(jìn)
本文利用基于層次聚類[10]的CRUE聚類算法[11]對(duì)共詞矩陣進(jìn)行聚類。CRUE聚類算法運(yùn)用基于對(duì)象質(zhì)心和對(duì)象中心點(diǎn)之間的策略來計(jì)算聚類對(duì)象之間的距離,CRUE聚類算法區(qū)別于其他適合處理球狀類團(tuán)的聚類算法,其不是選取對(duì)象數(shù)據(jù)集中某個(gè)對(duì)象代表一個(gè)類而是選取最具代表性對(duì)象乘以一個(gè)合適的收縮因子α使該對(duì)象更加靠近類的中心。多個(gè)代表點(diǎn)的選擇使該算法適合處理類團(tuán)非球狀的幾何形狀。
CRUE聚類算法對(duì)相關(guān)矩陣聚類的步驟如下:
(1)對(duì)任意主題詞ki(1≤i≤n),其n維坐標(biāo)表現(xiàn)形式為ki=(ri1,ri2,…,rin),(ri1,ri2,…,rin)為矩陣R中第i行元素,將主題詞初始Ki化為第i類。對(duì)于類i(1≤i≤n),其中心點(diǎn)為i.mean,代表點(diǎn)為i.rep。中心點(diǎn)初始化為i.mean=(ri1,ri2,…,rin),代表點(diǎn)初始化為i.rep=(ri1,ri2,…,rin),合并距離最近的兩個(gè)類。對(duì)于類i和j,距離計(jì)算公式為
(6)
dist(p,q)為代表點(diǎn)p和q之間的歐式距離。
(2)計(jì)算新類的中心點(diǎn)和代表點(diǎn)。新類的中心點(diǎn)計(jì)算公式為
(7)
新類的代表點(diǎn)計(jì)算公式如下
wrep=p+α×(wmean-p)
(8)
研究證明當(dāng)α收縮因子取值在0.2~0.7之間聚類效果較好,本文α取0.5。
(3)重復(fù)步驟2,直到得到預(yù)期的聚類數(shù)。
3實(shí)驗(yàn)數(shù)據(jù)和分析
3.1數(shù)據(jù)來源及實(shí)驗(yàn)環(huán)境
本研究以PubMed數(shù)據(jù)庫(kù)中2012/01/01~2014/11/06發(fā)表的以Lung Cancer為Mesh(Medical Subject Headings)主題詞的文獻(xiàn)作為研究對(duì)象。過濾掉沒有免費(fèi)全文pdf的文獻(xiàn),最終對(duì)4 251篇文獻(xiàn)進(jìn)行分析,挖取高頻主題詞72個(gè),對(duì)72個(gè)高頻主題詞進(jìn)行聚類分析。如表1所示。
本實(shí)驗(yàn)在PC端進(jìn)行,操作系統(tǒng)是Windows 7,算法編寫工具是Eclipse,用Java語言編程實(shí)現(xiàn)。
表1 高頻主題詞表
3.2改進(jìn)之前的共詞分析方法結(jié)果
將共詞矩陣導(dǎo)入IBMSPSSStatistics,選擇系統(tǒng)聚類,通過組間連接方法使合成的新類各個(gè)變量之間的平均距離最短,通過平方歐式距離來計(jì)算類與類之間的距離,繪制出的樹狀圖,如圖2所示。
圖2 傳統(tǒng)共詞分析方法聚類結(jié)果
主題詞被分為9類:第1類由主題詞2,3構(gòu)成;第2類由主題詞14,23,24構(gòu)成;第3類由主題詞45,57,26,25,28,41,55構(gòu)成;第4類由主題詞40,66,5,36,22,50構(gòu)成;第5類由主題詞21,65,53構(gòu)成;第6類由主題詞7,42,15,4,19,17,18,46,6,35,44,1,51,62,39,54,9,32,38,13,27,10,58,68,60,67,33,61構(gòu)成;第7類由主題詞37,59,71構(gòu)成;第8類由主題詞47,69,43,31構(gòu)成;第9類由主題詞8,29,11,52,72,30,48,12,20,16,56構(gòu)成。
3.3改進(jìn)之后的共詞分析方法結(jié)果
在Java平臺(tái)編寫CRUE算法代碼對(duì)改進(jìn)后的共詞矩陣進(jìn)行聚類,聚類結(jié)果被分成了5類:第1類由主題詞24,26,14,8,16,43,59,12,20,72,6,48,56,49,30,71,23構(gòu)成;第2類由主題詞2,3,11,29,5,28,40,66,70,19,51,7,63構(gòu)成;第3類由主題詞4,13,61,28,54,58,27,32,39,21,9,62,69,31,35,42,1,10,17,68,53,60,33構(gòu)成;第4類由主題詞47,64,18,34,37,52,67,44,46構(gòu)成;第5類由主題詞22,65,41,36,55,45,57,15,50,25構(gòu)成。
3.4聚類效果對(duì)比分析
由聚類結(jié)果可知改進(jìn)后的共詞分析方法效果更加理想,如主題詞22,65,41,55分別對(duì)應(yīng)為RetrospectiveStudies,ProspectiveStudies,Case-ControlStudies,CohortStudies,這4個(gè)主題詞在改進(jìn)后的共詞分析法中被聚為一類,在傳統(tǒng)共詞分析法中被分在3個(gè)類別中。主題詞2,3對(duì)應(yīng)為Female,Male,在改進(jìn)后的共詞分析法中和主題詞Smoking,Adult,SurvivalRate等主題詞聚在一個(gè)類中,在傳統(tǒng)共詞分析法中兩個(gè)主題詞聚成一類。
改進(jìn)后的共詞分析法將聚類結(jié)果分為5類:(1)肺癌單核苷酸多態(tài)性、肺癌遺傳易感性研究以及DNA結(jié)合蛋白質(zhì)類研究;(2)肺癌多發(fā)人群、年齡段、存活率以及吸煙與肺癌之間的關(guān)系等因素統(tǒng)計(jì)研究;(3)肺癌患者化療療效的研究,尤其是喹唑啉類對(duì)肺癌的化療作用以及肺癌中的酶學(xué)研究和應(yīng)用;(4)肺癌相關(guān)基因,細(xì)胞組織的研究;(5)肺切除術(shù)在肺癌中的治療效果,術(shù)后生存率,以及發(fā)展現(xiàn)狀的研究。
4結(jié)束語
本文使用共詞聚類分析方法來挖掘PubMed中肺癌領(lǐng)域的研究熱點(diǎn)。本文根據(jù)PubMed中數(shù)據(jù)庫(kù)文獻(xiàn)的特點(diǎn),提出一種新的方法統(tǒng)計(jì)高頻主題詞在xml文獻(xiàn)中的共現(xiàn)情況加權(quán)結(jié)合高頻主題詞在pdf文獻(xiàn)中的共現(xiàn)情況構(gòu)造共詞矩陣。并利用CRUE聚類算法對(duì)共詞矩陣進(jìn)行聚類,實(shí)驗(yàn)驗(yàn)證其效果頗為理想。
本文構(gòu)造共詞矩陣的加權(quán)系數(shù)有待進(jìn)一步優(yōu)化。文中提取xml文獻(xiàn)中的高頻主題詞為基礎(chǔ)構(gòu)造共詞矩陣,忽略副主題與主題詞之間的聯(lián)系,隨著聚類算法針對(duì)性越來越強(qiáng),每種聚類算法聚類效果各不相同,如何選取最合適的聚類算法對(duì)共詞矩陣進(jìn)行聚類分析同樣值得深入研究。
參考文獻(xiàn)
[1]U.S.NationalLibraryofMadicine.NCBIdata[EB/OL].(2014-12-18)[2015-06-12]http://www.ncbi.nlm.nih.gov/pubmed.
[2]馬費(fèi)成,望俊成,陳金霞,等.我國(guó)數(shù)字信息資源研究的熱點(diǎn)領(lǐng)域:共詞分析透視[J].情報(bào)理論與實(shí)踐,2007,30(4):438-443.
[3]MahmoudRokaya,ElsayedAtlam,MasaoFuketa,etal.Rankingoffieldassociationtermsusingco-wordanalysis[J].InformationProcessingandManagement,2008,44(2):738-755.
[4]楊彥榮,張陽.加權(quán)共詞分析法研究[J].情報(bào)理論與實(shí)踐,2011,34(4):61-63.
[5]皇甫青紅,華薇娜,劉艷華,等.國(guó)際數(shù)字圖書館領(lǐng)域研究熱點(diǎn)及作者團(tuán)體分析——基于共詞分析和社會(huì)網(wǎng)絡(luò)分析[J].情報(bào)雜志,2013,32(1):118-123.
[6]薛薇.統(tǒng)計(jì)分析與SPSS的應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,2011.
[7]吳夙慧,成穎,鄭彥寧,等.K-means算法研究綜述[J].現(xiàn)代情報(bào)圖書技術(shù),2011(5):28-35.
[8]Callon.Co-wordanalysisforbasicandtechn-ologicalreseach[J].Scientmetrics,1991,22(2):155-2.
[9]JonathanHedley.Jsoup:javahtmlparser[EB/OL].(2009-11-29)[2015-06-12]http://jsoup.org.
[10]KarypisG,HanEH,KumarV.Chameleon:Ahierarc-hicalclusteringalgorithmusingdynamicmodeling[J].Computer,1999(32):68-75.
[11]魏桂英,鄭玄軒.層次聚類方法的CRUE算法研究[J].科技與產(chǎn)業(yè),2005,5(11):22-24.
歡 迎 刊 登 廣 告
請(qǐng)?jiān)L問:www.dianzikeji.orgE-mail:dzkj@mail.xidian.edu.cn
聯(lián)系電話:029-88202440傳真:029-88202440
Co-word Clustering Analysis Based on PubMed
MAO Chunli,CAO Chunping
(School of Optical-Electrical and Computer Engineering,University of Shanghai for
Science and Technology,Shanghai 200093,China)
AbstractThe co-word matrix in the current co-word clustering analysis can not fully reflect the connection between the keywords.This paper proposes a new method to build co-word matrix based on the high frequency keywords co-occurrence in the same paper with variety of formats.The shortcomings of traditional clustering algorithms,such as poor performance in non-spherical cases and difference in size clusters,are pointed out.The paper proposes an improved CRUE algorithm to cluster the Co-word matrix.The new co-word clustering analysis has been made of lung cancer in PubMed,which proves its feasibility.
Keywordsco-word clustering analysis;co-word matrix;CRUE clustering algorithm;PubMed
中圖分類號(hào)G354
文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)1007-7820(2016)02-053-05
doi:10.16180/j.cnki.issn1007-7820.2016.02.014
作者簡(jiǎn)介:冒純麗(1991—),女,碩士研究生。研究方向:數(shù)據(jù)挖掘。曹春萍(1968—),女,副教授。研究方向:智能決策知識(shí)系統(tǒng),個(gè)性化服務(wù)。
基金項(xiàng)目:國(guó)家高科技研究發(fā)展計(jì)劃(863)基金資助項(xiàng)目(2014AA021502)
收稿日期:2015- 07- 03