国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙聚類方法的乳腺癌相關酶研究前沿

2016-03-23 06:08,,
中華醫(yī)學圖書情報雜志 2016年2期
關鍵詞:共詞聚類乳腺癌

,,

乳腺癌是女性最常見的惡性腫瘤之一,在歐美國家多發(fā),在我國,尤其是經濟發(fā)達地區(qū)的發(fā)病率也呈明顯上升趨勢。經調研,發(fā)現大量研究表明乳腺癌的發(fā)生發(fā)展與各種蛋白酶密切相關。 Weqner MS等人證實,雌激素上調乳腺癌細胞神經酰胺合成酶的表達可能與乳腺癌細胞的增殖及腫瘤的發(fā)展有關[1];Laderoute KR等人證明,5'-AMP-activated蛋白酶通過調節(jié)乳腺癌腫瘤葡萄糖代謝的方式促進乳腺癌細胞的增殖生長[2]。本文的研究目的是為了幫助研究人員及時、準確地發(fā)現該領域研究前沿,制定未來發(fā)展策略。

國內外研究人員常使用共詞分析方法探測研究前沿,如Ryosuke L.Ohniwa等選取增長率高的MESH術語,用共詞的方法將它們分組,通過不同的時間窗比較探究生命科學領域的研究前沿[3];沈思等基于主題模型定義抽取表征主題不同發(fā)展階段的特征詞,利用特征詞概率變化分析主題的冷熱變化,證明該方法可提供較為準確的熱點主題和發(fā)展趨勢[4];齊鳳青[5]等人利用WOS檢索的文獻進行共詞分析,分析醫(yī)學信息學研究現狀。但以往的共詞分析方法得到的主題往往語義不明確,含義模糊不清?;陔p聚類的方法則可以實現對類團含義的揭示,清晰展示研究前沿。本文借助于雙聚類算法對乳腺癌相關酶研究文獻進行分析,實現行和列的同時聚類,從行和列兩個維度共同分析,比較不同時間窗內聚類結果的變化,發(fā)現乳腺癌相關酶研究的前沿內容。

1 數據和方法

1.1 數據來源

在PubMed數據庫中檢索2009-2011年和2012-2014年乳腺癌相關酶研究的相關文獻,構建檢索表達式為“Breast Neoplasms/enzymology”[Mesh]AND (“2009/01/01”[PDAT]: “2011/12/31”[PDAT]) 及“Breast Neoplasms/enzymology”][Mesh]AND (“2012/01/01”[PDAT]: “2014/12/31”[PDAT]),檢索結果分別為1 147篇和906篇,結果用MEDLINE格式保存,檢索時間為2015年3月12日。

1.2 方法和工具

1.2.1 方法

雙聚類方法是Hartigan[6]首先提出的。該方法可對數據矩陣中的樣本和變量同時進行聚類,實現了在對象及其屬性兩個方向上的同時聚類,同時使用對象及其屬性來提取它們的聯合信息,發(fā)現潛在的局部信息。雙聚類算法比其他單向傳統聚類方法在應用上更具有優(yōu)勢,它可以同時探測兩個維度的聚類成果,并在一定程度上實現了對聚類的自動標注。本文采用這種方法,“行”選取酶相關概念,“列”選取乳腺癌相關概念,兩兩統計概念的共現次數,組成共現矩陣,然后在行和列兩個維度進行聚類分析,識別相關酶類團的同時得到與之對應的乳腺癌相關概念。

目前有許多不同的指標可用于識別和判別主題演化判斷,如1986年Callon等提出的包容指數和鄰近指數,1997 年Coulter 等提出的相似指數 (Similarity Index)。本文則采用冷伏海[7]等提出的指數P來判斷不同時間段聚類結果形成的類團間的關聯強度。P 指數即概率指數,主要反映兩個聚類中有多少主題詞以其對聚類的貢獻度將這兩個聚類相連接,同時有多少主題詞以其對聚類貢獻度將這兩個聚類分割開,進而決定類團間是否具有演化關系。P指數計算公式為:Pij=Iij/(Ii+Ij-Iij),其中,Iij是兩個主題聚類 Ci和 Cj中共有主題詞集的信息量總和,Ii是聚類 Ci的所有主題詞集信息量之和,Ij是聚類 Cj的所有主題詞集信息量之和。本文對不同時間段聚類結果形成的類團進行分析,可以看到一定時間內類團的新生、演化、增長和消失,從而分析出科學研究興趣的動態(tài)變化。

1.2.2 工具

利用Thomson Data Analyzer(TDA)[8]文本挖掘軟件進行多角度的數據挖掘和可視化全景分析。

利用明尼蘇達大學Matt Rasmussen等開發(fā)的gCLUTO軟件形成共現矩陣或詞篇矩陣,實現對矩陣的行和列同時聚類[9]。gCLUTO的聚類方法有Repeated Bisection(重復二分法)、Direct(直接聚類)、Agglomerative(凝聚聚類)和 Graph(圖形聚類)4種,我們可以根據需要來選擇最佳的聚類方案,并通過可視化矩陣和可視化山丘功能展示聚類效果。

2 共詞聚類結果和分析

首先將下載的2009-2011年和2012-2014年文獻記錄分別導入到TDA中,選取MESH主題詞字段進行分析,先對字段進行數據清洗,合并同義詞處理,然后選擇分析頻次大于5的乳腺癌腫瘤相關概念和酶的相關概念,形成2009-2011年和2012-2014年以乳腺癌相關概念為列以酶相關概念為行的共現矩陣(見表1和表2)。

表1 2009-2011年乳腺癌相關概念為列和乳腺癌酶相關概念為行的共現矩陣

表2 2012-2014年乳腺癌相關概念為列和乳腺癌酶相關概念為行的共現矩陣

將兩個矩陣分別導入gCLUTO軟件進行雙聚類分析,聚類方法選擇重復二分法,最優(yōu)化函數選擇I2,相似系數選擇余弦函數,聚類數反復調整,最終分別聚為6類(圖1)和5類(圖2)。類內相似度較大,類間相似度較小,聚類形成的可視化山丘顯示效果較好。

圖1 雙聚類可視化矩陣

2.1 2009-2011年乳腺癌相關文獻的雙聚類結果

圖1聚類圖形中,行聚類表示的是對乳腺癌相關酶研究的分類,并在圖右側對應列出酶相關概念;列聚類表示的是對乳腺癌相關概念的聚類,并在圖下方對應列出所代表的乳腺癌相關概念。根據行和列的聚類結果,相關酶的研究被分為6類,并由對應的列得出研究前沿熱點。

第1類主要與腫瘤的遺傳學研究相關,主要包含BRCA1 Protein,Protein-Serine-Threonine Kinases、Checkpoint kinase 2、Glutathione Transferase、Glutathione S-Transferase pi、Methylenetetrahydrofolate Reductase (NADPH2)、Aurora Kinases等概念。

第2類主要與腫瘤的分期、預后和擴散的研究相關,主要包含src-Family Kinases、Receptors、 Estrogen、Receptor、ErbB-2、Cyclooxygenase 2等概念。

第3類主要與腫瘤細胞運動、信號轉導、腫瘤侵襲性等腫瘤的病理過程相關,主要包含Isoenzymes、Aromatase、NF-kappa B、Matrix Metalloproteinase 9、Matrix Metalloproteinase 2等概念。

第4類主要與腫瘤相關的酶活性、細胞擴散、信號轉導和細胞凋亡的研究相關,主要包含Receptor、 Epidermal Growth Factor、Estrogen Receptor alpha、Phosphatidylinositol 3-Kinases、Proto-Oncogene Proteins c-akt、Extracellular Signal-Regulated MAP Kinases、Mitogen-Activated Protein Kinases等概念。

第5類主要與腫瘤的藥物抵抗、藥物作用下的酶活性及藥物作用下的細胞擴散的研究相關,主要包含TOR Serine-Threonine Kinases、Protein-Tyrosine Kinases、PTEN Phosphohydrolase、Oncogene Protein v-akt、Mitogen-Activated Protein Kinase 3、Mitogen-Activated Protein Kinase 1等概念。

第6類主要與腫瘤細胞藥物作用下的細胞凋亡及藥物作用下的細胞擴散研究相關,主要包含有Proto-Oncogene Proteins c-bcl-2、JNK Mitogen-Activated Protein Kinases、p38 Mitogen-Activated Protein Kinases、NF-kappa B、Caspases、Caspase 3、Caspase 8、Apoptosis Regulatory Proteins、Poly(ADP-ribose) Polymerases、Proteasome Endopeptidase Complex等概念。

3.2 2012-2014年乳腺癌相關文獻的雙聚類結果

根據橫和列的聚類結果,相關酶的研究被分為5類,如圖2所示,并由所對應的列得出研究的前沿熱點。

圖2 雙聚類可視化矩陣

第1類主要與腫瘤的藥物療法、藥物作用下的細胞死亡、腫瘤細胞擴散和基因表達調節(jié)相關,主要包括Caspase 3、Caspase 7、Protein-Serine-Threonine Kinases、Aurora Kinases。

第2類主要與腫瘤的藥物療法、藥物抵抗及腫瘤的代謝、分期和預后相關,主要包括Indoleamine-Pyrrole 2,3,-Dioxygenase、Receptor、ErbB-2、Phosphatidylinositol 3-Kinases、TOR Serine-Threonine Kinases、Caspases。

第3類主要與腫瘤的病理過程、腫瘤的侵襲性及腫瘤細胞死亡研究相關,主要包括Protein Kinase C、Receptor、 Epidermal Growth Factor、Proteasome Endopeptidase Complex、p38 Mitogen-Activated Protein Kinases、Intracellular Signaling Peptides and Proteins。

第4類主要與腫瘤標志物、腫瘤細胞擴散、腫瘤侵襲和細胞運動的研究相關,主要包括Mitogen-Activated Protein Kinases、Estrogen Receptor alpha、Proto-Oncogene Proteins c-akt、NF-kappa B、Matrix Metalloproteinase 9、Matrix Metalloproteinase 2、Cadherins、Extracellular Signal-Regulated MAP Kinases。

第5類主要與腫瘤標志物、腫瘤分期和預后的研究相關,主要包括Superoxide Dismutase、Cyclooxygenase 2、Receptors、Estrogen。

3 類團演變分析

通過雙聚類算法對2009-2011年和2012-2014年乳腺癌相關酶研究相關文獻的探索分析,可以發(fā)現乳腺癌相關酶的研究在前后兩個時間段有細微的變化。計算不同時間段聚類結果形成的類團間的關聯強度(P值)(表3)。將各類以類團的形式展現,按時間順序排列并將明顯相關的類團以線連接,線的粗細代表關系緊密程度(圖3)。

表3 2009-2011年與2012-2014年各類團間的關聯強度

圖3 類團變遷

當P在[0.3,0.5]時認為兩個類團有演變關系。如圖3中,第一階段的2號類團與第二階段的5號類團,主要與腫瘤的標志物和腫瘤的擴散相關,但是5號類團關于src-Family Kinases的研究相對減少而Superoxide Dismutase的研究增多;第一階段的6號類團與第二階段的3號類團,主要與腫瘤細胞的凋亡和細胞侵襲相關,但是6號類團更側重藥物作用下的相關研究,而3號類團關于Proto-Oncogene Proteins c-bcl-2,Caspase 8及JNK Mitogen-Activated Protein Kinases的研究減少而Protein Kinase C的研究增多。 當P在[0.5,1]時認為兩個類團有持續(xù)發(fā)展的關系。如圖3中第一階段4類和第二階段的第4類都與腫瘤細胞間的信號轉導和細胞運動相關,表明相關研究一直是熱點。其中第一階段的3號和4號類團融合成了第二階段的4號類團后,說明研究更側重腫瘤細胞的侵襲運動;第一階段的1號類團(腫瘤遺傳學相關研究)和5號類團(藥物作用下的酶活性研究)在第二階段少有研究,第二階段的1號類團和2號類團較為新生,說明腫瘤的藥物療法研究受到關注。

4 結論

本文基于雙聚類方法,對PubMed數據庫中近期乳腺癌相關酶的研究分階段進行共詞雙聚類分析,并進行類團演化分析,得出乳腺癌相關酶研究的前沿熱點。其中關于癌細胞間的信號轉導、細胞運動的研究一直處于熱點地位,腫瘤遺傳學方面的研究則相對減少,腫瘤藥物療法的研究相對增多。關于酶的研究有些一直處于熱點,有些較為前沿。如Protein-Serine-Threonine Kinases(蛋白質-絲氨酸-蘇氨酸激酶)、Aurora Kinases(極光激酶)、Cyclooxygenase 2(環(huán)氧酶2)、Matrix Metalloproteinase 9(基質金屬蛋白酶9)、Matrix Metalloproteinase 2(基質金屬蛋白酶2)、Phosphatidylinositol 3-Kinases(磷脂酰肌醇3激酶)、Extracellular Signal-Regulated MAP Kinases(細胞外信號調節(jié)MAP激酶類)、Mitogen-Activated Protein Kinases(促分裂素原活化蛋白激酶)、TOR Serine-Threonine Kinases(TOR 絲氨酸-蘇氨酸激酶)、Caspases(半胱天冬酶)等的研究一直較為熱點,而且關于Superoxide Dismutase(超氧化物歧化酶)、Caspase 7(半胱天冬酶7)、Protein Kinase C(蛋白激酶C)的研究在第二階段較多,皆為有發(fā)展?jié)摿Φ那把亍?/p>

本文證實雙聚類的方法可以用于探測前沿熱點的研究,與傳統的共詞方法相比,能夠對類團的語義內容進行一定程度的標注,為科研工作者提供有益的指導。不過還發(fā)現一些問題:一是高頻次閾值的確定對結果有一定影響。低閾值不利于聚類,但利于一些隱含主題的出現;高閾值相反,聚類效果好,但會忽視隱含的知識。因此,閾值選擇還是一個有待深入研究的課題。二是共詞分析中使用的詞是人工閱讀后選取的主題詞,選取乳腺癌相關概念和乳腺癌相關酶時,受人為因素的干擾,可能對結果有影響;共詞分析選取的是MESH字段,沒有利用現有的語義網絡工具,不能從更深的粒度對文獻進行分析。今后應該結合醫(yī)學領域的本體,實現更深層次的語義標注。

猜你喜歡
共詞聚類乳腺癌
絕經了,是否就離乳腺癌越來越遠呢?
基于K-means聚類的車-地無線通信場強研究
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
基于突變檢測與共詞分析的深閱讀新興趨勢分析
別逗了,乳腺癌可不分男女老少!
基于Matlab的共詞矩陣構造
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
桃源县| 陇西县| 仪征市| 赤壁市| 阳新县| 浙江省| 玉树县| 沙坪坝区| 义乌市| 梧州市| 云林县| 宝清县| 古田县| 沅陵县| 南丹县| 康定县| 大姚县| 南部县| 安西县| 延安市| 宁夏| 巫山县| 江安县| 巩义市| 桦川县| 辽阳县| 鄯善县| 定边县| 新化县| 右玉县| 云龙县| 如东县| 深圳市| 吉木乃县| 潜山县| 东安县| 湟源县| 栾城县| 嘉定区| 昌吉市| 富顺县|