張 明 黃發(fā)忠 辛化梅 冷 嚴(yán)
(山東師范大學(xué)物理與電子科學(xué)學(xué)院 濟(jì)南 250014)
基于模糊聚類的微弱蛋白點(diǎn)分割算法*
張 明 黃發(fā)忠 辛化梅 冷 嚴(yán)
(山東師范大學(xué)物理與電子科學(xué)學(xué)院 濟(jì)南 250014)
通過分析凝膠蛋白圖像的特點(diǎn),提出一種基于模糊核C均值聚類(KFCM)分割算法的改進(jìn)算法。首先使用引導(dǎo)濾波器對(duì)圖像進(jìn)行濾波并增強(qiáng)圖像對(duì)比度,然后通過KFCM算法對(duì)圖像聚類,最后采用最大隸屬原則去模糊化,實(shí)現(xiàn)最優(yōu)分割,在此過程中引入樣本方差來計(jì)算σ值。凝膠蛋白圖像分割實(shí)驗(yàn)表明,算法具有更好的自適應(yīng)性和分割精度。
凝膠圖像; 圖像分割; 模糊聚類
Class Number TP391
“蛋白質(zhì)組學(xué)”這一概念是20世紀(jì)90年代中期由澳大利亞科學(xué)家Wilkins和Williams首次提出[1],蛋白質(zhì)組為我們提供了更多關(guān)于活細(xì)胞的工作信息,在眾多疾病的機(jī)理闡明和攻克等方面做出了重大貢獻(xiàn)。雙向凝膠電泳技術(shù)廣泛的應(yīng)用在蛋白質(zhì)組學(xué)中,主要是根據(jù)蛋白質(zhì)等電點(diǎn)和分子量差異,將不同種類的蛋白質(zhì)進(jìn)行高分辨率分離[2~3]。隨后使用掃描設(shè)備對(duì)蛋白質(zhì)凝膠進(jìn)行掃描,得到數(shù)字化凝膠圖像。在圖像上蛋白質(zhì)呈現(xiàn)出形狀、大小和灰度各不相同的點(diǎn),其中每一個(gè)點(diǎn)代表了一個(gè)特定的蛋白質(zhì)。分割是圖像分析的重要步驟,凝膠圖像的研究需要從圖像中提取出蛋白點(diǎn)并分析蛋白質(zhì)的不同狀態(tài)[4]。
國(guó)內(nèi)外對(duì)于凝膠圖像蛋白點(diǎn)的分割有一定的研究。基于邊緣檢測(cè)的分割算法[5],通過檢測(cè)不同區(qū)域的邊緣來進(jìn)行分割,對(duì)于邊緣定位精度和邊界的確定有很好的分割效果,但易受到噪聲和圖像自身模糊程度的影響。畢于慧等[6]針對(duì)分水嶺算法過分割現(xiàn)象,提出了基于分水嶺拓?fù)涞孛睬实暮喜⒎椒?該方法對(duì)于凝膠電泳圖像更具針對(duì)性。張彥清等[7]提出的基于馬爾科夫隨機(jī)場(chǎng)的凝膠電泳圖像分割算法,提高了對(duì)微弱蛋白點(diǎn)的分割,在一定程度上實(shí)現(xiàn)了對(duì)重疊蛋白點(diǎn)的分割。Rashwan S et.al.[8]將FCM算法和模糊關(guān)系應(yīng)用于凝膠蛋白圖像上,并且能夠檢測(cè)出更多的蛋白點(diǎn)。由于FCM算法對(duì)線性不可分的樣本分離效果并不理想,文獻(xiàn)[9~10]通過非線性映射,將樣本從低維映射到高維特征空間,實(shí)現(xiàn)聚類。本文結(jié)合凝膠圖像中蛋白點(diǎn)的特性,提出了一種基于模糊核C均值聚類的改進(jìn)算法,并且給出了σ值確定方法。
2.1 模糊核C均值算法
模糊核C均值聚類算法[10~12]是將輸入空間數(shù)據(jù)通過非線性映射到高維空間中。假設(shè),輸入的圖像數(shù)據(jù)Xi,i=1,2,3,…,N在高維特征空間定義為Φ(Xj),j=1,2,…,M,其中Φ(·)是非線性映射函數(shù):Φ:RP→Rq,p< (1) (2) KFCM算法的具體步驟: 1) 初始化參數(shù),設(shè)置聚類數(shù)c,加權(quán)指數(shù)m(通常情況下m=2),迭代終止閾值ε,最大迭代次數(shù)T,迭代計(jì)數(shù)器l=0; 2) 初始化聚類中心v0; 3) 按照下式計(jì)算或更新隸屬度矩陣: (3) 4) 按照下式計(jì)算或更新聚類中心: (4) 2.2 基于KFCM算法凝膠蛋白圖像分割問題的實(shí)現(xiàn) 雙向凝膠電泳圖像中,蛋白點(diǎn)的邊界與背景對(duì)比度較低,分布呈現(xiàn)多樣性且分布不均,因此使用模糊核聚類算法對(duì)圖像進(jìn)行分割。核函數(shù)中的徑向?qū)挾圈叶x為衰減系數(shù),不同的參數(shù)值對(duì)圖像的分割結(jié)果有很大的影響,但是σ的選擇卻沒有明確的理論指導(dǎo)和固定的方法,通常情況下依賴于經(jīng)驗(yàn)和人工嘗試的辦法進(jìn)行選擇,具有很大的隨意性。 (5) 然后,使用蛋白點(diǎn)樣本方差來合理的確定σ值: (6) 凝膠蛋白圖像分割算法實(shí)現(xiàn)步驟: 1) 凝膠蛋白圖像的預(yù)處理:采用引導(dǎo)濾波器對(duì)圖像進(jìn)行濾波并對(duì)濾波后的圖像進(jìn)行增強(qiáng),增強(qiáng)圖像的對(duì)比度; 2) 初始化參數(shù):聚類數(shù)c=2,加權(quán)指數(shù)m=3,ε=0.0001; 3) 使用式(6)計(jì)算出核函數(shù)的徑向?qū)挾戎担?/p> 4) 使用模糊核C均值算法對(duì)凝膠蛋白圖像進(jìn)行聚類。 5) 根據(jù)最大隸屬度原則去模糊化,得到最終的分割結(jié)果。 本文主要使用模擬凝膠蛋白圖像和真實(shí)凝膠圖像進(jìn)行實(shí)驗(yàn)測(cè)試,并與傳統(tǒng)的FCM算法分割以及其他σ估計(jì)值分割算法進(jìn)行實(shí)驗(yàn)比較。 3.1 模擬凝膠蛋白圖像實(shí)驗(yàn)測(cè)試 首先在模擬凝膠圖像中加入均值為0,方差為0.02的高斯噪聲,在原始KFCM算法中σ的默認(rèn)值為150。在圖1模擬凝膠蛋白圖像分割結(jié)果對(duì)比圖中,(a)為表示加入噪聲后的模擬凝膠蛋白圖像,(b)為模糊C均值聚類(FCM)算法分割結(jié)果,(c)為原始KFCM算法分割結(jié)果,(d)為基于距離方差σ估計(jì)值并去噪后的算法分割結(jié)果,(e)為本文算法的分割結(jié)果。 圖1 模擬凝膠蛋白圖像分割結(jié)果對(duì)比圖 根據(jù)模擬凝膠蛋白圖像分割結(jié)果(b)~(e)來看,KFCM算法分割結(jié)果與距離方法分割結(jié)果分離出的模擬蛋白點(diǎn)的數(shù)量是一樣的,FCM算法分割出的蛋白點(diǎn)最少,本文算法比其他幾種算法分割出的點(diǎn)更多,并且對(duì)輕度重疊蛋白點(diǎn)也有較好的分離效果。 3.2 真實(shí)凝膠蛋白圖像的實(shí)驗(yàn)測(cè)試 圖2真實(shí)凝膠蛋白圖像分割結(jié)果對(duì)比圖中,對(duì)原始凝膠圖像(a)進(jìn)行預(yù)處理后的圖像為(b),(c)為FCM算法對(duì)真實(shí)凝膠圖像分割的結(jié)果,(d)為原始的KFCM算法對(duì)真實(shí)圖像的分割結(jié)果,(e)為基于距離方差σ估計(jì)值對(duì)真實(shí)圖像的分割結(jié)果,(f)為本文分割算法的實(shí)驗(yàn)結(jié)果。 對(duì)于真實(shí)的凝膠蛋白圖像來說,從上述圖像(c)~(f)的分割結(jié)果來看,本文算法與其他三種算法相比,能夠分離相對(duì)較弱的蛋白點(diǎn),因此分離出的蛋白點(diǎn)更多。但是對(duì)于一定具有重疊度的蛋白點(diǎn)不能很好的分割。 3.3 算法的分割結(jié)果評(píng)估 從圖像分析可以發(fā)現(xiàn),上述幾種算法無論是對(duì)模擬還是真實(shí)的凝膠蛋白圖像,在一定程度上都可以實(shí)現(xiàn)有效的分割,但是相比之下,本文的分割算法能夠分割出更多的微弱蛋白點(diǎn),提高了凝膠蛋白圖像的分割效果。 表1是對(duì)上述幾種算法分割結(jié)果的進(jìn)行客觀分析,主要通過分割精度、分割系數(shù)Vpc和分割熵Vpe[13]進(jìn)行對(duì)比研究。 1) 分割系數(shù)的數(shù)學(xué)表達(dá)式表示為 (7) 2) 分割熵的數(shù)學(xué)表達(dá)式表示為 (8) 表1分別是在模擬和真實(shí)凝膠圖像上對(duì)上述幾種算法分割結(jié)果的客觀分析比較,其中分割系數(shù)值越大,分割熵越小時(shí),聚類分割達(dá)到最佳的效果。但這并非具有絕對(duì)性,結(jié)合分割精度,從整體上來看,本文提出的算法分割出來的蛋白點(diǎn)更多,提高了算法的分割精度,具有較高的準(zhǔn)確性。 表1 上述幾種算法分割結(jié)果的客觀分析比較 本文結(jié)合凝膠蛋白圖像的特點(diǎn),提出了一種基于模糊核C均值聚類分割的改進(jìn)算法,首先使用引導(dǎo)濾波器對(duì)圖像進(jìn)行濾波并增強(qiáng)濾波后圖像的對(duì)比度,然后使用樣本方差設(shè)置σ值并結(jié)合隸屬度最大原則進(jìn)行聚類分割,最終實(shí)現(xiàn)凝膠蛋白點(diǎn)的最優(yōu)分割。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法提高了消除噪聲的能力,并且具有較高的分割精度,同時(shí)本文給出σ值確定的方法,避免了在不同凝膠蛋白圖像中通過大量實(shí)驗(yàn)進(jìn)行人為設(shè)定的麻煩,使得聚類具有自適應(yīng)性,易于實(shí)現(xiàn)。 [1] Wilkins M R, Pasquali C, Appel R D, et al. From Proteins to Proteomes: Large Scale Protein Identification by Two-Dimensional Electrophoresis and Arnino Acid Analysis[J]. Nature Biotechnology,1996,14(1):61-65. [2] G?rg A, Weiss W. Chapter 2-Protein Profile Comparisons of Microorganisms, Cells and Tissues using 2D Gels[J]. Proteome Analysis, 2004:19-73. [3] Wilkins M R, Sanchez J C, Gooley A A, et al. Progress with proteome projects: why all proteins expressed by a genome should be identified and how to do it[J]. Biotechnology and Genetic Engineering Reviews,1996,13(1):19-50. [4] Tsakanikas P, Manolakos I. Effective denoising of 2D gel proteomics images using contourlets[C]//2007 IEEE International Conference on Image Processing. IEEE,2007,6:VI-269-VI-272. [5] Basak J, Chanda B, Majumder D D. On edge and line linking with connectionist models[J]. IEEE transactions on systems, man, and cybernetics,1994,24(3):413-428. [6] 畢于慧, 崔賽華. 基于分水嶺算法的雙向凝膠電泳圖像分割[J].太原理工大學(xué)學(xué)報(bào),2005,36(2):164-166. BI Yuhui, CUI Saihua. 2D-gel Electrophoresis Image Segmentation Algorithm Based on Watershed[J]. Journal of Taiyuan University of Technology,2005,36(2):164-166. [7] 張彥清,侯偉,李玲,等.基于改進(jìn)MRF的凝膠圖像分割算法[J].科技創(chuàng)新與應(yīng)用,2014(7):1-2. ZHANG Yanqing, HOU Wei, LI Ling, et al. Gel image segmentation algorithm based on improved MRF[J]. Science and technology innovation and Application,2014(7):1-2. [8] RASHWAN S, FAHEEM T, SARHAN A, et al. A Relational Fuzzy C-Means Algorithm for Detecting Protein Spots in Two-Dimensional Gel Images[J]. Advances in experimental medicine and biology,2010,680:215-227. [9] Liao L, Lin T, Li B. MRI brain image segmentation and bias field correction based on fast spatially constrained kernel clustering approach[J]. Pattern Recognition Letters, 2008, 29(10):1580-1588. [10] Wu Z, Xie W, Yu J. Fuzzy c-means clustering algorithm based on kernel method[C]//Computational Intelligence and Multimedia Applications, 2003. ICCIMA 2003. Proceedings. Fifth International Conference on. IEEE, 2003: 49-54. [11] Girolami M. Mercer kernel-based clustering in feature space[J]. IEEE Transactions on Neural Networks, 2002, 13(3): 780-784. [12] 管洲洋.基于模糊C均值的醫(yī)學(xué)圖像分割改進(jìn)算法研究[D].西安:西安電子科技大學(xué),2014. GUAN Zhouyang. Research on improved algorithm of medical image segmentation based on fuzzy C-means[D].Xi’an: Xidian University,2014. [13] Bezdek J C. Mathematical models for systematics and taxonomy[C]//Proceedings of eigth international conference on numerical taxonomy, San Francisco. 1975: 143-166. Segmentation Algorithm of Weak Protein Spots Based on Fuzzy Clustering ZHANG Ming HUANG Fazhong XIN Huamei LENG Yan (School of Physics and Electronics, Shandong Normal University, Jinan 250014) An improved algorithm based on kernel fuzzy C-means clustering segmentation algorithm (KFCM) is proposed by analysis of the characteristics of protein gel image. First, the guide filter is used to enhance the image contrast. Then the KFCM algorithm is used for the image clustering. Finally, the maximum membership principle is applied for de-blurring and the optimal segmentation. In this process, the sample variance is introduced to calculate the value of sigma. Experiment results show that the algorithm has better adaptability and segmentation accuracy. gel image, image segmentation, fuzzy clustering 2016年9月7日, 2016年10月17日 國(guó)家自然科學(xué)基金(編號(hào):61401259);中國(guó)博士后科學(xué)基金(編號(hào):2015M582128)資助。 張明,女,碩士研究生,研究方向:信號(hào)與信息處理。黃發(fā)忠,男,碩士,副教授,研究方向:信號(hào)與信息處理。辛化梅,女,博士,副教授,研究方向:信號(hào)與信息處理。冷嚴(yán),女,博士,講師,研究方向:信號(hào)與信息處理。 TP391 10.3969/j.issn.1672-9722.2017.03.0233 凝膠蛋白圖像分割仿真及分析
4 結(jié)語