任化娟 趙義恒 朱秋平 溫彬彬 齊建奎
摘 要:馬田系統(tǒng)是一種多元系統(tǒng)定量模式識別方法,是數(shù)據(jù)分類的有效方法,在很多領(lǐng)域都得到廣泛應(yīng)用。構(gòu)建正常樣本數(shù)據(jù)的基準空間、篩選出有效的項目、確定閾值等是經(jīng)典馬田系統(tǒng)的重要步驟。文章改進馬田系統(tǒng)中篩選有效項目的方法,經(jīng)典馬田系統(tǒng)將正交表和信噪比結(jié)合起來篩選有效項目;基于FCM聚類算法的馬田系統(tǒng)嘗試用FCM聚類算法選擇有效項目,正交表的每一行作為一個實驗方案,對于每種方案,都利用FCM進行聚類,得到樣品分類的正確率。把正確率的信噪比作為篩選有效項目的指標,信噪比越大則選擇的有效項目越可信。得到有效的檢測項目之后,可以優(yōu)化馬田系統(tǒng)的基準空間,提高樣品分類的正確率。
關(guān)鍵詞:馬田系統(tǒng);有效項目;FCM聚類算法
篩選有效檢測項目是馬田系統(tǒng)中的一個重要任務(wù),本文把FCM聚類算法引入馬田系統(tǒng),通過FCM聚類算法更有效地篩選有效項目,優(yōu)化基準空間。
1 基于FCM聚類算法的馬田系統(tǒng)
經(jīng)典馬田系統(tǒng)是一種可以進行診斷、預(yù)測、評價,不需要前提假定的數(shù)據(jù)分析方法,它主要的任務(wù)是有效項目的選擇有與樣本類別識別。基于FCM聚類算法的馬田系統(tǒng)優(yōu)化了經(jīng)典馬田系統(tǒng)有效項目篩選的過程,本文將具體介紹FCM聚類算法、馬田系統(tǒng)以及基于FCM聚類算法的馬田系統(tǒng)。
1.1 FCM聚類算法
FCM聚類算法是一種基于劃分的聚類算法,是數(shù)據(jù)挖掘的重要方法,它把相似度大的對象劃分到同一個簇中,使得不同的簇之間的相似度是最小的。
首先,簡單地敘述FCM聚類算法中隸屬度函數(shù)的概念。隸屬度函數(shù)是用來表示一個對象隸屬于某個集合的程度大小的函數(shù),此函數(shù)的值域為“0”到“1”之間的實數(shù),“0”表示這個對象不屬于某個集合,相對應(yīng)地,“1”表示這個對象屬于某個集合,介于“0”到“1”之間數(shù)表示這個對象既可以屬于這個集合也可以不屬于這個集合,越接近“1”則屬于這個集合的可能性越大。與模糊隸屬度函數(shù)相適應(yīng),隸屬矩陣中的元素允許取值為0到1之間的元素,經(jīng)過歸一化,一個數(shù)據(jù)集的隸屬度的和總等于1,隸屬矩陣A可表示為:
dij為第i個聚類中心與第j個數(shù)據(jù)點間的歐幾里德距離(即兩點之間的真實的距離);m是一個加權(quán)指數(shù),取值范圍是1到正無窮。
若要使得目標函數(shù)的值最小,則隸屬矩陣中元素和聚類中心需要達到最小。
最后,F(xiàn)CM聚類算法確定聚類中心和隸屬矩陣的實現(xiàn)步驟是:
Step1:用0到1之間的值隨機數(shù)初始化隸屬矩陣A,使其滿足式(1)中的約束條件。
Step2:用式(3)計算第i個聚類中心ci,i=1,…,c。
Step3:計算價值函數(shù)。當它小于某個確定的閾值,或它相對上次價值函數(shù)值的改變量小于某個閾值,則算法停止。
Step4:用(2)計算新的矩陣。返回step2,進行FCM聚類算法開始迭代,直到目標函數(shù)達到最小值。
Step5:按照迭代結(jié)果,由最后的隸屬矩陣確定數(shù)據(jù)所屬的類,顯示最后的聚類結(jié)果。
1.2 馬田系統(tǒng)
馬田系統(tǒng)是一種多元系統(tǒng)定量模式識別方法,它把正交表、信噪比、馬氏距離相結(jié)合,對待測群體進行分類和檢測。
首先,簡單地敘述馬氏距離、正交表,信噪比和閾值的基本概念。馬氏距離是由印度統(tǒng)計學家提出,表示協(xié)方差距離,可以有效地計算未知樣本之間的相似度,逆矩陣法是最為常用的計算馬氏距離的方法。馬氏距離表示為:
其中L是正交表的代號,n是試驗的次數(shù)即正交表的行數(shù),c是有效項目的個數(shù)即正交表的列數(shù),正交表中的內(nèi)容是水平數(shù)t,t的取值是“1”或“2”,取值為“1”時表示選擇了該有效項目,取值為“2”是表示沒有選擇該有效項目。
信噪比(SNR)本意是指電子設(shè)備或者電子系統(tǒng)中信號與噪聲的比例。在馬田系統(tǒng)中把信噪比中的信號看為作正常樣本,把噪聲看作異常樣本。若要判斷一個不知道偏離程度的異常樣本時,SNR越大(即望大特性),則這個樣本為異常樣本的可能性越大。正交表中第n行望大特性信噪比(SNR)為:
公式(7)中m表示異常樣品的個數(shù);Md1,Md2,......Mdm表示異常樣本距離基準空間的馬氏距離,此時基準空間是由正交表中每一行水平t為“1”的有效項目構(gòu)成的基準空間。
閾值d0是系統(tǒng)中界限的值,本質(zhì)上由專業(yè)專家確定。馬氏距離小于閾值時可判斷為正常樣本。ROC曲線是反映敏感性和特異性連續(xù)變量的綜合指標,設(shè)置不同閾值,算出一系列敏感性和特異性,然后以敏感性為縱坐標,特異性為橫坐標繪制成曲線,曲線下面積越大,診斷準確性越高。由此,可以借助ROC曲線來確定閾值,選擇曲線下面積最大點為閾值點。
然后,馬田系統(tǒng)的實現(xiàn)步驟為:Step1:構(gòu)建基準空間,正??傮w的樣本數(shù)據(jù)的相關(guān)矩陣的逆矩陣是馬田系統(tǒng)基準空間。Step2:利用馬氏距離公式計算異常樣品距離基準空間的馬氏距離。Step3:利用公式(6)計算信噪比。Step4:篩選有效項目,構(gòu)建新的基準空間。Step5:計算待測樣品到新構(gòu)建的基準空間的馬氏距離,與閾值比較,小于等于閾值則為正常樣品,否則為異常樣品。
1.3 基于FCM聚類算法的馬田系統(tǒng)
基于FCM聚類算法的馬田系統(tǒng)主要改進了馬田系統(tǒng)篩選有效項目的方法。在篩選有效檢測項目的方法上,經(jīng)典馬田系統(tǒng)通過計算正交表中每一行的異常樣本馬氏距離的望大特性信噪比,篩選出使異常樣本的馬氏距離明顯異于正常樣本馬氏距離的有效項目;基于FCM聚類算法的馬田系統(tǒng)將FCM聚類算法引入馬田系統(tǒng),利用正交表的每一行來設(shè)計實驗方案,針對每一種實驗方案,都利用FCM算法對隨機選取的一組原始樣本進行聚類,從而得到每種實驗方案分類正確率。按照這樣的方式,隨機選取多組原始樣本,得到多組分類結(jié)果的正確率,計算出每種實驗方案下的望大特性信噪比,以該正確率的望大特性信噪比作為篩選特征變量的評價指標,進而得到有效的檢測項目,對馬田系統(tǒng)基準空間進行優(yōu)化。其他的步驟與經(jīng)典馬田系統(tǒng)類似。把FCM聚類算法融入馬田系統(tǒng)后的實現(xiàn)步驟是:Step1:構(gòu)建馬田系統(tǒng)基準空間。Step2:驗證基準空間有效性,若無效返回Step1,有效執(zhí)行Step3。Step3:有效檢測項目篩選,按照FCM聚類算法與正交表結(jié)合的方法進行篩選。Step4:預(yù)測樣本的分類,診斷系統(tǒng)的有效性。
2 結(jié)語
基于FCM聚類算法的馬田系統(tǒng)是將算法對正交表中數(shù)據(jù)集的分類正確率的望大特性信噪比作為篩選有效項目的評價指標,經(jīng)典馬田系統(tǒng)是將異常樣品馬氏距離的望大特性信噪比作為篩選有效項目的評價指標。從理論上看,基于FCM聚類算法的馬田系統(tǒng)在計算分類正確率的過程中能夠更全面地將樣本中的數(shù)據(jù)都參與到有效項目的篩選中,使得有效項目的篩選比經(jīng)典馬田系統(tǒng)的篩選更為有效。
[參考文獻]
[1]李昭陽,韓之俊.一種新的判別預(yù)測方法——馬田系統(tǒng)(MTS)[J].管理工程學報,2000(2):54-55.
[2]孫曉霞,劉曉霞.模糊C均值聚類算法的實現(xiàn)[J].計算機應(yīng)用與軟件,2008(3):49-50.
[3]牛俊磊,程龍生.采用優(yōu)化模型指標篩選的馬田系統(tǒng)綜合評價方法研究[J].數(shù)學的實踐與認識,2015(17):1-12.
Study on MTS Based on FCM Clustering Algorithm
Ren Huajuan, Zhao Yiheng, Zhu Qiuping, Wen Binbin, Qi Jiankui
(Henan Normal University, Xinxiang 453002, China)
Abstract: MTS is a kind of quantitative pattern recognition method for multiple systems,and it is an effective method of data classification. MTS has been widely used in many fields.It is an important step for the classic MTS to construct the reference space of the normal sample data, to screen out the effective items and to determine the threshold value.In this paper, we improve the method of screening effective project in MTS, and the classic MTS combines the orthogonal table and the signal to noise ratio to screening effective project;MTS based on FCM clustering algorithm attempts to use the FCM clustering algorithm to select the effective project.Orthogonal tables each line as an experimental program, for each program, using FCM for clustering to get the correct rate of classification of samples. The correct rate of the signal to noise ratio as the index of screening effective projects;The greater the signal to noise ratio, the more reliable the valid item is selected. After obtaining the effective project, it can optimize the reference space of MTS, and improve the accuracy of the classification of samples.
Key words: MTS; effective project; FCM clustering algorithm