空軍工程大學(xué) 導(dǎo)彈學(xué)院,陜西 三原 713800
空軍工程大學(xué) 導(dǎo)彈學(xué)院,陜西 三原 713800
數(shù)據(jù)信息融合是當(dāng)前信息處理領(lǐng)域的必然手段,怎樣從不確定的信息中提取準(zhǔn)確的信息是融合決策的關(guān)鍵。DS證據(jù)理論具有很強(qiáng)的處理不確定信息的能力。近年來成為信息融合的重要手段。然而,如何構(gòu)造DS證據(jù)理論中的基本概率賦值函數(shù)(BPA),是融合中必須解決的一個重要課題,也是不易確定的問題。
許多研究者都嘗試?yán)脤W(xué)習(xí)算法來獲得BPA。如王毛路等利用神經(jīng)網(wǎng)絡(luò)方法通過對樣本的學(xué)習(xí),把各類條件概率作為待融合的證據(jù)[1-2],Lingmei Ai等針對醫(yī)學(xué)診斷中三種不同顫動病理的分類問題,通過人工神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果來構(gòu)造BPA[3]??紤]到神經(jīng)網(wǎng)絡(luò)在測試樣本與訓(xùn)練樣本的相差加大的情況下,可能導(dǎo)致結(jié)果完全錯誤。周皓等將支持向量機(jī)與證據(jù)理論在信息融合中結(jié)合,利用SVM的學(xué)習(xí)功能通過Platt的概率模型來確定BPA[4]。同時,結(jié)合SVM與DS證據(jù)理論的方法也在實際中得到廣泛應(yīng)用。張金澤等將SVM與證據(jù)理論集成方法應(yīng)用于故障診斷檢測[5];姜萬錄等利用“一對一”多類SVM分配了BPA,引入基于矩陣分析的融合算法,解決了證據(jù)理論存在的計算瓶頸問題[6]。
而在實踐中,各分類器對不同類別目標(biāo)的識別能力通常是不同的,因此,應(yīng)估計到分類器對各個目標(biāo)類別的識別可靠性。所以本文采用混淆矩陣來估計分類器局部識別可信度,提出了一種結(jié)合SVM與DS證據(jù)理論的決策融合方法:根據(jù)基分類器對輸入數(shù)據(jù)分類的實際分類情況,包括分類標(biāo)簽、后驗概率和混淆矩陣等信息來構(gòu)造基本概率賦值函數(shù),實現(xiàn)了SVM與DS證據(jù)理論的有效結(jié)合;同時給出了一種結(jié)合SVM與DS證據(jù)理論的多傳感器信息融合模型。
證據(jù)理論由Dempster提出,后由Shafer進(jìn)行了完善,故又稱Dempster-Shafer理論,簡稱DS理論[7]。
在證據(jù)理論中,一個樣本空間稱為一個辨識框架,常用Θ表示,它是關(guān)于命題的彼此獨立的可能答案或假設(shè)的一個有限集合,Θ是完備的且其中的元素互不相容。Θ的冪集記為2Θ。證據(jù)理論的基本問題就是在已知辨識框架Θ的條件下判明Θ中的一個先驗的未定元素屬于Θ中某一個子集的程度。
定義1設(shè)Θ為辨識框架,Θ的冪集構(gòu)成了命題集合,如果集函數(shù)m:2Θ→[ ] 0,1 滿足:
定義1包含兩重含義,條件(1)表明對于空集(空命題)不產(chǎn)生任何信度,條件(2)反映了雖然決策者可以給一個命題賦于任意大小的信度值,但是要求決策者賦給所有命題的信度之和等于1,即總信度為l。
A >0,則稱A為焦點元素,簡稱焦元。
Bel(A)表示對A的總信任度。由定義可知,Bel(Φ )=0,Bel()=1。
定義3設(shè)Θ為辨識框架,集函數(shù)m:2Θ→[ ] 0,1為上的BPA,當(dāng)其滿足:
則稱函數(shù)Pls:2Θ→[0,1]為似然函數(shù)(或似真函數(shù))[3]。Pls(A)表示不否定A的程度,包含了所有與A相容的那些集合的基本可信度。
似真函數(shù)與信度函數(shù)有如下關(guān)系:
似真函數(shù)Pls(A)可以解釋為主體在給定證據(jù)下A的最大可能信任程度,Pls是一種比Bel更寬松的估計,對于任意的 A,顯然有 Pls(A)≥Bel(A)。區(qū)間[B el(A),Pls(A )]表示對命題A的不確定性區(qū)間,也稱為A的信任區(qū)間。信度函數(shù)Bel(A)和似真函數(shù)Pls(A)分別又稱為A的下限概率和上限概率,因此信任區(qū)間也就是A的概率變化范圍。
需要指出的是,基本可信度m(A)、信度函數(shù)Bel(A)和似真函數(shù)Pls(A)都是彼此唯一確定的,它們是同一證據(jù)的不同表示。
SVM是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小化原理基礎(chǔ)上的學(xué)習(xí)機(jī)。標(biāo)準(zhǔn)SVM輸出的是測試樣本的類別標(biāo)簽,這就意味著在進(jìn)行多個SVM基分類器信息融合時主要采用投票法。而基于數(shù)據(jù)的信息融合需要給出SVM的后驗概率輸出,融合前需要先把SVM輸出映射為后驗概率輸出,即軟輸出。
模式識別領(lǐng)域中的混淆矩陣描繪了樣本數(shù)據(jù)的真實類別屬性與識別結(jié)果類型之間的關(guān)系,是評價分類器性能的一種常用方法。本文將混淆矩陣提供的識別率作為衡量各分類器識別能力的先驗信息,對分類器的局部可信度進(jìn)行描述,在構(gòu)造分類器的BPA時進(jìn)行加權(quán)融合。
基于以上分析,本文結(jié)合SVM與DS證據(jù)理論進(jìn)行融合決策的基本思想為:首先根據(jù)SVM的硬判決輸出得到其對應(yīng)的軟輸出;其次利用混淆矩陣得到分類器針對不同目標(biāo)類別的局部識別可信度估計(簡稱局部可信度);最后根據(jù)SVM的軟輸出和分類器識別可信度估計進(jìn)行基本可信度分配,而后進(jìn)行DS融合,完成決策融合。
3.1 SVM的后驗概率輸出
對于兩類SVM的后驗概率輸出,目前普遍接受并采用的方法是Platt提出的以Sigmod函數(shù)作為連接函數(shù)把SVM的輸出 f(x)映射到[0,1]的模型[8]:
其中,f為標(biāo)準(zhǔn)的SVM輸出結(jié)果,P(y =1|f)表示在輸出值 f的條件下分類正確的概率,A和B是參數(shù)值,可通過求解參數(shù)集的最小負(fù)對數(shù)似然值來求得:
其中Pi表示 p(yi=1|xi)。
N+是 yi=1的樣本數(shù)量,N-是 yi=-1的樣本數(shù)量。
對于多類分類問題,可以結(jié)合ECOC編碼等方法[9-10]獲得SVM分類的后驗概率輸出。
3.2 基于混淆矩陣的可信度估計
假設(shè)有一個k類模式的分類任務(wù),待識別數(shù)據(jù)集X中共有 N個樣本,每類模式中分別含有 Ni個樣本(i=1,2,…,k)。對數(shù)據(jù)集X進(jìn)行分類后的混淆矩陣C可以表示為:
其中cij表示ωi類模式被分類器判斷成ωj類模式的數(shù)據(jù)占第ωi類模式樣本總數(shù)的百分比?;煜仃囍性氐男邢聵?biāo)對應(yīng)目標(biāo)的真實屬性,列下標(biāo)對應(yīng)分類器產(chǎn)生的識別屬性。對角線元素表示各模式能夠被分類器正確識別的百分比,而非對角線元素則表示發(fā)生錯誤判斷的百分比。
通過混淆矩陣,可以獲得分類器的正確識別率和錯誤識別率:
各模式正確識別率:
平均正確識別率:
混淆矩陣行向量ci(i=1,2,…,k)代表了模式ωi的對象在進(jìn)行分類時對各模式的傾向性[11]。針對當(dāng)前識別問題,從輸出推斷輸入,則由混淆矩陣可知,當(dāng)分類器L輸出類別ωj時,當(dāng)前樣本x的真實類別是ωi的概率[12]為:
將 PCl(ωi|ωj)記作 PCl(ωi)。則 PCl(ωi)可以看作當(dāng)前目標(biāo) x屬于ωi類的一種支持度,即對分類器局部可信度的一種度量。
由此,將PCl(ωi)定義為分類器關(guān)于類別i的局部可信度,當(dāng)分類器對待識別樣本x輸出一個真實類別的判決結(jié)果ωi時,這個判決結(jié)果的可靠性因子就是PCl(ωi)。在這一思想的指導(dǎo)下,由分類器輸出當(dāng)前樣本x的后驗概率就能夠根據(jù)不同類別上的可靠程度進(jìn)行處理。具體來說,當(dāng)分類器 Lj對待識別目標(biāo)給出SVM硬判決 f(x)時,將該f(x)通過后驗概率公式轉(zhuǎn)化稱后驗概率輸出;將根據(jù)混淆矩陣獲得的該分類器i個類別的局部可信度加權(quán)融合到后驗概率輸出中去。這一過程可以用數(shù)學(xué)形式表示如下:
其中,mj(ωi)為分類器 Lj給出的 x屬于ωi類的基本概率賦值,Pi為SVM輸出的屬于ωi類的后驗概率,PC(ωi)為由混淆矩陣提供的局部可信度信息。
對每個分類器Lj經(jīng)式(9)加權(quán)融合后的得到的BPA可由Dempster組合規(guī)則進(jìn)行融合并得到最終的融合識別結(jié)果。
3.3 結(jié)合SVM與DS證據(jù)理論的多傳感器信息融合模型
本節(jié)將SVM與DS證據(jù)理論用于信息融合。假設(shè)該系統(tǒng)中有Lj個傳感器。首先,各局部傳感器根據(jù)各自獲得的信息分別進(jìn)行預(yù)處理,對分類器 j進(jìn)行SVM訓(xùn)練確定各SVM的參數(shù),應(yīng)用時,對于傳感器Lj的觀測經(jīng)SVMj得到Pj和 PCj(ωi),再利用式(9)得到各自的BPAj,從而進(jìn)行DS融合,最后給出決策融合結(jié)果。
3.4 算法復(fù)雜度分析
本節(jié)對前文提出的信息融合算法進(jìn)行復(fù)雜度分析。首先,假設(shè)支持向量機(jī)的學(xué)習(xí)算法的計算復(fù)雜度為O(la),其中,a對于不同的算法一般取為1<a<3[13]。本文算法在規(guī)模為l的樣本集上訓(xùn)練 p個基分類器,因此,它的計算復(fù)雜度大約為 p·O(la)??梢?,本文提出的學(xué)習(xí)融合分類算法并未增加傳統(tǒng)SVM的計算復(fù)雜度,著力關(guān)心解決SVM與DS的融合問題,以求獲得更好的融合分類決策。
圖1 結(jié)合SVM與DS證據(jù)理論的多傳感器信息融合模型圖
4.1 實驗數(shù)據(jù)
實驗所用的第一類數(shù)據(jù)為人工數(shù)據(jù):產(chǎn)生500個以(0,0)、(2,2)為中心點,1、2為方差的兩類二維正態(tài)數(shù)據(jù),分別加以0均值高斯噪聲生成正類和負(fù)類數(shù)據(jù),如圖2所示。從圖中可以看出,該數(shù)據(jù)集的可分性較好。
圖2 正負(fù)類數(shù)據(jù)分布圖
實驗所用的第二類數(shù)據(jù)來自UCI標(biāo)準(zhǔn)數(shù)據(jù)集如表1。
表1 實驗數(shù)據(jù)特征
4.2 實驗設(shè)計
為了驗證本文方法的有效性。實驗將模擬對來自5個傳感器的目標(biāo)數(shù)據(jù)分類。在本文信息融合過程中,采用5個基SVM分類器 Li(i=1,2,…,5),均采用高斯核函數(shù):σ2=1,C=10??紤]到實際中各傳感器性能的不同,對測試數(shù)據(jù)分別加以不同的噪聲,均值均為0,方差分別為1,1.2,1.5,1.8,2。利用本文方法對基SVM分類器的輸出進(jìn)行DS融合,將其結(jié)果與獨立的SVM分類結(jié)果進(jìn)行比較,兩個獨立的SVM的高斯核參數(shù)分別為 σ2=10,C=50和σ2=5,C=10。
在估計分類錯誤率時采用十重交叉驗證來進(jìn)行,并利用雙邊估計t檢驗法來計算置信水平為0.95的分類錯誤率置信區(qū)間作為最終結(jié)果,計算公式如下:
μ,σ分別表示十重交叉驗證的均值和標(biāo)準(zhǔn)差,t0.025(9)= 2.262 2。實驗中所用基分類器均來自PRToo(lhttp://www. prtools.org)工具箱,實驗機(jī)器配置為1 GB內(nèi)存,2.30 GHz CPU,算法基于Matlab7.0(R2010a)實現(xiàn)。
4.3 實驗結(jié)果和分析
4.3.1 人工數(shù)據(jù)集
(1)實驗得到5個基分類器的后驗概率參數(shù)A、B如表2。
表2 5個基分類器后驗概率參數(shù)
(2)5個基分類器得到的正負(fù)類模式的混淆矩陣:
(3)本文方法與獨立分類器分類誤差(均值±方差)(%)比較如表3。
表3 分類誤差比較 (%)
4.3.2 UCI數(shù)據(jù)集
表4為基于UCI數(shù)據(jù)集,本文方法與不同獨立分類器分類結(jié)果比較。
表4 分類誤差比較(均值±方差)(%)
表5為不同數(shù)據(jù)集在十折交叉訓(xùn)練之后的時間復(fù)雜度。
表5 時間復(fù)雜度 ms
通過實驗可以得出以下結(jié)論:
(1)使用本文方法進(jìn)行融合分類的分類性能優(yōu)于使用單個分類器的分類器性能,證明了信息融合的優(yōu)勢。本文提出的信息融合方法綜合考慮和利用了SVM的所有輸出信息,將跟識別問題有關(guān)的信息都進(jìn)行了融合,所以其分類精度大于獨立分類器。
(2)本文提出的方法簡單、實用、有效。提供傳感器局部信息的混淆矩陣和后驗概率很容易從分類結(jié)果中得到,對實際數(shù)據(jù)的適用性很強(qiáng),其信息融合達(dá)到了預(yù)期的結(jié)果。且在小樣本情況下,時間復(fù)雜度不是很高。
(3)因為測試樣本的確定性,精度提高不是很明顯,混淆矩陣提供的分類器局部可信度信息并未發(fā)揮很大的作用。考慮到實際情況的復(fù)雜性和信息的不確定性,這種結(jié)合后驗概率和混淆矩陣的DS信息融合將更加真實和準(zhǔn)確。
本文提出了一種結(jié)合SVM與DS證據(jù)理論的信息融合改進(jìn)方法。該方法根據(jù)SVM分類的實際結(jié)果,從中獲取分類標(biāo)簽、后驗概率和混淆矩陣等信息來構(gòu)造待融合的證據(jù)。根據(jù)數(shù)據(jù)集本身特點及分類器性能構(gòu)造BPA使獲得的基本概率賦值函數(shù)更加可靠和符合實際,從而很好地解決了證據(jù)理論應(yīng)用中的主要問題。從實驗結(jié)果可以看出結(jié)合兩種方法的信息融合的分類器的識別誤差降低,達(dá)到了信息融合的目的。如何在提高融合分類正確率的前提下優(yōu)化SVM與DS證據(jù)理論結(jié)合的算法復(fù)雜性是下一步的研究方向。
[1]王毛路,李少洪,毛士藝.證據(jù)理論和神經(jīng)網(wǎng)絡(luò)結(jié)合的目標(biāo)識別方法[J].北京航空航天大學(xué)學(xué)報,2002,28(5):536-539.
[2]楊露菁,郝威.多傳感器目標(biāo)識別的神經(jīng)網(wǎng)絡(luò)與證據(jù)理論結(jié)合方法[J].探測與控制學(xué)報,2006,28(1):40-43.
[3]Ai Lingmei,Wang Jue,Wang Xuelian.Multi-features fusion diagnosis of tremor based on artificial neural network and D-S evidence theory[J].Signal Processing,2008,88:2927-2935.
[4]周皓,李少洪.支持向量機(jī)與證據(jù)理論在信息融合中的結(jié)合[J].傳感技術(shù)學(xué)報,2008,21(9):1566-1570.
[5]張金澤,單甘霖.SVM與證據(jù)理論集成的信息融合故障診斷技術(shù)研究[J].電光與控制,2007,14(4):187-190.
[6]姜萬錄,吳勝強(qiáng).基于SVM和證據(jù)理論的多數(shù)據(jù)融合故障診斷方法[J].儀器儀表學(xué)報,2010,31(8):1738-1743.
[7]Shafer G A.Mathematical theory of evidence[M].Princeton:Princeton University Press,1976.
[8]PlattJ.Probabilistic outputs forsupportvectormachines and comparison to regularized likelihood method[M]//Advance in large margin classifier.[S.l.]:MIT Press,2000:61-74.
[9]Zhou Jindeng,Wang Xiaodan,Song Heng.Research on the unbiased probability estimation oferror-correcting output coding[J].Pattern Recognition,2011,44:1552-1565.
[10]Wu T F,Lin C J,Weng R C.Probability estimates for multi-class classification by pair wise coupling[J].Journal of Machine Learning Research,2004,5:975-1005.
[11]張靜.基于混淆矩陣和Fisher準(zhǔn)則構(gòu)造層次化分類器[J].軟件學(xué)報,2005,16(9):1560-1567.
[12]賈宇平.基于信任函數(shù)理論的融合目標(biāo)識別研究[D].長沙:國防科學(xué)技術(shù)大學(xué)研究生院,2009.
[13]王磊.支持向量機(jī)學(xué)習(xí)算法的若干問題研究[D].成都:電子科技大學(xué),2007.
結(jié)合SVM與DS證據(jù)理論的信息融合分類方法
雷 蕾,王曉丹
LEI Lei,WANG Xiaodan
Missile Institute,Air Force Engineering University,Sanyuan,Shaanxi 713800,China
Based on the difficulty of obtaining the Basic Probability Assignment(BPA)of DS evidence theory in the practical application,an improved method of information fusion combing SVM and DS evidence theory is proposed.It uses the specific classification situation based on SVM and classifiers’reliabilities from confusion matrix to construct the basic probability assignment,which achieves the combination of SVM and the evidence theory in the information fusion.The method also presents a multi-sensor information fusion model.In the process of decision and fusion,it takes the sensors’local reliabilities into consideration and regards them as weights to integrate into BPA.The time complexity is also analyzed.The simulation results based on UCI data set and synthetic data set show that the fusion error rate can be decreased through the method proposed in this paper and the fusion reliabilities are increased.
information fusion;Support Vector Machine(SVM);evidence theory;confusion matrix
針對多傳感器數(shù)據(jù)融合分類中,DS證據(jù)理論基本概率賦值難以解決的問題,提出了一種結(jié)合SVM與DS證據(jù)理論的信息融合改進(jìn)方法。根據(jù)SVM對輸入數(shù)據(jù)分類的實際情況和基于混淆矩陣得到的分類器局部識別可信度來構(gòu)造基本概率賦值函數(shù),實現(xiàn)了兩者的有效結(jié)合,建立了SVM與DS證據(jù)相結(jié)合的多傳感器信息融合模型。在決策融合過程中,重視和考慮了分類器局部識別可信度信息,并對算法進(jìn)行了復(fù)雜度分析?;赨CI數(shù)據(jù)集和人工數(shù)據(jù)集的仿真結(jié)果表明該方法能夠有效地降低融合識別的誤差率,提高識別的可信度。
信息融合;支持向量機(jī);證據(jù)理論;混淆矩陣
A
TP391
10.3778/j.issn.1002-8331.1110-0377
LEI Lei,WANG Xiaodan.Approach of information fusion and classification by SVM and DS evidence theory.Computer Engineering and Applications,2013,49(11):114-117.
國家自然科學(xué)基金(No.60975026)。
雷蕾(1988—),女,碩士研究生,從事模式識別和智能信息處理等研究;王曉丹(1966—),女,教授,博士生導(dǎo)師,從事智能信息處理和機(jī)器學(xué)習(xí)等研究。
2011-10-19
2011-12-07
1002-8331(2013)11-0114-04
CNKI出版日期:2012-03-21 http://www.cnki.net/kcms/detail/11.2127.TP.20120321.1734.019.html