国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于支持向量機算法的數(shù)據(jù)分類驗證研究

2016-10-11 09:31:59解婷婷
四川文理學院學報 2016年5期
關鍵詞:線性方程組向量分類

王 琳,解婷婷

(成都理工大學管理科學學院,四川成都610059)

?

基于支持向量機算法的數(shù)據(jù)分類驗證研究

王琳,解婷婷

(成都理工大學管理科學學院,四川成都610059)

支持向量機是利用已知數(shù)據(jù)類別的樣本為訓練樣本,尋找同類數(shù)據(jù)的空間聚集特征,從而對測試樣本進行分類驗證,通過驗證可將分類錯誤的數(shù)據(jù)進行更正.以體檢數(shù)據(jù)為數(shù)據(jù)背景,首先通過利用因子分析將高維數(shù)據(jù)進行降維,由此將所有指標整合成幾個綜合性指標;為降低指標之間的衡量標準所引起的誤差,利用MATLAB軟件將數(shù)據(jù)進行歸一化處理,結合聚類分析將數(shù)據(jù)分類;最后利用最小二乘支持向量機分類算法進行分類驗證,從而計算出數(shù)據(jù)分類的準確率,并驗證了數(shù)據(jù)分類的準確性和合理性.

因子分析;聚類分析;最小二乘;支持向量機;空間聚集特征

數(shù)據(jù)分類是數(shù)據(jù)挖掘中最常用的方法,通常用于研究分析同一類數(shù)據(jù)的特征,以此挖掘更多潛在信息,因此數(shù)據(jù)分類在數(shù)據(jù)分析中占據(jù)非常重要的位置.數(shù)據(jù)分類方法主要有聚類分析、主成分與因子分析、方差分析以及關聯(lián)分析等.[1-3]利用這些簡單的數(shù)據(jù)分類方法得出來的數(shù)據(jù)結果大都會出現(xiàn)較多的異常點,這些異常點往往會在某種程度上反映了分類方法的準確度.因此針對數(shù)據(jù)分類的結果進行驗證具有不可忽視的意義.

支持向量機是一種基于分類邊界的分類方法,主要根據(jù)同類數(shù)據(jù)在空間中所呈現(xiàn)的聚集程度,建立分類超平面來劃分數(shù)據(jù).[4]支持向量機分類需要將數(shù)據(jù)分為訓練樣本和測試樣本,并分類未知類別數(shù)據(jù)的所屬類型.本文在此基礎上針對未知類別數(shù)據(jù)樣本,結合簡單的數(shù)據(jù)分類方法以及最小二乘支持向量機算法分析數(shù)據(jù)分類的可行性,并驗證數(shù)據(jù)分類結果的準確性和可靠性.

1 最小二乘支持向量機算法

支持向量機(Support Vector Machine)是一種基于分類邊界的方法.其原理是將低維空間中的點映射到高維空間中,使它們成為線性可分的.在高維空間中,它是一種線性劃分,而在原有的數(shù)據(jù)空間中是一種非線性劃分.在討論支持向量機的算法時,并不是討論如何定義低維到高維空間的映射算法,因為這種算法隱含在“核函數(shù)中”,因此支持向量機算法是從最優(yōu)化角度來考慮的.[5]傳統(tǒng)的支持向量機分類算法在解決大樣本數(shù)據(jù)分類時往往出現(xiàn)內(nèi)存隨樣本數(shù)呈平方增長,同時迭代誤差累積,算法的精度面臨挑戰(zhàn).由于最小二乘支持向量機(LSSVM)是在傳統(tǒng)SVM基礎上進行改進的,[6]可以有效避免SVM在分類過程中出現(xiàn)的錯誤,因此本文利用LSSVM分類算法進行數(shù)據(jù)樣本分類驗證.

LSSVM對數(shù)據(jù)的訓練過程遵循結構風險最小化原則,將經(jīng)驗風險的偏差升冪為二次,同時將原二次規(guī)劃問題中的不等式約束轉(zhuǎn)化為等式約束,由此將QP問題轉(zhuǎn)化為線性方程組問題,這樣既避免了損失函數(shù)產(chǎn)生的誤差,也大大降低了計算的復雜程度,提高了SVM算法的運算速度.

利用結構風險最小化原則有:

其中,‖w‖控制模型的復雜程度,c是正規(guī)化參數(shù),控制對超出誤差樣本的懲罰程度,Remp為ε不敏感損失函數(shù),通常損失函數(shù)的取法決定支持向量機的形式,最小二次支持向量機的優(yōu)化目標函數(shù)中取誤差ε的二次項,因此最小二乘支持向量機分類優(yōu)化問題轉(zhuǎn)化為:

利用拉格朗日法求解上述優(yōu)化為題:

其中,αi為拉格朗日乘子.

根據(jù)優(yōu)化條件可以得:

(2)

由(2)整理可得:

由此將(3)整理后轉(zhuǎn)化為矩陣形式,如下:

(4)

其中:

將(4)改寫成抽象矩陣的線性方程組如下:

(5)

根據(jù)線性方程組的基本解法,消去方程組中的w和ζ,則有:

Ew=ZTα

Eζ=c-1Eα

由此線性方程組(5)可化簡為:

(6)

將(6)改寫成矩陣形式如下:

(7)

根據(jù)Mercer條件有:

令K=ZZT,則

(8)

由此可以達到將二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組的問題,通過拉格朗日乘數(shù)法將最小二乘支持向量機訓練數(shù)據(jù)樣本的過程轉(zhuǎn)化為求解線性方程組問題,大大提高了訓練速度和訓練準確率.結合(7)和(8)可以得到最小二乘支持向量機最優(yōu)分類器:

2 數(shù)據(jù)預處理

由于體檢數(shù)據(jù)中包含22個數(shù)值類指標,因此非醫(yī)學人員很難發(fā)現(xiàn)這些指標中的異常.為了尋找22個指標變量中起支配作用的潛在的公共因子,本文采用因子分析的方法將22個指標進行降維分組處理,提取原始變量之間的公共因子,由此簡化多指標的復雜性.根據(jù)因子分析的基本原理,本文利用SPSS將體檢數(shù)據(jù)進行因子分析.根據(jù)上述數(shù)據(jù)準備,首先將數(shù)據(jù)進行KMO和Bartlett球形檢驗,用以判斷數(shù)據(jù)是否適合作因子分析,結果如表1.

表1 KMO 和 Bartlett 的檢驗

由表格1可以得到統(tǒng)計量KMO取值為0.622,根據(jù)以往研究經(jīng)驗當0.6

為將22個指標合理分類,利用SPSS可以知道前面7個因子的特征值都大于1,并且可以解釋所有變量的86.172%,由此可以知道應該將22個因子分為7類.根據(jù)各因子變量的相關性結合醫(yī)學定義可以將這7類公共因子分別命名為腎功能、肝功能、血脂、血糖血壓、血濃度、內(nèi)臟功能以及白蛋白;具體分類如表2.

表2 因子分類表

3 最小二乘支持向量機數(shù)據(jù)分類驗證實例

根據(jù)因子分析可以將22個因子變量分為7類公共因子,并且可以得到這7個公共因子的因子得分,為更好的研究體檢數(shù)據(jù),本文將這7個公共因子得分作為體檢者在這7個方面的得分權重.由于每個體檢者的健康狀況需要綜合這7類因素,因此本文利用K均值聚類分析將380個體檢者分為幾個不同的健康等級.根據(jù)醫(yī)學建議可將體檢者健康狀況分為3—5個層次,同時為避免指標之間單位而引起的誤差,本文首先利用MATLAB軟件對7個指標數(shù)據(jù)進行數(shù)據(jù)歸一化,再利用SPSS軟件將歸一化后的數(shù)據(jù)進行聚類分析,其方差分析結果如表3.

表3 歸一化數(shù)據(jù)方差分析

由表3可以準確定位歸一化后的7個指標變量在聚類數(shù)為3時,類間分布均有差異,表示7個變量對分類結果均起作用.根據(jù)聚類分析可以將380個體檢者分為3類,第一類132人,第二類122人,第三類126人.

為驗證高維數(shù)據(jù)分類的準確性和可靠性,本文在這三類數(shù)據(jù)中分別選卻90個樣本作為訓練樣本,將剩下的樣本作為測試樣本,結合最小二乘支持向量機算法通過MATLAB編程可以得到數(shù)據(jù)分類的準確性達到91.35%,因此本文針對高維數(shù)據(jù)分類方法較為合理.

4 總結

由于傳統(tǒng)的數(shù)據(jù)分類會出現(xiàn)較多的異常點,這些異常點在某種程度上反映了分類結果的可靠性,支持向量機是根據(jù)同類數(shù)據(jù)樣本在空間中所呈現(xiàn)的聚集特征來進行數(shù)據(jù)分類的,本文利用最小二乘法與支持向量機相結合,通過以誤差最小化為主要目標對測試樣本進行判斷和分類.同時本文將常見的因子分析和聚類分析相結合,將高維數(shù)據(jù)進行分類,并將分類結果進行用最小二乘支持向量機算法進行驗證和更正,由此可以進一步提高數(shù)據(jù)分類結果的可靠性.

[1] 黃賽男,曾松林.基于因子分析的中國金融風險研究[J].中南財經(jīng)政法大學研究生學報,2007(6):27-32.

[2] 童帆.因子分析模型在學生多元化評價中的應用[J].統(tǒng)計教育,2007(11):40-42.

[3] 于華.上市公司綜合評估的聚類與主成分分析[J].證券經(jīng)緯,2007(9):49-50.

[4] 沈傳河.金融問題中的支持向量機應用研究[D].西安:西安電子科技大學,2011:12-57.

[5] Vincenzo Tola, Fabrizio Lillo, Mauro Gallegati, Rosario N.Mantegna.Clusteranalysisforportfoliooptimization[J]. Journal of Economic Dynamics and Control, 2008(1):235-258.

[6] 劉京禮.魯棒最小二乘支持向量機研究與應用[D].合肥:中國科學技術大學,2010:50-84.

[7] 鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法一支持向量機[M].北京:科學出版社,2007:43.

[責任編輯范藻]

Data Classification Based on SVM Algorithm Validation Studies

WANG Lin,XIE Tingting

(Management Science School of Chengdu University of Technology, Chengdu Sichuan 610059, China)

Support vector machine (SVM) is the use of data whose category label has been known as training samples, which is characterized by finding spatial aggregation of similar data to verify the classification of the test sample to correct the classification error data. Based on the health examination data for background in this paper, we choose factor analysis to reduces its dimensionality and all the indicators can be integrated into a few comprehensive indexes. To reduce the error caused by indicators, using the MATLAB to normalize the data and combine with method of clustering analysis to divide it into different health category. Finally, this paper, by using the least squares support vector machine (SVM) classification algorithm to classify validation, so as to calculate the accuracy of data classification and verify the accuracy of data classification and rationality.

factor analysis; clustering analysis; least squares; support vector machine (SVM); spatial aggregation.

2016-05-10

王琳(1989—),女,四川仁壽人.碩士研究生,主要從事最優(yōu)化算法研究.

TP181

A

1674-5248(2016)05-0021-04

猜你喜歡
線性方程組向量分類
向量的分解
分類算一算
求解非線性方程組的Newton迭代與Newton-Kazcmarz迭代的吸引域
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
線性方程組解的判別
连州市| 兴隆县| 义乌市| 长岭县| 肥东县| 健康| 普宁市| 读书| 逊克县| 桑植县| 贺兰县| 阳信县| 贺州市| 麟游县| 房山区| 新晃| 奎屯市| 伊宁市| 镇巴县| 珠海市| 巨野县| 土默特左旗| 天气| 涟源市| 富裕县| 青海省| 大田县| 班戈县| 包头市| 仙居县| 台北市| 亳州市| 绥德县| 东光县| 漳浦县| 定南县| 大冶市| 金堂县| 玉门市| 永胜县| 丹巴县|