王閃
[摘 要] 支持向量機是借助于最優(yōu)化方法解決機器學習問題的新工具,它最初于20世紀90年代所提出,近年來在其理論研究和算法實現方面都取得了突破性進展,開始成為克服“維數災難”和“過學習”的有力手段。文章基于對支持向量機的理解,整理了在SAS軟件中支持向量機的不同應用的研究文獻,以期對信息管理方法研究提供參考。
[關鍵詞] SAS 支持向量機 核函數 信息管理 管理科學
中圖分類號:TP391.42 文獻標志碼:A
隨著科學技術的發(fā)展,人們的學習與生活方式發(fā)生了很大變化。如何將數以萬計的數據轉換為有價值的信息,正逐漸受到各個行業(yè)研究者的重視。那么怎樣從大量的數據中挖掘到有用的信息,則成為巨大的挑戰(zhàn)。在數據統(tǒng)計分析的方法中,支持向量機已經被應用到多個領域,支持向量機在解決高維及非線性模式問題中有著顯著的優(yōu)點,而SAS系統(tǒng)具有完備的數據處理、分析、呈現及開發(fā)功能,能夠進行市場調查、統(tǒng)計分析、預測和質量控制。
一、相關知識
(一)SAS系統(tǒng)簡介
SAS系統(tǒng)(Statistics Analysis System)是大型的集成化信息系統(tǒng),產生于1976年。發(fā)展至今,SAS的功能漸進完善并被大家所認同,使用領域遍及醫(yī)療、工業(yè)、運輸、教育科研等。SAS由多個功能模塊構成,最基本的模塊是BASE SAS模塊。SAS可以繪作統(tǒng)計圖,進行統(tǒng)計分析,提供各種統(tǒng)計函數,用戶也可以根據需求進行數據的處理和統(tǒng)計研究。
(二)支持向量機簡介
支持向量機(Support Vector Machine, SVM)是一種在最小化原則上建立起來的機器學習方法。它能夠在復雜性模型和學習能力之間找到最優(yōu)解,避免陷入局部最優(yōu)解的問題中,也能防止出現神經網絡算法的“過學習”狀況。支持向量機有一個主要的函數-核函數,它實現了將非線性轉換成線性的功能,所以它能夠有效地處理線性和非線性的回歸問題。目前,應用最多的有人臉識別、文本分類、計算機視覺及石油化工等領域。圖1為支持向量機的實施步驟。
二、實際案例中支持向量機與SAS的結合應用
支持向量機與SAS的結合使用是一種新的綜合方法,但可以參考的文獻較少,本節(jié)對已有的文獻進行簡單闡述,以期為之后的研究學習提供理論基礎。
(一)交通行業(yè)交通流預測——基于SARIMA和SVM模型的短時交通流預測
支持向量機將完備的學習能力和SAS的統(tǒng)計分析進行結合,對交通流進行了預測。交通流具有周期性和隨機性,選用了SARIMA模型進行建模,對構建模型過程中的模型識別、參數估計、診斷檢驗、模型優(yōu)化等步驟分別進行闡述,并使用SAS軟件編程實現了預測。
本研究一開始就對時間序列分析之前的兩種檢驗(平穩(wěn)性檢驗、隨機性檢驗)、序列非正態(tài)性及殘差異方差性進行了介紹,之后選用了SARIMA模型進行建模,對構建模型過程中的模型識別、參數估計、診斷檢驗、模型優(yōu)化等步驟分別進行了闡述,最后將支持向量機與SAS進行了結合使用,實現對短時交通流的預測分析[1]。
(二)工業(yè)工程領域——結合回歸分析與改進GASAR的風機噪聲預測
SAS有著強大的數據處理和分析能力,利用SAS可以計算出條件指數和方差膨脹因子,對樣本進行統(tǒng)計分析,可找到數據的異常點,提高預測的精度。之后與支持向量機回歸進行了結合使用,判斷共線性問題,保證了數據的精準性和有效性。本研究應用線性回歸(SAS)和遺傳算法(支持向量機回歸)相結合的方法對風機的噪聲進行了預測[2]。
此外,本研究針對傳統(tǒng)的GA-SAR模型進行改進,選用回歸分析,并且對樣本數據實現了降維處理,建立了預測分析模型。
(三)醫(yī)學研究領域——基于支持向量機模型預測結直腸癌根治術預后風險
本研究運用SAS對樣本進行統(tǒng)計分析,對數據進行了描述;使用卡方檢驗方法對數據的分化程度、類型、分期、是否化療/放療進行了差異性分析,把差異性因素做了回歸logistic處理。
支持向量機預測模型的基本原理是先對于多分類的問題設置訓練個數,且SVM要找到一個最優(yōu)的分類平面,將兩類樣本分成兩個平面。但一般情況下,數據有所重疊,這時需要運用支持向量機的核函數,核函數可以將樣本點映射到高維空間,實現數據的分離,最后得到兩個完全的分類平面[3]。
(四)用戶行為偏好——基于支持向量機的移動互聯網用戶行為偏好研究
本研究對數據進行了統(tǒng)計分析,采用離散選擇模型分析了變量之間的關系,對有顯著影響的用戶行為因素進行了解釋,之后運用支持向量機模型對用戶行為的偏好進行了分類處理,尋找出最優(yōu)的參數組合,對比不同核函數和參數分類的效用。
本研究運用SAS系統(tǒng)進行了預測分析,采用Fisher評分優(yōu)化法,得到一個二元模型,從而可以得到用戶行為的偏好。SAS系統(tǒng)還可以生成最大似然估計值分析表、優(yōu)比估計值表、預測概率和觀測響應的關聯表,得出相關的研究結論[4]。
(五)醫(yī)學統(tǒng)計研究應用——核主成分回歸方法在特征提取和預測方面的研究及其在醫(yī)學中的應用
本研究運用支持向量機的核函數進行了數據的主成分分析,對復雜的樣本數據進行了特征提取,并運用混沌時間序列對非線性數據進行了回歸分析,由線性擴展到了非線性。本研究使用SAS、MATLAB和LIBSVM等軟件分析了醫(yī)學案例,對比其他提取特征值的預測方法,最后將核函數的主成分分析方法應用至醫(yī)學研究中,為醫(yī)學的統(tǒng)計研究找到了新的研究思路[5]。
(六)圖像信號應用——統(tǒng)計方法在由心電圖判別疾病中的應用
本研究主要探討統(tǒng)計方法在心電圖疾病判別中的應用。首先對數據進行預處理,通過WFDB軟件檢測波QRS的邊界,使用SAS系 統(tǒng)軟件截取心拍數據進行相關特征的計算。分類方法涉及三類:支持向量機、馬氏距離判別分析及邏輯回歸。
在實際應用中,可以使用SAS系統(tǒng)進行數據的判別分析和方差檢測,從而根據檢測結果選擇廣義的距離公式。選用逐步判別方法的基本思想和理論方法,對有顯著識別能力的特征變量進行識別[6]。
(七)預警技術應用中——浙江省流感預警技術研究
本研究整理了流感的相關疾病信息和各類氣象信息,對兩者進行關聯分析,找到發(fā)生流感的關聯因素,使用多元線性回歸模型和支持向量機算法建立流感預警模型,之后通過歷史流感數據對新模型進行驗證分析。本研究采用Excel對數據進行了整理,采用SAS系統(tǒng)進行相關分析和多元線性分析,采用Matlab軟件進行支持向量機預測模型的建立[7]。
三、結語
SAS系統(tǒng)對初學者來說是一款容易上手的統(tǒng)計軟件,是國際上標準的統(tǒng)計分析軟件,編程代碼簡單,功能健全強大,堪稱統(tǒng)計分析、數據挖掘方面的巨無霸軟件。而支持向量機有很強的機器學習能力,能夠有效避免出現局部最優(yōu)解和過度學習的狀況。支持向量機與SAS系統(tǒng)的結合使用,可更高效地對數據進行統(tǒng)計分析,這兩種方法正逐漸被更多的研究者認可,可為今后在實際案例中的研究學習提供新的研究思路。
參考文獻:
[1]陸海亭.基于SAR IMA和SVM模型的短時交通流預測[D].南京:東南大學,2010.
[2]余金,何山,程靜,等.結合回歸分析與改進GA- SAR的風機噪聲預測[J].中國科技論文,2015(23):2805- 2809.
[3]杜成風,胡敏,何晶晶,等.基于支持向量機模型預測結直腸癌根治術預后風險[J].重慶醫(yī)科大學學報,2016(25):14- 15.
[4]董正浩.基于支持向量機的移動互聯網用戶行為偏好研究[D].北京:北京郵電大學,2014.
[5]李立科.核主成分回歸方法在特征提取和預測方面的研究及其在醫(yī)學中的應用[D].太原:山西醫(yī)科大學,2010.
[6]黃榮.統(tǒng)計方法在由心電圖判別疾病中的應用[D].上海:華東師范大學,2014.
[7]盧漢體.浙江省流感預警技術研究[D].杭州:浙江大學,2015.