鄒玉梅 范敬雅 張鵬程
摘 要:居民的購房意愿在整個宏觀層面上影響著整個社會結(jié)構(gòu)的變遷和轉(zhuǎn)型。文中基于500份居民購房意愿調(diào)查問卷,利用主成分分析法提取了主要特征,對主成分序列建立了支持向量機分類模型。五折交叉驗證結(jié)果表明:分類效果良好,對政府和房地產(chǎn)開發(fā)商進行客戶細分、制定營銷策略有一定的借鑒意義。
關(guān)鍵詞:購房意愿;主成分分析法;核函數(shù);五折交叉驗證;支持向量機分類
中圖分類號:TP 891 文獻標識碼:A 文章編號:1672-7312(2016)05-0544-03
0 引 言
支持向量機(Support Vector Machine,SVM)由Vapnik于1995年提出,是在VC維(Vapnik-Chervonenkis Dimension)理論和結(jié)構(gòu)風險最小原理的基礎(chǔ)上的一種學習機器[1],有著很強的模型泛化能力和推廣能力,在20年間被廣泛應(yīng)用到模式識別、醫(yī)療器械診斷等領(lǐng)域[2]。模型在處理分類和回歸問題上已相當成熟,通過由臺灣大學林智仁教授等開發(fā)設(shè)計的LIBSVM工具包,能更多地應(yīng)用到實際問題上。針對文中的數(shù)據(jù)而言,先采用主成分分析法提取主要信息,再進行分類處理,這有效地提高了運算精度、縮短了運算時間。
文中數(shù)據(jù)基于500份問卷調(diào)查,內(nèi)容包括受訪者的性別、年齡、婚姻、職業(yè)、常住人口數(shù)、家庭月收入和購房意愿,對數(shù)據(jù)進行賦值量化處理后進行分類研究。
1 主成分分析法提取特征
主成分分析法(Principal Component Analysis,PCA)是在1933年由Hotelling提出,它是一種通過降維的技術(shù)把多個變量化為少數(shù)主成分的統(tǒng)計分析方法。這些主成分能夠反映絕大部分的變量信息,通常表示為原始變量的線性組合[3]。對購房意愿的影響因子xi(i=1,2,…,6)進行標準化處理,計算主成分
Yi=xTUi,i=(1,2,…,6),Ui為特征向量。取累計貢獻率大于等于85%的少數(shù)主成分即可。變量設(shè)定見表1.
2 支持向量機分類
支持向量機(SVM)突破了線性判別模型的限制,很好地解決了小樣本、局部最優(yōu)點、非線性等復雜的實際問題,提高了模型的泛化能力。SVM主要針對在2類分類問題,如文中所研究的購房或者不購房,其目的是找到一個最優(yōu)分類面H將樣本空間中的訓練樣本分成2部分,使得SVM超平面的錯分率最小[5]。
分類超平面的最優(yōu)化問題可描述為如下的二次規(guī)劃問題
其中,ω為權(quán)重系數(shù);b為偏置量;C為懲罰系數(shù),它可以控制SVM泛化能力和錯分率之間的折中。C越大表示對錯誤的懲罰系數(shù)越高,越不能容忍誤差。但是,C取的過大的話,相應(yīng)的權(quán)重就小,系統(tǒng)的泛化能力變差,會出現(xiàn)“過學習”的現(xiàn)象。ξi為非負松弛變量。
轉(zhuǎn)化為拉格朗日對偶問題[6],求得最優(yōu)超平面的判別函數(shù)定義為
其中,αi為最優(yōu)超平面所對應(yīng)的系數(shù);K(xi,xj)為核函數(shù),其選擇是分類準確率的關(guān)鍵因素[5]。
具體建模步驟如下所示:
建立訓練樣本集T={(x1,y1),L,(xn,yn)},xi∈Rd,目標集yi∈{-1,1},i=1,2,L,n.在500個樣本庫里隨機抽取400例作為訓練樣本,100例為測試樣本。x為主成分提取后的樣本,y=-1代表不買房,y=1代表買房。
下面均采用五折交叉驗證的方法來判斷其結(jié)果的可靠性。即為了充分利用樣本集對算法效果進行測試,將樣本集隨機均分為5個包,每次將其中1個包作為測試集,剩下4個包作為訓練集進行訓練。
選擇最優(yōu)的核函數(shù)及其參數(shù)。文中以常用的線性核函數(shù)、多項式核函數(shù)、RBF核函數(shù)和Sigmoid函數(shù)進行訓練[7],在LIBSVM環(huán)境下,其他參數(shù)取默認值,分別得到C=1,10,100,300,500時的分類正確率Accuracy.輸出結(jié)果如圖1所示。
3 結(jié) 論
文中通過對樣本數(shù)據(jù)提取主成分,突出主要特征信息,形成了新的序列樣本。支持向量機是在結(jié)構(gòu)風險最小化原則的具體實現(xiàn),具有良好的推廣能力。針對文中數(shù)據(jù)運用RBF核函數(shù)來構(gòu)造學習能力和泛化性能都很強的向量機,再通過五折交叉驗證,分類效果良好,
錯分率僅為2%.模型結(jié)果表明,年齡在25到35歲之間,已婚,家庭月收入在15 000元以上,工作單位相對穩(wěn)定的人群更有購房意愿。
該模型具有泛化能力強、實現(xiàn)簡單、訓練速度快等優(yōu)點,可以正確且有效地進行二分類問題,具有較強的推廣能力[9]。但是針對復雜樣本的多分類問題,還需進一步研究。
參考文獻:
[1] Cortes CVapnik.V.support-vector networks[J].Machine Learning,1995,20(3):273-298.
[2] Peter Andras.The equivalence of support vector machine and neural networks[J].Neural Processing Letters,2002,65:97-104.
[3] 孫劉平,錢吳永.基于主成分分析法的綜合評價方法的改進[J].數(shù)學的實踐和認識,2009,39(18):16-18.
[4] 崔慶安.基于主成分分析與支持向量機的能源需求預測方法[J].統(tǒng)計與決策,2013,17:70-71.
[5] Camp bell.C·Kernel methods:a survey of current techniques[J].Neurocomputing,2002,48:63-72.
[6] Vapnik V N.統(tǒng)計學習理論[M].徐建華,張學工,譯.北京:電子工業(yè)出版社,2009.
[7] 梁禮明,鐘 鎮(zhèn),陳召陽.支持向量機核函數(shù)的研究和仿真[J].計算機工程和科學,2015,37(6):1 136-1 138.
[8] Doumpos M,Zopounidis C.Additive support vector machines for pattern classification[J].IEEE Trans on Systems,Man,and Cybennetics:Part B,2007,37(3):540-550.
[9] 顧亞祥,丁世飛.支持向量機研究進展[J].計算機科學,2011,38(2):14-16.