基于主成分分析的支持向量機對購房意愿的分類研究

2016-05-30 00:06鄒玉梅范敬雅張鵬程

技術(shù)與創(chuàng)新管理 2016年5期

鄒玉梅范敬雅張鵬程

摘要：居民的購房意愿在整個宏觀層面上影響著整個社會結(jié)構(gòu)的變遷和轉(zhuǎn)型。文中基于500份居民購房意愿調(diào)查問卷，利用主成分分析法提取了主要特征，對主成分序列建立了支持向量機分類模型。五折交叉驗證結(jié)果表明：分類效果良好，對政府和房地產(chǎn)開發(fā)商進行客戶細分、制定營銷策略有一定的借鑒意義。

關(guān)鍵詞：購房意愿；主成分分析法；核函數(shù)；五折交叉驗證；支持向量機分類

中圖分類號：TP 891 文獻標識碼：A 文章編號：1672-7312（2016）05-0544-03

0 引言

支持向量機（Support Vector Machine，SVM）由Vapnik于1995年提出，是在VC維（Vapnik-Chervonenkis Dimension）理論和結(jié)構(gòu)風險最小原理的基礎(chǔ)上的一種學習機器[1]，有著很強的模型泛化能力和推廣能力，在20年間被廣泛應(yīng)用到模式識別、醫(yī)療器械診斷等領(lǐng)域[2]。模型在處理分類和回歸問題上已相當成熟，通過由臺灣大學林智仁教授等開發(fā)設(shè)計的LIBSVM工具包，能更多地應(yīng)用到實際問題上。針對文中的數(shù)據(jù)而言，先采用主成分分析法提取主要信息，再進行分類處理，這有效地提高了運算精度、縮短了運算時間。

文中數(shù)據(jù)基于500份問卷調(diào)查，內(nèi)容包括受訪者的性別、年齡、婚姻、職業(yè)、常住人口數(shù)、家庭月收入和購房意愿，對數(shù)據(jù)進行賦值量化處理后進行分類研究。

1 主成分分析法提取特征

主成分分析法（Principal Component Analysis，PCA）是在1933年由Hotelling提出，它是一種通過降維的技術(shù)把多個變量化為少數(shù)主成分的統(tǒng)計分析方法。這些主成分能夠反映絕大部分的變量信息，通常表示為原始變量的線性組合[3]。對購房意愿的影響因子xi（i=1，2，…，6）進行標準化處理，計算主成分

Yi=xTUi，i=（1，2，…，6），Ui為特征向量。取累計貢獻率大于等于85%的少數(shù)主成分即可。變量設(shè)定見表1.

2 支持向量機分類

支持向量機（SVM）突破了線性判別模型的限制，很好地解決了小樣本、局部最優(yōu)點、非線性等復雜的實際問題，提高了模型的泛化能力。SVM主要針對在2類分類問題，如文中所研究的購房或者不購房，其目的是找到一個最優(yōu)分類面H將樣本空間中的訓練樣本分成2部分，使得SVM超平面的錯分率最小[5]。

分類超平面的最優(yōu)化問題可描述為如下的二次規(guī)劃問題

其中，ω為權(quán)重系數(shù)；b為偏置量；C為懲罰系數(shù)，它可以控制SVM泛化能力和錯分率之間的折中。C越大表示對錯誤的懲罰系數(shù)越高，越不能容忍誤差。但是，C取的過大的話，相應(yīng)的權(quán)重就小，系統(tǒng)的泛化能力變差，會出現(xiàn)“過學習”的現(xiàn)象。ξi為非負松弛變量。

轉(zhuǎn)化為拉格朗日對偶問題[6]，求得最優(yōu)超平面的判別函數(shù)定義為

其中，αi為最優(yōu)超平面所對應(yīng)的系數(shù)；K（xi，xj）為核函數(shù)，其選擇是分類準確率的關(guān)鍵因素[5]。

具體建模步驟如下所示：

建立訓練樣本集T={（x1，y1），L，（xn，yn）}，xi∈Rd，目標集yi∈{-1，1}，i=1，2，L，n.在500個樣本庫里隨機抽取400例作為訓練樣本，100例為測試樣本。x為主成分提取后的樣本，y=-1代表不買房，y=1代表買房。

下面均采用五折交叉驗證的方法來判斷其結(jié)果的可靠性。即為了充分利用樣本集對算法效果進行測試，將樣本集隨機均分為5個包，每次將其中1個包作為測試集，剩下4個包作為訓練集進行訓練。

選擇最優(yōu)的核函數(shù)及其參數(shù)。文中以常用的線性核函數(shù)、多項式核函數(shù)、RBF核函數(shù)和Sigmoid函數(shù)進行訓練[7]，在LIBSVM環(huán)境下，其他參數(shù)取默認值，分別得到C=1，10，100，300，500時的分類正確率Accuracy.輸出結(jié)果如圖1所示。

3 結(jié) 論

文中通過對樣本數(shù)據(jù)提取主成分，突出主要特征信息，形成了新的序列樣本。支持向量機是在結(jié)構(gòu)風險最小化原則的具體實現(xiàn)，具有良好的推廣能力。針對文中數(shù)據(jù)運用RBF核函數(shù)來構(gòu)造學習能力和泛化性能都很強的向量機，再通過五折交叉驗證，分類效果良好，

錯分率僅為2%.模型結(jié)果表明，年齡在25到35歲之間，已婚，家庭月收入在15 000元以上，工作單位相對穩(wěn)定的人群更有購房意愿。

該模型具有泛化能力強、實現(xiàn)簡單、訓練速度快等優(yōu)點，可以正確且有效地進行二分類問題，具有較強的推廣能力[9]。但是針對復雜樣本的多分類問題，還需進一步研究。

參考文獻：

[1] Cortes CVapnik.V.support-vector networks[J].Machine Learning，1995，20（3）：273-298.

[2] Peter Andras.The equivalence of support vector machine and neural networks[J].Neural Processing Letters，2002，65：97-104.

[3] 孫劉平，錢吳永.基于主成分分析法的綜合評價方法的改進[J].數(shù)學的實踐和認識，2009，39（18）：16-18.

[4] 崔慶安.基于主成分分析與支持向量機的能源需求預測方法[J].統(tǒng)計與決策，2013，17：70-71.

[5] Camp bell.C·Kernel methods：a survey of current techniques[J].Neurocomputing，2002，48：63-72.

[6] Vapnik V N.統(tǒng)計學習理論[M].徐建華，張學工，譯.北京：電子工業(yè)出版社，2009.

[7] 梁禮明，鐘鎮(zhèn)，陳召陽.支持向量機核函數(shù)的研究和仿真[J].計算機工程和科學，2015，37（6）：1 136-1 138.

[8] Doumpos M，Zopounidis C.Additive support vector machines for pattern classification[J].IEEE Trans on Systems，Man，and Cybennetics：Part B，2007，37（3）：540-550.

[9] 顧亞祥，丁世飛.支持向量機研究進展[J].計算機科學，2011，38（2）：14-16.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于主成分分析的支持向量機對購房意愿的分類研究