国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主成分分析的支持向量機對購房意愿的分類研究

2016-05-30 00:06鄒玉梅范敬雅張鵬程
技術(shù)與創(chuàng)新管理 2016年5期
關(guān)鍵詞:主成分分析法

鄒玉梅 范敬雅 張鵬程

摘 要:居民的購房意愿在整個宏觀層面上影響著整個社會結(jié)構(gòu)的變遷和轉(zhuǎn)型。文中基于500份居民購房意愿調(diào)查問卷,利用主成分分析法提取了主要特征,對主成分序列建立了支持向量機分類模型。五折交叉驗證結(jié)果表明:分類效果良好,對政府和房地產(chǎn)開發(fā)商進行客戶細分、制定營銷策略有一定的借鑒意義。

關(guān)鍵詞:購房意愿;主成分分析法;核函數(shù);五折交叉驗證;支持向量機分類

中圖分類號:TP 891 文獻標識碼:A 文章編號:1672-7312(2016)05-0544-03

0 引 言

支持向量機(Support Vector Machine,SVM)由Vapnik于1995年提出,是在VC維(Vapnik-Chervonenkis Dimension)理論和結(jié)構(gòu)風險最小原理的基礎(chǔ)上的一種學習機器[1],有著很強的模型泛化能力和推廣能力,在20年間被廣泛應(yīng)用到模式識別、醫(yī)療器械診斷等領(lǐng)域[2]。模型在處理分類和回歸問題上已相當成熟,通過由臺灣大學林智仁教授等開發(fā)設(shè)計的LIBSVM工具包,能更多地應(yīng)用到實際問題上。針對文中的數(shù)據(jù)而言,先采用主成分分析法提取主要信息,再進行分類處理,這有效地提高了運算精度、縮短了運算時間。

文中數(shù)據(jù)基于500份問卷調(diào)查,內(nèi)容包括受訪者的性別、年齡、婚姻、職業(yè)、常住人口數(shù)、家庭月收入和購房意愿,對數(shù)據(jù)進行賦值量化處理后進行分類研究。

1 主成分分析法提取特征

主成分分析法(Principal Component Analysis,PCA)是在1933年由Hotelling提出,它是一種通過降維的技術(shù)把多個變量化為少數(shù)主成分的統(tǒng)計分析方法。這些主成分能夠反映絕大部分的變量信息,通常表示為原始變量的線性組合[3]。對購房意愿的影響因子xi(i=1,2,…,6)進行標準化處理,計算主成分

Yi=xTUi,i=(1,2,…,6),Ui為特征向量。取累計貢獻率大于等于85%的少數(shù)主成分即可。變量設(shè)定見表1.

2 支持向量機分類

支持向量機(SVM)突破了線性判別模型的限制,很好地解決了小樣本、局部最優(yōu)點、非線性等復雜的實際問題,提高了模型的泛化能力。SVM主要針對在2類分類問題,如文中所研究的購房或者不購房,其目的是找到一個最優(yōu)分類面H將樣本空間中的訓練樣本分成2部分,使得SVM超平面的錯分率最小[5]。

分類超平面的最優(yōu)化問題可描述為如下的二次規(guī)劃問題

其中,ω為權(quán)重系數(shù);b為偏置量;C為懲罰系數(shù),它可以控制SVM泛化能力和錯分率之間的折中。C越大表示對錯誤的懲罰系數(shù)越高,越不能容忍誤差。但是,C取的過大的話,相應(yīng)的權(quán)重就小,系統(tǒng)的泛化能力變差,會出現(xiàn)“過學習”的現(xiàn)象。ξi為非負松弛變量。

轉(zhuǎn)化為拉格朗日對偶問題[6],求得最優(yōu)超平面的判別函數(shù)定義為

其中,αi為最優(yōu)超平面所對應(yīng)的系數(shù);K(xi,xj)為核函數(shù),其選擇是分類準確率的關(guān)鍵因素[5]。

具體建模步驟如下所示:

建立訓練樣本集T={(x1,y1),L,(xn,yn)},xi∈Rd,目標集yi∈{-1,1},i=1,2,L,n.在500個樣本庫里隨機抽取400例作為訓練樣本,100例為測試樣本。x為主成分提取后的樣本,y=-1代表不買房,y=1代表買房。

下面均采用五折交叉驗證的方法來判斷其結(jié)果的可靠性。即為了充分利用樣本集對算法效果進行測試,將樣本集隨機均分為5個包,每次將其中1個包作為測試集,剩下4個包作為訓練集進行訓練。

選擇最優(yōu)的核函數(shù)及其參數(shù)。文中以常用的線性核函數(shù)、多項式核函數(shù)、RBF核函數(shù)和Sigmoid函數(shù)進行訓練[7],在LIBSVM環(huán)境下,其他參數(shù)取默認值,分別得到C=1,10,100,300,500時的分類正確率Accuracy.輸出結(jié)果如圖1所示。

3 結(jié) 論

文中通過對樣本數(shù)據(jù)提取主成分,突出主要特征信息,形成了新的序列樣本。支持向量機是在結(jié)構(gòu)風險最小化原則的具體實現(xiàn),具有良好的推廣能力。針對文中數(shù)據(jù)運用RBF核函數(shù)來構(gòu)造學習能力和泛化性能都很強的向量機,再通過五折交叉驗證,分類效果良好,

錯分率僅為2%.模型結(jié)果表明,年齡在25到35歲之間,已婚,家庭月收入在15 000元以上,工作單位相對穩(wěn)定的人群更有購房意愿。

該模型具有泛化能力強、實現(xiàn)簡單、訓練速度快等優(yōu)點,可以正確且有效地進行二分類問題,具有較強的推廣能力[9]。但是針對復雜樣本的多分類問題,還需進一步研究。

參考文獻:

[1] Cortes CVapnik.V.support-vector networks[J].Machine Learning,1995,20(3):273-298.

[2] Peter Andras.The equivalence of support vector machine and neural networks[J].Neural Processing Letters,2002,65:97-104.

[3] 孫劉平,錢吳永.基于主成分分析法的綜合評價方法的改進[J].數(shù)學的實踐和認識,2009,39(18):16-18.

[4] 崔慶安.基于主成分分析與支持向量機的能源需求預測方法[J].統(tǒng)計與決策,2013,17:70-71.

[5] Camp bell.C·Kernel methods:a survey of current techniques[J].Neurocomputing,2002,48:63-72.

[6] Vapnik V N.統(tǒng)計學習理論[M].徐建華,張學工,譯.北京:電子工業(yè)出版社,2009.

[7] 梁禮明,鐘 鎮(zhèn),陳召陽.支持向量機核函數(shù)的研究和仿真[J].計算機工程和科學,2015,37(6):1 136-1 138.

[8] Doumpos M,Zopounidis C.Additive support vector machines for pattern classification[J].IEEE Trans on Systems,Man,and Cybennetics:Part B,2007,37(3):540-550.

[9] 顧亞祥,丁世飛.支持向量機研究進展[J].計算機科學,2011,38(2):14-16.

猜你喜歡
主成分分析法
山東省旅游產(chǎn)業(yè)競爭力評價研究
中國裝備制造業(yè)階段競爭力研究
陜西省各地區(qū)人力資本水平綜合評價與分析
基于主成分分析的煤層氣賦存影響因素分析
成都市中心城區(qū)商服用地基準地價空間演變規(guī)律研究
基于主成分分析法的高校財務(wù)風險評價指標體系構(gòu)建
太原市土地可持續(xù)利用研究
基于主成分分析法的成都市房地產(chǎn)泡沫程度評價
考察我國各省市自治區(qū)社會發(fā)展綜合狀況
金華市服務(wù)外包產(chǎn)業(yè)科技創(chuàng)新能力研究
天峨县| 莱阳市| 镇巴县| 林西县| 逊克县| 乡城县| 昌邑市| 滦平县| 得荣县| 河东区| 普格县| 大港区| 凤台县| 娄底市| 清远市| 珠海市| 绵阳市| 嵩明县| 普陀区| 屯留县| 张家川| 绥德县| 射洪县| 扶沟县| 婺源县| 尚志市| 安西县| 大英县| 苏尼特左旗| 大厂| 孝昌县| 白河县| 卓资县| 三台县| 绥江县| 本溪市| 铅山县| 临沭县| 临邑县| 扬中市| 金寨县|