邱麒添
摘要:在數(shù)據(jù)挖掘時代,關鍵因子的選取是經(jīng)濟投資的一個重要步驟。通過前進法策略進行變量選取。在Goodman-Skruskal-τ模型的基礎上,對高維數(shù)據(jù)進行監(jiān)督離散化,由歷史數(shù)據(jù)找出新的量化觀點,形成新的投資組合模型。實證檢驗表明,該模型給出的投資策略能獲得較好的收益,具有一定的實用性。
關鍵詞:GK-τ模型;前進法;監(jiān)督離散化
中圖分類號:O17 文獻識別碼:A 文章編號:1001-828X(2016)009-000-01
一、引言
受啟發(fā)于黃文學[1]等對于變量離散化的研究,本文在GK-τ模型的基礎上,利用前進法的監(jiān)督離散化策略找出對高維變量起較大重要的關鍵因子,取代投資者直接選取因子的觀點,進行經(jīng)濟的投資組合研究。在研究關聯(lián)性的估計模型中,選取GK-τ可以更好地度量局部與整體的相關性。文章的具體結(jié)構如下:第二部分首先對模型進行介紹,第三部分結(jié)果分析。
二、模型介紹
高維上的GK-τ模型和前進法預測。
高維上的GK-τ模型如下:
其中為已離散化的自變量,為要前進法離散化的自變量;Epy為無自變量時預測的準確率,為有自變量時預測的準確率,另外EPY是一定的,因此 的預測能力等價于 的準確率。
在已監(jiān)督離散化的基礎上增加一個新變量X,對變量X進行窮盡搜索法:
(1)設定X切分的區(qū)間數(shù)為t ,對X的取值范圍進行等區(qū)間切分100部分;
(2)重復以下的步驟,直至滿足以下的條件:
1.當t > 時,跳出循環(huán),其中 為循環(huán)的第幾個區(qū)間數(shù);
2.設為已選好的區(qū)間,選取下個區(qū)間,如
利用GK-τ模型進行前進監(jiān)督離散化對投資模型進行預測,來代替?zhèn)鹘y(tǒng)中直接選取因子預測觀點,提高預測能力,更好做到投資。
三、實驗預測結(jié)果
實證結(jié)果與分析。
本文部分數(shù)據(jù)來源于某銀行的貸款收入數(shù)據(jù)庫,從中選取繳費時間觀(準時與不準時)作為因變量,而資產(chǎn),收入,債務,經(jīng)濟需求,年齡作為連續(xù)自變量;舉例,繳費時間觀為二維變量為0 或 1,(0表示無法準時繳費,1為準時繳費),年齡為連續(xù)變量,可分為少年,中年,老年。根據(jù)五個自變量對因變量時間觀念繳費準時與否進行預測,利用前進法提高預測能力,選取關鍵因子變量
1.對五個自變量切分三個區(qū)間進行獨立離散化,其結(jié)果如下:
2.通過數(shù)據(jù)可發(fā)現(xiàn)對時間觀念預測最好的變量為資產(chǎn),第二個最好變量為債務,那么選取這兩邊預測時間觀念的結(jié)果為0.8340.
3.在資產(chǎn)變量X1的基礎上進行前進法的離散化,可得:
結(jié)果顯示第二變量選取為經(jīng)濟需求,且預測的結(jié)果為0.83812,比直接選取最好的變量結(jié)果更好,更好做到預測能力。
GK-τ模型是一個從局部到整體結(jié)合權重因子的優(yōu)勢比預測,并利用前進的離散化更好地切分區(qū)間,取得更好的預測能力,克服了傳統(tǒng)投資模型在應用實踐中直接選用關鍵因子的一些缺陷,利用銀行貸款數(shù)據(jù)所給出的信息進行實證分析,結(jié)果表明了該模型具有一定的應用范圍和潛力,對于普通投資者的經(jīng)濟投資亦有相當?shù)闹笇б饬x,同時也為投資市場的運用提供了一種新思路。
參考文獻:
[1]Olson,D.,Shi,Y.,2007.Introduction to business data mining.McGraw-hill/Irwin.
[2]L.Goodman,W.Kruskal.,Measure of association for cross classifications,journal of the Amearican .Statistical Association 49(268)(1954)732-764.