趙 磊
[摘 要] 數(shù)據(jù)挖掘技術(shù)是多學(xué)科交叉的新興技術(shù),它是隨著數(shù)據(jù)的大量積累以及市場(chǎng)競(jìng)爭(zhēng)對(duì)信息與知識(shí)的迫切需求而產(chǎn)生和發(fā)展起來(lái)的,并逐漸成為人們關(guān)注的熱點(diǎn)。它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合,為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型提供了令人振奮的機(jī)會(huì)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于財(cái)務(wù)分析,不僅拓寬了財(cái)務(wù)分析的范圍,而且還可以發(fā)現(xiàn)那些隱藏在財(cái)務(wù)報(bào)表數(shù)據(jù)中的信息,對(duì)于幫助管理層做出及時(shí)、適當(dāng)?shù)臎Q策是很有價(jià)值的。
[關(guān)鍵詞] 財(cái)務(wù)分析;決策樹;聚類;關(guān)聯(lián)分析
[中圖分類號(hào)]F275;F232[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2009)02-0034-05
一、研究背景
數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于商業(yè)、醫(yī)學(xué)、科研領(lǐng)域,著眼于海量數(shù)據(jù)集存儲(chǔ)、檢索與處理,目標(biāo)是從繁冗復(fù)雜的數(shù)據(jù)對(duì)象中找出其相關(guān)性。誠(chéng)然,大多數(shù)公司的財(cái)務(wù)分析所需要的一些數(shù)據(jù)相對(duì)有限,尚不能稱得上“海量”,但是如果能從另一個(gè)角度去換位思考,或許能得到意想不到的效果,為更深層次的財(cái)務(wù)分析作準(zhǔn)備。
當(dāng)前,大多數(shù)公司的財(cái)務(wù)分析是用一些財(cái)務(wù)指標(biāo)來(lái)反映本公司的經(jīng)營(yíng)情況,分門別類、分項(xiàng)列出,先總體、后局部,個(gè)別異常個(gè)別說明。這種分析方式是正確的,然而很多情況下財(cái)務(wù)人員會(huì)忽略數(shù)據(jù)的相關(guān)性,無(wú)法抓住問題的實(shí)質(zhì),進(jìn)而影響財(cái)務(wù)分析的準(zhǔn)確性、全面性。造成這樣的情況,一是由于財(cái)務(wù)數(shù)據(jù)范圍相對(duì)較小,容易根據(jù)一些財(cái)務(wù)指標(biāo)直觀上發(fā)現(xiàn)問題,這就往往使人們忽視管理與經(jīng)營(yíng)上的不足;二是財(cái)務(wù)人員的知識(shí)水平相對(duì)有限,無(wú)法從更深層次角度去分析報(bào)表數(shù)據(jù)。本文以某財(cái)產(chǎn)保險(xiǎn)公司省級(jí)分公司2004年度財(cái)務(wù)數(shù)據(jù)為例,分別從決策樹算法、聚類、關(guān)聯(lián)分析等角度來(lái)闡述數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)分析中的應(yīng)用。
二、數(shù)據(jù)集選擇
本文使用的樣本數(shù)據(jù)來(lái)自某財(cái)產(chǎn)保險(xiǎn)公司省級(jí)分公司2004年所公布的財(cái)務(wù)報(bào)表數(shù)據(jù)。由于該公司車險(xiǎn)所占比例較大,因此將車險(xiǎn)賠付率指標(biāo)列入其中,同時(shí)為方便計(jì)算,對(duì)個(gè)別數(shù)據(jù)進(jìn)行了處理。具體數(shù)據(jù)集見表1。
三、決策樹算法
決策樹分類法是一種廣泛使用的簡(jiǎn)單分類算法,具有直觀、容易解釋的特點(diǎn),其冗余屬性也不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響,即個(gè)別屬性的差異對(duì)總體分析及決策不會(huì)造成太大的誤差。決策樹廣泛用于分類、聚類和預(yù)測(cè)型建模方法,采用“分而治之”的方法將問題的搜索空間分為若干子集。在財(cái)務(wù)分析中使用決策樹,不僅可以“化繁為簡(jiǎn)”,而且具有直觀、易于快速發(fā)現(xiàn)問題的特點(diǎn),給人耳目一新的感覺。
1. 用Hunt算法建立決策樹
從原則上講,對(duì)于給定的屬性集,可以構(gòu)造的決策樹的數(shù)目能達(dá)到指數(shù)級(jí)。盡管某些決策樹比其他決策樹更準(zhǔn)確,但是由于搜索空間是指數(shù)級(jí)的,找出最佳決策樹原則上是不可行的。盡管如此,學(xué)者們還是開發(fā)了一些有效的算法,能夠在合理的時(shí)間內(nèi)構(gòu)造出具有一定準(zhǔn)確率的次最優(yōu)決策樹。這些算法通常都采用貪心算法,能夠在合理的時(shí)間內(nèi)構(gòu)造出具有一定準(zhǔn)確率的次最優(yōu)決策樹,Hunt算法就是一種這樣算法,它是許多決策樹算法的基礎(chǔ)。
在Hunt算法中,通過將訓(xùn)練記錄相繼劃分成較純的子集,以遞歸方式建立決策樹。設(shè)Dt是與結(jié)點(diǎn)t相關(guān)聯(lián)的訓(xùn)練記錄集,而Y={ y1,y2,…,yn}是類標(biāo)號(hào),Hunt算法的遞歸定義如下:
(1)如果Dt中所有記錄都屬于同一個(gè)類yt,則t是葉結(jié)點(diǎn),用yt標(biāo)記。
(2)如果Dt中包含屬于多個(gè)類的記錄,則選擇一個(gè)屬性測(cè)試條件,將記錄劃分成較小的子集。對(duì)于測(cè)試條件的每個(gè)輸出,創(chuàng)建一個(gè)子女結(jié)點(diǎn),并根據(jù)測(cè)試結(jié)果將Dt中的記錄分布到子女結(jié)點(diǎn)中。然后,對(duì)于每個(gè)子女結(jié)點(diǎn),遞歸地調(diào)用該算法。
2. 算法演示
需要說明的是,本文將盈利性作為葉結(jié)點(diǎn),主要是由于其屬性只有“是”與“否”兩類,可以簡(jiǎn)化算法的演示步驟,還可以從總體上發(fā)現(xiàn)公司各機(jī)構(gòu)的利潤(rùn)情況,從而在一定程度上迎合了公司決策者的要求。此外,為方便說明,將每一步劃分的機(jī)構(gòu)情況也列入其中,但是這并不表明在實(shí)際應(yīng)用中需要這么做。具體步驟如圖1至圖4所示。
其中,大機(jī)構(gòu)是指保費(fèi)收入大于1 500萬(wàn)元的機(jī)構(gòu),小機(jī)構(gòu)是指保費(fèi)收入小于1 500萬(wàn)元的機(jī)構(gòu)。
3. 對(duì)財(cái)務(wù)分析的啟示
從圖4中可以發(fā)現(xiàn)公司虧損主要集中在{A,B,D,E,F,K}與{I,L,M}等機(jī)構(gòu),它們占公司機(jī)構(gòu)數(shù)目較大的比例。所以,公司下一步的經(jīng)營(yíng)治理計(jì)劃應(yīng)集中在這幾個(gè)機(jī)構(gòu)中??梢钥闯?決策樹以圖形方式給出較為直觀、簡(jiǎn)潔的描述,不同于那種枯燥、冗長(zhǎng)的文字描述形式。
四、聚類分析
聚類已經(jīng)被廣泛地應(yīng)用于許多領(lǐng)域,例如生物學(xué)、信息檢索、氣象學(xué)、心理學(xué)、醫(yī)學(xué)以及商業(yè)等諸多領(lǐng)域。通過對(duì)聚類的發(fā)現(xiàn),我們可以找出在概念上有意義的具有公共特性的對(duì)象組,進(jìn)而發(fā)現(xiàn)總體的特性。聚類分析根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)劃分成有意義或有用的簇(也可以稱為組)。其目標(biāo)是,簇內(nèi)的對(duì)象相互之間是相似的(相關(guān)的),而不同簇中的對(duì)象是不同的(不相關(guān)的)。簇內(nèi)的相似性(同質(zhì)性)越大,聚類就越好。
在財(cái)務(wù)分析中,靈活運(yùn)用聚類分析技術(shù),對(duì)各種財(cái)務(wù)指標(biāo)下的數(shù)據(jù)進(jìn)行分組,可以方便找出其“由量變到質(zhì)變”的臨界點(diǎn),為公司制定各類考核指標(biāo)提供依據(jù)。對(duì)于簇內(nèi)及簇間相似性的度量需要運(yùn)用統(tǒng)計(jì)學(xué)中方差、標(biāo)準(zhǔn)差等概念,相對(duì)比較簡(jiǎn)單,不贅述。
1. K-均值算法
K-均值算法是一種迭代算法,迭代過程中不斷地移動(dòng)組集中的成員直至得到理想的組集為止。K-均值算法比較簡(jiǎn)單,也是一種最古老的、最廣泛使用的聚類算法。雖然該算法的收斂準(zhǔn)則不是基于平方誤差來(lái)定義的,但它也可視為一種平方算法來(lái)度量各組內(nèi)及組間的誤差情況。利用K-均值聚類算法所得到的組,組內(nèi)成員間的相似程度很高,同時(shí)不同組中成員的相異度也很高。給定組Ki ={ti1,ti2,…,tim},則其均值定義為:
Mi= (ti1+ ti2+ …+tim)/m。
在定義中假設(shè)每個(gè)元組僅有一個(gè)數(shù)值型屬性值,而不是多個(gè)屬性值,當(dāng)然在財(cái)務(wù)報(bào)表中也不可能出現(xiàn)多個(gè)屬性的數(shù)據(jù)。以下的算法描述了K-均值算法,但應(yīng)注意簇均值的初始值是任意分配的,可以隨機(jī)分配也可以直接使用前k個(gè)成員的屬性值。此外,當(dāng)沒有元組(或很少的元組)被分配到不同的簇中時(shí),就可以停止算法。也可以直接設(shè)置一個(gè)最大的迭代次數(shù)作為終止準(zhǔn)則,使用最大迭代次數(shù)準(zhǔn)則是為了在算法不收斂時(shí)也可以停止算法。
其基本算法如下:
(1)選擇K個(gè)點(diǎn)作為初始均值,K是用戶指定的參數(shù),即所期望簇的個(gè)數(shù);
(2)repeat;
(3)將每個(gè)點(diǎn)指派到最近的均值,形成K個(gè)組;
(4)重新計(jì)算每個(gè)組的均值;
(5)until 均值不發(fā)生變化。
2. 算法演示
為方便說明問題,我們選擇賠付率與費(fèi)用率作為數(shù)據(jù)集實(shí)驗(yàn)對(duì)象,并且將其分為3個(gè)簇,初始時(shí)按機(jī)構(gòu)順序選擇前3個(gè)數(shù)值作為簇的均值。同時(shí),利用比較歐幾里得距離(差的絕對(duì)值)作為收斂參考準(zhǔn)則,即將與均值距離最近的數(shù)值分配到該均值所代表的簇中去,如果存在于兩個(gè)或多個(gè)均值距離相等,可以任意選擇其均值所對(duì)應(yīng)的簇。具體計(jì)算過程如表2、表3所示。
3. 對(duì)財(cái)務(wù)分析的啟示
在表2中可以看出,作為聚類的機(jī)構(gòu)集合{A,K},{B,C,D,E,F,H}與{G,I,J,L,M},如果該公司以賠付率35%作為考核要求,則A,K屬于嚴(yán)重超標(biāo),B,C,D,E,F,H超標(biāo)較多,只有G?I?J?L?M等機(jī)構(gòu)合格?但是,如若從數(shù)據(jù)挖掘角度出發(fā),本期需對(duì)不同機(jī)構(gòu)集合采取不同的懲獎(jiǎng)措施,我們還可以設(shè)置50%與35%為動(dòng)態(tài)臨界指標(biāo)作為下期考核經(jīng)營(yíng)業(yè)績(jī)的依據(jù),并且每期進(jìn)行調(diào)整?費(fèi)用率可以參照以上進(jìn)行分析,基本相同?
值得一提的是,我們還可以將以上兩個(gè)不同聚類取交集得到一個(gè)二維聚類,即{A,K},{B,C},{I,L,M}?對(duì)它們進(jìn)行進(jìn)一步的分析,可以綜合得出哪些機(jī)構(gòu)的財(cái)務(wù)指標(biāo)是更為合理的,或者是極不合理的,為精確考核?計(jì)劃提供依據(jù)?
五?關(guān)聯(lián)分析
許多商業(yè)企業(yè)在日復(fù)一日?年復(fù)一年的經(jīng)營(yíng)活動(dòng)中積聚了大量的數(shù)據(jù)?例如,某大型購(gòu)物中心的結(jié)算系統(tǒng)每天收集大量顧客的數(shù)據(jù)?零售商對(duì)這些數(shù)據(jù)的分析通常稱作“購(gòu)物籃”事務(wù)分析,以便了解顧客的購(gòu)買行為,來(lái)支持各種商業(yè)應(yīng)用,如市場(chǎng)促銷?庫(kù)存管理和顧客關(guān)系管理等?
關(guān)聯(lián)分析方法,用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系?所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示?例如,從大型購(gòu)物中心銷售終端所提供的數(shù)據(jù)中可以提出如下規(guī)則:
{奶粉,尿布,餅干}→{巧克力}
該規(guī)則表明奶粉?尿布和餅干與巧克力之間存在著很強(qiáng)的聯(lián)系,因?yàn)樵S多購(gòu)買奶粉?尿布和餅干的顧客也會(huì)購(gòu)買巧克力?商家可以使用這類規(guī)則,幫助他們發(fā)現(xiàn)新的交叉銷售機(jī)會(huì)?同樣在財(cái)務(wù)分析中,我們可以根據(jù)感興趣的財(cái)務(wù)指標(biāo)進(jìn)行內(nèi)在數(shù)據(jù)挖掘,找出造成財(cái)務(wù)指標(biāo)差異的原因?
1. Apriori算法
Apriori算法是最著名的關(guān)聯(lián)規(guī)則算法,已經(jīng)為大部分商業(yè)產(chǎn)品所使用?該算法利用大項(xiàng)目集性質(zhì),即大項(xiàng)目集的任一子集也一定是大的?
大項(xiàng)目集也被稱為是向下封閉的,因?yàn)槿绻粋€(gè)項(xiàng)目集滿足最小支持度的要求,其所有的子集也滿足這一要求?其逆否命題也成立,即知道一個(gè)項(xiàng)目集是小的,它的子集也是小的?可用圖5和圖6來(lái)展示這種重要的性質(zhì)?在這個(gè)例子中有4個(gè)項(xiàng)目{A,B,C,D}?圖中的線表示子集的關(guān)系,大項(xiàng)目集性質(zhì)表明如果原來(lái)的項(xiàng)目集是大的,則在路徑中位于其上面的任何集合也一定是大的?在圖中,ACD的非空子集是{AC,AD,CD,A,C,D}?如果ACD是大的,則其每一個(gè)子集也是大的?如果任何一個(gè)子集是小的,則ACD也是小的?
Apriori算法的基本思想是生成特定規(guī)模的候選項(xiàng)目集,然后掃描數(shù)據(jù)庫(kù)并進(jìn)行計(jì)數(shù),以確定這些候選項(xiàng)目集是否是大的?由于在財(cái)務(wù)分析中,往往使用定性的方法去查找原因,這可以極大地提高Apriori算法效率?比如管理層往往對(duì)利潤(rùn)虧損比較敏感,我們就可以直接以利潤(rùn)虧損這一財(cái)務(wù)指標(biāo)為起點(diǎn)進(jìn)行搜索計(jì)數(shù)?排序,只要查找一遍就可以找出頻繁項(xiàng)集?
2. 算法演示
從公司財(cái)務(wù)數(shù)據(jù)可以看出大部分機(jī)構(gòu)虧損,為了找出公司虧損的內(nèi)在原因,我們就以這一財(cái)務(wù)指標(biāo)作為掃描的起點(diǎn)?假定:
Φ =利潤(rùn)虧損;
A =大機(jī)構(gòu)(機(jī)構(gòu)保費(fèi)收入>1 500萬(wàn)元);
B =小機(jī)構(gòu)(機(jī)構(gòu)保費(fèi)收入≤1 500萬(wàn)元);
C =費(fèi)用率超標(biāo)(費(fèi)用率>30%);
D =賠款率超標(biāo)(賠付率>35%);
E =車險(xiǎn)賠付率超標(biāo)(賠付率>35%)?
圖7表示這一事件集的信息,圖8表示對(duì)所有數(shù)據(jù)進(jìn)行掃描后的最終結(jié)果,為方便說明,涉及的機(jī)構(gòu)數(shù)標(biāo)在指標(biāo)上面?另需說明,本文采用較高支持度的數(shù)據(jù)作為分析依據(jù),排除了個(gè)別異常的干擾?
3. 對(duì)財(cái)務(wù)分析的啟示
根據(jù)關(guān)聯(lián)分析得出如下結(jié)論:{大機(jī)構(gòu),賠款率超標(biāo),車險(xiǎn)賠付率超標(biāo)}→虧損,{小機(jī)構(gòu),費(fèi)用率超標(biāo)}→虧損,另由大項(xiàng)目集性質(zhì)得出附加結(jié)論:{車險(xiǎn)賠付率超標(biāo)}→賠款率超標(biāo)?
為什么會(huì)得出以上結(jié)論呢?這需要深入分析公司的具體情況?大機(jī)構(gòu)虧損是由于其賠款支出過多這一原因造成的,說明大機(jī)構(gòu)的規(guī)模與其效益不成正比,所擔(dān)保的產(chǎn)品易于受損,屬于典型的“越擴(kuò)張就越虧損”?而小機(jī)構(gòu)情況則不同,由于成立初期需要消化的費(fèi)用多,并且賠款效應(yīng)尚未出現(xiàn),因此造成了一定程度的虧損,但后期應(yīng)高度重視保費(fèi)質(zhì)量?其實(shí),附加結(jié)論“{車險(xiǎn)賠付率超標(biāo)}→賠款率超標(biāo)”所帶來(lái)的問題更為嚴(yán)峻?公司的大部分賠款支出來(lái)自車險(xiǎn),而車險(xiǎn)是公認(rèn)的虧損險(xiǎn)種,這說明公司險(xiǎn)種結(jié)構(gòu)極為不合理,亟需改善險(xiǎn)種結(jié)構(gòu),選擇多元化營(yíng)銷來(lái)分散風(fēng)險(xiǎn)?
六?結(jié) 論
最后,數(shù)據(jù)挖掘技術(shù)是在統(tǒng)計(jì)學(xué)?人工智能(特別是機(jī)器學(xué)習(xí))和數(shù)據(jù)庫(kù)技術(shù)等多種技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的,強(qiáng)調(diào)的是大數(shù)據(jù)量和算法的可伸縮性?對(duì)于財(cái)務(wù)人員來(lái)說,掌握一些這方面的知識(shí)是必要的,不僅可以拓寬現(xiàn)有的知識(shí)面,也可以提高自身業(yè)務(wù)水平,并且可以在實(shí)際工作中及時(shí)為公司決策者提供更具價(jià)值的財(cái)務(wù)信息?
主要參考文獻(xiàn)
[1] 〔新西蘭〕 Ian H Witten,Eibe Frank. 數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)[M]. 原書第2版. 北京:機(jī)械工業(yè)出版社,2006.
[2] 〔美〕 Michael J A Berry,Gordon S Linoff. 數(shù)據(jù)挖掘技術(shù):市場(chǎng)營(yíng)銷?銷售與客戶關(guān)系管理領(lǐng)域應(yīng)用[M]. 原書第2版. 北京:機(jī)械工業(yè)出版社,2006.
[3] 〔美〕Pang-Ning Tan,Michael Steinbach,Vipin Kumar. 數(shù)據(jù)挖掘技術(shù)導(dǎo)論[M]. 英文版. 北京:人民郵電出版社,2006.
[4] 李劍鋒,李一軍,等. 數(shù)據(jù)挖掘在財(cái)務(wù)分析中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2005(2):217-219.
[5] 張嫻. 數(shù)據(jù)挖掘技術(shù)及其在金融領(lǐng)域的應(yīng)用[J]. 金融教學(xué)與研究,2003(4):15-18.
[6] Robert Groth. Data Mining:Building Competitive Advantage[M]. 2nd ed. NewYork:Prentice Hall PTR,1999.
[7] Xia Hongxia, Shen Qi, HAO Rui. Application of Data Mining Technology to Intrusion Detection System[J]. 通訊和計(jì)算機(jī),2005,2(3):29-33.
[8] Chen Bo,Jiang Yongguang,HuBo, LiuJuan. Association Analysis Datamining the Compatibility Regulations of Li Dong Yuan's Formula of Spleen and Stomach[J]. 中醫(yī)藥學(xué)刊,2004,22(4):613-615.
[9] ZAKI M J,GOUDA K. Fast Vertical Mining Using Diffsets[C]. Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington,DC,2003.