鄭 佳,潘建欣,張瑞穩(wěn)
(1.中國科學(xué)技術(shù)大學(xué)管理學(xué)院,安徽 合肥 230026;2.清華大學(xué)核能與新能源技術(shù)研究院,北京 100084)
基于支持向量機(jī)的高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識模型研究
鄭 佳1,潘建欣2,張瑞穩(wěn)1
(1.中國科學(xué)技術(shù)大學(xué)管理學(xué)院,安徽 合肥 230026;2.清華大學(xué)核能與新能源技術(shù)研究院,北京 100084)
基于支持向量機(jī)神經(jīng)網(wǎng)絡(luò)理論,首創(chuàng)性地建立了一個由業(yè)績產(chǎn)出財務(wù)指標(biāo)辨識高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)類型的支持向量機(jī)模型。模型以企業(yè)的業(yè)績產(chǎn)出財務(wù)指標(biāo)數(shù)據(jù)為基礎(chǔ),以徑向基函數(shù)作為核函數(shù),使用網(wǎng)格尋優(yōu)方法調(diào)節(jié)模型參數(shù),得到優(yōu)化后的?;厝バ?,并使用測試集數(shù)據(jù)驗證了模型。對結(jié)果進(jìn)行二元分類決策分析,結(jié)果表明:該模型的準(zhǔn)確率和決策率等主要評價指標(biāo)都達(dá)到了85%以上,具有較高的辨識能力和可信度,為高新技術(shù)企業(yè)和傳統(tǒng)企業(yè)的類型辨識提供了一種可靠的、簡單方便的方法,可以直接量化地判別企業(yè)是否屬于高新技術(shù)企業(yè)。
高新技術(shù)企業(yè);類型辨識模型;支持向量機(jī);神經(jīng)網(wǎng)絡(luò)
高新技術(shù)企業(yè)在國家的經(jīng)濟(jì)增長中起著重要作用,但是由于高新技術(shù)是一個動態(tài)發(fā)展、不斷演進(jìn)的過程,這使得高新技術(shù)企業(yè)很難有能夠被廣泛接受的定義。在中國,高新技術(shù)企業(yè)主要是產(chǎn)品 (服務(wù))屬于國家重點支持的高新技術(shù)領(lǐng)域,且研發(fā)投入密集度、科研人員比例符合條件的企業(yè),但這一定義并沒有細(xì)化至每個企業(yè)的生產(chǎn)方式及產(chǎn)品 (服務(wù))。現(xiàn)行的定義可能導(dǎo)致:處于傳統(tǒng)領(lǐng)域的某些企業(yè),仍然具有領(lǐng)先的工藝、卓越的創(chuàng)新能力,且創(chuàng)新性、成長性和盈利能力優(yōu)于某些高新技術(shù)企業(yè),但是因所處的行業(yè)不屬于國家重點支持的高新技術(shù)領(lǐng)域,而無法認(rèn)定為高新技術(shù)企業(yè);或者,某些高新技術(shù)企業(yè)的業(yè)績表現(xiàn),并不具備高成長性和高盈利性。高新技術(shù)企業(yè)資質(zhì)作為企業(yè)的無形資產(chǎn),是企業(yè)科研實力的有力證明,可以獲得稅收政策、人才引進(jìn)、投融資、土地和工商等各方面的優(yōu)惠。據(jù)統(tǒng)計,2012年第一季度中,148家通過高新技術(shù)企業(yè)資格復(fù)審的創(chuàng)業(yè)板企業(yè)中,有27家沒有達(dá)到高新技術(shù)企業(yè)的認(rèn)定標(biāo)準(zhǔn);對于上述不符合高新技術(shù)企業(yè)認(rèn)定的公司,如果按利潤總額乘以10%的企業(yè)所得稅優(yōu)惠粗略計算的話,僅2011年,這27家企業(yè)就至少享受了2.61億元的企業(yè)所得稅優(yōu)惠。因此,對于管理者、投資者、戰(zhàn)略政策的研究制定者,制定出更清晰成熟的高新技術(shù)企業(yè)評價標(biāo)準(zhǔn)就具有重要意義;也正因為如此,我們嘗試從財務(wù)指標(biāo)的角度,建立模型,希望能形成更公正客觀的認(rèn)證評價標(biāo)準(zhǔn)。
Oakey和Mukhar(1999)[1]主張績效指標(biāo)是高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的重要區(qū)分指標(biāo)。正是由于在資源投入上高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)之間存在顯著差異,因此在業(yè)績產(chǎn)出上,高新技術(shù)企業(yè)應(yīng)當(dāng)表現(xiàn)出與其高技術(shù)、高投入、高風(fēng)險相對應(yīng)的財務(wù)特征;但這并不能滿足市場上信息需求者的要求。Nicholas和Martin(2008)[2]的研究指出現(xiàn)有的標(biāo)準(zhǔn)產(chǎn)業(yè)分類 (SIC)只能將企業(yè)進(jìn)行模糊的分類,而不是建立在系統(tǒng)分類的基礎(chǔ)上,并證實使用績效指標(biāo)途徑來定義高新技術(shù)企業(yè)的可能。
Vapnik(1995)[3]基于統(tǒng)計學(xué)習(xí)理論提出了支持向量機(jī) (support vector machine,SVM)神經(jīng)網(wǎng)絡(luò),具有魯棒性、計算簡單以及理論上完善等優(yōu)點,可用于模式分類和非線性回歸的研究。已有文獻(xiàn)報道了SVM用于商業(yè)銀行構(gòu)建企業(yè)破產(chǎn)預(yù)測機(jī)制[4]、上市公司經(jīng)營決策失敗預(yù)警[5]和糧食產(chǎn)量預(yù)測[6]等領(lǐng)域,但暫未有SVM用于高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)分類研究的文獻(xiàn)報導(dǎo)。
SVM模型主要思想是建立一個超平面作為決策曲面,使得正例與反例之間的隔離邊緣被最大化。對于考慮訓(xùn)練樣本,其中x為第i個
i輸入模式向量,di為對應(yīng)的目標(biāo)輸出,用于分離的超平面形式的決策曲面方程則為:wTx+b=0,使得wTx+b>0時di=+1,否則為-1。其中在正反例附近用于確定最優(yōu)決策超平面的向量稱為支持向量,也是最難區(qū)分的數(shù)據(jù)點。理論研究表明模型的原問題即最優(yōu)分離邊緣為2/||w||,通過最小化權(quán)值向量w的歐幾得里范數(shù)||w||,提供正反例之間的最大分離的可能。一般通過Lagrange乘子方法轉(zhuǎn)化成其對偶問題,解決約束最優(yōu)問題。建立的Lagrange函數(shù)為:
其中的α為輔助的Lagrange乘子,在N個向量中αi為非負(fù)值的向量即為支持向量。
在LIBSVM工具箱中,SVMtrain函數(shù)中預(yù)設(shè)的用于分類的C-SVM類型,其決策函數(shù)為:
其中K為核函數(shù),其主要類型有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和sigmoid核函數(shù)等。研究表明,在一般條件下徑向基函數(shù)K(xi,x)=exp(-r|xi-x|2),表示以x為中心、xi到x的徑向距離半徑為r形成的構(gòu)成的函數(shù)系,具有較好普適性。
本文使用具有產(chǎn)出性質(zhì)的10項績效財務(wù)指標(biāo)作為參數(shù),直接量化地判別企業(yè)是否屬于高新技術(shù)企業(yè)。區(qū)別于我國目前《高新技術(shù)企業(yè)認(rèn)定管理辦法》中,“企業(yè)產(chǎn)品 (服務(wù))屬于《國家重點支持的高新技術(shù)領(lǐng)域》”加“研發(fā)人員及R&D投入強(qiáng)度標(biāo)準(zhǔn)”的認(rèn)定方法,避免了樣本的投入性參數(shù)和依據(jù)此類參數(shù)所確定的高新企業(yè)之間存在的必然聯(lián)系;總結(jié)已有的相關(guān)文獻(xiàn)在指標(biāo)設(shè)置上出現(xiàn)的頻度,主要從企業(yè)的盈利能力、成長能力、營運(yùn)能力上來選定財務(wù)指標(biāo),這十項績效財務(wù)指標(biāo)分別為:總資產(chǎn)凈利率、成本費(fèi)用利潤率、銷售毛利率、主營業(yè)務(wù)收入增長率、凈利潤增長率、凈資產(chǎn)增長率、總資產(chǎn)增長率、存貨周轉(zhuǎn)率、固定資產(chǎn)周轉(zhuǎn)率和總資產(chǎn)周轉(zhuǎn)率。在選擇樣本企業(yè)時還考慮到:樣本企業(yè)是否上市與該企業(yè)是否屬于高新技術(shù)企業(yè)沒有必然聯(lián)系;本模型使用十項績效財務(wù)指標(biāo)對企業(yè)類別進(jìn)行判斷,將模型所得結(jié)果與該企業(yè)的真實分類進(jìn)行比較,作為模型判斷的準(zhǔn)確率;為了保證樣本數(shù)據(jù)的絕對真實可靠,防止原始數(shù)據(jù)的不準(zhǔn)確引起的模型準(zhǔn)確率下降,因此選用財務(wù)數(shù)據(jù)更可靠的上市公司作為樣本企業(yè)。
根據(jù)2008年4月24日由財政部、科技部、國家稅務(wù)總局聯(lián)合發(fā)出的《高新技術(shù)企業(yè)認(rèn)定管理辦法》,以及《2010年國家高新技術(shù)企業(yè)名單》隨機(jī)抽取102家高新技術(shù)上市公司,剔除數(shù)據(jù)不全的企業(yè),得到98家樣本企業(yè),這98家樣本企業(yè)中有創(chuàng)業(yè)板上市公司21家,非創(chuàng)業(yè)板上市公司77家;學(xué)者王今朝、王靜 (2008)[7]認(rèn)為,我國當(dāng)前的傳統(tǒng)產(chǎn)業(yè)主要屬于第二產(chǎn)業(yè)中的原材料工業(yè)以及加工工業(yè)中的輕加工工業(yè),主要包括紡織業(yè)、輕工、部分機(jī)械、化工和建材工業(yè)。并根據(jù)證監(jiān)會2010年頒布的《上市公司行業(yè)分類指引》,從食品飲料(C0)、紡織業(yè) (C11)、煤炭采選業(yè) (B01)、建筑業(yè) (E)的130家企業(yè)中剔除財務(wù)特征異常的ST板塊和數(shù)據(jù)不全的企業(yè),為了保證數(shù)據(jù)的一致性和可比性,再隨機(jī)抽取與高新技術(shù)企業(yè)數(shù)相當(dāng)?shù)钠髽I(yè),得到99家傳統(tǒng)企業(yè)樣本;選取此197個樣本企業(yè)2007—2010年的年報數(shù)據(jù)中盈利能力、成長能力、營運(yùn)能力10個參數(shù)為輸入值。
建立模型首先從原始數(shù)據(jù)中隨機(jī)分離出訓(xùn)練集和測試集,訓(xùn)練集用于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),得到合適的模型;測試集用于測試網(wǎng)絡(luò)的泛化能力,即檢驗?zāi)P偷恼_性。正態(tài)分布化、歸一化和主成分分析降維等方法對數(shù)據(jù)進(jìn)行預(yù)處理,得到有效不失真的處理后數(shù)據(jù)。使用訓(xùn)練集數(shù)據(jù)訓(xùn)練得到SVM模型,使用測試集數(shù)據(jù)對模型進(jìn)行檢驗,并不斷調(diào)節(jié)模型參數(shù),得到最優(yōu)模型。使用模型對未知數(shù)據(jù)的運(yùn)算,判斷企業(yè)是否為高新技術(shù)企業(yè),達(dá)到預(yù)測的目的。
模型利用Matlab軟件包編程,使用臺灣大學(xué)林智仁教授等[8]開發(fā)的LIBSVM工具箱,部分函數(shù)參考了 Faruto等[9]基于 LIBSVM開發(fā)的加強(qiáng)工具箱。
原始數(shù)據(jù)整體保存在corporation.mat文件中,記錄了全部197個樣本的10個參數(shù)值的197×10 double型的名為corp的矩陣,以及一個197×1的double型列向量corp_labels記錄企業(yè)類型標(biāo)簽(T設(shè)置為傳統(tǒng)企業(yè),C為高新技術(shù)企業(yè))。使用load命令載入數(shù)據(jù),并使用figure命令查看數(shù)據(jù)。
將corp的197×10矩陣按每一列 (即每個指標(biāo))進(jìn)行正態(tài)化,得到正態(tài)化后的197×10矩陣corp_norm,目的是獨立地將每一個特征成分正態(tài)化為特定區(qū)間范圍。這樣確保更大值的輸入屬性不會覆蓋更小值的輸入屬性,有助于減少預(yù)測誤差[10]。
使用ismember(corp_labels,H)命令,對企業(yè)標(biāo)簽corp_labels列向量元素進(jìn)行邏輯判斷,是“H”的元素為logic型的“1”,即為高新技術(shù)企業(yè),不是“H”的元素為logic型的“0”,為傳統(tǒng)企業(yè)。得到了一個名為groups的197×1的列向量。使用[train,test]=crossvalind('holdOut',groups,0.40)命令劃分訓(xùn)練集和測試集。其中crossvalind是產(chǎn)生交差檢驗 (Cross-Validation)的函數(shù),從groups集中以40%的概率隨機(jī)選出近似比例的測試集。輸出為一個含78(約197×40%)個logic“1”元素的197×1的test集,以及一個含119(=197-78) 個 logic“1”元素的 197×1的train集。利用train和test集,隨機(jī)挑選得到了訓(xùn)練集和測試集的數(shù)據(jù)和標(biāo)簽,分別為train_corp,train_corp_labels,test_corp和test_corp_labels。
經(jīng)驗表明,對數(shù)據(jù)進(jìn)行歸一化處理,可以提高模型的準(zhǔn)確率。對上一步得到的train_corp和test_corp采用 [0,1]歸一化,得到了119×10的歸一化后的訓(xùn)練集train_scale和78×10的歸一化后的測試集test_scale。
變量個數(shù)太多就會增加課題的復(fù)雜性,使用主成分分析方法,從中可以取出較少的綜合變量盡可能多地反映原來變量的信息。對train_scale和test_scale進(jìn)行主成分分析,如圖1所示,當(dāng)10個參數(shù)降維成7個參數(shù)時,仍保留了95%的原始數(shù)據(jù)信息。得到了119×7的 PCA后的訓(xùn)練集train_pca和78×7的歸一化后的測試集test_pca。代碼如下:
圖1 SVM模型數(shù)據(jù)的主成分分析圖
使用依次進(jìn)行正態(tài)化,歸一化和主成分分析后得到數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到SVM網(wǎng)絡(luò)模型。代碼如下:
模型的輸入值為測試集標(biāo)簽train_corp_labels和處理后的數(shù)據(jù) train_pca,參數(shù)'-s 0 -t 2'表示使用了SVMtrain函數(shù)中預(yù)設(shè)的用于分類的C-SVM類型,其核函數(shù)類型徑向基函數(shù)。'-c 7-g 2'中c和g是SVM神經(jīng)網(wǎng)絡(luò)的兩個重要參數(shù),分別對其賦值為7和2,具體選擇和優(yōu)化在3.5節(jié)討論。命令輸出得到了一個名為model的數(shù)據(jù)結(jié)構(gòu)體,包含決策函數(shù)中的承裝系數(shù)列向量w(model.sv_coef)和常數(shù)項系數(shù)的相反數(shù)-b(rho),以及得到了支持向量 (SVs)等參數(shù)。
使用svmpredic命令,建模得到的model結(jié)構(gòu)體,以及用于測試的標(biāo)簽和數(shù)據(jù)test_corp_labels和test_pca進(jìn)行預(yù)測,Matlab命令如下:
命令輸出78×1預(yù)測后的標(biāo)簽predict_label列向量和準(zhǔn)確率Accuracy=85.8974%(67/78)。
核參數(shù)c和g是徑向基函數(shù)RBF的SVM兩個重要參數(shù),對模型的性能起關(guān)鍵作用,不合適的c和g會導(dǎo)致網(wǎng)絡(luò)欠學(xué)習(xí)或者過學(xué)習(xí)。最優(yōu)SVM算法的核函數(shù)和參數(shù)選擇,目前沒有理論依據(jù),只能是憑借經(jīng)驗、實驗對比、大規(guī)模搜索以及使用交叉驗證方法進(jìn)行尋優(yōu)。交叉驗證方法可以在沒有測試集表情的情況下,找到一定意義上的最佳參數(shù)c和g,即能使訓(xùn)練集在交叉驗證下達(dá)到最高分類率,但并不能保證在測試集下也能達(dá)到最高分類準(zhǔn)確率。
常用的經(jīng)驗方法有網(wǎng)格尋優(yōu)、基于遺傳算法尋優(yōu)和基于粒子群算法尋優(yōu)。本模型選用最簡單的網(wǎng)格尋優(yōu),即建造二維的cg網(wǎng)格,在網(wǎng)格暴力尋找最大的準(zhǔn)確率及其對應(yīng)的c和g值。使用內(nèi)置的SVMcgForClass函數(shù)尋優(yōu),在c和g都在 [2-10,210]廣域區(qū)間內(nèi)搜索,后縮小至c為 [2-3,24],g 為 [2-5,22]區(qū)間內(nèi)以 20.2的步長,使用 5-folder交叉驗證方法尋找最佳值,Matlab代碼為:
輸出得到了最大的精度值和對應(yīng)的最佳c值bestc_cg和g值bestg_cg。需要說明的是,只是對測試標(biāo)簽和數(shù)據(jù)進(jìn)行運(yùn)算,還需要在該計算值附近手動尋找最佳值,本例選取了c為7和g為2。
使用CR_train=ClassResult(train_corp_labels,train_pca,model,1)查看訓(xùn)練集結(jié)果。結(jié)果表明:支持向量數(shù)目為93,整體分類準(zhǔn)確率為92.437%(110/119),其中高新技術(shù)企業(yè)分類準(zhǔn)確率為89.8305%(53/59),傳統(tǒng)企業(yè)分類準(zhǔn)確率達(dá)到了95%(57/60),學(xué)習(xí)效果好。同樣的,CR_test=ClassResult(test_corp_labels,test_pca,model,2)命令查看測試集結(jié)果,整體分類準(zhǔn)確率達(dá)到了85.8974%(67/78),其中高新技術(shù)企業(yè)分類準(zhǔn)確率為87.1795%(34/39)傳統(tǒng)企業(yè)分類準(zhǔn)確率達(dá)到了84.6154%。
對于二元分類決策分析,多使用Tp、Fp、Tn和Fn等參數(shù)來計算準(zhǔn)確率、決策率、召回率、F參數(shù)、特異值和綜合平衡參數(shù)等評價模型。其中,Tp表示模型辨識正確的正例數(shù),F(xiàn)p表示模型辨識錯誤的正例數(shù),Tn表示模型辨識正確的反例數(shù),以及Fn表示模型辨識錯誤的反例數(shù)。對于本模型而言,Tp、Fp、Tn和Fn的含義及對應(yīng)數(shù)值如表1:
表1 驗證集參數(shù)結(jié)果表
計算得到準(zhǔn)確度:Accuracy=85.8974%,即高新技術(shù)企業(yè)和傳統(tǒng)企業(yè)都被正確判別的數(shù)量占整個樣本數(shù)的比重,反映了模型對整個樣本的判斷能力;決策率:Precision=85%,表示被模型判斷為高新技術(shù)企業(yè)的40家企業(yè)中,34家真正的高新技術(shù)企業(yè)所占的比重,即模型做出企業(yè)為高新技術(shù)企業(yè)的判斷,Precision表示這一判斷的可信程度;召回率:Recall=87.1795%,表示在實際為高新技術(shù)企業(yè)的39家之中,被模型正確判定為高新技術(shù)企業(yè)的34家企業(yè)所占的百分比,即模型從樣本企業(yè)中正確辨識出高新技術(shù)企業(yè)的能力,該參數(shù)也被稱為靈敏度 (Sensitivity);特異性:Specificity=84.6154%,表示在實際真為傳統(tǒng)企業(yè)的39家之中,被模型正確判定為傳統(tǒng)企業(yè)33家所占的百分比??傮wF評估指數(shù):F-score=86.0759%,總體平衡精度:BAC=85.8975%,上述兩項是綜合評價指標(biāo),評價模型對兩類指標(biāo)的整體判別能力。本模型的主要評價參數(shù)指標(biāo)大于85%,可知本模型在高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識上具有較高的辨識能力和可信度。
構(gòu)建的模型目的是用于對未知企業(yè)是否為高新技術(shù)企業(yè)進(jìn)行辨識,只需要該企業(yè) (或M個企業(yè))的10個參數(shù),構(gòu)成M×10的數(shù)據(jù)矩陣Data,元素為隨機(jī)生成0和1的M×1標(biāo)簽列向量Labels,表明在測試前隨意的劃歸企業(yè)為傳統(tǒng)的非高新的(T)或是高新的 (H),然后使用svmpredict函數(shù),輸出N×1的預(yù)測的標(biāo)簽Predict_label。
[Predict_label,Accuracy]=svmpredict(Labels,Data,model);
需要說明的是,由于Labels中的數(shù)據(jù)是隨機(jī)的,企業(yè)是否為高新技術(shù)企業(yè)未知,只是程序計算時所需的初始賦值,而準(zhǔn)確率Accuracy,僅表示初始的Labels和最終結(jié)果Predict_label相同的比率,在此處是沒有意義的。查看Predict_label列向量的數(shù)據(jù),當(dāng)某行結(jié)果為1時表明對應(yīng)的該企業(yè)是高新的,否則是傳統(tǒng)的。對高新技術(shù)企業(yè)和傳統(tǒng)企業(yè),其預(yù)測結(jié)果的決策接受率,即 Precision和Recall,才是用于預(yù)測時的模型準(zhǔn)確率,由測試集的結(jié)果來看,達(dá)到了85%和87.1795%,因此模型是可靠的。
本文首次將支持向量機(jī)神經(jīng)網(wǎng)絡(luò)引入到高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識研究,建立了一個支持向量機(jī)神經(jīng)網(wǎng)絡(luò)的模型,使用企業(yè)的業(yè)績產(chǎn)出財務(wù)數(shù)據(jù)直接辨識該企業(yè)是屬于高新技術(shù)企業(yè)或者傳統(tǒng)企業(yè)。模型的原始數(shù)據(jù)經(jīng)過正態(tài)分布化、歸一化和主成分分析降維等方法,以徑向基函數(shù)為核函數(shù),使用訓(xùn)練集數(shù)據(jù)訓(xùn)練得到了模型,利用網(wǎng)格尋優(yōu)方法調(diào)節(jié)模型的c參數(shù)和g參數(shù),并使用測試集數(shù)據(jù)驗證了模型的準(zhǔn)確性。使用優(yōu)化后的模型的各項評價參數(shù)都達(dá)到了85%以上,結(jié)果表明模型具有優(yōu)異的辨識能力和可信度,是可以用于高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識的。
使用SVM模型用于高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識的研究,與現(xiàn)有的評測標(biāo)準(zhǔn)相比,提供了一種全新的、可靠的但又操作簡單的量化方法;十項參數(shù)指標(biāo)是對企業(yè)業(yè)績的計量和評價,對企業(yè)的管理者、投資者、戰(zhàn)略政策的研究制定者來說,財務(wù)績效指標(biāo)更加直觀、規(guī)范、容易獲得;且相較于現(xiàn)行的高新技術(shù)企業(yè)認(rèn)定指標(biāo),不存在計量上的爭議和主觀操作性,可以進(jìn)行更客觀的評判。該模型可以運(yùn)用于高新技術(shù)企業(yè)對其業(yè)績表現(xiàn)進(jìn)行自我評價,也可作為各級高新技術(shù)企業(yè)的認(rèn)定管理機(jī)構(gòu)對申請企業(yè)認(rèn)定審查的參考依據(jù),還可作為高新技術(shù)企業(yè)的投資人對被投資企業(yè)綜合業(yè)績表現(xiàn)的評估工具。本論文使用SVM對高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識模型做了初步探索,在參數(shù)指標(biāo)的選擇、模型的優(yōu)化等方面還可進(jìn)一步研究。
[1]R.P.Oakey,S.M.Mukhar.United Kingdom high-technology small firms in theory and practice:a review of recent trends.International Small Business Journal.1999,(17):48 -64.
[2]Nicholas O’Regan,Martin A.Sims.Identifying high technology small firms,A sectoral analysis[J].Technovation,2008,(28):408-423.
[3]C.Cortes,V.Vapnik.Support-Vector Network[J].Machine Learning,1995,(20):273 -297.
[4]楊毓,蒙肖蓮.用支持向量機(jī)(SVM)構(gòu)建企業(yè)破產(chǎn)預(yù)測模型[J].金融研究.2006,(10):67-75.
[5]宋新平,丁永生.基于最優(yōu)支持向量機(jī)模型的經(jīng)營失敗預(yù)警研究[J].管理科學(xué).2008,(2):115-121.
[6]向昌盛,周子英.糧食產(chǎn)量預(yù)測的支持向量機(jī)模型研究[J].湖南農(nóng)業(yè)大學(xué)學(xué)報.2010,(2):6-10.
[7]王今朝,王靜.論高技術(shù)產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)的融合發(fā)展[J].商業(yè)時代.2008,(7):98-99.
[8]Chih-Chung Chang and Chih-Jen Lin,LIBSVM:a library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm,2010.
[9]Faruto and Liyang,LIBSVM-Faruto Ultimate Version.A toolbox with implements for support vector machines based on libsvm[EB/OL].http://www.matlabsky.com,2011.
[10]Hsu C-W.,Chang C C.,Lin C J.A Practical Guide to Support Vector Classification[R].Department of Computer Science and Information Engineering.Taiwan:National Taiwan University,2004.
(責(zé)任編輯 劉傳忠)
Type Identification Model of High-tech Companies and Traditional Companies
Zheng Jia1,Pan Jianxin2,Zhang Ruiwen1
(1.School of Management,University of Science and Technology of China,Hefei 230026,China;2.Institute of Nuclear and New Energy Technology,Tsinghua University,Beijing 100084,China)
This paper presents a novel identification model for the identification of high technology companies and traditional ones from financial performance indexes for the first time,based on the support vector machine(SVM)neural network(NN).The model is on the basis of the data of companies’indexes,employs radial basis function(RFB)as the kernel function.The kernel parameters are selected and adjusted by grid search method.The optimized model is verified by the test data.The results are discussed by binary classification decision analysis.It indicates that the accuracy,precision,recall and other main evaluation indexes of the model are achieved 85%above,which means high reliability.The model provides a reliable,simple and convenient approach for the type identification of high technology companies quantitatively.
High technology companies;Type identification model;Support vector machine;Neural network
F270
A
2012-02-27
鄭佳 (1987-),女,湖北宜昌人,管理學(xué)碩士;研究方向:高新技術(shù)企業(yè)的財務(wù)管理。