国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于H-op組合算法的財(cái)務(wù)數(shù)據(jù)特征預(yù)測(cè)系統(tǒng)設(shè)計(jì)

2021-09-06 08:55
喀什大學(xué)學(xué)報(bào) 2021年3期
關(guān)鍵詞:財(cái)務(wù)數(shù)據(jù)預(yù)測(cè)特征

吳 笛

(新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,烏魯木齊 830012)

我國(guó)市場(chǎng)存在著嚴(yán)重的信息不對(duì)稱問題,投資者能夠獲取的財(cái)務(wù)信息大多來自企業(yè)的公告,但是由于利益問題,上市公司的實(shí)際財(cái)務(wù)情況往往與預(yù)測(cè)值相差巨大,這非常有損于投資者的利益[1-2].因此與財(cái)務(wù)數(shù)據(jù)特征相關(guān)的預(yù)測(cè)就成為當(dāng)前研究的熱點(diǎn),其中預(yù)測(cè)的核心指標(biāo)就是圍繞著企業(yè)核心利潤(rùn)展開的[3].當(dāng)前一部分財(cái)務(wù)狀況較差的企業(yè),并不是很愿意披露自身的盈利狀況及預(yù)測(cè)情況,并且這類企業(yè)的財(cái)務(wù)披露問題也與其所在行業(yè)存在一定關(guān)聯(lián)[4].在互聯(lián)網(wǎng)時(shí)代,大量學(xué)者已經(jīng)開始對(duì)企業(yè)相關(guān)的財(cái)務(wù)數(shù)據(jù)進(jìn)行處理,并應(yīng)用科學(xué)的方法找到數(shù)據(jù)間存在的關(guān)聯(lián),同時(shí)采用模型選擇最優(yōu)算法[5].隨著計(jì)算機(jī)算法的不斷發(fā)展,越來越多的高級(jí)算法開始應(yīng)用于各大行業(yè),尤其是一些非常適合某種行業(yè)的機(jī)器學(xué)習(xí)算法[6].本研究將混合最優(yōu)選擇算法(Hybrid optimization,H-op)應(yīng)用到研究樣本數(shù)據(jù)中,以便對(duì)企業(yè)財(cái)務(wù)數(shù)據(jù)進(jìn)行有效的預(yù)測(cè),旨在找出當(dāng)前行業(yè)研究適用的最優(yōu)算法,為用戶或企業(yè)提供財(cái)務(wù)盈利預(yù)測(cè)結(jié)果.

1 基于H-op 組合算法的財(cái)務(wù)數(shù)據(jù)特征預(yù)測(cè)系統(tǒng)設(shè)計(jì)

1.1 預(yù)測(cè)系統(tǒng)模塊及混合最優(yōu)選擇H-op 算法設(shè)計(jì)

本次系統(tǒng)設(shè)計(jì)的目的主要是為了提升用戶對(duì)企業(yè)財(cái)務(wù)特征預(yù)測(cè)的判斷能力,預(yù)測(cè)系統(tǒng)主要包括企業(yè)活力、風(fēng)險(xiǎn)評(píng)估、固定資產(chǎn)以及利潤(rùn)四大模塊,財(cái)務(wù)數(shù)據(jù)特征預(yù)測(cè)系統(tǒng)的功能模塊如圖1 所示.

圖1 財(cái)務(wù)數(shù)據(jù)特征預(yù)測(cè)系統(tǒng)的功能模塊

預(yù)測(cè)系統(tǒng)中的四大模塊在不同程度上反映出了企業(yè)的財(cái)務(wù)狀況,不僅有與財(cái)務(wù)狀況密切相關(guān)的模塊,也有與活力、風(fēng)險(xiǎn)等潛在因素相關(guān)的模塊.這些模塊的應(yīng)用,能夠?yàn)橛脩籼峁┢髽I(yè)當(dāng)前的財(cái)務(wù)狀況及未來可能發(fā)生的情況[7].采用圖例及文字表情將預(yù)測(cè)信息傳遞給用戶,同時(shí)系統(tǒng)會(huì)自動(dòng)進(jìn)行預(yù)測(cè)結(jié)果的存檔,以便于以后的搜索[8].本研究主要針對(duì)數(shù)據(jù)處理與算法最優(yōu)選擇方面的問題,采用對(duì)不同學(xué)習(xí)算法進(jìn)行對(duì)比的方式,優(yōu)選出適用于不同行業(yè)的學(xué)習(xí)算法,以對(duì)不同行業(yè)自動(dòng)進(jìn)行算法篩選,從而提升運(yùn)算效率.

本文主要研究的算法為混合最優(yōu)選擇算法,同時(shí)對(duì)7 種機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比研究.該算法主要對(duì)行業(yè)特征進(jìn)行構(gòu)建后,對(duì)不同的行業(yè)運(yùn)用了不同的機(jī)器學(xué)習(xí)算法與歸一化處理方法,Hop 主要是對(duì)不同行業(yè)的樣本數(shù)據(jù)進(jìn)行了訓(xùn)練,并依據(jù)行業(yè)預(yù)測(cè)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行預(yù)測(cè)對(duì)比,選取出最優(yōu)模型應(yīng)用到行業(yè)預(yù)測(cè)工作中[9].本研究的樣本數(shù)據(jù)是由網(wǎng)易財(cái)經(jīng)所提供,均為我國(guó)上市公司歷年來的季度財(cái)務(wù)報(bào)表,運(yùn)用爬蟲方式將數(shù)據(jù)保存至表格中備用,包括了現(xiàn)金流量表、利潤(rùn)表、資產(chǎn)負(fù)債表.整理相關(guān)樣本數(shù)據(jù),由于不同表格的數(shù)據(jù)存在著相對(duì)獨(dú)立性,對(duì)機(jī)器學(xué)習(xí)的訓(xùn)練造成一定影響,所以本研究將現(xiàn)金流量表、利潤(rùn)表、資產(chǎn)負(fù)債表進(jìn)行了合并,并采用上市公司股票代碼作為標(biāo)識(shí),再轉(zhuǎn)置得出表格,這樣便能得到合并后的表.該表縱軸表示按照時(shí)間序列分布的數(shù)據(jù)值,橫軸表示數(shù)據(jù)特征,如圖2 所示.

圖2 數(shù)據(jù)資料整合

由圖2 可以看出,合并后的數(shù)據(jù)特征綜合了現(xiàn)金流量表、利潤(rùn)表、資產(chǎn)負(fù)債表的數(shù)據(jù)特征,包含了243 個(gè)數(shù)據(jù)特征,上市公司數(shù)量超過了三千家,并且均包括了十年以上的季度報(bào)表數(shù)據(jù).通過對(duì)數(shù)據(jù)特征進(jìn)行觀察后,可以看到隨著各年度季度的增加,數(shù)據(jù)值也隨之增加,為了使本研究不會(huì)受到數(shù)據(jù)值逐年增加的影響,對(duì)數(shù)據(jù)進(jìn)行一次遞減,并按照季度劃分的方式將表格數(shù)據(jù)進(jìn)行相對(duì)獨(dú)立的整理.

由于不同行業(yè)之間存在著不同的影響因素,財(cái)務(wù)數(shù)據(jù)特征的預(yù)測(cè)是否合理,還是要對(duì)具體的行業(yè)進(jìn)行區(qū)分,這樣也能夠有效提升模型的訓(xùn)練效率.這就需要對(duì)數(shù)據(jù)集提前進(jìn)行行業(yè)劃分,對(duì)獨(dú)立的行業(yè)樣本數(shù)據(jù)進(jìn)行獨(dú)立表格整理[10].本研究根據(jù)當(dāng)前上市企業(yè)行業(yè)劃分標(biāo)準(zhǔn),對(duì)我國(guó)三千多家上市企業(yè)進(jìn)行了行業(yè)劃分,劃分出61 種行業(yè),并單獨(dú)對(duì)各個(gè)行業(yè)進(jìn)行獨(dú)立表格整理,行業(yè)分類如表1 所示.

表1 行業(yè)分類(部分)

由于本研究的樣本數(shù)據(jù)較為特殊,報(bào)表合并后存在大量的數(shù)據(jù)特征,因此要提前篩選出適用的數(shù)據(jù)特征,并統(tǒng)計(jì)數(shù)據(jù)特征的個(gè)數(shù).由于部分?jǐn)?shù)據(jù)特征存在缺失情況,故將該類部分?jǐn)?shù)據(jù)進(jìn)行剔除,以避免對(duì)預(yù)測(cè)結(jié)果的干擾[11].保留85%以上的數(shù)據(jù)特征,并選取剩余部分?jǐn)?shù)據(jù)的特征.還要對(duì)某些行業(yè)的數(shù)據(jù)存在的特殊情況進(jìn)行分析,有時(shí)某一個(gè)數(shù)據(jù)的特征,在絕大多數(shù)行業(yè)中數(shù)值極低,然而在個(gè)別行業(yè)中數(shù)值卻極高,甚至高于90%.本研究列舉了個(gè)別特征進(jìn)行觀察,如數(shù)據(jù)“手續(xù)費(fèi)及傭金收入”的特征,在大部分行業(yè)中均低于10%;然而在券商信托與銀行行業(yè)中,數(shù)值卻非常高,銀行行業(yè)竟達(dá)到了99%.如圖3 所示.

圖3 比較不同行業(yè)的“負(fù)債合計(jì)”“手續(xù)費(fèi)及傭金收入”特征數(shù)值

由圖3 可看出,全部行業(yè)中“負(fù)債合計(jì)”均保持在100%左右,然而“手續(xù)費(fèi)及傭金收入”,卻只有銀行行業(yè)與券商信托行業(yè)最特殊.同樣也有許多相似的情況,例如“保險(xiǎn)合同準(zhǔn)備金”與“所得稅費(fèi)用”的數(shù)值統(tǒng)計(jì)情況,如圖4 所示.由圖4 可知,全部行業(yè)中“負(fù)債合計(jì)”均保持在95%左右,但“保險(xiǎn)合同準(zhǔn)備金”在大部分行業(yè)中保持在0上下,只有保險(xiǎn)行業(yè)數(shù)值最為特殊,在75%上下.此外,有許多數(shù)據(jù)特征具有顯著的行業(yè)差異性.

圖4 比較不同行業(yè)的“所得稅費(fèi)用”“保險(xiǎn)合同準(zhǔn)備金”特征數(shù)值

為了確保預(yù)測(cè)結(jié)果的準(zhǔn)確性,本研究應(yīng)用了python 軟件對(duì)數(shù)據(jù)特征與利潤(rùn)進(jìn)行了相關(guān)性分析.畫出每個(gè)行業(yè)的獨(dú)有的特征圖,并進(jìn)行對(duì)比觀察,篩選出二者中呈現(xiàn)正相關(guān)的數(shù)據(jù)特征,進(jìn)行數(shù)據(jù)記錄.通常會(huì)因?yàn)閿?shù)據(jù)量過于巨大,導(dǎo)致分析時(shí)間與成本較高,并且難度也非常高.本研究對(duì)相同行業(yè)中的公司進(jìn)行隨機(jī)抽樣,共進(jìn)行3輪,每輪抽取2 個(gè)公司,總計(jì)對(duì)6 個(gè)不同的公司進(jìn)行數(shù)據(jù)特征的相關(guān)性分析.將數(shù)據(jù)相關(guān)性較高的特征選作行業(yè)預(yù)測(cè)特征,剔除相關(guān)性較差的數(shù)據(jù),并將分析結(jié)果進(jìn)行整合.例如“保險(xiǎn)合同準(zhǔn)備金”特征在保險(xiǎn)行業(yè)中的呈現(xiàn)出較高的正相關(guān)性,所以該特征相對(duì)于保險(xiǎn)行業(yè)為有效特征,而該特征在安防設(shè)備行業(yè)卻顯示非常雜亂,因此在安防設(shè)備行業(yè)中應(yīng)剔除“保險(xiǎn)合同準(zhǔn)備金”特征.因此,相同的數(shù)據(jù)特征會(huì)在不同行業(yè)中具有不同的相關(guān)性.

從分析整理完成的數(shù)據(jù),可以看到數(shù)據(jù)特征不同也會(huì)引起數(shù)據(jù)量級(jí)的不同,造成在預(yù)測(cè)時(shí)結(jié)果會(huì)偏向于數(shù)據(jù)差值較大的特征,因此要對(duì)樣本數(shù)據(jù)運(yùn)用歸一化處理方法,以使不同數(shù)據(jù)特征間具有可比性[12].例如某些大型企業(yè)經(jīng)營(yíng)狀態(tài)良好,盈利遠(yuǎn)高于中小型企業(yè),因此其本身盈利值數(shù)據(jù)特征相對(duì)大很多.為了能夠消除這種差距給預(yù)測(cè)結(jié)果帶來的影響,本次研究將對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理,以便數(shù)據(jù)之間具有可比性,提升了后期訓(xùn)練優(yōu)化的準(zhǔn)確度,最終可得到相對(duì)準(zhǔn)確的預(yù)測(cè)值.歸一化主要包括了極差、標(biāo)準(zhǔn)、正則三種方法,分別如下式所示:

式(1)-(3)中,max為最大值,min為最小值,xi為當(dāng)前數(shù)據(jù),std為標(biāo)準(zhǔn)差,mean為平均值,l1,l2均表示正則化.歸一化處理是將數(shù)據(jù)轉(zhuǎn)化成[0,1 ]之間的數(shù)值,且不同歸一化處理方法得出的結(jié)果不同,所以歸一化處理也會(huì)影響到算法的優(yōu)化,選取合適的歸一化處理方法能夠很好提升算法效率.

機(jī)器學(xué)習(xí)算法通常有較多參數(shù),本研究對(duì)各種學(xué)習(xí)算法設(shè)定了固定參數(shù),例如在LSTM 中設(shè)定迭代次數(shù)為80,學(xué)習(xí)率為0.0001,神經(jīng)元個(gè)數(shù)為100.決策樹參數(shù)選取為默認(rèn),隨機(jī)森林決策樹個(gè)數(shù)選取為80~100,支持向量機(jī)迭代次數(shù)為1000~10000,并且LSTM主要由pytorch框架來進(jìn)行優(yōu)化.

1.2 設(shè)計(jì)評(píng)估標(biāo)準(zhǔn)

通常對(duì)算法的評(píng)判標(biāo)準(zhǔn)為算法的準(zhǔn)確度,本研究的重點(diǎn)為回歸問題中的數(shù)值誤差.對(duì)于系統(tǒng)中財(cái)務(wù)樣本數(shù)據(jù)的評(píng)判,要對(duì)行業(yè)規(guī)范具有一定的了解.盈利預(yù)測(cè)可靠性的計(jì)量指標(biāo)為平均預(yù)測(cè)誤差率與預(yù)測(cè)誤差率.由于本研究主要是對(duì)企業(yè)財(cái)務(wù)特征進(jìn)行預(yù)測(cè),因此只對(duì)誤差進(jìn)行判別,不考慮具體誤差的樂觀度.在進(jìn)行預(yù)測(cè)過程中,為了確保預(yù)測(cè)結(jié)果不為負(fù),需要對(duì)公式進(jìn)行調(diào)整,對(duì)公式取絕對(duì)值,預(yù)測(cè)誤差率的計(jì)算如下式:

式(4)中,F(xiàn)P表示預(yù)測(cè)值,AP表示實(shí)際值.而平均預(yù)測(cè)誤差率如式

所示.

將我國(guó)上市公司財(cái)務(wù)特征預(yù)測(cè)可靠性標(biāo)準(zhǔn)設(shè)定為三類:一是FE≤10%,可靠性較高;二是10%<FE≤20%,可靠性一般;三是FE>20%,可靠性很差.上述標(biāo)準(zhǔn)為評(píng)判標(biāo)準(zhǔn),為確保算法的有窮性,若預(yù)測(cè)結(jié)果收斂于迭代范圍內(nèi),則將結(jié)果輸出;若預(yù)測(cè)結(jié)果不能在迭代范圍內(nèi)收斂,則對(duì)比最大迭代次數(shù).選取上文中所述適合的歸一化處理方法能夠較好地提升運(yùn)算準(zhǔn)確度.因此,本研究將按照以上評(píng)判標(biāo)準(zhǔn),以銀行行業(yè)、軟件服務(wù)業(yè)為例,對(duì)比三種歸一化處理方式的結(jié)果,能夠較好地看出不同歸一化方式對(duì)結(jié)果準(zhǔn)確率的影響.

2 系統(tǒng)算法混合最優(yōu)選擇H-op測(cè)試分析

2.1 不同機(jī)器學(xué)習(xí)預(yù)測(cè)算法在不同行業(yè)中的應(yīng)用對(duì)比

本研究首先以銀行金融業(yè)為例,應(yīng)用歸一化方法對(duì)測(cè)試數(shù)據(jù)進(jìn)行了處理,并將實(shí)際結(jié)果與機(jī)器學(xué)習(xí)預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,如圖5 所示.

由圖5 可以發(fā)現(xiàn)各種算法對(duì)銀行業(yè)存在不同程度的影響,為了方便觀察對(duì)比結(jié)果,這里將以準(zhǔn)確率的形式進(jìn)行各種算法的對(duì)比,結(jié)果如圖6 所示.

圖6 銀行行業(yè)結(jié)果準(zhǔn)確率對(duì)比

由圖6 可以看出,H-op 在學(xué)習(xí)與歸一化方法組合后,選取了銀行行業(yè)中準(zhǔn)確率最高的灰色預(yù)測(cè)算法.為了能夠更為全面的展示結(jié)果,本研究還針對(duì)軟件服務(wù)業(yè),對(duì)該行業(yè)的相關(guān)數(shù)據(jù)進(jìn)行了不同機(jī)器學(xué)習(xí)方法的預(yù)測(cè),并與實(shí)際結(jié)果進(jìn)行對(duì)比,結(jié)果如圖7 所示.

由圖7 可知,在各種算法中預(yù)測(cè)值與真實(shí)值幾乎完全重合,并且不同學(xué)習(xí)方法對(duì)軟件服務(wù)業(yè)也具有不同預(yù)測(cè)效果.本研究以準(zhǔn)確率為標(biāo)準(zhǔn),比較各種學(xué)習(xí)算法之間的準(zhǔn)確率,結(jié)果如圖8 所示.

圖7 軟件服務(wù)業(yè)誤差圖

圖8 軟件服務(wù)業(yè)結(jié)果準(zhǔn)確率對(duì)比

由以上分析對(duì)比可以得出,銀行行業(yè)中采用灰色預(yù)測(cè)算法更為合適,而軟件服務(wù)業(yè)則除了灰色預(yù)測(cè)算法外,其他算法均表現(xiàn)較好,因此,應(yīng)該針對(duì)各自行業(yè)的適用學(xué)習(xí)算法進(jìn)行進(jìn)一步優(yōu)化,以提升相關(guān)行業(yè)的預(yù)測(cè)準(zhǔn)確率.

2.2 財(cái)務(wù)數(shù)據(jù)特征預(yù)測(cè)系統(tǒng)算法性能測(cè)試

根據(jù)相同的對(duì)比方法,本研究整理60 多類行業(yè)的算法選擇表,作為系統(tǒng)算法選擇的依據(jù).如表2所示.

表2 系統(tǒng)算法選擇表(部分)

在設(shè)計(jì)的系統(tǒng)中導(dǎo)入表2內(nèi)容,由表格內(nèi)容來決定行業(yè)預(yù)測(cè)算法的選擇.在進(jìn)行系統(tǒng)預(yù)測(cè)時(shí),首先要輸入行業(yè)代碼,系統(tǒng)會(huì)根據(jù)行業(yè)代碼進(jìn)行行業(yè)判定,從而選擇合適的學(xué)習(xí)算法進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果進(jìn)行記錄,把預(yù)測(cè)結(jié)果顯示在初始財(cái)務(wù)整合表內(nèi),以備今后數(shù)據(jù)的查詢.這樣節(jié)省了學(xué)習(xí)算法的學(xué)習(xí)耗時(shí),增強(qiáng)系統(tǒng)的運(yùn)算效率.其次,要對(duì)本研究所提出的H-op 組合算法進(jìn)行測(cè)試,測(cè)試內(nèi)容包括了算法的搜索時(shí)間和搜索結(jié)果的驗(yàn)證.在系統(tǒng)中輸入行業(yè)代碼時(shí),系統(tǒng)會(huì)直接進(jìn)行行業(yè)判定,并依據(jù)行業(yè)的不同選擇計(jì)算效率最高的算法進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果返回,預(yù)測(cè)結(jié)果如表3所示.

表3 算法預(yù)測(cè)結(jié)果

由表3 可知,在系統(tǒng)中輸入不同行業(yè)代碼時(shí),系統(tǒng)響應(yīng)速度快,且輸出結(jié)果均正確,反映出算法性能優(yōu)越,同時(shí)具有非常高的穩(wěn)定性.所以文中提出的算法測(cè)試結(jié)果優(yōu)良,整體測(cè)試效果符合設(shè)計(jì)預(yù)期.

3 結(jié)論

本研究針對(duì)企業(yè)財(cái)務(wù)數(shù)據(jù)的預(yù)測(cè)問題,對(duì)基于H-op 組合算法的財(cái)務(wù)數(shù)據(jù)特征預(yù)測(cè)系統(tǒng)進(jìn)行了設(shè)計(jì)研究.結(jié)果顯示,在銀行行業(yè)中采用灰色預(yù)測(cè)算法更為合適,而軟件服務(wù)業(yè)則在各種算法中預(yù)測(cè)值與真實(shí)值幾乎完全重合,并且不同學(xué)習(xí)方法對(duì)軟件服務(wù)業(yè)也具有不同預(yù)測(cè)效果,除了灰色預(yù)測(cè)算法外,其他算法均表現(xiàn)較好;設(shè)計(jì)算法節(jié)省了學(xué)習(xí)算法的學(xué)習(xí)耗時(shí),增強(qiáng)系統(tǒng)的運(yùn)算效率;整理60 多類行業(yè)的算法選擇表,作為系統(tǒng)算法選擇的依據(jù);在系統(tǒng)中輸入不同行業(yè)代碼時(shí),系統(tǒng)響應(yīng)速度快,且輸出結(jié)果均正確,反映出算法性能優(yōu)越和非常高的穩(wěn)定性.因此本文提出的算法測(cè)試結(jié)果優(yōu)良,整體測(cè)試效果符合設(shè)計(jì)預(yù)期.

猜你喜歡
財(cái)務(wù)數(shù)據(jù)預(yù)測(cè)特征
根據(jù)方程特征選解法
無可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
離散型隨機(jī)變量的分布列與數(shù)字特征
不忠誠(chéng)的四個(gè)特征
2018上市公司中報(bào)主要財(cái)務(wù)數(shù)據(jù)(8)
2017上市公司年報(bào)主要財(cái)務(wù)數(shù)據(jù)(6)
2017年上市公司年報(bào)主要財(cái)務(wù)數(shù)據(jù)(1)
荣成市| 武清区| 巨野县| 璧山县| 南靖县| 怀安县| 古蔺县| 南康市| 正镶白旗| 涿鹿县| 贵港市| 西城区| 烟台市| 广河县| 英超| 阜新| 汽车| 乡宁县| 安达市| 凤城市| 岱山县| 海门市| 晋中市| 新平| 中方县| 常宁市| 永春县| 武邑县| 西乡县| 潼关县| 桃源县| 亳州市| 岚皋县| 河间市| 诏安县| 囊谦县| 龙海市| 越西县| 思茅市| 郁南县| 卢氏县|