孫伯維,姚念民,孫玉軒
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息不論是對(duì)個(gè)人還是對(duì)企業(yè)都顯得尤為重要,企業(yè)本身可以利用企業(yè)現(xiàn)有的經(jīng)營(yíng)數(shù)據(jù),分析企業(yè)經(jīng)營(yíng)狀態(tài)和未來(lái)走勢(shì),及時(shí)進(jìn)行戰(zhàn)略規(guī)劃和調(diào)整,對(duì)于熱衷于投資事業(yè)的個(gè)人或者團(tuán)隊(duì)來(lái)說(shuō),可以合理利用這些數(shù)據(jù),進(jìn)行預(yù)測(cè)和分析,從而確保在選擇股票或者基金等理財(cái)產(chǎn)品的時(shí)候?qū)崿F(xiàn)利益最大化.
在公司披露出的眾多數(shù)據(jù)中,股價(jià)無(wú)疑是最受關(guān)注的數(shù)據(jù),因?yàn)樗砹似髽I(yè)資產(chǎn)的價(jià)值,也和股民的收益直接掛鉤,在東方財(cái)富網(wǎng),新浪財(cái)經(jīng),巨潮網(wǎng)等金融網(wǎng)站上,為我們提供了豐富的數(shù)據(jù)信息以及企業(yè)年報(bào),在深證信數(shù)據(jù)服務(wù)平臺(tái)上我們可以根據(jù)季度獲取上市公司的部分?jǐn)?shù)據(jù)和信息.在這些數(shù)據(jù)中更為重要的便是股價(jià)收益,往往收益排名靠前的更容易被選擇,但由于多種因素,造成股價(jià)收益排名并不穩(wěn)定,如果合理的對(duì)排名做出預(yù)測(cè),便會(huì)提高投資者的收益.
股價(jià)預(yù)測(cè)排名歸根結(jié)底還是一個(gè)排序問(wèn)題,分析問(wèn)題的背景和使用場(chǎng)景,排序?qū)W習(xí)[1]為我們的研究提供了豐富的理論依據(jù).本文首次將排序?qū)W習(xí)方法與股價(jià)收益排名預(yù)測(cè)任務(wù)相結(jié)合,其主要?jiǎng)?chuàng)新在于:1)利用多種排序?qū)W習(xí)方法進(jìn)行實(shí)驗(yàn),構(gòu)建了面向股價(jià)排名預(yù)測(cè)的排序?qū)W習(xí)模型,并且和神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行了對(duì)比實(shí)驗(yàn).2)在特征提取方面加入了公司評(píng)價(jià)信息等文本特征,并且在特征重要程度分析時(shí)證明有效,從而提高了股價(jià)排名預(yù)測(cè)任務(wù)的性能[2].
面對(duì)大量的上市公司的經(jīng)濟(jì)數(shù)據(jù),公司新聞,員工對(duì)公司評(píng)價(jià)等信息,如何從海量數(shù)據(jù)信息中快速挖掘和提取對(duì)我們有用的信息,從而對(duì)股價(jià)進(jìn)行預(yù)測(cè)一直是研究的熱點(diǎn).Mi-ngtao[3]等通過(guò)數(shù)據(jù)轉(zhuǎn)換,網(wǎng)絡(luò)建模等方式提出了基于BP神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)模型,初步實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)在非線性系統(tǒng)中的預(yù)測(cè)任務(wù).Zuo[4]等提出了一種概率圖形模型,它通過(guò)有向無(wú)環(huán)圖表示一組隨機(jī)變量及其條件依賴性,實(shí)現(xiàn)了使用貝葉斯網(wǎng)絡(luò)對(duì)股價(jià)的預(yù)測(cè).Wang[5]等通過(guò)將支持向量回歸并(SVR)與主成分分析(PCA)相結(jié)合,利用PCA從20個(gè)技術(shù)指標(biāo)中選擇V-SVR的輸入變量,用于股票價(jià)格指數(shù)預(yù)測(cè).Selvin等[6],使用深度學(xué)習(xí)架構(gòu)來(lái)識(shí)別數(shù)據(jù)中存在的潛在動(dòng)態(tài).并利用LSTM,RNN,CNN-sliding window三個(gè)模型進(jìn)行了股價(jià)預(yù)測(cè)任務(wù).
本文對(duì)于股價(jià)排名預(yù)測(cè)任務(wù),提出了面向股價(jià)排名預(yù)測(cè)的排序?qū)W習(xí)模型(Stock Price Ranking Prediction,SPRP),該模型可分為三個(gè)模塊,分別是數(shù)據(jù)提取,數(shù)據(jù)處理,數(shù)據(jù)模型,具體流程如圖1所示.
圖1 面向股價(jià)排名預(yù)測(cè)的排序?qū)W習(xí)模型Fig.1 Ranking learning model for stock price ranking prediction
3.1.1 數(shù)據(jù)提取
本文所使用的數(shù)據(jù)主要來(lái)自深證信數(shù)據(jù)服務(wù)平臺(tái)(Sh-enzhen Securities Information CO.Ltd),該網(wǎng)站是在深圳交易所開放的互動(dòng)數(shù)據(jù)交易平臺(tái),上線一周年訪問(wèn)量便過(guò)億,是可靠的數(shù)據(jù)提取平臺(tái).在該平臺(tái)上可以根據(jù)時(shí)間,公司股票代碼查詢到在深圳交易所上市的公司在本季度的每股收益排名情況,以及營(yíng)業(yè)利潤(rùn)率,每股收益率等相關(guān)數(shù)據(jù),根據(jù)排序?qū)W習(xí)模型,可以將平臺(tái)提供的部分?jǐn)?shù)據(jù)以及從公司季度報(bào)表中提出來(lái)的部分?jǐn)?shù)據(jù),經(jīng)過(guò)處理后作為特征,此外在本模型中,還加入了本季度內(nèi)公司正負(fù)面新聞,員工對(duì)公司的評(píng)價(jià)等文本數(shù)據(jù)作為公司的特征,實(shí)驗(yàn)的標(biāo)注結(jié)果來(lái)自于網(wǎng)站的官方排名,由此,實(shí)現(xiàn)了股價(jià)收益排名模型數(shù)據(jù)集的構(gòu)建.但由于排名是包含全部公司的,為了更好訓(xùn)練模型,在接下來(lái)的實(shí)驗(yàn)中,模型將公司分為18類,針對(duì)每個(gè)類別我們利用相同的特征,進(jìn)行某個(gè)類別內(nèi)股價(jià)收益的排名預(yù)測(cè).本文利用網(wǎng)絡(luò)爬蟲爬取了2015年1季度到2018年3季度深交所上市公司所披露的數(shù)據(jù),并根據(jù)公司名稱爬取了該公司指定季度內(nèi)在看準(zhǔn)網(wǎng)的員工評(píng)價(jià),用正負(fù)面評(píng)價(jià)作為特征,以及用公司名字作為關(guān)鍵字爬取百度網(wǎng)頁(yè)上的某季度內(nèi)對(duì)該公司的新聞報(bào)導(dǎo),以正負(fù)面報(bào)道作為特征.將所獲得的數(shù)據(jù)按照季度和公司存儲(chǔ)起來(lái),以便對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.
3.1.2 特征提取
為了確保提取的特征的高效性和充分性,模型主要從數(shù)值和文本兩個(gè)方面進(jìn)行了特征抽取,其中數(shù)值特征分為營(yíng)運(yùn)能力特征,發(fā)展能力特征.營(yíng)運(yùn)能力指的是企業(yè)經(jīng)營(yíng)運(yùn)作管理的能力,簡(jiǎn)單來(lái)講就是企業(yè)利用各項(xiàng)資產(chǎn)來(lái)實(shí)現(xiàn)利潤(rùn)最大化的過(guò)程,因此抽取“營(yíng)業(yè)收入增長(zhǎng)率”,“毛利率”,“營(yíng)業(yè)利潤(rùn)”,“營(yíng)業(yè)利潤(rùn)率”作為營(yíng)運(yùn)能力特征.
對(duì)于企業(yè)的來(lái)說(shuō),營(yíng)運(yùn)和發(fā)展密切相關(guān),相輔相成,企業(yè)的發(fā)展能力,是企業(yè)自身通過(guò)生產(chǎn)經(jīng)營(yíng)活動(dòng),不斷發(fā)展積累壯大資本的發(fā)展?jié)撃?由此進(jìn)一步將“每股收益”,“每股凈資產(chǎn)”,“毛利率”等作為發(fā)展能力特征.
除去以上因素,考慮到公司的運(yùn)營(yíng)狀況也受到非系統(tǒng)性因素的影響,譬如說(shuō)企業(yè)的新聞報(bào)導(dǎo)就會(huì)極大程度的影響公司的運(yùn)營(yíng),負(fù)面新聞過(guò)多勢(shì)必會(huì)給企業(yè)帶來(lái)消極影響,從而影響公司的股票價(jià)格.企業(yè)員工對(duì)公司的評(píng)價(jià)也是一項(xiàng)影響公司股價(jià)的重要指標(biāo),風(fēng)評(píng)較好的企業(yè)勢(shì)必?fù)碛兄己玫钠髽I(yè)文化和經(jīng)營(yíng)方向,這樣的企業(yè)便擁有良好的發(fā)展前景.所以實(shí)驗(yàn)中便又提取了員工評(píng)價(jià)和企業(yè)新聞作為文本特征,其中員工評(píng)價(jià)主要來(lái)自于看準(zhǔn)網(wǎng)的公司評(píng)價(jià),我們對(duì)實(shí)驗(yàn)中公司評(píng)價(jià)進(jìn)行爬取,對(duì)評(píng)級(jí)為1到2星的公司標(biāo)簽置為-1,3星置為0,4到5星置為1.企業(yè)新聞主要是對(duì)指定時(shí)間內(nèi)的公司的新聞進(jìn)行爬取,并利用詞語(yǔ)極性字典對(duì)新聞中的詞頻進(jìn)行統(tǒng)計(jì),其中消極詞頻大于積極詞頻我們將標(biāo)簽置為-1,消極詞頻小于積極詞頻我們將標(biāo)簽置為1,否則為0.實(shí)驗(yàn)特征具體如圖2所示.
圖2 公司特征信息Fig.2 Company′s characteristic information
3.1.3 數(shù)據(jù)預(yù)處理
在提取公司特征數(shù)據(jù)的時(shí)候,存在某些缺失值的情況,因此利用求均值的辦法對(duì)缺失的特征值進(jìn)行處理.例如某個(gè)季度的某個(gè)公司的每股收益數(shù)據(jù)值缺失,利用它上個(gè)季度和下個(gè)季度的均值來(lái)作為缺失的特征值.利用這種方式便可極大程度的減少由于特征值缺失而對(duì)實(shí)驗(yàn)精度的影響.
由于所提取的特征數(shù)值范圍大小不一,通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化,可以將特征值縮放到相同的范圍,以提高排序?qū)W習(xí)模型的訓(xùn)練速度和準(zhǔn)確度.標(biāo)準(zhǔn)化公式為:
(1)
其中feature表示處理前某特征值,μ表示某個(gè)特征所有數(shù)值的均值,δ表示某個(gè)特征所有數(shù)值的方差,result表示處理后的特征值.
3.1.4 數(shù)據(jù)標(biāo)注
深證信數(shù)據(jù)服務(wù)平臺(tái)提供的官方股價(jià)收益排名可以作為數(shù)據(jù)標(biāo)注的標(biāo)簽,具體的標(biāo)記方式為:將下個(gè)季度的某個(gè)公司的排名作為當(dāng)前季度的數(shù)據(jù)標(biāo)注.依據(jù)每個(gè)季度的股價(jià)收益排名將公司劃分為了四個(gè)標(biāo)注等級(jí).
排名在1~3名的公司劃分為第一檔,標(biāo)注為4.這一檔的公司在行業(yè)內(nèi)表現(xiàn)突出,受到整個(gè)行業(yè)的關(guān)注,一般也是股民的首選.排名在4~9名的公司劃分為第二檔,標(biāo)注為3.這一檔的公司一般都有很大的潛力,也會(huì)經(jīng)常擠進(jìn)第一檔,股價(jià)大都呈現(xiàn)平緩上升的趨勢(shì),一般會(huì)受到有一定資歷的股民的青睞.排名在10~16的公司劃分為第三檔標(biāo)注為2.這一檔的公司一般排名波動(dòng)較大,容易受到季節(jié)等因素的影響,但仍然是有潛力的公司,選擇股票時(shí)候也是參考的重要依據(jù).排名在17~25的公司劃分為第四檔,標(biāo)注為1.這一檔的公司一般比較小眾,也會(huì)有一些比較年輕的公司,雖然競(jìng)爭(zhēng)優(yōu)勢(shì)不明顯,但股價(jià)都是呈現(xiàn)上漲的趨勢(shì).排名在25名之后的公司劃分為第五檔,標(biāo)注為0.這一檔的公司一般關(guān)注的人較少,股價(jià)會(huì)呈現(xiàn)虧損的狀態(tài).一般類別的公司數(shù)目大多會(huì)在50個(gè)以上,半數(shù)以上的公司股價(jià)都是盈利的,這些公司也是股民或者投資人比較關(guān)注的公司,所以這樣的劃分是合理的并且具有現(xiàn)實(shí)意義的[7].個(gè)別行業(yè)內(nèi)公司數(shù)目較少的公司,根據(jù)具體情況,對(duì)每一檔內(nèi)的數(shù)據(jù)會(huì)做一些適當(dāng)?shù)恼{(diào)整,但是標(biāo)注為非0的類別都會(huì)占到半數(shù)左右.
為了更加充分和系統(tǒng)地對(duì)股價(jià)收益排名任務(wù)進(jìn)行研究,本文首次將排序?qū)W習(xí)方法和股價(jià)收益排名任務(wù)相結(jié)合,并構(gòu)建了SPRP模型.排序?qū)W習(xí)在信息檢索領(lǐng)域[8]已經(jīng)有著非常成熟的研究,并延伸到多個(gè)熱門領(lǐng)域,憑借著機(jī)器學(xué)習(xí)手段不斷地提高排序結(jié)果.為了使SPRP模型與股價(jià)收益預(yù)測(cè)任務(wù)充分契合,我們構(gòu)建了兩個(gè)領(lǐng)域的概映射關(guān)系,如圖3所示.
圖3 信息檢索與股價(jià)收益排名關(guān)系映射Fig.3 Relationship mapping between information retrieval and stock price ranking
實(shí)驗(yàn)中以季度作為時(shí)間點(diǎn),并以行業(yè)類別對(duì)公司進(jìn)行了劃分,用每個(gè)季度對(duì)應(yīng)信息檢索領(lǐng)域的查詢(query),某個(gè)行業(yè)的某個(gè)季度的公司股價(jià)收益排行與查詢結(jié)果的相關(guān)文檔集合(document set)相對(duì)應(yīng),某季度內(nèi)特定行業(yè)的公司股價(jià)收益排名與文檔相關(guān)等級(jí)(relevant level)相對(duì)應(yīng).通過(guò)映射預(yù)測(cè)公司股價(jià)收益排名便轉(zhuǎn)化為成功檢索出來(lái)的相關(guān)文檔在文檔集合中的排序問(wèn)題.
通過(guò)以上對(duì)SPRP模型在股價(jià)收益排名預(yù)測(cè)任務(wù)中的可行性分析,本文安排了如下實(shí)驗(yàn):使用Random Forests,Rank Net,Random Forests,MART等排序?qū)W習(xí)方法并利用Xgboost,和神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)以便更好的觀察實(shí)驗(yàn)結(jié)果.
經(jīng)過(guò)前面對(duì)數(shù)據(jù)的分析和預(yù)處理,實(shí)驗(yàn)最終形成的結(jié)構(gòu)化數(shù)據(jù)有超過(guò)12000條,在這些數(shù)據(jù)中所屬于的公司門類一共有18個(gè),在保證公司類別間數(shù)據(jù)均衡的情況下,將實(shí)驗(yàn)數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集有公司門類15個(gè)(電力,房產(chǎn)等),格式化數(shù)據(jù)10000多條;訓(xùn)練集有公司門類3個(gè),格式化數(shù)據(jù)2000多條(家電,民航等).
通過(guò)Yu[9]等人的工作,我們知道在經(jīng)過(guò)相關(guān)特征處理之后Xgboost可以對(duì)股價(jià)進(jìn)行預(yù)測(cè),并且有著不錯(cuò)的結(jié)果,可以作為排序?qū)W習(xí)方法用于股價(jià)收益預(yù)測(cè)實(shí)驗(yàn)的對(duì)比實(shí)驗(yàn),通過(guò)Quah[10]等人的工作,我們了解到利用前饋神經(jīng)網(wǎng)絡(luò)可以對(duì)股價(jià)做出基本預(yù)測(cè),并且也是股價(jià)預(yù)測(cè)任務(wù)中的一個(gè)基本模型.在本文的實(shí)驗(yàn)中,將不同的排序?qū)W習(xí)方法運(yùn)用到股價(jià)收益預(yù)測(cè)模型中,對(duì)模型進(jìn)行訓(xùn)練,通過(guò)與Xgboost和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對(duì)比,可以進(jìn)一步對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析和評(píng)價(jià).將排序?qū)W習(xí)方法運(yùn)用到SPRP模型中,并且利用MAP、NDC-G@n作為評(píng)價(jià)指標(biāo).在信息檢索領(lǐng)域,NDCG[11]常用來(lái)衡量和評(píng)價(jià)搜索結(jié)果算法.將NDCG的思想遷移到股價(jià)收益排名任務(wù)中,實(shí)驗(yàn)中對(duì)股價(jià)排名劃分的不同等級(jí),正好與信息檢索中的相關(guān)性相呼應(yīng),所以NDCG指標(biāo)可以幫助我們?cè)u(píng)價(jià)股價(jià)排名預(yù)測(cè)任務(wù)結(jié)果的質(zhì)量.得到的實(shí)驗(yàn)結(jié)果和對(duì)比實(shí)驗(yàn)的結(jié)果如表1所示.
表1 NDCG@n和MAP評(píng)價(jià)結(jié)果(%)Table 1 Evaluation results of NDCG@n and MAP
針對(duì)本文的實(shí)驗(yàn),對(duì)于股價(jià)收益排名而言TOP-K的結(jié)果可能更具有意義,所以我們利用評(píng)價(jià)指標(biāo)ERR@n[12]以及P@n進(jìn)一步對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估.其中ERR代表預(yù)期的倒數(shù)排名,表示用戶的需求被滿足時(shí)停止的位置的倒數(shù)的期望,這一指標(biāo)可以更好的衡量用戶所關(guān)心的企業(yè)有多少排在指定名次內(nèi),其具體實(shí)驗(yàn)結(jié)果見表2.
表2 ERR@n和P@n評(píng)價(jià)結(jié)果(%)Table 2 Evaluation results of ERR@n and P@n
根據(jù)實(shí)驗(yàn)結(jié)果可以得出,SPRP-MART,SPRP -Lambda MART[13]和SPRP-Random Forests 模型對(duì)股價(jià)收益排名預(yù)測(cè)的效果整體上要優(yōu)于SPRP-RankNet,SPRP-ListNet,Xgboo-st以及神經(jīng)網(wǎng)絡(luò)模型,可以看到SPRP-Random Forests模型整體效果是最好的,尤其是在預(yù)測(cè)排名靠前的公司,由于Rank Net[14]利用交叉熵作為損失函數(shù),巧妙的規(guī)避了評(píng)價(jià)指標(biāo)的間斷點(diǎn),故而造成在參數(shù)優(yōu)化的過(guò)程中,模型更加關(guān)注的是造成損失的文檔.相反,當(dāng)對(duì)模型進(jìn)行評(píng)價(jià)時(shí),主要關(guān)注的是排在前面的文檔的相關(guān)程度,所以Rank Net的預(yù)測(cè)結(jié)果稍差一些.
如圖4所示為Xgboost,SPRPP-MART,SPRP-Random For-ests等模型在測(cè)試集上對(duì)股價(jià)收益排名預(yù)測(cè)的NDCG@n 曲線圖,通過(guò)觀察可以得到,SPRP-Random Forests模型的預(yù)測(cè)結(jié)果幾乎在每個(gè)點(diǎn)都是最高值,這說(shuō)明了該模型對(duì)股價(jià)收益排名預(yù)測(cè)的最好,SPRP-MART的預(yù)測(cè)結(jié)果相對(duì)較差,只有在n>13時(shí),才超過(guò)Xgboost和神經(jīng)網(wǎng)絡(luò)模型,縱觀結(jié)果總體,每條曲線都是呈現(xiàn)曲折上升的,但都會(huì)有震蕩點(diǎn)的存在,這與前面對(duì)數(shù)據(jù)的標(biāo)注以及NDCG的計(jì)算規(guī)則有關(guān),由于在標(biāo)注的分界點(diǎn)預(yù)測(cè)誤差會(huì)使NDCG指標(biāo)下降更為明顯,所以在標(biāo)注的分界點(diǎn)指標(biāo)值都會(huì)有比較大的變動(dòng),從圖中還可以得到,Xgboost和神經(jīng)網(wǎng)絡(luò)的NDCG@n曲線的指標(biāo)值整體上偏低,并且數(shù)據(jù)波動(dòng)比較大,穩(wěn)定性比較差,這表明SPRP模型對(duì)股價(jià)預(yù)測(cè)排名更為穩(wěn)定,能夠?qū)φ鎸?shí)排名靠前的公司進(jìn)行較為穩(wěn)定的預(yù)測(cè).
圖4 NDCG@n曲線變化圖Fig.4 Curve change chart of NDCG@n
評(píng)價(jià)指標(biāo)P@n表示在檢索結(jié)果的文檔集合中,相關(guān)性文檔所占的比例,根據(jù)上文提到的對(duì)數(shù)據(jù)的處理以及對(duì)股價(jià)排名等級(jí)的劃分,排名位于某個(gè)行業(yè)內(nèi)的前50%的公司,被認(rèn)定為是相關(guān)的,所以P@n在股價(jià)排名預(yù)測(cè)任務(wù)中,可表示為:在預(yù)測(cè)結(jié)果中排在前n名的公司,它們的真實(shí)排名排在前50%的比例有多少.由于排名靠前的公司股價(jià)變化大多在公司數(shù)目的前50%中變化,所以n的值越小,P@n的值越高,比如表3中多種方法的P@1都達(dá)到了100%,分析實(shí)驗(yàn)結(jié)果,可以得出:SPRP-Rank Boost,SPRP-Random Forests,SPRP--Ada Rank這三種方法的P@n指標(biāo)總體上要高于Neural Net-work和Xgboost方法,但SPRP-ListNet方法表現(xiàn)的較差.
圖5 P@n曲線變化圖Fig.5 Curve change chart of P@n
如圖5所示為Xgboost以及神經(jīng)網(wǎng)絡(luò)和SPRP-MART,SP-RP-Random Forests等方法關(guān)于P@n指標(biāo)在測(cè)試集上的預(yù)測(cè)結(jié)果折線對(duì)比圖.由圖可知,當(dāng)n<3時(shí),除了神經(jīng)網(wǎng)絡(luò)方法之外,其余的方法結(jié)果都接近100%,此時(shí)的模型預(yù)測(cè)出的前3名左右的公司,真實(shí)排名也是排在前面的,當(dāng)n=5時(shí),所有模型都呈明顯下滑的趨勢(shì),原因在于,在n=5附近是第一檔和第二檔的臨界區(qū)域,邊界附近的公司排名波動(dòng)比較大,模型在邊界處的預(yù)測(cè)能力稍顯薄弱,可以觀察到在每個(gè)檔次變化的臨界區(qū)域,都有呈現(xiàn)指標(biāo)值下滑的趨勢(shì),但嵌入在SPRP中的排序?qū)W習(xí)方法下滑的速度明顯較緩慢,并且最后結(jié)果趨于平緩時(shí),Xgboost和神經(jīng)網(wǎng)絡(luò)的指標(biāo)值也都比SPRP-Random Lambda MART等方法低.
如表3所示是深證數(shù)據(jù)平臺(tái)公布的2018年第一季度民航機(jī)場(chǎng)行業(yè)的股價(jià)收益排名以及各排序?qū)W習(xí)模型的預(yù)測(cè)結(jié)果,通過(guò)與官方排名對(duì)比,可以發(fā)現(xiàn),Xgboost模型在股價(jià)收益預(yù)測(cè)排名中表現(xiàn)得不夠理想,只將前三名預(yù)測(cè)正確,4~12名都出現(xiàn)了偏差.SPRP-Random Forests模型的預(yù)測(cè)結(jié)果和官方排名最為貼切,整體效果最好,只將中國(guó)國(guó)航和白云機(jī)場(chǎng)的排名順序顛倒,對(duì)排名靠前的公司預(yù)測(cè)也頗為準(zhǔn)確.在SPRP-Lambda MART[15]模型的預(yù)測(cè)結(jié)果中,第6~7名,10~11名的預(yù)測(cè)結(jié)果剛好與真實(shí)值相反.在SPRP -MART模型的預(yù)測(cè)結(jié)果中,5~8名的排序與真實(shí)結(jié)果相差較大,總體上來(lái)講,這兩個(gè)模型要稍差于SPRP-Random Forests,但遠(yuǎn)強(qiáng)于Xgboost.
表3 部分模型對(duì)排名的預(yù)測(cè)結(jié)果Table 3 Prediction results using baseline and proposed models
如圖6所示是Xgboost模型中各個(gè)特征的重要程度,從圖中可以看出,在Xgboost模型中“凈資產(chǎn)收益”,“每股收益”,“營(yíng)業(yè)利潤(rùn)率”,“凈資產(chǎn)收益”,“企業(yè)新聞”這個(gè)5個(gè)特征對(duì)公司排名貢獻(xiàn)最大,其中凈資產(chǎn)收益最為突出,是最重要的特征.這是因?yàn)閮糍Y產(chǎn)收益是由企業(yè)凈利潤(rùn)和企業(yè)的凈資產(chǎn)做商得到,它直接反應(yīng)了企業(yè)利用資產(chǎn)來(lái)賺取利潤(rùn)的能力.“企業(yè)新聞”關(guān)系到公司的聲譽(yù),發(fā)展前景等,評(píng)價(jià)越正向,未來(lái)股價(jià)收益的可能性越大.“凈資產(chǎn)收益”關(guān)系到公司經(jīng)營(yíng)水平和基礎(chǔ)實(shí)力,收益越高,對(duì)股價(jià)上漲越有幫助.這些指標(biāo)都直接或者間接影響了公司排名.
圖6 Xgboost模型各特征重要程度Fig.6 Importance of Xgboost model features
如圖7所示是SPRP-Random Forests模型各特征的重要程度,通過(guò)分析可以看到“每股收益”在模型中是十分重要的特征,對(duì)排名預(yù)測(cè)等級(jí)預(yù)測(cè)具有很大的貢獻(xiàn).這是因?yàn)楣蓛r(jià)是投資者最關(guān)心的指標(biāo),每股收益直接決定了單只股票的盈利性.“員工評(píng)價(jià)”在Xgboost模型中重要性排在第7位,而在SPRP-Random Forests中卻排在第3位,通過(guò)對(duì)比可以發(fā)現(xiàn),相同的特征在兩個(gè)不同的模型中,貢獻(xiàn)程度有很大差別.但綜合來(lái)看,本文歸納的發(fā)展能力特征和文本特征對(duì)公司排名預(yù)測(cè)擁有更好的實(shí)驗(yàn)效果.
圖7 Random Forests模型的特征重要程度Fig.7 Importance of Random Forests model features
本文提出了一種面向上市公司股價(jià)排名預(yù)測(cè)的排序?qū)W習(xí)模型,對(duì)股價(jià)收益排名進(jìn)行合理的預(yù)測(cè),利用深證信數(shù)據(jù)平臺(tái)上的大量經(jīng)濟(jì)數(shù)據(jù),以及爬取的文本數(shù)據(jù),通過(guò)特征提取,數(shù)據(jù)重構(gòu)等處理,構(gòu)建了實(shí)驗(yàn)所需要的標(biāo)準(zhǔn)化數(shù)據(jù)集,利用模型中嵌入多種排序?qū)W習(xí)方法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,并利用神經(jīng)網(wǎng)絡(luò)和Xgboost方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):SPRP-Random Forests模型對(duì)公司排名預(yù)測(cè)的結(jié)果最為穩(wěn)定,有比較好的效果,并且本文加入的公司新聞和員工評(píng)價(jià)的文本特征能夠有效地提高模型的性能,綜合來(lái)看本文提出的股價(jià)收益排名預(yù)測(cè)模型能夠有效地提高股價(jià)收益排名預(yù)測(cè)任務(wù)的性能.預(yù)測(cè)排名可以在股民選股,投資者選擇行業(yè),行業(yè)內(nèi)結(jié)果優(yōu)化等方面有較大幫助.但本文的模型是對(duì)已經(jīng)在深交所上市的公司進(jìn)行排名預(yù)測(cè),對(duì)于剛上市的公司由于數(shù)據(jù)缺失無(wú)法進(jìn)行排名預(yù)測(cè),又由于這些公司所在的領(lǐng)域比較新興,國(guó)家或者地區(qū)政策等因素影響,短期內(nèi)發(fā)展也是較為勢(shì)頭強(qiáng)勁的.未來(lái)的研究方向,會(huì)對(duì)公司年報(bào)中的呈現(xiàn)的文本進(jìn)行分析和提取,以及通過(guò)分析行業(yè)市盈率,對(duì)比行業(yè)整體發(fā)展情況,對(duì)特征以及排序模型進(jìn)一步完善.