龍 文,田嘉祺,毛元豐
中國科學(xué)院大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京 100190
隨著國民經(jīng)濟(jì)的發(fā)展和金融市場的完善,越來越多的人開始進(jìn)行金融投資,其中股票成為重要投資工具。如何根據(jù)已有信息判斷股價(jià)趨勢并進(jìn)行相應(yīng)的交易操作是獲得超額收益的關(guān)鍵。按來源,信息可以分為內(nèi)幕信息和公開信息,利用內(nèi)幕信息從事證券交易活動(dòng)違反法律法規(guī),假設(shè)市場中不存在內(nèi)幕交易,那么信息的重要來源之一就是公開的財(cái)經(jīng)新聞。
學(xué)術(shù)界關(guān)于新聞對(duì)股價(jià)影響的研究已有50年歷史,很多研究都證實(shí)了新聞對(duì)股票價(jià)格和股票收益存在影響[1-6]。新聞可以被劃分為多個(gè)層級(jí),如公司新聞、行業(yè)新聞和市場新聞[7],其中市場新聞和行業(yè)新聞屬于共性信息,公司新聞屬于特性信息。研究由早期對(duì)市場新聞和行業(yè)新聞的關(guān)注,逐漸轉(zhuǎn)向?qū)€(gè)股新聞的關(guān)注,Durnev等[8-9]認(rèn)為,股價(jià)變動(dòng)與市場平均變動(dòng)存在的較大差異主要是由個(gè)股信息導(dǎo)致的,Li等[10]認(rèn)為,媒體對(duì)某一公司基本信息的報(bào)道會(huì)顯著增加投資者的交易量;汝毅等[11]認(rèn)為,違規(guī)公司的事前新聞報(bào)道存在不對(duì)稱性的雙向聲譽(yù)溢出效應(yīng)。近年來,國外學(xué)者開始關(guān)注多個(gè)層面的財(cái)經(jīng)新聞,Shynkevich等[12]使用個(gè)股新聞、行業(yè)新聞等五種類別的新聞進(jìn)行了系統(tǒng)性研究,發(fā)現(xiàn)基于五類新聞的預(yù)測在預(yù)測精度和交易回報(bào)率上表現(xiàn)最優(yōu)。但國內(nèi)學(xué)者很少對(duì)新聞層次進(jìn)行區(qū)分,研究集中于個(gè)股新聞[13-14],或者按時(shí)間段或關(guān)鍵詞[15-17]爬取全部新聞。雖然有研究劃分了個(gè)股新聞與行業(yè)新聞,如徐偉等[18]對(duì)比個(gè)股新聞和行業(yè)新聞對(duì)股價(jià)的影響,發(fā)現(xiàn)個(gè)股新聞的影響更大,但研究對(duì)象仍是單層級(jí)的新聞,缺少多層級(jí)新聞的綜合利用。
從研究方法上看,股價(jià)預(yù)測的研究起步較早,計(jì)量預(yù)測模型[19-21]被廣泛應(yīng)用。近年來,文本挖掘和機(jī)器學(xué)習(xí)在股價(jià)預(yù)測研究中的應(yīng)用增多,隨著一些技術(shù)難題不斷被解決,得出的結(jié)論相對(duì)更準(zhǔn)確,預(yù)測質(zhì)量得到明顯提升,其中支持向量機(jī)(support vector machine,SVM)被廣泛使用,其在克服維數(shù)過大和過度擬合學(xué)習(xí)方面具有優(yōu)勢。Kim[22]基于技術(shù)指標(biāo)利用支持向量機(jī)進(jìn)行股價(jià)預(yù)測。黃進(jìn)等[23]用結(jié)合了依存句法支持向量機(jī)預(yù)測金融領(lǐng)域的的輿情。戴德寶等[24]構(gòu)建上證投資者情緒綜合指數(shù),使用支持向量機(jī)預(yù)測股指走勢。SVM有多種核函數(shù),針對(duì)如何充分利用各種核函數(shù)的特點(diǎn)以提高學(xué)習(xí)效果這一問題,多核學(xué)習(xí)模型產(chǎn)生并成為核方法研究的熱點(diǎn)。與SVM相比,多核學(xué)習(xí)(multi-kernel learning,MKL)模型的靈活性更強(qiáng),理論和實(shí)證研究已經(jīng)證明其在決策函數(shù)的可解釋性、核函數(shù)的選擇、預(yù)測精度的提升等方面具有優(yōu)勢[25-26]。Shynkevich等[12]以及Nam等[27]基于MKL模型訓(xùn)練新聞文本,對(duì)股價(jià)做出有效預(yù)測。
根據(jù)以上文獻(xiàn),新聞對(duì)股價(jià)存在影響,且被認(rèn)為是一項(xiàng)很重要的信息源并用于股價(jià)預(yù)測。而新聞具有多個(gè)層級(jí),但國內(nèi)學(xué)者很少對(duì)其關(guān)注?;诖耍疚膹男侣剬蛹?jí)性入手,研究多層級(jí)新聞體系對(duì)股價(jià)趨勢的預(yù)測作用,并以此建立交易策略進(jìn)行模擬交易判斷其對(duì)市場交易行為是否具有實(shí)際價(jià)值。同一經(jīng)濟(jì)體下同一行業(yè)的公司面臨的法律環(huán)境和市場供需環(huán)境相同,信息一致,且經(jīng)營情況具有強(qiáng)相關(guān)性[28]。因此,本文在個(gè)股新聞的基礎(chǔ)上加入子行業(yè)新聞和行業(yè)新聞構(gòu)建多層級(jí)新聞集。在方法方面,選擇MKL模型以更好地利用各層級(jí)新聞包含的信息。
本文可能的貢獻(xiàn)有兩個(gè)方面:一是多層級(jí)新聞體系的構(gòu)建,本文用個(gè)股新聞、子行業(yè)新聞和行業(yè)新聞構(gòu)成一個(gè)完整的立體新聞系統(tǒng),補(bǔ)充了該領(lǐng)域的國內(nèi)研究;二是結(jié)合了新聞信息集、模型兩個(gè)維度,通過實(shí)驗(yàn)發(fā)現(xiàn)引入多層級(jí)新聞的MKL模型預(yù)測準(zhǔn)確率最高,且其在實(shí)際投資活動(dòng)中具有重要價(jià)值。
本文選擇醫(yī)療行業(yè)為樣本行業(yè),主要原因如下:一是該行業(yè)較為典型,是當(dāng)前也是未來的熱點(diǎn)行業(yè)之一;二是該行業(yè)有規(guī)范的行業(yè)及子行業(yè)劃分標(biāo)準(zhǔn),便于構(gòu)建多層級(jí)新聞體系;三是該行業(yè)新聞報(bào)道數(shù)量較為充足,能夠滿足研究的需要。本文以全球行業(yè)分類標(biāo)準(zhǔn)(GICS)為基礎(chǔ),參考證監(jiān)會(huì)行業(yè)分類標(biāo)準(zhǔn),將醫(yī)療行業(yè)劃分為醫(yī)療保健用品、保健護(hù)理服務(wù)、生物科技、制藥這四個(gè)子行業(yè)。
本文從醫(yī)療行業(yè)中選取15支新聞數(shù)量最多且覆蓋全部子行業(yè)的股票作為研究樣本,樣本股票情況見表1。
表1 樣本股票Table 1 Sample stocks
數(shù)據(jù)包括股價(jià)數(shù)據(jù)和新聞數(shù)據(jù),研究期間為2013年8月至2017年3月。股價(jià)數(shù)據(jù)包括樣本股的開盤價(jià)與收盤價(jià),用以判斷股價(jià)趨勢,數(shù)據(jù)來源為wind。新聞數(shù)據(jù)是利用爬蟲程序在新浪財(cái)經(jīng)網(wǎng)站爬取的樣本股的個(gè)股新聞及當(dāng)天對(duì)應(yīng)的子行業(yè)新聞及行業(yè)新聞,爬取內(nèi)容包括新聞的標(biāo)題、日期、正文等,共獲得18 000余條個(gè)股新聞、近10 000條子行業(yè)新聞和34 000余條行業(yè)新聞。由于我國股市在交易日的15點(diǎn)停盤,因此本文認(rèn)為15點(diǎn)之后的新聞對(duì)當(dāng)天的股價(jià)不產(chǎn)生影響,將本交易日15點(diǎn)之后的新聞歸入下一個(gè)交易日的新聞文本之中。周末、節(jié)假日等休市日的新聞,使用同樣的方法進(jìn)行處理。
本文使用Python中文分詞工具“Jieba”對(duì)爬取的新聞文本進(jìn)行分詞處理分詞,提取文本對(duì)應(yīng)的特征詞條。分詞后導(dǎo)入停用詞詞典,篩掉停用詞,降低噪音影響。之后,運(yùn)用TF-IDF方法提取特征向量并計(jì)算權(quán)重,該方法常用于文本挖掘。TF為詞頻,用于計(jì)算該詞描述文檔內(nèi)容的能力;IDF為逆文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力,兩者的表達(dá)式如下:
其中ni,j是詞ti在文件dj中的出現(xiàn)次數(shù),∑knk,j是文件dj中所有詞匯出現(xiàn)次數(shù)的總和。
其中,|D|是語料庫中的文件總數(shù),|{j:ti∈dj}|表示包含詞語ti的文件數(shù)目,為防止分母為0,通常使用(1 +| {j:ti∈dj}|)。
IF-IDF為TF與IDF的乘積,某文件內(nèi)的高詞語頻率和該詞語在整個(gè)文件集中的低文件頻率可產(chǎn)生高TF-IDF值,即某個(gè)詞對(duì)文章的重要性越高,它的TF-IDF值就越大。
在提取每篇新聞的特征詞頻并計(jì)算權(quán)重后,以當(dāng)日股價(jià)變化作為分類標(biāo)簽,對(duì)每支股票同一天的新聞集合進(jìn)行訓(xùn)練,訓(xùn)練模型為多核學(xué)習(xí)(MKL)模型。
1.3.1 支持向量機(jī)
SVM是90年代中期發(fā)展起來的基于統(tǒng)計(jì)學(xué)理論的一種二類分類器,它與傳統(tǒng)統(tǒng)計(jì)方法的不同在于它以最小化結(jié)構(gòu)風(fēng)險(xiǎn)為原則,在不增加經(jīng)驗(yàn)風(fēng)險(xiǎn)的前提下,將置信區(qū)間的范圍最大限度地縮小,同時(shí)保證樣本預(yù)測誤差最小。
SVM的具體原理是在n維空間中找到一個(gè)分類超平面,從而將空間上的點(diǎn)分類,分類依據(jù)是最大化預(yù)測點(diǎn)距超平面的距離,如果遇到線性不可分的情況,可以利用核函數(shù)將數(shù)據(jù)從低維映射到高維特征空間,將低維特征空間的非線性問題轉(zhuǎn)換成高維特征空間的最優(yōu)線性問題,特征空間由核函數(shù)來定義。另外,核函數(shù)可以在低維空間進(jìn)行運(yùn)算,避免了在高維空間中的復(fù)雜計(jì)算。根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)K(xi,xj)滿足Mercer條件,它就對(duì)應(yīng)某一變換空間中的內(nèi)積,即可用核函數(shù)替代內(nèi)積,構(gòu)造優(yōu)化問題如下:
核函數(shù)的選取與構(gòu)造是運(yùn)用SVM解決實(shí)際問題的關(guān)鍵,目前研究中廣泛使用三種形式的核函數(shù),分別是線性核函數(shù)(line)、多項(xiàng)式核函數(shù)(poly)和高斯核函數(shù)(又稱徑向基核函數(shù),簡稱rbf),表達(dá)式如下:
其中,Xi、Xj是低維特征向量,γ、r和d是人工設(shè)置的參數(shù),d是一個(gè)正整數(shù),γ是正實(shí)數(shù),r是非負(fù)實(shí)數(shù)。
1.3.2 多核學(xué)習(xí)模型
多核學(xué)習(xí)模型是由核函數(shù)通過“積運(yùn)算”或者“線性組合”的方式構(gòu)造而成的。單核函數(shù)有局部性核函數(shù)和全局性核函數(shù)兩類,其中局部性核函數(shù)學(xué)習(xí)能力強(qiáng),泛化性能較弱,而全局性核函數(shù)泛化能力強(qiáng),學(xué)習(xí)能力較弱,高斯核函數(shù)屬于前者,多項(xiàng)式核函數(shù)屬于后者。本文把這兩類核函數(shù)結(jié)合起來,使用線性核、多項(xiàng)式核和高斯核的線性組合對(duì)樣本進(jìn)行訓(xùn)練,對(duì)每一個(gè)核也指定多組參數(shù),將最優(yōu)線性組合結(jié)果作為最終使用的模型。另外,與SVM不同,MKL模型加入學(xué)習(xí)權(quán)重這個(gè)變量,該變量也會(huì)影響訓(xùn)練精度,因此運(yùn)用核函數(shù)可將特征空間中的數(shù)據(jù)表達(dá)問題轉(zhuǎn)換成核權(quán)重的選取問題。三個(gè)基核函數(shù)表達(dá)式同式(5)~(7),多核學(xué)習(xí)模型見式(8):
其中,wj表示各基核函數(shù)的權(quán)重。
本文根據(jù)股價(jià)漲跌為新聞打標(biāo)簽:如果價(jià)格上漲,那么當(dāng)天的新聞被打上正標(biāo)簽,否則就打上負(fù)標(biāo)簽。將每支股票同一天的所有新聞作為輸入,當(dāng)日股價(jià)的漲跌作為標(biāo)簽,一同進(jìn)入模型進(jìn)行訓(xùn)練,其中80%的樣本為訓(xùn)練集,剩余20%為測試集。
本文選擇預(yù)測準(zhǔn)確率作為評(píng)估分類器性能的標(biāo)準(zhǔn),預(yù)測準(zhǔn)確率用正確預(yù)測的樣本占所有樣本的比重表示,計(jì)算公式如下:
其中,TP表示標(biāo)簽為正樣本,預(yù)測也為正樣本的數(shù)目;TN表示標(biāo)簽為負(fù)樣本,預(yù)測也為負(fù)樣本的數(shù)目;FP表示標(biāo)簽為負(fù)樣本,但預(yù)測為正樣本的數(shù)目;FN表示標(biāo)簽為正樣本,但預(yù)測為負(fù)樣本的數(shù)目。
首先考察個(gè)股新聞的預(yù)測能力,運(yùn)用SVM對(duì)個(gè)股新聞進(jìn)行訓(xùn)練,預(yù)測準(zhǔn)確率見表2,其中線性核函數(shù)的預(yù)測準(zhǔn)確率為0.594,多項(xiàng)式核函數(shù)的預(yù)測準(zhǔn)確率為0.608,高斯核函數(shù)的預(yù)測準(zhǔn)確率為0.602,均大于0.5。由此可見,個(gè)股新聞對(duì)股價(jià)趨勢的預(yù)測有一定的作用。
表2 基于不同新聞集各核函數(shù)的預(yù)測準(zhǔn)確率Table 2 Prediction accuracies of kernel functions based on different news sets
2.2.1 基于SVM模型的訓(xùn)練
在對(duì)個(gè)股新聞進(jìn)行訓(xùn)練的基礎(chǔ)上,逐步加入子行業(yè)新聞和行業(yè)新聞進(jìn)行訓(xùn)練,其預(yù)測準(zhǔn)確率見表2。
由表2,對(duì)于同一新聞集,線性核的預(yù)測精度最差,多項(xiàng)式核最好,高斯核居中;逐步增加子行業(yè)新聞和行業(yè)新聞能提高預(yù)測精度,其中增加行業(yè)新聞對(duì)預(yù)測準(zhǔn)確率的提升作用較大,增加子行業(yè)新聞對(duì)預(yù)測準(zhǔn)確率的提升作用相對(duì)較小。
2.2.2 基于MKL模型的訓(xùn)練
考慮到各層級(jí)的新聞具有不同的內(nèi)容和特征,本文分別運(yùn)用不同的核函數(shù)訓(xùn)練多層級(jí)新聞集中每一層級(jí)的新聞,以考察使用多種核函數(shù)是否能提升預(yù)測準(zhǔn)確率,預(yù)測準(zhǔn)確率如圖1所示,圖中大立方體中的每一個(gè)小立方體代表新聞和核函數(shù)的組合,共有33=27組預(yù)測結(jié)果。圖中包含27個(gè)立方體,代表了在多層級(jí)新聞集中利用三種核函數(shù)訓(xùn)練三個(gè)層級(jí)新聞,其顏色深淺代表預(yù)測準(zhǔn)確率的高低,顏色越深表明該組合的預(yù)測準(zhǔn)確率越高。
圖1 基于多層級(jí)新聞的各核函數(shù)的預(yù)測準(zhǔn)確率Fig.1 Prediction accuracies of kernel functions based on multi-level news set
由圖1,從樣本總體來看,三個(gè)層級(jí)的新聞均使用多項(xiàng)式核函數(shù)訓(xùn)練的預(yù)測準(zhǔn)確率最高。雖然這個(gè)結(jié)果沒有體現(xiàn)出采用不同核函數(shù)的優(yōu)勢,但進(jìn)一步對(duì)具體股票進(jìn)行分析發(fā)現(xiàn),在15支樣本股中,有9支股票(片仔癀、上海萊士、天目藥業(yè)、愛爾眼科、中源協(xié)和、沃森生物、白云山、云南白藥、中國醫(yī)藥)使用不同的核函數(shù)訓(xùn)練三層級(jí)新聞,比使用同一種核函數(shù)訓(xùn)練的準(zhǔn)確度有明顯提升。這在一定程度上映證了不同層級(jí)的新聞確實(shí)具有不同的特征,利用不同的核函數(shù)有區(qū)分地進(jìn)行訓(xùn)練有機(jī)會(huì)提高預(yù)測準(zhǔn)確性。
為更好地利用不同層級(jí)的新聞,本文進(jìn)一步在各層級(jí)新聞內(nèi)部使用MKL模型。由表2,在三種函數(shù)中,線性核函數(shù)表現(xiàn)最差,而線性核函數(shù)被證明是高斯核函數(shù)的特殊形式[29],因此此處使用的多核學(xué)習(xí)模型中只考慮高斯核函數(shù)和多項(xiàng)式核函數(shù)。以1%為步長逐漸調(diào)整不同層級(jí)新聞的比重以及不同層級(jí)新聞中兩種核函數(shù)的比重,最優(yōu)模型的預(yù)測準(zhǔn)確率達(dá)到70.35%,該模型中各層級(jí)新聞和各核函數(shù)所占比例如表3所示。
表3 多核學(xué)習(xí)模型中各層級(jí)新聞、各核函數(shù)的比重Table 3 Ratios of news and kernel functions in multi-kernel learning model 單位:%
由表3進(jìn)一步看到,在新聞層級(jí)方面,個(gè)股新聞和行業(yè)新聞所占權(quán)重相對(duì)較大,合計(jì)超過80%,子行業(yè)新聞的權(quán)重相對(duì)較??;在核函數(shù)類型方面,多項(xiàng)式核函數(shù)的比重略大于高斯核函數(shù)。
將以上實(shí)驗(yàn)的預(yù)測準(zhǔn)確率由小到大排序,如圖2所示。不加*表示只使用個(gè)股新聞,加*表示使用個(gè)股新聞、子行業(yè)新聞和行業(yè)新聞構(gòu)成的多層級(jí)新聞體系。無論使用何種核函數(shù),相比個(gè)股新聞,使用多層級(jí)新聞集都能提升預(yù)測準(zhǔn)確率,其中使用MKL模型可以使預(yù)測準(zhǔn)確率得到最大程度的提升,這映證了MKL模型在實(shí)際應(yīng)用的優(yōu)勢。
圖2 所有實(shí)驗(yàn)的預(yù)測準(zhǔn)確率Fig.2 Prediction accuracies of each experiments
為檢驗(yàn)多層級(jí)新聞集預(yù)測的穩(wěn)定性,在15支樣本股票中隨機(jī)抽取兩個(gè)子集,每個(gè)子集均包含10支股票:子集1包括同仁堂、片仔癀、上海萊士、中源協(xié)和、沃森生物、中恒集團(tuán)、云南白藥、仁福藥業(yè)、康美藥業(yè)和中國醫(yī)藥;子集2包括片仔癀、天目藥業(yè)、中源協(xié)和、沃森生物、白云山、中恒集團(tuán)、云南白藥、復(fù)星藥業(yè)、康美藥業(yè)和海普銳,然后使用MKL模型對(duì)兩個(gè)子集進(jìn)行訓(xùn)練。
兩個(gè)子集的最高預(yù)測準(zhǔn)確率分別為71.12%和70.01%,表現(xiàn)較為穩(wěn)定,其各層級(jí)新聞和各核函數(shù)比例如表3所示,總體來看,核函數(shù)和各層新聞的比例結(jié)構(gòu)相似:多項(xiàng)式核函數(shù)比重略大于高斯核函數(shù);個(gè)股新聞和行業(yè)新聞比重較大,各占40%左右,子行業(yè)新聞的比重較小,占20%左右。這一結(jié)果與2.2節(jié)對(duì)樣本總體進(jìn)行訓(xùn)練得到的結(jié)果基本一致。
表4對(duì)比了兩個(gè)抽樣子集與總體的預(yù)測準(zhǔn)確率,在多層級(jí)新聞體系下,雖然三個(gè)集合在核函數(shù)分配比例存在一定差異,但預(yù)測準(zhǔn)確率基本穩(wěn)定在70%,相比表現(xiàn)最好的核函數(shù)——多項(xiàng)式核函數(shù),MKL模型的預(yù)測準(zhǔn)確率有明顯提升。
表4 各樣本下基于多層級(jí)新聞的預(yù)測準(zhǔn)確率Table 4 Prediction accuracies based on multi-level news under each sample
根據(jù)以上實(shí)證結(jié)果,各層級(jí)新聞都能在股價(jià)預(yù)測中發(fā)揮作用,用MKL模型訓(xùn)練多層級(jí)新聞體系的預(yù)測準(zhǔn)確度最高。因此,本章將基于該提升作用,利用上述模型構(gòu)建交易策略,并通過模擬交易,檢驗(yàn)其在實(shí)際應(yīng)用中的有效性。
本節(jié)首先考察新聞對(duì)未來股價(jià)趨勢的預(yù)測能力隨時(shí)間的變化情況,以便進(jìn)一步建立交易策略??紤]到新聞對(duì)股價(jià)的影響時(shí)效相對(duì)較短,故本文只對(duì)比了當(dāng)日新聞對(duì)當(dāng)日股價(jià)趨勢、后一日股價(jià)趨勢及后兩日股價(jià)趨勢的預(yù)測準(zhǔn)確率。針對(duì)多層級(jí)新聞體系,分別采用SVM模型和MKL模型進(jìn)行訓(xùn)練,結(jié)果如表5所示。需說明的是,根據(jù)表5,三個(gè)基核中,多項(xiàng)式核函數(shù)的預(yù)測效果最好,故本節(jié)使用的SVM模型基于多項(xiàng)式核。
表5 當(dāng)期新聞對(duì)多時(shí)期股價(jià)趨勢的預(yù)測準(zhǔn)確率Table 5 Prediction accuracies of current news on multi-period stock price trend
由表5,MKL模型的預(yù)測準(zhǔn)確率優(yōu)于基于多項(xiàng)式核函數(shù)的SVM模型。滯后期股價(jià)趨勢的預(yù)測準(zhǔn)確率均大于50%,與當(dāng)期相比,滯后期股價(jià)趨勢的預(yù)測準(zhǔn)確率有一定程度的下降,滯后一期的準(zhǔn)確率下降相對(duì)較小,不到4%,滯后兩期下降較為明顯。因此本節(jié)選用多核學(xué)習(xí)模型基于當(dāng)天新聞?lì)A(yù)測滯后一天的股價(jià)趨勢,并根據(jù)預(yù)測的股價(jià)趨勢進(jìn)行交易。若預(yù)測得出后一日股價(jià)上升,則在當(dāng)日收盤時(shí)買入并在第二日收盤時(shí)賣出;若預(yù)測后一日股價(jià)下降,則不進(jìn)行操作。因?yàn)樵撃P蜑槔碚撃P?,所以暫不考慮交易費(fèi)用的問題。
為了更好地展示基于多層級(jí)新聞的MKL模型的優(yōu)越性,每支股票都顯示三種日均收益情況,分別是一直持有該股票的日均收益率,使用SVM(多項(xiàng)式核函數(shù))模型訓(xùn)練個(gè)股新聞并按照預(yù)測結(jié)果操作的日均收益率,使用MKL模型訓(xùn)練多層級(jí)新聞體系并按預(yù)測結(jié)果操作的日均收益率,如圖3所示。
圖3 樣本內(nèi)股票交易策略收益率Fig.3 Return rates of stock trading strategy in sample
由圖3,在不考慮交易費(fèi)用的前提下,對(duì)樣本內(nèi)全部股票,使用基于個(gè)股新聞的多項(xiàng)式SVM模型和基于多層級(jí)新聞的MKL模型都能提升股票收益率。較買入并一直持有的策略,前者將日均收益率平均提升0.04個(gè)百分點(diǎn),最高提升了0.17個(gè)百分點(diǎn);后者將日均收益率平均提升近0.07個(gè)百分點(diǎn),最高提升了0.18個(gè)百分點(diǎn),即后者的提升能力高于前者,這表明在市場交易中,使用MKL模型訓(xùn)練多層級(jí)新聞?lì)A(yù)測股價(jià)趨勢對(duì)獲得較高收益有實(shí)際價(jià)值。
為進(jìn)一步檢驗(yàn)?zāi)P偷挠行?,在樣本外本文選取四支同行業(yè)的股票(東阿阿膠000423.SZ、長春高新000661.SZ、福瑞股份300049.SZ、貴州百靈002424.SZ),將它們基于上述MKL模型進(jìn)行預(yù)測,并根據(jù)預(yù)測的股價(jià)漲跌情況,運(yùn)用3.1節(jié)的交易策略進(jìn)行模擬操作。
四支樣本外股票的收益率情況如圖4所示,對(duì)于樣本外股票,基于個(gè)股新聞的多項(xiàng)式SVM模型和基于多層級(jí)新聞的MKL模型的交易操作同樣對(duì)收益率有提升作用,其中前者平均將日均收益率提升近0.04個(gè)百分點(diǎn),最高提升了0.11個(gè)百分點(diǎn);后者平均將日均收益率提升0.07個(gè)百分點(diǎn),最高提升了0.12個(gè)百分點(diǎn),與樣本內(nèi)股票相同,后者對(duì)收益率的提升程度更高。對(duì)比圖3和圖4發(fā)現(xiàn),樣本內(nèi)與樣本外股票日均收益率的提升程度非常接近,其中針對(duì)多層級(jí)新聞的MKL模型對(duì)收益率的提升程度更大,這說明在行業(yè)內(nèi)MKL模型具有普適性,能夠使樣本實(shí)現(xiàn)最優(yōu)預(yù)測的模型同樣可以提升同行業(yè)樣本外股票的收益率,這進(jìn)一步說明了引入多層級(jí)新聞的MKL模型對(duì)交易策略構(gòu)建的有效性。
圖4 樣本外股票交易策略收益率Fig.4 Return rates of stock trading strategy outside sample
本文重點(diǎn)關(guān)注多層級(jí)財(cái)經(jīng)新聞對(duì)股價(jià)趨勢的預(yù)測作用,為充分地利用各層級(jí)新聞的特征,運(yùn)用MKL模型展開實(shí)證研究,最終通過構(gòu)建交易策略檢驗(yàn)其在市場交易中的有效性。
本文發(fā)現(xiàn)不僅個(gè)股新聞能在股價(jià)趨勢預(yù)測中發(fā)揮作用,對(duì)應(yīng)的子行業(yè)新聞和行業(yè)新聞也能在股價(jià)趨勢預(yù)測中發(fā)揮作用;不管是針對(duì)個(gè)股新聞中還是多層級(jí)新聞體系,對(duì)各核函數(shù)的比例進(jìn)行分配,即形成MKL模型,都可以更好地學(xué)習(xí)和利用文本中的信息;使用多層級(jí)新聞體系和MKL模型可以最大化地提升預(yù)測準(zhǔn)確率,相比只考慮個(gè)股新聞的SVM模型,引入多層級(jí)新聞的MKL模型將預(yù)測準(zhǔn)確率提升了10%。此外,較買入并一直持有的交易策略和基于個(gè)股新聞的SVM的交易策略,基于多層級(jí)新聞的MKL模型的交易策略獲得的收益最高,從而驗(yàn)證了該方法具有重要的實(shí)踐價(jià)值。
以上研究結(jié)論對(duì)該領(lǐng)域的研究及投資決策具有重要意義,該領(lǐng)域研究中,要注重新聞的層級(jí),全面地掌握各層級(jí)新聞,有區(qū)分地處理不同層級(jí)的新聞;投資者在進(jìn)行投資決策時(shí),有必要重視多個(gè)層級(jí)的新聞,并不只是局限于對(duì)目標(biāo)企業(yè)新聞的搜索與關(guān)注。本研究還有以下不足之處:樣本數(shù)量有限、所選行業(yè)有限等,希望未來得到進(jìn)一步的完善。