鄭天宇
(上海海事大學(xué)信息工程學(xué)院,上海201306)
基于網(wǎng)絡(luò)的技術(shù)不斷被金融領(lǐng)域所接受,投資者可以在線下輕而易舉地獲得關(guān)于上市公司的經(jīng)營信息。隨著2000 億條微博被國家圖書館保存,輿情作為一種新的消息來源與分析媒介在生活和工作中越來越重要地得以展現(xiàn)。新聞網(wǎng)站和股吧作為一種金融界信息發(fā)布與交換的方式,已逐漸成為消息披露和交易決策交換等相關(guān)信息的主要來源。輿情網(wǎng)站為各個(gè)領(lǐng)域的投資者提供了一個(gè)平臺,使得人們可以聚集在一起,接收并分享他們對公司股票的看法。但由于關(guān)鍵的信息隱藏在大量數(shù)據(jù)中,從海量文本中獲取有用的信息仍然很困難,投資決策者幾乎不可能閱讀完相關(guān)網(wǎng)站并羅列出所有信息,因此提供可以準(zhǔn)確獲取輿情信息的方法可以極大地幫助投資者進(jìn)行投資決策[1-3]。
網(wǎng)站中包含的數(shù)據(jù)幾乎沒有結(jié)構(gòu)化的,如何有效地處理和利用非結(jié)構(gòu)化數(shù)據(jù)是一個(gè)具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)問題。在金融網(wǎng)站的新聞發(fā)布子模塊,每個(gè)數(shù)據(jù)條目都與某一時(shí)刻股票的表現(xiàn)及市場看法有關(guān),將此看作可用時(shí)間序列表示的金融異構(gòu)數(shù)據(jù)[4]。某些主題詞語和主題的頻率均是隨時(shí)間變化的,對股票的看法也隨著時(shí)間的推移及其在證券交易所的種種行為表現(xiàn)而變化。也就是說股票的情緒展現(xiàn)和股價(jià)走勢及外部事件之間存在相關(guān)性,Chen 等人[5]發(fā)現(xiàn)多種信息源頭例如博客等可以密切預(yù)測股市行為。
第一步涉及數(shù)據(jù)采集,我們從cnstock 抓取了金融新聞消息板并將數(shù)據(jù)利用pymongo 存儲在MongoDB中。下一步是從非結(jié)構(gòu)化數(shù)據(jù)中提取消息。首先進(jìn)行預(yù)處理,刪除常見HTML 標(biāo)簽提取有用的部分,如我們需要的日期、作者、消息文本等。然后基于提取的信息構(gòu)建情感分類器。通過比對異構(gòu)數(shù)據(jù)預(yù)測出的情感與該支股票的日線數(shù)據(jù)得到的實(shí)際價(jià)值,給對應(yīng)的先前新聞打上“看漲”、“看跌”的標(biāo)簽并由新算法計(jì)算出新聞作者總體的情感閾值,利用此步驟對一支股票相關(guān)的未打標(biāo)簽的新聞異構(gòu)文本構(gòu)建新特征集進(jìn)行文本分析。系統(tǒng)架構(gòu)如圖1 所示。
基于Scrapy 和Redis 的分布式技術(shù)編寫爬蟲。crawler_cnstock、crawler_jrj 主要爬取中國證券網(wǎng)、金融界匯總的股票新聞模塊的新聞標(biāo)題、內(nèi)容、作者、時(shí)間、網(wǎng)址,由于服務(wù)器時(shí)而存在無響應(yīng)問題,我們重復(fù)運(yùn)行爬蟲匯總了三日內(nèi)的異構(gòu)文本數(shù)據(jù)。為了獲取滬深股票的行情表現(xiàn)數(shù)據(jù),我們從Tushare 獲取日線數(shù)據(jù),特征包括開盤價(jià)、最高價(jià)、最低價(jià)、成交額、股票代碼、名稱、板塊等信息。
圖1 新聞文本計(jì)算情感權(quán)重預(yù)測股票表現(xiàn)系統(tǒng)構(gòu)架
提取相關(guān)信息后,依次對爬取入庫的新聞文本進(jìn)行去停用詞、加載股票名稱新詞、將語料庫中每段異構(gòu)信息轉(zhuǎn)換為單個(gè)詞語和作者(包括姓名及新聞機(jī)構(gòu)名稱)的向量,日期我們采取映射成整數(shù)值的形式,使用TF-IDF 公式計(jì)算向量中每個(gè)條目的值:
TF-IDF(詞頻-逆文檔頻率)用于評估包含單詞或特征的條目對語料庫中整體信息的重要程度,隨該條目在某一文章出現(xiàn)次數(shù)增加而重要比例增加,隨在語料庫中出現(xiàn)頻率的增加而重要程度衰減。
首先假設(shè)公司發(fā)布的官方新聞與股票的表現(xiàn)有很高的相關(guān)性。同樣地,在股票表現(xiàn)發(fā)生劇烈變化時(shí),跟風(fēng)的新聞機(jī)構(gòu)的情感也可能發(fā)生變化?;谝陨现庇X,我們將情感建模為一種有條件依賴于過去一天的輿情和股票價(jià)值的馬爾科夫過程。即在時(shí)刻i,對新聞m 的情感建模如下:
i+1 時(shí)刻的預(yù)測會取決于先前i 時(shí)刻的值,Mi 為i時(shí)刻的消息集,SVi 為i 時(shí)刻的股票價(jià)值表現(xiàn)(以收盤價(jià)為例)。選擇合適的學(xué)習(xí)算法訓(xùn)練上述模型的參數(shù)。由于未來將面臨較大異構(gòu)數(shù)據(jù)集的考驗(yàn),我們使用樸素貝葉斯及決策樹進(jìn)行訓(xùn)練。
基于有些新聞發(fā)布機(jī)構(gòu)對于金融市場更加權(quán)威這一觀點(diǎn),專業(yè)的金融分析報(bào)道者理應(yīng)獲得更多的情感權(quán)重值,這意味著他們發(fā)布的輿論比其他人發(fā)布的觀點(diǎn)更為可信且重要。但根據(jù)用戶畫像獲得作者的背景在情感分析的領(lǐng)域往往較為困難,面相媒體輿情的情感分析很少去獲得輿情源頭的畫像資料,因?yàn)榫拖裼行┕砂烧搲械倪@些特征用戶可以任意填入他們自己有關(guān)的背景信息,有些媒體機(jī)構(gòu)也可以留下無用或是不準(zhǔn)確的信息。
我們使用算法依據(jù)輿情創(chuàng)作人在他們資料中的歷史表現(xiàn)來計(jì)算作者的情感權(quán)重值,對每條信息使用情感預(yù)測步驟得出作者的情感傾向可能,并將該信息發(fā)布時(shí)間附近的實(shí)際股價(jià)表現(xiàn)進(jìn)行橫向比較,如果作者表達(dá)的情感傾向符合實(shí)際股價(jià)表現(xiàn),那么作者或新聞機(jī)構(gòu)的情感權(quán)重值將會增加??紤]到一個(gè)公式(5)、(6)除了在方向上可以計(jì)算符合度方向,還可以關(guān)注幅度,例如:上述步驟訓(xùn)練出作者情感為強(qiáng)烈沽空一只股票,但股票表現(xiàn)的收盤價(jià)僅略有下降,那么作者也不會得到太多情感權(quán)重。
其中,SentimentProbability 表示情感傾向概率,MidScore 為設(shè)置的常數(shù),在情感傾向中通常設(shè)置為表示中性的0.5,StockChange 為收盤價(jià)較昨日收盤價(jià)的漲跌百分比,將此項(xiàng)和情感傾向概率組合作為權(quán)重賦給新聞作者的情感預(yù)測表現(xiàn)。NumOfPrecision、NumOf-Normal 和NumOfPrediction 分別代表新聞作者精準(zhǔn)預(yù)測的次數(shù)、一般符合的次數(shù)及預(yù)測匹配總次數(shù),Sector-Coefficient 是一個(gè)懲罰系數(shù),當(dāng)新聞評論的是一個(gè)板塊時(shí),此項(xiàng)設(shè)置為1 用于抵消作者的情感匹配度。
股票預(yù)測是一項(xiàng)艱難的任務(wù),在方法中,我們根據(jù)對應(yīng)的新聞情感對時(shí)間i 處的股票價(jià)值進(jìn)行預(yù)測:
圖2 展示了用于貝葉斯網(wǎng)的股票預(yù)測模型,訓(xùn)練一種分類器使用過去一天提取或計(jì)算出的融合特征來預(yù)測股票價(jià)格的漲跌,特征包含情感傾向、歸屬作者的情感權(quán)重值及該股涉及的新聞總數(shù)。
同時(shí)為驗(yàn)證文本信息中作者情感權(quán)重是否和股票價(jià)格之間有顯著性關(guān)系,利用以資產(chǎn)定價(jià)模型為代表的因子模型加入語料庫中目標(biāo)股票對應(yīng)新聞的所有作者的情感權(quán)重平均值,以對數(shù)收益率確定待估系數(shù),公式(7)如下:
模型中,標(biāo)簽使用表示i 時(shí)刻股票j 的價(jià)格S 的對數(shù)收益率,rf是假設(shè)的該年滬深指數(shù)的年平均收益率的日化收益,以此來代替無風(fēng)險(xiǎn)收益率,為日期i 時(shí)股票j 對應(yīng)的新聞所屬作者的情感權(quán)重均值,Ι 為指示函數(shù),為服從正態(tài)分布的隨機(jī)數(shù)噪聲,待估系數(shù)分別是Cj、αj、βj。但從回歸的結(jié)果我們看到股價(jià)收益率雖然和網(wǎng)絡(luò)新聞輿情具備顯著相關(guān)特征,但的αj系數(shù)極小,對應(yīng)的t、F 統(tǒng)計(jì)量很大,說明影響雖顯著相關(guān)但對其影響的范圍很小。假設(shè)是由于參差不齊水平的新聞作者發(fā)布的若干輿情在可信度上進(jìn)行了標(biāo)準(zhǔn)化,為準(zhǔn)確說明這一現(xiàn)象,我們再對上步驟得到的作者情感權(quán)重依次排序,取3 個(gè)分位數(shù),然后按照分位數(shù)對股票的輿情發(fā)布機(jī)構(gòu)作者的情感權(quán)重值分塊為3 組,分別是WB1、WB2、WB3,模型如下。這樣做的好處是保證分組后組內(nèi)新聞數(shù)目是一致的但不同組別意味著不同的作者情感權(quán)重(權(quán)重值依次增大),并依照這種方法將相似文本特征的異構(gòu)金融數(shù)據(jù)進(jìn)行文本分類及預(yù)測。
對6 支股票的128 支新聞及對應(yīng)的47 個(gè)作者的相關(guān)數(shù)據(jù)針對對數(shù)收益率進(jìn)行線性回歸,回歸結(jié)果如表1 所示。
表1 回歸結(jié)果
可以看到α3比α1、α2大了一個(gè)數(shù)量級別,對于單日收益率而言,一個(gè)數(shù)量級別已經(jīng)對對數(shù)收益提供了很好的解釋力。根據(jù)代表信任程度較高的高權(quán)重作者情感對金融市場投資者的決策更具影響力,從而更能影響次日的股票收益。表2 顯示使用樸素貝葉斯對涵蓋6 個(gè)板塊的個(gè)股情感預(yù)測準(zhǔn)確度的結(jié)果。
表2 加入情感權(quán)重前后股票表現(xiàn)預(yù)測的準(zhǔn)確度
使用加入作者情感權(quán)重值的情感預(yù)測模型的性格會得到提升,針對不同板塊增加了1%-8%不等的準(zhǔn)確度,表明了加入作者情感權(quán)重可以幫助消除文本情感噪音。
本文在考慮現(xiàn)有的面向金融新聞文本情感提取算法的基礎(chǔ)上加以改進(jìn),使其能更好地為文本情感分析決策提供支持。同時(shí)引入了文本源頭的情感權(quán)重值,在消除過濾情感傾向預(yù)測中不相關(guān)噪聲情緒的同時(shí)提高了準(zhǔn)確率。接下來如何在長范圍時(shí)間序列的基礎(chǔ)上進(jìn)一步提升預(yù)測準(zhǔn)確率,需要更進(jìn)一步的研究。