国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)聯(lián)圖譜和輿情分析在異常傳導(dǎo)路徑分析中的應(yīng)用

2018-05-30 01:48:00上交所技術(shù)有限責(zé)任公司
電子世界 2018年9期
關(guān)鍵詞:利空個(gè)股傳導(dǎo)

上交所技術(shù)有限責(zé)任公司 王 泊

0.引言

傳統(tǒng)的指數(shù)貢獻(xiàn)度算法,主要使用漲跌幅乘以權(quán)重的計(jì)算方法,這種方法只能計(jì)算個(gè)股(行業(yè))本身對(duì)指數(shù)貢獻(xiàn)的直接影響?,F(xiàn)實(shí)情況下,個(gè)股(行業(yè))之間不是孤立的,是有相互影響的。如果不考慮個(gè)股(行業(yè))對(duì)其它個(gè)股(行業(yè))的影響而衍生出對(duì)指數(shù)影響的話,市場(chǎng)分析工作就有很大的局限性。

本研究突破傳統(tǒng)的指數(shù)貢獻(xiàn)度算法的局限,首次量化個(gè)股對(duì)其關(guān)聯(lián)個(gè)股的影響,以及行業(yè)對(duì)其關(guān)聯(lián)行業(yè)的影響,并且更加精確地衡量個(gè)股、行業(yè)對(duì)指數(shù)的影響程度,結(jié)合對(duì)輿情關(guān)聯(lián)行情數(shù)據(jù)的分類處理,繪制個(gè)股(行業(yè))的異常傳導(dǎo)路徑,為日常對(duì)異動(dòng)股票、異動(dòng)行業(yè)的監(jiān)管提供了理論支持。

1.研究背景

在證券二級(jí)市場(chǎng)上,市場(chǎng)風(fēng)險(xiǎn)具有較強(qiáng)的擴(kuò)散性的特性,例如,概念股炒作往往從龍頭個(gè)股開始,接力炒作龍二、龍三等股票。研究個(gè)股(行業(yè))異常波動(dòng)之間的相關(guān)性和風(fēng)險(xiǎn)的傳播方向就顯得尤為重要。

如果能根據(jù)個(gè)股(行業(yè))出現(xiàn)異常波動(dòng)之間的相關(guān)性,在風(fēng)險(xiǎn)擴(kuò)散的初級(jí)階段提前以預(yù)警方式提示風(fēng)險(xiǎn),則能從源頭上抑制炒作,有效的控制風(fēng)險(xiǎn)。比如,如果能從歷史的交易信息中,提前挖掘出可能炒作的與龍頭關(guān)聯(lián)的龍二、龍三等股票,并以預(yù)警形式提請(qǐng)關(guān)注,則可以為實(shí)現(xiàn)事前監(jiān)管累積豐富的基礎(chǔ)。

另一方面,輿情信息也對(duì)市場(chǎng)波動(dòng)有重要影響。本文考慮將股市異常分析與輿情分析相結(jié)合,構(gòu)建出異常股票(行業(yè))的關(guān)聯(lián)和風(fēng)險(xiǎn)傳播網(wǎng)絡(luò)圖譜,用以更好地偵查和控制風(fēng)險(xiǎn)。在實(shí)際應(yīng)用中,個(gè)股信息和新聞信息是海量、高維度的,并存在數(shù)據(jù)噪聲需要處理,因此本研究結(jié)合深度學(xué)習(xí)、貝葉斯網(wǎng)絡(luò)和自然語言處理技術(shù),對(duì)數(shù)據(jù)進(jìn)行有效的篩選,構(gòu)建出兼具準(zhǔn)確性、可解釋性和不斷自我學(xué)習(xí)優(yōu)化的傳導(dǎo)模型。

2.繪制異常傳導(dǎo)路徑的理論和算法

如“深度貝葉斯網(wǎng)絡(luò)技術(shù)及股票關(guān)聯(lián)機(jī)器學(xué)習(xí)識(shí)別”一文中介紹,可以通過抓取異常節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)連接強(qiáng)度的方法,搭建股票的關(guān)聯(lián)圖譜。如果我們引入時(shí)間軸,將個(gè)股或行業(yè)在某一個(gè)時(shí)間點(diǎn)的異常波動(dòng)抓取出來、作為圖譜的節(jié)點(diǎn),沿用節(jié)點(diǎn)連接強(qiáng)度的計(jì)算方法,并結(jié)合輿情分析給節(jié)點(diǎn)標(biāo)注利好或利空的分?jǐn)?shù),進(jìn)而調(diào)整節(jié)點(diǎn)的連接強(qiáng)度(即異常傳導(dǎo)的相關(guān)系數(shù)),得到的股票(行業(yè))的異常傳導(dǎo)路徑,用以解釋或預(yù)測(cè)股市的波動(dòng)。模型整體思路的架構(gòu)圖如圖1所示:

圖1 抓取異常傳導(dǎo)路徑的模型架構(gòu)圖

第三、四兩章將分別介紹用行情數(shù)據(jù)搭建異常節(jié)點(diǎn)網(wǎng)絡(luò)和用輿情數(shù)據(jù)計(jì)算利好利空分?jǐn)?shù)這兩部分內(nèi)容。第五章介紹綜合前兩步計(jì)算的結(jié)果、尋找異常傳導(dǎo)路徑的過程。第六章介紹數(shù)據(jù)實(shí)驗(yàn)和結(jié)論部分。

3.用行情數(shù)據(jù)搭建異常節(jié)點(diǎn)網(wǎng)絡(luò)和節(jié)點(diǎn)相關(guān)性的計(jì)算

異常節(jié)點(diǎn)網(wǎng)絡(luò)的搭建分為節(jié)點(diǎn)識(shí)別、節(jié)點(diǎn)連接、網(wǎng)絡(luò)參數(shù)優(yōu)化和網(wǎng)絡(luò)微調(diào)四個(gè)部分,詳細(xì)的流程如圖2所示:

圖2 異常貝葉斯網(wǎng)絡(luò)搭建機(jī)器學(xué)習(xí)算法框架圖

3.1 節(jié)點(diǎn)識(shí)別

“在股票關(guān)聯(lián)圖譜中,節(jié)點(diǎn)的定義是某個(gè)股或行業(yè)。節(jié)點(diǎn)的篩選,可以通過專家規(guī)則來確定,或者是通過確定異常節(jié)點(diǎn)閾值的方式進(jìn)行選擇。如果是通過專家規(guī)則來定義的話,就由市場(chǎng)分析專家來確定將哪些個(gè)股(行業(yè))作為節(jié)點(diǎn)。如果通過異常節(jié)點(diǎn)的方式來定義的話,考慮到個(gè)股(行業(yè))的形態(tài)不同,需要對(duì)個(gè)股采用用不同的閾值。不同個(gè)股(行業(yè))的波動(dòng)率(Volatility)不同,因此每個(gè)個(gè)股的異常定義也不同。對(duì)于波動(dòng)率較低的個(gè)股,其異常閾值也相對(duì)較低?!币陨线@段文字是敘述在構(gòu)建股票關(guān)聯(lián)圖譜中抓取節(jié)點(diǎn)的方法,這里的波動(dòng)率是一段時(shí)間的平均波動(dòng)率,異常閾值的設(shè)定也是針對(duì)一段時(shí)間的平均值。而在本研究中,異常節(jié)點(diǎn)是指某個(gè)時(shí)間點(diǎn)上波動(dòng)異常的某支股票或某個(gè)行業(yè),我們要構(gòu)建的是存在時(shí)間軸的傳導(dǎo)網(wǎng)絡(luò)。

3.2 節(jié)點(diǎn)連接

運(yùn)用點(diǎn)互信息(Pointwise Mutual Information (PMI))計(jì)算出節(jié)點(diǎn)連接強(qiáng)度,公式如下:

其中各符號(hào)含義如下:

p(x)是事件x單獨(dú)出現(xiàn)的概率;

p(y)是事件y單獨(dú)出現(xiàn)的概率;

p(x, y)是兩個(gè)事件x, y共現(xiàn)的概率;

log(p(x, y))是歸一化項(xiàng),采用歸一化處理的PMI值更加穩(wěn)定。

3.3 網(wǎng)絡(luò)參數(shù)優(yōu)化和網(wǎng)絡(luò)微調(diào)

基于構(gòu)建好的節(jié)點(diǎn)和連接強(qiáng)度,結(jié)合人類專家標(biāo)記出個(gè)股(行業(yè))間的關(guān)聯(lián)關(guān)系,可對(duì)貝葉斯網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整。具體地,系統(tǒng)在收到人類專家的反饋后,會(huì)根據(jù)懲罰函數(shù)對(duì)現(xiàn)有參數(shù)進(jìn)行調(diào)整,重新計(jì)算連接強(qiáng)度,專家提供的懲罰函數(shù)具體可由如下兩種形式來實(shí)現(xiàn):

方式一,個(gè)股(行業(yè))間關(guān)系的排序。人類專家標(biāo)記出個(gè)股(行業(yè))間的關(guān)聯(lián)關(guān)系,可以作為有監(jiān)督學(xué)習(xí)的標(biāo)簽。在系統(tǒng)計(jì)算出每對(duì)行業(yè)之間的相關(guān)性后,懲罰函數(shù)如下:

其中,Rij是行業(yè)i,j之間的相關(guān)性,UDij代表上下游行業(yè)關(guān)系。UDij是1代表有上下游關(guān)系,此時(shí)Rij越大懲罰值越小,UDij是0代表沒有上下游關(guān)系,此時(shí)Rij越大懲罰值越大。

方式二,人類專家給定的關(guān)聯(lián)關(guān)系權(quán)重值。對(duì)于系統(tǒng)分析出的關(guān)聯(lián)關(guān)系中的每條邊,人類專家可以給予1-5的評(píng)分,用以評(píng)判關(guān)聯(lián)關(guān)系的準(zhǔn)確性。懲罰函數(shù)的數(shù)學(xué)表達(dá)如下:

其中,關(guān)聯(lián)關(guān)系由k條邊組成,Sk代表人類專家對(duì)每條邊的打分。

得分越高,懲罰函數(shù)值越小,反之亦然。最終的懲罰函數(shù)等于所有邊的調(diào)整過的懲罰值相加。

4.用輿情數(shù)據(jù)計(jì)算利好或利空分?jǐn)?shù)

除了股票價(jià)格的直接波動(dòng),輿情也是影響異常事件傳導(dǎo)的重要因素。本研究的一個(gè)創(chuàng)新之處,即把輿情分析得到的利多或利空判斷與異常股票的關(guān)聯(lián)性相結(jié)合,作為異常傳導(dǎo)路徑的計(jì)算要素。

本研究用自然語言處理技術(shù)(Natural Language Processing),對(duì)輿情信息進(jìn)行數(shù)據(jù)篩選、文本清理,建立了輿情信息與個(gè)股和行業(yè)的關(guān)聯(lián)以及利多、利空的識(shí)別模型。

為解決高維數(shù)據(jù)與數(shù)據(jù)噪聲問題,研究對(duì)輿情文本進(jìn)行數(shù)據(jù)預(yù)處理,并引入關(guān)鍵詞引擎ElasticSearch輔助生成行情利多利空特征,加強(qiáng)輿情分類判斷的準(zhǔn)確性。其中預(yù)處理和關(guān)鍵詞引擎與云腦Deepro NLP形成多次迭代,通過機(jī)器學(xué)習(xí)不斷優(yōu)化模型。

輿情分析整個(gè)流程具備高度自動(dòng)化與高度適應(yīng)性的能力,可以應(yīng)對(duì)不同種類的文本數(shù)據(jù)輸入,如:各種類別財(cái)經(jīng)新聞。對(duì)于新引入的行情關(guān)鍵詞可以快速更新模型庫,以便調(diào)整分類與評(píng)判結(jié)果。整體流程設(shè)計(jì)模塊化,具備標(biāo)準(zhǔn)API調(diào)用接口,并充分考慮了可擴(kuò)展性,預(yù)留模塊包括專家經(jīng)驗(yàn)引入,以及根據(jù)專家對(duì)分類結(jié)果的反饋等。如圖3所示。

圖3 輿情分析系統(tǒng)圖

4.1 用BM25模型獲取利好(利空)分?jǐn)?shù)

研究在現(xiàn)有的輿情數(shù)據(jù)集的基礎(chǔ)上,測(cè)試了一系列排序與打分算法,包括:BM25、TF-IDF、DFR、DFI、IB、LM Dirichlet、LM Jelinek Mercer等,憑借BM25算法在文本查詢排序與文本誤查率等評(píng)判標(biāo)準(zhǔn)中的優(yōu)異表現(xiàn),將BM25算法選定為本課題的輿情分析的最終算法。

BM是在概率搜索的框架下被提出的Best Matching(最佳匹配)算法的縮寫,BM25又常被稱為“Okapi BM25”。BM算法返回與搜索關(guān)鍵詞相關(guān)性最符合的結(jié)果,并給出結(jié)果排序,被廣泛應(yīng)用于復(fù)雜搜索引擎中。BM25核心計(jì)算公式如下:

其中各符號(hào)含義如下:

D:文檔;

Q:搜索詞(多個(gè));

f(qi, D):qi這個(gè)詞在文檔D中出現(xiàn)的次數(shù);

|D|:D的單詞數(shù);

avgdl:整個(gè)文檔庫中文檔的平均長度;

k1, b:自由參數(shù),一般取值范圍是k1 ∈ [1.2,2.0], b = 0.75。IDF(qi)(inverse document frequency):通常由下述公式計(jì)算

其中,N是文檔庫中的文章總數(shù),n(qi)是包含qi這個(gè)詞的文章總數(shù)。

4.2 用NLP預(yù)測(cè)利好(利空)分?jǐn)?shù)

通過以上過程我們得到一系列訓(xùn)練數(shù)據(jù),包括新聞的文本和針對(duì)每一篇文本用BM25標(biāo)記的利好和利空分?jǐn)?shù)。接下來,本研究用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中的長短期記憶網(wǎng)絡(luò)(LSTMs)模型對(duì)文字的處理,將所有和節(jié)點(diǎn)相關(guān)的新聞進(jìn)行利好或利空的分類,并輸出每個(gè)節(jié)點(diǎn)的利好、利空分?jǐn)?shù),作為下一步綜合系數(shù)計(jì)算連接強(qiáng)度的輸入。簡單介紹下模型:

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入一個(gè)循環(huán)的操作,這種循環(huán)結(jié)構(gòu)使得某個(gè)時(shí)刻的狀態(tài)能夠傳到下一個(gè)時(shí)刻,即每一網(wǎng)絡(luò)會(huì)把它的輸出傳遞到下一個(gè)網(wǎng)絡(luò)中。把循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間步上進(jìn)行展開,就得到如圖4這樣的模型:

圖4 RNN原理說明圖

循環(huán)神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和廣泛應(yīng)用,主要是因?yàn)樗鼈兡軌虬岩郧暗男畔⒙?lián)系到現(xiàn)在,從而解決現(xiàn)在的問題。比如在視頻中利用前面的畫面,能夠幫助我們理解當(dāng)前畫面的內(nèi)容。有時(shí)候,我們?cè)谔幚懋?dāng)前任務(wù)的時(shí)候,只需要看一下比較近的一些信息,即我們所要預(yù)測(cè)的內(nèi)容和相關(guān)信息間的間隔很小,這種情況下RNN就能夠很容易利用過去的信息進(jìn)行預(yù)測(cè)。但是非常幸運(yùn)地,長短期記憶網(wǎng)絡(luò)(LSTMs)的出現(xiàn)可以幫助我們避免這種長期依賴(long-term dependency)的問題。它們的本質(zhì)就是能夠記住很長時(shí)期內(nèi)的信息,其原理如圖5所示:

圖5 LSTMs原理說明圖

長短期記憶網(wǎng)絡(luò)最關(guān)鍵的地方在于每個(gè)單元(cell)的狀態(tài)和結(jié)構(gòu)圖上面的那條橫穿的水平線。單元狀態(tài)的傳輸就像一條傳送帶,向量從整個(gè)單元中穿過,只是做了少量的線性操作。這種結(jié)構(gòu)能夠很輕松地實(shí)現(xiàn)信息從整個(gè)單元中穿過而不做改變,從而實(shí)現(xiàn)長期記憶的保留。

5.綜合系數(shù)模型和尋找異常傳導(dǎo)路徑

5.1 綜合系數(shù)模型

前文敘述了抓取異常節(jié)點(diǎn)、用點(diǎn)互信息的方法計(jì)算節(jié)點(diǎn)連接強(qiáng)度和計(jì)算利好或利空分?jǐn)?shù)的過程,這部分內(nèi)容將把用點(diǎn)互信息計(jì)算的連接強(qiáng)度和利好利空分?jǐn)?shù)結(jié)合,綜合考慮了股市的異常波動(dòng)和輿情傳播兩種情況對(duì)節(jié)點(diǎn)連接的影響。綜合系數(shù)模型計(jì)算新的連接強(qiáng)度的公式如下:

其中,pmi是2.2節(jié)中計(jì)算出的連接強(qiáng)度,ε是用LSTM預(yù)測(cè)的利好利空分?jǐn)?shù),a是一個(gè)比較大的常數(shù),其取值可以通過參數(shù)微調(diào)的過程進(jìn)行優(yōu)化。

5.2 尋找異常傳導(dǎo)路徑

得到異常節(jié)點(diǎn)和新的節(jié)點(diǎn)連接強(qiáng)度后,用最長路徑算法在這個(gè)有向無環(huán)圖中尋找異常傳播路徑。即:

拓?fù)渑判驁D(G)中的所有節(jié)點(diǎn);

對(duì)于線性排序的每個(gè)節(jié)點(diǎn)v ∈ V,dist(v)=max(u, v)∈E{dist(u)+w(u, v)},w(u, v)是節(jié)點(diǎn)v和節(jié)點(diǎn)u的連接強(qiáng)度;

返回maxv ∈ V{dist(v)}。

6.數(shù)據(jù)實(shí)驗(yàn)結(jié)果輸出和結(jié)論

本例中,系統(tǒng)分析2017年4月19日上證指數(shù)的異常波動(dòng)。所輸出的異常傳導(dǎo)路徑從2017年4月17日國防軍工板塊異常,到4月18日的銀行板塊與多個(gè)權(quán)重個(gè)股異常,到4月19日的鋼鐵板塊異常,以及上證指數(shù)異常。其中,板塊,個(gè)股之間異常事件的相關(guān)性也一并標(biāo)出。經(jīng)過行業(yè)專家與當(dāng)時(shí)輿情驗(yàn)證驗(yàn)證,證明此分析與專家經(jīng)驗(yàn)分析類似。

各節(jié)點(diǎn)說明如下:

(1)國防軍工(申萬)跌幅異常:-3.24%

(2)銀行(申萬)跌幅異常:-1.37%

(3)包鋼股份跌幅異常:-3.10%

(4)交通銀行跌幅異常:-1.80%

(5)浦發(fā)銀行跌幅異常:-1.67%

(6)興業(yè)銀行跌幅異常:-1.77%

(7)鋼鐵(申萬)跌幅異常:-2.73%

(8)上證綜指5日跌幅超3%:-3.15%

本系統(tǒng)將用深度貝葉斯網(wǎng)絡(luò)構(gòu)建關(guān)聯(lián)圖譜的方法遷移到構(gòu)建異常節(jié)點(diǎn)網(wǎng)絡(luò)的模型中,結(jié)合輿情信息的分析。從股票價(jià)格和輿情這兩個(gè)維度出發(fā)、刻畫風(fēng)險(xiǎn)如何從輿情傳導(dǎo)到相應(yīng)的股票或行業(yè),進(jìn)而傳導(dǎo)到關(guān)聯(lián)的股票和行業(yè),最終形成對(duì)指數(shù)波動(dòng)的影響。以異常傳導(dǎo)路徑的方法,可以更加直觀和準(zhǔn)確地刻畫出市場(chǎng)波動(dòng)的原因。從創(chuàng)新角度,本系統(tǒng)首次將貝葉斯網(wǎng)絡(luò)技術(shù)與NLP自然語言處理技術(shù)有機(jī)結(jié)合,利用NLP技術(shù)從非結(jié)構(gòu)化的輿情中提取有效相關(guān)信息,作為結(jié)構(gòu)化的證券行情數(shù)據(jù)的標(biāo)簽。整個(gè)系統(tǒng)需要經(jīng)過多輪迭代,以同時(shí)優(yōu)化貝葉斯網(wǎng)絡(luò)參數(shù)與NLP系統(tǒng)的參數(shù)。本系統(tǒng)的高精確度來源于深度貝葉斯網(wǎng)絡(luò)快速收斂的特性,以及NLP系統(tǒng)中采用的LSTM對(duì)語言序列高精度建模的能力。經(jīng)過專家驗(yàn)證,本系統(tǒng)在證券行業(yè)的實(shí)際應(yīng)用中,能高度協(xié)助,并在某些場(chǎng)景下超越專家經(jīng)驗(yàn)的分析。

[1]K.W.Church and et al.(March 1990).“Word association norms,mutual information, and lexicography”.Compute. Linguist.16(1):22-29.

[2]T.M.Cover and et al.(1991).Elements of Information Theory(Wiley ed.).ISBN 978-0-471-24195-9.

[3]C.D.Manning and et al.,An Introduction to Information Retrieval,Cambridge University Press,2009,p.233.

[4]S.E.Robertson and et al.(November 1994).Okapi at TREC-3.Proceedings of the Third Text REtrieval Conference(TREC 1994).Gaithersburg, USA.

[5]S.E.Robertson and et al.(November 1998).Okapi at TREC-7.Proceedings of the Seventh Text REtrieval Conference.Gaithersburg,USA.

[6]A.Y.Ng,sequence model course slides on coursera, https://www.coursera.org/learn/nlp-sequence-models/.

[7]C.Olah,Understanding LSTM Networks, http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

猜你喜歡
利空個(gè)股傳導(dǎo)
利空增多 液氨后市承壓
神奇的骨傳導(dǎo)
新季玉米價(jià)格高開 利空因素猶存
連續(xù)上漲2天以上的31只個(gè)股
利空霧霾減散 創(chuàng)業(yè)板行情崛起
“散亂污”企業(yè)治理重在傳導(dǎo)壓力、抓實(shí)舉措
環(huán)境污染責(zé)任險(xiǎn)對(duì)企業(yè)利好還是利空?
能源(2017年5期)2017-07-06 09:25:54
房地產(chǎn)開發(fā)Ⅱ個(gè)股表現(xiàn)
航空運(yùn)輸Ⅱ個(gè)股表現(xiàn)
基于開關(guān)電源的傳導(dǎo)抗擾度測(cè)試方法
临海市| 邓州市| 仲巴县| 镇原县| 宣汉县| 富锦市| 驻马店市| 元氏县| 社旗县| 江城| 怀宁县| 郴州市| 玉门市| 阿图什市| 鄂州市| 威信县| 中卫市| 柳林县| 万载县| 颍上县| 通州市| 滨海县| 乌拉特后旗| 周宁县| 衡水市| 色达县| 焦作市| 晋中市| 礼泉县| 临澧县| 丰镇市| 岳池县| 循化| 五莲县| 大名县| 武宣县| 灵丘县| 磐石市| 车险| 土默特左旗| 内乡县|