冉楊帆,蔣洪迅
(中國人民大學(xué) 信息學(xué)院,北京 100872)
股票市場(chǎng)發(fā)展至今已有400多年的歷史。股票市場(chǎng)反映了國民經(jīng)濟(jì)的發(fā)展情況,被稱為金融市場(chǎng)的“晴雨表”和“預(yù)警器”。在我國,股票市場(chǎng)在資本融通、財(cái)富再分配、優(yōu)化資源配置、金融資產(chǎn)價(jià)格發(fā)現(xiàn)等方面有著重要的作用[1]。20世紀(jì)90年代,滬、深兩家交易所陸續(xù)成立,我國的股票市場(chǎng)進(jìn)入高速發(fā)展階段,但是由于起步較晚,制度尚不健全,在飛速發(fā)展的同時(shí)也暴露出很多問題,如股市容易大幅度波動(dòng),產(chǎn)生暴漲或暴跌現(xiàn)象,存在大量人為惡意操縱等。這些現(xiàn)象對(duì)廣大投資者,乃至我國國民經(jīng)濟(jì)的發(fā)展有著極大的危害,因此,掌握股票市場(chǎng)的變化規(guī)律,是股票市場(chǎng)健康發(fā)展的重要前提。
隨著人們生活水平不斷提高,許多人開始將閑錢用于投資理財(cái),進(jìn)入股票市場(chǎng)。與發(fā)達(dá)國家相比,我國的投資者多為個(gè)人,機(jī)構(gòu)投資者占比較少,大多數(shù)股民風(fēng)險(xiǎn)承擔(dān)能力較弱,股票市場(chǎng)的異常波動(dòng)對(duì)廣大投資者有著巨大的損害。一直以來,股票市場(chǎng)都需要一種比過去更高效的投資理論,為廣大投資者提供更好的投資方法,以提高投資收益、規(guī)避投資風(fēng)險(xiǎn)[2]。
應(yīng)用現(xiàn)有的技術(shù)在一定程度上實(shí)現(xiàn)對(duì)股票價(jià)格的預(yù)測(cè)對(duì)股票市場(chǎng)、投資者都具有十分重大的意義。然而,股票市場(chǎng)是一種極其復(fù)雜的系統(tǒng),由于股票市場(chǎng)影響因素的多樣性和不確定性,以及股票市場(chǎng)特有的高噪聲和非線性的特性,想要得到高精確度的預(yù)測(cè)結(jié)果十分艱難。
隨著大數(shù)據(jù)時(shí)代的到來和海量數(shù)據(jù)庫的發(fā)展,對(duì)股票市場(chǎng)每天產(chǎn)生的海量數(shù)據(jù)加以利用變?yōu)榭赡?越來越多的學(xué)者開始考慮使用更多的數(shù)據(jù)來源,如輿論、股票新聞等,各種文本挖掘和機(jī)器學(xué)習(xí)的方法也被廣泛地應(yīng)用到了股票研究中,主流的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)在對(duì)復(fù)雜信息的綜合處理上表現(xiàn)良好,可以克服傳統(tǒng)預(yù)測(cè)方法中的許多局限。本次研究將新聞文本作為輸入之一,通過人工構(gòu)建專門針對(duì)股票市場(chǎng)的情感詞典和語義規(guī)則,計(jì)算每篇新聞的情感值,并分別使用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)回歸的方法建立股價(jià)預(yù)測(cè)模型。本次研究是一次很有意義的嘗試和探索,可為情感分析、機(jī)器學(xué)習(xí)等技術(shù)應(yīng)用于股票市場(chǎng)價(jià)格預(yù)測(cè)提供一定的理論價(jià)值和實(shí)踐價(jià)值。
股票市場(chǎng)是一個(gè)極其復(fù)雜的系統(tǒng),股票的價(jià)格受政治、經(jīng)濟(jì)、行業(yè)、公司、人為因素和心理因素等諸多因素影響[3]。股票系統(tǒng)的復(fù)雜性、多變性導(dǎo)致股票價(jià)格的變化通常具有較高的非線性特征,而傳統(tǒng)的預(yù)測(cè)方法大多是基于線性模型,不能很好地反映這些因素對(duì)股價(jià)的影響[4]。
20世紀(jì)60年代,許多學(xué)者將股市中的歷史數(shù)據(jù)按時(shí)間先后順序列出,建立起時(shí)間序列預(yù)測(cè)模型,該模型可以較為準(zhǔn)確的預(yù)測(cè)股票市場(chǎng)未來幾天的變化。這些時(shí)間序列模型都著眼于歷史市場(chǎng)數(shù)據(jù),通過觀察歷史的變化規(guī)律來推測(cè)股價(jià)未來的走勢(shì),較為出名的有移動(dòng)平均模型(MA)[5],指數(shù)平滑和ARIMA模型[6]。
一些研究者認(rèn)為,股票市場(chǎng)是一種極其復(fù)雜的系統(tǒng),股票價(jià)格預(yù)測(cè)的輸入不應(yīng)只包含股票市場(chǎng)歷史的數(shù)據(jù),還應(yīng)該包含其他類型的數(shù)據(jù)。隨著大數(shù)據(jù)時(shí)代的到來和海量數(shù)據(jù)庫的發(fā)展,使得股票市場(chǎng)每天產(chǎn)生的海量數(shù)據(jù)的使用變?yōu)榭赡?越來越多的學(xué)者開始考慮更多的數(shù)據(jù)源,把股票輿論、股票新聞信息作為輸入加入預(yù)測(cè)模型,各種文本挖掘和機(jī)器學(xué)習(xí)的方法也被廣泛地應(yīng)用到了股票研究中。另外,許多學(xué)者開始將情感分析和機(jī)器學(xué)習(xí)相結(jié)合,來預(yù)測(cè)股票價(jià)格,都取得了不錯(cuò)的效果。
將神經(jīng)網(wǎng)絡(luò)方法運(yùn)用到股票和指數(shù)價(jià)格預(yù)測(cè)領(lǐng)域,最早可追溯到20世紀(jì)90年代[7],1996年Gencay等[8]建立了向前人工神經(jīng)網(wǎng)絡(luò)模型,先將道瓊斯工業(yè)評(píng)價(jià)指數(shù)的歷史數(shù)據(jù)進(jìn)行移動(dòng)平均,得到其平均價(jià)格作為輸入,然后用該模型對(duì)1967年到1988年的指數(shù)進(jìn)行預(yù)測(cè),研究結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果優(yōu)于簡(jiǎn)單的移動(dòng)平均法,不過,當(dāng)時(shí)的預(yù)測(cè)效果還達(dá)不到實(shí)際應(yīng)用的要求。2003年,Zhang等[9]把神經(jīng)網(wǎng)絡(luò)模型和時(shí)間序列模型ARIMA進(jìn)行了對(duì)比實(shí)驗(yàn),得出在非線性數(shù)據(jù)的處理方面,神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度好于ARIMA模型。Murat等[10]使用神經(jīng)網(wǎng)絡(luò)模型對(duì)TKC證券進(jìn)行預(yù)測(cè),將趨勢(shì)、波動(dòng)性和動(dòng)力等不同類型的數(shù)據(jù)作為輸入,并使用2006年的數(shù)據(jù)進(jìn)行測(cè)試,研究結(jié)果顯示神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果優(yōu)于其他模型,但該研究沒有解釋模型輸入向量的甄選理由,存在較強(qiáng)的主觀性。另外,一些學(xué)者將小波包方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行結(jié)合,例如張坤、郁湧等[11]把股價(jià)進(jìn)行小波分解,生成多個(gè)不同尺度的分層數(shù)據(jù),然后先預(yù)測(cè)得到各層的預(yù)測(cè)結(jié)果,再把各層的預(yù)測(cè)結(jié)果作為輸入,利用BP神經(jīng)網(wǎng)絡(luò)得出最終的預(yù)測(cè)結(jié)果,最終該模型能取得了較好的預(yù)測(cè)效果。
支持向量機(jī)模型(Support Vector Machine,簡(jiǎn)記為SVM)是另外一種經(jīng)常被用于股票價(jià)格預(yù)測(cè)研究的機(jī)器學(xué)習(xí)模型,SVM方法使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,具有較好的泛化能力[12]。1995年,Vapnik出版了《The Nature of Statistical Learning》一書,標(biāo)志著支持向量機(jī)理論的成熟,經(jīng)過二十多年的發(fā)展,SVM相關(guān)的理論和方法得以完善和豐富。2003年,Kim[13]把支持向量機(jī)回歸模型(SVR)用于股票價(jià)格預(yù)測(cè)中,并和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,發(fā)現(xiàn)SVR的精確度好于BP神經(jīng)網(wǎng)絡(luò)。2005年,Huang等[14]將支持向量機(jī)用于日經(jīng)225指數(shù)的預(yù)測(cè)研究中,得出其預(yù)測(cè)精確度比神經(jīng)網(wǎng)絡(luò)方法更高。2006年Xu等提出了改進(jìn)的最小二乘支持向量機(jī)(簡(jiǎn)稱LS-SVM),優(yōu)化參數(shù)后用于對(duì)納斯達(dá)克指數(shù)進(jìn)行預(yù)測(cè),得到了令人滿意的預(yù)測(cè)結(jié)果。2013年,施劍[15]把支持向量機(jī)算法應(yīng)用到新股IPO首日價(jià)格變動(dòng)預(yù)測(cè)上,解決了其他預(yù)測(cè)方法對(duì)歷史數(shù)據(jù)具有較大依賴性的問題,為今后的研究提供了有力參考。2014年張世軍[16]將網(wǎng)絡(luò)輿情加入SVM模型,獲得了更佳的預(yù)測(cè)效果。2014年龍真真等[17]在SVM模型的基礎(chǔ)上,加入模糊核超球快速分類算法建立預(yù)測(cè)模型,研究表明該模型能較為準(zhǔn)確地預(yù)測(cè)滬市上市公司的回報(bào)率。從一些學(xué)者的研究結(jié)果中可以看出,在他們的研究所適用的范圍內(nèi),SVM模型的預(yù)測(cè)效果優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。
綜上所述,國內(nèi)外多數(shù)研究的焦點(diǎn),集中在機(jī)器學(xué)習(xí)模型的優(yōu)化,或是將原有模型與其他算法相結(jié)合以求得到更好的預(yù)測(cè)效果,把網(wǎng)絡(luò)新聞文本數(shù)據(jù)作為輸入加入股價(jià)預(yù)測(cè)模型的研究尚不多見。
股票市場(chǎng)是一個(gè)高收益與高風(fēng)險(xiǎn)并存的場(chǎng)所,投資者愿意花大量的時(shí)間去了解它們所關(guān)注的公司的動(dòng)態(tài)。各大財(cái)經(jīng)新聞網(wǎng)、證券新聞網(wǎng)是大多數(shù)投資者的重要信息來源,它們所發(fā)布的新聞、評(píng)論也深刻地影響著投資者的決策。
根據(jù)影響力、重要性、原創(chuàng)性對(duì)各大新聞網(wǎng)址進(jìn)行對(duì)比分析,劃定新聞文本的采集范圍,選取具有代表性的股票新聞門戶網(wǎng)站作為數(shù)據(jù)源。同時(shí),盡可能獲取較長時(shí)間段的新聞數(shù)據(jù)用于研究。
最后選定了中證網(wǎng)、中華財(cái)會(huì)網(wǎng)、華夏時(shí)報(bào)、證券時(shí)報(bào)網(wǎng)、中國財(cái)經(jīng)新聞網(wǎng)五家權(quán)威網(wǎng)站作為數(shù)據(jù)來源,抓取的時(shí)間跨度從2008年1月1日到2016年12月31日。通過編寫Java爬蟲進(jìn)行抓取,抓取的字段有:標(biāo)題、網(wǎng)址、發(fā)布時(shí)間、內(nèi)容。其中,對(duì)中證網(wǎng)、中華財(cái)會(huì)網(wǎng)、證券時(shí)報(bào)網(wǎng)、中國財(cái)經(jīng)新聞網(wǎng)采用搜索抓取方式,即先按關(guān)鍵詞進(jìn)行搜索,抓取其搜索結(jié)果,華夏時(shí)報(bào)由于新聞量不大,采取直接搜索方式。最后爬取到新聞共1 447 440篇,共7 GB左右。
本次實(shí)驗(yàn)選取了20只股票作為研究對(duì)象。在選擇時(shí),交易量是最重要的因素,高交易量的股票一般發(fā)行量也大,也間接說明了發(fā)行公司實(shí)力雄厚,這樣的公司一般更易受到投資者的關(guān)注。同時(shí),高交易量也反映了股票的不穩(wěn)定性,這意味著有更多的新聞報(bào)道它們,當(dāng)股票價(jià)格不穩(wěn)定時(shí),新聞報(bào)道也更容易對(duì)投資者的決策產(chǎn)生影響。
通過Wind客戶端導(dǎo)出成交量最大的前20只股票,然后再分別導(dǎo)出每只股票從2008年1月1日到2016年12月31日每天的價(jià)格。最后,通過關(guān)鍵詞匹配將新聞數(shù)據(jù)和各只股票進(jìn)行簡(jiǎn)單的匹配,刪去重復(fù)項(xiàng)、空值后,得到的數(shù)據(jù)集如表1所示。
中文分詞的方法主要分為三類[18]。第一類是基于詞典的分詞方法,該方法是依據(jù)現(xiàn)有詞典進(jìn)行正向或逆向的匹配,其特點(diǎn)是分詞速度快,同時(shí)能保持較高的準(zhǔn)確率,但對(duì)詞典中沒有的新詞識(shí)別能力差;第二類是基于統(tǒng)計(jì)的分詞方法,該方法是通過統(tǒng)計(jì)字與字相鄰一起出現(xiàn)的頻次,兩個(gè)字相鄰出現(xiàn)的次數(shù)多則可能組成一個(gè)詞語;第三類是基于理解的分詞方法,該方法是用計(jì)算機(jī)模擬人腦的功能,這種方法需要的信息較多,實(shí)現(xiàn)起來相對(duì)復(fù)雜。
表1 數(shù)據(jù)抓取結(jié)果
常見的分詞工具有IKAnalyzer、結(jié)巴分詞、最大熵分詞、ICTCLAS等。本次采用中科院張華平博士團(tuán)隊(duì)研發(fā)的ICTCLAS2016工具(http:∥ictclas.nlpir.org/),對(duì)新聞文本的標(biāo)題和內(nèi)容進(jìn)行中文分詞。ICTCLAS2016工具包括中文分詞、用戶自定義詞典、詞性標(biāo)注、命名實(shí)體識(shí)別等功能,并且提供Java、C++、C#等多種版本,在分詞方面具有出色的表現(xiàn)。
為了提高處理效率和節(jié)省存儲(chǔ)空間,在文本處理之前通常會(huì)對(duì)一些無信息量的詞進(jìn)行過濾,這些詞就是停用詞。停用詞通常有以下兩個(gè)特點(diǎn):一是停用詞通常為功能詞,不具有實(shí)際含義,如“是”、“在”;二是停用詞通常使用十分廣泛,如“我”、“他們”。在本階段去除停用詞,能大大加快之后數(shù)據(jù)處理效率。
目前使用較為廣泛的停用詞表有:哈工大停用詞詞庫、百度停用詞表、四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫等。通過比較分析,最后選用了哈工大的停用詞詞庫。通過去除停用詞,所有新聞總詞數(shù)減少了15%左右。
2.1.1 構(gòu)造情感詞典
情感分析的方法主要可分為兩種[19],一是基于情感詞典的分析方法,其主要有人工構(gòu)造情感詞典或直接引用權(quán)威的情感詞典兩種方式,得出文中每個(gè)詞的情感傾向(積極、消極、不相關(guān))。二是基于機(jī)器學(xué)習(xí)的分析方法,即運(yùn)用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析。
目前,學(xué)術(shù)研究中使用較為廣泛的中文情感詞典有以下三種:中國知網(wǎng)HowNet中包括正面情感詞語、正面評(píng)價(jià)詞語、負(fù)面情感詞語、負(fù)面評(píng)價(jià)詞語4個(gè)詞語表,詞語較為全面,但其僅是把情感詞語分入相應(yīng)的詞表,未對(duì)詞語的情感強(qiáng)度進(jìn)行描述。臺(tái)灣大學(xué)的NTUSD情感詞典由2 810個(gè)正向情感詞和8 276個(gè)負(fù)向情感詞構(gòu)成,但其也未對(duì)詞語的情感強(qiáng)度進(jìn)行描述。以上兩個(gè)情感詞典都僅是把各情感詞進(jìn)行正負(fù)向分類,不能很好地區(qū)分同類情感詞之間的程度差異。大連理工大學(xué)信息檢索研究室的情感詞匯本體庫(以下簡(jiǎn)稱DUT情感詞典)包含正向、負(fù)向、中性三類詞語共27 466個(gè),并且對(duì)每個(gè)詞的詞性、情感極性和強(qiáng)度都進(jìn)行了詳細(xì)地描述,它把情感強(qiáng)度分為0-9十個(gè)程度,適合用于新聞情感值的計(jì)算。
在使用DUT情感詞典進(jìn)行情感值計(jì)算的過程中,筆者發(fā)現(xiàn),雖然該詞典情感詞數(shù)量較多,卻不適合用于股票新聞。以“中國銀行”相關(guān)的70 028條新聞數(shù)據(jù)為例,經(jīng)統(tǒng)計(jì),經(jīng)過分詞、去停用詞后,新聞平均每篇760詞,使用大連理工大學(xué)情感詞典進(jìn)行匹配,平均每篇新聞匹配到的正向和負(fù)向情感詞的次數(shù)之和不足20次。另外,DUT情感詞典缺少很多股票市場(chǎng)常見情感詞,如“暴跌”、“下降”、“上漲”、“萎縮”等。
因此,本次研究考慮通過人工打分的方式構(gòu)造一個(gè)專門針對(duì)股票市場(chǎng)的情感詞典。首先,對(duì)所有新聞文本進(jìn)行詞頻統(tǒng)計(jì),按詞語出現(xiàn)的總次數(shù)從高到低進(jìn)行排序,選出出現(xiàn)次數(shù)最多的前3 000個(gè)詞(出現(xiàn)的總次數(shù)占文本總詞數(shù)的比重超過90%)進(jìn)行情感值打分。分值區(qū)間為[-5,+5],分值大于0說明該詞語為積極正向的情感詞,且分值越高,正向情感強(qiáng)度越大,反之分值小于0則說明該詞語為消極負(fù)向的情感詞,分值越低,負(fù)向情感強(qiáng)度越大,分值為0表示該詞語為中性情感詞。人工打分邀請(qǐng)了3位該領(lǐng)域的專家(證券從業(yè)人員、股民)分別進(jìn)行,最后計(jì)算平均值即為該詞最終的情感得分。
2.1.2 構(gòu)造語義規(guī)則
相同的情感詞在不同的語句環(huán)境中所表達(dá)出的情感正負(fù)、強(qiáng)度可能完全不同,例如“股票價(jià)格上漲”、“股票價(jià)格稍稍上漲”兩句中,由于副詞不同,兩個(gè)句子中“上漲”一詞所表達(dá)的情感強(qiáng)度發(fā)生變化。又如“股票價(jià)格如果上漲”、“股票價(jià)格上漲”,前者由于表假設(shè)語氣的詞“如果”的出現(xiàn),使得股票價(jià)格是否上漲變?yōu)椴淮_定。又如“股票價(jià)格不會(huì)上漲”、“股票價(jià)格上漲”,前者由于否定詞“不會(huì)”的出現(xiàn),表達(dá)的情感完全不同。
因此,本次研究希望通過構(gòu)造相關(guān)的語義規(guī)則來更深層次地挖掘情感詞在各句子環(huán)境中的真實(shí)情感。楊希[20]在對(duì)微博文本進(jìn)行情感分析的研究中,總結(jié)出6種常見的語義規(guī)則,結(jié)合實(shí)際情況,對(duì)這6種語義規(guī)則進(jìn)行擴(kuò)展,得到如下規(guī)則:
(1)只有情感詞在句子中起情感表達(dá)作用。如“股市狀況良好”,只有“良好”表達(dá)出積極正向的情感,“股市”、“狀況”為中性情感。
(2)程度副詞加情感詞。程度副詞對(duì)情感的表達(dá)有加深或減弱兩種作用,如“今天很開心”,“開心”表達(dá)出積極正向的情感,“很”作為程度副詞,使積極的情感加深。又如“經(jīng)濟(jì)稍稍好轉(zhuǎn)”,“稍稍”作為程度副詞,反而使“好轉(zhuǎn)”表達(dá)出的正向情感減弱。
(3)否定詞加情感詞。如“沒有好轉(zhuǎn)”,“沒有”是否定詞,在句子中對(duì)情感詞“好轉(zhuǎn)”所表達(dá)的正向情感起了相反作用,最后句子的情感變?yōu)樨?fù)向情感。
(4)否定詞加程度副詞加情感詞。如“沒有一點(diǎn)改善”, “改善”表達(dá)積極正向的情感,“一點(diǎn)”對(duì)情感詞的積極強(qiáng)度起減弱作用,“沒有”對(duì)“一點(diǎn)改善”的組合起相反作用。
(5)程度副詞加否定詞加情感詞。如“很不樂觀”,“樂觀”表達(dá)積極正向的情感,“不”對(duì)情感詞起相反作用,“很”對(duì)“不樂觀”的組合起增強(qiáng)作用。
(6)多個(gè)否定詞加情感詞。如“并非不樂觀”, “樂觀”表達(dá)積極正向的情感,“不”對(duì)情感詞起相反的作用,“并非”對(duì)“不樂觀”的組合起再次相反的作用,最后該組合表達(dá)的情感仍為正向情感。
(7)假設(shè)疑問詞加情感詞。如“一旦上漲”,“上漲”一詞表達(dá)出正向情感,“一旦”一詞表示假設(shè)推斷,表達(dá)出不確定性,對(duì)情感詞進(jìn)行修正后,不能明確得知是否會(huì)上漲,因此,表達(dá)的情感為中性。
(8)假設(shè)疑問詞加否定詞加情感詞。如“萬一不樂觀”,“不樂觀”組合表達(dá)出消極負(fù)面的情感,“萬一”表達(dá)假設(shè)、不確定,因此單單根據(jù)這一句話,不能推斷最后情感為積極或是消極。
(9)假設(shè)疑問詞加程度副詞加情感詞。如“如果很差”,同理,“很差”組合經(jīng)過“如果”修正后,表達(dá)的情感也不能確定。
以上僅列出了情感詞和程度副詞、否定詞、疑問詞間的常見組合,還有部分復(fù)雜的組合未全部列出。不難發(fā)現(xiàn),程度副詞對(duì)情感詞表達(dá)的情感起加強(qiáng)或減弱的作用,否定詞起相反作用,假設(shè)疑問詞則是使表達(dá)的情感變?yōu)椴淮_定。
根據(jù)知網(wǎng)HowNet中的程度級(jí)別詞語(中文),結(jié)合新聞數(shù)據(jù)的詞頻統(tǒng)計(jì)情況,人工進(jìn)行一定的簡(jiǎn)化,留下日常使用較多的副詞,按HowNet里的劃分分為6個(gè)級(jí)別,并給其賦予了不同的權(quán)重,具體如表2所示。同時(shí),結(jié)合新聞文本的詞頻統(tǒng)計(jì)情況,選取常用的20個(gè)否定詞,構(gòu)建否定詞表,如表3所示。
表2 程度副詞詞表
表3 否定詞詞表
最后,結(jié)合詞頻統(tǒng)計(jì)情況,選取常用的22個(gè)表假設(shè)疑問的詞,構(gòu)建假設(shè)疑問詞表,如表4所示。
至此,已經(jīng)構(gòu)造好了情感詞典、程度副詞表、否定詞表、假設(shè)疑問詞表和語義規(guī)則,接下來即可進(jìn)行新聞文本的情感值計(jì)算。
表4 假設(shè)疑問詞詞表
2.1.3 計(jì)算新聞情感值
新聞文本的情感值計(jì)算分為兩步:首先計(jì)算每個(gè)句子的情感值,然后進(jìn)行加和即可得到整篇文章的情感值。
假設(shè)e代表句子的情感值,p代表情感詞的情感強(qiáng)度,w代表程度副詞的權(quán)重,根據(jù)上節(jié)中定義的語義規(guī)則,可以得到情感值計(jì)算規(guī)則,如表5所示。
表5 情感值計(jì)算規(guī)則
考慮到程度副詞在語句中可能位于情感詞前,也可能位于情感詞后(如“價(jià)格沒怎么上漲”和“價(jià)格上漲程度不大”),所以在具體實(shí)現(xiàn)時(shí),先定位到正向情感詞和負(fù)向情感詞所在的位置,然后從情感詞所在位置開始向前和向后掃描,直到出現(xiàn)“,”“?!薄?”“?”“;”等符號(hào)為止,如果出現(xiàn)程度副詞、否定詞或假設(shè)疑問詞,則按上面的計(jì)算規(guī)則對(duì)情感詞的情感值進(jìn)行修正,即可得到該句子的情感值。
對(duì)于一條新聞文本來說,先得到包含正負(fù)向情感詞的子句的情感值Ei(其中E0表示標(biāo)題的情感值),然后根據(jù)下述公式,即可計(jì)算出整條新聞的情感值。
(1)
最后,再把同一天的所有新聞的情感值進(jìn)行加總,即可得到每天新聞數(shù)據(jù)的總情感得分,另外,對(duì)于當(dāng)天無新聞的,情感值置為零。
2.2.1 實(shí)驗(yàn)平臺(tái)的選取
為了實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)回歸兩種模型,本次實(shí)驗(yàn)采用MatlabR2014a為實(shí)驗(yàn)平臺(tái),操作系統(tǒng)環(huán)境為WIN7。
在建立BP神經(jīng)網(wǎng)絡(luò)股價(jià)預(yù)測(cè)模型時(shí),直接運(yùn)用Matlab自帶的工具包,而在建立SVR股價(jià)預(yù)測(cè)模型時(shí),運(yùn)用臺(tái)灣大學(xué)的林智仁教授編寫的LibSVM工具包,該工具包使用Matlab和C++混合編程,比Matlab自帶的SVM工具包運(yùn)行速度更快,功能更齊全,模型中參數(shù)的修改也更加容易。
2.2.2 數(shù)據(jù)歸一化
經(jīng)過數(shù)據(jù)爬取、預(yù)處理、情感分析,最終得到的用于實(shí)驗(yàn)的數(shù)據(jù)共包括兩部分:一部分是股價(jià)歷史數(shù)據(jù){P},通過股票價(jià)格序列可以得到該股票T-1日的價(jià)格序列、T-2日的價(jià)格序列、T-3日的價(jià)格序列等,另一部分?jǐn)?shù)據(jù)是通過對(duì)新聞文本進(jìn)行情感挖掘得到的情感值序列{E}。由此,可以得到模型的兩種輸入向量,其中一種為混合數(shù)據(jù),包括滯后期為n的股票價(jià)格數(shù)據(jù)和T-1日的新聞文本的情感值,可表示為X={pt-1,pt-2,…,pt-n,et-1},另一種輸入向量僅包含股票數(shù)據(jù),可表示為X={pt-1,pt-2,…,pt-n}。關(guān)于兩種輸入向量的優(yōu)劣和滯后期n的選擇將在2.2.3節(jié)中進(jìn)行說明。
在進(jìn)行BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練之前,通常需要先將數(shù)據(jù)進(jìn)行歸一化處理[21],其主要原因如下:(1)部分?jǐn)?shù)據(jù)的范圍可能特別大,可能會(huì)導(dǎo)致網(wǎng)絡(luò)收斂速度減慢、學(xué)習(xí)時(shí)間過長;(2)數(shù)據(jù)范圍和量級(jí)較大的數(shù)據(jù)項(xiàng)在模型中的作用可能會(huì)偏大,而數(shù)據(jù)范圍較小的數(shù)據(jù)作用則可能會(huì)偏小;(3)在輸出層中,激活函數(shù)的值域是有限制的,所以需要把訓(xùn)練的目標(biāo)數(shù)據(jù)都映射到激活函數(shù)的值域中去。本次實(shí)驗(yàn)采用Log-Sigmoid函數(shù),因此將數(shù)據(jù)歸一化到[0,1]區(qū)間里去。
在建立支持向量機(jī)回歸模型時(shí),歸一化同樣有助于加快訓(xùn)練速率、降低因數(shù)量級(jí)的差異所造成的影響[22],因此同樣在實(shí)驗(yàn)前對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
2.2.3 輸入向量的選擇
股票市場(chǎng)瞬息萬變,新聞文檔的時(shí)間滯后效應(yīng)是很短的,我們需要關(guān)注的是股票數(shù)據(jù)(即股票價(jià)格)的滯后天數(shù)。設(shè)置的時(shí)間滯后期越大,所包含的信息也就越多,模型可能表現(xiàn)更好,但是,過大的滯后期也會(huì)增加模型的復(fù)雜程度,影響計(jì)算速率。因此,尋找最優(yōu)滯后期對(duì)模型至關(guān)重要。
均方誤差(Mean Squared Error,簡(jiǎn)稱MSE)是數(shù)據(jù)預(yù)測(cè)中常用的評(píng)價(jià)指標(biāo),MSE的值越小,誤差的離散程度越小,預(yù)測(cè)效果也就越好。MSE計(jì)算公式如下:
(2)
分別將混合數(shù)據(jù)和股票數(shù)據(jù)作為輸入向量,比較兩種輸入的優(yōu)劣。在每次實(shí)驗(yàn)中,將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集兩部分,比例為3∶1,將滯后天數(shù)從1逐漸增到20,以MSE為評(píng)價(jià)指標(biāo),每次試驗(yàn)均重復(fù)進(jìn)行10次,取其平均值為最終結(jié)果。
Fig.1 MSE diagram under different time lag(BPNN)圖1 不同滯后期下的MSE圖(BPNN)
本次對(duì)比實(shí)驗(yàn)統(tǒng)一采用三層網(wǎng)絡(luò)模型,隱藏層節(jié)點(diǎn)個(gè)數(shù)統(tǒng)一設(shè)置為6。通過圖1可以看出,當(dāng)輸入數(shù)據(jù)為混合數(shù)據(jù)時(shí),隨著滯后天數(shù)的增大,MSE先呈下降趨勢(shì),當(dāng)滯后天數(shù)增長到3日后,MSE停止下降,隨后在0.004 1到0.006 4間上下波動(dòng)。當(dāng)輸入數(shù)據(jù)為股票數(shù)據(jù)時(shí),MSE也先隨著滯后天數(shù)的增大呈現(xiàn)下降趨勢(shì),當(dāng)滯后天數(shù)增加到6時(shí)停止下降,隨后在0.003 3到0.005 5間上下波動(dòng)??梢钥闯?BP神經(jīng)網(wǎng)絡(luò)模型的MSE不穩(wěn)定,波動(dòng)較大,即使在完全相同條件下,得到的MSE也差別較大,迭代次數(shù)也不盡相同。在BP神經(jīng)網(wǎng)絡(luò)模型中,混合數(shù)據(jù)的表現(xiàn)略差于股票數(shù)據(jù),說明新聞數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)模型中沒能為預(yù)測(cè)帶來有效的信息輸入,所以在建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型時(shí),均采取股票數(shù)據(jù)作為輸入。從股票數(shù)據(jù)的曲線可以看出,當(dāng)滯后天數(shù)增加到6天后,繼續(xù)增加滯后天數(shù)未能使模型效果得到較為明顯的改善,較高的維度不僅會(huì)降低BP神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)效率,而且會(huì)影響訓(xùn)練后的預(yù)測(cè)效果。因此,在接下來的實(shí)驗(yàn)中,選擇6天作為滯后天數(shù)。
Fig.2 MSE diagram under different time lag(SVR)圖2 不同滯后期下的MSE圖(SVR)
在SVR模型的對(duì)比實(shí)驗(yàn)中,參數(shù)均采用默認(rèn)參數(shù)。通過圖2可以看出,從滯后天數(shù)增加到4天開始,混合數(shù)據(jù)和股票數(shù)據(jù)的MSE均較平穩(wěn),且混合數(shù)據(jù)的MSE均低于股票數(shù)據(jù)的MSE,所以在使用SVR模型建立股價(jià)預(yù)測(cè)模型時(shí),采用混合數(shù)據(jù)作為模型的輸入,由于支持向量機(jī)算法能避免“維數(shù)災(zāi)難”,為包含更多的信息,SVR模型中滯后天數(shù)選為20天。
2.2.4 模型參數(shù)尋優(yōu)
在BP神經(jīng)網(wǎng)絡(luò)模型中,選擇合適數(shù)量的隱含層節(jié)點(diǎn)非常重要,對(duì)網(wǎng)絡(luò)性能影響非常大。隱含層節(jié)點(diǎn)數(shù)目設(shè)定得過少,容易使訓(xùn)練過程不收斂,節(jié)點(diǎn)數(shù)目設(shè)定過多,又容易訓(xùn)練過度,使學(xué)習(xí)時(shí)間過長[23]。隱含層節(jié)點(diǎn)數(shù)目的設(shè)定是一個(gè)復(fù)雜的問題,尚沒有權(quán)威的計(jì)算方法,如今多采用多次訓(xùn)練取最優(yōu)的方法,開始時(shí)先選擇一個(gè)較小的估計(jì)數(shù),保持其他條件不變,逐漸地增加節(jié)點(diǎn)數(shù)目,反復(fù)地進(jìn)行訓(xùn)練和測(cè)試,最后誤差最小時(shí)所對(duì)應(yīng)的隱含層節(jié)點(diǎn)數(shù)目即為最佳節(jié)點(diǎn)數(shù)?,F(xiàn)有的計(jì)算公式計(jì)算出來的結(jié)果都只是經(jīng)驗(yàn)上的估計(jì)量,并不一定是最佳的節(jié)點(diǎn)數(shù),常用的計(jì)算公式主要有以下三種:
(3)
m=log2n
(4)
(5)
其中,m代表隱含層節(jié)點(diǎn)數(shù)目,n是輸入層的節(jié)點(diǎn)數(shù)目,l是輸出層的節(jié)點(diǎn)數(shù)目,α是1到10之間的常數(shù)。本文首先選用公式(5)來確定一個(gè)大致范圍,保持其他條件不變, 僅改變隱含層節(jié)點(diǎn)數(shù)反復(fù)進(jìn)行實(shí)驗(yàn),通過比較MSE的大小來確定最優(yōu)的隱含層節(jié)點(diǎn)數(shù)目。
由于n為6(BPNN模型輸入向量的選取已在2.2.3節(jié)中說明),l為1,所以隱含層節(jié)點(diǎn)數(shù)目的范圍可初步確定為[3,13]。實(shí)驗(yàn)采用三層網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練目標(biāo)誤差設(shè)為e-5,學(xué)習(xí)速率設(shè)為0.01,每次實(shí)驗(yàn)10次取平均值,最終結(jié)果如表6所示。在相同訓(xùn)練條件下,隱含層節(jié)點(diǎn)數(shù)目設(shè)為4時(shí),MSE最小。
在應(yīng)用SVR方法時(shí),需要設(shè)置很多參數(shù),參數(shù)設(shè)置是否合理會(huì)對(duì)模型的預(yù)測(cè)效果產(chǎn)生巨大的影響。本次實(shí)驗(yàn)選取了兩個(gè)最普遍接受的參數(shù)c和g(gamma)進(jìn)行參數(shù)尋優(yōu),諸多研究表明,這兩個(gè)參數(shù)的設(shè)定對(duì)最終的訓(xùn)練效果有最顯著的影響。c是模型的懲罰因子,表示模型對(duì)誤差的寬容程度,c的值越高,說明模型對(duì)誤差的容忍程度越低。gamma是核函數(shù)的一個(gè)參數(shù),它隱性地決定了原數(shù)據(jù)映射到高維特征空間后的分布情況。
表6 不同隱含層節(jié)點(diǎn)數(shù)下的MSE值(BPNN)
關(guān)于SVR的參數(shù)尋優(yōu),國際上并沒有公認(rèn)的最好方法,常見的尋優(yōu)方法有交叉驗(yàn)證-網(wǎng)格搜索方法(Grid Search)、遺傳算法(GA)、啟發(fā)式算法(PSO)。本文使用Grid Search方法尋找最優(yōu)的c和g,該方法雖然簡(jiǎn)單,但卻有以下兩個(gè)優(yōu)點(diǎn):可以得到全局最優(yōu);c和g相互獨(dú)立,便于并行化進(jìn)行。通過Grid Search方法,得到每只股票最優(yōu)的c和g,如表7所示,在后續(xù)的實(shí)驗(yàn)中,參數(shù)均采用該只股票最優(yōu)的c和g進(jìn)行實(shí)驗(yàn)。
表7 20只股票的最優(yōu)參數(shù)(SVR)
為對(duì)比大連理工大學(xué)(DUT)情感詞典和人工情感詞典在股票市場(chǎng)價(jià)格預(yù)測(cè)領(lǐng)域的適用性,做了以下對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)以“中國銀行601988.SH”為例,時(shí)間從2008年1月1日到2016年12月31日,除去周末和法定節(jié)假日,共計(jì)2 190天。
分別運(yùn)用大連理工大學(xué)情感詞典和人工情感詞典對(duì)新聞文本進(jìn)行打分,得到每篇新聞的情感值,加總同一天的所有新聞得到當(dāng)天的總情感值,然后與股票價(jià)格的漲跌方向進(jìn)行對(duì)比。
表8 大連理工大學(xué)情感詞典測(cè)試效果
表9 人工情感詞典測(cè)試效果
如表8和表9所示,運(yùn)用大連理工大學(xué)情感詞典進(jìn)行打分得到的情感值幾乎都為正,當(dāng)股價(jià)下跌和股票不變時(shí),不能很好地進(jìn)行預(yù)測(cè)。而針對(duì)股票市場(chǎng)進(jìn)行人工打分得到的情感詞典,在股票上漲、股票下跌時(shí),分值與漲跌方向保持了較好的一致性。其中,股票下跌時(shí)預(yù)測(cè)正確率相對(duì)較低,其可能原因是在人工進(jìn)行打分時(shí),人們更容易偏樂觀。另外,在股票不變時(shí),無論是運(yùn)用大連理工大學(xué)情感詞典,還是運(yùn)用人工情感詞典,新聞文本的情感得分幾乎都不為零,這是由于在每一篇新聞文本中,或多或少都會(huì)包含正向或負(fù)向的情感詞,所以最終新聞文本的得分很難為零。經(jīng)過初步對(duì)比每天的股票漲跌和新聞情感值的正負(fù),人工情感詞典表現(xiàn)明顯優(yōu)于大連理工大學(xué)情感詞典。
選取2008年1月1日至2008年6月31日的股票價(jià)格漲跌數(shù)據(jù)和情感值數(shù)據(jù),測(cè)試結(jié)果見圖3、圖4。
Fig.3 Performance diagram on DUT sentiment dictionary圖3 大連理工大學(xué)情感詞典測(cè)試效果圖
Fig.4 Performance diagram on artificial sentiment dictionary圖4 人工情感詞典測(cè)試效果圖
由圖可得,人工情感詞典打分結(jié)果與股票價(jià)格保持了較好的一致性,主要體現(xiàn)在:當(dāng)情感值為正時(shí),股票價(jià)格多為漲,或是跌幅相對(duì)之前減小;當(dāng)情感值為負(fù)時(shí),股票價(jià)格多為跌,或是漲幅相對(duì)之前減小。而大連理工大學(xué)情感詞典打分結(jié)果效果明顯不如人工情感詞典。
綜上,可以得出以下兩個(gè)結(jié)論:
(1)無論是DUT情感詞典,還是人工情感詞典,得分都偏樂觀,在價(jià)格下跌時(shí)的預(yù)測(cè)效果較差。
(2)相比于人工情感詞典,DUT情感詞典存在以下劣勢(shì):一、運(yùn)用DUT情感詞典得到的情感值幾乎都為正,說明該詞典在股票市場(chǎng)的適用性較差;二、運(yùn)用DUT情感詞典得到的情感值與股票價(jià)格漲跌方向的一致程度較差。
以股票“中國銀行601988.SH”為例,應(yīng)用人工詞典加語義規(guī)則進(jìn)行情感值計(jì)算,同時(shí),統(tǒng)計(jì)“正負(fù)情感詞”出現(xiàn)的總次數(shù)和“正負(fù)情感詞+語義規(guī)則”組合出現(xiàn)的總次數(shù)。
經(jīng)統(tǒng)計(jì),在七萬條新聞文本數(shù)據(jù)中,人工詞典中的正向和負(fù)向情感詞出現(xiàn)的總次數(shù)為3 360 319次,而這些情感詞和程度副詞、否定詞、假設(shè)疑問詞等一同出現(xiàn)的次數(shù)為837 072次,其占比情況如圖5所示。
Fig.5 Pie chart of ‘positive and negative sentiment words+semantic rules’圖5 “正負(fù)向情感詞+語義規(guī)則”組合占比圖
在所有匹配到正向和負(fù)向情感詞的情況中,情感詞和程度副詞、否定詞、假設(shè)疑問詞一同出現(xiàn)的總次數(shù)占了情感詞出現(xiàn)總次數(shù)的五分之一,說明語義規(guī)則所列出的9種組合在句子中是較為常見的,也說明是否應(yīng)用語義規(guī)則將會(huì)對(duì)最終的情感值產(chǎn)生顯著的影響。
接著,僅運(yùn)用人工詞典對(duì)同樣的文本數(shù)據(jù)再次進(jìn)行情感值計(jì)算。將兩次計(jì)算分別得到的情感值與股票價(jià)格漲跌數(shù)據(jù)進(jìn)行對(duì)比,結(jié)果如表10、表11所示。
表10 僅使用人工情感詞典的測(cè)試效果
表11 使用人工情感詞典+語義規(guī)則的測(cè)試效果
Fig.6 Performance comparison with and without the semantic rules deployed圖6 加入語義規(guī)則前后的效果對(duì)比
由表10、表11和圖6可以看出,無論是在股票價(jià)格上漲,還是股票價(jià)格下跌時(shí),加入語義規(guī)則進(jìn)行修正后,情感值的正負(fù)向與當(dāng)天股價(jià)的上漲下降方向的一致程度均有所上漲。
綜上可知:
(1)本文提出的9條語義規(guī)則在新聞文本中出現(xiàn)頻繁,“正負(fù)向情感詞+語義規(guī)則”的組合出現(xiàn)的總次數(shù)占正負(fù)向情感詞出現(xiàn)總次數(shù)的五分之一,語義規(guī)則的使用將對(duì)最終情感得分有顯著影響。
(2)無論是在股價(jià)上漲還是股價(jià)下跌時(shí),經(jīng)過語義規(guī)則修正后的情感得分,比單獨(dú)使用人工詞典得到的情感得分表現(xiàn)更好,情感值正負(fù)方向與股價(jià)漲跌方向一致程度更高。
本次分析選用2008年1月1日到2016年12月31日共兩千多個(gè)交易日的數(shù)據(jù)和與之日期相匹配的新聞文本情感值作為數(shù)據(jù)源,分析和比較BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)回歸模型。用于訓(xùn)練和測(cè)試的數(shù)據(jù)比例為3∶1,部分股票在某些時(shí)間段內(nèi)沒有交易記錄,所以在訓(xùn)練集和測(cè)試集的量上會(huì)有所減少。
用20只股票分別進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)每次實(shí)驗(yàn)的均方誤差MSE、走勢(shì)方向正確率如表12所示。
表12 BPNN模型與SVR模型效果對(duì)比
除 “民生銀行”、“中信證券”、“中國中鐵”、“興業(yè)銀行”、“海南航空”5只股票外,其他股票使用SVR模型得到的MSE均小于使用BP神經(jīng)網(wǎng)絡(luò)模型得到的MSE。
從走勢(shì)方向正確率角度看,有6只股票使用BP神經(jīng)網(wǎng)絡(luò)模型得到的正確率更高,另外14只股票使用SVR模型時(shí)效果正確率更高,通過計(jì)算平均值,使用BP神經(jīng)網(wǎng)絡(luò)模型時(shí),20只股票的平均走勢(shì)方向正確率為50.3%,而使用SVR時(shí),平均走勢(shì)方向正確率為53.3%。
從以上兩方面對(duì)比可得,在本次實(shí)驗(yàn)中,基于SVR的股價(jià)預(yù)測(cè)模型的效果優(yōu)于基于BP神經(jīng)網(wǎng)絡(luò)的股價(jià)預(yù)測(cè)模型。
以“中國銀行”為例,對(duì)2015年和2016年的股價(jià)進(jìn)行預(yù)測(cè),與實(shí)際價(jià)格進(jìn)行對(duì)比,結(jié)果如圖7和圖8所示,從圖形直接可以看出,對(duì)于“中國銀行”這只股票,SVR的預(yù)測(cè)效果遠(yuǎn)好于BPNN模型。
Fig.7 Prediction diagram of the price of stock ‘601988.SH’ in 2015圖7 2015年“601988.SH”股價(jià)預(yù)測(cè)圖
Fig.8 Prediction diagram of the price of stock ‘601988.SH’ in 2016圖8 2016年“601988.SH”股價(jià)預(yù)測(cè)圖
本文以交易量較大的20只股票為研究對(duì)象,抓取相關(guān)的新聞數(shù)據(jù),通過建立有針對(duì)性的情感詞典和相應(yīng)的語義規(guī)則對(duì)新聞文本進(jìn)行打分,對(duì)傳統(tǒng)的情感分析方法做出了改進(jìn),再加入股票價(jià)格的歷史數(shù)據(jù),分別采用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)回歸兩種方法建立股價(jià)預(yù)測(cè)模型。本文通過邀請(qǐng)領(lǐng)域內(nèi)專家對(duì)高頻詞匯進(jìn)行人工情感打分,得到了一個(gè)更具針對(duì)性、粒度更細(xì)[-5,+5]的情感詞典,與大連理工大學(xué)情感詞典的打分效果進(jìn)行對(duì)比,應(yīng)用人工詞典得到的情感得分的正負(fù)與當(dāng)天股票價(jià)格的漲跌方向一致程度更高;同時(shí),通過給不同語義規(guī)則下的情感詞賦予不同的權(quán)重,對(duì)情感值進(jìn)行修正,在同一樣本上分別使用情感詞典加語義規(guī)則的打分方法和僅使用情感詞典的打分方法,發(fā)現(xiàn)加入語義規(guī)則后,情感得分正負(fù)方向與股價(jià)漲跌方向的一致程度顯著提升。在BP神經(jīng)網(wǎng)絡(luò)股價(jià)預(yù)測(cè)模型中,新聞情感數(shù)據(jù)和股票歷史價(jià)格數(shù)據(jù)組成的混合數(shù)據(jù)表現(xiàn)略差于僅使用股票歷史價(jià)格數(shù)據(jù)的表現(xiàn),當(dāng)股價(jià)的滯后天數(shù)設(shè)定為6,BPNN隱含層節(jié)點(diǎn)數(shù)目設(shè)定為4時(shí),模型預(yù)測(cè)效果最佳。而在支持向量機(jī)模型回歸中,混合數(shù)據(jù)表現(xiàn)更佳,最佳滯后天數(shù)為20,通過Grid Search進(jìn)行參數(shù)尋優(yōu),找出了每只股票的最優(yōu)參數(shù)c和g。最終,將兩種方法的預(yù)測(cè)效果進(jìn)行對(duì)比,發(fā)現(xiàn)SVR模型的均方誤差更小,且股價(jià)走勢(shì)方向正確率略高于BPNN模型。
[1] 胡照躍.人工神經(jīng)網(wǎng)絡(luò)在股票預(yù)測(cè)中的應(yīng)用[D].太原:中北大學(xué),2016.
[2] 殷光偉.中國股票市場(chǎng)預(yù)測(cè)方法的研究[D].天津:天津大學(xué),2003.
[3] 尹璐.基于GA-BP神經(jīng)網(wǎng)絡(luò)的股票預(yù)測(cè)理論及應(yīng)用[D].北京:華北電力大學(xué),2010.
[4] 鄭睿穎,伍應(yīng)環(huán).神經(jīng)網(wǎng)絡(luò)在股票價(jià)格預(yù)測(cè)中的研究[J].計(jì)算機(jī)仿真,2011,28(10):393-396.DOI:10.3969/j.issn.1006-9348.2011.10.095.
[5] Bollerslev T.Generalized Autoregressive Conditional Heteroskedasticity[J].JournalofEconometrics,1986,31:307-327.DOI:10.1016/0304-4076(86)90063-1.
[6] Rao T S,Gabr M M.An Introduction to Bispectral Analysis and Bilinear Time Series Models[J].LectureNotesinStatistics,1984,150(150).DOI:10.1007/978-1-4684-6318-7.
[7] White H.Economic Prediction Using Neural Networks:The Case of IBM Daily Stock Returns[J].IEEEInternationalConferenceon,1988,2(6):451-458.DOI:10.1109/ICNN.1988.23959.
[8] Gencay R.Non-linear Prediction of Security Returns with Moving Average Rules[J].JournalofForecasting,1996,15(3):43-46.
[9] Zhang G P.Time Series Forecasting Using a Hybrid ARIMA and Neural Network Model[J].Neurocomputing,2003,50:159-175.DOI:10.1016/S0925-2312(01)00702-0.
[10] Ozbayoglu A M.Neural Based Technical Analysis in Stock Market Forecasting[J].IntelligentEngineeringSystemsthroughArtificialNeuralNetworks,2008,18:261-265.DOI:10.1115/1.802655.paper40.
[11] 張坤,郁湧,李彤.基于小波和神經(jīng)網(wǎng)絡(luò)相結(jié)合的股票價(jià)格模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(23):5497-5498.
[12] 秦玉平.基于支持向量機(jī)的文本分類算法研究[D].大連:大連理工大學(xué),2008.
[13] Kim K J.Financial Time Series Forecasting Using Support Vector Machines[J].Neurocomputing,2003,55(1-2):307-319.DOI:10.1016/S0925-2312(03)00372-2.
[14] Huang W,Nakamori Y,Wang S Y.Forecasting Stock Market Movement Direction with Support Vector Machine[J].Computers&OperationsResearch,2005,32(10):2513-2522.DOI:10.1016/j.cor.2004.03.016.
[15] 施劍.基于SVM的IPO首日投資策略分析[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(10):206-209.DOI:10.3969/j.issn.1003-3254.2013.10.042.
[16] 張世軍.基于網(wǎng)絡(luò)輿情的SVM股票價(jià)格預(yù)測(cè)研究[D].南京:南京信息工程大學(xué),2011.
[17] 龍真真,張正文.基于模糊核超球的快速分類算法在股票預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(1):197-201.DOI:10.3969/j.issn.1003-3254.2014.01.040.
[18] 熊泉浩.中文分詞現(xiàn)狀及未來發(fā)展[J].科技廣場(chǎng),2009(11):222-225.DOI:10.3969/j.issn.1671-4792.2009.11.067.
[19] 馬力,宮玉龍.文本情感分析研究綜述[J].電子科技,2014,27(11):180-184.DOI:10.3969/j.issn.1007-7820.2014.11.052.
[20] 楊希.基于情感詞典與規(guī)則結(jié)合的微博情感分析模型研究[D].合肥:安徽大學(xué),2011.
[21] 李克文,王秋寶,于明曉.基于改進(jìn)ACO優(yōu)化BPNN的軟件缺陷預(yù)測(cè)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2017(8):2137-2141.
[22] 高雷阜,佟盼.融合改進(jìn)遺傳和人工蜂群的SVM參數(shù)優(yōu)化算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(18):36-39.DOI:10.3778/j.issn.1002-8331.1411-0111.
[23] 白淼.基于BP和SOM神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)的研究[D].阜新:遼寧工程技術(shù)大學(xué),2009.