莫 倩,趙 威,苑 崢
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京100037)
由于近年來(lái)我國(guó)互聯(lián)網(wǎng)和證券市場(chǎng)高速蓬勃的發(fā)展,一些不法分子開(kāi)始以一種新的手段牟取暴利,他們通過(guò)對(duì)網(wǎng)絡(luò)證券輿情的操控達(dá)到自己的目的。本課題所研究的證券輿情多空判別和傳統(tǒng)意義上的漲跌預(yù)測(cè)存在著本質(zhì)的差別。漲跌預(yù)測(cè)研究的目標(biāo)是分析證券漲跌的客觀規(guī)律,其數(shù)據(jù)來(lái)源包括公司業(yè)績(jī)、行業(yè)分析、來(lái)自傳統(tǒng)媒體以及網(wǎng)絡(luò)媒體的各類信息,以客觀數(shù)據(jù)為主。
以國(guó)內(nèi)中科院計(jì)算所、北京大學(xué)[1]、北京理工大學(xué)[2]為代表的國(guó)內(nèi)高??蒲袡C(jī)構(gòu)在證券輿情分析、輿情監(jiān)測(cè)與預(yù)警方面進(jìn)行了大量的研發(fā)工作,他們的部分成果已經(jīng)形成了相應(yīng)的系統(tǒng)并投入使用。由人民網(wǎng)、證券時(shí)報(bào)和人民在線一起發(fā)起,建立了中國(guó)上市公司輿情中心[3],其目的就是希望通過(guò)提供專業(yè)高效的輿情監(jiān)測(cè)平臺(tái),為上市公司服務(wù)、為證券市場(chǎng)服務(wù)。
本文介紹了一種互聯(lián)網(wǎng)證券輿情多空傾向性判別方法,闡述了證券輿情系統(tǒng)的建立以及關(guān)鍵技術(shù);介紹了證券輿情相關(guān)語(yǔ)料庫(kù)的建立;描述了單篇文章的多空文章判別技術(shù)和多空綜合判別技術(shù)。
本課題所設(shè)計(jì)的互聯(lián)網(wǎng)證券輿情監(jiān)測(cè)系統(tǒng)是一個(gè)針對(duì)證券領(lǐng)域的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),總體框架如圖1所示。互聯(lián)網(wǎng)證券輿情監(jiān)測(cè)系統(tǒng)可以分為主要的三個(gè)模塊:證券信息的收集模塊、證券信息清理分析模塊和證券信息服務(wù)模塊。該系統(tǒng)以互聯(lián)網(wǎng)信息抽取、信息的智能分析與處理等技術(shù)為基礎(chǔ),完成互聯(lián)網(wǎng)上證券輿情的自動(dòng)采集、自然語(yǔ)言處理、排重去噪、自動(dòng)分類、觀點(diǎn)傾向性分析等功能,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)證券輿情的監(jiān)測(cè)。
(1)證券輿情采集模塊:系統(tǒng)設(shè)計(jì)采用Web信息抽取工具,對(duì)互聯(lián)網(wǎng)上各種交互式數(shù)據(jù)源中的證券輿情信息進(jìn)行數(shù)據(jù)的采集。
(2)證券輿情的分析與處理模塊:此模塊利用各種自然語(yǔ)言處理技術(shù)與文本挖掘技術(shù)通過(guò)數(shù)據(jù)訪問(wèn)接口對(duì)采集到的證券輿情信息進(jìn)行智能的分析與處理,包括語(yǔ)言分析、自動(dòng)消重、自動(dòng)摘要、關(guān)鍵詞提取、自動(dòng)分類、關(guān)聯(lián)分析、話題跟蹤、傾向性分析等。
(3)證券輿情的服務(wù)模塊:證券輿情的服務(wù)模塊是系統(tǒng)用戶和證券輿情系統(tǒng)的接口,該系統(tǒng)利用證券輿情信息清理和分析模塊的各項(xiàng)技術(shù)為用戶提供服務(wù),如輿情的預(yù)測(cè)預(yù)警、檢索、簡(jiǎn)報(bào)制作等。
圖1 互聯(lián)網(wǎng)證券輿情監(jiān)測(cè)的總體架構(gòu)圖
本課題選用可視化Web信息抽?。╒isual Web In-for mation Extraction)[4-7]工具——VWIE 來(lái)進(jìn)行證券輿情的采集工作。該工具是本課題組自行研制開(kāi)發(fā)的一種基于Wrapper的Web信息抽取工具,采用了基于DOM的Web信息抽取技術(shù)。該技術(shù)對(duì)網(wǎng)頁(yè)的DOM(Document Object Model)結(jié)構(gòu)進(jìn)行分析,將HTML格式看成XML格式來(lái)進(jìn)行處理,經(jīng)解析器Parser分析網(wǎng)頁(yè),生成樹(shù)形圖。利用Xpath對(duì)樹(shù)形圖的節(jié)點(diǎn)進(jìn)行定位,用XSLT的抽取規(guī)則完成信息抽?。?]。
在抽取web網(wǎng)頁(yè)之前,系統(tǒng)要對(duì)Web網(wǎng)頁(yè)的文本進(jìn)行清理分析。采用基于JAVA的HTML Parser對(duì)頁(yè)面進(jìn)行預(yù)處理,對(duì)標(biāo)簽進(jìn)行定位,構(gòu)建頁(yè)面的DOM樹(shù)?;贒OM的方法,能從較大的邏輯節(jié)點(diǎn)抽取信息,也能對(duì)小的單元節(jié)點(diǎn)進(jìn)行操作。而且,此DOM樹(shù)是可以進(jìn)行編輯的,經(jīng)過(guò)簡(jiǎn)單的編輯可以很容易地生成一個(gè)全新的網(wǎng)頁(yè)。本系統(tǒng)采用XPath對(duì)DOM樹(shù)中的各個(gè)節(jié)點(diǎn)進(jìn)行定位處理。
證券輿情語(yǔ)料庫(kù)主要針對(duì)多空判別的需求,對(duì)證券輿情消息中常見(jiàn)的概念進(jìn)行分類,并建立不同類別直接的關(guān)聯(lián)關(guān)系。多空判別不同于傳統(tǒng)基于主題的分析,簡(jiǎn)單的通過(guò)分類聚類的技術(shù),或者是采用傾向性判別技術(shù)往往很難達(dá)到理想效果。
證券實(shí)體對(duì)象庫(kù)是多空判別的研究對(duì)象,主要包括在上交所、深交所、港交所等上市的公司企業(yè)信息、股票代碼信息、行業(yè)信息等數(shù)據(jù)。
(1)首先從上交所、深交所、港交所、新浪財(cái)經(jīng)、和訊等網(wǎng)站抽取證券實(shí)體對(duì)象的名稱、股票代碼、行業(yè)等基本屬性信息;
(2)從專業(yè)股票軟件如:大智慧、通達(dá)信等獲取證券實(shí)體對(duì)象的基本屬性信息;
(3)將抽取的信息和從專業(yè)軟件獲取的信息進(jìn)行對(duì)比,校正并補(bǔ)齊缺失信息。
證券輿情信息點(diǎn)庫(kù)主要包括證券市場(chǎng)多空的評(píng)價(jià)角度,根據(jù)金融專業(yè)的分類規(guī)則,描述如下:上市公司人員情況、財(cái)務(wù)狀況、股權(quán)變更、經(jīng)營(yíng)狀況、股價(jià)異常等幾個(gè)方面。具體見(jiàn)表1。
表1 證券輿情信息點(diǎn)庫(kù)
創(chuàng)建證券輿情信息點(diǎn)庫(kù)的完整流程如下:
(1)創(chuàng)建證券輿情信息點(diǎn)庫(kù)的第一層信息點(diǎn)。
根據(jù)金融專業(yè)的領(lǐng)域?qū)<姨峁┑姆诸愐?guī)則,確定上市公司層次下的第一層信息點(diǎn),包括六個(gè)主要信息點(diǎn),如表1所示。
(2)對(duì)第一層每個(gè)信息點(diǎn)進(jìn)行擴(kuò)展,生成第二層信息點(diǎn)。
由于滬深300指數(shù)能夠反映中國(guó)證券市場(chǎng)股票價(jià)格變動(dòng)的概貌和運(yùn)行狀況,并且可以作為投資業(yè)績(jī)的評(píng)價(jià)標(biāo)準(zhǔn)[9,10],因此我們選取滬深300中的100只股票作為候選代表。這里提出了一種基于搜索引擎的證券輿情信息點(diǎn)的抽取方法。將滬深300中的這100只股票的名稱與第一層信息點(diǎn)中的信息結(jié)合,形成一個(gè)詞對(duì),描述為WP=<stockname,keyword>。將詞對(duì)WP輸入到搜索引擎中,得到返回結(jié)果的列表集RL。將列表集的前20條記錄作為候選結(jié)果進(jìn)行抽取,抽取的每一條記錄都是一個(gè)小文本。對(duì)每一個(gè)小文本進(jìn)行關(guān)鍵詞提?。?1~13]的操作,得到相應(yīng)的關(guān)鍵詞集。
(3)迭代計(jì)算。將股票名稱與第二層信息點(diǎn)組成新的詞對(duì)WP’=<stockname,key word’>,重復(fù)使用基于搜索引擎的證券輿情信息點(diǎn)抽取方法,迭代計(jì)算,得到第三層信息點(diǎn)集合。
(4)根據(jù)經(jīng)驗(yàn)與金融行業(yè)規(guī)則,補(bǔ)充相應(yīng)的金融信息點(diǎn)。
對(duì)初步得到的證券輿情信息點(diǎn)庫(kù)進(jìn)行完善,根據(jù)金融行業(yè)規(guī)則和日常生活經(jīng)驗(yàn),對(duì)結(jié)果集進(jìn)行補(bǔ)充,得到最終的證券輿情信息點(diǎn)庫(kù)。
證券輿情多空屬性庫(kù)包含表示多空屬性的詞語(yǔ)及表示多空程度的詞語(yǔ)。
(1)抽取300篇證券輿情信息作為初始證券輿情多空屬性詞庫(kù)的數(shù)據(jù)源。
(2)對(duì)這300篇證券輿情信息進(jìn)行語(yǔ)料預(yù)處理,將文本進(jìn)行分句,然后進(jìn)行分詞和詞性標(biāo)注處理,并識(shí)別其中的名詞、動(dòng)詞、形容詞等最可能表示多空屬性的詞性類別。
(3)讀取x ml文件,將名詞、動(dòng)詞、形容詞提取出來(lái)作為生成的候選詞集合,然后利用“哈工大信息檢索研究中心同義詞詞林?jǐn)U展版[14,15]”,以現(xiàn)有的候選詞集合為基礎(chǔ),查找其同義詞,補(bǔ)充到候選詞集合中。
(4)候選特征詞過(guò)濾,對(duì)候選詞集進(jìn)行人工篩選,剔除不滿足條件的詞語(yǔ),得到最終的證券輿情多空屬性庫(kù)。
多空綜合研判主要應(yīng)用行為金融學(xué)的模型框架,形式化表述如式(1):
式中,m是單獨(dú)的消息、M是整個(gè)消息的集合、d是信息點(diǎn)、D是信息點(diǎn)的集合、bb_credit是多空計(jì)算的函數(shù)、BBCredit是多空判別函數(shù)、object是需要判別的證券實(shí)體對(duì)象。
主要判別過(guò)程如下:
(1)統(tǒng)計(jì)每條微觀消息的多空態(tài)度與權(quán)重。
(2)消息的可信度計(jì)算:主要依據(jù)消息的媒介形式、信息來(lái)源、作者、轉(zhuǎn)載情況、回復(fù)數(shù)量等情況綜合計(jì)算。
(3)消息的影響力分析,主要依據(jù)消息的點(diǎn)擊以及回復(fù)的數(shù)量,同時(shí)考慮消息的媒介形式、發(fā)表的媒體、消息作者。
(4)按照每天微觀消息的信息點(diǎn)進(jìn)行分類整理;綜合計(jì)算每個(gè)信息點(diǎn)的多空對(duì)比數(shù)據(jù)。
證券輿情存在“報(bào)喜不報(bào)憂”的傳統(tǒng)。因此,本課題要進(jìn)一步修改綜合判斷模型,具體想法為:引入歷史多空數(shù)據(jù)維度,也就是觀察一段時(shí)間的情況,看多消息總數(shù)量和比例的特征。因此,判別模型需要修正如下:
式中,t為時(shí)間戳,α為調(diào)節(jié)因子,由歷史多空數(shù)據(jù)與當(dāng)前數(shù)據(jù)比對(duì)計(jì)算得出。結(jié)果如果是1.0不一定就是100%的看多,其結(jié)果更多的是一種比較意義。需要基于歷史數(shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí),通過(guò)調(diào)節(jié)因子,得出更具準(zhǔn)確度的結(jié)果。
本文的研究目的是從互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)源的證券信息中采集并分析出民眾對(duì)特定證券對(duì)象的觀點(diǎn)、意見(jiàn)和看法,依據(jù)微觀的傾向性數(shù)據(jù)綜合計(jì)算出輿情看空看多的走勢(shì)。
在現(xiàn)有工作成果上,增加并改進(jìn)證券輿情系統(tǒng)的功能,將那個(gè)證券本體的理論引入證券信息分類中,在分類中加入機(jī)器學(xué)習(xí)的方法,提高證券信息分類準(zhǔn)確率,更精準(zhǔn)地構(gòu)建證券資訊與股票價(jià)格之間的關(guān)系,輔助證券監(jiān)管部門(mén)的決策支持,為廣大股民提供服務(wù)。
[1] 李曉明,朱家稷,閻宏飛.互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2003,40(12):1667-1671.
[2] 仇 晶,廖樂(lè)健.網(wǎng)絡(luò)輿情與網(wǎng)絡(luò)文化安全預(yù)警技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2008,6:59-61.
[3] 佚 名.中國(guó)上市公司輿情中心啟動(dòng)[J].青年記者,2011,19:33.
[4] Turney P D,Litt man M L.Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Trans.Inf.Syst.2003,21(4):315-346.
[5] Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the Web[C].In:Proceedings of the 14th Australasian Database Conference(ADC2003).Adelaide.2003:181-189.
[6] Chang K C,He B,Li C,Patel M,Zhang Z.Structured databases on the web.Observations and Implications[C].SIGMOD Record,2004,33(3):61-70.
[7] Zhang Z,He B,Chang K C.Understanding Web query interfaces:best-effort parsing with hidden syntax[C].In:Proceedings of the 23th ACM SIGMODInternational Conference on Management of Data.Paris.2004:107-118.
[8] 滕 偉.面向Web信息集成的Web信息抽取中若干關(guān)鍵問(wèn)題的研究[D].上海:上海交通大學(xué),2007.
[9] 林 瀟.滬深300指數(shù)套期保值效果的實(shí)證研究[D].成都:電子科技大學(xué),2007.
[10]方 智.基于多技術(shù)指標(biāo)模型的滬深300指數(shù)走勢(shì)預(yù)測(cè)[D].南昌:江西財(cái)經(jīng)大學(xué),2012.
[11]梁偉明.中文關(guān)鍵詞提取技術(shù)[D].上海:上海交通大學(xué),2010.
[12]蔣昌金,彭 宏,陳建超,等.基于組合詞和同義詞集的關(guān)鍵詞提取算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2853-2856.
[13]方 俊,郭 雷,王曉東.基于語(yǔ)義的關(guān)鍵詞提取算法[J].計(jì)算機(jī)科學(xué),2008,(6):148-151.
[14]程 濤,施水才,王 霞,等.基于同義詞詞林的中文文本主題詞提取[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,(2):145-148.
[15]田久樂(lè),趙 蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,(6):602-608.