秦江源 王宸 徐辰星 周震霆
摘 要:在大數(shù)據(jù)時代的洪流奔涌之下,金融行業(yè)的文本信息量也正飛速增長,使得人們對金融數(shù)據(jù)的分析與應用方式產(chǎn)生了深刻變革,海量、多源、異構(gòu)的金融數(shù)據(jù)正對金融從業(yè)者帶來前所未有的困難和挑戰(zhàn)。從金融數(shù)據(jù)之中挖掘出對金融決策支持有價值的知識,加快金融企業(yè)面向文書自動化的產(chǎn)業(yè)升級,已成為如今金融業(yè)的研究熱點之一,對金融決策支持過程具有相當?shù)囊饬x。
關(guān)鍵詞:金融文本,數(shù)據(jù)挖掘,知識發(fā)現(xiàn)
1.引言
近幾年隨著金融市場的開放, 外資金融機構(gòu)的進入, 多種金融創(chuàng)新將不斷涌現(xiàn), 競爭也隨之不斷加劇。李金迎(2009)指出,各行各業(yè)的數(shù)據(jù)庫中積累的數(shù)據(jù)中蘊含著相當?shù)慕鹑陬I(lǐng)域知識,而傳統(tǒng)數(shù)據(jù)挖掘方法,遠沒有挖掘出數(shù)據(jù)的潛在價值;何德旭(2011)探討了金融安全網(wǎng)絡機制,聯(lián)系了信息框架和金融安全網(wǎng);張永杰(2011)在資產(chǎn)定價方面開展了研究, 發(fā)現(xiàn)網(wǎng)絡開源信息中包含對股票異常日收益率有顯著解釋力的內(nèi)容;朱建平(2011)指出,目前需要采用高頻數(shù)據(jù),在較窄觀測區(qū)間內(nèi)產(chǎn)生足夠的數(shù)據(jù)量, 同時對市場微結(jié)構(gòu)模型做出一定的驗證;中國銀聯(lián)股份有限公司(2013)指出,數(shù)據(jù)時代, 數(shù)據(jù)已經(jīng)成為企業(yè)創(chuàng)新的核心驅(qū)動力和競爭力。大數(shù)據(jù)已經(jīng)影響企業(yè)決策方式從“業(yè)務驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)型;孔翔宇(2016)依據(jù)財經(jīng)新聞主題與股票市場的相關(guān)性, 提出了基于新聞主題分布的模型,以此進行中國股市漲跌的預測;鮑捷(2016)提出知識圖譜是形成投資研究業(yè)務自動化表達邏輯的基礎(chǔ),在整個智能金融的技術(shù)鏈條中處于核心地位;汪建基(2017)分析了傳統(tǒng)人工智能方法在處理大規(guī)模碎片化知識時存在的問題,討論了碎片化知識處理組織與學習的基本結(jié)構(gòu),指出了行業(yè)知識圖譜在人工智能知識發(fā)現(xiàn)中的重要性;2017年7月20日,國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,首次提出了智能金融的概念,鼓勵將智能金融應用于智能客服、智能監(jiān)控等等,實現(xiàn)制造與服務、金融的智能化融合。
根據(jù)國家統(tǒng)計局數(shù)據(jù)顯示,截至2018年末,全國共有金融業(yè)企業(yè)法人單位13.7萬個,從業(yè)人員1818.0萬人;同時,2015年末,經(jīng)濟學普通本科在校生與畢業(yè)生數(shù)約116萬人,管理學普通本科在校生與畢業(yè)生數(shù)約360萬人,共有合計約上五百萬人的高校市場;同時,市場規(guī)模正以每年約10%的速度快速增長,市場潛力可見一斑。鑒于此,本文試圖對現(xiàn)有文獻進行梳理與拓展,分析互聯(lián)網(wǎng)金融對金融結(jié)構(gòu)的影響,并整理常用的數(shù)據(jù)挖掘方法,探討它們影響金融結(jié)構(gòu)的作用機制,在此基礎(chǔ)上提出相應建議。
2.數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在實際應用領(lǐng)域中,數(shù)據(jù)挖掘任務常可被劃分為分類、聚類、預測、關(guān)聯(lián)分析等等統(tǒng)計方法。
2.1決策樹
決策樹(decision tree)是數(shù)據(jù)挖掘中的一種常見算法,呈樹形結(jié)構(gòu),能夠利用信息增益尋找數(shù)據(jù)庫中包含最大信息量的內(nèi)容建立節(jié)點,其中每個內(nèi)部節(jié)點都表示其在一個屬性上的判斷,每個分支代表了節(jié)點判斷結(jié)果的輸出,在每個分枝出的節(jié)點中,重復判斷、分支的過程,最終建立出決策樹,其中每個葉節(jié)點均代表了一種分類結(jié)果。決策樹是一種常見的有監(jiān)督分類方法,通過對已有樣本的學習,決策樹能對新進入的數(shù)據(jù)做出正確的分類。決策樹的優(yōu)勢在于其可解釋性,能夠在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)集做出可行性強且效果良好的結(jié)果,且不需要繁瑣的數(shù)據(jù)預處理。盡管如此,面對樣本數(shù)量的不平衡問題時,決策樹便會顯得無能為力,往往會偏向于具有更多數(shù)值的特征。
2.2關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則是一種基于規(guī)則的機器學習方法,用于從數(shù)據(jù)集中尋找事件之間的隱含關(guān)系,能反映出事件與其他事件之間的關(guān)聯(lián)性,是數(shù)據(jù)挖掘研究的主要模式之一。關(guān)聯(lián)規(guī)則分析中的衡量方法包括有支持度(Support)、置信度(Confidence) 、提升度 (Lift)。在關(guān)聯(lián)規(guī)則挖掘的研究當中,目前影響最廣、使用最頻繁的是Apriori算法, Apriori 算法是一種致力于挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,通過運用逐層搜索,在所有的頻繁集中找出強關(guān)聯(lián)規(guī)則。
2.3神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡 (neural network)是近年來火熱的算法之一,它通過模仿生物神經(jīng)網(wǎng)絡,由大量的人工神經(jīng)元聯(lián)結(jié)進行計算,從而構(gòu)建出復雜的計算模型,具有強大的聯(lián)想、記憶、推理功能。其中,誤差反向傳播算法由Romelhart在1986年提出,它將輸出誤差通過隱藏層向輸入層層層傳遞,并傳遞到每層單元使其都獲得誤差信號,同時修正各單元的權(quán)重,如此反復直到權(quán)值不斷調(diào)整至最優(yōu),由此得到了一個多層前饋神經(jīng)網(wǎng)絡模型,即BP神經(jīng)網(wǎng)絡模型。BP神經(jīng)網(wǎng)絡具有結(jié)構(gòu)簡單,狀態(tài)穩(wěn)定等特點,在眾多神經(jīng)網(wǎng)絡模型中應用最為廣泛,在分類、最優(yōu)預測等任務中均有著良好表現(xiàn)。
3.文本挖掘研究
3.1情感分析
在金融領(lǐng)域中,往往需要對股票論壇中的評論信息,各金融網(wǎng)站的新聞等進行情感傾向分析,以此研究投資者情緒,把握輿情發(fā)展趨勢,為此需要對評論進行數(shù)據(jù)挖掘與特征提取。文本情感分析,就是對具有情感色彩的詞、句乃至文檔進行分析歸納的過程。首先,需要基于金融語料庫來進行情感詞典的構(gòu)造,人工標注好情感傾向詞匯作為語料庫,然后運用樸素貝葉斯網(wǎng)絡,支持向量機等分類器進行分類訓練,得到訓練完成的分類器后,便可以對新輸入的評論數(shù)據(jù)進行預測,得到其情感傾向。
3.2自動摘要
為從海量的金融研報、股市要聞,公司公告中提取簡明扼要的觀點,減少金融工作者的閱讀負擔,自動摘要技術(shù)應運而生。然而,市場對于金融信息的需求正在日益提高,如何保證自身摘要的可靠性成為了研究者面對的主要問題。在文本摘要自動生成技術(shù)中,以長短時記憶網(wǎng)絡(Long short term memory,LSTM)最為見長。LSTM依靠其長期記憶能力進行語義關(guān)聯(lián),能夠處理任意長的文本序列,有效解決了傳統(tǒng)模型面對數(shù)據(jù)不定長度的困難。LSTM模型的特點是系統(tǒng)的輸出會一直保留在網(wǎng)絡中,和模型下一時刻的輸入共同決定下一時刻的輸出,因此可以刻畫出復雜的歷史依賴關(guān)系。
3.3命名實體識別
面對著海量的互聯(lián)網(wǎng)金融信息,投資者和決策者常??嘤谌绾胃咝У墨@取需要的知識。針對這一問題,金融命名實體識別的實現(xiàn)將有效提高金融信息的獲取效率,為金融工作者提供有力的信息支撐。
命名實體識別(NER)是自然語言處理中的一項基礎(chǔ)任務,其主要目標是識別出文本中具有特定意義的實體,一般包括兩種劃分:實體、時間、數(shù)字三大類,人名、地名、組織機構(gòu)名、時間、日期、貨幣量、百分數(shù)七小類。為實現(xiàn)命名實體識別,首先需要進行詞實體標注,常見的標注方法有BIO,BIOES,Markup等等。BIO標注法中,B表示實體詞的開頭,I表示實體詞的中間,O表示不是實體詞的部分,以此來區(qū)分識別實體詞。BIOES則是在BIO的基礎(chǔ)上,增加了E(表示實體詞的結(jié)尾)和S(表示能單獨組成一個實體),是目前最通用的實體標注方法。目前在命名實體識別任務中,主要算法包括有基于規(guī)則的詞性標注方法和基于統(tǒng)計模型的詞性標注方法兩類,均在命名實體識別任務中取得了良好表現(xiàn)。
4.總結(jié)與展望
隨著互聯(lián)網(wǎng)金融的日益發(fā)展,金融從業(yè)者與數(shù)據(jù)挖掘工作者規(guī)模會日漸龐大,發(fā)現(xiàn)金融知識的潛在價值也是勢在必行。本文基于前人基礎(chǔ),總結(jié)了主要的數(shù)據(jù)挖掘、文本挖掘方法,旨在梳理出前人研究脈絡,分析未來金融領(lǐng)域所要面對的挑戰(zhàn)。大數(shù)據(jù)時代下,金融知識發(fā)現(xiàn)將成為數(shù)據(jù)挖掘中的一個重要應用,會日益發(fā)揮出其價值。
參考文獻:
[1].唐曉波,譚明亮,胡瀟然,石文萱,周巧.面向金融決策支持的知識獲取研究綜述[J].信息資源管理學報,2020,10(03):27-35.
[2].馬琳,董智鶴,夏嵩,賈孺.數(shù)據(jù)挖掘技術(shù)綜述淺析[J].數(shù)字技術(shù)與應用,2019,37(10):230-231.
[3].陳安,陳寧,范超.金融信用風險評價中的數(shù)據(jù)挖掘技術(shù)綜述[J].智能計算機與應用,2017,7(05):55-59.
[4].丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(04):691-706.
[5].李金迎,詹原瑞.金融行業(yè)的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代管理科學,2009(08):14-16.
[6].何德旭,饒云清,王智杰.金融安全網(wǎng):基于信息空間理論的分析[J].經(jīng)濟理論與經(jīng)濟管理,2011(02):69-78.
[7].張永杰,張維,金曦,熊熊.互聯(lián)網(wǎng)知道的更多么?——網(wǎng)絡開源信息對資產(chǎn)定價的影響[J].系統(tǒng)工程理論與實踐,2011,31(04):577-586.
[8].朱建平,魏瑾,謝邦昌.金融高頻數(shù)據(jù)挖掘研究評述與展望[J].經(jīng)濟學動態(tài),2011(06):59-62.
[9].柴洪峰.金融大數(shù)據(jù)及銀行卡產(chǎn)業(yè)大數(shù)據(jù)實踐[J].上海金融,2013(10):27-29+116.
[10].孔翔宇,畢秀春,張曙光.財經(jīng)新聞與股市預測——基于數(shù)據(jù)挖掘技術(shù)的實證分析[J].數(shù)理統(tǒng)計與管理,2016,35(02):215-224.
[11].鮑捷.知識圖譜如何助力實現(xiàn)智能金融[J].金卡工程,2016(07):45-49.
[12].汪建基,馬永強,陳仕濤,劉子熠,鄭南寧.碎片化知識處理與網(wǎng)絡化人工智能[J].中國科學:信息科學,2017,47(02):171-192.
[13].U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press,1996.
本文得到上海立信會計金融學院大學生創(chuàng)新創(chuàng)業(yè)訓練計劃(202111047034X)基金支持. 秦江源,女,法學專業(yè)本科在讀;