基于數(shù)據(jù)挖掘的金融領(lǐng)域知識發(fā)現(xiàn)研究綜述

2021-03-01 12:23秦江源王宸徐辰星周震霆

科學與財富 2021年27期

秦江源王宸徐辰星周震霆

摘要：在大數(shù)據(jù)時代的洪流奔涌之下，金融行業(yè)的文本信息量也正飛速增長，使得人們對金融數(shù)據(jù)的分析與應用方式產(chǎn)生了深刻變革，海量、多源、異構(gòu)的金融數(shù)據(jù)正對金融從業(yè)者帶來前所未有的困難和挑戰(zhàn)。從金融數(shù)據(jù)之中挖掘出對金融決策支持有價值的知識，加快金融企業(yè)面向文書自動化的產(chǎn)業(yè)升級，已成為如今金融業(yè)的研究熱點之一，對金融決策支持過程具有相當?shù)囊饬x。

關(guān)鍵詞：金融文本，數(shù)據(jù)挖掘，知識發(fā)現(xiàn)

1.引言

近幾年隨著金融市場的開放，外資金融機構(gòu)的進入，多種金融創(chuàng)新將不斷涌現(xiàn)，競爭也隨之不斷加劇。李金迎（2009）指出，各行各業(yè)的數(shù)據(jù)庫中積累的數(shù)據(jù)中蘊含著相當?shù)慕鹑陬I(lǐng)域知識，而傳統(tǒng)數(shù)據(jù)挖掘方法，遠沒有挖掘出數(shù)據(jù)的潛在價值;何德旭（2011）探討了金融安全網(wǎng)絡機制，聯(lián)系了信息框架和金融安全網(wǎng);張永杰（2011）在資產(chǎn)定價方面開展了研究，發(fā)現(xiàn)網(wǎng)絡開源信息中包含對股票異常日收益率有顯著解釋力的內(nèi)容;朱建平（2011）指出，目前需要采用高頻數(shù)據(jù)，在較窄觀測區(qū)間內(nèi)產(chǎn)生足夠的數(shù)據(jù)量，同時對市場微結(jié)構(gòu)模型做出一定的驗證;中國銀聯(lián)股份有限公司（2013）指出，數(shù)據(jù)時代，數(shù)據(jù)已經(jīng)成為企業(yè)創(chuàng)新的核心驅(qū)動力和競爭力。大數(shù)據(jù)已經(jīng)影響企業(yè)決策方式從“業(yè)務驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)型;孔翔宇（2016）依據(jù)財經(jīng)新聞主題與股票市場的相關(guān)性，提出了基于新聞主題分布的模型，以此進行中國股市漲跌的預測;鮑捷（2016）提出知識圖譜是形成投資研究業(yè)務自動化表達邏輯的基礎(chǔ)，在整個智能金融的技術(shù)鏈條中處于核心地位;汪建基（2017）分析了傳統(tǒng)人工智能方法在處理大規(guī)模碎片化知識時存在的問題，討論了碎片化知識處理組織與學習的基本結(jié)構(gòu)，指出了行業(yè)知識圖譜在人工智能知識發(fā)現(xiàn)中的重要性;2017年7月20日，國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》，首次提出了智能金融的概念，鼓勵將智能金融應用于智能客服、智能監(jiān)控等等，實現(xiàn)制造與服務、金融的智能化融合。

根據(jù)國家統(tǒng)計局數(shù)據(jù)顯示，截至2018年末，全國共有金融業(yè)企業(yè)法人單位13.7萬個，從業(yè)人員1818.0萬人;同時，2015年末，經(jīng)濟學普通本科在校生與畢業(yè)生數(shù)約116萬人，管理學普通本科在校生與畢業(yè)生數(shù)約360萬人，共有合計約上五百萬人的高校市場;同時，市場規(guī)模正以每年約10%的速度快速增長，市場潛力可見一斑。鑒于此，本文試圖對現(xiàn)有文獻進行梳理與拓展，分析互聯(lián)網(wǎng)金融對金融結(jié)構(gòu)的影響，并整理常用的數(shù)據(jù)挖掘方法，探討它們影響金融結(jié)構(gòu)的作用機制，在此基礎(chǔ)上提出相應建議。

2.數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘，即數(shù)據(jù)庫中的知識發(fā)現(xiàn)（Knowledge Discovery in Database，KDD），是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在實際應用領(lǐng)域中，數(shù)據(jù)挖掘任務常可被劃分為分類、聚類、預測、關(guān)聯(lián)分析等等統(tǒng)計方法。

2.1決策樹

決策樹（decision tree）是數(shù)據(jù)挖掘中的一種常見算法，呈樹形結(jié)構(gòu)，能夠利用信息增益尋找數(shù)據(jù)庫中包含最大信息量的內(nèi)容建立節(jié)點，其中每個內(nèi)部節(jié)點都表示其在一個屬性上的判斷，每個分支代表了節(jié)點判斷結(jié)果的輸出，在每個分枝出的節(jié)點中，重復判斷、分支的過程，最終建立出決策樹，其中每個葉節(jié)點均代表了一種分類結(jié)果。決策樹是一種常見的有監(jiān)督分類方法，通過對已有樣本的學習，決策樹能對新進入的數(shù)據(jù)做出正確的分類。決策樹的優(yōu)勢在于其可解釋性，能夠在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)集做出可行性強且效果良好的結(jié)果，且不需要繁瑣的數(shù)據(jù)預處理。盡管如此，面對樣本數(shù)量的不平衡問題時，決策樹便會顯得無能為力，往往會偏向于具有更多數(shù)值的特征。

2.2關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則是一種基于規(guī)則的機器學習方法，用于從數(shù)據(jù)集中尋找事件之間的隱含關(guān)系，能反映出事件與其他事件之間的關(guān)聯(lián)性，是數(shù)據(jù)挖掘研究的主要模式之一。關(guān)聯(lián)規(guī)則分析中的衡量方法包括有支持度（Support）、置信度（Confidence）、提升度（Lift）。在關(guān)聯(lián)規(guī)則挖掘的研究當中，目前影響最廣、使用最頻繁的是Apriori算法， Apriori 算法是一種致力于挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法，通過運用逐層搜索，在所有的頻繁集中找出強關(guān)聯(lián)規(guī)則。

2.3神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡（neural network）是近年來火熱的算法之一，它通過模仿生物神經(jīng)網(wǎng)絡，由大量的人工神經(jīng)元聯(lián)結(jié)進行計算，從而構(gòu)建出復雜的計算模型，具有強大的聯(lián)想、記憶、推理功能。其中，誤差反向傳播算法由Romelhart在1986年提出，它將輸出誤差通過隱藏層向輸入層層層傳遞，并傳遞到每層單元使其都獲得誤差信號，同時修正各單元的權(quán)重，如此反復直到權(quán)值不斷調(diào)整至最優(yōu)，由此得到了一個多層前饋神經(jīng)網(wǎng)絡模型，即BP神經(jīng)網(wǎng)絡模型。BP神經(jīng)網(wǎng)絡具有結(jié)構(gòu)簡單，狀態(tài)穩(wěn)定等特點，在眾多神經(jīng)網(wǎng)絡模型中應用最為廣泛，在分類、最優(yōu)預測等任務中均有著良好表現(xiàn)。

3.文本挖掘研究

3.1情感分析

在金融領(lǐng)域中，往往需要對股票論壇中的評論信息，各金融網(wǎng)站的新聞等進行情感傾向分析，以此研究投資者情緒，把握輿情發(fā)展趨勢，為此需要對評論進行數(shù)據(jù)挖掘與特征提取。文本情感分析，就是對具有情感色彩的詞、句乃至文檔進行分析歸納的過程。首先，需要基于金融語料庫來進行情感詞典的構(gòu)造，人工標注好情感傾向詞匯作為語料庫，然后運用樸素貝葉斯網(wǎng)絡，支持向量機等分類器進行分類訓練，得到訓練完成的分類器后，便可以對新輸入的評論數(shù)據(jù)進行預測，得到其情感傾向。

3.2自動摘要

為從海量的金融研報、股市要聞，公司公告中提取簡明扼要的觀點，減少金融工作者的閱讀負擔，自動摘要技術(shù)應運而生。然而，市場對于金融信息的需求正在日益提高，如何保證自身摘要的可靠性成為了研究者面對的主要問題。在文本摘要自動生成技術(shù)中，以長短時記憶網(wǎng)絡（Long short term memory，LSTM）最為見長。LSTM依靠其長期記憶能力進行語義關(guān)聯(lián)，能夠處理任意長的文本序列，有效解決了傳統(tǒng)模型面對數(shù)據(jù)不定長度的困難。LSTM模型的特點是系統(tǒng)的輸出會一直保留在網(wǎng)絡中，和模型下一時刻的輸入共同決定下一時刻的輸出，因此可以刻畫出復雜的歷史依賴關(guān)系。

3.3命名實體識別

面對著海量的互聯(lián)網(wǎng)金融信息，投資者和決策者常?？嘤谌绾胃咝У墨@取需要的知識。針對這一問題，金融命名實體識別的實現(xiàn)將有效提高金融信息的獲取效率，為金融工作者提供有力的信息支撐。

命名實體識別（NER）是自然語言處理中的一項基礎(chǔ)任務，其主要目標是識別出文本中具有特定意義的實體，一般包括兩種劃分：實體、時間、數(shù)字三大類，人名、地名、組織機構(gòu)名、時間、日期、貨幣量、百分數(shù)七小類。為實現(xiàn)命名實體識別，首先需要進行詞實體標注，常見的標注方法有BIO，BIOES，Markup等等。BIO標注法中，B表示實體詞的開頭，I表示實體詞的中間，O表示不是實體詞的部分，以此來區(qū)分識別實體詞。BIOES則是在BIO的基礎(chǔ)上，增加了E（表示實體詞的結(jié)尾）和S（表示能單獨組成一個實體），是目前最通用的實體標注方法。目前在命名實體識別任務中，主要算法包括有基于規(guī)則的詞性標注方法和基于統(tǒng)計模型的詞性標注方法兩類，均在命名實體識別任務中取得了良好表現(xiàn)。

4.總結(jié)與展望

隨著互聯(lián)網(wǎng)金融的日益發(fā)展，金融從業(yè)者與數(shù)據(jù)挖掘工作者規(guī)模會日漸龐大，發(fā)現(xiàn)金融知識的潛在價值也是勢在必行。本文基于前人基礎(chǔ)，總結(jié)了主要的數(shù)據(jù)挖掘、文本挖掘方法，旨在梳理出前人研究脈絡，分析未來金融領(lǐng)域所要面對的挑戰(zhàn)。大數(shù)據(jù)時代下，金融知識發(fā)現(xiàn)將成為數(shù)據(jù)挖掘中的一個重要應用，會日益發(fā)揮出其價值。

參考文獻：

[1].唐曉波，譚明亮，胡瀟然，石文萱，周巧.面向金融決策支持的知識獲取研究綜述[J].信息資源管理學報，2020，10（03）：27-35.

[2].馬琳，董智鶴，夏嵩，賈孺.數(shù)據(jù)挖掘技術(shù)綜述淺析[J].數(shù)字技術(shù)與應用，2019，37（10）：230-231.

[3].陳安，陳寧，范超.金融信用風險評價中的數(shù)據(jù)挖掘技術(shù)綜述[J].智能計算機與應用，2017，7（05）：55-59.

[4].丁兆云，賈焰，周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展，2014，51（04）：691-706.

[5].李金迎，詹原瑞.金融行業(yè)的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代管理科學，2009（08）：14-16.

[6].何德旭，饒云清，王智杰.金融安全網(wǎng)：基于信息空間理論的分析[J].經(jīng)濟理論與經(jīng)濟管理，2011（02）：69-78.

[7].張永杰，張維，金曦，熊熊.互聯(lián)網(wǎng)知道的更多么？——網(wǎng)絡開源信息對資產(chǎn)定價的影響[J].系統(tǒng)工程理論與實踐，2011，31（04）：577-586.

[8].朱建平，魏瑾，謝邦昌.金融高頻數(shù)據(jù)挖掘研究評述與展望[J].經(jīng)濟學動態(tài)，2011（06）：59-62.

[9].柴洪峰.金融大數(shù)據(jù)及銀行卡產(chǎn)業(yè)大數(shù)據(jù)實踐[J].上海金融，2013（10）：27-29+116.

[10].孔翔宇，畢秀春，張曙光.財經(jīng)新聞與股市預測——基于數(shù)據(jù)挖掘技術(shù)的實證分析[J].數(shù)理統(tǒng)計與管理，2016，35（02）：215-224.

[11].鮑捷.知識圖譜如何助力實現(xiàn)智能金融[J].金卡工程，2016（07）：45-49.

[12].汪建基，馬永強，陳仕濤，劉子熠，鄭南寧.碎片化知識處理與網(wǎng)絡化人工智能[J].中國科學：信息科學，2017，47（02）：171-192.

[13].U. M. Fayyad， G. Piatetsky-Shapiro， P. Smyth， and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press，1996.

本文得到上海立信會計金融學院大學生創(chuàng)新創(chuàng)業(yè)訓練計劃（202111047034X）基金支持. 秦江源，女，法學專業(yè)本科在讀;

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于數(shù)據(jù)挖掘的金融領(lǐng)域知識發(fā)現(xiàn)研究綜述