盧民榮,甘健勝
(1.福建江夏學院 會計學院,福建 福州 350108;2.福建省社科研究基地財務與會計研究中心,福建 福州 350108)
自1999年國際貨幣基金組織和世界銀行啟動“金融部門評估計劃”(FSAP)開始,宏觀經(jīng)濟指標(如GDP、利率等)為各國和各地區(qū)建立金融風險預警系統(tǒng)做了基礎支撐。從經(jīng)濟宏觀指數(shù)上看,我國2000年至2010年間GDP增速都在10%左右,2011年至今雖有所回落但也都保持在6%左右,而且宏觀經(jīng)濟景氣指數(shù)如預警指數(shù)、一致指數(shù)、先行指數(shù)等也都處于比較理想的狀態(tài)。然而從金融股市的宏觀指數(shù)上看,美國股市從6469低點上漲至26616高點,歷時九年時間,漲了四倍,而我國創(chuàng)業(yè)板指數(shù),從585點上漲至4037點,漲了七倍僅歷時三年時間,其中代表中國A股的主板市場(上證指數(shù),代碼000001),從2014年下半年啟動以來,累計最大漲幅翻了一倍,但歷時不到一年時間,從而在經(jīng)濟與金融宏觀指數(shù)存在不協(xié)調(diào)、不一致現(xiàn)象。[1]經(jīng)歷2017年、2018年連續(xù)兩年穩(wěn)態(tài)后,2019年各種事件影響著全球各大指數(shù),引起一系列經(jīng)濟連鎖反應。
2008年股災、2015年股災、2016年P2P平臺跑路潮等金融風險大事件引致資本市場大幅波動問題仍然十分明顯,而且在相關監(jiān)管政策不斷出臺的背景下未能有效緩解,給我國經(jīng)濟社會帶來了一定的負面影響。從金融微觀上看,股市振幅(變化幅度)與時間的關系也表明我國上市資本金融市場機制仍然不夠成熟,2017年8月14日“301 調(diào)查”、2018年3月23日發(fā)起的“貿(mào)易戰(zhàn)”等事件,在接下來的三個月時間,我國A股上證指數(shù)從3300點跌至2800點以下,跌幅近20%且仍呈下跌趨勢,其中影響最大的企業(yè)中興通訊接近10個跌停,跌幅近60%。雖然2019年有所緩和,但近年來數(shù)據(jù)表明我國的金融機制仍需要進一步健全。[2]當前我國A股正處于納入MSCI新興市場指數(shù)初期和金融貿(mào)易風險過渡期,同時還受2020年突發(fā)新型冠狀病毒肺炎疫情的影響(如開市第一天股票大面積跌停),也會增加我國的金融風險,因此對金融風險預警系統(tǒng)的多方面研究顯得更加有必要。
國外的研究主要側(cè)重于運用計算機技術和離散數(shù)學相關算法去分析金融資產(chǎn)和股票市場變化因素,通過數(shù)據(jù)挖掘相關算法分析股票市場中指標數(shù)據(jù),并提取相關影響成分,最終設計為模型。構(gòu)建宏觀經(jīng)濟預警指標的研究比較多,Borio和Drehmann側(cè)重金融體系研究,含房價基差、股價基差、信貸基差等預警指標[3];Grimaldi以歐洲金融事件(研究數(shù)據(jù)樣本為1999—2009 年)衡量金融危機與極端金融事件發(fā)生之間的關系[4];Brave和Butters針對美國金融條件指數(shù)分析貨幣市場、債券及股票市場及銀行體系[5],Bianco等根據(jù)美國日交易數(shù)據(jù)監(jiān)測系統(tǒng)性金融風險[6];Penikas針對以色列建立宏觀經(jīng)濟指標建立了該國金融穩(wěn)定指數(shù)[7];Acemoglu等研究了金融網(wǎng)絡結(jié)構(gòu)與系統(tǒng)性金融風險間的關系[8]。而在微觀層面金融風險預警研究比較少,而且集中于投資者的研究,如投資者注意力研究,如Da Z等研究證實注意力指數(shù)主要反映了個人投資者的注意力[9],Schroff等研究通過google搜索量實證分析出股票的信息需求與投機行為顯著正相關[10];還有投資者行為研究,如Kraussl和Mirgorodskaya研究了媒體信息可以強化公眾預期,從而引起投資者對互聯(lián)網(wǎng)財經(jīng)新聞及相關論壇的關注分析從而影響股市[11]。運用大數(shù)據(jù)的機器學習對股市影響的研究也比較多,如運用RESSET金融研究數(shù)據(jù)庫,在大數(shù)據(jù)技術下分析市場的融資融券的買賣行為對股票市場影響,運用大數(shù)據(jù)機器學習實現(xiàn)人工智能與金融資產(chǎn)相結(jié)合的方法研究,這些研究大多數(shù)是對股市漲跌算法進行事后分析。[12-14]
而國內(nèi)的學者運用大數(shù)據(jù)對金融風險的研究也非常多,主要集中在統(tǒng)計學結(jié)合計算機技術應用于金融行業(yè)的研究,也有對個股案例進行詳細的指標分析和建立預測模型。影響較大的研究證實了未定權(quán)益分析(Contingent Claims Analysis,CCA)的風險指標對我國系統(tǒng)性金融風險預警具有較好的適用性,為我國金融風險測度提供了良好的理論研究基礎[15-17],李志輝等根據(jù)風險相依性,進行了擴展研究,實現(xiàn)了CCA方法的優(yōu)化[18]。金融風險預測方面更多是運用大數(shù)據(jù)技術建立預測模型,通過股市歷史數(shù)據(jù)進行實證分析。如討論將 Markov鏈過程理論應用于股票交易市場對股價綜合指數(shù)的分析預測模型,探討大數(shù)據(jù)的時代背景下應如何正確地進行股票投資,從大數(shù)據(jù)、機器學習和行為金融學的角度出發(fā)研究炒股行為生成的隨機變量,并基于某只股票的歷史數(shù)據(jù)運用相應的算法實現(xiàn)預測功能等。[19-21]還有一部分國內(nèi)學者在研究用戶參與金融市場并對其產(chǎn)生的影響,更傾向于研究投資者與財經(jīng)新聞、網(wǎng)絡論壇、微博等媒體關系,論證其能在較大程度上影響證券市場。[22-24]
綜合已有研究可以發(fā)現(xiàn),國內(nèi)外基于大數(shù)據(jù)研究股票宏觀市場走勢并生成相應的預測模型的成果比較豐富,也有對個股走勢分析和預測模型的微觀層面研究,而對金融市場受相關參與者影響研究比較少。目前,我國大數(shù)據(jù)在各行各業(yè)的應用已初顯成效,部分領域的應用已經(jīng)處于全球領先地位,其中大數(shù)據(jù)與資本市場關系的研究亦是金融市場的研究熱點。運用大數(shù)據(jù)建立用戶參與預測模型對上市資本市場整體影響則基本空白,對于金融市場相關參與者包括企業(yè)家,消費者,網(wǎng)民(含移動網(wǎng)民,下同),投資者等的結(jié)構(gòu)分析(年齡、收入、學歷),行為分析,體量分析(網(wǎng)民、投資者),指數(shù)分析(企業(yè)家信心指數(shù)、消費者指數(shù))等對股票市場的影響的研究仍然有待進一步深入,本課題以大數(shù)據(jù)源和用戶參與行為為觀測點,基于用戶參與視角和大數(shù)據(jù)技術對金融風險的影響及預警系統(tǒng)的構(gòu)建,設計用戶參與評價體系和用戶參與預測模型,預警系統(tǒng)可以有效降低金融風險,防范股票市場的大起大落對實體經(jīng)濟產(chǎn)生負面影響。
在有效市場假說下,金融市場風險信息體現(xiàn)在股票價格走勢中,股票價格變動所包含的信息不僅有價值而且及時、準確,因此,可以圍繞股價進行區(qū)域金融、金融機構(gòu)等的風險實證研究。[25-28]在股市下降趨勢時期(也稱“熊市”)只要稍有風吹草動,A股市場的群體恐慌心理會不斷降低投資者的投資信心,造成拋售壓力增加,由此形成惡性循環(huán)的現(xiàn)象。金融風險分析在股市下降時期的預測效果都比較差,出現(xiàn)非理性行為時一般難以提前預警,傳統(tǒng)研究注重各類風險指標、預測指標分析,對投資者及通訊現(xiàn)代化產(chǎn)物網(wǎng)民與股市走勢的關系并不清楚。本研究通過數(shù)據(jù)爬蟲技術采集數(shù)據(jù)源(網(wǎng)絡大數(shù)據(jù)),選取樣本范圍從2000年到2018年,以全球GDP及增長率、中國A股上證指數(shù)(A股主板市場)、中國互聯(lián)網(wǎng)網(wǎng)民結(jié)構(gòu)、財經(jīng)網(wǎng)站訪問情況、投資者構(gòu)成、企業(yè)家信心指數(shù)、消費者指數(shù)等為統(tǒng)計樣本,采用統(tǒng)計學(借助工具SPSS)方法結(jié)合金融行為學分析金融市場相關參與方,并以此構(gòu)建金融風險預警系統(tǒng)。
1.用戶參與評價體系。在人類活動中,觸發(fā)各類大型事件的往往是人為因素,而在利益面前,尤其是風險投資,人類的各類需求、思維、情緒、博弈等更是人類參與、觸發(fā)事件的重要因素。在金融風險事件中,有政府層面、經(jīng)濟形勢等因素,但大眾參與也是觸發(fā)系統(tǒng)風險的主要成份。在金融資產(chǎn)評估及資本市場交易過程中,盡管已經(jīng)出現(xiàn)自動交易軟件,但核心仍然是人類,因此用戶參與者評價體系研究是圍繞網(wǎng)民、投資者、企業(yè)家、消費者等多個維度構(gòu)建的。2005年網(wǎng)民和投資者數(shù)量已經(jīng)超過1個億,且每年保持在10%以上的增長率,而到2018年投資者(實際持有金融資產(chǎn),不計開空戶)仍然未超過1個億,網(wǎng)民的影響力遠超投資者。大數(shù)據(jù)對金融學研究的影響通常是多方面的,次要用戶企業(yè)家、消費者等相關指數(shù)在一定程度上反應了金融市場的投資回報與風險預期。首先綜合分析相關影響因素,再建立一定的評價體系,然后對其指標進行賦權(quán),本研究的用戶參與評價體系建立步驟:
(1)相關性分析:通過中國A股上證指數(shù)走勢、交易量、振幅變化與用戶量級、用戶結(jié)構(gòu)、用戶行為進行相關性分析、多層次分析。
(2)評價指標的確定:先通過用戶量與A股市場交易量、振幅等關系指標分析,再以用戶性別、年齡、學歷結(jié)構(gòu)選取影響資本市場交易的指標,然后根據(jù)用戶在互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)的搜索引擎、網(wǎng)絡新聞、微博、社交網(wǎng)站、網(wǎng)絡炒股等橫向行為,結(jié)合中國權(quán)威的東方財富網(wǎng)、同花順、和訊等財經(jīng)網(wǎng)站訪問人次、有效瀏覽時間等縱向行為作為指標建立依據(jù)。最后依據(jù)網(wǎng)民、投資者的傳播、情緒、預測、賭博心理等建立用戶風險指標,詳細指標如表1和圖1所示。
(3)獲取及規(guī)范數(shù)據(jù):運用網(wǎng)絡爬蟲技術(詳見下文數(shù)據(jù)采集算法)采集用戶參與評價體系各類指標數(shù)據(jù)材料,網(wǎng)民和投資者兩個層面統(tǒng)計差距以及統(tǒng)計方法不一致等,還需要進行修正成可提供分析的規(guī)范數(shù)據(jù),包括以下:
i.采集過程統(tǒng)計時段以日、周、月、季、半年及年度不一致
ii.統(tǒng)計開始、結(jié)束存在時間差
iii.部分采集數(shù)據(jù)的缺失
iv.統(tǒng)計結(jié)果的求累加或平均值需要人為判斷
表1 用戶參與評價體系指標
圖1 用戶行為框圖
2.用戶參與指標賦權(quán)。用戶量級、用戶結(jié)構(gòu)、用戶行為可以通過數(shù)據(jù)分析及統(tǒng)計軟件初步確定其相關性分析,傳播、情緒、預測、賭博心理等用戶風險指標難以通過統(tǒng)計數(shù)據(jù)確定,則通過專家打分法確定權(quán)重,具體工作過程如下:
(1)通過方差(公式1)檢驗包括水平方差(公式2)、組內(nèi)方差(公式2),根據(jù)數(shù)據(jù)的穩(wěn)定性篩選不必要的分析指標,如用戶的年齡變化趨勢,表達公式如下:
(1)
(2)
式中n表示統(tǒng)計數(shù)據(jù)個數(shù),μ表示n個統(tǒng)計數(shù)的平均數(shù),σrow表示水平之間或不同組之間的方差,σcol表示同一水平之內(nèi)或同組之內(nèi)的方差。
(2)用“數(shù)據(jù)說話”,根據(jù)三級指標的數(shù)量與一級指標之間的關系,以2000年至2017年之間的數(shù)據(jù)進行單位間隔中所出現(xiàn)的頻率或數(shù)量,并不斷累加,根據(jù)數(shù)據(jù)分布圖(散點圖)結(jié)合matlab軟件推導出符合數(shù)據(jù)與指標之間的函數(shù)關系,數(shù)據(jù)擬合后會出現(xiàn)高次多項式函數(shù),然而這種函數(shù)不利于圖形的檢驗,也不容易得出數(shù)據(jù)之間是正相關還是負相關,因此還需要進行修正和趨勢模擬為低次少項式函數(shù),具體操作步驟如下:
i.Matlab一次函數(shù): polyfit(xdata,ydata,1),xdata、ydata分別表示三級、一級指標的數(shù)據(jù)(以數(shù)組形式按時間順序成對出現(xiàn))
ii.計算和方差精度(precision,p):即擬合數(shù)據(jù)和原始數(shù)據(jù)對應點的誤差的平方和,本研究假定誤差平方和精度范圍在0.1之內(nèi),公式如下:
(3)
(3)根據(jù)統(tǒng)計數(shù)據(jù)把用戶行為作為中介變量,由用戶量級和用戶結(jié)構(gòu)形成用戶行為的影響基礎,而用戶行為系最為直接產(chǎn)生用戶風險的指標,以此建立用戶參與評價體系影響路徑(如圖2所示),用戶參與評價體系與用戶參與評價體系影響路徑將作為用戶參與模型的建立基礎。
圖2 用戶參與評價體系影響路徑分析
3.用戶參與預警模型。在用戶參與評價體系基礎上,根據(jù)用戶參與影響路徑分析,建立大數(shù)據(jù)用戶參與模型,旨在通過用戶體量影響、用戶結(jié)構(gòu)各類數(shù)據(jù)分析及用戶群體行為,一方面,減少大數(shù)據(jù)下用戶非理性傳播、情緒化行為、預測不科學、賭博心理等風險;另一方面,模型通過機器學習算法提供波動預測、趨勢預測、行為預測等,以期降低劇烈波動的概率,具體模型如圖3所示。
圖3 大數(shù)據(jù)用戶參與模型
金融風險預警系統(tǒng)的功能包括了數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、預警系統(tǒng),整個系統(tǒng)的設計圍繞“數(shù)據(jù)說話”,運用數(shù)據(jù)挖掘技術建立有價值的數(shù)據(jù)庫,再通過機器學習算法設計預警跟蹤和偏離糾正等,全過程中以數(shù)據(jù)為中心,具體基于大數(shù)據(jù)的金融風險預警系統(tǒng)框架如圖4所示。
1.系統(tǒng)功能。
(1)采集系統(tǒng):因金融風險預警系統(tǒng)相關指標
圖4 大數(shù)據(jù)下金融風險預警系統(tǒng)框架
數(shù)據(jù)包括了非結(jié)構(gòu)化數(shù)據(jù),而這部分數(shù)據(jù)在互聯(lián)網(wǎng)上內(nèi)容采集、清洗及分析難度較大,且經(jīng)常需要人為干預,因此需要結(jié)合爬蟲技術、掃描監(jiān)測技術以比較全面地獲取金融風險數(shù)據(jù)和相關事件的數(shù)據(jù)信息,采集系統(tǒng)的基礎數(shù)據(jù)是預警系統(tǒng)的依據(jù),其對金融風險預測準確性有相當大的影響。
(2)數(shù)據(jù)庫系統(tǒng):通過采集系統(tǒng)獲得的數(shù)據(jù),仍然需要進一步分析,不僅需要數(shù)據(jù)挖掘技術的支持,還要有大數(shù)據(jù)分析的手段。數(shù)據(jù)庫系統(tǒng)是預警系統(tǒng)的核心,預警模型的相關指標數(shù)據(jù)分類和匯總都在數(shù)據(jù)庫系統(tǒng)中完成,數(shù)據(jù)庫系統(tǒng)完善程度直接影響機器學習的預測能力。
(3)預警系統(tǒng):預警報告主要以指標臨界值和預警區(qū)間的方式展示出來,在確定的風險分析和預測分析后,形成預警報告。同時,預警系統(tǒng)是否與實際相符,還需要進行實證跟蹤,對預測的結(jié)果偏差分析原因,并改進相關的算法以提升機器學習系統(tǒng)的預測功能,縮小后續(xù)的預測差距,提升預警系統(tǒng)的準確性和科學性。
2.系統(tǒng)流程。在各大知名財經(jīng)網(wǎng)站中含有上市公司豐富多樣而且呈一定規(guī)格化的數(shù)據(jù),為數(shù)據(jù)爬蟲采集、歸類提供了方便,數(shù)據(jù)有效性非常高,對數(shù)據(jù)庫優(yōu)化有著十分重要的意義。另外規(guī)范的數(shù)據(jù)來源也依賴于采集源的數(shù)據(jù)結(jié)構(gòu),如同花順(目前在中國系比較權(quán)威的財經(jīng)數(shù)據(jù)來源,且提供了大數(shù)據(jù)服務,有免費也有收費項目),根據(jù)研究分析需要將采集到的數(shù)據(jù)進行關聯(lián)性分析,設計相應實體及實體關聯(lián),整合成可用規(guī)范的數(shù)據(jù)庫(可供分析的基礎數(shù)據(jù))。在規(guī)范的數(shù)據(jù)庫上面進行數(shù)據(jù)挖掘建模,分析財經(jīng)數(shù)據(jù)和用戶參與相關影響,并經(jīng)一定的修正形成具有商業(yè)價值的數(shù)據(jù)庫(可提供分析報告、商業(yè)解決方案),在數(shù)據(jù)建模過程中不斷優(yōu)化數(shù)據(jù)庫,供更深層次的數(shù)據(jù)分析,具體數(shù)據(jù)采集、建模、分析過程框架如圖5所示。
圖5 數(shù)據(jù)采集及分析框圖
這些海量的財經(jīng)數(shù)據(jù)采集需要借助工具分析用戶參與預測模型有用的信息及影響因素,然后在有效數(shù)據(jù)基礎上建模,其中復雜數(shù)據(jù)分析可以使用數(shù)據(jù)挖掘、機器學習等算法,如采用Spark算法對采集的數(shù)據(jù)進行歸類、預測、邏輯回歸等。
3.相關算法。從中國證券登記結(jié)算有限公司、知名財經(jīng)網(wǎng)站(163、sina)上篩選要爬蟲的位置,如在163中明確財經(jīng)站點地圖,建立爬蟲目標URL集合,然后逐個分析URL對應的DOM結(jié)構(gòu)(節(jié)點組成,也稱標簽列表),形成對應的DOM樹。因本研究采集網(wǎng)站集中度很高,且同一網(wǎng)站下的DOM結(jié)構(gòu)基本一致,這給DOM樹的創(chuàng)建帶來很大的方便,假設要抓取某網(wǎng)站的n個URL,每個URL對應m個DOM結(jié)構(gòu)(標簽為成對出現(xiàn)),則通過雙循環(huán)可以完成某網(wǎng)站的DOM結(jié)構(gòu)遍歷即2m-1×n,建理想效率如(4)式所示。
(4)
式中,domij表示DOM樹所有邊的操作數(shù)。
在Python編程中,為了方便機器解析和生成,采用JSON(JavaScript Object Notation),具體算法程序如下:
import requests
import re
import json #輕量級的數(shù)據(jù)交換格式,易于編寫
def run(self):#實現(xiàn)主要邏輯
#1.循環(huán)提取url
for url in url_list:
#2.發(fā)送請求,獲取響應
html_str = self.parse_url(self.url)
#3.提取數(shù)據(jù)
for dom in dom_list:
dict_response = json.loads(html_str)
#根據(jù)不同的DOM結(jié)構(gòu)獲取不同節(jié)點的數(shù)據(jù)
content_list = [i[“group”][‘text’] for i in dict_response[“data”][“data”]]
test= dict_response[“data”][“main_content”]
#4.保存
self.save(content_list)
#5.獲取下一頁的url ,回到下一循環(huán)
然而,在實際數(shù)據(jù)爬蟲過程中,同一網(wǎng)站中并非各DOM結(jié)構(gòu)都一致,因此需要對每個URL建立不同的DOM結(jié)構(gòu)以保證程序抓取的有效性。
4.相關實現(xiàn)。本研究宏觀數(shù)據(jù)采集后,分析建立在龐曉波和王克達[19]研究的全球各國和各地區(qū)傳染力分類基礎上,并取2000年至2018年間GDP及增長率進行參照,剝離了中國香港、中國澳門、安道爾、巴勒斯坦等數(shù)據(jù),并修正俄羅斯、沙特、剛果(布)、阿聯(lián)酋、波黑、孟加拉、科特迪瓦、多米尼克、拉脫維亞、塞爾維亞、馬其頓、也門等國家名稱與全球宏觀數(shù)據(jù)名稱不匹配現(xiàn)象,通過構(gòu)建宏觀數(shù)據(jù)庫可以比較清晰地查看相關宏觀指數(shù),實現(xiàn)效果如圖6所示。
圖6 宏觀數(shù)據(jù)庫效果圖
突發(fā)事件確實存在對金融市場正面或負面的影響,事件的影響力大小一方面是指事件本身的重要性,另一方面則是用戶參與如何影響事件及事件的傳播。由于用戶量巨大,用戶影響力增加,在baidu和google指數(shù)中可以觀測到事件的關注度,從國際事件到國內(nèi)市場的宏觀影響以及股票中重大資訊(并購重組等)的個股影響,已經(jīng)可以證明這些事件的傳播反饋到金融市場與用戶參與行為有很強的相關性。因此,各國尤其是傳染力等級為1和2的國家,對金融相關事件的采集及baidu和google指數(shù)進行跟蹤,從而劃分事件等級,形成有效的危機數(shù)據(jù)庫,這對金融預警系統(tǒng)有著重要的數(shù)據(jù)支撐作用,同時這也適用于相關股票的重大資訊(主要運用于風險提示數(shù)據(jù)庫)。
據(jù)互聯(lián)網(wǎng)發(fā)展報告顯示,我國網(wǎng)民規(guī)模發(fā)展十分迅速, 2018年已經(jīng)接近8個億,互聯(lián)網(wǎng)普及率也從不到3%發(fā)展到接近60%,同時由于智能手機、3G、4G等通訊技術飛速發(fā)展,手機網(wǎng)民也從2006年(受統(tǒng)計數(shù)據(jù)限制,2006年之前沒有相關數(shù)據(jù)統(tǒng)計)的1300萬迅速擴展到7.5億(2017年12月),其中2007年到2012年每年增長同比均超過100%。與此同時,據(jù)中登公布數(shù)據(jù),參與A股投資者2000年為6154萬(同年增加的投資者為1343萬),2002年因大量不規(guī)范賬戶清理,年末投資者數(shù)為6841萬,到2018年已經(jīng)達到13863萬(開戶數(shù)已經(jīng)超過1.7億,部分開戶非有效投資者)。以投資者數(shù)和網(wǎng)民數(shù)量(含手機網(wǎng)民)兩個視角看,用戶參與數(shù)量龐大,投資者、網(wǎng)民的行為都會產(chǎn)生大量數(shù)據(jù),而且網(wǎng)民的查閱和轉(zhuǎn)載、傳播行為大大增速,基于大數(shù)據(jù)的用戶參與結(jié)構(gòu)分析、關注度、情緒反應等群體行為對A股上證指數(shù)有著重大影響。
1.數(shù)據(jù)說明。大數(shù)據(jù)時代下金融風險預警系統(tǒng)所需要的支撐數(shù)據(jù)比較集中于財經(jīng)類網(wǎng)站和互聯(lián)網(wǎng)相關統(tǒng)計數(shù)據(jù),為了提升基礎數(shù)據(jù)的有效性和降低數(shù)據(jù)分析的復雜度,我們采集的數(shù)據(jù)均來自比較權(quán)威的網(wǎng)站和規(guī)范的數(shù)據(jù)庫,因此采集方式也比較簡便,主要數(shù)據(jù)來源以及采集方式如表2所示,下文中數(shù)據(jù)來源均引自表2,不再注明引用來源。
表2 采集數(shù)據(jù)源及方式
(1)數(shù)據(jù)接口:同花順iFinD因其具有商業(yè)性質(zhì)提供了很好的數(shù)據(jù)接口,北京廣鑾軒數(shù)據(jù)科技公司提供了大數(shù)據(jù)集和數(shù)據(jù)描述都可以很方便地進行數(shù)據(jù)導出,然后將所需要的數(shù)據(jù)根據(jù)數(shù)據(jù)庫的模式匹配整理成規(guī)范的數(shù)據(jù)庫。
(2)網(wǎng)絡爬蟲:在數(shù)據(jù)挖掘過程中,仍然有許多數(shù)據(jù)是無法通過規(guī)范的數(shù)據(jù)接口完成的,因此在基礎數(shù)據(jù)采集過程中仍然需要在互聯(lián)網(wǎng)上采集所需財經(jīng)數(shù)據(jù),如中國證券登記結(jié)算有限公司網(wǎng)站提供的投資者統(tǒng)計的情況,以及知名的財經(jīng)網(wǎng)站,這些網(wǎng)站的網(wǎng)頁格式也比較規(guī)范,采集難度不高,具體采集算法參看下文的算法說明。
2.宏觀指數(shù)統(tǒng)計及分析算法。宏觀分析采用A股主板市場上證指數(shù)(因為創(chuàng)業(yè)板更不成熟,漲跌幅過大,分析容易出現(xiàn)偏差),采集樣本從1999年至2018年,A股上證指數(shù)獲取分析信息有收盤價、最高價、最低價、開盤價、前收盤、漲跌額、漲跌幅、成交量、成交金額等。A股(上證指數(shù))指標統(tǒng)計過程如表3所示,其中年度統(tǒng)計時以當年第一個交易日至當年最后一個交易日(除2018年外)為統(tǒng)計期間,統(tǒng)計結(jié)果如表4所示。
根據(jù)不同指標之間的數(shù)量關系形成大數(shù)據(jù)訓練集,以A股(上證指數(shù))指標為ydata(不同區(qū)間振幅及成交量),導入不同組的指標數(shù)據(jù)xdata(包括用戶量、用戶結(jié)構(gòu)、用戶行為等),然后計算出每組指標之間的擬合曲線,提供數(shù)據(jù)規(guī)律進行基礎分析,具體算法過程如圖7所示。
3.用戶網(wǎng)絡行為結(jié)果分析。因為用戶的搜索引擎、網(wǎng)絡新聞、微博、社交網(wǎng)站、網(wǎng)絡炒股等相關行為數(shù)據(jù)在采集過程中由于數(shù)據(jù)源停止采集或數(shù)據(jù)源不規(guī)范而出現(xiàn)部分缺失,本研究使用簡單的移動平均法,對其缺失數(shù)據(jù)進行預測補充(其中前值未采集的信息則不作補充),預測值pv公式如(5)式所示。
表3 A股(上證指數(shù))指標統(tǒng)計過程
表4 A股(上證指數(shù))指標統(tǒng)計結(jié)果
(5)
式中,An表示前期實際值,n表示統(tǒng)計的實際值個數(shù)。
觀測網(wǎng)民的相關行為能夠發(fā)現(xiàn)網(wǎng)民行為對投資的影響,其中網(wǎng)絡炒股比例是以網(wǎng)絡炒股人次在當年網(wǎng)民規(guī)模中的比例計算,具體統(tǒng)計及計算結(jié)果如表5所示,從統(tǒng)計數(shù)據(jù)上看搜索引擎、網(wǎng)絡新聞是網(wǎng)民的重要行為。在2016、2017連續(xù)兩年的互聯(lián)網(wǎng)發(fā)展報告中,手機網(wǎng)民(也稱“移動網(wǎng)民”)通過手機搜索、手機查看網(wǎng)絡新聞等使用率均超過80%,截至2017年12月,手機搜索、手機查看網(wǎng)絡新聞等使用率分別為82.9%、82.3%,手機以其便攜性、易操作性將更迅速地影響網(wǎng)民行為。部分研究采用股票的點擊量、自選股(添加、刪除、留存等)進行用戶行為分析及區(qū)間分析。
在用戶相關行為中,以網(wǎng)民查看財經(jīng)信息展開采集(從2009年開始,截止日期為2018年3月),在采集結(jié)果基礎上以年度平均訪問為統(tǒng)計準則,網(wǎng)民財經(jīng)網(wǎng)站訪問情況如表6所示。通過訪問財經(jīng)網(wǎng)站的相關行為分析,結(jié)合資本市場(上漲和下跌)觀測其行為,2015年處于大幅振蕩(上半年大幅上漲和下半年大幅下跌),網(wǎng)民在財經(jīng)網(wǎng)站上的訪問量大大增加。
圖7 不同指標數(shù)據(jù)與A股(上證指數(shù))的擬合過程
4.用戶參與模型相關性分析檢驗。在用戶參與模型中各指標之間的數(shù)量關系根據(jù)年度變化具有連續(xù)變量之間的相關性,因此,本研究使用積差相關系數(shù)(也稱Pearson系數(shù)),該系數(shù)可以比較直觀地篩選出相關高的指標,并從高相關指標中再深入分析,用于驗證模型的預測功能,具體計算公式如(6)式所示。
(6)
式中,x,y即為用戶參與模型中不同指標,y同上ydata取以A股(上證指數(shù))指標(不同區(qū)間振幅及成交量)數(shù)據(jù),r表示兩兩指標之間的相關性,指標篩選依據(jù)如表7所示。因為指標中部分數(shù)據(jù)采集缺失,故在年度統(tǒng)計中,以比較齊全的數(shù)據(jù)區(qū)間(2000年至2016年)進行相關性分析,獲得高度相關的分析結(jié)果(因文章篇幅有限,顯著相關結(jié)果略)。
1.從用戶年齡統(tǒng)計上看各年齡段的趨勢變化不明顯,但30歲以下不成熟的網(wǎng)民、投資者占比非常大,這個群體極易被網(wǎng)絡媒體等信息影響,甚至誤導,然后傳播不當?shù)男畔?,從而更容易導致信息偏差和市場振動?/p>
表5 網(wǎng)民網(wǎng)絡應用使用情況統(tǒng)計(2007—2017年) 單位:萬人
注:下劃線為采集缺失數(shù)據(jù),通過移動平均計算所得。
表6 網(wǎng)民財經(jīng)網(wǎng)站訪問情況(2009—2018年)單位:萬人/萬小時
表7 指標篩選依據(jù)
2.從學歷上看,各學歷層次的比例不穩(wěn)定,投資者往高學歷增長,低學歷層次占比不斷下降,而高學歷對股市的影響主要有兩方面:一是研究更為細致、查找資料更為有效、投資更為謹慎,二是投資手段更為科學,大數(shù)據(jù)、自動交易軟件等技術手段應用率不斷提升。
3.從用戶行為分析結(jié)果,金融事件與股市波動(振幅)有著強相關性,尤其是負面信息在下跌趨勢中其振幅會隨著金融事件的蔓延而不斷增大,用戶產(chǎn)生的搜索指數(shù)也隨之擴大。
顯然,政治、金融、軍事、疫情等各類事件在各國傳染等級不一樣,影響力的區(qū)別主要在于用戶參與該事件傳播導致風險傳染等重大因素。因此,就各類金融事件在一定時間內(nèi)對用戶參與關注度的適度引導,可以有效控制和防止金融風險的發(fā)生和擴大。