譚欠男 陳中舉 涂天宇 王瑞
摘要:隨著網(wǎng)絡(luò)時(shí)代的迅速發(fā)展以及我國(guó)對(duì)數(shù)據(jù)信息可視化的深入研究,大數(shù)據(jù)的資源提供對(duì)于各個(gè)行業(yè)也變得越來越重要。尤其是對(duì)于股票數(shù)據(jù)的分析,如何更好地進(jìn)行各股之間的相關(guān)性分析已經(jīng)成為當(dāng)今股票分析的重中只重。希望通過此次分析,可以為股票數(shù)據(jù)信息可視化技術(shù)的發(fā)展以及對(duì)于股票預(yù)測(cè)的訓(xùn)練提供一定的幫助。
關(guān)鍵詞:大數(shù)據(jù);股票數(shù)據(jù);可視化;相關(guān)性分析
中圖分類號(hào) TP393? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)08-0030-02
Abstract: With the rapid development of the network era and the in-depth research on the visualization of data information in China, the provision of big data resources has become more and more important for various industries.Especially for the analysis of stock data, how to better carry out visual analysis has become the focus of stock analysis today.It is hoped that this analysis can provide some help for the development of stock data information visualization technology and the training of stock forecast.
Key words: big data; stock data; visualization; correlation analysis
1 引言
隨著網(wǎng)絡(luò)數(shù)據(jù)資源逐漸豐富,人們對(duì)于網(wǎng)絡(luò)資源的需求和使用也在不斷地增加。
伴隨著科學(xué)技術(shù)的發(fā)展,股市的逐漸進(jìn)步,越來越多的人開始炒股,特別是眾所周知的2014年的股市大牛,當(dāng)時(shí)更是全國(guó)掀起了一波炒股的浪潮。伴隨著人們對(duì)股市的熱情,對(duì)股市數(shù)據(jù)所進(jìn)行的技術(shù)分析對(duì)于那些投資人決定是否投資起著重要的作用。在我國(guó),就算不是炒股的人也可以很容易地發(fā)現(xiàn)我國(guó)股票市場(chǎng)中,不同行業(yè)之間的股票總是會(huì)有著相似的同時(shí)漲和同時(shí)跌的規(guī)律,可以看出其表現(xiàn)出的過度的相關(guān)性。本文所介紹就是關(guān)于同行股票之間相關(guān)性的研究并對(duì)其進(jìn)行可視化。
2 可視化技術(shù)
數(shù)據(jù)的可視化主要是為了借由一些圖形圖像的手段來清楚地表達(dá)所要傳達(dá)的信息。在表達(dá)過程中,為了更好地傳達(dá)清楚思想和概念,總是需要將美學(xué)形式與功能同時(shí)發(fā)展,通過直接的方式把關(guān)鍵的信息和特征來成功表達(dá)數(shù)據(jù)的深入了解。在當(dāng)今時(shí)代,如何面對(duì)一堆雜亂無章的數(shù)據(jù),如何通過可視化進(jìn)行數(shù)據(jù)呈現(xiàn),是可視化技術(shù)面臨的新的挑戰(zhàn)。
可視化主要包括科學(xué)算術(shù)中的可視化、數(shù)據(jù)和信息的可視化??梢暬夹g(shù)現(xiàn)今被應(yīng)用在各行各業(yè),大到國(guó)家重點(diǎn)項(xiàng)目介紹,小到微分子化學(xué)等的展示模擬[1]。
3 相關(guān)性的基本理論
相關(guān)性研究是指對(duì)于線性相關(guān)的研究[2],線性相關(guān)的系數(shù)在度量函數(shù)的均值和方差計(jì)算比較方便的,在實(shí)際的生活中,很多函數(shù)的均值和方差并不是那么容易得到的,有的根本就不存在均值或者方差,所以很多的分布函數(shù)不是很容易進(jìn)行線性相關(guān)分析。在此文章中,將通過Pandas的百分比變化即股票收益來計(jì)算其相關(guān)性。
通過研究分析,發(fā)現(xiàn)股票歷史數(shù)據(jù)對(duì)于股票的相關(guān)性的研究具有一定的研究?jī)r(jià)值,股票相關(guān)性是研究股價(jià)與收益之間關(guān)系和行業(yè)分類的技術(shù)工具,對(duì)于股票市場(chǎng)的系統(tǒng)性風(fēng)險(xiǎn)和資產(chǎn)組合有效的衡量具有重要的價(jià)值[3]。本文對(duì)于同行股票的相關(guān)性進(jìn)行可視化分析,對(duì)后期的股票分析預(yù)測(cè)有著重要的指導(dǎo)意義。
4 股票數(shù)據(jù)集的獲取與處理
東方財(cái)經(jīng)和網(wǎng)易財(cái)經(jīng)上有很多關(guān)于每一只股票的信息。此次所需的股票的數(shù)據(jù)集是利用Python中的BeautifulSoup獲取所需數(shù)據(jù),Pandas對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,使用Matplotilib進(jìn)行圖表展示,具體數(shù)據(jù)獲取如下。
(1)通過連板網(wǎng)獲取股票的名稱與股票代碼。
(2)在網(wǎng)易財(cái)經(jīng)上通過谷歌瀏覽器的檢查工具來獲取請(qǐng)求接口。
(3)利用xpath去提取網(wǎng)頁中的要獲取下載的數(shù)據(jù)的起始和結(jié)束時(shí)間。
(4)通過連板網(wǎng)上獲取的股票代碼與其url進(jìn)行拼接。
(5)獲得所需股票數(shù)據(jù)集。
數(shù)據(jù)的分析與可視化有助于人們從眾多繁雜的數(shù)據(jù)中更快速地獲取到有用的信息。本次研究利用的是上證股票制藥行業(yè)公司的數(shù)據(jù)集,通過Python代碼獲取的股票數(shù)據(jù)集存儲(chǔ)在本地,如圖1所示。
通過Python所爬取的數(shù)據(jù)集總是存在著各種各樣的問題,接下來要做的就是對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理[4],刪除缺失值、清洗格式和無用的信息、分離標(biāo)簽等,在此不過多介紹該清理過程,清理之后的數(shù)據(jù)集如圖2所示。
5 可視化分析
在對(duì)數(shù)據(jù)處理過程中可視化處理使用的信息圖表工具比較熱門,信息圖表示信息、數(shù)據(jù)和知識(shí)等的視覺化的表達(dá)[5],當(dāng)今世界上有很多的可視化的工具,比如谷歌公司的制圖服務(wù)接口Google Chart API、Visual.ly、大數(shù)據(jù)魔鏡等。本文主要使用的是Python中支持的可視化工具庫(kù),主要用到的是Matplotlib、seaborn、bokeh等對(duì)獲取的股票數(shù)據(jù)集進(jìn)行股票相關(guān)性分析。同行公司股票相關(guān)性使用的是Pandas的百分比與其他相關(guān)函數(shù)進(jìn)行分析,通過散點(diǎn)圖查看它們之間的收益分布,發(fā)現(xiàn)同行的制藥公司之間是有著正相關(guān)關(guān)系的。如圖3所示。
如圖4所示為通過熱力圖來分析股票之間相關(guān)性可視化,它們之間的競(jìng)爭(zhēng)關(guān)系通過圖片顏色的深淺來表示,當(dāng)顏色越深時(shí)代表著股票之間的相關(guān)性越弱,相反顏色越深則代表相關(guān)性越強(qiáng)。從圖中可以看出60083(第一藥業(yè))與其他制藥公司之間的相關(guān)性是最強(qiáng)的,同時(shí)每一支股與其他股都有著白色間隙,這說明各個(gè)制藥公司之間的雖然存在著一些相關(guān)性,但是不能說它們存在所謂的因果關(guān)系。
6 總結(jié)
為完成股票數(shù)據(jù)相關(guān)性可視化的研究,本文利用Python中的BeautifulSoup獲取所需數(shù)據(jù),Pandas對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,使用Matplotilib進(jìn)行圖表展示。通過少量的代碼獲取股票代碼和股票歷史數(shù)據(jù)集,并通過獲得的數(shù)據(jù)集進(jìn)行可視化分析,完成股票相關(guān)性的研究??梢钥闯鐾恍袠I(yè)的股票之間的收益存在著微弱的正相關(guān)關(guān)系,近似的正相關(guān)關(guān)系只能說明該行業(yè)的趨勢(shì)發(fā)展,不能說明股票之間存在因果關(guān)系,更不能說明競(jìng)爭(zhēng)股票是如何互相影響的。根據(jù)它們之間的正相關(guān)關(guān)系,為以后更好地預(yù)測(cè)股票價(jià)值提供基礎(chǔ)。
總之,在數(shù)據(jù)信息逐漸增多的今天,Python提供了強(qiáng)大的第三方庫(kù),不論是在數(shù)據(jù)的處理方面還是進(jìn)行數(shù)據(jù)的可視化,都變得更加方便和簡(jiǎn)潔,為更好地進(jìn)行數(shù)據(jù)分析提供更為簡(jiǎn)單易用的可能。
參考文獻(xiàn):
[1] 沈恩亞.大數(shù)據(jù)可視化技術(shù)及應(yīng)用[J].計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用,2020(3):68-83.
[2] 李閃.中國(guó)各行業(yè)股票市場(chǎng)相關(guān)性分析[J].上海理工大學(xué)管理學(xué)院,2020(9):81-84.
[3] 寧瀚文,屠雪永.基于高維波動(dòng)率網(wǎng)絡(luò)模型的股票市場(chǎng)風(fēng)險(xiǎn)特征研究[J].統(tǒng)計(jì)研究,2019,36(10):58-73.
[4] 劉艷玲,姚建盛.Python在數(shù)據(jù)可視化中的應(yīng)用[J].福建電腦,2020,36(3):68-70.
[5] Lyra: An Interactive Visualization Design Environment[J].Arvind Satyanarayan,Jeffrey Heer.? Computer Graphics Forum ,2014(2).
【通聯(lián)編輯:梁書】