吳軒藝
(貴州財經大學,貴州 貴陽 550025)
我國的資本市場具有“融資投資、市場定價、資源配置、產權管理”等多種樞紐功能,能夠有效推動實體經濟、促進企業(yè)創(chuàng)新。黨的二十大報告中也論述:在實現中國式現代化的道路上,需要大力發(fā)展多層次資本市場,而資本市場的健康發(fā)展也能夠滿足投資者對實體經濟多樣化的金融需求”。
在資本市場中,周期性的波動除了經濟自身的周期性規(guī)律外,還有政治、外交、科技、產業(yè)結構、情緒等諸多外因的影響,而股票市場作為其中之一,是與普通投資者聯系最為密切,參與度最高的資本市場。大量的股民常常帶著投機心理參與投資,而并不具備專業(yè)投資知識,隨著證券研報的出現,讓普通投資者在一定程度快速了解行業(yè)概況上發(fā)揮了巨大的作用。證券研報即證券研究報告,指的是證券公司為提供投資咨詢服務而發(fā)布的具有一定市場情緒偏好的報告。在信息大爆炸的時代,研報又細分為行研研報,個股研報,策略報告,新股研報,券商晨報,每日資訊等,根據中國結算官網發(fā)布的報告,我國股民數量已破兩億人次,除了專業(yè)機構或公司能夠進行深入實地調查、獲得一手的投資資料外,絕大多數的投資者都是依靠各券商分析師發(fā)行的研報來作為投資的依據[1]。
但是投資者僅靠一兩篇研報并不能做出正確的投資行為,應博采眾長,通過大量研報比較與分析,而由于其精力有限無法集體閱讀,必定就會產生“拍腦袋”決策投資行為;而實際投資活動中研報帶有滯后性,并且大多數普通投資者都追求短期投機,依研報投資決策的股民在風雨突變的股市里其收益率也會大打折扣。從另一角度看,研報之所以依舊重要,主要因為研報是分析師花費大量的時間和精力查閱大量行業(yè)信息,深入市場多渠道采集樣本,通過大量深度思考而得到的研究結果,有其內在的嚴密邏輯、獨特看法以及對行業(yè)本質及規(guī)律性認識的研究[2]。雖然對于普通投資者在大多數投資活動上具有時間差、低回報率的特點,但是對于創(chuàng)業(yè)者、在校畢業(yè)生以及經濟愛好者等人群來講,研報是快速了解行業(yè)、判斷其發(fā)展前景、預測其經濟走勢的利器。通過獲取海量研報的重點、熱點等相關信息快速知曉行業(yè)框架或行業(yè)前景,讓研報信息充分發(fā)揮其最大價值。
伴隨著大數據的深入發(fā)展,除了大量對于結構化數據的研究外,眾多文本性數據的分析技術也漸漸成熟。利用機器算法將語言文本進行挖掘、分類、抽取、識別、預測等又讓學者們發(fā)現了文本的其他重大信息。但是近年來文本數據挖掘分析多應用在電商評論、社交媒體留言等方面,很少有學者將其文本挖掘與分析技術應用于金融行業(yè)研報[3]。主要原因是其金融領域產生更多的是結構化數據,如金融交易數據、歷年國內生產總值、可支配收入支出等,因此大都從定量的角度去構建量化交易策略、建設金融計量模型,探討經濟數據關系等,而研報作為金融市場上為數不多的具有完整邏輯體系的非結構化數據,其傳遞的信息量也具有巨大的參考價值,不只體現在投資領域,更多也體現在判斷行業(yè)規(guī)律以及預測行業(yè)發(fā)展前景上。并且隨著人工智能與互聯網的發(fā)展,人們獲取信息其背后都離不開機器對內容的理解。文章將文本數據挖掘與分析應用于金融領域的海量行業(yè)研報上,通過對非結構化數據進行分析[3],快速從大量研報中找到行業(yè)關注重點與方向,滿足人們挖掘信息的相關需求。
閱讀分析單個或者少量的研報可以通過傳統(tǒng)的人工方法完成,但在如今爆炸似的研報信息面前,無法再單純地依靠人工整理實現。而伴隨著大數據應運而生的機器學習卻能很好地解決該問題。Python是一種面向對象的解釋型計算機程序設計語言,其語法簡潔清晰,承載的包和庫種類多樣,在文本挖掘領域有著廣泛的應用。一般對于結構性數據人們采用pandas、nump、matplotlib庫進行分析與統(tǒng)計,而對于中文文本分析并應用廣泛的是jieba,collections,wordcloud,NetworkX等庫。
1) jieba是強大的Python分詞庫,主要用于中文分詞、關鍵詞提取、詞性標注、詞位置查詢等。在中文里面,詞是最小的能夠獨立運動的且具有意義的語言成分;與西方語言不同的是,詞與詞之間沒有空格之類的標志,因而jieba庫的分詞原理主要利用中文詞庫來確定漢字之間的關聯概率,也結合相鄰的字同時出現的次數越多,越有可能構成詞語的規(guī)律來進行統(tǒng)計,找出基于詞頻的最大切分組合,同時在jieba中還可以自定義詞典,通過用戶添加任意詞組進行更加貼合情況的分詞。jieba 分詞主要有三種模式[4]:精確模式、全模式、搜索引擎模式。
2) collections 庫中的 Counter 計數器通常用于詞頻統(tǒng)計,可避免使用 for 循環(huán)來手動統(tǒng)計詞頻。Counter 主要對文本數據中重要詞匯進行迭代并將出現次數進行統(tǒng)計,最終返回一個字典,通過觀察詞出現頻次多少的變化,來確定熱點及其變化趨勢。
3) wordcloud是自然語言處理中常用的方法,可以比較直觀而又突出其重點,關鍵詞在詞云圖中凸顯的大小和區(qū)域,讓人在視覺上給予更多的關注。主要代碼如下:
表1 wordcloud代碼
4) NetworkX 是Python 編程語言中用于語義網絡分析的庫,其靈活的數據結構和算法,可以輕松創(chuàng)建各種類型網絡圖來對語義關系進行分析,可視化展示也使其成為數據分析領域中不可或缺的工具之一。其基本原理是將文本數據轉化為語義網絡,從中提取出關鍵詞和關系,建立節(jié)點和邊的圖模型。
利用爬蟲技術收集東方財富網上汽車整車行業(yè)近兩年的研報內容,由于東方財富網的行業(yè)研報數據是儲存在同一個url 地址的表格中,爬蟲程序利用while 循環(huán)實現自動表格翻頁爬取[5],將數據保存下來,部分代碼如下:
def yanbao():
count = 1
while count <= 25:
for i in range(1,2):
def get_data():
...
count = count+1
if count>=26:
Break
同時研報文本信息在‘報告名稱’所記載的網頁中,程序通過讀取表格中每一個‘報告名稱’中URL地址獲取其內容,部分代碼如下:
driver=webdriver.Chrome()
data=pd.read_excel(r"D:/Users/python write/Python-cut/1.xlsx")
contents=[]
def get_contents():
for url in data[′報告名稱′]:
driver.get(url)
最后合并兩者內容并以excl形式保存到本地,如表2所示:
表2 爬取文本信息
共獲取到2021年9月27日到2023年1月11日的1 171條行業(yè)研報文本數據,為了數據完整性,同時爬取了其日期、評級、評級變動、機構名稱等信息。粗略地瀏覽一遍報告內容,存在很多廢詞、標點等無用信息,需要進一步處理。
導入中文分詞jieba 庫,運用jieba.lcut()語句進行精確分詞,即把文本精確切開后,若經過組合還能還原成之前文本同時不存在冗余詞,同時由于時代的發(fā)展會產生大量新詞,再加上金融領域會有一些特有專有名詞,于是構建自定義詞典再進行分詞;然后為了不影響文本分析的進行,利用停用詞stopwords,將文本中沒有任何含義的詞篩選出來;最后從collections庫導入 Counter 用于詞頻統(tǒng)計,將之前處理好的文本中的詞進行累計計數,之后利用sort函數進行排序,將排序靠前的詞,即研報中提及次數最多的詞和詞頻數提取出來,部分數據見圖1:
圖1 詞頻統(tǒng)計
詞云也叫文字云,將文本中的關鍵詞進行渲染以圖片形式呈現,更加直觀地了解文本主題。導入wordcloud 庫,圖片蒙版選擇一張本地自有圖片,最終將研報文本詞庫以詞云圖的形式呈現,見圖2。
基于語義網絡分析法,對汽車整車行業(yè)研報進行網絡分析和關系挖掘,語義網絡中的節(jié)點為主題,而邊則表示節(jié)點之間的關聯關系。以此了解研報中對整車行業(yè)做出的主題分析,重點領域介紹等,也可為研究整車行業(yè)的發(fā)展趨勢和政策制定提供參考。文章通過 networkx 等庫,構造詞頻矩陣和 TF-IDF 矩陣,并計算相關系數,最終得到了詞共現分析網絡的可視化,可以更好地觀察和分析網絡結構和特征,如圖3所示。
圖3 語義分析網絡圖
文章發(fā)現在獲取的汽車整車行業(yè)研報文本數據中,除了本身關于汽車一詞提及多達8 314 次外,“同比”和“環(huán)比”一詞分別提及6 258 次和4 817 次,詞云圖也呈現出“銷量”“需求”等詞。說明研究報告大多數主要從各汽車企業(yè)銷售情況入手,比較其年月的銷量,分析市場需求。
同時詞頻中“增長”提及3 636 次,“新能源汽車”提及了2 426 次,“新能源車”提及1 197 次,“新能源”提及1 853 次,“政策”提及1 293 次,很明顯汽車行業(yè)主要發(fā)展前景集中在新能源車上,這也與我國綠色發(fā)展政策密不可分,國家一直堅持綠色發(fā)展之路,共創(chuàng)美好未來,并且從2020 年9 月就明確提出了2030 年“碳達峰”與2060年“碳中和”的目標,新能源已經被稱為第三次能源革命,新能源產業(yè)在未來會將是一片新藍海[6],其中不乏大量的就業(yè)、創(chuàng)業(yè)機會。
研報中“智能”提及了2 091 次,詞云圖也直觀地看出“科技”“電動”等詞在文本中是重點。新能源車除了在綠色環(huán)保上下功夫更朝著智能化方向推進,不斷進行迭代與創(chuàng)新,推動著汽車產業(yè)鏈的變革。同時“零部件”一詞提及了2 218 次,在汽車產業(yè)上下游中零部件相關的產業(yè)鏈也是當下關注的熱點。
“比亞迪”和“特斯拉”分別談及1 926 次、1 763次,結合其描述可以看出,兩家公司在新能源車行業(yè)銷量遙遙領先,作為行業(yè)標桿,對其研發(fā)投入和發(fā)展規(guī)劃都值得關注和研究。
從詞頻圖上還可以看到,“風險”“不及”“建議”等詞也多次出現,因為研報僅僅是提供一種投資建議,依然存在很多不確定性。畢竟每一個行業(yè)都會有周期性或者突發(fā)事件,如詞云中“疫情”一詞也出現其中,在詞頻中被談及到了1 573次,說明突發(fā)事件也會對汽車行業(yè)的發(fā)展造成相應的影響。因而在預測行業(yè)前景或者做投資決策時,也需要考慮到相關的問題,防患于未然。
在語義分析網絡圖中,研報整體從新能源汽車、銷量、智能化、用車等主題來進行研報的擴展分析,在新能源汽車主題下,主要從企業(yè)角度,如著名的特斯拉、中國的吉利、長安、長城等車企來討論,其中有關注到該行業(yè)自主研發(fā)芯片、電動化的發(fā)展;其次對于汽車行業(yè)的現狀也有談及,如產業(yè)鏈、零售、消費、政策等主題;同時也有一部分談及了疫情對汽車行業(yè)銷量的影響;并且從增長、有望、提升主題詞看,研報整體對汽車整車行業(yè)的智能化、能源化是抱有積極態(tài)度的。
文章通過Python技術對研報文本的挖掘與分析,從詞頻、詞云、語義網絡角度出發(fā)對汽車整車行業(yè)作了大致的梳理,明確了該行業(yè)發(fā)展方向、研究熱點以及龍頭企業(yè)等相關信息,提高了閱讀海量研報的效率和準確度,為有研報閱讀需求的人們提供了更加高效的方案。