于花蕾,饒 元,湯才芳,任浩然
(西安交通大學(xué) 軟件學(xué)院 社會(huì)智能與復(fù)雜數(shù)據(jù)處理實(shí)驗(yàn)室,陜西 西安 710049)
隨著大數(shù)據(jù)時(shí)代的來臨,股票市場已經(jīng)產(chǎn)生了大量關(guān)于股東投資行為的數(shù)據(jù)信息,并且這些信息公布在上市公司的年報(bào)、季報(bào)當(dāng)中,不涉及隱私安全等問題。如何充分利用這些投資行為信息來進(jìn)行分析,最終指導(dǎo)外圍投資者投資決策成為了一個(gè)亟待解決的問題。重要股東的市場行為常是各界的重點(diǎn)關(guān)注對(duì)象,這是因?yàn)橥鈬顿Y者常會(huì)跟隨重要股東的市場行為做出投資決策。重要股東的市場行為不僅會(huì)對(duì)股票價(jià)格造成直接影響,還與公司的成長性相關(guān)聯(lián),故其重要性不言而喻。然而,當(dāng)前針對(duì)重要股東的市場行為研究普遍存在以下幾點(diǎn)問題:(1)針對(duì)性單一,缺乏全局。通常關(guān)于股東的市場行為研究都是針對(duì)具有某一類市場行為的全體股東展開的,而不是針對(duì)市場上全體股東的所有市場行為進(jìn)行研究。(2)不夠精準(zhǔn)。當(dāng)下的粗放式的重要股東持股研究不能為外部投資者、散戶等提供更為精準(zhǔn)明確的信息,外部投資者不能了解到上市公司大股東的性質(zhì)(基金、QFII、公司機(jī)構(gòu)、個(gè)人股東等)及重要股東會(huì)選擇在哪個(gè)確切的時(shí)刻對(duì)哪些股票進(jìn)行投資。(3)不能對(duì)外部投資者提供指導(dǎo)。由于無法詳細(xì)地了解到感興趣的重要股東會(huì)對(duì)哪類股票更具偏好,這些偏好的股票存在哪些共性,應(yīng)該在何時(shí)跟隨他們投資等重要信息,最終導(dǎo)致無法對(duì)外部投資者提供指導(dǎo)。
針對(duì)現(xiàn)有研究存在的以上3點(diǎn)不足,本文從一個(gè)全新的角度出發(fā),提出一個(gè)新的概念——“股東畫像”。股東畫像的概念可類比于用戶畫像。相比于用戶畫像,股東畫像的研究對(duì)象有所不同,從普通的產(chǎn)品用戶變?yōu)楣蓶|,通過對(duì)股東進(jìn)行標(biāo)簽化,最終生成一個(gè)虛擬的可用于表示股東的標(biāo)簽體系。構(gòu)建股東畫像是一種富有成效的股東描述及建模方法。其過程是不具有針對(duì)性的,即對(duì)市場中的全體股東進(jìn)行畫像;且通過已有數(shù)據(jù),可以精確地了解到股東的投資行為及各類信息,最終通過這些信息對(duì)外部投資者進(jìn)行投資指導(dǎo)。
本文的貢獻(xiàn)在于提出了一個(gè)全新的概念“股東畫像”及標(biāo)記股東特征的一些方法,并討論了處理股東特征時(shí)可能遇到的問題及應(yīng)對(duì)措施,提出了“股東畫像”的建模模型。通過對(duì)現(xiàn)有數(shù)據(jù)信息進(jìn)行各角度的特征構(gòu)建,最終刻畫出當(dāng)前A股上市公司十大流通股東的畫像,達(dá)到為股票市場中占絕大數(shù)量的散戶的投資決策提供幫助的目的。
用戶畫像(User Profile),即用戶信息的標(biāo)簽化,是建立在一系列數(shù)據(jù)之上的目標(biāo)用戶模型[1]。意義在于幫助企業(yè)猜測用戶的真實(shí)需求和潛在需求,精細(xì)化地定位人群特征等。目前用戶畫像被運(yùn)用在許多領(lǐng)域[2],李恒超[3]等人基于用戶的查詢?cè)~歷史記錄,提出了一種用于構(gòu)建用戶畫像的二級(jí)融合算法框架,用于對(duì)用戶性別、用戶年齡及教育程度進(jìn)行預(yù)測。Mueller[4]等針對(duì)Twitter用戶的用戶名信息構(gòu)建了多種詞語結(jié)構(gòu)特征,并通過識(shí)別用戶性別構(gòu)建了Twitter用戶畫像。黃文彬[5]等在分析移動(dòng)用戶的基站軌跡的基礎(chǔ)上,采用頻繁模式挖掘、構(gòu)建概率矩陣等方法,構(gòu)建了包含地理位置信息的用戶畫像模型。張慷[6]等通過提取用戶的上網(wǎng)行為特征,同時(shí)結(jié)合相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合及交叉分析,構(gòu)建了通信用戶的畫像模型。費(fèi)鵬[7]等人基于電網(wǎng)用戶進(jìn)行了分析研究,提出了一種用于構(gòu)建用戶畫像的多視角融合框架,該框架能快速、準(zhǔn)確地識(shí)別電費(fèi)敏感客戶。
重要股東指能對(duì)公司的經(jīng)營運(yùn)行產(chǎn)生重大影響的股東,他們的存在是公司得以正常經(jīng)營和運(yùn)行的關(guān)鍵。本文研究的是重要股東中一類關(guān)鍵群體,即上市公司的十大流通股東。通過了解該類群體的行為偏好、投資偏好,可以幫助外部投資者、散戶在投資決策時(shí)起到參考作用。倪光耀[8]對(duì)于大股東增持的背后考量和公司在被增持后對(duì)公司的治理產(chǎn)生的影響進(jìn)行了研究,表明股票增持對(duì)市場會(huì)產(chǎn)生兩方面的影響,且為企業(yè)對(duì)外擴(kuò)張?zhí)峁┵Y金的強(qiáng)有力保證,形成寶貴的無形資產(chǎn)。趙紅巖[9]就大股東增減持行為對(duì)上市公司股票價(jià)格的影響機(jī)理進(jìn)行了分析,并就有關(guān)各方如何應(yīng)對(duì)給出相應(yīng)建議。劉建忠[10]對(duì)重要股東持續(xù)減持下的公司績效和成長性進(jìn)行研究,結(jié)果表明重要股東的持續(xù)減持行為會(huì)對(duì)公司的績效與成長性造成影響。
雖然用戶畫像和股東行為研究已經(jīng)成為當(dāng)前研究的熱門話題,但是目前將兩者結(jié)合考慮,針對(duì)股東進(jìn)行畫像的研究還很缺乏。本文的主要工作是從數(shù)據(jù)集中提取股東特征,并對(duì)股東畫像進(jìn)行建模研究。構(gòu)建股東畫像預(yù)計(jì)有以下用途:其一是了解各個(gè)股東基本信息及偏好信息;其二是對(duì)外部投資者給予一定程度的指導(dǎo)作用;其三是針對(duì)由股東、股票、上市公司生成的三模異構(gòu)社會(huì)網(wǎng)絡(luò)拓?fù)鋱D進(jìn)行鏈接預(yù)測、分類以及演變分析。
根據(jù)網(wǎng)絡(luò)爬蟲爬取到的網(wǎng)易財(cái)經(jīng)、同花順及金融界等門戶網(wǎng)站上股東、股票相關(guān)的數(shù)據(jù)類型及業(yè)務(wù)需求,可以將股東畫像工作進(jìn)行細(xì)化,如圖1所示。
本文數(shù)據(jù)來自于爬取的網(wǎng)易財(cái)經(jīng)、金融界、同花順等門戶網(wǎng)站及國泰安(CSMAR)數(shù)據(jù)庫,時(shí)間為2004年03月至2017年12月。本研究重點(diǎn)采用十大流通股東行為數(shù)據(jù)、上市公司基本數(shù)據(jù)和A股基本面變化3類數(shù)據(jù)?;鸪止蓴?shù)據(jù)用于數(shù)據(jù)預(yù)處理階段,主要是清洗數(shù)據(jù),使股東行為表中的數(shù)據(jù)一致。本研究的數(shù)據(jù)預(yù)處理流程如圖2所示。
圖1 股東畫像構(gòu)建過程
收集到海量的十大流通股東及股票的基礎(chǔ)數(shù)據(jù)后,需要對(duì)這些數(shù)據(jù)進(jìn)行整理歸納,從中獲取有用的信息。這一過程需要從真實(shí)需求出發(fā),將基礎(chǔ)數(shù)據(jù)劃分為宏觀統(tǒng)計(jì)習(xí)慣、宏觀消費(fèi)特征、股票屬性、公司屬性、公司相關(guān)新聞、微觀消費(fèi)投資特征等信息,這些信息結(jié)合相關(guān)場景將產(chǎn)生巨大的價(jià)值。
使用特征工程、機(jī)器學(xué)習(xí)等技術(shù)建立行為模型,對(duì)股東進(jìn)行標(biāo)簽化。通過分析股東的宏觀投資習(xí)慣、宏觀消費(fèi)特征、購買股票的相關(guān)屬性、股票對(duì)應(yīng)公司的相關(guān)屬性、公司相關(guān)新聞及微觀投資消費(fèi)特征等信息,可以給股東賦予活躍度標(biāo)簽、行業(yè)偏好標(biāo)簽、地域偏好標(biāo)簽等。
針對(duì)本文提出的“股東畫像”,類比于用戶畫像,給出如下定義:股東畫像是在股東基本信息未知的前提下,根據(jù)股東市場投資行為、股票基本面信息、所投資股票所屬的上市公司基本信息等抽象出的一個(gè)標(biāo)簽化的股東模型。定義的元模型可以形式化表示為一個(gè)四元組,如式(1)所示。
(1)
其中,Oj表示標(biāo)簽化的股東模型;ACTj表示股東j的市場投資行為;FUNDj&k表示股東j所投資的股票ki的基本面信息集合;Companyk&i表示股票ki對(duì)應(yīng)的上市公司i的基本信息集合。
本文提出的構(gòu)建股東畫像的核心工作是應(yīng)用上述4類信息對(duì)股東的活躍度特征、行業(yè)偏好、地域偏好等進(jìn)行標(biāo)簽和確認(rèn),從而生成股東畫像。
股東活躍度可以看作股東在股票市場的交易行為頻繁程度及進(jìn)入十大流通股東的評(píng)估。外部投資者迫切想要了解股東的該類信息,從而決定是否跟投。本文定義以下公式用于刻畫股東活躍度,即為:
{股東活躍度}=(股東“年齡”,宏觀投資行為)
(2)
1) 股東“年齡”。把股東“年齡”作為指標(biāo)需要考慮:一是在數(shù)據(jù)集的時(shí)間間隔的不同時(shí)間段里,加入十大流通股東行列的股東構(gòu)成是否存在明顯區(qū)別。二是在數(shù)據(jù)集的時(shí)間間隔內(nèi),股東存活區(qū)間是否存在明顯區(qū)別。如果上述假設(shè)為真,則有必要給不同時(shí)間入市的股東賦予不同的權(quán)重。圖3(a)和圖3(b)對(duì)假設(shè)一做出說明,除數(shù)據(jù)集本身原因造成2004年進(jìn)入市場的股東數(shù)顯示較多,2017年為最后投資年份的股東數(shù)顯示較多外,(a)圖說明在數(shù)據(jù)集時(shí)間間期內(nèi)不斷有股東退出和進(jìn)入十大股東行列中,2006、2007年股東進(jìn)入十大股東排行的數(shù)量多。(b)圖顯示2006、2014、2015年進(jìn)行最后一次投資的股東人數(shù)也偏多。故不同時(shí)間間隔內(nèi),加入或退出的股東存在明顯區(qū)別。
圖4對(duì)假設(shè)二做出說明,在數(shù)據(jù)集的時(shí)間間隔內(nèi),股東活動(dòng)區(qū)間存在明顯區(qū)別。活躍區(qū)間在一年之內(nèi)的十大流通股東數(shù)占絕大多數(shù),在數(shù)據(jù)集的時(shí)間間隔內(nèi),共65332名股東,這也說明十大流通股東行列的流通性強(qiáng)。故可以對(duì)股東“年齡”賦予適當(dāng)?shù)臋?quán)重。
(3)
(a)
(b)圖3 股東數(shù)量變化與各因素之間關(guān)系注: (a) 表示股東進(jìn)入市場時(shí)間與股東數(shù)之間的關(guān)系; (b) 表示股東最后一次投資的時(shí)間和股東數(shù)之間的關(guān)系。
圖4 股東活躍區(qū)間長度與股東數(shù)量之間的關(guān)系
2) 宏觀投資行為。此處主要考慮宏觀上十大流通股東的投資行為,需要考慮:一是早期進(jìn)入市場的股東其投資行為數(shù)是否較晚期進(jìn)入市場的股東更多;二是活動(dòng)區(qū)間長的股東其投資行為數(shù)是否較活動(dòng)區(qū)間短的股東更多些。如果上述假設(shè)為真,則有必要給不同時(shí)間入市的股東賦予不同的權(quán)重。圖5(a)和圖5(b)對(duì)上述假設(shè)做出說明,早期進(jìn)入市場的股東的投資行為均值較高,且股東的活動(dòng)區(qū)間長度越長,對(duì)應(yīng)的股東投資行為均值越高。故有必要對(duì)不同時(shí)間入市的股東賦予不同的權(quán)重。
(a)
(b)圖5 股東的市場行為均值與各因素間的關(guān)系注: (a) 表示股東進(jìn)入市場的時(shí)間與股東投資均值之間的關(guān)系; (b) 表示股東活動(dòng)區(qū)間長度與投資均值之間的關(guān)系。
本文認(rèn)為應(yīng)該綜合多種特征來刻畫股東的投資行為,因此提取以下特征:宏觀股東投資行為的總數(shù)、宏觀股東投資股票的總數(shù)。對(duì)于上述股東特征引入sigmoid函數(shù),設(shè)某特征為x(x可以為股東投資行為的總數(shù)、宏觀股東投資股票的總數(shù)),則該特征的xindex為:
(4)
其中,a的取值極小,如0.001,是用于平衡可能存在投資行為或投資股票的總數(shù)為0的可能性。把上述特征值賦予權(quán)重wx并求和得:
xu=∑wx·xindex
(5)
綜上所述,股東活躍度的指標(biāo)qi為:
qi=wS·SyearOfHolder+xu
(6)
式中,SyearOfHolder表示式(1)得到的股東“年齡”指標(biāo);xu代表股東投資行為的總數(shù)、宏觀股東投資股票的總數(shù)。但是在實(shí)際不同階段,分析人員可根據(jù)實(shí)際需要調(diào)整權(quán)重以平衡股東“年齡”和宏觀股東行為,從而得到合適的股東活躍度標(biāo)簽。這里取公式(6)中qi指標(biāo)最高的20%為高活躍度股東(H),20%~50%為中活躍度股東(M),其他為低活躍度股東(L)。同時(shí)可以根據(jù)實(shí)際需求調(diào)整閾值,獲得不同的活躍度群體。
3.2.1 股東行業(yè)偏好
股東行業(yè)偏好是股東偏好信息中最重要的信息。得知股東行業(yè)偏好信息可以幫助外部投資者對(duì)自己感興趣的大股東加深了解。對(duì)于股東行業(yè)偏好的分析是從兩個(gè)角度進(jìn)行的,即行業(yè)門類和大類。根據(jù)2012年修訂的《上市公司行業(yè)分類指引》,行業(yè)門類共19種取值,行業(yè)大類有90種取值。
本文采用五元特征組來形式化反映股東行業(yè)門類偏好,如式(7)所示。
(7)
其中,SUM∑beh、SUM∑Ct分別表示宏觀投資行為總數(shù)及投資行業(yè)門類總數(shù);Yn(Cti)、Yn(∑Ct)分別表示各年股東投資行業(yè)門類數(shù)量及分布;mCti表示行業(yè)門類的平均投資水平。對(duì)于上述特征均需要計(jì)算指標(biāo)絕對(duì)值及其占比。也可根據(jù)實(shí)際情況賦予權(quán)重并制定閾值。
針對(duì)某股東投資的每一個(gè)行業(yè)門類ICti,其中Cti表示其中的一個(gè)行業(yè)門類,計(jì)算如式(8)所示。
(8)
mCti={0/1}
(9)
(10)
對(duì)于求出的ICti結(jié)果,可按照從高到低的方式進(jìn)行排序,取前20%作為該股東行業(yè)門類偏好,同時(shí)可以根據(jù)實(shí)際需求調(diào)整閾值,獲得不同的行業(yè)門類偏好組群。對(duì)于行業(yè)大類的分析,與行業(yè)門類思路相同,在此不做贅述。
3.2.2 股東地域偏好
在股票證券投資領(lǐng)域,地域因素、地域情結(jié)是否是投資者投資決策的重要影響因素,針對(duì)該問題,本文對(duì)股東的地域偏好進(jìn)行研究分析。由于數(shù)據(jù)集自身的條件約束,本文對(duì)于股東地域偏好的研究主要考慮以下兩方面:(1)對(duì)于本國國內(nèi)地區(qū)的偏好;(2)對(duì)于滬深市場的偏好。而不針對(duì)國內(nèi)外地域偏好進(jìn)行分析,但從分析十大流通股東中QFII所占的比例可以看出投資者更傾向于投資本國內(nèi)的證券市場。
股東對(duì)于國內(nèi)各地區(qū)的投資偏好,本文采用四元特征組來形式化表示,如式(11)所示。
DAP=
(11)
其中,SUMari、SUM∑ar分別表示宏觀投資地域數(shù)量及分布;Yn(ari)、Yn(∑ar}分別表示各年投資地域數(shù)量及分布。計(jì)算公式如式(12)所示。
(12)
其中,wmaci表示宏觀投資地區(qū)的數(shù)量的權(quán)重;wmici表示各年投資地區(qū)的數(shù)量的權(quán)重。SUMari表示宏觀投資地區(qū)airi的總次數(shù),SUM∑ar表示宏觀投資所有地區(qū)的總次數(shù),μ表示距離數(shù)據(jù)集最后投資年份的跨度。對(duì)于股東投資的各個(gè)地區(qū),均采用上述公式進(jìn)行計(jì)算,結(jié)果中的前20%作為股東國內(nèi)各地區(qū)偏好的組群。
股東對(duì)于滬深市場的偏好,本文采用各年投資滬市股票的總數(shù)量、各年投資深市股票的總數(shù)量作為特征,對(duì)于上述股東特征引入sign函數(shù),計(jì)算方式如式(13)所示。
(13)
式中,Yn(SUMhu)、Yn(SUMshen)分別表示在第n年,股東對(duì)于滬市股票及深市股票的投資總數(shù),μ表示距離數(shù)據(jù)集最后投資年份的跨度。當(dāng)per>0時(shí),即股東更傾向于投資滬市,反之,股東更傾向于投資深市。
通過從活躍度、偏好特征兩方面構(gòu)建股東畫像,外部投資者可以了解到想要跟投的股東的市場行為頻繁程度及各類偏好信息,從而加深了解,并從中選取真正符合自己投資意愿的股東進(jìn)行跟投。最終實(shí)現(xiàn)指導(dǎo)外部投資者進(jìn)行投資決策的目的。
本文的數(shù)據(jù)集主要涉及到爬蟲得到的財(cái)經(jīng)門戶網(wǎng)站上3 107只上市A股對(duì)應(yīng)的十大流通股東行為數(shù)據(jù)、國泰安數(shù)據(jù)庫中上市公司基本信息及基金持股數(shù)據(jù)。其中涉及到2004年至2017年期間共1 060 700條投資行為數(shù)據(jù)及128 045位股東數(shù)據(jù)。結(jié)合圖2的算法預(yù)處理過程得到干凈數(shù)據(jù)集后,首先在全集上考察股東群體的整體活躍度、偏好等趨勢,其次將全集股東分為3類,分別從個(gè)人、基金、機(jī)構(gòu)說明這3類性質(zhì)的股東群體在股東活躍度、股東投資偏好方面存在的相似性與差異性。
圖6展示的是數(shù)據(jù)集全時(shí)間段內(nèi)各年份對(duì)應(yīng)的3類不同性質(zhì)的股東數(shù)量及變化情況。由圖可知,三類股東中,個(gè)人股東占比始終最高,機(jī)構(gòu)次之。從2007年開始,機(jī)構(gòu)股東的數(shù)目基本保持穩(wěn)定不變。且隨著時(shí)間的變化,基金類型的股東數(shù)量不斷增加,總體上看,全集股東人數(shù)呈日益擴(kuò)張趨勢。
圖6 3類性質(zhì)股東數(shù)量分布
通過在數(shù)據(jù)全集上考察上述定義的各特征變量是否影響股東活躍度,給出圖7作為解釋,圖中顯示了具有高活躍度的股東在各類特征上的表現(xiàn)。圖7橫軸表示活躍度的取值,縱軸分別表示最早最晚投資時(shí)間、活動(dòng)區(qū)間、股東“年齡”、投資股票總數(shù)和行為總數(shù)。
圖7 在全集上考察各特征與活躍度之間的相關(guān)性
圖7可以看出具有高活躍度的股東應(yīng)該具有的特點(diǎn)是,最早投資時(shí)間更偏向早期、最晚的投資時(shí)間接近于數(shù)據(jù)集的截止時(shí)間、股東的活動(dòng)區(qū)間長度越長,該股東活躍度越高的可能性越大、股東“年齡”更多的處于1.1到1.4之間、投資股票總數(shù)及行為總數(shù)與活躍度存在指數(shù)關(guān)系。
圖8 3類股東活躍度對(duì)比
利用本文式(2)定義的股東活躍度模型,分別對(duì)個(gè)人、機(jī)構(gòu)、基金三類股東進(jìn)行建模,得出如圖8所示的結(jié)果。分析表明:(1)圖中顯示的大多數(shù)股東的活躍度偏低,且3類股東的活躍度較多的集中于1.5左右,是由于股東活動(dòng)區(qū)間為1的全集股東占絕大多數(shù)所造成的。(2)3類不同性質(zhì)股東的活躍度呈現(xiàn)出的分布變化趨勢是大致相同的,這也從另一方面說明了,用于描述股東的“活躍度”是均衡的。
從3類不同性質(zhì)的股東出發(fā),在全集上考察股東的行業(yè)偏好。全集包括22 921條機(jī)構(gòu)類型股東,個(gè)人股東93 170名,基金股東11 954名。具體的偏好是經(jīng)過式(8)計(jì)算得到的。取前20%為各個(gè)股東的偏好行業(yè),再匯總綜合考慮3類不同的股東群體,從整體考察股東偏好。最終得出圖9所示的股東群體偏好。
圖9從內(nèi)到外由個(gè)人股東、基金股東和機(jī)構(gòu)股東3層組成,顯示了15類排行靠前的股東喜好行業(yè)。圓圈的大小表示偏好值,某位置的圓圈越大意味著該類股東對(duì)于該行業(yè)的偏好強(qiáng)度越高。不難發(fā)現(xiàn),3類股東的行業(yè)偏好相似度極高,基本完全一致。這也從側(cè)面反應(yīng)了股東群體所偏好的股票所屬的行業(yè)均是發(fā)展前景較好、且被多數(shù)重要股東認(rèn)可的,具有一定的參考價(jià)值。
圖10展示了滬深市場的投資變化情況。我們可以看出深市的投資數(shù)量較滬市隨時(shí)間呈激增變化趨勢;3類股東中,機(jī)構(gòu)股東對(duì)于滬深市場的投資數(shù)量基本持平;個(gè)人股東對(duì)于深市的投資整體呈上升趨勢,而對(duì)于滬市的投資波動(dòng)較大;基金股東在2015年之前對(duì)于滬深的投資數(shù)量呈上升趨勢,之后存在明顯的驟降現(xiàn)象。且經(jīng)過式(13)計(jì)算可得出,個(gè)人股東per=-0.82,故更偏好于深市;基金股東per=-0.53,更偏好于深市;機(jī)構(gòu)股東per=-0.05偏好于深市。三類股東中個(gè)人、基金股東的滬深偏好較為明顯,而機(jī)構(gòu)的滬深偏好差異不大。與圖10所示的投資變化一致。
圖9 3類股東群體偏好
圖10 滬深市場投資數(shù)量變化
圖(11)展示了3類股東投資國內(nèi)各省份的占比情況。由圖可知,(1)3類股東他們的投資傾向具有相似性,且相似性極好;(2)在這些區(qū)域中,股東投資比例超過6%的區(qū)域有,廣東省、北京市、上海市、江蘇省及浙江省,可以看出一線或經(jīng)濟(jì)高度發(fā)達(dá)區(qū)域的企業(yè)的收益可能會(huì)更好,原因在于這些區(qū)域經(jīng)濟(jì)可能發(fā)展得更活躍,機(jī)會(huì)可能會(huì)更多,所以相應(yīng)的企業(yè)發(fā)展就會(huì)更好些。
圖11 3類股東投資各個(gè)地區(qū)的占比
之后對(duì)投資占比超過6%的地區(qū)開展進(jìn)一步研究,以便發(fā)現(xiàn)在這些區(qū)域中3類股東重點(diǎn)投資的行業(yè)都有哪些,存在什么樣的差異性。首先假定投資超過6%的地區(qū)為較為發(fā)達(dá)的地區(qū),結(jié)果表明在90個(gè)行業(yè)大類中,無論是個(gè)人、基金還是機(jī)構(gòu),他們最為重點(diǎn)投資的行業(yè)大類都是計(jì)算機(jī)通信和其他電子設(shè)備制造業(yè)。且3類股東投資的排名前10的行業(yè)大類差異不大,僅在排名先后順序上略有不同??紤]到投資者投資時(shí)會(huì)選擇發(fā)展?jié)摿Υ蟮钠髽I(yè),由此我們也可以推斷出在較為發(fā)達(dá)的地區(qū),龍頭企業(yè)所屬的行業(yè)主要是計(jì)算機(jī)通信和其他電子設(shè)備制造業(yè)、房地產(chǎn)業(yè)、電氣機(jī)械及器材制造業(yè)、化學(xué)原料及化學(xué)制品制造業(yè)、醫(yī)藥制造業(yè)等。
本文將用戶畫像的概念遷移至證券市場,針對(duì)我國上市A股的十大流通股東提出“股東畫像”的概念,以便于深刻了解股東偏好,力圖從更詳細(xì)、更多角度對(duì)外部投資者的投資提供指導(dǎo)作用,本研究可以作為分析具有相似投資行為的股東群體、股東風(fēng)險(xiǎn)偏好的基礎(chǔ)。其次利用爬取和國泰安數(shù)據(jù)庫(CSMAR)獲取到的股東、股票相關(guān)數(shù)據(jù)從活躍度、偏好特征兩個(gè)方面構(gòu)建了證券市場股東畫像,將股東按性質(zhì)劃分為個(gè)人、機(jī)構(gòu)、基金,并分別對(duì)3類股東從全集角度構(gòu)建畫像。除此之外,本文還提出了一些處理股東特征的思路和方式,特別是針對(duì)如何刻畫股東“年齡”特征及股東行業(yè)門類偏好。
由于數(shù)據(jù)集的限制,本文沒有對(duì)國內(nèi)外地域偏好進(jìn)行針對(duì)性研究。對(duì)于股東的投資行為并沒有細(xì)化為增持、減持、不變、新進(jìn)4類,從更加細(xì)致的角度分析股東畫像。未來,筆者會(huì)針對(duì)細(xì)化后的股東投資行為、相似投資行為的股東群體做出分析,得到更有意義的證券市場股東畫像。并針對(duì)由股東、股票、上市公司生成的三模社會(huì)網(wǎng)絡(luò)拓?fù)鋱D進(jìn)行鏈接預(yù)測、分類以及演變分析。