黃文彬,白浩東
(北京大學(xué)信息管理系,北京 100871)
全國中小公司股份轉(zhuǎn)讓系統(tǒng)(簡稱“新三板”)主要提供中小微型公司安全合法的融資渠道,以更高的價(jià)格進(jìn)行股權(quán)流通,實(shí)現(xiàn)資產(chǎn)增值,并且吸引優(yōu)質(zhì)的投資人選擇具有發(fā)展良好前景的公司投資標(biāo)的,以提高個(gè)人獲利。在股權(quán)交易市場(chǎng)中,投資人經(jīng)常利用主營業(yè)務(wù)或商品劃分出相關(guān)或相近的、具有類似市場(chǎng)表現(xiàn)的公司集合,并從中篩選業(yè)績表現(xiàn)較好的公司做投資分析,如盈余預(yù)測(cè)、對(duì)比估值等。劃分公司集合的方法通常參考行業(yè)分類體系、概念板塊、使用市場(chǎng)倍數(shù)指標(biāo)三種方法,其中,參考行業(yè)分類體系劃分可比公司獲得了廣泛的研究和討論[1]。為了區(qū)分公司產(chǎn)品達(dá)到統(tǒng)計(jì)的目的或者為了區(qū)分公司所對(duì)應(yīng)市場(chǎng)的特點(diǎn),國家相關(guān)管理單位或金融機(jī)構(gòu)依據(jù)業(yè)務(wù)需求制定了行業(yè)分類體系,該體系需要滿足國家經(jīng)濟(jì)要求與商業(yè)標(biāo)準(zhǔn),形成適用范圍大、修改周期長、影響層面廣以及劃分粒度較宏觀等特點(diǎn)。由于新三板掛牌公司多屬于成長型中小公司,具有產(chǎn)品或業(yè)務(wù)所屬的范疇粒度小和業(yè)務(wù)變動(dòng)速度快的特性,這就造成行業(yè)分類體系無法匹配最新的行業(yè)動(dòng)態(tài)和公司實(shí)際最新業(yè)務(wù)特點(diǎn),并不能滿足投資人尋找投資標(biāo)的公司集合的需求。參考概念板塊劃分篩選源于人民幣普通股票市場(chǎng)(簡稱“A股市場(chǎng)”)投資人的選股方法,主要由市場(chǎng)研究團(tuán)隊(duì)或媒體自發(fā)性依據(jù)某種概念或話題,構(gòu)建非層級(jí)結(jié)構(gòu)式標(biāo)簽劃分的公司集合,如同花順概念板塊行情中心(http://q.10jqka.com.cn/gn/)。話題或概念具有豐富的意義,包括業(yè)務(wù)、商業(yè)模式、地域和事件等。從A股市場(chǎng)的劃分方式直接套用到新三板市場(chǎng),造成掛牌公司業(yè)務(wù)的實(shí)際粒度未達(dá)到與概念匹配的適用性問題。采用市場(chǎng)倍數(shù)能夠更好地服務(wù)于后續(xù)預(yù)測(cè)估值工作[2],研究人員依靠市場(chǎng)指標(biāo)市凈率、市倍率等對(duì)某特定行業(yè)下的公司進(jìn)行篩選對(duì)比。然而,這些指標(biāo)只適用于一級(jí)市場(chǎng)中業(yè)務(wù)成熟的公司,新三板中大量中小公司并沒有市場(chǎng)接受的市值,更不必說市場(chǎng)倍數(shù)。
綜上所述,為了提供協(xié)助新三板市場(chǎng)投資人在短時(shí)間內(nèi)利用業(yè)務(wù)關(guān)聯(lián),從上萬家掛牌公司中,篩選劃分公司類別形成投資標(biāo)的,本文提出基于自動(dòng)構(gòu)建術(shù)語分類體系的方法,利用新三板掛牌公司年度報(bào)告的商業(yè)模式文本數(shù)據(jù),得到具有層次結(jié)構(gòu)的公司劃分結(jié)果,以此作為投資人的選股依據(jù)和理解投資標(biāo)的與其他公司的關(guān)聯(lián)關(guān)系的基礎(chǔ)。首先研究者從年度報(bào)告文本中抽取出公司主營業(yè)務(wù)范圍相關(guān)的術(shù)語和術(shù)語相似性,根據(jù)術(shù)語相似關(guān)系進(jìn)行聚類計(jì)算,并構(gòu)建出術(shù)語網(wǎng)絡(luò),利用術(shù)語網(wǎng)絡(luò)和公司業(yè)務(wù)所含術(shù)語集判定該公司所屬的類別標(biāo)簽,其結(jié)果可反映出新三板市場(chǎng)劃分公司的特殊性,為投資人發(fā)現(xiàn)特定概念公司、理解概念與業(yè)務(wù)的映射關(guān)聯(lián)。
行業(yè)分類體系,是指在市場(chǎng)中根據(jù)相似的工業(yè)流程、相似的產(chǎn)品以及相似的市場(chǎng)組織分類公司的工具和方法[3]。投資人經(jīng)常利用該體系開展找尋標(biāo)桿公司來確定市場(chǎng)份額、挖掘潛在競(jìng)爭(zhēng)對(duì)手、衡量公司績效和行業(yè)指數(shù)等作為商業(yè)研究和投資分析。根據(jù)不同的目的將分類標(biāo)準(zhǔn)分為兩種類型:管理型和投資型,兩者分別用于政府宏觀經(jīng)濟(jì)普查統(tǒng)計(jì)和證券投資活動(dòng)[3]。1999年8月,全球行業(yè)分類系統(tǒng)(Global Industry Classification Standard,GICS[4])由標(biāo)準(zhǔn)普爾(Standard&Poor's,S&P)與摩根士丹利公 司(Morgan Stanley Capital International,MSCI)聯(lián)手推出適用于投資型的行業(yè)分類標(biāo)準(zhǔn),也是如今全球金融業(yè)內(nèi)較全面和統(tǒng)一的行業(yè)定義,是投資型行業(yè)分類體系的典型代表。該系統(tǒng)采用業(yè)務(wù)劃分方法提供投資人員更好的參考標(biāo)準(zhǔn),明確區(qū)分不同行業(yè)具有的投資價(jià)值,反映股票市場(chǎng)當(dāng)前的投資理念,GICS在多種行業(yè)分類標(biāo)準(zhǔn)中具有更好的劃分公司能力[5]。有些國內(nèi)金融機(jī)構(gòu)也根據(jù)GICS制定適用于我國市場(chǎng)環(huán)境的行業(yè)分類體系,如申萬行業(yè)體系[6]以及新三板投資型行業(yè)分類體系[7]。然而,行業(yè)分類體系并不能很好地解決新三板市場(chǎng)投資人篩選劃分公司問題,例如,①末級(jí)行業(yè)分類的公司可能缺少可比性,自頂向下的行業(yè)分類導(dǎo)致不同子行業(yè)內(nèi)公司數(shù)量和業(yè)務(wù)內(nèi)容偏差較大,不利于投資人進(jìn)一步篩選公司;②公司業(yè)務(wù)可能存在多種交叉,固定的等級(jí)列舉式分類體系無法揭示某個(gè)業(yè)務(wù)對(duì)應(yīng)多行業(yè)的所屬關(guān)系,使得劃分的公司集合存在遺漏或缺失的可能性;③行業(yè)分類體系構(gòu)建成本高,經(jīng)常性的修正會(huì)影響投資效率。
為了彌補(bǔ)行業(yè)分類體系的不足,投資研究人員利用投資人可能會(huì)重點(diǎn)關(guān)注的話題或概念(包括業(yè)務(wù)、商業(yè)模式、地域、事件等)給予公司標(biāo)簽,并聚集相同或相關(guān)標(biāo)簽的公司形成重點(diǎn)關(guān)注的選股標(biāo)的,稱為“概念板塊”,如“蘋果”概念板塊、“雄安新區(qū)”概念板塊等。概念板塊的靈活性能夠彌補(bǔ)行業(yè)分類體系無法納入新興投資熱點(diǎn)的不足,提供投資人直觀的業(yè)務(wù)理解。由于概念板塊是經(jīng)由研究人員或媒體自發(fā)性所建構(gòu)的,目前僅限于A股市場(chǎng),在新三板市場(chǎng)并不存在大眾認(rèn)可的概念板塊劃分。
另外,許多研究人員也會(huì)通過組合市場(chǎng)倍數(shù)來篩選可比公司集合。市場(chǎng)倍數(shù)的功能可顯示出在預(yù)測(cè)公司未來收入和股價(jià)變動(dòng)時(shí)具有強(qiáng)相關(guān)性[2,8]。然而,市場(chǎng)倍數(shù)僅適用于A股市場(chǎng)或公司運(yùn)營狀況穩(wěn)定、市場(chǎng)倍數(shù)可靠的情況。在新三板市場(chǎng)中流動(dòng)性不強(qiáng),股價(jià)以及市場(chǎng)倍數(shù)無法用于預(yù)測(cè)公司未來收益狀況。
近年來,國外基于文本數(shù)據(jù)進(jìn)行行業(yè)分析的研究逐漸增多[1,9-12]。例如,Hoberg等[10-11]依據(jù)10-K數(shù)據(jù)庫構(gòu)建了兩種領(lǐng)域體系:為利用公司產(chǎn)品描述文檔文本聚類,對(duì)形成的類別進(jìn)行描述形成領(lǐng)域劃分,屬于較傳統(tǒng)的固定結(jié)構(gòu)[10];根據(jù)公司產(chǎn)品描述構(gòu)建關(guān)系網(wǎng)絡(luò),利用公司相似性確定競(jìng)爭(zhēng)關(guān)系所形成的網(wǎng)絡(luò)結(jié)構(gòu)[11]。由于其研究目標(biāo)主要是改進(jìn)行業(yè)分類體系,并沒有深入公司業(yè)務(wù)細(xì)節(jié),分類結(jié)果屬于粒度較粗的行業(yè)劃分,投資人的應(yīng)用價(jià)值較低。Tetlock等[12]同樣利用文本信息進(jìn)行行業(yè)分析,但只使用了詞匯的情感色彩而非詞匯的語義關(guān)聯(lián)。國內(nèi)的研究者曹四華[13]使用LDA(latent Dirichlet alloca‐tion)主題模型對(duì)上市公司的年度報(bào)告文本進(jìn)行分析,但LDA方法并不能給出可解釋性強(qiáng)的、層次化的行業(yè)劃分。本文的貢獻(xiàn)在于利用文本數(shù)據(jù)克服行業(yè)分類體系固化的問題,提供一套依據(jù)較細(xì)粒度的業(yè)務(wù)概念與關(guān)聯(lián)自動(dòng)劃分出公司集合的方法。
術(shù)語分類體系(taxonomy)是一個(gè)將概念術(shù)語按照上下位關(guān)系組織起來的語義層次結(jié)構(gòu)[14]。術(shù)語分類體系自動(dòng)構(gòu)建(automatic taxonomy construc‐tion,ATC)是基于文本發(fā)現(xiàn)領(lǐng)域術(shù)語以及術(shù)語之間關(guān)聯(lián),構(gòu)建具有上下位關(guān)系的樹狀結(jié)構(gòu)體系。自動(dòng)構(gòu)建術(shù)語分類體系包括兩個(gè)步驟:上下位關(guān)系抽取和術(shù)語分類體系推導(dǎo)[14]。
上下位關(guān)系抽取是指從語料中獲得術(shù)語概念以及這些概念之間的上下位關(guān)系,主要分為基于模式的方法和基于分布的方法。如果x和y出現(xiàn)在同一個(gè)句子中,并滿足特定模式,那么基于模式的方法預(yù)測(cè)術(shù)語對(duì)(x,y)之間存在上下位關(guān)系。最早的且最具有影響力的工作是Hearst[15]提出的人工定義的上下位模式。后續(xù)工作采用boosting策略[16]自動(dòng)優(yōu)化改進(jìn)模式,基于模式的方法得到高準(zhǔn)確率和低召回率的結(jié)果?;诜植嫉姆椒ㄊ遣捎梅潜O(jiān)督度量或者監(jiān)督模型預(yù)測(cè)術(shù)語之間的上下位關(guān)系。該方法包含術(shù)語抽取和關(guān)系預(yù)測(cè)兩個(gè)子步驟。術(shù)語抽取是從語料中抽取出所有可能的術(shù)語詞,這些術(shù)語詞之間可能存在上下位關(guān)系。術(shù)語抽取通常采用統(tǒng)計(jì)指標(biāo)或機(jī)器學(xué)習(xí)等方法完成。例如,利用TF-IDF(term frequency-inverse document frequency)方法、LDA模型、TextRank模型等無監(jiān)督的方法。在有監(jiān)督即存在部分關(guān)系標(biāo)注數(shù)據(jù)的情況下,關(guān)系抽取任務(wù)則可以看作兩詞之間是否存在上下位關(guān)系的分類問題。關(guān)系預(yù)測(cè)步驟則是采用非監(jiān)督度量或者監(jiān)督模型預(yù)測(cè)給定任意兩個(gè)已抽取術(shù)語的上下位關(guān)系。典型非監(jiān)督度量的方法包含利用共現(xiàn)頻次、詞袋模型余弦相似度和詞嵌入模型結(jié)果計(jì)算術(shù)語間關(guān)系度量[14]。監(jiān)督模型預(yù)測(cè)關(guān)系則是依賴已有術(shù)語關(guān)系的詞典,通過合理外推可以預(yù)測(cè)整個(gè)術(shù)語集上的關(guān)聯(lián)關(guān)系?;谀J降姆椒ǜ泳_,但非常依賴語料和人工模式制定,如果語料不具備揭示術(shù)語關(guān)系,那么基于模式方法將會(huì)導(dǎo)致極低召回率[17]。相反地,基于分布方法可以在非嚴(yán)格的語料上獲得較好的召回率,卻無法檢測(cè)嚴(yán)格上下位關(guān)系使得準(zhǔn)確率較低。
術(shù)語分類體系推導(dǎo)是指在大量上下位關(guān)系集合的基礎(chǔ)上,整理合并形成層次結(jié)構(gòu)的過程。體系推導(dǎo)主要有聚類和圖結(jié)構(gòu)推導(dǎo)兩種方法。聚類方法是指假設(shè)具有同一上位詞的下位詞聚為一類,上位詞代表類簇。因?yàn)樾g(shù)語分類體系是層次結(jié)構(gòu)的,所以往往采用具有層次性結(jié)果的聚類方法(如層次聚類[18-19])、共現(xiàn)關(guān)系導(dǎo)出的包含方法(subsumption method)[20]。圖結(jié)構(gòu)推導(dǎo)是指將術(shù)語分類體系當(dāng)做有向圖結(jié)構(gòu),將術(shù)語和關(guān)系組織成為圖結(jié)構(gòu),并挖掘形成樹狀結(jié)構(gòu)成為術(shù)語分類體系[21]。自動(dòng)構(gòu)建術(shù)語分類體系是一個(gè)極為廣泛的研究領(lǐng)域,融合了多種自然語言處理方法,同時(shí),也極大地影響其他自然語言處理相關(guān)的應(yīng)用。本文采用基于分布的關(guān)系抽取方法和聚類推導(dǎo)體系的方法,實(shí)現(xiàn)根據(jù)公司業(yè)務(wù)劃分公司,以獲得投資標(biāo)的或?qū)Ρ裙尽?/p>
本文的核心任務(wù)是利用術(shù)語分類體系構(gòu)建方法依據(jù)公司業(yè)務(wù)內(nèi)容劃分公司集合,具體的方法流程如圖1所示,主要分為三個(gè)階段:數(shù)據(jù)預(yù)處理、術(shù)語分類體系構(gòu)建和劃分公司集合。數(shù)據(jù)預(yù)處理階段主要是利用哈爾濱工業(yè)大學(xué)自然語言處理工具包(http://www.ltp-cloud.com/intro)對(duì)商業(yè)模式文本進(jìn)行切詞詞性標(biāo)注等。術(shù)語分類體系構(gòu)建階段又包括關(guān)系抽取和體系推導(dǎo)的兩子階段。關(guān)系抽取階段中,因?yàn)檫x取投資標(biāo)的的變動(dòng)性高,需要盡量減少人工的參與,所以本文采用基于分布的方法,該抽取方法又可分成“術(shù)語抽取”和“關(guān)系構(gòu)建”兩個(gè)步驟。首先,本階段從預(yù)處理切詞標(biāo)注后的公司商業(yè)模式文本中,抽取短語單詞特征并利用半監(jiān)督分類模型判斷術(shù)語,完成術(shù)語抽取的目的;其次,在關(guān)系構(gòu)建步驟中采用計(jì)算術(shù)語相似度的方法,在體系推導(dǎo)子階段中通過建立在術(shù)語相似度矩陣上聚類形成術(shù)語分類體系;最后,在劃分公司集合階段中是基于所構(gòu)建的體系基礎(chǔ)上,將出現(xiàn)相同末級(jí)術(shù)語的公司匯總為公司集合。
圖1 基于術(shù)語分類體系自動(dòng)劃分公司集合方法的流程圖
3.1.1 術(shù)語抽取
本文以新三板公司商業(yè)模式文本集作為本文的語料庫,為了能夠完整表述公司業(yè)務(wù),本文采用了更具有表達(dá)能力的短語作為術(shù)語,該方法分為兩個(gè)階段:抽取短語及單詞特征、半監(jiān)督術(shù)語分類模型。
表1 短語特征表
抽取短語及單詞特征階段需要同時(shí)抽取短語及其特征。由于商業(yè)模式文本中絕大部分業(yè)務(wù)術(shù)語都屬于名詞性短語,基于該特性的模式匹配方法獲得的短語能夠包含絕大部分的業(yè)務(wù)概念術(shù)語。本文利用人工依據(jù)經(jīng)驗(yàn)事先確定詞性語法模式從詞性標(biāo)注和依存句法分析樹標(biāo)注后的文本材料中抽取短語。同時(shí),抽取的短語特征有短語自身的特征以及術(shù)語所屬單詞的特征(如表1所示),主要包含行業(yè)信息和頻率統(tǒng)計(jì)量兩類特征。由于行業(yè)信息對(duì)于詞具有重要作用,利用給定詞在不同行業(yè)所屬公司的年度報(bào)告中的詞頻所計(jì)算的行業(yè)信息熵,判斷這個(gè)詞是否具有領(lǐng)域劃分的作用。本階段獲得短語集及其特征,作為下一階段半監(jiān)督分類判斷術(shù)語的輸入。
半監(jiān)督術(shù)語分類模型構(gòu)建使用正樣本無標(biāo)記樣本學(xué)習(xí)方法(positive and unlabeled learning,PULearn‐ing)[22]來構(gòu)建概率化支持向量機(jī)(probablilistic sup‐port vector machine,PSVM)分類器?,F(xiàn)實(shí)學(xué)習(xí)任務(wù)情況中,往往負(fù)樣本P獲取不易,正樣本P規(guī)模小且難以擴(kuò)大,未標(biāo)記U的規(guī)模大。PULeanring則是用于解決這樣的情況的半監(jiān)督分類方法。有研究[23]指出,PULearning可以利用重寫經(jīng)驗(yàn)風(fēng)險(xiǎn)的方法轉(zhuǎn)化為損失敏感的有監(jiān)督分類問題,分類無標(biāo)記樣本和少量正樣本。本文利用這一結(jié)論使用傳統(tǒng)分類模型進(jìn)行術(shù)語判斷,在實(shí)驗(yàn)研究中采用PULearn‐ing方法的對(duì)稱問題(即負(fù)樣本無標(biāo)記樣本學(xué)習(xí)NULeanring),來降低人工分類的預(yù)備工作量和提高分類精度,以達(dá)到自動(dòng)分類的效果。標(biāo)記負(fù)樣本的過程中,候選術(shù)語短語中如果出現(xiàn)了領(lǐng)域停用詞表中的詞匯,將該短語標(biāo)記為負(fù)樣本,否則為無標(biāo)記樣本。而標(biāo)記過程需要領(lǐng)域停用詞表,使得負(fù)樣本盡可能覆蓋非術(shù)語部分短語的各種類型。領(lǐng)域停用詞表中包括通用停用詞表和描述公司的常見詞,如“集團(tuán)”“公司”等;描述商業(yè)模式常見詞匯,如“銷售”“盈利”等;描述公司市場(chǎng)地位詞匯,如“領(lǐng)先”“趨勢(shì)”等。領(lǐng)域停用詞表的構(gòu)建僅需要少量人工操作,實(shí)驗(yàn)中僅在通用停用詞表外增加了106個(gè)領(lǐng)域停用詞。最后,根據(jù)研究[23]結(jié)論,利用PSVM對(duì)負(fù)樣本和無標(biāo)記樣本進(jìn)行分類,獲得正樣本標(biāo)記即術(shù)語集合。
3.1.2 關(guān)系構(gòu)建
本文主要對(duì)稱相似性度量的方法進(jìn)行關(guān)系構(gòu)建,該方法中的相似性度量研究基于術(shù)語為單詞的情況,而不適用于本文的術(shù)語為短語的情況,因此,本文使用單詞相似度度量構(gòu)建術(shù)語短語相似度度量,通過整合單詞相似度獲得術(shù)語相似度。
首先,借鑒共詞分析的思想,定義兩個(gè)單詞的相似度為共同出現(xiàn)文檔的數(shù)量除以兩者各自出現(xiàn)文檔次數(shù)的平均數(shù),計(jì)算單詞間的相似度采用共現(xiàn)頻次并進(jìn)行歸一化,計(jì)算方式為
其中,docsi表示單詞i出現(xiàn)的文檔集合;|docsi|表示文檔docsi的單詞個(gè)數(shù);mean(|docsi|,|docsj|)表示文檔docsi和docsj的單詞數(shù)的調(diào)和平均數(shù)。
其次,采用詞對(duì)齊(word alignment)思想?yún)R總單詞相似度并計(jì)算短語相似度。定義短語間的相似度為短語中相對(duì)應(yīng)單詞之間的相似度的平均值,而詞對(duì)齊方法可以避免考慮短語中無關(guān)單詞間相似度被納入考量。例如,“醫(yī)療健康服務(wù)”和“醫(yī)療器械”均有單詞“醫(yī)療”,短語相似度首先找到最匹配的單詞對(duì),再合并計(jì)算多個(gè)單詞對(duì)之間的相似度。在術(shù)語t中找到術(shù)語s的詞對(duì)齊結(jié)果定義為termalignst。術(shù)語相似度termsimst計(jì)算公式為
termsimst=(termalignst+termalignts)/2 (3)
最后,考慮單詞本身的差異,直接采用相同的權(quán)重求均值會(huì)使術(shù)語表達(dá)能力不足,因此,本文匯總單詞相似度時(shí)引入詞權(quán)重,表示為
其中,N表示文檔數(shù)量;docsi表示單詞i出現(xiàn)的文檔集合。將單詞權(quán)重設(shè)計(jì)為WF-IDF,WF定義為對(duì)詞條出現(xiàn)的頻率TF進(jìn)行亞線性變換后的結(jié)果,使權(quán)重歸一化時(shí)更加平滑,IDF是指逆向文件頻率。
經(jīng)過關(guān)系抽取之后的術(shù)語集內(nèi)部具有偽上下位關(guān)系,因?yàn)橄嗨菩远攘烤仃嚳梢哉J(rèn)為是所有術(shù)語之間都可能有上下位關(guān)系,而聚類則是將相似性矩陣轉(zhuǎn)變?yōu)樗鶎訇P(guān)系矩陣,實(shí)際中即抹去相似性較低的術(shù)語對(duì)關(guān)系、建立相似性較高的術(shù)語對(duì)之間的關(guān)系。在體系推導(dǎo)階段,首先,本文利用近鄰傳播(affinity propagation,AP)聚類算法[24]方法聚類得出層次化術(shù)語體系的末層結(jié)構(gòu);其次,再對(duì)該聚類中心進(jìn)行聚類獲得第二層結(jié)構(gòu),以此類推;最后,形成多層次化的樹狀結(jié)構(gòu),即術(shù)語分類體系。然而,在實(shí)際投資應(yīng)用中,固定層級(jí)的扁平樹狀結(jié)構(gòu)較為依靠投資研究人員理解,本文以三層結(jié)構(gòu)的術(shù)語分類體系為主,如圖2所示。
基于構(gòu)建好的術(shù)語分類體系,公司的主營業(yè)務(wù)所包含的術(shù)語對(duì)應(yīng)在末級(jí)術(shù)語上,形成最終的公司劃分映射表。公司劃分映射表中,每個(gè)末級(jí)術(shù)語對(duì)應(yīng)一個(gè)公司集合,該集合中所有公司從事的均與術(shù)語描述的業(yè)務(wù)內(nèi)容相同或相似,則該集合內(nèi)的公司即可被投資人與分析師作為對(duì)比分析的選股標(biāo)的。該公司劃分映射表存在兩個(gè)現(xiàn)象:①某公司包含數(shù)個(gè)術(shù)語,形成該公司可能會(huì)屬于不同類的公司集合,但這現(xiàn)象更符合現(xiàn)實(shí)情況,因?yàn)楣窘?jīng)常從事多種業(yè)務(wù)或者業(yè)務(wù)具有交叉性;②由于本文采用商業(yè)模式的文本,公司可能主營上下游產(chǎn)業(yè)鏈業(yè)務(wù),造成同一劃分集合公司間仍有不同的屬性關(guān)系并未顯現(xiàn)出來,未來可以針對(duì)這一點(diǎn)進(jìn)行升級(jí)改進(jìn)。
圖2 基于聚類的術(shù)語分類體系結(jié)構(gòu)
表2 頂層術(shù)語統(tǒng)計(jì)表
實(shí)驗(yàn)首先自全國中小公司股份轉(zhuǎn)讓系統(tǒng)(www.neeq.com.cn)中選取從2014—2017年年底10375家掛牌公司年度報(bào)告共21739份,由于原始年度報(bào)告格式為PDF文件,使用Tabula工具自動(dòng)解析文件后提取出商業(yè)模式文本數(shù)據(jù),因部分年度報(bào)告數(shù)據(jù)的內(nèi)容缺失和損毀,經(jīng)人工校正并清理,最后,獲取20040份商業(yè)模式文本作為本文的研究實(shí)驗(yàn)數(shù)據(jù)。依主管機(jī)關(guān)規(guī)定,商業(yè)模式披露內(nèi)容包括公司目前所處行業(yè)、主營業(yè)務(wù)、產(chǎn)品或服務(wù)、客戶類型、關(guān)鍵資源、銷售渠道、收入來源等情況,文本長度一般不少于100字且不多于1000字。利用模板判斷短語后獲得64460個(gè)短語候選集,本文利用領(lǐng)域停用詞表標(biāo)記其中7078條為負(fù)樣本,其余為無標(biāo)記樣本,經(jīng)PSVM分類器計(jì)算獲得2744個(gè)正樣例術(shù)語。體系推導(dǎo)后獲得33個(gè)大類(如表2所示),其中第1列為所有大類對(duì)應(yīng)的頂層術(shù)語。每個(gè)頂層術(shù)語的二級(jí)術(shù)語數(shù)量不超過20個(gè),三級(jí)術(shù)語不超過230個(gè),對(duì)應(yīng)的公司從數(shù)百到一千不等,由于公司可以包含多種類型業(yè)務(wù),最終平均一條業(yè)務(wù)術(shù)語最多包含20家公司。所有術(shù)語的平均相似度經(jīng)計(jì)算為0.15,而每個(gè)類的平均類內(nèi)相似度皆高于0.15,說明大部分劃分結(jié)果具有內(nèi)聚性。除“手機(jī)周邊產(chǎn)品”“天然植物提取物”等混雜的超大類以外,大部分聚類劃分相對(duì)均衡。本實(shí)驗(yàn)基于文本字符,故存在同義詞與近義詞的關(guān)系使得頂層劃分不夠完善。例如,“醫(yī)療診斷服務(wù)”和“醫(yī)療器材制造服務(wù)”兩個(gè)相關(guān)業(yè)務(wù)被割裂,未來仍具有改進(jìn)空間。
由于劃分結(jié)果龐大,本文僅以教育類實(shí)驗(yàn)結(jié)果展示層次結(jié)構(gòu)和公司劃分情況。如表3所示,第1~3列分別表示宏觀大類劃分、相對(duì)宏觀的二級(jí)劃分和微觀的三級(jí)劃分,說明本文的研究方法依據(jù)主營業(yè)務(wù)概念自動(dòng)劃分的33類中有一類宏觀體系為教育類,而教育類又可細(xì)分成“在線教育培訓(xùn)行業(yè)”“職業(yè)教育培訓(xùn)服務(wù)”“教育信息化”和“智慧教育行業(yè)”4個(gè)子類,并且“在線教育培訓(xùn)行業(yè)”類別中包含“在線教育服務(wù)”“在線教育培訓(xùn)”和“在線教育平臺(tái)”3個(gè)微觀業(yè)務(wù)類別。表4展示了教育概念下部分公司的行業(yè)劃分、本文方法末級(jí)術(shù)語標(biāo)簽和商業(yè)模式文本節(jié)選,其中行業(yè)劃分采用新三板官方投資型行業(yè)分類用作參照,顯示本文方法的劃分結(jié)果,具體展現(xiàn)出新三板教育類公司的業(yè)務(wù)特征。
表3 教育概念結(jié)構(gòu)表
新三板掛牌公司多數(shù)屬于中小型規(guī)模、從事較小業(yè)務(wù)內(nèi)容或產(chǎn)品的公司。傳統(tǒng)公司劃分參考的行業(yè)粒度宏觀,依據(jù)公司業(yè)務(wù)內(nèi)容映射到行業(yè)劃分時(shí),造成同行業(yè)內(nèi)公司間的實(shí)際業(yè)務(wù)差距較大,體現(xiàn)不出公司的特殊性。對(duì)于投資人來說,經(jīng)由本文依據(jù)粒度較細(xì)的業(yè)務(wù)概念自動(dòng)劃分公司方法得到的公司集合相似度更高,這些細(xì)分領(lǐng)域的發(fā)現(xiàn)更能貼近市場(chǎng),便于深入理解行業(yè)。
投資人利用公司的業(yè)務(wù)、商品或相關(guān)屬性劃分公司集合,從中篩選出股價(jià)表現(xiàn)較合理的公司作為該集合的標(biāo)桿,該標(biāo)桿公司與投資標(biāo)的進(jìn)行估值對(duì)比分析。不適當(dāng)?shù)墓炯蟿澐謱?huì)造成標(biāo)桿公司選取的失誤,并導(dǎo)致投資標(biāo)的估值錯(cuò)誤,因此,利用細(xì)粒度的業(yè)務(wù)內(nèi)容劃分出的公司集合更能找出可比性的公司。公司間的可比性通??剂繉?duì)比公司的業(yè)務(wù)相似度和體量,而實(shí)際業(yè)務(wù)中分析人員需要對(duì)兩指標(biāo)劃分的結(jié)果進(jìn)一步人工篩選刪除[2],因此,在考察劃分公司方法時(shí),還需要考慮對(duì)比公司集合的大小。業(yè)務(wù)相似度與對(duì)比公司集合大小均與劃分結(jié)構(gòu)中末級(jí)節(jié)點(diǎn)細(xì)化程度有關(guān)。如果粒度過粗使得同集合內(nèi)公司的數(shù)量過多,并且公司間的業(yè)務(wù)關(guān)聯(lián)小,則將造成可比性較差。例如,多數(shù)“在線教育領(lǐng)域”的公司被劃分到投資型行業(yè)分類體系的“互聯(lián)網(wǎng)軟件與服務(wù)”,且“職業(yè)培訓(xùn)”被劃分到“綜合消費(fèi)者服務(wù)”,而“教育”僅為體系的末級(jí)行業(yè)。在線教育公司因改變其業(yè)務(wù)手段就被劃分到“互聯(lián)網(wǎng)軟件與服務(wù)”,但由于其業(yè)務(wù)的消費(fèi)者、競(jìng)爭(zhēng)者以及市場(chǎng)范圍并沒有太大的變化,從投資角度而言,該類公司仍必須以教育類型評(píng)價(jià)基準(zhǔn)進(jìn)行分析與估值。而本文提出的方法劃分的公司集合相對(duì)均勻,且該方法依據(jù)文本數(shù)據(jù)內(nèi)容自動(dòng)調(diào)整領(lǐng)域規(guī)模,避免了自頂向下設(shè)計(jì)行業(yè)分類所導(dǎo)致公司分布不均的問題。
發(fā)現(xiàn)新興業(yè)務(wù)概念是市場(chǎng)研究人員進(jìn)行投資分析重要的工作之一,盡早挖掘出新興概念將標(biāo)示著行業(yè)未來的發(fā)展方向以及公司的前景。傳統(tǒng)行業(yè)分類體系因更新周期長而忽略新興業(yè)務(wù),而只有當(dāng)新興業(yè)務(wù)受到關(guān)注的時(shí)候才會(huì)被納入概念板塊的構(gòu)建。本文提出的方法從年度報(bào)告自動(dòng)獲取劃分的結(jié)構(gòu),因此,容易捕獲到當(dāng)前市場(chǎng)的新概念。例如,表3的教育類二級(jí)劃分類別中,這些概念是當(dāng)下教育領(lǐng)域的重要細(xì)分業(yè)務(wù),也是投資人無法參考其他工具獲得的。
表4 教育概念下部分公司對(duì)應(yīng)表
另外,在本文的實(shí)驗(yàn)中存在術(shù)語意義不夠明確的問題。在術(shù)語抽取的工程中,術(shù)語的微妙差別與簡單詞匯控制判斷同義詞或近義詞不同,尤其本文的對(duì)象更涉及實(shí)際生活中的業(yè)務(wù)邏輯,判斷方式相對(duì)復(fù)雜導(dǎo)致難以達(dá)到無監(jiān)督詞匯控制。例如,“智慧教育”與“在線教育”之間的關(guān)聯(lián)并非僅有同義或近義的關(guān)系?!爸腔劢逃辈捎弥悄芗夹g(shù)注重教育質(zhì)量和效果,而“在線教育”偏重以在線方式打破地理限制的學(xué)習(xí)體驗(yàn),雖然兩者概念相似與高度相關(guān),但無法簡單合并。另外,“智慧家庭”本不應(yīng)當(dāng)屬于教育行業(yè),但由于計(jì)算“家庭”與“教育”術(shù)語相似度相對(duì)接近,而被劃分為該宏觀概念類內(nèi)。
本文主要通過半監(jiān)督術(shù)語抽取與術(shù)語關(guān)系聚類的方法,構(gòu)建出具有層次結(jié)構(gòu)的公司集合,提供新三板市場(chǎng)投資人自動(dòng)化劃分公司的方法,并協(xié)助理解公司間的業(yè)務(wù)關(guān)聯(lián)。本文提出的方法主要貢獻(xiàn)在于將術(shù)語分類體系構(gòu)建方法引入投資概念體系建立任務(wù),采用了短語而非單詞作為術(shù)語相似度的計(jì)算,并且在該過程中極少量依賴人工參與,高效無監(jiān)督方法滿足需求的時(shí)效性。實(shí)驗(yàn)數(shù)據(jù)來自新三板公司年度報(bào)告的商業(yè)模式文本數(shù)據(jù),并使用本文提出的方法劃分的公司集合解決實(shí)際問題:①發(fā)現(xiàn)細(xì)分領(lǐng)域和特殊業(yè)務(wù),使投資人更深入了解公司業(yè)務(wù)范圍;②自動(dòng)化及時(shí)發(fā)現(xiàn)當(dāng)前新興投資概念,幫助投資人捕獲市場(chǎng)動(dòng)態(tài);③對(duì)比傳統(tǒng)公司篩選工具,本文方法劃分公司更具有可比性。本文嘗試使用無監(jiān)督方法抽取術(shù)語的方法仍有優(yōu)化空間,未來將可引入詞匯控制來避免術(shù)語意義不明的情況,并在關(guān)系構(gòu)建過程融合其他行業(yè)描述的外部資源,改善語料稀疏的缺點(diǎn)。