齊萱 馬曉慶 李巖 劉樹(shù)海
摘 要:收集了2012-2017年深圳證券交易所中小企業(yè)板年度報(bào)告,共計(jì)3090份有效樣本,從創(chuàng)新意識(shí)、創(chuàng)新支持、創(chuàng)新管理、創(chuàng)新實(shí)現(xiàn)、創(chuàng)新推廣、創(chuàng)新效果等方面創(chuàng)建中小企業(yè)創(chuàng)新行為自愿性信息披露評(píng)價(jià)指數(shù),利用深度學(xué)習(xí)技術(shù)——Word2vec給出科學(xué)的評(píng)判方法。然后從披露內(nèi)容、行業(yè)類(lèi)型、產(chǎn)權(quán)性質(zhì)、地理區(qū)域等方面對(duì)中小企業(yè)板創(chuàng)新行為自愿性信息披露現(xiàn)狀進(jìn)行分析評(píng)價(jià),結(jié)果表明:中小企業(yè)創(chuàng)新行為自愿性信息6年平均披露程度為50.83%,整體水平雖然不是很高,但是呈現(xiàn)逐年上升的趨勢(shì),未來(lái)在創(chuàng)新支持和創(chuàng)新實(shí)現(xiàn)方面還有很大的提升空間。
關(guān)鍵詞:創(chuàng)新行為;自愿性信息披露;深度學(xué)習(xí);Word2vec
中圖分類(lèi)號(hào):F23 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2020.02.057
0 引言
目前,中國(guó)已進(jìn)入經(jīng)濟(jì)發(fā)展的新常態(tài),創(chuàng)新驅(qū)動(dòng)已成為加速企業(yè)形成新發(fā)展方式,提高整體質(zhì)量和效益的新動(dòng)力。在新的創(chuàng)新浪潮中,大量中小企業(yè)積極致力于技術(shù)創(chuàng)新,一些大型企業(yè)也不一定投身于所有的技術(shù)創(chuàng)新,他們可以購(gòu)買(mǎi)外部技術(shù),通過(guò)中小企業(yè)來(lái)實(shí)現(xiàn)其創(chuàng)新“副產(chǎn)品”的價(jià)值。隨著大數(shù)據(jù)、互聯(lián)網(wǎng)等信息技術(shù)的不斷發(fā)展,企業(yè)越來(lái)越多的創(chuàng)新內(nèi)容已經(jīng)成為投資者評(píng)價(jià)企業(yè)發(fā)展的重要決策依據(jù)。中小企業(yè)較高的技術(shù)含量、良好的盈利能力以及快速增長(zhǎng)使其成為創(chuàng)新和創(chuàng)業(yè)的重要生力軍。中小企業(yè)充分披露創(chuàng)新行為信息則有利于其獲得外部資金,推動(dòng)其投資活動(dòng),從而達(dá)到資源的有效配置。
基于此,本文從創(chuàng)新意識(shí)、創(chuàng)新支持、創(chuàng)新管理、創(chuàng)新實(shí)現(xiàn)、創(chuàng)新推廣、創(chuàng)新效果等方面研究中小企業(yè)創(chuàng)新行為自愿性信息披露評(píng)價(jià)問(wèn)題,本文的貢獻(xiàn)在于:一是創(chuàng)建中小企業(yè)創(chuàng)新行為自愿性信息披露評(píng)價(jià)指數(shù);二是利用深度學(xué)習(xí)技術(shù)給出科學(xué)的評(píng)判方法。
1 文獻(xiàn)回顧
創(chuàng)新行為信息披露最早可以追溯到Allen(1983)的研究,旨在節(jié)約高昂的長(zhǎng)期知識(shí)保護(hù)成本。中國(guó)關(guān)于企業(yè)創(chuàng)新行為信息披露的研究起源于對(duì)無(wú)形資產(chǎn)研發(fā)信息披露的研究。薛云奎(2001)發(fā)現(xiàn)中國(guó)上市公司R&D費(fèi)用信息披露不當(dāng)或不充分,整體披露水平不高。后續(xù)學(xué)者使用內(nèi)容分析法建立R&D或創(chuàng)新的信息披露指標(biāo),以評(píng)估信息披露的程度:韓鵬和彭韶兵(2012)構(gòu)建R&D信息披露質(zhì)量評(píng)價(jià)指標(biāo)體系,然后利用熵值法測(cè)量和分析創(chuàng)業(yè)板上市公司2010年度報(bào)告中披露的信息質(zhì)量;王娟和張世舉(2014)從基于知識(shí)的無(wú)形資產(chǎn)、R&D投入、創(chuàng)新資金來(lái)源、創(chuàng)新效益和創(chuàng)新激勵(lì)分配等方面評(píng)價(jià)中國(guó)信息技術(shù)產(chǎn)業(yè)上市公司技術(shù)創(chuàng)新信息披露發(fā)現(xiàn):技術(shù)創(chuàng)新信息披露質(zhì)量比新準(zhǔn)則實(shí)施前有較大提高,但還是存在主動(dòng)自愿披露積極性不高,重形式輕實(shí)質(zhì)等問(wèn)題;韓鵬和岳園園(2016)以我國(guó)創(chuàng)業(yè)板2012-2014年上市公司為對(duì)象,將創(chuàng)新行為信息披露分為強(qiáng)制性和自愿性,分析創(chuàng)新行為信息披露的經(jīng)濟(jì)后果;馮科和杜微(2016)以創(chuàng)業(yè)板市場(chǎng)為研究對(duì)象,將企業(yè)創(chuàng)新行為信息分為四個(gè)維度:公司戰(zhàn)略規(guī)劃、產(chǎn)品自主創(chuàng)新、新增知識(shí)產(chǎn)權(quán)、創(chuàng)新政策受惠,研究發(fā)現(xiàn)創(chuàng)業(yè)板上市公司創(chuàng)新信息披露能夠?qū)е鹿蓛r(jià)異動(dòng)。
還有學(xué)者將語(yǔ)料庫(kù)語(yǔ)言學(xué)中“共現(xiàn)頻率”運(yùn)用到自愿性信息披露研究中,即相關(guān)關(guān)鍵詞出現(xiàn)的頻率越高,說(shuō)明企業(yè)對(duì)此相關(guān)文本信息的披露意愿越大,表示管理層自愿性披露創(chuàng)新行為信息的傾向越大。Entwistle(1999)使用描述研發(fā)信息的句子數(shù)來(lái)衡量研發(fā)信息披露水平,從研發(fā)資源、研發(fā)產(chǎn)出、研發(fā)資金來(lái)源、研發(fā)后續(xù)投入保障等角度選取這些句子。王宇峰(2009)提出企業(yè)R&D信息披露的類(lèi)目,包括:R&D戰(zhàn)略及未來(lái)支出、R&D投入、R&D產(chǎn)出、會(huì)計(jì)問(wèn)題、會(huì)計(jì)政策,選取句子數(shù)作為分析R&D信息披露的頻率。James和Shaver(2016)的研究則是將含有研究、研發(fā)、專(zhuān)利、新科技等方面的詞語(yǔ)搭配作為關(guān)鍵詞,從中提取研發(fā)信息。王華(2018)考慮到中文語(yǔ)境語(yǔ)義判斷難度,從表達(dá)能力和切分難度視角選擇以“詞”為研究對(duì)象,構(gòu)建研發(fā)關(guān)鍵詞庫(kù),以年報(bào)中相關(guān)詞頻統(tǒng)計(jì)度量研發(fā)文本信息披露程度。
由上述可見(jiàn),創(chuàng)新行為信息多采用指標(biāo)評(píng)價(jià)法人工處理信息,文本信息的搜集、整理和分析多歸于人的主觀(guān)判斷,客觀(guān)性略顯不足,同時(shí)也存在著大樣本研究困難等問(wèn)題。而在目前我國(guó)自愿性信息披露普遍意愿不足的情況下,若將這種指標(biāo)評(píng)價(jià)直接用于長(zhǎng)時(shí)期、全行業(yè)的樣本,則很難形成整體的有效評(píng)分。為此,本文則利用深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)計(jì)算技術(shù)自建處理模塊,對(duì)中小企業(yè)板上市公司年報(bào)進(jìn)行全樣本提取與計(jì)算,使得創(chuàng)新行為自愿性信息披露評(píng)價(jià)更加科學(xué)。
2 基于Word2vec的文本挖掘
文本挖掘是要將文本轉(zhuǎn)化為數(shù)據(jù)以供后續(xù)分析。最典型的方法是基于詞袋的方法(Bag-of-Word,BOW)。所謂“詞袋”就是裝著詞的袋子。該方法就是將一段文本,比如一個(gè)句子或一個(gè)文檔,用一個(gè)裝著詞的袋子來(lái)表示。比如說(shuō)有這樣兩句話(huà),“技術(shù)創(chuàng)新帶動(dòng)產(chǎn)品創(chuàng)新,機(jī)制創(chuàng)新促進(jìn)自主創(chuàng)新”,那么詞袋里就是:[技術(shù),創(chuàng)新,帶動(dòng),產(chǎn)品,機(jī)制,促進(jìn),自主],用數(shù)組表現(xiàn)這兩句話(huà)就是:[1,2,1,1,0,0,0],[0,2,0,0,1,1,1]。這里每組數(shù)據(jù)的維度就是詞袋總數(shù),而每項(xiàng)數(shù)據(jù)值則是各個(gè)詞出現(xiàn)的頻率。由此可見(jiàn),隨著句子增加,數(shù)組的維度將會(huì)變得巨大,而且會(huì)有大量的稀疏空間,即0的出現(xiàn)。為了解決這個(gè)問(wèn)題,詞向量的概念被引入。
詞向量又稱(chēng)分布式表示(Distributed representation)。它最初是由Hinton在1986年提出的。詞向量的構(gòu)想是這樣的,將構(gòu)成文本的每個(gè)基本元素即單詞,通過(guò)一定的訓(xùn)練,映射到由全部單詞組成的低維向量空間,每個(gè)單詞則形成向量空間中對(duì)應(yīng)的一個(gè)點(diǎn)。因此,向量空間中的向量運(yùn)算可用于處理單詞與單詞之間的關(guān)系,例如使用向量空間中兩點(diǎn)之間的距離來(lái)表示兩個(gè)單詞之間的相似性。使用這種單詞表示方式可以很好地克服詞袋法的文本向量維度過(guò)大的缺點(diǎn),因此兩個(gè)單詞含義越相似,向量空間中的距離就越近。這就將處理文本內(nèi)容的方法轉(zhuǎn)換為多維向量空間中的向量運(yùn)算,向量空間上的距離即可表示文本語(yǔ)義相似度。
本文中使用的Word2vec是由Google的Mikolov在2013年提出的基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法。該算法將每個(gè)單詞表示為實(shí)數(shù)值的向量,即所謂的詞向量。Word2vec算法的基本構(gòu)思是基于Bengio三層神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的改進(jìn)。它由兩個(gè)模型組成:(1)CBOW模型,它通過(guò)上下文預(yù)測(cè)當(dāng)前詞;(2)Skip-gram模型,它通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文。本文的目標(biāo)是利用所給定的創(chuàng)新行為自愿性信息指標(biāo)來(lái)計(jì)算各個(gè)上市公司的信息披露程度與其的相關(guān)性,因此采用Skip-gram模型來(lái)進(jìn)行計(jì)算。
顧名思義,Skip-gram就是“跳過(guò)某些符號(hào)”,例如,句子“技術(shù)創(chuàng)新能夠帶動(dòng)產(chǎn)品創(chuàng)新”有4個(gè)3元詞組,分別是“技術(shù)創(chuàng)新能夠”,“創(chuàng)新能夠帶動(dòng)”,“能夠帶動(dòng)產(chǎn)品”,“帶動(dòng)產(chǎn)品創(chuàng)新”,我們發(fā)現(xiàn)這句話(huà)的本意是“技術(shù)帶動(dòng)產(chǎn)品”或“創(chuàng)新帶動(dòng)產(chǎn)品”。但是,上述四個(gè)3元詞組并未反映出此信息。 Skip-gram模型卻允許跳過(guò)一些詞,因此它可以形成名為“技術(shù)帶動(dòng)產(chǎn)品”的3元詞組。如果允許跳過(guò)2個(gè)詞,即2 Skip-gram,則上述句子組成的3元詞組可以用表1顯示。
由表1可以看出:一方面,Skip-gram反映了句子的真正含義,在新組成的18個(gè)3元詞組中,有5個(gè)詞組可以正確反映例句的真實(shí)含義。另一方面,語(yǔ)料庫(kù)得到擴(kuò)展,3元詞組已從原來(lái)的4個(gè)擴(kuò)展到18個(gè),擴(kuò)展后的語(yǔ)料庫(kù)可以提高文本訓(xùn)練的準(zhǔn)確性??梢钥闯觯@得的詞向量可以更好地反映文本的真實(shí)含義。
3 基于Word2vec的創(chuàng)新行為自愿性信息披露指標(biāo)評(píng)價(jià)——以中小企業(yè)板為例
中小企業(yè)由于規(guī)模小、信用低、資源短缺、風(fēng)險(xiǎn)大等原因致使其融資相對(duì)困難,則促使其更有動(dòng)機(jī)主動(dòng)多披露自愿性創(chuàng)新行為信息以緩解其融資約束、提高投資效率。但是對(duì)中小企業(yè)管理層而言,在考慮市場(chǎng)進(jìn)入障礙、企業(yè)競(jìng)爭(zhēng)力以及披露成本和收益等,尚不清楚如何把握創(chuàng)新行為自愿信息的實(shí)際披露水平,由此,有必要建立科學(xué)的中小企業(yè)創(chuàng)新行為自愿性信息披露評(píng)估體系進(jìn)行量化。
3.1 選擇創(chuàng)新行為的自愿性信息披露指標(biāo)
本文主要參考Botosan(1997)研究思路,結(jié)合的創(chuàng)新過(guò)程視角,構(gòu)建創(chuàng)新行為的自愿信息披露指標(biāo)。評(píng)估指標(biāo)包括相互獨(dú)立的6項(xiàng)內(nèi)容和17項(xiàng)細(xì)分指標(biāo)。披露內(nèi)容涉及中小企業(yè)創(chuàng)新意識(shí)、創(chuàng)新支持、創(chuàng)新管理、創(chuàng)新實(shí)現(xiàn)、創(chuàng)新推廣、創(chuàng)新效果等方面的情況,細(xì)分指標(biāo)用于在年報(bào)中定位采集信息點(diǎn)。
3.2 研究樣本及詞頻采集
本文選取2012年至2017 年深圳證券交易所中小企業(yè)板上市公司年報(bào),分為 16 個(gè)行業(yè)類(lèi)別,剔除金融行業(yè)和數(shù)據(jù)缺失的公司,最終每年獲得515份有效樣本;然后,從有效樣本中篩選和提取創(chuàng)新行為自愿性信息披露相關(guān)詞頻,共計(jì)481個(gè),如和創(chuàng)新文化相關(guān)的詞頻有:首先文化建設(shè)、創(chuàng)新思維、技術(shù)創(chuàng)新理念、科創(chuàng)立企、創(chuàng)新變革、崇尚創(chuàng)新、創(chuàng)新為先、改革創(chuàng)新、文化引領(lǐng)、特色企業(yè)文化,自主創(chuàng)新理念等;然后用Word2vec評(píng)估創(chuàng)新行為的17個(gè)自愿性信息披露指標(biāo)的相似性,即中小企業(yè)創(chuàng)新行為的自愿性信息披露程度;最后將所有有效樣本的相似度按行業(yè)、地區(qū)、年份等存儲(chǔ)在 Excel表中。
3.3 基于Word2vec的創(chuàng)新行為自愿性信息披露程度評(píng)價(jià)的過(guò)程
本文利用開(kāi)源軟件包Word2vec以及其它輔助的開(kāi)源軟件包,在阿里云的配置為CPU64核內(nèi)存128G云服務(wù)器上進(jìn)行運(yùn)算,通過(guò)以下五個(gè)步驟實(shí)現(xiàn)創(chuàng)新行為自愿性信息披露程度的自動(dòng)評(píng)價(jià)過(guò)程(見(jiàn)圖1)。
步驟一:為了方便后續(xù)處理,首先利用JAVA語(yǔ)言調(diào)用開(kāi)源軟件包PDFBox將采集到的中小企業(yè)板2013-2017年515家上市公司共計(jì)2575份年報(bào)PDF版轉(zhuǎn)換成TXT文本。
步驟二:利用PYTHON語(yǔ)言調(diào)用開(kāi)源軟件包JIEBA將TXT文本進(jìn)行分詞。在此除了JIEBA自帶的詞典之外,還使用了會(huì)計(jì)專(zhuān)業(yè)詞典以及自定義的詞典以提高分詞的準(zhǔn)確率。
步驟三:在分詞之后,利用PYTHON語(yǔ)言構(gòu)建停用詞表,去掉數(shù)字以及多次出現(xiàn)的與評(píng)價(jià)體系無(wú)關(guān)的詞頻,即停用詞,如“情況、報(bào)告、適用、項(xiàng)目、董事會(huì)、獨(dú)立、主要”等,經(jīng)過(guò)反復(fù)測(cè)試,最后本文去掉排名前100個(gè)停用詞,以減少機(jī)器讀取相關(guān)指標(biāo)信息的干擾,對(duì)文本進(jìn)行過(guò)濾。
步驟四:使用上述預(yù)處理語(yǔ)料庫(kù)制作全樣本,使用PYTHON調(diào)用Word2vec并通過(guò)Skip-gram模型進(jìn)行訓(xùn)練以獲得詞向量模型。對(duì)應(yīng)詞向量形式為W=(V1,V2,…,Vn),其中 W 為對(duì)應(yīng)詞匯,Vi(1≤i≤n)為詞匯 W的第i個(gè)特征維度(一般n的值在100-500之間)。Word2vec提供了20個(gè)參數(shù)來(lái)調(diào)整訓(xùn)練過(guò)程。不同參數(shù)的選擇對(duì)生成的詞向量質(zhì)量及其相應(yīng)的訓(xùn)練速度有影響。熊富林(2015)的實(shí)驗(yàn)結(jié)果表明:各項(xiàng)指標(biāo)對(duì)應(yīng)的平均相關(guān)度隨著維度的變化而變化,在維度達(dá)到250以后趨于平穩(wěn)。由此本文將Word2vec在中文處理中的維度設(shè)置為256。本文使用的Word2vec的參數(shù)如表3所示。
步驟五:依據(jù)人工整理的481個(gè)反映創(chuàng)新行為自愿性信息披露詞頻,分17類(lèi)指標(biāo)進(jìn)行文本相似度計(jì)算。利用以上訓(xùn)練得到的詞向量模型,依次計(jì)算每份年報(bào)與指標(biāo)之間的相似度, 即該中小企業(yè)創(chuàng)新行為自愿性信息披露的程度并以CSV格式輸出。
3.4 評(píng)估中小企業(yè)板創(chuàng)新行為自愿性信息披露程度
總體而言,2012-2017年中國(guó)中小企業(yè)板創(chuàng)新行為的自愿性信息披露整體水平不是很高,但正在逐步上升。在樣本期間內(nèi),平均披露程度由2012年的4838%增至2017年5391%(見(jiàn)圖2)。下面分別從披露內(nèi)容、行業(yè)、產(chǎn)權(quán)性質(zhì)和區(qū)域等方面分析。
3.4.1 分析中小企業(yè)創(chuàng)新行為自愿性信息披露內(nèi)容
中小企業(yè)板2012-2017年創(chuàng)新行為自愿性信息披露整體保持增長(zhǎng)態(tài)勢(shì),評(píng)價(jià)結(jié)果發(fā)現(xiàn):(1)創(chuàng)新意識(shí)上繼續(xù)提高。其在頭兩年上升,2014年略有下降,然后在2014-2017的三年期間繼續(xù)上升。這表明創(chuàng)新思維等受到重視,在不斷地拓展。(2)創(chuàng)新支持方面雖然穩(wěn)中有升,但披露程度在六項(xiàng)披露內(nèi)容里是最低的,由此,中小企業(yè)還要通過(guò)人才激勵(lì)、更新創(chuàng)新基礎(chǔ)設(shè)施等措施做好配套的支持創(chuàng)新工作。(3)創(chuàng)新管理表現(xiàn)較好,增長(zhǎng)態(tài)勢(shì)趨于平緩。從2012年54.83%開(kāi)始增長(zhǎng),2014年下降,后三年持續(xù)增長(zhǎng)。得益于企業(yè)組織管理創(chuàng)新等不斷開(kāi)展,風(fēng)險(xiǎn)控制不斷完善。(4)創(chuàng)新實(shí)現(xiàn)方面前三年處于波動(dòng)水平,后三年為上升態(tài)勢(shì),2017年達(dá)到最高52.16%。創(chuàng)新實(shí)現(xiàn)依靠著企業(yè)的研發(fā)方式、制造能力等,通過(guò)這些方式使企業(yè)快速地發(fā)展。(5)創(chuàng)新推廣方面表現(xiàn)最好,六年間大幅度提升披露程度。從2012年到2017年的一直上升,高達(dá)62.38%。隨著互聯(lián)網(wǎng)、人工智能的普及,營(yíng)銷(xiāo)創(chuàng)新等的推廣,使企業(yè)的品牌形象等綜合實(shí)力逐漸增強(qiáng)。(6)創(chuàng)新效果方面整體保持增長(zhǎng)態(tài)勢(shì),除了2014年稍有下降。說(shuō)明創(chuàng)新終將給企業(yè)帶來(lái)良好的經(jīng)濟(jì)效益。
3.4.2 分析不同行業(yè)中小企業(yè)創(chuàng)新行為的自愿性信息披露程度
根據(jù)深交所中小企業(yè)板的樣本得到14個(gè)一級(jí)行業(yè),按照行業(yè)對(duì)2012-2017年創(chuàng)新行為自愿性信息披露綜合實(shí)力進(jìn)行對(duì)比評(píng)價(jià)。限于篇幅,本文主要描述和評(píng)價(jià)位居前三和后三的行業(yè)結(jié)果。住宿和餐飲業(yè)位居第一,前三年為下降趨勢(shì),后三年為上升趨勢(shì),到2017年達(dá)到56.82%。這反映出該行業(yè)普遍變動(dòng)靈活,對(duì)創(chuàng)新有快速適應(yīng)能力和把控力。租賃和商務(wù)服務(wù)業(yè)居第二,前兩年披露程度為上漲,2014年稍有下降,接著從2015年的52.59%一路漲到2017年的53.88%;得益于國(guó)家的政策支持及產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí)的重要作用,該行業(yè)的綜合實(shí)力獲得快速提升。信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)位列第三,由于其與新興技術(shù)具有較強(qiáng)的關(guān)聯(lián)性,隨著技術(shù)的迅速發(fā)展,行業(yè)信息披露水平也相應(yīng)提升:2012年披露程度開(kāi)始上升,2014年略有下滑,但后三年穩(wěn)步上升。
最靠后的三個(gè)行業(yè)是交通運(yùn)輸、倉(cāng)儲(chǔ)和郵政業(yè),房地產(chǎn)業(yè)和采礦業(yè)。三個(gè)行業(yè)的增長(zhǎng)態(tài)勢(shì)基本相同:前兩年增長(zhǎng)、2014年下降后穩(wěn)定上升。由于三個(gè)行業(yè)屬于傳統(tǒng)制造業(yè),對(duì)自然資源依賴(lài)度較高,產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型和升級(jí)難度較大,創(chuàng)新行為難以形成行業(yè)核心競(jìng)爭(zhēng)力。
3.4.3 分析不同產(chǎn)權(quán)下中小企業(yè)創(chuàng)新行為自愿性信息披露程度
根據(jù)上市公司產(chǎn)權(quán)性質(zhì),本文將2012-2017年中小企業(yè)板樣本企業(yè)分為國(guó)有企業(yè)與非國(guó)有企業(yè)。非國(guó)有中小企業(yè)創(chuàng)新行為的自愿性信息披露程度發(fā)生了很大變化,2012年的披露程度為48.55%,然后開(kāi)始有下滑,雖2015年有所上升,但2016年下降到最低點(diǎn)22.77%,2017年回升。國(guó)有中小企業(yè)創(chuàng)新行為的自愿性信息披露程度每年都有所不同,但變化幅度很小,控制在4%之內(nèi),2012年為36.53%,雖然在2013-2016年之間自愿性信息披露程度有增有減,但2017年還是上升到了37.58%,見(jiàn)表4。
從表4可以看出,國(guó)有中小企業(yè)創(chuàng)新行為的自愿性信息披露水平高于非國(guó)有中小企業(yè),主要與國(guó)有中小企業(yè)的企業(yè)性質(zhì)有關(guān)。首先,國(guó)有中小企業(yè)信息披露機(jī)制比較完善,主動(dòng)披露意識(shí)強(qiáng);其次,為了向社會(huì)傳遞良好的信號(hào),國(guó)有中小企業(yè)披露了相對(duì)更多關(guān)于創(chuàng)新行為的信息。非國(guó)有中小企業(yè)創(chuàng)新行為自愿性信息披露程度不穩(wěn)定與其融資困難相關(guān),該類(lèi)企業(yè)資金獲取渠道比較狹窄,致使其投入到創(chuàng)新活動(dòng)的資金相對(duì)不充足,導(dǎo)致其創(chuàng)新實(shí)現(xiàn)、創(chuàng)新推廣和創(chuàng)新效果不能達(dá)到預(yù)期,進(jìn)而影響到披露程度。
3.4.4 分析中小企業(yè)不同地區(qū)創(chuàng)新行為的自愿性信息披露程度
對(duì)2012-2017年中小企業(yè)板樣本數(shù)據(jù)按東部、中部、西部和東北部劃分,發(fā)現(xiàn)披露水平差距較小,排名具體如下(見(jiàn)表5):東部地區(qū)增長(zhǎng)最快,從2012年的48.61%上升到2017年的54.79%,增長(zhǎng)了11.28%。在樣本期間,總體趨勢(shì)在上升,但在2014年略有下降。主要是東部地區(qū)鼓勵(lì)創(chuàng)新的政策較多,企業(yè)的創(chuàng)新行為也越來(lái)越多。東北地區(qū)排名第二,該地區(qū)從2012年的49.09%開(kāi)始上升,到2014年有下降,之后三年披露程度呈上升趨勢(shì), 2017年達(dá)到54.99%。這說(shuō)明該地區(qū)的中小企業(yè)較重視企業(yè)創(chuàng)新,而且積極地向外界披露企業(yè)有關(guān)創(chuàng)新的活動(dòng)。中部地區(qū)排名第三,該地區(qū)的創(chuàng)新行為自愿性信息披露程度從2012年的48.43%一直上升到2017年53.23%。這說(shuō)明中部地區(qū)企業(yè)越來(lái)越重視創(chuàng)新,信息披露制度日益完善,企業(yè)更加主動(dòng)地披露有關(guān)創(chuàng)新的信息。西部地區(qū)排名最靠后,2012年披露程度是47.83%,2013年有所上升,但2014年又開(kāi)始下降,隨后在后三年呈上升趨勢(shì)。這說(shuō)明該地區(qū)自身經(jīng)濟(jì)發(fā)展慢,創(chuàng)新意識(shí)缺乏,相應(yīng)的披露制度不規(guī)范,導(dǎo)致其披露水平落后于其他地區(qū)。
4 基于Word2vec的創(chuàng)新行為自愿性信息披露指標(biāo)可靠性分析
4.1 Doc2vec模型與Word2vec所得出結(jié)果對(duì)比
Doc2vec是Mikolov基于Word2vec模型提出的針對(duì)句子以及短文的語(yǔ)言模型。Doc2vec本身也有兩種模型,PV-DM和PV-DBOW,分別對(duì)應(yīng)Word2vec的CBOW和Skip-gram。因此本文采用PV-DBOW作為比較。Doc2vec的評(píng)價(jià)流程與Word2vec完全一致,并選擇同樣的參數(shù)訓(xùn)練模型以便于對(duì)比。最后將利用Word2vec計(jì)算的結(jié)果與利用Doc2vec計(jì)算的結(jié)果做Pearson相關(guān)分析,得到0.956的結(jié)果。由此可見(jiàn),這兩種模型具有高度的一致性。
4.2 人工評(píng)判與Word2vec所得出結(jié)果對(duì)比
為保證評(píng)判技術(shù)結(jié)果的可靠性與準(zhǔn)確性,本文隨機(jī)抽取52家樣本公司的技術(shù)評(píng)判結(jié)果與人工評(píng)判結(jié)果進(jìn)行了對(duì)比。人工樣本采用里斯特量表,17個(gè)指標(biāo)分別按照披露程度從0-5分打分,不考慮權(quán)重的影響。最后將17個(gè)指標(biāo)的分值做簡(jiǎn)單算術(shù)平均,取得中小企業(yè)創(chuàng)新行為自愿性信息披露得分。計(jì)算Pearson相關(guān)系數(shù)檢驗(yàn)52家樣本公司的技術(shù)評(píng)判結(jié)果與人工評(píng)判結(jié)果的相關(guān)性??煽啃苑治霰砻鳎?.01的顯著水平下,人工評(píng)分與技術(shù)評(píng)分之間的Pearson相關(guān)系數(shù)為0.907,沒(méi)有顯著性差異。由此可以推斷,技術(shù)評(píng)分與人工評(píng)分對(duì)上市公司的自愿性信息的評(píng)價(jià)結(jié)果較為一致,技術(shù)評(píng)分的可信度較高。
5 結(jié)論
本文根據(jù)中小企業(yè)板上市公司創(chuàng)新行為的各項(xiàng)自愿性信息披露指標(biāo),提取、收錄和分析年報(bào)中是創(chuàng)新行為自愿信息,使用Word2vec進(jìn)行文本挖掘和分析,判斷中小企業(yè)板上市公司創(chuàng)新行為的自愿信息披露水平。通過(guò)技術(shù)評(píng)判結(jié)果與人工評(píng)判結(jié)果的比較,進(jìn)一步調(diào)試評(píng)判技術(shù),使其有效性達(dá)到可信度。本評(píng)判方法相對(duì)于人工評(píng)分,可以很大程度上提高閱讀冗長(zhǎng)年報(bào)的精確度和效率,減少遺漏問(wèn)題,克服人為主觀(guān)因素影響,使得中小企業(yè)板上市公司創(chuàng)新行為自愿性信息披露質(zhì)量評(píng)價(jià)更客觀(guān)、高效,為投資者的投資決策提供更科學(xué)的依據(jù)。但是,由于少部分報(bào)告的披露格式、語(yǔ)言風(fēng)格等與大多數(shù)報(bào)告明顯不同,這種評(píng)判方法在處理少部分報(bào)告時(shí)會(huì)產(chǎn)生一些誤差,此外,未來(lái)上市公司報(bào)告語(yǔ)言可能會(huì)隨著政策變化而改變,這些問(wèn)題還有待進(jìn)一步研究加以克服。
參考文獻(xiàn)
[1]Allen R.Collective Invention[J].Journal of Economic Behavior and Organization.1983,4(1):1-24.
[2]薛云奎,王志臺(tái).R&D的重要性及其信息披露方式的改進(jìn)[J].會(huì)計(jì)研究,2001,(03):20-26+65.
[3]韓鵬,彭韶兵.研發(fā)信息披露質(zhì)量測(cè)度及制度改進(jìn)[J].財(cái)經(jīng)科學(xué),2012,(07):103-110.
[4]王娟,張世舉.企業(yè)技術(shù)創(chuàng)新信息披露:內(nèi)容、現(xiàn)狀與改進(jìn)對(duì)策[J].河南科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,32(02):70-75.
[5]韓鵬,岳園園.企業(yè)創(chuàng)新行為信息披露的經(jīng)濟(jì)后果研究——來(lái)自創(chuàng)業(yè)板的經(jīng)驗(yàn)證據(jù)[J].會(huì)計(jì)研究,2016,(01):49-55+95.
[6]馮科,杜微.企業(yè)創(chuàng)新信息披露與中國(guó)創(chuàng)業(yè)板市場(chǎng)的有效性研究[J].新經(jīng)濟(jì),2016,(16):26-39+4.
[7]Entwistle G M.Exploring the R&D disclosure environment[J].Accounting Horizons.1999,13(4):321-341.
[8]王宇峰,蘇逶妍.我國(guó)上市公司研發(fā)信息披露實(shí)證研究[J].中南財(cái)經(jīng)政法大學(xué)學(xué)報(bào),2009,(4):108-113.
[9]James S,Shaver J M.Strategic motivations for voluntary public R&D disclosures[J].Academy of Management Discoveries.2016,2(3):290-312.
[10]王華,劉慧芬.產(chǎn)品市場(chǎng)競(jìng)爭(zhēng)、代理成本與研發(fā)信息披露[J].廣東財(cái)經(jīng)大學(xué)學(xué)報(bào),2018,33(03):52-64.
[11]Hinton G E.Learning distributed representations of concepts[C].Proceedings of CogSci.1986:1-12.
[12]Mikolov T,Sutskever I,C'hen K,et al.Distributed Representations of Words and Phrases and their Compositionality[J].Advances in Neural Information Processing Systems,2013,(26):3111-3119.
[13]Botosan C.Disclosure level and the cost of equity capital[J].Accounting Review,1997,72(3):323-349.
[14]熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2015,15(01):43-48.