李虹霖
關(guān)鍵詞:ESG; Stacking算法;ADASYN算法;機器學(xué)習(xí)
1引言
ESG理念由環(huán)境(Environment).社會(Social)、公司治理( Governance)3方面組成,于2004年在聯(lián)合國正式發(fā)布的報告中被首次提及,如今逐漸成為國際廣泛認可的主流投資理念[1]。2022年5月27日,國資委發(fā)布《提高央企控股上市公司質(zhì)量工作方案》,明確提出要構(gòu)建具有中國特色的ESG信息披露規(guī)則、ESG績效評級和ESG投資指引,并實現(xiàn)2023年相關(guān)專項報告披露“全覆蓋”。這足以看出當下ESG的重要性。而研讀文獻后發(fā)現(xiàn),我國的ESG研究還處在發(fā)展期,多數(shù)研究還集中在基本理論和ESG評級體系的構(gòu)建與完善上[2-4]。這些研究中鮮有機器學(xué)習(xí)等算法理論的延伸:極少數(shù)采用數(shù)據(jù)挖掘算法,也僅僅是應(yīng)用在數(shù)據(jù)采集、缺失值處理以及用單一模型建模探究ESG評級后的影響上[5-8]。如今,大數(shù)據(jù)繁榮發(fā)展,機器學(xué)習(xí)在ESG的表現(xiàn)上卻鮮有人知。基于此,本文將機器學(xué)習(xí)滲透到ESG領(lǐng)域,并將多個模型集成分析,旨在為后續(xù)ESG評級相關(guān)研究奠定理論基礎(chǔ)與拓寬研究道路,也為機器學(xué)習(xí)算法提供新的可適用場景;同時,本文針對Stacking融合算法存在的不足進行改進,在日后的研究中為其進一步精進提供幫助。
2基本理論方法
2.1Stacking算法理論
Stacking融合算法最早由Wolpert[9]于1992年提出,其基本思想是利用算法的差異性進行多層疊加,增強模型預(yù)測精度和泛化能力。它能夠?qū)⒍鄠€模型的預(yù)測結(jié)果相融合,再投入其他模型中預(yù)測,實現(xiàn)將多個模型進行多層疊加。以2層Stacking融合為例,其基本算法理論如下。
其算法第一層框架為基學(xué)習(xí)器,通常選擇多個不同分類器。并在每個基學(xué)習(xí)器訓(xùn)練時加入交叉驗證,即對任意模型Mi,做K折交叉驗證,且將每一次訓(xùn)練集交叉驗證預(yù)測結(jié)果均儲存為Pi,則對于每個模型Mi來說,會有Pi=[Pi,…,pk],同時每次交叉驗證都需要對原測試集進行預(yù)測,即同時獲得一個模型在原測試集上的預(yù)測集ti,那么對于模型Mi來說,就會得到Ti=的數(shù)據(jù)維度將會是原測試集的K倍,為達到與原測試集相同的維度,需對Ti求取平均值。
其算法第二層框架為元學(xué)習(xí)器,其輸入特征由原數(shù)據(jù)的真實標簽Y與基學(xué)習(xí)器訓(xùn)練后的P=(Pi)共同構(gòu)成。由于變量特征過少,若元學(xué)習(xí)器過于復(fù)雜可能會導(dǎo)致過擬合,因此通常選用簡單邏輯回歸模型(L)。經(jīng)過元學(xué)習(xí)器模型訓(xùn)練后,對第一層訓(xùn)練的測試集結(jié)果進行預(yù)測,并得到最終的預(yù)測結(jié)果。具體算法框架如圖1所示。
2.2改進Stacking算法理論
2.2.1第一層訓(xùn)練框架的加權(quán)優(yōu)化
在傳統(tǒng)Stacking模型中,每次迭代模型都需要在原測試集上再預(yù)測一次,故K折交叉驗證會使每個基學(xué)習(xí)器都在原測試集上預(yù)測K次,進而使預(yù)測集維度擴大K倍,因此需要對預(yù)測集取平均,但沒有考慮到基學(xué)習(xí)器擬合效果的影響[10]。而元學(xué)習(xí)器的訓(xùn)練卻依賴于基學(xué)習(xí)器的預(yù)測集,所以基學(xué)習(xí)器的擬合效果不容忽視。故本文所改進的Stacking模型在測試集取平均日寸加入了精度衍生出的權(quán)重因子,為高精度預(yù)測集賦予較小權(quán)重,即T'i =wixTi,其中:
2.2.2第二層訓(xùn)練框架的特征改進
在傳統(tǒng)Stacking模型元學(xué)習(xí)器訓(xùn)練時,只采用基學(xué)習(xí)器預(yù)測集,若選擇2個模型進行Stacking融合,則特征變量X只包含2個模型的預(yù)測標簽。這就導(dǎo)致特征變量少,可能丟失特征信息[11]。但若將特征全部投入,又產(chǎn)生變量冗余,且元學(xué)習(xí)器的訓(xùn)練集中已經(jīng)包含原有變量的預(yù)測結(jié)果,再加入全部變量容易造成模型的過擬合。因此,本文提出在元學(xué)習(xí)器訓(xùn)練前加入特征選擇的步驟,將篩選后的特征變量與基學(xué)習(xí)器預(yù)測集相結(jié)合,以構(gòu)成元學(xué)習(xí)器的新訓(xùn)練集。
常見的特征選擇方法有遞歸特征消除法(RFE)、LightGBM特征重要性法等。由于RFE是基于后向迭代的算法,容易陷入局部最優(yōu),且如果選擇的模型穩(wěn)定性不高,則它也不穩(wěn)定。而LightGBM在特征選取上更靈活,且在訓(xùn)練過程中已記錄其特征重要性,不用額外進行特征選擇,故本文選用LightGBM來進行改進算法中的特征選擇。
3數(shù)據(jù)處理
3.1數(shù)據(jù)來源
ESG數(shù)據(jù)主要是由企業(yè)的財務(wù)報告、企業(yè)社會責(zé)任報告與企業(yè)ESG報告等披露。本文主要收集和訊網(wǎng)企業(yè)社會責(zé)任板塊中2010~2021年所有可獲取的指標、CSMAR數(shù)據(jù)庫中的部分環(huán)境表現(xiàn)指標,并結(jié)合其他數(shù)據(jù)庫進行查缺補漏。若上述數(shù)據(jù)源有缺失的,再輔以搜索上市企業(yè)的ESG報告等公開報告,通過Python中的pdfplumber庫進行采集補充。最終共收集到39 468條樣本數(shù)據(jù),獲取42個基礎(chǔ)指標,其中14個是/否二分類指標、27個數(shù)值指標、1個5分類指標(ESG評級),涵蓋企業(yè)財務(wù)、環(huán)境表現(xiàn)、社會表現(xiàn)與公司治理4方面。具體情況如表1所列。
3.2數(shù)據(jù)預(yù)處理
3.2.1缺失值處理
ESG的概念在我國還處在新興上升期,屬于非強制性披露指標,企業(yè)對其相關(guān)的披露很少:又因為它目前沒有統(tǒng)一衡量標準,進而導(dǎo)致企業(yè)所披露的指標充斥著差異性與隨意性。所收集到的數(shù)據(jù)極可能面臨數(shù)據(jù)缺失的問題。同時,在采用Python進行PDF處理時,會利用OCR識別技術(shù)提取表格數(shù)據(jù),而目前識別準確率只能達到90%左右,并不能保證100%正確,且會跳過無法識別的表格。綜合以上各因素的影響,最終所收集到的數(shù)據(jù)集有一定的缺失值,直接使用會導(dǎo)致模型預(yù)測效果大打折扣,需對其進行缺失值處理。
如圖2所示,空白比例越大則樣本缺失越嚴重,可以明顯看出產(chǎn)品開發(fā)支出、技術(shù)創(chuàng)新理念、技術(shù)創(chuàng)新項目數(shù)、反商業(yè)賄賂培訓(xùn)、環(huán)保投入金額、節(jié)約能源種類數(shù)及公益捐贈金額7個特征的缺失率大,而數(shù)據(jù)較完整的大多為財務(wù)報表中所涵納的指標。這是由于企業(yè)對財務(wù)報告的披露十分嚴格,而對于其他類型指標的披露具有自主性,故鮮少披露。針對上述7個高度缺失的指標,即使采用數(shù)據(jù)挖掘手段進行填充,對模型也無較大意義,因此直接剔除。而針對缺失值數(shù)量非極端的情況,本文選擇隨機森林填充法替換,即利用隨機森林算法進行擬合填充。隨機森林是非常有效的集成學(xué)習(xí)算法,對于缺失值的擬合填充效果較好,不論連續(xù)型、分類變量均適用。
3.2.2數(shù)據(jù)不平衡性處理
當分類模型的標簽類別不均衡時,占比越大的類會成為影響準確率最主要的因素。在此情況下,通常會減少或忽略少數(shù)類,以多數(shù)類進行訓(xùn)練的模型,在少數(shù)類上的表現(xiàn)自然不盡如人意,導(dǎo)致模型的實際應(yīng)用價值較低。因此,樣本類別不均衡是數(shù)據(jù)預(yù)處理日寸需要重點關(guān)注的問題。
為解決該問題,通常選擇簡單易實現(xiàn)的過采樣方法。其中,2個優(yōu)良算法即為合成少數(shù)過采樣算法(SMOTE)與自適應(yīng)綜合過采樣算法(ADASYN)。前者根據(jù)少數(shù)類,利用最近鄰算法人工合成新樣本;而ADASYN則是在少數(shù)類的低密度特征空間區(qū)域中生成更多的合成樣本,在高密度區(qū)域中生成較少的樣本,其最大的特點是能夠自動決定每個少數(shù)類樣本需要產(chǎn)生的合成樣本數(shù)量,而不是像SMOTE那樣對每個少數(shù)類樣本均合成相同數(shù)量。故本文選擇ADASYN方法平衡樣本數(shù)據(jù)。優(yōu)化后結(jié)果如表2所列。
由表2可知,原數(shù)據(jù)集中ESG評級為D的企業(yè)最多,評為A的企業(yè)寥寥無幾,B,C,E級的企業(yè)數(shù)量相差不大,但遠少于D級,足以體現(xiàn)其嚴重的不平衡性。經(jīng)過ADASYN算法優(yōu)化后,大量填充了少數(shù)類樣本,樣本例數(shù)量趨于平衡,樣本量也由之前的3.9萬擴充為了17.2萬,增長了約3倍。
4實例分析與結(jié)果
數(shù)據(jù)集預(yù)處理后,采用Python進行模型實驗。分別將2種模型用Blending與Stacking算法進行融合。2種算法的主要區(qū)別在于在基學(xué)習(xí)器的訓(xùn)練中是否采用交叉驗證。Blending算法的基學(xué)習(xí)器直接對K個模型分別進行訓(xùn)練與預(yù)測,未進行交叉驗證,故它也不需要對原測試集預(yù)測集取平均。
實驗中,本文均選擇表現(xiàn)較好的LightGBM與KNN模型作為基學(xué)習(xí)器,并對Stacking模型做5折交叉驗證,元學(xué)習(xí)器均選擇LR模型。針對傳統(tǒng)Stacking算法存在的問題,本文提出了改進方案,詳見本文2.2節(jié)。對于改進后的Stacking模型,基學(xué)習(xí)器與元學(xué)習(xí)器的選擇不變。設(shè)置訓(xùn)練集與測試集的比例為8:2;交叉驗證為5折;其他模型參數(shù)設(shè)為默認值。
在輸入特征的改進上,為不丟失重要變量,設(shè)定max_ num—features參數(shù)的閾值為剔除缺失后的總特征數(shù)34,并選擇增益galn作為判斷依據(jù)。
如圖3所示,在增益值為2000時出現(xiàn)了急劇變化,故將閾值設(shè)定為2000。最終剩余18個特征,特征變量剔除比為47.06%。則新特征集一共包含20個特征變量,仍由LR模型訓(xùn)練。最終各模型實驗結(jié)果如表3所列。
從表3可以看出,相較于單- LGBM與KNN模型.Stacking算法擬合效果更好;同時,它的訓(xùn)練效果也比Blending模型更佳,則可以認為加入交叉驗證后獲取新訓(xùn)練集進行預(yù)測的效果會比采用直接預(yù)測后獲取的新訓(xùn)練集的效果更佳,側(cè)面驗證了交叉驗證的優(yōu)異性。而本文提出的加權(quán)與特征選取改進后的Stacking模型融合算法是幾種模型中表現(xiàn)最佳的方法,準確率達到85.87%,說明該方法在ESG評級預(yù)測上是有效的。
5結(jié)束語
本文利用Stacking算法將集成學(xué)習(xí)器再度融合,并拓展到ESG評級領(lǐng)域,為ESG的評級系統(tǒng)提供了可選擇的思路。從某一層面來說,其驗證了利用機器學(xué)習(xí)進行ESG評級的有效性,為機器學(xué)習(xí)在ESG領(lǐng)域進一步的應(yīng)用提供了理論基礎(chǔ)。但本研究還存在諸多不足,其一在于數(shù)據(jù)指標的缺失上,不過隨著未來ESG領(lǐng)域監(jiān)管的加強,信息披露的增加,該問題將得到極大地改善;其二在于模型選取上,在后續(xù)研究中,可以通過網(wǎng)格搜索算法選取基學(xué)習(xí)器。