黃 勝,李 勝,朱 菁
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 光通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,重慶 400065;3.深圳證券信息有限公司 數(shù)據(jù)中心,廣東 深圳 518000)
并購(gòu)重組類公告是上市公司進(jìn)行信息披露的重要組成部分。有效的信息獲取可以極大促進(jìn)市場(chǎng)監(jiān)管、投融資決策、股市預(yù)測(cè)以及企業(yè)畫像等領(lǐng)域的發(fā)展。如何精準(zhǔn)且高效的實(shí)現(xiàn)并購(gòu)重組類公告信息的結(jié)構(gòu)化,成為金融和證券公司應(yīng)用服務(wù)開(kāi)發(fā)的重要一環(huán)。
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的不斷發(fā)展,序列標(biāo)注法成為當(dāng)前信息抽取任務(wù)的主流方法。文獻(xiàn)[1]針對(duì)生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)提出了PowerBioNE生物命名實(shí)體識(shí)別系統(tǒng),采用隱馬爾可夫模型(hidden Markov model,HMM)識(shí)別生物醫(yī)學(xué)領(lǐng)域?qū)嶓w,獲得了較好的實(shí)用效果[1];文獻(xiàn)[2]提出一種循環(huán)條件隨機(jī)場(chǎng)(recurrent conditional random field, RCRF)模型,該模型將條件隨機(jī)場(chǎng)的特性有效融于循環(huán)神經(jīng)網(wǎng)絡(luò),并在語(yǔ)言理解領(lǐng)域取得了較好的應(yīng)用[2]。然而傳統(tǒng)機(jī)器學(xué)習(xí)模型無(wú)法充分利用上下文語(yǔ)義特征信息,不能解決長(zhǎng)距離依賴問(wèn)題。
文獻(xiàn)[3]將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM)結(jié)合條件隨機(jī)場(chǎng)(conditional random field,CRF)模型在i2b2/VA開(kāi)放數(shù)據(jù)集中獲得了0.85的F值,實(shí)驗(yàn)結(jié)果表明該模型對(duì)于電子病歷中部分臨床實(shí)體的識(shí)別具有良好的效果[3]。文獻(xiàn)[4]將門控循環(huán)單元(gated recurrent unity,GRU)與CRF結(jié)合用于中文文本序列標(biāo)注任務(wù)中,取得了較好的效果[4]。文獻(xiàn)[5]在BiLSTM-CRF模型的基礎(chǔ)上引入了注意力機(jī)制,通過(guò)學(xué)習(xí)全文“篇章級(jí)”信息,使該模型在藥物實(shí)體識(shí)別任務(wù)中的F值提高了1.48%[5]。
在上述研究的基礎(chǔ)上,本文結(jié)合了傳統(tǒng)特征規(guī)則法以及序列標(biāo)注法的優(yōu)勢(shì),針對(duì)并購(gòu)重組類公告的特征,提出了一種“篇章級(jí)”的信息抽取方案[15]。該方案能有效解決由單一規(guī)則法或深度神經(jīng)網(wǎng)絡(luò)帶來(lái)的抽取效果不好等問(wèn)題,為自由長(zhǎng)文本的信息抽取任務(wù)提供一種思路。
并購(gòu)重組類公告是一種具有一定格式規(guī)范的自由長(zhǎng)文本,表述形式多樣且篇幅較長(zhǎng)[6]。同一類型公告對(duì)于收購(gòu)、出售、資產(chǎn)重組等商業(yè)行為的描述各有不同,長(zhǎng)達(dá)500頁(yè)的公告文本中包含了大量的干擾信息,為傳統(tǒng)的信息抽取方案帶來(lái)了較大的挑戰(zhàn)[15]。
針對(duì)公告文本特點(diǎn),借鑒降維思想,提出規(guī)則法和序列標(biāo)注法相結(jié)合的聯(lián)合抽取方案,通過(guò)方法級(jí)聯(lián)可以有效提高對(duì)并購(gòu)重組類公告信息抽取的準(zhǔn)確率。該方案將整個(gè)信息抽取流程拆分為兩個(gè)部分:①“句子級(jí)”抽取,公告文本中包含大量冗余信息,采用規(guī)則法,解析文本結(jié)構(gòu),編寫規(guī)則以“標(biāo)題定位內(nèi)容”的形式從文本中抽取出關(guān)鍵句子集合。將“篇章級(jí)”抽取縮小為“句子級(jí)”抽取,降低冗余信息的干擾;②“字段級(jí)”抽取,采用序列標(biāo)注法,訓(xùn)練命名實(shí)體識(shí)別聯(lián)合模型,從關(guān)鍵句子集合中抽出所需的字段信息,實(shí)現(xiàn)“句子級(jí)”到“字段級(jí)”抽取[15],具體方案流程如圖1所示。
圖1 公告信息抽取方案
以領(lǐng)域知識(shí)為基礎(chǔ)的規(guī)則法,對(duì)特定領(lǐng)域文本識(shí)別的準(zhǔn)確率較高[7]。優(yōu)先選擇規(guī)則法對(duì)金融領(lǐng)域并購(gòu)重組類公告文本進(jìn)行篇章級(jí)”抽取,可以有效降低自由長(zhǎng)文本信息抽取的復(fù)雜度。相較于直接使用序列標(biāo)注法的單一文本信息抽取而言,融合了規(guī)則法優(yōu)勢(shì)的組合方案更加適用于特定領(lǐng)域的自由長(zhǎng)文本信息抽取任務(wù)中[15]。
并購(gòu)重組類公告具有一定的格式規(guī)范,文本以標(biāo)題加內(nèi)容的形式組成,通常包含“摘要部分”和“正文部分”。通過(guò)解析文本結(jié)構(gòu),抽象出關(guān)鍵字段在文本中描述形式和定位特征,針對(duì)性的提出一套規(guī)則標(biāo)簽體系用于約束各個(gè)字段規(guī)則模板的制定,設(shè)計(jì)規(guī)則邏輯運(yùn)算抽取算法解析定位邏輯[15]。對(duì)于公告文本T,解析規(guī)則模板,以“標(biāo)題定位內(nèi)容”的方式從文本中獲取關(guān)鍵句子Sj,通過(guò)預(yù)處理,最終得到關(guān)鍵字段所屬的句子集合Pi
T={P1,P2,…,Pi}
(1)
Pi={S1,S2,…,Sj}
(2)
將Pi定義為新的文本段落,段落集合實(shí)現(xiàn)對(duì)公告文本T的重構(gòu),從而保留文本的“段落級(jí)”信息和“篇章級(jí)”信息。
規(guī)則標(biāo)簽體系包含了整體定位邏輯,通過(guò)復(fù)雜的規(guī)則邏輯運(yùn)算組合可以有效提升規(guī)則抽取的準(zhǔn)確率,是保證“句子級(jí)”抽取準(zhǔn)確率的關(guān)鍵之一。為了盡可能多的兼容各種自然語(yǔ)言的文本描述形式,設(shè)計(jì)了以下規(guī)則標(biāo)簽體系,見(jiàn)表1。
規(guī)則邏輯運(yùn)算抽取引擎通過(guò)解析規(guī)則模板,獲取定位邏輯,從并購(gòu)重組類公告文本中抽取所需的“句子級(jí)”信息用于進(jìn)行序列標(biāo)注,實(shí)現(xiàn)文本的“篇章級(jí)”抽取縮小為“句子級(jí)”抽取[15]。
整個(gè)抽取模式分為兩種:模式1、“標(biāo)題定位內(nèi)容”的抽取形式,這要求從公告文本中剝離出完整的文本目錄結(jié)構(gòu),以“樹(shù)”的形式呈現(xiàn),通過(guò)制定完善的標(biāo)題規(guī)則獲取標(biāo)題間的層級(jí)關(guān)系,實(shí)現(xiàn)內(nèi)容部分的精準(zhǔn)定位;模式2、全文匹配,采用內(nèi)容規(guī)則對(duì)全文進(jìn)行無(wú)差別匹配,對(duì)于匹配的結(jié)果需要進(jìn)行相應(yīng)的過(guò)濾和篩選。抽取的基本元素分為:表格、段落和句子,根據(jù)不同字段的位置特征,對(duì)不同的
表1 規(guī)則標(biāo)簽符號(hào)說(shuō)明
元素進(jìn)行處理,本文主要以段落和句子的處理方式為主[15]。規(guī)則邏輯運(yùn)算抽取引擎設(shè)計(jì)步驟如下,三層目錄結(jié)構(gòu)的設(shè)定可以覆蓋當(dāng)前所有抽取字段的定位特征,抽取流程如圖2所示:
(1)文本預(yù)處理,加載規(guī)則,提取文本目錄結(jié)構(gòu)樹(shù);
(2)抽取模式判斷,若為模式1,轉(zhuǎn)到第(3)步,否則獲取全文內(nèi)容并轉(zhuǎn)到第(7)步;
(3)fristLevelTitle是否為空,否則令parentT等于fristLevelTitle,并轉(zhuǎn)到第(4)步,是則返回異常,結(jié)束抽??;
(4)在parentT的所有1~3級(jí)子標(biāo)題中匹配,獲取 secLevelTitle 并判斷是否為空,否則令parentT等于 secLevelTitle,跳轉(zhuǎn)至第(5)步;
(5)在parentT的所有1~3級(jí)子標(biāo)題中匹配,獲取thirdLevelTitle并判斷是否為空,否則令parentT等于thridLevelTitle,跳轉(zhuǎn)至第(6)步;
(6)以parentT為上限,獲取下限標(biāo)題,劃定抽取范圍進(jìn)行第(7)步的抽??;
(7)在劃定的內(nèi)容部分,根據(jù)內(nèi)容規(guī)則邏輯的設(shè)定抽出表格、段落、句子等基礎(chǔ)元素,當(dāng)返回lastTitle時(shí),默認(rèn)取該標(biāo)題下的所有文本,轉(zhuǎn)至第(8)步;
(8)對(duì)抽取的句子和段落集合進(jìn)行篩選,經(jīng)過(guò)處理后用于序列標(biāo)注。
本文采用雙向門控循環(huán)單元(bidirectional gated recurrent unity,BiGRU)和注意力機(jī)制(Attention)相結(jié)合的序列標(biāo)注模型,BiGRU-Attention模型主要包含:GloVe詞向量層、BiGRU神經(jīng)網(wǎng)絡(luò)層、Attention層以及CRF層[15],這樣的設(shè)計(jì)具有以下4個(gè)優(yōu)點(diǎn):①常用的詞向量工具有word2vec和GolVe,后者以其對(duì)大規(guī)模語(yǔ)料的模型訓(xùn)練效率更高,更容易實(shí)現(xiàn)并行化,相對(duì)更加適用于當(dāng)前任務(wù)[8];②GRU單元相較于常用的LSTM單元擁有更簡(jiǎn)單的結(jié)構(gòu),在保證模型識(shí)別準(zhǔn)確率的同時(shí)能提升模型的訓(xùn)練效率;③注意力層的引入使得模型在學(xué)習(xí)實(shí)體上下文語(yǔ)義特征的同時(shí),引入全文“篇章級(jí)”信息以及關(guān)聯(lián)實(shí)體對(duì)之間的相關(guān)性特征,有效提高模型預(yù)測(cè)的準(zhǔn)確率;④CRF層通過(guò)計(jì)算實(shí)體標(biāo)簽之間的轉(zhuǎn)移概率,可以獲取標(biāo)簽序列之間的相關(guān)性進(jìn)而使模型得到標(biāo)簽預(yù)測(cè)的全局最優(yōu)解[9]。
BiGRU-Attention聯(lián)合模型如圖3所示。其中wn為詞向量,hn為BiGRU層的隱狀態(tài),M為關(guān)聯(lián)實(shí)體矩陣,an為Attentio第n層分配的權(quán)重,vn為標(biāo)簽預(yù)測(cè)概率,B或O代表最終預(yù)測(cè)的實(shí)體標(biāo)簽。
圖2 規(guī)則抽取流程
圖3 BiGRU-Attention模型結(jié)構(gòu)[15]
3.2.1 GRU
GRU結(jié)構(gòu)相較于LSTM結(jié)構(gòu)進(jìn)行了簡(jiǎn)化,僅保留更新門和重置門,二者通過(guò)控制歷史信息的存儲(chǔ)量以及對(duì)當(dāng)前狀態(tài)的影響程度來(lái)提升對(duì)當(dāng)前序列預(yù)測(cè)的準(zhǔn)確性[10]。GRU在保證模型效果的同時(shí),模型結(jié)構(gòu)更簡(jiǎn)單、參數(shù)更少、收斂性更好[11],模型更新方式如下
rt=σ(Wr·[ht-1,xt])
(3)
zt=σ(Wz·[ht-1,xt])
(4)
(5)
(6)
3.2.2 BiGRU
雙向神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以有效學(xué)習(xí)文本的上下文語(yǔ)義信息,使得模型對(duì)當(dāng)前時(shí)刻的預(yù)測(cè)可以結(jié)合前后時(shí)刻的相關(guān)信息,提高模型對(duì)實(shí)體預(yù)測(cè)的準(zhǔn)確性。本文采用兩個(gè)GRU單元,正向GRU單元用于捕獲上文的語(yǔ)義特征,反向GRU單元用于捕獲下文的語(yǔ)義特征,通過(guò)結(jié)合上下文語(yǔ)義信息提升模型預(yù)測(cè)的準(zhǔn)確性[15]。
(7)
(8)
(9)
通過(guò)模擬人腦對(duì)注意力的分配機(jī)制,Attention模型對(duì)不同的信息分配不同的權(quán)重,實(shí)現(xiàn)對(duì)局部關(guān)鍵信息的突出[15]。注意力機(jī)制最早應(yīng)用于圖像領(lǐng)域[12],隨后在NLP領(lǐng)域的機(jī)器翻譯[13]、文本分類[14]等任務(wù)上取得了優(yōu)異的表現(xiàn)。當(dāng)前任務(wù)中,實(shí)體wi呈現(xiàn)以下特征:①同一個(gè)wi與關(guān)鍵字段所屬的句子集合Pi呈一對(duì)多的關(guān)系,例如:字段“交易標(biāo)的”、“收購(gòu)方式”抽取的句子集合中會(huì)同時(shí)包含字段“成交金額”對(duì)應(yīng)的實(shí)體信息;②句中包含wi的關(guān)聯(lián)實(shí)體對(duì),例:“采用收益法,截止至2019年8月15日,資產(chǎn)評(píng)估值為2160.18萬(wàn)元。”中“資產(chǎn)評(píng)估值”字段實(shí)體:“2160.18萬(wàn)元”和“評(píng)估方法”字段實(shí)體:“收益法”組成關(guān)聯(lián)實(shí)體對(duì)。針對(duì)以上特征,在常用的BiGRU-CRF序列標(biāo)注模型基礎(chǔ)上,引入了Attention層,融合全文“篇章級(jí)”信息及關(guān)聯(lián)實(shí)體對(duì)的影響,計(jì)算當(dāng)前實(shí)體分配的權(quán)重概率,從而提升對(duì)關(guān)鍵實(shí)體標(biāo)簽預(yù)測(cè)的精準(zhǔn)度[15]。
attx=softmax(f(set,elementx,W))
(10)
其中,f(·) 用于計(jì)算elementx與set中各個(gè)詞匯之間的相關(guān)性,W為隨模型一同訓(xùn)練的參數(shù)。
然后利用attx對(duì)relation中的信息進(jìn)行篩選融合,可獲得當(dāng)前詞的全文“篇章級(jí)”信息chapterx
chapterx=attx·relation
(11)
通過(guò)使用哈工大LTP平臺(tái)的開(kāi)源語(yǔ)義依存分析模型,可以有效融合與當(dāng)前詞匯具有語(yǔ)義關(guān)系的實(shí)體信息,獲取句子Sx中的關(guān)聯(lián)實(shí)體矩陣M, LTP中部分依存關(guān)系標(biāo)注集見(jiàn)表2。關(guān)聯(lián)實(shí)體的上下文信息dependxy
dependxy=Mxy·relation (12)
那么融合全文“篇章級(jí)”信息和實(shí)體對(duì)之間語(yǔ)義關(guān)聯(lián)信息后,詞匯最終的概率權(quán)重ax
ax=tanh(chapterx,∑ydenpendxy)
(13)
實(shí)驗(yàn)數(shù)據(jù)通過(guò)自定義爬蟲從“巨潮資訊網(wǎng)”上抓取2000篇上市公司并購(gòu)重組類公告文本,其中訓(xùn)練集為1600篇、驗(yàn)證集和測(cè)試集分別為200篇。選取當(dāng)前較為常用的BIO(begin,inside,outside)書簽機(jī)制進(jìn)行標(biāo)注。在此基礎(chǔ)上增加E(end)標(biāo)簽和S(single)標(biāo)簽對(duì)包含“交易標(biāo)的”、“成交金額”在內(nèi)的12個(gè)字段進(jìn)行語(yǔ)料標(biāo)注,以方便對(duì)標(biāo)簽實(shí)體的解析。標(biāo)注標(biāo)簽及說(shuō)明見(jiàn)表3。其中S標(biāo)簽表示由單個(gè)詞組成的實(shí)體,O標(biāo)簽表示其它類型的實(shí)體,B標(biāo)簽表示目標(biāo)實(shí)體的首個(gè)詞,I標(biāo)簽為其中間詞匯,E標(biāo)簽表示目標(biāo)實(shí)體的最后一個(gè)詞匯[15]。
表3 標(biāo)注標(biāo)簽及說(shuō)明[15]
實(shí)驗(yàn)采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)以及F1值(F1-score,F(xiàn)1)作為評(píng)價(jià)指標(biāo),分別對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行測(cè)評(píng)。
實(shí)驗(yàn)采用Keras的深度學(xué)習(xí)框架,底層為TensorFlow,實(shí)驗(yàn)選用BP(反向傳播算法)來(lái)訓(xùn)練BiGRU-Attention聯(lián)合序列標(biāo)注模型,采用SGD(隨機(jī)梯度下降算法)調(diào)整樣本訓(xùn)練時(shí)的權(quán)重參數(shù)。其中詞向量設(shè)定為100維,optimizer(優(yōu)化器)選擇“adam”,學(xué)習(xí)率設(shè)置為0.01,Batch_size設(shè)置為50,Dropout參數(shù)rate設(shè)置為0.5。參數(shù)經(jīng)過(guò)多次迭代后根據(jù)準(zhǔn)確率、召回率調(diào)整得到。
實(shí)驗(yàn)一:實(shí)驗(yàn)選取“標(biāo)題定位內(nèi)容”的規(guī)則抽取方案作為實(shí)驗(yàn)方案,選取“全文內(nèi)容匹配”的規(guī)則抽取方案作為對(duì)比方案。對(duì)包含“重組類型”、“標(biāo)的行業(yè)”等在內(nèi)的12個(gè)字段進(jìn)行“句子級(jí)”抽取?!熬渥蛹?jí)”抽取結(jié)果及對(duì)比見(jiàn)表4。
如表4所示,實(shí)驗(yàn)方案的抽取效果明顯優(yōu)于對(duì)比方案。由于文本表述形式多樣,人工制定規(guī)則的不夠完善,使得實(shí)驗(yàn)方案的抽取效果仍然有待提高。
表4 “句子級(jí)”抽取結(jié)果及對(duì)比(均值)[15]
實(shí)驗(yàn)二:實(shí)驗(yàn)選取基于BiGRU-Attention的序列標(biāo)注法作為實(shí)驗(yàn)方案,選取包含CRF、LSTM、GRU等在內(nèi)的多個(gè)模型為對(duì)照組進(jìn)行實(shí)驗(yàn),來(lái)驗(yàn)證當(dāng)前方案的可靠性。采用實(shí)驗(yàn)方案的“字段級(jí)”抽取結(jié)果見(jiàn)表5。序列標(biāo)注模型效果對(duì)比見(jiàn)表6。
表5 “字段級(jí)”抽取結(jié)果展示[15]
表6 序列標(biāo)注模型效果對(duì)比(均值)[15]
如表5所示,模型對(duì)于關(guān)聯(lián)實(shí)體對(duì)之間的識(shí)別效果較好,其中關(guān)聯(lián)實(shí)體對(duì):“交易標(biāo)的”、成交金額”和“收購(gòu)方式”的平均F1值達(dá)到了0.92;“評(píng)估方法”、“評(píng)估基準(zhǔn)日”、“資產(chǎn)賬面值”、“資產(chǎn)評(píng)估值”的平均F1值達(dá)到了0.94。而“配套融資金額”字段F1值只有0.86,模型識(shí)別效果較差,造成改結(jié)果主要有兩個(gè)原因:①“字段級(jí)”抽取的準(zhǔn)確率依賴于“句子級(jí)”抽取,由于人工制定的規(guī)則模板不夠完善,該字段表述形式的多樣性,使得“句子級(jí)”抽取效果較差。經(jīng)后續(xù)規(guī)則的豐富,可以進(jìn)一步提升該字段的抽取準(zhǔn)確率;②“配套融資金額”字段不具備與之組成關(guān)聯(lián)實(shí)體對(duì)的字段實(shí)體,使得模型對(duì)該字段的識(shí)別效果不佳[15]。
如表6所示,通過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)照發(fā)現(xiàn),融合了依存關(guān)聯(lián)矩陣的BiGRU-Attention聯(lián)合模型,可以較好的學(xué)習(xí)全文“篇章級(jí)”信息,并且對(duì)于關(guān)聯(lián)實(shí)體對(duì)之間的識(shí)別效果較好。該方案對(duì)并購(gòu)重組類公告文本中的金融實(shí)體識(shí)別準(zhǔn)確率明顯高于其它序列標(biāo)注模型,相較于目前主流的BiLSTM-Attention序列標(biāo)注模型的F1值提高了約3個(gè)百分點(diǎn)[15]。
上市公司并購(gòu)重組類公告是一種具有一定格式規(guī)范的自由長(zhǎng)文本,針對(duì)公告特點(diǎn),借鑒降維思想,提出規(guī)則法和序列標(biāo)注法相結(jié)合的聯(lián)合信息抽取方案。采用規(guī)則法,設(shè)計(jì)標(biāo)簽體系,編寫規(guī)則邏輯運(yùn)算抽取引擎,將“篇章級(jí)”抽取縮小為“句子級(jí)”抽取,提出基于BiGRU-Attention的序列標(biāo)注法,將句子抽取縮小為“字段級(jí)”抽取[15]。實(shí)驗(yàn)結(jié)果表明本方案,具有更好準(zhǔn)確率,驗(yàn)證該方案在并購(gòu)重組類公告以及同類文本的信息抽取任務(wù)中具有一定的可行性,目前該方法已在“深圳證券信息有限公司巨潮財(cái)經(jīng)數(shù)據(jù)庫(kù)和專業(yè)數(shù)據(jù)終端”中有實(shí)際應(yīng)用。
在未來(lái)的工作中,筆者將繼續(xù)研究對(duì)并購(gòu)重組類公告的信息抽取任務(wù),提出更優(yōu)的方案以解決對(duì)文本實(shí)體之間映射關(guān)系的抽取,例如:syntaxnet等。