李世龍 張浩軍 李大嶺 王家慧 齊晨陽
摘? 要:通過對知網(wǎng)上252篇有關(guān)新工科的典型教育研究文獻進行實體關(guān)系人工標(biāo)注,建立了高等教育領(lǐng)域新工科視角下實驗數(shù)據(jù)集NEDS(New Engineering Data Set),設(shè)計了一種層疊指針網(wǎng)絡(luò)模型。實驗結(jié)果表明,在高等教育領(lǐng)域NEDS上該模型表現(xiàn)突出,其精確率、召回率和F1值分別達到了83.56、76.25和79.74,很好地解決了關(guān)系重疊問題。
關(guān)鍵詞:新工科;實體關(guān)系抽??;層疊指針;關(guān)系重疊
中圖分類號:TP391? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2023)07-0011-05
Abstract: By artificially labeling the entity relationship of 252 typical educational research literatures on new engineering on CNKI, the experimental dataset NEDS (New Engineering Data Set) from the perspective of new engineering in the field of higher education is established, and a cascading pointer network model is designed. The experimental results show that the model performs well in NEDS in the field of higher education, and its accuracy, recall and F1 values reach 83.56, 76.25 and 79.74 respectively, and solve the problem of relationship overlap.
Keywords: new engineering; entity relationship extraction; cascading pointer; relationship overlap
0? 引? 言
近年來,新工科等教育改革人才培養(yǎng)模式被提出,大量教育學(xué)者在該領(lǐng)域進行探索研究。本文聚焦新工科教育改革領(lǐng)域,建立了高等教育領(lǐng)域新工科視角下實驗數(shù)據(jù)集NEDS,通過引入實體關(guān)系抽取技術(shù),實現(xiàn)人工智能輔助,來提高高等教育研究者的研究效率。
信息抽取是知識圖譜構(gòu)建的重要環(huán)節(jié),將非結(jié)構(gòu)化或半結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)。命名實體識別和關(guān)系抽取是信息抽取的兩個重要子任務(wù)。命名實體識別是從文本中識別出具有特別意義的實體信息,而關(guān)系抽取是從本文中實體的語義關(guān)系,得到(主體,關(guān)系,客體)三元組信息。
1? 相關(guān)工作
實體關(guān)系抽取,主要包含流水線式和聯(lián)合式兩種方法。
1.1? 流水線式方法
流水線式方法分為兩步,先進行命名實體識別再關(guān)系抽取,最后整合成三元組信息。
1.1.1? 命名實體識別
命名實體識別是指識別文本中有意義、有價值的實體并將其歸入到指定類別的任務(wù),是理解文本意義的基礎(chǔ),是構(gòu)建知識圖譜的核心技術(shù)。早期命名實體識別主要以統(tǒng)計模型作為主流方法,常用的統(tǒng)計方法有隱馬爾科夫模型(HMM)和條件隨機場(CRF)[1]等,它們的準(zhǔn)確率在很大程度上依賴于自然語言處理(NLP)工具和人工標(biāo)注特征。隨著深度學(xué)習(xí)在不同領(lǐng)域的普及,越來越多的深度學(xué)習(xí)模型被提出解決實體識別問題。Collcbert等人[2]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和條件隨機場(CRF)疊加在單詞嵌入中來處理NLP任務(wù)。然后,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在命名實體識別任務(wù)中表現(xiàn)出比其他神經(jīng)網(wǎng)絡(luò)更好的性能。Chiu和Nichols[3]使用混合雙向LSTM和CNN架構(gòu)來學(xué)習(xí)單詞和字符級特征,減少了特征工程的需要。Shen等人[4]采用深度學(xué)習(xí)與主動學(xué)習(xí)相結(jié)合來進行命名實體識別,取得了較好的表現(xiàn)。Huang等人[5]提出將BI-LSTM和CRF聯(lián)合模型作為NLP序列標(biāo)注工作。
1.1.2? 關(guān)系抽取
實體關(guān)系描述了存在實物之間的關(guān)聯(lián)關(guān)系,它被定義為兩個或兩個以上實體之間的某種聯(lián)系,是知識圖譜構(gòu)建的基礎(chǔ)。關(guān)系抽取就是從文本中自動檢測和識別出實體之間的某種語義關(guān)系。閆雄[6]等人采用自注意力機制和CNN相融合計算序列中詞之間的相互關(guān)系,提升了關(guān)系抽取的效果。Gan等人[7]提出了了子序列實體注意LSTM網(wǎng)絡(luò)(EA-LSTM)用于關(guān)系抽取,具有較好的效果。流水線方式存在誤差傳播問題,忽略命名實體識別和關(guān)系抽取兩個任務(wù)之間的相關(guān)性。
1.2? 聯(lián)合式抽取方法
聯(lián)合式抽取方法的出現(xiàn),改善了誤差傳播問題并且能夠有效地利用兩個任務(wù)之間的相關(guān)性。Miwa和Bansal[8]提出了基于端對端的神經(jīng)網(wǎng)絡(luò)模型來進行實體關(guān)系聯(lián)合抽取,他們通過在雙向序列LSTM-RNNs上疊加雙向樹狀LSTM-RNNs來捕獲詞序列和依賴樹子結(jié)構(gòu)信息,但忽略了實體標(biāo)簽之間的遠距離依賴。Zheng[9]等人提出了一種混合神經(jīng)網(wǎng)絡(luò)模型來提取實體及其關(guān)系,而不需要任何手工特征,該混合神經(jīng)網(wǎng)絡(luò)包含用于實體提取的雙向編碼器-解碼器LSTM模塊(BiLSTM-ED)和用于關(guān)系分類的CNN模塊,BiLSTM-ED得到的實體上下文信息再傳遞給CNN模塊,以改進關(guān)系分類。Li等人[10]將混合神經(jīng)網(wǎng)絡(luò)應(yīng)用在生物醫(yī)學(xué)文本中進行實體關(guān)系聯(lián)合抽取。Zheng[11]等人提出了一種新的標(biāo)記方案,該標(biāo)記策略將涉及序列標(biāo)注任務(wù)和分類任務(wù)的關(guān)系抽取轉(zhuǎn)化為序列標(biāo)注任務(wù),并且采用端到端的神經(jīng)網(wǎng)絡(luò)模型直接抽取實體-關(guān)系-實體三元組信息。Eberts等人[12]采用的共同聯(lián)合范式為特征,該范式共享相同的編碼器并為所有任務(wù)提及表示,同時為實體識別和關(guān)系抽取保留獨立的解碼器,以多任務(wù)方式聯(lián)合訓(xùn)練,但該方法并未解決關(guān)系重疊問題。
關(guān)系重疊是指一個實體與另一個實體之間存在多種關(guān)系,或者一個實體與多個不同的實體間存在多種關(guān)系。針對這種情況,Wei[13]等人提出了一種新的標(biāo)記框架CASREL,該框架通過一種級聯(lián)二進制表示將關(guān)系看作為主體和客體所映射出的函數(shù),來處理關(guān)系重疊問題。
2? 一種基于層疊指針網(wǎng)絡(luò)實體關(guān)系抽取模型
Liu等人[14]提出的RoBERTa模型,該模型在BERT的基礎(chǔ)上提高了模型規(guī)模、算力和數(shù)據(jù)量。Wei[13]等人提出的級聯(lián)指針二進制標(biāo)記框架將關(guān)系看作為主體和客體所映射出的函數(shù)。綜合上述方法設(shè)計一種層疊指針網(wǎng)絡(luò)的高等教育領(lǐng)域?qū)嶓w關(guān)系抽取模型,該模型包含三個模塊,我們通過梯度下降以參數(shù)共享的方式共同訓(xùn)練。首先,基于BERT的編碼器將句子嵌入到潛在空間中;其次,主體識別模塊來預(yù)測主體的頭和尾的位置序列,通過BERT詞向量加上一個全連接層去預(yù)測一個二分類的問題;最后,關(guān)系及客體識別模塊隨機拿一個主體來預(yù)測關(guān)系和客體的關(guān)系位置矩陣,如圖1所示。
2.1? 編碼層
本文采用由哈工大訊飛聯(lián)合實驗室發(fā)布的RoBERTa-wwm預(yù)訓(xùn)練模型來對上下文信息進行編碼,它相比傳統(tǒng)的BERT預(yù)訓(xùn)練模型能夠更好地適應(yīng)中文文本,RoBERTa由n個相同的Transformer模塊組成的。我們將Transformer模塊表示為trans(x),其中x表示輸入向量。具體操作如下:
其中wc表示字符向量,ws表示句子分類向量,wp表示位置嵌入向量,hi表示隱層狀態(tài)向量,即輸入句子在第i層的上下文表示,n是Transformer模塊數(shù)量。
2.2? 主體解碼層
在主體識別模塊,通過直接解碼N層編碼器產(chǎn)生的編碼向量hN來識別輸入句子中所有三元組的主體位置信息。采用指針標(biāo)注的思想,通過頭指針序列和尾指針序列為每一個字符分配一個二進制標(biāo)記0或1,來分別檢測主體的開始位置和結(jié)束位置。在頭指針序列中1表示主體開始位置,在尾指針序列中1表示主體結(jié)束位置。具體操作公式為:
將經(jīng)過編碼器編碼后的字向量hi加上一個全連接層并通過Sigmoid函數(shù)激活,得到解碼后的輸出。其中? 和? 分別表示將輸入序列中的第i個標(biāo)識為主體的開始和結(jié)束位置的概率。如果概率超過某個閾值,則被標(biāo)記為1,否則將被標(biāo)記為0。hi表示輸入序列中第i個位置的編碼表示,即:hi=hN[i],其中W表示可訓(xùn)練權(quán)重,b是偏置σ表示Sigmoid激活函數(shù)。
2.3? 關(guān)系及客體解碼層
該模塊同時識別關(guān)系以及相對應(yīng)的客體。其結(jié)構(gòu)和主體識別模塊類似,將主體編碼器的頭、尾指針向量序列變換為關(guān)系和客體位置矩陣。解碼方式與主體識別模塊直接對編碼向量hN進行解碼不同,關(guān)系及客體解碼器還考慮了主體特征。具體操作公式為:
其中? 和? 分別表示為在當(dāng)前關(guān)系下,輸入序列中的第i個標(biāo)識為客體的開始和結(jié)束位置的概率, 表示在主體識別模塊中檢測到的第k個主體的編碼向量。實體通常由多個漢字組成,為了保證主體的向量維度一致性,將構(gòu)成主體的每個漢字編碼向量的平均值來作為主體的特征表示。
2.4? 損失函數(shù)
在主體識別模塊中,目標(biāo)函數(shù)的定義如下:
其中Pθ (s|x)是主體識別模塊中輸入文本序列為x,參數(shù)θ={Wstart, bstart, Wend, bend}預(yù)測主體s的目標(biāo)函數(shù);L是輸入句子長度; 是文本x中第i個標(biāo)記的主體開始或結(jié)束位置的二進制標(biāo)記。
在關(guān)系客體識別模塊中,目標(biāo)函數(shù)的定義如下:
其中Pr (o|s, x)表示當(dāng)關(guān)系類別為r,并且在輸入文本x和所選主體為s的條件下預(yù)測客體o的目標(biāo)函數(shù);L是輸入句子長度, 是文本x中第i個標(biāo)記的主體開始或結(jié)束位置的二進制標(biāo)記。
結(jié)合兩個目標(biāo)函數(shù),模型的最終損失函數(shù)為:
其中N是輸入樣本的數(shù)量。綜合上述公式可知,0≤P≤1使得q接近于0,當(dāng)標(biāo)簽y=1時,則放大了損失的權(quán)重;當(dāng)標(biāo)簽y=0時,所對應(yīng)的? 就更小,使得初始狀態(tài)符合目標(biāo)分布,最終實現(xiàn)加速收斂。
3? 實驗分析
3.1? 數(shù)據(jù)集
實驗原始數(shù)據(jù)來自中國知網(wǎng),選自高等教育領(lǐng)域新工科視角下的北大核心文獻,共計252篇構(gòu)成新工科數(shù)據(jù)集NEDS對其摘要部分進行人工標(biāo)注,將其劃分為訓(xùn)練集162篇,測試集45篇,驗證集45篇。由小組討論定義實體與關(guān)系類型,通過標(biāo)注工具進行人工標(biāo)注,如圖2、圖3所示。NEDS數(shù)據(jù)集包含六個實體類型、四個關(guān)系類型,統(tǒng)計情況如表1和表2所示。
3.2? 評價指標(biāo)
本文模型評價指標(biāo)采用精確率(P,Precision),召回率(R,Racall)和F1值,具體公式為:
其中,TP為模型預(yù)測出的三元組信息與文本數(shù)據(jù)中正確的三元組信息相同的個數(shù),F(xiàn)P為模型預(yù)測出的三元組信息不屬于文本數(shù)據(jù)中正確的三元組信息的個數(shù),F(xiàn)N為模型未能預(yù)測出正確三元組的個數(shù)。
3.3? 實驗環(huán)境
本文實驗環(huán)境如表3所示。
3.4? 參數(shù)設(shè)計
本文模型參數(shù)設(shè)計:BERT預(yù)訓(xùn)練模型Chinese_Roberta_wwm_ext_L-12_H-768_A-12,學(xué)習(xí)率為0.000 01,批量大小為8,句子最大長度為512,模型優(yōu)化器選擇Adam,Sigmoid函數(shù)閾值0.5,字嵌入維度768。
3.5? 實驗結(jié)果與分析
為驗證本文模型的有效性,在自建數(shù)據(jù)集NEDS上與其他三種方法進行了實驗對比??煞譃閮深悾毫魉€式抽取方法和聯(lián)合式抽取方法。
對于流水線式的抽取方法,先命名實體識別然后進行關(guān)系抽取,本文模型與以下兩種流水線式的方法進行對比:
1)BERT+LSTM:使用BERT-CRF進行命名實體識別,然后使用LSTM進行關(guān)系抽取。
2)BERT+BiLSTM:使用BERT-CRF進行命名實體識別,然后使用BiLSTM進行關(guān)系抽取。
對于聯(lián)合式的抽取方法,本文模型與Casrel進行了實驗對比。
3)Casrel:Wei[13]等人提出的新的級聯(lián)二進制標(biāo)記框架的聯(lián)合抽取模型,它將關(guān)系建模為映射到句子中對象的函數(shù),很好的解決了關(guān)系重疊問題。
從表4可以看出本文模型與流水線式抽取方法BERT+LSTM和BERT+BiLSTM相比在NEDS數(shù)據(jù)集上表現(xiàn)更為優(yōu)秀,F(xiàn)1值分別提高了23.37%和14.17%,這是因為本文模型沒有誤差傳播問題,加強了命名實體識別和關(guān)系抽取兩個子任務(wù)之間的依賴性,并且本文模型所使用的指針網(wǎng)絡(luò)相比序列標(biāo)注能夠更好地解決關(guān)系重疊問題。Casrel模型和本文模型對關(guān)系重疊問題都有著不錯的表現(xiàn),本文模型與Casrel模型在精確值、召回率和F1值分別有2.03%、0.82%和1.39%的提升。主要原因是在編碼層上本文模型使用了RoBerta對輸入句子進行編碼,與BERT模型相比,能夠更好地適應(yīng)中文語料并且在模型規(guī)模、算力和數(shù)據(jù)量上都有所提高;在解碼層上本文采用層疊指針標(biāo)注策略,提高了對關(guān)系重疊問題的識別率。
為了更形象的表示本文模型性能,將上述模型的實驗迭代過程進行對比,如圖4所示,本文模型相比其他模型在更短的訓(xùn)練周期達到穩(wěn)定,并且能夠在最短的訓(xùn)練周期達到最高的F1值,進一步體現(xiàn)了本文模型的有效性。
4? 結(jié)? 論
本文在高等教育領(lǐng)域新工科視角下定義了6種實體類型和4種關(guān)系類型并構(gòu)建了NEDS數(shù)據(jù)集。設(shè)計了一種基于指針網(wǎng)絡(luò)的實體關(guān)系抽取方法,通過實驗,本文模型在自建數(shù)據(jù)集NEDS上的精確率、召回率和F1值分別達到了83.56、76.25、79.74,為后續(xù)構(gòu)建教育改革類知識圖譜提供了數(shù)據(jù)支持。
參考文獻:
[1] LAMPLE G,BALLESTEROS M,SUBRAMANIAN S,et al. Neural Architectures for Named Entity Recognition [J/OL].arXiv:1603.01360 [cs.CL].[2022-10-06].https://arxiv.org/abs/1603.01360v1.
[2] COLLOBERT R,WESTON J,BOTTOU L,et al. Natural Language Processing (almost) from Scratch [J].The Journal of Machine Learning Research,2011,12:2493-2537.
[3] CHIU J P C,NICHOLS E. Named Entity Recognition with Bidirectional LSTM-CNNs [J].Computer Science,2016,4:357-370.
[4] SHEN Y Y,YUN H,LIPTON Z C,et al. Deep Active Learning for Named Entity Recognition [J/OL].arXiv:1707.05928 [cs.CL].[2022-10-06].https://arxiv.org/abs/1603.01360v1.
[5] HUANG Z H,WEI X,KAI Y. Bidirectional LSTM-CRF Models for Sequence Tagging [J/OL].arXiv:1508.01991 [cs.CL].[2022-10-06].https://arxiv.org/abs/1508.01991.
[6] 閆雄、段躍興、張澤華.采用自注意力機制和CNN融合的實體關(guān)系抽取 [J].計算機工程與科學(xué),2020,42(11):2059-2066.
[7] GAN T,GAN Y Q,HE Y M. Subsequence-Level Entity Attention LSTM for Relation Extraction [C]//2019 16th International Computer Conference on Wavelet Active Media Technology and Information Processing.Chengdu:IEEE,2019:262-265.
[8] MIWA M,BANSAL M. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures [J/OL].arXiv:1601.00770 [cs.CL].[2022-10-06].https://arxiv.org/abs/1601.00770v2.
[9] ZHENG S C,HAO Y X,LU D Y,et al. Joint Entity and Relation Extraction Based on A Hybrid Neural Network [J].Neurocomputing,2017,257:59-66.
[10] LI F, ZHANG M S,F(xiàn)U G H,et al. A neural joint model for entity and relation extraction from biomedical text [J/OL].BMC Bioinformatics,2017,18:1-11[2022-10-06].https://link.springer.com/content/pdf/10.1186/s12859-017-1609-9.pdf.
[11] ZHENG S C,WANG F,BAO H Y,et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme [J/OL].arXiv:1706.05075 [cs.CL].[2022-10-09].https://arxiv.org/abs/1706.05075v1.
[12] EBERTS M,ULGES A. An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning [J/OL].arXiv:2102.05980 [cs.CL].[2022-10-09].https://arxiv.org/abs/2102.05980v2.
[13] WEI Z P,SU J L,WANG Y,et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.[S.I.]:Association for Computational Linguistics,2020:1476-1488.
[14] LIU Y H,OTT M,GOYAL N,et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach [J/OL].arXiv:1907.11692 [cs.CL].[2022-10-09].https://arxiv.org/abs/1907.11692.
作者簡介:李世龍(1997—),男,回族,河南平頂山人,碩士研究生在讀,研究方向:自然語言處理;張浩軍(1969—),男,漢族,浙江杭州人,博士,教授,碩士生導(dǎo)師,研究方向:人工智能;李大嶺(1997—),男,漢族,河南濮陽人,碩士研究生在讀,研究方向:自然語言處理;王家慧(1997—),女,漢族,河南開封人,碩士研究生在讀,研究方向:光網(wǎng)絡(luò)故障定位;齊晨陽(1998—),男,漢族,河南周口人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘。