摘要:傳統(tǒng)命名實體方法識別準確率不高,難以在知識領域得到有效體現(xiàn)?;赗oBERTa-BiLSTM-CRF模型進行改進,在RoBERTa與BiLSTM層之間增加CNN進行局部特征提取。通過BERT改進版RoBERTa,將文本序列轉換為高維向量表示,捕捉深層語義信息。CNN進行卷積操作,生成捕捉文本局部信息的特征圖。BiLSTM結合前后文信息編碼序列。CRF層計算標簽序列得分,通過動態(tài)規(guī)劃找到最高得分的標簽序列作為標注結果。實驗結果的P、R、F1指標提升1.11%、1.21%、1.08%,該模型具備較高的準確性。
關鍵詞:命名實體識別; RoBERTa-BiLSTM-CRF模型;CNN
一、前言
“數(shù)據(jù)結構”課程對培養(yǎng)算法設計與分析能力至關重要。構建該課程知識圖譜,用三元組表達概念關系,可形成全面系統(tǒng)的知識體系,助力學生深入學習和進階發(fā)展。命名實體識別是構建數(shù)據(jù)結構領域知識圖譜中不可或缺的一部分。
傳統(tǒng)命名實體識別的方法有基于規(guī)則和詞典的方法、基于統(tǒng)計的方法、二者混合的方法等。基于規(guī)則和詞典的方法依賴于專家構造規(guī)則模板和詞典,該方法的優(yōu)勢在于其準確性高,但需要耗費大量人力制定規(guī)則和詞典。隨著機器學習技術發(fā)展,許多算法被廣泛應用于監(jiān)督命名實體識別(NER)任務中,并取得了顯著的成果,張航[1]等人基于HMM+CRF在《人民日報》進行實體抽取,并獲得較好的性能提升。段少鵬[2]等人提出基于條件隨機場和支持向量機的雙層模型對老撾的組織名稱進行識別。
深度學習技術為知識實體識別提供了新思路,基于深度學習的實體識別方法可自動學習文本特征與上下文信息,實現(xiàn)精準識別。預訓練語言模型則提供了強大的特征表示能力,結合深度學習模型,利用各自優(yōu)勢,顯著提升了命名實體識別(NER)任務的性能與準確性。杜文然[3]等人通過數(shù)據(jù)增強的RoBERTa-BiLSTM-CRF模型應用在貨運一口價議價策略的命名實體識別,相較于傳統(tǒng)模型均有顯著提高。劉慧敏[4]等人提出RoBERTa-BiLSTM-CRF的解決方案應用在簡歷實體識別,可高效且準確地進行實體識別,提高從業(yè)者工作效率。
二、模型原理
(一)模型概述
本文采用RoBERTa-CNN-BiLSTM-CRF模型進行實體識別,結合了預訓練模型、卷積神經(jīng)網(wǎng)絡、雙向長短期記憶網(wǎng)絡和條件隨機場。RoBERTa作為BERT的改進版,將文本序列轉換為高維向量,捕捉深層語義信息。CNN對RoBERTa的輸出進行卷積操作,生成特征圖,捕捉文本局部信息。BiLSTM接收CNN輸出,通過前向和后向LSTM編碼序列,融合上下文信息。CRF層接收BiLSTM的標簽概率分布,計算轉移和發(fā)射概率,通過動態(tài)規(guī)劃找到最高得分的標簽序列作為標注結果。模型如圖1所示:
(二)RoBERTa模塊
RoBERTa相較BERT有諸多改進,采用動態(tài)Masking,每次輸入生成新遮蓋方式,增強模型對遮蓋內(nèi)容的理解。舍棄BERT的下一句預測任務,專注提升文本表示質(zhì)量。繼承BERT的Transformer編碼器思想,利用自注意力機制和全連接層捕獲文本深層語義,轉化為高維向量供CNN模塊使用。Transformer編碼層主要依賴Encoder特征提取器,通過計算注意力權重并進行歸一化,從而有效捕獲并生成文本的語義向量。計算公式(1)如下:
(1)
Q,K,V表示每個字符通過線性變換乘以矩陣WQ,WK,WV得到,dK表示向量維度。
(三)CNN模塊
CNN模塊接收RoBERTa輸出的嵌入向量,利用卷積層與池化層降維進一步提取局部特征,對于捕捉文本細節(jié)和模式至關重要,特別是命名實體識別的邊界識別。
卷積層公式:
(2)
Xck表示輸入的特征圖,ωck表示卷積核,bc表示偏置向量,K表示卷積核數(shù)量,yc表示輸出特征圖。
池化層公式:
(3)
χp(i,j)表示輸入特征圖,rp表示表示池化窗口大小,yp表示池化層輸出特征圖。
(四)BiLSTM模塊
BiLSTM通過將前向和后向LSTM的輸出進行拼接,同時利用序列的前后信息,從而更準確地理解當前位置的語義。BiLSTM模塊位于CNN模塊之后。它接收CNN模塊提取的局部特征作為輸入,并通過其內(nèi)部機制進一步對這些特征進行編碼和整合。
LSTM網(wǎng)絡本身具有記憶單元,能夠存儲和更新序列中的信息,通過輸入門、遺忘門和輸出門來控制信息的流動。這些門控機制能夠選擇性地保留或遺忘信息,從而有效地避免梯度消失或爆炸的問題,計算公式如下。
遺忘門計算公式:
(4)
輸入門計算公式:
(5)
輸出門計算公式:
(6)
長記憶計算公式:
(7)
(8)
短記憶計算公式:
(9)
遺忘門接收前一個隱藏狀態(tài)ht-1和當前輸入xt作為輸入決定丟棄的信息,通過公式(4)輸出0到1的數(shù)值ft,該數(shù)值會作用于上一個Cell狀態(tài)Ct-1,1表示“完全保留”,0表示“完全忘記”。遺忘門有助于在序列中保存長期信息;然后計算輸入門,接收前一個隱藏狀態(tài)ht-1和前一個輸入xt-1,公式(5)輸出得到一個在0到1之間的數(shù)值,用于決定當前候選狀態(tài)在信息傳遞過程中應保留或丟棄的信息量占比;至于候選C?,公式(6)tanh層負責創(chuàng)建候選向量,該向量作為新的信息候選,結合前一個細胞狀態(tài)Ct-1和遺忘值ft共同決定細胞狀態(tài)如何更新,再由公式(7)更新Cell狀態(tài);通過公式(8)輸出一個在0到1之間的數(shù)值輸出門Ot;最后公式(9)決定了當前時刻隱藏狀態(tài)Ct有多少信息需要輸出。
(五)CRF模塊
CRF通過轉移概率矩陣建模標簽間依賴關系,解碼時考慮所有可能的標簽序列,并選擇聯(lián)合概率最大的序列作為輸出。CRF的損失函數(shù)關注模型輸出與真實標簽的匹配度,由發(fā)射和EmissionScore轉移分數(shù)TransitionScore組成。如公式(10)(11)所示:
PTotal計算公式:
(10)
(11)
模型計算輸入序列所有可能標簽序列的概率,并選擇概率最大的作為輸出。損失函數(shù)旨在最小化模型輸出與真實序列的差異,通過比較所有路徑總概率PToual與真實路徑概率PRealPath實現(xiàn)。目標是提高PRealPath在PToual中的占比。采用負對數(shù)似然損失函數(shù)衡量匹配程度,損失值越大表示序列越優(yōu),從而提高識別準確率。計算公式如(12)所示。
損失函數(shù)計算公式:
(12)
三、實驗設計與結果分析
本文數(shù)據(jù)主要來自教材和網(wǎng)絡資源。教材以《數(shù)據(jù)結構與算法》C語言版嚴蔚敏(第二版)為主。同時爬取CSDN、知乎等網(wǎng)站的數(shù)據(jù),經(jīng)過清洗整理,最終得到包含課程知識實體的句子樣本共13160條。
(一) 命名實體分類與標注
通過對樣本進行分析,本文選擇采用人工方法構建本體,將課程知識按算法、結構,以及其他定義三個實體分類。本文采取BIO實體標準法,實體分類與數(shù)據(jù)標注,見表1。
(二)評價指標
取樣本中4/5做訓練集,1/5進行測試。本文采用準確率(P)、召回率(R)和F1作為評價指標。
(13)
(14)
(15)
TP為模型正確識別的實體數(shù),F(xiàn)P為模型錯誤識別的實體數(shù),F(xiàn)N為模型沒有正確識別的實體數(shù)。
(三)實驗環(huán)境及參數(shù)
本文實驗服務器配置見表2。
(四)實驗結果與分析
為驗證RoBERTa-CNN-BiLSTM-CRF模型的效果,本文選取3個模型進行對比,各模型性能指標見表3。
從實驗結果可知,本文所使用RoBERTa-CNN-BiLSTM-CRF模型的P、R、F1等指標均高于其他模型,在RoBERTa-BiLSTM增加CNN對RoBERTa的輸出進行卷積操作,生成捕捉文本局部信息的特征,捕捉文本細節(jié)和模式。該模型的各項評測指標分別提升1.11%、1.21%、1.08%,可見該模型在數(shù)據(jù)結構課程知識命名實體識別上具有較大優(yōu)勢和前景。
四、結語
本文提出了通過在RoBERTa與BiLSTM層之間增加CNN進行局部特征提取來改進RoBERTa-BiLSTM-CRF模型的實體識別方法。RoBERTa將文本序列轉換為高維向量表示,捕捉深層語義信息。CNN捕捉文本的局部特征。BiLSTM融合前后文信息,準確表示上下文關系。CRF層通過計算標簽轉移和發(fā)射概率,找到得分最高的標簽序列作為實體標注結果。實驗結果表明,RoBERTa-BiLSTM增加CNN對RoBERTa的輸出進行卷積操作,生成捕捉文本局部信息的特征,捕捉文本細節(jié)和模式。該模型的各項評測指標分別提升1.11%、1.21%、1.08%,可見該模型具有較高的準確性。
參考文獻
[1]張航,文斌.基于HMM+CRF詞性標注的實體抽取方法[J].計算機與數(shù)字工程,2023,51(12):2929-2933.
[2]Duan, S.P., Zhou, L.J., Zhou, F., et al. (2017) Laos Organization Name Using Cascaded Model Based on SVM and CRF. MATEC Web of Conferences, 100, Article No. 02051.
[3]杜文然,靳征,代明睿,等.基于RoBERTa-BiLSTM-CRF模型的鐵路貨運一口價議價策略命名實體識別[J].鐵路計算機應用,2023,32(05):11-15.
[4]劉慧敏,熊菲,王國慶.基于RoBERTa-BiLSTM-CRF的簡歷實體識別 [J].電腦知識與技術,2023,19(04):14-17.
作者單位:貴州水利水電職業(yè)技術學院
■ 責任編輯:王穎振、楊惠娟