国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LSTM-SNP 的命名實體識別

2023-11-22 17:37陳曉亮陳龍齊
關(guān)鍵詞:字符實體神經(jīng)元

鄧 琴,陳曉亮,陳龍齊

(西華大學(xué)計算機與軟件工程學(xué)院,四川 成都 610039)

脈沖神經(jīng)P 系統(tǒng)(SNPs)是從生物信息學(xué)的神經(jīng)元之間的脈沖通信機制中抽象出來的一類分布式并行計算模型[1]。1 個脈沖神經(jīng)P 系統(tǒng),通常由4 個基本元素構(gòu)成:結(jié)構(gòu)、數(shù)據(jù)、規(guī)則集和對規(guī)則的控制方法[2]。結(jié)構(gòu)細(xì)分為膜結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)2 部分。膜結(jié)構(gòu)由有向圖進行刻畫,其中圖的節(jié)點和邊分別表示神經(jīng)元和神經(jīng)元間的突觸。數(shù)據(jù)結(jié)構(gòu)形式化為脈沖多重集。1 個神經(jīng)元的內(nèi)部機制包含脈沖和規(guī)則。系統(tǒng)中的數(shù)據(jù)一般是由神經(jīng)元的脈沖統(tǒng)計個數(shù)來描述。規(guī)則是脈沖神經(jīng)P 系統(tǒng)完成信號傳遞的核心[3]。SNP 系統(tǒng)的規(guī)則分為2 個類別:脈沖規(guī)則和遺忘規(guī)則[4]。前者又叫作點火規(guī)則,表示消耗脈沖且同時產(chǎn)生新脈沖,后者僅消耗而不會產(chǎn)生新脈沖。

與傳統(tǒng)SNP 系統(tǒng)的區(qū)別在于,非線性脈沖神經(jīng)P 系統(tǒng)(NSNPs)[5]通過預(yù)定義的神經(jīng)元狀態(tài)非線性函數(shù)實現(xiàn)脈沖的消耗和產(chǎn)生。因此,NSNP 系統(tǒng)適用于捕獲復(fù)雜系統(tǒng)中的非線性特征。長短記憶神經(jīng)網(wǎng)絡(luò)(LSTMs)[6]屬于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)的變體。1 個LSTM 模型包含1 個隱藏狀態(tài)和3個門結(jié)構(gòu)(遺忘門、輸入門和輸出門),共同實現(xiàn)神經(jīng)元信息傳遞的調(diào)節(jié)。受到NSNP 系統(tǒng)脈沖和遺忘規(guī)則的啟發(fā),Liu 等 [7]基于LSTM 模型提出了新的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,即LSTM-SNP 模型。該模型只由一個非線性脈沖神經(jīng)元組成,具有非線性脈沖機制(非線性脈沖消耗和產(chǎn)生)和非線性門函數(shù)(重置、消耗和生成)。

循環(huán)模式可以較好地解決序列分析問題,例如,時間序列的預(yù)測。然而LSTM-SNP 作為傳統(tǒng)序列分析模型LSTM 的最新變體,在處理典型自然語言處理序列分析問題,如命名實體識別(NER)的性能表現(xiàn)未見相關(guān)研究。本文將序列分析模型LSTM-SNP 用于解決命名實體識別任務(wù),通過添加不同的深度學(xué)習(xí)組件,模型的性能得到顯著的提升,同時,設(shè)計了多組對比實驗,比較LSTM-SNP模型、傳統(tǒng)的LSTM 和雙向長短記憶網(wǎng)絡(luò)(BiLSTM)的性能。

1 相關(guān)工作

本文旨在研究LSTM-SNP 模型在命名實體識別任務(wù)上的適應(yīng)性問題,以評估模型在自然語言處理底層任務(wù)中的性能和潛力。命名實體識別任務(wù)是指在不規(guī)則文本中識別具有代表性的特定實體。其主要研究策略、方法根據(jù)時間的先后順序分為:基于規(guī)則、基于機器學(xué)習(xí)和基于深度學(xué)習(xí)。

1)基于規(guī)則的命名實體處理,以語法為基礎(chǔ)。Etzioni 等[8]和Wang 等[9]分別提出了基于地名詞典和基于詞匯句法模式引用規(guī)則的2 種經(jīng)典方法。這類方法具有設(shè)計簡單、復(fù)雜性低等優(yōu)點,但識別效果嚴(yán)重依賴領(lǐng)域?qū)<覍φZ料庫的標(biāo)注[10]。此外,在處理大規(guī)模數(shù)據(jù)集時基于規(guī)則的模型性能具有局限性。

2)機器學(xué)習(xí)已經(jīng)成為研究命名實體識別的主流技術(shù)。該任務(wù)在機器學(xué)習(xí)領(lǐng)域被定義為多分類序列標(biāo)注問題。主要技術(shù)包括最大熵(MaxEnt)、支持向量機(SVMs)、隱藏馬爾可夫模型(HMMs)、條件隨機場(CRFs)等。Makino 等[11]基于語音和單詞形式構(gòu)建了系列人工特征,繼而用HMM 提取特征,將其合并,并使用SVM 計算實體識別結(jié)果。Krishnan 等[12]利用2 個CRFs 來提取實體識別中的局部特征,并輸出由邏輯前向CRF 提取的特征信息。這些模型克服了基于規(guī)則的缺陷,然而,由于無法捕獲更多的上下文信息,當(dāng)面對句子過長的場景會導(dǎo)致模型性能的降低。

3)近期一些文獻(xiàn)強調(diào)了神經(jīng)網(wǎng)絡(luò)方法在解決NER 問題中的作用,包括長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTMs)、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)及其變體。神經(jīng)網(wǎng)絡(luò)方法避免了手動特征提取。Luo 等[13]提出了一個基于注意力的具有CRF 層的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Att-BiLSTM-CRF),繼而訓(xùn)練一個高準(zhǔn)確度的模型來識別已命名的實體。Li 等[14]建立的BiLSTM-CNN 模型表明,CNN 作為模型組件可以顯著提高實體識別的精度。Li 等[15]提出了一種新的替代方法W2NER,它將NER 建模為詞—詞關(guān)系分類。此外,Bert、LSTM 和多重二維擴展卷積(DConv)的有機組合可以較優(yōu)地處理NER 問題。

2 LSTM-SNP 模型實驗設(shè)計

本章對文中提到的命名實體任務(wù)進行形式化表述。設(shè)L={L1,···,Lt,···,Ln}為一個有標(biāo)簽的實例文本訓(xùn)練集,θ={θ1,···,θt,···,θm}為一組類別標(biāo)簽,如位置、組織、其他等。實例Lt中的詞語,記為tk,都被分配了一個標(biāo)簽 ε ∈θ。如果實例的詞語是已命名實體的元素,則它的標(biāo)簽是該實體的類別。NER 模型的基本處理步驟為:首先,通過在模型的嵌入層中使用獨熱編碼技術(shù),將具有n個單詞的句子X表示為向量序列X={x1,···,xt,···,xn};其次,將嵌入操作后的向量輸入到LSTM、BiLSTM 或LSTM-SNP 中,以生成區(qū)分實體的預(yù)測標(biāo)簽;最后,使用相關(guān)的評價指標(biāo)來評估模型的有效性。

2.1 LSTM-SNP 模型結(jié)構(gòu)

RNN 技術(shù)在自然語言處理(NLP)研究中得到了廣泛的應(yīng)用。但是,隨著模型層數(shù)的疊加,RNN網(wǎng)絡(luò)容易發(fā)生梯度消失和梯度爆炸的問題。長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTMs)[6]作為RNN 的變體,設(shè)計了3 個門控機制來調(diào)整細(xì)胞狀態(tài),如圖1 所示。LSTM 單元在時間步t的遺忘門、輸入門、輸出門通常分別形式化為函數(shù)ft,it,ot。其輸入的向量用xt表示。Ct表示單元在時間步驟t的狀態(tài)。

圖1 LSTM 模型細(xì)胞結(jié)構(gòu)圖Fig.1 Cell structure diagram of LSTM model

由于使用了sigmoid 型函數(shù),LSTM 能夠有效地選擇放棄和保留的信息。3 個門控單元的連接與控制的計算公式為:

Liu 等[7]認(rèn)為,LSTM-SNP 是在LSTM 基礎(chǔ)上用不同的非線性門函數(shù)、狀態(tài)方程和基于膜計算規(guī)則的輸入輸出進行的模型重構(gòu)。圖2 表示了新型門機制:復(fù)位門rt、消耗門ct和生成門ot。復(fù)位門根據(jù)當(dāng)前的輸入、上一時刻的狀態(tài)和偏置,決定前一狀態(tài)的復(fù)位程度。

圖2 LSTM-SNP 模型細(xì)胞結(jié)構(gòu)圖Fig.2 Cell structure diagram of LSTM-SNP model

生成門根據(jù)當(dāng)前輸入、上一時刻的狀態(tài)和偏置來指定輸出多少個生成的脈沖。xt表示輸入句子的向量??傮w而言,3 個門控裝置之間的連接與控制取決于公式(2)。

神經(jīng)元 σ產(chǎn)生峰值,為

根據(jù)3 個非線性門和產(chǎn)生的脈沖信號,計算神經(jīng)元 σ在t時刻的狀態(tài)和輸出為:

其中,ht表示LSTM-SNP 層的輸出,即NLP 任務(wù)的上下文隱層向量。圖1、圖2 以及LSTM 和LSTMSNP 的相關(guān)公式均在神經(jīng)元細(xì)胞的水平上進行描述。當(dāng)數(shù)百個神經(jīng)元連接起來執(zhí)行計算時,一個真正的仿生神經(jīng)網(wǎng)絡(luò)就形成了。

2.2 LSTM-SNP-CRF 模型

Lafferty 等[16]在2001 年提出條件隨機場(CRFs)。CRF 是統(tǒng)計關(guān)系學(xué)習(xí)的重要框架,具有較強的描述、邏輯推理,以及對不確定性的處理能力。作為典型的判別模型經(jīng)常被構(gòu)造為NER 或其他NLP學(xué)習(xí)模型的增強組件。本節(jié)闡述LSTM-SNP 和CRF組件的兼容性,目的在于研究CRF 組件能否在NER任務(wù)中提高LSTM-SNP 的識別準(zhǔn)確性。

本文選擇LSTM 和BiLSTM 這2 個模型作為LSTM-SNP 模型的參照實驗組,通過實體識別精度來評估3 個模型對CRF 層的性能提高敏感性。模型的處理流程為首先將文本經(jīng)過詞嵌入轉(zhuǎn)換為特征向量,然后分別送入LSTM-SNP、LSTM、BiLSTM這3 個模型獲取詞語之間的關(guān)系特征,最后將其輸入到CRF 處理層,獲得標(biāo)簽的分值,最大分值對應(yīng)的標(biāo)簽即為模型認(rèn)定的標(biāo)簽。模型整體處理流程如圖3 所示。LSTM-SNP 層的功能與LSTM 層和BiLSTM 層的功能相同。這3 層都是用來提取句子的特征。LSTM-SNP 層將依次被LSTM 或Bi-LSTM 層取代,用于CRF 敏感性比較。這些模型使用了BIO(begin,inside,outside)標(biāo)簽方案。

圖3 LSTM-SNP-CRF 模型、LSTM-CRF 模型、BiLSTM-CRF 模型的結(jié)構(gòu)Fig.3 Structure of the LSTM-SNP-CRF model,the LSTM-CRF model,and the BiLSTM-CRF model

2.3 GloVe-CNN-LSTM-SNP 模型

本節(jié)提出帶有GloVe[17]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[18]的LSTM-SNP 的整體體系架構(gòu),如圖4 所示。LSTMSNP、LSTM-SNP-CRF 這2 種模型中的嵌入表示僅采用了獨熱編碼連接層。這種嵌入方法會造成編碼稀疏、維度大、詞間相似性反應(yīng)能力弱等問題。因此,LSTM-SNP 在命名實體識別任務(wù)的有效性有待進一步的實驗證明。區(qū)別于傳統(tǒng)LSTM-SNP,本文采用了更高效的特征提取方法,具體分為基于詞級別的特征提取和字符級別的特征提取。詞級別的特征通過詞嵌入方法GloVe 以及手動定義詞大小寫特征的方法分別獲取語言特征和詞大小寫信息?;谧址墑e的特征提取是通過卷積神經(jīng)網(wǎng)絡(luò)CNN 以獲得詞更加細(xì)粒度的特征表示。CNN模型提取單詞的字符級特征的過程如圖5 所示。模型將GloVe 向量、CNN 向量和單詞大小寫信息向量通過拼接操作相結(jié)合,并通過LSTM-SNP 層進行處理。同時,為了驗證LSTM-SNP 模型在實際應(yīng)用中的優(yōu)越性,本文將LSTM-SNP 層分別替換為LSTM 層和BiLSTM 層用于性能比對。下面將基于詞級別和字符級別介紹各項特征提取技術(shù)。

圖4 GloVe-CNN-LSTM-SNP 模型、GloVe-CNN-LSTM 模型、GloVe-CNN-BiLSTM 模型的結(jié)構(gòu)Fig.4 Structure of the GloVe-CNN-LSTM-SNP model,the GloVe-CNN-LSTM model,and the GloVe-CNNBiLSTM model

圖5 CNN 模型提取單詞的字符級特征的過程Fig.5 The process of extracting character level features of words from CNN model

2.3.1 基于詞級別的語義特征提取

近年來,一些工具,如word2vec 和GloVe,已被廣泛應(yīng)用于命名實體識別(NER)。GloVe 是一種用于獲取詞的向量表示的無監(jiān)督學(xué)習(xí)算法。簡而言之,GloVe 允許獲取文本語料庫,并將該語料庫中的每個單詞直觀地轉(zhuǎn)換為高維空間位置。這意味著相似的詞將被放在一起,而這一技術(shù)也是詞嵌入技術(shù)的重要組成部分。本文受到Chiu 等[18]的啟發(fā),提出了一種基于預(yù)訓(xùn)練的字符嵌入方法,將來自維基百科和網(wǎng)絡(luò)文本的60 億個單詞作為訓(xùn)練資料,設(shè)計了一組基于GloVe embeddings3[17]的對比實驗。

2.3.2 基于詞級別的大小寫信息特征提取

因為在使用GloVe 詞嵌入方法時會丟失大量的字母大寫信息,所以本文借鑒Collobert[18]的方法獲取詞嵌入過程缺少的信息。該方法使用一個單獨的查找表來添加大寫選項:全為大寫、初始大寫、初始小寫、大小寫混合、其他。

本文的GloVe-CNN-LSTM-SNP 模型應(yīng)用了Collobert 等[18]的方法以在單詞嵌入期間獲得詞語大小寫信息,同時將該查找表選項擴展。選項包括:所有字母全小寫、所有字母全大寫、僅首字母大寫、全為數(shù)字、多部分為數(shù)字、少部分?jǐn)?shù)字(包含數(shù)字)、其他、填充標(biāo)記這8 個選項。將此選項表命名為查找表C 中,用于做基于詞級別的單詞大小寫信息嵌入。

2.3.3 基于字符級別的特征提取

CNNs[18]是當(dāng)前深度學(xué)習(xí)技術(shù)中最具有代表性的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),近年來受到了眾多學(xué)科的廣泛關(guān)注。實驗設(shè)置通過采用CNN 技術(shù),從英文文本資料中提取指定實體的字符級特征。

英語中的單詞通常由細(xì)粒度的字母構(gòu)成,CNN技術(shù)被用于處理這些字母。這些字母包含了諸如前綴/后綴等隱藏特征。對于不同類型的字符,實驗設(shè)置了不同的隨機字符向量,以區(qū)分字符和字符類型(字母、數(shù)字、標(biāo)點符號、特殊字符等)。例如,大寫字母‘A’和小寫字母‘a(chǎn)’對應(yīng)于2 組不同的字符向量集。圖5 展示了CNN 從一個單詞中提取字符級特征的過程。

結(jié)合詞級別和字符級別的特征表示,并將2 種級別的特征表示向量進行拼接,得到完整的單詞嵌入表示。該詞嵌入表示包括了詞的語言相關(guān)特征、詞語的字符特征、詞的大小寫信息。圖6 展示了在GloVe 和LSTM-SNP 基礎(chǔ)上加入CNN 模塊后的整體模型,即完整的GloVe-CNN-LSTM-SNP模型。LSTM-SNP 層的功能與LSTM 層和BiLSTM層的功能相同。這3 層都是用來提取句子的特征。LSTM-SNP 層將依次被LSTM 或BiLSTM 層取代,用于比較3 種模型對于CNN 的敏感程度。

圖6 GloVe-CNN-LSTM-SNP 模型的架構(gòu)Fig.6 Architecture of GloVe-CNN-LSTM-SNP model

3 實驗分析

3.1 數(shù)據(jù)集

本研究優(yōu)先采用2 個經(jīng)典的命名實體識別數(shù)據(jù)集CoNLL-2003 和OntoNotes5.0,對基于CRF、基于GloVe 和基于CNN 的LSTM-SNP 模型性能進行評估。所有的數(shù)據(jù)集都可以在網(wǎng)站公開獲得。CoNLL-2003 數(shù)據(jù)集可以通過文獻(xiàn)[19]網(wǎng)站下載。OntoNotes5.0 數(shù)據(jù)集可以通過文獻(xiàn)[20]網(wǎng)站下載。關(guān)于數(shù)據(jù)集的訓(xùn)練測試和驗證集的句子數(shù)量劃分如表1 所示。

表1 語料庫句子統(tǒng)計Tab.1 Corpus sentence statistics

3.2 評估標(biāo)準(zhǔn)

根據(jù)前期工作[21],為正確評估LSTM-SNP 在命名實體識別任務(wù)中使用CRF、CNN 和GloVe 時模型的有效性,本文選擇了NLP 領(lǐng)域的通用評估度量系統(tǒng),即精度(P)、召回率(R)和準(zhǔn)確率(Acc)。測試樣本被分為實際的實體類別和預(yù)測的實體類別。實驗結(jié)果分為4 類,如表2 所示。預(yù)測的實體代表由模型得出的實體標(biāo)簽,實際的實體代表人工標(biāo)注的真實標(biāo)簽。

表2 混淆矩陣Tab.2 Confusion matrixs

本文采用的精度(P)、召回率(R)和準(zhǔn)確率(Acc)定義為:

式中:TP(true positive)表示模型正確地將一個實體標(biāo)記為正類,即模型正確地將一個實體標(biāo)記為實體,并且這個實體與真實標(biāo)簽一致;FN(false negative)表示模型錯誤地將一個實體標(biāo)記為負(fù)類,即模型沒有將一個實體標(biāo)記為實體,或者將實體標(biāo)記為了錯誤類型;FP(false positive)表示模型錯誤地將一個非實體標(biāo)記為正類,即模型將一個非實體錯誤地標(biāo)記為了實體;TN(true negative)表示模型正確地將一個非實體標(biāo)記為負(fù)類,即模型正確地將一個非實體標(biāo)記為非實體。

命名實體識別任務(wù)涉及多種分類。因此,微平均F1(F1macro)值也被用作性能評估指標(biāo),定義為:

式中:P1,P2,···,Pn分別代表第1 種實體類別,第2 種實體類別以及第n種實體類別的精度值;R1,R2,···,Rn分別代表第1 種實體類別,第2 種實體類別以及第n種實體類別的召回率。

3.3 參數(shù)配置

根據(jù)LSTM-SNP、LSTM 和BiLSTM 的模型結(jié)構(gòu),首先在實驗中實現(xiàn)了這3 種模型。當(dāng)對比實驗依次添加CNN 和GloVe 作為嵌入模型時,模型的內(nèi)部參數(shù)保持不變。

LSTM-SNP 模型除了需要學(xué)習(xí)的權(quán)重矩陣和偏差向量外,還有一些通過實驗確定的先驗參數(shù),包括迭代計數(shù)(iterations)、Dropout 率和神經(jīng)元數(shù)量(neurons)。

圖7 展示了LSTM-SNP 在CoNLL-2003 數(shù)據(jù)集上經(jīng)過不同迭代次數(shù)和提前停止次數(shù)訓(xùn)練時的性能差異,包括15-4、15-5、15-6、15-10、20-5、20-10 和100-50。由圖可知,當(dāng)?shù)螖?shù)和提前次數(shù)為15-5 時,LSTM-SNP 在CoNLL-2003 數(shù)據(jù)集上取得了72.5%的F1macro值。因此不同迭代次數(shù)和提前次數(shù)采用15-5。

圖7 基于數(shù)據(jù)集CoNLL-2003 上的不同的迭代次數(shù)與提前停止次數(shù)對LSTM-SNP 模型 F1macro分?jǐn)?shù)的影響Fig.7 Influence of iterations and early-stops on F1macro based on LSTM-SNP model and dataset CoNLL-2003

本文還考察了不同的Dropout 率對LSTM-SNP模型F1macro分?jǐn)?shù)的影響,即當(dāng)?shù)螖?shù)與提前停止次數(shù)定為15-5 時,Dropout 率分別為0%、5%、10%、25%、50%和75%。圖8 所示的對比實驗結(jié)果表明,當(dāng)Dropout 率為50%時,F(xiàn)1macro值為72.8%,適合于模型訓(xùn)練。

圖8 基于數(shù)據(jù)集CoNLL-2003 上的不同Dropout 率對LSTM-SNP 模型F 1macro分?jǐn)?shù)的影響Fig.8 Influence of Dropout rates on F1macro based on LSTMSNP model and dataset CoNLL-2003

當(dāng)?shù)螖?shù)和提前停止次數(shù)為15-5、Dropout率為50%時,設(shè)置不同的神經(jīng)元個數(shù)(32、64、128、256 和512)進行實驗。如圖9 所示的當(dāng)前結(jié)果發(fā)現(xiàn),神經(jīng)元數(shù)量設(shè)為256 有利于模型訓(xùn)練。

圖9 基于數(shù)據(jù)集CoNLL-2003 上的不同的神經(jīng)元個數(shù)率對LSTM-SNP 模型F 1macro分?jǐn)?shù)的影響Fig.9 Influence of neurons on F1macro based on LSTM-SNP model and dataset CoNLL-2003

3.4 對比實驗結(jié)果分析

本研究的最初目標(biāo)是確定LSTM-SNP 模型對CRF、GloVe 詞嵌入和CNN 等傳統(tǒng)深度學(xué)習(xí)組件的適應(yīng)性。在保持相同的超參數(shù)基礎(chǔ)上,如表3 所示,本文將A、B、C、D 4 組模型在2 個數(shù)據(jù)集上進行實驗,獲得以實體為單位的識別結(jié)果。模型得分情況如表4 所示。其中:LSTM-SNP 在2 個數(shù)據(jù)集上的表現(xiàn)與LSTM 相似;所有模型在數(shù)據(jù)集CoNLL-2003 的F1macro平均得分比數(shù)據(jù)集Onto-Notes5.0 高出10 分左右。一個重要的原因是數(shù)據(jù)集CoNLL-2003 和OntoNotes5.0 中存在著不同的實體類別數(shù)量。前者分4 類,后者分18 類。這說明,LSTM-SNP 模型以及這類循環(huán)神經(jīng)網(wǎng)絡(luò)模型在對少量實體進行分類是具有更好的識別效果。本文從2 個不同的視角對實驗結(jié)果進行分析。

表3 對比實驗設(shè)置Tab.3 Contrast experiment settings

表4 LSTM-SNP、LSTM、BiLSTM 在數(shù)據(jù)集CoNLL-2003 和OntoNotes5.0 的性能結(jié)果Tab.4 Performance results of LSTM-SNP,LSTM,and BiLSTM in the dataset CoNLL-2003 and OntoNotes5.0

3.4.1 基于A、B、C、D 組的實驗分析

A 組的LSTM-SNP 模型在數(shù)據(jù)集CoNLL-2003中的F1macro分?jǐn)?shù)為73.35%,在數(shù)據(jù)集OntoNotes-5.0 中為39.30%。BiLSTM 的F1macro得分在2 個數(shù)據(jù)集下都是最高的。一個未預(yù)料到的發(fā)現(xiàn)是,LSTM-SNP 模型和LSTM 模型在NER 任務(wù)上的F1macro分?jǐn)?shù)方面沒有顯著差異。整體而言,在處理4 種實體類型問題時,3 種模型的表現(xiàn)均優(yōu)于18 種實體類型的模型。

B 組添加CRF 后,LSTM、BiLSTM 和LSTMSNP 3 種模型的性能均得到改善。在數(shù)據(jù)集Co-NLL-2003 和OntoNotes5.0 中,LSTM-SNP 模型在2 個數(shù)據(jù)集的F1macro得分分別為76.16%和59.95%。添加了CRF 的BiLSTM 在2 個數(shù)據(jù)集中性能仍然是最好的。值得一提的是,LSTM-SNP-CRF 在數(shù)據(jù)集OntoNotes5.0 擁有更明顯的性能改進。與A 組相比,F(xiàn)1macro約提高了20%。

C 組的得分體現(xiàn)了GloVe 詞嵌入對模型的貢獻(xiàn)。實驗結(jié)果顯示,在使用GloVe 詞嵌入時,3 個模型的學(xué)習(xí)效果均比A 組和B 組更優(yōu)。在2 個數(shù)據(jù)集上,模型GloVe-LSTM-SNP 的F1macro分別比A 組的LSTM-SNP 高4%和34.47%。但是,從2 個數(shù)據(jù)集的F1macro來看,GloVe-LSTM-SNP的得分在2 個數(shù)據(jù)集上最低,分別為77.34%和73.77%。

D 組與C 組相比,3 個模型均無顯著差異。與C 組3 個沒有添加CNN 組件的模型相比,D 組的每個模型性能有輕微的提高。在數(shù)據(jù)集OntoNotes-5.0 中,GloVe-CNN-GloVe 相比A 組的F1macro提高35.82%。顯然,D 組的3 個模型在2 個數(shù)據(jù)集上都取得了最高得分。

3.4.2 3 種模型的消融實驗分析

將CRF 添加到LSTM-SNP、LSTM、BiLSTM 3 個模型時,各模型在數(shù)據(jù)集CoNLL-2003 上的F1macro分別提高了2.81%、4.05%和0.12%。3 個模型在數(shù)據(jù)集OntoNotes5.0 上的F1macro分別提高20.65%、20.45%和20.5%。實驗結(jié)果表明,LSTM和LSTM-SNP 模型的性能提升程度在數(shù)據(jù)集CoNLL-2003 上比BiLSTM 模型更大,在數(shù)據(jù)集OntoNotes5.0 上提升程度相似。

需要指出的是,數(shù)據(jù)集CoNLL-2003 的數(shù)據(jù)量相對于數(shù)據(jù)集OntoNotes5.0 來說較小。數(shù)據(jù)集Co-NLL-2003 大約是數(shù)據(jù)集OntoNotes5.0 的3.5 倍。因此,模型LSTM-SNP、LSTM 與BiLSTM 相比,LSTM-SNP 和LSTM 對數(shù)據(jù)集的質(zhì)量和數(shù)量更為敏感。

在LSTM-SNP、LSTM、BiLSTM 這3 個模型中添加GloVe 詞嵌入,當(dāng)處理數(shù)據(jù)集CoNLL-2003時,F(xiàn)1macro值相比于A 組分別增加了3.99%、9.06%和8.43%。將GloVe 詞嵌入應(yīng)用到LSTM-SNP、LSTM 和BiLSTM 模型中,在CoNLL-2003 數(shù)據(jù)集上與A 組比較,F(xiàn)1macro值分別提高了3.99%、9.06%和8.43%。此外,在OntoNotes5.0 數(shù)據(jù)集下,與原始模型A 組相比,分別提高了34.47%、38.65%和24.02%。實驗結(jié)果表明:F1macro改善非常顯著,GloVe 詞嵌入對模型的性能有很大的改善。

然而,隨著數(shù)據(jù)集數(shù)量的增加,BiLSTM 模型的F1macro得分提高幅度不如其他2 個模型。這一現(xiàn)象在某種程度上證明了BiLSTM 受數(shù)據(jù)量影響相對較小,而其他2 種模型受數(shù)據(jù)量影響較大。對于LSTM-SNP 模型,通過添加預(yù)處理方法,如詞嵌入,該模型能夠表現(xiàn)得更好。

在LSTM-SNP、LSTM、BiLSTM 中同時加入CNN 和GloVe 進行處理時,在CoNLL-2003 數(shù)據(jù)集下,3 個模型的性能均比A 組的基線模型提高了4.77%、9.20%和8.76%。在數(shù)據(jù)集OntoNotes5.0下,F(xiàn)1macro分別提高35.82%、39.24%和24.34%。這些數(shù)據(jù)共同證明了添加CNN 和詞嵌入的有效性。類似地,LSTM-SNP 和LSTM 都有較大的增加,也說明了上述結(jié)論。此外,通過添加CNN從單詞嵌入中學(xué)習(xí)字符級特征,3 個模型在2 個數(shù)據(jù)集上的性能提升很小。結(jié)果顯示,基于文字嵌入的特征方法可以有效地改善LSTM-SNP 模型的性能,并具有較好的效果。

4 總結(jié)與展望

本文旨在評價LSTM-SNP 模型在序列問題(命名實體識別)應(yīng)用中的有效性。同時,為了探索LSTM-SNP 模型是否具有在自然語言處理領(lǐng)域的研究潛力,本文在LSTM-SNP 模型以及其對比模型LSTM 和BiLSTM 中有序添加了一些深度學(xué)習(xí)組件,包括CRF、單詞嵌入等,以對比組件對不同模型的性能提升幅度,從而為LSTN-SNP 模型的未來研究提供可靠數(shù)據(jù)參考。

實驗表明,傳統(tǒng)LSTM-SNP 模型在命名實體任務(wù)中的性能與LSTM 模型基本相似,但與BiLSTM 的良好性能仍存在一定的差距。此外,實驗發(fā)現(xiàn),LSTM-SNP 模型受數(shù)據(jù)集領(lǐng)域知識的影響較大。在LSTM-SNP 模型中加入CRF、詞嵌入和CNN,該模型的性能有了顯著的提高。加入詞嵌入、CNN 等特征預(yù)處理模塊可以極大地改善模型的總體性能??傮w而言,LSTM-SNP 模型在命名實體識別任務(wù)中具有潛力,并且有比較大的改進空間。

未來的工作將考慮使用LSTM-SNP 模型提取實體局部特征。本文僅考慮了實體上下文特征,其粒度不夠細(xì)膩。因此,將注意機制引入到LSTM-SNP模型中,利用注意機制來提取局部特征[22],從而實現(xiàn)對命名實體識別有較大影響權(quán)重特征的重點關(guān)注。同時,考慮實現(xiàn)多層或雙向的LSTM-SNP 模型,以提高模型提取特征的能力。

猜你喜歡
字符實體神經(jīng)元
尋找更強的字符映射管理器
《從光子到神經(jīng)元》書評
字符代表幾
前海自貿(mào)區(qū):金融服務(wù)實體
一種USB接口字符液晶控制器設(shè)計
消失的殖民村莊和神秘字符
躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”