李東升 鮑玉來 劉建華等
關(guān)鍵詞: 命名實體識別; 高校圖書館; 微信服務(wù); BERT; 雙向長短記憶網(wǎng)絡(luò); 條件隨機場
DOI:10.3969 / j.issn.1008-0821.2023.04.007
〔中圖分類號〕TP391.1 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 04-0064-13
隨著互聯(lián)網(wǎng)技術(shù)的不斷普及和發(fā)展, 網(wǎng)絡(luò)信息服務(wù)已成為高校圖書館重要的服務(wù)新模式[1] 。高校圖書館重視智慧服務(wù)的研究工作逐漸增強, 它是一種知識服務(wù)的新模式, 通過利用先進的信息技術(shù)和圖書館的資源, 以主動的搜尋、嵌入式的服務(wù)、有效的信息分析和創(chuàng)新為基礎(chǔ)實現(xiàn)圖書館的智能化服務(wù), 促使高校圖書館開展更加豐富的實踐[2-4] 。命名實體識別(Name Entity Recognition, NER)作為文本信息識別的技術(shù)方法, 是正確理解文本的基礎(chǔ),也是智慧化服務(wù)的知識引擎[5] 。NER 技術(shù)是將實體類型預(yù)先定義, 能夠?qū)崿F(xiàn)在大量的半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)中識別出不同的實體, 因而廣泛應(yīng)用于知識圖譜、智能問答、機器翻譯、對話和信息檢索等復(fù)雜的自然語言處理任務(wù)[6-8] 。網(wǎng)絡(luò)信息資源為高校圖書館信息服務(wù)拓展提供了大量的圖情類文本信息, 借助NER 技術(shù), 圖書館工作人員能夠從大量的相關(guān)文本信息中快速識別出領(lǐng)域內(nèi)有價值的知識,在圖書館服務(wù)模式的推廣與應(yīng)用中具有較大的參考價值。圖書館的服務(wù)能否及時和高效地利用網(wǎng)絡(luò)信息資源, 并借鑒新的服務(wù)發(fā)展模式, 有效滿足用戶新的信息需求, 將成為其保持對用戶吸引力和有效性的關(guān)鍵[9] 。高校圖書館微信移動信息服務(wù)是各大高校圖書館拓展服務(wù)的重要平臺, 為圖書館服務(wù)的開展提供了有效的方式, 是便捷的信息獲取和資源共享的可靠平臺。高校圖書館可以利用命名實體識別技術(shù), 有針對性地從其豐富的知識、多樣的信息資源中挖掘知識, 形成知識服務(wù)產(chǎn)品, 為其服務(wù)拓展、優(yōu)化和創(chuàng)新提供參考依據(jù)。
基于深度學(xué)習(xí)的命名實體識別技術(shù), 在文本信息上特征提取的深度和模型的精確度的優(yōu)異表現(xiàn),已成為有序、有效地利用信息資源的重要方法[10] 。2013 年, Mikolov T 等[11] 提出模型Word2vec, 該模型采用skip-Gram 或CBOW 模型預(yù)測詞匯并通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練相應(yīng)的嵌入向量, 在命名實體識別方面取得良好的效果。在詞訓(xùn)練方面, 如Glove、Fast?text 等模型在命名實體識別中有較多的嘗試應(yīng)用,均有較大的研究進展[12] 。然而, Word2vec 等預(yù)訓(xùn)練模型仍然存在無法表征一詞多義的問題, 因為它們主要關(guān)注的是詞或者字符之間的特征, 而忽略了詞的上下文語境, 導(dǎo)致其實體識別能力有限。在中文命名實體識別自然語言處理領(lǐng)域, 相比英文存在較多困難, 英文的詞語構(gòu)造形式比中文在實體命名識別方面體現(xiàn)出更多的語義信息[13] 。Su T R 等[14]基于漢字字形學(xué)習(xí)特征, 在詞向量方面的研究對中文文本在訓(xùn)練出現(xiàn)的語義特征所存在的困難和問題有較好的效果; Yu J 等[15] 研究提出一種組合學(xué)習(xí)語義特征的狀態(tài)和更加細粒度的Subcharacter 的方法, 并學(xué)習(xí)了中文在語言相似性和語言特征融合任務(wù)上詞向量任務(wù)。在實體命名識別領(lǐng)域中, BERT在詞向量訓(xùn)練方面有效解決一詞多義的問題, 是一種基于序列到序列模式(Seq2Seq)結(jié)構(gòu)上的創(chuàng)新。
2018年, Google團隊提出基于注意力機制的Trans?formers[16] 模型的BERT(Bidirectional Encoder Repre?sentations from Transformers), 不同于傳統(tǒng)的RNN和CNN(卷積神經(jīng)網(wǎng)絡(luò)), 該模型使用了Transform?ers 作為算法的主要框架, 增強預(yù)訓(xùn)練詞向量模型的泛化能力, 使得模型能夠更徹底地捕捉語句中的雙向關(guān)系, 更好地表征不同語境中的句法和語義信息。通過BERT訓(xùn)練詞向量, 對前后文本的預(yù)測考慮了前后雙向的輸入信息, 體現(xiàn)出語境不同所含有相同詞的語法或字詞。因此, 在實體識別領(lǐng)域, 許多學(xué)者基于BERT 訓(xùn)練模型學(xué)習(xí)詞向量的分布, 以提高實體識別的精度。黃梅根等[17] 基于BERT優(yōu)化模型, 采用關(guān)系分類與元素抽取兩個任務(wù)模型進行命名實體識別, 取得了較好的效果。岳琪等[18]基于BERT改進與雙向RNN模型分析林業(yè)實體識別和實體關(guān)系的抽取, 并驗證了該領(lǐng)域內(nèi)構(gòu)建知識圖譜的可行性。在警情領(lǐng)域關(guān)鍵實體文本中, 王月等[19] 使用了BERT 預(yù)訓(xùn)練詞向量, 模型在命名實體識別研究方法上設(shè)計了不同方案以提高準確率。
以上不同研究領(lǐng)域的命名實體識別方法為本文在高校圖書館微信信息服務(wù)進行命名實體識別提供了參考。目前, 在高校圖情領(lǐng)域命名實體識別的研究中, 由于缺乏對領(lǐng)域?qū)嶓w語料庫的研究, 提升實體識別效果存在較大的難度, 如文本中隱含的信息實體類別無法充分識別、數(shù)據(jù)量小、人工標注成本高等。為了解決高校圖情領(lǐng)域的命名實體識別問題, 針對高校圖情領(lǐng)域語料資源缺乏、人工標注難以滿足等對提升領(lǐng)域?qū)嶓w識別效果的情況下, 通過知識規(guī)則具體定義實體的邊界, 本文構(gòu)建了高校圖書館微信服務(wù)推文文本的數(shù)據(jù)集ULICNER。由于BERT 具有較強的語義表達能力, 利用BERT學(xué)習(xí)大規(guī)模文本后生成具有語義特征的字符向量, 接著通過BiLSTM 層對BERT的輸入文本序列學(xué)習(xí)獲取上下文的文本特征, 最后通過連接CRF 層得到最佳的序列輸出。因此, 本文采用基于BERT-BiLSTMCRF模型構(gòu)建高校圖書館微信信息服務(wù)文本中命名實體的方法, 完成高校圖書館微信服務(wù)領(lǐng)域的命名實體識別任務(wù)。
1文本數(shù)據(jù)集的采集與分析
1.1數(shù)據(jù)的來源
高校圖書館服務(wù)信息的文本不同于其他領(lǐng)域文本, 具有服務(wù)多樣性、規(guī)律性、客觀性, 這對其文本的語義識別技術(shù)使用產(chǎn)生了較大影響。為保證數(shù)據(jù)的可靠性和準確性, 本文參考了基于教育部的《普通高等學(xué)校圖書館規(guī)程》[20] 和圖書情報檢索領(lǐng)域內(nèi)的《中國圖書館分類法》[21] 的語義分類方法和詞語用法。數(shù)據(jù)文本的采集通過清博指數(shù)平臺上的高校圖書館微信服務(wù)公眾號榜單[22] , 該榜單涵蓋了全國開通微信服務(wù)的946 所高校, 從中爬取了涵蓋高校圖書館對服務(wù)范圍、用戶需求、業(yè)務(wù)能力和文化推廣等方面的36 000多條文本, 約60萬字符。
1.2文本的實體特征分析
由于不同領(lǐng)域文本的實體有不同的特點, 高校圖書館服務(wù)領(lǐng)域語料與醫(yī)療、司法和輿情等其他領(lǐng)域存在不同的特征, 它們之間相互的詞匯重疊的相似度較低[23] 。因此, 詞分布不同的領(lǐng)域文本實體識別效果會在模型中體現(xiàn)出不同的特征, 進而需要設(shè)計不同的實體識別方法和分類。如實體類的“文化” 指圖書館文化交流活動, 是各種活動通知、沙龍互動交流、新聞、黨建、學(xué)術(shù)交流、競賽、文化活動、文化環(huán)境和文化展覽等, 其他各類實體的含義及示例如表1所示。
1.3數(shù)據(jù)文本的標注
本文基于BIO 法對高校圖書館微信服務(wù)推文文本的數(shù)據(jù)集ULICNER 進行標記。由于獲取的特定數(shù)據(jù)文本進行標注任務(wù)常采用純?nèi)斯俗⒌姆椒ǎ?在質(zhì)量控制方面存在效率低和錯誤率高的問題[24] 。本文的標注人員由圖情方向的老師、專家和機器學(xué)習(xí)方向老師3 名成員組成, 領(lǐng)域內(nèi)標記開始前需要經(jīng)過前期軟件操作培訓(xùn)和標注規(guī)則的熟悉。數(shù)據(jù)文本的標注工作持續(xù)了50 天, 平均每天完成700 多條文本句子。為確保標注質(zhì)量和降低標注成本, 保證實體標注結(jié)果的一致性, 本文采用基于詞典規(guī)則與人工修正相結(jié)合的半自動標注方式,構(gòu)建高校圖書館微信推文文本數(shù)據(jù)集。首先, 在標注語料庫前, 根據(jù)詞典與規(guī)則匹配方法, 預(yù)先采集了領(lǐng)域內(nèi)的實體名稱和實體標簽, 此部分實體有600多個類目; 其次, 根據(jù)構(gòu)建的匹配規(guī)則與所標注的數(shù)據(jù)本文進行自動實體標記; 最后, 還需對自動匹配結(jié)果中可能出現(xiàn)的錯誤標注、漏標注等問題以人工校驗的方式進一步作調(diào)整和改進, 且隨著文本被標注校驗正確后, 還會與預(yù)先定義的實體合并形成動態(tài)更新的領(lǐng)域知識庫, 進而在隨后的文本過程中自動匹配效率得到快速提升。具體實體標注過程如圖1 所示。
數(shù)據(jù)集基于BIO 規(guī)則對語言序列進行標注,其中, B-begin 代表實體的開頭; I-inside 代表實體的中間或結(jié)尾; O-outside 代表不屬于實體, 如以句子“圖書館寒假閉館通知” 為例, 其序列標注如圖2所示。
利用以上方法將高校圖情語料中的文本實體描述進行識別, 最終構(gòu)建了ULICNER 語料集, 數(shù)據(jù)的標簽包含7 個粗粒度分類和16 個細粒度分類,如表2 所示。
另外, 本實驗使用數(shù)據(jù)集按照8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集。領(lǐng)域命名實體的數(shù)據(jù)集中每一行由兩列組成, 數(shù)據(jù)的兩列之間采用空格隔開, 其中第一列為文本內(nèi)容, 第二列是BIO格式的標簽序列, 句子邊界用空行標識。數(shù)據(jù)集組成情況如表3 所示。
2BERT-BiLSTM-CRF語言模型
本文研究采用的BERT-BiLSTM-CRF 模型探索高校圖書館微信文本信息實體識別, 如圖3 所示。首先, 使用BERT 預(yù)訓(xùn)練模型, 獲取每一個標識的向量表示特征, 即字向量表示層; 然后, 輸入BiL?STM 模型學(xué)習(xí)文本之間的關(guān)系, 即基于BiLSTM(考慮雙向的LSTM)建模以提取語義和結(jié)構(gòu)特征;最后, 基于CRF 的解碼層輸出預(yù)測的標簽序列,獲取每個標識的分類結(jié)果。
為了便于理解本文BERT-BiLSTM-CRF 模型構(gòu)建, 表4 具體解釋了模型流程, 包括輸入文本批量數(shù), 維度轉(zhuǎn)換以及輸出的過程。
2.1 BERT 預(yù)訓(xùn)練模型
由于BERT 在自然語言處理方面具有很強的語義表征優(yōu)勢, 在文本輸入訓(xùn)練層的Embedding 層采用BERT 進行預(yù)訓(xùn)練, 產(chǎn)生詞向量, 獲取語境化的詞向量來提高實體識別的性能。BERT 采用了Transformer 的雙向編碼器表示, 在自然語言處理研究中取得很高的成就[25] 。BERT 通過所有Trans?former 層左右上下文共同調(diào)節(jié), 來預(yù)訓(xùn)練深度雙向表示, 不依賴于時間序列, 并在較長上下文本處理中具有較大優(yōu)勢, 可以更好地提升語義表征水平。BERT 訓(xùn)練通常分為兩步, 首先對模型進行預(yù)訓(xùn)練(Pretraining BERT), 其次在預(yù)訓(xùn)練的基礎(chǔ)上, 根據(jù)下游任務(wù)進行模型微調(diào)(Fine-tuning BERT)。
傳統(tǒng)語言模型訓(xùn)練采用單向方式或者拼接的方式, 但這種模型從left-to-right, 或left-to-right+right-to-left 結(jié)合的方式提取特征的能力有限, 而Pre-training BERT 采用一個深度雙向表達模型(Deep Bidirectional Representation), 即采用MaskedLM(帶Mask 的語言模型訓(xùn)練任務(wù))和Next SentencePrediction(下一句話預(yù)測任務(wù), NSP)兩種方法分別完成在BERT 訓(xùn)練的構(gòu)建, 具有較大的創(chuàng)新, 并且效果比較好。
本文在預(yù)訓(xùn)練模型考慮多個句子區(qū)分級別的任務(wù), 因此, 使用Masked LM 和NSP 進行模型預(yù)訓(xùn)練。Masked LM 的任務(wù)機制在訓(xùn)練時, 給定一個句子, 會隨機Mask(掩碼)15%的詞, 然后采用BERT來預(yù)測這些Mask 的詞。在這些被選中的Token 中,數(shù)據(jù)生成器并不是把它們?nèi)孔兂桑郏停粒樱耍荨Mǔ4嬖冢?種情況: 其一, 在80%的概率下, 用[MASK]標記替換該Token(圖書館暑假閉館>圖書館暑假[MASK] [MASK]); 其二, 在10%的概率下, 用一個隨機的單詞替換Token(如: 圖書館暑假閉館>圖書館暑假通知); 其三, 在10%的概率下, 保持該Token 不變(如: 圖書館暑假閉館>圖書館暑假閉館)。Masked LM 模型在訓(xùn)練的過程中, 并不知道將要預(yù)測哪些單詞。正是在這樣一種高度不確定的情況下, 模型能快速學(xué)習(xí)該Token 的分布式上下文的語義, 最大化地學(xué)習(xí)原始語言語義表征。同時因為原始文本中只有15%的Token 參與MASK 操作, 并不影響學(xué)習(xí)原語言的表達能力和語言規(guī)則。
BERT 引入NSP(下一句話預(yù)測任務(wù))任務(wù), 采用的方式是輸入句子對(A, B), 模型來預(yù)測句子B是不是句子A 的真實的下一句話。為了更好地實現(xiàn)文本的實體命名識別, 需要模型能夠很好地理解兩個句子之間的關(guān)系, 故采用NSP 模型在對應(yīng)的任務(wù)有良好的效果。NSP模型通過預(yù)訓(xùn)練方法來捕捉兩個句子的聯(lián)系, 如有A和B兩個句子, B 有50%的可能性是A 的下一句, 訓(xùn)練模型是為了預(yù)測B是不是A的下一句, 使模型增強對上下文聯(lián)系的能力。
另外, 在命名實體識別任務(wù)中, 模型微調(diào)通過Transformer中的Self-attention 機制提供的BERT 對其下游任務(wù)進行建模, 無論他們包含單個文本或多個文本, 只需要替換掉輸入和輸出。對于每個任務(wù), 需將特定于任務(wù)的輸入和輸出插入到BERT中, 并對所有參數(shù)進行端到端微調(diào)。本文模型考慮多個句子區(qū)分級別的任務(wù), 并分別給每個句子的字符進行標注標簽。句子起始的Token 均為特殊分類標記(Classification Token, [CLS]), 結(jié)束的Token均為特殊令牌(Special Token, [SEP])。句子的輸入過程包含將句子輸入到BERT 模型的原有靜態(tài)詞向量編碼(Token Embeddings, 表示字向量, 第一個單詞是[CLS]標志)和位置編碼(Position Embed?dings, 表示位置向量, 是通過學(xué)習(xí)得出), 另外還加入了語句分割編碼(Segment Embeddings, 句向量, 用來區(qū)別兩種句子), 整個模塊的輸出結(jié)果是3 種Embedding 編碼之和, 如圖4所示。
2.2 BiLSTM 模型
BiLSTM 模型是由兩個獨立的長短期記憶網(wǎng)絡(luò)(LSTM, Directional Long Short-term Memory) 模型組合而成, 一個正向去處理序列, 一個反向去處理序列, 處理完后, 兩個LSTM 的輸出拼接起來形成的詞向量作為該詞的最終特征表達。另外, BiL?STM 中的兩個LSTM 神經(jīng)網(wǎng)絡(luò)參數(shù)是相互獨立的,它們只共享由BERT 預(yù)訓(xùn)練層輸入的Word-embed?ding 詞向量信息。1997 年, 針對循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, Recurrent Neural Networks)的梯度消失和梯度爆炸問題, Hochreiter S 等[26] 提出了該改進模型, 模型對文本特征提取效率和性能要優(yōu)于單個LSTM 結(jié)構(gòu)模型, 取得良好的效果, 其LSTM 原理結(jié)構(gòu)如圖5 和圖6所示。
在自然語言處理的實際應(yīng)用中,發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)存在如梯度消失、梯度爆炸以及長距離依賴信息能力差等問題, 因此引入了長短期記憶網(wǎng)絡(luò)(LSTM)。該模型是RNN 的一種改進, 內(nèi)部結(jié)構(gòu)擁有更長的記憶, 梯度消失問題得到優(yōu)化。LSTM 在主體結(jié)構(gòu)上與RNN 類似, 其主要的改進是在隱藏層h 中增加了3 個門控(Gates)結(jié)構(gòu), 分別是遺忘門(Forget Gate)、輸入門(Input Gate)、輸出門(OutputGate), 同時新增了一個隱藏狀態(tài)(Cell State)。LSTM 隱藏層結(jié)構(gòu)原理如圖5 所示, f(t)表示t 時刻遺忘門, 可以選擇性地遺忘一些信息, 其值范圍是0~1; i(t)表示t 時刻輸入門, 可以添加新的信息,如假設(shè)輸入10 個元素信息和原來的4 個全連接層(假設(shè)是隱藏單元個數(shù)一致的128 個神經(jīng)元, 輸出都是128 個元素的向量)進行拼接, 給C 中傳入更新的信息(138 個元素的一維向量); 輸出門o(t)依賴前一個狀態(tài)向量h(t-1)和更新的輸入信息x(t), 是長短期“記憶” 的更新變化; a(t)表示t 時刻對h(t-1)和x(t)的初步特征的提取, 會作為下一時刻(t+1)的輸入之一。具體的計算過程如下:
3.3實驗結(jié)果
本文采用的BERT-BiLSTM-CRF 有效地提升了高校圖書館微信推文文本數(shù)據(jù)集實體命名識別的效果。為驗證分析, 研究還設(shè)計了4 種不同模型性能比較, 分別是: ①CRF 模型, 該模型定義一個特征函數(shù)的集合, 用這個帶約束作用的特征函數(shù)集合來為一個標注序列打分, 并據(jù)此選出最佳的標注序列; ②BiLSTM 模型, 該模型為LSTM 的雙向考慮模型, 依靠神經(jīng)網(wǎng)絡(luò)強大的非線性擬合能力, 可以將樣本的高維空間復(fù)雜非線性變換, 該模型將樣本標注進行學(xué)習(xí)并預(yù)測; ③BiLSTM-CRF 模型, 經(jīng)典的實體命名提取模型, 該模型通過加入CRF 層優(yōu)化了LSTM 層在序列標注學(xué)習(xí)任務(wù)過程, 學(xué)習(xí)隱含狀態(tài)序列的特征; ④BERT-CRF 模型, 該模型與BiLSTM-CRF 模型較為相似, 其本質(zhì)上還是一個CRF 模型, 只是采用BERT 模型來訓(xùn)練CRF 模型中的發(fā)射矩陣。實驗結(jié)果如表5 所示。
由表5 可知, BiLSTM-CRF 模型結(jié)合了BiL?STM 模型和CRF 模型的優(yōu)點, 準確率為94.17%,高于后兩種模型91.26% 和93.18% 的準確率;BERT-CRF 模型通過BERT 預(yù)訓(xùn)練模型, 在學(xué)習(xí)到狀態(tài)序列(輸出的標注)之間的關(guān)系效果好于BiL?STM 模型, 其準確率提高到了97.85%; BERT -BiLSTM-CRF 模型能夠并行獲取并優(yōu)化全局信息,其準確率、召回率和F1 值都是最高的, 分別為98.59%、98.91%和98.75%。另外, 相比BERTCRF模型沒有對BERT 預(yù)訓(xùn)練輸出結(jié)果進行上下文關(guān)系的匹配, 本文模型在準確率、召回率和F1 值上分別提升了0.74%、0.99%和0.76%。因此, 采用BERT-BiLSTM-CRF 模型的實驗結(jié)果可以看出,通過BERT模型對輸入的詞向量進行訓(xùn)練后的結(jié)果導(dǎo)入到BiLSTM-CRF 模型, 得出的結(jié)果更準確。
為有效分析本文模型在測試集上的實體識別效果, 通過實例分析命名實體標記結(jié)果的具體表現(xiàn)進行呈現(xiàn)。為突顯高校圖書館微信信息服務(wù)的特色和影響力, 隨機選出兩篇高校圖書館在榜單中影響力排名靠前的微信推文, 具體結(jié)果如表6 所示。
由表6 可見, 本文通過命名實體識別技術(shù)應(yīng)用, 分別實例分析了兩類不同辦學(xué)層次高校圖書館微信推文的實體識別效果, 并以此較為全面地提取了高校圖書館服務(wù)平臺上的領(lǐng)域內(nèi)容介紹中的各類專業(yè)名詞術(shù)語, 極大地豐富了圖書館知識服務(wù)。其中, 北京大學(xué)圖書館發(fā)布的“靈氣所鐘—山東臨朐紅絲硯歷史文化展” 微信推文取得良好的社會影響, 閱讀量和點贊量非常高, 有效地實現(xiàn)文化傳播在高校圖書館的推廣和應(yīng)用, 其微信推文的實體識別效果如圖7 所示。同時, 該文的知識發(fā)現(xiàn)可以推薦作為高校圖書館微信信息服務(wù)與地方特色歷史文化相結(jié)合, 為讀者提供了便捷的信息分享條件,提升讀者的關(guān)注, 實現(xiàn)資源共享和服務(wù)推廣等。另外, 信陽師范學(xué)院圖書館發(fā)布的“關(guān)于師院的獨家地理知識, 你知道多少?” 微信推文的影響力較佳, 在閱讀量不高的情況下取得較高的點贊量, 深受讀者的歡迎, 該文介紹了校內(nèi)特色人文地理環(huán)境, 借鑒圖書館微信平臺宣傳吸引當?shù)刈x者的注意, 能夠引起讀者的共鳴, 塑造良好的校園環(huán)境,也是高校圖書館信息服務(wù)過程和信息服務(wù)創(chuàng)新模式的有效策略, 該文的實體識別效果如圖8所示。因此, 通過分析高校圖書館微信平臺具有影響力的推文, 采集具有特色和影響力的推文實體, 可以實現(xiàn)高校圖書館服務(wù)內(nèi)容的結(jié)構(gòu)化呈現(xiàn), 為圖書館特色服務(wù)和發(fā)展模式的拓展提供了可借鑒的資源獲取和利用平臺。采用命名實體識別技術(shù), 通過進一步挖掘信息資源的各類實體關(guān)系, 如構(gòu)建高校圖書館知識圖譜, 實現(xiàn)信息資源的實體之間更深層次和更大范圍的關(guān)聯(lián), 優(yōu)化領(lǐng)域內(nèi)的內(nèi)容推薦、檢索等服務(wù)質(zhì)量, 提升圖書館知識服務(wù)的發(fā)現(xiàn)能力。
3.4各類實體識別結(jié)果
為明確本文的不同模型對不同類別實體的識別效果, 本文通過準確率、召回率和F1 值3 個指標對不同類別實體識別進行了對比分析, 結(jié)果如表7所示。本文模型在用戶、時間、機構(gòu)和地址等實體識別的準確率、召回率和F1 值都較高, 而只是對實體數(shù)較少的服務(wù)簡稱(SER_JC)的實體識別評價指標的數(shù)值偏低, 可能與該實體數(shù)量偏少有關(guān), 存在降低實體分類能力, 該實體識別的準確率、召回率和F1 值分別為80.00%、100.00%和88.89%??梢姡?本文采用的BERT-BiLSTM-CRF 模型對高校圖書館微信服務(wù)的推文文本信息中各類不同實體的識別效率效果良好。
4結(jié)語
針對高校圖書館服務(wù)領(lǐng)域內(nèi)實體名稱多樣、特征信息提取不明確的問題, 將高校圖情領(lǐng)域的數(shù)據(jù)集預(yù)先定義為7 個粗粒度分類和16 個細粒度分類,并進行了實體識別標注, 數(shù)據(jù)集涵蓋領(lǐng)域內(nèi)的服務(wù)內(nèi)容, 用戶需求、業(yè)務(wù)能力和文化推廣等方面。
高校圖書館如何有效地整合服務(wù)推廣平臺信息, 使服務(wù)模式的重要信息聯(lián)系起來, 是高校圖書館移動信息服務(wù)提高的關(guān)鍵。因此, 本文以BERTBiLSTM-CRF 模型作為高校圖書館微信推文文本實體識別方法。首先, 采用BERT 預(yù)訓(xùn)練模型, 獲取每一個標識的向量表示特征; 然后, 基于BiLSTM層以提取更加準確的語義和結(jié)構(gòu)特征; 最后, 使用CRF 層輸出預(yù)測的標簽序列, 獲取高校圖情微信服務(wù)領(lǐng)域的實體識別中存在的特征關(guān)系進行約束,進一步提高了實體識別的提取效率。另外, 本文模型提升了高校圖書館信息服務(wù)領(lǐng)域命名實體識別效果, 并實例分析了高校圖書館微信推文在知識服務(wù)過程中的發(fā)現(xiàn)能力。本文下一步的研究內(nèi)容主要有兩個方面: 一是如何解決數(shù)據(jù)集實體中數(shù)量不平衡問題; 二是提高模型的實體識別效率, 同時提高標注的準確率, 如訓(xùn)練耗時長、參數(shù)冗余和資源成本高等方面進行模型改進, 為自然語言處理技術(shù)在高校圖書館服務(wù)領(lǐng)域中的應(yīng)用提供方案。