基于BERT的高校圖書館微信信息服務(wù)的命名實體識別方法

2023-03-29 13:10:14李東升鮑玉來劉建華等

現(xiàn)代情報 2023年4期

李東升　鮑玉來　劉建華等

關(guān)鍵詞：命名實體識別；高校圖書館；微信服務(wù)；ＢＥＲＴ；雙向長短記憶網(wǎng)絡(luò)；條件隨機場

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０４．００７

〔中圖分類號〕ＴＰ３９１.１〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２３）０４－００６４－１３

隨著互聯(lián)網(wǎng)技術(shù)的不斷普及和發(fā)展，網(wǎng)絡(luò)信息服務(wù)已成為高校圖書館重要的服務(wù)新模式［１］。高校圖書館重視智慧服務(wù)的研究工作逐漸增強，它是一種知識服務(wù)的新模式，通過利用先進的信息技術(shù)和圖書館的資源，以主動的搜尋、嵌入式的服務(wù)、有效的信息分析和創(chuàng)新為基礎(chǔ)實現(xiàn)圖書館的智能化服務(wù)，促使高校圖書館開展更加豐富的實踐［２－４］。命名實體識別（ＮａｍｅＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）作為文本信息識別的技術(shù)方法，是正確理解文本的基礎(chǔ)，也是智慧化服務(wù)的知識引擎［５］。ＮＥＲ技術(shù)是將實體類型預(yù)先定義，能夠?qū)崿F(xiàn)在大量的半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)中識別出不同的實體，因而廣泛應(yīng)用于知識圖譜、智能問答、機器翻譯、對話和信息檢索等復(fù)雜的自然語言處理任務(wù)［６－８］。網(wǎng)絡(luò)信息資源為高校圖書館信息服務(wù)拓展提供了大量的圖情類文本信息，借助ＮＥＲ技術(shù)，圖書館工作人員能夠從大量的相關(guān)文本信息中快速識別出領(lǐng)域內(nèi)有價值的知識，在圖書館服務(wù)模式的推廣與應(yīng)用中具有較大的參考價值。圖書館的服務(wù)能否及時和高效地利用網(wǎng)絡(luò)信息資源，并借鑒新的服務(wù)發(fā)展模式，有效滿足用戶新的信息需求，將成為其保持對用戶吸引力和有效性的關(guān)鍵［９］。高校圖書館微信移動信息服務(wù)是各大高校圖書館拓展服務(wù)的重要平臺，為圖書館服務(wù)的開展提供了有效的方式，是便捷的信息獲取和資源共享的可靠平臺。高校圖書館可以利用命名實體識別技術(shù)，有針對性地從其豐富的知識、多樣的信息資源中挖掘知識，形成知識服務(wù)產(chǎn)品，為其服務(wù)拓展、優(yōu)化和創(chuàng)新提供參考依據(jù)。

基于深度學(xué)習(xí)的命名實體識別技術(shù)，在文本信息上特征提取的深度和模型的精確度的優(yōu)異表現(xiàn)，已成為有序、有效地利用信息資源的重要方法［１０］。２０１３年，ＭｉｋｏｌｏｖＴ等［１１］提出模型Ｗｏｒｄ２ｖｅｃ，該模型采用ｓｋｉｐ－Ｇｒａｍ或ＣＢＯＷ模型預(yù)測詞匯并通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練相應(yīng)的嵌入向量，在命名實體識別方面取得良好的效果。在詞訓(xùn)練方面，如Ｇｌｏｖｅ、Ｆａｓｔ?ｔｅｘｔ等模型在命名實體識別中有較多的嘗試應(yīng)用，均有較大的研究進展［１２］。然而，Ｗｏｒｄ２ｖｅｃ等預(yù)訓(xùn)練模型仍然存在無法表征一詞多義的問題，因為它們主要關(guān)注的是詞或者字符之間的特征，而忽略了詞的上下文語境，導(dǎo)致其實體識別能力有限。在中文命名實體識別自然語言處理領(lǐng)域，相比英文存在較多困難，英文的詞語構(gòu)造形式比中文在實體命名識別方面體現(xiàn)出更多的語義信息［１３］。ＳｕＴＲ等［１４］基于漢字字形學(xué)習(xí)特征，在詞向量方面的研究對中文文本在訓(xùn)練出現(xiàn)的語義特征所存在的困難和問題有較好的效果；ＹｕＪ等［１５］研究提出一種組合學(xué)習(xí)語義特征的狀態(tài)和更加細粒度的Ｓｕｂｃｈａｒａｃｔｅｒ的方法，并學(xué)習(xí)了中文在語言相似性和語言特征融合任務(wù)上詞向量任務(wù)。在實體命名識別領(lǐng)域中，ＢＥＲＴ在詞向量訓(xùn)練方面有效解決一詞多義的問題，是一種基于序列到序列模式（Ｓｅｑ２Ｓｅｑ）結(jié)構(gòu)上的創(chuàng)新。

２０１８年，Ｇｏｏｇｌｅ團隊提出基于注意力機制的Ｔｒａｎｓ?ｆｏｒｍｅｒｓ［１６］模型的ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅ?ｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ），不同于傳統(tǒng)的ＲＮＮ和ＣＮＮ（卷積神經(jīng)網(wǎng)絡(luò)），該模型使用了Ｔｒａｎｓｆｏｒｍ?ｅｒｓ作為算法的主要框架，增強預(yù)訓(xùn)練詞向量模型的泛化能力，使得模型能夠更徹底地捕捉語句中的雙向關(guān)系，更好地表征不同語境中的句法和語義信息。通過ＢＥＲＴ訓(xùn)練詞向量，對前后文本的預(yù)測考慮了前后雙向的輸入信息，體現(xiàn)出語境不同所含有相同詞的語法或字詞。因此，在實體識別領(lǐng)域，許多學(xué)者基于ＢＥＲＴ訓(xùn)練模型學(xué)習(xí)詞向量的分布，以提高實體識別的精度。黃梅根等［１７］基于ＢＥＲＴ優(yōu)化模型，采用關(guān)系分類與元素抽取兩個任務(wù)模型進行命名實體識別，取得了較好的效果。岳琪等［１８］基于ＢＥＲＴ改進與雙向ＲＮＮ模型分析林業(yè)實體識別和實體關(guān)系的抽取，并驗證了該領(lǐng)域內(nèi)構(gòu)建知識圖譜的可行性。在警情領(lǐng)域關(guān)鍵實體文本中，王月等［１９］使用了ＢＥＲＴ預(yù)訓(xùn)練詞向量，模型在命名實體識別研究方法上設(shè)計了不同方案以提高準確率。

以上不同研究領(lǐng)域的命名實體識別方法為本文在高校圖書館微信信息服務(wù)進行命名實體識別提供了參考。目前，在高校圖情領(lǐng)域命名實體識別的研究中，由于缺乏對領(lǐng)域?qū)嶓w語料庫的研究，提升實體識別效果存在較大的難度，如文本中隱含的信息實體類別無法充分識別、數(shù)據(jù)量小、人工標注成本高等。為了解決高校圖情領(lǐng)域的命名實體識別問題，針對高校圖情領(lǐng)域語料資源缺乏、人工標注難以滿足等對提升領(lǐng)域?qū)嶓w識別效果的情況下，通過知識規(guī)則具體定義實體的邊界，本文構(gòu)建了高校圖書館微信服務(wù)推文文本的數(shù)據(jù)集ＵＬＩＣＮＥＲ。由于ＢＥＲＴ具有較強的語義表達能力，利用ＢＥＲＴ學(xué)習(xí)大規(guī)模文本后生成具有語義特征的字符向量，接著通過ＢｉＬＳＴＭ層對ＢＥＲＴ的輸入文本序列學(xué)習(xí)獲取上下文的文本特征，最后通過連接ＣＲＦ層得到最佳的序列輸出。因此，本文采用基于ＢＥＲＴ－ＢｉＬＳＴＭＣＲＦ模型構(gòu)建高校圖書館微信信息服務(wù)文本中命名實體的方法，完成高校圖書館微信服務(wù)領(lǐng)域的命名實體識別任務(wù)。

１文本數(shù)據(jù)集的采集與分析

１.１數(shù)據(jù)的來源

高校圖書館服務(wù)信息的文本不同于其他領(lǐng)域文本，具有服務(wù)多樣性、規(guī)律性、客觀性，這對其文本的語義識別技術(shù)使用產(chǎn)生了較大影響。為保證數(shù)據(jù)的可靠性和準確性，本文參考了基于教育部的《普通高等學(xué)校圖書館規(guī)程》［２０］和圖書情報檢索領(lǐng)域內(nèi)的《中國圖書館分類法》［２１］的語義分類方法和詞語用法。數(shù)據(jù)文本的采集通過清博指數(shù)平臺上的高校圖書館微信服務(wù)公眾號榜單［２２］，該榜單涵蓋了全國開通微信服務(wù)的９４６所高校，從中爬取了涵蓋高校圖書館對服務(wù)范圍、用戶需求、業(yè)務(wù)能力和文化推廣等方面的３６０００多條文本，約６０萬字符。

１.２文本的實體特征分析

由于不同領(lǐng)域文本的實體有不同的特點，高校圖書館服務(wù)領(lǐng)域語料與醫(yī)療、司法和輿情等其他領(lǐng)域存在不同的特征，它們之間相互的詞匯重疊的相似度較低［２３］。因此，詞分布不同的領(lǐng)域文本實體識別效果會在模型中體現(xiàn)出不同的特征，進而需要設(shè)計不同的實體識別方法和分類。如實體類的“文化” 指圖書館文化交流活動，是各種活動通知、沙龍互動交流、新聞、黨建、學(xué)術(shù)交流、競賽、文化活動、文化環(huán)境和文化展覽等，其他各類實體的含義及示例如表１所示。

１.３數(shù)據(jù)文本的標注

本文基于ＢＩＯ法對高校圖書館微信服務(wù)推文文本的數(shù)據(jù)集ＵＬＩＣＮＥＲ進行標記。由于獲取的特定數(shù)據(jù)文本進行標注任務(wù)常采用純?nèi)斯俗⒌姆椒ǎ?在質(zhì)量控制方面存在效率低和錯誤率高的問題［２４］。本文的標注人員由圖情方向的老師、專家和機器學(xué)習(xí)方向老師３名成員組成，領(lǐng)域內(nèi)標記開始前需要經(jīng)過前期軟件操作培訓(xùn)和標注規(guī)則的熟悉。數(shù)據(jù)文本的標注工作持續(xù)了５０天，平均每天完成７００多條文本句子。為確保標注質(zhì)量和降低標注成本，保證實體標注結(jié)果的一致性，本文采用基于詞典規(guī)則與人工修正相結(jié)合的半自動標注方式，構(gòu)建高校圖書館微信推文文本數(shù)據(jù)集。首先，在標注語料庫前，根據(jù)詞典與規(guī)則匹配方法，預(yù)先采集了領(lǐng)域內(nèi)的實體名稱和實體標簽，此部分實體有６００多個類目；其次，根據(jù)構(gòu)建的匹配規(guī)則與所標注的數(shù)據(jù)本文進行自動實體標記；最后，還需對自動匹配結(jié)果中可能出現(xiàn)的錯誤標注、漏標注等問題以人工校驗的方式進一步作調(diào)整和改進，且隨著文本被標注校驗正確后，還會與預(yù)先定義的實體合并形成動態(tài)更新的領(lǐng)域知識庫，進而在隨后的文本過程中自動匹配效率得到快速提升。具體實體標注過程如圖１所示。

數(shù)據(jù)集基于ＢＩＯ規(guī)則對語言序列進行標注，其中，Ｂ－ｂｅｇｉｎ代表實體的開頭；Ｉ－ｉｎｓｉｄｅ代表實體的中間或結(jié)尾；Ｏ－ｏｕｔｓｉｄｅ代表不屬于實體，如以句子“圖書館寒假閉館通知” 為例，其序列標注如圖２所示。

利用以上方法將高校圖情語料中的文本實體描述進行識別，最終構(gòu)建了ＵＬＩＣＮＥＲ語料集，數(shù)據(jù)的標簽包含７個粗粒度分類和１６個細粒度分類，如表２所示。

另外，本實驗使用數(shù)據(jù)集按照８∶１∶１的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集。領(lǐng)域命名實體的數(shù)據(jù)集中每一行由兩列組成，數(shù)據(jù)的兩列之間采用空格隔開，其中第一列為文本內(nèi)容，第二列是ＢＩＯ格式的標簽序列，句子邊界用空行標識。數(shù)據(jù)集組成情況如表３所示。

２ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ語言模型

本文研究采用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型探索高校圖書館微信文本信息實體識別，如圖３所示。首先，使用ＢＥＲＴ預(yù)訓(xùn)練模型，獲取每一個標識的向量表示特征，即字向量表示層；然后，輸入ＢｉＬ?ＳＴＭ模型學(xué)習(xí)文本之間的關(guān)系，即基于ＢｉＬＳＴＭ（考慮雙向的ＬＳＴＭ）建模以提取語義和結(jié)構(gòu)特征；最后，基于ＣＲＦ的解碼層輸出預(yù)測的標簽序列，獲取每個標識的分類結(jié)果。

為了便于理解本文ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型構(gòu)建，表４具體解釋了模型流程，包括輸入文本批量數(shù)，維度轉(zhuǎn)換以及輸出的過程。

２.１ＢＥＲＴ預(yù)訓(xùn)練模型

由于ＢＥＲＴ在自然語言處理方面具有很強的語義表征優(yōu)勢，在文本輸入訓(xùn)練層的Ｅｍｂｅｄｄｉｎｇ層采用ＢＥＲＴ進行預(yù)訓(xùn)練，產(chǎn)生詞向量，獲取語境化的詞向量來提高實體識別的性能。ＢＥＲＴ采用了Ｔｒａｎｓｆｏｒｍｅｒ的雙向編碼器表示，在自然語言處理研究中取得很高的成就［２５］。ＢＥＲＴ通過所有Ｔｒａｎｓ?ｆｏｒｍｅｒ層左右上下文共同調(diào)節(jié)，來預(yù)訓(xùn)練深度雙向表示，不依賴于時間序列，并在較長上下文本處理中具有較大優(yōu)勢，可以更好地提升語義表征水平。ＢＥＲＴ訓(xùn)練通常分為兩步，首先對模型進行預(yù)訓(xùn)練（ＰｒｅｔｒａｉｎｉｎｇＢＥＲＴ），其次在預(yù)訓(xùn)練的基礎(chǔ)上，根據(jù)下游任務(wù)進行模型微調(diào)（Ｆｉｎｅ－ｔｕｎｉｎｇＢＥＲＴ）。

傳統(tǒng)語言模型訓(xùn)練采用單向方式或者拼接的方式，但這種模型從ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ，或ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ＋ｒｉｇｈｔ－ｔｏ－ｌｅｆｔ結(jié)合的方式提取特征的能力有限，而Ｐｒｅ－ｔｒａｉｎｉｎｇＢＥＲＴ采用一個深度雙向表達模型（ＤｅｅｐＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎ），即采用ＭａｓｋｅｄＬＭ（帶Ｍａｓｋ的語言模型訓(xùn)練任務(wù)）和ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ（下一句話預(yù)測任務(wù)，ＮＳＰ）兩種方法分別完成在ＢＥＲＴ訓(xùn)練的構(gòu)建，具有較大的創(chuàng)新，并且效果比較好。

本文在預(yù)訓(xùn)練模型考慮多個句子區(qū)分級別的任務(wù)，因此，使用ＭａｓｋｅｄＬＭ和ＮＳＰ進行模型預(yù)訓(xùn)練。ＭａｓｋｅｄＬＭ的任務(wù)機制在訓(xùn)練時，給定一個句子，會隨機Ｍａｓｋ（掩碼）１５％的詞，然后采用ＢＥＲＴ來預(yù)測這些Ｍａｓｋ的詞。在這些被選中的Ｔｏｋｅｎ中，數(shù)據(jù)生成器并不是把它們?nèi)孔兂桑郏停粒樱耍荨Ｍǔ４嬖冢?種情況：其一，在８０％的概率下，用［ＭＡＳＫ］標記替換該Ｔｏｋｅｎ（圖書館暑假閉館＞圖書館暑假［ＭＡＳＫ］［ＭＡＳＫ］）；其二，在１０％的概率下，用一個隨機的單詞替換Ｔｏｋｅｎ（如：圖書館暑假閉館＞圖書館暑假通知）；其三，在１０％的概率下，保持該Ｔｏｋｅｎ不變（如：圖書館暑假閉館＞圖書館暑假閉館）。ＭａｓｋｅｄＬＭ模型在訓(xùn)練的過程中，并不知道將要預(yù)測哪些單詞。正是在這樣一種高度不確定的情況下，模型能快速學(xué)習(xí)該Ｔｏｋｅｎ的分布式上下文的語義，最大化地學(xué)習(xí)原始語言語義表征。同時因為原始文本中只有１５％的Ｔｏｋｅｎ參與ＭＡＳＫ操作，并不影響學(xué)習(xí)原語言的表達能力和語言規(guī)則。

ＢＥＲＴ引入ＮＳＰ（下一句話預(yù)測任務(wù)）任務(wù)，采用的方式是輸入句子對（Ａ，Ｂ），模型來預(yù)測句子Ｂ是不是句子Ａ的真實的下一句話。為了更好地實現(xiàn)文本的實體命名識別，需要模型能夠很好地理解兩個句子之間的關(guān)系，故采用ＮＳＰ模型在對應(yīng)的任務(wù)有良好的效果。ＮＳＰ模型通過預(yù)訓(xùn)練方法來捕捉兩個句子的聯(lián)系，如有Ａ和Ｂ兩個句子，Ｂ有５０％的可能性是Ａ的下一句，訓(xùn)練模型是為了預(yù)測Ｂ是不是Ａ的下一句，使模型增強對上下文聯(lián)系的能力。

另外，在命名實體識別任務(wù)中，模型微調(diào)通過Ｔｒａｎｓｆｏｒｍｅｒ中的Ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ機制提供的ＢＥＲＴ對其下游任務(wù)進行建模，無論他們包含單個文本或多個文本，只需要替換掉輸入和輸出。對于每個任務(wù)，需將特定于任務(wù)的輸入和輸出插入到ＢＥＲＴ中，并對所有參數(shù)進行端到端微調(diào)。本文模型考慮多個句子區(qū)分級別的任務(wù)，并分別給每個句子的字符進行標注標簽。句子起始的Ｔｏｋｅｎ均為特殊分類標記（ＣｌａｓｓｉｆｉｃａｔｉｏｎＴｏｋｅｎ，［ＣＬＳ］），結(jié)束的Ｔｏｋｅｎ均為特殊令牌（ＳｐｅｃｉａｌＴｏｋｅｎ，［ＳＥＰ］）。句子的輸入過程包含將句子輸入到ＢＥＲＴ模型的原有靜態(tài)詞向量編碼（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇｓ，表示字向量，第一個單詞是［ＣＬＳ］標志）和位置編碼（ＰｏｓｉｔｉｏｎＥｍｂｅｄ?ｄｉｎｇｓ，表示位置向量，是通過學(xué)習(xí)得出），另外還加入了語句分割編碼（ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇｓ，句向量，用來區(qū)別兩種句子），整個模塊的輸出結(jié)果是３種Ｅｍｂｅｄｄｉｎｇ編碼之和，如圖４所示。

２.２ＢｉＬＳＴＭ模型

ＢｉＬＳＴＭ模型是由兩個獨立的長短期記憶網(wǎng)絡(luò)（ＬＳＴＭ，ＤｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙ）模型組合而成，一個正向去處理序列，一個反向去處理序列，處理完后，兩個ＬＳＴＭ的輸出拼接起來形成的詞向量作為該詞的最終特征表達。另外，ＢｉＬ?ＳＴＭ中的兩個ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)參數(shù)是相互獨立的，它們只共享由ＢＥＲＴ預(yù)訓(xùn)練層輸入的Ｗｏｒｄ－ｅｍｂｅｄ?ｄｉｎｇ詞向量信息。１９９７年，針對循環(huán)神經(jīng)網(wǎng)絡(luò)（ＲＮＮ，ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）的梯度消失和梯度爆炸問題，ＨｏｃｈｒｅｉｔｅｒＳ等［２６］提出了該改進模型，模型對文本特征提取效率和性能要優(yōu)于單個ＬＳＴＭ結(jié)構(gòu)模型，取得良好的效果，其ＬＳＴＭ原理結(jié)構(gòu)如圖５和圖６所示。

在自然語言處理的實際應(yīng)用中，發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)存在如梯度消失、梯度爆炸以及長距離依賴信息能力差等問題，因此引入了長短期記憶網(wǎng)絡(luò)（ＬＳＴＭ）。該模型是ＲＮＮ的一種改進，內(nèi)部結(jié)構(gòu)擁有更長的記憶，梯度消失問題得到優(yōu)化。ＬＳＴＭ在主體結(jié)構(gòu)上與ＲＮＮ類似，其主要的改進是在隱藏層ｈ中增加了３個門控（Ｇａｔｅｓ）結(jié)構(gòu)，分別是遺忘門（ＦｏｒｇｅｔＧａｔｅ）、輸入門（ＩｎｐｕｔＧａｔｅ）、輸出門（ＯｕｔｐｕｔＧａｔｅ），同時新增了一個隱藏狀態(tài)（ＣｅｌｌＳｔａｔｅ）。ＬＳＴＭ隱藏層結(jié)構(gòu)原理如圖５所示，ｆ（ｔ）表示ｔ時刻遺忘門，可以選擇性地遺忘一些信息，其值范圍是０～１；ｉ（ｔ）表示ｔ時刻輸入門，可以添加新的信息，如假設(shè)輸入１０個元素信息和原來的４個全連接層（假設(shè)是隱藏單元個數(shù)一致的１２８個神經(jīng)元，輸出都是１２８個元素的向量）進行拼接，給Ｃ中傳入更新的信息（１３８個元素的一維向量）；輸出門ｏ（ｔ）依賴前一個狀態(tài)向量ｈ（ｔ－１）和更新的輸入信息ｘ（ｔ），是長短期“記憶” 的更新變化；ａ（ｔ）表示ｔ時刻對ｈ（ｔ－１）和ｘ（ｔ）的初步特征的提取，會作為下一時刻（ｔ＋１）的輸入之一。具體的計算過程如下：

３.３實驗結(jié)果

本文采用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ有效地提升了高校圖書館微信推文文本數(shù)據(jù)集實體命名識別的效果。為驗證分析，研究還設(shè)計了４種不同模型性能比較，分別是： ①ＣＲＦ模型，該模型定義一個特征函數(shù)的集合，用這個帶約束作用的特征函數(shù)集合來為一個標注序列打分，并據(jù)此選出最佳的標注序列； ②ＢｉＬＳＴＭ模型，該模型為ＬＳＴＭ的雙向考慮模型，依靠神經(jīng)網(wǎng)絡(luò)強大的非線性擬合能力，可以將樣本的高維空間復(fù)雜非線性變換，該模型將樣本標注進行學(xué)習(xí)并預(yù)測； ③ＢｉＬＳＴＭ－ＣＲＦ模型，經(jīng)典的實體命名提取模型，該模型通過加入ＣＲＦ層優(yōu)化了ＬＳＴＭ層在序列標注學(xué)習(xí)任務(wù)過程，學(xué)習(xí)隱含狀態(tài)序列的特征； ④ＢＥＲＴ－ＣＲＦ模型，該模型與ＢｉＬＳＴＭ－ＣＲＦ模型較為相似，其本質(zhì)上還是一個ＣＲＦ模型，只是采用ＢＥＲＴ模型來訓(xùn)練ＣＲＦ模型中的發(fā)射矩陣。實驗結(jié)果如表５所示。

由表５可知，ＢｉＬＳＴＭ－ＣＲＦ模型結(jié)合了ＢｉＬ?ＳＴＭ模型和ＣＲＦ模型的優(yōu)點，準確率為９４.１７％，高于后兩種模型９１.２６％和９３.１８％的準確率；ＢＥＲＴ－ＣＲＦ模型通過ＢＥＲＴ預(yù)訓(xùn)練模型，在學(xué)習(xí)到狀態(tài)序列（輸出的標注）之間的關(guān)系效果好于ＢｉＬ?ＳＴＭ模型，其準確率提高到了９７.８５％；ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型能夠并行獲取并優(yōu)化全局信息，其準確率、召回率和Ｆ１值都是最高的，分別為９８.５９％、９８.９１％和９８.７５％。另外，相比ＢＥＲＴＣＲＦ模型沒有對ＢＥＲＴ預(yù)訓(xùn)練輸出結(jié)果進行上下文關(guān)系的匹配，本文模型在準確率、召回率和Ｆ１值上分別提升了０.７４％、０.９９％和０.７６％。因此，采用ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的實驗結(jié)果可以看出，通過ＢＥＲＴ模型對輸入的詞向量進行訓(xùn)練后的結(jié)果導(dǎo)入到ＢｉＬＳＴＭ－ＣＲＦ模型，得出的結(jié)果更準確。

為有效分析本文模型在測試集上的實體識別效果，通過實例分析命名實體標記結(jié)果的具體表現(xiàn)進行呈現(xiàn)。為突顯高校圖書館微信信息服務(wù)的特色和影響力，隨機選出兩篇高校圖書館在榜單中影響力排名靠前的微信推文，具體結(jié)果如表６所示。

由表６可見，本文通過命名實體識別技術(shù)應(yīng)用，分別實例分析了兩類不同辦學(xué)層次高校圖書館微信推文的實體識別效果，并以此較為全面地提取了高校圖書館服務(wù)平臺上的領(lǐng)域內(nèi)容介紹中的各類專業(yè)名詞術(shù)語，極大地豐富了圖書館知識服務(wù)。其中，北京大學(xué)圖書館發(fā)布的“靈氣所鐘—山東臨朐紅絲硯歷史文化展” 微信推文取得良好的社會影響，閱讀量和點贊量非常高，有效地實現(xiàn)文化傳播在高校圖書館的推廣和應(yīng)用，其微信推文的實體識別效果如圖７所示。同時，該文的知識發(fā)現(xiàn)可以推薦作為高校圖書館微信信息服務(wù)與地方特色歷史文化相結(jié)合，為讀者提供了便捷的信息分享條件，提升讀者的關(guān)注，實現(xiàn)資源共享和服務(wù)推廣等。另外，信陽師范學(xué)院圖書館發(fā)布的“關(guān)于師院的獨家地理知識，你知道多少？” 微信推文的影響力較佳，在閱讀量不高的情況下取得較高的點贊量，深受讀者的歡迎，該文介紹了校內(nèi)特色人文地理環(huán)境，借鑒圖書館微信平臺宣傳吸引當?shù)刈x者的注意，能夠引起讀者的共鳴，塑造良好的校園環(huán)境，也是高校圖書館信息服務(wù)過程和信息服務(wù)創(chuàng)新模式的有效策略，該文的實體識別效果如圖８所示。因此，通過分析高校圖書館微信平臺具有影響力的推文，采集具有特色和影響力的推文實體，可以實現(xiàn)高校圖書館服務(wù)內(nèi)容的結(jié)構(gòu)化呈現(xiàn)，為圖書館特色服務(wù)和發(fā)展模式的拓展提供了可借鑒的資源獲取和利用平臺。采用命名實體識別技術(shù)，通過進一步挖掘信息資源的各類實體關(guān)系，如構(gòu)建高校圖書館知識圖譜，實現(xiàn)信息資源的實體之間更深層次和更大范圍的關(guān)聯(lián)，優(yōu)化領(lǐng)域內(nèi)的內(nèi)容推薦、檢索等服務(wù)質(zhì)量，提升圖書館知識服務(wù)的發(fā)現(xiàn)能力。

３.４各類實體識別結(jié)果

為明確本文的不同模型對不同類別實體的識別效果，本文通過準確率、召回率和Ｆ１值３個指標對不同類別實體識別進行了對比分析，結(jié)果如表７所示。本文模型在用戶、時間、機構(gòu)和地址等實體識別的準確率、召回率和Ｆ１值都較高，而只是對實體數(shù)較少的服務(wù)簡稱（ＳＥＲ＿ＪＣ）的實體識別評價指標的數(shù)值偏低，可能與該實體數(shù)量偏少有關(guān)，存在降低實體分類能力，該實體識別的準確率、召回率和Ｆ１值分別為８０.００％、１00.00％和８８.８９％?？梢姡?本文采用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型對高校圖書館微信服務(wù)的推文文本信息中各類不同實體的識別效率效果良好。

４結(jié)語

針對高校圖書館服務(wù)領(lǐng)域內(nèi)實體名稱多樣、特征信息提取不明確的問題，將高校圖情領(lǐng)域的數(shù)據(jù)集預(yù)先定義為７個粗粒度分類和１６個細粒度分類，并進行了實體識別標注，數(shù)據(jù)集涵蓋領(lǐng)域內(nèi)的服務(wù)內(nèi)容，用戶需求、業(yè)務(wù)能力和文化推廣等方面。

高校圖書館如何有效地整合服務(wù)推廣平臺信息，使服務(wù)模式的重要信息聯(lián)系起來，是高校圖書館移動信息服務(wù)提高的關(guān)鍵。因此，本文以ＢＥＲＴＢｉＬＳＴＭ－ＣＲＦ模型作為高校圖書館微信推文文本實體識別方法。首先，采用ＢＥＲＴ預(yù)訓(xùn)練模型，獲取每一個標識的向量表示特征；然后，基于ＢｉＬＳＴＭ層以提取更加準確的語義和結(jié)構(gòu)特征；最后，使用ＣＲＦ層輸出預(yù)測的標簽序列，獲取高校圖情微信服務(wù)領(lǐng)域的實體識別中存在的特征關(guān)系進行約束，進一步提高了實體識別的提取效率。另外，本文模型提升了高校圖書館信息服務(wù)領(lǐng)域命名實體識別效果，并實例分析了高校圖書館微信推文在知識服務(wù)過程中的發(fā)現(xiàn)能力。本文下一步的研究內(nèi)容主要有兩個方面：一是如何解決數(shù)據(jù)集實體中數(shù)量不平衡問題；二是提高模型的實體識別效率，同時提高標注的準確率，如訓(xùn)練耗時長、參數(shù)冗余和資源成本高等方面進行模型改進，為自然語言處理技術(shù)在高校圖書館服務(wù)領(lǐng)域中的應(yīng)用提供方案。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于BERT的高校圖書館微信信息服務(wù)的命名實體識別方法