摘 要:實體是非結構化文本中的重要組成部分,是構成詞匯短語的關鍵內容,每個研究領域通常都有其特定的實體集,因此好的實體識別研究可以幫助人工智能更準確地理解語料內容,對后續(xù)的關系抽取和更深層次的語義分析有重要作用。本文為了更準確地從景區(qū)文化內容相關文本中提取出具有研究意義和應用價值的命名實體內容,使用改進的RoBERTa預訓練模型,結合BiLSTM-CRF模型,提出了一種景區(qū)文化內容實體識別的深度學習方法,并完成在該領域應用的模型訓練。并將該模型與其他常見實體識別模型進行比較,證明了本方法在這項任務中的優(yōu)越表現。
關鍵詞:命名實體識別;深度學習;景區(qū)文化
中圖分類號:TP 391" " " 文獻標志碼:A
旅游景區(qū)文化產業(yè)是現代產業(yè)體系的重要組成部分。2023年文化和旅游部印發(fā)的《國內旅游提升計劃(2023—2025年)》提出了“加快智慧旅游發(fā)展,培育智慧旅游沉浸式體驗新空間新場景”,標志景區(qū)文化內容數字化已成為現代化旅游產業(yè)下一個階段發(fā)展的主要目標。將計算機技術應用于新型旅游文化體系的建設不僅具有現實價值,還具有創(chuàng)新意義。
1 研究現狀
命名實體識別是從文本數據中抽取既定實體信息的技術。專家系統、基于規(guī)則和詞典的技術是早期的實體識別的常用手段。一些學者基于機器學習提出了新方法。在此基礎上,YU等結合KNN分類器和CRF模型構建了半監(jiān)督的學習框架。與基于機器學習的方法相比,深度學習更有利于發(fā)現隱藏特征。
有學者(COLLOBERT R、CHO K和HUANG Z等)提出了長、短期記憶人工神經網絡(LSTM)及其變種門控循環(huán)單元(GRU)。2018年,李莉雙等[1]將BiLSTM模型應用于生物醫(yī)學數據集上。2021年GHADDAR A[2]提出了一種基于晶格的長短期記憶網絡(Lattice-LSTM)模型??梢?,通用領域的命名實體識別效果較好,但是專門領域內的研究較少,尤其對旅游文化領域的命名實體識別研究略顯不足,這也是本文研究的重點。
2 模型結構
試驗模型結構主要由3個部分構成。首先,將標注的語料輸入RoBERTa模型中,通過預訓練的方式得到高質量的詞向量。其次,將訓練好的詞向量輸入BiLSTM網絡中進行訓練,得到初步的詞分類結果與標簽。最后,將訓練結果輸入CRF模型中進行檢查和糾錯,根據對每個詞匯上下文的識別結果和訓練相似度修正識別結果,完成整個命名實體識別流程。
2.1 RoBERTa預訓練模型
RoBERTa模型的主體結構由多層Transformer結構堆疊而成,該結構形成了更深層的神經網絡模型,如圖1所示。通常的預訓練模型是單向計算的,該模型只能獲取單個方向的上下文信息,并受模型結構的限制,詞匯的表征能力不足。該模型最大的不同點是使用了雙向的Transformer組件,并將Transformer層堆疊,可以同時得到前向和后向的Token,直接以P(wi|w1,...wi-1,wi+1,...,wn)為目標函數進行訓練,進一步形成可以融合前向和后向文本信息的語言表征網絡模型。
利用堆疊的Transformer結構,RoBERTa模型會將完整的前后文語段信息作為消息嵌入的一部分,這需要在嵌入層的同時輸入字符的詞信息、句子信息和位置信息,進而確保輸入端獲得了詞匯的完整語法信息。
RoBERTa的訓練過程讓豐富的語義信息輸入可以充分發(fā)揮價值。1)動態(tài)mask語言模型。模型在每次向內提供輸入時動態(tài)地生成mask,用時刻變化的[mask]隱藏掉輸入過程中15%的詞匯Token。在訓練過程中模型發(fā)現了隨機詞被隱藏,獲取該位置詞信息時必須參考前后文的信息來推斷。因為Transformer具有全局可視的特點,同時統計學表明,由于15%的詞匯隱藏對試驗結果造成的負面影響可以忽略不計,使用這種方法可以提升詞前后文的信息獲取率。因此每次向模型輸入一個序列時都會生成新的掩碼模式。在大量數據輸入的過程中模型將適應全部掩碼策略,學習到最豐富的語言特征。2)字節(jié)對編碼(BPE)的方式。字節(jié)對編碼是混合使用了字符級別和單詞級別編碼的編碼方式,目前自然語言處理任務中廣泛采用了該編碼方式。為了獲取更細致的訓練信息,模型采用byte BPE對詞匯特征進行編碼,即用byte級別的實現方式對文本輸入進行標記。這一改變使詞表長度擴充到了原先的1.6倍,增加了2000萬參數量,雖然一定程度上造成了模型效率下降,但是模型的準確率有了可觀的提升。
2.2 BiLSTM層
BiLSTM(Bi-directional Long Short-Term Memory)是由2個方向相反的LSTM模型構成的,分別從正向和反向傳遞模型參數。由于經典的LSTM模型只能獲取單向文本信息,而在語言學中一個詞語的含義通常受上下文內容的影響,BiLSTM模型的提出巧妙地解決了這個問題。模型最終的輸出向量是由正向和反向的模型訓練結果拼接而成的,因此該模型具有同時獲得詞匯前后文信息的能力。
BiLSTM模型結構圖如圖2所示。BiLSTM由2個反向的LSTM模型組合而成。輸入信息是從RoBERTa模型訓練得到的特征向量,模型中一部分從前向后處理輸入序列,另一部分反向處理輸入序列,2個LSTM模型分別互不干擾,計算出各自的訓練結果,兩者的計算結果只有在各自計算結束后才會進行拼接,進而得到最終輸出結果。
對于景區(qū)文化領域的命名實體識別的任務,BiLSTM層計算特征向量對應標簽的主要模型層。一些傳統的試驗方法通過Word2Vec或者其他特征向量計算方法獲取輸入詞匯的特征向量,并將其輸入BiLSTM模型中進行訓練,直接得到分類結果。為了提高試驗正確率,本文將RoBERTa作為預訓練模型生成輸入特征向量,將CRF模型作為下一步試驗的模型,既發(fā)揮了BiLSTM本身的優(yōu)勢,又規(guī)避了模型本身的不足。
2.3 條件隨機場
條件隨機場鏈式圖模型結構如圖3所示。條件隨機場(CRF)本質上是一種用判別式構成的無向圖模型。模型根據對概率情況的條件分布進行建模,而不是直接對聯合分布進行建模,因此條件隨機場可以看作基于條件概率衍生出的一種圖結構模型。模型的輸入是以組為單位的隨機變量,通過模型的計算輸出得到另一組隨機變量,可用于不同場景下的預測問題。條件隨機場的輸入和輸出的表達式如下:設x={x1,x2,…,xn}為觀測序列,對應的標記序列y={y1,y2,…,yn},則條件隨機場的目標函數可以記作P(y|x)。
3 試驗過程
3.1 數據集和數據預處理
本文使用的訓練語料來源于網絡公開數據,包括中國旅游網、文旅部政務門戶以及各大景區(qū)官網等平臺。借助信息提取技術從網頁中獲取10124篇文章,經過篩選,剔除掉重復、低質量文章后,剩余5000篇文章。將這些文章順序打亂,防止相近內容過于集中,使用分詞技術將文章以詞短語為單位分開,最后使用開源的命名實體標注工具標注全部內容。人工審核標注的準確性后,將標注好的數據集按照7∶2∶1的比例劃分為訓練集、驗證集和測試集。
本文進行標注時選用經典的BIO體系,其優(yōu)點是簡潔高效,識別結果可以更直接地轉化為關系抽取任務需要的數據格式。BIO是B(Beginning)、I(Intermediate)和O(Other)的縮寫,其中“B”表示一個實體開頭位置上的字符,“I”表示實體從中間到結尾的字符,“O”表示非實體的部分字符。文化數據與其他領域不同,其實體是描述景區(qū)要素的特定實體類型。
根據對景區(qū)語料特征的研究,本文將命名實體分為5類:名稱(Name)、時間(Time)、行為(Denoter)、位置(Location)和對象(Object)。根據上述5類實體構造BIO標簽,得到11個預定義標簽類型,見表1。
3.2 評價指標
命名實體識別任務主要包括實體邊界劃分和實體類型標注2個部分。預測結果正確的標準是預測得到的實體結果邊界、實體類型與實際標簽的實體邊界、類型完全一致。評價指標采用NER常用的評價指標,即Accuracy(精確率)、Precision(準確率)、Recall(召回率)和F1值,分別如公式(1)~公式(4)所示。
(1)
(2)
(3)
(4)
式中:Accuracy為分類器或者模型對整體樣本判斷正確的能力;Precision為分類器或者模型正確預測正樣本精度的能力;Recall為分類器或者模型正確預測正樣本全度的能力;F1值為Precision和Recall的加權調和平均;TP為真正類,表示實體標注正確且被預測為正確結果的數量;TN為真負類,表示實體標注錯誤且被預測為錯誤結果的數量;FP為假正類,表示實體標簽本身是錯誤的,但是被預測為正確結果的數量;FN為假負類,表示實體本身標注正確,但是被預測為錯誤結果的數量。
3.3 試驗結果
根據本節(jié)敘述的實體識別要求與評估原則,對5次重復試驗各項結果取平均值后,本文使用的RoBERTa-BiLSTM-CRF模型在增強的CEC數據集命名實體識別任務中的整體標注精確率為94.47%,準確率為92.36%,召回率為90.87%,F1值為91.61%。5種命名實體分別的識別結果見表2。
3.4 對比試驗
為了驗證本模型在領域實體識別任務上的優(yōu)勢,本文在同一數據集與命名實體類型的基礎上分別用CRF、BiLSTM、BiLSTM-CRF和BERT-BiLSTM-CRF這4種模型進行對比試驗。詳細的對比試驗結果見表3。
可以看出,簡單的CRF和BiLSTM模型取得的結果并不理想。相比較下,BiLSTM-CRF增加了BERT預訓練模型后使模型性能得到了明顯的提高,F1值提高了8.07%,足以證明預訓練模型的引入和優(yōu)化對自然語言的命名實體識別效果有很大的提升。相比較BERT-BiLSTM-CRF,優(yōu)化后的RoBERTa模型對試驗的四個指標均有一定提升,可以證明RoBERTa比BERT模型效果更好。從結果可以看出本文采用的RoBERTa-BiLSTM-CRF方法取得了最佳的試驗效果。
4 結語
本研究描述了景區(qū)文化數據領域命名實體識別任務的試驗過程。構建了融合預訓練模型的RoBERTa-BiLSTM-CRF試驗框架,確定了試驗模型的參數設定。與當前普遍采用的其他模型相比,本研究的方案更能夠獲取細顆粒度的實體信息,通過大量的對比試驗,從理論和實踐的角度驗證了本方法的有效性,為景區(qū)數據數字化事業(yè)供了技術支持。
參考文獻
[1]李麗雙,郭元凱.基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J].中文信息學報,2018,32(1):116-122.
[2]GHADDAR A,LANGLAIS P,RASHID A,et al.Context-aware"adversarial training for name regularity bias in named entity recognition[J].2021,9:586-604.