趙梓博 王昊 劉友華 張衛(wèi) 孟鎮(zhèn)
摘要:[目的/意義]在新冠疫情背景下,提出多任務(wù)環(huán)境下融合遷移學(xué)習(xí)的疫情新聞要素識別方法,向公眾提供面向應(yīng)急事件的知識服務(wù)。[方法/過程]首先,通過多任務(wù)識別新聞要素:基于規(guī)則識別時間要素;并融合模型遷移與深度學(xué)習(xí)方法,構(gòu)建跨領(lǐng)域的要素識別模型。在此基礎(chǔ)上,構(gòu)建疫情新聞要素的關(guān)聯(lián)數(shù)據(jù),以知識圖譜的方式展示各要素之間的關(guān)聯(lián)關(guān)系。[結(jié)果/結(jié)論]實驗結(jié)果表明,除藥物外的新聞要素的識別F1值均在80%以上,說明融合遷移學(xué)習(xí)的模型能夠取得較優(yōu)的識別效果;并且,關(guān)聯(lián)數(shù)據(jù)知識圖譜能夠直觀顯示新聞的重點要素及新聞的主要內(nèi)容。綜上所述,提出的方法能夠有效識別新冠疫情新聞要素,從而幫助新聞讀者準確、高效地獲取新聞中的重要信息。
關(guān)鍵詞:多任務(wù)? ?遷移學(xué)習(xí)? ?新冠? ?新聞要素識別? ?命名實體識別? ?冷啟動
分類號:TP391.1; TP181; G202
DOI:10.13266/j.issn.2095-5472.2021.001
引用格式:趙梓博, 王昊, 劉友華, 等. 多任務(wù)環(huán)境下融合遷移學(xué)習(xí)的新冠疫情新聞要素識別研究[J/OL]. 知識管理論壇, 2021, 6(1): 2-13[引用日期]. http://www.kmf.ac.cn/p/235/.
1? 引言
自2020年初,官方正式通報新型冠狀肺炎(以下簡稱“新冠”)存在“人傳人”現(xiàn)象以來,社會公眾愈發(fā)關(guān)注新冠疫情的相關(guān)新聞動態(tài)。新冠疫情新聞對于幫助公眾了解疫情動態(tài)、防疫方法等知識具有重要意義。然而,數(shù)量呈爆炸式增長的新聞報道給公眾帶來了一定程度的心理壓力和閱讀負擔。因此,有必要快速、準確地提取新聞報道中的關(guān)鍵要素,幫助公眾獲取并理解新聞的主要內(nèi)容,并為進一步構(gòu)建疫情新聞知識圖譜[1]提供數(shù)據(jù)支撐,為自動生成疫情新聞關(guān)鍵詞[2]、自發(fā)推送疫情新聞[3]等工作奠定基礎(chǔ)。
新聞要素通常包括時間、人物、地點、機構(gòu)4類基本要素,而新冠疫情新聞在此基礎(chǔ)上還涉及疾病名稱、發(fā)病癥狀、藥物名稱、診斷或治療方法等醫(yī)學(xué)要素,因此新冠疫情新聞要素識別需要對跨領(lǐng)域的多個類別的要素進行識別,這就涉及到多任務(wù)、多過程的要素識別。時間要素的表述形式具有較強的規(guī)律性,基于規(guī)則模板能夠較準確地對其進行識別[4-5],因此筆者采取基于規(guī)則的要素識別方法識別時間要素;而對于人名、地名、機構(gòu)名3類基本要素以及疾病、癥狀、藥物、方法4類醫(yī)學(xué)要素,利用基于現(xiàn)有深度學(xué)習(xí)模型的命名實體識別(Named Entity Recognition, NER)方法進行識別,但是,疫情新聞作為一類新型應(yīng)急信息資源,目前該領(lǐng)域尚存在缺乏供NER模型訓(xùn)練的標注數(shù)據(jù)這一數(shù)據(jù)冷啟動問題,為此,筆者引入遷移學(xué)習(xí)思想,設(shè)計了跨領(lǐng)域遷移的實體識別模型。
筆者基于NER領(lǐng)域較為成熟的BERT-BiLSTM-CRF三層結(jié)構(gòu)模型,分別利用MSRA數(shù)據(jù)集和醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集訓(xùn)練可遷移的NER模型,并將該模型應(yīng)用于新冠疫情新聞領(lǐng)域的要素識別。最后,通過構(gòu)建基于共現(xiàn)頻次的要素關(guān)聯(lián)數(shù)據(jù),以知識圖譜的方式可視化地展現(xiàn)疫情新聞要素間的關(guān)聯(lián)關(guān)系,從而清晰、直觀地揭示疫情新聞的主要內(nèi)容。
2? 近期相關(guān)研究
新聞文本要素的識別與提取是信息抽取領(lǐng)域的研究熱點之一,在以往的實踐中大多采用基于詞典[6-7]、基于規(guī)則[8-9]或基于統(tǒng)計機器學(xué)習(xí)[10-12]的方法進行。近年來,隨著深度學(xué)習(xí)研究的逐漸成熟,基于深度神經(jīng)網(wǎng)絡(luò)的命名實體識別也成為新聞要素識別的重要支撐技術(shù)[13-15]。相比傳統(tǒng)機器學(xué)習(xí)算法,深度學(xué)習(xí)模型具有網(wǎng)絡(luò)層數(shù)更深、學(xué)習(xí)特征更加復(fù)雜且無需人工構(gòu)建特征等優(yōu)勢[16]。近年來提出的雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)[17]通過疊加句子在順序和逆序方向的隱層表示,能夠極大程度地揭示句中實體的依賴關(guān)系,因此被廣泛應(yīng)用于NER任務(wù)。研究表明,將BiLSTM與條件隨機場(Conditional Random Field, CRF)相結(jié)合能夠有效提高模型效果[18]。由谷歌AI團隊于2018年發(fā)布的字表示模型BERT[19],刷新了11項自然語言處理任務(wù)的記錄。將BERT中文預(yù)訓(xùn)練模型(BERT-Base, Chinese)與識別效果較好的BiLSTM-CRF模型結(jié)合,被多項研究證實能夠取得中文NER的最優(yōu)效果[20-22]。
深度學(xué)習(xí)模型由于學(xué)習(xí)能力極強,易出現(xiàn)過擬合問題,因此需要龐大規(guī)模的標注數(shù)據(jù)作為訓(xùn)練集,而部分領(lǐng)域由于缺乏足夠的訓(xùn)練數(shù)據(jù)而存在數(shù)據(jù)冷啟動問題。為了解決這一問題,遷移學(xué)習(xí)(Transfer Learning)[23]的概念應(yīng)運而生,其將在源領(lǐng)域?qū)W習(xí)到的知識應(yīng)用于與源領(lǐng)域不同但相關(guān)的目標領(lǐng)域的任務(wù)中,利用源領(lǐng)域的標注數(shù)據(jù)訓(xùn)練可供目標領(lǐng)域應(yīng)用的模型。遷移學(xué)習(xí)主要包括基于實例、基于特征和基于模型的遷移學(xué)習(xí),基于實例的遷移學(xué)習(xí)的原理是將與目標領(lǐng)域?qū)嵗嗨频脑搭I(lǐng)域樣本加入訓(xùn)練集,以擴充數(shù)據(jù)量[24-25];基于特征的遷移學(xué)習(xí)是指通過一定的方法,獲取并利用源領(lǐng)域與目標領(lǐng)域之間共同的特征表示,從而實現(xiàn)表示層面的遷移[26-27];基于模型的遷移學(xué)習(xí)是將基于源領(lǐng)域數(shù)據(jù)訓(xùn)練的模型及參數(shù)遷移至目標領(lǐng)域[28-29]。模型遷移學(xué)習(xí)基于大量源領(lǐng)域數(shù)據(jù)訓(xùn)練得到具有較強泛化能力的預(yù)訓(xùn)練模型,能夠較好地適應(yīng)目標領(lǐng)域的數(shù)據(jù)分布,從而取得較優(yōu)的遷移效果,因此被廣泛應(yīng)用于NER領(lǐng)域。M. Al-Smadi等構(gòu)建了基于遷移學(xué)習(xí)的多語言通用語句編碼器,并將其應(yīng)用于復(fù)雜阿拉伯語語境下的實體識別任務(wù)[30];劉宇飛等將公共領(lǐng)域源知識遷移至科學(xué)領(lǐng)域,進而對專利文獻中的科學(xué)術(shù)語進行識別[31];孔祥鵬等提出基于遷移學(xué)習(xí)的聯(lián)合深度模型,通過共享網(wǎng)絡(luò)隱藏層以及BP算法微調(diào)參數(shù)的方法訓(xùn)練跨語言遷移模型,有效提升了維吾爾語NER任務(wù)的成績[32]。
上述研究構(gòu)建的遷移學(xué)習(xí)模型均取得了較好的實體識別效果,但是尚未考察以醫(yī)學(xué)論文語料作為源領(lǐng)域訓(xùn)練數(shù)據(jù)的模型效果??紤]到新冠疫情新聞是一種面向當下應(yīng)急事件的即時信息資源,領(lǐng)域內(nèi)尚缺乏大規(guī)模的標注語料,筆者融合模型遷移與深度學(xué)習(xí)方法,以醫(yī)學(xué)論文文本作為源領(lǐng)域數(shù)據(jù)集,基于學(xué)習(xí)效果較優(yōu)的BERT-BiLSTM-CRF三層結(jié)構(gòu)模型,訓(xùn)練實體識別模型,并將模型應(yīng)用于疫情新聞要素的識別。
3? 數(shù)據(jù)與方法
3.1? 數(shù)據(jù)來源及預(yù)處理
筆者選取澎湃新聞發(fā)布的新冠疫情專題系列報道作為新冠疫情新聞文本的數(shù)據(jù)來源。由于澎湃新聞在我國新聞媒體網(wǎng)站排行榜排名居于前列[33],其文章質(zhì)量較高,用詞和句法較為規(guī)范和標準,因此適用于新聞要素抽取?;谀P瓦w移學(xué)習(xí)的思想,筆者確定以下兩個源領(lǐng)域訓(xùn)練數(shù)據(jù)集:①微軟亞洲研究院(MSRA)數(shù)據(jù)集,是中文NER任務(wù)的常用數(shù)據(jù)集,其語料含27 000余個句子,在本研究中將其用于識別人名、地名、機構(gòu)名3類基本要素的基本要素識別模型的訓(xùn)練;②醫(yī)學(xué)文本數(shù)據(jù)集,來源為中國知網(wǎng)平臺新冠相關(guān)主題的中文醫(yī)學(xué)論文題錄數(shù)據(jù),通過對論文題錄數(shù)據(jù)進行處理后獲得,其語料含12 000余個句子,用于識別疾病、癥狀、藥物、方法4類醫(yī)學(xué)要素的醫(yī)學(xué)要素識別模型的訓(xùn)練。源領(lǐng)域數(shù)據(jù)集采用IOB格式進行實體標注,B表示對應(yīng)類別實體的起始字符,I表示實體中的其他字符,O表示非實體字符,如B-PER表示人名實體的起始字符,I-METHOD表示方法實體中的非起始字符等。
筆者采用半監(jiān)督的處理方法獲得帶標簽的醫(yī)學(xué)文本數(shù)據(jù)集,具體處理過程如下:①以“SU=新冠 + ‘新型冠狀病毒 + ‘武漢肺炎 + ‘2019-ncov +covid-19”作為檢索式,使用中國知網(wǎng)專業(yè)檢索功能,搜索醫(yī)藥衛(wèi)生科技分類下發(fā)表時間在“2020-02-01”后的中文論文,將檢索結(jié)果顯示的6 000條論文題錄數(shù)據(jù)批量下載并保存;②提取題錄數(shù)據(jù)中的關(guān)鍵詞字段,人工對關(guān)鍵詞進行實體類別標注,共得到530個標注后的關(guān)鍵詞數(shù)據(jù);③使用知網(wǎng)(Hownet)近義詞詞典,結(jié)合人工補充的方式,將原詞的近義詞標注為與原詞相同的類別并補充入關(guān)鍵詞集,擴充后的關(guān)鍵詞集包含607個關(guān)鍵詞;④提取題錄數(shù)據(jù)中的全部摘要字段,通過最大匹配算法,使用標注關(guān)鍵詞集匹配摘要文本中的句子,從而生成包含12 000余個含醫(yī)學(xué)實體句子的醫(yī)學(xué)文本語料。應(yīng)用這種處理方法,只需要人工標注少量關(guān)鍵詞,便能夠匹配獲得大量包含實體的句子,大大減少了人工標注的時間開銷。
3.2? 研究框架
為實現(xiàn)新冠疫情新聞要素的自動化識別及抽取,筆者設(shè)計了研究框架,見圖1。①首先,進行數(shù)據(jù)集的準備和預(yù)處理工作。分別收集MSRA數(shù)據(jù)集、醫(yī)學(xué)論文題錄數(shù)據(jù)以及新冠疫情新聞文本數(shù)據(jù),然后人工標注醫(yī)學(xué)論文題錄數(shù)據(jù)中關(guān)鍵詞的實體類別,并拓展關(guān)鍵詞數(shù)量,隨后利用拓展后的關(guān)鍵詞集匹配論文摘要集中的句子,得到帶有訓(xùn)練標簽的醫(yī)學(xué)文本數(shù)據(jù)集。②基于源領(lǐng)域數(shù)據(jù)集訓(xùn)練遷移要素識別模型。使用BERT-BiLSTM-CRF三層結(jié)構(gòu)模型,分別基于MSRA數(shù)據(jù)集和醫(yī)學(xué)文本數(shù)據(jù)集訓(xùn)練得到能夠識別人物、地點、機構(gòu)要素的基本要素識別模型COV19News-Base和能夠識別疾病、癥狀、藥物、方法要素的醫(yī)學(xué)要素識別模型COV19News-Med,并抽取原數(shù)據(jù)集中一定比例的樣本作為測試集,以檢驗?zāi)P偷淖R別效果。③將要素識別模型應(yīng)用于新冠疫情新聞文本領(lǐng)域的要素識別。人工標注新冠疫情新聞文本中的部分句子作為目標領(lǐng)域測試集,分別檢驗將模型COV19News-Base和模型COV19News-Med應(yīng)用于新冠疫情新聞要素識別的遷移效果。④最后,基于新聞要素構(gòu)建要素關(guān)聯(lián)圖譜。使用COV19News-Base和COV19News-Med的模型組合抽取大量疫情新聞文本要素,結(jié)合基于規(guī)則抽取的新聞時間要素,構(gòu)建新冠疫情新聞要素關(guān)聯(lián)數(shù)據(jù),并以知識圖譜的形式展現(xiàn)各要素之間的關(guān)聯(lián)關(guān)系,以達到直觀揭示新聞主要內(nèi)容的目的。
基于此,筆者將主要解決以下3個重要問題:
(1)多類別要素的識別問題。將劃分多個要素識別任務(wù),基于命名實體識別和規(guī)則識別方法,分別對新冠疫情新聞中的基本要素、醫(yī)學(xué)要素與時間要素進行識別。
(2)數(shù)據(jù)冷啟動問題。引入模型遷移學(xué)習(xí),利用源領(lǐng)域充足的標注數(shù)據(jù)訓(xùn)練可遷移的NER模型,并將其應(yīng)用于疫情新聞領(lǐng)域的要素識別,從而解決了目標領(lǐng)域標注數(shù)據(jù)不充足的問題。
(3)疫情新聞要素的利用問題。將提出的要素識別方法應(yīng)用于大量無標簽的疫情新聞文本,并將識別的要素及要素間的共現(xiàn)關(guān)系以疫情新聞要素關(guān)聯(lián)數(shù)據(jù)的形式存儲?;诖?,進一步以要素關(guān)聯(lián)圖譜的形式可視化展現(xiàn)要素間的關(guān)聯(lián)關(guān)系,從而揭示疫情新聞的主要內(nèi)容。
3.3? 新冠疫情新聞要素分類
筆者試圖實現(xiàn)8類疫情新聞要素的自動識別和抽取,8類要素的名稱及示例見表1。其中,時間、人物、地點、機構(gòu)4類要素是描述新聞內(nèi)容的基本要素。此外,新冠疫情主題的新聞文本往往還包含疾病名稱、發(fā)病癥狀、藥物名稱、診斷或治療方法的名稱等醫(yī)學(xué)要素。對于具體識別哪些類別的醫(yī)學(xué)要素,可借鑒前人研究的經(jīng)驗。在2019年全國知識圖譜與語義計算大會(CCKS)醫(yī)療命名實體識別任務(wù)中,醫(yī)療命名實體被劃分為6類:疾病和診斷、檢查、檢驗、手術(shù)、藥物、解剖部位[20];2017年CCKS定義了4類醫(yī)學(xué)實體:身體部位、癥狀和體征、檢查和檢驗、疾病和診斷[34];趙青等、夏光輝等將醫(yī)療實體劃分為疾病、癥狀、檢查、治療4類[35-36]。由上述研究總結(jié),醫(yī)學(xué)實體總共包括5類:疾病名稱、癥狀體征、藥物、檢查和治療方法以及身體部位。但身體部位實體在新聞領(lǐng)域語境下往往具有除患病部位以外的含義,如“握手言和”中的“手”“嘴上說說”中的“嘴”等并非指代患病部位,不屬于描述新聞內(nèi)容的關(guān)鍵要素,因此識別身體部位實體對提取新聞要點的意義不大。綜上所述,筆者最終確定將疾病、癥狀、藥物、方法4類要素作為待識別的醫(yī)學(xué)要素。
筆者通過多個任務(wù)識別各類疫情新聞要素。對于除時間要素以外的7類要素,采取命名實體識別方法對其進行識別,基于BERT-BiLSTM-CRF模型分別訓(xùn)練基本要素識別模型和醫(yī)學(xué)要素識別模型;對于時間要素,采取基于規(guī)則的識別方法,通過構(gòu)建正則表達式,匹配并獲取新聞文本中的時間要素。匹配時間要素的正則表達式模板如公式(1)所示:
3.4? 基于遷移學(xué)習(xí)的COV19News模型訓(xùn)練
由于疫情新聞領(lǐng)域尚缺乏可供NER模型訓(xùn)練的標注數(shù)據(jù),筆者采用融合遷移學(xué)習(xí)的模型訓(xùn)練方法,分別基于MSRA數(shù)據(jù)集和醫(yī)學(xué)文本數(shù)據(jù)集訓(xùn)練模型COV19News-Base和模型COV19News-Med,并將上述模型應(yīng)用于疫情新聞文本中各類要素的識別。為了檢驗不同模型的識別效果,分別對MSRA數(shù)據(jù)集和醫(yī)學(xué)文本數(shù)據(jù)集進行訓(xùn)練集、測試集的劃分,以供模型COV19News-Base和模型COV19News-Med在源領(lǐng)域的訓(xùn)練和檢驗;并從新聞文本中分別抽取并標注100個包含基本要素和醫(yī)學(xué)要素的句子,作為模型的目標域測試集。
在進行模型訓(xùn)練前,對源領(lǐng)域訓(xùn)練集、源領(lǐng)域測試集和目標領(lǐng)域測試集中的實體數(shù)量進行統(tǒng)計,統(tǒng)計結(jié)果見表2,其中模型COV19News-Base的源領(lǐng)域數(shù)據(jù)集為MSRA數(shù)據(jù)集,模型COV19News-Med的源領(lǐng)域數(shù)據(jù)集為醫(yī)學(xué)文本數(shù)據(jù)集,兩模型的目標領(lǐng)域測試集均為新聞文本中抽取的句子。從表2中可以發(fā)現(xiàn),源領(lǐng)域數(shù)據(jù)集存在不同程度的實體分布不均衡現(xiàn)象,MSRA數(shù)據(jù)集中地名實體明顯多于人名和機構(gòu)名實體,而醫(yī)學(xué)文本數(shù)據(jù)集中疾病實體更遠多于其他3類實體,這是由于來自醫(yī)學(xué)論文的標注關(guān)鍵詞集中大部分關(guān)鍵詞屬于疾病實體,主要包括新冠的大量別稱,因此造成了匹配實體數(shù)量分布不均勻的問題。從目標領(lǐng)域測試集實體分布的角度看,人名、地名、機構(gòu)名3類實體分布較為均勻,而醫(yī)學(xué)實體中疾病實體仍然是出現(xiàn)頻率最高的實體,這與新冠疫情新聞的特點有關(guān)(報道中包含較多新冠的指代與別稱)。實體分布的不均衡是否會影響模型效果有待實驗考證。此外,醫(yī)學(xué)文本數(shù)據(jù)集的規(guī)模相對MSRA數(shù)據(jù)集較小,因此可供訓(xùn)練的實體數(shù)量相對較少,可能會對模型效果造成影響,具體有待后續(xù)探究。
基于BERT-BiLSTM-CRF模型,使用上述訓(xùn)練數(shù)據(jù)分別訓(xùn)練模型COV19News-Base和模型COV19News-Med。BERT采用多層的雙向Transformer[37]編碼器結(jié)構(gòu),能夠捕捉長距離上下文的語義特征,從而得到較為精確的文本向量;BiLSTM采用二重逆序的LSTM網(wǎng)絡(luò),能夠充分學(xué)習(xí)向量間雙向的語義關(guān)系;CRF則能夠依照序列標簽的約束規(guī)則,輸出全局最優(yōu)的標記序列。因此,采用BERT-BiLSTM-CRF模型進行模型訓(xùn)練,在模型表示層、網(wǎng)絡(luò)層和輸出層均能取得較優(yōu)的學(xué)習(xí)效果,適用于COV19News模型的訓(xùn)練。模型訓(xùn)練完畢后,分別基于源領(lǐng)域和目標領(lǐng)域測試集對模型效果進行檢驗,檢驗結(jié)果見實驗結(jié)果與分析部分。
3.5? 疫情新聞要素的知識圖譜構(gòu)建
在利用上述模型實現(xiàn)對疫情新聞要素的識別和提取后,進一步構(gòu)建疫情新聞要素的知識圖譜,可視化展現(xiàn)要素間的關(guān)聯(lián)關(guān)系。
考慮到疫情新聞要素之間存在關(guān)聯(lián)關(guān)系,并且要素間的關(guān)聯(lián)能夠揭示新聞的主體事件,因此對新聞要素關(guān)聯(lián)關(guān)系的挖掘有助于推斷疫情新聞的主要內(nèi)容,對讀者理解新聞內(nèi)容具有重要的意義。首先將整篇新聞文本劃分為句子的集合,然后將在同一句子中出現(xiàn)的要素記為共現(xiàn)一次,由此計算兩兩要素的共現(xiàn)頻次,以“要素A-要素B-共現(xiàn)頻次”的格式保存為數(shù)據(jù)文件,作為疫情新聞要素的關(guān)聯(lián)數(shù)據(jù)。疫情新聞要素關(guān)聯(lián)數(shù)據(jù)描述了要素間的關(guān)聯(lián)關(guān)系以及關(guān)聯(lián)關(guān)系的強度,為疫情新聞要素知識圖譜的構(gòu)建提供了數(shù)據(jù)支撐。
疫情新聞要素知識圖譜能夠清晰、直觀地展現(xiàn)要素關(guān)聯(lián)及其強度,有助于讀者定位新聞中的關(guān)鍵要素,進而推斷新聞的主要內(nèi)容。因此,基于新聞要素關(guān)聯(lián)數(shù)據(jù),以要素作為節(jié)點,兩要素的共現(xiàn)頻次作為兩節(jié)點連線的權(quán)重,進一步構(gòu)建疫情新聞要素的關(guān)聯(lián)數(shù)據(jù)知識圖譜。筆者使用網(wǎng)絡(luò)分析軟件Gephi繪制疫情新聞要素關(guān)聯(lián)知識圖譜,見圖2。由圖2可知,新聞中與其他要素關(guān)聯(lián)較為緊密的關(guān)鍵要素得到了突出顯示,并且根據(jù)要素間的關(guān)聯(lián)關(guān)系,讀者能夠聯(lián)系各個要素,對新聞的主要內(nèi)容進行推斷。
4? 結(jié)果與分析
4.1? 實驗環(huán)境及模型參數(shù)設(shè)置
模型的訓(xùn)練、測試和遷移全部在裝載6GB顯存的NVDIA GeForce RTX 2060顯卡、內(nèi)存16GB、操作系統(tǒng)為Windows10的個人計算機中進行,模型運行環(huán)境為Python3.5 + Tensorflow1.12GPU版,CUDA版本為10.2。BERT-BiLSTM-CRF模型的部分參數(shù)如表3所示:
4.2? 模型COV19News-Base的測試與遷移
筆者采用精確率(Precision, P)、召回率(Recall, R)以及二者的調(diào)和平均值(F1-measure, F1)評估模型的識別效果。對于通常包含多個單字的實體,當且僅當模型輸出的實體標簽序列與原標注序列完全相同時,記為正確識別實體,否則記為錯誤識別。在后續(xù)實驗中,OP、OR、OF1分別表示模型在源領(lǐng)域的P、R、F1值,TP、TR、TF1分別表示模型在目標領(lǐng)域的P、R、F1值。
基于MSRA數(shù)據(jù)集訓(xùn)練模型COV19News-Base,源領(lǐng)域和目標領(lǐng)域的測試集表現(xiàn)如圖3所示。由圖可知:①由于同領(lǐng)域的訓(xùn)練集和測試集的實體分布特征較為一致,因此模型在源領(lǐng)域測試集上表現(xiàn)出較優(yōu)的識別效果,3類實體的F1值均在90%以上。②模型遷移至目標領(lǐng)域后,3類實體的識別效果均出現(xiàn)了不同程度的下降,但F1值仍能保持在80%以上??紤]到疫情新聞領(lǐng)域文本與MSRA數(shù)據(jù)集在實體分布上存在差異,遷移后模型識別效果的略微下滑符合預(yù)期。③對3類實體的識別效果進行相比,人物實體的識別效果最優(yōu),其次是地點實體,機構(gòu)實體的識別效果最差。地點和機構(gòu)實體的平均長度通常大于人物實體,其識別難度也相對更大,因此模型對不同實體的識別效果存在差異。④雖然地點實體在源數(shù)據(jù)集中的出現(xiàn)頻率高于其他兩類實體,但其識別效果并未更優(yōu),這說明訓(xùn)練集中實體的不均衡分布并未影響模型效果。
4.3? 模型COV19News-Med的測試與遷移
復(fù)原模型的基礎(chǔ)參數(shù),基于醫(yī)學(xué)文本數(shù)據(jù)集訓(xùn)練模型COV19News-Base,源領(lǐng)域和目標領(lǐng)域的測試集表現(xiàn)如圖4所示??梢园l(fā)現(xiàn):? ? ? ? ①模型在源領(lǐng)域測試集的表現(xiàn)仍然較優(yōu),4類醫(yī)學(xué)實體的識別F1值均在90%以上,表明BERT-BiLSTM-CRF框架具有較強的表征和學(xué)習(xí)能力,對于不同領(lǐng)域的數(shù)據(jù)均能夠保持較好的擬合效果。②雖然醫(yī)學(xué)文本數(shù)據(jù)集相較MSRA數(shù)據(jù)集規(guī)模較小,但在源領(lǐng)域測試集的表現(xiàn)并未落后,說明在數(shù)據(jù)規(guī)模量級達標的前提下,投入相對少量的樣本也能使模型取得較好的訓(xùn)練結(jié)果,不會影響模型效果。③將模型遷移至目標領(lǐng)域后,各類實體的識別效果出現(xiàn)了不同程度的下滑,但除藥物實體外,其他3類實體的F1值仍能保持在80%以上,較符合預(yù)期。識別效果下降是因為各類實體在目標領(lǐng)域測試集的召回率表現(xiàn)較差,可能因為醫(yī)學(xué)論文文本與疫情新聞文本中醫(yī)學(xué)實體的分布特征存在較大差異,導(dǎo)致模型遷移后的泛化效果不夠理想,使得一部分目標領(lǐng)域中存在但未能被模型學(xué)習(xí)的實體難以被識別。盡管如此,遷移后的模型依然能保證較高的識別精確率。④在源領(lǐng)域數(shù)據(jù)集中,疾病實體的數(shù)量遠超出其他3類實體,疾病實體在源領(lǐng)域和目標領(lǐng)域測試集的表現(xiàn)也最優(yōu),但在目標領(lǐng)域測試集的F1值與癥狀、方法兩類實體相比差距已不明顯。這表明,雖然極不均衡的實體分布可能會對某類實體在源領(lǐng)域的識別起積極作用,但是未必對該類實體在目標領(lǐng)域的表現(xiàn)產(chǎn)生較大影響,后者仍然與目標領(lǐng)域的實體分布特征有關(guān)。
上述實驗結(jié)果表明,基于遷移學(xué)習(xí)方法訓(xùn)練得到的NER模型,對于目標領(lǐng)域疫情新聞要素的識別具有較好的效果。為展示所提出方法的識別效果,筆者在疫情新聞文本中隨機選取多個包含多類要素的句子,使用模型COV19News-Base和模型COV19News-Med對其中要素進行識別,并基于時間要素的表述規(guī)則構(gòu)建正則表達式模板,匹配并識別句子中的時間要素,最后將多個任務(wù)的識別結(jié)果匯總,部分結(jié)果如表4所示:
4.4? 新冠疫情新聞要素知識圖譜的構(gòu)建
基于上述疫情新聞要素的識別方法,提取新聞要素并構(gòu)建要素關(guān)聯(lián)數(shù)據(jù),進而構(gòu)建新冠疫情新聞要素的關(guān)聯(lián)知識圖譜。以一篇標題為《家屬口述|一個“重癥肺炎”患者的最后12天》的新聞報道為例,構(gòu)建其要素知識圖譜,如圖5所示:
由圖5可知,該篇新聞主要涉及時間、人物、地點、機構(gòu)、疾病要素,其中“翁秋秋”“武漢”“肺炎”為重要要素。結(jié)合要素關(guān)聯(lián)情況推斷,該篇新聞的主要內(nèi)容為黃岡市民翁秋秋身患新冠,并于黃岡市中醫(yī)院接受治療。可見,疫情新聞要素的關(guān)聯(lián)知識圖譜能夠有效幫助讀者確定新聞重點以及推斷新聞主要內(nèi)容,因此有潛力成為面向新冠疫情突發(fā)事件的新型知識服務(wù)。
5? 結(jié)論
筆者提出了一種多任務(wù)環(huán)境下融合遷移學(xué)習(xí)與深度學(xué)習(xí)技術(shù)的疫情新聞要素識別方法,為應(yīng)急事件下公民的信息獲取提供了可行的服務(wù)方案。首先,結(jié)合命名實體識別與規(guī)則識別方法,通過多個任務(wù)對多類別的新聞要素進行識別。同時,為解決疫情新聞領(lǐng)域數(shù)據(jù)冷啟動的問題,采用模型遷移的解決方案,從而得到識別效果較好的跨領(lǐng)域要素識別模型。最后,將識別方案應(yīng)用于大量新冠疫情新聞文本,基于識別到的新聞要素構(gòu)建要素關(guān)聯(lián)數(shù)據(jù)知識圖譜,從而幫助新聞讀者直觀、快速地發(fā)掘新聞關(guān)鍵要素及主要內(nèi)容。
通過對模型測試和遷移的效果進行比較,得到以下結(jié)論:①BERT-BiLSTM-CRF三層結(jié)構(gòu)模型適用于不同領(lǐng)域的命名實體識別任務(wù),且源領(lǐng)域各類實體識別的F1值均在90%以上;②將模型由源領(lǐng)域遷移至目標領(lǐng)域后,模型的識別效果有下降趨勢,但尚保持在可接受的范圍內(nèi),大部分實體識別的F1值均在80%以上;③若源領(lǐng)域訓(xùn)練數(shù)據(jù)中實體分布極不均衡,可能導(dǎo)致對某類實體的過度學(xué)習(xí),在源領(lǐng)域中對該類實體的識別效果遠優(yōu)于其他實體,但是否會影響目標領(lǐng)域?qū)嶓w的識別仍有待后續(xù)研究。
綜上所述,筆者提出的基于遷移學(xué)習(xí)的要素識別方法對于新冠疫情新聞要素具有較優(yōu)的識別效果。但本研究尚存在部分類別實體識別率較低等問題。在后續(xù)研究中,將重點考慮將實例遷移與模型遷移相結(jié)合,使訓(xùn)練域與目標域的實體分布更加接近,從而提升模型在目標領(lǐng)域的識別效果。
參考文獻:
[1] 王巖, 蒿興華, 薛鵬. 基于共詞分析和社會網(wǎng)絡(luò)分析的關(guān)聯(lián)數(shù)據(jù)知識圖譜構(gòu)建分析[J]. 數(shù)字通信世界, 2020(6):148-150.
[2] 陶潔. 基于新聞文本的關(guān)鍵詞提取[D]. 武漢: 華中師范大學(xué), 2019.
[3] 陶天一, 王清欽, 付聿煒, 等. 基于知識圖譜的金融新聞個性化推薦算法[J/OL]. 計算機工程, 2020: 1-10 [2020-09-12]. https://doi.org/10.19678/j.issn.1000-3428.0057446.
[4] 裴韜, 郭思慧, 袁燁城, 等. 面向公共安全事件的網(wǎng)絡(luò)文本大數(shù)據(jù)結(jié)構(gòu)化研究[J]. 地球信息科學(xué)學(xué)報, 2019, 21(1):2-13.
[5] 吉雷靜. 面向網(wǎng)頁文本的地理信息變化語義檢測方法研究[D]. 南京: 南京師范大學(xué), 2013.
[6] 伏愷. Web新聞文本信息抽取與可視化研究[D]. 濟南: 山東財經(jīng)大學(xué), 2017.
[7] KRSTEV C, OBRADOVIC I, UTVIC M, et al. A system for named entity recognition based on local grammars[J]. Journal of logic and computation, 2014, 24(2):473-489.
[8] 楊建林, 王文龍. 公共衛(wèi)生類突發(fā)事件的抽取研究[J]. 情報理論與實踐, 2016, 39(4) :51-59.
[9] KUCUK D, YAZICI A. A hybrid named entity recognizer for Turkish[J]. Expert systems with applications, 2012, 39(3):2733-2742.
[10] SEKER G A, ERYIGIT G. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content[J]. Semantic Web, 2017, 8(5):625-642.
[11] 吳偉成. 基于恐怖襲擊事件語料庫的時間短語抽取研究[D]. 南京: 南京大學(xué), 2016.
[12] CHASIN R, WOODWARD D, WITMER J, et al. Extracting and displaying temporal and geospatial entities from articles on historical events[J]. Computer journal, 2014,57(3):403-426.
[13] 李玉超. 新聞事件地名實體識別和地圖鏈接技術(shù)研究[D]. 成都: 電子科技大學(xué), 2020.
[14] WICHMANN P, BRINTRUP A, BAKER S, et al. Extracting supply chain maps from news articles using deep neural networks[J]. International journal of production research, 2020, 58(17):5320-5336.
[15] XU J G, GUO L X, JIANG J, et al. A deep learning methodology for automatic extraction and discovery of technical intelligence[J]. Technological forecasting and social change, 2019, 146 :339-351.
[16] 王昊, 鄧三鴻, 朱立平, 等. 大數(shù)據(jù)環(huán)境下政務(wù)數(shù)據(jù)的情報價值及其利用研究——以海關(guān)報關(guān)商品歸類風(fēng)險規(guī)避為例[J]. 科技情報研究, 2020, 2(4):74-89.
[17] DONG X S, CHOWDHURY S, QIAN L J, et al. Deep learning for named entity recognition on Chinese electronic medical records: combining deep transfer learning with multitask bi-directional LSTM RNN[J]. PLOS one, 2019, 14(5):1-15.
[18] 肖連杰, 孟濤, 王偉, 等. 基于深度學(xué)習(xí)的情報分析方法識別研究——以安全情報領(lǐng)域為例[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(10):20-28.
[19] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL].[2020-09-12]. https://arxiv.org/abs/1810.04805.
[20] 李靈芳, 楊佳琦, 李寶山, 等. 基于BERT的中文電子病歷命名實體識別[J]. 內(nèi)蒙古科技大學(xué)學(xué)報, 2020, 39(1):71-77.
[21] 吳俊, 程垚, 郝瀚, 等. 基于BERT嵌入BiLSTM-CRF模型的中文專業(yè)術(shù)語抽取研究[J]. 情報學(xué)報, 2020, 39(4):409-418.
[22] 劉忠寶, 黨建飛, 張志劍.《史記》歷史事件自動抽取與事理圖譜構(gòu)建研究[J]. 圖書情報工作, 2020, 64(11):116-124.
[23] YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks? [EB/OL]. [2020-09-12]. https://arxiv.org/abs/1411.1792.
[24] 陳美杉, 夏晨曦. 肝癌患者在線提問的命名實體識別研究:一種基于遷移學(xué)習(xí)的方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(12):61-69.
[25] 李號號. 基于實例的遷移學(xué)習(xí)技術(shù)研究及應(yīng)用[D]. 武漢: 武漢大學(xué), 2018.
[26] 陳文珺, 楊佳佳. 基于共享知識遷移學(xué)習(xí)的跨領(lǐng)域推薦研究[J]. 情報科學(xué), 2020, 38(6):126-132.
[27] GLIGIC L, KORMILITZIN A, GOLDBERG P, et al. Named entity recognition in electronic health records using transfer learning bootstrapped neural networks[J]. Neural networks, 2020, 121 :132-139.
[28] KUNG H K, HSIEH C M, HO C Y, et al. Data-augmented hybrid named entity recognition for disaster management by transfer learning[J]. Applied sciences-basel, 2020, 10(12):1-17.
[29] 邵明銳, 馬登豪, 陳躍國, 等. 基于社區(qū)問答數(shù)據(jù)遷移學(xué)習(xí)的FAQ問答模型研究[J]. 華東師范大學(xué)學(xué)報(自然科學(xué)版), 2019(5):74-84.
[30] Al-SMADI M, Al-ZBOON S, JARARWEH Y, et al. Transfer learning for Arabic named entity recognition with deep neural networks[J]. IEEE access, 2020,8:37736-37745.
[31] 劉宇飛, 尹力, 張凱, 等. 基于深度遷移學(xué)習(xí)的技術(shù)術(shù)語識別——以數(shù)控系統(tǒng)領(lǐng)域為例[J]. 情報雜志, 2019, 38(10):168-175.
[32] 孔祥鵬, 吾守爾·斯拉木, 楊啟萌, 等. 基于遷移學(xué)習(xí)的維吾爾語命名實體識別[J]. 東北師大學(xué)報(自然科學(xué)版), 2020, 52(2):58-65.
[33] 站長之家. 新聞媒體網(wǎng)站排行榜[EB/OL]. [2020-09-30]. https://top.chinaz.com/hangye/index_news.html.
[34] 李飛, 朱艷輝, 王天吉, 等. 基于醫(yī)療類別的電子病歷命名實體識別研究[J]. 湖南工業(yè)大學(xué)學(xué)報, 2018, 32(4):61-66.
[35] 趙青, 王丹, 徐書世, 等. 一種基于RNN的弱監(jiān)督中文醫(yī)療實體識別方法[J/OL]. 哈爾濱工程大學(xué)學(xué)報, 2020:1-10[2020-09-12]. http://kns.cnki.net/kcms/detail/23.1390.U.20200330.1522.002.html.
[36] 夏光輝, 李軍蓮, 邢寶坤, 等. 基于中文病例報告文獻的醫(yī)學(xué)診療命名實體識別研究[J]. 醫(yī)學(xué)信息學(xué)雜志, 2019, 40(6):54-59.
[37] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2020-09-12]. https://arxiv.org/abs/1706.03762.
作者貢獻說明:
趙梓博:負責完成實驗,撰寫論文初稿;
王昊:指導(dǎo)研究思路,核查論文內(nèi)容并提出修改意見;
劉友華:負責整理實驗結(jié)果,審查異常數(shù)據(jù)指標并提出改進策略;
張衛(wèi):提供有關(guān)可視化方法、工具的指導(dǎo)建議,并參與修改終稿;
孟鎮(zhèn):負責修改終稿。