国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多任務(wù)學(xué)習(xí)和多態(tài)語義特征的中文疾病名稱歸一化研究

2021-11-25 09:32:08張展鵬
情報學(xué)報 2021年11期
關(guān)鍵詞:多任務(wù)名稱語義

韓 普,張展鵬,張 偉

(1.南京郵電大學(xué)管理學(xué)院,南京 210003;2.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室,南京 210023)

1 引言

近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展和公眾信息素養(yǎng)的提升,微博、微信和在線健康社區(qū)等社會化媒體逐漸成為人們獲取、傳播和分享醫(yī)療健康知識的重要渠道,這些平臺所產(chǎn)生的海量在線醫(yī)療健康數(shù)據(jù)已經(jīng)成為醫(yī)療實體識別[1-2]、流行病預(yù)測[3-4]、情感分析[5-6]和藥物不良反應(yīng)[7-8]等多個研究的重要數(shù)據(jù)源。與電子病歷中的專業(yè)化表述相比,在線醫(yī)療健康文本缺乏醫(yī)療術(shù)語規(guī)范,存在大量的疾病指稱和口語化表達(dá),這對在線醫(yī)療健康信息抽取和知識挖掘帶來了極大的挑戰(zhàn)。在這種背景下,將用戶的非標(biāo)準(zhǔn)化表述映射到標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語的疾病名稱歸一化任務(wù)[9-10],受到了醫(yī)療健康信息抽取、知識庫和知識圖譜構(gòu)建以及領(lǐng)域知識挖掘的重點關(guān)注[11-12],目前已經(jīng)成為自然語言處理和信息抽取中的一個重要研究領(lǐng)域。

疾病名稱歸一化任務(wù)的主要挑戰(zhàn)表現(xiàn)是在線醫(yī)療健康文本中疾病指稱與標(biāo)準(zhǔn)術(shù)語往往并沒有字面上的關(guān)聯(lián),基于規(guī)則的方法難以從字符層面實現(xiàn)歸一化;另外,在線醫(yī)療健康文本中的疾病指稱與標(biāo)準(zhǔn)術(shù)語存在一對多或多對多等復(fù)雜關(guān)系,傳統(tǒng)方法難以挖掘深層語義信息。與英文相比,中文文本表達(dá)方式和語法結(jié)構(gòu)更為復(fù)雜,詞匯間無分隔符號,一詞多義和同形異義的現(xiàn)象較為普遍,導(dǎo)致語義分析的難度更大[13]。另外,中文疾病名稱構(gòu)詞更為復(fù)雜,存在大量縮寫和翻譯詞匯,也缺少類似于UMLS(unified medical language system)和SNOMED CT(the systematized nomenclature of human and vet‐erinary medicine clinical terms)的疾病名稱知識庫資源[14-15],使得中文疾病名稱歸一化面臨著更大的挑戰(zhàn)。與通常的術(shù)語相比,中文疾病名稱專業(yè)性更強(qiáng),尤其是在線醫(yī)療健康社區(qū)中不同用戶的表述多種多樣,并且有許多名稱是從外文翻譯而來,這些因素導(dǎo)致中文疾病名稱歸一化難度也遠(yuǎn)大于普通的術(shù)語標(biāo)準(zhǔn)化。

本研究基于多任務(wù)學(xué)習(xí)視角,將CNN(convo‐lutional neural networks)、GRU(gated recurrent unit)、LSTM(long short-term memory)、BiGRU(bidirectional gated recurrent unit)、BiLSTM(bi-di‐rectional long short-term memory)與BERT(bidirec‐tional encoder representations from transformers)相 結(jié)合,以捕獲靜態(tài)和動態(tài)語義信息;同時引入注意力權(quán)重詞典作為輔助任務(wù)生成注意力矩陣以調(diào)節(jié)靜態(tài)向量,并將疾病名稱歸一化轉(zhuǎn)化為分類任務(wù);最后在中文數(shù)據(jù)集上進(jìn)行實驗,以驗證多任務(wù)學(xué)習(xí)對中文疾病名稱歸一化的效果。

2 相關(guān)研究概述

根據(jù)所采用的研究方法,疾病名稱歸一化可以分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。在有監(jiān)督學(xué)習(xí)方法中,多任務(wù)學(xué)習(xí)和BERT是學(xué)界近期的關(guān)注重點。

2.1 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)方法主要是指采用字典查找或字符串匹配的方法進(jìn)行歸一化。Ristad等[16]利用編輯距離計算字符串間的相似度,將歸一化任務(wù)轉(zhuǎn)化為相似度排序問題。2010年,美國醫(yī)學(xué)圖書館年發(fā)布了MetaMap工具[17],它首先通過詞典遍歷和淺層句法分析來識別名詞短語,然后將生物醫(yī)學(xué)文本與UMLS的CUIs建立映射關(guān)系。Tsuruoka等[18]利用邏輯回歸計算字符串相似度以實現(xiàn)歸一化,其效果優(yōu)于傳統(tǒng)的規(guī)則匹配方法。Yang[19]從UMLS和SNOMED CT中提取了疾病相關(guān)特征,并改進(jìn)了基于規(guī)則的歸一化方法。基于MetaMap工具,Khare等[20]建立了疾病和藥物的映射關(guān)系,并將藥物描述中的疾病作為候選名稱,結(jié)果表明該方法在疾病名稱歸一化上可達(dá)到較好的效果。基于UMLS中的疾病變體規(guī)則,Kate[21]提出了自動學(xué)習(xí)臨床術(shù)語變體的模型,從而對未包含在知識庫中的術(shù)語進(jìn)行歸一化。Jonnagaddala等[22]提出了基于詞典查找的方法進(jìn)行疾病名稱歸一化,并引入同義詞增強(qiáng)詞典以進(jìn)一步提升實驗效果。通過上述分析可知,一方面,傳統(tǒng)的無監(jiān)督學(xué)習(xí)方法依賴權(quán)威的醫(yī)學(xué)詞典或知識庫,難以應(yīng)對未收錄疾病和疾病指稱的情況;另一方面,該方法主要利用語言形態(tài)信息進(jìn)行處理,難以結(jié)合深層語義信息進(jìn)行疾病名稱歸一化。

2.2 有監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)方法主要是指利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型進(jìn)行任務(wù)分類的方法,該方法往往將疾病描述文本與疾病名稱匹配視為文本分類任務(wù),通過模型學(xué)習(xí)疾病描述特征表示以預(yù)測疾病分類,從而實現(xiàn)疾病名稱歸一化?;诔蓪W(xué)習(xí)思想,Leaman利用機(jī)器學(xué)習(xí)模型,構(gòu)建了英文疾病名稱歸一化系統(tǒng)DNorm(disease name normalization)[10]。該系統(tǒng)利用計算相似度矩陣預(yù)測疾病描述文本與候選疾病名稱的關(guān)系,其F值在NCBI(National Center for Biotechnology Information)疾病數(shù)據(jù)集實驗中較MetaMap提升了25%。Shi等[23]利用字符級感知神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)書面診斷描述和ICD(international cassifi‐cation of diseases)編碼的隱藏表示,并引入注意力機(jī)制,實現(xiàn)了書面診斷與ICD編碼的歸一化映射。Liu等[24]利用word2vec和TreeLSTM生成了分布式特征表示并提取候選疾病名稱,通過計算疾病描述和候選疾病名稱間相似度進(jìn)行分類,在英文數(shù)據(jù)集上取得了較好的實驗結(jié)果和較高的魯棒性。通過學(xué)習(xí)文本內(nèi)在語義關(guān)系,Limsopatham等[25]發(fā)現(xiàn)CNN在疾病名稱歸一化上的效果優(yōu)于RNN(recurrent neu‐ral network),其實驗準(zhǔn)確率較DNorm高出13.79%?;谛螒B(tài)和語義信息,Li等[26]通過CNN計算疾病指稱和候選疾病名稱的語義相似度實現(xiàn)了生物醫(yī)學(xué)概念歸一化,實驗結(jié)果明顯優(yōu)于基于規(guī)則的方法,驗證了引入語義特征可提高疾病名稱歸一化效果。Tutubalina等[27]提出了基于注意機(jī)制的雙向LSTM及GRU,并引入UMLS的TF-IDF(term frequencyinverse document frequency)特征和語義相似性特征,進(jìn)一步驗證了語義特征對疾病名稱歸一化的影響。Huang等[28]基于RNN和CNN實現(xiàn)了MIMIC-III(medical information mark for intensive care)數(shù)據(jù)集到ICD編碼的映射,研究結(jié)果驗證了RNN和CNN較傳統(tǒng)的邏輯回歸和隨機(jī)森林等模型的疾病名稱歸一化效果均有明顯提升。

與無監(jiān)督學(xué)習(xí)相比,有監(jiān)督學(xué)習(xí)不但彌補(bǔ)了無監(jiān)督學(xué)習(xí)中無法處理未收錄疾病名稱的不足,而且通過大規(guī)模訓(xùn)練數(shù)據(jù)學(xué)習(xí)疾病特征,可充分利用文本語義信息進(jìn)行疾病名稱歸一化。

2.3 多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)可聯(lián)合訓(xùn)練多個子任務(wù),通過共享參數(shù)提高模型的學(xué)習(xí)效率和泛化能力,近期在自然語言處理領(lǐng)域受到了學(xué)界的重點關(guān)注。Collobert等[29]在詞性標(biāo)注、命名實體識別和語義角色標(biāo)注等任務(wù)中,提出了基于多任務(wù)學(xué)習(xí)的CNN模型,驗證了多任務(wù)學(xué)習(xí)在自然語言處理上的優(yōu)異表現(xiàn)。Liu等[30]基于LSTM設(shè)計了三種信息共享機(jī)制,使用特定任務(wù)的共享層對文本進(jìn)行建模,研究發(fā)現(xiàn)子任務(wù)可以提升主分類任務(wù)效果;另外,Liu等[31]還在文本分類中提出對抗性的多任務(wù)學(xué)習(xí)框架,避免了共享和私有兩種特征的相互干擾,實驗結(jié)果表明所學(xué)習(xí)的共享知識可被遷移到新任務(wù)中。Yang等[32]以ELMo(embeddings from language models)作為向量嵌入提出了基于注意力的多任務(wù)BiLSTM-CRF模型,在電子病歷數(shù)據(jù)集上進(jìn)一步提升了醫(yī)療實體識別和歸一化效果。Niu等[33]基于多任務(wù)學(xué)習(xí)思路提出了字符級CNN模型進(jìn)行疾病名稱歸一化,較好地解決了未登錄詞的問題,并引入注意力機(jī)制優(yōu)化模型效果,實驗結(jié)果在AskApatient數(shù)據(jù)集上達(dá)到了84.65%的準(zhǔn)確率。由上文可知,在自然語言處理任務(wù)的不同應(yīng)用場景中,多任務(wù)學(xué)習(xí)得到了廣泛的應(yīng)用。本文將多任務(wù)學(xué)習(xí)思想引入中文疾病名稱歸一化研究中,利用多任務(wù)學(xué)習(xí)能夠共享多個子任務(wù)間參數(shù)以共同提升主任務(wù)的優(yōu)勢,進(jìn)一步推動中文疾病名稱歸一化研究進(jìn)展。

2.4 BERT

BERT[34]是一種基于轉(zhuǎn)換器的雙向編碼表征模型,在多個自然語言處理任務(wù)中表現(xiàn)優(yōu)異[35-36]。Li等[37]對大規(guī)模標(biāo)注的電子健康檔案進(jìn)行了BioBERT微調(diào),進(jìn)一步訓(xùn)練了EhrBERT、BioBERT和BERT,研究結(jié)果發(fā)現(xiàn),這些模型在疾病名稱歸一化上的效果均優(yōu)于DNorm。Xu等[38]基于BERT設(shè)計了列表分類器并利用正則化UMLS語義類型對候選概念進(jìn)行排序,在疾病名稱歸一化上達(dá)到了較高的準(zhǔn)確率。Ji等[39]基于微調(diào)預(yù)訓(xùn)練的BERT、BioBERT和Clini‐calBERT進(jìn)行疾病名稱歸一化,在ShARe/CLEF、NCBI和TAC2017ADR三種不同類型數(shù)據(jù)集上的實驗均表明微調(diào)模型明顯優(yōu)于基線方法。此外,Kalyan等[40]提出了一種基于BERT和Highway的醫(yī)學(xué)概念標(biāo)準(zhǔn)化系統(tǒng),研究發(fā)現(xiàn)在CADEC和PsyTAR數(shù)據(jù)集上的效果優(yōu)于傳統(tǒng)方法。本文基于多任務(wù)視角,結(jié)合當(dāng)前主流的BERT模型,綜合利用文本形態(tài)信息和深層語義信息進(jìn)行中文疾病名稱歸一化實驗,并引入多態(tài)語義特征以改進(jìn)模型效果。

3 模型設(shè)計

本文設(shè)計的MTAD-BERT-GCNN模型結(jié)構(gòu)如圖1所示。首先,根據(jù)好大夫、求醫(yī)問藥、好問康、THUOCL(THU Open Chinese Lexicon)、CCKS2017(China Conference on Knowledge Graph and Semantic Computing-2017)和ICD-10(International Classifica‐tion of Diseases-10)分別構(gòu)建實驗數(shù)據(jù)集、特征訓(xùn)練語料和注意力權(quán)重詞典;其次,利用word2vec和Glove在特征訓(xùn)練語料上生成字詞向量;接著分別將疾病描述文本轉(zhuǎn)化為向量輸入到子任務(wù);然后利用GCNN(graph convolutional neural network)和BERT同時對輸入向量進(jìn)行特征訓(xùn)練和提取,并引入注意力權(quán)重詞典以調(diào)節(jié)向量表示質(zhì)量;最后,根據(jù)Softmax函數(shù)實現(xiàn)疾病名稱歸一化。其中,BERT輸入的是動態(tài)語義向量,GCNN輸入的是靜態(tài)語義向量。因此,MTAD-BERT-GCNN模型可以通過多任務(wù)學(xué)習(xí)捕獲特征向量的靜態(tài)和動態(tài)語義信息,并利用共享權(quán)重參數(shù)優(yōu)化多個子任務(wù)深度挖掘語義信息,從而提升實驗效果。

圖1 MTAD-BERT-GCNN模型結(jié)構(gòu)圖

3.1 數(shù)據(jù)準(zhǔn)備

1)構(gòu)建實驗數(shù)據(jù)集

由于國內(nèi)缺少公開的疾病名稱歸一化數(shù)據(jù)集,本文參照英文疾病名稱歸一化評測任務(wù),構(gòu)建了中文疾病名稱歸一化數(shù)據(jù)集(Chinese Disease Normal‐ization Data,ChDND)。具體過程包含兩部分。一是數(shù)據(jù)獲取及處理。從好大夫在線網(wǎng)站爬取了46140條疾病描述和537個疾病名稱,參照已有研究[27,41],去除出現(xiàn)頻次少于10的疾病名稱及其對應(yīng)描述,并分別生成詞級和字級疾病描述;二是建立映射關(guān)系。基于網(wǎng)站的類別信息,將疾病描述與對應(yīng)疾病名稱建立多對一的映射關(guān)系。最后,本文構(gòu)建的數(shù)據(jù)集ChDND包含了407個疾病名稱和42891個疾病描述,平均每個疾病名稱對應(yīng)105個疾病描述。數(shù)據(jù)集ChDND的示例如表1所示。

表1 中文疾病數(shù)據(jù)集實例

2)生成特征向量

基于求醫(yī)問藥和好問康在線醫(yī)療社區(qū)問答語料,利用word2vec和Glove兩種詞向量訓(xùn)練模型,生成具有局部和全局語義特征的多特征融合向量,并作為本實驗靜態(tài)語義向量的輸入。BERT預(yù)訓(xùn)練向量是谷歌提供的中文預(yù)訓(xùn)練模型BERT-Base-Chinese。

3)構(gòu)建注意力權(quán)重詞典

引入醫(yī)學(xué)詞典構(gòu)建注意力權(quán)重詞典以提高領(lǐng)域關(guān)鍵詞的權(quán)重,降低非專業(yè)化表述的影響,進(jìn)而提升關(guān)鍵特征的提取效果。本實驗所采用的醫(yī)學(xué)詞匯,一方面,來源于ICD-10和THUOCL中的專業(yè)醫(yī)學(xué)詞匯;另一方面,抽取了CCKS2017電子病歷數(shù)據(jù)集中的所有醫(yī)療實體。其中,ICD-10是國際疾病分類,包含1587個疾病類別,本實驗提取了5634個疾病特征詞匯;THUOCL是清華大學(xué)NLP組構(gòu)建的中文詞庫,詞表來自主流網(wǎng)站的社會標(biāo)簽、搜索熱詞和輸入法詞庫,本實驗提取了18749個專業(yè)醫(yī)學(xué)詞匯;CCKS2017是2017年全國知識圖譜與語義計算大會中文電子病歷命名實體識別競賽數(shù)據(jù),包含2505條電子病歷,本實驗提取了13802個高頻實體詞匯。此外,ICD-10是標(biāo)準(zhǔn)的醫(yī)學(xué)術(shù)語,THUOCL中的醫(yī)學(xué)詞匯符合醫(yī)學(xué)術(shù)語規(guī)范;相比而言,經(jīng)CCKS2017提取的詞匯主要來自電子病歷中醫(yī)生表述,其規(guī)范性略低于醫(yī)學(xué)詞典。

3.2 關(guān)鍵技術(shù)

1)LSTM

長短時記憶網(wǎng)絡(luò)[42](LSTM)是RNN的變體,它可解決文本序列中的長期依賴問題,該模型由忘記門、輸入門和輸出門組成。其中,忘記門決定細(xì)胞狀態(tài)丟棄的信息;輸入門添加細(xì)胞狀態(tài)中的新信息;輸出門則判斷細(xì)胞的狀態(tài)特征,聯(lián)合輸入層中的細(xì)胞狀態(tài)計算得到最終輸出。

2)GRU

GRU[43]是LSTM的變體,它將三門結(jié)構(gòu)替換為更新門和重置門兩門結(jié)構(gòu),優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),在聯(lián)動表達(dá)式將前一節(jié)點和當(dāng)前節(jié)點相結(jié)合以更新單元記憶。

3)BiLSTM、BiGRU

LSTM和GRU均采用正向傳播算法,僅能獲取文本序列正向的上文語義信息,而忽略了后向序列的語義影響。BiLSTM和BiGRU可以通過正反傳播獲取上下文全局語義特征。

4)CNN

卷積神經(jīng)網(wǎng)絡(luò)[44](CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它通過多個卷積核提取文本信息。該模型包含輸入層、卷積層、池化層、連接層和輸出層。其中,輸入層將向量轉(zhuǎn)換成張量矩陣;卷積層提取輸入向量的局部特征和位置編碼信息,利用卷積核進(jìn)行首次特征提??;池化層對文本向量進(jìn)行二次特征提取,通過降維保留關(guān)鍵信息;全連接層用于拼接和擬合池化后的特征向量以降低模型損失值;輸出層根據(jù)任務(wù)目標(biāo)選擇不同函數(shù)并輸出相應(yīng)結(jié)果。

5)BERT

BERT是一種基于轉(zhuǎn)換器的雙向編碼表征模型,具有強(qiáng)大的特征提取功能。Transformer[45]是BERT的主要框架,它基于自注意力機(jī)制能夠更全面地捕捉語句間的雙向關(guān)系;BERT基于掩藏語言模型(mask language model,MLM)突破了單項語言模型的限制,利用MASK隨機(jī)替換輸入特征以提高模型對特征的辨識度。在具體分類任務(wù)中,BERT在每條數(shù)據(jù)前插入[cls]標(biāo)記,并將Transformer輸出結(jié)果匯總到該標(biāo)記,從而實現(xiàn)整個輸入序列的信息匯總,從句向量角度實現(xiàn)分類任務(wù)。

3.3 多任務(wù)

1)任務(wù)一

任務(wù)一基于動態(tài)語義向量進(jìn)行BERT微調(diào)和疾病描述映射。首先,文本Si經(jīng)過數(shù)據(jù)準(zhǔn)備階段轉(zhuǎn)化為向量矩陣Ci=([cls],c1,c2,c3,…,ci,…,cn)并輸入到該任務(wù),ci可與BERT預(yù)訓(xùn)練嵌入層建立唯一映射關(guān)系;其次,BERT將輸入向量轉(zhuǎn)化為字向量特征Wi、位置特征Posi和分割嵌入Segi三種嵌入特征,并將三特征求和作為新的輸入向量矩陣,其中Segi在單句文本分類時記為0;接著,BERT經(jīng)多層Transformer生成微調(diào)后的動態(tài)語義向量,輸入到下游任務(wù)計算分類向量CLSi=(cls1,cls2,cls3,…,clsi,…,clsn);然后,利用Softmax函數(shù)結(jié)合訓(xùn)練的最佳權(quán)重和偏置(W1i和b1i)將CLSi轉(zhuǎn)換為概率向量Pi=(p1,p2,p3,…,pl),其中,pi為疾病描述文本映射到候選疾病名稱的概率;最后,利用交叉熵函數(shù)計算該任務(wù)損失,具體公式為

2)任務(wù)二

任務(wù)二基于靜態(tài)語義向量進(jìn)行特征挖掘和疾病描述映射。首先,文本Si經(jīng)過數(shù)據(jù)準(zhǔn)備階段轉(zhuǎn)化為字符向量矩陣Ci=(c1,c2,c3,…,ci,…,cn)輸入到該任務(wù),ci可與多特征融合嵌入層建立唯一映射關(guān)系;其次,利用GRU訓(xùn)練向量矩陣,增強(qiáng)輸入文本序列間語義關(guān)系,計算得到向量矩陣Hi;接著,利用CNN提取該向量矩陣中的重要信息,保留輸入文本的關(guān)鍵語義特征,經(jīng)過卷積池化后得到向量矩陣Fi;然后,利用Softmax函數(shù)結(jié)合訓(xùn)練得到的最佳權(quán)重和偏置(W2i和b2i)將Fi轉(zhuǎn)換為概率向量Pi=(p1,p2,p3,…,pl),其中pi為疾病描述文本映射到候選疾病名稱的概率;最后,利用交叉熵函數(shù)計算該任務(wù)損失,具體公式為

3)輔助任務(wù)

輔助任務(wù)可提取任務(wù)二中輸入文本的關(guān)鍵詞注意力權(quán)重。首先,將任意輸入文本Ti=(t1,t2,t3,…,ti,…,tn)與注意力權(quán)重詞典建立映射;其次,當(dāng)輸入文本的詞匯在注意力權(quán)重詞典出現(xiàn)時,將該位置標(biāo)記為1,否則標(biāo)記為0,得到一個注意力矩陣ATi=(at1,at2,at3,…,ati,…,atn),其中ati=0,1;再次,將該矩陣ATi與任務(wù)二中的Ci矩陣相乘計算得到C_ATi,該向量經(jīng)任務(wù)二特征提取得到向量矩陣F_ATi;最后,計算融入注意力權(quán)重后的概率向量P2i,具體公式為

4)共享參數(shù)

多任務(wù)學(xué)習(xí)中,多個關(guān)聯(lián)任務(wù)間通過損失函數(shù)相互調(diào)節(jié)以共享信息,并優(yōu)化參數(shù),分別反饋到每個子任務(wù)以提高模型效果。其中,共享損失函數(shù)為

具體共享參數(shù)流程如圖2所示。

圖2 多任務(wù)共享參數(shù)流程

4 實驗分析

4.1 實驗設(shè)計

本文實驗?zāi)康娜缦隆?/p>

(1)驗證基準(zhǔn)模型在中文疾病名稱歸一化任務(wù)上的效果。

(2)驗證引入語義關(guān)系對中文疾病名稱歸一化實驗的影響。

(3)驗證引入多任務(wù)學(xué)習(xí)對中文疾病名稱歸一化實驗的影響。

基于上述實驗?zāi)康?,本文共設(shè)計了三組對照實驗。每組實驗均采用五折交叉驗證,按7∶2∶1劃分為訓(xùn)練集、驗證集和測試集,具體設(shè)計如下。

實驗一:對比分析CNN-WRv(CNN中嵌入詞級隨機(jī)向量)、CNN-CRv(CNN中嵌入字級隨機(jī)向量)、CNN-WGv(CNN中嵌入外部語義特征)以及BERT-Base(基于預(yù)訓(xùn)練BERT進(jìn)行微調(diào))的實驗效果。

實驗二:在實驗一中實驗效果最佳CNN的基礎(chǔ)上,分別引入GRU、LSTM、BiGRU和BiLSTM訓(xùn)練語義關(guān)系,分析語義訓(xùn)練后不同特征向量對中文疾病名稱歸一化的影響。

實驗三:基于多任務(wù)學(xué)習(xí),將實驗一和實驗二中表現(xiàn)最優(yōu)的模型相結(jié)合,驗證多任務(wù)學(xué)習(xí)對中文疾病名稱歸一化的效果,并在此基礎(chǔ)上引入計算注意力權(quán)重的輔助任務(wù),分析調(diào)節(jié)向量權(quán)重后模型對實驗的影響。

具體實驗思路如圖3所示。

4.2 實驗環(huán)境

本實驗環(huán)境是一臺內(nèi)存20 GB、CPU型號為In‐tel(R)Core i5-7600K CPU、頻率3.80 GHz、GPU為型號Nvidia GeForce RTX 2080 Ti、顯存11 GB、操作系統(tǒng)為Windows 10的服務(wù)器。此外,實驗中還使用了jieba分詞庫、哈工大LTP語言云、word2vec和Glove詞向量訓(xùn)練工具、BERT和Tensorflow框架。開 發(fā) 環(huán) 境 為python 3.6、Tensorflow 1.13、keras 2.2.4、cuda10.0、cudnn 7.3.1。

4.3 實驗參數(shù)

本實驗中的具體參數(shù)設(shè)置如表2所示。

表2 模型參數(shù)設(shè)置

4.4 評價指標(biāo)

參照已有研究[14,46-47],本實驗采用準(zhǔn)確率(Ac‐curacy)指標(biāo)進(jìn)行歸一化評價,利用Accuracy@k評估疾病名稱歸一化效果,Accuracy@k表示前k個預(yù)測疾病中正確結(jié)果的占比。分別取排名前1、5和10個疾病作為預(yù)測疾病,計算Accuracy@1、Accura‐cy@5和Accuracy@10。由于多分類任務(wù)中難以計算負(fù)樣本對結(jié)果的影響,本實驗的歸一化評價指標(biāo)為

其中,TP為判斷為正確的疾病指稱;FP為判斷為錯誤的疾病指稱。

4.5 實驗結(jié)果與分析

4.5.1 基準(zhǔn)模型實驗

為驗證基準(zhǔn)模型在中文疾病名稱歸一化任務(wù)上的效果,分別利用CNN和BERT-Base進(jìn)行實驗,結(jié)果如表3所示。

表3 基準(zhǔn)模型實驗結(jié)果 %

由表3可知,在中文疾病名稱歸一化中,字級CNN效果優(yōu)于詞級CNN;引入外部語義特征對模型效果的提升并不明顯;BERT微調(diào)后的效果較好,較CNN有明顯提升。

(1)字級CNN效果優(yōu)于詞級CNN。CNN-CRv在Accuracy@1、Accuracy@5和Accuracy@10上 較CNN-WRv分別提升了9.08%、8.20%和7.84%,提升幅度較為明顯。通過分析可知,這是由于在線醫(yī)療健康文本中醫(yī)學(xué)詞匯和口語化表述經(jīng)?;祀s出現(xiàn),導(dǎo)致分詞質(zhì)量難以保證,從而影響到詞級向量;而通過分字生成的字級向量可獨立表示字符語義,因此在實驗中表現(xiàn)出更好的效果。

(2)引入外部語義特征對實驗的影響并不明顯。CNN-WGv在Accuracy@1、Accuracy@5和Ac‐curacy@10上較CNN-CRv分別提升了0.99%、0.86%和1.00%,提升幅度較小,表明詞向量嵌入層中語義特征對CNN的影響較小,這是由于隨機(jī)向量和外部語義特征均為唯一表示,不影響特征分布,但引入外部語義特征能夠豐富特征語義,對模型效果有小幅提升。

(3)BERT預(yù)訓(xùn)練模型微調(diào)后的效果較好。BERT-Base在Accuracy@1、Accuracy@5和Accura‐cy@10上較最優(yōu)的基線模型CNN-WGv分別提升了3.41%、1.46%和2.54%,提升效果較為明顯。這驗證了BERT能夠進(jìn)一步提升疾病名稱歸一化效果,且顯著優(yōu)于其他基線模型,表明BERT能夠更充分地捕獲文本深層特征。

4.5.2 引入語義關(guān)系的CNN實驗

通過實驗一可知,字級向量在CNN上有較高的準(zhǔn)確率,在此基礎(chǔ)上,實驗二分別引入GRU、LSTM、BiGRU和BiLSTM驗證語義關(guān)系訓(xùn)練對實驗結(jié)果的影響,具體如表4所示。

表4 基于語義關(guān)系的CNN實驗結(jié)果 %

由表4可知,在CNN上引入GRU、LSTM、Bi‐GRU和BiLSTM捕獲文本間語義關(guān)系后的模型效果較表3中CNN-WGv有較大提升。其中,GRU-CNN效果最優(yōu),在Accuracy@1、Accuracy@5和Accura‐cy@10上較引入外部語義特征的CNN分別提升了2.95%、1.36%和1.12%。該結(jié)果表明,通過引入文本向量間語義關(guān)系可提高向量質(zhì)量,在CNN中可提取更關(guān)鍵特征以進(jìn)一步提升模型效果。

研究分析發(fā)現(xiàn),引入GRU和BiGRU的效果優(yōu)于LSTM和BiLSTM,這是由于文本中大量的非醫(yī)療領(lǐng)域信息會影響模型學(xué)習(xí)疾病特征的語義質(zhì)量,GRU網(wǎng)絡(luò)結(jié)構(gòu)較LSTM更為簡潔,可減少因大量非醫(yī)療領(lǐng)域信息計算而出現(xiàn)過擬合的影響。此外,引入BiGRU和BiLSTM的實驗效果低于GRU和LSTM,這是由于醫(yī)療健康文本的語序?qū)φZ義關(guān)系影響不大,而BiGRU和BiLSTM因同時學(xué)習(xí)文本正負(fù)向語義關(guān)系造成過擬合,反而降低了文本語義關(guān)系的表達(dá)質(zhì)量。

4.5.3 多任務(wù)學(xué)習(xí)實驗

根據(jù)表3和表4可知,BERT-Base和GRU-CNN兩模型的表現(xiàn)最優(yōu),因此,在兩模型基礎(chǔ)上構(gòu)建了MT-BERT-GCNN模型,用于驗證多任務(wù)學(xué)習(xí)對中文疾病名稱歸一化的影響。為了提高輸入向量質(zhì)量,進(jìn)一步引入注意力權(quán)重詞典來調(diào)節(jié)任務(wù)的特征輸入,構(gòu)建MTAD-BERT-GCNN模型以提升實驗效果。多任務(wù)學(xué)習(xí)實驗結(jié)果如表5所示。

表5 多任務(wù)學(xué)習(xí)實驗結(jié)果 %

由表5可知,基于多任務(wù)學(xué)習(xí)構(gòu)建的MT-BERTGCNN效果較BERT和GRU-CNN均有小幅提升,在Accuracy@1、Accuracy@5和Accuracy@10上,較GRU-CNN分別提升了0.97%、0.61%和2.19%,較BERT-Base分別提升了0.55%、0.51%和0.77%。這表明MT-BERT-GCNN的效果提升并非簡單線性效果相加,而是能夠利用多任務(wù)學(xué)習(xí)共享子任務(wù)參數(shù),通過并行訓(xùn)練學(xué)習(xí)更多特征信息可提升當(dāng)前主任務(wù)學(xué)習(xí)性能,從而獲得更多代表性特征以提高疾病名稱歸一化的準(zhǔn)確率。

進(jìn)一步分析發(fā)現(xiàn),引入計算注意力矩陣的輔助任務(wù)后,MTAD-BERT-GCNN效果較MT-BERTGCNN得到了進(jìn)一步提升,表明引入輔助任務(wù)調(diào)節(jié)特征輸入可以篩選疾病的關(guān)鍵特征,對模型特征提取具有輔助作用。其中,MTAD-BERT-GCNNICD10的效果最佳,在Accuracy@1、Accuracy@5和Accuracy@10上,較MT-BERT-GCNN分別提升了0.42%、0.74%和0.81%,均略高于引入其他注意力權(quán)重詞典的模型。引入注意力權(quán)重詞典后,ICD10提升效果最佳,THUOCL次之。通過分析可知,ICD-10中包含了更多的專業(yè)醫(yī)學(xué)術(shù)語,因而能夠更充分地表示疾病特征;而CCKS中用詞規(guī)范性略低于專業(yè)醫(yī)學(xué)詞典,在篩選特征時出現(xiàn)了部分非醫(yī)學(xué)術(shù)語在輔助任務(wù)中權(quán)重分配錯誤的情況。

為了直觀地呈現(xiàn)模型組合及多任務(wù)學(xué)習(xí)在中文疾病名稱歸一化上的效果,圖4給出了三組對照實驗結(jié)果??梢园l(fā)現(xiàn),在Accuracy@1、Accuracy@5和Accuracy@10上,MTAD-BERT-GCNN-ICD10較 詞級CNN基準(zhǔn)模型分別提高了14.41%、11.77%和12.96%,較字級CNN基準(zhǔn)模型分別提高了5.33%、3.57%和5.12%,這表明本文所提出的MTAD-BERTGCNN可以在中文疾病名稱歸一化任務(wù)上取得最優(yōu)效果。通過各模型匯總分析,實驗結(jié)果可歸納為MTAD-BERT-GCNN>MT-BERT-GCNN>BERT-Base>引入語義關(guān)系的CNN>字級CNN>詞級CNN。

圖4 實驗數(shù)據(jù)對比分析

5 結(jié)論

本文基于多任務(wù)學(xué)習(xí)和多態(tài)語義特征提出了中文疾病名稱歸一化模型MTAD-BERT-GCNN,該模型能夠更好地利用多任務(wù)學(xué)習(xí)捕獲多態(tài)語義信息,通過共享多任務(wù)間權(quán)重參數(shù)以深度挖掘文本信息,從而達(dá)到最優(yōu)效果。研究結(jié)果發(fā)現(xiàn),在中文疾病名稱歸一化中:①字級CNN效果優(yōu)于詞級CNN,引入外部語義特征對實驗效果有小幅提升,BERTBase較其他基準(zhǔn)模型有大幅提升;②在CNN上融入GRU、LSTM、BiGRU和BiLSTM可捕獲文本語義關(guān)系,進(jìn)而提升中文疾病名稱歸一化效果;③基于多任務(wù)學(xué)習(xí)思路構(gòu)建的MT-BERT-GCNN結(jié)合不同子任務(wù)的特點,通過優(yōu)化任務(wù)間的共享參數(shù),可進(jìn)一步提升實驗效果,并且引入輔助任務(wù)篩選特征構(gòu)建的MTAD-BERT-GCNN可使中文疾病名稱歸一化效果達(dá)到最優(yōu),最終在Accuracy@1、Accuracy@5和Accuracy@10上的準(zhǔn)確率分別達(dá)到了75.39%、86.66%和89.60%,在Accuracy@10上較詞級CNN和字級CNN分別提高了12.96%和5.12%。本研究將多任務(wù)學(xué)習(xí)思路應(yīng)用于中文疾病名稱歸一化任務(wù),并在中文數(shù)據(jù)集上驗證了模型效果,為中文疾病名稱歸一化研究提供了可借鑒的思路。

盡管國外對疾病名稱標(biāo)準(zhǔn)化和歸一化的研究較多,但中文領(lǐng)域疾病名稱歸一化研究尚未得到充分重視。在后續(xù)研究中,一方面,將考慮結(jié)合文本、圖片、語音和視頻等多模態(tài)信息,從多維度進(jìn)行疾病歸一化研究;另一方面,將深入挖掘文本細(xì)微特征,以進(jìn)一步推動中文疾病名稱歸一化研究進(jìn)展。

猜你喜歡
多任務(wù)名稱語義
語言與語義
基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
電測與儀表(2016年5期)2016-04-22 01:13:46
認(rèn)知范疇模糊與語義模糊
沽源县| 兖州市| 石渠县| 大悟县| 厦门市| 咸丰县| 大田县| 新营市| 甘泉县| 两当县| 资兴市| 宁蒗| 祁门县| 韶山市| 轮台县| 塘沽区| 鲁山县| 天长市| 嫩江县| 孝义市| 科技| 财经| 牡丹江市| 松江区| 静乐县| 台中县| 湘乡市| 专栏| 中卫市| 泾源县| 沂水县| 康乐县| 海林市| 外汇| 佛冈县| 集贤县| 仁怀市| 辽阳市| 永嘉县| 扬州市| 嵊州市|