鐘昕妤 李燕 徐麗娜 陳月月 帥亞琦
摘? 要: 針灸古籍中含有大量通假字、歧義詞和專業(yè)術(shù)語?;谏疃葘W(xué)習(xí)的分詞方法,因靜態(tài)字向量固有表示和大規(guī)模且高質(zhì)量語料缺乏等問題,限制了分詞性能。為緩解上述問題,提出引入預(yù)訓(xùn)練策略,在ALBERT模型基礎(chǔ)上,利用大量中醫(yī)古籍再訓(xùn)練得到CmabBERT模型,并構(gòu)建CmabBERT-BILSTM-CRF融合模型運(yùn)用于針灸古籍分詞任務(wù)。實(shí)驗(yàn)結(jié)果表明,在小樣本語料基礎(chǔ)下,對(duì)比Jieba分詞器、BILSTM-CRF和ALBERT-BILSTM-CRF模型,該融合模型展現(xiàn)了更優(yōu)越的分詞性能。
關(guān)鍵詞: 針灸古籍; 分詞; 序列標(biāo)注; 預(yù)訓(xùn)練
中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)04-11-05
Abstract: Acupuncture ancient books contain a large number of false words, ambiguous words and professional terms. The word segmentation method based on deep learning is limited by the inherent representation of static word vectors and the lack of large-scale and high-quality corpus. In order to alleviate the above problems, a pre-training strategy is proposed. Based on the ALBERT model, a large number of ancient Chinese medicine books are retrained to obtain the CmabBERT model, and the CmabBERT-BILSTM-CRF fusion model is constructed and applied to the word segmentation task of acupuncture ancient books. The experimental results show that compared with the Jieba word segmentation, BILSTM-CRF and ALBERT-BILSTM-CRF models, this fusion model exhibits superior word separation performance on the basis of small sample corpus.
Key words: acupuncture ancient books; word segmentation; sequence tagging; pre-training
0 引言
計(jì)算機(jī)技術(shù)應(yīng)用于中醫(yī)領(lǐng)域,可利用知識(shí)發(fā)現(xiàn)方法總結(jié)已有知識(shí)體系,挖掘新的知識(shí)規(guī)律。針灸作為我國中醫(yī)學(xué)的重要組成部分,因其特殊的治療效用而被廣泛使用,現(xiàn)已成為世界上應(yīng)用最廣泛的傳統(tǒng)與替代醫(yī)學(xué)[1]。古籍作為針灸傳承發(fā)展的重要載體,蘊(yùn)藏著豐富的針灸理論知識(shí)和實(shí)踐經(jīng)驗(yàn),是中醫(yī)學(xué)愛好者的一大寶庫。隨著古籍?dāng)?shù)字化工作的推進(jìn),越來越多針灸古籍被轉(zhuǎn)化為非格式化文本數(shù)據(jù),亟待學(xué)者們對(duì)其進(jìn)行處理,挖掘其中的寶貴知識(shí)。
分詞通過界定字間界限,劃分出具有意義的詞匯,這是實(shí)現(xiàn)計(jì)算機(jī)處理針灸古籍的基礎(chǔ)任務(wù),亦是實(shí)體識(shí)別、關(guān)系抽取等自然語言處理(Natural Language Processing,NLP)任務(wù)的基礎(chǔ)。而當(dāng)前針灸古籍分詞存在以下三個(gè)問題。
⑴ 存有較多通假字、歧義字。最新方法[2]的字向量表示為靜態(tài),無法很好地區(qū)分多義字,限制了分詞性能。
⑵ 知識(shí)面涉及較廣。除針灸和中醫(yī)知識(shí)外,還囊括古漢語、古哲學(xué)等內(nèi)容,存在未登錄詞識(shí)別難題。
⑶ 大規(guī)模且高質(zhì)量的標(biāo)注語料尚為缺乏[3,4],其對(duì)標(biāo)注人員要求較高,耗時(shí)較長。此外,由于還沒有統(tǒng)一標(biāo)注規(guī)范,現(xiàn)有語料還存在質(zhì)量不齊問題。
為了緩解上述問題,本文將預(yù)訓(xùn)練策略引入到針灸古籍分詞任務(wù)中,利用大量中醫(yī)古籍,對(duì)ALBERT模型再訓(xùn)練以學(xué)習(xí)上下文特征,最終得到CmabBERT模型,該模型更為符合針灸古籍語境的動(dòng)態(tài)字向量表示輸出,聯(lián)合該模型進(jìn)一步構(gòu)建CmabBERT-BILSTM-CRF融合模型應(yīng)用于針灸古籍分詞任務(wù),實(shí)現(xiàn)性能提升。
1 相關(guān)研究
近年中醫(yī)古籍分詞研究已取得一定成果,其主要基于詞典規(guī)則、概率統(tǒng)計(jì)和深度學(xué)習(xí)三大類方法。
在研究初期,主要是采用詞典和概率的方法。2015年,張帆等[5]結(jié)合中醫(yī)領(lǐng)域詞典與CHMM實(shí)現(xiàn)中醫(yī)醫(yī)案文獻(xiàn)分詞,緩解未登錄詞和歧義問題。2019年,Xianjun Fu等[6]基于HMM模型開發(fā)了中醫(yī)藥古籍分詞系統(tǒng)并構(gòu)建了中醫(yī)藥術(shù)語詞庫。同期,Qi Jia等[4]提出一種基于分支熵法的無監(jiān)督方法,利用中醫(yī)領(lǐng)域詞典計(jì)算優(yōu)度閾值,構(gòu)建分詞器并在中醫(yī)藥文本上驗(yàn)證了有效性。后來學(xué)者們嘗試將深度學(xué)習(xí)方法引入研究中。語料作為深度學(xué)習(xí)方法的基礎(chǔ)需要預(yù)先構(gòu)建。2018年,付璐等[3]通過人工標(biāo)注構(gòu)建了一個(gè)小型的清代醫(yī)籍分詞語料庫,并據(jù)此探討了中醫(yī)古籍的分詞規(guī)范。在此基礎(chǔ)上,Si Li等[7]針對(duì)CNN的缺陷,將膠囊結(jié)構(gòu)引入分詞的序列標(biāo)注任務(wù),由此構(gòu)建中醫(yī)古籍分詞器并達(dá)到了可接受的性能。2020年,王莉軍等學(xué)者[2]通過構(gòu)建BILSTM和BILSTM-CRF模型對(duì)中醫(yī)古籍進(jìn)行分詞,并在各類別上驗(yàn)證了模型的分詞性能和魯棒性。深度學(xué)習(xí)方法在中醫(yī)古籍分詞中展現(xiàn)了優(yōu)越性能,然而由于靜態(tài)字向量固有表示和語料缺乏且質(zhì)量不齊的問題,限制了其性能的進(jìn)一步提升。此外,當(dāng)前研究主要集中于中醫(yī)醫(yī)案與中醫(yī)藥古籍,對(duì)針灸古籍的分詞研究較為缺乏。
據(jù)此,本文提出將預(yù)訓(xùn)練策略引入針灸古籍分詞任務(wù),通過利用大量中醫(yī)古籍再訓(xùn)練模型,以自主學(xué)習(xí)中醫(yī)古籍的上下文特征,從而輸出更符合針灸古籍語境的動(dòng)態(tài)字向量表示,以期在小樣本語料訓(xùn)練下實(shí)現(xiàn)更優(yōu)分詞。經(jīng)實(shí)驗(yàn)證明,對(duì)比其他已有方法,本文構(gòu)建的CmabBERT-BILSTM-CRF融合模型,在各項(xiàng)分詞指標(biāo)上都獲得了一定提升。
2 基本原理
目前中醫(yī)領(lǐng)域中未有公開的預(yù)訓(xùn)練模型(Pre-Trained Model,PTM),且在中醫(yī)古籍處理中亦未引入PTM進(jìn)行分詞實(shí)驗(yàn)。本文聯(lián)合PTM再訓(xùn)練后更符合針灸古籍語境的動(dòng)態(tài)字向量表示輸出,構(gòu)建CmabBERT-BILSTM-CRF融合模型,應(yīng)用于針灸古籍分詞任務(wù),進(jìn)一步克服針灸古籍分詞難題。
如圖1所示,本文提出的模型框架整體分為三大模塊:CmabBERT字向量表示層、BILSTM特征提取層和CRF序列標(biāo)注層。其中,CmabBERT模型是由ALBERT模型經(jīng)過中醫(yī)古籍語料再訓(xùn)練得到。
2.1 ALBERT
2019年,Zhenzhong Lan等[8]提出更為輕量級(jí)的ALBERT模型,通過參數(shù)減少方法降低內(nèi)存消耗并提高訓(xùn)練速度,緩解BERT、ROBERTA模型在擴(kuò)大規(guī)模以提升性能的時(shí)候遇到的內(nèi)存耗盡問題,并以更少量參數(shù)更優(yōu)越性能拿下13項(xiàng)NLP任務(wù)。
在字向量表示中,ALBERT模型能動(dòng)態(tài)地將文本中字符經(jīng)雙向Transformer層轉(zhuǎn)換為對(duì)應(yīng)的向量表示。同BERT、ROBERTA等模型一樣,ALBERT模型基于Transformer[9]的Encoder層,通過大量運(yùn)用多頭注意力機(jī)制,獲取范圍內(nèi)的長、短距離依賴關(guān)系,防止模型在編碼當(dāng)前位置時(shí)過度關(guān)注于自身,從而更好地獲取文本的上下文特征。
在ALBERT模型的預(yù)訓(xùn)練任務(wù)中,主要通過掩碼語言模型(Masked Language Model,MLM)和句子連續(xù)預(yù)測(Next Sentence Predict,SOP)實(shí)現(xiàn)文本上下文特征的自監(jiān)督學(xué)習(xí)。
⑴ MLM,為更好地訓(xùn)練模型獲取字符雙向深度表示的能力,Jacob Devlin等學(xué)者[10]在BERT模型預(yù)訓(xùn)練中采用MLM,通過預(yù)測輸入字符串中一定比例的隨機(jī)掩蓋字符訓(xùn)練模型,并為減輕微調(diào)階段沒有掩碼而與預(yù)訓(xùn)練不匹配的問題,將掩碼時(shí)間劃分為80%時(shí)間的正常掩蓋,10%時(shí)間的隨機(jī)字符替換和10%時(shí)間的不變字符。
⑵ SOP,在BERT模型預(yù)訓(xùn)練中,由于下一句預(yù)測使用的負(fù)樣本選自不同文本,混肴了主題預(yù)測與連貫性預(yù)測,造成推理不可靠問題。為消除這一問題,Zhenzhong Lan等學(xué)者[8]提出將連續(xù)句子以順序交換的方式作為負(fù)樣本進(jìn)行模型訓(xùn)練。
除SOP外,ALBERT通過嵌入?yún)?shù)分解的方式大幅減少模型參數(shù),從而能進(jìn)一步擴(kuò)大模型深度和廣度,提升模型性能。如式⑴所示,自然語言處理通常需要尺寸為V的詞匯量。不同于其他預(yù)訓(xùn)練模型直接將熱向量投射到隱藏層,使得嵌入層隨隱藏層參數(shù)H擴(kuò)增時(shí)存有大量閑置參數(shù)。ALBERT模型先將詞嵌入映射到尺寸E的低維空間上,再由低維空間投射至隱藏層。由此,當(dāng)H>>E時(shí),參數(shù)降低效果極為顯著。
2.2 BILSTM
BILSTM由前向和后向LSTM組成。LSTM在RNN的基礎(chǔ)上引入門機(jī)制,通過記憶門、遺忘門、輸出門控制特征信息的傳遞,能有效防止信息特征在長距離計(jì)算中被覆蓋,從而能更好地在數(shù)據(jù)中查找和利用遠(yuǎn)距離依賴[11]。
LSTM由一系列單元組成,以單元狀態(tài)Ci的鏈?zhǔn)絺鬟f為核心。如圖2所示,t時(shí)刻的單元狀態(tài)[Ct]由兩部分組成:①前一時(shí)刻向后傳播的單元狀態(tài)[Ct-1]聯(lián)合遺忘門輸出[ft];②t時(shí)刻的單元更新值[Ct]聯(lián)合輸入門輸出[it]。其整體結(jié)構(gòu)可由式⑵~式⑺表示:
其中,[σ]表示sigmoid激活函數(shù),[tanh]表示tanh激活函數(shù),[ot]表示記憶單元,而三門機(jī)制的輸出皆經(jīng)由前一時(shí)刻隱藏層[ht-1]和輸入數(shù)據(jù)[xt]計(jì)算得出。
單個(gè)LSTM層只能傳播單向信息,對(duì)文本而言,其理解需要結(jié)合上下文語境,單向語境會(huì)限制文本特征信息獲取的準(zhǔn)確性。BILSTM則通過前后雙向的信息傳遞實(shí)現(xiàn)更優(yōu)文本特征選擇,一度成為NLP領(lǐng)域模型研究中應(yīng)用最為廣泛的基礎(chǔ)結(jié)構(gòu)。
2.3 CRF
CRF是一種基于馬爾科夫性的概率無向圖,在seq2seq類任務(wù)中具有良好表現(xiàn),常被應(yīng)用于NLP中,判斷序列標(biāo)注的最優(yōu)結(jié)果。線性鏈CRF對(duì)于給定的線性隨機(jī)觀測序列[W={W1,W2,…,Wn}],任意[Wi]的對(duì)應(yīng)狀態(tài)[Li]滿足[PLi|W,L1,L2,…,Ln=P(Li|W,Li-1,Li+1)],即狀態(tài)[Li]不僅與前一時(shí)刻狀態(tài)[Li-1]有關(guān),還與整個(gè)觀測序列[W]和后一時(shí)刻狀態(tài)[Li+1]有關(guān)。CRF將整個(gè)[W]作為全局條件,對(duì)[P(L|W)]進(jìn)行建模。
本文在分詞任務(wù)中,采用BMES標(biāo)注方法,詞匯的開頭、中間、結(jié)尾分別由“B”、“M”、“E”符號(hào)標(biāo)記,單字和符號(hào)則由“S”標(biāo)記。如圖3所示,CRF最終輸出的狀態(tài)序列[L]取決于整個(gè)觀測序列[W]的聯(lián)合概率分布,是全局最優(yōu)解。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)Ubuntu 18.04,CUDA 10.0,cuDNN 7.6,tensorflow-gpu 1.13.1,Keras 2.2,使用NVIDIA GeForce RTX 2080 Ti。為保障PTM在各類針灸古籍語境中的魯棒性,選用了《黃帝內(nèi)經(jīng)》《針灸甲乙經(jīng)》《本草綱目》《傷寒雜病論》等810本中醫(yī)古籍,共208MB作為原始語料,經(jīng)掩碼標(biāo)注處理獲得自監(jiān)督訓(xùn)練語料約2.29GB。而由于服務(wù)器顯存限制等問題,本文僅選用小規(guī)模的ALBERT模型作為再訓(xùn)練的基礎(chǔ)模型。
此外,因目前未有統(tǒng)一的中醫(yī)古籍分詞規(guī)范,本文參考付璐等學(xué)者[3]對(duì)清代醫(yī)籍的分詞標(biāo)準(zhǔn)研究成果,選用《靈樞》針灸古籍,經(jīng)Jieba分詞器聯(lián)合人工標(biāo)注的方式獲得較高質(zhì)量的小樣本精加工語料,作為各類模型的訓(xùn)練、評(píng)估和測試數(shù)據(jù)。
3.2 實(shí)驗(yàn)流程
本文構(gòu)建CmabBERT-BILSTM-CRF模型應(yīng)用于小樣本語料的針灸古籍分詞任務(wù)。關(guān)鍵流程如下:數(shù)據(jù)準(zhǔn)備→PTM再訓(xùn)練→融合模型訓(xùn)練→獲得分詞結(jié)果→方法對(duì)比分析。
在數(shù)據(jù)準(zhǔn)備階段,除小樣本語料標(biāo)注外,本文以不同古籍的不同段為劃分,區(qū)分不同內(nèi)容,再以句號(hào)為劃分,分割同內(nèi)容的上下句,最后通過15%概率的隨機(jī)MASK方式構(gòu)建再訓(xùn)練語料。
在PTM再訓(xùn)練階段,本文將訓(xùn)練批量設(shè)置為256,訓(xùn)練步數(shù)設(shè)置為125000,學(xué)習(xí)率設(shè)置為0.00176,并采用LAMB優(yōu)化器進(jìn)行優(yōu)化迭代。訓(xùn)練時(shí),模型將自主整合語料中的各項(xiàng)信息,實(shí)現(xiàn)掩碼位置對(duì)應(yīng)字符預(yù)測及上下句判斷,并不斷調(diào)整自身參數(shù)實(shí)現(xiàn)更優(yōu),從而學(xué)習(xí)到語料中豐富的上下文特征。
在融合模型訓(xùn)練階段,本文將基于再訓(xùn)練得到的CmabBERT模型的動(dòng)態(tài)字向量表示輸出,聯(lián)合BILSTM+CRF模型構(gòu)建融合模型,其中BILSTM層包含前后向各256個(gè)神經(jīng)元,批量大小為128,學(xué)習(xí)率為0.001,優(yōu)化器為ADAM,并設(shè)置了0.5的丟棄概率指數(shù),以防止模型過擬合。
在方法對(duì)比分析階段,除本文研究的CmabBERT-BILSTM-CRF模型外,還選用了Jieba分詞器、BILSTM-CRF模型、ALBERT-BILSTM-CRF模型作為對(duì)比。其中,BILSTM-CRF模型以Word2Vec靜態(tài)詞向量作為輸入。
3.3 實(shí)驗(yàn)結(jié)果
3.3.1 模型預(yù)訓(xùn)練評(píng)估結(jié)果
模型預(yù)訓(xùn)練評(píng)價(jià)將訓(xùn)練前后的ALBERT和CmabBERT模型分別在MLM任務(wù)和SOP任務(wù)上的準(zhǔn)確率進(jìn)行對(duì)比。其中,MLM準(zhǔn)確率為模型正確預(yù)測掩碼位置原字符數(shù)量與所有預(yù)測掩碼數(shù)量的比值,SOP準(zhǔn)確率為模型正確判斷上下句數(shù)量與所有預(yù)測句子數(shù)量的比值。表1展示了預(yù)訓(xùn)練模型在經(jīng)大量中醫(yī)古籍的自監(jiān)督訓(xùn)練前后,在預(yù)測掩碼和判斷上下句上的性能表現(xiàn)。從表1可以看出,經(jīng)再訓(xùn)練后,CmabBERT在MLM任務(wù)和SOP任務(wù)準(zhǔn)確率皆有較多提升,表明CmabBERT模型在再訓(xùn)練中較好地學(xué)習(xí)到了中醫(yī)古籍的上下文特征,從而能更好地運(yùn)用于針灸古籍中,輸出更符合語境的動(dòng)態(tài)字向量表示。
3.3.2 分詞方法結(jié)果評(píng)價(jià)
基于評(píng)價(jià)指標(biāo)——準(zhǔn)確率P、召回率R和F1值,將模型分詞序列標(biāo)注結(jié)果與經(jīng)人工標(biāo)注校正的分詞結(jié)果進(jìn)行對(duì)比。其中,P值是模型標(biāo)注正確量與模型總標(biāo)注量的比值;R值是模型標(biāo)注正確量和人工總標(biāo)注量的比值;F1值為綜合性評(píng)價(jià)指標(biāo),是兩倍的P、R積和P、R合的比值,由P和R共同決定。
表2展示了各類分詞方法在小樣本數(shù)據(jù)集上的分詞性能表現(xiàn)。分析表2可以得出以下結(jié)論:在無額外輔助信息下,①基于深度學(xué)習(xí)的三種分詞方法明顯優(yōu)于通用領(lǐng)域的Jieba分詞器;②基于動(dòng)態(tài)字向量表示的兩種分詞方法在各項(xiàng)評(píng)估指標(biāo)上皆高于基于靜態(tài)字向量表示的分詞方法;③經(jīng)再訓(xùn)練的CmabBERT預(yù)訓(xùn)練模型輸出的動(dòng)態(tài)字向量表示比基礎(chǔ)ALBERT模型更適合于針灸古籍分詞任務(wù)。
如表3所示,為進(jìn)一步對(duì)比各類方法的分詞表現(xiàn),本文選取部分分詞結(jié)果進(jìn)行對(duì)比分析,并為展示方便,將序列標(biāo)注結(jié)果進(jìn)行轉(zhuǎn)化。其中,在“腹中常鳴”癥狀術(shù)語分詞中,BILSTM-CRF和CmabBERT-BILSTM-CRF實(shí)現(xiàn)了準(zhǔn)確標(biāo)注;在“氣上沖胸”分詞中,ALBERT-BILSTM-CRF和CmabBERT-BILSTM-CRF實(shí)現(xiàn)了準(zhǔn)確標(biāo)注;在“巨虛上廉”穴位術(shù)語分詞中,僅有CmabBERT-BILSTM-CRF實(shí)現(xiàn)了準(zhǔn)確標(biāo)注;而在“刺肓之原”分詞中,幾種分詞方法皆未能成功標(biāo)注“盲之原”穴位術(shù)語。上述結(jié)果表明,經(jīng)再訓(xùn)練學(xué)習(xí)到中醫(yī)古籍上下文特征的CmabBERT模型能更好地動(dòng)態(tài)表示針灸古籍語境下的字向量,而在此基礎(chǔ)上進(jìn)一步構(gòu)建的CmabBERT-BILSTM-CRF模型則能更好地適用于小樣本語料的針灸古籍分詞任務(wù)中,獲得更為準(zhǔn)確的分詞結(jié)果,從一定程度上緩解靜態(tài)字向量固有表示和語料缺乏造成的分詞性能限制問題。
4 結(jié)束語
本文為緩解靜態(tài)字向量固有表示和中醫(yī)領(lǐng)域大規(guī)模且高質(zhì)量語料缺乏的問題,引入預(yù)訓(xùn)練策略,基于大量中醫(yī)古籍對(duì)ALBERT模型再訓(xùn)練,以學(xué)習(xí)古籍的上下文特征,最終得到CmabBERT模型,從而獲得更符合針灸古籍語境的動(dòng)態(tài)字向量表示輸出。在此基礎(chǔ)上,本文構(gòu)建了CmabBERT-BILSTM-CRF模型,最終通過實(shí)驗(yàn)驗(yàn)證了該模型在小樣本語料下的針灸古籍分詞性能提升。在無其他輔助信息增強(qiáng)下,本文模型各項(xiàng)評(píng)估值均優(yōu)于當(dāng)前主流模型。分詞性能的提升,能為后續(xù)針灸實(shí)體關(guān)系抽取、知識(shí)圖譜構(gòu)建等工作提供質(zhì)量保障。
本研究僅在小規(guī)模ALBERT模型基礎(chǔ)上再訓(xùn)練得到CmabBERT模型。而越大規(guī)模的PTM對(duì)于下游NLP任務(wù)的提升效果越為顯著。在未來的工作中,將進(jìn)一步通過剪枝等方法訓(xùn)練更少參數(shù)更大規(guī)模的中醫(yī)領(lǐng)域預(yù)訓(xùn)練模型,以更好地服務(wù)于中醫(yī)領(lǐng)域各項(xiàng)NLP任務(wù),助力于中醫(yī)智慧服務(wù)的發(fā)展。
參考文獻(xiàn)(References):
[1] 張夢雪.中國針灸學(xué)會(huì)發(fā)布推進(jìn)針灸高質(zhì)量發(fā)展“十四五”規(guī)劃綱要[J].中醫(yī)藥管理雜志,2022,30(4):89
[2] 王莉軍,周越,桂婕,等.基于BiLSTM-CRF的中醫(yī)文言文文獻(xiàn)分詞模型研究[J].計(jì)算機(jī)應(yīng)用研究,2020,37(11):3359-3362,3367
[3] 付璐,李思,李明正,等.以清代醫(yī)籍為例探討中醫(yī)古籍分詞規(guī)范標(biāo)準(zhǔn)[J].中華中醫(yī)藥雜志,2018,33(10):4700-4705
[4] Jia Q, Xie Y, Xu C, et al. Unsupervised traditional Chinese medicine text segmentation combined with domain dictionary[A].International Conference on Artificial Intelligence and Security[C]. New York: Springer,Cham,2019:304-314
[5] 張帆,劉曉峰,孫燕.中醫(yī)醫(yī)案文獻(xiàn)自動(dòng)分詞研究[J].中國中醫(yī)藥信息雜志,2015,22(2):38-41
[6] Fu X, Yuan T, Li X, et al. Research on the method and system of word segmentation and POS tagging for ancient Chinese medicine literature[A].2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)[C]. San Diego:IEEE,2019:2493-2498
[7] Li S, Li M, Xu Y, et al. Capsules based Chinese word segmentation for ancient Chinese medical books[J].IEEE Access,2018,6:70874-70883
[8] Lan Z, Chen M, Goodman S, et al. Albert: A lite bert for self-supervised learning of language representations[J].arXiv preprint arXiv,1909.11942,2019
[9] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[A].Proceedings of the 31st International Conference on Neural Information Processing Systems[C].California:ACM,2017:6000-6010
[10] DEVLIN J, CHANG M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[A]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies[C]. Minneapolis: ACL,2019: 4171-4186
[11] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[J].arXiv preprint arXiv: 1508.01991,2015
*基金項(xiàng)目:基于AI深度學(xué)習(xí)的中醫(yī)知識(shí)圖譜構(gòu)建(2021LDA09002); 甘肅中醫(yī)藥大學(xué)研究生創(chuàng)新基金項(xiàng)目(2022CX137)
作者簡介:鐘昕妤(1996-),女,浙江人,碩士研究生,主要研究方向:古籍知識(shí)圖譜、數(shù)據(jù)挖掘。
通訊作者:李燕(1976-),女,甘肅人,碩士,教授,碩士生導(dǎo)師,主要研究方向:中醫(yī)藥數(shù)據(jù)挖掘、醫(yī)學(xué)信息學(xué)及信息技術(shù)在醫(yī)學(xué)中的應(yīng)用。