国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義篩選的ALBERT-TextCNN中醫(yī)文本多標(biāo)簽分類研究

2023-11-22 06:03:25劉勇杜建強(qiáng)羅計(jì)根李清于夢(mèng)波鄭奇民
現(xiàn)代信息科技 2023年19期

劉勇 杜建強(qiáng) 羅計(jì)根 李清 于夢(mèng)波 鄭奇民

摘? 要:針對(duì)中醫(yī)領(lǐng)域中的大量未標(biāo)注文本,以及傳統(tǒng)多標(biāo)簽分類模型提取的文本語義信息不夠完整等問題,提出一種用于中醫(yī)文本的多標(biāo)簽分類模型語義篩選ALBERT-TextCNN。首先進(jìn)行特定領(lǐng)域任務(wù)自訓(xùn)練,將哮喘領(lǐng)域內(nèi)屬于多標(biāo)簽分類任務(wù)但未標(biāo)注文本輸入ALBERT進(jìn)行預(yù)訓(xùn)練任務(wù);其次ALBERT多層的Transform對(duì)已標(biāo)注數(shù)據(jù)分別進(jìn)行動(dòng)態(tài)向量化表示,基于語義篩選選取最佳編碼層生成的高效文本向量;最后引入TextCNN建立多標(biāo)簽分類器,提取文本向量不同層次的語義信息特征。在中醫(yī)數(shù)據(jù)集上驗(yàn)證方法的有效性,實(shí)驗(yàn)結(jié)果表明,該模型的多標(biāo)簽分類精度有所提高,更適用于中醫(yī)文本的分類預(yù)測(cè)。

關(guān)鍵詞:多標(biāo)簽分類;中醫(yī)文本;語義篩選;ALBERT;TextCNN

中圖分類號(hào):TP391;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)19-0123-06

Research on Multi-label Classification of TCM Texts Based on Semantic Filtering ALBERT-TextCNN

LIU Yong1, DU Jianqiang1, LUO Jigen1, LI Qing2, YU Mengbo1, ZHENG Qimin1

(1.College of Computer, Jiangxi University of Chinese Medicine, Nanchang? 330004, China;

2.Qihuang Chinese Medicine Academy, Jiangxi University of Chinese Medicine, Nanchang? 330025, China)

Abstract: The field of TCM contains a large amount of unlabeled texts, and the semantic information of texts extracted by traditional multi-label classification models is not complete. Aiming at this problem, a multi-label classification model for TCM texts based on semantic filtering ALBERT-TextCNN is proposed. Firstly, by the self-training task in a specific field, the unlabeled text in the asthma domain belonging to the multi-label classification task is input to the ALBERT model for the pre-training task. Secondly, ALBERT's multiple Transformer layers perform a dynamic vectorized representation of the annotated data separately, and select the best encoding layer to generate efficient text vectors based on semantic filtering. Finally, TextCNN is introduced to build multi-label classifiers to extract semantic information features of text vectors at different levels. The effectiveness of the method is validated on TCM datasets. The experimental results show that multi-label classification accuracy of the model is improved, and it is more suitable for classification and prediction in TCM texts.

Keywords: multi-label classification; TCM text; semantic filtering; ALBERT; TextCNN

0? 引? 言

隨著時(shí)代發(fā)展,以現(xiàn)代科學(xué)技術(shù)的方法為依托,發(fā)展中醫(yī)現(xiàn)代化的腳步日趨加快。近些年,有研究者利用人工智能技術(shù)實(shí)現(xiàn)中醫(yī)診斷決策支持[1]。中醫(yī)文本中蘊(yùn)含著古人的醫(yī)學(xué)智慧和寶貴的醫(yī)療信息,對(duì)中醫(yī)文本的分類研究具有很大的臨床價(jià)值。徐傳杰[2]針對(duì)中醫(yī)臨床疾病診斷任務(wù),使用BERT模型來獲得中醫(yī)癥狀文本的向量表示,將卷積池化的全局向量融入對(duì)局部特征的提取中,最后將所提取到的特征向量經(jīng)過全連接層以及Softmax函數(shù)完成對(duì)患者疾病的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法具有更好的精度表現(xiàn);杜琳等[3]提出基于BERT+Bi-LSTM+Attention模型,對(duì)中醫(yī)病歷文本進(jìn)行了提取并分類,AverageF1值達(dá)到89.52%;陳廣等[4]將關(guān)鍵語義信息和原始文本分別使用CNN進(jìn)行特征提取與拼接,構(gòu)建融合病情文本關(guān)鍵語義信息的中醫(yī)腎病病情文本分類模型,取得了較好的分類效果。

中醫(yī)理論的核心為辨證論治,證候信息為辨證論治提供依據(jù)。中醫(yī)證候文本類別豐富且內(nèi)部結(jié)構(gòu)復(fù)雜。多標(biāo)簽分類是一個(gè)樣本與多個(gè)類別的標(biāo)簽相關(guān),通過特定的分類器為該樣本給定多個(gè)標(biāo)簽的分類任務(wù),其應(yīng)用場(chǎng)景廣泛,如5G通信領(lǐng)域的醫(yī)療推薦應(yīng)用[5]——醫(yī)生推薦系統(tǒng)[6],為患者提供更加人性化的服務(wù);法律領(lǐng)域的判決預(yù)測(cè)[7];社會(huì)媒體領(lǐng)域的用戶分析[8]等。因此利用多標(biāo)簽分類技術(shù)分析中醫(yī)文本信息,具有重要的研究?jī)r(jià)值和現(xiàn)實(shí)意義。

多標(biāo)簽分類方法大體分為兩類:傳統(tǒng)機(jī)器學(xué)習(xí)方法與基于深度學(xué)習(xí)的方法[9]。傳統(tǒng)機(jī)器學(xué)習(xí)方法主要分為問題轉(zhuǎn)換方法和算法自適應(yīng)方法[10]。問題轉(zhuǎn)換方法是基于一定的策略將多標(biāo)簽問題拆解為多個(gè)單標(biāo)簽問題,通過學(xué)習(xí)每個(gè)標(biāo)簽來解決多標(biāo)簽問題[11]。算法適應(yīng)則是對(duì)常用的單標(biāo)簽分類算法進(jìn)行改進(jìn)以解決多標(biāo)簽分類問題,如Guo等[12]使用ML-KNN(Multi-Label K-Nearest Neighbor)算法,利用K近鄰來處理多標(biāo)簽數(shù)據(jù)。伴隨著深度學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)模型在自然語言處理領(lǐng)域中的應(yīng)用越來越廣泛。文本分類中深度學(xué)習(xí)取得了不錯(cuò)的效果,Baker等人[13]設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)結(jié)構(gòu)的多標(biāo)簽文本分類方法,該方法主要通過初始化模型網(wǎng)絡(luò)中的最后隱藏層利用標(biāo)簽關(guān)系來實(shí)現(xiàn)分類,但CNN在捕獲前后文的關(guān)系時(shí)易造成語義的偏差;王進(jìn)等[14]采用Bi-LSTM作為編碼器,使用圖嵌入和區(qū)域注意力來處理多標(biāo)簽分類任務(wù);Nam等人[15]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks)利用對(duì)標(biāo)簽的預(yù)測(cè)來完成多標(biāo)簽分類,但忽略了文本輸入和輸出為定長(zhǎng)序列,容易造成信息丟失。

本文將中醫(yī)證候預(yù)測(cè)轉(zhuǎn)為多標(biāo)簽分類問題,參考《中醫(yī)診斷學(xué)》與《中醫(yī)基礎(chǔ)理論》等中醫(yī)書籍在專家的指導(dǎo)下將證候結(jié)論劃分為由病因組成的標(biāo)簽集,例如證候語句:表有風(fēng)濕,里有痰濕瘀血夾熱,其病機(jī)為“痰飲凝聚/濕濁困阻”。將包含病機(jī)的標(biāo)簽集與四診、主訴、自訴等診斷信息相匹配構(gòu)成結(jié)構(gòu)化的數(shù)據(jù)集,使用其進(jìn)行多標(biāo)簽分類任務(wù)。

中醫(yī)文本含有大量中醫(yī)領(lǐng)域術(shù)語,上下文詞語關(guān)聯(lián)性較強(qiáng)且含有表述嚴(yán)謹(jǐn)和富有辯證思維的古文,專業(yè)性較高,因此直接使用預(yù)訓(xùn)練語言模型易造成文本表征不足和語義理解不深的問題,本文提出一種基于語義篩選ALBERT-TextCNN的中醫(yī)文本多標(biāo)簽分類模型。該模型利用特定領(lǐng)域[16]中未標(biāo)注的多標(biāo)簽分類任務(wù)文本在ALBERT模型上進(jìn)行任務(wù)自訓(xùn)練(Curated-TAPA),之后利用該模型對(duì)標(biāo)注的中醫(yī)文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)的特征向量表示,選取最佳的Transformer語義編碼層所生成的文本向量輸出到TextCNN模型作為其輸入,進(jìn)一步提取文本向量的語義信息特征,提升分類算法應(yīng)用在中醫(yī)領(lǐng)域的精確性。

1? 基于語義篩選的中醫(yī)文本分類模型

1.1? ALBERT預(yù)訓(xùn)練語言模型

ALBERT模型的開發(fā)基于BERT[17](Bidirectional Encoder Representations from Transformers),是一款實(shí)現(xiàn)了參數(shù)減少、訓(xùn)練速度加快的輕量化模型。為了讓ALBERT預(yù)訓(xùn)練語言模型能更好地適用于特定文本領(lǐng)域的任務(wù),ALBERT應(yīng)進(jìn)行兩個(gè)預(yù)訓(xùn)練任務(wù):MLM(Mask Language Model)和SOP(Sentence Order Prediction)[18]。

MLM指的是對(duì)句子中的單詞隨機(jī)使用mask token([MASK]),然后利用上下文的相關(guān)信息預(yù)測(cè)出[MASK]位置上原有的單詞。通過MLM可以更好地根據(jù)全文理解單詞的含義。SOP即句子順序預(yù)測(cè),判斷兩句話是否存在順序關(guān)系或者是否為反序關(guān)系。SOP預(yù)測(cè)任務(wù)能夠讓模型學(xué)到更多的句子間語義關(guān)系信息。ALBERT模型結(jié)構(gòu)(包含MLM和SOP的預(yù)訓(xùn)練過程)如圖1所示。

其中,“脈略弦涉”“寸關(guān)略浮”表示訓(xùn)練的語料,Ei表示文本中第i個(gè)字符的原始向量,由字向量,文本向量和位置向量組成。Ti表示第i個(gè)字符由模型輸出的文本特征向量。

Transformer由Encoder和Decoder兩個(gè)部分組成[19],由于ALBERT為生成語言模型[20],所以其Transformer層主要使用Transformer結(jié)構(gòu)中的Encoder部分。其中,Encoder部分包含一個(gè)Multi-Head Attention,由多個(gè)Self-Attention組成,Add & Norm層中的Add為殘差連接(Residual Connection)可防止網(wǎng)絡(luò)退化,Norm表示Layer Normalization[21],作用是對(duì)每一層的激活值進(jìn)行歸一化。

1.2? TextCNN卷積神經(jīng)網(wǎng)絡(luò)

TextCNN模型由Kim[22]提出,該模型利用多個(gè)不同大小的kernel來提取句子中的關(guān)鍵信息,從而更加高效地得到重要的文本特征向量表示。模型的構(gòu)成為輸入層、輸出層、以及多個(gè)隱藏層,隱藏層可為卷積層、池化層、ReLU層和全連接層。對(duì)于輸入的文本向量W = (w1, w2, …, wn),卷積層得到W中的每個(gè)詞的卷積結(jié)果Q:

其中xi:i+h-1表示輸入矩陣的第i行到第i+h-1行所組成的一個(gè)大小為h×k的窗口。h表示窗口中的單詞數(shù),w表示h×k維的權(quán)重矩陣,b表示偏置參數(shù),f表示非線性函數(shù)。

池化層中的操作可為最大池化操作和平均池化操作[23],本文模型選取最大池化操作,因?yàn)槊恳粋€(gè)詞的作用并不是完全相同的,采用最大池化可選擇出文本中能起到關(guān)鍵作用的元素信息。篩選出的元素最大值:

之后將經(jīng)過池化的特征值Ci進(jìn)行拼接得到文本特征向量:

其中,C表示TextCNN訓(xùn)練得到的文本特征向量,i+h-1表示維度,n表示文本序列中字詞的總數(shù)。最后通過在下游任務(wù)中連接上全連接層來實(shí)現(xiàn)文本標(biāo)簽的預(yù)測(cè)。

1.3? 基于語義篩選的中醫(yī)文本分類模型

基于語義篩選的ALBERT-TextCNN中醫(yī)文本分類模型訓(xùn)練過程分為三個(gè)步驟。

第一步,將未標(biāo)記的多標(biāo)簽分類文本數(shù)據(jù),利用中文版ALBERT模型進(jìn)行MLM和SOP預(yù)訓(xùn)練任務(wù),得到適用于多標(biāo)簽分類任務(wù)領(lǐng)域的Curated-TAPA ALBERT(C-T ALBERT)模型。ALBERT模型的底層Transformer進(jìn)行文本表層信息特征表示,中間層Transformer生成文本句法信息特征,語義信息特征的表示在Transformer高層[24]。

第二步,將已標(biāo)記的文本輸入到C-T ALBERT模型之后,并非直接將池化層生成的文本特征向量作為TextCNN卷積神經(jīng)網(wǎng)絡(luò)的輸入,而是把底層、中間層、高層的Transformer語義編碼器生成的文本向量進(jìn)行組合,將不同組別的文本向量分別輸入到TextCNN模型中。

第三步,TextCNN模型進(jìn)一步提取不同組別文本向量的語義信息特征,從中選取最優(yōu)的動(dòng)態(tài)文本特征向量進(jìn)行多標(biāo)簽分類任務(wù)。為了防止模型過擬合,在標(biāo)簽預(yù)測(cè)的兩層全連接神經(jīng)網(wǎng)絡(luò)中,連接第一個(gè)全連接層,進(jìn)行一次dropout,保持向量維度不變,再輸入到第二個(gè)全連接層輸出每個(gè)類別標(biāo)簽的預(yù)測(cè)概率。

基于語義篩選的ALBERT-TextCNN的多標(biāo)簽文本分類模型框架如圖2所示。

1.4? 算法流程

直接使用預(yù)訓(xùn)練語言模型易造成提取的中醫(yī)文本語義信息不足的問題。為了提取文本向量更加豐富的語義信息特征,本文提出一種基于語義篩選ALBERT-TextCNN的中醫(yī)文本多標(biāo)簽分類模型,算法具體流程如下:

1)將未標(biāo)記文本Xi輸入到中文版ALBERT模型進(jìn)行MLM和SOP預(yù)訓(xùn)練任務(wù):

2)標(biāo)注文本G輸入到Curated-TAPA ALBERT模型中,選取前四層,中間四層和后四層生成的文本向量與由池化層生成的文本向量。

3)對(duì)選取的不同層的文本向量進(jìn)行拼接。

4)TextCNN模型對(duì)輸入的文本向量分別進(jìn)行訓(xùn)練,采用最大池化操作篩選出元素的最大值:

5)獲取組合中經(jīng)過池化后效果最佳的文本高層特征向量:

6)接入第一個(gè)全連接層,執(zhí)行dropout操作,保持向量維度不變。

7)分類任務(wù):接入第二個(gè)全連接層,利用sigmoid激活函數(shù)輸出文本標(biāo)簽的預(yù)測(cè)結(jié)果。

8)超參數(shù)優(yōu)化:TextCNN模型采用Adam優(yōu)化器,為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率,基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重。

9)多標(biāo)簽文本分類結(jié)果。

1.5? 損失函數(shù)選擇

分類任務(wù)中,Softmax函數(shù)先將模型全連接層輸出的類別標(biāo)簽向量轉(zhuǎn)換成一個(gè)概率分布,然后取概率值最大的作為樣本的唯一類別標(biāo)簽。但在多標(biāo)簽文本分類中,樣本實(shí)際的標(biāo)簽可能不止一個(gè),因此實(shí)現(xiàn)中醫(yī)文本所屬類別的標(biāo)簽預(yù)測(cè)采用sigmoid交叉熵?fù)p失函數(shù):

用于測(cè)量分類任務(wù)中的概率誤差,每個(gè)類是獨(dú)立的而不是互斥的,其中C表示類別數(shù)量, 和? 均為一個(gè)向量,分別表示真實(shí)標(biāo)簽和未經(jīng)任何激活函數(shù)處理的網(wǎng)絡(luò)輸出值。

2? 實(shí)驗(yàn)結(jié)果與分析

2.1? 數(shù)據(jù)集

江西中醫(yī)藥大學(xué)岐黃國醫(yī)書院提供的真實(shí)電子病歷中提取的868條中醫(yī)哮喘病機(jī)數(shù)據(jù)集,每一條數(shù)據(jù)樣本經(jīng)過人工標(biāo)注了帶有多個(gè)病機(jī)主題的類別標(biāo)簽。數(shù)據(jù)包含中醫(yī)哮喘癥狀信息(脈診、舌診、望診、聞診等)描述文本和該文本對(duì)應(yīng)的多個(gè)病機(jī)類別,數(shù)據(jù)格式如表1所示。數(shù)據(jù)集中包含25個(gè)類別標(biāo)簽,對(duì)每類標(biāo)簽的數(shù)量占比進(jìn)行統(tǒng)計(jì),具體內(nèi)容如表2所示。

2.2? 評(píng)價(jià)指標(biāo)

在對(duì)分類器進(jìn)行性能衡量時(shí),傳統(tǒng)的評(píng)價(jià)指標(biāo)在多標(biāo)簽分類任務(wù)中并不適用。因此,為了對(duì)模型性能進(jìn)行更加合理的評(píng)估應(yīng)選用專門針對(duì)多標(biāo)簽分類問題的評(píng)價(jià)指標(biāo)。

在分類問題中,常用的評(píng)價(jià)指標(biāo)有精確率(Precision)、召回率(Recall)和F1(F1-Measure)值。在多標(biāo)簽分類場(chǎng)景下,預(yù)測(cè)結(jié)果可為單獨(dú)一個(gè)類別,也存在多個(gè)類別同時(shí)存在的情況,因此選取了適用于多標(biāo)簽分類任務(wù)的Micro-precision(M-p)、Micro-recall(M-r)和Micro-F1(M-F1)計(jì)算方法。

2.3? 實(shí)驗(yàn)設(shè)置

本研究采用網(wǎng)絡(luò)平臺(tái)OpenBayes云服務(wù)器,選用NVIDIA GeForce RTX 2080 (8 GiB),20GiB RAM;軟件環(huán)境為PyCharm 11.0.7、Anaconda 5.3.0,采用TensorFlow深度學(xué)習(xí)框架,在Windows 10(64位)操作系統(tǒng)下完成。

2.4? 對(duì)比算法

為了驗(yàn)證語義篩選ALBERT-TextCNN模型能夠提升在多標(biāo)簽任務(wù)場(chǎng)景下對(duì)中醫(yī)文本的分類性能,在實(shí)驗(yàn)中,本文設(shè)計(jì)BERT、ALBERT、ALBERT-Denses三個(gè)模型作為對(duì)比實(shí)驗(yàn),每組對(duì)比實(shí)驗(yàn)的參數(shù)設(shè)置如下:

1)BERT:利用BERT預(yù)訓(xùn)練模型提取詞向量,并與下游任務(wù)融合進(jìn)行多標(biāo)簽分類[25],參數(shù)設(shè)定參照本文ALBERT模型。

2)ALBERT:使用文獻(xiàn)[18]所提到的ALBERT預(yù)訓(xùn)練語言模型進(jìn)行詞向量提取,利用一個(gè)神經(jīng)元,實(shí)現(xiàn)文本多標(biāo)簽分類。

3)ALBERT-Denses:采用ALBERT預(yù)訓(xùn)練語言模型進(jìn)行詞向量提取,基于問題轉(zhuǎn)換的思想,將多標(biāo)簽分類問題轉(zhuǎn)換為多個(gè)二分類問題[26],進(jìn)行單標(biāo)簽的二元分類預(yù)測(cè)。

2.5? 參數(shù)選擇

本文模型參數(shù)主要是ALBERT模型和TextCNN模型的參數(shù)。具體參數(shù)內(nèi)容如表3和表4所示。

表3中hidden_act為隱藏層激活函數(shù),hidden_size為隱藏層神經(jīng)元數(shù),intermediate_size為encoder層的“中間”隱層神經(jīng)元數(shù),embedding_size為詞向量維度,vocal_size為詞表大小。表4中,num_filters為過濾器輸出的特征向量維數(shù),filter_sizes為過濾器大小,dropout_rate為實(shí)行drop策略的比例。

2.6? Curated-TAPA實(shí)驗(yàn)結(jié)果與討論分析

為了驗(yàn)證本文方法的有效性,先進(jìn)行使用了Curated-TAPA的模型效果對(duì)比,在此基礎(chǔ)上,再進(jìn)行選取不同語義層生成的動(dòng)態(tài)詞向量輸入到TextCNN模型的效果對(duì)比。

首先使用Curated-TAPA策略,表5給出了經(jīng)過Curated-TAPA之后的ALBERT-TextCNN(A-TextCNN)模型,原始的A-TextCNN模型以及其他三種模型的F1-score。由表5可知,Curated-TAPA-ALBERT-TextCNN(C-T-A-T)的效果優(yōu)于其他模型,對(duì)比未使用Curated-TAPA的A-TextCNN模型,C-T-A-T的F1-score提升了3.74%,與ALBERT-Denses(A-Denses),BERT和ALBERT相比,C-T-A-T也具有最好的分類性能。尤其是對(duì)于BERT模型,C-T-A-T的F1-score提高了6.59%。證明了本文所采用的Curated-TAPA策略的有效性。

2.7? 語義篩選實(shí)驗(yàn)結(jié)果與討論分析

采用Curated-TAPA策略之后,選取ALBERT模型的不同語義層所提取的詞向量輸入到TextCNN模型中,本文對(duì)語義層的前四層(First4),中間四層(Middle4),最后四層(Last4)與原始池化層(Pool)生成的文本向量拼接組合進(jìn)行模型效果的對(duì)比。表6為C-T-A-T選取不同語義層的模型效果對(duì)比。通過表6可知選取不同語義層的效果不一,而且出現(xiàn)了選取中間四層加上池化層的F1-score沒有提升反而有較大下降,由于中間層所提取的文本向量主要包括句法信息特征,而TextCNN對(duì)文本淺層特征抽取能力較強(qiáng),所以造成只使用中間層的效果較差。實(shí)驗(yàn)表明,使用不同語義層提取的動(dòng)態(tài)文本向量的效果會(huì)有不同,該模型選取最后四層加上池化層的效果最佳,證明了本文方法的有效性。

3? 結(jié)? 論

針對(duì)傳統(tǒng)多標(biāo)簽分類模型原始層提取的文本語義信息不夠完整等問題,本文提出了一種基于語義篩選的ALBERT-TextCNN多標(biāo)簽文本分類方法。首先,ALBERT模型進(jìn)行Curated-TAPA,之后利用該模型對(duì)標(biāo)注的中醫(yī)文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)的特征向量表示,基于語義篩選選取最佳語義層所生成的文本向量輸出到TextCNN模型作為其輸入,提取文本向量的語義信息特征,最后進(jìn)行分類任務(wù)。實(shí)驗(yàn)結(jié)果表明,本文方法在各項(xiàng)評(píng)價(jià)指標(biāo)中均具有良好的表現(xiàn),能夠提高模型在中醫(yī)文本上的分類性能。本文方法利用了證候病機(jī)標(biāo)簽的數(shù)據(jù)集,未對(duì)當(dāng)前文本中多個(gè)標(biāo)簽之間的關(guān)系進(jìn)行分析,在下一步工作中將挖掘數(shù)據(jù)集中標(biāo)簽更深層次的信息,考慮標(biāo)簽之間的關(guān)聯(lián)性,使其更加適用于實(shí)際的中醫(yī)文本分類工作。

參考文獻(xiàn):

[1] ZHANG Z L,LI J H,ZHENG W T,et al. Research on Diagnosis Prediction of Traditional Chinese Medicine Diseases Based on Improved Bayesian Combination Model [J].Evidence-based Complementary and Alternative Medicine,2021,2021(12):1-9.

[2] 徐傳杰.基于BERT模型的中醫(yī)疾病輔助診斷和處方推薦方法研究 [D].濟(jì)南:山東師范大學(xué),2022.

[3] 杜琳,曹東,林樹元,等.基于BERT與Bi-LSTM融合注意力機(jī)制的中醫(yī)病歷文本的提取與自動(dòng)分類 [J].計(jì)算機(jī)科學(xué),2020,47(S2):416-420.

[4] 陳廣.基于關(guān)鍵語義信息的中醫(yī)腎病病情文本分類問題研究 [D].杭州:浙江大學(xué),2019.

[5] LIU W W,SHEN X B,WANG H B,et al. The Emerging Trends of Multi-Label Learning [J/OL].arXiv: 2011.11197 [cs.LG].(2020-11-23).https://arxiv.org/abs/2011.11197.

[6] GUO L,JIN B,YU R Y,et al. Multi-label Classification Methods for Green Computing and Application for Mobile Medical Recommendations [J].IEEE ACCESS,2016,4:3201-3209.

[7] NIKLAUS J,CHALKIDIS I,ST?RMER M. Swiss-Judgment-Prediction: A Multilingual Legal Judgment Prediction Benchmark [J/OL].arXiv: 2110.00806 [cs.CL].(2021-10-02).https://arxiv.org/abs/2110.00806.

[8] JAIN P K,PAMULA R,YEKUN E A. A Multi-label Ensemble Predicting Model to Service Recommendation from Social Media Contents [J].The Journal of Supercomputing,2022,78(4):5203-5220.

[9] 郝超,裘杭萍,孫毅,等.多標(biāo)簽文本分類研究進(jìn)展 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(10):48-56.

[10] ZHANG M L,ZHOU Z H. A Review on Multi-Label Learning Algorithms [J].IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1819-1837.

[11] 武紅鑫,韓萌,陳志強(qiáng),等.監(jiān)督和半監(jiān)督學(xué)習(xí)下的多標(biāo)簽分類綜述 [J].計(jì)算機(jī)科學(xué),2022,49(8):12-25.

[12] GUO J,YUAN X,ZHENG X,et al. Diagnosis Labeling with Disease-specific Characteristics Mining [J].Artificial Intelligence in Medicine,2018,90:25-33.

[13] BAKER S,KORHONEN A. Initializing Neural Networks for Hierarchical Multi-label Text Classification [C]//BioNLP 2017.Vancouver:ACL,2017:307–315.

[14] 王進(jìn),徐巍,丁一,等.基于圖嵌入和區(qū)域注意力的多標(biāo)簽文本分類 [J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2022,43(3):310-318.

[15] NAM J,MENC?A E L,KIM H J,et al. Maximizing Subset Accuracy with Recurrent Neural Networks in Multi-label Classification [C]//NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc,2017:5419-5429.

[16] GURURANGAN S,MARASOVI? A,SWAYAMDIPTA S,et al. Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics(ACL 2020).Seattle:ACL,2020:8342-8360.

[17] DEVLIN J,CHANG M-W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv: 1810.04805 [cs.CL].(2018-10-11).https://arxiv.org/abs/1810.04805v2.

[18] LAN Z Z,CHEN M D,GOODMAN S,et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations [J/OL].arXiv: 1909.11942 [cs.CL].(2019-09-26).https://arxiv.org/abs/1909.11942.

[19] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [J/OL].arXiv: 1706.03762 [cs.CL].(2017-06-12).https://arxiv.org/abs/1706.03762.

[20] QIAO B,ZOU Z Y,HUANG Y,et al. A Joint Model for entity and Relation Extraction Based on BERT [J].Neural Computing and Applications,2022,34(5):3471-3481.

[21] JANG D K,PARK S,LEE S H. Motion Puzzle: Arbitrary Motion Style Transfer by Body Part [J/OL].arXiv: 2202.05274 [cs.GR].(2022-02-10).https://arxiv.org/abs/2202.05274v2.

[22] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv: 1408.5882 [cs.CL].(2014-08-25).https://arxiv.org/abs/1408.5882v2.

[23] 楊林,黃曉碩,王嘉陽,等.基于BERT-TextCNN的臨床試驗(yàn)疾病亞型識(shí)別研究 [J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2022,6(4):69-81.

[24] JAWAHAR G,SAGOT B,SEDDAH D. What Does BERT Learn about the Structure of Language? [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:ACL,2019:3651-3657.

[25] 王淳睿,何先波,易洋.基于BERT模型的指令集多標(biāo)簽分類研究 [J].智能計(jì)算機(jī)與應(yīng)用,2022,12(10):75-78+85.

[26] 周慧穎,汪廷華,張代俐.多標(biāo)簽特征選擇研究進(jìn)展 [J].計(jì)算機(jī)工程與應(yīng)用,2022,58(15):52-67.

作者簡(jiǎn)介:劉勇(1997—),男,漢族,江西撫州人,碩士研究生在讀,研究方向:自然語言處理;通訊作者:杜建強(qiáng)(1968—),男,漢族,江西南昌人,教授,博士,研究方向:中醫(yī)藥信息學(xué)、數(shù)據(jù)挖掘;羅計(jì)根(1991—),男,漢族,江西萍鄉(xiāng)人,講師,碩士,研究方向:自然語言處理;李清(1982—),女,漢族,江西撫州人,講師,博士,研究方向:中醫(yī)辨證規(guī)律;于夢(mèng)波(1998—),男,漢族,河南周口人,碩士研究生在讀,研究方向:自然語言處理;鄭奇民(1998—),男,漢族,山西運(yùn)城人,碩士研究生在讀,研究方向:自然語言處理。

收稿日期:2023-03-09

基金項(xiàng)目:國家自然科學(xué)基金(82260988);江西省自然科學(xué)基金(20202BAB202019);江西中醫(yī)藥大學(xué)校級(jí)科技創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃(CXTD22015);江西省研究生創(chuàng)新專項(xiàng)資金項(xiàng)目(YC2021-S499)

安岳县| 都昌县| 达州市| 东乡| 通化县| 阜阳市| 博客| 邵阳县| 安吉县| 普定县| 新绛县| 四子王旗| 福建省| 江川县| 山丹县| 平乡县| 印江| 甘泉县| 巴青县| 隆昌县| 兰考县| 津南区| 黎平县| 治县。| 阳山县| 乌拉特后旗| 金门县| 东乡| 郸城县| 瓦房店市| 大方县| 巴林左旗| 通海县| 顺义区| 罗山县| 璧山县| 武乡县| 广灵县| 凤庆县| 海丰县| 郯城县|