基于語義篩選的ALBERT-TextCNN中醫(yī)文本多標(biāo)簽分類研究

2023-11-22 06:03:25劉勇杜建強(qiáng)羅計(jì)根李清于夢(mèng)波鄭奇民

現(xiàn)代信息科技 2023年19期

劉勇　杜建強(qiáng)　羅計(jì)根　李清　于夢(mèng)波　鄭奇民

摘? 要：針對(duì)中醫(yī)領(lǐng)域中的大量未標(biāo)注文本，以及傳統(tǒng)多標(biāo)簽分類模型提取的文本語義信息不夠完整等問題，提出一種用于中醫(yī)文本的多標(biāo)簽分類模型語義篩選ALBERT-TextCNN。首先進(jìn)行特定領(lǐng)域任務(wù)自訓(xùn)練，將哮喘領(lǐng)域內(nèi)屬于多標(biāo)簽分類任務(wù)但未標(biāo)注文本輸入ALBERT進(jìn)行預(yù)訓(xùn)練任務(wù)；其次ALBERT多層的Transform對(duì)已標(biāo)注數(shù)據(jù)分別進(jìn)行動(dòng)態(tài)向量化表示，基于語義篩選選取最佳編碼層生成的高效文本向量；最后引入TextCNN建立多標(biāo)簽分類器，提取文本向量不同層次的語義信息特征。在中醫(yī)數(shù)據(jù)集上驗(yàn)證方法的有效性，實(shí)驗(yàn)結(jié)果表明，該模型的多標(biāo)簽分類精度有所提高，更適用于中醫(yī)文本的分類預(yù)測(cè)。

關(guān)鍵詞：多標(biāo)簽分類；中醫(yī)文本；語義篩選；ALBERT；TextCNN

中圖分類號(hào)：TP391；TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2023）19-0123-06

Research on Multi-label Classification of TCM Texts Based on Semantic Filtering ALBERT-TextCNN

LIU Yong1， DU Jianqiang1， LUO Jigen1， LI Qing2， YU Mengbo1， ZHENG Qimin1

（1.College of Computer， Jiangxi University of Chinese Medicine， Nanchang? 330004， China;

2.Qihuang Chinese Medicine Academy， Jiangxi University of Chinese Medicine， Nanchang? 330025， China）

Abstract： The field of TCM contains a large amount of unlabeled texts， and the semantic information of texts extracted by traditional multi-label classification models is not complete. Aiming at this problem， a multi-label classification model for TCM texts based on semantic filtering ALBERT-TextCNN is proposed. Firstly， by the self-training task in a specific field， the unlabeled text in the asthma domain belonging to the multi-label classification task is input to the ALBERT model for the pre-training task. Secondly， ALBERT's multiple Transformer layers perform a dynamic vectorized representation of the annotated data separately， and select the best encoding layer to generate efficient text vectors based on semantic filtering. Finally， TextCNN is introduced to build multi-label classifiers to extract semantic information features of text vectors at different levels. The effectiveness of the method is validated on TCM datasets. The experimental results show that multi-label classification accuracy of the model is improved， and it is more suitable for classification and prediction in TCM texts.

Keywords： multi-label classification; TCM text; semantic filtering; ALBERT; TextCNN

0? 引? 言

隨著時(shí)代發(fā)展，以現(xiàn)代科學(xué)技術(shù)的方法為依托，發(fā)展中醫(yī)現(xiàn)代化的腳步日趨加快。近些年，有研究者利用人工智能技術(shù)實(shí)現(xiàn)中醫(yī)診斷決策支持[1]。中醫(yī)文本中蘊(yùn)含著古人的醫(yī)學(xué)智慧和寶貴的醫(yī)療信息，對(duì)中醫(yī)文本的分類研究具有很大的臨床價(jià)值。徐傳杰[2]針對(duì)中醫(yī)臨床疾病診斷任務(wù)，使用BERT模型來獲得中醫(yī)癥狀文本的向量表示，將卷積池化的全局向量融入對(duì)局部特征的提取中，最后將所提取到的特征向量經(jīng)過全連接層以及Softmax函數(shù)完成對(duì)患者疾病的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明，該方法具有更好的精度表現(xiàn)；杜琳等[3]提出基于BERT+Bi-LSTM+Attention模型，對(duì)中醫(yī)病歷文本進(jìn)行了提取并分類，AverageF1值達(dá)到89.52%；陳廣等[4]將關(guān)鍵語義信息和原始文本分別使用CNN進(jìn)行特征提取與拼接，構(gòu)建融合病情文本關(guān)鍵語義信息的中醫(yī)腎病病情文本分類模型，取得了較好的分類效果。

中醫(yī)理論的核心為辨證論治，證候信息為辨證論治提供依據(jù)。中醫(yī)證候文本類別豐富且內(nèi)部結(jié)構(gòu)復(fù)雜。多標(biāo)簽分類是一個(gè)樣本與多個(gè)類別的標(biāo)簽相關(guān)，通過特定的分類器為該樣本給定多個(gè)標(biāo)簽的分類任務(wù)，其應(yīng)用場(chǎng)景廣泛，如5G通信領(lǐng)域的醫(yī)療推薦應(yīng)用[5]——醫(yī)生推薦系統(tǒng)[6]，為患者提供更加人性化的服務(wù)；法律領(lǐng)域的判決預(yù)測(cè)[7]；社會(huì)媒體領(lǐng)域的用戶分析[8]等。因此利用多標(biāo)簽分類技術(shù)分析中醫(yī)文本信息，具有重要的研究?jī)r(jià)值和現(xiàn)實(shí)意義。

多標(biāo)簽分類方法大體分為兩類：傳統(tǒng)機(jī)器學(xué)習(xí)方法與基于深度學(xué)習(xí)的方法[9]。傳統(tǒng)機(jī)器學(xué)習(xí)方法主要分為問題轉(zhuǎn)換方法和算法自適應(yīng)方法[10]。問題轉(zhuǎn)換方法是基于一定的策略將多標(biāo)簽問題拆解為多個(gè)單標(biāo)簽問題，通過學(xué)習(xí)每個(gè)標(biāo)簽來解決多標(biāo)簽問題[11]。算法適應(yīng)則是對(duì)常用的單標(biāo)簽分類算法進(jìn)行改進(jìn)以解決多標(biāo)簽分類問題，如Guo等[12]使用ML-KNN（Multi-Label K-Nearest Neighbor）算法，利用K近鄰來處理多標(biāo)簽數(shù)據(jù)。伴隨著深度學(xué)習(xí)的快速發(fā)展，深度學(xué)習(xí)模型在自然語言處理領(lǐng)域中的應(yīng)用越來越廣泛。文本分類中深度學(xué)習(xí)取得了不錯(cuò)的效果，Baker等人[13]設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks， CNN）結(jié)構(gòu)的多標(biāo)簽文本分類方法，該方法主要通過初始化模型網(wǎng)絡(luò)中的最后隱藏層利用標(biāo)簽關(guān)系來實(shí)現(xiàn)分類，但CNN在捕獲前后文的關(guān)系時(shí)易造成語義的偏差；王進(jìn)等[14]采用Bi-LSTM作為編碼器，使用圖嵌入和區(qū)域注意力來處理多標(biāo)簽分類任務(wù)；Nam等人[15]使用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks）利用對(duì)標(biāo)簽的預(yù)測(cè)來完成多標(biāo)簽分類，但忽略了文本輸入和輸出為定長(zhǎng)序列，容易造成信息丟失。

本文將中醫(yī)證候預(yù)測(cè)轉(zhuǎn)為多標(biāo)簽分類問題，參考《中醫(yī)診斷學(xué)》與《中醫(yī)基礎(chǔ)理論》等中醫(yī)書籍在專家的指導(dǎo)下將證候結(jié)論劃分為由病因組成的標(biāo)簽集，例如證候語句：表有風(fēng)濕，里有痰濕瘀血夾熱，其病機(jī)為“痰飲凝聚/濕濁困阻”。將包含病機(jī)的標(biāo)簽集與四診、主訴、自訴等診斷信息相匹配構(gòu)成結(jié)構(gòu)化的數(shù)據(jù)集，使用其進(jìn)行多標(biāo)簽分類任務(wù)。

中醫(yī)文本含有大量中醫(yī)領(lǐng)域術(shù)語，上下文詞語關(guān)聯(lián)性較強(qiáng)且含有表述嚴(yán)謹(jǐn)和富有辯證思維的古文，專業(yè)性較高，因此直接使用預(yù)訓(xùn)練語言模型易造成文本表征不足和語義理解不深的問題，本文提出一種基于語義篩選ALBERT-TextCNN的中醫(yī)文本多標(biāo)簽分類模型。該模型利用特定領(lǐng)域[16]中未標(biāo)注的多標(biāo)簽分類任務(wù)文本在ALBERT模型上進(jìn)行任務(wù)自訓(xùn)練（Curated-TAPA），之后利用該模型對(duì)標(biāo)注的中醫(yī)文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)的特征向量表示，選取最佳的Transformer語義編碼層所生成的文本向量輸出到TextCNN模型作為其輸入，進(jìn)一步提取文本向量的語義信息特征，提升分類算法應(yīng)用在中醫(yī)領(lǐng)域的精確性。

1? 基于語義篩選的中醫(yī)文本分類模型

1.1? ALBERT預(yù)訓(xùn)練語言模型

ALBERT模型的開發(fā)基于BERT[17]（Bidirectional Encoder Representations from Transformers），是一款實(shí)現(xiàn)了參數(shù)減少、訓(xùn)練速度加快的輕量化模型。為了讓ALBERT預(yù)訓(xùn)練語言模型能更好地適用于特定文本領(lǐng)域的任務(wù)，ALBERT應(yīng)進(jìn)行兩個(gè)預(yù)訓(xùn)練任務(wù)：MLM（Mask Language Model）和SOP（Sentence Order Prediction）[18]。

MLM指的是對(duì)句子中的單詞隨機(jī)使用mask token（[MASK]），然后利用上下文的相關(guān)信息預(yù)測(cè)出[MASK]位置上原有的單詞。通過MLM可以更好地根據(jù)全文理解單詞的含義。SOP即句子順序預(yù)測(cè)，判斷兩句話是否存在順序關(guān)系或者是否為反序關(guān)系。SOP預(yù)測(cè)任務(wù)能夠讓模型學(xué)到更多的句子間語義關(guān)系信息。ALBERT模型結(jié)構(gòu)（包含MLM和SOP的預(yù)訓(xùn)練過程）如圖1所示。

其中，“脈略弦涉”“寸關(guān)略浮”表示訓(xùn)練的語料，Ei表示文本中第i個(gè)字符的原始向量，由字向量，文本向量和位置向量組成。Ti表示第i個(gè)字符由模型輸出的文本特征向量。

Transformer由Encoder和Decoder兩個(gè)部分組成[19]，由于ALBERT為生成語言模型[20]，所以其Transformer層主要使用Transformer結(jié)構(gòu)中的Encoder部分。其中，Encoder部分包含一個(gè)Multi-Head Attention，由多個(gè)Self-Attention組成，Add & Norm層中的Add為殘差連接（Residual Connection）可防止網(wǎng)絡(luò)退化，Norm表示Layer Normalization[21]，作用是對(duì)每一層的激活值進(jìn)行歸一化。

1.2? TextCNN卷積神經(jīng)網(wǎng)絡(luò)

TextCNN模型由Kim[22]提出，該模型利用多個(gè)不同大小的kernel來提取句子中的關(guān)鍵信息，從而更加高效地得到重要的文本特征向量表示。模型的構(gòu)成為輸入層、輸出層、以及多個(gè)隱藏層，隱藏層可為卷積層、池化層、ReLU層和全連接層。對(duì)于輸入的文本向量W = （w1， w2， …， wn），卷積層得到W中的每個(gè)詞的卷積結(jié)果Q：

其中xi：i+h-1表示輸入矩陣的第i行到第i+h-1行所組成的一個(gè)大小為h×k的窗口。h表示窗口中的單詞數(shù)，w表示h×k維的權(quán)重矩陣，b表示偏置參數(shù)，f表示非線性函數(shù)。

池化層中的操作可為最大池化操作和平均池化操作[23]，本文模型選取最大池化操作，因?yàn)槊恳粋€(gè)詞的作用并不是完全相同的，采用最大池化可選擇出文本中能起到關(guān)鍵作用的元素信息。篩選出的元素最大值：

之后將經(jīng)過池化的特征值Ci進(jìn)行拼接得到文本特征向量：

其中，C表示TextCNN訓(xùn)練得到的文本特征向量，i+h-1表示維度，n表示文本序列中字詞的總數(shù)。最后通過在下游任務(wù)中連接上全連接層來實(shí)現(xiàn)文本標(biāo)簽的預(yù)測(cè)。

1.3? 基于語義篩選的中醫(yī)文本分類模型

基于語義篩選的ALBERT-TextCNN中醫(yī)文本分類模型訓(xùn)練過程分為三個(gè)步驟。

第一步，將未標(biāo)記的多標(biāo)簽分類文本數(shù)據(jù)，利用中文版ALBERT模型進(jìn)行MLM和SOP預(yù)訓(xùn)練任務(wù)，得到適用于多標(biāo)簽分類任務(wù)領(lǐng)域的Curated-TAPA ALBERT（C-T ALBERT）模型。ALBERT模型的底層Transformer進(jìn)行文本表層信息特征表示，中間層Transformer生成文本句法信息特征，語義信息特征的表示在Transformer高層[24]。

第二步，將已標(biāo)記的文本輸入到C-T ALBERT模型之后，并非直接將池化層生成的文本特征向量作為TextCNN卷積神經(jīng)網(wǎng)絡(luò)的輸入，而是把底層、中間層、高層的Transformer語義編碼器生成的文本向量進(jìn)行組合，將不同組別的文本向量分別輸入到TextCNN模型中。

第三步，TextCNN模型進(jìn)一步提取不同組別文本向量的語義信息特征，從中選取最優(yōu)的動(dòng)態(tài)文本特征向量進(jìn)行多標(biāo)簽分類任務(wù)。為了防止模型過擬合，在標(biāo)簽預(yù)測(cè)的兩層全連接神經(jīng)網(wǎng)絡(luò)中，連接第一個(gè)全連接層，進(jìn)行一次dropout，保持向量維度不變，再輸入到第二個(gè)全連接層輸出每個(gè)類別標(biāo)簽的預(yù)測(cè)概率。

基于語義篩選的ALBERT-TextCNN的多標(biāo)簽文本分類模型框架如圖2所示。

1.4? 算法流程

直接使用預(yù)訓(xùn)練語言模型易造成提取的中醫(yī)文本語義信息不足的問題。為了提取文本向量更加豐富的語義信息特征，本文提出一種基于語義篩選ALBERT-TextCNN的中醫(yī)文本多標(biāo)簽分類模型，算法具體流程如下：

1）將未標(biāo)記文本Xi輸入到中文版ALBERT模型進(jìn)行MLM和SOP預(yù)訓(xùn)練任務(wù)：

2）標(biāo)注文本G輸入到Curated-TAPA ALBERT模型中，選取前四層，中間四層和后四層生成的文本向量與由池化層生成的文本向量。

3）對(duì)選取的不同層的文本向量進(jìn)行拼接。

4）TextCNN模型對(duì)輸入的文本向量分別進(jìn)行訓(xùn)練，采用最大池化操作篩選出元素的最大值：

5）獲取組合中經(jīng)過池化后效果最佳的文本高層特征向量：

6）接入第一個(gè)全連接層，執(zhí)行dropout操作，保持向量維度不變。

7）分類任務(wù)：接入第二個(gè)全連接層，利用sigmoid激活函數(shù)輸出文本標(biāo)簽的預(yù)測(cè)結(jié)果。

8）超參數(shù)優(yōu)化：TextCNN模型采用Adam優(yōu)化器，為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率，基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重。

9）多標(biāo)簽文本分類結(jié)果。

1.5? 損失函數(shù)選擇

分類任務(wù)中，Softmax函數(shù)先將模型全連接層輸出的類別標(biāo)簽向量轉(zhuǎn)換成一個(gè)概率分布，然后取概率值最大的作為樣本的唯一類別標(biāo)簽。但在多標(biāo)簽文本分類中，樣本實(shí)際的標(biāo)簽可能不止一個(gè)，因此實(shí)現(xiàn)中醫(yī)文本所屬類別的標(biāo)簽預(yù)測(cè)采用sigmoid交叉熵?fù)p失函數(shù)：

用于測(cè)量分類任務(wù)中的概率誤差，每個(gè)類是獨(dú)立的而不是互斥的，其中C表示類別數(shù)量，和? 均為一個(gè)向量，分別表示真實(shí)標(biāo)簽和未經(jīng)任何激活函數(shù)處理的網(wǎng)絡(luò)輸出值。

2? 實(shí)驗(yàn)結(jié)果與分析

2.1? 數(shù)據(jù)集

江西中醫(yī)藥大學(xué)岐黃國醫(yī)書院提供的真實(shí)電子病歷中提取的868條中醫(yī)哮喘病機(jī)數(shù)據(jù)集，每一條數(shù)據(jù)樣本經(jīng)過人工標(biāo)注了帶有多個(gè)病機(jī)主題的類別標(biāo)簽。數(shù)據(jù)包含中醫(yī)哮喘癥狀信息（脈診、舌診、望診、聞診等）描述文本和該文本對(duì)應(yīng)的多個(gè)病機(jī)類別，數(shù)據(jù)格式如表1所示。數(shù)據(jù)集中包含25個(gè)類別標(biāo)簽，對(duì)每類標(biāo)簽的數(shù)量占比進(jìn)行統(tǒng)計(jì)，具體內(nèi)容如表2所示。

2.2? 評(píng)價(jià)指標(biāo)

在對(duì)分類器進(jìn)行性能衡量時(shí)，傳統(tǒng)的評(píng)價(jià)指標(biāo)在多標(biāo)簽分類任務(wù)中并不適用。因此，為了對(duì)模型性能進(jìn)行更加合理的評(píng)估應(yīng)選用專門針對(duì)多標(biāo)簽分類問題的評(píng)價(jià)指標(biāo)。

在分類問題中，常用的評(píng)價(jià)指標(biāo)有精確率（Precision）、召回率（Recall）和F1（F1-Measure）值。在多標(biāo)簽分類場(chǎng)景下，預(yù)測(cè)結(jié)果可為單獨(dú)一個(gè)類別，也存在多個(gè)類別同時(shí)存在的情況，因此選取了適用于多標(biāo)簽分類任務(wù)的Micro-precision（M-p）、Micro-recall（M-r）和Micro-F1（M-F1）計(jì)算方法。

2.3? 實(shí)驗(yàn)設(shè)置

本研究采用網(wǎng)絡(luò)平臺(tái)OpenBayes云服務(wù)器，選用NVIDIA GeForce RTX 2080 （8 GiB），20GiB RAM；軟件環(huán)境為PyCharm 11.0.7、Anaconda 5.3.0，采用TensorFlow深度學(xué)習(xí)框架，在Windows 10（64位）操作系統(tǒng)下完成。

2.4? 對(duì)比算法

為了驗(yàn)證語義篩選ALBERT-TextCNN模型能夠提升在多標(biāo)簽任務(wù)場(chǎng)景下對(duì)中醫(yī)文本的分類性能，在實(shí)驗(yàn)中，本文設(shè)計(jì)BERT、ALBERT、ALBERT-Denses三個(gè)模型作為對(duì)比實(shí)驗(yàn)，每組對(duì)比實(shí)驗(yàn)的參數(shù)設(shè)置如下：

1）BERT：利用BERT預(yù)訓(xùn)練模型提取詞向量，并與下游任務(wù)融合進(jìn)行多標(biāo)簽分類[25]，參數(shù)設(shè)定參照本文ALBERT模型。

2）ALBERT：使用文獻(xiàn)[18]所提到的ALBERT預(yù)訓(xùn)練語言模型進(jìn)行詞向量提取，利用一個(gè)神經(jīng)元，實(shí)現(xiàn)文本多標(biāo)簽分類。

3）ALBERT-Denses：采用ALBERT預(yù)訓(xùn)練語言模型進(jìn)行詞向量提取，基于問題轉(zhuǎn)換的思想，將多標(biāo)簽分類問題轉(zhuǎn)換為多個(gè)二分類問題[26]，進(jìn)行單標(biāo)簽的二元分類預(yù)測(cè)。

2.5? 參數(shù)選擇

本文模型參數(shù)主要是ALBERT模型和TextCNN模型的參數(shù)。具體參數(shù)內(nèi)容如表3和表4所示。

表3中hidden_act為隱藏層激活函數(shù)，hidden_size為隱藏層神經(jīng)元數(shù)，intermediate_size為encoder層的“中間”隱層神經(jīng)元數(shù)，embedding_size為詞向量維度，vocal_size為詞表大小。表4中，num_filters為過濾器輸出的特征向量維數(shù)，filter_sizes為過濾器大小，dropout_rate為實(shí)行drop策略的比例。

2.6? Curated-TAPA實(shí)驗(yàn)結(jié)果與討論分析

為了驗(yàn)證本文方法的有效性，先進(jìn)行使用了Curated-TAPA的模型效果對(duì)比，在此基礎(chǔ)上，再進(jìn)行選取不同語義層生成的動(dòng)態(tài)詞向量輸入到TextCNN模型的效果對(duì)比。

首先使用Curated-TAPA策略，表5給出了經(jīng)過Curated-TAPA之后的ALBERT-TextCNN（A-TextCNN）模型，原始的A-TextCNN模型以及其他三種模型的F1-score。由表5可知，Curated-TAPA-ALBERT-TextCNN（C-T-A-T）的效果優(yōu)于其他模型，對(duì)比未使用Curated-TAPA的A-TextCNN模型，C-T-A-T的F1-score提升了3.74%，與ALBERT-Denses（A-Denses），BERT和ALBERT相比，C-T-A-T也具有最好的分類性能。尤其是對(duì)于BERT模型，C-T-A-T的F1-score提高了6.59%。證明了本文所采用的Curated-TAPA策略的有效性。

2.7? 語義篩選實(shí)驗(yàn)結(jié)果與討論分析

采用Curated-TAPA策略之后，選取ALBERT模型的不同語義層所提取的詞向量輸入到TextCNN模型中，本文對(duì)語義層的前四層（First4），中間四層（Middle4），最后四層（Last4）與原始池化層（Pool）生成的文本向量拼接組合進(jìn)行模型效果的對(duì)比。表6為C-T-A-T選取不同語義層的模型效果對(duì)比。通過表6可知選取不同語義層的效果不一，而且出現(xiàn)了選取中間四層加上池化層的F1-score沒有提升反而有較大下降，由于中間層所提取的文本向量主要包括句法信息特征，而TextCNN對(duì)文本淺層特征抽取能力較強(qiáng)，所以造成只使用中間層的效果較差。實(shí)驗(yàn)表明，使用不同語義層提取的動(dòng)態(tài)文本向量的效果會(huì)有不同，該模型選取最后四層加上池化層的效果最佳，證明了本文方法的有效性。

3? 結(jié)? 論

針對(duì)傳統(tǒng)多標(biāo)簽分類模型原始層提取的文本語義信息不夠完整等問題，本文提出了一種基于語義篩選的ALBERT-TextCNN多標(biāo)簽文本分類方法。首先，ALBERT模型進(jìn)行Curated-TAPA，之后利用該模型對(duì)標(biāo)注的中醫(yī)文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)的特征向量表示，基于語義篩選選取最佳語義層所生成的文本向量輸出到TextCNN模型作為其輸入，提取文本向量的語義信息特征，最后進(jìn)行分類任務(wù)。實(shí)驗(yàn)結(jié)果表明，本文方法在各項(xiàng)評(píng)價(jià)指標(biāo)中均具有良好的表現(xiàn)，能夠提高模型在中醫(yī)文本上的分類性能。本文方法利用了證候病機(jī)標(biāo)簽的數(shù)據(jù)集，未對(duì)當(dāng)前文本中多個(gè)標(biāo)簽之間的關(guān)系進(jìn)行分析，在下一步工作中將挖掘數(shù)據(jù)集中標(biāo)簽更深層次的信息，考慮標(biāo)簽之間的關(guān)聯(lián)性，使其更加適用于實(shí)際的中醫(yī)文本分類工作。

參考文獻(xiàn)：

[1] ZHANG Z L，LI J H，ZHENG W T，et al. Research on Diagnosis Prediction of Traditional Chinese Medicine Diseases Based on Improved Bayesian Combination Model [J].Evidence-based Complementary and Alternative Medicine，2021，2021（12）：1-9.

[2] 徐傳杰.基于BERT模型的中醫(yī)疾病輔助診斷和處方推薦方法研究 [D].濟(jì)南：山東師范大學(xué)，2022.

[3] 杜琳，曹東，林樹元，等.基于BERT與Bi-LSTM融合注意力機(jī)制的中醫(yī)病歷文本的提取與自動(dòng)分類 [J].計(jì)算機(jī)科學(xué)，2020，47（S2）：416-420.

[4] 陳廣.基于關(guān)鍵語義信息的中醫(yī)腎病病情文本分類問題研究 [D].杭州：浙江大學(xué)，2019.

[5] LIU W W，SHEN X B，WANG H B，et al. The Emerging Trends of Multi-Label Learning [J/OL].arXiv： 2011.11197 [cs.LG].（2020-11-23）.https：//arxiv.org/abs/2011.11197.

[6] GUO L，JIN B，YU R Y，et al. Multi-label Classification Methods for Green Computing and Application for Mobile Medical Recommendations [J].IEEE ACCESS，2016，4：3201-3209.

[7] NIKLAUS J，CHALKIDIS I，ST?RMER M. Swiss-Judgment-Prediction： A Multilingual Legal Judgment Prediction Benchmark [J/OL].arXiv： 2110.00806 [cs.CL].（2021-10-02）.https：//arxiv.org/abs/2110.00806.

[8] JAIN P K，PAMULA R，YEKUN E A. A Multi-label Ensemble Predicting Model to Service Recommendation from Social Media Contents [J].The Journal of Supercomputing，2022，78（4）：5203-5220.

[9] 郝超，裘杭萍，孫毅，等.多標(biāo)簽文本分類研究進(jìn)展 [J].計(jì)算機(jī)工程與應(yīng)用，2021，57（10）：48-56.

[10] ZHANG M L，ZHOU Z H. A Review on Multi-Label Learning Algorithms [J].IEEE Transactions on Knowledge and Data Engineering，2014，26（8）：1819-1837.

[11] 武紅鑫，韓萌，陳志強(qiáng)，等.監(jiān)督和半監(jiān)督學(xué)習(xí)下的多標(biāo)簽分類綜述 [J].計(jì)算機(jī)科學(xué)，2022，49（8）：12-25.

[12] GUO J，YUAN X，ZHENG X，et al. Diagnosis Labeling with Disease-specific Characteristics Mining [J].Artificial Intelligence in Medicine，2018，90：25-33.

[13] BAKER S，KORHONEN A. Initializing Neural Networks for Hierarchical Multi-label Text Classification [C]//BioNLP 2017.Vancouver：ACL，2017：307–315.

[14] 王進(jìn)，徐巍，丁一，等.基于圖嵌入和區(qū)域注意力的多標(biāo)簽文本分類 [J].江蘇大學(xué)學(xué)報(bào)：自然科學(xué)版，2022，43（3）：310-318.

[15] NAM J，MENC?A E L，KIM H J，et al. Maximizing Subset Accuracy with Recurrent Neural Networks in Multi-label Classification [C]//NIPS'17： Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach：Curran Associates Inc，2017：5419-5429.

[16] GURURANGAN S，MARASOVI? A，SWAYAMDIPTA S，et al. Don't Stop Pretraining： Adapt Language Models to Domains and Tasks [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics（ACL 2020）.Seattle：ACL，2020：8342-8360.

[17] DEVLIN J，CHANG M-W，LEE K，et al. BERT： Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv： 1810.04805 [cs.CL].（2018-10-11）.https：//arxiv.org/abs/1810.04805v2.

[18] LAN Z Z，CHEN M D，GOODMAN S，et al. ALBERT： A Lite BERT for Self-supervised Learning of Language Representations [J/OL].arXiv： 1909.11942 [cs.CL].（2019-09-26）.https：//arxiv.org/abs/1909.11942.

[19] VASWANI A，SHAZEER N，PARMAR N，et al. Attention is All You Need [J/OL].arXiv： 1706.03762 [cs.CL].（2017-06-12）.https：//arxiv.org/abs/1706.03762.

[20] QIAO B，ZOU Z Y，HUANG Y，et al. A Joint Model for entity and Relation Extraction Based on BERT [J].Neural Computing and Applications，2022，34（5）：3471-3481.

[21] JANG D K，PARK S，LEE S H. Motion Puzzle： Arbitrary Motion Style Transfer by Body Part [J/OL].arXiv： 2202.05274 [cs.GR].（2022-02-10）.https：//arxiv.org/abs/2202.05274v2.

[22] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv： 1408.5882 [cs.CL].（2014-08-25）.https：//arxiv.org/abs/1408.5882v2.

[23] 楊林，黃曉碩，王嘉陽，等.基于BERT-TextCNN的臨床試驗(yàn)疾病亞型識(shí)別研究 [J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2022，6（4）：69-81.

[24] JAWAHAR G，SAGOT B，SEDDAH D. What Does BERT Learn about the Structure of Language？ [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence：ACL，2019：3651-3657.

[25] 王淳睿，何先波，易洋.基于BERT模型的指令集多標(biāo)簽分類研究 [J].智能計(jì)算機(jī)與應(yīng)用，2022，12（10）：75-78+85.

[26] 周慧穎，汪廷華，張代俐.多標(biāo)簽特征選擇研究進(jìn)展 [J].計(jì)算機(jī)工程與應(yīng)用，2022，58（15）：52-67.

作者簡(jiǎn)介：劉勇（1997—），男，漢族，江西撫州人，碩士研究生在讀，研究方向：自然語言處理；通訊作者：杜建強(qiáng)（1968—），男，漢族，江西南昌人，教授，博士，研究方向：中醫(yī)藥信息學(xué)、數(shù)據(jù)挖掘；羅計(jì)根（1991—），男，漢族，江西萍鄉(xiāng)人，講師，碩士，研究方向：自然語言處理；李清（1982—），女，漢族，江西撫州人，講師，博士，研究方向：中醫(yī)辨證規(guī)律；于夢(mèng)波（1998—），男，漢族，河南周口人，碩士研究生在讀，研究方向：自然語言處理；鄭奇民（1998—），男，漢族，山西運(yùn)城人，碩士研究生在讀，研究方向：自然語言處理。

收稿日期：2023-03-09

基金項(xiàng)目：國家自然科學(xué)基金（82260988）；江西省自然科學(xué)基金（20202BAB202019）；江西中醫(yī)藥大學(xué)校級(jí)科技創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃（CXTD22015）；江西省研究生創(chuàng)新專項(xiàng)資金項(xiàng)目（YC2021-S499）

現(xiàn)代信息科技2023年19期

現(xiàn)代信息科技的其它文章: 基于UE與數(shù)字孿生的智慧建造管控平臺(tái)設(shè)計(jì)與實(shí)現(xiàn); 黃河兩岸深基坑安全監(jiān)測(cè)技術(shù)分析; 基于深度學(xué)習(xí)的側(cè)信道攻擊：進(jìn)展與問題; 智能感知視頻云在新型智慧城市中的應(yīng)用研究; 基于深度學(xué)習(xí)的鋼表面缺陷檢測(cè)方法綜述; 基于DBSCAN算法的出租車載客熱點(diǎn)分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語義篩選的ALBERT-TextCNN中醫(yī)文本多標(biāo)簽分類研究