国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT模型的中醫(yī)文本分類研究

2021-11-08 13:26:59王培王亞文盧苗苗
電腦知識與技術(shù) 2021年27期
關(guān)鍵詞:文本分類注意力機制深度學習

王培 王亞文 盧苗苗

摘要:文本分類是自然語言領(lǐng)域一個重要的研究方向和技術(shù)核心,一直受到研究者的熱切關(guān)注。在醫(yī)學領(lǐng)域,中醫(yī)源遠流長,在人類歷史發(fā)展中發(fā)揮著不可磨滅的作用。中醫(yī)語言包含了大量中醫(yī)領(lǐng)域術(shù)語,且多為表述嚴謹和富含辯證思維的古文,上下文詞語關(guān)聯(lián)性較強,且大多是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的形式,這些特點給中醫(yī)病案的智能分析分類造成了很大地困難。該文基于注意力機制的深度學習模型Bert模型實現(xiàn)中醫(yī)深層全局語義的特征表示,并進行中醫(yī)臨床文本的分類研究。最后通過對中醫(yī)臨床文本分類實驗的驗證,該模型達到了非常可觀的分類效果。

關(guān)鍵詞:文本分類;深度學習;中醫(yī)文本;注意力機制

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)27-0013-02

Abstract: Text classification is an important research direction and technical core in the field of natural language, and it has always received eager attention from researchers. In the field of medicine, Chinese medicine has a long history and has played an indelible role in the development of human history. The language of Chinese medicine contains a large number of terms in the field of Chinese medicine, and most of them are ancient texts with rigorous expressions and rich dialectical thinking. The contextual words are strongly related, and most of them are in the form of structured, semi-structured or unstructured data. These characteristics give Chinese medicine The intelligent analysis and classification of medical records caused great difficulties. In this paper, the Bert model, a deep learning model based on the attention mechanism, realizes the feature representation of the deep global semantics of TCM, and conducts the classification research of TCM clinical text. Finally, through the verification of the TCM clinical text classification experiment, the model achieved a very considerable classification effect.

Key words: text categorization; deep learning; TCM text; attention mechanism

1 引言

文本分類是按照一定的分類規(guī)則對文本進行自動劃分類別的過程,在很多領(lǐng)域它都有著非常廣泛的應用場景[1]。文本分類分為基于傳統(tǒng)機器學習的文本分類和基于深度學習的文本分類。文本分類的核心是文本的處理分類,它有著非常廣的應用前景。

在中醫(yī)領(lǐng)域?qū)τ谖谋痉诸惣夹g(shù)的使用和探索從未停止,常被用于中醫(yī)藥文本分類、中醫(yī)方劑相似度計算等多項任務之中。中醫(yī)是以古時候的“天人合一”為指導思想,以陰陽五行理論為工具,研究人體生命變化規(guī)律的一門學問[2]。中醫(yī)臨床文本承載了名老中醫(yī)的臨床經(jīng)驗,也是為病人臨床決策的重要依據(jù)。中醫(yī)臨床文本的正確分類對于中醫(yī)的蓬勃發(fā)展有著重要的意義。本文使用Bert模型對中醫(yī)臨床文本進行文本分類研究,該模型的向量表示會隨著上下文的不同而變動,解決了傳統(tǒng)詞向量無法處理的一詞多義的問題。通過Bert預訓練模型可以生成融合中醫(yī)深層全局語義的特征表示,并且進行中醫(yī)臨床文本的分類工作,最后輸出分類的結(jié)果。

2相關(guān)研究

文本分類屬于人工智能技術(shù)領(lǐng)域,是自然處理領(lǐng)域一個重要的應用,也是文本處理中一個很重要的模塊。文本分類算法的研究就從未停止,在中醫(yī)領(lǐng)域的研究者也進行了深入的研究。

顧錚等人[3]將文本分類相關(guān)技術(shù)運用到中醫(yī)方劑相似度的計算上,為中醫(yī)藥研究開辟了新的發(fā)展道路。王華珍等人[4]使用傳統(tǒng)分類算法針對數(shù)據(jù)庫中疾病和癥狀的相關(guān)知識進行文本挖掘研究,并在此基礎(chǔ)上構(gòu)建智能診療模型用于智能證型的分類,該模型為中醫(yī)輔助診療決策提供了支持。付釗等人[5]研究了基于語義分塊的中醫(yī)病情分類問題,實現(xiàn)基于TF-IDF特征的隨機森林病情分類模型和SVM病情分類模型。陳廣等人[6]研究基于關(guān)鍵語義信息的中醫(yī)腎病病情文本分類問題,使用N-Grams片段的信息熵和關(guān)鍵詞提取算法以及文本關(guān)鍵語義信息提取方法應用到中醫(yī)腎病病情文本分類上。

3 研究方法

語言模型的研究經(jīng)歷了one-hot、Word2vec、ELMO、GPT再到Bert模型。Word2vec模型訓練出來的詞向量屬于靜態(tài)的詞向量,無法表示一詞多義。GPT屬于單向語言模型,無法獲取一個字或者詞的上下文。ELMO為一詞多義提供了一個很好的解決方案,會考慮更多的文本信息,基于給定的上下文動態(tài)的生成每個詞的嵌入。Bert模型是綜合ELMO和GPT兩者的優(yōu)勢,是一個多層雙向Transformer編碼器語言模型,Transformer可以并行訓練所有的字,不僅計算效率很快,而且通過位置嵌入,模型的語言順序的理解能力也比較好。BERT模型具有很多特點:真正的雙向、解決一詞多義、并行運算、泛化能力強等。Bert是一個兩階段模型:第一階段雙向語言模型預訓練,預訓練過程中,可以學習到每個詞對應的上下文信息。第二階段針對具體的任務進行fine-tine模型,使其學到新特征,因此可以在具體任務上打造一個比較好的效果。

猜你喜歡
文本分類注意力機制深度學習
基于深度學習的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
基于蟻群智能算法的研究文本分類
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
育儿| 嵊州市| 磐安县| 襄樊市| 龙岩市| 漳浦县| 巴林右旗| 高雄市| 临澧县| 苏州市| 北流市| 临安市| 菏泽市| 中卫市| 安陆市| 耒阳市| 仁布县| 吉木萨尔县| 眉山市| 灵台县| 南投市| 伊吾县| 大渡口区| 南京市| 临汾市| 忻州市| 喀喇沁旗| 日喀则市| 青岛市| 武邑县| 宁明县| 道真| 淮阳县| 永年县| 武功县| 镶黄旗| 石台县| 兰西县| 伊金霍洛旗| 汽车| 梅河口市|