面向中醫(yī)藥領(lǐng)域的文本情感分析及研究

2019-01-08 03:16:09劉偉黃陽姚家琦

電腦知識與技術(shù) 2019年33期

劉偉黃陽姚家琦

摘要：該文統(tǒng)計(jì)分析人們每年對中醫(yī)藥文化的認(rèn)可度、喜好程度的情感傾向。為中醫(yī)藥學(xué)者提供數(shù)據(jù)參考，分析現(xiàn)狀，反思?xì)v史，明確目標(biāo)以迎接中醫(yī)藥的美好未來。方法：（1）基于爬蟲技術(shù)，獲取微博用戶2015-2019年對中醫(yī)藥的評價(jià)，并進(jìn)行數(shù)據(jù)收錄和相關(guān)整理，對不規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一編碼和刪除等，使用Jieba分詞輔助數(shù)據(jù)預(yù)處理。（2）獲取現(xiàn)有經(jīng)典情感詞庫如HowNet等等，基于TF-IDF

計(jì)方法、Word2vec等方法擴(kuò)增詞向量，構(gòu)建中醫(yī)藥領(lǐng)域情感分析詞典。（3）采用情感極性詞典分類算法、Naive Ba-ces分類算法以及CNN模型分類算法對獲取的文本數(shù)據(jù)進(jìn)行分類處理。結(jié)論：2015-2019年認(rèn)同中醫(yī)藥文化的比率分別為：94.5%，95.0%，88.4%，95.4%，90.9%，可用NPL分析中醫(yī)藥認(rèn)同度狀況。

關(guān)鍵詞：中醫(yī)藥;情感分析;微博;自然語言處理

中圖分類號：TP3 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2019）33-0174-03

1概述

中醫(yī)藥文化博大精深，是我國傳承了幾千年的國粹瑰寶，中醫(yī)對中國人民的健康，甚至是人類的健康都有重大的貢獻(xiàn)。中醫(yī)它的治病方式和其良好的治療效果，廣泛傳播、應(yīng)用于世界各地。但因西醫(yī)技術(shù)的引入、外來文化的沖擊，其影響能力和醫(yī)學(xué)價(jià)值受到了挑戰(zhàn)。本文針對問卷調(diào)查人們對中醫(yī)藥的接受程度，前期工作費(fèi)時(shí)費(fèi)力的問題，采用自然處理技術(shù)對網(wǎng)上文本進(jìn)行情感分析，可以直接獲取評論者對中醫(yī)認(rèn)同度的情感傾向，直觀快速反映出人們的態(tài)度。

2數(shù)據(jù)分析

隨著信息時(shí)代的進(jìn)步與發(fā)展，人們在網(wǎng)絡(luò)上陳述自己觀點(diǎn)和情感的比例逐漸上升，使用微博的用戶規(guī)模猛增、月活躍數(shù)早已突破4億人次，微博已成為表達(dá)個(gè)人情感和觀點(diǎn)的重要媒體。結(jié)合微博短文本、數(shù)據(jù)易獲取、實(shí)時(shí)陸、信息來源多樣性等特點(diǎn)，人們的觀點(diǎn)可以一目了然具有代表性。因此以微博的評論對中醫(yī)藥進(jìn)行情感喜好的分類研究十分有意義。

2.1數(shù)據(jù)來源

本文利用python及爬蟲技術(shù)爬取新浪微博的數(shù)據(jù)，通過設(shè)置“中醫(yī)”“態(tài)度”“觀點(diǎn)”等關(guān)鍵詞獲取網(wǎng)民2015年1月-2019年5月間發(fā)表的動(dòng)態(tài)、文章、評論等內(nèi)容。

從微博獲取的原數(shù)據(jù)共932774條，其中2015年60586條，2016年53920條，2017年54183條，2018年44513條、2019年719572條。由于互聯(lián)網(wǎng)文本數(shù)據(jù)中包含了大量噪聲，此類噪聲會影響文本正確分類結(jié)果，因此對數(shù)據(jù)預(yù)處理文本后的數(shù)據(jù)有873337條，其中2015年47335條，2016年45353條，2017年47865條，2018年41149條、2019年691635條。

結(jié)合Qiu等設(shè)計(jì)隋感詞庫：HowNet情感分析用詞集（beta版）、臺灣大學(xué)NTUSD簡體中文情感詞典以及網(wǎng)上大量的情感詞。通過人工刪除不符合本領(lǐng)域的情感詞。結(jié)合TF-IDF得出本領(lǐng)域較高頻次的詞但在詞典中得詞，利用Word2vec算法根據(jù)分完類的詞典求得本領(lǐng)域中的相似詞，挑選在領(lǐng)域中有意義的情感詞進(jìn)行情感詞擴(kuò)增。最終得到積極詞匯3960個(gè)，消極詞匯4046個(gè)，否定詞268個(gè)，程度副詞212個(gè)、轉(zhuǎn)折詞13個(gè)。

2.2數(shù)據(jù)預(yù)處理

本文規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)如下：

（1）刪除微商賣中醫(yī)藥廣告信息、中醫(yī)藥用法介紹等客觀或無關(guān)的數(shù)據(jù);

（2）刪除同一人發(fā)布多條相同內(nèi)容的數(shù)據(jù)，僅保留一條;

（3）刪除文本字符過長的信息;

（4）刪除格式錯(cuò)誤的信息。

去除文本中噪聲方式如下：

（1）刪除文本中經(jīng)過轉(zhuǎn)換編碼仍不能識別的字符（格式：＼uOOx）、回復(fù)消息（格式：//@某人：）、超鏈接URL（格式：“http：//t.ahjkl823”）、特殊表情和網(wǎng)頁標(biāo)簽等;

（2）采用Jieba分詞技術(shù)，自定義停用詞、詞庫，對于中醫(yī)藥領(lǐng)域需要的單詞，增加本領(lǐng)域詞如“中醫(yī)黑”，刪除詞性標(biāo)注中不能識別或不能使用的詞。

分詞及詞性標(biāo)注見表1，自定義詞庫及停用詞分詞結(jié)果展示見表2。

2.3數(shù)據(jù)分類統(tǒng)計(jì)

本文的訓(xùn)練數(shù)據(jù)由一人評判兩人審核的方法評判了認(rèn)同、反對中醫(yī)藥傾向的數(shù)據(jù)各1500條，保證訓(xùn)練與測試數(shù)據(jù)的準(zhǔn)確性。中醫(yī)藥有關(guān)文本分類劃分原則如下：

（1）采用二分劃分，分為認(rèn)同中醫(yī)藥傾向和不認(rèn)同中醫(yī)藥傾向兩種態(tài)度;（2）選取文本中含有明顯有關(guān)中醫(yī)藥感情詞劃分為對中醫(yī)藥的認(rèn)同度傾向;（3）對無感情詞但采用中醫(yī)藥治病或-轉(zhuǎn)發(fā)中醫(yī)藥的相關(guān)文章劃分認(rèn)同等級;（4）舉行中醫(yī)藥活動(dòng)達(dá)到宣傳作用劃分為認(rèn)同傾向。

本文對二類劃分采用準(zhǔn)確率、F1-score作為評價(jià)標(biāo)準(zhǔn)。計(jì)算公式如下所示：

其中TP為支持中醫(yī)藥，被正確劃分的文本;FP為支持中醫(yī)藥，被錯(cuò)誤劃分的文本;FN為反對中醫(yī)藥，被正確劃分的文本;TN為反對中醫(yī)要，被錯(cuò)誤劃分的文本。

3算法應(yīng)用研究

3.1基于情感強(qiáng)度的詞典分類

基于詞典的方式本文采用的是基于句子級別的分析。根據(jù)中文的語法格式，提取本文的需要的句子語法格式是由積極、消極情感詞、否定詞及程度副詞等3種詞組成，并分別給三種詞匯設(shè)置不同的情感強(qiáng)度判定認(rèn)可程度。此外句子中還包含連詞以及轉(zhuǎn)折詞，對于連詞的形式分?jǐn)?shù)累乘，當(dāng)出現(xiàn)轉(zhuǎn)折詞時(shí)，轉(zhuǎn)折詞前面分值計(jì)算方式不變，轉(zhuǎn)折詞后面情感分值加倍。句式劃分見表3。

圖1為基于詞典算法流程及流程圖的簡單介紹：

（1）輸入待分類的文本、載人各訶陸的詞典。

（2）對載人的文本分詞、停用詞及詞性標(biāo)注，刪除冗余數(shù)據(jù)。

（3）修改的文本進(jìn)行向量化詞組。

（4）用逆序組合文本方式，逐詞判別詞語詞性，符合句式計(jì)算其得分，反之繼續(xù)掃描。

（5）掃描到第一個(gè)詞向量時(shí)結(jié)束掃描，計(jì)算所有句式總分，由分值區(qū)間確定最終分類。

在基于詞典分類方式中，采用句子級別的分類中，經(jīng)過數(shù)據(jù)清洗的準(zhǔn)確率是0.593，除O分準(zhǔn)確率為0.599;增加詞典和詞向量后的準(zhǔn)確率是0.612，除0分后準(zhǔn)確率為0.622。

3.2基于樸素貝葉斯分類

首先塊結(jié)合TF-IDF進(jìn)行特征詞向量的提取，對于出現(xiàn)次數(shù)極少詞匯進(jìn)行過濾剔除，避免占用存儲空間出現(xiàn)矩陣稀疏以及詞的向量過多產(chǎn)生維度災(zāi)難等等問題。其次將標(biāo)注好的數(shù)據(jù)進(jìn)行隨機(jī)選取訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)，并應(yīng)用到自己的算法中，對數(shù)據(jù)進(jìn)行預(yù)測。

樸素貝葉斯算法步驟具體實(shí)現(xiàn)流程及流程圖見圖2：

（1）輸入所有訓(xùn)練文本數(shù)據(jù)，對出現(xiàn)的詞匯進(jìn)行統(tǒng)計(jì)。

（2）刪除經(jīng)常出現(xiàn)的無關(guān)詞匯，以及次數(shù)小于10次的詞匯。

（3）求解每個(gè)類別中各詞匯出現(xiàn)的頻率，計(jì)算條件概率。

（4）判斷測試文本中每個(gè)特征詞在兩個(gè)分類中的概率。

（5）對于每個(gè)文本取較大概率的分類為該文本的分類結(jié)果。

樸素貝葉斯分類結(jié)果為：經(jīng)過數(shù)據(jù)清洗的F1-Score是0.457，準(zhǔn)確率為0.470;增加詞典和詞向量后的F1-Score是0.530，準(zhǔn)確率為0.625。

3.3基于卷積神經(jīng)網(wǎng)絡(luò)分類

本文開發(fā)環(huán)境是基于Theano和keras深度學(xué)習(xí)庫。結(jié)合CNNt61及word2vec提取特征向量。設(shè)計(jì)了多組參數(shù)進(jìn)行實(shí)驗(yàn)尋找最合適的參數(shù)，見表4部分參數(shù)的實(shí)驗(yàn)結(jié)果。

采用ReLu函數(shù)、10折交叉檢驗(yàn)，第13組參數(shù)最優(yōu)，準(zhǔn)確率：0.808，F(xiàn)1-Score.-0.762。

4結(jié)束語

實(shí)驗(yàn)結(jié)果表明上述三種計(jì)算文本分類的方式中，CNN算法的準(zhǔn)確率明顯要高于其他兩種算法，故本文最終采用CNN模型對中醫(yī)藥領(lǐng)域的評論數(shù)據(jù)觀點(diǎn)進(jìn)行分析。分類2015年到2019年度中醫(yī)藥評論的數(shù)據(jù)，得到各年度中醫(yī)藥的認(rèn)可率見表5所示。

由表5可知，支持中醫(yī)藥的人數(shù)遠(yuǎn)高于不支持中醫(yī)藥的人數(shù)。人們對中醫(yī)認(rèn)可度仍然是很高的，但也有小部分人對中醫(yī)抱有抵制態(tài)度。對比近五年人們對中醫(yī)的認(rèn)可度人數(shù)占比較為穩(wěn)定，唯有2017年為88.4%，分析當(dāng)年有關(guān)中醫(yī)藥事件，發(fā)現(xiàn)17年某中醫(yī)院發(fā)生重大醫(yī)療事故，影響了中醫(yī)的發(fā)展，同年中央發(fā)布了一系列宣傳發(fā)揚(yáng)中醫(yī)的文件，及時(shí)阻止了這次中醫(yī)事態(tài)的余波，并且次年認(rèn)同率達(dá)到了近五年巔峰。因此國家適當(dāng)?shù)恼{(diào)控中醫(yī)藥的宣傳建設(shè)，有助于中醫(yī)藥的發(fā)展。

在詞典和樸素貝葉斯分類方式中采用了領(lǐng)域內(nèi)的自定義詞典后的數(shù)據(jù)準(zhǔn)確率明顯提升。說明詞典、特征提取高質(zhì)量的重要性。后期將完善全面覆蓋本領(lǐng)域的詞典，增加人工評判的數(shù)據(jù)。其中總樸素貝葉斯算法分類過程中時(shí)空開銷小，算法運(yùn)算速度快，能夠快速地獲取數(shù)據(jù)的分類結(jié)果，可以實(shí)時(shí)判斷每條數(shù)據(jù)的情感傾向。詞典分類算法結(jié)合了情感詞的極性、詞間的詞性關(guān)系，但更加人性化，但是句子級別的分類方式忽略主從句式的關(guān)系，可以采用基于上下文語句的方式進(jìn)行分析。CNN的Embedding為靜態(tài)形式，容易混淆積極、消極詞識別，但識別效果較高，后續(xù)可采用動(dòng)態(tài)形式。最后希望我國繼續(xù)弘揚(yáng)中醫(yī)國粹，傳播中醫(yī)文化。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向中醫(yī)藥領(lǐng)域的文本情感分析及研究