劉偉 黃陽 姚家琦
摘要:該文統(tǒng)計(jì)分析人們每年對中醫(yī)藥文化的認(rèn)可度、喜好程度的情感傾向。為中醫(yī)藥學(xué)者提供數(shù)據(jù)參考,分析現(xiàn)狀,反思?xì)v史,明確目標(biāo)以迎接中醫(yī)藥的美好未來。方法:(1)基于爬蟲技術(shù),獲取微博用戶2015-2019年對中醫(yī)藥的評價(jià),并進(jìn)行數(shù)據(jù)收錄和相關(guān)整理,對不規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一編碼和刪除等,使用Jieba分詞輔助數(shù)據(jù)預(yù)處理。(2)獲取現(xiàn)有經(jīng)典情感詞庫如HowNet等等,基于TF-IDF
計(jì)方法、Word2vec等方法擴(kuò)增詞向量,構(gòu)建中醫(yī)藥領(lǐng)域情感分析詞典。(3)采用情感極性詞典分類算法、Naive Ba-ces分類算法以及CNN模型分類算法對獲取的文本數(shù)據(jù)進(jìn)行分類處理。結(jié)論:2015-2019年認(rèn)同中醫(yī)藥文化的比率分別為:94.5%,95.0%,88.4%,95.4%,90.9%,可用NPL分析中醫(yī)藥認(rèn)同度狀況。
關(guān)鍵詞:中醫(yī)藥;情感分析;微博;自然語言處理
中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)33-0174-03
1概述
中醫(yī)藥文化博大精深,是我國傳承了幾千年的國粹瑰寶,中醫(yī)對中國人民的健康,甚至是人類的健康都有重大的貢獻(xiàn)。中醫(yī)它的治病方式和其良好的治療效果,廣泛傳播、應(yīng)用于世界各地。但因西醫(yī)技術(shù)的引入、外來文化的沖擊,其影響能力和醫(yī)學(xué)價(jià)值受到了挑戰(zhàn)。本文針對問卷調(diào)查人們對中醫(yī)藥的接受程度,前期工作費(fèi)時(shí)費(fèi)力的問題,采用自然處理技術(shù)對網(wǎng)上文本進(jìn)行情感分析,可以直接獲取評論者對中醫(yī)認(rèn)同度的情感傾向,直觀快速反映出人們的態(tài)度。
2數(shù)據(jù)分析
隨著信息時(shí)代的進(jìn)步與發(fā)展,人們在網(wǎng)絡(luò)上陳述自己觀點(diǎn)和情感的比例逐漸上升,使用微博的用戶規(guī)模猛增、月活躍數(shù)早已突破4億人次,微博已成為表達(dá)個(gè)人情感和觀點(diǎn)的重要媒體。結(jié)合微博短文本、數(shù)據(jù)易獲取、實(shí)時(shí)陸、信息來源多樣性等特點(diǎn),人們的觀點(diǎn)可以一目了然具有代表性。因此以微博的評論對中醫(yī)藥進(jìn)行情感喜好的分類研究十分有意義。
2.1數(shù)據(jù)來源
本文利用python及爬蟲技術(shù)爬取新浪微博的數(shù)據(jù),通過設(shè)置“中醫(yī)”“態(tài)度”“觀點(diǎn)”等關(guān)鍵詞獲取網(wǎng)民2015年1月-2019年5月間發(fā)表的動(dòng)態(tài)、文章、評論等內(nèi)容。
從微博獲取的原數(shù)據(jù)共932774條,其中2015年60586條,2016年53920條,2017年54183條,2018年44513條、2019年719572條。由于互聯(lián)網(wǎng)文本數(shù)據(jù)中包含了大量噪聲,此類噪聲會影響文本正確分類結(jié)果,因此對數(shù)據(jù)預(yù)處理文本后的數(shù)據(jù)有873337條,其中2015年47335條,2016年45353條,2017年47865條,2018年41149條、2019年691635條。
結(jié)合Qiu等設(shè)計(jì)隋感詞庫:HowNet情感分析用詞集(beta版)、臺灣大學(xué)NTUSD簡體中文情感詞典以及網(wǎng)上大量的情感詞。通過人工刪除不符合本領(lǐng)域的情感詞。結(jié)合TF-IDF得出本領(lǐng)域較高頻次的詞但在詞典中得詞,利用Word2vec算法根據(jù)分完類的詞典求得本領(lǐng)域中的相似詞,挑選在領(lǐng)域中有意義的情感詞進(jìn)行情感詞擴(kuò)增。最終得到積極詞匯3960個(gè),消極詞匯4046個(gè),否定詞268個(gè),程度副詞212個(gè)、轉(zhuǎn)折詞13個(gè)。
2.2數(shù)據(jù)預(yù)處理
本文規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)如下:
(1)刪除微商賣中醫(yī)藥廣告信息、中醫(yī)藥用法介紹等客觀或無關(guān)的數(shù)據(jù);
(2)刪除同一人發(fā)布多條相同內(nèi)容的數(shù)據(jù),僅保留一條;
(3)刪除文本字符過長的信息;
(4)刪除格式錯(cuò)誤的信息。
去除文本中噪聲方式如下:
(1)刪除文本中經(jīng)過轉(zhuǎn)換編碼仍不能識別的字符(格式:\uOOx)、回復(fù)消息(格式://@某人:)、超鏈接URL(格式:“http://t.ahjkl823”)、特殊表情和網(wǎng)頁標(biāo)簽等;
(2)采用Jieba分詞技術(shù),自定義停用詞、詞庫,對于中醫(yī)藥領(lǐng)域需要的單詞,增加本領(lǐng)域詞如“中醫(yī)黑”,刪除詞性標(biāo)注中不能識別或不能使用的詞。
分詞及詞性標(biāo)注見表1,自定義詞庫及停用詞分詞結(jié)果展示見表2。
2.3數(shù)據(jù)分類統(tǒng)計(jì)
本文的訓(xùn)練數(shù)據(jù)由一人評判兩人審核的方法評判了認(rèn)同、反對中醫(yī)藥傾向的數(shù)據(jù)各1500條,保證訓(xùn)練與測試數(shù)據(jù)的準(zhǔn)確性。中醫(yī)藥有關(guān)文本分類劃分原則如下:
(1)采用二分劃分,分為認(rèn)同中醫(yī)藥傾向和不認(rèn)同中醫(yī)藥傾向兩種態(tài)度;(2)選取文本中含有明顯有關(guān)中醫(yī)藥感情詞劃分為對中醫(yī)藥的認(rèn)同度傾向;(3)對無感情詞但采用中醫(yī)藥治病或-轉(zhuǎn)發(fā)中醫(yī)藥的相關(guān)文章劃分認(rèn)同等級;(4)舉行中醫(yī)藥活動(dòng)達(dá)到宣傳作用劃分為認(rèn)同傾向。
本文對二類劃分采用準(zhǔn)確率、F1-score作為評價(jià)標(biāo)準(zhǔn)。計(jì)算公式如下所示:
其中TP為支持中醫(yī)藥,被正確劃分的文本;FP為支持中醫(yī)藥,被錯(cuò)誤劃分的文本;FN為反對中醫(yī)藥,被正確劃分的文本;TN為反對中醫(yī)要,被錯(cuò)誤劃分的文本。
3算法應(yīng)用研究
3.1基于情感強(qiáng)度的詞典分類
基于詞典的方式本文采用的是基于句子級別的分析。根據(jù)中文的語法格式,提取本文的需要的句子語法格式是由積極、消極情感詞、否定詞及程度副詞等3種詞組成,并分別給三種詞匯設(shè)置不同的情感強(qiáng)度判定認(rèn)可程度。此外句子中還包含連詞以及轉(zhuǎn)折詞,對于連詞的形式分?jǐn)?shù)累乘,當(dāng)出現(xiàn)轉(zhuǎn)折詞時(shí),轉(zhuǎn)折詞前面分值計(jì)算方式不變,轉(zhuǎn)折詞后面情感分值加倍。句式劃分見表3。
圖1為基于詞典算法流程及流程圖的簡單介紹:
(1)輸入待分類的文本、載人各訶陸的詞典。
(2)對載人的文本分詞、停用詞及詞性標(biāo)注,刪除冗余數(shù)據(jù)。
(3)修改的文本進(jìn)行向量化詞組。
(4)用逆序組合文本方式,逐詞判別詞語詞性,符合句式計(jì)算其得分,反之繼續(xù)掃描。
(5)掃描到第一個(gè)詞向量時(shí)結(jié)束掃描,計(jì)算所有句式總分,由分值區(qū)間確定最終分類。
在基于詞典分類方式中,采用句子級別的分類中,經(jīng)過數(shù)據(jù)清洗的準(zhǔn)確率是0.593,除O分準(zhǔn)確率為0.599;增加詞典和詞向量后的準(zhǔn)確率是0.612,除0分后準(zhǔn)確率為0.622。
3.2基于樸素貝葉斯分類
首先塊結(jié)合TF-IDF進(jìn)行特征詞向量的提取,對于出現(xiàn)次數(shù)極少詞匯進(jìn)行過濾剔除,避免占用存儲空間出現(xiàn)矩陣稀疏以及詞的向量過多產(chǎn)生維度災(zāi)難等等問題。其次將標(biāo)注好的數(shù)據(jù)進(jìn)行隨機(jī)選取訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù),并應(yīng)用到自己的算法中,對數(shù)據(jù)進(jìn)行預(yù)測。
樸素貝葉斯算法步驟具體實(shí)現(xiàn)流程及流程圖見圖2:
(1)輸入所有訓(xùn)練文本數(shù)據(jù),對出現(xiàn)的詞匯進(jìn)行統(tǒng)計(jì)。
(2)刪除經(jīng)常出現(xiàn)的無關(guān)詞匯,以及次數(shù)小于10次的詞匯。
(3)求解每個(gè)類別中各詞匯出現(xiàn)的頻率,計(jì)算條件概率。
(4)判斷測試文本中每個(gè)特征詞在兩個(gè)分類中的概率。
(5)對于每個(gè)文本取較大概率的分類為該文本的分類結(jié)果。
樸素貝葉斯分類結(jié)果為:經(jīng)過數(shù)據(jù)清洗的F1-Score是0.457,準(zhǔn)確率為0.470;增加詞典和詞向量后的F1-Score是0.530,準(zhǔn)確率為0.625。
3.3基于卷積神經(jīng)網(wǎng)絡(luò)分類
本文開發(fā)環(huán)境是基于Theano和keras深度學(xué)習(xí)庫。結(jié)合CNNt61及word2vec提取特征向量。設(shè)計(jì)了多組參數(shù)進(jìn)行實(shí)驗(yàn)尋找最合適的參數(shù),見表4部分參數(shù)的實(shí)驗(yàn)結(jié)果。
采用ReLu函數(shù)、10折交叉檢驗(yàn),第13組參數(shù)最優(yōu),準(zhǔn)確率:0.808,F(xiàn)1-Score.-0.762。
4結(jié)束語
實(shí)驗(yàn)結(jié)果表明上述三種計(jì)算文本分類的方式中,CNN算法的準(zhǔn)確率明顯要高于其他兩種算法,故本文最終采用CNN模型對中醫(yī)藥領(lǐng)域的評論數(shù)據(jù)觀點(diǎn)進(jìn)行分析。分類2015年到2019年度中醫(yī)藥評論的數(shù)據(jù),得到各年度中醫(yī)藥的認(rèn)可率見表5所示。
由表5可知,支持中醫(yī)藥的人數(shù)遠(yuǎn)高于不支持中醫(yī)藥的人數(shù)。人們對中醫(yī)認(rèn)可度仍然是很高的,但也有小部分人對中醫(yī)抱有抵制態(tài)度。對比近五年人們對中醫(yī)的認(rèn)可度人數(shù)占比較為穩(wěn)定,唯有2017年為88.4%,分析當(dāng)年有關(guān)中醫(yī)藥事件,發(fā)現(xiàn)17年某中醫(yī)院發(fā)生重大醫(yī)療事故,影響了中醫(yī)的發(fā)展,同年中央發(fā)布了一系列宣傳發(fā)揚(yáng)中醫(yī)的文件,及時(shí)阻止了這次中醫(yī)事態(tài)的余波,并且次年認(rèn)同率達(dá)到了近五年巔峰。因此國家適當(dāng)?shù)恼{(diào)控中醫(yī)藥的宣傳建設(shè),有助于中醫(yī)藥的發(fā)展。
在詞典和樸素貝葉斯分類方式中采用了領(lǐng)域內(nèi)的自定義詞典后的數(shù)據(jù)準(zhǔn)確率明顯提升。說明詞典、特征提取高質(zhì)量的重要性。后期將完善全面覆蓋本領(lǐng)域的詞典,增加人工評判的數(shù)據(jù)。其中總樸素貝葉斯算法分類過程中時(shí)空開銷小,算法運(yùn)算速度快,能夠快速地獲取數(shù)據(jù)的分類結(jié)果,可以實(shí)時(shí)判斷每條數(shù)據(jù)的情感傾向。詞典分類算法結(jié)合了情感詞的極性、詞間的詞性關(guān)系,但更加人性化,但是句子級別的分類方式忽略主從句式的關(guān)系,可以采用基于上下文語句的方式進(jìn)行分析。CNN的Embedding為靜態(tài)形式,容易混淆積極、消極詞識別,但識別效果較高,后續(xù)可采用動(dòng)態(tài)形式。最后希望我國繼續(xù)弘揚(yáng)中醫(yī)國粹,傳播中醫(yī)文化。