国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中醫(yī)藥領(lǐng)域的文本情感分析及研究

2019-01-08 03:16:09劉偉黃陽姚家琦
電腦知識與技術(shù) 2019年33期
關(guān)鍵詞:自然語言處理情感分析微博

劉偉 黃陽 姚家琦

摘要:該文統(tǒng)計(jì)分析人們每年對中醫(yī)藥文化的認(rèn)可度、喜好程度的情感傾向。為中醫(yī)藥學(xué)者提供數(shù)據(jù)參考,分析現(xiàn)狀,反思?xì)v史,明確目標(biāo)以迎接中醫(yī)藥的美好未來。方法:(1)基于爬蟲技術(shù),獲取微博用戶2015-2019年對中醫(yī)藥的評價(jià),并進(jìn)行數(shù)據(jù)收錄和相關(guān)整理,對不規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一編碼和刪除等,使用Jieba分詞輔助數(shù)據(jù)預(yù)處理。(2)獲取現(xiàn)有經(jīng)典情感詞庫如HowNet等等,基于TF-IDF

計(jì)方法、Word2vec等方法擴(kuò)增詞向量,構(gòu)建中醫(yī)藥領(lǐng)域情感分析詞典。(3)采用情感極性詞典分類算法、Naive Ba-ces分類算法以及CNN模型分類算法對獲取的文本數(shù)據(jù)進(jìn)行分類處理。結(jié)論:2015-2019年認(rèn)同中醫(yī)藥文化的比率分別為:94.5%,95.0%,88.4%,95.4%,90.9%,可用NPL分析中醫(yī)藥認(rèn)同度狀況。

關(guān)鍵詞:中醫(yī)藥;情感分析;微博;自然語言處理

中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2019)33-0174-03

1概述

中醫(yī)藥文化博大精深,是我國傳承了幾千年的國粹瑰寶,中醫(yī)對中國人民的健康,甚至是人類的健康都有重大的貢獻(xiàn)。中醫(yī)它的治病方式和其良好的治療效果,廣泛傳播、應(yīng)用于世界各地。但因西醫(yī)技術(shù)的引入、外來文化的沖擊,其影響能力和醫(yī)學(xué)價(jià)值受到了挑戰(zhàn)。本文針對問卷調(diào)查人們對中醫(yī)藥的接受程度,前期工作費(fèi)時(shí)費(fèi)力的問題,采用自然處理技術(shù)對網(wǎng)上文本進(jìn)行情感分析,可以直接獲取評論者對中醫(yī)認(rèn)同度的情感傾向,直觀快速反映出人們的態(tài)度。

2數(shù)據(jù)分析

隨著信息時(shí)代的進(jìn)步與發(fā)展,人們在網(wǎng)絡(luò)上陳述自己觀點(diǎn)和情感的比例逐漸上升,使用微博的用戶規(guī)模猛增、月活躍數(shù)早已突破4億人次,微博已成為表達(dá)個(gè)人情感和觀點(diǎn)的重要媒體。結(jié)合微博短文本、數(shù)據(jù)易獲取、實(shí)時(shí)陸、信息來源多樣性等特點(diǎn),人們的觀點(diǎn)可以一目了然具有代表性。因此以微博的評論對中醫(yī)藥進(jìn)行情感喜好的分類研究十分有意義。

2.1數(shù)據(jù)來源

本文利用python及爬蟲技術(shù)爬取新浪微博的數(shù)據(jù),通過設(shè)置“中醫(yī)”“態(tài)度”“觀點(diǎn)”等關(guān)鍵詞獲取網(wǎng)民2015年1月-2019年5月間發(fā)表的動(dòng)態(tài)、文章、評論等內(nèi)容。

從微博獲取的原數(shù)據(jù)共932774條,其中2015年60586條,2016年53920條,2017年54183條,2018年44513條、2019年719572條。由于互聯(lián)網(wǎng)文本數(shù)據(jù)中包含了大量噪聲,此類噪聲會影響文本正確分類結(jié)果,因此對數(shù)據(jù)預(yù)處理文本后的數(shù)據(jù)有873337條,其中2015年47335條,2016年45353條,2017年47865條,2018年41149條、2019年691635條。

結(jié)合Qiu等設(shè)計(jì)隋感詞庫:HowNet情感分析用詞集(beta版)、臺灣大學(xué)NTUSD簡體中文情感詞典以及網(wǎng)上大量的情感詞。通過人工刪除不符合本領(lǐng)域的情感詞。結(jié)合TF-IDF得出本領(lǐng)域較高頻次的詞但在詞典中得詞,利用Word2vec算法根據(jù)分完類的詞典求得本領(lǐng)域中的相似詞,挑選在領(lǐng)域中有意義的情感詞進(jìn)行情感詞擴(kuò)增。最終得到積極詞匯3960個(gè),消極詞匯4046個(gè),否定詞268個(gè),程度副詞212個(gè)、轉(zhuǎn)折詞13個(gè)。

2.2數(shù)據(jù)預(yù)處理

本文規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)如下:

(1)刪除微商賣中醫(yī)藥廣告信息、中醫(yī)藥用法介紹等客觀或無關(guān)的數(shù)據(jù);

(2)刪除同一人發(fā)布多條相同內(nèi)容的數(shù)據(jù),僅保留一條;

(3)刪除文本字符過長的信息;

(4)刪除格式錯(cuò)誤的信息。

去除文本中噪聲方式如下:

(1)刪除文本中經(jīng)過轉(zhuǎn)換編碼仍不能識別的字符(格式:\uOOx)、回復(fù)消息(格式://@某人:)、超鏈接URL(格式:“http://t.ahjkl823”)、特殊表情和網(wǎng)頁標(biāo)簽等;

(2)采用Jieba分詞技術(shù),自定義停用詞、詞庫,對于中醫(yī)藥領(lǐng)域需要的單詞,增加本領(lǐng)域詞如“中醫(yī)黑”,刪除詞性標(biāo)注中不能識別或不能使用的詞。

分詞及詞性標(biāo)注見表1,自定義詞庫及停用詞分詞結(jié)果展示見表2。

2.3數(shù)據(jù)分類統(tǒng)計(jì)

本文的訓(xùn)練數(shù)據(jù)由一人評判兩人審核的方法評判了認(rèn)同、反對中醫(yī)藥傾向的數(shù)據(jù)各1500條,保證訓(xùn)練與測試數(shù)據(jù)的準(zhǔn)確性。中醫(yī)藥有關(guān)文本分類劃分原則如下:

(1)采用二分劃分,分為認(rèn)同中醫(yī)藥傾向和不認(rèn)同中醫(yī)藥傾向兩種態(tài)度;(2)選取文本中含有明顯有關(guān)中醫(yī)藥感情詞劃分為對中醫(yī)藥的認(rèn)同度傾向;(3)對無感情詞但采用中醫(yī)藥治病或-轉(zhuǎn)發(fā)中醫(yī)藥的相關(guān)文章劃分認(rèn)同等級;(4)舉行中醫(yī)藥活動(dòng)達(dá)到宣傳作用劃分為認(rèn)同傾向。

本文對二類劃分采用準(zhǔn)確率、F1-score作為評價(jià)標(biāo)準(zhǔn)。計(jì)算公式如下所示:

其中TP為支持中醫(yī)藥,被正確劃分的文本;FP為支持中醫(yī)藥,被錯(cuò)誤劃分的文本;FN為反對中醫(yī)藥,被正確劃分的文本;TN為反對中醫(yī)要,被錯(cuò)誤劃分的文本。

3算法應(yīng)用研究

3.1基于情感強(qiáng)度的詞典分類

基于詞典的方式本文采用的是基于句子級別的分析。根據(jù)中文的語法格式,提取本文的需要的句子語法格式是由積極、消極情感詞、否定詞及程度副詞等3種詞組成,并分別給三種詞匯設(shè)置不同的情感強(qiáng)度判定認(rèn)可程度。此外句子中還包含連詞以及轉(zhuǎn)折詞,對于連詞的形式分?jǐn)?shù)累乘,當(dāng)出現(xiàn)轉(zhuǎn)折詞時(shí),轉(zhuǎn)折詞前面分值計(jì)算方式不變,轉(zhuǎn)折詞后面情感分值加倍。句式劃分見表3。

圖1為基于詞典算法流程及流程圖的簡單介紹:

(1)輸入待分類的文本、載人各訶陸的詞典。

(2)對載人的文本分詞、停用詞及詞性標(biāo)注,刪除冗余數(shù)據(jù)。

(3)修改的文本進(jìn)行向量化詞組。

(4)用逆序組合文本方式,逐詞判別詞語詞性,符合句式計(jì)算其得分,反之繼續(xù)掃描。

(5)掃描到第一個(gè)詞向量時(shí)結(jié)束掃描,計(jì)算所有句式總分,由分值區(qū)間確定最終分類。

在基于詞典分類方式中,采用句子級別的分類中,經(jīng)過數(shù)據(jù)清洗的準(zhǔn)確率是0.593,除O分準(zhǔn)確率為0.599;增加詞典和詞向量后的準(zhǔn)確率是0.612,除0分后準(zhǔn)確率為0.622。

3.2基于樸素貝葉斯分類

首先塊結(jié)合TF-IDF進(jìn)行特征詞向量的提取,對于出現(xiàn)次數(shù)極少詞匯進(jìn)行過濾剔除,避免占用存儲空間出現(xiàn)矩陣稀疏以及詞的向量過多產(chǎn)生維度災(zāi)難等等問題。其次將標(biāo)注好的數(shù)據(jù)進(jìn)行隨機(jī)選取訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù),并應(yīng)用到自己的算法中,對數(shù)據(jù)進(jìn)行預(yù)測。

樸素貝葉斯算法步驟具體實(shí)現(xiàn)流程及流程圖見圖2:

(1)輸入所有訓(xùn)練文本數(shù)據(jù),對出現(xiàn)的詞匯進(jìn)行統(tǒng)計(jì)。

(2)刪除經(jīng)常出現(xiàn)的無關(guān)詞匯,以及次數(shù)小于10次的詞匯。

(3)求解每個(gè)類別中各詞匯出現(xiàn)的頻率,計(jì)算條件概率。

(4)判斷測試文本中每個(gè)特征詞在兩個(gè)分類中的概率。

(5)對于每個(gè)文本取較大概率的分類為該文本的分類結(jié)果。

樸素貝葉斯分類結(jié)果為:經(jīng)過數(shù)據(jù)清洗的F1-Score是0.457,準(zhǔn)確率為0.470;增加詞典和詞向量后的F1-Score是0.530,準(zhǔn)確率為0.625。

3.3基于卷積神經(jīng)網(wǎng)絡(luò)分類

本文開發(fā)環(huán)境是基于Theano和keras深度學(xué)習(xí)庫。結(jié)合CNNt61及word2vec提取特征向量。設(shè)計(jì)了多組參數(shù)進(jìn)行實(shí)驗(yàn)尋找最合適的參數(shù),見表4部分參數(shù)的實(shí)驗(yàn)結(jié)果。

采用ReLu函數(shù)、10折交叉檢驗(yàn),第13組參數(shù)最優(yōu),準(zhǔn)確率:0.808,F(xiàn)1-Score.-0.762。

4結(jié)束語

實(shí)驗(yàn)結(jié)果表明上述三種計(jì)算文本分類的方式中,CNN算法的準(zhǔn)確率明顯要高于其他兩種算法,故本文最終采用CNN模型對中醫(yī)藥領(lǐng)域的評論數(shù)據(jù)觀點(diǎn)進(jìn)行分析。分類2015年到2019年度中醫(yī)藥評論的數(shù)據(jù),得到各年度中醫(yī)藥的認(rèn)可率見表5所示。

由表5可知,支持中醫(yī)藥的人數(shù)遠(yuǎn)高于不支持中醫(yī)藥的人數(shù)。人們對中醫(yī)認(rèn)可度仍然是很高的,但也有小部分人對中醫(yī)抱有抵制態(tài)度。對比近五年人們對中醫(yī)的認(rèn)可度人數(shù)占比較為穩(wěn)定,唯有2017年為88.4%,分析當(dāng)年有關(guān)中醫(yī)藥事件,發(fā)現(xiàn)17年某中醫(yī)院發(fā)生重大醫(yī)療事故,影響了中醫(yī)的發(fā)展,同年中央發(fā)布了一系列宣傳發(fā)揚(yáng)中醫(yī)的文件,及時(shí)阻止了這次中醫(yī)事態(tài)的余波,并且次年認(rèn)同率達(dá)到了近五年巔峰。因此國家適當(dāng)?shù)恼{(diào)控中醫(yī)藥的宣傳建設(shè),有助于中醫(yī)藥的發(fā)展。

在詞典和樸素貝葉斯分類方式中采用了領(lǐng)域內(nèi)的自定義詞典后的數(shù)據(jù)準(zhǔn)確率明顯提升。說明詞典、特征提取高質(zhì)量的重要性。后期將完善全面覆蓋本領(lǐng)域的詞典,增加人工評判的數(shù)據(jù)。其中總樸素貝葉斯算法分類過程中時(shí)空開銷小,算法運(yùn)算速度快,能夠快速地獲取數(shù)據(jù)的分類結(jié)果,可以實(shí)時(shí)判斷每條數(shù)據(jù)的情感傾向。詞典分類算法結(jié)合了情感詞的極性、詞間的詞性關(guān)系,但更加人性化,但是句子級別的分類方式忽略主從句式的關(guān)系,可以采用基于上下文語句的方式進(jìn)行分析。CNN的Embedding為靜態(tài)形式,容易混淆積極、消極詞識別,但識別效果較高,后續(xù)可采用動(dòng)態(tài)形式。最后希望我國繼續(xù)弘揚(yáng)中醫(yī)國粹,傳播中醫(yī)文化。

猜你喜歡
自然語言處理情感分析微博
青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評論情感屬性的動(dòng)態(tài)變化
預(yù)測(2016年5期)2016-12-26 17:16:57
事實(shí)與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
文本觀點(diǎn)挖掘和情感分析的研究
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
科技視界(2016年5期)2016-02-22 11:41:39
镇雄县| 巴林右旗| 南川市| 旌德县| 永修县| 濉溪县| 如皋市| 曲沃县| 临洮县| 繁峙县| 台北县| 翁源县| 伊宁县| 德钦县| 太仓市| 兰考县| 阿图什市| 六安市| 高唐县| 商都县| 黑龙江省| 都匀市| 大荔县| 额尔古纳市| 东至县| 尚志市| 小金县| 随州市| 衡阳市| 华池县| 慈利县| 大名县| 南投市| 营山县| 灯塔市| 南阳市| 台南市| 鄂托克前旗| 新田县| 金乡县| 宜宾市|