国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的虛假健康信息識(shí)別

2020-05-28 09:36於張閑冒宇清胡孔法
軟件導(dǎo)刊 2020年3期

於張閑 冒宇清 胡孔法

摘 要:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)上健康信息以幾何速度增長,其中大量虛假健康信息給人們的生活帶來了很大影響,但目前對(duì)虛假健康信息文本識(shí)別的研究非常缺乏,以往研究主要集中在識(shí)別微博上的謠言、偽造商品評(píng)論、垃圾郵件及虛假新聞等方面。鑒于此,采用基于詞向量的深度神經(jīng)網(wǎng)絡(luò)模型和基于雙向編碼的語言表征模型,對(duì)互聯(lián)網(wǎng)上流傳廣泛的健康信息文本進(jìn)行自動(dòng)分類,識(shí)別其中的虛假健康信息。實(shí)驗(yàn)中,深度網(wǎng)絡(luò)模型比傳統(tǒng)機(jī)器學(xué)習(xí)模型性能提高10%,融合Word2vec的深度神經(jīng)網(wǎng)絡(luò)模型比單獨(dú)的CNN或Att-BiLSTM模型在分類性能上提高近7%。BERT模型表現(xiàn)最好,準(zhǔn)確率高達(dá)88.1%。實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)可以有效識(shí)別虛假健康信息,并且通過大規(guī)模語料預(yù)訓(xùn)練獲得的語言表征模型比基于詞向量的深度神經(jīng)網(wǎng)絡(luò)模型性能更好。

關(guān)鍵詞:健康信息;詞向量;深度神經(jīng)網(wǎng)絡(luò)模型;語言表征模型;預(yù)訓(xùn)練模型

DOI:10. 11907/rjdk. 192673

中圖分類號(hào):TP301 ? 文獻(xiàn)標(biāo)識(shí)碼:A??????????????? 文章編號(hào):1672-7800(2020)003-0016-05

False Health Information Recognition Based on Deep Learning

YU Zhang-xian,MAO Yu-qing,HU Kong-fa

(School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing 210023,China)

Abstract: With the rapid development of the Internet, online health information has been growing exponentially. A lot of fake health information has a great effect on peoples daily life. However, there is a lack of research on text recognition of fake health information recognition. Existing research mainly focus on rumors on microblogs, fabricated product reviews, spam and fake news, etc. This paper utilizes a deep neural network based on word vector and a language presentation model based on bidirectional encoder to classify health information automatically, so that the fake health information can be recognized. In this experiment, the performance of the deep network model is 10% higher than the traditional machine learning model. The deep neural network model integrated with Word2vec improves the classification performance by nearly 7% compared with the CNN or Att-BiLSTM model alone. The BERT model performs best, with an accuracy rate of 88.1%. The experimental results show that the deep learning techniques can recognize fake health information effectively, and the language representation model pretrained with large-scale corpus performs better than the deep neural network model based on word vector.

Key Words:health information; word vector; neural network model; language representation model; pre-trained model

0 引言

2016年10月,國務(wù)院印發(fā)《“健康中國2030”規(guī)劃綱要》[1],明確提出要建立健康知識(shí)和健康技能的核心信息發(fā)布制度,普及健康科學(xué)知識(shí),利用新媒體拓展健康教育。健康信息是健康教育職能發(fā)揮的最主要資源[2]。隨著互聯(lián)網(wǎng)的迅猛發(fā)展,特別是在Web2.0時(shí)代,大量用戶通過博客、微博、微信等社交網(wǎng)絡(luò)媒體發(fā)布和傳播各種信息,使網(wǎng)上健康信息的數(shù)量出現(xiàn)了爆發(fā)式增長。但由于缺乏足夠的監(jiān)督和約束,懷有各種企圖的用戶能夠自由發(fā)布大量虛假健康信息。而隨著社會(huì)發(fā)展,人們對(duì)自身健康管理的覺醒和對(duì)健康生活方式的追求進(jìn)一步促進(jìn)了互聯(lián)網(wǎng)上健康相關(guān)信息的豐富多樣。由于這些信息的質(zhì)量良莠不齊,沒有經(jīng)過篩選區(qū)分,而且普通用戶也缺乏專業(yè)知識(shí),可能造成各種“偽科學(xué)”信息充斥社會(huì)生活,對(duì)缺乏專業(yè)知識(shí)的人形成誤導(dǎo)。普通用戶作為虛假健康信息的受害者,又無意中傳播擴(kuò)散了虛假健康信息,因?yàn)閷?duì)于網(wǎng)絡(luò)上傳播廣、推崇者多的虛假健康信息,一旦身邊的熟人加以推薦,人們會(huì)更加容易、也更加愿意選擇相信[3]。輕信這些虛假健康信息一方面可能導(dǎo)致用戶的經(jīng)濟(jì)利益和身體健康受到損害,甚至危及生命;另一方面可能引起用戶對(duì)正規(guī)醫(yī)療的不信任感,加劇目前已非常尖銳的醫(yī)患矛盾。

微信安全團(tuán)隊(duì)[4]總結(jié)的“微信十大謠言”,如土豆(馬鈴薯)生汁能治療癌癥、低鈉鹽就是送命鹽、癌病的起因是塑料等虛假健康信息通過微信廣泛傳播。各種社交網(wǎng)絡(luò)上推送的醫(yī)學(xué)相關(guān)文章一般會(huì)夾雜一些醫(yī)學(xué)專業(yè)術(shù)語,普通用戶無法辨識(shí)其真假,但較多的專業(yè)術(shù)語會(huì)使普通用戶信以為真。目前,盡管已經(jīng)有一些自動(dòng)識(shí)別網(wǎng)絡(luò)謠言的方法,且有不少研究表明自動(dòng)識(shí)別網(wǎng)絡(luò)謠言的可行性,但主要針對(duì)網(wǎng)上的一般謠言,對(duì)于虛假健康信息的識(shí)別很難達(dá)到理想效果。因?yàn)樘摷俳】敌畔⑼剖嵌?,與真實(shí)信息相似度較高,需要一定的專業(yè)醫(yī)學(xué)知識(shí)才能識(shí)別,例如以下這段文字:“硝酸酯類藥物(以硝酸甘油為代表)具有擴(kuò)張冠脈血管的作用,應(yīng)是冠心病患者家中最重要的應(yīng)急藥物。一旦胸痛發(fā)作,吸氧的同時(shí)給予舌下含服硝酸甘油每五分鐘一次,可重復(fù)3次,直到急救醫(yī)生到來”。這則虛假急救措施信息包含一些專業(yè)化術(shù)語,內(nèi)容虛虛實(shí)實(shí),真假參半,具有很強(qiáng)的迷惑性,普通用戶很容易上當(dāng)受騙。目前,這樣的信息只有靠人工才能夠識(shí)別,例如果殼網(wǎng)的“流言百科”“謠言粉碎機(jī)”等。但面對(duì)互聯(lián)網(wǎng)上層出不窮的虛假健康信息,僅靠人工識(shí)別顯然力不從心。因此,建立模型自動(dòng)辨別網(wǎng)絡(luò)健康信息真假,使缺乏醫(yī)學(xué)專業(yè)知識(shí)的用戶從中受益,具有重大現(xiàn)實(shí)意義。

近年來,隨著計(jì)算機(jī)硬件性能的提高,云計(jì)算、大數(shù)據(jù)等技術(shù)的成熟,以及自身算法的改進(jìn),深度神經(jīng)網(wǎng)絡(luò)取得了巨大突破,在很多應(yīng)用領(lǐng)域取得了顛覆性成果[5],2018年更是自然語言處理(Natural Language Processing,NLP)的分水嶺。傳統(tǒng)的自然語言處理方法主要關(guān)注如何提取有效特征,所使用的特征大多數(shù)通過人工選取,這些方法或技術(shù)相對(duì)成熟、效率較高,主要針對(duì)長文本,而目前網(wǎng)上信息以短文本為主,采用傳統(tǒng)分類技術(shù),會(huì)出現(xiàn)表征文本的特征向量稀疏,從而導(dǎo)致分類精度下降等問題[6]。深度學(xué)習(xí)方法則是通過組成簡單但非線性的模塊獲得多個(gè)表示級(jí)別的表示學(xué)習(xí)方法,將人工選取特征的過程轉(zhuǎn)化為通過數(shù)據(jù)自動(dòng)學(xué)習(xí)特征的通用學(xué)習(xí)過程,從原始輸入開始,每個(gè)模塊將一個(gè)級(jí)別的表示轉(zhuǎn)換為更高、更抽象級(jí)別的表示,再通過訓(xùn)練模型的參數(shù)優(yōu)化深度學(xué)習(xí)的功能層,提高效率和精度[5],減少了人工過程,避免了人工選取特征的主觀性和偶然性。

本文利用深度學(xué)習(xí)在NLP領(lǐng)域的最新進(jìn)展,以果殼網(wǎng)“流言百科”上的健康相關(guān)信息為研究對(duì)象,采用基于詞向量的深度神經(jīng)網(wǎng)絡(luò)模型和基于雙向編碼的語言表征模型,對(duì)健康信息文本進(jìn)行分類,實(shí)現(xiàn)對(duì)虛假健康信息的自動(dòng)識(shí)別。

1 相關(guān)研究

文本分類是NLP領(lǐng)域的研究熱點(diǎn)之一,最早可以追溯到到20世紀(jì)60年代,基于詞頻統(tǒng)計(jì)的抽詞標(biāo)引法被提出,開啟了對(duì)關(guān)鍵詞自動(dòng)標(biāo)引技術(shù)的探索;90年代后文本分類中較流行的方法包括:Vapnik提出的支持向量機(jī)(Support Vector Machine,SVM)、Jaynes提出的遺傳算法(Genetic Algorithm,GA)、Sebastiani提出的貝葉斯方法(Na?ve Bayes,NB)、Cover與Hart提出的K最近鄰算法(k-Nearest Neighbor,KNN)等。中文文本分類技術(shù)最早由侯漢清教授提出,其后王繼成與鄒濤在向量空間模型(Vector Space Model,VSM)基礎(chǔ)上結(jié)合基于統(tǒng)計(jì)的特征詞提取技術(shù),實(shí)現(xiàn)了文本的類別分配[7]。

近年來,研究者開始嘗試在NLP領(lǐng)域運(yùn)用深度學(xué)習(xí)模型。Kim[8]將簡單卷積神經(jīng)網(wǎng)絡(luò)CNN用于文本分類,提高了文本分類精度,也使得CNN成為運(yùn)用在自然語言處理中最具代表性的模型之一,Mandelbaum等[9]在Kim實(shí)驗(yàn)的基礎(chǔ)上擴(kuò)大了數(shù)據(jù)集范圍,在TensorFlow框架上改進(jìn)了原有模型,進(jìn)一步提高了分類精度,但CNN關(guān)注局部特征,而忽略了詞的上下文含義。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能學(xué)習(xí)任意時(shí)長序列的輸入,主要應(yīng)用于文本分類的是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN,BiRNN),由于文本中詞的語義信息不僅與詞之前的信息有關(guān),還與詞之后的信息有關(guān),雙向RNN能進(jìn)一步提高文本分類的準(zhǔn)確率[10]。但隨著輸入的增多,RNN會(huì)發(fā)生梯度消失或梯度爆炸現(xiàn)象。長短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)利用記憶細(xì)胞保存長期的歷史信息,能很好地利用上下文特征信息,對(duì)非線性關(guān)系進(jìn)行擬合,同時(shí)保留文本的順序信息,并利用門機(jī)制進(jìn)行管理,可以克服RNN的缺點(diǎn)[11]。劉敬學(xué)等[6]提出了基于字符級(jí)嵌入的CNN和LSTM相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表明該模型的分類效果優(yōu)于傳統(tǒng)模型和僅基于CNN的分類模型;劉政等[12]以新浪微博謠言為研究對(duì)象,提出了基于CNN的謠言檢測模型,實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于傳統(tǒng)的SVM方法。

最近,Google發(fā)布了一種新的語言表征模型:基于Transformer的雙向編碼表征(Bidirectional Encoder Representations from Transformers,BERT)[13],與其它語言表征模型不同,BERT利用互聯(lián)網(wǎng)上的大規(guī)模語料如維基百科等對(duì)模型進(jìn)行預(yù)訓(xùn)練,通過基于所有層的左、右語境預(yù)訓(xùn)練語言深度雙向表征,再僅用一個(gè)額外的輸出層進(jìn)行微調(diào),就可以為各種NLP任務(wù)創(chuàng)建當(dāng)前最優(yōu)模型,而無需對(duì)任務(wù)特定架構(gòu)作出大量修改。該模型刷新了11項(xiàng)NLP任務(wù)的當(dāng)前最優(yōu)性能記錄,成為當(dāng)前NLP研究領(lǐng)域最引人矚目的熱點(diǎn)[14]。

2 深度學(xué)習(xí)模型

2.1 詞向量模型

對(duì)于文本分類任務(wù),首先要將文本用低維、稠密、連續(xù)的向量表示,將其作為深度神經(jīng)網(wǎng)絡(luò)模型輸入,這一過程又稱為詞嵌入。Mikolov等[15]提出了Word2Vec模型進(jìn)行詞向量訓(xùn)練,Word2vec模型包括CBOW模型和Skip-Gram模型。CBOW模型是利用前后詞預(yù)測中間詞概率的模型,其輸入是目標(biāo)詞上下文的t個(gè)詞,由這2*t個(gè)詞推測輸出目標(biāo)詞,如圖1(a)所示,Skip-Gram模型則是根據(jù)中間詞預(yù)測前后詞,其輸入是目標(biāo)詞,輸出是目標(biāo)詞上下文的2*t個(gè)詞,如圖1(b)所示。通過Word2Vec模型訓(xùn)練后,對(duì)于語義相似的詞,它們對(duì)應(yīng)的詞向量也相近[16]。

2.2 基于CNN的文本分類模型

基于CNN的文本分類模型[17-18]由詞嵌入層、卷積層、池化層、全連接層和輸出層(Softmax層)組成,如圖2所示。

詞嵌入層主要對(duì)輸入文本進(jìn)行詞向量化操作,利用word2vec模型,可以生成文本詞向量矩陣[Wn*d]。

其中,[W(i)]表示第i則健康信息文本的詞向量矩陣,n表示文本中詞的總數(shù),d表示詞向量的維度。

卷積層的作用是提取局部區(qū)域特征,通過選擇不同尺寸的卷積窗口,為每個(gè)窗口設(shè)置T個(gè)濾波器,用于對(duì)詞向量矩陣[W]進(jìn)行卷積操作,獲得新的特征值[Ci]。

其中[Ci]表示卷積操作后得到的新特征矩陣[C]的第i個(gè)特征值,激活函數(shù)[g]是一個(gè)非線性函數(shù),目的是通過增加偏置項(xiàng)[b],提高整個(gè)網(wǎng)絡(luò)解決復(fù)雜(非線性)問題的能力,[fm]表示濾波器(卷積窗口)矩陣,[m]表示窗口大小,[Wi:i+m-1]表示從詞向量矩陣[W]的第i行到第i+m-1行抽取的局部特征矩陣。利用卷積窗口抽取有用的局部特征矩陣[W1:m],[W2:m+1],,[Wn-m+1:n],最終生成新的特征向量[C]。

在池化層中,輸入特征向量矩陣[C],通過最大池化(Max Pooling)操作對(duì)特征值進(jìn)行壓縮,選出特征向量中特征值較高的前K個(gè)特征值,組成新的特征向量[M]。

全連接層的作用是整合最大池化操作后的所有特征,生成特征向量[U]。

輸出層(Softmax層)在基于CNN的文本分類模型中起“分類器”的作用,根據(jù)特征向量計(jì)算樣本屬于每一類的概率,對(duì)分類情況作歸一化處理,輸出一個(gè)信息真假標(biāo)簽:0(虛假信息)或1(真實(shí)信息)。

2.3 注意力增強(qiáng)的BiLSTM模型(Att-BiLSTM模型)

LSTM僅能學(xué)習(xí)當(dāng)前詞之前的信息,不能利用之后的信息,采用雙向LSTM(Bidirectional LSTM,BiLSTM),整合當(dāng)前詞的前后信息,可以充分學(xué)習(xí)句中的語義關(guān)系。為了達(dá)到類似人腦注意力分配思維模式效果,采用了注意力(Attention)機(jī)制,在編碼階段和解碼階段采用不同的計(jì)算方法。在輸出層之前增加Attention層,使模型將注意力集中在重點(diǎn)詞上,降低其它無關(guān)詞的作用,進(jìn)一步提高文本分類的精度[19-20]。注意力增強(qiáng)的BiLSTM模型Att-BiLSTM由詞嵌入層、雙向LSTM層、Attention層及輸出層組成,結(jié)構(gòu)如圖3所示。

詞嵌入層與基于CNN的文本分類模型的詞嵌入層一致,輸入文本詞向量矩陣[Wn*d]。

雙向LSTM層為隱含層,將輸入序列分別從兩個(gè)方向輸入模型,同時(shí)保存兩個(gè)方向的歷史和未來信息,最后拼接兩個(gè)隱層的信息,得到BiLSTM的輸出信息[h(i)t]。

其中,[h(i)t]表示第i則健康信息文本的BiLSTM信息,[h(i)t]表示第i則文本的前向LSTM信息,[h(i)t]第i則文本的反向LSTM信息。

為BiLSTM的每個(gè)輸出值分配不同的權(quán)重[ω]和偏置項(xiàng)[b],計(jì)算出第i則文本中每個(gè)單詞的權(quán)重[u(i)t]。

通過Softmax歸一化,計(jì)算出各時(shí)刻一個(gè)權(quán)值[α(i)t]。

其中,[uω]表示隨機(jī)初始化的注意力矩陣。

對(duì)每個(gè)時(shí)刻的[α(i)t]與[h(i)t]進(jìn)行加權(quán)求和,得到Attention層的輸出[s(i)]。

將Attention層的輸出[s(i)]作為輸出層的輸入,通過Softmax對(duì)分類情況進(jìn)行歸一化處理,輸出一個(gè)信息真假標(biāo)簽:0(虛假信息)或1(真實(shí)信息)。

2.4 基于BERT的文本分類模型

BERT在斯坦福情感語義樹(Stanford Sentiment Treebank)數(shù)據(jù)集SST-2[13]上取得了很好效果,將虛假健康信息識(shí)別看成是一個(gè)類似的二元單句分類任務(wù),構(gòu)建基于BERT的文本分類模型,其結(jié)構(gòu)如圖4所示。

BERT全稱是基于Transformer的雙向編碼表征,其中“雙向”意味著模型在處理一個(gè)詞時(shí),它能同時(shí)利用詞的前后兩部分信息?;贐ERT的文本分類模型分為預(yù)訓(xùn)練和微調(diào)兩階段:預(yù)訓(xùn)練階段使用大規(guī)模無人工標(biāo)注的文本語料庫(如維基百科等)進(jìn)行訓(xùn)練,獲得通用的語言表征預(yù)訓(xùn)練模型,微調(diào)階段在預(yù)訓(xùn)練模型基礎(chǔ)上,使用特定的健康信息文本語料進(jìn)行訓(xùn)練,對(duì)參數(shù)進(jìn)行微調(diào),最終得到健康信息文本分類模型。

預(yù)訓(xùn)練是BERT模型的一個(gè)重要階段,與傳統(tǒng)語言模型不同,BERT不是在給定所有前面詞的條件下,預(yù)測最有可能的當(dāng)前詞,而是隨機(jī)遮掩一些詞,利用所有沒被遮掩的詞進(jìn)行預(yù)測。在遮掩預(yù)測時(shí),隨機(jī)遮掩掉15%的詞,其中80%的情況下直接替換為「[MASK]」,10%的情況替換為其它任意詞,10%的情況會(huì)保留原詞[13,21]。對(duì)海量語料的訓(xùn)練,使單詞學(xué)習(xí)了很好的特征表示,在文本分類任務(wù)中,可以直接使用該特征表示作為詞嵌入特征。由于基于海量語料庫的預(yù)訓(xùn)練時(shí)間非常漫長,而且對(duì)GPU顯存的要求很高,因此,Google針對(duì)大部分語言都發(fā)布了BERT預(yù)訓(xùn)練模型。由于硬件條件限制,本文在Google發(fā)布的參數(shù)較少的中文BERT預(yù)訓(xùn)練模型上進(jìn)行微調(diào),模型基本參數(shù):層數(shù)(Transformer塊)表示為 L=12,將隱藏尺寸表示為 H=768、自注意力頭數(shù)表示為 A=12,總參數(shù)=110M。需要說明的是,Google發(fā)布的參數(shù)較多的BERT預(yù)訓(xùn)練模型在所有任務(wù)中都明顯優(yōu)于參數(shù)較少的模型,因此在應(yīng)用參數(shù)較多的預(yù)訓(xùn)練模型后,本文提出的模型性能還可以得到進(jìn)一步提升。

微調(diào)主要分為兩步:①對(duì)健康信息文本的數(shù)據(jù)集進(jìn)行處理,并詞例(token)化,以適應(yīng)BERT的數(shù)據(jù)格式;②通過訓(xùn)練對(duì)一些參數(shù)進(jìn)行定制。

3 實(shí)驗(yàn)與分析

本文實(shí)驗(yàn)環(huán)境如下:Intel? Xeon? W-2145 CPU@ 3.70Hz*16,Nvidia GTX 1080Ti顯卡,32GB內(nèi)存,操作系統(tǒng)為Ubuntu16.04,開發(fā)環(huán)境為Anaconda4.5.4 + Tensorflow-gpu1.9.0,開發(fā)工具為PyCharm。

3.1 數(shù)據(jù)收集及預(yù)處理

“流言百科”是果殼網(wǎng)站開發(fā)的最新辟謠平臺(tái),該平臺(tái)上匯集了常見的健康相關(guān)信息,包括食品安全、醫(yī)療健康等方面。本次實(shí)驗(yàn)數(shù)據(jù)集通過ScraPy、BeautifulSoup等網(wǎng)頁爬蟲工具,爬取“流言百科”上發(fā)布的健康相關(guān)信息文本(截至2018年10月23日),主要是頁面上留言標(biāo)簽、流言內(nèi)容。“流言百科”上的留言標(biāo)簽分為4類:真、假、新、論。由于標(biāo)簽為“新”與“論”的流言都是未經(jīng)證實(shí)的,標(biāo)簽為“真”和“假”的流言文本比例相差較大,因此在本實(shí)驗(yàn)中,正例數(shù)據(jù)集由標(biāo)簽為“真”的文本和標(biāo)簽為“假”的文本相應(yīng)的真相內(nèi)容組成,負(fù)例數(shù)據(jù)集由標(biāo)簽為假的文本組成,最終數(shù)據(jù)集大小如圖5所示。

爬蟲爬取的原始數(shù)據(jù)中包含大量HTML標(biāo)簽等無關(guān)數(shù)據(jù),故在提取本文所需的有用信息時(shí),要通過調(diào)用BeautifulSoup庫函數(shù),以及運(yùn)用正則表達(dá)式進(jìn)行數(shù)據(jù)清洗。與英文文本不同,中文文本字與字之間沒有空格分隔,因此在進(jìn)行中文文本預(yù)處理時(shí),需要先進(jìn)行分詞處理。本實(shí)驗(yàn)主要運(yùn)用Jieba分詞工具進(jìn)行分詞,并去除文本中的標(biāo)點(diǎn)符號(hào)。

3.2 實(shí)驗(yàn)設(shè)置

3.2.1 文本向量化表示

首先將數(shù)據(jù)集進(jìn)行隨機(jī)切分,其中80%作為訓(xùn)練集,20%作為測試集。使用Word2vec模型對(duì)文本進(jìn)行向量化操作,生成文本向量矩陣,模型中參數(shù)設(shè)置如圖6所示。

3.2.2 模型參數(shù)設(shè)置

基于CNN、Att-BiLSTM和BERT的文本分類模型都通過TensorFlow實(shí)現(xiàn),各模型中參數(shù)設(shè)置如表1所示。

3.2.3 結(jié)果分析

為了檢驗(yàn)本文基于深度學(xué)習(xí)的健康信息分類方法的有效性,將以下5種基于深度學(xué)習(xí)的方法與一種傳統(tǒng)的文本分類方法應(yīng)用于上文數(shù)據(jù)集,識(shí)別其中的虛假健康信息。5種基于深度學(xué)習(xí)的方法分別基于token級(jí)CNN模型、token級(jí)Att-BiLSTM模型、融合Word2vec的CNN模型、融合Word2vec的Att-BiLSTM模型和BERT模型,一種傳統(tǒng)的文本分類方法基于TF-IDF進(jìn)行特征提取,并使用Na?ve Bayes方法進(jìn)行分類。實(shí)驗(yàn)結(jié)果如表2所示,采用傳統(tǒng)的方法進(jìn)行分類與采用深度學(xué)習(xí)模型相比,后者性能明顯優(yōu)于前者。融合Word2vec的深度神經(jīng)網(wǎng)絡(luò)模型比單獨(dú)的CNN或Att-BiLSTM模型在分類性能上表現(xiàn)更好。無論是否融合Word2vec模型,CNN模型較Att-BiLSTM模型表現(xiàn)都略優(yōu),可能與數(shù)據(jù)集中文本較短、上下文信息不豐富有關(guān)。BERT模型相較于傳統(tǒng)的文本分類模型和神經(jīng)網(wǎng)絡(luò)模型,性能提升非常明顯。

4 結(jié)語

互聯(lián)網(wǎng)上虛假健康信息泛濫,對(duì)于利用文本分類實(shí)現(xiàn)自動(dòng)識(shí)別需求非常迫切。文本分類是自然語言處理領(lǐng)域的研究熱點(diǎn)之一,傳統(tǒng)文本分類方法不適用于互聯(lián)網(wǎng)上常見健康信息的短文本分類。鑒于此,本文提出了基于深度學(xué)習(xí)的虛假健康信息識(shí)別方法,采用基于詞向量的深度神經(jīng)網(wǎng)絡(luò)模型和基于雙向編碼的語言表征模型,對(duì)健康相關(guān)信息文本進(jìn)行自動(dòng)分類。實(shí)驗(yàn)結(jié)果表明,該方法表現(xiàn)良好,在測試集上的準(zhǔn)確率最高可達(dá)88.1%,具備一定可行性。但由于目前訓(xùn)練和測試數(shù)據(jù)集較小,后續(xù)將收集更多的健康信息文本數(shù)據(jù),構(gòu)建更為復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合其它方法進(jìn)一步改進(jìn)模型性能。同時(shí),將探索本方法在互聯(lián)網(wǎng)健康信息文本類型之外數(shù)據(jù)上的表現(xiàn),以及將其應(yīng)用于醫(yī)學(xué)自然語言處理等其它領(lǐng)域的可能性。

參考文獻(xiàn):

[1]中華人民共和國國務(wù)院. “健康中國2030”規(guī)劃綱要[EB/OL]. https://baike.baidu.com/item/“健康中國2030”規(guī)劃綱要/19926077?fr=Aladdin.

[2]陳娟. 網(wǎng)絡(luò)環(huán)境下健康信息的可理解性研究[D]. 重慶:重慶醫(yī)科大學(xué),2017.

[3]MCKELVEY K R,MENCZER F.Truthy: Enabling the study of online social networks[C]. Proceedings of the 2013 Conference on Computer Supported Cooperative Work Companion,2013:23-26.

[4]微信安全團(tuán)隊(duì). 八月朋友圈十大謠言盤點(diǎn)[J]. 中國信息安全,2017(9):18-19.

[5]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].? Nature, 2015,521(7553):436-444.

[6]劉敬學(xué),孟凡榮,周勇,等. 字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2019(5):135-142.

[7]王楓飛. 文本分類中KNN算法優(yōu)化問題的研究[D]. 天津:天津理工大學(xué),2018.

[8]KIM Y. Convolutional neural networks for sentence classification[C]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014:1746-1751.

[9]MANDELBAUM A,SHALEV A.Word embeddings and their use in sentence classification tasks[DB/OL]. https://arxiv.org/abs/1610.08229,2016.

[10]李洋,董紅斌. 基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 計(jì)算機(jī)應(yīng)用,2018,38(11):3075-3080.

[11]宋祖康,閻瑞霞. 基于CNN-BIGRU的中文文本情感分類模型[J/OL]. 計(jì)算機(jī)技術(shù)與發(fā)展,2020(2):1-7[2019-12-09]. http://kns.cnki.net/kcms/detail/61.1450.TP.20191107.0912.042.html.

[12]劉政,衛(wèi)志華,張韌弦. 基于卷積神經(jīng)網(wǎng)絡(luò)的謠言檢測[J]. 計(jì)算機(jī)應(yīng)用,2017,37(11):3053-3056,3100.

[13]DEVLIN J,CHANG M W, LEE K,et al.BERT:Pre-training of deep bidirectional transformers for language understanding[DB/OL]. https://arxiv.org/abs/1810.04805,2018.

[14]胡春濤,秦錦康,陳靜梅,等. 基于BERT模型的輿情分類應(yīng)用研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(11):41-44.

[15]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[DB/OL]. https://arxiv.org/abs/1301.3781,2013.

[16]唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J]. 計(jì)算機(jī)科學(xué),2016,43(6):214-217,269.

[17]孫嘉琪,王曉曄,周曉雯. 基于神經(jīng)網(wǎng)絡(luò)模型的文本分類研究綜述[J]. 天津理工大學(xué)學(xué)報(bào),2019,35(5):29-33.

[18]李靜. 基于卷積神經(jīng)網(wǎng)絡(luò)的虛假評(píng)論的識(shí)別[J]. 軟件,2016,37(10):79-81.

[19]趙宏,王樂,王偉杰. 基于BiLSTM-CNN串行混合模型的文本情感分析[J/OL]. 計(jì)算機(jī)應(yīng)用:1-9[2019-12-09]. http://kns.cnki.net/kcms/detail/51.1307.TP.20191009.1421.022.html.

[20]孫承愛,丁宇,田剛. 基于GLU-CNN和Attention-BiLSTM的神經(jīng)網(wǎng)絡(luò)情感傾向性分析[J]. 軟件,2019,40(7):62-66.

[21]王英杰,謝彬,李寧波. ALICE:面向科技文本分析的預(yù)訓(xùn)練語言表征模型[J/OL]. 計(jì)算機(jī)工程:1-8[2019-12-09]. http://kns.cnki.net/kcms/detail/31.1289.TP.20190821.1541.009.html.

(責(zé)任編輯:孫 娟)

收稿日期:2019-12-11

基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(81674099,81804219);國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2017YFC1703500,2017YFC1703501,2017YFC1703503,2017YFC1703506);江蘇省自然科學(xué)基金項(xiàng)目(BK20180822);江蘇省“六大人才高峰”高層次人才項(xiàng)目(2016-XYDXXJS-047)

作者簡介:於張閑(1995-),女,南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院碩士研究生,研究方向?yàn)槲谋痉诸?冒宇清(1976-),男,博士,南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院教授,研究方向?yàn)樽匀徽Z言處理;胡孔法(1970-),男,博士,南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院教授,研究方向?yàn)槲锫?lián)網(wǎng)與云計(jì)算、中醫(yī)藥人工智能與大數(shù)據(jù)分析。本文通訊作者:冒宇清、胡孔法。

漾濞| 潍坊市| 班戈县| 富蕴县| 舟曲县| 嘉黎县| 隆安县| 海兴县| 中牟县| 藁城市| 平和县| 河源市| 临泽县| 民乐县| 临夏县| 建水县| 道真| 凌海市| 离岛区| 独山县| 洪雅县| 丰顺县| 临清市| 绥中县| 昌江| 甘孜县| 江北区| 卢氏县| 绍兴县| 南涧| 丹江口市| 读书| 淳安县| 四川省| 阿拉善右旗| 桑日县| 陵水| 连山| 绥江县| 阳江市| 慈利县|