国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機制BiLSTM-CharCNN的藥物不良反應監(jiān)測方法

2022-10-24 09:29葸娟霞葉思維
現(xiàn)代計算機 2022年16期
關(guān)鍵詞:特征向量特征提取向量

葸娟霞,徐 鵬,葉思維

(廣東東軟學院信息管理與工程學院,佛山 528225)

0 引言

藥物不良反應(adverse drug reactions,簡稱ADR)是指患者在使用某種藥物治療疾病時所引發(fā)的有害反應。及時地知道藥物不良反應對醫(yī)藥公司和監(jiān)管機構(gòu)非常重要。獲得藥物不良反應的傳統(tǒng)方式具有時效低、更新慢的特點,因此需要找到一個具有時效性高,更新快的方法。人們在社交媒體上發(fā)表健康情況的推文滿足以上兩個特點,因此社交媒體也就成為藥物不良反應的研究數(shù)據(jù)來源。社交媒體的數(shù)據(jù)是用戶用藥的第一手資料,時效性高,覆蓋率廣,但如何在海量的數(shù)據(jù)里找到與ADR相關(guān)的推文,這對ADR研究是一項巨大的挑戰(zhàn)。

Sarker等對多種社交媒體資源進行全面挖掘,實現(xiàn)了多種特征的結(jié)合分析,這些特征包括n-gram特征、詞典特征、極性特征、情感分數(shù)特征和主題模型特征,通過實驗發(fā)現(xiàn)SVM算法的性能最好。Korkonteelos等關(guān)注到了情緒分析在藥物不良反應識別任務中的作用,他們利用一個新穎的情感分析算法并結(jié)合支持向量機(SVM)分類器,來實現(xiàn)對推特數(shù)據(jù)集上的藥物不良反應任務的識別及提取,其在推特數(shù)據(jù)上的1值達到了69.16%。Cocos等利用雙向長短時記憶網(wǎng)絡(BiLSTM)訓練推特數(shù)據(jù)集,其推文數(shù)量為844,最后的1值為0.755。Xia等利用遷移學習結(jié)合LSTM模型,在遷移學習的實例、特征表示、參數(shù)、關(guān)系知識4個方面進行了實驗,取得了良好的效果,使用遷移學習解決了數(shù)據(jù)稀缺的重要難題。Rezaei等使用推特的數(shù)據(jù)集,通過CNN、HNN和FastText三類深度學習網(wǎng)絡對其進行分類,這三種模型的輸入都采用word2Vec向量,最后證明了其方法的有效性。

本文提出基于注意力機制的BiLSTMCharCNN藥物不良反應推文識別方法。通過將字符級向量與詞向量相結(jié)合的方法來對推文進行識別。以社交媒體上人們討論健康情況的推文為實驗數(shù)據(jù),并將實驗結(jié)果與BiLSTM,CharCNN,BiLSTM+Attention,BiLSTM+CharCNN的結(jié)果進行對比,以召回率()、精確率()、1值為評價指標,驗證了本文所提出的基于注意力機制的BiLSTM-CharCNN藥物不良反應識別的有效性。

1 模型方法

1.1 詞向量表示

詞向量指的是將高維度離散的文本數(shù)據(jù)轉(zhuǎn)化為低維度密集向量,本文方法中的詞嵌入部分能夠準確地抓取詞語的語義。接著應用詞嵌入模型Word2vec,它可以通過機器學習模型將原來不同的詞轉(zhuǎn)化為不同的實數(shù)向量。Word2vec可以在大量文本數(shù)據(jù)集中進行局部訓練,訓練得到的結(jié)果—詞向量,可以很好地擬出度量詞與詞之間的相關(guān)性。

1.2 長短時記憶網(wǎng)絡LSTM

長短時記憶網(wǎng)絡(LSTM)是一種特殊的RNNs,能有效地解決傳統(tǒng)RNN在處理時間序列長期依賴中的梯度消失和梯度爆炸的問題。LSTM通過在RNN傳輸狀態(tài)后加入細胞狀態(tài)(C)來控制傳輸狀態(tài),由于在傳輸過程中細胞狀態(tài)變化較慢,誤差相對穩(wěn)定,可以在多個時間步上持續(xù)學習且在一定程度上加強LSTM的記憶能力。

LSTM的細胞結(jié)構(gòu)如圖1所示。

圖1 LSTM單元結(jié)構(gòu)

LSTM結(jié)構(gòu)中的核心部分是圖1中最上邊的線-C,叫做細胞狀態(tài)(cell state),它一直存在于LSTM的整個系統(tǒng)之中,其中:

式(1)中f叫做遺忘門,表示C的需要用作計算C的特征。f是一個向量,向量中的每個元素的范圍均介于[0,1]之間。通常使用sigmoid函數(shù)作為激活函數(shù)。上圖中的?代表LSTM中最重要的門機制,遺忘門表示的是hx之間的單位乘關(guān)系,可由公式(2)表示:

i叫做輸入門,由xh經(jīng)由sigmoid激活函數(shù)計算而來,如下所示:

最后,為了計算預測值和生成下一個時間片完整的輸入,需要計算隱節(jié)點輸出,如下式所示:

由式(6)和式(7)可知,隱節(jié)點輸出h取決于輸出門O和細胞狀態(tài)C,且O的計算方式與fi類似。

LSTM是一個信息單向傳播的模型,無法編碼從后到前的信息。但是對于一些文本分類任務來說,后邊的信息依然可以影響前邊的詞句。為了解決這個問題,提出了BiLSTM模型,其主要思路是將后向關(guān)系和前向關(guān)系鏈接到同一個輸出層,且在其中共享權(quán)值。其網(wǎng)絡結(jié)構(gòu)如圖2所示。

圖2 BiLSTM結(jié)構(gòu)圖

在前向?qū)訌?時刻到時刻正向計算一遍,然后將結(jié)果保存;同時,從時刻到1時刻,逆向計算一遍,同樣將計算結(jié)果保存;最后將正向計算和逆向計算的結(jié)果相加,得到整個BiLSTM的計算結(jié)果,其具體計算過程見下式:

1.3 注意力機制

注意力機制(attention mechanism)是一種模仿人類注意力的網(wǎng)絡構(gòu)架。在注意力資源有限的情況下,能夠有效篩選和提煉大量復雜冗余信息中的高質(zhì)量內(nèi)容,可以同時聚焦多個細節(jié)部分。注意力機制可以彌補信息的長距依賴性這一缺陷。

1.4 注意力機制的BiLSTM-CharCNN模型

本文的模型結(jié)構(gòu)如圖3所示:主要包括輸入層、特征提取層和輸出層。

圖3 模型框架圖

輸入層主要對原始的數(shù)據(jù)進行清洗、分詞等操作,轉(zhuǎn)化為較規(guī)范的文本形式;接下來,在特征提取階段,使用了兩種特征提取方法。

(1)字符級特征提?。菏褂肅harCNN模型提取字符級特征。首先對文本進行字符數(shù)字化,然后對其做卷積操作,對卷積的結(jié)果做Max-pooling池化操作,這樣的卷積池化操作共執(zhí)行3次。最后將其輸入全連接層,得到字符級特征向量。

(2)使用BiLSTM-Attention模型提取特征向量。首先,使用word2vec算法得到文本的詞向量,接下來將詞向量輸入到BiLSTM模型中,最后將得到的特征向量做Attention操作,這樣就能通過調(diào)整權(quán)重參數(shù)去除冗余信息,提取關(guān)鍵部分的信息,對文本進行優(yōu)化。再使用兩種不同的方法進行特征提取,并將提取到的特征信息進行連接,然后輸入到輸出層。輸出層包含一個全連接層和一個softmax層,使用全連接層調(diào)整特征向量的維數(shù),然后使用softmax分類器對文本進行分類操作。

1.5 算法描述

輸入:原始數(shù)據(jù)集;類別標記;

輸出:分類模型;模型的評價指標;

(1)數(shù)據(jù)預處理:p=(),函數(shù)主要包含數(shù)據(jù)清洗和分詞;

(2)特征提?。?/p>

①BiLSTM+Attention:=(p)函數(shù)包含多個步驟,具體如下:

②CharCNN:函數(shù)包含多個步驟,具體如下:

③=⊕F

(3)輸出層:softmax:=(),最后得到分類結(jié)果。

2 實驗與結(jié)果分析

2.1 實驗數(shù)據(jù)

本文所采用的數(shù)據(jù)集是SMM4H共享任務評測的數(shù)據(jù)集。該數(shù)據(jù)集主要提供了推特用戶發(fā)表推文的ID號和用戶的ID號。由于存在用戶刪帖等因素的存在,最后一共收集到7168條推文。在實驗之前,首先統(tǒng)計本研究的數(shù)據(jù)集,結(jié)果見表1。

表1 數(shù)據(jù)集統(tǒng)計

由于本研究數(shù)據(jù)集的樣本數(shù)較小,為了充分訓練,本文采用8∶2的數(shù)據(jù)集劃分方式,最后測試集的數(shù)據(jù)集是在訓練結(jié)束后在整個數(shù)據(jù)集上隨機采樣得到的。

表2給出了推文的示例。由表2可以看到,社交媒體的文本是不規(guī)范的,充斥著各種符號和URL等信息,所以需在實驗前對數(shù)據(jù)進行文本預處理。

表2 推文示意表

2.2 數(shù)據(jù)處理

因為推文數(shù)據(jù)都是不規(guī)則的、較口語化的文本內(nèi)容,所以首先需對推文數(shù)據(jù)進行文本預處理。表3顯示了文本預處理的實例。

表3 推文預處理示意表

文本具體的處理方法為:統(tǒng)一單詞的大小寫,將所有單詞轉(zhuǎn)化為小寫;將所有出現(xiàn)的URL、電子郵件地址以及提及的其他用戶名分別替換為“url”“email”“atSign”;推文中有一類標簽文本,表示推文的類型,在本文的研究模型中未使用到,所以將標簽類型刪掉;將推文中的數(shù)字部分修改為一個代表性的數(shù)字。

2.3 超參數(shù)選擇

本實驗采用正則化和Dropout的方法來降低模型的復雜度,避免過擬合。在CharCNN階段和BiLSTM階段均使用Dropout的方法來避免過擬合,在損失函數(shù)中引入了L2正則化,既能提升準確度,又能增加模型的魯棒性。本文使用Adam梯度下降法來加速模型的收斂速度。

在神經(jīng)網(wǎng)絡中隱藏層數(shù)、單元個數(shù)、批量大小或迭代次數(shù)等參數(shù)也被稱為超參數(shù),它們決定了特定神經(jīng)網(wǎng)絡結(jié)構(gòu)的總體設置。本實驗使用網(wǎng)格搜索的方法進行超參數(shù)選擇,即用預定義的超參數(shù)搜索空間的不同超參數(shù)組合來訓練神經(jīng)網(wǎng)絡結(jié)構(gòu)的多個不同版本,并評估這些參數(shù)組合,選擇在驗證集上評估性能最佳的配置作為最終的參數(shù)組合。

相關(guān)超參數(shù)設置:詞向量的維度設置為200維;CharCNN階段字符序列長度為1014;CharCNN卷積層層數(shù)設置為3;LSTM的時間步設置為128,LSTM輸出神經(jīng)元個數(shù)設置為12;訓練batch大小設置為64;迭代epoch設置為5;學習率設置為0.001;dropout值設置為0.9(這是dropKeepProb的值)。

2.4 評價指標

本文研究內(nèi)容是社交媒體上藥物不良反應檢測任務,是自然語言處理中常見的分類任務。與藥物不良反應有關(guān),標記為1;否則標記為0。預測結(jié)果的混淆矩陣如表4所示。其中,表示預測為與藥物不良反應有關(guān),實際也與藥物不良反應有關(guān);表示預測與藥物不良反應有關(guān),而實際無關(guān);表示預測與藥物反應無關(guān),而實際有關(guān);表示預測與藥物不良反應無關(guān),實際也無關(guān)。

表4 混淆矩陣

召回率表示模型實際為1的樣本,預測仍為1的樣本概率,其計算公式為:

精準率是指在所有預測為1的樣本中,實際為1的樣本比例,其計算公式為:

值是對召回率和精準率的綜合評價指標,是對其進行加權(quán)平均的結(jié)果,其計算公式為:

2.5 實驗結(jié)果及分析

為了驗證本研究提出模型的有效性,本文選取BiLSTM、CharCNN、BiLSTM+Attention算法做對比實驗,通過與經(jīng)典模型的對比分析,能夠準確地反映本模型的優(yōu)越性,其實驗結(jié)果如表5所示。

表5 藥物不良反應的二分類結(jié)果

表5中所有的數(shù)據(jù)都是在相同的實驗參數(shù)和相同數(shù)據(jù)集中訓練得到的結(jié)果,其中單獨的BiLSTM模型或者CharCNN模型在這個任務上的效果都欠佳,可以看到召回率都在0.5以下。其精準率很高,而召回率很低,這是因為精準率和召回率是兩個相互矛盾的指標。由公式(11)和(12)可得,精準率的大小與假正例成反比,召回率的大小與真正例成反比。這樣就導致精準率和召回率相互矛盾,類似于處于拔河比賽的兩端。而值能夠平衡這兩個指標,衡量模型性能的指標,但是這兩個模型的值也都處于一個較低的水準。

比較BiLSTM+Attention模型和單純使用BiLSTM模型的值和精準率,會發(fā)現(xiàn)值提高了約16%,召回率提高了約29%。同樣比較BiLSTM和BiLSTM+CharCNN,發(fā)現(xiàn)后者的值提高了約19%,召回率提高了約33%。比較BiLSTM+Attention和BiLSTM+CharCNN模型,發(fā)現(xiàn)相對于前者,后者召回率提高了4%,值提高了約3%,精準率提高了約2%。最后,本文用到的模型與前幾個模型相比,在精準率幾乎不變的情況下,召回率提高了約3%,值也提高了約1%。對于藥物不良反應的監(jiān)測問題,該模型在一定程度上提高有不良反應用戶被檢測出的概率。

3 結(jié)語

本文模型主要是對社交媒體上的藥物不良反應進行分類。使用了雙向長短時記憶網(wǎng)絡LSTM和CharCNN模型進行特征提取,同時結(jié)合注意力機制對特征向量進行優(yōu)化。使用雙向長短時記憶網(wǎng)絡,能夠完美保留LSTM處理文本的優(yōu)勢,處理長距離的依賴特征,并能保證更全面地考慮上下文信息。注意力機制能夠通過調(diào)整雙向長短時記憶網(wǎng)絡中各節(jié)點的權(quán)重,使得模型能夠識別文本中更加關(guān)鍵的部分,這樣能最大程度地削弱冗余部分對文本的影響,進而優(yōu)化特征向量。CharCNN從字符信息出發(fā),提取文本在字符粒度上的特征向量。與傳統(tǒng)的人為設計的文本特征和基于單一的神經(jīng)網(wǎng)絡提取的特征向量相比,能夠從不同層次更全面地描述推文中的文本特征,且能識別文本中的關(guān)鍵信息,進而在藥物不良反應的分類任務中取得更好的效果。下一步的研究重點就是如何確定推文中的不良反應所對應的相關(guān)藥物。

猜你喜歡
特征向量特征提取向量
同步定位與建圖特征提取和匹配算法研究
向量的分解
高中數(shù)學特征值和特征向量解題策略
三個高階微分方程的解法研究
基于MED—MOMEDA的風電齒輪箱復合故障特征提取研究
基于曲率局部二值模式的深度圖像手勢特征提取
氨基酸序列特征向量提取方法的探討
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
矩陣方法求一類數(shù)列的通項
宜丰县| 大洼县| 虞城县| 丰原市| 集安市| 平罗县| 巴林左旗| 曲周县| 全州县| 淳安县| 商城县| 江永县| 富源县| 枣阳市| 阿合奇县| 黎平县| 广平县| 镇原县| 寻甸| 巍山| 霍林郭勒市| 石屏县| 镇安县| 贵港市| 左贡县| 泰顺县| 新巴尔虎右旗| 闵行区| 宝鸡市| 昌乐县| 廊坊市| 小金县| 白山市| 光山县| 双江| 晋江市| 时尚| 保亭| 金山区| 林甸县| 土默特右旗|