李緒夫
摘? 要: 在大數(shù)據(jù)時代,醫(yī)藥專利數(shù)據(jù)的有效收集、整理和挖掘分析對醫(yī)藥行業(yè)發(fā)展愈發(fā)重要。當(dāng)前文本分類神經(jīng)網(wǎng)絡(luò)對醫(yī)藥專利標(biāo)簽的分類準(zhǔn)確率不夠高,為了有效提升專利標(biāo)簽的分類效果,設(shè)計了一種基于注意力機(jī)制的雙向長短時記憶神經(jīng)網(wǎng)絡(luò)分類模型。該模型避免了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的長期依賴問題,并充分利用全局信息,以實現(xiàn)文本信息的權(quán)重分布。
關(guān)鍵詞: 深度學(xué)習(xí); 專利分類; 長短期記憶網(wǎng)絡(luò); 注意力機(jī)制
Abstract: In the era of big data, the effective collecting, collating, mining and analysis of medical patent data is becoming more and more important for the development of pharmaceutical industry. The current text classification neural network is not accurate enough for the classification of medical patent labels. In order to improve the effect of patent label classification, a bidirectional long short-time memory neural network classification model based on attention mechanism is designed. The model avoids the long-term dependence of traditional cyclic neural network and makes full use of global information to realize the weight distribution of text information.
Key words: depth learning; patent classification; long short-term memory; attention mechanism
0 引言
人們已經(jīng)認(rèn)識到大數(shù)據(jù)中蘊(yùn)含著極為豐富的知識和潛在價值,通過對大數(shù)據(jù)進(jìn)行深層次的分析和挖掘,可以為各行業(yè)和領(lǐng)域提供有效的精準(zhǔn)化科學(xué)分析和決策支持。在知識產(chǎn)權(quán)中,專利作為重要的載體,儼然是一種寶貴的戰(zhàn)略資源。因此開展醫(yī)藥專利標(biāo)簽分類方法的研究,對實現(xiàn)大數(shù)據(jù)在醫(yī)藥方面的實際應(yīng)用,具有重要的社會效益和經(jīng)濟(jì)價值。
多年來,眾多學(xué)者對此進(jìn)行了深入的研究。Guibin Chen等人[1]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)( RNN)的結(jié)合模型,以實現(xiàn)對全局和局部文本語義的捕獲,在可接受的計算復(fù)雜性前提下,對高階標(biāo)簽相關(guān)性進(jìn)行建模處理。所提模型充分結(jié)合了CNN與RNN各自的優(yōu)勢,前者主要用于提取輸入文本,并把其映射為全局固定長度的特征向量,后者基于此確定其“初始狀態(tài)”或先驗知識,以實現(xiàn)標(biāo)簽序列的精準(zhǔn)預(yù)測。諸多學(xué)者采用CNN應(yīng)用于自然語言處理與文本信息的處理已做了大量的研究[2-3]。并且有學(xué)者在比較了CNN和RNN在自然語言處理的基礎(chǔ)之上,總結(jié)出了影響模型性能的一些關(guān)鍵參數(shù),如隱層尺寸、批尺寸[4]。Siwei等人[5]在所設(shè)計的模型中引入遞歸神經(jīng)網(wǎng)絡(luò)以實現(xiàn)對文本信息的精準(zhǔn)分類,并且不需要人為設(shè)計特征。在詞表征學(xué)習(xí)時,應(yīng)用遞歸結(jié)構(gòu)來盡可能地捕獲上下文信息,與傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡(luò)相比,引入的噪聲更小,實驗結(jié)果顯示性能更優(yōu)。但該模型不能充分提取上下文之間的語義結(jié)構(gòu)信息,存在長期依賴的問題,趙勤魯?shù)热说奈墨I(xiàn)[6]為解決這個問題,使用長短期記憶網(wǎng)絡(luò)(LSTM)對文本的詞語與詞語和句子、句子的特征信息進(jìn)行提取,提高了分類準(zhǔn)確率。為了抓取文本的關(guān)鍵信息,朱星嘉、潘曉英等人的文獻(xiàn)[7-8]引用了注意力機(jī)制,有效學(xué)習(xí)了文本特征。為了解決上述文獻(xiàn)中存在的問題,本文設(shè)計了一種基于注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)模型。
1 相關(guān)研究
1.1 LSTM
RNN是一系列處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)的總稱。其缺點主要是只能傳遞短期記憶,在輸入長序列數(shù)據(jù)時,梯度向量的分量會呈指數(shù)增長或衰減,即所謂的梯度爆炸或消失問題。
長短期記憶網(wǎng)絡(luò)是由Hochreiter等[9]提出的一種RNN變體,是為解決梯度爆炸和消失,避免長期依賴問題而設(shè)計的。LSTM的特點就在于通過增加各種門控來控制上一單元信息的通過量,并判斷當(dāng)前哪些信息可以傳遞給下一細(xì)胞狀態(tài)(cell state)。圖1所示為LSTM結(jié)構(gòu)。
在RNN的基礎(chǔ)上,LSTM引入了“門”結(jié)構(gòu)和記憶細(xì)胞?!伴T”結(jié)構(gòu)包含三個門遺忘門ft、輸入門it、輸出門ot,cell state則在序列處理過程中長時間攜帶相關(guān)信息,通過控制門實現(xiàn)信息的更新和保留。因此,相比于RNN,LSTM循環(huán)結(jié)構(gòu)之間保持一個具有持續(xù)性的單元狀態(tài)。LSTM的公式為:
其中,ht-1表示上一單元的輸出結(jié)果,xt表示當(dāng)前時刻的輸入,為sigmoid激活函數(shù),?表示點乘操作。式⑸記錄了當(dāng)前時刻記憶單元值,式⑹則表示了隱藏單元輸出值。直觀地說,遺忘門決定上一步需要丟棄哪部分信息,輸入門決定需要更新的信息,輸出門則決定下一個隱藏狀態(tài)輸出什么。
1.2 Glove基礎(chǔ)
Glove的全稱為Global Vectors for Word Representation,由Jeffrey Pennington等[10]提出,它是一個基于全局詞頻統(tǒng)計的詞表征工具,實現(xiàn)詞的向量化表示,使得向量之間盡可能多地蘊(yùn)含語義和語法的信息。 定義:用X表示統(tǒng)計共現(xiàn)矩陣,用Xij表示單詞j在單詞i的上下文語境中出現(xiàn)的次數(shù)。,表示任意單詞出現(xiàn)在詞i上下文中的次數(shù)。最后設(shè)為詞j出現(xiàn)在詞i上下文中的條件概率。
假如詞i,j都和詞k相關(guān)或不相關(guān),則的值接近1。若k和i相關(guān),k與j不相關(guān),則的值大于1,反之的值接近0。該論點揭示了詞向量學(xué)習(xí)的適當(dāng)起點應(yīng)該是共現(xiàn)概率的比值,而不是概率本身。用詞向量wi、wj、wk通過F(wi,wj,wk)函數(shù)計算ratio,也應(yīng)滿足上述規(guī)律,才能說明詞向量與共現(xiàn)矩陣具有一致性,因而構(gòu)建函數(shù)F(wi,wj,wk)=。
經(jīng)過一系列的轉(zhuǎn)化得到代價函數(shù)進(jìn)行求解,而在原模式中對所有的共現(xiàn)事件進(jìn)行了同等的權(quán)衡,因此出現(xiàn)了共現(xiàn)關(guān)系不平衡問題。所以引入了一種加權(quán)函數(shù)f(x)來解決問題。公式如下:
模型性能很小程度上取決于截止點,設(shè)xmax=100時加權(quán)函數(shù)圖為:
f(x)設(shè)計成這種分段函數(shù)的含義:共現(xiàn)次數(shù)Xij在0~100時,對損失函數(shù)的貢獻(xiàn)呈現(xiàn)出增長趨勢,即呈單調(diào)遞增;當(dāng)共現(xiàn)次數(shù)Xij達(dá)到100時,抵達(dá)上界,保持不變。
1.3 注意力機(jī)制
注意力機(jī)制模擬的就是人腦的注意力模型,例如在觀察事物時,視力會聚焦在某些特定部分,而忽略其他不重要的因素。也就是對整體的關(guān)注不是均衡的,有一定的權(quán)重區(qū)分,有利于模型發(fā)現(xiàn)重要特征,從而提高分類的精準(zhǔn)度??梢詫⑵淇闯墒且粋€組合函數(shù),通過計算注意力的概率分布,突出某個關(guān)鍵輸入對輸出的影響。計算公式如下:
hit表示當(dāng)前時刻的隱層狀態(tài),通過一個全連接層經(jīng)過非線性轉(zhuǎn)換為uit,然后計算uit與上下文向量uw的相似度并通過softmax轉(zhuǎn)換為概率分布,得到隱層輸出的權(quán)重系數(shù)αit,接著通過加權(quán)求和得到文本的向量表示C。
2 基于注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)專利分類模型
基于注意力機(jī)制的Bi-LSTM模型結(jié)構(gòu)如圖3所示。該模型主要包括預(yù)訓(xùn)練詞向量、文本特征提取、分類器。關(guān)于預(yù)訓(xùn)練部分,利用glove方法來訓(xùn)練醫(yī)藥專利的詞庫,得到其向量表示;模型特征提取部分,采用Bi-LSTM處理文本的整體上下文信息,在此基礎(chǔ)上加入Attention機(jī)制,使模型對具有不同標(biāo)簽語義貢獻(xiàn)度的詞匯進(jìn)行權(quán)值分配;關(guān)于分類器部分,則選擇softmax函數(shù)連接在模型的輸出端。
2.1 數(shù)據(jù)預(yù)處理
由于項目所提供數(shù)據(jù)存在各類標(biāo)簽,且由于存在缺省值,導(dǎo)致難以判斷數(shù)據(jù)是否完整。故把專利數(shù)據(jù)的標(biāo)簽、摘要、權(quán)利要求鏈接后成為一篇專利的數(shù)據(jù),在經(jīng)過去停用詞、去特殊字符、詞干化之后形成標(biāo)準(zhǔn)化的文本數(shù)據(jù)。要使得文本信息能作為深度學(xué)習(xí)等方法的輸入數(shù)據(jù),需要將其進(jìn)行詞向量化處理。進(jìn)行基準(zhǔn)實驗,使用word2vec和glove模型訓(xùn)練醫(yī)藥專利詞庫,并比較不同詞頻的分類效果。在對比實驗結(jié)果中,詞頻為10的glove模型效果達(dá)到了最優(yōu),選取該模型訓(xùn)練詞向量。
2.2 專利分類模型
傳統(tǒng)的LSTM在進(jìn)行文本分類時,只考慮以前的語義信息,使得文本的部分語義信息丟失,沒有充分運(yùn)用到文本資源。故采取雙向LSTM結(jié)構(gòu),通過前向傳遞層獲取文本上文信息,后向傳遞層獲取文本下文信息,從而在輸入層中的每個節(jié)點提供輸入序列的完整上下文語義信息,進(jìn)一步優(yōu)化模型。
計算在t時刻的隱藏狀態(tài)Ht的公式如下所示。
其中,xit表示在t時刻的輸入節(jié)點。
引入注意力機(jī)制,計算概率權(quán)重,即得到文本向量表示時對專利數(shù)據(jù)中不同詞賦予不同的權(quán)值,然后與當(dāng)前時刻的隱藏狀態(tài)進(jìn)行乘積運(yùn)算得到語義編碼,計算出文本的特征向量。最后將特征向量輸入到softmax分類器中處理分類問題。
2.3 評價指標(biāo)
本文采用性能評測中經(jīng)常使用的評價指標(biāo)即:查準(zhǔn)率(Precision)、召回率(Recall)、F1值(F_score)。計算公式如下:
3 實驗分析與結(jié)論
選取數(shù)據(jù)源自于歐洲專利局(EPO),EPO擁有世界上最完整的專利文獻(xiàn)資源,通過Espacenet,Global patent index,DOCDB三個系統(tǒng),提供專利文獻(xiàn)信息服務(wù)。針對人工標(biāo)引數(shù)據(jù)量小的問題,本文使用湯森路透的技術(shù)標(biāo)引數(shù)據(jù)來訓(xùn)練模型,按照8:2的比例對數(shù)據(jù)進(jìn)行訓(xùn)練和測試。其中,140581條樣本數(shù)據(jù)作為訓(xùn)練集,35145條樣本數(shù)據(jù)作為驗證集。
代碼編寫使用的是深度學(xué)習(xí)框架keras,后端是TensorFlow,編程語言是Python。所設(shè)計的模型中,Embedding層是詞向量層,字典長度為MAX_NB_WORDS+1(MAX_NB_WORDS=100000),全連接嵌入的維度為300,輸入序列的長度為2000。模型中加入Dropout以防止過擬合,參數(shù)設(shè)置丟碼率(dropout rate)為0.2;雙向LSTM的輸出維度設(shè)置為128,批處理參數(shù)(batch_size)設(shè)置為256,訓(xùn)練輪次(epochs)設(shè)置為10;優(yōu)化算法采用Adam算法,損失函數(shù)為binary_crossentropy,激活函數(shù)選用sigmoid函數(shù)。
本文將分類按藥品專利類型分為12種,包含新分子實體(NME)、給藥裝置(DDD)、醫(yī)藥中間體專利(MIP)、衍生物專利(NDT)、晶型專利(NCF)、制劑專利(NFP)、藥物組合物(NCP)、用途專利(NUS)、制備方法專利(NSP)、分析方法(NAM)、生物技術(shù)(BTN)、生物藥(BLA)。
在驗證模型的實驗中,將F1值為76.94%的三層CNN+noIPC(不考慮IPC屬性)模型作為基準(zhǔn)實驗。本文提出的雙向LSTM+attention模型的F1值為79.1%,分別對比其P(查準(zhǔn)率)和R(召回率),實驗結(jié)果如圖4所示。
實驗將本文模型與CNN算法進(jìn)行了對比,由此看出Bi-LSTM+Attention模型有效提升了分類效果。Bi-LSTM+Attention模型獲取了更全的上下文信息,且強(qiáng)化了關(guān)鍵信息的影響力,對比基準(zhǔn)實驗,在查準(zhǔn)率、召回率、F1值上均有提升。
參考文獻(xiàn)(References):
[1] Chen G,Ye D,Xing Z,et al.Ensemble Application ofConvolutional and Recurrent Neural Networks for Multi-label Text Categorization[C]// 2017 International Joint Conference on Neural Networks (IJCNN). IEEE,2017:2377-2383
[2] Kim Y. Convolutional Neural Networks for SentenceClassification[J]. arXiv preprintarXiv:1408.5882,2014.
[3] Hu B,Lu Z,Li H, et al. Convolutional Neural NetworkArchitectures for Matching Natural Language Sentences[J].arXiv:Computation and Language,2015.3:2042-2050
[4] Yin W, Kann K, Mo Y, et al. Comparative Study of CNNand RNN for Natural Language Processing[J]. arXiv preprintarXiv:1702.01923,2017.
[5] Lai S, Xu L, Liu K, et al. Recurrent convolutional neuralnetworks for text classification[C]. national conference on artificial intelligence,2015:2267-2273
[6] 趙勤魯,蔡曉東,李波,呂璐.基于LSTM-Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法[J]. 現(xiàn)代電子技術(shù),2018.41(8):167-170
[7] 朱星嘉,李紅蓮,呂學(xué)強(qiáng),周建設(shè),夏紅科.一種改進(jìn)的Attention-Based LSTM特征選擇模型[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2018.33(2):54-59
[8] 潘曉英,趙普,趙倩.基于BLSTM和注意力機(jī)制的電商評論情感分類模型[J].計算機(jī)與數(shù)字工程,2019.47(9):2227-2232
[9] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation,1997.9(8):1735-1780
[10] Pennington J, Socher R, Manning C D, et al. Glove: Global Vectors for Word Representation[C]. empirical methods in natural language processing, 2014:1532-1543