国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT的化妝品標準實體關(guān)系抽取技術(shù)研究

2023-03-22 15:06:06劉月恒黃惠吳迪邱顯榮張青川
科技風(fēng) 2023年7期
關(guān)鍵詞:化妝品注意力實體

劉月恒 黃惠 吳迪* 邱顯榮 張青川

1.太和康美(北京)中醫(yī)研究院有限公司 北京 102445;2.北京工商大學(xué)電商與物流學(xué)院 北京 100048

1 概述

隨著人們生活水平不斷提高,化妝品行業(yè)也得到越來越多人的關(guān)注。當前化妝品標準中的文本以及關(guān)鍵信息分布較為分散,這些信息多是獨立存在的,通過構(gòu)建化妝品標準知識圖譜可以有效地將這些信息關(guān)聯(lián)起來,能夠為國家監(jiān)管部門提供輔助決策支撐。

實體關(guān)系抽取是構(gòu)建知識圖譜的關(guān)鍵技術(shù),早期關(guān)系抽取任務(wù)主要有兩種,一種是基于規(guī)則[1-3]的方法,通過人工設(shè)計的一些規(guī)則來抽取實體關(guān)系三元組,主要包括基于觸發(fā)詞和基于依存關(guān)系的兩種方式;另一種是利用機器學(xué)習(xí)[4-5]來抽取實體和關(guān)系,主要依賴一些工具來提取文本的特征?;跈C器學(xué)習(xí)的方法以數(shù)據(jù)集標注量又可以劃分為有監(jiān)督、半監(jiān)督和無監(jiān)督的方法?;谝?guī)則的方法由于需要進行規(guī)則制定,這就導(dǎo)致需要花費大量的人力,并且對于信息量大以及文本結(jié)構(gòu)復(fù)雜的信息很難進行有效處理。利用機器學(xué)習(xí)的方法可以有效解決基于規(guī)則的方法存在的不足,并且其應(yīng)用也更加廣泛,但是該方法需要通過人工來進行特征提取,仍然存在泛化能力不足的缺點。

隨著深度學(xué)習(xí)的不斷發(fā)展,越來越多的學(xué)者開始采用深度學(xué)習(xí)的技術(shù)來提取文本中的實體和關(guān)系,這有效克服了機器學(xué)習(xí)的方法需要進行人工特征提取的不足,同時準確率也獲得了進一步的提升。參考文獻[6]中的學(xué)者提出一種基于SDP-LSTM的關(guān)系抽取模型,該模型可以利用最短的依賴路徑迭代地學(xué)習(xí)關(guān)系分類的特征。同時,利用LSTM單元進行遠程信息傳播和集成。參考文獻[7]中的學(xué)者提出了一種基于BERT的醫(yī)學(xué)關(guān)系提取模型,該模型將從預(yù)先訓(xùn)練的語言模型中獲得的整個句子信息與兩個醫(yī)療實體的對應(yīng)信息相結(jié)合,完成關(guān)系提取任務(wù)。丁澤源等[8]提出了一種pipeline的中文生物醫(yī)學(xué)實體關(guān)系抽取系統(tǒng),并且取得了較好的實驗結(jié)果。但是相比于公共的一些數(shù)據(jù)集,化妝品行業(yè)數(shù)據(jù)就有其獨特性,語料中存在大量的行業(yè)術(shù)語和專業(yè)名詞,這也是進行實體關(guān)系抽取的一大難點,基于此本文提出了一種融合注意力機制的BERT-BiLSTM-Attention-CRF的實體關(guān)系抽取模型,能夠有效地提取化妝品文本中的實體和關(guān)系信息。

2 模型

針對化妝品標準存在大量專有名詞以及語義稀釋等問題,我們提出了融合注意力機制的BERT-BiLSTM-Attention-CRF化妝品標準實體關(guān)系提取模型,模型的整體結(jié)構(gòu)如圖1所示。包含BERT、BiLSTM網(wǎng)絡(luò)層、Attention注意力機制和CRF層四部分。

圖1 BERT-BiLSTM-Attention-CRF

2.1 BERT

BERT[9]預(yù)訓(xùn)練語言模型采用12層Transformer編碼器進行編碼,該模型可以學(xué)習(xí)到輸入序列的特征表示,然后再把學(xué)習(xí)到的特征表示應(yīng)用到不同的下游任務(wù)中。BERT的預(yù)訓(xùn)練模型包括兩個訓(xùn)練任務(wù),Masked LM任務(wù)用來捕捉單詞級的特征,Next Sentence Prediction任務(wù)用來捕捉句子級的特征。在化妝品標準的實體關(guān)系抽取任務(wù)中,化妝品標準文本結(jié)構(gòu)更加復(fù)雜,語義也較為稀疏,相較于RNN,BERT能夠更好的捕捉上下文的文本特征,所以可以進一步提升實體識別的效果。

2.2 BiLSTM層

LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,允許每個神經(jīng)單元忘記或保留信息,克服了RNN在自然語言處理任務(wù)中容易出現(xiàn)梯度消失和梯度爆炸問題,具有長時記憶功能。但在化妝品標準文本中,一些專有名詞通常包含較多的字符,并且前后文之間有較強的依賴關(guān)系,所以本文采用了BiLSTM模型,BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個訓(xùn)練序列應(yīng)用一個前向和后向LSTM網(wǎng)絡(luò),兩個LSTM網(wǎng)絡(luò)連接到同一個輸出層。

LSTM網(wǎng)絡(luò)結(jié)構(gòu)包含輸入門、遺忘門和輸出門。模型的計算公式如下所示:

it=σ(Wi·[ht-1,Xt]+bi)

(1)

ft=σ(Wf·[ht-1,Xt]+bf)

(2)

(3)

ot=σ(Wo·[ht-1,Xt]+bo)

(4)

(5)

ht=ot*tanh(Ct)

(6)

其中,Wi、Wf、Wo是加權(quán)矩陣,bi、bf、bo是LSTM的偏差。it表示t時刻的輸入門,ft代表t時刻的遺忘門,ot分別代表t時刻的輸出門,Xt表示t時刻的輸入,ht和表示t時刻的輸入向量輸出。

2.3 Attention注意力機制

注意力機制就是對輸入的不同元素考慮不同的權(quán)重參數(shù),從而更加關(guān)注與輸入元素相似的部分,而抑制其他無用的信息。注意力機制可以在資源有限的情況下快速、準確地處理信息。由于在化妝品標準文本中存在語義稀疏的問題,通過引入注意力機制對提取的特征進行分配不同的權(quán)重,得到單詞重要性的文本特征表示,可以進一步提升模型的性能,并且能有效解決BiLSTM存在的不足。

2.4 CRF編碼器

條件隨機場(CRF)[10]是一種以指定的隨機變量為輸入,解決隨機輸出變量的條件概率分布的算法。CRF接收BiLSTM和Attention輸出的特征向量作為輸入,進行序列標注。CRF通過學(xué)習(xí)標簽之間的依賴關(guān)系,保證了標簽的有效性,從而得到最優(yōu)的標簽序列。CRF的基本算法定義如下:

(7)

(8)

其中BiLSTM層的輸出結(jié)果定義為Pmn,其中n表示單詞數(shù),m表示標簽類別。其中,Pij表示第i標簽與第j個標簽匹配的概率。對于輸入的句子序列X={x1,x2,…,xn}及其預(yù)測的序列Y={y1,y2,…,yn}。

3 實驗

3.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

實驗所用的數(shù)據(jù)集來源于化妝品標準,由于缺少相應(yīng)的公開數(shù)據(jù),本實驗采用爬蟲技術(shù)從食品伙伴網(wǎng)以及國家藥品監(jiān)督管理局等網(wǎng)站采集并通過人工校對,構(gòu)建了化妝品標準數(shù)據(jù)集(CSD)。并將該數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集,各子集的數(shù)據(jù)量見表1。

表1 實驗數(shù)據(jù)集

表2 實驗參數(shù)設(shè)置

3.2 實驗參數(shù)設(shè)置

3.3 評價指標

本文采用三個常見的指標,即精度(P)、召回率(R)和F1來評估我們的模型。計算公式如下:

(9)

其中P代表精確度,TPi表示實際正類,預(yù)測也為正類的數(shù)量,F(xiàn)Pi表示實際負類,預(yù)測為正類的數(shù)量。

(10)

其中R代表召回率,TPi表示實際正類,預(yù)測也為正類的數(shù)量,F(xiàn)Ni表示實際正類,預(yù)測為負類的數(shù)量。

(11)

其中P為精確度,R為召回率。

3.4 結(jié)果分析

結(jié)果表明,在未引入自注意力機制情況下,BERT-BiLSTM-Attention-CRF模型的準確率、召回率、F1值分別為88.94%、90.63%、89.78%。在BiLSTM后面引入注意力機制以后,可以看到實體關(guān)系抽取結(jié)果有了進一步的提高,準確率、召回率和F1值分別提升了2.67%、2.72%和2.96%,說明我們模型有效提升了實體關(guān)系抽取整體效果。相比于BERT模型,BERT-BiLSTM模型在F1值上提升了3.99%,這說明BiLSTM在實體關(guān)系抽取中發(fā)揮了積極作用。BiLSTM可以將輸入序列的信息向后組合,有助于提高實體識別效率。BERT-BiLSTM-CRF模型的性能高于BERT-BiLSTM模型,證明了CRF模型可以有效解決標簽之間的依賴關(guān)系。

結(jié)語

本文提出的融合了注意力機制的BERT-BiLSTM-Attention-CRF模型在引入注意力機制以后,可以有效的分配特征權(quán)重,排除噪音,提高模型在實體關(guān)系抽取中的性能,為構(gòu)建化妝品標準知識圖譜提供參考。同時在BiLSTM后面融合注意力機制可以有效解決在長文本中存在的語義稀疏的問題,但是本文未考慮到文本中存在的實體重疊的情況,這是我們接下來工作的一個方向。

猜你喜歡
化妝品注意力實體
讓注意力“飛”回來
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
圣誕化妝品包裝很雷同?那是因為你沒看見這些!
2018年,化妝品要“減負”!——便攜式化妝品成新熱點
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
如何讓你的化妝品發(fā)揮更大的功效
健康女性(2017年3期)2017-04-27 22:30:01
A Beautiful Way Of Looking At Things
舟曲县| 平乐县| 中超| 双桥区| 黄浦区| 朝阳市| 融水| 聊城市| 景谷| 襄城县| 遵化市| 宜阳县| 天峨县| 习水县| 浪卡子县| 七台河市| 东台市| 兰溪市| 明水县| 铁力市| 卓资县| 平顺县| 湘西| 通山县| 海林市| 松潘县| 辽源市| 邢台县| 湾仔区| 凤翔县| 临安市| 水富县| 拜泉县| 陆河县| 同江市| 衡阳市| 九寨沟县| 和林格尔县| 什邡市| 隆昌县| 乌恰县|