国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

采用融合規(guī)則與BERT-FLAT模型對(duì)營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別

2021-12-30 00:28鄭麗敏任樂(lè)樂(lè)
關(guān)鍵詞:命名實(shí)體規(guī)則

鄭麗敏,任樂(lè)樂(lè)

采用融合規(guī)則與BERT-FLAT模型對(duì)營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別

鄭麗敏1,任樂(lè)樂(lè)2

(1. 食品質(zhì)量與安全北京實(shí)驗(yàn)室,北京 100083;2. 中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083)

人類(lèi)營(yíng)養(yǎng)健康命名實(shí)體識(shí)別旨在檢測(cè)營(yíng)養(yǎng)健康文本中的營(yíng)養(yǎng)實(shí)體,是進(jìn)一步挖掘營(yíng)養(yǎng)健康信息的關(guān)鍵步驟。雖然深度學(xué)習(xí)模型廣泛應(yīng)用在人類(lèi)營(yíng)養(yǎng)健康命名實(shí)體識(shí)別中,但沒(méi)有充分考慮到營(yíng)養(yǎng)健康文本中含有大量的復(fù)雜實(shí)體而出現(xiàn)長(zhǎng)距離依賴(lài)的特點(diǎn),且未能充分考慮詞匯信息和位置信息。針對(duì)人類(lèi)營(yíng)養(yǎng)健康文本的特點(diǎn),該研究提出了融合規(guī)則與BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,轉(zhuǎn)換器的雙向編碼器表征量-平格變壓器)模型的營(yíng)養(yǎng)健康文本命名實(shí)體識(shí)別方法,識(shí)別了營(yíng)養(yǎng)健康領(lǐng)域中食物、營(yíng)養(yǎng)物質(zhì)、人群、部位、病癥和功效作用6類(lèi)實(shí)體。首先通BERT模型將字符信息和詞匯信息進(jìn)行嵌入以提高模型對(duì)實(shí)體類(lèi)別的識(shí)別能力,再通過(guò)位置編碼與詞匯邊界信息結(jié)合的Transformer模型進(jìn)行編碼以提高模型對(duì)實(shí)體邊界的識(shí)別效果,利用CRF(Coditional Random Field,條件隨機(jī)場(chǎng))獲取字符預(yù)測(cè)序列,最后通過(guò)規(guī)則對(duì)預(yù)測(cè)序列進(jìn)行修正。試驗(yàn)結(jié)果表明,融合規(guī)則與BERT-FLAT模型的人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域識(shí)別的準(zhǔn)確率為95.00%,召回率為88.88%,F(xiàn)1分?jǐn)?shù)為91.81%。研究表明,該方法是一種有效的人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w識(shí)別方法,可以為農(nóng)業(yè)、醫(yī)療、食品安全等其他領(lǐng)域復(fù)雜命名實(shí)體識(shí)別提供新思路。

營(yíng)養(yǎng);健康;食物;命名實(shí)體識(shí)別;自注意力機(jī)制;BERT模型;Transformer模型

0 引 言

隨著中國(guó)居民生活水平不斷提高,人們健康意識(shí)不斷增強(qiáng),人們的飲食觀念從吃飽到吃好,再向?qū)崿F(xiàn)營(yíng)養(yǎng)均衡調(diào)理身體健康轉(zhuǎn)變,從有病治病向無(wú)病預(yù)防轉(zhuǎn)變[1]。通過(guò)良好的飲食習(xí)慣、注重食物的營(yíng)養(yǎng)搭配以及食用具有健康功能的食物可以防止和降低疾病發(fā)生率[2]。但是目前人們無(wú)法在海量的互聯(lián)網(wǎng)信息中快速定位準(zhǔn)確的個(gè)性化健康信息,無(wú)法滿足精準(zhǔn)營(yíng)養(yǎng)需求[3]。構(gòu)建人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域知識(shí)圖譜,存儲(chǔ)食物和病癥數(shù)據(jù),幫助用戶(hù)提供符合營(yíng)養(yǎng)標(biāo)準(zhǔn)的個(gè)性化飲食[4-5],對(duì)指導(dǎo)人們個(gè)性化健康飲食具有重要意義。營(yíng)養(yǎng)健康實(shí)體識(shí)別是構(gòu)建人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域知識(shí)圖譜的關(guān)鍵步驟,實(shí)體識(shí)別的效果會(huì)直接影響知識(shí)圖譜的質(zhì)量[6]。因此,需要研究有效的實(shí)體識(shí)別算法,準(zhǔn)確識(shí)別營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w,為營(yíng)養(yǎng)健康知識(shí)圖譜的構(gòu)建提供數(shù)據(jù)支撐。

命名實(shí)體識(shí)別(Named Entity Recognition,NER)在很多領(lǐng)域進(jìn)行了應(yīng)用,并且隨著深度學(xué)習(xí)的發(fā)展,模型能夠融合多種特征,捕捉更深層次的語(yǔ)義關(guān)系,達(dá)到理想的識(shí)別效果[7-9]。楊培等[10]使用注意力機(jī)制對(duì)化學(xué)領(lǐng)域藥物類(lèi)別實(shí)體進(jìn)行識(shí)別,解決了實(shí)體標(biāo)簽的全文非一致性問(wèn)題。Li等[11]將BiLSTM(Bi-directional Long Short-Term Memory,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))與CRF(Coditional Random Field,條件隨機(jī)場(chǎng))結(jié)合實(shí)現(xiàn)了中文電子病歷領(lǐng)域NER,張晗等[12]通過(guò)引入對(duì)抗訓(xùn)練的方式結(jié)合注意力機(jī)制與BiLSTM-CRF實(shí)現(xiàn)了軍事領(lǐng)域NER,董哲等[13]通過(guò)BERT與對(duì)抗網(wǎng)絡(luò)訓(xùn)練結(jié)合實(shí)現(xiàn)了食品領(lǐng)域的命名實(shí)體識(shí)別。任媛等[6]提出了融合注意力機(jī)制與BERT+BILSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別方法,解決了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率不高的問(wèn)題。以上方法對(duì)領(lǐng)域內(nèi)實(shí)體識(shí)別效果較好,但是無(wú)法直接使用到營(yíng)養(yǎng)健康領(lǐng)域識(shí)別復(fù)雜實(shí)體。

在營(yíng)養(yǎng)健康領(lǐng)域,王璐[14]使用基于統(tǒng)計(jì)的特征模板和CRF模型對(duì)健康膳食知識(shí)進(jìn)行命名實(shí)體識(shí)別,對(duì)于具有文本特征的數(shù)據(jù)取得了較好的識(shí)別效果,但是需依靠特征模板,對(duì)于多源數(shù)據(jù),需編制不同的特征模板,無(wú)法全面概括文本特征。遲楊[15]采用了基于詞典與統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的方法,解決了在健康飲食領(lǐng)域非結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體的問(wèn)題,可以在一定程度上保證實(shí)體的質(zhì)量,但是無(wú)法識(shí)別詞典以外的實(shí)體以及復(fù)雜實(shí)體。以上垂直領(lǐng)域命名實(shí)體識(shí)別方法僅預(yù)測(cè)了實(shí)體邊界和字符類(lèi)別標(biāo)簽,但是在中文命名實(shí)體識(shí)別任務(wù)中,沒(méi)有明顯的詞匯邊界,導(dǎo)致序列模型難以識(shí)別出復(fù)雜實(shí)體[16],據(jù)研究發(fā)現(xiàn),結(jié)合詞匯信息的字-詞格結(jié)構(gòu)[17-19]對(duì)命名實(shí)體識(shí)別任務(wù)很有效,但是由于晶格結(jié)構(gòu)復(fù)雜,不能實(shí)現(xiàn)并行計(jì)算,通常推理速度較慢。Li[20]等將格子結(jié)構(gòu)轉(zhuǎn)化為數(shù)個(gè)區(qū)間組成的平面結(jié)構(gòu),提出FLAT(Flat Lattice Transformer)模型,借助轉(zhuǎn)換器充分利用格子信息,實(shí)現(xiàn)并行化處理,且識(shí)別性能達(dá)到最優(yōu)。

在分析融合詞匯信息方法的基礎(chǔ)上,研究營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w識(shí)別方法,對(duì)營(yíng)養(yǎng)健康領(lǐng)域中食物、營(yíng)養(yǎng)物質(zhì)、人群、部位、病癥和功效6類(lèi)實(shí)體進(jìn)行識(shí)別,提出了融合規(guī)則與BERT-FLAT模型的營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別方法,以實(shí)現(xiàn)營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w的精準(zhǔn)識(shí)別,為農(nóng)業(yè)、醫(yī)療、食品等領(lǐng)域?qū)嶓w識(shí)別提供新思路。

1 材料與方法

1.1 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理

1.1.1 語(yǔ)料采集

營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別沒(méi)有公開(kāi)的語(yǔ)料數(shù)據(jù)集,本研究的數(shù)據(jù)來(lái)源主要通過(guò)Python語(yǔ)言構(gòu)建爬蟲(chóng)框架,獲取各網(wǎng)站(如生命時(shí)報(bào)網(wǎng)、中華養(yǎng)生網(wǎng)、食品科學(xué)網(wǎng)等)中關(guān)于飲食健康、食療和養(yǎng)生文本語(yǔ)料,共獲取2 135篇文本語(yǔ)料。

營(yíng)養(yǎng)健康領(lǐng)域詞典涉及到多個(gè)實(shí)體類(lèi)型,且沒(méi)有公共詞典,本研究通過(guò)爬蟲(chóng)構(gòu)建營(yíng)養(yǎng)健康領(lǐng)域詞典,詞匯主要來(lái)源為《中國(guó)居民膳食營(yíng)養(yǎng)素參考攝入量》2013修訂版[21]、搜狗輸入法細(xì)胞詞庫(kù)、百度輸入法詞庫(kù)、清華大學(xué)自然語(yǔ)言處理(Natural Language Processing,NLP)詞庫(kù)以及現(xiàn)有醫(yī)學(xué)數(shù)據(jù)庫(kù)北京大學(xué)SymMap[22],共計(jì)170 000詞匯。

1.1.2 語(yǔ)料處理

試驗(yàn)數(shù)據(jù)包含大量網(wǎng)頁(yè)標(biāo)簽、鏈接、特殊字符等非文本數(shù)據(jù)結(jié)構(gòu),影響數(shù)據(jù)標(biāo)注的質(zhì)量。首先對(duì)數(shù)據(jù)進(jìn)行初步清洗,刪除包含特殊字符、無(wú)關(guān)營(yíng)養(yǎng)健康等噪聲文本。將初步清洗的文本語(yǔ)料進(jìn)行分句,并清除噪聲句子,最終得到113 747個(gè)句子。

1.1.3 詞典處理

對(duì)營(yíng)養(yǎng)健康領(lǐng)域詞匯進(jìn)行分類(lèi),包括食物、營(yíng)養(yǎng)物質(zhì)、人群、病癥、功效和部位6類(lèi)。其中營(yíng)養(yǎng)物質(zhì)包括《中國(guó)居民膳食營(yíng)養(yǎng)素參考攝入量》中包含的33種膳食營(yíng)養(yǎng)元素,而非膳食營(yíng)養(yǎng)素目前研究較少?zèng)]有明確的定義,但對(duì)人體的健康具有非常重要的作用,本研究將除膳食營(yíng)養(yǎng)元素的物質(zhì)均定義為非膳食營(yíng)養(yǎng)元素。通過(guò)對(duì)詞匯人工清洗,最終構(gòu)建了6類(lèi)詞典,各類(lèi)詞典定義及詞匯量如表1所示。

另外根據(jù)獲取的詞匯,定義了4類(lèi)特征詞典,其中烹飪?cè)~典表示菜肴的烹飪方式,顏色詞典表示食材中常見(jiàn)的顏色,狀態(tài)詞匯和物質(zhì)詞匯分別表示食物和營(yíng)養(yǎng)物質(zhì)常見(jiàn)的詞尾,4類(lèi)特征詞典詞匯量與實(shí)例如表2所示。

1.1.4 語(yǔ)料標(biāo)注

由于營(yíng)養(yǎng)健康領(lǐng)域的標(biāo)注數(shù)據(jù)庫(kù)的匱乏,領(lǐng)域中沒(méi)有一個(gè)廣泛使用的標(biāo)注規(guī)范[23]。結(jié)合營(yíng)養(yǎng)健康領(lǐng)域知識(shí)特點(diǎn),采用人工標(biāo)注方式進(jìn)行語(yǔ)料庫(kù)標(biāo)注,語(yǔ)料庫(kù)包含實(shí)體共89 574個(gè),其中食物40 582個(gè)、營(yíng)養(yǎng)物質(zhì)13 848個(gè)、人群2 528個(gè)、病癥11 626個(gè)、功效13 797個(gè)和部位7 196個(gè)。不同類(lèi)型實(shí)體標(biāo)注符號(hào)與實(shí)例如表3所示。語(yǔ)料庫(kù)標(biāo)注示例如圖1所示。

表1 領(lǐng)域詞典類(lèi)別、定義及詞匯量

表2 4類(lèi)特征詞典詞匯量與實(shí)例

表3 營(yíng)養(yǎng)健康實(shí)體標(biāo)注符號(hào)與示例

1.2 融合規(guī)則與BERT-FLAT的營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別模型

1.2.1 模型總體架構(gòu)設(shè)計(jì)

在營(yíng)養(yǎng)健康領(lǐng)域中存在大量的復(fù)雜實(shí)體和專(zhuān)有名詞,如果使用基于字粒度的命名實(shí)體識(shí)別模型,會(huì)導(dǎo)致字在詞匯中的語(yǔ)義表達(dá)缺失,并且丟失詞邊界信息,如果使用基于詞粒度的命名實(shí)體識(shí)別模型會(huì)出現(xiàn)分詞錯(cuò)誤傳播問(wèn)題[17],詞匯邊界對(duì)實(shí)體邊界通常起著至關(guān)重要的作用,因此提出將字符與詞匯進(jìn)行融合的實(shí)體識(shí)別方法。此外,由于部分營(yíng)養(yǎng)健康領(lǐng)域的文本序列較長(zhǎng),若采用固定長(zhǎng)度的上下文變量,會(huì)導(dǎo)致語(yǔ)料分片之間無(wú)法信息共享,丟失上下文信息,需要采用有效的方法解決長(zhǎng)距離依賴(lài)問(wèn)題。在設(shè)計(jì)營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w識(shí)別模型時(shí)需要考慮字粒度和詞粒度信息融合、詞匯邊界信息和長(zhǎng)距離依賴(lài)等問(wèn)題。

對(duì)常用的命名實(shí)體識(shí)別模型研究發(fā)現(xiàn),BERT預(yù)訓(xùn)練模型可以用來(lái)提取包含上下文的文本信息,但是BERT在垂直領(lǐng)域命名實(shí)體識(shí)別任務(wù)中需要領(lǐng)域內(nèi)的詞匯信息加持;Transformer的自注意力機(jī)制能夠捕捉句子之間的長(zhǎng)距離依賴(lài);CRF能夠?qū)︻A(yù)測(cè)標(biāo)簽進(jìn)行解碼;根據(jù)營(yíng)養(yǎng)健康文本特點(diǎn),制定文本規(guī)則,能夠?qū)獯a序列進(jìn)一步修正。因此,提出了一種融合規(guī)則與BERT-FLAT的命名實(shí)體識(shí)別方法。

融合規(guī)則與BERT-FLAT模型總體結(jié)構(gòu)如圖2所示。共分為3層網(wǎng)絡(luò)模型,首先將字符信息和詞匯信息進(jìn)行拼接,輸入到BERT模型中進(jìn)行實(shí)體識(shí)別模型的預(yù)訓(xùn)練處理,然后為每個(gè)字符和詞匯構(gòu)建頭位置編碼和尾位置編碼,表示字或詞的開(kāi)始位置和結(jié)束位置,將BERT層輸出作為字符嵌入和構(gòu)建的詞嵌入輸入到FLAT層進(jìn)行編碼,獲取編碼序列,為了解決梯度消失問(wèn)題在自注意力機(jī)制和全連接層均加入殘差連接與歸一化,保證信息的無(wú)差傳遞。再將FLAT層輸出的編碼序列輸入到CRF層進(jìn)行解碼,獲取單詞的預(yù)測(cè)標(biāo)簽,最后根據(jù)營(yíng)養(yǎng)健康領(lǐng)域文本規(guī)則修正序列標(biāo)簽,得到最終預(yù)測(cè)結(jié)果。

1.2.2 嵌入層

嵌入層是將中文文本序列轉(zhuǎn)換為字符或詞匯的密集向量表示或分布式表示[24]。BERT模型是一個(gè)包含字符級(jí)、句子級(jí)特征的預(yù)訓(xùn)練語(yǔ)言模型[25],為捕捉上下文信息,BERT采用雙向Transformer作為編碼器,通過(guò)注意力機(jī)制對(duì)文本進(jìn)行建模。BERT模型的輸入將字嵌入、位置嵌入和句子嵌入進(jìn)行拼接,輸入堆疊的Transformer模型中進(jìn)行特征提取,進(jìn)而得到輸出序列向量作為字符嵌入。BERT模型結(jié)構(gòu)如圖3所示。

注:[CLS]和[SEP]表示BERT對(duì)序列的標(biāo)記,[CLS]標(biāo)識(shí)序列開(kāi)始位置,[SEP]標(biāo)識(shí)句子見(jiàn)分割;E表示每個(gè)字符的分布式表達(dá);Trm表示BERT模型中堆疊的Transformer模型;T表示BERT模型輸出的序列向量。

詞嵌入即用向量表示詞匯,主要分為兩種:基于計(jì)數(shù)方法和基于推理方法。基于計(jì)數(shù)的方法是獲取語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù),一次性處理全部學(xué)習(xí)數(shù)據(jù),但當(dāng)詞匯量很大時(shí),會(huì)導(dǎo)致計(jì)算機(jī)難以處理。而基于推理的方法是通過(guò)神經(jīng)網(wǎng)絡(luò)在部分?jǐn)?shù)據(jù)上學(xué)習(xí),并反復(fù)更新權(quán)重[26]。Word2vec是基于推理方法實(shí)現(xiàn)的詞嵌入學(xué)習(xí)模型,能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)中耗時(shí)的線性隱藏層去除,研究表明Word2vec模型的效果較好[27],因此本研究采取Word2vec訓(xùn)練詞嵌入。

1.2.3 FLAT層

營(yíng)養(yǎng)健康領(lǐng)域中存在大量的復(fù)雜實(shí)體,且實(shí)體中存在潛在實(shí)體,不同順序的輸入序列標(biāo)識(shí)不同的實(shí)體,因此輸入序列的位置信息對(duì)于NER任務(wù)非常重要。Transformer模型不僅可以對(duì)序列中的長(zhǎng)距離依賴(lài)進(jìn)行建模[20],同時(shí)還標(biāo)記了序列的位置信息。本研究在Transformer編碼器的基礎(chǔ)上改進(jìn)位置編碼,為每個(gè)字符和詞匯構(gòu)建頭位置與尾位置,分別表示字符和詞匯的開(kāi)始位置與結(jié)束位置,若頭位置與尾位置相同表示當(dāng)前表示為字符,反之為詞匯。將BERT模型輸出的字符嵌入與構(gòu)建的詞嵌入結(jié)合輸入到FLAT層的Transformer編碼器中,獲取編碼序列,字符嵌入和詞匯嵌入如圖4所示。

注:Transformer Encoder表示Transformer模型編碼器;B_Food、M_Food、E_Food分別對(duì)應(yīng)食物類(lèi)型實(shí)體的開(kāi)始位置、中間位置和結(jié)束位置。

Note: Transformer Encoder represents the encoder of the Transformer; B_Food, M_Food, E_Food represent the begin, middle, and end positions of the food type entity respectively.

圖4 字符嵌入和詞匯嵌入

Fig.4 Character embedding and vocabulary embedding

根據(jù)每個(gè)區(qū)間的頭位置和尾位置,可將區(qū)間間的關(guān)系劃分為包含、相交、相離。為表示3種區(qū)間關(guān)系,首先通過(guò)式(1)~式(4)構(gòu)建區(qū)間的相對(duì)位置矩陣。

然后將4個(gè)相對(duì)位置矩陣拼接,計(jì)算區(qū)間x、x相對(duì)位置編碼,如式(5)所示。

式中表示輸入?yún)^(qū)間相對(duì)距離,表示位置編碼的維度索引,model表示多頭注意力機(jī)制中映射的向量維度。

1.2.4 解碼層

1.2.5 規(guī)則修正

由于營(yíng)養(yǎng)健康領(lǐng)域中存在大量的復(fù)雜實(shí)體且實(shí)體規(guī)則性較強(qiáng),本研究制定了相應(yīng)的規(guī)則對(duì)BERT-FLAT模型的初步預(yù)測(cè)結(jié)果進(jìn)行修正,具體的修正規(guī)則如下:

1)食物類(lèi)型實(shí)體:部分食物名稱(chēng)存在實(shí)體重疊現(xiàn)象,設(shè)定規(guī)則當(dāng)食物實(shí)體中前后緊鄰食物詞匯、烹飪?cè)~匯、表示顏色的詞匯等,將其共同修正為食物實(shí)體;

2)營(yíng)養(yǎng)物質(zhì)類(lèi)型實(shí)體:食物中含有的營(yíng)養(yǎng)物質(zhì)名稱(chēng),如“類(lèi)胡蘿卜素”,模型將其預(yù)測(cè)為“O|B_FOOD| M_FOOD|E_FOOD|O”和“O|B_FOOD| M_FOOD| M_FOOD|E_FOOD”,沒(méi)有對(duì)營(yíng)養(yǎng)物質(zhì)正確預(yù)測(cè),因此設(shè)定規(guī)則將食物詞匯周?chē)霈F(xiàn)的營(yíng)養(yǎng)詞匯,合并為營(yíng)養(yǎng)物質(zhì)實(shí)體;

3)病癥類(lèi)型實(shí)體:對(duì)于病癥類(lèi)型的實(shí)體,若緊鄰詞匯中出現(xiàn)了人群、器官等,則將其修正為病癥類(lèi)型實(shí)體;

4)器官類(lèi)型實(shí)體:對(duì)于器官類(lèi)型的實(shí)體,若緊鄰詞匯中出現(xiàn)了器官,則將其修正為器官類(lèi)型的實(shí)體。

在規(guī)則修正過(guò)程中,定義滑動(dòng)窗口大小為1,以關(guān)鍵詞為中心,對(duì)上下文搜索1個(gè)實(shí)體,即若相鄰預(yù)測(cè)標(biāo)簽為O,則判斷是否為特征詞匯,將特征詞匯合并為相關(guān)實(shí)體,若相鄰預(yù)測(cè)標(biāo)簽為實(shí)體詞匯,則查找對(duì)應(yīng)規(guī)則合并為相關(guān)實(shí)體,營(yíng)養(yǎng)文本規(guī)則如表4所示。

1.3 試驗(yàn)設(shè)計(jì)

1.3.1 試驗(yàn)語(yǔ)料

語(yǔ)料標(biāo)注的主要來(lái)源是從分句結(jié)果中選取與食物、營(yíng)養(yǎng)物質(zhì)、病癥等相關(guān)的文本共計(jì)24 000句,如西紅柿、紅豆薏米粥、補(bǔ)血、膳食纖維、胡蘿卜素等。將標(biāo)注數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集與測(cè)試集進(jìn)行試驗(yàn)。

表4 營(yíng)養(yǎng)文本規(guī)則

注:+表示連接相鄰的實(shí)體類(lèi)型;=表示連接后形成的新實(shí)體類(lèi)型。

Note: + indicates the type of entities that are connected adjacent to each other; = indicates the type of new entities formed after the connection.

1.3.2 評(píng)價(jià)指標(biāo)

在對(duì)比不同模型的能力時(shí),需要采用相同的性能度量。命名實(shí)體識(shí)別任務(wù)中常使用準(zhǔn)確率、召回率和1分?jǐn)?shù)作為度量標(biāo)準(zhǔn),并且1分?jǐn)?shù)能夠綜合評(píng)價(jià)模型的識(shí)別性能[31]。本研究的目標(biāo)是通過(guò)融合規(guī)則與BERT-FLAT模型自動(dòng)識(shí)別文本中的實(shí)體,為構(gòu)建營(yíng)養(yǎng)健康領(lǐng)域知識(shí)圖譜提供數(shù)據(jù)支撐,因此使用準(zhǔn)確率、召回率和1分?jǐn)?shù)衡量實(shí)體抽取效果,3種指標(biāo)根據(jù)式(11)~式(13)計(jì)算。

式中表示精確率,表示召回率,1表示1分?jǐn)?shù)。

1.3.3 試驗(yàn)參數(shù)

神經(jīng)網(wǎng)絡(luò)模型中超參數(shù)的設(shè)置對(duì)模型的性能有很大的影響,學(xué)習(xí)率用于控制權(quán)值的更新速度,加快模型訓(xùn)練并提升識(shí)別能力。優(yōu)化器用來(lái)更新和計(jì)算影響模型訓(xùn)練和輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值[32],動(dòng)量用以控制梯度下降的速度。權(quán)重衰減、丟失率、多頭注意力機(jī)制3個(gè)參數(shù)會(huì)影響模型的收斂速度,需要設(shè)置合適的值以防模型出現(xiàn)過(guò)擬合。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,融合規(guī)則與BERT-FLAT模型的參數(shù)設(shè)置如表5所示。

表5 融合規(guī)則與BERET-FLAT模型的參數(shù)設(shè)置

2 結(jié)果與分析

2.1 預(yù)試驗(yàn)

驗(yàn)證所使用的相對(duì)位置編碼和外部詞表引入的有效性,對(duì)BERT+BiLSTM+CRF模型和融入位置信息的BERT+BiLSTM+CRF模型進(jìn)行了試驗(yàn)。融合位置信息的BERT+BiLSTM+CRF是對(duì)輸入序列中單字標(biāo)識(shí)為0,多字詞開(kāi)始位置標(biāo)識(shí)為1,中間位置標(biāo)識(shí)為2,結(jié)束位置標(biāo)識(shí)為3,然后將輸入文本序列的詞匯相對(duì)位置編碼信息與BERT模型輸出進(jìn)行拼接,試驗(yàn)結(jié)果如表6所示。從表6中可以看出在加入位置信息后,對(duì)營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別的準(zhǔn)確率、召回率和1分?jǐn)?shù)分別為86.56%、91.01%和88.72%,與BERT+BiLSTM+CRF模型相比,準(zhǔn)確率、召回率和1分?jǐn)?shù)分別提升了1.55、0.20、0.32個(gè)百分點(diǎn),說(shuō)明位置信息的引入對(duì)營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別任務(wù)有提升作用。

表6 預(yù)試驗(yàn)識(shí)別效果

注:BERT*+BiLSTM+CRF表示融合位置信息的BERT+BiLSTM+CRF模型。

Note: BERT*+BiLSTM+CRF represents the BERT+BiLSTM+CRF model fused with location information.

2.2 模型性能比較分析

使用精確率、召回率和F1分?jǐn)?shù)三值作為評(píng)價(jià)指標(biāo),首先在BERT+BiLSTM+CRF[25]、迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)[33](Iterated dilated convolutional neural networks,IDCNN)、BiLSTM+CRF[34]、FLAT等幾個(gè)主流的命名實(shí)體識(shí)別模型進(jìn)行了對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表7所示。

表7 不同模型的命名實(shí)體識(shí)別效果

注:IDCNN2和IDCNN的區(qū)別在于卷積層和全連接層的參數(shù)不同。

Note: The difference between IDCNN2 and IDCNN is the parameters of the convolutional layer and the fully connected layer.

從表8中可以看出,在IDCNN-CRF、IDCNN2-CRF、BiLSMT-CRF、BiLSTM-Attention-CRF、FLAT、BERT- FLAT中BERT-FLAT模型取得了最優(yōu)結(jié)果,準(zhǔn)確率、召回率、F1分?jǐn)?shù)分別為85.89%、92.33%、88.99%,說(shuō)明使用BERT預(yù)訓(xùn)練語(yǔ)言模型結(jié)合字詞融合模型能夠有效的對(duì)實(shí)體進(jìn)行識(shí)別。BERT-FLAT模型性能提升的主要原因在于模型中引入的詞匯、字符的相對(duì)位置關(guān)系有利于定位實(shí)體,其次引入詞嵌入作為先驗(yàn)知識(shí)融入到模型中有利于實(shí)體的分類(lèi)。在BERT-FLAT模型的基礎(chǔ)上增加了營(yíng)養(yǎng)領(lǐng)域文本規(guī)則修正解碼序列,融合規(guī)則與BERT-FLAT模型具有很好的識(shí)別效果,雖然召回率低于BERT-FLAT模型,其主要原因在于部分正確識(shí)別的實(shí)體由于規(guī)則的引入調(diào)整為錯(cuò)誤實(shí)體,導(dǎo)致召回率偏高,但是準(zhǔn)確率和1分?jǐn)?shù)分別提升了9.11和2.82個(gè)百分點(diǎn),因此,通過(guò)試驗(yàn)證明了規(guī)則的加入在一定程度上對(duì)融合規(guī)則與BERT-FLAT模型的預(yù)測(cè)結(jié)果進(jìn)行了優(yōu)化,對(duì)部分錯(cuò)誤標(biāo)簽實(shí)現(xiàn)了修正功能,且修正的數(shù)量大于干擾的數(shù)量。

2.3 識(shí)別詳情分析

融合規(guī)則與BERT-FLAT模型在營(yíng)養(yǎng)健康領(lǐng)域文本中各實(shí)體類(lèi)別精確率、召回率、1分?jǐn)?shù)如表8所示。從表中可以看出,無(wú)論在準(zhǔn)確率、召回率還是1分?jǐn)?shù)方面,食物類(lèi)型實(shí)體相比于其他實(shí)體類(lèi)型識(shí)別性能較低,主要包含了2個(gè)原因:1)食物實(shí)體類(lèi)型中包含了大部分的嵌套實(shí)體,導(dǎo)致實(shí)體識(shí)別的不完全;2)由于規(guī)則的制定,導(dǎo)致詞匯融合錯(cuò)誤,干擾了模型的識(shí)別性能。除食物類(lèi)型實(shí)體,其他實(shí)體類(lèi)型的精確率、召回率和1分?jǐn)?shù)大部分在90%以上,且人群實(shí)體準(zhǔn)確率和1分?jǐn)?shù)達(dá)到了97.68%和95.16%,說(shuō)明本模型整體識(shí)別性能較好。

表8 融合規(guī)則與BERT-FLAT模型各類(lèi)實(shí)體識(shí)別效果

3 結(jié) 論

1)本研究針對(duì)人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域含有大量復(fù)雜實(shí)體且文本序列較長(zhǎng)問(wèn)題,提出了將字符信息與詞匯信息融合的方法,結(jié)合外部此表為文本中的詞匯構(gòu)建位置向量,并通過(guò)預(yù)試驗(yàn)證明了詞表及位置特征對(duì)于命名實(shí)體任務(wù)的有效性。

2)針對(duì)營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w識(shí)別準(zhǔn)確率不高的問(wèn)題,根據(jù)營(yíng)養(yǎng)健康文本特征,定義7種營(yíng)養(yǎng)文本規(guī)則,并設(shè)計(jì)了融合規(guī)則與BERT-FLAT模型的營(yíng)養(yǎng)健康命名實(shí)體識(shí)別方法,該方法通過(guò)BERT模型進(jìn)行預(yù)訓(xùn)練,并借助位置向量定位實(shí)體位置,實(shí)現(xiàn)字符與詞匯的交互,使用自注意力機(jī)制捕捉長(zhǎng)距離依賴(lài),通過(guò)規(guī)則后處理的方式,對(duì)解碼序列進(jìn)行修正。相比于BERT-FLAT模型,本研究提出的融合規(guī)則與BERT-FLAT模型的識(shí)別效果有了明顯的提升,1分?jǐn)?shù)為91.81%,解決了營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w識(shí)別準(zhǔn)確率不高的問(wèn)題,是一種有效的人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域?qū)嶓w識(shí)別方法,可以為農(nóng)業(yè)、醫(yī)療、食品安全等其他領(lǐng)域復(fù)雜命名實(shí)體識(shí)別提供新思路。

雖然本研究提出的融合規(guī)則與BERT-FLAT模型證明在人類(lèi)營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別任務(wù)中有效,但是在提高食物類(lèi)型實(shí)體識(shí)別準(zhǔn)確度、復(fù)雜實(shí)體抽取、規(guī)則處理等方面仍有提升空間。

[1] 周旻. 中國(guó)特膳食品發(fā)展現(xiàn)狀及建議[J]. 合作經(jīng)濟(jì)與科技,2021(14):52-54.

Zhou Min. Development status and suggestions of special food in China[J]. CO-Oerativeconomy & Science, 2021(14): 52-54. (in Chinese with English abstract)

[2] 任發(fā)政. 乳的營(yíng)養(yǎng)與健康[J]. 中國(guó)食品學(xué)報(bào),2020,20(7):1-9.

Ren Fazheng. Advances in milk nutrition and human health[J]. Journal of Chinese Institute of Food Science and Technology, 2020, 20(7): 1-9. (in Chinese with English abstract)

[3] 喻兵. 基于多維度特征的飲食干預(yù)方法研究[D]. 湘潭:湘潭大學(xué),2019.

Yu Bing. Research on Dietary Intervention Bases on Multi-dimensional Characteristics[D]. Xiangtan: Xiangtan University, 2019. (in Chinese with English abstract)

[4] 董洪偉. 基于知識(shí)圖譜的菜品推薦系統(tǒng)[D]. 北京:北京林業(yè)大學(xué),2020.

Dong Hongwei. Dish Recommendation System Based on Knowledge Graph[D]. Beijing: Beijing Forestry University, 2020. (in Chinese with English abstract)

[5] 金碧漪. 基于多源UGC數(shù)據(jù)的健康領(lǐng)域知識(shí)圖譜構(gòu)建[D]. 上海:華東師范大學(xué),2016.

Jin Biyi. Construction of Health Knowledge Graph Based on Multi-source UGC data[D]. Shanghai: East China Normal Unversity, 2016. (in Chinese with English abstract)

[6] 任媛,于紅,楊鶴,等. 融合注意力機(jī)制與BERT+BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(10):135-141.

Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract)

[7] 檀穩(wěn). 基于深度學(xué)習(xí)的植物知識(shí)圖譜的構(gòu)建[D]. 北京:北京林業(yè)大學(xué),2019.

Tan Wen. The Construction of Plant Knowledge Graph Based on Deep Learning[D]. Beijing: Beijing Forestry University, 2020. (in Chinese with English abstract)

[8] 王蓬輝,李明正,李思. 基于數(shù)據(jù)增強(qiáng)的中文醫(yī)療命名實(shí)體識(shí)別[J]. 北京郵電大學(xué)學(xué)報(bào):2020,43(5):84-90.

Wang Penghui, Li Mingzheng, Li Si. Data augmentatoin for Chinese clinical named entity recognition[J]. Journal of Beijing University of Posts and Telecommunications, 2020, 43(5): 84-90. (in Chinese with English abstract)

[9] 吳賽賽,周愛(ài)蓮,謝能付,等. 基于深度學(xué)習(xí)的作物病蟲(chóng)害可視化知識(shí)圖譜構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(24):177-185.

Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)

[10] 楊培,楊志豪,羅凌,等. 基于注意機(jī)制的化學(xué)藥物命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)研究與發(fā)展,2018,55(7):1548-1556.

Yang Pei, Yang Zhihao, Luo Ling, et al. An attention-based approach for chemical compound and drug named entity recognition[J]. Journal of Computer Research and Development, 2018, 55(7): 1548-1556. (in Chinese with English abstract)

[11] Li L, Hou L. Named entity recognition in Chinese electronic medical records based on the model of bidirectional long short-term memory with a conditional random field Layer[J]. Studies in Health Technology and Informatics, 2019, 264: 1524-1525.

[12] 張晗,郭淵博,李濤. 結(jié)合GAN與BiLSTM-Attention-CRF的領(lǐng)域命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)研究與發(fā)展,2019,56(9):1851-1858.

Zhang Han, Guo Yuanbo, Li Tao. Domain named entity recognition combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9): 1851-1858. (in Chinese with English abstract)

[13] 董哲,邵若琦,陳玉梁,等. 基于BERT和對(duì)抗訓(xùn)練的食品領(lǐng)域命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)科學(xué),2021,48(5):247-253.

Dong Zhe, Shao Ruoqi, Chen Yuliang, et al. Named entity recognition in food field based on BERT and adversarial training[J]. Computer Science, 2021, 48(5): 247-253. (in Chinese with English abstract)

[14] 王璐. 基于知識(shí)圖譜的健康膳食知識(shí)智能問(wèn)答系統(tǒng)[D]. 蘭州:蘭州大學(xué),2020.

Wang Lu. A Healthy Diet Knowledge Q/A system Based on Knowledge Graph[D]. Lanzhou: Lanzhou University, 2020. (in Chinese with English abstract)

[15] 遲楊. 健康飲食領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用研究[D]. 長(zhǎng)春:吉林大學(xué),2019.

Chi Yang. Knowledge Graph Construction and Application in Healthy Diet Domain[D]. Changchun: Jilin University, 2019. (in Chinese with English abstract)

[16] 武樂(lè)飛. 基于邊界的嵌套命名實(shí)體識(shí)別方法研究[D]. 貴陽(yáng):貴州大學(xué),2020.

Wu Lefei. Recreach on Recognition Method of Nested Named Entity Based on Boundary[D]. Guiyang: Guizhou University, 2020. (in Chinese with English abstract)

[17] Yue Z, Jie Y. Chinese NER using lattice LSTM[C]//The 56thAnnual Meeting of the Association for Computational Linguistics (ACL). Melbourne, AUS: Melbourne Convention and Exhibition Centre, 2018.

[18] Sui D, Chen Y, Liu K, et al. Leverage lexical knowledge for Chinese named entity recognition via collaborative graph network[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: World Expo, 2019.

[19] Gui T, Ma R, Zhang Q, et al. CNN-based Chinese NER with lexicon rethinking[C]//Twenty-Eighth International Joint Conference on Artificial Intelligence IJCAI-19. Macao, China: Venice Macao people Conference Center, 2019.

[20] Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[C]//Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics. 2020.

[21] 中國(guó)營(yíng)養(yǎng)學(xué)會(huì). 中國(guó)居民膳食營(yíng)養(yǎng)素參考攝入量速查手冊(cè):2013版[M]. 北京:中國(guó)標(biāo)準(zhǔn)出版社,2014.

[22] Wu Y, Zhang F, Yang K, et al. SymMap: An integrative database of traditional Chinese medicine enhanced by symptom mapping[J]. Nuclc Acids Research, 2018(D1): D1110-D1117.

[23] 鐘友林. 營(yíng)養(yǎng)學(xué)領(lǐng)域的知識(shí)抽取相關(guān)技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2019.

Zhong Youlin. Research on Technologies of Knowledge Extraction in Nutrition[D]. Harbin: Harbin Institute of Technology, 2019. (in Chinese with English abstract)

[24] 郭旭超,唐詹,刁磊,等. 基于部首嵌入和注意力機(jī)制的病蟲(chóng)害命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(Supp2):335-343.

Guo Xuchao, Tang Zhan, Diao Lei, et al. Recognition of Chinese agricultural diseases and pests named entity with joint radical embedding and self-attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(Supp2): 335-343. (in Chinese with English abstract)

[25] Devlin J, Chang M-W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]// Melbourne, AUS: Melbourne Convention and Exhibition Centre, 2018.

[26] 齋藤康毅. 深度學(xué)習(xí)進(jìn)階:自然語(yǔ)言處理,陸宇杰譯[M]. 北京:人民郵電出版社,2020. 10.

[27] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems, Lake Tahoe, US: MIT Press, 2013.

[28] Dai Z, Yang Z, Yang Y, et al. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context[C]//Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics. Florence, Italy, 2019.

[29] 王乃鈺,葉育鑫,劉露,等. 基于深度學(xué)習(xí)的語(yǔ)言模型研究進(jìn)展[J]. 軟件學(xué)報(bào),2021,32(4):1082-1115.

Wang Naiyu, Ye Yuxin, Liu Lu, et al. Language models based on deep learning: a review[J]. Journal of Software, 2021, 32(4): 1082-1115. (in Chinese with English abstract)

[30] 王海寧,周菊香,徐天偉. 融合深度學(xué)習(xí)與規(guī)則的民族工藝品領(lǐng)域命名實(shí)體識(shí)別[J]. 云南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2020,40(2):48-54.

Wang Haining, Zhou Juxiang, Xu Tianwei. Named entity recogniton in ethnic handicraft field with the deep learning and rules[J]. Journal of Yunnan Normal University: Natural Sciences Edition, 2020, 40(2): 48-54. (in Chinese with English abstract)

[31] 李明揚(yáng),孔芳. 融入自注意力機(jī)制的社交媒體命名實(shí)體識(shí)別[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版,2019,59(6):461-467.

Li Mingyang, Kong Fang. Combined self-attention mechanism for named entity recognition in social media[J]. Journal of Tsinghua University: Science and Technology, 2019, 59(6): 461-467. (in Chinese with English abstract)

[32] 劉全,翟建偉,章宗長(zhǎng),等. 深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)學(xué)報(bào),2018,41(1):1-27.

Liu Quan, Zhai Jianwei, Zhang Zongzhang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1-27. (in Chinese with English abstract)

[33] Strubell E, Verga P, Belanger D, et al. Fast and Accurate Entity Recognition with Iterated Dilated Convolutions[M]//Association for Computational Linguistics, Copenhagen, Denmark, 2017: 2670-2680.

[34] Huang Z, Wei X, Kai Y. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015, 20(2): 508-517.

Named entity recognition in human nutrition and health domain using rule and BERT-FLAT

Zheng Limin1, Ren Lele2

(1.,100083,; 2.,,100083,)

A nutritious and healthy diet can be widely expected to reduce the incidence of disease, while improving body health after the disease occurs. The nutritional diet knowledge can be acquired mostly through the Internet in recent years. However, reliable and integrated information is highly difficult to discern using time-consuming searching of the huge amount of Internet data. It is an urgent need to integrate the complicated data, and then construct the knowledge graph of nutrition and health, particularly with timely and accurate feedback. Among them, a key step is to accurately identify entities in nutritional health texts, providing effective location data support to the construction of knowledge graphs. In this study, a BRET+BiLSTM+CRF (Bidirectional Encoder Representations from Transformers + Bi-directional Long Short-Term Memory + Conditional Random Field) model was first used with location information. It was found that the precision of the model was 86.56%, the recall rate was 91.01%, and the F1 score was 88.72%, compared with the model without location information, indicating improved by 1.55, 0.20, and 0.32 percentage points. A named entity recognition was also proposed to accurately obtain six types of entities in text: food, nutrients, population, location, disease, and efficacy in the field of human nutritional health, combining rules with BERT-FLAT (Bidirectional Encoder Representations from Transformers-Flat Lattice Transformer) model. Firstly, the character and vocabulary information were stitched together and pre-trained in the BERT model to improve the recognition ability of the model to entity categories. Then, a position code was created for the head and tail position of each character and vocabulary, where the entity position was located with the help of a position vector, in order to improve the recognition of entity boundary. A long-distance dependency was also captured using the Transformer model. Specifically, the output of the BERT model was embedded into the Transformer as a character-embedding conjunction word, thus for the character-vocabulary fusion. Then the text prediction sequence was obtained from the CRF layer. Finally, seven rules were formulated, according to the text characteristics in the field of nutrition and health, where the prediction sequence was modified according to the rules. The experimental results showed that the F1 score of the BERT-FLAT model was 88.99%. The BERT model combined with the word fusion performed the best, compared with that without the Bert model, indicating an effective recognition performance. Correspondingly, the named entity recognition model in the field of nutrition and health using fusion rules and the BERT-FLAT model presented an accuracy rate of 95.00%, a recall rate of 88.88%, and an F1 score of 91.81%. The F1 score increased by 2.82 percentage points than before. The finding can provide an effective entity recognition in the field of human nutrition and health.

nutrition; health; food; named entity recognition; self-attention mechanism; BERT model; transformer model

鄭麗敏,任樂(lè)樂(lè). 采用融合規(guī)則與BERT-FLAT模型對(duì)營(yíng)養(yǎng)健康領(lǐng)域命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(20):211-218.doi:10.11975/j.issn.1002-6819.2021.20.024 http://www.tcsae.org

Zheng Limin, Ren Lele. Named entity recognition in human nutrition and health domain using rule and BERT-FLAT[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(20): 211-218. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.20.024 http://www.tcsae.org

2021-02-20

2021-08-10

現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系北京市生豬產(chǎn)業(yè)創(chuàng)新團(tuán)隊(duì)項(xiàng)目(BAIC02-2021);國(guó)家重點(diǎn)研發(fā)計(jì)劃(2017YFC1601803)

鄭麗敏,教授,碩士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄堋⒅R(shí)圖譜等。Email:zhenglimin@cau.edu.cn

10.11975/j.issn.1002-6819.2021.20.024

TP391.1

A

1002-6819(2021)-20-0211-08

猜你喜歡
命名實(shí)體規(guī)則
撐竿跳規(guī)則的制定
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體書(shū)店步入復(fù)興期?
奧斯卡的規(guī)則變了!
有一種男人以“暖”命名
為一條河命名——在白河源
讓規(guī)則不規(guī)則
我是我自己的許多孩子〔外一首〕
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
陇西县| 龙州县| 苗栗县| 密云县| 绥阳县| 泗洪县| 萨迦县| 浦城县| 多伦县| 周至县| 察哈| 绥化市| 普定县| 新源县| 古交市| 团风县| 凤庆县| 敦煌市| 色达县| 古丈县| 宜都市| 佳木斯市| 德安县| 南平市| 通河县| 阿荣旗| 元江| 廉江市| 伊金霍洛旗| 敖汉旗| 饶平县| 赤峰市| 碌曲县| 南城县| 贵阳市| 鄂尔多斯市| 罗田县| 平顶山市| 田林县| 利川市| 江西省|