国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積網(wǎng)絡(luò)的產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源命名實體識別*

2023-05-12 02:25趙卓峰
計算機與數(shù)字工程 2023年1期
關(guān)鍵詞:字符實體領(lǐng)域

張 碩 趙卓峰 劉 晨

(1.北方工業(yè)大學(xué)信息學(xué)院 北京 100144)(2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點實驗室 北京 100144)

1 引言

科技服務(wù)業(yè)是將科技成果轉(zhuǎn)化為生產(chǎn)力的突破口[1]。隨著科技的快速發(fā)展,產(chǎn)業(yè)領(lǐng)域產(chǎn)生了大量的科技服務(wù)資源,包含論文、專利、項目、咨詢等。這些資源信息隱含著豐富的知識價值,通過信息抽取可以幫助我們分析挖掘科技知識之間的關(guān)聯(lián)關(guān)系,掌握當(dāng)代科技研究的熱點,預(yù)測科技發(fā)展的動態(tài)規(guī)律。然而,產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源所涉及的行業(yè)眾多,大多為半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并且缺乏統(tǒng)一的描述規(guī)范。因此,亟需找到可以將非結(jié)構(gòu)化的產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源信息轉(zhuǎn)化為結(jié)構(gòu)化知識的信息抽取方法,便于之后的數(shù)據(jù)分析和知識挖掘。

命名實體識別是信息抽取的重要步驟[2]。產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源實體識別需要抽取出專家人才、專業(yè)技術(shù)點、科技方法以及領(lǐng)域術(shù)語等信息?,F(xiàn)有常用的命名實體方法主要是基于深度學(xué)習(xí)的方法。基于深度學(xué)習(xí)的方法包括遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[3]、雙向長短期記憶網(wǎng)絡(luò)[4](BiLSTM)以及雙向門控循環(huán)網(wǎng)絡(luò)(BiGRU)[5]等。為了避免RNN 帶來的梯度消失的問題,能夠獲取文本數(shù)據(jù)的上下文特征信息,提高實體識別的準(zhǔn)確率,基于BiLSTM模型的方法在生物醫(yī)學(xué)、電子病歷、法律、軍事等領(lǐng)域得到廣泛應(yīng)用。為了節(jié)省時間和內(nèi)存空間,又提出了采用結(jié)構(gòu)簡單的BiGRU 模型。雖然命名實體識別在許多領(lǐng)域得到廣泛應(yīng)用,但針對產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源命名實體識別的研究較少。

通過分析產(chǎn)業(yè)領(lǐng)域中科技服務(wù)資源信息,發(fā)現(xiàn)實體識別時有以下幾個難點:1)產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源命名實體識別的邊界模糊,實體詞的長度不一。如“氧化硅”和“氧化硅氣凝膠”,“乙烯”、“苯乙烯”、“聚苯乙烯”和“聚苯乙烯螯合樹脂”均可作為實體出現(xiàn)。2)產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源包含大量復(fù)雜的專業(yè)術(shù)語實體,包含了數(shù)字和特殊符號表示。如“Sm-Al-Co 系Sm 基三元塊體非晶合金”、“Pb-Si-N 三元化合物”和“鄰苯二甲酸二丁酯”等等。3)產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源文本描述語句較長,缺乏特定的表述規(guī)則,很難充分獲取詞語的語義特征以及詞語之間的關(guān)系特征。如圖1 中,從“發(fā)明”到“氫化物”存在遠(yuǎn)距離的VOB 動賓關(guān)系,再結(jié)合“鑭系”、“金屬”均與“氫化物”的存在近距離ATT定中修飾關(guān)系,可以更好地表征“鑭系金屬氫化物”這一實體的存在。

圖1 依存分析圖

因此,為了解決產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源命名實體識別的問題,提高實體識別的準(zhǔn)確率,本文提出了一種融合圖卷積網(wǎng)絡(luò)(GCN)的命名實體識別,記為BERT_pos-BiLSTM-GCN-CRF 模型。由于產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源存在大量復(fù)雜的專業(yè)術(shù)語,為了解決word2Vec 模型只能表示一種靜態(tài)語義,不能表示多義的問題,通過BERT 詞嵌入模型進(jìn)行字符編碼的表示??梢越Y(jié)合句子上下文信息來獲取字符的動態(tài)特征,有效解決一詞多義的問題。此外,BERT模型還可以通過下一句預(yù)測句子之間的上下文關(guān)系[6],并通過其內(nèi)部多頭注意力機制設(shè)置權(quán)重來獲取字符間的語義信息。另外,僅通過字符特征很難確定實體邊界,因此,還通過添加詞性特征對BERT 獲得的字符表示向量進(jìn)行擴展。此外,由于產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源文本描述沒有統(tǒng)一的標(biāo)準(zhǔn),句子結(jié)構(gòu)復(fù)雜,沒有充分利用句子中詞語之間的依賴關(guān)系進(jìn)行實體識別。而BiLSTM只能獲取近距離字符間的特征信息,不能充分獲取句子遠(yuǎn)距離詞語間的依賴關(guān)系。在BERT-BiLSTM-CRF 模型的基礎(chǔ)上引入圖卷積網(wǎng)絡(luò),借助依存句法分析,挖掘字符及字符間關(guān)系的結(jié)構(gòu)信息,將BiLSTM 提取到的特征向量與詞語間的依存關(guān)系矩陣進(jìn)行拼接,充分獲取文本的全局特征。實驗結(jié)果表明,本文采取的BERT_pos-BiLSTM-GCN-CRF 模型優(yōu)于傳統(tǒng)的實體識別方法。

2 相關(guān)工作

基于深度學(xué)習(xí)的方法進(jìn)行實體抽取是近幾年研究的熱點。文獻(xiàn)[7]提出了一種適用于電力文本基于多個特征的字符級實體識別模型,結(jié)合了字符、左鄰熵和詞性來表示電力調(diào)度文本的領(lǐng)域特征,利用BiLSTM對字符序列標(biāo)簽進(jìn)行預(yù)測,最后利用CRF對預(yù)測的標(biāo)簽進(jìn)行優(yōu)化。文獻(xiàn)[8]提出一種臨床命名實體識別模型(CNER),先將原始數(shù)據(jù)集的文本序列的字符向量和詞向量有機地結(jié)合起來,然后將序列分別輸入多頭自注意模塊和BiLSTM神經(jīng)網(wǎng)絡(luò)模塊的并行結(jié)構(gòu)中,以此獲得上下文信息和特征關(guān)聯(lián)權(quán)值等多層次信息。文獻(xiàn)[9]提出了一種基于BIBC的命名實體識別方法。該方法利用基于整詞掩蔽的BERT-WWM 模型進(jìn)一步提取中文數(shù)據(jù)中的語義信息,并通過大規(guī)模無標(biāo)注數(shù)據(jù)補充特征,結(jié)合BiLSTM-CRF 模型進(jìn)行實體識別,實驗結(jié)果表明該方法能夠更準(zhǔn)確地抽取出糖尿病病歷中的實體信息,獲得良好的實體識別結(jié)果,能夠滿足實際應(yīng)用的要求。此外,由于BiLSTM結(jié)構(gòu)復(fù)雜,模型訓(xùn)練時需要消耗大量的時間和內(nèi)存空間,而雙向門控循環(huán)網(wǎng)絡(luò)[8]結(jié)構(gòu)較簡單。文獻(xiàn)[10]提出利用BiGRU 模型學(xué)習(xí)上下文特征提取肺癌醫(yī)案中的實體。

盡管這些方法在其他領(lǐng)域的實體識別任務(wù)上取得了較大的進(jìn)步,但還是無法有效地應(yīng)用于產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源中的實體識別任務(wù)。由于產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源文本描述語句較長,很難充分獲取詞語的語義特征以及詞語之間的關(guān)系特征,雖然BiLSTM-CRF 方法可以在一定程度上獲取到句子的上下文語義特征,但不能獲取遠(yuǎn)距離依賴關(guān)系。所以本文引入GCN 層充分獲取句子的全局特征。另外,由于產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源中存在大量復(fù)雜的專業(yè)術(shù)語,僅通過基于字的BERT 模型無法高效關(guān)聯(lián)出詞語之間的關(guān)系,使得實體邊界的識別變得困難。所以添加詞性特征作為外部輔助特征,將BERT獲取到字符特征、句子特征、位置特征與詞性特征進(jìn)行拼接融合,可以幫助更好地識別實體的邊界,提高實體識別的準(zhǔn)確率,所以本文采用BERT_pos-BiLSTM-GCN-CRF 模型對產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源進(jìn)行實體識別。

3 構(gòu)建模型

本文采用的方法主要包含4 個模塊,分別為BERT 層、BiLSTM 層、GCN 層以及CRF 層。首先采用BERT 層將文本向量化,得到蘊含語義信息的字符表示;然后通過BiLSTM 層和GCN 層聯(lián)合深度學(xué)習(xí)提取全句特征信息;最后在CRF 層對GCN 模型的輸出特征序列進(jìn)行解碼,根據(jù)所有標(biāo)簽概率得分選取一個全局最優(yōu)序列。該模型結(jié)構(gòu)如圖2所示。

圖2 模型總體結(jié)構(gòu)圖

3.1 BERT層

將文本字符輸入,通過BERT 詞嵌入模型輸出每個字符的向量表示。首先對科技服務(wù)資源文本中的每一句話進(jìn)行處理,在每一句話開頭加[CLS]標(biāo)志,代表一句話的開始,并在該句的末尾加[SEP]標(biāo)志,代表一句話的結(jié)束。例如“[CLS]一種制備氨基乙酸的方法[SEP]”。該模型的最大序列長度seq_length 設(shè)為128,采用多退少補的原則,當(dāng)文本句子字符長度超過128 時,進(jìn)行截斷操作,當(dāng)文本句子字符長度小于128 時,使用[PAD]進(jìn)行填補。通過查找詞向量文件找到每個字符所對應(yīng)ID映射編碼。然后通過訓(xùn)練獲取字符ID 對應(yīng)的向量,批大小batch_size 設(shè)為32,映射為768 維的向量??偟那度氡硎鞠蛄渴怯勺址幋a、句子編碼和位置編碼三部分拼接組成[11]。其中,輸入的形狀為(32,128),輸出的形狀為(32,128,768)。

將獲取的總embedding 作為Transformer 層的輸入,Self-Attention 是Transformer 結(jié)構(gòu)的重要組成部分,利用Self-Attention能有效得到蘊含語義信息的序列向量[12]。一共包含12 個layer 層,當(dāng)前l(fā)ayer層的輸入為前一layer 層的輸出結(jié)果,第一個layer層的輸入為embedding 層獲取的向量,輸入的形狀為(4096,768)。每層都包含一個注意力機制,12個layer層共有12個頭??傠[層大小為768,每個頭64 維特征向量,然后將這12 個頭提取的特征向量結(jié)果concat 拼接。每個頭擁有不同的3 個Q、K、V矩陣,其中Q、K、V分別表示query,key,value,將上一層的輸出矩陣與該層的Q、K、V相乘得到新的Q、K、V矩陣。注意力權(quán)重分?jǐn)?shù)計算公式如下所示:

該層的輸出形狀為(32,128,768),然后進(jìn)行歸一化殘差連接。為了提升特征表達(dá)的能力,加入全連接層將768 維特征向量提升為3072 維,激活函數(shù)采用gelu。最后將結(jié)果再變回一致的維度768。

另外,由于加入了外部特征詞性特征,所以對BERT 層輸出的embedding 進(jìn)行擴展,加入詞性嵌入pos_embedding。

3.2 BiLSTM層

該層主要是為了提取文本字符的上下文特征信息,將從BERT 層獲取的各個字的embedding 序列作為雙向長短期記憶網(wǎng)絡(luò)的輸入。這里采用兩層LSTM,第一層LSTM 網(wǎng)絡(luò)計算前向的隱特征,第二層LSTM 網(wǎng)絡(luò)計算后向的隱特征,如“我愛你”和“你愛我”是兩個不同的語義特征,所以把這兩個LSTM 層輸出的隱狀態(tài)序列進(jìn)行concat 拼接。LSTM 隱藏層的特征維度為128,隱層的層數(shù)為1,dropout-rate 為0.5。將LSTM 狀態(tài)類型以元組類型表示輸出,輸出狀態(tài)表示為[ht,ct],包括兩部分內(nèi)容,一部分為細(xì)胞狀態(tài)ct,另一部分隱藏層狀態(tài)ht,計算公式如下所示。

其中,it表示輸入門輸出的信息、ft表示遺忘門輸出的信息、ot表示輸出門輸出的信息[13]。ct通過tanh神經(jīng)單元用于計算數(shù)據(jù)的輸入。

ht,ct的維度為當(dāng)前LSTM單元的hidden_size,輸出的維度大小為128維。由于雙向LSTM 獲取上下文特征,最后將產(chǎn)生的前向隱特征和后向隱特征拼接聯(lián)合輸入到圖卷積網(wǎng)絡(luò)層,其輸出的維度大小為256維。

3.3 GCN層

將BiLSTM 層完整的隱藏層狀態(tài)送入GCN層。該層的輸入由兩部分構(gòu)成:一部分是BiLSTM層輸出的特征向量,另一部分是依存關(guān)系分析圖的鄰接矩陣向量。本文采用LTP 工具構(gòu)建依存分析圖。例如產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源文本中的“本發(fā)明涉及新材料領(lǐng)域”其構(gòu)建的依存分析圖如圖3 所示。

圖3 依存句法樹示例

然后將依存分析圖轉(zhuǎn)化為鄰接矩陣,若詞語之間存在依賴關(guān)系,則為1,否則為0。由于該模型的輸入是以字為單位的,而通過依存關(guān)系分析的是詞級別的,因此,對原來的詞鄰接矩陣進(jìn)行修改,構(gòu)建出字級別的矩陣向量,如圖4所示。

圖4 鄰接矩陣

圖卷積網(wǎng)絡(luò)中單元數(shù)設(shè)為128,GCN 層數(shù)為2,第一層作為前向圖卷積網(wǎng)絡(luò)層,獲取每個字符的出度信息,即該字符依賴哪些字符;第二層作為后向圖卷積網(wǎng)絡(luò)層,獲取每個字符的入度信息,即哪些字符依賴于該字符。然后將這兩層的最終輸出結(jié)果進(jìn)行concat拼接。

首先進(jìn)行前饋計算,將從BiLSTM 層輸出特征矩陣與每個節(jié)點的權(quán)重矩陣矩陣相乘,然后與一個自身相連的鄰接矩陣相乘,通過激活函數(shù)σ,得到融合句子中字符間依賴關(guān)系的特征矩陣,其輸出的形狀均為(256,128),兩個GCN 進(jìn)行拼接輸出的形狀為(512,128)。

其中,L為BiLSTM 層傳入的特征向量,Wo為圖的出邊鄰接矩陣,Wi為圖的入邊鄰接矩陣,W→k和W←k為GCN 的前向權(quán)重矩陣和后向權(quán)重矩陣,I 為自旋單位矩陣,b為偏移矩陣,選ReLu函數(shù)為激活函數(shù)。

然后將GCN 輸出的每個字的128 維特征向量送入條件隨機場CRF層中。

3.4 CRF層

CRF 的主要作用是通過訓(xùn)練自動學(xué)習(xí)最終預(yù)測的標(biāo)簽之間約束關(guān)系[14]。如:句子以B 或O 開頭,B-M標(biāo)簽只能在I-M標(biāo)簽之前等。

CRF 對從GCN 層輸出的每個字的所有標(biāo)簽得分進(jìn)行篩選,對于給定的從BERT 層輸出的文本字序列向量X={x1,x2,…,xn},定義矩陣P為輸入序列X經(jīng)BiLSTM 層和GCN 層聯(lián)合學(xué)習(xí)后輸出的對應(yīng)標(biāo)簽的分值。本研究中包含18 個標(biāo)簽,分別 為[O、X、[CLS]、[SEP]、B-service、I-service、B-person、I-person、B-organization、I-organization、B-time、I-time、B-domain、I-domain、B-term、I-term、B-tech、I-tech],W為(18,18)維的狀態(tài)轉(zhuǎn)移矩陣,得到某一個預(yù)測序列y={y1,y2,…,yn}與X的聯(lián)合概率,通過損失函數(shù)loss計算真實路徑得分與所有路徑得分的比值,選取給定序列中的最優(yōu)聯(lián)合概率分布,即全局最高的為實體識別的結(jié)果,輸出的形狀為(4096,18),即一次訓(xùn)練32 個樣本句子的所有字符對應(yīng)的序列標(biāo)簽。

4 實驗數(shù)據(jù)與結(jié)果分析

4.1 實驗數(shù)據(jù)

本文從國家知識產(chǎn)局、知網(wǎng)、科技資源共享平臺、科易網(wǎng)等網(wǎng)站爬取產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源信息,包括科技專利資源、科技論文資源、科技咨詢資源、科技項目資源以及儀器設(shè)備資源等。一共獲取8954 個科技服務(wù)資源的描述文本,通過對產(chǎn)業(yè)領(lǐng)域科技服務(wù)文本內(nèi)容進(jìn)行分析,定義了7 種實體類型:科技服務(wù)名稱、專家人才、機構(gòu)組織、發(fā)布時間、所屬行業(yè)、行業(yè)術(shù)語以及技術(shù)點。

采用BIO 的方式對產(chǎn)業(yè)領(lǐng)域科技服務(wù)信息進(jìn)行序列標(biāo)注,利用Brat標(biāo)注工具對文本進(jìn)行數(shù)據(jù)標(biāo)注,“B”代表實體的起始位置,“I”代表實體的中間部分,“O”代表與實體無關(guān)的詞[15],“-”代表實體的類型。產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源信息實體標(biāo)注標(biāo)簽如表1所示。

表1 實體標(biāo)簽標(biāo)注

另外,本文在原有標(biāo)注上加入詞性特征,“-”后代表實體的詞性,標(biāo)注示例如表2 所示,將經(jīng)過序列標(biāo)注和詞性標(biāo)注的文本數(shù)據(jù)作為實驗數(shù)據(jù)集進(jìn)行訓(xùn)練預(yù)測。

表2 實體標(biāo)注示例

4.2 實驗環(huán)境及參數(shù)設(shè)置

本文實驗環(huán)境如表3所示。

表3 實驗環(huán)境配置

在實驗中,參數(shù)設(shè)置如表4所示。

表4 模型參數(shù)設(shè)置

4.3 評價指標(biāo)

本模型采用實體標(biāo)簽的準(zhǔn)確率(P)、實體標(biāo)簽的召回率(R)以及實體標(biāo)簽的調(diào)和平均數(shù)(F1)作為評價指標(biāo)[16],計算公式如下:

其中,Ec為標(biāo)注正確的實體數(shù)量,Ei為標(biāo)注錯誤的實體數(shù)量,Ed為未標(biāo)注出的實體數(shù)量。

4.4 實驗結(jié)果分析

采用交叉驗證的方式,將實驗數(shù)據(jù)的訓(xùn)練集與測試集按8∶2 比例進(jìn)行劃分。設(shè)置隨機種子為1~5,取5 次測試結(jié)果的平均值作為最終的評估值。具體實體標(biāo)簽分布如表5所示。

表5 實體個數(shù)統(tǒng)計情況

為了驗證BERT_pos-BiLSTM-GCN-CRF 模型的性能,本文通過實驗與常見的實體識別模型BiL?STM-CRF、SelfAtt-BiLSTM-CRF、BERT-BiGRUCRF、BERT-BiLSTM-CRF、BERT-BiLSTM-GCNCRF進(jìn)行比較。各模型的F1值變化如圖5所示,由圖可知,基于BERT 模型的算法在初始訓(xùn)練時基本能達(dá)到一個較好水平,其中本文的BERTpos-BiL?STM-GCN-CRF模型的實體識別的效果最好。

本文模型與其他模型的對比實驗結(jié)果見表6,實驗對比分析結(jié)果如下。

表6 相關(guān)模型對比

1)對比BERT-BiGRU-CRF 和BERT-BiLSTMCRF 算法,目的是驗證BiLSTM 與BiGRU 兩者之間哪個更有益于實體識別,從圖6 中可以看出,在本實驗中,采用BiLSTM 模型的效果略優(yōu)于BiGRU 模型,可以獲取豐富的上下文特征,幫助提高實體識別的準(zhǔn)確率,F(xiàn)1值提高了2.2%。

圖6 第1組實驗結(jié)果

2)對比BiLSTM-CRF 算法和BERT-BiLSTMCRF,目的是驗證選取不同的詞詞嵌入模型對實體識別的效果是否存在影響。其中,BiLSTM-CRF 中使用的是word2Vec詞嵌入模型,從圖7中的實驗結(jié)果可知,BERT 詞嵌入模型與word2Vec 詞嵌入模型相比,F(xiàn)1 值平均提升了27.10%。結(jié)果表明,使用BERT 預(yù)訓(xùn)練語言模型可以,由于它能充分提取字符間關(guān)系的特征,能更好地表達(dá)科技服務(wù)資源文本中字符隱含的語義信息。

圖7 第2組實驗結(jié)果

3)對比BERT-BiLSTM-CRF和BERT-BilLSTMGCN-CRF 算法,目的是驗證加入基于依存分析圖的圖卷積網(wǎng)絡(luò)是否有助于提高實體識別的準(zhǔn)確性。從圖8 中可以發(fā)現(xiàn),在BERT-BiLSTM-CRF 模型基礎(chǔ)上融入圖卷積網(wǎng)絡(luò)能更好地提取全局特征,提高了科技服務(wù)資源信息實體抽取的準(zhǔn)確率,F(xiàn)1值提高了1.21%。

圖8 第3組實驗結(jié)果

4)對 比BERT-BiLSTM-GCN-CRF 和BERT_pos-BiLSTM-GCN-CRF 算法,目的是為了驗證添加詞性特征后是否可以更有效地識別實體的邊界,從圖9 中可以看出添加詞性特征后使得實體識別的準(zhǔn)確率提高,F(xiàn)1值提高了0.91%。

圖9 第4組實驗結(jié)果

為了驗證實驗結(jié)論的正確性,使用該模型在CoNLL2003 語料上進(jìn)行實驗,該語料中包含人名、地名、組織和其他。實驗結(jié)果如表7所示。

表7 CoNLL2003語料的實驗結(jié)果

由表7 可以看出,與BiLSTM-CRF 和BERTBiLSTM-CRF 模型相比,本模型在CoNLL2003 語料上的訓(xùn)練集準(zhǔn)確率為97.75%,測試集的準(zhǔn)確率為96.25%,由此可文中模型可以有效提高實體識別的準(zhǔn)確率。

5 結(jié)語

本文提出了一種基于圖卷積網(wǎng)絡(luò)的產(chǎn)業(yè)領(lǐng)域科技服務(wù)實體識別方法。該模型采用BERT 預(yù)訓(xùn)練語言模型提取產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源文本中的上下文語義特征,引入詞性特征作為輔助特征,對BERT 獲取的語義特征進(jìn)行擴充,并通過GCN 學(xué)習(xí)文本句子中詞語之間的依存關(guān)系,用以獲取句子的遠(yuǎn)距離特征。通過實驗發(fā)現(xiàn),該模型優(yōu)于傳統(tǒng)的實體識別方法,能夠有效提取產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源中的實體信息。此外,該模型雖在一定程度上提升了產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源信息中實體識別的準(zhǔn)確性。但為了避免實體抽取模塊產(chǎn)生的誤差影響整個知識圖譜構(gòu)建的質(zhì)量,后續(xù)將進(jìn)一步研究實體關(guān)系聯(lián)合抽取的方法,從而完善產(chǎn)業(yè)領(lǐng)域科技服務(wù)資源信息的提取。

猜你喜歡
字符實體領(lǐng)域
尋找更強的字符映射管理器
字符代表幾
前海自貿(mào)區(qū):金融服務(wù)實體
一種USB接口字符液晶控制器設(shè)計
領(lǐng)域·對峙
消失的殖民村莊和神秘字符
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進(jìn)行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
新常態(tài)下推動多層次多領(lǐng)域依法治理初探