国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

實(shí)體關(guān)系抽取技術(shù)的研究

2020-12-03 01:54:22王瀚琳
數(shù)碼設(shè)計(jì) 2020年13期

王瀚琳

摘要:實(shí)體關(guān)系信息抽取涉及基于實(shí)體的上下文信息和來自注釋的信息,從不規(guī)則文本中提取與任務(wù)關(guān)聯(lián)的實(shí)體之間的關(guān)系信息。實(shí)體關(guān)系抽取是指根據(jù)實(shí)體的上下文信息和命名實(shí)體的注釋信息,從不規(guī)則文本中提取任務(wù)相關(guān)實(shí)體之間的關(guān)系信息。本文介紹了幾種具有代表性的實(shí)體關(guān)系抽取技術(shù),以望為之后的研究者提供一定的參考。

關(guān)鍵詞:實(shí)體關(guān)系;監(jiān)督學(xué)習(xí);半監(jiān)督學(xué)習(xí);無監(jiān)督學(xué)習(xí)

中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-9129(2020)13-0045-01

隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在挖掘相關(guān)任務(wù)中的應(yīng)用變得越來越普遍,包含的種類也有很多,本文將介紹它的幾個(gè)主要的類別。

1關(guān)系抽取研究現(xiàn)狀

目前,在信息抽取領(lǐng)域中,SemEval-2010的評(píng)測(cè)任務(wù)八數(shù)據(jù)集,至今仍然是關(guān)系抽取任務(wù)中重要的評(píng)測(cè)數(shù)據(jù)集。

通過有監(jiān)督的機(jī)器學(xué)習(xí)方法從不規(guī)則的文本中抽取出實(shí)體之間的主要關(guān)系的方法主要有兩種:一是將文本的語義信息表示為向量;二是將文本的語義信息通過核函數(shù)映射到高維空間,從高維空間中抽取出實(shí)體之間主要關(guān)系的方法。

基于半監(jiān)督機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取模型,首先,是用人工的方式選取少量的高質(zhì)量的規(guī)則作為模板。然后,根據(jù)模板不斷地從數(shù)據(jù)集中進(jìn)行迭代抽取出新的模板,新的模板評(píng)估結(jié)果符合預(yù)期后,會(huì)被添加到模板的集合中用于后續(xù)的迭代計(jì)算。具有代表性的基于半監(jiān)督機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取工作,是2015年Agichtein開發(fā)的Snowball系統(tǒng)。

基于無監(jiān)督機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取模型主要是通過聚類的方式從數(shù)據(jù)集中抽取出實(shí)體關(guān)系,此種方法雖然在技術(shù)和操作流程上比較簡答,但它在效果和性能方法并不令人滿意。

2基于規(guī)則匹配的關(guān)系抽取

在研究初期,研究者主要采用基于規(guī)則匹配的方法用于提取實(shí)體之間的關(guān)系,它適用于沒有規(guī)律的文本,但這些類型的規(guī)則對(duì)于較長范圍的模式和具有更大多樣性的序列來說是不適用的。這種方法在進(jìn)行實(shí)體關(guān)系抽取任務(wù)時(shí)需要較多的人工干預(yù),根據(jù)不同的任務(wù)需要相應(yīng)領(lǐng)域的專家設(shè)計(jì)抽取規(guī)則,因此基于規(guī)則匹配的關(guān)系抽取方法存在很強(qiáng)的局限性,而且泛化能力差可移植性不強(qiáng)。

隨著規(guī)則集合的擴(kuò)充,使用基于規(guī)則匹配的方法處理復(fù)雜的實(shí)體關(guān)系類型抽取的任務(wù)時(shí),規(guī)則之間可能會(huì)發(fā)生沖突從而降低模型的效果。

3基于監(jiān)督學(xué)習(xí)的關(guān)系抽取

在監(jiān)督學(xué)習(xí)的框架下,需要將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注。這一類方法一般將關(guān)系抽取任務(wù)作為分類問題進(jìn)行建模,從文本中抽取兩個(gè)實(shí)體之間的關(guān)系可以看作找到一個(gè)合適的映射函數(shù),通過映射函數(shù)計(jì)算出兩個(gè)實(shí)體之間概率最大的實(shí)體關(guān)系類型。

監(jiān)督學(xué)習(xí)模型需要進(jìn)行數(shù)據(jù)的處理和特征的提取,以便使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)過程中構(gòu)造分類器,從而有利于模型進(jìn)行分類和測(cè)試數(shù)據(jù)中實(shí)體之間的關(guān)系。

根據(jù)句子的特征信息構(gòu)建表示句子特征的方法,常使用的特征信息有實(shí)體信息、實(shí)體類型信息、實(shí)體相對(duì)距離信息、實(shí)體之間單詞序列信息等。但是基于句子特征信息的關(guān)系抽取只獲取了淺層的句子信息,而基于核函數(shù)的關(guān)系抽取可以將特征映射到高維空間,從高維空間對(duì)句子進(jìn)行分析,常用的核函數(shù)有字符串核、句法樹核、詞袋核、依存句法核等核函數(shù)。

優(yōu)點(diǎn)是高質(zhì)量的監(jiān)督信號(hào)和有明確的負(fù)樣本,缺點(diǎn)是標(biāo)注樣本成本高,增加新的關(guān)系難且成本高,對(duì)于新領(lǐng)域不具有很好的泛華性,使用范圍小,只對(duì)一小部分相關(guān)類型可用,不具有遷移性。

無論是基于句子特征信息的關(guān)系抽取方法,還是基于核函數(shù)的關(guān)系抽取方法,都需要人工設(shè)計(jì)特征的表示方法。

4基于半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的關(guān)系抽取

基于半監(jiān)督學(xué)習(xí)中的bootstrap方法的關(guān)系抽取模型的研究重點(diǎn),是通過少量標(biāo)注的數(shù)據(jù)集進(jìn)行規(guī)則的學(xué)習(xí),然后根據(jù)少量的實(shí)例或模板,在大規(guī)模的未標(biāo)注的數(shù)據(jù)中抽取新的模板,為了防止誤差的疊加,需要對(duì)新模板進(jìn)行評(píng)估,將準(zhǔn)確率達(dá)到閾值標(biāo)準(zhǔn)的模板添加到模板庫中,然后繼續(xù)進(jìn)行迭代抽取。雖然基于無監(jiān)督學(xué)習(xí)的關(guān)系抽取方法省略了人工標(biāo)注數(shù)據(jù)集的步驟,減少了人工干預(yù),但是,通過聚類的方式抽取出的結(jié)果很難映射到實(shí)際的實(shí)體關(guān)系類型中,無法對(duì)結(jié)果進(jìn)行分類。

半監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)是可以發(fā)現(xiàn)比基于規(guī)則的關(guān)系提取更多的關(guān)系和更少的人力投入,因?yàn)樗恍枰哔|(zhì)量的種子。缺點(diǎn)是隨著每次迭代,模式的集合更容易出錯(cuò)、在通過元組共現(xiàn)生成新模式時(shí)必須十分小心和新的關(guān)系類型需要新的種子,即需要手動(dòng)提供。

無監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)是幾乎不需要標(biāo)注訓(xùn)練數(shù)據(jù),且不需要我們手動(dòng)預(yù)先指定每個(gè)甘心去的關(guān)系,而是考慮所有可能的關(guān)系類型。缺點(diǎn)是系統(tǒng)的表現(xiàn)在很大程度上取決于約束和啟發(fā)法的構(gòu)造有多好和關(guān)系不像預(yù)先指定的關(guān)系類型那樣規(guī)范化。

5實(shí)體關(guān)系抽取技術(shù)的創(chuàng)新

針對(duì)空間實(shí)體識(shí)別任務(wù),在傳統(tǒng)的雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)混合模型的基礎(chǔ)上進(jìn)行了改進(jìn)。在特征表示層增加用于提取詞向量語義特征的全連接神經(jīng)網(wǎng)絡(luò),這種改進(jìn)方式可以提升模型的特征提取能力。

通過在關(guān)系抽取的流程中添加空間實(shí)體類型識(shí)別模塊,對(duì)傳統(tǒng)的關(guān)系抽取方法進(jìn)行了改進(jìn)。改進(jìn)后的方法可以識(shí)別出訓(xùn)練樣本中未出現(xiàn)的關(guān)系類型。

6總結(jié)

根據(jù)不同的應(yīng)用場(chǎng)景,選取合適的模型方法來對(duì)抽取實(shí)體之間的關(guān)系以滿足認(rèn)為的需求是重要的研究領(lǐng)域。實(shí)體關(guān)系技術(shù)作為信息抽取技術(shù)的重要組成部分,人具有重要意義,如何根據(jù)不同場(chǎng)景選取合適的實(shí)體關(guān)系抽取技術(shù),仍需要研究者們進(jìn)一步探索與創(chuàng)新。

參考文獻(xiàn):

[1] 張春云.實(shí)體關(guān)系抽取算法研究 [D].北京:北京郵電大學(xué),2015.

[2] 譚鋒,李天真,崔亮亮.Web信息抽取系統(tǒng)研究綜述 [J].科技創(chuàng)新導(dǎo)報(bào)

[3] 李保利,陳玉忠,俞士汶.信息抽取研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2003 (10):1-5.

衡阳县| 射洪县| 正蓝旗| 依安县| 湟中县| 韩城市| 阳城县| 安多县| 隆林| 临湘市| 沙湾县| 灌云县| 辰溪县| 峨眉山市| 台南县| 四子王旗| 文登市| 万源市| 都匀市| 会同县| 沂源县| 和林格尔县| 绥中县| 托克逊县| 江口县| 东阳市| 呈贡县| 肥西县| 清水县| 醴陵市| 昌平区| 阳西县| 搜索| 晋江市| 克拉玛依市| 淮阳县| 贡觉县| 都匀市| 临桂县| 黄山市| 闸北区|