国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法分析的實體關(guān)系抽取

2018-05-14 09:39李真張優(yōu)敏夏冬梅靳沖
科技風(fēng) 2018年15期
關(guān)鍵詞:支持向量機(jī)

李真 張優(yōu)敏 夏冬梅 靳沖

摘 要:針對領(lǐng)域本體構(gòu)建中實體關(guān)系種類不明確,以及中文文本中多出現(xiàn)復(fù)雜句式,復(fù)雜句子中實體關(guān)系的獲取比較難的問題,提出基于句子語法分析的實體關(guān)系獲取方法,通過對句法結(jié)構(gòu)的分析,加入句法特征。以旅游領(lǐng)域的實體關(guān)系獲取為模型分別進(jìn)行二組實驗。實驗表明,基于SVM關(guān)系抽取實驗中,加入了句法特征的那組實驗結(jié)果的F值提高了15個百分點,證明句法特征對基于SVM的實體關(guān)系獲取的有效性。

關(guān)鍵詞:實體關(guān)系;句法特征;支持向量機(jī)

中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A

國內(nèi)外對實體關(guān)系的抽取都做了相關(guān)的研究,蔡鴻博[1]采用挖掘頻繁項集關(guān)聯(lián)性與分析詞結(jié)構(gòu)信息相結(jié)合的方法來自動挖掘上位詞之間的上位關(guān)系,達(dá)到了較好的層次化效果;郭劍毅[2]提出一種改進(jìn)的徑向基核函數(shù)融合多項式核函數(shù)及卷積樹核函數(shù)。本文前期也做過基于SVM(支持向量機(jī))的概念、屬性及屬性值的對應(yīng)關(guān)系獲取[3],但都沒有考慮復(fù)雜句式的問題,句法分析在處理復(fù)雜句式時有明顯的優(yōu)勢,因此,本文在進(jìn)行關(guān)系抽取時,通過對句法結(jié)構(gòu)的分析,加入句法特征。以云南旅游領(lǐng)域?qū)嶓w關(guān)系獲取進(jìn)行試驗驗證,結(jié)果表明該方法具有良好的可行性。

1 基于句法分析的實體關(guān)系抽取

特征的選擇。

在使用SVM進(jìn)行實體關(guān)系獲取時,最核心的步驟就是構(gòu)造特征向量,特征向量的構(gòu)造需要選取合適的特征,特征選取不合適會直接影響到實驗的結(jié)果。由于中文文本中特征具有多樣性,在考慮到常用的詞特征、實體類型特征等的基礎(chǔ)上,引入一種句法特征。下面重點介紹一下句法特征。

(a)父類成分特征。父類特征主要表示在同一個句子中,兩個實體在句法分析樹中的結(jié)點是在哪個句法位置處顯示的。本文主要考慮五個句法成分:pp,np,zj,dj,vp。從離兩個實體最近的父結(jié)點開始,依次向上搜索,如果出現(xiàn)最近的公共句法成分為pp,np,zj,dj,vp中任一個,則其為父類特征。其中pp,np,zj,dj,vp在句法成分中分別表示動詞短信、名詞短語、整句、單句句型和介詞短語。

(b)兩個實體間的路徑特征。兩個實體在句法分析樹中的路徑,由兩個實體對應(yīng)的結(jié)點間的句法成分構(gòu)成。例如句子“滇池位于云南省昆明市的西南?!彼木浞錇閇jd[np滇池/ns] [vp位于/v [sp云南省/ns昆明市/ns 的/u 西南/nl 。/wp]]],如下圖所示,兩實體之間的路徑為np+dj-vp-sp。

(c)中心詞之間以及中心詞到實體之間的路徑。在分析了“云南省昆明市的西南”和“滇池”這兩個實體在語法分析樹中充當(dāng)?shù)某煞趾螅l(fā)現(xiàn)它們都和動詞“位于”的關(guān)系比較密切,從句子的語義角色這方面來看,“云南省昆明市的西南”是“ 位于”的受動者,“滇池”是“位于”的施事者, 同時本文發(fā)現(xiàn)句子中的大部分關(guān)系都有這樣的一個角色依賴關(guān)系和中心詞。因此,本文在原有特征的基礎(chǔ)上加了兩個新特征:兩個實體分別到中心詞的句法分析路徑特征和中心詞特征。中心詞為“位于”,實體E1到中心詞的路徑為:np+dj-vp,實體E2到中心詞的路徑為:vp-sp。

2 試驗數(shù)據(jù)以及結(jié)果分析

(1)試驗數(shù)據(jù)以及評價指標(biāo)。

為了證明SVM在實體語義關(guān)系抽取上具有可行性和有效性,本文分別設(shè)計了兩組相關(guān)的實驗室,其中第一組實驗是只有基礎(chǔ)特征實體關(guān)系抽取實驗;第二組是不斷加入句法特征的基于SVM的實體關(guān)系抽取實驗。由于本文在做實體關(guān)系抽取的實驗時,缺乏相關(guān)的權(quán)威語料,本文利用網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)上搜集了相關(guān)旅游領(lǐng)域的語料,主要包括酒店、景點、文化、小吃四類,文檔3000余篇,其中有2000篇是作為訓(xùn)練語料,其余1000篇則作為測試語料。

在對實驗結(jié)果的評測中,本文采用信息抽取任務(wù)中比較權(quán)威的評測標(biāo)準(zhǔn)。即用召回率(R)來反映實驗結(jié)果的查全率,用準(zhǔn)確率(P)來反映實體關(guān)系抽取的精度,用F值來表示實驗結(jié)果的最終性能指標(biāo),即:

(2)結(jié)果及分析。

由下表可知,每次加入的句法特征都起到了改進(jìn)系統(tǒng)性能的作用,其中父類成分以及中心詞和實體距中心詞的路徑兩個特征對實驗的結(jié)果有很大的影響,提高了實體關(guān)系抽取的性能。

3 結(jié)論

實體關(guān)系的獲取是近年來文本信息處理領(lǐng)域的一個研究熱點。本文通過對兩個實體在句法結(jié)構(gòu)樹中的位置進(jìn)行分析,獲取實體之間的依存特征,在基于SVM的實體關(guān)系抽取中不斷地加入這些句子結(jié)構(gòu)特征,實驗證明,句法分析對基于SVM的實體語義關(guān)系抽取具有顯著的效果。

參考文獻(xiàn):

[1]蔡鴻博.基于上位詞的中文實體關(guān)系圖譜構(gòu)建[D].哈爾濱工業(yè)大學(xué),2014.

[2]郭劍毅,陳鵬,余正濤,等.基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J].中文信息學(xué)報,2016,30(01):24-29.

[3]郭劍毅,李真,余正濤,等.領(lǐng)域本體概念實例、屬性和屬性值的抽取及關(guān)系預(yù)測[J].南京大學(xué)學(xué)報(自然科學(xué)版),2012,48(04):383-389.

[4]付瑞吉.開放域命名實體識別及其層次化類別獲取[D].哈爾濱工業(yè)大學(xué),2014.

作者簡介:李真(1983-),女,碩士,講師,高級工程師,研究方向為信息抽取。

猜你喜歡
支持向量機(jī)
基于支持向量回歸機(jī)的電能質(zhì)量評估
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報模型
基于SVM的煙草銷售量預(yù)測
動態(tài)場景中的視覺目標(biāo)識別方法分析
論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
管理類研究生支持向量機(jī)預(yù)測決策實驗教學(xué)研究