劉媛媛
摘要:本文介紹了實(shí)體一屬性抽取的相關(guān)概念,分析了規(guī)則抽取的方法,模式匹配的抽取方法,基于關(guān)系分類(lèi)的抽取方法和基于聚類(lèi)的抽取方法,最后對(duì)幾種抽取方法進(jìn)行了比較,為后續(xù)數(shù)據(jù)結(jié)構(gòu)化的研究奠定基礎(chǔ)。
關(guān)鍵詞:屬性抽取;模式匹配;機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)33-0234-01
1信息抽取簡(jiǎn)介
隨著云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上保存了海量的數(shù)據(jù)。信息抽取就是對(duì)海量的,非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,從而根據(jù)一定的目的結(jié)構(gòu)化的抽取出相關(guān)的實(shí)體和屬性。所謂實(shí)體也就是事物或者對(duì)象,屬性就是事物或者對(duì)象的特征或者特性。通過(guò)實(shí)體一屬性抽取從網(wǎng)絡(luò)中海量的非結(jié)構(gòu)化信息中獲得事物對(duì)象及其特征,從而利用和理解這些非結(jié)構(gòu)化信息。目前實(shí)體一屬性抽取已經(jīng)成為理論研究者和產(chǎn)業(yè)實(shí)踐者關(guān)注的熱點(diǎn)領(lǐng)域。
2基于規(guī)則匹配的實(shí)體一屬性抽取方法
基于模式匹配的抽取方法也叫基于規(guī)則的抽取方法,顧名思義就是基于事先構(gòu)造一系列規(guī)則來(lái)抽取文本中實(shí)體一屬性的方法。這種方法首先定義相關(guān)抽取規(guī)則,如,在網(wǎng)頁(yè)中定義相關(guān)的規(guī)范的tag標(biāo)記,或人工編寫(xiě)正則表達(dá)式,然后將這些規(guī)則與文本進(jìn)行匹配,通過(guò)匹配的結(jié)果得到抽取的實(shí)體及其屬性?;谝?guī)則的抽取方法接近于人的思維方式,其對(duì)知識(shí)的表示方法看起來(lái)相對(duì)直觀?;谝?guī)則的抽取系統(tǒng)一般由兩部分組成,一個(gè)是一系列關(guān)于抽取規(guī)則的集合,第二是一系列定義匹配策略的集合?;谝?guī)則的抽取系統(tǒng)運(yùn)行速度比較快,維護(hù)和優(yōu)化相對(duì)比較容易。
3基于模式匹配的實(shí)體一屬性抽取方法
基于模式匹配的方法根據(jù)其定義模式的方法可以分成三種:基于手工定義的抽取、基于有監(jiān)督學(xué)習(xí)的抽取和基于迭代的抽取?;谑止ざx方式就是具有通過(guò)相關(guān)領(lǐng)域?qū)I(yè)知識(shí)的人員進(jìn)行人工的定義一系列模式?;趯W(xué)習(xí)的方式就是,首先收集相關(guān)語(yǔ)料組成大規(guī)模的語(yǔ)料庫(kù),然后通過(guò)人工標(biāo)準(zhǔn)的非結(jié)構(gòu)化例子訓(xùn)練自動(dòng)獲得模式,構(gòu)建具有大量實(shí)體一屬性的知識(shí)庫(kù)?;诘姆椒ㄊ鞘紫榷x模板元組,讓后對(duì)這些模板元組進(jìn)行迭代,自動(dòng)產(chǎn)生模式,從而進(jìn)行對(duì)實(shí)體一屬性的抽取。
4基于關(guān)系分類(lèi)的實(shí)體一屬性抽取方法
基于關(guān)系分類(lèi)的方法就是將屬性抽取問(wèn)題轉(zhuǎn)化成關(guān)系分類(lèi)問(wèn)題。首先將抽取的兩個(gè)實(shí)體視為一個(gè)樣本,實(shí)體直接的關(guān)系視為標(biāo)簽,然后通過(guò)手工的方式構(gòu)建樣本特征,最后依據(jù)這些特征對(duì)樣本進(jìn)行分類(lèi),分類(lèi)的結(jié)果便是實(shí)體之間的關(guān)系,也就是屬性?;陉P(guān)系的抽取方法通常借助機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行,如支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等,通過(guò)對(duì)大量語(yǔ)料庫(kù)的訓(xùn)練來(lái)學(xué)習(xí)分類(lèi)模型,從而對(duì)實(shí)體一屬性進(jìn)行抽取?;陉P(guān)系分類(lèi)的方法按照其語(yǔ)料庫(kù)的建設(shè)方式可以分為遠(yuǎn)程監(jiān)督的方法和全監(jiān)督的方法?;谶h(yuǎn)程監(jiān)督的方法基本由機(jī)器構(gòu)建語(yǔ)料庫(kù),而基于全監(jiān)督的方法則由人工構(gòu)建語(yǔ)料庫(kù)。由于由人工來(lái)構(gòu)建語(yǔ)料庫(kù)耗費(fèi)大量的時(shí)間和精力,因此通常目前更熱衷于使用遠(yuǎn)程監(jiān)督的方法構(gòu)建語(yǔ)料庫(kù)。
5基于聚類(lèi)的實(shí)體一屬性抽取方法
基于聚類(lèi)的方法就是將屬性抽取問(wèn)題轉(zhuǎn)化成聚類(lèi)問(wèn)題。首先構(gòu)建實(shí)體特性向量,然后基于相關(guān)方法對(duì)這些特征特征向量進(jìn)行聚類(lèi),最后得到的聚類(lèi)就是實(shí)體的屬性。例如對(duì)于類(lèi)別屬性可以采用弱監(jiān)督的聚類(lèi)方法,對(duì)應(yīng)產(chǎn)品屬性可以采用無(wú)監(jiān)督的聚類(lèi)方法等。不過(guò)聚類(lèi)的方法需要首先構(gòu)建聚類(lèi)的中心點(diǎn),所以用來(lái)構(gòu)建初始化中心點(diǎn)的種子實(shí)體一屬性的選擇好壞直接影響到抽取的結(jié)果。
6各個(gè)方法的比較
從當(dāng)前的應(yīng)用廣泛程度來(lái)看,基于規(guī)則的方法是早期使用的方式,由于其理解簡(jiǎn)單,易于操作,準(zhǔn)確率高,一直到現(xiàn)在都比較流行。但是這種方法需要專(zhuān)業(yè)的人員來(lái)定義規(guī)則,隨著技術(shù)的發(fā)展慢慢正被其他方法取代?;谀J狡ヅ涞某槿》椒ê突陉P(guān)系分類(lèi)的抽取方法是當(dāng)前應(yīng)用比較廣泛的方法?;谀J狡ヅ涞姆椒梢钥醋骰谝?guī)則的升級(jí)方法,既可以人工構(gòu)建模式,也可以借助機(jī)器構(gòu)建模式,所以既擁有準(zhǔn)確率高的有點(diǎn),也在一定程度上克服了召回率低的缺點(diǎn)?;陉P(guān)系分類(lèi)和聚類(lèi)的方法不需要專(zhuān)業(yè)人員或太多的背景知識(shí),但是需要構(gòu)建用來(lái)訓(xùn)練的語(yǔ)料庫(kù)支持,在大數(shù)據(jù)時(shí)代,這種方式能充分利用數(shù)據(jù),減少人工,保證準(zhǔn)確率和召回率,是未來(lái)實(shí)體一屬性抽取的發(fā)展方向。
【通聯(lián)編輯:梁書(shū)】