国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

本體構(gòu)建相關(guān)文獻(xiàn)綜述報(bào)告

2019-11-30 12:49張婷
電子技術(shù)與軟件工程 2019年1期
關(guān)鍵詞:三元組術(shù)語(yǔ)語(yǔ)言學(xué)

文/張婷

1 概念學(xué)習(xí)

概念學(xué)習(xí)階段主要包括術(shù)語(yǔ)提取和概念形成兩個(gè)任務(wù)。目前,概念學(xué)習(xí)階段首要集中于術(shù)語(yǔ)抽取的研究?,F(xiàn)有的術(shù)語(yǔ)抽取研究首要分為四類(lèi):語(yǔ)言學(xué)方法、統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法和混合方法。

1.1 語(yǔ)言學(xué)方法

運(yùn)用語(yǔ)言學(xué)方法來(lái)進(jìn)行的術(shù)語(yǔ)抽取通常情況下是來(lái)分析某個(gè)領(lǐng)域之內(nèi)的術(shù)語(yǔ)的詞性組成,提取出領(lǐng)域內(nèi)術(shù)語(yǔ)的詞性構(gòu)成模板來(lái)提取術(shù)語(yǔ)。最開(kāi)始是基于詞語(yǔ)的詞性(part-ofspeech,POS)標(biāo)注為基礎(chǔ)來(lái)進(jìn)行術(shù)語(yǔ)抽取,在20世紀(jì)70年代,Earl發(fā)現(xiàn)術(shù)語(yǔ)一般為名詞,采用研究詞性模板((A|N)+|((A|N)*(NP)?(A|N)*)N來(lái)篩選頻率超過(guò)一定閩值的詞語(yǔ)作為術(shù)語(yǔ),之后的很多研究都在此基礎(chǔ)上進(jìn)行;Klingbiel結(jié)合詞典與詞性來(lái)選擇特定的語(yǔ)法結(jié)構(gòu)作為術(shù)語(yǔ)的候選詞;Bourigault運(yùn)用淺層語(yǔ)法分析來(lái)獲得名詞短語(yǔ)作為術(shù)語(yǔ);Justeson研究后認(rèn)為術(shù)語(yǔ)不僅可以由單詞構(gòu)成,即單詞術(shù)語(yǔ),還可以由多個(gè)詞組成的復(fù)合術(shù)語(yǔ),并且他們以為大多數(shù)術(shù)語(yǔ)由形容詞、名詞或介詞短語(yǔ)組成,最終呈現(xiàn)的動(dòng)詞、副詞或連接詞很少。

他們采用((A|N)+|((A|N)*(NP)?(A|N)*)N這一詞性模板,并結(jié)合詞典來(lái)獲取候選術(shù)語(yǔ);提取候選術(shù)語(yǔ)的思想一出現(xiàn),很多研究都各自提出了復(fù)合術(shù)語(yǔ)的模板,包括Dagan等提出的Noun+模板,F(xiàn)rantzi等提出的(Noun|Adjective)+Noun模板等。此外,Sabou提取名詞短語(yǔ)的運(yùn)用信息如詞素,詞根和語(yǔ)句中的方位。除了英語(yǔ)言語(yǔ)的方式術(shù)語(yǔ)抽取研究,中文領(lǐng)域的相關(guān)研究中也提出一些模板或規(guī)則來(lái)進(jìn)行術(shù)語(yǔ)抽取,王昊等依據(jù)合成規(guī)則構(gòu)造術(shù)語(yǔ)的方法來(lái)獲取術(shù)語(yǔ);王柏林利用規(guī)則方法從學(xué)術(shù)文獻(xiàn)中抽取術(shù)語(yǔ)。

1.2 統(tǒng)計(jì)學(xué)方法

通過(guò)運(yùn)用統(tǒng)計(jì)學(xué)的方法來(lái)進(jìn)行術(shù)語(yǔ)抽取,主要是通過(guò)術(shù)語(yǔ)的一些統(tǒng)計(jì)學(xué)特征來(lái)區(qū)分領(lǐng)域術(shù)語(yǔ)及普通詞語(yǔ),例如基于術(shù)語(yǔ)的領(lǐng)域性,領(lǐng)域術(shù)語(yǔ)要較普通詞語(yǔ)在某一領(lǐng)域的出現(xiàn)頻率高。Pantel等在復(fù)合術(shù)語(yǔ)的抽取中采用互信息與對(duì)數(shù)似然方法;Gelbukh等采用對(duì)數(shù)似然進(jìn)行術(shù)語(yǔ)抽??;劉劍等以及李江華等采用互信息和信息嫡進(jìn)行術(shù)語(yǔ)抽取。除了復(fù)合術(shù)語(yǔ)內(nèi)部詞語(yǔ)的搭配強(qiáng)度,復(fù)合術(shù)語(yǔ)最左及最右的詞語(yǔ)與語(yǔ)料中左鄰及右領(lǐng)的詞的搭配強(qiáng)度也可用于考查復(fù)合術(shù)語(yǔ)的獨(dú)立性,丁杰等用左右邊界嫡確定專(zhuān)利術(shù)語(yǔ)邊界,該左右邊界嫡就是通過(guò)確定術(shù)語(yǔ)與其左詞及右詞搭配出現(xiàn)的關(guān)聯(lián)程度來(lái)考查該術(shù)語(yǔ)的獨(dú)立性。

1.3 機(jī)器學(xué)習(xí)方法

此外,統(tǒng)計(jì)機(jī)器學(xué)習(xí)(Machine Learning,ML)方法也被應(yīng)用于術(shù)語(yǔ)的抽取中。關(guān)于特征的選擇問(wèn)題,術(shù)語(yǔ)抽取常用的特征有統(tǒng)計(jì)特征及語(yǔ)言學(xué)特征等,統(tǒng)計(jì)特征指利用一些統(tǒng)計(jì)學(xué)方法獲取的特征值,包括文檔頻率、反文檔頻率和TF-IDF;語(yǔ)言特征主要指詞類(lèi)特征。Collie使用隱馬爾可夫模型提取生物范疇的術(shù)語(yǔ),并提取了23個(gè)特征。包括數(shù)字、大寫(xiě)字母、羅馬字符、連字符等;Shen采用隱馬爾可夫模型,辨認(rèn)詞典的功用,包含:較為簡(jiǎn)明的特點(diǎn),字詞的形態(tài)特征(如前綴或后綴)、詞性特征、語(yǔ)義觸發(fā)功用,名詞,和特別的動(dòng)詞;張承志使用條件隨機(jī)域提取出16個(gè)特征:除了根本的功用,如字、詞的長(zhǎng)度,和講話(huà)的一部分,它還包含衍生功用,如頻率差等等。機(jī)器學(xué)習(xí)方法效果的好壞程度高度依賴(lài)于提取的特征集,當(dāng)特征提取地較為完備時(shí),可以獲得比較高的準(zhǔn)確率以及召回率,因此,選擇什么樣的特征集是機(jī)器學(xué)習(xí)方法研究的重點(diǎn)。

1.4 混合方法

混合方法即結(jié)合上述幾種方法來(lái)進(jìn)行術(shù)語(yǔ)抽取的方法,一般可以分為三種:第一種是首先利用語(yǔ)言學(xué)方法提取語(yǔ)料中的候選術(shù)語(yǔ),再采用統(tǒng)計(jì)學(xué)方法對(duì)提取的候選術(shù)語(yǔ)進(jìn)行排序;第二種與第一種相反;第三種是首先提取特征集,再采用機(jī)器學(xué)習(xí)的方法來(lái)抽取術(shù)語(yǔ)。

Frantzi等人提出的C值/NC值方式。該方法是歸于第一類(lèi)的方法。首先,需要利用語(yǔ)言學(xué)的方式從語(yǔ)料庫(kù)之中提取名詞的短語(yǔ),然后選用統(tǒng)計(jì)學(xué)方法來(lái)抽取復(fù)合術(shù)語(yǔ)。Lossio-Ventura結(jié)合了兩種方法來(lái)抽取復(fù)合術(shù)語(yǔ),第一種方法是LIDF-value(結(jié)合語(yǔ)言學(xué)模板,IDF以及C-value方法),是一種結(jié)合了語(yǔ)言學(xué)及統(tǒng)計(jì)學(xué)的方法,第二種是TeRGraph(基于圖信息的術(shù)語(yǔ)排序方法),是一種基于圖的方法(統(tǒng)計(jì)),基于圖的方法假設(shè)術(shù)語(yǔ)的鄰接術(shù)語(yǔ)越多,則越不具備領(lǐng)域性,然后采用了Dice coeff icient來(lái)計(jì)算圖中由邊連接的兩個(gè)術(shù)語(yǔ)間共現(xiàn)。Ittoo結(jié)合了語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)方法來(lái)抽取復(fù)合術(shù)語(yǔ)(主要用于抽取2詞復(fù)合術(shù)語(yǔ)),他們采用了語(yǔ)言學(xué)方法進(jìn)行候選術(shù)語(yǔ)抽取,然后采用了cube互信息(MI3),并結(jié)合英文Wikipedia語(yǔ)料集來(lái)進(jìn)行術(shù)語(yǔ)抽取。張雷瀚提出一種多策略融合的領(lǐng)域術(shù)語(yǔ)抽取方法,結(jié)合語(yǔ)言學(xué)方法及統(tǒng)計(jì)方法,構(gòu)造術(shù)語(yǔ)的逆向詞性規(guī)則和領(lǐng)域停用詞表,利用PATTree和C-value方法獲取候選術(shù)語(yǔ),再對(duì)比單一文檔和領(lǐng)域文檔集來(lái)計(jì)算術(shù)語(yǔ)領(lǐng)域度,通過(guò)排序獲取最終的術(shù)語(yǔ)。

2 等級(jí)關(guān)系抽取

關(guān)系抽取又包括等級(jí)關(guān)系抽取(taxonomic relationships)及非等級(jí)關(guān)系的抽取(nontaxonomic relationships),中文關(guān)系抽取主要集中在命名實(shí)體間的關(guān)系抽取,對(duì)于本體概念間的關(guān)系抽取研究很少,大多基于詞典、模板等進(jìn)行概念關(guān)系抽取,效率不高。概念間等級(jí)關(guān)系獲取的主要任務(wù)是構(gòu)建概念間的上下級(jí)關(guān)系,主要有四種方式:語(yǔ)言學(xué)方式、統(tǒng)計(jì)學(xué)方式、基于圖的方式和混合方式。

2.1 語(yǔ)言學(xué)方法

該方式主要經(jīng)過(guò)形狀剖析、句法剖析、依存結(jié)構(gòu)剖析和語(yǔ)義剖析來(lái)識(shí)別層次聯(lián)系。如果存在包括層次聯(lián)系的句法模式,則經(jīng)過(guò)提取和總結(jié)頻繁句法模式來(lái)標(biāo)識(shí)聯(lián)系。Hearst采用bootstrapping算法擴(kuò)展到更多的模板,用于抽取上下位關(guān)系;Pantel等結(jié)合Web與語(yǔ)言學(xué)模板的方法進(jìn)行了語(yǔ)義關(guān)系的抽??;王昊等提出了結(jié)合以文檔一術(shù)語(yǔ)空間為核心,結(jié)合形式概念分析的方法來(lái)進(jìn)行等級(jí)關(guān)系的構(gòu)建;湯青等結(jié)合句法分析與規(guī)則匹配來(lái)進(jìn)行概念等級(jí)關(guān)系的抽取。根據(jù)言語(yǔ)的方式辨認(rèn)詞之間的高精度關(guān)系。缺點(diǎn)是根據(jù)言語(yǔ)模板的方式通常需要專(zhuān)家常識(shí)來(lái)開(kāi)發(fā)模板。在模板的擴(kuò)展過(guò)程中需要耗費(fèi)大量的成本,可移植性較差。

2.2 統(tǒng)計(jì)學(xué)方法

統(tǒng)計(jì)學(xué)方法通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的計(jì)算處理,發(fā)現(xiàn)規(guī)則,從而發(fā)掘聯(lián)系。該方法與言語(yǔ)、范疇無(wú)關(guān),具有很強(qiáng)的可移植性。但是,它十分依賴(lài)于語(yǔ)料庫(kù)的質(zhì)量和規(guī)模,使得命名聯(lián)系類(lèi)型變得困難。層次聯(lián)系抽取可以看作是一個(gè)聚類(lèi)或分類(lèi)問(wèn)題。根據(jù)聚類(lèi)的層次聯(lián)系識(shí)別方法主要有兩種:層次聚類(lèi)和非層次聚類(lèi)。董洋溢等采用了混合了余弦相似度的核函數(shù)方法來(lái)進(jìn)行概念等級(jí)關(guān)系的抽取,將這一任務(wù)轉(zhuǎn)化為分類(lèi)任務(wù)。

2.3 基于圖的方法

根據(jù)圖的方法一般涉及圖節(jié)點(diǎn)的概念、表明聯(lián)系的圖的邊以及丈量概念之間間隔的概念之間的邊數(shù)。Kozareva主張運(yùn)用根據(jù)圖的方法來(lái)從有向圖中結(jié)構(gòu)。給定根節(jié)點(diǎn)和一些分層概念,運(yùn)用預(yù)定義的模板,從而能夠發(fā)現(xiàn)新的從屬概念;Velardi為每個(gè)概念(在文檔集或Web中)找到定義,然后運(yùn)用分類(lèi)結(jié)果。結(jié)構(gòu)有向圖模型,其中邊是概念之間的聯(lián)系;運(yùn)用根據(jù)圖的方法來(lái)度量概念之間的相關(guān)程度,而且運(yùn)用語(yǔ)句之間的空間間隔來(lái)丈量語(yǔ)句的相似性。

2.4 混合方法

Suchanek結(jié)合了語(yǔ)言學(xué)模板機(jī)器學(xué)習(xí)算法——支持向量機(jī)從文本中獲取概念聯(lián)系;Cimian將聚類(lèi)算法和言語(yǔ)模板相結(jié)合,從互聯(lián)網(wǎng)上提取上下文信息,提取上下文聯(lián)系;Rios-Alvarado組合言語(yǔ)學(xué)習(xí)模板和clu斯特林算法對(duì)文本中的概念來(lái)進(jìn)行等級(jí)關(guān)系抽取;張曉勇結(jié)合深度學(xué)習(xí)與聚類(lèi)方法從條件隨機(jī)場(chǎng)抽取的候選術(shù)語(yǔ)集中獲取概念等級(jí)關(guān)系;王昊利用形式概念分析來(lái)獲取主題概念,并采用主題概念格進(jìn)行概念等級(jí)關(guān)系的獲取。

3 非等級(jí)關(guān)系抽取

概念非等級(jí)關(guān)系的抽取通常包含兩個(gè)任務(wù):

(1)從語(yǔ)料中抽取出可以組成概念非等級(jí)關(guān)系三元組的元素,包括相關(guān)的概念對(duì)以及描述概念對(duì)關(guān)系的動(dòng)詞;

(2)命名概念之間的聯(lián)系。由于概念非層次聯(lián)系提取元素較多,因而概念非層次聯(lián)系提取的研討通常采用多種方式進(jìn)行提取。依據(jù)這些抽取工作中運(yùn)用的方式,可以分為兩類(lèi):一類(lèi)是語(yǔ)言方式;另一種是統(tǒng)計(jì)學(xué)方式。

3.1 語(yǔ)言學(xué)方法

語(yǔ)言學(xué)方法是利用語(yǔ)言學(xué)模板的方法來(lái)獲取概念非等級(jí)關(guān)系三元組。Berland利用WordNet作為資源,采用模板對(duì)概念間的部分一整體關(guān)系進(jìn)行抽取,生成候選概念對(duì),再利用統(tǒng)計(jì)學(xué)方法進(jìn)行排序;Nenadi采用了三種模板(詞典一語(yǔ)義模板、復(fù)合名詞模板、上下文模板)來(lái)獲取MEDLINE中的術(shù)語(yǔ),上下文模板用于獲取語(yǔ)料庫(kù)中特征明顯的術(shù)語(yǔ),然后獲取特定內(nèi)容中的另一個(gè)術(shù)語(yǔ)、動(dòng)詞和介詞,然后根據(jù)模板長(zhǎng)度和頻率的排序規(guī)矩對(duì)模板進(jìn)行排序,并使用上述模板取得三個(gè)類(lèi)似度。度,然后加權(quán)生成終究的類(lèi)似度值,并調(diào)整權(quán)重參數(shù);Sanchez使用動(dòng)詞模板獲取領(lǐng)域語(yǔ)料庫(kù)中的動(dòng)詞,然后將非層次聯(lián)系的概念與Web相結(jié)合,然后以非層次聯(lián)系命名聯(lián)系。在漢語(yǔ)非層次聯(lián)系獲取的研討中,俞凡首先定義了漢語(yǔ)非層次聯(lián)系提取的規(guī)矩,然后結(jié)合關(guān)聯(lián)規(guī)矩發(fā)掘,提取非層次聯(lián)系的概念;何宇結(jié)合句法分析和詞典特征對(duì)專(zhuān)利領(lǐng)域的非等級(jí)關(guān)系進(jìn)行獲取;趙明等。采用句法分析來(lái)獲取概念間的非等級(jí)關(guān)系?;谀0宓姆椒P(guān)鍵在于針對(duì)不同類(lèi)型的關(guān)系進(jìn)行模板的提取,但是需要窮盡所有的關(guān)系類(lèi)型模板并非易事,這種方法只適用于獲取特定的非等級(jí)關(guān)系。

3.2 統(tǒng)計(jì)學(xué)方法

統(tǒng)計(jì)學(xué)方法一般利用術(shù)語(yǔ)對(duì)的共現(xiàn)或者相似度來(lái)抽取非等級(jí)關(guān)系。Kavalec先通過(guò)語(yǔ)言學(xué)方法獲取語(yǔ)料中的動(dòng)詞,通常概念非等級(jí)關(guān)系中的關(guān)系由動(dòng)詞表示,再將窗口范圍限定在N個(gè)單詞的距離內(nèi),在窗口中挑選兩個(gè)詞來(lái)生成“概念-動(dòng)詞-概念”三元組,再根據(jù)三元組的頻率來(lái)排序,獲取高頻三元組為候選三元組,然后利用條件概率來(lái)計(jì)算概念對(duì)與動(dòng)詞的相關(guān)性。Punuru提出了VF*ICF方法(類(lèi)似于TF-IDF的方式)來(lái)計(jì)量動(dòng)詞注釋關(guān)系的能力,先獲取相關(guān)概念對(duì),再?gòu)念I(lǐng)域語(yǔ)料中獲取候選關(guān)系三元組(,SVO),采用對(duì)數(shù)似然方法來(lái)測(cè)量概念間的關(guān)聯(lián)程度。秦兵首先采用實(shí)體之間及關(guān)系指示詞的位置限制來(lái)獲取候選關(guān)系三元組,再采用全局排序和類(lèi)型排序來(lái)挖掘關(guān)系動(dòng)詞,最后利用動(dòng)詞及句式規(guī)則對(duì)關(guān)系三元組進(jìn)行過(guò)濾。

關(guān)聯(lián)規(guī)則挖掘通常也被用于挖掘概念對(duì)之間或概念對(duì)與動(dòng)詞之間的關(guān)系,Villaverde在獲取了候選非等級(jí)關(guān)系三元組的基礎(chǔ)上,利用相關(guān)規(guī)矩發(fā)掘方法在候選三元組中得到概念對(duì)與動(dòng)詞之間具有較強(qiáng)相關(guān)規(guī)矩的三元組,但是該文章只關(guān)注了概念對(duì)與動(dòng)詞之間的關(guān)聯(lián)度,并沒(méi)有衡量概念與概念之間的關(guān)聯(lián)程度。Gulla對(duì)比了利用關(guān)聯(lián)規(guī)則挖掘及向量空間模型兩種方法在非等級(jí)關(guān)系抽取中的效果,他們將非等級(jí)關(guān)系分為三類(lèi):不相關(guān)、相關(guān)和高度相關(guān)。結(jié)果表明,獲取的關(guān)系可以借助相似度算法來(lái)獲取,最終他們關(guān)聯(lián)規(guī)則挖掘與相似度算法相結(jié)合進(jìn)行了非等級(jí)關(guān)系的獲取,其效果很好。

猜你喜歡
三元組術(shù)語(yǔ)語(yǔ)言學(xué)
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
關(guān)于余撓三元組的periodic-模
認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
三元組輻射場(chǎng)的建模與仿真
社會(huì)語(yǔ)言學(xué)名詞
有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
基于認(rèn)知語(yǔ)言學(xué)的“認(rèn)知修辭學(xué)”——從認(rèn)知語(yǔ)言學(xué)與修辭學(xué)的兼容、互補(bǔ)看認(rèn)知修辭學(xué)的可行性