本體構(gòu)建相關(guān)文獻(xiàn)綜述報(bào)告

2019-11-30 12:49張婷

電子技術(shù)與軟件工程 2019年1期

文/張婷

1 概念學(xué)習(xí)

概念學(xué)習(xí)階段主要包括術(shù)語(yǔ)提取和概念形成兩個(gè)任務(wù)。目前，概念學(xué)習(xí)階段首要集中于術(shù)語(yǔ)抽取的研究?，F(xiàn)有的術(shù)語(yǔ)抽取研究首要分為四類(lèi)：語(yǔ)言學(xué)方法、統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法和混合方法。

1.1 語(yǔ)言學(xué)方法

運(yùn)用語(yǔ)言學(xué)方法來(lái)進(jìn)行的術(shù)語(yǔ)抽取通常情況下是來(lái)分析某個(gè)領(lǐng)域之內(nèi)的術(shù)語(yǔ)的詞性組成，提取出領(lǐng)域內(nèi)術(shù)語(yǔ)的詞性構(gòu)成模板來(lái)提取術(shù)語(yǔ)。最開(kāi)始是基于詞語(yǔ)的詞性(part-ofspeech，POS)標(biāo)注為基礎(chǔ)來(lái)進(jìn)行術(shù)語(yǔ)抽取，在20世紀(jì)70年代，Earl發(fā)現(xiàn)術(shù)語(yǔ)一般為名詞，采用研究詞性模板((A|N)+|((A|N)*(NP)?(A|N)*)N來(lái)篩選頻率超過(guò)一定閩值的詞語(yǔ)作為術(shù)語(yǔ)，之后的很多研究都在此基礎(chǔ)上進(jìn)行；Klingbiel結(jié)合詞典與詞性來(lái)選擇特定的語(yǔ)法結(jié)構(gòu)作為術(shù)語(yǔ)的候選詞；Bourigault運(yùn)用淺層語(yǔ)法分析來(lái)獲得名詞短語(yǔ)作為術(shù)語(yǔ)；Justeson研究后認(rèn)為術(shù)語(yǔ)不僅可以由單詞構(gòu)成，即單詞術(shù)語(yǔ)，還可以由多個(gè)詞組成的復(fù)合術(shù)語(yǔ)，并且他們以為大多數(shù)術(shù)語(yǔ)由形容詞、名詞或介詞短語(yǔ)組成，最終呈現(xiàn)的動(dòng)詞、副詞或連接詞很少。

他們采用((A|N)+|((A|N)*(NP)?(A|N)*)N這一詞性模板，并結(jié)合詞典來(lái)獲取候選術(shù)語(yǔ)；提取候選術(shù)語(yǔ)的思想一出現(xiàn)，很多研究都各自提出了復(fù)合術(shù)語(yǔ)的模板，包括Dagan等提出的Noun+模板，F(xiàn)rantzi等提出的(Noun|Adjective)+Noun模板等。此外，Sabou提取名詞短語(yǔ)的運(yùn)用信息如詞素，詞根和語(yǔ)句中的方位。除了英語(yǔ)言語(yǔ)的方式術(shù)語(yǔ)抽取研究，中文領(lǐng)域的相關(guān)研究中也提出一些模板或規(guī)則來(lái)進(jìn)行術(shù)語(yǔ)抽取，王昊等依據(jù)合成規(guī)則構(gòu)造術(shù)語(yǔ)的方法來(lái)獲取術(shù)語(yǔ)；王柏林利用規(guī)則方法從學(xué)術(shù)文獻(xiàn)中抽取術(shù)語(yǔ)。

1.2 統(tǒng)計(jì)學(xué)方法

通過(guò)運(yùn)用統(tǒng)計(jì)學(xué)的方法來(lái)進(jìn)行術(shù)語(yǔ)抽取，主要是通過(guò)術(shù)語(yǔ)的一些統(tǒng)計(jì)學(xué)特征來(lái)區(qū)分領(lǐng)域術(shù)語(yǔ)及普通詞語(yǔ)，例如基于術(shù)語(yǔ)的領(lǐng)域性，領(lǐng)域術(shù)語(yǔ)要較普通詞語(yǔ)在某一領(lǐng)域的出現(xiàn)頻率高。Pantel等在復(fù)合術(shù)語(yǔ)的抽取中采用互信息與對(duì)數(shù)似然方法；Gelbukh等采用對(duì)數(shù)似然進(jìn)行術(shù)語(yǔ)抽??；劉劍等以及李江華等采用互信息和信息嫡進(jìn)行術(shù)語(yǔ)抽取。除了復(fù)合術(shù)語(yǔ)內(nèi)部詞語(yǔ)的搭配強(qiáng)度，復(fù)合術(shù)語(yǔ)最左及最右的詞語(yǔ)與語(yǔ)料中左鄰及右領(lǐng)的詞的搭配強(qiáng)度也可用于考查復(fù)合術(shù)語(yǔ)的獨(dú)立性，丁杰等用左右邊界嫡確定專(zhuān)利術(shù)語(yǔ)邊界，該左右邊界嫡就是通過(guò)確定術(shù)語(yǔ)與其左詞及右詞搭配出現(xiàn)的關(guān)聯(lián)程度來(lái)考查該術(shù)語(yǔ)的獨(dú)立性。

1.3 機(jī)器學(xué)習(xí)方法

此外，統(tǒng)計(jì)機(jī)器學(xué)習(xí)(Machine Learning，ML)方法也被應(yīng)用于術(shù)語(yǔ)的抽取中。關(guān)于特征的選擇問(wèn)題，術(shù)語(yǔ)抽取常用的特征有統(tǒng)計(jì)特征及語(yǔ)言學(xué)特征等，統(tǒng)計(jì)特征指利用一些統(tǒng)計(jì)學(xué)方法獲取的特征值，包括文檔頻率、反文檔頻率和TF-IDF；語(yǔ)言特征主要指詞類(lèi)特征。Collie使用隱馬爾可夫模型提取生物范疇的術(shù)語(yǔ)，并提取了23個(gè)特征。包括數(shù)字、大寫(xiě)字母、羅馬字符、連字符等；Shen采用隱馬爾可夫模型，辨認(rèn)詞典的功用，包含：較為簡(jiǎn)明的特點(diǎn)，字詞的形態(tài)特征（如前綴或后綴）、詞性特征、語(yǔ)義觸發(fā)功用，名詞，和特別的動(dòng)詞；張承志使用條件隨機(jī)域提取出16個(gè)特征：除了根本的功用，如字、詞的長(zhǎng)度，和講話(huà)的一部分，它還包含衍生功用，如頻率差等等。機(jī)器學(xué)習(xí)方法效果的好壞程度高度依賴(lài)于提取的特征集，當(dāng)特征提取地較為完備時(shí)，可以獲得比較高的準(zhǔn)確率以及召回率，因此，選擇什么樣的特征集是機(jī)器學(xué)習(xí)方法研究的重點(diǎn)。

1.4 混合方法

混合方法即結(jié)合上述幾種方法來(lái)進(jìn)行術(shù)語(yǔ)抽取的方法，一般可以分為三種：第一種是首先利用語(yǔ)言學(xué)方法提取語(yǔ)料中的候選術(shù)語(yǔ)，再采用統(tǒng)計(jì)學(xué)方法對(duì)提取的候選術(shù)語(yǔ)進(jìn)行排序；第二種與第一種相反；第三種是首先提取特征集，再采用機(jī)器學(xué)習(xí)的方法來(lái)抽取術(shù)語(yǔ)。

Frantzi等人提出的C值/NC值方式。該方法是歸于第一類(lèi)的方法。首先，需要利用語(yǔ)言學(xué)的方式從語(yǔ)料庫(kù)之中提取名詞的短語(yǔ)，然后選用統(tǒng)計(jì)學(xué)方法來(lái)抽取復(fù)合術(shù)語(yǔ)。Lossio-Ventura結(jié)合了兩種方法來(lái)抽取復(fù)合術(shù)語(yǔ)，第一種方法是LIDF-value(結(jié)合語(yǔ)言學(xué)模板，IDF以及C-value方法)，是一種結(jié)合了語(yǔ)言學(xué)及統(tǒng)計(jì)學(xué)的方法，第二種是TeRGraph(基于圖信息的術(shù)語(yǔ)排序方法)，是一種基于圖的方法(統(tǒng)計(jì))，基于圖的方法假設(shè)術(shù)語(yǔ)的鄰接術(shù)語(yǔ)越多，則越不具備領(lǐng)域性，然后采用了Dice coeff icient來(lái)計(jì)算圖中由邊連接的兩個(gè)術(shù)語(yǔ)間共現(xiàn)。Ittoo結(jié)合了語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)方法來(lái)抽取復(fù)合術(shù)語(yǔ)(主要用于抽取2詞復(fù)合術(shù)語(yǔ))，他們采用了語(yǔ)言學(xué)方法進(jìn)行候選術(shù)語(yǔ)抽取，然后采用了cube互信息(MI3)，并結(jié)合英文Wikipedia語(yǔ)料集來(lái)進(jìn)行術(shù)語(yǔ)抽取。張雷瀚提出一種多策略融合的領(lǐng)域術(shù)語(yǔ)抽取方法，結(jié)合語(yǔ)言學(xué)方法及統(tǒng)計(jì)方法，構(gòu)造術(shù)語(yǔ)的逆向詞性規(guī)則和領(lǐng)域停用詞表，利用PATTree和C-value方法獲取候選術(shù)語(yǔ)，再對(duì)比單一文檔和領(lǐng)域文檔集來(lái)計(jì)算術(shù)語(yǔ)領(lǐng)域度，通過(guò)排序獲取最終的術(shù)語(yǔ)。

2 等級(jí)關(guān)系抽取

關(guān)系抽取又包括等級(jí)關(guān)系抽取(taxonomic relationships)及非等級(jí)關(guān)系的抽取(nontaxonomic relationships)，中文關(guān)系抽取主要集中在命名實(shí)體間的關(guān)系抽取，對(duì)于本體概念間的關(guān)系抽取研究很少，大多基于詞典、模板等進(jìn)行概念關(guān)系抽取，效率不高。概念間等級(jí)關(guān)系獲取的主要任務(wù)是構(gòu)建概念間的上下級(jí)關(guān)系，主要有四種方式：語(yǔ)言學(xué)方式、統(tǒng)計(jì)學(xué)方式、基于圖的方式和混合方式。

2.1 語(yǔ)言學(xué)方法

該方式主要經(jīng)過(guò)形狀剖析、句法剖析、依存結(jié)構(gòu)剖析和語(yǔ)義剖析來(lái)識(shí)別層次聯(lián)系。如果存在包括層次聯(lián)系的句法模式，則經(jīng)過(guò)提取和總結(jié)頻繁句法模式來(lái)標(biāo)識(shí)聯(lián)系。Hearst采用bootstrapping算法擴(kuò)展到更多的模板，用于抽取上下位關(guān)系；Pantel等結(jié)合Web與語(yǔ)言學(xué)模板的方法進(jìn)行了語(yǔ)義關(guān)系的抽??；王昊等提出了結(jié)合以文檔一術(shù)語(yǔ)空間為核心，結(jié)合形式概念分析的方法來(lái)進(jìn)行等級(jí)關(guān)系的構(gòu)建；湯青等結(jié)合句法分析與規(guī)則匹配來(lái)進(jìn)行概念等級(jí)關(guān)系的抽取。根據(jù)言語(yǔ)的方式辨認(rèn)詞之間的高精度關(guān)系。缺點(diǎn)是根據(jù)言語(yǔ)模板的方式通常需要專(zhuān)家常識(shí)來(lái)開(kāi)發(fā)模板。在模板的擴(kuò)展過(guò)程中需要耗費(fèi)大量的成本，可移植性較差。

2.2 統(tǒng)計(jì)學(xué)方法

統(tǒng)計(jì)學(xué)方法通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的計(jì)算處理，發(fā)現(xiàn)規(guī)則，從而發(fā)掘聯(lián)系。該方法與言語(yǔ)、范疇無(wú)關(guān)，具有很強(qiáng)的可移植性。但是，它十分依賴(lài)于語(yǔ)料庫(kù)的質(zhì)量和規(guī)模，使得命名聯(lián)系類(lèi)型變得困難。層次聯(lián)系抽取可以看作是一個(gè)聚類(lèi)或分類(lèi)問(wèn)題。根據(jù)聚類(lèi)的層次聯(lián)系識(shí)別方法主要有兩種：層次聚類(lèi)和非層次聚類(lèi)。董洋溢等采用了混合了余弦相似度的核函數(shù)方法來(lái)進(jìn)行概念等級(jí)關(guān)系的抽取，將這一任務(wù)轉(zhuǎn)化為分類(lèi)任務(wù)。

2.3 基于圖的方法

根據(jù)圖的方法一般涉及圖節(jié)點(diǎn)的概念、表明聯(lián)系的圖的邊以及丈量概念之間間隔的概念之間的邊數(shù)。Kozareva主張運(yùn)用根據(jù)圖的方法來(lái)從有向圖中結(jié)構(gòu)。給定根節(jié)點(diǎn)和一些分層概念，運(yùn)用預(yù)定義的模板，從而能夠發(fā)現(xiàn)新的從屬概念；Velardi為每個(gè)概念（在文檔集或Web中）找到定義，然后運(yùn)用分類(lèi)結(jié)果。結(jié)構(gòu)有向圖模型，其中邊是概念之間的聯(lián)系；運(yùn)用根據(jù)圖的方法來(lái)度量概念之間的相關(guān)程度，而且運(yùn)用語(yǔ)句之間的空間間隔來(lái)丈量語(yǔ)句的相似性。

2.4 混合方法

Suchanek結(jié)合了語(yǔ)言學(xué)模板機(jī)器學(xué)習(xí)算法——支持向量機(jī)從文本中獲取概念聯(lián)系；Cimian將聚類(lèi)算法和言語(yǔ)模板相結(jié)合，從互聯(lián)網(wǎng)上提取上下文信息，提取上下文聯(lián)系；Rios-Alvarado組合言語(yǔ)學(xué)習(xí)模板和clu斯特林算法對(duì)文本中的概念來(lái)進(jìn)行等級(jí)關(guān)系抽取；張曉勇結(jié)合深度學(xué)習(xí)與聚類(lèi)方法從條件隨機(jī)場(chǎng)抽取的候選術(shù)語(yǔ)集中獲取概念等級(jí)關(guān)系；王昊利用形式概念分析來(lái)獲取主題概念，并采用主題概念格進(jìn)行概念等級(jí)關(guān)系的獲取。

3 非等級(jí)關(guān)系抽取

概念非等級(jí)關(guān)系的抽取通常包含兩個(gè)任務(wù)：

（1）從語(yǔ)料中抽取出可以組成概念非等級(jí)關(guān)系三元組的元素，包括相關(guān)的概念對(duì)以及描述概念對(duì)關(guān)系的動(dòng)詞；

（2）命名概念之間的聯(lián)系。由于概念非層次聯(lián)系提取元素較多，因而概念非層次聯(lián)系提取的研討通常采用多種方式進(jìn)行提取。依據(jù)這些抽取工作中運(yùn)用的方式，可以分為兩類(lèi)：一類(lèi)是語(yǔ)言方式；另一種是統(tǒng)計(jì)學(xué)方式。

3.1 語(yǔ)言學(xué)方法

語(yǔ)言學(xué)方法是利用語(yǔ)言學(xué)模板的方法來(lái)獲取概念非等級(jí)關(guān)系三元組。Berland利用WordNet作為資源，采用模板對(duì)概念間的部分一整體關(guān)系進(jìn)行抽取，生成候選概念對(duì)，再利用統(tǒng)計(jì)學(xué)方法進(jìn)行排序；Nenadi采用了三種模板(詞典一語(yǔ)義模板、復(fù)合名詞模板、上下文模板)來(lái)獲取MEDLINE中的術(shù)語(yǔ)，上下文模板用于獲取語(yǔ)料庫(kù)中特征明顯的術(shù)語(yǔ)，然后獲取特定內(nèi)容中的另一個(gè)術(shù)語(yǔ)、動(dòng)詞和介詞，然后根據(jù)模板長(zhǎng)度和頻率的排序規(guī)矩對(duì)模板進(jìn)行排序，并使用上述模板取得三個(gè)類(lèi)似度。度，然后加權(quán)生成終究的類(lèi)似度值，并調(diào)整權(quán)重參數(shù)；Sanchez使用動(dòng)詞模板獲取領(lǐng)域語(yǔ)料庫(kù)中的動(dòng)詞，然后將非層次聯(lián)系的概念與Web相結(jié)合，然后以非層次聯(lián)系命名聯(lián)系。在漢語(yǔ)非層次聯(lián)系獲取的研討中，俞凡首先定義了漢語(yǔ)非層次聯(lián)系提取的規(guī)矩，然后結(jié)合關(guān)聯(lián)規(guī)矩發(fā)掘，提取非層次聯(lián)系的概念；何宇結(jié)合句法分析和詞典特征對(duì)專(zhuān)利領(lǐng)域的非等級(jí)關(guān)系進(jìn)行獲取；趙明等。采用句法分析來(lái)獲取概念間的非等級(jí)關(guān)系?；谀０宓姆椒P(guān)鍵在于針對(duì)不同類(lèi)型的關(guān)系進(jìn)行模板的提取，但是需要窮盡所有的關(guān)系類(lèi)型模板并非易事，這種方法只適用于獲取特定的非等級(jí)關(guān)系。

3.2 統(tǒng)計(jì)學(xué)方法

統(tǒng)計(jì)學(xué)方法一般利用術(shù)語(yǔ)對(duì)的共現(xiàn)或者相似度來(lái)抽取非等級(jí)關(guān)系。Kavalec先通過(guò)語(yǔ)言學(xué)方法獲取語(yǔ)料中的動(dòng)詞，通常概念非等級(jí)關(guān)系中的關(guān)系由動(dòng)詞表示，再將窗口范圍限定在N個(gè)單詞的距離內(nèi)，在窗口中挑選兩個(gè)詞來(lái)生成“概念-動(dòng)詞-概念”三元組，再根據(jù)三元組的頻率來(lái)排序，獲取高頻三元組為候選三元組，然后利用條件概率來(lái)計(jì)算概念對(duì)與動(dòng)詞的相關(guān)性。Punuru提出了VF*ICF方法(類(lèi)似于TF-IDF的方式)來(lái)計(jì)量動(dòng)詞注釋關(guān)系的能力，先獲取相關(guān)概念對(duì)，再?gòu)念I(lǐng)域語(yǔ)料中獲取候選關(guān)系三元組(，SVO)，采用對(duì)數(shù)似然方法來(lái)測(cè)量概念間的關(guān)聯(lián)程度。秦兵首先采用實(shí)體之間及關(guān)系指示詞的位置限制來(lái)獲取候選關(guān)系三元組，再采用全局排序和類(lèi)型排序來(lái)挖掘關(guān)系動(dòng)詞，最后利用動(dòng)詞及句式規(guī)則對(duì)關(guān)系三元組進(jìn)行過(guò)濾。

關(guān)聯(lián)規(guī)則挖掘通常也被用于挖掘概念對(duì)之間或概念對(duì)與動(dòng)詞之間的關(guān)系，Villaverde在獲取了候選非等級(jí)關(guān)系三元組的基礎(chǔ)上，利用相關(guān)規(guī)矩發(fā)掘方法在候選三元組中得到概念對(duì)與動(dòng)詞之間具有較強(qiáng)相關(guān)規(guī)矩的三元組，但是該文章只關(guān)注了概念對(duì)與動(dòng)詞之間的關(guān)聯(lián)度，并沒(méi)有衡量概念與概念之間的關(guān)聯(lián)程度。Gulla對(duì)比了利用關(guān)聯(lián)規(guī)則挖掘及向量空間模型兩種方法在非等級(jí)關(guān)系抽取中的效果，他們將非等級(jí)關(guān)系分為三類(lèi)：不相關(guān)、相關(guān)和高度相關(guān)。結(jié)果表明，獲取的關(guān)系可以借助相似度算法來(lái)獲取，最終他們關(guān)聯(lián)規(guī)則挖掘與相似度算法相結(jié)合進(jìn)行了非等級(jí)關(guān)系的獲取，其效果很好。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡