基于統(tǒng)計(jì)和知識的產(chǎn)品部件信息抽取

2018-06-13 11:36王鐵錚白宇張桂平

中文信息 2018年4期

王鐵錚白宇張桂平

摘要：隨著社會產(chǎn)品的多樣變化和大數(shù)據(jù)時(shí)代的發(fā)展需求，產(chǎn)品信息抽取有著重要的研究意義。針對抽取過程中過多的人工參與和抽取準(zhǔn)確度不高的情況，提出一種基于統(tǒng)計(jì)和知識相結(jié)合的產(chǎn)品部件信息自動抽取方法。為確保抽取的相關(guān)性，采用詞頻剪枝過濾干擾詞，使用雙向長短期記憶模型將詞進(jìn)行分布式表示并計(jì)算語義相關(guān)度；為確保抽取的完整性，引入知網(wǎng)知識庫，根據(jù)詞語首義原的分類來驗(yàn)證抽取結(jié)果是否為部件類概念詞。實(shí)驗(yàn)在120萬篇產(chǎn)品專利摘要上進(jìn)行詞向量訓(xùn)練，分別對運(yùn)輸交通設(shè)備、通訊電子設(shè)備、儀器儀表和機(jī)械器材四類產(chǎn)品進(jìn)行測試，證明了模型的可行性和算法的有效性。

關(guān)鍵詞：信息抽取雙向長短期記憶模型分布式表示知網(wǎng)

中圖分類號：V263 文獻(xiàn)標(biāo)識碼：A 文章編號：1003-9082（2018）04-00-03

引言

我們隨著科學(xué)技術(shù)的蓬勃發(fā)展、新產(chǎn)品的不斷涌現(xiàn)，使得描述產(chǎn)品部件信息的詞匯集合處于不斷擴(kuò)大并更新的狀態(tài)，因此以往靠人工收集產(chǎn)品部件信息的方式顯然已經(jīng)滿足不了人們的需求，利用計(jì)算機(jī)自動抽取這些信息已成為必然。信息抽取[1]是對文本中包含的信息進(jìn)行結(jié)構(gòu)化處理，再對其進(jìn)行存儲的過程，在這個(gè)信息爆炸的時(shí)代，信息抽取能夠幫助我們完成對信息的快速整理和分析，提高工作效率。

產(chǎn)品部件信息抽取，是信息抽取的一種形式，其是將不同文本對于某一產(chǎn)品的部件信息集中起來，能從不同的角度反映產(chǎn)品的相關(guān)組成信息，對產(chǎn)品的部件進(jìn)行抽取有助于全面地了解這些產(chǎn)品。例如，有關(guān)介紹電腦的文本中提到“一種用于電視游戲機(jī)的電腦控制器，是利用電腦主機(jī)的插頭嵌設(shè)在游戲機(jī)的主體上的插槽中”，在描述中可知，“控制器”和“主機(jī)”是電腦的組成部件，如何在文本中，準(zhǔn)確高效的獲取到產(chǎn)品的組成部件信息，就是本文的主要解決的問題。

一、相關(guān)研究

目前產(chǎn)品部件信息抽取的方法主要分為三種：基于語言規(guī)則的方法[2]、基于統(tǒng)計(jì)的方法，以及規(guī)則和統(tǒng)計(jì)相結(jié)合的方法?；谡Z言規(guī)則方法具有明顯的缺陷，即難以用少量規(guī)則覆蓋復(fù)雜的存在規(guī)律，以及當(dāng)規(guī)則數(shù)達(dá)到一定數(shù)量時(shí)產(chǎn)生的相互沖突問題。基于統(tǒng)計(jì)的方法主要的統(tǒng)計(jì)策略有互信息[3，4]、詞頻、連續(xù)指數(shù)、左右熵[5]、log-likehood、TF-IDF等。這些統(tǒng)計(jì)策略各有優(yōu)缺點(diǎn)和適用對象，沒有一個(gè)方法能獨(dú)立使用即可抽取出各種類型的信息并達(dá)到良好的效果，因此融合多統(tǒng)計(jì)特征的統(tǒng)計(jì)模型是目前比較主流的統(tǒng)計(jì)方法。而基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法則[6-10]可以取長補(bǔ)短，是目前廣泛采用的方法。結(jié)合的方式通常有兩種，即先規(guī)則后統(tǒng)計(jì)和先統(tǒng)計(jì)后規(guī)則，采用何種方式需要根據(jù)具體應(yīng)用和算法效果而決定。

本文提出了一種基于統(tǒng)計(jì)和知識相結(jié)合的抽取方法，為了可以全面準(zhǔn)確的獲取產(chǎn)品部件信息，本文在眾多的信息源中，選擇專利文獻(xiàn)為抽取對象，為獲取與產(chǎn)品相關(guān)的候選詞，采用基于統(tǒng)計(jì)的方法，利用詞頻剪枝和雙向長短記憶模型計(jì)算語義相關(guān)度；為從相關(guān)候選詞中準(zhǔn)確獲取產(chǎn)品部件概念詞，采用基于知識的方法，引入知網(wǎng)知識庫，根據(jù)對詞語首義原的分析進(jìn)一步驗(yàn)證抽取結(jié)果，兩種方法相結(jié)合，為產(chǎn)品部件信息的抽取提供一個(gè)新的思路。

二、基于統(tǒng)計(jì)和知識的產(chǎn)品信息抽取方法

本文實(shí)現(xiàn)一種基于統(tǒng)計(jì)和知識相結(jié)合的產(chǎn)品部件信息抽取方法，本文第一步是對產(chǎn)品專利摘要進(jìn)行分詞，詞性標(biāo)注和去停用詞的預(yù)處理；第二步是過濾非名詞詞性和詞長為1的干擾詞；第三步是通過詞頻剪枝，保留詞頻較高的候選詞；第四步是利用雙向長短記憶模型方法將詞表示成向量形式，計(jì)算產(chǎn)品與候選詞的余弦值，過濾相關(guān)度較低的干擾詞；第五步是引入知網(wǎng)知識庫，通過驗(yàn)證候選詞在知網(wǎng)中首義原的定義，來判斷其是否為產(chǎn)品部件概念詞，本文方法框架如圖1所示。

1.基于統(tǒng)計(jì)的方法

1.1 詞頻剪枝

詞頻剪枝是一種詞匯分析研究方法，通過對一定長度文本的詞頻進(jìn)行統(tǒng)計(jì)、分析，進(jìn)而描繪出詞匯規(guī)律。詞頻從一定程度上可以描述詞匯的重要程度，在抽取產(chǎn)品部件概念詞過程中，依照詞頻的排序去除干擾詞是很基礎(chǔ)但是效果很好的一種方法。詞頻計(jì)算公式如下2-1所示，本文設(shè)定了一個(gè)詞頻閾值，高于閾值的候選詞，表示是該產(chǎn)品專利的重要詞；低于閾值的候選詞，表示是該產(chǎn)品專利的非重要詞，通過詞頻剪枝，過濾掉非重要的干擾詞。

其中：di是計(jì)算詞頻的目標(biāo)詞；count（di）：是統(tǒng)計(jì)目標(biāo)詞di的出現(xiàn)頻數(shù)；dict：是候選專利中所有詞匯的字典；P（di）：則是最終得到目標(biāo)詞的概率。

1.2 雙向長短記憶模型實(shí)現(xiàn)Word Embedding

本文使用深層神經(jīng)網(wǎng)絡(luò)中雙向長短記憶模型[12]（Bi-LSTM）實(shí)現(xiàn)Word Embedding的訓(xùn)練， Bi-LSTM是一個(gè)多層的神經(jīng)網(wǎng)絡(luò)，采用隨機(jī)初始權(quán)重，每次訓(xùn)練只得到一個(gè)局部最優(yōu)解，直接訓(xùn)練詞的N維實(shí)數(shù)向量與內(nèi)部節(jié)點(diǎn)向量的條件概率，并使用一系列優(yōu)化方法以提高訓(xùn)練效率，雖然是基于CBOW模型結(jié)構(gòu)，但是將原來的在固定窗口內(nèi)對Word Embedding取平均作為語境模型替換了，替換為一個(gè)更有效的神經(jīng)模型，通過將它們嵌入到相同的低維空間中來學(xué)習(xí)上下文和目標(biāo)詞表示，其中通過對數(shù)線性模型將目標(biāo)詞預(yù)測為目標(biāo)詞，利用更多的強(qiáng)大的參數(shù)模型來捕捉上下文的本質(zhì)。

Bi-LSTM神經(jīng)網(wǎng)絡(luò)的輸入是關(guān)鍵詞所在的句子的兩個(gè)上下文向量，一個(gè)是由從左至右句子（“汽車”）的LSTM形成的，另一個(gè)是由從右至左句子（“正常啟動”）的LSTM形成的，這兩個(gè)網(wǎng)絡(luò)的參數(shù)是完全獨(dú)立的，如下圖2示例，為了表示句子中目標(biāo)詞的上下文（例如，對于“汽車[發(fā)動機(jī)]啟動正?！保紫冗B接代表右-至-左向量與左-至-右向量，目的是捕捉相關(guān)的上下文信息，即使它遠(yuǎn)離目標(biāo)詞，矢量表示公式如2-2所示：

接下來將連接向量饋送到多層感知機(jī)中，以便表示上下文的依賴關(guān)系，該層的輸出是圍繞目標(biāo)詞的聯(lián)合上下文信息的向量，表示公式如2-3所示：

其中，MLP代表多層感知機(jī)，ReLU是激活函數(shù)，Li（x）=Wix+bi全連接線性操作，將連接后的向量輸入到多層感知機(jī)。

最后，為了學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)，使用CBOW模型的負(fù)采樣目標(biāo)函數(shù)，表示公式如2-4所示：

其中，t表示求和遍歷訓(xùn)練語料中的每一個(gè)詞和c則是它所對于的句子語境，σ表示sigmoid函數(shù)。

訓(xùn)練結(jié)果后，任意兩個(gè)詞的語義相關(guān)程度可以通過計(jì)算兩個(gè)詞對應(yīng)向量的余弦相似度得到，計(jì)算公式如2-5所示。計(jì)算的結(jié)果很好的反映了兩個(gè)詞向量的相關(guān)度，余弦值接近1，表明兩個(gè)詞的相關(guān)度高；余弦值接近-1，表明兩個(gè)詞的相關(guān)度低，通過將計(jì)算的結(jié)果根據(jù)余弦值由高到低的順序排序，為下一步驗(yàn)證提供了與產(chǎn)品相關(guān)的候選詞。

其中V1代表產(chǎn)品的詞向量；V2代表候選產(chǎn)品部件概念詞的詞向量。cos（V1，V2）代表產(chǎn)品與候選產(chǎn)品部件概念詞的余弦相似度。

2.基于知識的方法

知網(wǎng)是中文使用最為廣泛的可計(jì)算語義詞典[13]。知網(wǎng)[14]認(rèn)定的七個(gè)最上層的類別，分別是：事件類、萬物類、屬性類、屬性值類、部件類、空間類和時(shí)間類。

對于產(chǎn)品組成部件，正好可以通過知網(wǎng)對萬物定義的首義原來進(jìn)行分類，雖然在知網(wǎng)知識庫中，已經(jīng)在DEF中定義了“part-whole”這種存在關(guān)系，然而在知網(wǎng)知識庫所包含的197704個(gè)定義中，存在“part-whole”關(guān)系的定義只有12034個(gè)，其中和產(chǎn)品有關(guān)的，只有飛行器，船，車，電腦四種產(chǎn)品的285個(gè)定義，所以只依靠知網(wǎng)現(xiàn)有的“part-whole”的關(guān)系提供產(chǎn)品的組成信息可能遠(yuǎn)遠(yuǎn)不夠用戶的需求。

本文根據(jù)知網(wǎng)對世界萬物定義的七種類別，發(fā)現(xiàn)產(chǎn)品的部件概念詞不一定只存在具有“part-whole”關(guān)系的定義中，除了部件類以外，萬物類中也存在著大量的產(chǎn)品部件概念詞，所以本文將萬物類和部件類視為研究的對象，通過大量觀察產(chǎn)品部件概念詞在知網(wǎng)中的定義，發(fā)現(xiàn)產(chǎn)品部件概念詞集中分布在萬物類和部件類定義的詞中，本文設(shè)定部件、用具和機(jī)器這三個(gè)義原為部件特定首義原，驗(yàn)證流程如圖2所示。

三、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

1.實(shí)驗(yàn)數(shù)據(jù)

本文訓(xùn)練集采用的是120萬篇專利文章，數(shù)據(jù)規(guī)模為分詞后833M。本文分詞和詞性標(biāo)注任務(wù)，使用的中科院分詞工具為ICTCALS。停用詞表使用的是“哈工大停用詞詞庫”。開發(fā)集是在10種不同類產(chǎn)品（不包含測試集）相關(guān)的10000篇專利摘要。測試集是運(yùn)輸交通設(shè)備、通訊電子設(shè)備、儀器儀表和機(jī)械器材四類產(chǎn)品相關(guān)的2000篇專利摘要，人工抽取每種產(chǎn)品中10個(gè)關(guān)鍵的產(chǎn)品組成部件概念詞作為所要抽取的目標(biāo)詞。

2.實(shí)驗(yàn)步驟

本文的實(shí)驗(yàn)數(shù)據(jù)是相關(guān)產(chǎn)品的專利摘要，為了得到更好抽取結(jié)果，首先是對訓(xùn)練語料進(jìn)行預(yù)處理，包括分詞、詞性標(biāo)注和去停用詞。根據(jù)詞頻由高到低的排序，過濾掉低于閾值的候選詞，本文通過10種產(chǎn)品設(shè)定不同閾值的對比實(shí)驗(yàn)，實(shí)驗(yàn)數(shù)據(jù)（如表1所示）表示的是每種產(chǎn)品在設(shè)定不同的過濾詞頻閾值時(shí)，候選詞中出現(xiàn)人工抽取目標(biāo)詞的個(gè)數(shù)，發(fā)現(xiàn)閾值設(shè)定為4%時(shí)，確保目標(biāo)詞全部出現(xiàn)在候選詞中。

通過詞頻剪枝得到的候選詞，作為Word Embedding的輸入，本文通過10種產(chǎn)品設(shè)定不同相似度閾值的對比試驗(yàn)，實(shí)驗(yàn)數(shù)據(jù)（如表2所示）表示的是每種產(chǎn)品在設(shè)定不同的相似度閾值時(shí)，目標(biāo)詞占候選詞的比例，發(fā)現(xiàn)相似度閾值設(shè)定為0.2時(shí)，目標(biāo)詞占候選詞的比例較高。

3.結(jié)果分析

本文通過三個(gè)指標(biāo)評價(jià)實(shí)驗(yàn)的性能，分別是準(zhǔn)確率（3-1）、召回率（3-2）、綜合指標(biāo)F-值（3-3），如下式所示。

本文選擇的baseline是湯青[15]采用的一種統(tǒng)計(jì)的部件抽取方法，主要根據(jù)產(chǎn)品部件具有的領(lǐng)域聚合特征，在某一領(lǐng)域中詞頻較高或只出現(xiàn)在某個(gè)領(lǐng)域中，而在不相關(guān)領(lǐng)域中詞頻相對較低，除此之外還考慮了詞性特征。本文采用的統(tǒng)計(jì)和知識相結(jié)合的抽取方法與baseline方法進(jìn)行比較，抽取結(jié)果平均準(zhǔn)確率、召回率和F-值分別提高了3.1%、4.5%和3.7%，實(shí)驗(yàn)結(jié)果如表3所示。

結(jié)束語

本文提出了一種基于統(tǒng)計(jì)和知識相結(jié)合的產(chǎn)品部件信息自動抽取方法，首先通過對產(chǎn)品專利摘要進(jìn)行預(yù)處理，過濾掉非名詞詞性的和單字的干擾詞；然后通過詞頻剪枝和使用Bi-LSTM模型高效準(zhǔn)確的將詞進(jìn)行分布式表示，獲取與產(chǎn)品相關(guān)的候選詞；最后采用基于知識的方法，利用知網(wǎng)知識庫對候選詞定義的首義原進(jìn)行驗(yàn)證，準(zhǔn)確高效的抽取了候選詞中的產(chǎn)品組成部件概念詞。本文通過結(jié)合統(tǒng)計(jì)和知識的方法，既滿足了抽取的相關(guān)性，又確保了抽取的完整性。通過考察實(shí)驗(yàn)的準(zhǔn)確率、召回率以及F-值發(fā)現(xiàn)，表明實(shí)驗(yàn)方法具有實(shí)用價(jià)值。

參考文獻(xiàn)（Reference）

[1]樊夢佳，段東圣，杜翠蘭等. 統(tǒng)計(jì)與規(guī)則相融合的領(lǐng)域術(shù)語抽取算法[J].計(jì)算機(jī)應(yīng)用研究.2016，33（8）：2282-2285.

[2]Sui Z， Chen Y， Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Proc of International Conference on Natural Language Processing and Knowledge Engineering. 2003： 444-451.

[3]劉劍，唐慧豐，劉伍穎. 一種基于統(tǒng)計(jì)技術(shù)的中文術(shù)語抽取方法[J].中國科技術(shù)語， 2014， 5（2）： 10-14.

[4]吳海燕. 基于互信息與詞語共現(xiàn)的領(lǐng)域術(shù)語自動抽取方法研究[J].重慶郵電大學(xué)學(xué)報(bào)：自然科學(xué)版， 2013， 25（5）： 690-694.

[5]閆琪琪，張海軍. 中文領(lǐng)域術(shù)語自動抽取方法進(jìn)展研究[J].電腦知識與技術(shù)：學(xué)術(shù)交流， 2014， 21（10）： 6716-6718.

[6]胡阿沛，張靜，劉俊麗. 基于改進(jìn) C-value 方法的中文術(shù)語抽取[J].現(xiàn)代圖書情報(bào)技術(shù)， 2013， 29（2）： 24-29.

[7]李麗雙，黨延忠，張婧，等. 基于條件隨機(jī)場的汽車領(lǐng)域術(shù)語抽取[J].大連理工大學(xué)學(xué)報(bào)， 2013， 53（2）： 267-272.

[8]何琳. 基于多策略的領(lǐng)域本體術(shù)語抽取研究[J].情報(bào)學(xué)報(bào)，2012，31（8）： 798-804.

[9]李麗雙. 領(lǐng)域本體學(xué)習(xí)中術(shù)語及關(guān)系抽取方法的研究[D].大連：大連理工大學(xué)， 2013.

[10]熊李艷，譚龍，鐘茂生. 基于有效詞頻的改進(jìn) C-value 自動術(shù)語抽取方法[J].現(xiàn)代圖書情報(bào)技術(shù)， 2013， 29（9）： 54-59.

[11]Geoffrey E.Hinton. Learning distributed representations of concepts[R]. IEEE Transactions on Knowledge & Data Engineering，2001，13（2）：232-44

[12]Hochreiter S，Schmidhuber J.Long short-term memory[J].Neural computation，1997，9（8）

1735-1780.

[13]孫茂松，陳新雄.借重于人工知識庫的詞和義項(xiàng)的向量表示：以知網(wǎng)為例[J].中文信息學(xué)報(bào)， 2016， 30（6）：1-6.

[14]董振東，董強(qiáng)，郝長伶. 知網(wǎng)的理論發(fā)現(xiàn)[J]，中文信息學(xué)報(bào). 2007， 21（4）：3-9.

[15]湯青，呂學(xué)強(qiáng)，李卓. 領(lǐng)域本體術(shù)語抽取研究[J]. 現(xiàn)代圖書情報(bào)技術(shù). 2014， 30（1）：43-50.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于統(tǒng)計(jì)和知識的產(chǎn)品部件信息抽取