王鐵錚 白宇 張桂平
摘 要:隨著社會產(chǎn)品的多樣變化和大數(shù)據(jù)時(shí)代的發(fā)展需求,產(chǎn)品信息抽取有著重要的研究意義。針對抽取過程中過多的人工參與和抽取準(zhǔn)確度不高的情況,提出一種基于統(tǒng)計(jì)和知識相結(jié)合的產(chǎn)品部件信息自動抽取方法。為確保抽取的相關(guān)性,采用詞頻剪枝過濾干擾詞,使用雙向長短期記憶模型將詞進(jìn)行分布式表示并計(jì)算語義相關(guān)度;為確保抽取的完整性,引入知網(wǎng)知識庫,根據(jù)詞語首義原的分類來驗(yàn)證抽取結(jié)果是否為部件類概念詞。實(shí)驗(yàn)在120萬篇產(chǎn)品專利摘 要上進(jìn)行詞向量訓(xùn)練,分別對運(yùn)輸交通設(shè)備、通訊電子設(shè)備、儀器儀表和機(jī)械器材四類產(chǎn)品進(jìn)行測試,證明了模型的可行性和算法的有效性。
關(guān)鍵詞:信息抽取 雙向長短期記憶模型 分布式表示 知網(wǎng)
中圖分類號:V263 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082(2018)04-00-03
引言
我們隨著科學(xué)技術(shù)的蓬勃發(fā)展、新產(chǎn)品的不斷涌現(xiàn),使得描述產(chǎn)品部件信息的詞匯集合處于不斷擴(kuò)大并更新的狀態(tài),因此以往靠人工收集產(chǎn)品部件信息的方式顯然已經(jīng)滿足不了人們的需求,利用計(jì)算機(jī)自動抽取這些信息已成為必然。信息抽取[1]是對文本中包含的信息進(jìn)行結(jié)構(gòu)化處理,再對其進(jìn)行存儲的過程,在這個(gè)信息爆炸的時(shí)代,信息抽取能夠幫助我們完成對信息的快速整理和分析,提高工作效率。
產(chǎn)品部件信息抽取,是信息抽取的一種形式,其是將不同文本對于某一產(chǎn)品的部件信息集中起來,能從不同的角度反映產(chǎn)品的相關(guān)組成信息,對產(chǎn)品的部件進(jìn)行抽取有助于全面地了解這些產(chǎn)品。例如,有關(guān)介紹電腦的文本中提到“一種用于電視游戲機(jī)的電腦控制器,是利用電腦主機(jī)的插頭嵌設(shè)在游戲機(jī)的主體上的插槽中”,在描述中可知,“控制器”和“主機(jī)”是電腦的組成部件,如何在文本中,準(zhǔn)確高效的獲取到產(chǎn)品的組成部件信息,就是本文的主要解決的問題。
一、相關(guān)研究
目前產(chǎn)品部件信息抽取的方法主要分為三種:基于語言規(guī)則的方法[2]、基于統(tǒng)計(jì)的方法,以及規(guī)則和統(tǒng)計(jì)相結(jié)合的方法?;谡Z言規(guī)則方法具有明顯的缺陷,即難以用少量規(guī)則覆蓋復(fù)雜的存在規(guī)律,以及當(dāng)規(guī)則數(shù)達(dá)到一定數(shù)量時(shí)產(chǎn)生的相互沖突問題。基于統(tǒng)計(jì)的方法主要的統(tǒng)計(jì)策略有互信息[3,4]、詞頻、連續(xù)指數(shù)、左右熵[5]、log-likehood、TF-IDF等。這些統(tǒng)計(jì)策略各有優(yōu)缺點(diǎn)和適用對象,沒有一個(gè)方法能獨(dú)立使用即可抽取出各種類型的信息并達(dá)到良好的效果,因此融合多統(tǒng)計(jì)特征的統(tǒng)計(jì)模型是目前比較主流的統(tǒng)計(jì)方法。而基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法則[6-10]可以取長補(bǔ)短,是目前廣泛采用的方法。結(jié)合的方式通常有兩種,即先規(guī)則后統(tǒng)計(jì)和先統(tǒng)計(jì)后規(guī)則,采用何種方式需要根據(jù)具體應(yīng)用和算法效果而決定。
本文提出了一種基于統(tǒng)計(jì)和知識相結(jié)合的抽取方法,為了可以全面準(zhǔn)確的獲取產(chǎn)品部件信息,本文在眾多的信息源中,選擇專利文獻(xiàn)為抽取對象,為獲取與產(chǎn)品相關(guān)的候選詞,采用基于統(tǒng)計(jì)的方法,利用詞頻剪枝和雙向長短記憶模型計(jì)算語義相關(guān)度;為從相關(guān)候選詞中準(zhǔn)確獲取產(chǎn)品部件概念詞,采用基于知識的方法,引入知網(wǎng)知識庫,根據(jù)對詞語首義原的分析進(jìn)一步驗(yàn)證抽取結(jié)果,兩種方法相結(jié)合,為產(chǎn)品部件信息的抽取提供一個(gè)新的思路。
二、基于統(tǒng)計(jì)和知識的產(chǎn)品信息抽取方法
本文實(shí)現(xiàn)一種基于統(tǒng)計(jì)和知識相結(jié)合的產(chǎn)品部件信息抽取方法,本文第一步是對產(chǎn)品專利摘要進(jìn)行分詞,詞性標(biāo)注和去停用詞的預(yù)處理;第二步是過濾非名詞詞性和詞長為1的干擾詞;第三步是通過詞頻剪枝,保留詞頻較高的候選詞;第四步是利用雙向長短記憶模型方法將詞表示成向量形式,計(jì)算產(chǎn)品與候選詞的余弦值,過濾相關(guān)度較低的干擾詞;第五步是引入知網(wǎng)知識庫,通過驗(yàn)證候選詞在知網(wǎng)中首義原的定義,來判斷其是否為產(chǎn)品部件概念詞,本文方法框架如圖1所示。
1.基于統(tǒng)計(jì)的方法
1.1 詞頻剪枝
詞頻剪枝是一種詞匯分析研究方法,通過對一定長度文本的詞頻進(jìn)行統(tǒng)計(jì)、分析,進(jìn)而描繪出詞匯規(guī)律。詞頻從一定程度上可以描述詞匯的重要程度,在抽取產(chǎn)品部件概念詞過程中,依照詞頻的排序去除干擾詞是很基礎(chǔ)但是效果很好的一種方法。詞頻計(jì)算公式如下2-1所示,本文設(shè)定了一個(gè)詞頻閾值,高于閾值的候選詞,表示是該產(chǎn)品專利的重要詞;低于閾值的候選詞,表示是該產(chǎn)品專利的非重要詞,通過詞頻剪枝,過濾掉非重要的干擾詞。
其中:di是計(jì)算詞頻的目標(biāo)詞;count(di):是統(tǒng)計(jì)目標(biāo)詞di的出現(xiàn)頻數(shù);dict:是候選專利中所有詞匯的字典;P(di):則是最終得到目標(biāo)詞的概率。
1.2 雙向長短記憶模型實(shí)現(xiàn)Word Embedding
本文使用深層神經(jīng)網(wǎng)絡(luò)中雙向長短記憶模型[12](Bi-LSTM)實(shí)現(xiàn)Word Embedding的訓(xùn)練, Bi-LSTM是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),采用隨機(jī)初始權(quán)重,每次訓(xùn)練只得到一個(gè)局部最優(yōu)解,直接訓(xùn)練詞的N維實(shí)數(shù)向量與內(nèi)部節(jié)點(diǎn)向量的條件概率,并使用一系列優(yōu)化方法以提高訓(xùn)練效率,雖然是基于CBOW模型結(jié)構(gòu),但是將原來的在固定窗口內(nèi)對Word Embedding取平均作為語境模型替換了,替換為一個(gè)更有效的神經(jīng)模型,通過將它們嵌入到相同的低維空間中來學(xué)習(xí)上下文和目標(biāo)詞表示,其中通過對數(shù)線性模型將目標(biāo)詞預(yù)測為目標(biāo)詞,利用更多的強(qiáng)大的參數(shù)模型來捕捉上下文的本質(zhì)。
Bi-LSTM神經(jīng)網(wǎng)絡(luò)的輸入是關(guān)鍵詞所在的句子的兩個(gè)上下文向量,一個(gè)是由從左至右句子(“汽車”)的LSTM形成的,另一個(gè)是由從右至左句子(“正常啟動”)的LSTM形成的,這兩個(gè)網(wǎng)絡(luò)的參數(shù)是完全獨(dú)立的,如下圖2示例,為了表示句子中目標(biāo)詞的上下文(例如,對于“汽車[發(fā)動機(jī)]啟動正?!保紫冗B接代表右-至-左向量與左-至-右向量,目的是捕捉相關(guān)的上下文信息,即使它遠(yuǎn)離目標(biāo)詞,矢量表示公式如2-2所示:
接下來將連接向量饋送到多層感知機(jī)中,以便表示上下文的依賴關(guān)系,該層的輸出是圍繞目標(biāo)詞的聯(lián)合上下文信息的向量,表示公式如2-3所示:
其中,MLP代表多層感知機(jī),ReLU是激活函數(shù),Li(x)=Wix+bi全連接線性操作,將連接后的向量輸入到多層感知機(jī)。
最后,為了學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),使用CBOW模型的負(fù)采樣目標(biāo)函數(shù),表示公式如2-4所示:
其中,t表示求和遍歷訓(xùn)練語料中的每一個(gè)詞和c則是它所對于的句子語境,σ表示sigmoid函數(shù)。
訓(xùn)練結(jié)果后,任意兩個(gè)詞的語義相關(guān)程度可以通過計(jì)算兩個(gè)詞對應(yīng)向量的余弦相似度得到,計(jì)算公式如2-5所示。計(jì)算的結(jié)果很好的反映了兩個(gè)詞向量的相關(guān)度,余弦值接近1,表明兩個(gè)詞的相關(guān)度高;余弦值接近-1,表明兩個(gè)詞的相關(guān)度低,通過將計(jì)算的結(jié)果根據(jù)余弦值由高到低的順序排序,為下一步驗(yàn)證提供了與產(chǎn)品相關(guān)的候選詞。
其中V1代表產(chǎn)品的詞向量;V2代表候選產(chǎn)品部件概念詞的詞向量。cos(V1,V2)代表產(chǎn)品與候選產(chǎn)品部件概念詞的余弦相似度。
2.基于知識的方法
知網(wǎng)是中文使用最為廣泛的可計(jì)算語義詞典[13]。知網(wǎng)[14]認(rèn)定的七個(gè)最上層的類別,分別是:事件類、萬物類、屬性類、屬性值類、部件類、空間類和時(shí)間類。
對于產(chǎn)品組成部件,正好可以通過知網(wǎng)對萬物定義的首義原來進(jìn)行分類,雖然在知網(wǎng)知識庫中,已經(jīng)在DEF中定義了“part-whole”這種存在關(guān)系,然而在知網(wǎng)知識庫所包含的197704個(gè)定義中,存在“part-whole”關(guān)系的定義只有12034個(gè),其中和產(chǎn)品有關(guān)的,只有飛行器,船,車,電腦四種產(chǎn)品的285個(gè)定義,所以只依靠知網(wǎng)現(xiàn)有的“part-whole”的關(guān)系提供產(chǎn)品的組成信息可能遠(yuǎn)遠(yuǎn)不夠用戶的需求。
本文根據(jù)知網(wǎng)對世界萬物定義的七種類別,發(fā)現(xiàn)產(chǎn)品的部件概念詞不一定只存在具有“part-whole”關(guān)系的定義中,除了部件類以外,萬物類中也存在著大量的產(chǎn)品部件概念詞,所以本文將萬物類和部件類視為研究的對象,通過大量觀察產(chǎn)品部件概念詞在知網(wǎng)中的定義,發(fā)現(xiàn)產(chǎn)品部件概念詞集中分布在萬物類和部件類定義的詞中,本文設(shè)定部件、用具和機(jī)器這三個(gè)義原為部件特定首義原,驗(yàn)證流程如圖2所示。
三、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
1.實(shí)驗(yàn)數(shù)據(jù)
本文訓(xùn)練集采用的是120萬篇專利文章,數(shù)據(jù)規(guī)模為分詞后833M。本文分詞和詞性標(biāo)注任務(wù),使用的中科院分詞工具為ICTCALS。停用詞表使用的是“哈工大停用詞詞庫”。開發(fā)集是在10種不同類產(chǎn)品(不包含測試集)相關(guān)的10000篇專利摘要。測試集是運(yùn)輸交通設(shè)備、通訊電子設(shè)備、儀器儀表和機(jī)械器材四類產(chǎn)品相關(guān)的2000篇專利摘 要,人工抽取每種產(chǎn)品中10個(gè)關(guān)鍵的產(chǎn)品組成部件概念詞作為所要抽取的目標(biāo)詞。
2.實(shí)驗(yàn)步驟
本文的實(shí)驗(yàn)數(shù)據(jù)是相關(guān)產(chǎn)品的專利摘要,為了得到更好抽取結(jié)果,首先是對訓(xùn)練語料進(jìn)行預(yù)處理,包括分詞、詞性標(biāo)注和去停用詞。根據(jù)詞頻由高到低的排序,過濾掉低于閾值的候選詞,本文通過10種產(chǎn)品設(shè)定不同閾值的對比實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)(如表1所示)表示的是每種產(chǎn)品在設(shè)定不同的過濾詞頻閾值時(shí),候選詞中出現(xiàn)人工抽取目標(biāo)詞的個(gè)數(shù),發(fā)現(xiàn)閾值設(shè)定為4%時(shí),確保目標(biāo)詞全部出現(xiàn)在候選詞中。
通過詞頻剪枝得到的候選詞,作為Word Embedding的輸入,本文通過10種產(chǎn)品設(shè)定不同相似度閾值的對比試驗(yàn),實(shí)驗(yàn)數(shù)據(jù)(如表2所示)表示的是每種產(chǎn)品在設(shè)定不同的相似度閾值時(shí),目標(biāo)詞占候選詞的比例,發(fā)現(xiàn)相似度閾值設(shè)定為0.2時(shí),目標(biāo)詞占候選詞的比例較高。
3.結(jié)果分析
本文通過三個(gè)指標(biāo)評價(jià)實(shí)驗(yàn)的性能,分別是準(zhǔn)確率(3-1)、召回率(3-2)、綜合指標(biāo)F-值(3-3),如下式所示。
本文選擇的baseline是湯青[15]采用的一種統(tǒng)計(jì)的部件抽取方法,主要根據(jù)產(chǎn)品部件具有的領(lǐng)域聚合特征,在某一領(lǐng)域中詞頻較高或只出現(xiàn)在某個(gè)領(lǐng)域中,而在不相關(guān)領(lǐng)域中詞頻相對較低,除此之外還考慮了詞性特征。本文采用的統(tǒng)計(jì)和知識相結(jié)合的抽取方法與baseline方法進(jìn)行比較,抽取結(jié)果平均準(zhǔn)確率、召回率和F-值分別提高了3.1%、4.5%和3.7%,實(shí)驗(yàn)結(jié)果如表3所示。
結(jié)束語
本文提出了一種基于統(tǒng)計(jì)和知識相結(jié)合的產(chǎn)品部件信息自動抽取方法,首先通過對產(chǎn)品專利摘要進(jìn)行預(yù)處理,過濾掉非名詞詞性的和單字的干擾詞;然后通過詞頻剪枝和使用Bi-LSTM模型高效準(zhǔn)確的將詞進(jìn)行分布式表示,獲取與產(chǎn)品相關(guān)的候選詞;最后采用基于知識的方法,利用知網(wǎng)知識庫對候選詞定義的首義原進(jìn)行驗(yàn)證,準(zhǔn)確高效的抽取了候選詞中的產(chǎn)品組成部件概念詞。本文通過結(jié)合統(tǒng)計(jì)和知識的方法,既滿足了抽取的相關(guān)性,又確保了抽取的完整性。通過考察實(shí)驗(yàn)的準(zhǔn)確率、召回率以及F-值發(fā)現(xiàn),表明實(shí)驗(yàn)方法具有實(shí)用價(jià)值。
參考文獻(xiàn)(Reference)
[1]樊夢佳,段東圣,杜翠蘭等. 統(tǒng)計(jì)與規(guī)則相融合的領(lǐng)域術(shù)語抽取算法[J].計(jì)算機(jī)應(yīng)用研究.2016,33(8):2282-2285.
[2]Sui Z, Chen Y, Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Proc of International Conference on Natural Language Processing and Knowledge Engineering. 2003: 444-451.
[3]劉劍, 唐慧豐, 劉伍穎. 一種基于統(tǒng)計(jì)技術(shù)的中文術(shù)語抽取方法[J].中國科技術(shù)語, 2014, 5(2): 10-14.
[4]吳海燕. 基于互信息與詞語共現(xiàn)的領(lǐng)域術(shù)語自動抽取方法研究[J].重慶郵電大學(xué)學(xué)報(bào): 自然科學(xué)版, 2013, 25(5): 690-694.
[5]閆琪琪, 張海軍. 中文領(lǐng)域術(shù)語自動抽取方法進(jìn)展研究[J].電腦知識與技術(shù):學(xué)術(shù)交流, 2014, 21(10): 6716-6718.
[6]胡阿沛,張靜,劉俊麗. 基于改進(jìn) C-value 方法的中文術(shù)語抽取[J].現(xiàn)代圖書情報(bào)技術(shù), 2013, 29(2): 24-29.
[7]李麗雙, 黨延忠, 張婧, 等. 基于條件隨機(jī)場的汽車領(lǐng)域術(shù)語抽取[J].大連理工大學(xué)學(xué)報(bào), 2013, 53(2): 267-272.
[8]何琳. 基于多策略的領(lǐng)域本體術(shù)語抽取研究[J].情報(bào)學(xué)報(bào),2012,31(8): 798-804.
[9]李麗雙. 領(lǐng)域本體學(xué)習(xí)中術(shù)語及關(guān)系抽取方法的研究[D].大連:大連理工大學(xué), 2013.
[10]熊李艷, 譚龍, 鐘茂生. 基于有效詞頻的改進(jìn) C-value 自動術(shù)語抽取方法[J].現(xiàn)代圖書情報(bào)技術(shù), 2013, 29(9): 54-59.
[11]Geoffrey E.Hinton. Learning distributed representations of concepts[R]. IEEE Transactions on Knowledge & Data Engineering,2001,13(2):232-44
[12]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8)
1735-1780.
[13]孫茂松,陳新雄.借重于人工知識庫的詞和義項(xiàng)的向量表示:以知網(wǎng)為例[J].中文信息學(xué)報(bào), 2016, 30(6):1-6.
[14]董振東,董強(qiáng),郝長伶. 知網(wǎng)的理論發(fā)現(xiàn)[J], 中文信息學(xué)報(bào). 2007, 21(4):3-9.
[15]湯青,呂學(xué)強(qiáng),李卓. 領(lǐng)域本體術(shù)語抽取研究[J]. 現(xiàn)代圖書情報(bào)技術(shù). 2014, 30(1) :43-50.