林文廣 賴榮燊 肖人彬
1.廈門理工學(xué)院智能制造高端裝備研究廈門市重點(diǎn)實(shí)驗(yàn)室,廈門,3621142.華中科技大學(xué)人工智能與自動(dòng)化學(xué)院,武漢,430074
據(jù)統(tǒng)計(jì),一款新產(chǎn)品從方案設(shè)計(jì)到最終的市場(chǎng)投放,成功率不足20%,超過90%的產(chǎn)品上架時(shí)間不足8%,給企業(yè)造成了極大的資源損失[1]。如果能夠在產(chǎn)品設(shè)計(jì)階段預(yù)先充分獲取設(shè)計(jì)相關(guān)案例的功能知識(shí)、結(jié)構(gòu)知識(shí)、性能知識(shí)等信息,并對(duì)方案中的潛在風(fēng)險(xiǎn)進(jìn)行勘探及規(guī)避,不僅可以有效改善產(chǎn)品的設(shè)計(jì)質(zhì)量,同時(shí)有助于降低研發(fā)成本,提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力。
事實(shí)上,現(xiàn)代產(chǎn)品設(shè)計(jì)是知識(shí)驅(qū)動(dòng)的過程,其中知識(shí)是已有研究事實(shí)和設(shè)計(jì)經(jīng)驗(yàn)的提煉與總結(jié),是產(chǎn)品設(shè)計(jì)創(chuàng)造力的關(guān)鍵屬性。傳統(tǒng)設(shè)計(jì)過程中,知識(shí)的獲取往往來源于工程師經(jīng)驗(yàn)以及企業(yè)問卷調(diào)查數(shù)據(jù),不僅數(shù)據(jù)量少,而且受主觀經(jīng)驗(yàn)影響,容易導(dǎo)致設(shè)計(jì)偏差。隨著數(shù)字化時(shí)代的到來,受益于傳感器、電子存儲(chǔ)以及信息技術(shù)的快速發(fā)展,以專利數(shù)據(jù)、網(wǎng)絡(luò)評(píng)論、科技文獻(xiàn)、社交媒體、移動(dòng)位置、設(shè)備運(yùn)行狀態(tài)為代表的新型數(shù)據(jù)信息不斷涌現(xiàn),推動(dòng)著社會(huì)的不斷進(jìn)步。這些信息中不僅蘊(yùn)含著豐富的產(chǎn)品設(shè)計(jì)知識(shí),同時(shí)具有成本低、時(shí)效性強(qiáng)的優(yōu)點(diǎn),為傳統(tǒng)產(chǎn)品設(shè)計(jì)向數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品設(shè)計(jì)轉(zhuǎn)型升級(jí)提供了機(jī)遇。但是現(xiàn)有數(shù)據(jù)信息存在多源異構(gòu)、價(jià)值密度低、準(zhǔn)確性差等方面的不足,這對(duì)知識(shí)來源的遴選及挖掘手段都提出了較高的要求,是影響設(shè)計(jì)轉(zhuǎn)型的關(guān)鍵[2]。
相較其他數(shù)據(jù)類型,專利數(shù)據(jù)在數(shù)據(jù)量、時(shí)效性以及客觀性方面都更優(yōu)。如果能夠有效利用專利數(shù)據(jù),不僅可以縮短60%的研發(fā)時(shí)間,同時(shí)能夠節(jié)省40%的研發(fā)費(fèi)用[3]。但是專利中包含大量復(fù)雜文本信息,尤其是發(fā)明專利以及實(shí)用新型專利,這些信息呈現(xiàn)非結(jié)構(gòu)化、維度高、一詞多義的特點(diǎn),是實(shí)現(xiàn)專利數(shù)據(jù)有效挖掘的主要障礙[4]。如何從海量專利數(shù)據(jù)中快速獲取有價(jià)值的設(shè)計(jì)知識(shí),一直是學(xué)術(shù)界高度關(guān)注的問題,并開展了諸多相關(guān)研究。根據(jù)數(shù)據(jù)挖掘方法的不同,現(xiàn)有研究主要分為以下兩類。
(1)基于統(tǒng)計(jì)的挖掘方法。基于統(tǒng)計(jì)的挖掘方法主要是通過計(jì)算特征頻次或者概率方法獲取技術(shù)關(guān)鍵詞。侯鑫[5]基于圖上隨機(jī)游走詞匯加權(quán)算法計(jì)算詞的重要性,并利用語義網(wǎng)絡(luò)中的頂點(diǎn)聚類算法對(duì)技術(shù)文檔詞匯進(jìn)行分類及篩選,進(jìn)而形成技術(shù)概念。梁艷紅等[6]針對(duì)專利不同部分的信息內(nèi)容,圍繞發(fā)明問題解決理論(theory of the solution of inventive problems, TRIZ),結(jié)合特征函數(shù)信息增益算法從專利中提取產(chǎn)品創(chuàng)新設(shè)計(jì)信息。陳憶群等[7]利用專利結(jié)構(gòu)化信息之間的關(guān)聯(lián)關(guān)系構(gòu)建專利背景知識(shí)庫,進(jìn)而獲取詞匯特征值以進(jìn)行重要性排序,并結(jié)合支持向量機(jī)提取關(guān)鍵詞。YOON等[8]利用線性判別式分析算法挖掘?qū)@谋拘畔⒅黝},并通過協(xié)同過濾篩選同領(lǐng)域中不同競(jìng)爭(zhēng)對(duì)手的專利,以此作為新產(chǎn)品開發(fā)的參考技術(shù)對(duì)象。SRINIVASAN等[9]根據(jù)機(jī)械產(chǎn)品專利文獻(xiàn)中功能術(shù)語特點(diǎn)和句子中不同字符串的共現(xiàn)強(qiáng)度,結(jié)合網(wǎng)絡(luò)度量方法獲取關(guān)鍵術(shù)語。陳志泊等[10]在詞向量化基礎(chǔ)上,通過構(gòu)建融合詞語特征值、邊權(quán)值的圖模型對(duì)詞匯重要性進(jìn)行排序,并通過詞聚類以及過濾算法形成關(guān)鍵詞集合。KIM等[11]結(jié)合神經(jīng)網(wǎng)絡(luò),提出基于詞嵌入以及專利聚類的方式提取專利技術(shù)特征。
(2)基于規(guī)則的挖掘方法。基于規(guī)則的挖掘方法主要是通過詞語詞性以及前后位置獲取技術(shù)關(guān)鍵詞。王朝霞等[12]在詞性標(biāo)注的基礎(chǔ)上獲取專利組件關(guān)鍵詞及功能詞匯,利用淺層句法規(guī)則獲取不同組件之間的技術(shù)關(guān)聯(lián)關(guān)系,并通過語義網(wǎng)絡(luò)實(shí)現(xiàn)專利表達(dá)。YOON等[13]在詞性分析的基礎(chǔ)上,利用依存句法關(guān)系提取專利中對(duì)象功能及其屬性信息。薛馳等[14]通過最大熵理論篩選關(guān)鍵詞,通過詞性以及行業(yè)專業(yè)詞典提取機(jī)械專利技術(shù)對(duì)象,并聯(lián)合動(dòng)詞庫獲取不同對(duì)象之間的作用關(guān)系,進(jìn)而構(gòu)建機(jī)械產(chǎn)品專利的知識(shí)模型。FANTONI等[15]在功能、原理及屬性定義的基礎(chǔ)上,通過專利文本分詞以及詞性標(biāo)注,結(jié)合wordnet數(shù)據(jù)庫以及詞性組合規(guī)則獲取對(duì)應(yīng)的關(guān)鍵詞。張惠等[16]從單詞詞性角度出發(fā),通過研究描述性能、功能及結(jié)構(gòu)等類型關(guān)鍵詞組合的詞性特點(diǎn),并結(jié)合關(guān)聯(lián)規(guī)則算法從專利中提取綠色產(chǎn)品設(shè)計(jì)知識(shí)。韓爽等[17]在分析專利不同部分信息特點(diǎn)的基礎(chǔ)上,結(jié)合公理化設(shè)計(jì)理論以及專家篩選的方法獲取不同域的知識(shí)。KIM等[18]在傳統(tǒng)主謂賓(subject-action-object,SAO)三元組的基礎(chǔ)上,引入其他語義,構(gòu)建SAOx擴(kuò)展模型,并結(jié)合TRIZ工程參數(shù)以及發(fā)明原理提取對(duì)應(yīng)的關(guān)鍵詞信息。
綜上所述,可以看出現(xiàn)有研究雖然在部分專利設(shè)計(jì)知識(shí)挖掘方面取得了一定的成果,但也存在以下兩方面不足。
一方面是通過統(tǒng)計(jì)詞頻以及共現(xiàn)的方法對(duì)目標(biāo)文本進(jìn)行分析,只能挖掘?qū)@械娘@性知識(shí),而不適用于隱形知識(shí)的提取。盡管文獻(xiàn)[19]利用詞頻方法計(jì)算專利語義距離,通過構(gòu)建向量空間獲取相似專利,實(shí)現(xiàn)基于類比方法的創(chuàng)新設(shè)計(jì),但是該方法忽略了單詞之間的語義相關(guān)性,未能實(shí)現(xiàn)同義詞的識(shí)別及提取,導(dǎo)致信息資源浪費(fèi)。
另一方面是研究對(duì)象主要針對(duì)專利技術(shù)方案及其實(shí)現(xiàn)的功能效果,雖然目的是為產(chǎn)品設(shè)計(jì)提供類似的成功案例,但忽略了對(duì)現(xiàn)有專利方案潛在不足之處的研究。若直接參考此類專利,容易導(dǎo)致產(chǎn)品創(chuàng)新設(shè)計(jì)過程的技術(shù)風(fēng)險(xiǎn)。
挖掘現(xiàn)有專利所涉及產(chǎn)品及其技術(shù)的有害性能知識(shí)對(duì)企業(yè)具有重要的意義,不僅可以促使企業(yè)在產(chǎn)品設(shè)計(jì)過程中避免出現(xiàn)類似的問題,同時(shí)可為目標(biāo)專利的規(guī)避設(shè)計(jì)提供有價(jià)值的參考。因此,本文提出基于語義關(guān)聯(lián)的中文專利有害性能知識(shí)挖掘方法,在分析有害性能語義特點(diǎn)及分類的基礎(chǔ)上,集成word2vec和復(fù)合依存關(guān)系兩種方法構(gòu)建產(chǎn)品有害性能數(shù)據(jù)庫,進(jìn)而為設(shè)計(jì)方案的評(píng)估及改進(jìn)提供參考。
2.1.1有害性能定義及表達(dá)
目前關(guān)于有害性能(harmful performance,HP)定義的研究較少,部分研究主要集中在設(shè)計(jì)缺陷或者有害功能上。如文獻(xiàn)[20]將設(shè)計(jì)缺陷定義為產(chǎn)品錯(cuò)誤設(shè)計(jì)導(dǎo)致后續(xù)生產(chǎn)以及使用過程存在不足。這是將有害因素簡(jiǎn)單視為一個(gè)整體,并沒有對(duì)其進(jìn)行詳細(xì)的分析及分類。文獻(xiàn)[21]將有害功能定義為對(duì)象之間帶來不期望的關(guān)系結(jié)果,并通過對(duì)象之間的效應(yīng)進(jìn)行識(shí)別。事實(shí)上,產(chǎn)品除了產(chǎn)生有害功能外還容易存在有害質(zhì)量,這些都是產(chǎn)品設(shè)計(jì)過程需要考慮的因素。
對(duì)此,本文引入性能概念。從設(shè)計(jì)過程來看,性能是產(chǎn)品設(shè)計(jì)過程的起點(diǎn)及終點(diǎn),是設(shè)計(jì)過程的驅(qū)動(dòng)力[22]。從設(shè)計(jì)對(duì)象來看,性能指系統(tǒng)或者元素對(duì)外輸出作用的效果,這種效果不僅包含功能效果,也包含質(zhì)量效果。功能是作用關(guān)系的描述,質(zhì)量是作用強(qiáng)度的度量。根據(jù)效果的差異,性能分為有利性能和有害性能。有利性能是指滿足既定設(shè)計(jì)要求的作用,是設(shè)計(jì)者所期待的;有害性能是指未能滿足設(shè)計(jì)要求的作用,具體定義如下。
定義1 有害性能是設(shè)計(jì)對(duì)象未能輸出滿足設(shè)計(jì)要求作用效果的性能。相比有利性能,有害性能會(huì)給設(shè)計(jì)過程帶來潛在風(fēng)險(xiǎn),進(jìn)而影響產(chǎn)品的生產(chǎn)、使用以及回收等環(huán)節(jié)。一個(gè)對(duì)象可能同時(shí)存在多個(gè)有害性能,不同性能又有各自的輸出效果,進(jìn)而形成三個(gè)層級(jí)。參考SAO模型[18],引入三元組模型PH={S,A,E}對(duì)對(duì)象的有害性能進(jìn)行表達(dá),其中,S表示產(chǎn)生作用效果的對(duì)象來源;A={A(t)|t=1,2,…,n}表示所產(chǎn)生的作用;E={E(t)|t=1,2,…,n}表示作用強(qiáng)度的描述或者變化情況。
作用A根據(jù)性能的性質(zhì)分為AP和AO,其中AP為正面作用,是指對(duì)象輸出屬于設(shè)計(jì)要求的作用;AO為負(fù)面作用,是對(duì)象輸出不屬于設(shè)計(jì)要求的作用。與AP不同,AO不論作用強(qiáng)度多大,都會(huì)對(duì)方案產(chǎn)生不利影響。
效果E根據(jù)強(qiáng)度大小分為EM、EL和EN,其中,EM為過高強(qiáng)度,指產(chǎn)生的作用效果超出設(shè)計(jì)要求;EL為過低強(qiáng)度,指產(chǎn)生的作用效果低于設(shè)計(jì)要求;EN為正常強(qiáng)度,指作用效果符合設(shè)計(jì)要求。
2.1.2有害性能分類
根據(jù)作用強(qiáng)度大小,有害性能具體分為不足性能PHL、過剩性能PHM以及負(fù)面性能PHP。不同性能具體定義如下。
定義2 不足性能PHL是指作用強(qiáng)度未能滿足設(shè)計(jì)預(yù)定的要求,例如花灑水壓較低、噴口流量不足等。
定義3 過剩性能PHM是指作用強(qiáng)度超過設(shè)計(jì)預(yù)定的要求,例如花灑水壓超標(biāo)、手柄載荷過大等。
不論是不足性能還是過剩性能,都是正向作用,但是作用強(qiáng)度未能在設(shè)計(jì)要求范圍之內(nèi),則屬于質(zhì)量缺陷,需要通過參數(shù)調(diào)整變成正常有用性能。
定義4 負(fù)面性能PHP在性質(zhì)上屬于完全有害作用,是有害功能,難以通過參數(shù)改變來消除,需要對(duì)系統(tǒng)進(jìn)行重新改造。
為了便于有效開展專利性能知識(shí)挖掘研究,結(jié)合S、A、E三元組分類情況以及不同類型有害性能定義,可以得到相應(yīng)性能的計(jì)算公式:
(1)
根據(jù)專利法實(shí)施細(xì)則第17條規(guī)定,專利正文包括摘要、權(quán)利要求、技術(shù)說明書,其中技術(shù)說明書包括技術(shù)領(lǐng)域、背景介紹、發(fā)明內(nèi)容、附圖以及實(shí)施案例等內(nèi)容?;谖墨I(xiàn)[6,12,14]的研究,可以看出不同部分可提取的技術(shù)內(nèi)容以及所包含的數(shù)據(jù)量、數(shù)據(jù)類型及其提取難度存在明顯差異,如表1所示。
由表1可以看出,與有害性能相關(guān)的內(nèi)容主要集中在背景技術(shù)上,即與已有公開技術(shù)的比較,引申出專利所要解決的問題,同時(shí)凸顯本專利所蘊(yùn)含的技術(shù)先進(jìn)性及合理性。在綜合比較數(shù)據(jù)量以及提取難度的基礎(chǔ)上,本文主要選擇技術(shù)背景文本內(nèi)容進(jìn)行語義挖掘研究。
表1 專利不同部分的數(shù)據(jù)屬性
鑒于屬性的不同導(dǎo)致專利有害性能語義特性存在差異,為了提高文本挖掘的適用性,分別對(duì)不同類型的有害性能的語義特點(diǎn)進(jìn)行分析。同時(shí)由于有害性能文本詞性存在明顯的多樣性,為了提高準(zhǔn)確率,采取同句共現(xiàn)的詞性組合方式進(jìn)行關(guān)鍵詞的識(shí)別與挖掘。
由于不足有害性能和過剩有害性能主要涉及面向?qū)ο蠹夹g(shù)效果的評(píng)價(jià),為了提取詞語三元組中的A和E,采取“性能名詞np+形容詞adj”、“性能名詞np+動(dòng)詞vt”以及“形容詞adjm+動(dòng)詞vt”的組合形式進(jìn)行提取。其中形容詞又分為高強(qiáng)度形容詞adjm和低強(qiáng)度形容詞adjl,例如“高”“大”“強(qiáng)”“多”等屬于adjm,“低”“差”“弱”“少”屬于adjl。動(dòng)詞也分為提高強(qiáng)度動(dòng)詞vtm和降低強(qiáng)度動(dòng)詞vtl,例如“提高”“增大”“加強(qiáng)”屬于提高強(qiáng)度動(dòng)詞,而“降低”“減少”“減弱”屬于降低強(qiáng)度動(dòng)詞。性能名詞是指對(duì)產(chǎn)品性能的描述術(shù)語。根據(jù)產(chǎn)品生命周期的不同環(huán)節(jié),在文獻(xiàn)[23]研究基礎(chǔ)上對(duì)這些性能名詞進(jìn)分類,具體如表2所示。
表2 性能指標(biāo)舉例
對(duì)于負(fù)面有害性能,借鑒文獻(xiàn)[12,14]所提出的功能知識(shí)獲取方法,三元組中A和E主要通過“負(fù)面動(dòng)詞vte+名詞n”和“動(dòng)詞vt+負(fù)面名詞ne”的雙元復(fù)合形式展示。例如“阻礙水流”“阻塞噴口”“影響流速”“導(dǎo)致?lián)p失”等,其中“阻礙”“阻塞”“影響”是負(fù)面動(dòng)詞,而“損失”是負(fù)面名詞。與前述兩種有害性能相比,負(fù)面有害性能的詞匯所包含的名詞類型范圍較寬,不局限于某一類名詞。
為了獲取專利技術(shù)所蘊(yùn)含的有害性能信息,針對(duì)專利中同時(shí)存在技術(shù)方案和對(duì)現(xiàn)有技術(shù)缺點(diǎn)評(píng)價(jià)兩方面內(nèi)容的現(xiàn)象,借鑒大數(shù)據(jù)分析方法,通過引入語義關(guān)聯(lián)算法對(duì)專利數(shù)據(jù)進(jìn)行挖掘,研究框架如圖1所示。具體研究步驟如下。
圖1 面向有害性能的專利信息提取框架
(1)行業(yè)專利信息處理。根據(jù)市場(chǎng)需求,確定待分析產(chǎn)品或者技術(shù)對(duì)象所處的行業(yè)領(lǐng)域,并分析領(lǐng)域行業(yè)發(fā)展特點(diǎn),設(shè)計(jì)專利檢索關(guān)鍵詞以及分類號(hào)。通過對(duì)比國內(nèi)外專利數(shù)量,選擇現(xiàn)在特定區(qū)域的專利,并結(jié)合專利類型以及授權(quán)時(shí)間檢索專利,下載相關(guān)資料并對(duì)全文進(jìn)行劃分。隨后提取專利不同部分的文本信息,并結(jié)合停詞數(shù)據(jù)庫對(duì)文本進(jìn)行分割及清洗,過濾無關(guān)及低價(jià)值噪聲數(shù)據(jù)。
(2)關(guān)鍵詞語義距離計(jì)算。首先基于行業(yè)全部專利的全文文本構(gòu)建關(guān)鍵詞語料數(shù)據(jù)庫,利用word2vec算法中的計(jì)算模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)而獲取每個(gè)詞的詞向量,并形成整個(gè)數(shù)據(jù)庫的詞向量空間,結(jié)合余弦算法計(jì)算不同單詞之間的語義距離,并確定相似度閾值以實(shí)現(xiàn)同義詞聚類。
(3)有害性能信息提取。針對(duì)專利背景部分文本信息,首先利用詞性分別提取相應(yīng)的關(guān)鍵詞,并通過多重復(fù)合依存句法規(guī)則提取有害性能信息及其分類信息。在此基礎(chǔ)上,利用 “。”“?”“;”等結(jié)束符號(hào)對(duì)文本進(jìn)行分句以提取完整句子。根據(jù)詞性篩選獲取名詞信息,并結(jié)合三種主謂關(guān)系構(gòu)建名詞與有害性能的關(guān)系三元組模型,結(jié)合步驟(2)的提取結(jié)果構(gòu)建基于背景信息的有害性能數(shù)據(jù)庫。
(4)設(shè)計(jì)方案有害性能分析。利用語義關(guān)聯(lián)相似度算法獲取創(chuàng)新設(shè)計(jì)方案不同元件關(guān)鍵詞的同義詞,利用關(guān)鍵詞分別檢索有害性能數(shù)據(jù)庫,獲取關(guān)聯(lián)專利的結(jié)構(gòu)詞及其有害性能三元組,與專利技術(shù)方案進(jìn)行比較分析,結(jié)合頻次公式評(píng)估元件不同有害性能的出現(xiàn)概率??紤]到方案中部分已經(jīng)解決的技術(shù)問題以及出現(xiàn)概率較低的有害性能,通過排除法獲取方案需要解決的有害性能,為后續(xù)方案改進(jìn)以及專利規(guī)避提供參考意見。
詞向量,又稱為詞嵌入(word embedding),是將自然語言中的詞匯進(jìn)行向量化得到的屬性模型。word2vec是谷歌公司于2013年開發(fā)的一款將詞表示為實(shí)數(shù)值向量的高效工具,利用詞的上下文信息,通過神經(jīng)網(wǎng)絡(luò)將詞表征為向量,是實(shí)現(xiàn)文本內(nèi)容向量運(yùn)算的有效工具[24]。word2vec主要包含Skip-gram模型以及CBOW模型。Skip-gram模型利用輸入詞w(t)預(yù)測(cè)前后相關(guān)詞。CBOW模型則相反,利用前后相關(guān)詞預(yù)測(cè)當(dāng)前詞w(t),具體原理如圖2所示。
圖2 CBOW模型
由于采取多對(duì)一的方式,相比較Skip-gram模型,CBOW模型訓(xùn)練詞向量的時(shí)間更短。為此,本文采取CBOW模型訓(xùn)練詞向量,該網(wǎng)絡(luò)模型包含輸入層、投影層和輸出層三層,訓(xùn)練樣本為(content(w(t)),w(t)),其中,content表示目標(biāo)單詞前后詞所組成的詞向量。目標(biāo)函數(shù)為
(2)
投影層將前后C個(gè)詞向量進(jìn)行累加求和,表示如下:
(3)
其中,V代表詞向量的值。
模型的輸出層采用Hierarchical softmax技術(shù),以訓(xùn)練語料樣本中出現(xiàn)的詞作為葉子節(jié)點(diǎn),以詞頻作為權(quán)重進(jìn)行Huffman樹構(gòu)造。利用隨機(jī)梯度使L函數(shù)值最大。模型訓(xùn)練完之后,獲得詞的向量表示。
利用word2vec得到不同詞的向量空間,結(jié)合余弦算法計(jì)算詞相似度。假定有兩個(gè)n維單詞向量wi(xi1,xi2,…,xin)和wj(xj1,xj2,…,xjn),相似度計(jì)算如下:
(4)
通過設(shè)定最低相似度閾值,對(duì)滿足條件的關(guān)鍵詞進(jìn)行合并。
3.3.1依存句法
句子往往由多個(gè)關(guān)鍵詞組成,這些關(guān)鍵詞之間都屬于同句共現(xiàn)關(guān)系。如果僅以詞性組合獲取技術(shù)短語,則只是將短語視為同個(gè)句子內(nèi)一個(gè)獨(dú)立的詞匯,忽略了詞匯之間的前后關(guān)系,會(huì)將不相關(guān)的詞匯也視為性能組合關(guān)鍵詞,影響提取效果。為了進(jìn)一步提高有害性能知識(shí)的提取準(zhǔn)確率,需要在已有詞性組合的基礎(chǔ)上融合關(guān)系規(guī)則。
文本句子是由一系列單詞短語通過一定關(guān)聯(lián)關(guān)系組成的,這些關(guān)系遵循相應(yīng)的依存語法。依存語法最早由法國語言學(xué)家L.Tesniere提出,他認(rèn)為單詞之間的關(guān)系是有方向的,往往是一個(gè)詞支配另一個(gè)詞,這種支配和被支配的關(guān)系就是依存關(guān)系(dependency relationship,DR)[25]。例如輸入文本“花灑能夠噴出洗手液,具有殺菌消毒功能”,該句子的依存關(guān)系如圖3所示??梢钥闯鲆粋€(gè)句子中,不同詞語彼此構(gòu)成各種復(fù)雜的依存關(guān)系,形成關(guān)系對(duì)。
圖3 句法結(jié)構(gòu)關(guān)系圖
依存關(guān)系分析就是通過給定的語法,結(jié)合詞性自動(dòng)識(shí)別同一個(gè)句子中前后不同單詞或者短語之間的支配關(guān)系[26]。通過統(tǒng)計(jì),目前中文依存關(guān)系主要分為14種,不同類型關(guān)系及其詞性組成情況如表3所示。
3.3.2基于依存句法的有害性能提取
根據(jù)表3,主謂關(guān)系、動(dòng)賓關(guān)系以及定中關(guān)系涉及對(duì)象的作用及描述,與過剩性能及不足性能的定義緊密相關(guān),適用于這兩種性能關(guān)鍵詞的提取。
表3 主要句法依存關(guān)系
對(duì)于負(fù)面有害性能,由于涉及“動(dòng)詞+名詞”組合,因此可以通過動(dòng)賓關(guān)系、前置賓語實(shí)現(xiàn),其中前置賓語適用于被動(dòng)語句。例如“堵塞噴頭“是動(dòng)賓關(guān)系,而“噴頭被堵塞”屬于前置關(guān)系。
針對(duì)不同性能分別設(shè)計(jì)對(duì)應(yīng)的復(fù)合提取規(guī)則?,F(xiàn)在假設(shè)存在單詞組合w={wi,wj},則三種類型有害性能知識(shí)的提取規(guī)則如表4所示,其中,tag表示依存關(guān)系。
表4 不同類型有害性能知識(shí)提取規(guī)則
3.3.3結(jié)構(gòu)性能關(guān)聯(lián)關(guān)系分析
描述產(chǎn)生有害性能結(jié)構(gòu)對(duì)象的名詞通過“負(fù)面動(dòng)詞+名詞”的句法形式存在于同個(gè)句子文本中,進(jìn)而形成關(guān)聯(lián)關(guān)系。根據(jù)主語數(shù)量,這種關(guān)系分為一對(duì)一、一對(duì)多、多對(duì)一以及多對(duì)多四種類型,如圖4所示。一對(duì)一關(guān)系是指包含一個(gè)結(jié)構(gòu)和一個(gè)性能,例如“彈簧生銹”,這種情況較為常見。為了讓文本更加緊湊,申請(qǐng)人還會(huì)采取一對(duì)多或者多對(duì)一的方式,例如“彈簧和過濾網(wǎng)都容易生銹”屬于多對(duì)一關(guān)系,而“彈簧容易生銹,且不易拆卸”則屬于一對(duì)多關(guān)系。也有采取多對(duì)多的方式,例如“塑料和橡膠材料,都容易腐蝕以及不耐磨”。因此,在分析過程中需要區(qū)分開,防止關(guān)鍵詞被遺漏。
(a)一對(duì)一關(guān)系 (b)一對(duì)多關(guān)系
根據(jù)主要句法依存關(guān)系,不論是一對(duì)多、多對(duì)一還是多對(duì)多關(guān)系,關(guān)鍵詞對(duì)象之間都存在并列關(guān)系,因此在挖掘的時(shí)候,需要對(duì)同句中名詞對(duì)象之間進(jìn)行并列關(guān)系分析。假設(shè)同句中存在結(jié)構(gòu)單詞組合s={sl,sk}以及性能組合PH={PHi,PHj},則四種關(guān)聯(lián)關(guān)系分類規(guī)則及分類結(jié)果如表5所示。
表5 關(guān)聯(lián)關(guān)系分類規(guī)則及分類結(jié)果
由于技術(shù)缺陷數(shù)據(jù)庫和目標(biāo)專利技術(shù)文本分別包含多個(gè)關(guān)鍵詞向量,故需要對(duì)兩類數(shù)據(jù)進(jìn)行關(guān)聯(lián)匹配,進(jìn)而實(shí)現(xiàn)專利有害性能評(píng)價(jià)。現(xiàn)假定存在設(shè)計(jì)方案元件集合wS={wS1,wS2,…,wSm},以及有害性能數(shù)據(jù)庫中全部性能集合wP={wP1,wP2,…,wPn}。通過計(jì)算不同元件與性能在所有專利中的關(guān)聯(lián)頻次,可以算出元件出現(xiàn)某種有害性能的概率,具體計(jì)算公式如下:
(5)
式中,F(xiàn)ij為元件wSi出現(xiàn)有害性能wPj的概率;N(wSi,wPj)為出現(xiàn)元件wSi與有害性能wPj產(chǎn)生關(guān)聯(lián)關(guān)系的專利數(shù)量;N(wSi)為具有元件wSi的專利數(shù)量。
通過計(jì)算設(shè)計(jì)方案關(guān)鍵元件不同類型性能出現(xiàn)的概率,為方案改進(jìn)及創(chuàng)新設(shè)計(jì)提供參考。
為了驗(yàn)證所提方法的有效性,同時(shí)針對(duì)目標(biāo)客戶的要求,選擇衛(wèi)浴花灑領(lǐng)域?qū)@鳛檠芯繉?duì)象。通過智慧芽專利引擎,利用表6中的專利檢索式共計(jì)下載9353件專利。這些專利的類型包括發(fā)明專利和實(shí)用新型專利。專利內(nèi)容分別包含專利標(biāo)題、專利摘要、專利要求以及技術(shù)背景等全文數(shù)據(jù)。實(shí)驗(yàn)環(huán)境為:Intel(R)Core(TM)i7-10700 CPU @3.0GHz,32.00 GB內(nèi)存,Windows 10操作系統(tǒng)。
表6 國內(nèi)花灑專利檢索式
本文以全文數(shù)據(jù)作為詞向量訓(xùn)練語料,有效文本數(shù)量和關(guān)鍵詞數(shù)量分別為37 412、11 541 602。采用Python編程語言機(jī)械學(xué)習(xí)包gensim中的word2vec模塊來訓(xùn)練查詢所需要的詞向量。首先選用jieba作為分詞工具,并借助本地中文停詞數(shù)據(jù)庫去除專利中部分停用詞,進(jìn)而形成語料庫。然后將語料加載到word2vec模塊中,進(jìn)行詞向量的訓(xùn)練,結(jié)果形成詞向量庫。由于CBOW模型的效率高,故本文采取該模型作為詞向量訓(xùn)練工具。針對(duì)專利文本的特點(diǎn)以及訓(xùn)練數(shù)據(jù)的數(shù)量,同時(shí)參考文獻(xiàn)[27]的研究結(jié)果,將word2vec參數(shù)根據(jù)表7進(jìn)行設(shè)置。
表7 word2vec參數(shù)設(shè)置
結(jié)合多種復(fù)合DR算法,對(duì)9353件專利的技術(shù)背景進(jìn)行挖掘,一共提取了1 824 299條關(guān)系,其中不同規(guī)則的提取結(jié)果如表8所示。通過表8可以看出兩個(gè)現(xiàn)象:一方面不同規(guī)則的提取數(shù)量存在明顯差異,如有害性能的提取規(guī)則“(wi∈np)∩(wj∈adjl)∩(tag= att)”獲取的數(shù)量要多于規(guī)則“(wi∈adjm)∩(wj∈vt)∩(tag= adv))”獲取的數(shù)量;另一方面,不同有害性能的提取結(jié)果也存在差異,如PHL的數(shù)量要多于PHM的數(shù)量,說明現(xiàn)有專利方案更加注重通過提高自身產(chǎn)品性能來滿足客戶的需求。
表8 不同類型有害性能知識(shí)提取數(shù)量
在獲取依存關(guān)系信息基礎(chǔ)上,進(jìn)一步挖掘不同結(jié)構(gòu)及其關(guān)聯(lián)有害性能關(guān)鍵詞組合,并對(duì)有害性能進(jìn)行分類,部分結(jié)果如表9所示。
表9 部分專利清洗以及有害性能提取結(jié)果
本實(shí)驗(yàn)以精確率P、召回率R和F值作為評(píng)價(jià)指標(biāo),以隨機(jī)抽取200篇專利技術(shù)內(nèi)容文本作為測(cè)試對(duì)象。采取人工參與方式對(duì)整個(gè)分析的實(shí)驗(yàn)效果指標(biāo)進(jìn)行驗(yàn)證,驗(yàn)證計(jì)算公式如下:
(6)
(7)
(8)
式中,NTP為正確預(yù)測(cè)出來的正例樣本數(shù)量;NFN為錯(cuò)誤預(yù)測(cè)出來的正例樣本數(shù)量;NFP為錯(cuò)誤預(yù)測(cè)的負(fù)例樣本數(shù)量。
為了驗(yàn)證本文所提方法的有效性,結(jié)合現(xiàn)有同類短語挖掘研究成果[28-29],引入另外3種方法進(jìn)行比較測(cè)試,比較結(jié)果如表10所示??梢钥闯鲈~頻-逆文檔頻度(term frequency-inverse document frequency, TF-IDF)算法在有害性能提取方面效果最差,主要是因?yàn)樵撍惴ú扇≡~頻和逆文本頻率相結(jié)合方法,篩選在語料庫中出現(xiàn)次數(shù)較少但在單個(gè)文檔中出現(xiàn)次數(shù)較多的詞匯。事實(shí)上,專利文檔中對(duì)方案性能的描述出現(xiàn)次數(shù)較少以避免反復(fù)說明,顯然這樣導(dǎo)致性能關(guān)鍵詞的權(quán)值較低,容易被過濾掉。同理,采取互信息熵(mutual information entropy,MIE)算法提取專利文本信息也存在準(zhǔn)確率和召回率低的問題,主要還是因?yàn)樵撍惴ê蚑F-IDF算法一樣,都是根據(jù)詞匯共現(xiàn)頻次來篩選關(guān)鍵詞組合。
表10 四種算法結(jié)果比較
相比之下,基于DR規(guī)則獲取產(chǎn)品有害性能關(guān)鍵詞的指標(biāo)要優(yōu)于TF-IDF算法,因?yàn)镈R算法有涉及關(guān)鍵詞詞性的篩選,并通過不同詞性的組合獲取性能描述組合,適合提取文檔中出現(xiàn)頻次較低但是重要程度較高的詞匯。相比之下,傳統(tǒng)DR算法沒有考慮同義詞,準(zhǔn)確率較低。因此融合word2vec算法,可以進(jìn)一步提高DR算法的精確率和召回率等指標(biāo)。
為了進(jìn)一步展示所提方法的有效性,選擇申請(qǐng)?zhí)枮镃N202010117313.0的花灑專利作為目標(biāo)設(shè)計(jì)方案進(jìn)行展示,如表11所示。由于該專利屬于2020年新申請(qǐng)技術(shù)方案,較少被引用及關(guān)注,故難以通過專利引文獲取其技術(shù)評(píng)價(jià)信息。為此利用關(guān)聯(lián)方法獲取其技術(shù)方案中深層次設(shè)計(jì)知識(shí)。
表11 目標(biāo)專利設(shè)計(jì)方案分析
首先提取專利技術(shù)摘要中的結(jié)構(gòu)關(guān)鍵詞,可以看出該專利主要集中在彈簧、密封圈以及過濾網(wǎng)三個(gè)對(duì)象上。然后在此基礎(chǔ)上,結(jié)合行業(yè)專利數(shù)據(jù)庫對(duì)上述元件的有害性能知識(shí)進(jìn)行進(jìn)一步挖掘及評(píng)估。
通過word2vec中詞向量空間及其語義相似度算法獲取其他同義關(guān)鍵詞。為了提高分析效率,選擇0.6為過濾無關(guān)詞匯的相似度閾值,得到同義詞及其有害性能數(shù)據(jù)庫關(guān)聯(lián)結(jié)果,如表12所示。
表12 方案元件關(guān)鍵詞的同義詞及其專利遍歷結(jié)果
針對(duì)不同關(guān)鍵詞所對(duì)應(yīng)的專利,分別利用依存關(guān)系及詞性組合算法獲取與關(guān)鍵詞相關(guān)的有害性能信息,并選擇部分概率超過0.13的進(jìn)行展示,如表13所示。可以看出相同元件會(huì)出現(xiàn)諸多不同類型的有害功能。通過分析目標(biāo)專利的技術(shù)摘要,顯示該專利主要解決噴嘴堵塞問題,但是其他有害性能沒有涉及,表明這些有害性能是發(fā)明人忽略或者不關(guān)注的技術(shù)問題。對(duì)此,邀請(qǐng)行業(yè)專家對(duì)結(jié)果進(jìn)行評(píng)價(jià),他們認(rèn)為該方法的確找出了上述元件容易出現(xiàn)的問題。以彈簧為例,存在生銹的問題,不過可以采取不銹鋼材質(zhì),所以此類有害性能發(fā)生的概率也較低。相比之下,由于彈簧裝置是活動(dòng)件,存在結(jié)構(gòu)復(fù)雜、成本高、粘水垢后不易清洗的問題;如果用于按鍵操作,還存在容易泄漏的情況。這些都是本專利技術(shù)規(guī)避或者改進(jìn)設(shè)計(jì)需要重點(diǎn)考慮的問題。
表13 專利有害性能信息
利用語義關(guān)聯(lián)方法不僅可以挖掘?qū)@麧撛诘募夹g(shù)問題,同時(shí)可以計(jì)算不同有害性能出現(xiàn)的概率,進(jìn)而為后期方案改進(jìn)及創(chuàng)新提供技術(shù)參考。
(1)從產(chǎn)品設(shè)計(jì)角度出發(fā),根據(jù)作用強(qiáng)度對(duì)產(chǎn)品結(jié)構(gòu)有害性能進(jìn)行分類,并結(jié)合專利數(shù)據(jù)不同部分的特點(diǎn),研究有害性能的分布情況。
(2)融合行業(yè)專利全文數(shù)據(jù),利用word2vec算法構(gòu)建專業(yè)知識(shí)模型,并借助余弦相似度計(jì)算不同關(guān)鍵詞的語義距離,提高了文本相似度計(jì)算精度,實(shí)現(xiàn)了同義詞的合并。
(3)借助詞性及依存關(guān)系,設(shè)計(jì)針對(duì)不同類型有害性能的復(fù)合提取規(guī)則,同時(shí)利用多種分類規(guī)則挖掘有害性能與結(jié)構(gòu)關(guān)鍵詞的關(guān)聯(lián)關(guān)系,并結(jié)合專利詞頻計(jì)算有害性能發(fā)生概率,進(jìn)而對(duì)專利方案元件有害性能進(jìn)行分析與評(píng)估。
(4)自然語言處理是一個(gè)復(fù)雜的過程,尤其是深層知識(shí)的獲取,相關(guān)研究還在不斷探索及完善中。雖然本文方法在花灑專利方面不論是精確率、召回率以及F值都達(dá)到一定水平,但是考慮到不同領(lǐng)域產(chǎn)品專利撰寫風(fēng)格以及文本內(nèi)容的差別,還需要擴(kuò)展到其他領(lǐng)域進(jìn)行驗(yàn)證。同時(shí)為了便于產(chǎn)品設(shè)計(jì)人員數(shù)據(jù)導(dǎo)入、分析、管理及輸出,開發(fā)面向有害性能知識(shí)的專利文本挖掘系統(tǒng)也是后續(xù)研究的重要任務(wù)。