許學(xué)添 王鵬 陳志澤
摘要:專利情報是商業(yè)中的重要情報,但是專利數(shù)據(jù)較為龐大,搜索相關(guān)情報較為困難,傳統(tǒng)的知識圖譜方法在處理專利數(shù)據(jù)的過程中時間較長?;跀?shù)據(jù)挖掘的專利數(shù)據(jù)處理技術(shù)研究,使用聚類算法,對專利數(shù)據(jù)進(jìn)行聚類分析,確立專利情報中的運(yùn)算指標(biāo),通過詞語與文檔的關(guān)聯(lián)性對于關(guān)鍵詞語進(jìn)行數(shù)據(jù)挖掘,并且根據(jù)關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)分析,根據(jù)文本特征進(jìn)行數(shù)據(jù)處理。通過實(shí)驗(yàn)論證分析,數(shù)據(jù)挖掘的專利數(shù)據(jù)處理方法對比傳統(tǒng)的知識圖譜方法數(shù)據(jù)處理效率更高。
關(guān)鍵詞:情報;聚類分析;數(shù)據(jù)挖掘
中圖分類號:TP311.52 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)34-0029-03
目前,專利情報是企業(yè)技術(shù)創(chuàng)新的主要信息源,而且具有數(shù)量巨大、內(nèi)容廣泛的特點(diǎn)。這些專利反映著目前科學(xué)技術(shù)的新水平。專利情報作為技術(shù)的載體之一,包含著大量的技術(shù)信息,充分利用專利信息,可以節(jié)約大量的經(jīng)費(fèi)和時間。專利情報是技術(shù)發(fā)展的方向,對企業(yè)來說是極為重要的指標(biāo),企業(yè)也可以根據(jù)專利情報的趨勢研究,對于不同地區(qū)的某類產(chǎn)品的先進(jìn)程度進(jìn)行預(yù)測[1]。根據(jù)專利可以指導(dǎo)企業(yè)的技術(shù)開發(fā)以及產(chǎn)品的銷售策略,從而避開盲目開發(fā),也可以對競爭對手的產(chǎn)品以及技術(shù)等進(jìn)行信息的收集。但專利信息較為復(fù)雜,想要獲得有用的專利信息則需要對相關(guān)信息進(jìn)行處理。國外對于該方面的研究起步較早,通常都建立了專利數(shù)據(jù)庫,以及對于專利數(shù)據(jù)的引文索引的數(shù)據(jù)庫[2]。而我國起步較晚,并且相關(guān)專利信息的分析仍然處于初期階段。關(guān)于競爭情報以及專利信息的研究者較少,但隨著對專利信息的重要性的認(rèn)識的不斷提高,對于專利信息處理的研究者也逐步增加,目前我國專利信息處理技術(shù)常常采用知識圖譜的處理方法[3]。但是該方法在處理大量的數(shù)據(jù)時常顯得捉襟見肘,雖然可以圖像化地顯示專利數(shù)據(jù)但是處理速度較慢。數(shù)據(jù)挖掘技術(shù)是在大量數(shù)據(jù)中通過算法搜索隱藏的信息的方法,可以直接地對于專利信息中需求的關(guān)鍵詞、引文索引進(jìn)行搜索,對比傳統(tǒng)的知識圖譜數(shù)據(jù)處理方法更加方便。
1 專利數(shù)據(jù)處理流程
1.1專利數(shù)據(jù)聚類分析
使用聚類分析作為動態(tài)的分類方法,幫助后續(xù)的挖掘進(jìn)行,將相似的事物歸入相應(yīng)的類別中,并且使其中的事物相似。而進(jìn)行聚類分析常常將常用的指標(biāo)比作“距離”以及“相似系數(shù)”,并且將分析對象用“點(diǎn)”表示,并且將“距離”或者“相似系數(shù)”較大的點(diǎn)分為一類中,并且將較小的分布另一類,使用該方法可以進(jìn)行多類的聚類分析。而常用的距離指標(biāo)使用歐式距離,公式如下:
[DX,Y=iXi-Yi2][i=1,2,...s] ? ? ? ? ? ?(1)
在(1)式中將[X]和[Y]在這里表示空間中[n]個體中的兩個點(diǎn),如果聚類對象為變量,[X]和[Y]則表示在[k]個變量中的任意兩個,并且維數(shù)為樣本量[n]。而對于聚類分析中的相似度系數(shù)指標(biāo)可以采用余弦相似度,余弦相似度的公式如下:
[SX,Y=iXiYiX2iY2i] ? ? ? ? ? ? ? ? ? (2)
其中[i=1,2,...s],通過計算余弦相似度也可以完成數(shù)據(jù)挖掘的聚類分析,而若是假設(shè)聚類的數(shù)據(jù)集合包括的n個數(shù)據(jù)對象,相關(guān)的數(shù)據(jù)對象可表達(dá)多種目標(biāo),對于內(nèi)存的聚類算法可以選擇數(shù)據(jù)矩陣,數(shù)據(jù)矩陣也被稱為對象與變量矩陣,使用[p]個變量表現(xiàn)[n]個對象,根據(jù)數(shù)據(jù)關(guān)系表來表現(xiàn),或者[n?m]維的矩陣來表示矩陣就是表示[n]個對象的[m]個屬性,以此矩陣結(jié)構(gòu)建立數(shù)據(jù)類型。聚類分析根本是幫助進(jìn)行下一步的數(shù)據(jù)挖掘。
1.2 專利指標(biāo)數(shù)擬定
專利信息因素較多,關(guān)于專利的指標(biāo)計算較為困難,對于專利指標(biāo),主要包括幾項,專利的有效期是專利受法律保護(hù)的期限,也可以作為數(shù)據(jù)挖掘時的指標(biāo)之一,引文索引是相關(guān)專利所引用的專利數(shù)量,也可以作為指標(biāo)[4]。而其中專利指標(biāo)計算中較為重要的是專利的原創(chuàng)率,一項專利的原創(chuàng)率越高,則專利的創(chuàng)新價值就越高。技術(shù)生命周期,用來判斷技術(shù)生命發(fā)展的階段,技術(shù)周期時間用來衡量專利和專利改進(jìn)后的時間,周期越短,表示技術(shù)進(jìn)步越快,而專利的普遍性反映專利多樣性,普遍率也高反映該專利的經(jīng)濟(jì)價值越高。選取四項專利指標(biāo),引文索引、專利原創(chuàng)率、專利普遍率、技術(shù)生命周期。并且運(yùn)算這四項指標(biāo),并且進(jìn)行數(shù)據(jù)離散分析,結(jié)果如表1所示。
關(guān)于專利數(shù)據(jù)的相關(guān)數(shù)據(jù)離散,使用數(shù)據(jù)挖掘來對于專利中的各指標(biāo)進(jìn)行處理。
1.3詞語與文檔關(guān)聯(lián)性挖掘
數(shù)據(jù)挖掘技術(shù),是從大量的、不完全的、模糊的各種數(shù)據(jù)中,提取那些具有潛在有用信息的過程。而相關(guān)數(shù)據(jù)挖掘技術(shù)的過程如下圖所示。
首先是要對挖掘?qū)ο蟠_定,并且進(jìn)行采集、清洗、集成和交換。CHI統(tǒng)計方法是用來度量數(shù)據(jù)中的詞語與文檔之間的關(guān)聯(lián)情況,在此方法下的詞語文檔間的一階自由度[x2]的分布,采用此方法來對于專利數(shù)據(jù)進(jìn)行處理,并且分析詞語與文檔分類間的關(guān)聯(lián)性。CHI值的計算公式為:
[x2t,c=N×AD-CB2A+BB+DA+B+C+D] ? ? ? (3)
(3)公式用來計算詞語與文檔中的相關(guān)性,[x2]值越高則相關(guān)性也就越高,也表示詞語對于該文檔的類比更加重要。在這里[N]表示文檔數(shù)據(jù)集中的文檔總數(shù),[c]表示一個文檔的類別符號,[t]表示計算的詞語,[A]表示在該文檔中的[c]包含的詞語[t]的頻數(shù),[B]表示并不屬于文檔[c]的文檔里關(guān)于[t]詞語的出現(xiàn)頻數(shù),[C]表示雖然屬于文檔[c]但并不包含的[t]的出現(xiàn)頻數(shù),[D]表示并不屬于文檔[c]也并不包含詞語[t]的文檔頻數(shù)。挖掘?qū)@麛?shù)據(jù)中的詞語與文檔之間的關(guān)聯(lián)性,以對其關(guān)聯(lián)性進(jìn)行規(guī)制分析。
1.4 關(guān)聯(lián)規(guī)則分析
對于專利數(shù)據(jù)進(jìn)行關(guān)規(guī)程的挖掘,采取Apriori算法,該算法也是對于研究關(guān)聯(lián)規(guī)則中最具有代表性的算法之一。首先,要建立最小支持度,而支持度的計數(shù)是通過定義事物中出現(xiàn)的項的個數(shù),表示為:
[δX=X?ti,ti∈T] ? ? ? ? ? ? ? ? ? ?(4)
公式(4)中,項集[X]是事務(wù)[ti]的子集,此時應(yīng)稱事務(wù)包括項集[X]。在包含的特定項數(shù)的事務(wù)上反映它的支持度計數(shù),這里項集[X]的支持度計數(shù)為[δX]。目前的Apriori的算法使用了候選項目及的觀念,先使用候選項目獎,當(dāng)候選項目獎的支持度大于或等于最小支持度時,此候選項目集稱為頻繁項目集。而在后面,要讀入所有的交易,以得出候選單項目集的支持度,再找出頻繁單項目集,利用這些頻繁但項目集的集合,產(chǎn)生新的候選項目集。利用新的候選項目集找到新的頻繁項目集,然后利用新的頻繁項目集找到第三個候選項目集。而Apriori的算法要通過反復(fù)進(jìn)行上述操作,直到不再出現(xiàn)新的候選項目集為止。在完成關(guān)聯(lián)規(guī)則的分析后,要對專利數(shù)據(jù)的文本特征進(jìn)行處理。
1.5 文本特征處理
對于文本特征的表示是使用特征信息來代替原來的文本,而文本數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的區(qū)別在于文本數(shù)據(jù)是非機(jī)構(gòu)化的數(shù)據(jù)。當(dāng)處理時準(zhǔn)備用現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)的分析技術(shù)去分析非結(jié)構(gòu)化的文本數(shù)據(jù),面對的問題就是文本信息的結(jié)構(gòu)化問題。在信息處理的過程中,采取向量空間模型來表示,向量的空間模式是對于文本內(nèi)容特征的表示,向量空間模型的方法是用向量[w1,w2,...,wn]對文本進(jìn)行表達(dá),在向量空間模型中[wi]的第[i]個特征項權(quán)重[5]。在此向量模型中分量的取值常常被定為0或1的形式,在此特征項中的對應(yīng)分量值為1,出現(xiàn)如果未出現(xiàn)特征項則為0。但是此方法往往無法表達(dá)該特征項在文本中的重要程度,所以可以使用詞語來作為特征項,而對于絕對詞頻的計算方法如下:
[Wid=tfdmaxTFt×logNDFt+0.01] ? ?(5)
在公式(5)中[tfdmaxTFt]代表詞頻,在詞頻中[tfd]代表單詞[t]在文檔[d]里出現(xiàn)的次數(shù)。[maxTFt]代表單詞[t]在文檔[d]里出現(xiàn)的最大次數(shù),在該公式中,詞頻的值越大,表示單詞在所在文檔里的權(quán)重越高。[logNDFt+0.01]代表反文檔頻數(shù),這里的[N]表示在文檔集中的文檔數(shù),[DFt]表示單詞[t]出現(xiàn)的文檔個數(shù)。反文檔頻數(shù)表示的是單詞的全局權(quán)重,當(dāng)單詞在文檔中出現(xiàn)的次數(shù)變多,它的重要性也就降低。
2 實(shí)驗(yàn)論證分析
為了驗(yàn)證此數(shù)據(jù)處理技術(shù)的可行性,使用傳統(tǒng)的數(shù)據(jù)處理技術(shù)進(jìn)行對比實(shí)驗(yàn),選用的數(shù)據(jù)為專利數(shù)據(jù),而在IPC號上所有的現(xiàn)存的數(shù)據(jù)庫中,都是以單個字段來存儲一個專利的IPC分類號的,而每個分類號都是以“;”進(jìn)行分隔,而每個專利號一般擁有4~10個左右的分類號,這也提高了數(shù)據(jù)分析的難度。使用同一個的專利文檔,從原創(chuàng)率、普遍率、引文索引的三種處理方向進(jìn)行數(shù)據(jù)處理,并且分析本文處理方法與傳統(tǒng)的知識圖譜數(shù)據(jù)處理方法的數(shù)據(jù)處理速度。實(shí)驗(yàn)結(jié)果如下:
從圖2可得,本文使用的專利數(shù)據(jù)方法,對比傳統(tǒng)方法處理速度更快。雖然數(shù)據(jù)挖掘技術(shù)運(yùn)算量大容易出現(xiàn)處理速度慢的情況,但是專利數(shù)據(jù)較為復(fù)雜,運(yùn)用數(shù)據(jù)挖掘技術(shù)對于此類型的數(shù)據(jù)處理更加方便,所以對比傳統(tǒng)方法效率反而更高。但是本實(shí)驗(yàn)對比的僅僅是兩者的處理速度,并為對其他方面進(jìn)行對比,研究存在局限性。
3結(jié)束語
本文對于基于數(shù)據(jù)挖掘的專利數(shù)據(jù)處理技術(shù)進(jìn)行研究,首先是對于專利數(shù)據(jù)進(jìn)行聚類分析,然后確立專利指標(biāo),根據(jù)詞語與文檔的關(guān)聯(lián)性進(jìn)行數(shù)據(jù)挖掘,并且分析關(guān)聯(lián)規(guī)則,反應(yīng)文本的特征來完成數(shù)據(jù)處理,通過實(shí)驗(yàn)論證分析本文方法對比傳統(tǒng)方法的數(shù)據(jù)處理效率更高。但是本研究的實(shí)驗(yàn),僅僅針對兩種數(shù)據(jù)處理方法的處理速度進(jìn)行對比,并未對其他因素進(jìn)行對比。研究仍有不完善的地方,僅供參考。
參考文獻(xiàn):
[1] 劉媛.美國自然語言處理技術(shù)專利情報分析及啟示——基于1999-2018年專利數(shù)據(jù)[J].科技管理研究,2020,40(6):201-209.
[2] 段博睿,柯波,楊云帆,等.22省專利數(shù)據(jù)分析及影響因素研究——基于專利發(fā)明數(shù)據(jù)包數(shù)據(jù)研究[J].科技視界,2019(16):123-124.
[3] 武鵬飛,王爽.四川建筑職業(yè)技術(shù)學(xué)院專利數(shù)據(jù)分析[J].科技風(fēng),2018(29):221-223.
[4] 孔德婧,王坤.基于專利數(shù)據(jù)的技術(shù)投資預(yù)測——以快遞物流領(lǐng)域?yàn)槔齕J].技術(shù)經(jīng)濟(jì)與管理研究,2018(8):14-20.
[5] 陳海宇.“大數(shù)據(jù)”時代背景下計算機(jī)信息處理技術(shù)的探討[J].計算機(jī)產(chǎn)品與流通,2020(5):6.
【通聯(lián)編輯:張薇】