王鑫,趙蘊(yùn)華,高芳
(中國科學(xué)技術(shù)信息研究所,北京 100038)
基于分類號和引文的專利相似度測量方法研究*
王鑫,趙蘊(yùn)華,高芳
(中國科學(xué)技術(shù)信息研究所,北京 100038)
面向?qū)@麛?shù)據(jù)領(lǐng)域,根據(jù)專利引文數(shù)據(jù)、IPC分類號、德溫特分類號構(gòu)建一種專利相似度的測量方法,以LTE移動(dòng)通信領(lǐng)域?qū)@麨闃颖具M(jìn)行實(shí)證分析,發(fā)現(xiàn)該方法對專利相似程度區(qū)分性較好。
專利相似度;專利分類號;專利引文;專利文本挖掘
專利作為知識(shí)產(chǎn)權(quán)的核心代表,是一個(gè)企業(yè)、行業(yè)乃至國家競爭力的集中體現(xiàn)。充分利用專利信息可以分析出企業(yè)戰(zhàn)略布局、研發(fā)進(jìn)度、技術(shù)導(dǎo)向、未來市場瞭望等眾多難以獲得的企業(yè)情報(bào)。有效運(yùn)用專利情報(bào),平均可縮短研發(fā)時(shí)間60%,節(jié)省研發(fā)費(fèi)用40%[1],助力企業(yè)知己知彼、緊跟行業(yè)步伐,引領(lǐng)市場潮流。相似專利的檢索不僅在專利布局、專利預(yù)警、專利價(jià)值衡量、新技術(shù)識(shí)別、專利規(guī)避中占據(jù)重要地位,對于新專利的申請、侵權(quán)檢測、專利訴訟等也意義重大。提高專利相似度測量的準(zhǔn)確性和有效性對于專利分析意義深刻。
專利具有標(biāo)題、摘要等文本信息及分類號、引用關(guān)系等結(jié)構(gòu)信息,還包括權(quán)利要求項(xiàng)、申請日、優(yōu)先權(quán)等獨(dú)特字段。由專利審查員授予一個(gè)或多個(gè)分類號,對內(nèi)容范疇的界定統(tǒng)籌也更加準(zhǔn)確。專利引文除專利申請人引用外也還包括審查員引用。由此便產(chǎn)生了兩種相似度測量方法,基于文本的專利相似度測量和基于引用的專利相似度測量。二者分別從語法和技術(shù)演化關(guān)系的角度反映專利間的相似度。
1.1 基于文本的專利相似度測量
隨著文本挖掘技術(shù)的不斷發(fā)展,基于專利標(biāo)題、摘要、權(quán)利要求項(xiàng)的文本相似度測量迅速成為專利相似度研究的重點(diǎn)領(lǐng)域,Magerman等測試了這種方法的可能性和準(zhǔn)確性[2]。專利文本相似度測量多采用基于共詞的向量空間模型,依據(jù)詞語匹配程度構(gòu)建相似矩陣,這種方法對語詞切分詞典有較大的依賴性,語詞的識(shí)別與切分度直接制約著相似度測量的準(zhǔn)確度[3]。語詞本身的多義性、歧義性等都嚴(yán)重制約著該方法的應(yīng)用。王晉引入領(lǐng)域本體的詞間關(guān)系來計(jì)算詞匯語義相似度[1]。Bergmann等提取出文檔的主謂賓結(jié)構(gòu),通過文檔的結(jié)構(gòu)相似性來測量專利相似度[4]。Huang等在分析專利文檔結(jié)構(gòu)的基礎(chǔ)上提出了結(jié)合專利結(jié)構(gòu)和內(nèi)容的相似度計(jì)算方法[5]。胡俠等度量了專利摘要文本和IPC分類號的相似性并據(jù)此進(jìn)行了專利聚類[6]。劉志輝等分別運(yùn)用關(guān)鍵詞與分類號描述專利主體內(nèi)容,實(shí)證發(fā)現(xiàn)分類號方法所揭示的內(nèi)容粒度要更細(xì)[7]。
1.2 基于引用的專利相似度測量
創(chuàng)新大多不是獨(dú)立事件,某項(xiàng)創(chuàng)新所含的技術(shù)常常能引發(fā)或促成一系列相關(guān)的創(chuàng)新集合。創(chuàng)新的這種聚集性反映在專利上即為專利引用,它在一定程度上能夠體現(xiàn)創(chuàng)新的集群、技術(shù)的承接。相似專利間所描述的相似技術(shù)常基于共同的基礎(chǔ)技術(shù)演化而來,專利審查員在新穎性判別時(shí)會(huì)對照相似專利并標(biāo)注為引用,故引文能在一定程度上刻畫專利間的相似性,而且這種刻畫粒度比較細(xì),能夠精確到具體的每一篇專利。專利引用從語義層面反映出技術(shù)間的演進(jìn)和借鑒關(guān)系,由此產(chǎn)生了基于引用從技術(shù)演化的語義層面測量專利相似度的方法。雖然在引用動(dòng)機(jī)上專利與論文有較大差異[8],但文獻(xiàn)引用的一般特征在專利中也不例外,專利引文中蘊(yùn)含的知識(shí)活動(dòng)能部分反映專利間相似度[9]。Lai等依據(jù)專利間的引用關(guān)系來測量專利相似度并據(jù)此構(gòu)建了專利分類系統(tǒng)[10]。McGill采用企業(yè)間的專利互引來測量專利相似度[11]。李睿等對比了同被引與引用耦合兩種方法,發(fā)現(xiàn)引用耦合在專利間相似度測量上更勝一籌[12]。
1.3 基于分類號的專利相似度分析
綜上,文本相似度測量主要從語法層面基于共詞假設(shè)的語詞匹配進(jìn)行專利相似度刻畫;引用層面上主要從引文反應(yīng)的技術(shù)演化關(guān)系以及審查員檢測角度反應(yīng)專利相似度。這兩種專利相似度測量方法各有其優(yōu)勢與特點(diǎn)。除此之外,專利分類號所體現(xiàn)的專利間的類屬關(guān)系也能從一定程度上對相似專利進(jìn)行刻畫,這種刻畫角度是上述兩種方法所無法描述的?;谙嗤幕A(chǔ)技術(shù)可以演化出不同甚至差異較大的技術(shù),對此引用無法有效描述。相似的技術(shù)采用不同的實(shí)現(xiàn)方式,在措辭上可能會(huì)有很大差異,對此基于語詞匹配的文本相似度測量方法也無法進(jìn)行有效刻畫。而這正是專利分類號的用武之處,歸屬于同一類別的專利,無論其是否基于相同的技術(shù)引用,是否采用接近的措辭描述,分類號都可對其相似度進(jìn)行有效反映。同時(shí)專利分類號,類別多樣,都由權(quán)威組織定期更新維護(hù),在體系結(jié)構(gòu)上也較為細(xì)致全面。IPC國際專利分類號側(cè)重功能分類,德溫特手工代碼側(cè)重應(yīng)用分類[13],不同分類體系從不同的角度對專利相似度進(jìn)行描述。文章將探索結(jié)合分類號和專利引用的相似度測量方法。
專利包含名稱、摘要、分類號、優(yōu)先權(quán)、引文等眾多信息,綜合利用各種專利信息,尤其是分類號、引文在語義甚至語用空間的相似度分布描述對于提高專利相似度測量具有重要意義。本文結(jié)合分類號的功能應(yīng)用描述和引文的技術(shù)繼承演化描述,提出了一種基于引用和多種分類號(IPC專利分類號、德溫特手工分類號(以下簡稱手工分類號)、德溫特分類代碼(以下簡稱分類代碼))的相似度測量方法。
對于n件專利集合P,對專利Pi提取其專利號m及引文c、IPC專利分類號f、手工分類號a、分類代碼b等五維特征值構(gòu)成特征向量,即:
生成集合p對應(yīng)的5維專利特征矩陣。
對于引文c、IPC分類號f、手工代碼a、分類號b這四維數(shù)據(jù)分別用向量空間模型(VSM)表示。
本文以德溫特創(chuàng)新索引(DII, Derwent Innovation Index)為數(shù)據(jù)源,選取4G移動(dòng)通信標(biāo)準(zhǔn)領(lǐng)域的PCT授權(quán)專利為樣本對象進(jìn)行實(shí)證研究。根據(jù)4G移動(dòng)通信標(biāo)準(zhǔn)確定關(guān)鍵詞通過PCT限定于2014年7月采集到6900件專利,扣除部分無引文專利得到4936條樣本數(shù)據(jù)。這些數(shù)據(jù)中共涉及22469篇去重被引用專利,1114個(gè)不同的IPC分類號,1072個(gè)不同的手工分類號,78個(gè)不同的分類代碼。平均每篇專利包含6篇專利引文,5個(gè)IPC分類號,6個(gè)手工分類號,2個(gè)分類代碼。
3.1 實(shí)證分析
基于前述方法分別計(jì)算引文與分類號等四維度的分量相似度。對于IPC分類號,手工分類號,分類代碼這三種分類號維度基于數(shù)據(jù)量的考慮剔除部分共有項(xiàng)數(shù)少的專利數(shù)據(jù)對,分別得到129648條分類號值大于2的專利,364437條分類號值大于3的專利,1496條分類號值大于3的專利。對于引用,IPC分類號,手工分類號,分類代碼的相似權(quán)重分別賦予為0.2,0.3,0.3,0.2,權(quán)重取值源于多次嘗試后的相對較優(yōu)結(jié)果,此處引用權(quán)重取值較小主要原因是專利間的引用矩陣比較稀疏。
匯總得到486799條專利數(shù)據(jù)對的各維度相似度及加權(quán)綜合相似度。所有樣本專利的平均相似度為0.307。
最相似的是專利WO2014003506-A1和專利WO2014003508-A1,相似度0.89,均為LG旗下關(guān)于測量并傳遞信道信息方法的專利,二者擁有相同的發(fā)明人、IPC分類號、德溫特手工分類號、德溫特分類代碼以及兩篇共同的引用文獻(xiàn),通過閱讀專利摘要及全文證實(shí)二者相似度的確很高。相似度最低的是專利US2009086704-A1和US2008132230-A1,相似度0.097,US2009086704-A1是關(guān)于無線鏈路控制協(xié)議的專利,US2008132230-A1是用于無線網(wǎng)絡(luò)控制器不連續(xù)傳輸和接收的控制方法的專利,二者在內(nèi)容上相似性不強(qiáng)。相似度分布參見表1,其中相似度r分布區(qū)間包含最小值不含最大值。前10對最相似的專利對參見表2,圖中數(shù)值k/(i,j)中,k標(biāo)示二者共有的數(shù)目,i、j分別表示兩件專利各自的數(shù)目。
表1 基于引用和分類號的相似度分布
3.2 該方法與基于共詞的相似度測量的對比分析
為驗(yàn)證試驗(yàn)結(jié)果的有效性,對比該方法與一般專利文本相似計(jì)算方法,選取相似度最高的前20對專利和相似度最低的前20對專利,選取這40對專利為樣本,以標(biāo)題,摘要字段進(jìn)行基于共詞的專利相似度測量分析。樣本中共有836個(gè)單詞。經(jīng)過去停用詞、部分高頻無實(shí)意詞、詞干化后得到715個(gè)原形單詞,統(tǒng)計(jì)各篇專利的語詞及其詞頻分布,每對專利的共有詞匯及其頻率,并據(jù)此計(jì)算出每對專利的累積共有詞頻(累積共有詞頻=∑每個(gè)共有詞匯的頻率)。為消除不同專利間文本(尤其是摘要)長度引起的詞頻差異,文章中用專利對的累積共詞頻率與平均文本(標(biāo)題及摘要)長度的相對比例表示專利相似度(相似度=累積共有詞頻/標(biāo)題和摘要的平均長度)。基于文本的相似度并不是本文的重點(diǎn)內(nèi)容故采用了簡化的計(jì)算方式,得出大致結(jié)果趨勢以便和文章中相似度結(jié)果進(jìn)行對比。結(jié)果參見表3。
表2 基于引用和分類號的相似度TOP10
表3 基于兩種方法測度的專利相似度
介于原始累積共有詞頻與平均文本長度比值過小,區(qū)分度不明顯,為便于比較專利間的相對強(qiáng)弱此處將累積共有詞頻整體放大7倍,未出現(xiàn)超出平均文本長度者,比率范圍仍為[0,1],放大倍數(shù)7來源于多次嘗試以保障對比效果更佳。此處計(jì)算共詞的相似度只是為了驗(yàn)證其結(jié)果與基于分類號和引用的相似度測量結(jié)果的一致性,只做兩種方式下的一致性趨勢比較,不做橫向絕對值大小比較,故結(jié)果整體放大不會(huì)影響影響內(nèi)部趨勢。對比結(jié)果參見圖1。
圖1中橫坐標(biāo)專利對1-20對應(yīng)表3中從上到下的專利對,“前20”對應(yīng)表3中相似專利對前20,“后20”對應(yīng)表3中相似專利對后20?!扒?0”、“后20’分別對應(yīng)表3中的相似專利對前20和相似專利對后20?!胺诸愄?引用”表示基于分類號和引用的相似度測量方法下的相似度(以下簡稱分類號-引用相似度),“原始共詞”表示基于共詞的相似度測量方法下的相似度(以下簡稱共詞相似度),“7倍共詞”表示放大7倍后的“原始共詞”相似度(以下簡稱7倍共詞相似度)。圖中紅色虛線表示相似度為0.5的水平線。
圖1 兩種測量方法下專利對相似度趨勢對比圖
如圖所示,基于分類號和引用的專利相似度測量方法下,前20專利相似度明顯高于后20專利相似度,前20專利對可判定為相似,后20專利對可判定為不相似,參見圖中分類號-引用前20曲線和分類號-引用后20曲線?;谖谋镜南嗨贫葴y量方法下,圖中原始共詞前20曲線也整體高于原始共詞后20曲線,即前20專利相似度高于后20專利相似度,前20專利對可判定為相似,后20專利對可判定為不相似。兩種方法大致趨勢一致,共詞相似度測量方法對相似專利集合與不相似專利集合的區(qū)分度較低,分類號-引用相似度測量方法區(qū)分度較高。對于前20、后20專利集合內(nèi)部共詞相似度測量方法區(qū)分度相對較好,但由于結(jié)果太小不明顯,故采用7倍共詞相似度進(jìn)行內(nèi)部分析。
對于7倍共詞相似度,見圖中7倍共詞前20曲線和7倍共詞后20曲線。其中若以0.5為是否相似的判定閾值,則對于“分類號-引用”中判定為相似的前20專利對,結(jié)果大致上也判定為相似,對于分類號-引用中判定為不相似的后20專利對,結(jié)果大致上也判定為不相似。后20專利對的相似度整體低于前20專利對的相似度,整體趨勢大致相同。根據(jù)7倍共詞曲線可見對于相鄰或相近的節(jié)點(diǎn)區(qū)分度較大,對曲線兩端節(jié)點(diǎn)以及前20節(jié)點(diǎn)、后20節(jié)點(diǎn)差異不大,即對于序號接近的專利區(qū)分度較大,對于序號相距較遠(yuǎn)的專利區(qū)分度不足。共詞相似度測量對于特別相似和特別不相似的專利區(qū)分度不足對于相似度一般的專利區(qū)分度較好。
綜上基于分類號引用的相似度測量方法對特別相似和特別不相似的專利對之間的區(qū)分度較大,對相似度一般的專利間區(qū)分度不大,即圖中‘分類-引用’曲線兩端的區(qū)分度大,中間的區(qū)分度低。說明:文章中的特別相似專利和特別不相似專利同屬于同一個(gè)大技術(shù)領(lǐng)域下專利,并非跨領(lǐng)域的專利,跨技術(shù)領(lǐng)域的專利間通常可比性較小。而基于共詞的專利相似度測量方法則與之互補(bǔ),對于相似度一般的區(qū)分度較大,對相似度的極值區(qū)分度較小。這也符合一般規(guī)律,即特別相似與特別不相似的專利在專利分類號和引用上會(huì)表現(xiàn)明顯,但由于共屬于一個(gè)大領(lǐng)域在專利措辭上同樣會(huì)存在較多的共有詞匯。對于相似度一般的專利之間常共同歸屬于一個(gè)具體的細(xì)分領(lǐng)域有著相近的引文,故分類號和引文的區(qū)分度不強(qiáng),共詞卻能更好的體現(xiàn)二者之間的差異。
3.3 異常值判定
對表3,圖1中極端異常值,前20對、后20對專利集合中分類號-引用相似度和7倍共詞相似度相差最遠(yuǎn)的專利對。前20集合中專利對12:WO2014003508-A1; WO2011020269-A1(7倍共詞相似度0.231,分類號-引用相似度0.75,共詞測量判定為不相似,分類號-引用測量判定為相似)。后20集合中專利對10:WO2008100488-A1;US2008132230-A1(7倍共詞相似度0.6398,分類號-引用相似度0.1107,共詞測量判定為相似,分類號-引用測量判定為不相似)。對這四篇專利進(jìn)行標(biāo)題及摘要的人工閱讀判定。WO2014003508-A1描述了在LTE-A等無線通信系統(tǒng)中通過CSI-RS(信道狀態(tài)信息測量導(dǎo)頻)和RRM(無線資源監(jiān)測)來測量信道狀態(tài)及參數(shù)信息的方法。WO2011020269-A1描述了一種LTE系統(tǒng)訪問方法,該方法可根據(jù)用戶終端帶寬來對上傳/下載鏈路的聚合載波進(jìn)行分組,并生成聚合載波的物理隨機(jī)訪問信道參數(shù)。WO2008100488-A1描述了一種通過演進(jìn)型節(jié)點(diǎn)B(eNB,evolved Node-B)組建重定位命令、隧道、切換命令的無線通信網(wǎng)絡(luò)間切換方法。US2008132230-A1描述了一種不連續(xù)發(fā)送/接受控制方法,該方法用Node-B表現(xiàn)偏移量并通過高速共享控制通道(HS-SCCH)傳輸。相比之下,前20專利對12更為相似,后20專利對10:WO2008100488-A1; US2008132230-A1較為不相似,實(shí)際結(jié)果更偏向分類號-引用相似度測量結(jié)論。但實(shí)際相似度又不如分類號-引用相似度那么極端,更加符合兩種方法的中間態(tài),用二者的加權(quán)平均值或許更能反映實(shí)際相似度。其他專利對的隨機(jī)抽查閱讀也基本符合兩種方法的差異規(guī)律。
基于分類號和引用的相似度測量從外部從屬類別、技術(shù)演化關(guān)系的角度反映專利相似度。基于共詞的相似度測量方法從專利內(nèi)容的字面匹配角度刻畫專利相似度。二者各有所長,互為補(bǔ)充。結(jié)合分類號和引用的測量方法對相似度較高和較低的專利區(qū)分度更好,共詞下的相似度測量更擅長于區(qū)分相似度一般的專利,二者的結(jié)合度量方法效果更佳。對這兩種測量方法可進(jìn)行有效的加權(quán)合并以便更加綜合全面的測量專利相似度。文章通過專利對之間的相對共有比例反映引文和專利號各維度下的專利相似度,也可通過向量空間模型SVM中的向量夾角余弦反映各維度下的專利相似度,此處采用相對共有比例主要在于緩解向量特征值數(shù)量大且分散帶來的龐大計(jì)算量負(fù)荷。在效用上基于特征值共現(xiàn)計(jì)算具體維度的專利間相似度,語法層面的共現(xiàn)頻次才是相似度的重要體現(xiàn),因而可以適當(dāng)舍棄以簡化運(yùn)算提高效率。文章中為減輕計(jì)算負(fù)荷簡化了相關(guān)運(yùn)算,雖然結(jié)果的精度不高,但也大致反映出了兩種方法的優(yōu)劣。可通過特征向量的余弦計(jì)算相似度,各項(xiàng)指標(biāo)權(quán)值的進(jìn)一步探究等使得結(jié)果更加精準(zhǔn),對兩種方法的有效合并也還需進(jìn)一步探究。
[1] 王晉.基于領(lǐng)域本體的專利地圖研究[D].蘇州:蘇州大學(xué),2011.
[2] Magerman T,Van Looy B,Song X. Exploring the Feasibility and accuracy of Latent Semantic Analysis Based Text Mining Techniques to Detect Similarity Between Patent Documents and Scientific Publications[J].Scientometries,2010(2):289-306.
[3] 尹遠(yuǎn)明.專利技術(shù)相似度評價(jià)以及系統(tǒng)應(yīng)用研究[D].上海:華東理工大學(xué),2010.
[4] Bergmann I, Butzke D, Walter L, et al. Evaluating the Risk of Patent Infringement by Means of Semantic Patent Analysis: the Case of DNA Chips[J].R&D Management,2008 (5):550-562.
[5] HuangSH,KeHR,YangWP.Structure Clustering for Chinese Patent Documents [J]. Expert Systems with Appiications,2008(4):2290-2297.
[6] 胡俠,林曄,汪亮,盛夏,王燦.基于樹距離規(guī)范化的專利聚類方法[J].情報(bào)學(xué)報(bào), 2012(11):1187-1193.
[7] 劉志輝,趙筱嬡.基于專利形態(tài)相似性的競爭態(tài)勢分析方法研究[J].情報(bào)理論與實(shí)踐, 2012(6):67-69.
[8] 謝黎,鄧勇,張?zhí)K閩.論文引用與專利引用比較研究[J].情報(bào)雜志, 2012(4):18-21.
[9] 楊中楷,梁永霞,劉倩楠.專利引用過程中的知識(shí)活動(dòng)探析[J].科研管理, 2010(3): 171-176.
[10] Lai K K,Wu S J. Using the patent Co-citation approach to establish A New Patent Classification System [J].Information Processing and Management, 2005(2):313-330.
[11] McGill J P.Technological Knowledge and Governance in Alliances among Competitors [J].International Journal of Technology Manage ment,2007(2):69-89.
[12] 李睿,張玲玲,郭世月.專利同被引聚類與專利引用耦合聚類的對比分析[J].圖書情報(bào)工作,2012(8):91-95.
[13] 顧震宇.德溫特手工代碼與IPC國際專利分類號的分類比較:以燃料電池為例[EB/OL][2015-01-03]. www.istis.sh.cn/list/list. aspx?id=5229.
王鑫,男,1990年生,碩士生,研究方向:專利與政策分析。
趙蘊(yùn)華,女,1967年生,副研究館員,研究方向:科技政策、科技領(lǐng)域分析。
高芳,女,1980年生,博士,講師,研究方向:重點(diǎn)科技領(lǐng)域信息分析。
編輯:劉偉
A Method for Assessing Patent Similarity Based on International Patent Classification and Patent Citation
WANG Xin, ZHAO YunHua, GAO Fang
(Institute of Scientific and Technical Information of China, Beijing 100038, China)
Oriented to patent data field, we build a patent similarity measurement method according to the patent citation,International patent classification, Derwent classification number. Patents of LTE mobile communication field were taken as an example for empirical analysis. Experimental comparison with previous work indicates that the proposed method is fit for patent data field.
Patent similarity; International patent classification; Patent citation; Patent mining
G305
10.3772/j.issn.1673—2286.2015.01.011
2015-01-06)
* 本研究得到中國科學(xué)技術(shù)信息研究所預(yù)研基金項(xiàng)目 “中國TD-LTE產(chǎn)業(yè)發(fā)展中的標(biāo)準(zhǔn)擴(kuò)散與政策研究”(編號:YY-201404)資助。