何春輝 王孟然
(1.湘潭大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院 湘潭 411105;2.長沙縣印山學(xué)校 長沙 410135)
專利引文數(shù)據(jù)有巨大的商業(yè)價(jià)值和科研價(jià)值,這些引文數(shù)據(jù)會(huì)成為揭示專利信息的有利依據(jù)[1-2]。在文獻(xiàn)計(jì)量學(xué)中,通過分析文獻(xiàn)的引文情況,可揭示科技體系的內(nèi)在關(guān)聯(lián)或結(jié)構(gòu)關(guān)系[3]。專利文獻(xiàn)是傳承和保護(hù)個(gè)人、組織和公司權(quán)益的一種重要載體[4]。近年來,隨著全球?qū)@暾?qǐng)數(shù)量的迅速增長,引文分析已經(jīng)成為了一種揭示專利知識(shí)的重要方法。專利引文分析主要有以下作用: (1)對(duì)技術(shù)進(jìn)行評(píng)估和識(shí)別;(2)通過技術(shù)會(huì)聚、技術(shù)融合以及技術(shù)多元化進(jìn)行分析,實(shí)現(xiàn)突破性技術(shù)預(yù)警和技術(shù)預(yù)測(cè);(3)對(duì)專利進(jìn)行分類和聚類;(4)對(duì)專利的排名以及影響力進(jìn)行定量計(jì)算;(5)識(shí)別出潛在的競(jìng)爭(zhēng)對(duì)手或合作伙伴;(6)揭示專利知識(shí)的演化過程與技術(shù)轉(zhuǎn)移動(dòng)向;(7)識(shí)別出技術(shù)主體及相關(guān)依賴關(guān)系。
專利引文分析在科研工作和知識(shí)經(jīng)濟(jì)中發(fā)揮著巨大的作用[5]。本文重點(diǎn)對(duì)專利引文分析應(yīng)用研究的現(xiàn)狀進(jìn)行梳理,分析專利引文分析面臨的挑戰(zhàn)和應(yīng)對(duì)策略,旨在為專利引文分析領(lǐng)域的相關(guān)研究人員提供參考。
引文分析一般是指文獻(xiàn)間存在的各種引證關(guān)系。引文分析大致可分為初始形成期[6-7]、發(fā)展繁榮期[8-9]和深化拓張期[10]三個(gè)時(shí)期。
據(jù)現(xiàn)有資料分析可知,期刊論文的引文信息,常用的測(cè)度指標(biāo)有:自引率、影響因子、引證率、即時(shí)指標(biāo)等[11]。專利引文除以上指標(biāo)外,還可利用引文耦合和同被引等測(cè)度指標(biāo)來進(jìn)行度量[12]。
Narin[13]創(chuàng)造性提出將文獻(xiàn)計(jì)量學(xué)方法應(yīng)用到專利研究領(lǐng)域,開辟了專利計(jì)量新領(lǐng)域。學(xué)者從引用動(dòng)機(jī)、引用主體、引用目的、引用功能等方面對(duì)專利引用進(jìn)行了分析[14]。
(1) 引用動(dòng)機(jī)分析。專利是受法律保護(hù),享有一定地域和時(shí)間限制獨(dú)占性權(quán)利的技術(shù)成果。專利引用是法律形態(tài)和社會(huì)形態(tài)高度調(diào)和的結(jié)果,因此,它們的引用動(dòng)機(jī)是與期刊論文的引用存在一定的差異。
(2) 引用主體分析。不像期刊文獻(xiàn)引用主體較單一,專利文獻(xiàn)的引用存在諸多主體:專利發(fā)明人、法律專家、專利申請(qǐng)人和專利審查員[15]。Li[16]分析了不同引用主體的引用動(dòng)機(jī)來加以區(qū)別引用的真實(shí)性。也有部分學(xué)者對(duì)專利審查員引文產(chǎn)生過質(zhì)疑,但張虎膽[17]通過深層分析,提出專利審查員引文不應(yīng)該被當(dāng)作引文噪音被剔除。
(3)引用目的分析。科學(xué)引文的實(shí)質(zhì)是知識(shí)的繼承和發(fā)展。而專利旨在通過獲得獨(dú)占性權(quán)利,享有壟斷帶來的競(jìng)爭(zhēng)優(yōu)勢(shì)[18]。由于存在競(jìng)爭(zhēng)性因素,專利發(fā)明者或申請(qǐng)者除了法律規(guī)定及特殊的需要外,會(huì)盡可能少地引用其他專利[19-20]。
(4)引用功能分析。對(duì)于專利發(fā)明人而言,其引用的功能主要是為說明技術(shù)的繼承性與關(guān)聯(lián)性[21]以及強(qiáng)調(diào)其他技術(shù)存在的缺陷,從而為新專利的新穎性和創(chuàng)造性方面提供依據(jù)。
審查員引用功能主要是通過引用為專利審核提供對(duì)比,確定技術(shù)的專利性[22]。
專利是技術(shù)競(jìng)爭(zhēng)的情報(bào)來源之一[23]。專利引文分析一直是專利文獻(xiàn)計(jì)量學(xué)中的重要內(nèi)容,隨著專利數(shù)量的不斷增長,專利引文分析在專利信息分析中的應(yīng)用也越來越廣泛[24]。對(duì)于科學(xué)出版物來說,來自專利的引文信息在學(xué)術(shù)研究的商業(yè)影響方面提供了有利的證據(jù)。有學(xué)者提出了基于Google 學(xué)術(shù)論文的一種半自動(dòng)化提取和過濾專利引文的方法[25]。通過對(duì)國內(nèi)外現(xiàn)有專利引文分析已取得的許多研究成果進(jìn)行分析,發(fā)現(xiàn)這些研究熱點(diǎn)大都圍繞如下三個(gè)維度來展開:(1)專利分類和聚類;(2)專利估值和新興技術(shù)以及核心專利的識(shí)別;(3)知識(shí)流動(dòng)和技術(shù)轉(zhuǎn)移。故本文將著重對(duì)這三個(gè)維度的應(yīng)用情況做概述和分析。
專利聚類常用方法主要為層次聚類、改進(jìn)的K-means、自組織映射等[26]。專利分類可大致分為尋找同族專利或相似專利以及專利識(shí)別等兩個(gè)方面。專利分類的方法包括基于IPC 分類號(hào)和行業(yè)分類以及機(jī)器學(xué)習(xí)算法分類等。專利聚類和專利分類通常還依靠專利間的耦合引用、共引、同被引的關(guān)系構(gòu)建專利間的相似度從而對(duì)專利進(jìn)行分類和聚類[27]。
2.1.1 專利引文分析應(yīng)用于專利聚類 同被引與引用耦合是兩種常用的聚類方法。李睿[28]從聚類的可操作性、結(jié)果的準(zhǔn)確性等幾個(gè)方面對(duì)該類方法進(jìn)行對(duì)比分析,發(fā)現(xiàn)后者在揭示專利的相似性方面更具優(yōu)勢(shì),前者則更適用于揭示技術(shù)的演化規(guī)律。在新興技術(shù)聚類方面,Holman[29]依據(jù)新興技術(shù)和專利文獻(xiàn)的相關(guān)特征,建立了新興技術(shù)聚類模型及相關(guān)度量指標(biāo),Patrick[30]利用該模型對(duì)專利系統(tǒng)展開了新興技術(shù)識(shí)別的實(shí)證研究。洪勇[31]綜合比較了相關(guān)方法,指出專利耦合分析能實(shí)時(shí)地體現(xiàn)出企業(yè)的技術(shù)相似性,并對(duì)專利耦合強(qiáng)度計(jì)算方法進(jìn)行了改進(jìn),能有效區(qū)分耦合強(qiáng)度的差異。érdi[32]提出了利用引用向量作為預(yù)測(cè)器來對(duì)新興的新技術(shù)或新分類進(jìn)行預(yù)測(cè),并利用可視化將聚類結(jié)果進(jìn)行了樹形圖展示。張海超[33]選取中文專利數(shù)據(jù)樣本,抽取專利權(quán)利要求書形成訓(xùn)練語料,并利用Doc2Vec 深度神經(jīng)網(wǎng)絡(luò)算法,計(jì)算權(quán)利要求書文本之間的相似度,得出與涉案專利相似性較高的專利。
2.1.2 專利引文分析應(yīng)用于專利分類 專利是競(jìng)爭(zhēng)力的主要體現(xiàn)方式之一。Leydesdorff[34]通過專利引文信息、IPC 分類號(hào)等構(gòu)建了專利相似度測(cè)量模型,并以部分美國授權(quán)專利數(shù)據(jù)為樣本進(jìn)行實(shí)證分析,發(fā)現(xiàn)該方法對(duì)專利相似度量效果較好。Criscuolo[35]利用歐洲專利局和美國專利商標(biāo)局授權(quán)的專利數(shù)據(jù)庫為數(shù)據(jù)源進(jìn)行了實(shí)證分析,找出了相關(guān)專利的同族專利。黎歡[36]提出通過對(duì)專利引文中分類號(hào)相近的專利文獻(xiàn)進(jìn)行深度挖掘,可以找出潛在的競(jìng)爭(zhēng)者與合作者。Wu[37]則提出專利可以被用來分析并識(shí)別出技術(shù)策略和潛在的競(jìng)爭(zhēng)對(duì)手。
識(shí)別 隨著全球?qū)@麛?shù)量不斷的增長,對(duì)于大多數(shù)企業(yè)而言,能準(zhǔn)確識(shí)別出領(lǐng)域中的核心專利和新興技術(shù)有重要的意義[38]。有研究表明,專利的引用與其價(jià)值之間并非線性關(guān)系,而是類似于S曲線。不少學(xué)者認(rèn)為,利用專利引文信息作為研究路徑,同樣可以識(shí)別出該領(lǐng)域的核心專利和新興技術(shù),還可以對(duì)某一個(gè)領(lǐng)域里的專利排名情況進(jìn)行定量的計(jì)算。Wu[39]指出快速尋找核心專利對(duì)于企業(yè)開展技術(shù)競(jìng)爭(zhēng)情報(bào)工作至關(guān)重要。馬永濤[40]總結(jié)了核心專利的主要特征,通過文獻(xiàn)調(diào)研,對(duì)比分析和分類統(tǒng)計(jì)等方法,歸納出目前常用的識(shí)別核心專利的方法可分為專家智慧法、指標(biāo)分析法,并指出最主要的識(shí)別指標(biāo)有專利被引頻次、同族專利數(shù)量等。Breitzman[30]依據(jù)專利引文數(shù)據(jù)提出了一種新興的模型來識(shí)別下一代熱點(diǎn)專利。此外,還首次實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)集的測(cè)試,實(shí)驗(yàn)結(jié)果表明,該模型可能是下一代新興技術(shù)識(shí)別的有用工具。袁潤[41]進(jìn)一步完善了核心專利的識(shí)別方法,構(gòu)建了核心專利識(shí)別框架圖,對(duì)新能源領(lǐng)域中的風(fēng)能產(chǎn)業(yè)核心專利和新興技術(shù)進(jìn)行了識(shí)別。Cho[42]從國家戰(zhàn)略角度出發(fā)提出有效識(shí)別核心專利和新興技術(shù)對(duì)制定相關(guān)政策有至關(guān)重要的作用。Li[43]借助引用頻次與關(guān)系網(wǎng)絡(luò)的排名信息來建立專利重要度排名算法,研究結(jié)果表明他所建立的排名算法能夠用來區(qū)分引用次數(shù)相同的專利排名。Harhoff D[44]通過對(duì)美國和德國專利進(jìn)行分析與研究,得出了專利的引用頻次可以用來評(píng)估專利價(jià)值的結(jié)論。 張欣[45]提出了改進(jìn)的PTR 算法不僅能將領(lǐng)域內(nèi)重要的核心專利識(shí)別出來,相較原始的PageRank 算法,改進(jìn)的PTR 算法具有更高的區(qū)分度??捍ú46]引入了專利的個(gè)體價(jià)值、網(wǎng)絡(luò)價(jià)值及綜合價(jià)值的概念,提出了"核心專利的綜合價(jià)值是由專利的個(gè)體價(jià)值和網(wǎng)絡(luò)價(jià)值的綜合體現(xiàn)"的研究理論。érdi[32]通過專利引文網(wǎng)絡(luò)對(duì)新興技術(shù)的聚類結(jié)構(gòu)給出了預(yù)測(cè)方法。Kyebambe[47]提出了對(duì)新興技術(shù)識(shí)別具有代表性的特征項(xiàng),He[48]在這些特征基礎(chǔ)上對(duì)專利引文數(shù)據(jù)進(jìn)行了索引和聚類預(yù)處理,并結(jié)合深度學(xué)習(xí)算法構(gòu)建了新興技術(shù)識(shí)別模型。
知識(shí)擴(kuò)散這一主題目前已成為研究熱點(diǎn)。從引文分析的角度來分析,知識(shí)擴(kuò)散是指知識(shí)的傳承[49]。知識(shí)擴(kuò)散也被稱為“知識(shí)交流”[50]或“知識(shí)流動(dòng)”[51-52]或“知識(shí)轉(zhuǎn)移”[53]或“知識(shí)溢出”[54], Roach[55]發(fā)掘出專利引證關(guān)系反映了國家或企業(yè)間知識(shí)流動(dòng)的軌跡。Huang[56]提出在一定前提條件下可把文獻(xiàn)引用抽象為知識(shí)流動(dòng)的形式,還明確指出文獻(xiàn)引用應(yīng)屬于知識(shí)生產(chǎn)、傳播和應(yīng)用的過程。Ribeiro[57]借助全球創(chuàng)新網(wǎng)絡(luò)新方法,顯示了“科學(xué)技術(shù)”跨越國界在全球范圍進(jìn)行交互的足跡。通過現(xiàn)有文獻(xiàn)分析可知,基于引文分析的知識(shí)擴(kuò)散研究主要包括:(1)知識(shí)擴(kuò)散的特征;(2)知識(shí)擴(kuò)散的測(cè)度指標(biāo);(3)知識(shí)擴(kuò)散模型的構(gòu)建[58]。此外,常用知識(shí)擴(kuò)散測(cè)度指標(biāo)見表1。
表1 常用知識(shí)擴(kuò)散測(cè)度指標(biāo)及定義
以專利為單元的知識(shí)擴(kuò)散常見的有“技術(shù)擴(kuò)散”研究。技術(shù)擴(kuò)散是一項(xiàng)技術(shù)從首次商業(yè)化應(yīng)用,經(jīng)過大力推廣、普遍采用階段,直至最后因落后而被淘汰的過程[59]。Choe[60]揭示了專利引用情況是研究技術(shù)溢出的重要途徑。楊中楷[61]使用專利引文網(wǎng)絡(luò)分析方法,得出歐美國家和中、日、韓等國家正處于知識(shí)活動(dòng)網(wǎng)絡(luò)的中心位置。Yoshikane[62]分析了基于不同分類號(hào)下專利引用的情況,也就是通常說的引用領(lǐng)域的多樣性。該方法揭示了不同領(lǐng)域發(fā)明之間的演化規(guī)律,這些模式可以合理解釋網(wǎng)絡(luò)的形成、發(fā)展、老化的規(guī)律,以及知識(shí)的累積傳播過程[63]。肖彬[64]基于專利引文網(wǎng)絡(luò)構(gòu)建了動(dòng)態(tài)技術(shù)軌道識(shí)別與評(píng)價(jià)模型,并定量分析了動(dòng)態(tài)技術(shù)軌道上各項(xiàng)關(guān)鍵技術(shù)的影響力和創(chuàng)新性。貴淑婷[65]基于專利引文網(wǎng)絡(luò)構(gòu)建了技術(shù)擴(kuò)散速度測(cè)度模型,該模型可以對(duì)技術(shù)擴(kuò)散速度進(jìn)行有效的量化測(cè)算。張?jiān)芠66]以WoS 數(shù)據(jù)庫中專利文獻(xiàn)集合為分析對(duì)象,借助于HistCite,進(jìn)行了專利引文分析研究的主題演進(jìn)探索。韓芳[67]量化研究了一些在過去僅僅被定性研究的結(jié)論。楊雨華[68]基于專利引用關(guān)系形成的引用網(wǎng)絡(luò),結(jié)合路徑發(fā)現(xiàn)方法勾勒出企業(yè)技術(shù)發(fā)展圖譜。
專利引文分析應(yīng)用研究已成為專利研究的主要方向之一,但目前專利引文分析應(yīng)用過程中仍面臨著重大挑戰(zhàn)[9]。通過整理相關(guān)研究資料,發(fā)現(xiàn)專利引文分析應(yīng)用研究,目前正面臨著以下挑戰(zhàn):(1)專利引文分析應(yīng)用研究方法還不夠豐富,這會(huì)導(dǎo)致在某些特定領(lǐng)域應(yīng)用中缺少理論方法的支撐;(2)專利引文分析應(yīng)用中缺乏完整的評(píng)測(cè)體系,這常常會(huì)出現(xiàn)在應(yīng)用中缺乏度量某一方法是否有效的評(píng)測(cè)指標(biāo);(3)中文專利引文數(shù)據(jù)庫中未涵蓋引用主體信息,這對(duì)專利引文分析應(yīng)用造成了極大的阻礙,使得許多應(yīng)用研究缺乏相關(guān)數(shù)據(jù)支撐;(4)專利引文分析應(yīng)用研究存在領(lǐng)域差異,這不利于專利引文分析應(yīng)用的進(jìn)一步推廣;(5)專利引文分析應(yīng)用研究中存在語種壁壘,許多方法都有語種依賴性,在跨語種的情況下效果較差;(6)專利引文分析應(yīng)用中存在技術(shù)主體和領(lǐng)域名稱不一致的現(xiàn)象,這會(huì)影響分析結(jié)果的準(zhǔn)確性;(7)中文專利引文方面存在很多漏引和不規(guī)范引用的情況,這會(huì)導(dǎo)致丟失引文信息或者引入引文噪聲。因此實(shí)際中應(yīng)以謹(jǐn)慎態(tài)度對(duì)待專利引文分析應(yīng)用研究結(jié)果,在充分了解其優(yōu)缺點(diǎn)的基礎(chǔ)上做出理性參考。
對(duì)于挑戰(zhàn)(1),建議專利引文分析應(yīng)用領(lǐng)域的研究人員大量開展和嘗試更多領(lǐng)域的應(yīng)用研究,從而進(jìn)一步豐富引文分析應(yīng)用研究的理論方法。對(duì)于挑戰(zhàn)(2),可以考慮建立多指標(biāo)專利引文數(shù)據(jù)庫并提出新的度量指標(biāo)來量化被引關(guān)系。對(duì)于挑戰(zhàn)(3),考慮到中文語言的特殊性,個(gè)人覺得有必要建立中文專利引文數(shù)據(jù)庫并制定相關(guān)引文規(guī)范。對(duì)于挑戰(zhàn)(4),建議建立統(tǒng)一的特征表示方法來彌補(bǔ)領(lǐng)域差異。對(duì)于挑戰(zhàn)(5),建議加快構(gòu)建全球統(tǒng)一的專利引文分析應(yīng)用研究模型和方法以應(yīng)對(duì)跨語種的障礙。對(duì)于挑戰(zhàn)(6),建議相關(guān)部門進(jìn)一步規(guī)范引用主體名稱和領(lǐng)域名稱的命名規(guī)則;此外應(yīng)積極研發(fā)高質(zhì)量的數(shù)據(jù)自動(dòng)修正軟件來提高修正效率和準(zhǔn)確率。對(duì)于挑戰(zhàn)(7),積極倡導(dǎo)國內(nèi)專利發(fā)明人或申請(qǐng)人像歐美等發(fā)達(dá)國家學(xué)習(xí),力爭(zhēng)合理、準(zhǔn)確的對(duì)相關(guān)專利進(jìn)行施引。綜上所述,個(gè)人以為專利引文分析雖然有很好的發(fā)展前景和應(yīng)用價(jià)值。但考慮到許多挑戰(zhàn)還未得到有效的解決,因此我們不應(yīng)盲目樂觀。呼吁領(lǐng)域內(nèi)相關(guān)專家學(xué)者積極克服難題,早日為專利引文分析大規(guī)模實(shí)際應(yīng)用提供切實(shí)有效的技術(shù)支持和解決方案。其他方面的應(yīng)對(duì)策略還有待進(jìn)一步發(fā)掘和深入研究探討。
綜合本文的研究,國內(nèi)外專利引文分析應(yīng)用研究現(xiàn)狀可總結(jié)如下:國外部分發(fā)達(dá)國家已實(shí)現(xiàn)了專利引文分析數(shù)據(jù)的自動(dòng)化處理,可通過計(jì)算機(jī)應(yīng)用系統(tǒng)完成專利引文分析應(yīng)用任務(wù);但國內(nèi)研究正處于快速發(fā)展階段,許多理論方法還需逐步完善。隨著大型專利引文數(shù)據(jù)庫的不斷完善,專利引文分析應(yīng)用可結(jié)合深度學(xué)習(xí)、知識(shí)圖譜、數(shù)據(jù)挖掘等技術(shù)來進(jìn)一步提高引文分析應(yīng)用系統(tǒng)的準(zhǔn)確率。此外,利用新興技術(shù)來識(shí)別和分析專利發(fā)展演化過程以及結(jié)合功能強(qiáng)大的可視化工具來展示專利引文分析應(yīng)用成果將會(huì)成為未來的研究熱點(diǎn)和演化趨勢(shì)。