摘要:針對(duì)目前專利權(quán)維持期在專利價(jià)值預(yù)測方面存在的滯后性和預(yù)測特征忽略專利主體信息的問題,提出基于專利主體特征的專利權(quán)維持期預(yù)測方法。使用專利數(shù)據(jù)集,構(gòu)建包括專利發(fā)明人、專利權(quán)人、專利代理的專利主體特征,并利用基于相關(guān)性的集成學(xué)習(xí)模型預(yù)測專利權(quán)維持期,使用SHAP模型對(duì)獲得的預(yù)測模型加以解釋,以增強(qiáng)理解。通過風(fēng)能轉(zhuǎn)化領(lǐng)域?qū)@麛?shù)據(jù)的實(shí)證研究驗(yàn)證所提方法的可行性與有效性,模型的評(píng)估指標(biāo)平均絕對(duì)誤差、均方誤差、決定系數(shù)分別達(dá)到0.469 2、0.933 1、0.936 8。相較于已有方法取得更為理想的預(yù)測結(jié)果,表明專利主體特征能夠有效地預(yù)測專利權(quán)維持期,提高預(yù)測準(zhǔn)確性。
關(guān)鍵詞:專利權(quán)維持期;預(yù)測;專利主體特征;集成學(xué)習(xí);可解釋性
中圖分類號(hào):G250 DOI:10.3772/j.issn.1673-2286.2024.10.006
引文格式:俞琰,馬昕遠(yuǎn),劉攀. 基于專利主體特征的專利權(quán)維持期預(yù)測研究[J]. 數(shù)字圖書館論壇,2024,20(10):53-62.
*本研究得到國家社會(huì)科學(xué)基金一般項(xiàng)目“數(shù)據(jù)驅(qū)動(dòng)的高校技術(shù)轉(zhuǎn)移供需信息挖掘模式構(gòu)建研究”(編號(hào):23BTQ098)資助。
專利權(quán)維持期是指專利申請(qǐng)或授權(quán)之后,專利權(quán)人在專利法規(guī)保護(hù)期限內(nèi),依法向?qū)@姓芾聿块T繳納規(guī)定維持費(fèi)用,維持專利權(quán)有效的時(shí)期,如果未能繳納費(fèi)用,專利權(quán)將進(jìn)入終止?fàn)顟B(tài)。通常,專利權(quán)人會(huì)通過專利所保護(hù)技術(shù)的經(jīng)濟(jì)價(jià)值、市場價(jià)值以及自身收益等情況判斷是否繼續(xù)繳納專利權(quán)維持費(fèi)用。這表明專利權(quán)人愿意承擔(dān)的專利維持成本往往與專利本身價(jià)值成正比。因此,專利權(quán)維持期被視為衡量專利價(jià)值的重要指標(biāo)[1-4]。然而,雖然專利權(quán)維持期能夠較好地反映專利價(jià)值,但專利權(quán)維持期存在嚴(yán)重的滯后性,即維持時(shí)間需要等到專利權(quán)終止或?qū)@麢?quán)期限屆滿時(shí)才能確定,而此時(shí)的專利價(jià)值評(píng)價(jià)已是一個(gè)總結(jié)性評(píng)價(jià)。在實(shí)際的專利情報(bào)分析工作中,更需要對(duì)專利價(jià)值作出前瞻性的評(píng)價(jià)。因此,在專利授權(quán)后對(duì)專利權(quán)維持期進(jìn)行較為準(zhǔn)確的預(yù)測,對(duì)專利價(jià)值評(píng)估、專利質(zhì)押融資、專利交易、專利成果轉(zhuǎn)化許可、商業(yè)合作、知識(shí)產(chǎn)權(quán)政策優(yōu)化等工作均具有十分重要的意義。
1 相關(guān)研究
由于專利權(quán)維持動(dòng)機(jī)的不同,各專利的專利權(quán)維持期存在較大差異。專利權(quán)人支付維持費(fèi)的動(dòng)機(jī)分為市場化動(dòng)機(jī)和非市場化動(dòng)機(jī)[5]兩類。市場化動(dòng)機(jī)是指以專利實(shí)施為目的進(jìn)行專利申請(qǐng),通過產(chǎn)品銷售獲取利潤[6-7],阻擋競爭對(duì)手的研發(fā)或創(chuàng)新等[8-12]。非市場化動(dòng)機(jī)則不以實(shí)施專利為目的,而是為了滿足非市場化價(jià)值需求,例如達(dá)到政府或單位的專利數(shù)量考核指標(biāo)、獲得獎(jiǎng)勵(lì)和資助等,通常專利權(quán)維持期較短[13-16]。由此可見,通過專利權(quán)維持期預(yù)測評(píng)估專利價(jià)值具有重要意義。
已有研究表明,專利引用、專利權(quán)審核時(shí)間、專利權(quán)利要求、專利家族等專利信息是預(yù)測專利權(quán)維持期的重要特征[17-26]。目前研究通常采用專利文獻(xiàn)計(jì)量指標(biāo)作為特征變量,使用線性或非線性模型預(yù)測專利權(quán)維持期。例如:Donato等[27]提出了一種考慮權(quán)重的專利引文網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量方式,并以授權(quán)的發(fā)明專利數(shù)據(jù)計(jì)算了專利引文網(wǎng)絡(luò)的節(jié)點(diǎn)中心性,根據(jù)計(jì)算出的節(jié)點(diǎn)中心性,采用線性回歸模型構(gòu)建預(yù)測模型;Wang等[28]構(gòu)建專利引文網(wǎng)絡(luò),利用中介中心性和節(jié)點(diǎn)嵌入性作為特征,通過線性回歸模型預(yù)測專利權(quán)維持期;Yoo等[29]以專利的時(shí)序引用頻次為特征變量,采用Pareto/ NBD模型構(gòu)建了專利權(quán)維持期估計(jì)模型;Choi等[30]從專利技術(shù)范圍、優(yōu)先權(quán)范圍等維度選取特征變量,構(gòu)建基于前饋神經(jīng)網(wǎng)絡(luò)的專利權(quán)維持期多級(jí)分類模型;Kabore等[31]將專利的專利家族按照國別和規(guī)模分組統(tǒng)計(jì)并計(jì)算權(quán)重,運(yùn)用線性回歸模型對(duì)專利權(quán)維持期進(jìn)行預(yù)測。
綜上所述,專利權(quán)維持期預(yù)測相關(guān)研究還較少,主要使用專利審核時(shí)間、權(quán)利要求、引用等預(yù)測特征,使用某一特定機(jī)器學(xué)習(xí)模型預(yù)測專利權(quán)維持期。然而,這些研究還存在如下問題,值得繼續(xù)優(yōu)化。首先,預(yù)測特征存在滯后性?,F(xiàn)有研究使用的特征,如專利的前向引文數(shù),存在滯后性。由于引文數(shù)據(jù)隨時(shí)間不斷變化且本身具有滯后性,這些特征僅能反映多年前專利的情況,無法充分反映當(dāng)前專利價(jià)值,也難以早期反映潛在的高價(jià)值專利。其次,預(yù)測特征忽略專利主體歷史信息?,F(xiàn)有研究強(qiáng)調(diào)使用特定專利自身信息,如專利申請(qǐng)時(shí)程、技術(shù)覆蓋范圍、權(quán)利要求數(shù)等特征信息,忽略了專利主體產(chǎn)生的歷史信息的利用。實(shí)際上,在社會(huì)科學(xué)和行為科學(xué)中,主體的過去行為常被用來預(yù)測其未來的行動(dòng)。最后,預(yù)測模型魯棒性較差。目前的預(yù)測模型常為單一的線性或非線性模型,無法較好地捕獲數(shù)據(jù)的所有特征和模式,對(duì)數(shù)據(jù)中的噪聲較為敏感,導(dǎo)致預(yù)測結(jié)果不穩(wěn)定,難以達(dá)到最優(yōu)的預(yù)測結(jié)果。
針對(duì)現(xiàn)有研究存在的以上問題,本文首先嘗試不考慮專利前向引用信息,而是從專利主體視角,挖掘?qū)@黧w的歷史信息,形成專利主體特征作為主要預(yù)測特征,更有效地預(yù)測專利權(quán)維持期,以解決目前相關(guān)研究中預(yù)測特征滯后性和忽略專利主體歷史信息的問題。隨后提出預(yù)測集成模型,通過組合多個(gè)不同機(jī)器學(xué)習(xí)模型,構(gòu)建更強(qiáng)大的預(yù)測模型,并使用SHAP(Shapley Additive Explanation)模型對(duì)預(yù)測結(jié)果進(jìn)行解釋,以加深理解,從而解決現(xiàn)有相關(guān)研究預(yù)測模型魯棒性較差的問題。
2 預(yù)測流程與方法
基于專利主體特征的專利權(quán)維持期預(yù)測流程(見圖1)包括專利權(quán)維持期含義界定、包含專利主體特征的預(yù)測特征構(gòu)建、預(yù)測特征選擇、集成預(yù)測模型構(gòu)建、預(yù)測模型解釋5個(gè)主要步驟。
2.1 專利權(quán)維持期含義界定
專利權(quán)維持期是專利權(quán)人在專利法規(guī)保護(hù)期限內(nèi),通過向?qū)@姓芾聿块T繳納維持費(fèi)用,保持專利權(quán)有效的時(shí)期。專利權(quán)維持期可從專利申請(qǐng)日起計(jì)算,也可從專利授權(quán)日開始計(jì)算。目前的研究常從專利申請(qǐng)日開始計(jì)算專利權(quán)維持期,這個(gè)時(shí)間也通常被稱為專利壽命。由于專利審查階段有各種不可控因素,審查時(shí)間的長短與專利價(jià)值高低不存在必然聯(lián)系,從專利申請(qǐng)日起計(jì)算專利權(quán)維持期,以評(píng)估專利價(jià)值具有不合理性。例如,一個(gè)在申請(qǐng)3年后獲得2年授權(quán)的專利和一個(gè)在申請(qǐng)1年后獲得4年授權(quán)的專利,專利壽命相同。如果從專利申請(qǐng)日計(jì)算專利權(quán)維持期的話,兩者的專利權(quán)維持期相同,但前者的專利價(jià)值顯然不如后者。因此,從專利授權(quán)日起計(jì)算專利權(quán)維持期,以評(píng)估專利價(jià)值更具合理性,本文將專利權(quán)維持期界定為專利授權(quán)到專利失效的時(shí)間階段。
2.2 包含專利主體特征的預(yù)測特征構(gòu)建
個(gè)體或組織行為模式具有穩(wěn)定性和持續(xù)性。通過觀測個(gè)體或組織在過去相似情境下的行為,可以預(yù)測其將來的行動(dòng)。專利申請(qǐng)包括復(fù)雜嚴(yán)謹(jǐn)?shù)牧鞒?,這一系列流程包括發(fā)明人、專利權(quán)人、專利代理等專利主體,這些專利主體一同決定了專利的價(jià)值[32],影響專利權(quán)維持期。
2.2.1 發(fā)明人特征
發(fā)明人與專利價(jià)值密切相關(guān)[33],是影響專利質(zhì)量的關(guān)鍵因素。高水平發(fā)明人通常對(duì)特定領(lǐng)域有著深入的理解和豐富的實(shí)踐經(jīng)驗(yàn),這有助于他們開發(fā)出具有原創(chuàng)性、技術(shù)深度和潛在商業(yè)價(jià)值的高價(jià)值專利。相反,秉持非市場化動(dòng)機(jī)(如評(píng)職稱、獲取稅收減免或經(jīng)費(fèi)資助)的發(fā)明人很難形成高價(jià)值專利[32]。
發(fā)明人的水平具有一定的穩(wěn)定性,與其相關(guān)的專利價(jià)值也具有一定的穩(wěn)定性。特定發(fā)明人歷史專利的平均專利權(quán)維持期可以表明該發(fā)明人發(fā)明水平的高低。因此,使用發(fā)明人歷史平均專利權(quán)維持期作為發(fā)明人特征,以預(yù)測該發(fā)明人新專利可能的專利權(quán)維持期。一條專利記錄可能會(huì)涉及多個(gè)發(fā)明人,而第一發(fā)明人往往在專利發(fā)明中起著最為關(guān)鍵的作用[32],因此選取第一發(fā)明人,計(jì)算其歷史平均專利權(quán)維持期,計(jì)算公式如式(1)所示。
2.2.2 專利權(quán)人特征
專利權(quán)人與專利價(jià)值有密切關(guān)聯(lián)。研發(fā)能力強(qiáng)的機(jī)構(gòu)通常擁有更多高價(jià)值專利[34]。研究表明,我國電力行業(yè)兩家企業(yè)獲中國專利獎(jiǎng)專利總量占比接近80%[35]。其原因在于技術(shù)創(chuàng)新能力強(qiáng)的機(jī)構(gòu)擁有更多高水平技術(shù)人員,能開發(fā)出具有原創(chuàng)性、技術(shù)深度或潛在商業(yè)價(jià)值高的專利;擁有更專業(yè)的團(tuán)隊(duì)或合作伙伴,確保專利申請(qǐng)的質(zhì)量和策略性;擁有更完善的專利管理體系,更注重專利維護(hù)、運(yùn)營和商業(yè)化,能提升專利整體質(zhì)量和效益;擁有更多研發(fā)資源,不僅增加了專利產(chǎn)出數(shù)量,也提高了專利價(jià)值;更可能受益于國家或地方知識(shí)產(chǎn)權(quán)保護(hù)政策,促進(jìn)高價(jià)值專利的創(chuàng)造和運(yùn)作;具有更多緊密合作關(guān)系,能開發(fā)出更符合市場需求的專利技術(shù)[36]。
特定專利權(quán)人歷史專利的專利權(quán)維持期可以表明該專利權(quán)人的研發(fā)水平和專利價(jià)值水平,幫助預(yù)測專利權(quán)人新專利可能的專利權(quán)維持期。因此,使用專利權(quán)人擁有專利的歷史平均專利權(quán)維持期作為專利權(quán)人特征,以預(yù)測該專利權(quán)人新專利可能的專利權(quán)維持期。專利權(quán)人歷史平均專利權(quán)維持期計(jì)算公式如式(2)所示。
2.2.3 專利代理特征
優(yōu)質(zhì)的專利代理人憑借其業(yè)務(wù)能力、實(shí)務(wù)經(jīng)驗(yàn)等,可以在專利申請(qǐng)、專利審查、專利維護(hù)、專利運(yùn)用等階段提供服務(wù),從而全面提升專利的技術(shù)價(jià)值和法律價(jià)值[37-38]。在專利申請(qǐng)階段,專利代理在專利技術(shù)的科學(xué)關(guān)聯(lián)性和突破性等方面給予指導(dǎo)和建議,幫助發(fā)明人完成高價(jià)值、完整的技術(shù)方案,并控制技術(shù)生命周期、權(quán)利要求數(shù)量等關(guān)鍵指標(biāo),幫助專利權(quán)人獲得更大保護(hù)范圍,布局更合理的權(quán)利要求書,提升專利的技術(shù)價(jià)值和法律價(jià)值;在專利審查階段,專利代理發(fā)揮其在發(fā)明人和專利審查員之間的溝通作用;在專利授權(quán)后的專利維護(hù)階段,專利代理提供法律指導(dǎo),確保專利維持水平;在專利運(yùn)用階段,專利代理幫助專利權(quán)人進(jìn)行科技成果轉(zhuǎn)化[38]。而一些較差的專利代理存在服務(wù)意識(shí)不強(qiáng)、撰寫方案質(zhì)量差的問題,僅對(duì)技術(shù)交底書進(jìn)行簡單的格式修改便提交申請(qǐng),沒有仔細(xì)推敲權(quán)利保護(hù)范圍是否合適、邊界是否清晰、實(shí)施例是否詳盡充分等,導(dǎo)致專利難以形成有效的保護(hù)效應(yīng)[32],難以形成高價(jià)值專利[39]。
特定專利代理歷史專利的專利權(quán)維持期可以表明該專利代理的業(yè)務(wù)能力,幫助預(yù)測該專利代理新代理的專利可能的專利權(quán)維持期。因此,使用專利代理歷史平均專利權(quán)維持期作為專利代理特征,以預(yù)測該專利代理新代理專利可能的專利權(quán)維持期。專利代理的歷史平均專利權(quán)維持期計(jì)算公式如式(3)所示。
綜合發(fā)明人、專利權(quán)人和專利代理3個(gè)專利主體的特征和其他專利相關(guān)預(yù)測特征,最終構(gòu)建基于專利主體特征的專利權(quán)維持期預(yù)測特征(見表1)。
2.3 預(yù)測特征選擇
預(yù)測特征選擇是指從原始預(yù)測特征中通過剔除不相關(guān)和冗余特征,選擇具有代表性、有意義的預(yù)測特征子集的過程。目的在于減少預(yù)測模型的復(fù)雜度,提高模型的泛化能力,提高預(yù)測精度[40]。選擇最大相關(guān)最小冗余性(mRMR)特征選擇算法。mRMR利用互信息來度量特征與目標(biāo)變量之間的相關(guān)性以及特征之間的相關(guān)性。該算法先選取與目標(biāo)變量具有高互信息的特征,再根據(jù)特征之間的相關(guān)性逐步添加其他特征,以最小化特征之間的冗余性,同時(shí)最大化特征與目標(biāo)變量之間的相關(guān)性。這種方法主要利用特征之間的統(tǒng)計(jì)性質(zhì),具有不依賴具體的預(yù)測模型等優(yōu)點(diǎn)[41]。
2.4 集成預(yù)測模型構(gòu)建
目前的預(yù)測模型常為單一的線性或非線性模型,無法較好地捕獲數(shù)據(jù)的所有特征和模式,對(duì)數(shù)據(jù)中的噪聲較為敏感,導(dǎo)致預(yù)測結(jié)果不穩(wěn)定,難以達(dá)到最優(yōu)的預(yù)測結(jié)果。為此,使用廣泛應(yīng)用于預(yù)測研究的Stacking集成模型來預(yù)測專利權(quán)維持期。該方法將不同預(yù)測模型的優(yōu)勢結(jié)合起來,彌補(bǔ)單個(gè)模型的不足,通過結(jié)合多個(gè)模型的預(yù)測結(jié)果增強(qiáng)泛化能力、提高預(yù)測的準(zhǔn)確性。
Stacking集成模型架構(gòu)(見圖2)由初級(jí)學(xué)習(xí)層和次級(jí)學(xué)習(xí)層組成。其中:初級(jí)學(xué)習(xí)層由多個(gè)不同的基模型組成,分別進(jìn)行預(yù)測;次級(jí)學(xué)習(xí)層使用一個(gè)元模型集成多個(gè)不同基模型的預(yù)測結(jié)果,生成最終預(yù)測結(jié)果。元模型方面,一般需要泛化能力較強(qiáng)或較簡單的模型來降低過擬合程度,線性回歸或彈性網(wǎng)回歸(ENet)是常用的元模型。
有效的Stacking集成模型中,基模型的多樣性是實(shí)現(xiàn)具有魯棒性的集成學(xué)習(xí)的關(guān)鍵[42]。多樣化的基模型可以互相平衡,捕捉數(shù)據(jù)的不同方面,提高模型的泛化性和魯棒性,減少敏感度。不同于常見的隨意選擇基模型的方式,使用Pearson相關(guān)系數(shù)對(duì)不同基模型預(yù)測結(jié)果進(jìn)行相關(guān)性分析,避免選擇基模型的隨意性。使用預(yù)測誤差作為變量。Pearson相關(guān)系數(shù)能夠衡量兩個(gè)變量的關(guān)聯(lián)程度,計(jì)算公式如式(4)所示。
式中:xi和yi分別表示第i個(gè)樣本的兩個(gè)變量的取值;μx和μy分別為兩個(gè)變量的均值。Pearson相關(guān)系數(shù)的取值范圍為-1~1。接近-1表示變量之間強(qiáng)烈負(fù)相關(guān),接近0表示變量之間沒有線性相關(guān)關(guān)系,接近1表示變量之間強(qiáng)烈正相關(guān)。
2.5 預(yù)測模型解釋
機(jī)器學(xué)習(xí)方法是黑箱算法,缺乏可解釋性,為了體現(xiàn)機(jī)器學(xué)習(xí)模型中各特征對(duì)模型預(yù)測結(jié)果的影響,使用SHAP模型進(jìn)行模型可解釋性分析。SHAP值基于博弈論中的Shapley值,旨在公平地分配每個(gè)特征對(duì)模型預(yù)測的貢獻(xiàn)。SHAP值越大,對(duì)預(yù)測結(jié)果的正向影響越大;SHAP值越小,對(duì)預(yù)測結(jié)果的反向影響越大。
3 實(shí)驗(yàn)論證
3.1 數(shù)據(jù)收集與評(píng)估指標(biāo)
通過專利數(shù)據(jù)庫收集全球風(fēng)能轉(zhuǎn)化領(lǐng)域?qū)@麛?shù)據(jù)。由于只有已失效的專利才具有確切的專利權(quán)維持期,未失效的專利不能確定專利權(quán)維持期,而預(yù)測模型構(gòu)建需要基于具有確切專利權(quán)維持期的專利數(shù)據(jù)集,根據(jù)風(fēng)能轉(zhuǎn)化相關(guān)數(shù)據(jù)采用國際專利分類號(hào)檢索[43],檢索范圍是失效的全球發(fā)明專利,檢索表達(dá)式為:IPC=(F03D* or B60L08/00 or B63H13/00)AND申請(qǐng)日=(2000.01.01∶2020.12.31)。刪除記錄不完整的數(shù)據(jù),排除與主題不相關(guān)的記錄,共得到10 121條專利文獻(xiàn)數(shù)據(jù)。使用相同的表達(dá)式,在相同數(shù)據(jù)庫中檢索獲取55 693條全球風(fēng)能發(fā)明專利數(shù)據(jù)進(jìn)行實(shí)驗(yàn),得到類似的實(shí)驗(yàn)結(jié)果,這表明實(shí)驗(yàn)使用的數(shù)據(jù)容量較大,能夠較好地反映出總體的統(tǒng)計(jì)特征,使得模型能夠捕捉到數(shù)據(jù)內(nèi)在規(guī)律,減少隨機(jī)波動(dòng)產(chǎn)生的影響,預(yù)測模型結(jié)果穩(wěn)定。
預(yù)測評(píng)估指標(biāo)選擇平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方誤差(Mean Squared Error,MSE)和決定系數(shù)(Coefficient of Determination,R2)。其中:MAE和MSE評(píng)估模型預(yù)測值和實(shí)際值的誤差,二者值越小代表模型精度越高;R2是用于評(píng)估回歸模型擬合優(yōu)度的統(tǒng)計(jì)指標(biāo),R2數(shù)值為0~1,數(shù)值越大代表模型對(duì)數(shù)據(jù)的解釋效果越好。計(jì)算公式如式(5)~式(7)所示。
3.2 數(shù)據(jù)預(yù)處理與統(tǒng)計(jì)描述
數(shù)據(jù)集中存在部分缺失值情況,缺失值主要集中在引用專利數(shù)量、優(yōu)先權(quán)數(shù)量中,缺失數(shù)據(jù)約占整體數(shù)據(jù)的12%。常見的缺失值處理方法包括刪除缺失特征、刪除缺失記錄、均值填充缺失值3種。使用LGB(LightGBM)模型評(píng)估3種處理方法,結(jié)果如圖3所示,其中均值填充缺失值的方法在MAE、MSE、R2 3個(gè)評(píng)估指標(biāo)上表現(xiàn)最好,因此采用該方法處理缺失值。
專利主體特征統(tǒng)計(jì)信息(見表2)顯示,發(fā)明人、專利權(quán)人和專利代理的平均專利數(shù)量分別為5.55、10.69、7.28個(gè),表明專利主體具有多個(gè)風(fēng)能轉(zhuǎn)化領(lǐng)域的專利。在不考慮主體的情況下,所有專利的專利權(quán)維持期平均偏差為5.77年,表明該領(lǐng)域?qū)@麢?quán)維持期具有較大差異。而不同主體各自相關(guān)專利的專利權(quán)維持期平均偏差分別為0.92、1.43、1.74年,表明各主體自身專利的專利權(quán)維持期差異較小,即:同一發(fā)明人的若干專利的專利權(quán)維持期比較接近,而不同發(fā)明人專利的專利權(quán)維持期相差較大;同一專利權(quán)人專利的專利權(quán)維持期比較接近,而不同專利權(quán)人專利的專利權(quán)維持期相差較大;同一專利代理專利的專利權(quán)維持期比較接近,而不同專利代理專利的專利權(quán)維持期相差較大。高水平發(fā)明人通常對(duì)特定領(lǐng)域有著深入的理解和豐富的實(shí)踐經(jīng)驗(yàn),這有助于他們開發(fā)出具有原創(chuàng)性、技術(shù)深度和潛在商業(yè)價(jià)值的高價(jià)值專利。研發(fā)能力強(qiáng)的專利權(quán)人通常擁有更多高價(jià)值專利。優(yōu)質(zhì)的專利代理人憑借其業(yè)務(wù)能力、實(shí)務(wù)經(jīng)驗(yàn)等,可以在專利申請(qǐng)、專利審查、專利維護(hù)、專利運(yùn)用等階段提供服務(wù),從而全面提升專利的技術(shù)價(jià)值和法律價(jià)值。因此,通過專利主體特征,可以有效地預(yù)測相關(guān)專利的專利權(quán)維持期。
3.3 預(yù)測特征選擇
用封裝好mRMR算法的mrmr_selection包對(duì)所有特征按照最大相關(guān)性和最小冗余性進(jìn)行排名,去除排名后20%的特征,最終選擇的特征和特征含義如表3所示。與專利主體相關(guān)的特征分別排列在第1、第2和第4位,表明主體特征對(duì)預(yù)測結(jié)果有著較大的影響。
3.4 集成預(yù)測模型評(píng)估
3.4.1 基模型的初步選擇
初步選擇機(jī)器學(xué)習(xí)領(lǐng)域常用的模型作為基模型:Tree、XGB(XGBoost)、RF(Random Forest)、LGB、SVR(Support Vector Regression)、KNN(K-Nearest Neighbor)。
(1)基模型的相關(guān)性分析。為選擇最佳的基模型組合,通過計(jì)算不同基模型的預(yù)測誤差,用Pearson相關(guān)系數(shù)分析不同模型的關(guān)聯(lián)程度,結(jié)果如圖4所示,其中:顏色越深,模型之間的相關(guān)系數(shù)越接近1,相關(guān)程度越強(qiáng);反之,相關(guān)程度越弱。根據(jù)圖4的結(jié)果可知,Tree、RF、LGB、XGB 4個(gè)模型中兩兩模型均呈現(xiàn)明顯的相關(guān)性,相關(guān)系數(shù)均在0.6以上,盡管模型訓(xùn)練機(jī)制不同,但本質(zhì)都是基于Tree的優(yōu)化算法,這些模型之間的預(yù)測差異很小。SVR的原理和Tree有較大差異,相關(guān)性較低。KNN通過考慮最接近目標(biāo)樣本的鄰居進(jìn)行決策,所以和Tree的關(guān)聯(lián)性很低。
(2)各基模型的預(yù)測效果分析。為了得到性能較強(qiáng)的基模型,需要測試每個(gè)模型單獨(dú)的預(yù)測效果并不斷調(diào)整參數(shù),使基模型預(yù)測效果達(dá)到最好。采取網(wǎng)格搜索調(diào)參方法和應(yīng)用廣泛的K折交叉驗(yàn)證(K=5)確定最佳超參數(shù)。各基模型的最佳超參數(shù)和性能評(píng)估如表4所示。在選擇基模型時(shí)要綜合考慮性能和相關(guān)性,即保證相關(guān)性較低且基模型的性能較好。經(jīng)過參數(shù)調(diào)優(yōu)之后XGB、RF、LGB、SVR的表現(xiàn)較出色,因此選取這4個(gè)模型作為基模型,用于與第二層元模型組建集成模型。
3.4.2 集成模型評(píng)估
(1)元模型對(duì)性能的影響。將ENet和線性回歸作為元模型構(gòu)建的不同Stacking集成模型的預(yù)測效果如表5所示。預(yù)測評(píng)估指標(biāo)MAE和MSE評(píng)估模型預(yù)測值和實(shí)際值的誤差,二者值越小代表模型精度越高;R2是用于評(píng)估回歸模型擬合優(yōu)度的統(tǒng)計(jì)指標(biāo),R2數(shù)值在0~1之間,數(shù)值越大代表模型對(duì)數(shù)據(jù)的解釋效果越好。由表5可見,采用ENet作為元模型的效果普遍好于采用線性回歸作為元模型,組合方法3是在MAE、MSE、R2 3個(gè)評(píng)估指標(biāo)上表現(xiàn)最好的模型,這是由于ENet能通過正則化組合靈活地處理非線性的回歸問題,能夠在偏差和方差之間取得平衡,從而更好地防止過擬合以及提高模型的泛化能力。
(2)基模型數(shù)量對(duì)性能的影響。基模型的數(shù)量可能會(huì)影響最終集成模型的效果,對(duì)比Stacking集成模型分別采用1、2、3、4個(gè)基模型的效果,結(jié)果如表6所示。通過對(duì)比不同模型的實(shí)驗(yàn)結(jié)果可知,采用3個(gè)基模型的效果普遍好于采用兩個(gè)和一個(gè)的模型,其中XGB、LGB、SVR的組合具有最小的MAE、MSE和最大的R2,因此具有最好的預(yù)測準(zhǔn)確性,且運(yùn)行速度快。XGB和LGB采用高效的樹生長策略,允許模型更快速地找到最優(yōu)分裂點(diǎn);SVR使用核技巧和高維映射,能更好地捕捉數(shù)據(jù)中的非線性關(guān)系,靈活性較高。以上優(yōu)勢使得該組合在運(yùn)算時(shí)間上優(yōu)于采用RF作為基模型的集成模型。當(dāng)增加至4個(gè)基模型時(shí),集成模型的效果沒有發(fā)生改變,這是由于已經(jīng)使用性能足夠好且復(fù)雜的基模型,集成的優(yōu)勢已經(jīng)得到充分的發(fā)揮,繼續(xù)增加基模型的數(shù)量徒增計(jì)算時(shí)間。綜合考慮模型的效果和運(yùn)行消耗的時(shí)間,采用3個(gè)基模型是理想的選擇。
3.5 主體特征評(píng)估
基于已有最佳模型,分別比較包含主體特征與不包含主體特征的專利權(quán)維持期預(yù)測結(jié)果,如表7所示。當(dāng)模型特征中僅包含其他特征時(shí),MAE和MSE最大,而R2最?。划?dāng)同時(shí)包含3類主體特征時(shí),MAE和MSE最小,而R2最大。加入部分主體特征,預(yù)測結(jié)果介于前面兩者之間:其他+發(fā)明人特征使得MAE下降為0.548 4,MSE下降為1.364 3,R2增加為0.907 5;其他+專利權(quán)人特征使得MAE下降為0.845 5,MSE下降為2.349 3,R2增加為0.840 8;其他+專利代理特征使得MAE下降為1.263 2,MSE下降為3.993 7,R2增加為0.793 5。這表明添加發(fā)明人特征使得MAE和MSE下降最多,使得R2增加最多,發(fā)明人特征具有最好的預(yù)測效果,其次為專利權(quán)人。發(fā)明人與專利價(jià)值有著最為緊密的聯(lián)系,能夠很好地反映專利價(jià)值水平。實(shí)驗(yàn)結(jié)果表明,相較于已有研究,考慮專利發(fā)明人、專利權(quán)人和專利代理的特征,能夠顯著提高專利權(quán)維持期預(yù)測效果。
3.6 可解釋性分析
SHAP可解釋性分析有助于全面理解特征對(duì)專利權(quán)維持期預(yù)測結(jié)果的影響。對(duì)每個(gè)樣本都進(jìn)行一次特征的SHAP值計(jì)算。每個(gè)特征的重要性是通過計(jì)算其SHAP的平均絕對(duì)值來決定的,使用柱狀圖可視化重要性測量。實(shí)驗(yàn)結(jié)果如圖5所示。由圖5(a)可見,發(fā)明人、專利權(quán)人、專利代理和其他特征平均SHAP值分別為1.40、1.19、0.75和0.39,發(fā)明人特征對(duì)專利權(quán)維持期預(yù)測的影響最大,其次為專利權(quán)人的主體特征、專利代理的主體特征和其他特征。圖5(b)展示了各具體特征的SHAP值,體現(xiàn)了每個(gè)特征的相對(duì)重要性。Inventor_ LifeTime的SHAP值最大,表明發(fā)明人平均專利權(quán)維持期對(duì)預(yù)測結(jié)果有顯著影響;Applier_LifeTime、Other_ ApplyYear、Other_Time等特征對(duì)預(yù)測結(jié)果的影響逐漸變小。
4 結(jié)論
專利權(quán)維持期被視為衡量專利價(jià)值的重要指標(biāo),對(duì)專利權(quán)維持期進(jìn)行較為準(zhǔn)確的預(yù)測具有十分重要的意義。然而,預(yù)測特征存在滯后性、預(yù)測特征忽略專利主體歷史信息和預(yù)測模型魯棒性較差等是目前專利權(quán)維持期研究普遍存在的問題。鑒于個(gè)體或組織的行為模式具有穩(wěn)定性和持續(xù)性,通過觀測個(gè)體或組織在過去相似情境下的行為,可以預(yù)測其將來的行動(dòng)。因此,本文不考慮專利前向引用信息,而是從專利主體視角,挖掘?qū)@黧w的歷史信息,形成專利主體特征作為主要預(yù)測特征。提出預(yù)測集成模型,通過組合多個(gè)不同機(jī)器學(xué)習(xí)模型,構(gòu)建更強(qiáng)大的預(yù)測模型,并使用SHAP模型對(duì)預(yù)測結(jié)果進(jìn)行解釋。實(shí)驗(yàn)結(jié)果證明基于專利主體特征進(jìn)行專利權(quán)維持期預(yù)測的有效性,同時(shí)也表明發(fā)明人特征對(duì)專利權(quán)維持期預(yù)測的影響最大,其次為專利權(quán)人的主體特征、專利代理的主體特征和其他已有研究特征。
參考文獻(xiàn)
[1] 喬永忠,章燕. 不同國家授權(quán)的化學(xué)冶金技術(shù)領(lǐng)域?qū)@S持時(shí)間實(shí)證研究[J]. 情報(bào)雜志,2015,34(6):33-37,47.
[2] 馬曉薇. 基于專利維持?jǐn)?shù)據(jù)的國內(nèi)外發(fā)明專利質(zhì)量比較研究[J].商,2013(8):228-230.
[3] 錢坤,張曉,黃忠全. 交易情景下專利價(jià)值影響因素分析[J]. 科學(xué)學(xué)研究,2020,38(9):1608-1620.
[4] 鄧潔,張彩鈴,李源信. 高校專利質(zhì)量對(duì)專利轉(zhuǎn)化的影響效應(yīng)研究:基于“雙一流”高校的實(shí)證研究[J]. 情報(bào)雜志,2021,40(10):200-207.
[5] 侯媛媛,劉云,譚龍. 企業(yè)專利申請(qǐng)動(dòng)機(jī)及其影響因素[J]. 技術(shù)經(jīng)濟(jì),2012,31(11):44-49.
[6] 毛昊,尹志鋒. 我國企業(yè)專利維持是市場驅(qū)動(dòng)還是政策驅(qū)動(dòng)?[J]. 科研管理,2016,37(7):134-144.
[7] HOLGERSSON M. Patent management in entrepreneurial SMEs:a literature review and an empirical study of innovation appropriation,patent propensity,and motives[J]. RD Management,2013,43(1):21-36.
[8] 劉林青,譚力文. 為研發(fā)而申請(qǐng)專利還是為專利申請(qǐng)而研發(fā)[J].中國工業(yè)經(jīng)濟(jì),2006(7):86-93.
[9] 池仁勇,孫浩. 不同專利申請(qǐng)動(dòng)機(jī)下企業(yè)RD效率研究:以浙江省高新技術(shù)企業(yè)為例[J]. 技術(shù)經(jīng)濟(jì),2011,30(8):7-10.
[10] BLIND K,EDLER J,F(xiàn)RIETSCH R,et al. Motives to patent:empirical evidence from Germany[J]. Research Policy,2006,35(5):655-672.
[11] COHEN W M,GOTO A,NAGATA A,et al. RD spillovers,patents and the incentives to innovate in Japan and the United States[J]. Research Policy,2002,31(8/9):1349-1367.
[12] 朱文韻,孟雅晴. 競爭強(qiáng)度、合作強(qiáng)度與企業(yè)創(chuàng)新決策行為:基于企業(yè)專利申請(qǐng)動(dòng)機(jī)視角的分析[J]. 價(jià)格理論與實(shí)踐,2023(11):83-87.
[13] 陳柏強(qiáng),詹依寧,劉增猛. 國有資產(chǎn)管理視角下關(guān)于高校專利維護(hù)與運(yùn)營的思考和建議[J]. 研究與發(fā)展管理,2018,30(6):151-156.
[14] 曹娟. 高校專利“故意”不維持現(xiàn)象探究:以太原理工大學(xué)為例[J]. 晉圖學(xué)刊,2016(6):41-46.
[15] 蔡中華,侯翱宇,馬歡. 專利維持時(shí)間影響因素的實(shí)證研究[J].科技管理研究,2015,35(21):160-163.
[16] 胡琨,陳榮,吉久明. 中國高校的專利壽命與商業(yè)化動(dòng)機(jī):以上海市的三所高校為例[J]. 現(xiàn)代情報(bào),2017,37(7):144-150.
[17] 付振康,柳炳祥,鄢春根,等. 專利壽命影響因素分析及預(yù)測模型構(gòu)建研究:以數(shù)字通信技術(shù)領(lǐng)域?yàn)槔齕J]. 競爭情報(bào),2023,19(1):19-30.
[18] 肖冰. 基于法定保護(hù)期的專利維持時(shí)間影響因素研究[J]. 科學(xué)學(xué)研究,2017,35(11):1652-1658.
[19] 肖冰,許可,肖尤丹. 專利審查能夠影響專利維持時(shí)間嗎?[J]. 科學(xué)學(xué)研究,2018,36(7):1224-1234.
[20] HIKKEROVA L,KAMMOUN N,LANTZ J S. Patent life cycle:new evidence[J]. Technological Forecasting and Social Change,2014,88:313-324.
[21] 喬永忠,肖冰. 基于權(quán)利要求數(shù)的專利維持時(shí)間影響因素研究[J]. 科學(xué)學(xué)研究,2016,34(5):678-683.
[22] LEE Y G. Patent licensability and life:a study of U.S. patents registered by South Korean public research institutes[J]. Scientometrics,2008,75(3):463-471.
[23] 吳紅,付秀穎,董坤. 專利維持時(shí)間影響因素實(shí)證分析:以燃料電池專利文獻(xiàn)為例[J]. 圖書情報(bào)工作,2013,57(24):112-116,100.
[24] 馮仁濤. 基于專利文獻(xiàn)的專利維持時(shí)間影響因素分析[J]. 情報(bào)雜志,2020,39(7):202-207.
[25] 胡成,李明星,張夢娟,等. 校企發(fā)明專利維持時(shí)間影響因素比較研究[J]. 科技管理研究,2017,37(18):107-113.
[26] 李睿,王堂蓉,龍瑞. 專利引證與專利維持時(shí)間的相關(guān)性實(shí)證[J]. 情報(bào)雜志,2022,41(7):71-76.
[27] DONATO C,LO GIUDICE P,MARRETTA R,et al. A welltailored centrality measure for evaluating patents and their citations[J]. Journal of Documentation,2019,75(4):750-772.
[28] WANG J C,CHIANG C H,LIN S W. Network structure of innovation:can brokerage or closure predict patent quality?[J]. Scientometrics,2010,84(3):735-748.
[29] YOO S H,KIM B,JEONG M K. Modelling of technology lifetime based on patent citation data and segmentation[J]. Journal of the Operational Research Society,2015,66(3):450-462.
[30] CHOI J,JEONG B,YOON J,et al. A novel approach to evaluating the business potential of intellectual properties:a machine learning-based predictive analysis of patent lifetime[J]. Computers Industrial Engineering,2020,145:106544.
[31] KABORE F P,PARK W G. Can patent family size and composition signal patent value?[J]. Applied Economics,2019,51(60):6476-6496.
[32] 韓福桂,佟振霞. 高質(zhì)量專利的成長之路:源于發(fā)明人、專利代理人和審查部門的多方合力[J]. 中國發(fā)明與專利,2016(3):59-62.
[33] 周雷. 專利發(fā)明人對(duì)專利價(jià)值的影響研究:以中國科學(xué)院2018年3月專利拍賣為例[J]. 文獻(xiàn)與數(shù)據(jù)學(xué)報(bào),2020,2(4):70-83.
[34] 張慧卿,朱冬香,張杰,等. 京津地區(qū)部分高校技術(shù)創(chuàng)新能力探究:基于近20年專利視角的比較分析[J]. 中國高??萍?,2021(9):81-84.
[35] 陳偉,陳蔚,黃志雄,等. 基于中國專利獎(jiǎng)獲獎(jiǎng)專利特征分析的電力企業(yè)專利管理啟示[J]. 廣東科技,2023,32(2):70-73.
[36] 陳學(xué)穎,吳清. 企業(yè)創(chuàng)新能力及其影響因素研究[J]. 運(yùn)籌與模糊學(xué),2023,13(4):3672-3686.
[37] 王玲,李文昌,趙夢. 不同類型專利權(quán)人的專利失效影響因素研究[J]. 科技管理研究,2021,41(19):149-154.
[38] 谷麗,閻慰椿,任立強(qiáng),等. 專利代理人勝任特征對(duì)專利質(zhì)量的影響路徑研究[J]. 科學(xué)學(xué)研究,2016,34(7):1005-1016.
[39] 程秀才,曹坤,陶永生. 大數(shù)據(jù)視角下非正常專利申請(qǐng)行為分析及對(duì)策研究[J]. 中國發(fā)明與專利,2023,20(8):36-42.
[40] 張凱林,董紅斌. 基于mRMR與基尼重要性的樹突狀細(xì)胞模型[J]. 計(jì)算機(jī)工程,2023,49(5):129-138.
[41] 張俐,王樅. 基于最大相關(guān)最小冗余聯(lián)合互信息的多標(biāo)簽特征選擇算法[J]. 通信學(xué)報(bào),2018,39(5):111-122.
[42] SAGI O,ROKACH L. Ensemble learning:a survey[J]. WIREs Data Mining and Knowledge Discovery,2018,8(4):e1249.
[43] TANG C Y,LIU L,XIAO X Y. How do firms’ knowledge base and industrial knowledge networks co-affect firm innovation?[J]. IEEE Transactions on Engineering Management,2023,70(1):29-39.
作者簡介
俞琰,女,博士,教授,研究方向:數(shù)據(jù)挖掘、專利分析,E-mail:yuyanyuyan2004@126.com。
馬昕遠(yuǎn),男,碩士研究生,研究方向:數(shù)據(jù)挖掘。
劉攀,男,碩士研究生,研究方向:專利分析。
Patent Maintenance Period Prediction Based on Patent Subject Features
YU Yan1 MA XinYuan2 LIU Pan2
(1. Nanjing Tech University Library, Nanjing 210009, P. R. China; 2. School of Economics and Management, Nanjing Tech University, Nanjing 211816, P. R. China)
Abstract: This paper proposes a patent maintenance period prediction method based on patent subject characteristics to address the current issues of feature lag and neglect of patent subject information in predicting features. The proposed method uses a patent dataset to construct patent subject features including patent inventors, patent owners, and agencies, and uses a correlation-based ensemble learning model to predict the patent maintenance period. Finally, the SHAP model is used to interpret the obtained prediction model to enhance understanding. Empirical research based on patent data in the field of wind energy conversion demonstrates the feasibility and effectiveness of the proposed method in this paper. The model achieves evaluation metrics with mean absolute error of 0.469 2, mean squared error of 0.933 1, and R2 of 0.936 8. Compared to existing methods, the model achieves more ideal predictive results, demonstrating that the features of the patent subject can effectively predict the maintenance period of patent rights, thereby enhancing the accuracy of the predictions.
Keywords: Patent Maintenance Period; Prediction; Feature of Patent Subject; Ensemble Learning; Interpretability
(責(zé)任編輯:王瑋)