柳炳祥??付振康??貝汶瑜
摘要:[目的/意義]基于機器學(xué)習(xí)算法,對行業(yè)標(biāo)準(zhǔn)專利構(gòu)建多模態(tài)特征融合的自動分類篩選模型,探究侵權(quán)訴訟背景下標(biāo)準(zhǔn)必要專利價值分類指標(biāo)體系。[方法/過程]首先利用美國專利商標(biāo)局的發(fā)生侵權(quán)訴訟后的標(biāo)準(zhǔn)必要專利作為標(biāo)記數(shù)據(jù),將文本數(shù)據(jù)和指標(biāo)數(shù)據(jù)進(jìn)行降維融合后,建立基于機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模型專利分類篩選模型,最后對數(shù)字創(chuàng)意產(chǎn)業(yè)的標(biāo)準(zhǔn)專利進(jìn)行分類篩選。[結(jié)果/結(jié)論]基于機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模型算法構(gòu)建一套較為完整的多特征融合專利價值自動分類篩選模型。構(gòu)建的4種模型在測試集上的平均F1值均在0.8以上,其中偽標(biāo)簽隨機森林模型表現(xiàn)最優(yōu),平均F1值達(dá)到0.871 06。
關(guān)鍵詞:侵權(quán)訴訟;標(biāo)準(zhǔn)專利;機器學(xué)習(xí);自然語言處理;分類篩選
分類號:G306
引用格式:彭啟寧, 柳炳祥, 付振康, 等. 侵權(quán)訴訟背景下標(biāo)準(zhǔn)必要專利價值分類識別體系構(gòu)建[J/OL]. 知識管理論壇, 2023, 8(6): 461-475[引用日期]. http://www.kmf.ac.cn/p/364/.
專利是反映科技創(chuàng)新成果的主要客體,是知識產(chǎn)權(quán)的重要部分之一。近幾年,隨著經(jīng)濟全球化的不斷深入,各國針對行業(yè)的標(biāo)準(zhǔn)必要專利研究也在不斷加強,擁有行業(yè)標(biāo)準(zhǔn)必要專利,意味著能在相關(guān)技術(shù)領(lǐng)域中占領(lǐng)重要地位。標(biāo)準(zhǔn)必要專利(standard essential patent, SEPs)是指包含在國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)中,且在實施標(biāo)準(zhǔn)時必須使用的專利,國內(nèi)學(xué)者馬麗婧等[1]指出,利用標(biāo)準(zhǔn)必要專利能夠快速掌握行業(yè)的技術(shù)標(biāo)準(zhǔn)、企業(yè)戰(zhàn)略和市場競爭等信息。2010年版《國家標(biāo)準(zhǔn)涉及專利的規(guī)定》[2]中指出,允許標(biāo)準(zhǔn)中有條件地含有專利。與此同時,隨著標(biāo)準(zhǔn)必要專利申請數(shù)量的不斷增加,專利侵權(quán)和專利無效宣告案件發(fā)生的數(shù)量在不斷增長,涉及國際的專利侵權(quán)糾紛也在不斷增加,《知識產(chǎn)權(quán)強國建設(shè)綱要(2021-2035年)》[3]提出要深度參與全球知識產(chǎn)權(quán)治理,積極參與知識產(chǎn)權(quán)全球治理體系改革和建設(shè),要建設(shè)知識產(chǎn)權(quán)涉外風(fēng)險防控體系。因此,構(gòu)建一套完整標(biāo)準(zhǔn)必要專利分類識別體系,識別行業(yè)內(nèi)標(biāo)準(zhǔn)必要重點專利以及易發(fā)生侵權(quán)訴訟的風(fēng)險專利,對于提高我國相關(guān)創(chuàng)新主體的創(chuàng)新能力以及研判產(chǎn)業(yè)發(fā)展方向具有重要意義。
筆者以侵權(quán)無效宣告專利為切入點,通過整理已經(jīng)發(fā)生侵權(quán)專利技術(shù)特征,利用數(shù)據(jù)挖掘模型進(jìn)行侵權(quán)專利識別分類訓(xùn)練,獲取最優(yōu)參數(shù)模型,構(gòu)建標(biāo)準(zhǔn)必要專利侵權(quán)識別分類識別體系。筆者在綜合分析侵權(quán)專利無效宣告的訴訟風(fēng)險特征影響因素的前提下,結(jié)合標(biāo)準(zhǔn)必要專利的特點,選取新興產(chǎn)業(yè)中數(shù)字創(chuàng)意產(chǎn)業(yè)在新一代信息技術(shù)產(chǎn)業(yè)中的應(yīng)用作為研究主題,從專利計量指標(biāo)和文本特征兩個方面建立較為精準(zhǔn)的標(biāo)準(zhǔn)必要專利識別分類體系,構(gòu)建多特征融合的標(biāo)準(zhǔn)必要專利分類識別模型。
1? 相關(guān)研究綜述
1.1? 侵權(quán)無效宣告相關(guān)研究
經(jīng)閱讀文獻(xiàn)可以發(fā)現(xiàn),目前國內(nèi)對侵權(quán)專利無效宣告的研究主要集中在以下幾個方面:①在專利法視域下,主要針對專利無效宣告制度的特點進(jìn)行一系列討論。李曉鳴[4]認(rèn)為,相關(guān)法律法規(guī)對專利無效宣告各類程序的期限規(guī)定不完善并提出一系列完善建議;王瑞龍[5]指出了侵權(quán)訴訟中專利權(quán)無效抗辯制度弊端,認(rèn)為專利無效抗辯制度導(dǎo)致專利侵權(quán)訴訟周期長并提出了解決方式。然而,上述文獻(xiàn)主要涉及無效宣告判別的各類程序,未涉及導(dǎo)致無效宣告發(fā)生的指標(biāo)研究。②在創(chuàng)新經(jīng)濟學(xué)視野下,主要針對專利無效宣告對市場份額影響進(jìn)行一系列研究。S. Alessandro[6]認(rèn)為,專利無效宣告傾向與專利市場份額增長率呈正相關(guān),專利的市場份額越高,專利發(fā)生無效宣告的可能性越大;但上述文獻(xiàn)主要探討了專利無效宣告與市場價值的關(guān)系,未涉及各類指標(biāo)對無效宣告結(jié)果的影響。③在情報學(xué)視野下,在競爭情報學(xué)中將申請宣告競爭對手的專利無效視作是一種重要的專利戰(zhàn)略手段。李睿等[7]指出,在技術(shù)市場權(quán)益的爭奪中,優(yōu)質(zhì)專利通常是競爭對手申請無效宣告的主要目標(biāo);周克放[8]指出專利異議通常由競爭對手提出,能夠成功抵御異議的專利往往可以被定義為該領(lǐng)域價值相對較高的專利。此外,專利無效宣告傾向在不同技術(shù)領(lǐng)域所表現(xiàn)的程度不盡相同,J. R. Allison等[9]指出專利無效宣告行為的經(jīng)濟屬性暗示了其為市場價值的低質(zhì)量專利。與此同時,P. A. Patel等[10]發(fā)現(xiàn)專利異議率在不同的領(lǐng)域所占比例不同,其中在電氣工程領(lǐng)域的異議率在5.3%至9.7%左右;但上述文獻(xiàn)并未涉及從侵權(quán)專利無效宣告的角度對專利的價值進(jìn)行分類預(yù)測。
通過以上文獻(xiàn)可以看出,學(xué)術(shù)界對于侵權(quán)專利無效宣告識別分類可以得出以下結(jié)論:在侵權(quán)案件發(fā)生后,依舊被判定為“有效”的專利可視為該行業(yè)的重點且質(zhì)量較高專利,與之相反,被判定為“無效”的專利可視為該行業(yè)市場中存在較大競爭爭議的專利。因此,筆者主要從侵權(quán)專利無效宣告出發(fā),提出對此兩種類型的專利進(jìn)行分類模型的構(gòu)建,進(jìn)而實現(xiàn)對兩種類型專利的自動分類篩選。
1.2? 標(biāo)準(zhǔn)必要專利相關(guān)研究
經(jīng)閱讀文獻(xiàn)可以發(fā)現(xiàn),國內(nèi)外對于標(biāo)準(zhǔn)必要專利的定義主要涉及兩個方面:①標(biāo)準(zhǔn)必要專利涉及的技術(shù)市場壟斷研究。王曉曄[11]探討了標(biāo)準(zhǔn)必要專利涉及的反壟斷訴訟問題,認(rèn)為FRAND(Fair, Reasonable and Non-Discriminatory)許可條件沒有可操作性,以至于越來越多的涉及標(biāo)準(zhǔn)必要專利的案件進(jìn)入了反壟斷執(zhí)法機構(gòu)和法院;R. Bekkers等[12]認(rèn)為標(biāo)準(zhǔn)必要專利所披露的信息存在大量的信息不對稱;李宗輝[13]指出標(biāo)準(zhǔn)必要專利在通信技術(shù)領(lǐng)域較為集中,相關(guān)的國際平行訴訟體現(xiàn)在各國技術(shù)、產(chǎn)業(yè)和市場競爭的司法層面,以及J. L. Contrera[14]也同樣指出標(biāo)準(zhǔn)必要專利涉及的技術(shù)壟斷在5G無線通信標(biāo)準(zhǔn)的背景下尤為突出。此外,在標(biāo)準(zhǔn)必要專利的市場價值研究上,葉若思等[15]認(rèn)為一個必要標(biāo)準(zhǔn)專利具有唯一性和不可替代性,標(biāo)準(zhǔn)必要專利權(quán)人在必要專利許可市場均擁有完全的份額,具有阻礙或影響其他經(jīng)營者進(jìn)入相關(guān)市場的能力;M. V. Laer等[16]指出標(biāo)準(zhǔn)必要專利在國內(nèi)保持了較高的增值份額,加入全球價值鏈需要吸收能力,但中國進(jìn)入SEPs市場較晚,SEPs對中國的貿(mào)易效應(yīng)不同于對成熟經(jīng)濟體的貿(mào)易效應(yīng),其SEPs的初始值較低。②標(biāo)準(zhǔn)必要專利的特征識別研究。馬麗婧等[1]指出潛在標(biāo)準(zhǔn)必要專利在引用次數(shù)、被引用次數(shù)、權(quán)利要求數(shù)量、審查時長、同族成員個數(shù)等計量指標(biāo)上顯著高于普通專利;李婳婧等[17]基于TF-DIF方法進(jìn)行權(quán)重計算,優(yōu)化標(biāo)準(zhǔn)關(guān)鍵詞并建立檢索式,建立隱含在標(biāo)準(zhǔn)里面的潛在標(biāo)準(zhǔn)必要專利信息識別路徑。
通過以上文獻(xiàn)可以看出,學(xué)術(shù)界對于標(biāo)準(zhǔn)必要專利的研究主要集中在標(biāo)準(zhǔn)必要專利的市場價值或是其特征研究上,鮮有文獻(xiàn)通過專利侵權(quán)的角度對標(biāo)準(zhǔn)必要專利中的價值較高專利、易發(fā)生侵權(quán)訴訟專利兩者相結(jié)合同時進(jìn)行分類篩選的研究。
1.3? 專利識別模型相關(guān)研究
隨著學(xué)科融合的進(jìn)一步發(fā)展,現(xiàn)今針對專利的各種特征的識別模型各不相同。對于專利識別的研究主要集中在兩個角度,具體如下:
一是利用傳統(tǒng)的數(shù)學(xué)統(tǒng)計分析方法進(jìn)行研究。孫玉艷等[18]利用市場法、成本法、收益法和修正收益法對專利價值進(jìn)行線性組合和非線性組合預(yù)測,得到加權(quán)算數(shù)平均值組合預(yù)測和加權(quán)調(diào)和平均組合預(yù)測兩種評估模型;徐晨倩等[19]采用量化研究與案例研究相結(jié)合的方法,構(gòu)建了訴訟專利特征與337調(diào)查的回歸模型,并將模型運用至其他專利侵權(quán)訴訟案件中,從而達(dá)到專利情報預(yù)警的目的;王子焉等[20]利用文獻(xiàn)計量、社會網(wǎng)絡(luò)分析方法從專利價值的內(nèi)涵、評估指標(biāo)體系、評估方法3個方面對專利價值進(jìn)行評估。
二是利用數(shù)據(jù)挖掘方法(如深度學(xué)習(xí)、機器學(xué)習(xí)等)對專利各類特征進(jìn)行識別。張杰等[21]采用AdaBoost算法對訴訟專利的專利質(zhì)量進(jìn)行評價;李靜等[22]采用深度學(xué)習(xí)算法模型對新興主題進(jìn)行分析,從而了解新興主題發(fā)展趨勢;翟東升等[23]利用SAO結(jié)構(gòu)對專利語義特征進(jìn)行抽取,并將其表示為圖的形式,再將圖轉(zhuǎn)換為鄰接矩陣,通過計算鄰接矩陣的相似性進(jìn)而達(dá)到判定專利侵權(quán)的目的;國外學(xué)者J. Jee 等[24]利用人工神經(jīng)網(wǎng)絡(luò)方法對制藥技術(shù)領(lǐng)域?qū)@M(jìn)行分類,達(dá)到識別高質(zhì)量專利的目的;I. S. Kang等[15]提出建立聚類模型來對侵權(quán)專利進(jìn)行檢索,從而建立侵權(quán)專利的特征模型,但上述研究均未涉及利用專利特征指標(biāo)構(gòu)建風(fēng)險識別體系。K.V. Indukuri等[25]利用自然語言處理技術(shù)通過句法和語義匹配計算不同專利權(quán)利要求項之間的相似性,得出專利之間的相似性。
通過總結(jié)上述文獻(xiàn)的研究方法可以看出,學(xué)術(shù)界目前的研究主要利用統(tǒng)計學(xué)模型,將單個或多個模型結(jié)合進(jìn)行單一類型數(shù)據(jù)的分類或預(yù)測,但對于專利質(zhì)量與專利風(fēng)險結(jié)合分析研究較為欠缺。因此,筆者在基于傳統(tǒng)侵權(quán)專利的分析研究下,從侵權(quán)專利無效宣告的特征角度出發(fā),結(jié)合美國專利商標(biāo)局(United States Patent and Trademark Office, USPTO)中必要標(biāo)準(zhǔn)專利的特征,采用多特征融合的方法,對文旅行業(yè)的必要標(biāo)準(zhǔn)專利進(jìn)行分類識別,以篩選出文旅行業(yè)內(nèi)高質(zhì)量專利以及易發(fā)生侵權(quán)訴訟風(fēng)險專利。
2? 特征選取與研究設(shè)計
2.1? 研究思路
圖 1為專利風(fēng)險識別模型。首先,通過閱讀國內(nèi)外的大量研究文獻(xiàn),對標(biāo)準(zhǔn)專利的概念進(jìn)行界定,結(jié)合指標(biāo)的可獲取性、科學(xué)性等因素,選取標(biāo)準(zhǔn)專利的文本內(nèi)容和數(shù)據(jù)指標(biāo);通過文獻(xiàn)檢索的方法,獲取美國專利商標(biāo)局(USPTO)[26]標(biāo)準(zhǔn)專利中發(fā)生侵權(quán)訴訟后被判定為“有效”或“無效”的標(biāo)準(zhǔn)專利作為標(biāo)記數(shù)據(jù)和選定待預(yù)測的未標(biāo)記數(shù)據(jù)集。其次,對文本數(shù)據(jù)和指標(biāo)數(shù)據(jù)進(jìn)行降維數(shù)據(jù)融合,形成新指標(biāo)特征。最后,選取機器學(xué)習(xí)的監(jiān)督學(xué)習(xí)中K近鄰、樸素貝葉斯模型和半監(jiān)督學(xué)習(xí)算法中半監(jiān)督向量機、偽標(biāo)簽隨機森林等模型,對未標(biāo)記數(shù)據(jù)進(jìn)行專利的分類預(yù)測篩選,其中被判定為“有效”的專利即為行業(yè)標(biāo)準(zhǔn)專利內(nèi)的重點具有核心價值的專利,被判定為“無效”的專利即為行業(yè)標(biāo)準(zhǔn)內(nèi)極易發(fā)生侵權(quán)訴訟的專利。最終,通過從專利侵權(quán)無效宣告的角度出發(fā),達(dá)到對不同領(lǐng)域標(biāo)準(zhǔn)必要專利中的潛在重點專利識別的最優(yōu)選算法指標(biāo)選取目的,進(jìn)而建立較為精準(zhǔn)的潛在重點專利自動篩選體系。
2.2? 指標(biāo)選取
2.2.1? 語義特征提取
學(xué)術(shù)界對于專利文本的選取各不相同,但主要包含專利摘要、專利權(quán)利要求書和專利說明書。筆者選取專利摘要進(jìn)行語義特征提取,專利摘要是對專利說明書內(nèi)容的概述,主要包括發(fā)明或?qū)嵱眯滦蛯@拿Q、專利所屬的技術(shù)領(lǐng)域和需要解決的技術(shù)問題、發(fā)明或?qū)嵱眯滦蜕婕暗闹饕夹g(shù)特征和用途。在專利摘要研究方面,繆建明等[27]在專利摘要的基礎(chǔ)上,采用類中心向量分類算法對專利進(jìn)行快速自動分類;吳潔等[28]利用專利摘要生成專利的核心詞匯網(wǎng)絡(luò),搭建基于圖卷積網(wǎng)絡(luò)的高質(zhì)量專利自動識別模型;周群芳等[29]利用摘要對中文專利的新技術(shù)術(shù)語進(jìn)行識別。
因此,在語義識別方面,筆者利用自然語言識別中Word2vec模型對文本內(nèi)容進(jìn)行詞語向量化處理,主要涉及兩種模型:CBOW模型和Skip-gram模型(見圖2)。筆者主要采用CBOW模型,具體訓(xùn)練方法為:輸入層由one-hot編碼的輸入文本組成,隱藏層是n維的向量,最后輸出層是由one-hot編碼的輸出文本向量。
2.2.2? 計量指標(biāo)選取
學(xué)術(shù)界對于專利的各類特性的評估指標(biāo)選取方式也各不相同,馮君[30]從專利技術(shù)質(zhì)量、專利權(quán)保護質(zhì)量、產(chǎn)業(yè)高度和社會經(jīng)濟效益4個方面對單件專利質(zhì)量進(jìn)行評價;劉亞杰等[31]從法律風(fēng)險、技術(shù)風(fēng)險、組織管理風(fēng)險、合作因素風(fēng)險、環(huán)境因素風(fēng)險5個方面構(gòu)建高校專利運營風(fēng)險評估指標(biāo)體系。因此,筆者結(jié)合國內(nèi)對專利質(zhì)量評價和專利風(fēng)險評估兩方面的研究選取重點專利篩選指標(biāo),主要從技術(shù)層面、法律層面和市場層面3個維度選取構(gòu)建專利篩選模型指標(biāo)。
在技術(shù)層面,筆者主要選取8個計量指標(biāo),首先是專利技術(shù)方面,涉及單件利的“技術(shù)先進(jìn)性”“技術(shù)穩(wěn)定性”和“IPC個數(shù)”,此類指標(biāo)主要體現(xiàn)了專利的技術(shù)覆蓋范圍,J. Lerner 等[32]提出用專利文件中的IPC(國際專利分類號)小類的數(shù)量來衡量專利覆蓋的技術(shù)范圍;其次是專利引證方面,主要涉及單件專利的“引證次數(shù)”“家族引證次數(shù)”,張嫻等[33]指出根據(jù)專利的引證關(guān)系可以看出專利之間的累積與繼承關(guān)系;最后是專利的被引證方面,主要涉及單件專利的“被引證次數(shù)”和“家族被引證次數(shù)”,李春燕等[34]指出如果專利的被引用次數(shù)越多,則該專利越能代表該領(lǐng)域的基礎(chǔ)技術(shù),可以反映出該專利的技術(shù)先進(jìn)性。在法律層面,筆者主要選取“權(quán)利要求數(shù)量”“保護范圍”“轉(zhuǎn)讓次數(shù)”和“首權(quán)字?jǐn)?shù)”,主要涉及專利權(quán)法律效力所涉及的發(fā)明創(chuàng)造的范圍,郭青等[35]認(rèn)為權(quán)利要求數(shù)量越多,專利的保護范圍越廣;“保護范圍”主要涉及專利權(quán)法律效力所涉及的發(fā)明創(chuàng)造的范圍,“轉(zhuǎn)讓次數(shù)”反映專利的交易次數(shù),劉強[36]認(rèn)為重大技術(shù)的專利轉(zhuǎn)讓會給企業(yè)帶來大額的經(jīng)濟效益,極易發(fā)生轉(zhuǎn)讓合同生效與解除、合同權(quán)利與義務(wù)等法律問題;“首權(quán)字?jǐn)?shù)”反映專利保護的技術(shù)特征數(shù)量。在市場層面,筆者主要選取“簡單同族個數(shù)”“擴展同族個數(shù)”和“DocDB同族個數(shù)”,楊秀財[37]認(rèn)為同族專利數(shù)量可以反映專利家族學(xué)術(shù)影響力。重點專利篩選指標(biāo)如表1所示:
2.3? 研究方法
2.3.1? 模型選取
(1)模型降維融合。在模型文本特征和計量指標(biāo)數(shù)據(jù)降維融合方面,筆者選取目前較為常用的降維方法——PCA主成分分析法(principal component analysis),它是一種非監(jiān)督的機器學(xué)習(xí)算法。一般使用方差(variance)來定義樣本之間的間距,公式如下:
(2)訓(xùn)練模型選取。在數(shù)據(jù)模型建立方面,筆者選取機器學(xué)習(xí)中分類模型,主要涉及監(jiān)督和半監(jiān)督學(xué)習(xí)中以下幾種模型:一方面是半監(jiān)督學(xué)習(xí)中半監(jiān)督向量機(transductive support vector machine, TSVM),TSVM是支持向量機在半監(jiān)督學(xué)習(xí)上的推廣,穿過數(shù)據(jù)低密度區(qū)域的劃分超平面將兩類有標(biāo)記樣本分開;其次是利用偽標(biāo)簽(pseudo-labelling)算法和集成學(xué)習(xí)中隨機森林(random forest)算法結(jié)合,利用隨機森林訓(xùn)練標(biāo)記數(shù)據(jù)建立模型,再利用該模型為未標(biāo)記數(shù)據(jù)集生成偽標(biāo)簽,將原始標(biāo)簽和偽標(biāo)簽的數(shù)據(jù)集組合在一起進(jìn)行最終分類模型訓(xùn)練。另一方面是監(jiān)督學(xué)習(xí)K近鄰(K-Nearest Neighbor,KNN),KNN是將已知類別的樣本作為參照,計算未標(biāo)記數(shù)據(jù)集與標(biāo)記數(shù)據(jù)集的距離,將未標(biāo)記數(shù)據(jù)與K個最鄰近標(biāo)記數(shù)據(jù)集中所屬類別占比較多的歸為一類;樸素貝葉斯算法(Na?ve Bayesian)根據(jù)貝葉斯公式來對未標(biāo)記進(jìn)行分類,把未標(biāo)記數(shù)據(jù)判別為概率最大的一類。
2.3.2? 模型評估
筆者采用多模態(tài)模型最終完成的任務(wù)是專利無效宣告的二分類問題,故采用準(zhǔn)確率(accuracy)、平均精確率(precision)、平均召回率(recall)、平均F1值(F1)以及ROC曲線下方的面積(area under ROC the curve)5個指標(biāo)對模型的性能進(jìn)行評價。對于二分類問題,將樣例數(shù)據(jù)根據(jù)機器學(xué)習(xí)的預(yù)測類別與實際類別相結(jié)合分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)4種情況。
準(zhǔn)確率是指模型分類正確的專利樣本數(shù)量與所有的專利樣本數(shù)量的比值,其計算公式如下:
精確率是指檢測出某類特征的數(shù)量與檢測出的所有特征數(shù)量之間的比率,衡量的是模型的查準(zhǔn)率,其計算公式下:
平均召回率是指檢測出的某類特征的數(shù)量和數(shù)據(jù)集中所有的該類特征數(shù)量的比率,衡量的是檢索系統(tǒng)的查全率,其計算公式如下:
F1是基于查準(zhǔn)率與查全率的調(diào)和平均(harmonic mean)定義的,一般情況下,當(dāng)F1較高時則說明試驗方法比較有效,其計算公式如下:
AUC(Area Under Curve)可通過ROC曲線下各部分的面積求和而得,假定ROC曲線(receiver operating characteristic)是由坐標(biāo)為{(x1, y1), (x2, y2)……(xm, ym)}特征值組成,ROC曲線的y代表“真正準(zhǔn)確率”(true positive rate),x代表“假正例率”(false positive rate),其計算公式如下:
3? 實證分析
3.1? 數(shù)據(jù)來源與數(shù)據(jù)處理
《“十四五”文化和旅游科技創(chuàng)新規(guī)劃》[38]中指出開展信息技術(shù)在文化和旅游領(lǐng)域應(yīng)用示范,推動行業(yè)開發(fā)信息技術(shù)應(yīng)用新場景。因此,筆者選取新興產(chǎn)業(yè)中數(shù)字創(chuàng)意產(chǎn)業(yè)在新一代信息技術(shù)產(chǎn)業(yè)中的應(yīng)用作為研究主題,利用機器學(xué)習(xí)中分類模型,對該主題必要標(biāo)準(zhǔn)專利中的潛在高質(zhì)量專利和易發(fā)生侵權(quán)訴訟的專利進(jìn)行分類識別。模型主要涉及以下兩個方面:首先是標(biāo)記數(shù)據(jù)庫,筆者選用美國專利商標(biāo)局(USPTO)[27]標(biāo)準(zhǔn)專利中侵權(quán)專利數(shù)據(jù)庫作為標(biāo)記數(shù)據(jù),該數(shù)據(jù)為USPTO官方網(wǎng)站公布的1963—2016年在美國聯(lián)邦地區(qū)法院提起的專利訴訟數(shù)據(jù)集,王春博等[39]認(rèn)為通過分析美國專利訴訟的發(fā)生原因,能為中國企業(yè)提前降低專利訴訟風(fēng)險提供一定的參考;其次是未標(biāo)記數(shù)據(jù),筆者選取歐洲電信標(biāo)準(zhǔn)化協(xié)會(European Telecommunications Standards Institute)和國際電信聯(lián)盟(International Telecommunication Union)標(biāo)準(zhǔn)專利數(shù)據(jù)庫中該主題的國內(nèi)標(biāo)準(zhǔn)必要專利,構(gòu)建檢索式為:INDUSTRY1=(8 AND 1) AND STD-TYPE=(ETSI OR ITU),其中,INDUSTRY為戰(zhàn)略性新興產(chǎn)業(yè)類型(1:新一代信息技術(shù);8:數(shù)字創(chuàng)意產(chǎn)業(yè)),STD-TYPE為標(biāo)準(zhǔn)必要專利類型。綜上所述,標(biāo)記數(shù)據(jù)為422件,未標(biāo)記數(shù)據(jù)1 972件專利。
3.2? 分類模型構(gòu)建
3.2.1? 特征轉(zhuǎn)化融合
首先,利用2.2.1節(jié)所述的文本向量模型對專利摘要進(jìn)行詞向量處理,將專利摘要轉(zhuǎn)化為一個300維的特征向量用以表征專利文本特征;其次,再將文本向量和數(shù)據(jù)指標(biāo)橫向拼接后得到特征矩陣,再利用PCA成分分析法對特征向量矩陣進(jìn)行降維處理,利用PCA算法對所構(gòu)建的特征矩陣進(jìn)行融合重組,得出解釋方差比例和主成分個數(shù)之間的關(guān)系。如圖3所示,當(dāng)主成分個數(shù)在50左右時,解釋方差的比例開始趨近于穩(wěn)定。因此,在模型構(gòu)建時,將主成分個數(shù)設(shè)定為50進(jìn)行特征合并。
3.2.2? 分類模型
首先,使用Word2vec對專利摘要進(jìn)行文本詞向量化轉(zhuǎn)換,再利用PCA主成分分析法對數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,將融合后的數(shù)據(jù)分別建立半監(jiān)督向量機、K近鄰、樸素貝葉斯算法、偽標(biāo)簽隨機森林4種機器學(xué)習(xí)模型,利用“留出法”(hold out)按照8:2的比例,將數(shù)據(jù)劃分為訓(xùn)練集和測試集。在訓(xùn)練集上進(jìn)行單獨訓(xùn)練,其中KNN模型利用交叉驗證繪制錯誤率走勢圖,如圖4所示,當(dāng)neighbors為8左右時,整體模型錯誤率最低,僅為0.17左右。
其余模型均采用交叉驗證結(jié)合網(wǎng)格搜索以及學(xué)習(xí)曲線的方式尋找最優(yōu)超參數(shù)組合,各個分類器的參數(shù)組合見表2。由表2可以看出,集成學(xué)習(xí)的模型參數(shù)劃分相比較于單個學(xué)習(xí)模型劃分要更加細(xì)致,這主要是由于集成模型會對原始數(shù)據(jù)進(jìn)行有放回的隨機采樣,所以在模型的參數(shù)劃分上更加細(xì)致。
3.3.1? 特征重要程度評估
圖5為訓(xùn)練集模型指標(biāo)的特征重要程度。在訓(xùn)練模型構(gòu)建完成后,由于不同特征對于模型的影響程度不同,為了防止個別指標(biāo)重要性較高,影響模型其他指標(biāo)效果,則需要對所選取特征的信息熵進(jìn)行分別計算,選取最優(yōu)指標(biāo)。筆者將訓(xùn)練集數(shù)據(jù)進(jìn)行特征重要程度可視化,由圖5可以看出,首先是特征重要程度排名前三的指標(biāo),排在第一位的是“11DocDB同族個數(shù)”,對于模型分類結(jié)果的重要程度最高,重要程度為0.16左右;排在第二位的是“3引證次數(shù)”,重要程度為0.15左右;排在第三位的是“4被引證次數(shù)”,重要程度為0.10左右。其次,“6技術(shù)先進(jìn)性”重要程度在14項指標(biāo)中排名最低,僅為0.02左右。最后,其余指標(biāo)的重要程度均在0.05左右。
根據(jù)特征的重要程度可以看出,所選取的14項指標(biāo)的特征重要程度分布相對較為均衡,不存在個別指標(biāo)主導(dǎo)整體模型情況。因此,所構(gòu)建模型選取的14項指標(biāo)均可放入多特征融合的必要標(biāo)準(zhǔn)專利分類當(dāng)中。
3.3.2? 參數(shù)評估
為了評估筆者構(gòu)建的機器學(xué)習(xí)模型的性能,采用2.2.3節(jié)所述的評估指標(biāo),對半監(jiān)督向量機、K近鄰、樸素貝葉斯算法、偽標(biāo)簽隨機森林4個模型在測試集上的Accuracy(準(zhǔn)確率)、Precision(精準(zhǔn)率)、Recall(召回率)、F1-score(F1分?jǐn)?shù))以及AUC(可分離測度)在測試集上的表現(xiàn)進(jìn)行評分對比。如表3所示,從表中可以看出,在測試集中,Random Forest的Accuracy、Precision、Recall、F1以及AUC的評分是所有模型當(dāng)中最高的,其評分均在0.85以上。由此可見,筆者構(gòu)建的數(shù)據(jù)在偽標(biāo)簽隨機森林集成模型上的表現(xiàn)相較于其他單個模型表現(xiàn)較優(yōu),將計量指標(biāo)和文本特征進(jìn)行融合后,對標(biāo)準(zhǔn)專利識別分類模型所涉及的內(nèi)容更加全面,對于專利的分類識別也就更加準(zhǔn)確。另外,本文數(shù)據(jù)主要來源于美國USPTO中標(biāo)準(zhǔn)專利侵權(quán)案件,根據(jù)上述5種模型的運行和評估情況,均可以將模型運用在不同領(lǐng)域的專利不同類別的識別。
3.4? 專利分類篩選
模型構(gòu)建完成后,再將“未標(biāo)記”數(shù)據(jù)集放入模型進(jìn)行無效宣告預(yù)測,結(jié)果為341件專利被預(yù)測為“有效”,即為行業(yè)內(nèi)重點必要標(biāo)準(zhǔn)專利;1 631件專利被預(yù)測為“無效”專利,即為行業(yè)內(nèi)極易發(fā)生侵權(quán)訴訟專利。表4為未標(biāo)記數(shù)據(jù)特征平均值,表5為模型預(yù)測結(jié)果為“有效”的專利清單,表6為模型預(yù)測結(jié)果為“無效”的專利清單(僅展示部分?jǐn)?shù)據(jù))。
根據(jù)表4可以看出,其中被預(yù)測為“有效”的高質(zhì)量專利的主要計量指標(biāo)特征的取值分別為:平均被引證次數(shù)為0.243左右、平均首權(quán)字?jǐn)?shù)為258、平均技術(shù)先進(jìn)性為9.65、平均技術(shù)穩(wěn)定性為8.95、平均同族個數(shù)為17.77、權(quán)利要求數(shù)量為24.29;而被預(yù)測為“無效”的極易發(fā)生侵權(quán)訴訟的主要計量指標(biāo)特征的取值分別為:平均被引證次數(shù)0.91、平均首權(quán)字?jǐn)?shù)為288、平均技術(shù)先進(jìn)性為9.21、平均技術(shù)穩(wěn)定性為8.76、平均同族個數(shù)為19.21、權(quán)利要求數(shù)量為19.42。由此可以看出,兩者的相差主要集中在被引次數(shù)、首權(quán)字?jǐn)?shù)和權(quán)利要求數(shù)量,其余指標(biāo)的相差較小。因此,企業(yè)應(yīng)多注重自身被引次數(shù)較高、首權(quán)字?jǐn)?shù)較多的專利,該類專利易發(fā)生侵權(quán)訴訟風(fēng)險。
根據(jù)表5所預(yù)測結(jié)果為“有效”的專利主題可以看出,近5年,在文化和旅游科技創(chuàng)新領(lǐng)域的高質(zhì)量重點標(biāo)準(zhǔn)專利主要集中在涉及網(wǎng)絡(luò)安全監(jiān)視、網(wǎng)絡(luò)密鑰、信息處理等技術(shù)主題中。同時,根據(jù)表6所預(yù)測結(jié)果為“無效”的專利主題可以看出,近5年,在文化和旅游科技創(chuàng)新領(lǐng)域的標(biāo)準(zhǔn)專利在移動通信系統(tǒng)、信息終端接入、移動數(shù)據(jù)處理等技術(shù)主題中極易存在訴訟競爭的風(fēng)險。結(jié)合崔維軍[40]所指出的5G標(biāo)準(zhǔn)必要專利分布特征主要集中在內(nèi)部固定網(wǎng)絡(luò)、LTE和無線電技術(shù)等領(lǐng)域。因此,行業(yè)內(nèi)企業(yè)在后續(xù)專利研發(fā)、布局中可以參考標(biāo)準(zhǔn)必要重點專利清單,同時根據(jù)訴訟風(fēng)險清單盡可能規(guī)避該類技術(shù)主題存在的訴訟風(fēng)險。
4? 研究發(fā)現(xiàn)與結(jié)果討論
4.1? 研究發(fā)現(xiàn)
筆者首先根據(jù)前人對于專利無效宣告和必要標(biāo)準(zhǔn)專利的相關(guān)研究,提出了從專利侵權(quán)無效宣告視角出發(fā),基于多模態(tài)融合的專利分類方法;其次,利用Word2vec對文本進(jìn)行數(shù)據(jù)轉(zhuǎn)換,再采用集成學(xué)習(xí)模型和機器學(xué)習(xí)中二分類模型,對專利無效宣告傾向進(jìn)行分類,進(jìn)行模型對比驗證;最后,在數(shù)據(jù)庫的選取上,將美國標(biāo)準(zhǔn)專利數(shù)據(jù)庫和國內(nèi)新興產(chǎn)業(yè)標(biāo)準(zhǔn)專利相結(jié)合,對模型進(jìn)行實驗分析,驗證筆者構(gòu)建的專利分類模型的有效性及準(zhǔn)確性。通過實證分析得出如下結(jié)論:
(1)模型構(gòu)建方面。在對文本和數(shù)據(jù)的處理上,由于數(shù)據(jù)向量形成較多,則需要對融合向量進(jìn)行數(shù)據(jù)合并和數(shù)據(jù)降維處理,可選用主成分分析法對向量進(jìn)行降維。與此同時,在模型分化時,為了防止模型的過擬合,含有過多的不必要信息,需要計算模型的最佳節(jié)點和最
佳分化方法,可利用交叉驗證方法繪制錯誤率、網(wǎng)格搜索法以及繪制學(xué)習(xí)曲線的方式來獲取所選取模型的各類最優(yōu)參數(shù)。另外,根據(jù)模型的評估結(jié)果可以看出,偽標(biāo)簽和隨機森林相結(jié)合模型效果較好,準(zhǔn)確率為0.86左右,F(xiàn)1為0.85左右。在模型構(gòu)建后,為了防止個別指標(biāo)出現(xiàn)主導(dǎo)整體預(yù)測結(jié)果的現(xiàn)象出現(xiàn),需要對所選取的特征指標(biāo)進(jìn)行特征重要程度的分析。根據(jù)特征重要程度排序可以看出,集成學(xué)習(xí)模型的整體表現(xiàn)要優(yōu)于單個模型的訓(xùn)練。
(2)識別結(jié)論。通過構(gòu)建模型識別可以看出,文化和旅游科技創(chuàng)新領(lǐng)域的高質(zhì)量重點標(biāo)準(zhǔn)專利主要集中在涉及網(wǎng)絡(luò)安全監(jiān)視、網(wǎng)絡(luò)密鑰、信息處理等技術(shù)主題,在移動通信系統(tǒng)、信息終端接入、移動數(shù)據(jù)處理等技術(shù)主題中極易存在訴訟競爭的風(fēng)險,為后續(xù)國內(nèi)文旅企業(yè)專利布局提供一定的參考。并且根據(jù)模型的整體呈現(xiàn)效果,建立一套較為完整的專利分類篩選體系,可以應(yīng)用于多個領(lǐng)域,快速定位行業(yè)內(nèi)的重點專利的同時,達(dá)到很好的專利預(yù)警效果。
4.2? 結(jié)果討論
筆者主要以美國專利商標(biāo)局(USPTO)披露的各行業(yè)必要標(biāo)準(zhǔn)專利為參考標(biāo)準(zhǔn),選取當(dāng)中發(fā)生的侵權(quán)專利,對國內(nèi)新興產(chǎn)業(yè)行業(yè)內(nèi)專利進(jìn)行重點專利和易發(fā)生訴訟專利進(jìn)行分類篩選,同時實現(xiàn)兩種不同類型專利的分類篩選。綜上所述,筆者構(gòu)建的必要標(biāo)準(zhǔn)專利預(yù)測模型以及專利無效宣告的預(yù)警體系對我國專利的研究具有一定的參考性以及現(xiàn)實意義,可以為企業(yè)以及其他創(chuàng)新主體對于自身專利的情況提供一定的判斷依據(jù),為保護自身專利的穩(wěn)定性提供相應(yīng)的數(shù)據(jù)支持。
但是,筆者構(gòu)建的預(yù)測模型和預(yù)警體系也存在一定的局限性:①在數(shù)據(jù)識別指標(biāo)的選取上,主要選取部分定量指標(biāo)進(jìn)行模型構(gòu)建,并未充分考慮其他外部因素指標(biāo)對于侵權(quán)無效宣告預(yù)測的影響,識別預(yù)測指標(biāo)體系也需進(jìn)一步完善。并且選取數(shù)據(jù)二分類較為均衡,且本文數(shù)據(jù)模型是對已經(jīng)涉及侵權(quán)案例中最終有效或無效進(jìn)行判定,并未充分考慮是否侵權(quán)判定。②在文本類別的識別上,筆者主要選取摘要作為本文數(shù)據(jù),并未涉及專利的說明書和權(quán)利要求書,對于專利文本的提取不夠全面。③在模型的選取上,筆者僅采用機器學(xué)習(xí)中偽標(biāo)簽、支持向量機、K近鄰、樸素貝葉斯以及集成學(xué)習(xí)中隨機森林對專利進(jìn)行分類篩選的構(gòu)建,模型選擇較為單一,并未嘗試?yán)脭?shù)據(jù)挖掘中其他模型對專利進(jìn)行分類預(yù)測的構(gòu)建。因此,在后續(xù)的研究過程中,筆者將根據(jù)以上三點進(jìn)行更加深入的研究,不斷完善專利預(yù)警預(yù)測模型,進(jìn)而構(gòu)建更加精準(zhǔn)的專利無效宣告的預(yù)警體系,進(jìn)一步改進(jìn)模型,使分析結(jié)果更為準(zhǔn)確。
參考文獻(xiàn):
[1] 馬麗婧, 劉婷, 趙亞娟, 等. 潛在標(biāo)準(zhǔn)必要專利特征研究[J]. 中國發(fā)明與專利, 2021, 18(7): 3-12. (MA L J, LIU T, ZHAO Y J, et al. Research on the characteristics of potential standard essential patents[J]. CHINA invention & patent, 2021, 18(7): 3-12.)
[2] 孫茂宇, 蘇志國, 毛琎. 標(biāo)準(zhǔn)涉及專利問題研究[C]//專利法研究(2013). 北京: 知識產(chǎn)權(quán)出版社, 2015: 263-273. (SUN M Y, SU Z G, MAO J. Standards research on patent issues [C]//Patent Law Research (2013). Beijing: Intellectual Property Publishing House, 2015: 263-273.)
[3] 知識產(chǎn)權(quán)強國建設(shè)綱要(2021—2035年)[J]. 知識產(chǎn)權(quán), 2021(10): 3-9. (Outline for building a strong intellectual property country (2021—2035)[J]. Intellectual property, 2021(10): 3-9.)
[4] 李曉鳴. 我國專利無效宣告制度的不足及其完善[J]. 法律科學(xué)(西北政法大學(xué)學(xué)報), 2021, 39(1): 149-159. (LI X M. The deficiency and perfection of patent invalidation system in China [J]. Science of law (Journal of Northwest University of Political Science and Law), 2021, 39(1): 149-159.)
[5] 王瑞龍. 侵權(quán)訴訟中專利權(quán)無效抗辯制度弊端及解決路徑[J]. 中南民族大學(xué)學(xué)報(人文社會科學(xué)版), 2018, 38(2): 126-131. (WANG R L. The drawbacks and solutions of the patent invalidation defense system in infringement litigation [J]. Journal of South-Central Minzu University (humanities and social sciences edition), 2018, 38 (2): 126-131.)
[6] STERLACCHINI A. Trends and determinants of energy innovations: patents, environmental policies and oil prices[J]. Journal of economic policy reform, 2020, 23(1): 49-66.
[7] 李睿, 徐璇. 宣告無效專利的引文特征及其情報學(xué)意義[J]. 情報理論與實踐, 2019, 42(2): 25-30. (LI R, XU X. Citation characteristics and information science significance of invalid patents [J]. I Information studies: theory & application, 2019, 42(2): 25-30.)
[8] 周克放, 喬永忠. 基于無效程序的ICT領(lǐng)域?qū)@|(zhì)量影響因素研究[J]. 科研管理, 2021, 42(10): 148-155. (ZHOU K F, QIAO Y Z. Research on the influencing factors of patent quality in ICT field based on invalid procedures [J]. Scientific research management, 2021, 42(10): 148-155.)
[9] RAI A K, ALLISON J R, SAMPAT B N. University software ownership and litigation: a first examination[J]. North Carolina law review, 2009, 87(5): 1519.
[10] PATEL P A, HALL A, AUGOUSTIDES J G T, et al. Dynamic shunting across a patent foramen ovale in adult cardiac surgery—perioperative challenges and management[J]. Journal of cardiothoracic and vascular anesthesia, 2018, 32(1): 542-549.
[11] 王曉曄. 標(biāo)準(zhǔn)必要專利反壟斷訴訟問題研究[J]. 中國法學(xué), 2015(6): 217-238. (WANG X Y. Research on antitrust litigation of standard essential patents [J]. China legal science, 2015(6): 217-238.)
[12] BEKKERS R, MARTINELLI A, TAMAGNI F. The impact of including standards-related documentation in patent prior art: Evidence from an EPO policy change[J]. Research policy, 2020, 49(7): 104007.
[13] 李宗輝. 標(biāo)準(zhǔn)必要專利跨國訴訟中禁訴令的適用標(biāo)準(zhǔn)研究[J]. 法商研究, 2022, 39(4): 187-200. (LI ZH. Research on the applicable standards of injunction in transnational litigation of standard essential patents[J]. Legal quotient research, 2022, 39(4): 187-200.)
[14] CONTRERAS J L. Patents on 5G standards are not matters of national security[J]. IIC-International review of intellectual property and competition law, 2022, 53(6): 849-852.
[15] KANG I S, NA S H, KIM J, et al. Cluster-based patent retrieval[J]. Information processing & management, 2007, 43(5): 1173-1182.
[16] LAER M V, BLIND K, RAMEL F. Standard essential patents and global ICT value chains with a focus on the catching-up of China[J]. Telecommunications policy, 2022, 46(2): 102110.
[17] 李婳婧, 謝秋琪, 李聞宇. 潛在標(biāo)準(zhǔn)必要專利信息識別路徑研究——以5G標(biāo)準(zhǔn)為例[J]. 中國標(biāo)準(zhǔn)化, 2022(15): 81-87. (LI H J, XIE Q Q, LI W Y. Research on the identification path of potential standard essential patent information-taking 5G standard as an example[J]. China standardization, 2022(15): 81-87.)
[18] 孫玉艷, 張文德. 基于組合預(yù)測模型的專利價值評估研究[J]. 情報探索, 2010(6): 73-76. (SUN Y Y, ZHANG W D. Research on patent value evaluation based on combined forecasting model[J]. Information research, 2010(6): 73-76.)
[19] 徐晨倩, 朱雪忠. 基于訴訟專利情報的美國337調(diào)查風(fēng)險預(yù)警研究[J]. 情報雜志, 2021, 40(9): 37-44. (XU CQ, ZHU XZ. Research on risk early warning of US 337 investigation based on litigation patent information[J]. Journal of intelligence, 2021, 40(9): 37-44.)
[20] 王子焉, 劉文濤, 倪淵, 等. 專利價值評估研究綜述[J]. 科技管理研究, 2019, 39(16): 181-190. (WANG Z Y, LIU W T, NI Y, et al. Review of patent value evaluation research[J]. Science and technology management research, 2019, 39(16): 181-190.)
[21] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質(zhì)量評價方法研究[J]. 科研管理, 2018, 39(5): 138-146. (ZHANG J, SUN C, ZHAI D S, et al. Research on patent quality evaluation method based on litigation patents[J]. Scientific research management, 2018, 39(5): 138-146.)
[22] 李靜, 徐路路. 基于機器學(xué)習(xí)算法的研究熱點趨勢預(yù)測模型對比與分析——BP神經(jīng)網(wǎng)絡(luò)、支持向量機與LSTM模型[J]. 現(xiàn)代情報, 2019, 39(4): 23-33. (LI J, XU LR. Comparison and analysis of research hotspot trend prediction models based on machine learning algorithms-BP neural network, support vector machine and LSTM model [J]. Journal of modern information, 2019, 39(4): 23-33.)
[23] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質(zhì)量評價方法研究[J]. 科研管理, 2018, 39(5): 138-146. (ZHANG J, SUN C, ZHAI D S, et al. Research on patent quality evaluation method based on litigation patents[J]. Scientific research management, 2018, 39(5): 138-146.)
[24] JEE J, SHIN H, KIM C, et al. Six different approaches to defining and identifying promising technology through patent analysis[J]. Technology analysis & strategic management, 2022, 34(8): 961-973.
[25] INDUKURI K V, AMBEKAR A A, SUREKA A. Similarity analysis of patent claims using natural language processing techniques[C]//International conference on computational intelligence and multimedia applications (ICCIMA 2007). Piscataway: IEEE, 2007: 169-175.
[26] Patent litigation data from US district court electronic records (1963-2015)[EB/OL]. [2023-09-20]. https://www. uspto.gov/.
[27] 繆建明, 賈廣威, 張運良. 基于摘要文本的專利快速自動分類方法[J]. 情報理論與實踐, 2016, 39(8): 103-105, 91. (MIAO J M, JIA G W, ZHANG Y L. Rapid automatic classification of patents based on abstract text[J]. Information studies: theory & application, 2016, 39(8): 103-105, 91.)
[28] 吳潔, 桂亮, 劉鵬, 等. 多維特征視角下基于圖卷積網(wǎng)絡(luò)的專利技術(shù)領(lǐng)域自動識別研究[J]. 中國管理科學(xué), 2023, 30(12): 185-197. (WU J, GUI L, LIU P, et al. Research on automatic identification of patent technology field based on graph convolutional network from the perspective of multi-dimensional features[J]. Chinese journal of management science, 2023, 30(12): 185-197.)
[29] 周群芳, 吳婕, 谷俊. 基于本體的專利語義檢索研究[J]. 情報探索, 2013(9): 71-74. (ZHOU Q F, WU J, GU J. Research on ontology-based patent semantic retrieval[J]. Information research, 2013(9): 71-74.)
[30] 馮君. 基于專利信息分析的高??萍紕?chuàng)新能力評價指標(biāo)體系初探[J]. 科技情報開發(fā)與經(jīng)濟, 2010, 20(10): 193-194, 204. (FENG J. Evaluation index system of university science and technology innovation ability based on patent information analysis[J]. Sci-tech information development & economy 2010, 20(10): 193-194, 204.)
[31] 劉亞杰, 陳朝暉, 謝薇. 高校專利運營風(fēng)險指標(biāo)體系構(gòu)建研究[J]. 中國發(fā)明與專利, 2018, 15(1): 20-24. (LIU Y J, CHEN Z H, XIE W. Research on the construction of patent operation risk index system in universities [J]. China invention and patent, 2018, 15(1): 20-24.)
[32] LERNER J, SERU A. The use and misuse of patent data: Issues for finance and beyond[J]. The review of financial studies, 2022, 35(6): 2667-2704.
[33] 張嫻, 田鵬偉, 茹麗潔, 等. 專利前向引用遵循Logistic擴散模型再驗證[J]. 知識管理論壇, 2017, 2(2): 110-119. (ZHANG X, TIAN P W, RU L J, et al. Patent forward citations follow the Logistic diffusion model for re-verification [J]. Knowledge management forum, 2017, 2(2): 110-119.)
[34] 李春燕, 石榮. 專利質(zhì)量指標(biāo)評價探索[J]. 現(xiàn)代情報, 2008(2): 146-149. (LI C Y, SHI R. Evaluation of patent quality indicators [J]. Modern intelligence, 2008(2): 146-149.)
[35] 郭青, 戚湧, 高盼軍. 基于技術(shù)、法律和經(jīng)濟三位一體的專利質(zhì)量評價及應(yīng)用研究[J]. 中國發(fā)明與專利, 2021, 18(1): 21-29. (GUO Q, QI Y, GAO P J. Research on patent quality evaluation and application based on the trinity of technology, law and economy[J]. China invention & patent, 2021, 18(1): 21-29.)
[36] 劉強. 專利開放許可費認(rèn)定問題研究[J]. 知識產(chǎn)權(quán), 2021(7): 3-23. (LIU Q. Research on the determination of patent open license fee [J]. Intellectual property, 2021(7): 3-23.)
[37] 楊秀財, 林波, 王園. 專利家族學(xué)術(shù)影響力的影響因素研究[J]. 科技與經(jīng)濟, 2020, 33(3): 46-50. (YANG X C, LIN B, WANG Y. Research on the influencing factors of the academic influence of patent family [J]. Science & technology and economy, 2020, 33(3): 46-50.)
[38] 文化和旅游部發(fā)布《“十四五”文化和旅游發(fā)展規(guī)劃》[J]. 中國會展(中國會議), 2021(12): 26-29. (The Ministry of Culture and Tourism issued the “14th Five-Year Plan for Cultural and Tourism Development” [J]. China convention and exhibition (China conference), 2021(12): 26-29.)
[39] 王春博, 王宇開, 杜偉, 等. 基于美國專利數(shù)據(jù)的涉訴專利申請?zhí)卣餮芯縖J]. 情報雜志, 2022, 41(12): 64-70, 15. (WANG C B, WANG Y K, DU W, et al. Research on the characteristics of patent applications involving litigation based on US patent data [J]. Intelligence journal, 2022, 41(12): 64-70, 15.)
[40] 崔維軍, 李璐, 韓碩, 等. 5G標(biāo)準(zhǔn)必要專利分布特征: 國際比較研究[J]. 科技管理研究, 2022, 42(5): 162-169. (CUI W J, LI L, HAN S, et al. Distribution characteristics of 5G standard essential patents: international comparative study [J]. Science and technology management research, 2022, 42(5): 162-169.)
作者貢獻(xiàn)說明:
彭啟寧:數(shù)據(jù)分析與論文撰寫;
柳炳祥:數(shù)據(jù)分析與論文指導(dǎo);
付振康:數(shù)據(jù)收集與整理;
貝汶瑜:數(shù)據(jù)收集與整理。
Construction of Standard Essential Patent Value Classification Recognition System Under the Background of Infringement Litigation
Peng Qining1? Liu Bingxiang1,2? Fu Zhenkang3? Bei Wenyu1
1Intellectual Property Information Service Center, Jingdezhen Ceramic University, Jingdezhen 333001
2School of Information Engineering, Jingdezhen Ceramic University, Jingdezhen 333403
3School of Information Management, Nanjing University, Nanjing 210008
Abstract: [Purpose/Significance] Based on machine learning algorithm, an automatic classification and screening model based on multi-modal feature fusion is constructed for industry standard patents. The research also explores a classification indicator system for the value of standard-essential patents in the context of infringement litigation. [Method/Process] First, standard necessary patents after infringement litigation in USPTO are used as marker data. Then, the text data and indicator data are integrated with dimensionality reduction, and the patent classification and screening model based on supervised and semi-supervised learning machine model is established. Finally, the standard patents of digital creative industry are classified and screened. [Result/Conclusion] The average F1 value of the four models constructed in this paper is above 0.8 on the test set, among which the pseudo-labeled random forest model has the best performance and the average F1 value reaches 0.871 06.
Keywords: patent infringement litigation? ? standard patent? ? machine learning? ? natural language processing? ? classification screening
基金項目:本文系2022年度文化和旅游部提質(zhì)培優(yōu)計劃專業(yè)研究生重點扶持項目(MLIS類)“中小型文化創(chuàng)意企業(yè)知識產(chǎn)權(quán)創(chuàng)造能力影響因素研究——以景德鎮(zhèn)陶瓷文創(chuàng)企業(yè)為例”(項目編號:Mlis-003)和江西省研究生創(chuàng)新基金項目“江西省新材料產(chǎn)業(yè)核心專利識別研究”(項目編號:JYC202207)研究成果之一。
作者簡介:彭啟寧,碩士研究生;柳炳祥,教授,博士,通信作者,E-mail: 1093624070@qq.com;付振康,博士研究生;貝汶瑜,碩士研究生。
收稿日期:2023-05-08? ? ? ? 發(fā)表日期:2023-11-20? ? ? ? 本文責(zé)任編輯:劉遠(yuǎn)穎