金 武,王書磊,劉曉萌,夏 曄,劉建偉*
(1.中國水產(chǎn)科學(xué)研究院淡水漁業(yè)研究中心,江蘇無錫 214081;2.中國水產(chǎn)科學(xué)研究院,北京 100141)
漁業(yè)專利作為漁業(yè)科研院所知識產(chǎn)權(quán)的重要組成部分,也是漁業(yè)科學(xué)技術(shù)和經(jīng)濟(jì)活動中產(chǎn)生的漁業(yè)領(lǐng)域核心競爭力的重要資源,對促進(jìn)我國漁業(yè)發(fā)展和制定發(fā)展戰(zhàn)略,助力漁業(yè)研究及應(yīng)用的創(chuàng)新發(fā)展具有重要作用[1]。中國水產(chǎn)科學(xué)研究院是中國水產(chǎn)科研領(lǐng)域的權(quán)威機(jī)構(gòu)[2],其發(fā)表的專利能夠較好地反應(yīng)中國漁業(yè)領(lǐng)域?qū)@厩闆r。截至2018年年底,中國水產(chǎn)科學(xué)研究院累計(jì)申請8 000余項(xiàng)專利,其中已經(jīng)轉(zhuǎn)化的漁業(yè)專利具有哪些量化的特點(diǎn),如何從已有專利中篩選出高價(jià)值專利并重點(diǎn)做好這些專利的轉(zhuǎn)化,這些問題目前仍缺乏有效的工具去解決。
人工神經(jīng)網(wǎng)絡(luò)作為數(shù)據(jù)挖掘和建模的重要技術(shù)手段之一,屬于人工智能(artificial intelligence,AI)的技術(shù)范疇。它不需要有關(guān)體系的先驗(yàn)知識,具有自適應(yīng)建模學(xué)習(xí)及自動建模功能[3],并能從大量數(shù)據(jù)中挖掘出傳統(tǒng)分析方法不能發(fā)現(xiàn)的、隱含的、先前未知的和對決策有潛在價(jià)值的關(guān)系、模式和趨勢[4]。當(dāng)系統(tǒng)環(huán)境發(fā)生變化時(shí),只需輸入新的資料讓模型再學(xué)習(xí)即可很快跟蹤系統(tǒng)的變化,可操作性強(qiáng)[5,6]。它在一些典型的非線性系統(tǒng),如:生態(tài)系統(tǒng)[3]、城市用水需求組合[7]、海淡水水質(zhì)監(jiān)測[8]和湖泊富營養(yǎng)化[9]等分析與建模中得到了廣泛應(yīng)用。
利用神經(jīng)網(wǎng)絡(luò)建模對中國專利布局、高價(jià)值專利篩選的探索也取得了一些進(jìn)展[10-16]。但漁業(yè)專利作為我國農(nóng)業(yè)核心競爭力的重要資源之一,專利轉(zhuǎn)化率仍有較大提升空間[17]。利用神經(jīng)網(wǎng)絡(luò)及其各種衍生模型進(jìn)行專利等級劃分的嘗試取得了長足發(fā)展[10,11,13,16,18-20],但利用神經(jīng)網(wǎng)絡(luò)進(jìn)行行業(yè)細(xì)分領(lǐng)域?qū)@燃墑澐值纳钊胙芯咳暂^少。本文通過對中國水產(chǎn)科學(xué)研究院已有專利進(jìn)行價(jià)值高中低人工分類標(biāo)注,并利用人工神經(jīng)網(wǎng)絡(luò)對現(xiàn)有數(shù)據(jù)進(jìn)行學(xué)習(xí),建立數(shù)學(xué)模型,以期為提升專利管理效率,重點(diǎn)管理漁業(yè)高價(jià)值專利提供參考。
根據(jù)中國知網(wǎng)專利數(shù)據(jù)庫進(jìn)行申請人為“中國水產(chǎn)科學(xué)研究院”模糊搜索的結(jié)果,截至2019年8月7日,該數(shù)據(jù)庫收錄專利申請日覆蓋2007年11月1日—2019年1月11日,中國水產(chǎn)科學(xué)研究院(因北戴河中心實(shí)驗(yàn)站、營口增殖實(shí)驗(yàn)站、長島增殖實(shí)驗(yàn)站及下營增殖實(shí)驗(yàn)站專利申請量相對較少或收錄不完整,最終數(shù)據(jù)集中未收入)各類專利合計(jì)6 592項(xiàng)。其中2007年和2019年專利數(shù)據(jù)庫收錄不全,這兩部分?jǐn)?shù)據(jù)做剔除處理。經(jīng)過數(shù)據(jù)清洗,包括刪除重復(fù)數(shù)據(jù)、補(bǔ)充缺失值和數(shù)據(jù)歸一化等操作后[21],5 404項(xiàng)專利數(shù)據(jù)集作為樣本數(shù)據(jù)用于后續(xù)處理,專利申請日覆蓋2008年1月1日—2018年12月31日。該數(shù)據(jù)集包括專利申請人、專利發(fā)明人、申請?zhí)?、公開號、申請日期、郵編、地址、專利代理機(jī)構(gòu)、代理人、國省代碼、摘要、主權(quán)項(xiàng)、主分類號、專利分類號、申請周期、法律公告日和法律狀態(tài)17項(xiàng)信息。
專利計(jì)量參數(shù)來自商業(yè)數(shù)據(jù)庫Patentics(https://www.patentics.com/),其中包括專利度、獨(dú)權(quán)度、方法度、特征度、引用數(shù)、自引用數(shù)、非自引用數(shù)、引用公司數(shù)、被引用數(shù)、影響因子、被自引用、非被自引用數(shù)、被引用公司數(shù)、被引用國家數(shù)、同族數(shù)和同族國家數(shù)16個變量。相關(guān)變量的描述見表1。
表1 數(shù)據(jù)變量定義Tab.1 Definition of data variables
經(jīng)合并專利信息和專利計(jì)量參數(shù)后,共有5 404項(xiàng)數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)建模分析。原始數(shù)據(jù)根據(jù)最大值-最小值法進(jìn)行歸一化處理。通過對專利法律狀態(tài)進(jìn)行手動標(biāo)記后,隨機(jī)挑選70%的數(shù)據(jù)用于模型學(xué)習(xí)訓(xùn)練,30%的數(shù)據(jù)用于測試模型效果。模型準(zhǔn)確度通過(accuracy,ACC)比值法計(jì)算:
式(1)中:TP為真陽性,TN為真陰性,F(xiàn)P為假陽性,F(xiàn)N為假陰性。
根據(jù)數(shù)據(jù)集中的法律狀態(tài)變量,將專利申請權(quán)、專利權(quán)的轉(zhuǎn)移,專利實(shí)施許可合同備案的生效、變更及注銷和著錄事項(xiàng)變更標(biāo)記為第一類(高價(jià)值),授權(quán)專利標(biāo)記為第二類(中等價(jià)值),其余全部標(biāo)記為第三類(一般價(jià)值)。數(shù)據(jù)分析采用R統(tǒng)計(jì)軟件和neurallnet包,人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)高價(jià)值專利篩選代碼[11]經(jīng)修改后用于分析。為避免模型不收斂,收斂誤差設(shè)置為1×107。人工神經(jīng)網(wǎng)絡(luò)模型的評估采用混淆矩陣法計(jì)算yACC值。
當(dāng)隱層設(shè)置等于5時(shí),繪制neurallnet包默認(rèn)單隱層BP(back propagation)神經(jīng)網(wǎng)絡(luò)圖像如圖1所示,每個網(wǎng)絡(luò)連接上的數(shù)值為該連接的權(quán)重值。該模型的準(zhǔn)確度為73.59%,達(dá)到預(yù)期目標(biāo)。trueclass為模型輸出對專利劃分的類別??梢詫⒃撃P筒渴鸬狡渌男碌臄?shù)據(jù)集上,實(shí)施高價(jià)值專利的篩選工作。
當(dāng)隱含層改為具有兩層隱含層的神經(jīng)網(wǎng)絡(luò)時(shí),結(jié)果如圖2。模型的準(zhǔn)確率降為10.92%,說明單隱層的網(wǎng)絡(luò)預(yù)測結(jié)果優(yōu)于深度神經(jīng)網(wǎng)絡(luò)。如果經(jīng)過擴(kuò)大訓(xùn)練集比例,調(diào)整輸入變量個數(shù)等優(yōu)化后,仍顯示單隱層人工神經(jīng)網(wǎng)絡(luò)模型優(yōu)于深度神經(jīng)網(wǎng)絡(luò),則可以利用單隱層神經(jīng)網(wǎng)絡(luò)進(jìn)行高價(jià)值專利的篩選。
價(jià)值專利是指具有較高使用價(jià)值、交易價(jià)值和附加價(jià)值的專利,能夠使得專利權(quán)人通過使用專利技術(shù)進(jìn)行生產(chǎn)經(jīng)營獲得較高收入,或者能夠通過交易行為或者質(zhì)押等類交易行為獲取較多收益,或者通過其附加價(jià)值為專利權(quán)人帶來間接的、潛在的或隱形的某種積極效果[18]。高價(jià)值專利的識別長期以來缺乏可供實(shí)際操作的有效識別方式[22],對專利權(quán)價(jià)值評估和高價(jià)值專利識別,國內(nèi)外學(xué)者已經(jīng)開展了一些研究,但是多集中于評估模型的理論研究[10-13,18]。
圖1 專利價(jià)值評估單隱層人工神經(jīng)網(wǎng)絡(luò)模型Fig.1 Single hidden layer artificial neural network model for patent valuation
圖2 專利價(jià)值評估雙隱層人工神經(jīng)網(wǎng)絡(luò)模型Fig.2 Two hidden layer artificial neural network model for patent valuation
近年來,中國專利申請量和授權(quán)量都快速增長,隨之而來給專利審查和科研院所知識產(chǎn)權(quán)管理部門帶來了極大挑戰(zhàn)。一方面,專利審查部門需要將高價(jià)值專利審查周期壓縮;另一方面,知識產(chǎn)權(quán)管理部門在管理海量專利時(shí),缺乏工作重點(diǎn),導(dǎo)致一部分高價(jià)值專利束之高閣,客觀上降低了專利的轉(zhuǎn)化效率。借助于以人工神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù),可以快速將知識產(chǎn)權(quán)管理部門的工作重點(diǎn)集中在高價(jià)值專利的轉(zhuǎn)化方面,促進(jìn)成果轉(zhuǎn)化,提高轉(zhuǎn)化效率。根據(jù)本文建立的人工神經(jīng)網(wǎng)絡(luò)及分析結(jié)果,今后可以從擴(kuò)大漁業(yè)專利訓(xùn)練數(shù)據(jù)集、調(diào)整模型輸入變量,選擇合適的隱含層等角度進(jìn)一步提升模型的準(zhǔn)確度。