管魏琪
摘要:技術(shù)在繼承與創(chuàng)新中發(fā)展。專利檢索為技術(shù)繼承提供了便利,檢索能夠更快的了解某項(xiàng)技術(shù)同時(shí)還能避免重復(fù)的勞動;專利分析可以預(yù)測領(lǐng)域空白點(diǎn)為創(chuàng)新做指引。專利檢索與分析使企業(yè)明晰世界專利的動態(tài)、避免重復(fù)開發(fā)與資金浪費(fèi),對企業(yè)而言功勞甚大。本文以鋼鐵、電力產(chǎn)業(yè)專利作為數(shù)據(jù)源構(gòu)建專利數(shù)據(jù)檢索與分析系統(tǒng)。
關(guān)鍵詞:數(shù)據(jù)清洗;專利檢索;專利分析;聚類分析
中圖分類號:TP31? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)10-0040-03
Abstract: Technology is developed in inheritance and innovation. Patent search provides convenience for technology inheritance, which can quickly understand a certain technology while avoiding duplication of labor; patent analysis can predict gaps in the field and guide innovation. Patent search and analysis enable companies to clarify the dynamics of patents in the world, avoid repeated development and waste of funds, which is a great contribution to companies. This article uses the steel and electric power industry patents as data sources to construct a patent data retrieval and analysis system.
Key words: Data cleaning; patent search; patent analysis; cluster analysis
當(dāng)科技的進(jìn)步,伴隨著技術(shù)的更新,專利數(shù)量的涌現(xiàn)。專利存在多種特性與特點(diǎn)。例如專利的復(fù)雜性表現(xiàn)為同族專利的復(fù)雜性與不同族專利的復(fù)雜性,同族專利的復(fù)雜性主要體現(xiàn)為同族不同專利會有多個(gè)不同優(yōu)先權(quán)人,同族的不同專利又具有一個(gè)相同的優(yōu)先權(quán)人,而不同族的復(fù)雜性就更好理解,它就為專利涉及多個(gè)領(lǐng)域多種方法[1];專利的結(jié)構(gòu)化特點(diǎn)是專利的核心特點(diǎn),這一特點(diǎn)主要是為了方便去進(jìn)行專利檢索;專利的抽象性是描繪了專利的本質(zhì)特征,它是一種知識產(chǎn)權(quán)的體現(xiàn)不以人的五官觸覺去認(rèn)識,不占用任何空間,但是又能以一定的形式為人們所感知的智力創(chuàng)造成果;專利的唯一性主要是來維護(hù)自我或地域的智力成果的保障。這些特點(diǎn)使專利數(shù)據(jù)的檢索方式與分析方法對傳統(tǒng)文本的方式與方法發(fā)起了挑戰(zhàn),逐步轉(zhuǎn)化為現(xiàn)代化的信息檢索方式與智能化的分析方法[2]。
1 相關(guān)理論介紹
在本章中主要是對數(shù)據(jù)清洗工作以及專利數(shù)據(jù)信息的分析方法中所需要的理論支持進(jìn)行描述與表達(dá)。
1.1 專利數(shù)據(jù)清洗
專利分析與檢索系統(tǒng)的基礎(chǔ)是充足和完備的數(shù)據(jù)量,本論文采用的是Mysql數(shù)據(jù)庫,它的數(shù)據(jù)類型是結(jié)構(gòu)化數(shù)據(jù)[3]。而本文的數(shù)據(jù)來源是德溫特專利數(shù)據(jù)庫中導(dǎo)出的文本數(shù)據(jù),需要將文本數(shù)據(jù)類型轉(zhuǎn)化為Mysql數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),并對轉(zhuǎn)化過程中產(chǎn)生的“臟”數(shù)據(jù)進(jìn)行數(shù)據(jù)完整性處理。
數(shù)據(jù)清洗(Data cleaning)是對數(shù)據(jù)進(jìn)行去空、去錯(cuò)以及去重的過程,主要目的是實(shí)現(xiàn)數(shù)據(jù)的完整性,不因可去除的錯(cuò)誤信息誤導(dǎo)實(shí)驗(yàn)結(jié)果的正確性[4]。本文數(shù)據(jù)清洗的流程為:
(1)按照專利數(shù)據(jù)標(biāo)引字段進(jìn)行截取將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)如圖1所示:
(2)一致性檢查,就是對數(shù)據(jù)整體性以及局部各字段類型進(jìn)行校驗(yàn),具體過程是通過數(shù)據(jù)下各字段存在的合理取值范圍和字段之間的相互關(guān)系,以此來檢查數(shù)據(jù)是否存在不合理性,發(fā)現(xiàn)處于正常范圍外、邏輯上下存在不合理或者相互矛盾的數(shù)據(jù)。
(3)數(shù)據(jù)中無效值和缺失值的處理,這一過程是通過前面兩步確認(rèn)數(shù)據(jù)中存在不合理的數(shù)據(jù)信息即存在一些無效值和缺失值,這時(shí)需要給他們進(jìn)行適當(dāng)?shù)奶幚硪源藖肀WC數(shù)據(jù)的正確性。
1.2 專利數(shù)據(jù)分析
專利數(shù)據(jù)分析是通過對專利數(shù)據(jù)信息中各個(gè)專利信息字段的進(jìn)行加工以及組合[5](例如:專利的地域字段、專利的申請人字段、專利技術(shù)主題字段等都可以和時(shí)間序與專利的申請量進(jìn)行組合),并通過統(tǒng)計(jì)學(xué)的方法或者數(shù)據(jù)挖掘的處理手段來使這些信息具有縱覽過去專利的全局情況以及預(yù)測未來可研發(fā)領(lǐng)域或者說可加大投入研發(fā)資金的領(lǐng)域的功能[6]。
專利數(shù)據(jù)信息分析可以使它們由普通的專利基本信息變成為能夠?yàn)槠髽I(yè)或者個(gè)人提供對專利資金研發(fā)的投入、專利未來的布局以及個(gè)人專利申請的研發(fā)方向。
2 系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)需求分析
對于個(gè)人而言,若在申請專利之前甚至可說在投入到專利技術(shù)研究方向之前,若是沒有對于專利檢索的系統(tǒng),那么可能導(dǎo)致專利研究的方向沖突或者是專利已經(jīng)被申請,對于企業(yè)而言,對于研究技術(shù)方向的投入每一份的資金都要去估算它的價(jià)值是否能夠盈利或者說在未來公司長遠(yuǎn)立場上是否能起到舉足輕重的地位,企業(yè)和個(gè)人都是該專利檢索與分析系統(tǒng)的潛在用戶。系統(tǒng)的研發(fā)意義都是從用戶的角度出發(fā),本文從使用者基本需求出發(fā):
(1)用戶的登錄與注冊
任何系統(tǒng)能被廣泛地推廣和使用首先也是最重要的是對于用戶個(gè)人信息的保護(hù),本文系統(tǒng)由于為了方便用戶重復(fù)使用會保留用戶搜索信息,所以用戶需要一人一賬戶避免因?yàn)樗阉餍畔⒌男孤对斐蓜e人關(guān)注和預(yù)測你接下來的研究方向。
(2)專利數(shù)據(jù)的檢索
企業(yè)和個(gè)人想在某技術(shù)領(lǐng)域進(jìn)行投入研究之前需要對該技術(shù)領(lǐng)域?qū)@M(jìn)行技術(shù)專利檢索。本文在專利檢索這個(gè)功能模塊主要分為三部分。分別為智能檢索、高級檢索和分來檢索,可以讓用戶根據(jù)自己需求來自我選擇合適的檢索模塊。
(3)專利分析
對于專利信息的數(shù)據(jù)分析,可對于企業(yè)技術(shù)領(lǐng)域研究方向進(jìn)行預(yù)測。在本文系統(tǒng)專利分析這一模塊,進(jìn)行多例專利分析,統(tǒng)籌分析更有效的對企業(yè)專利技術(shù)領(lǐng)域做出戰(zhàn)略布局。主要有專利概況分析、申請人分析、主要機(jī)構(gòu)分析、地域分析、發(fā)明人分析、技術(shù)領(lǐng)域分析、技術(shù)生命周期分析、聚類分析。
(4)生成分析報(bào)告
在這一模塊中,主要實(shí)現(xiàn)的是對專利分析結(jié)果的可視化界面進(jìn)行打印生成可視化專利數(shù)據(jù)的分析報(bào)告。
2.2 系統(tǒng)框架設(shè)計(jì)
通過本章開頭所做的需求分析,本文將采用經(jīng)典的三層構(gòu)對專利數(shù)據(jù)檢索與分析系統(tǒng)進(jìn)行業(yè)務(wù)功能可劃分為,如圖2系統(tǒng)的三層結(jié)構(gòu)設(shè)計(jì)圖所示。
系統(tǒng)的表示層即為用戶與系統(tǒng)的交互UI界面,采用Boostrap框架、Material Design語言進(jìn)行界面美化和echart圖標(biāo)庫進(jìn)行可視化展示。
業(yè)務(wù)邏輯層是實(shí)現(xiàn)了專利檢索與分析的功能模塊的層。它負(fù)責(zé)接收前端的HTTP請求與相應(yīng)的數(shù)據(jù)庫中數(shù)據(jù)的提取回饋。
最后一層數(shù)據(jù)訪問層是實(shí)現(xiàn)專利數(shù)據(jù)檢索與分析系統(tǒng)的數(shù)據(jù)儲存和數(shù)據(jù)被訪問功能,在業(yè)務(wù)邏輯層得到前端請求響應(yīng)向數(shù)據(jù)訪問層提取數(shù)據(jù)進(jìn)行響應(yīng),實(shí)現(xiàn)信息的交互。
2.3 系統(tǒng)模塊設(shè)計(jì)
根據(jù)本文系統(tǒng)框架業(yè)務(wù)邏輯層,將專利檢索與分析系統(tǒng)的模塊組成進(jìn)行劃分,共分為4個(gè)模塊,分別為登錄注冊模塊、專利檢索模塊、專利分析模塊和報(bào)告打印模塊。系統(tǒng)的模塊設(shè)計(jì)如圖3所示。
2.4 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)
一個(gè)專利由多條信息字段組成,把相同或者相近屬性字段列為一張表,既保證了數(shù)據(jù)庫表結(jié)構(gòu)的清晰明了,又使在前端調(diào)用數(shù)據(jù)庫信息時(shí)SQL語句的結(jié)構(gòu)清晰表達(dá)明了。結(jié)構(gòu)化規(guī)范式數(shù)據(jù)庫不僅在錄入數(shù)據(jù)時(shí)高效快捷,更能加強(qiáng)表間的級聯(lián),在數(shù)據(jù)量很大的情況下也能提高響應(yīng)速度。
(1)專利與專利優(yōu)先權(quán)信息存在一對一的關(guān)系,即一個(gè)專利對應(yīng)著一個(gè)專利優(yōu)先權(quán)信息,而同時(shí)一個(gè)專利優(yōu)先權(quán)信息對應(yīng)著一個(gè)專利。
(2)專利與引用專利信息存在多對多的關(guān)系,即一個(gè)專利可以引用多個(gè)專利,同時(shí)一個(gè)專利也可以被多個(gè)專利引用。
(3)專利與引用文獻(xiàn)存在多對多的關(guān)系,即一個(gè)專利可以引用多個(gè)文獻(xiàn)信息,而一個(gè)文獻(xiàn)信息又可以被多個(gè)專利引用。
(4)專利與專利IPC分類信息存在多對一的關(guān)系,即一個(gè)專利對應(yīng)著一個(gè)IPC分類號,而一個(gè)IPC分類號可以有多個(gè)專利。
(5)專利基本信息與專利權(quán)人信息存在多對一的關(guān)系,即一個(gè)專利對應(yīng)著一個(gè)專利權(quán)人,而一個(gè)專利權(quán)人可以對應(yīng)多個(gè)專利。
(6)專利和發(fā)明人存在多對多的關(guān)系,一個(gè)專利對應(yīng)著多個(gè)發(fā)明人,而一個(gè)發(fā)明人也對應(yīng)著多個(gè)專利。
(7)專利和專利入藏號存在一對一的關(guān)系,一個(gè)專利對應(yīng)著一個(gè)入藏號,同時(shí)一個(gè)入藏號對應(yīng)著一個(gè)專利。
2.5 系統(tǒng)實(shí)現(xiàn)
2.5.1 專利檢索模塊實(shí)現(xiàn)
專利檢索模塊主要是滿足用戶對專利檢索的需求,在這一模塊用三種檢索方式,專利檢索的流程如圖4所示。
智能檢索是通過搜索主題詞,例如標(biāo)題或摘要關(guān)鍵詞等搜索有關(guān)技術(shù)領(lǐng)域?qū)@?,高級檢索是用戶自己填寫專利的基本信息如標(biāo)題、申請人等限制性的搜索專利,這樣好處是能夠快捷地搜索到用戶指定的專利數(shù)據(jù)信息,而分類檢索是按國家的不同搜索用戶想要搜索的某國的相關(guān)技術(shù)領(lǐng)域的專利信息。實(shí)現(xiàn)界面如圖5所示。
2.5.2 專利分析模塊
專利分析模塊是該系統(tǒng)的運(yùn)轉(zhuǎn)核心,檢索的內(nèi)容不加以分析還是無法對企業(yè)或個(gè)人做出研究技術(shù)領(lǐng)域的預(yù)測和指導(dǎo)。設(shè)計(jì)從滿足用戶的需求出發(fā),本文在專利分析模塊共實(shí)現(xiàn)了專利概況分析、申請人分析、主要機(jī)構(gòu)分析、地域分析、發(fā)明人分析、技術(shù)領(lǐng)域分析、技術(shù)生命周期分析和聚類分析八個(gè)分析,共同來指導(dǎo)和預(yù)測用戶所搜索的有關(guān)技術(shù)領(lǐng)域的專利,為用戶在研究熱點(diǎn)上提供預(yù)測或判斷現(xiàn)研究方向上的成長空間。實(shí)現(xiàn)頁面如圖6所示。
2.6 系統(tǒng)測試
專利數(shù)據(jù)檢索與分析系統(tǒng)的主要功能是為了方便申請專利個(gè)人或申請專利的企業(yè)提供方便、快捷及有效的專利技術(shù)領(lǐng)域檢索以及檢索內(nèi)容的分析。測試將圍繞系統(tǒng)的四大模塊進(jìn)行測試,分別是用戶登錄注冊模塊測試、專利信息檢索模塊測試、專利信息分析模塊測試和專利分析報(bào)告打印模塊測試。如表1所示。
3 結(jié)束語
隨著互聯(lián)網(wǎng)的快速發(fā)展,信息的涌現(xiàn),交流和查閱信息變得快捷高效,研發(fā)人員在專利研究方面日益更新,如果在第一時(shí)間能夠查詢和分析出研究熱點(diǎn)那么可以減少很多研究時(shí)間和研究費(fèi)用。
本文系統(tǒng)為用戶提供的服務(wù)還有可擴(kuò)展的空間,未來可在系統(tǒng)上增加專利分析其他方法和專利檢索功能更加快更加準(zhǔn)確的方法,通過分析專利相關(guān)技術(shù)指標(biāo)為用戶提供技術(shù)戰(zhàn)略布局和技術(shù)預(yù)測。
參考文獻(xiàn):
[1] Galhard H,F(xiàn)lorescu D,Shasha D,et al.An extensible framework for data cleaning[C]//Proceedings of 16th International Conference on Data Engineering (Cat.No.00CB37073).February 29 - March 3,2000,San Diego,CA,USA.IEEE,2000:312.
[2] 李繼東,王移芝.基于擴(kuò)展詞典與語義規(guī)則的中文微博情感分析[J].計(jì)算機(jī)與現(xiàn)代化,2018(2):89-95.
[3] 朱夢.基于機(jī)器學(xué)習(xí)的中文文本分類算法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2019.
[4] 張林,錢冠群,樊衛(wèi)國,等.輕型評論的情感分析研究[J].軟件學(xué)報(bào),2014,25(12):2790-2807.
[5] 李瓊,陳利.一種改進(jìn)的支持向量機(jī)文本分類方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(5):78-82.
[6] 朱相麗,譚宗穎.專利組合分析在評價(jià)企業(yè)技術(shù)競爭力中的應(yīng)用——以儲氫技術(shù)為例[J].情報(bào)雜志,2013,32(4):28-33.
【通聯(lián)編輯:梁書】