張靜,楊冠燦,劉會(huì)景
(1. 中國科學(xué)技術(shù)信息研究所,北京 100038;2. 北京萬方數(shù)據(jù)股份有限公司,北京 100038)
全球?qū)@y(tǒng)計(jì)數(shù)據(jù)庫(PATSTAT)研究述評(píng)*
張靜1,楊冠燦1,劉會(huì)景2
(1. 中國科學(xué)技術(shù)信息研究所,北京 100038;2. 北京萬方數(shù)據(jù)股份有限公司,北京 100038)
從數(shù)據(jù)庫的構(gòu)成、信息組織架構(gòu)、技術(shù)唯一標(biāo)識(shí)符的設(shè)立等方面對(duì)PATSTAT數(shù)據(jù)庫進(jìn)行研究,基于此分析其特點(diǎn),并從功能實(shí)現(xiàn)的角度將其與Orbit、Thomson Innovation等主流商業(yè)專利數(shù)據(jù)庫進(jìn)行比較,總結(jié)PATSTAT數(shù)據(jù)庫在數(shù)據(jù)集成方面的經(jīng)驗(yàn)。
PATSTAT數(shù)據(jù)庫;專利數(shù)據(jù);數(shù)據(jù)集成;語義異構(gòu)
長(zhǎng)期以來,專利數(shù)據(jù)被廣泛應(yīng)用于科技評(píng)價(jià)活動(dòng)中。專利數(shù)據(jù)由于涵蓋的信息全面、規(guī)范且易于使用,受到了理論界與學(xué)術(shù)界的廣泛青睞[1]。具體而言,專利數(shù)據(jù)包括了經(jīng)濟(jì)、法律以及技術(shù)信息,其數(shù)據(jù)的豐富程度往往是其他技術(shù)信息數(shù)據(jù)來源所不具備的[2];在有關(guān)國際組織的共同努力下,圍繞專利數(shù)據(jù)陸續(xù)出臺(tái)了一系列的標(biāo)準(zhǔn),使得專利數(shù)據(jù)較其他數(shù)據(jù)更為規(guī)范與準(zhǔn)確[3]。近年來,在數(shù)據(jù)提供商以及各國專利管理機(jī)構(gòu)的共同努力下,一大批專利數(shù)據(jù)庫被開發(fā)出來,既包括免費(fèi)的,也包括商用的,使得人們可以便利地使用專利數(shù)據(jù)資源[4]。
全球?qū)@y(tǒng)計(jì)數(shù)據(jù)庫(Worldwide Patent Statistical Database,以下簡(jiǎn)稱PATSTAT)是由歐洲專利局創(chuàng)建的以歐洲專利局專利文獻(xiàn)主數(shù)據(jù)庫(EPO Master Documentation Database,DOCDB)為主要數(shù)據(jù)源的快照數(shù)據(jù)庫,收錄了全球100多個(gè)國家或組織的專利信息,其內(nèi)容涵蓋專利題錄數(shù)據(jù)、引文數(shù)據(jù)以及專利家族鏈接。PATSTAT旨在為研究者提供可完全運(yùn)行于個(gè)人電腦的面向統(tǒng)計(jì)分析的專利數(shù)據(jù)庫。PATSTAT自2007年向公眾發(fā)布以來,由于其面向統(tǒng)計(jì)分析、數(shù)據(jù)遵循統(tǒng)一規(guī)范、數(shù)據(jù)開放等特點(diǎn),在學(xué)界得到廣泛應(yīng)用。
PATSTAT數(shù)據(jù)構(gòu)建的最初設(shè)想來源于OECD的專利統(tǒng)計(jì)專題工作組(Task Force),其成員包括OECD、 EPO、JPO、USPTO、WIPO等機(jī)構(gòu),該組織通過加強(qiáng)成員間的協(xié)作關(guān)系來促進(jìn)專利統(tǒng)計(jì)質(zhì)量的提升,尤其是在如下三個(gè)方面:①促進(jìn)專利指標(biāo)的豐富與標(biāo)準(zhǔn)化;②使專利分析人員能充分獲取專利數(shù)據(jù);③為基于專利數(shù)據(jù)的統(tǒng)計(jì)決策工作做出貢獻(xiàn)。鑒于現(xiàn)有專利數(shù)據(jù)庫之間差異很大,存在數(shù)據(jù)質(zhì)量不一,數(shù)據(jù)加工過程不透明,數(shù)據(jù)檢索、導(dǎo)入、導(dǎo)出受限等問題,不能滿足專利數(shù)據(jù)分析與研究的需求,在OECD的專利統(tǒng)計(jì)專題工作組的倡導(dǎo)下,由EPO創(chuàng)建了全新的面向統(tǒng)計(jì)決策的PATSTAT。
上述機(jī)構(gòu)的共同努力使得PATSTAT數(shù)據(jù)庫在統(tǒng)計(jì)決策的理論準(zhǔn)備方面較為堅(jiān)實(shí)。最為顯著的成果是2009年OECD出版的《專利統(tǒng)計(jì)手冊(cè)》[1],匯集專利統(tǒng)計(jì)分析領(lǐng)域的研究成果,為使用專利數(shù)據(jù)來測(cè)度科技創(chuàng)新活動(dòng)提供了指導(dǎo)準(zhǔn)則,對(duì)專利統(tǒng)計(jì)分析的內(nèi)容、相應(yīng)指標(biāo)以及使用的范圍進(jìn)行了系統(tǒng)的闡述,成為了PATSTAT數(shù)據(jù)庫建設(shè)的重要理論來源。其次,在工作組的領(lǐng)導(dǎo)下,一批針對(duì)專利統(tǒng)計(jì)決策分析的研究報(bào)告也相繼產(chǎn)生,這些報(bào)告通過梳理、驗(yàn)證相關(guān)理論,構(gòu)建數(shù)據(jù)集市和統(tǒng)計(jì)測(cè)量指標(biāo)為PATSTAT數(shù)據(jù)庫的不斷提升提供有力的支持(見表1)。
2.1PATSTAT數(shù)據(jù)庫的構(gòu)成
PATSTAT數(shù)據(jù)庫由四部分構(gòu)成:PATSTAT源數(shù)據(jù)(PATSTAT raw data)、PATSTAT法律事件數(shù)據(jù)(Legal event data for PATSTAT)、PATSTAT的專利登記信息數(shù)據(jù)(EP register data for PATSTAT)以及PATSTAT在線數(shù)據(jù)庫(PATSTAT Online Extension)[9]。
表1 OECD的專利統(tǒng)計(jì)專題工作組為PATSTAT提供的理論及實(shí)踐支持
PATSTAT源數(shù)據(jù)是PATSTAT的核心,通常所指PATSTAT數(shù)據(jù)庫也是指的這一部分,該數(shù)據(jù)主要是從EPO的主著錄項(xiàng)數(shù)據(jù)庫(也稱DOCDB數(shù)據(jù)庫)中獲取的,主要包含的是與專利有關(guān)的著錄項(xiàng)信息。PATSTAT法律事件數(shù)據(jù)則主要來源于EPO的全球法律狀態(tài)數(shù)據(jù)庫(也稱INPADOC數(shù)據(jù)庫),主要包含的是專利生命周期過程中發(fā)生的法律事件信息,例如審查、續(xù)費(fèi)、失效、權(quán)屬轉(zhuǎn)移、PCT進(jìn)入國家階段以及異議和訴訟信息等。目前,PATSTAT數(shù)據(jù)加工團(tuán)隊(duì)已經(jīng)設(shè)計(jì)了整體的專利數(shù)據(jù)框架,將上述兩部分信息進(jìn)行了有效的組織,可供研究人員進(jìn)行綜合分析,但PATSTAT法律事件數(shù)據(jù)的數(shù)據(jù)還需要單獨(dú)收取費(fèi)用。
PATSTAT專利登記信息數(shù)據(jù)是EPO于2013年4月發(fā)布的一款新產(chǎn)品,該數(shù)據(jù)的主要來源為歐專局的專利登記信息數(shù)據(jù)庫(EP register data),包含了在EPO登記的專利(或者通過PCT流程進(jìn)入到EPO的專利)的著錄項(xiàng)信息、法律事件信息以及流程信息,在數(shù)據(jù)的準(zhǔn)確性、詳細(xì)程度上面具有優(yōu)勢(shì)。目前,該部分?jǐn)?shù)據(jù)還處于快熟發(fā)展期,現(xiàn)有數(shù)據(jù)庫是獨(dú)立的,并沒有整合到之前提及的PATSTAT源數(shù)據(jù)與法律事件數(shù)據(jù)的框架中來。
PATSTAT在線數(shù)據(jù)庫是PATSTAT數(shù)據(jù)庫(源數(shù)據(jù)和法律事件數(shù)據(jù))的在線版,EPO通過一個(gè)基于SQL檢索的平臺(tái)將PATSTAT數(shù)據(jù)進(jìn)行展現(xiàn)。用戶可以直接利用SQL檢索式對(duì)PATSTAT數(shù)據(jù)進(jìn)行檢索,同時(shí),PATSTAT在線數(shù)據(jù)庫還包含了一些源數(shù)據(jù)和法律事件數(shù)據(jù)中不包含的數(shù)據(jù),這些數(shù)據(jù)多是需要通過對(duì)來源PATSTAT數(shù)據(jù)進(jìn)行初步計(jì)算獲得的數(shù)據(jù)(見圖1)。
圖1 PATSTAT信息組織圖
2.2PATSTAT的信息組織架構(gòu)
PATSTAT數(shù)據(jù)范圍十分廣泛,大致可分為六類:號(hào)碼信息(專利申請(qǐng)?zhí)柎a、專利公開公告號(hào)碼、專利優(yōu)先權(quán)號(hào)碼、專利家族號(hào)碼、參考專利號(hào)碼),技術(shù)信息(主要涉及的是專利著錄項(xiàng)信息中的技術(shù)相關(guān)信息,包括技術(shù)分類信息、標(biāo)題信息、摘要信息等),法律信息(與專利相關(guān)的信息,包括授權(quán)、繳費(fèi)、轉(zhuǎn)移、延續(xù)、撤銷等),“人”的信息(專利相關(guān)人員的名稱信息,包括申請(qǐng)人、發(fā)明人、專利權(quán)人、審查員、代理機(jī)構(gòu)的名稱信息等),時(shí)間信息(與專利生命周期階段相關(guān)的時(shí)間信息,包括申請(qǐng)日、授權(quán)日、失效日等),地址信息(與專利申請(qǐng)、授權(quán)相關(guān)的國家以及“人”的地址信息,包括專利申請(qǐng)所在地、專利權(quán)人地址等)。這六大類的信息之間存在一定的差異性,即便是同一類別信息之間也存在較大差異。例如,在號(hào)碼信息下,申請(qǐng)?zhí)?、公開公告號(hào)、優(yōu)先權(quán)號(hào)以及家族號(hào)就存在較大的差異,如何對(duì)上述信息進(jìn)行科學(xué)的組織是PATSTAT需要解決的首要問題。
PATSTAT數(shù)據(jù)庫采用了以專利申請(qǐng)為中心的信息組織方式。從PATSTAT的信息組織模型框架(圖2)中可見,專利申請(qǐng)信息在整個(gè)關(guān)系型數(shù)據(jù)庫中居于核心位置,所有的相關(guān)信息都與專利申請(qǐng)信息進(jìn)行關(guān)聯(lián)。本文認(rèn)為:PATSTAT之所以建立以專利申請(qǐng)為中心的信息組織方式,主要是基于如下考慮:①從整個(gè)專利生命周期視角來考慮,專利申請(qǐng)是整個(gè)專利活動(dòng)的邏輯起點(diǎn),因此,以專利申請(qǐng)為中心組織整個(gè)專利信息,就是從源頭上抓住了專利信息;②從信息組織視角來考慮,專利的唯一性原則規(guī)定一項(xiàng)專利僅具有一個(gè)專利號(hào)碼信息[10],而其他信息如公開公告號(hào)碼、家族號(hào)碼都有可能存在一對(duì)多的狀況,因此,以專利申請(qǐng)信息作為信息組織方式也會(huì)避免因?yàn)樘?hào)碼信息不唯一所帶來的對(duì)專利信息的歧義;③相對(duì)于以家族為中心的組織方式而言,以申請(qǐng)為中心的專利信息組織方法能更便捷地與技術(shù)信息、法律狀態(tài)信息、過程信息相聯(lián)系,更適合于多維度的專利統(tǒng)計(jì)分析。
圖2 PATSTAT的信息組織模型框架
2.3PATSTAT的技術(shù)標(biāo)識(shí)符的設(shè)立
為了確保專利數(shù)據(jù)庫符合參照完整性約束以及提高檢索效率的需求,數(shù)據(jù)庫建設(shè)過程中通常會(huì)統(tǒng)一賦予一個(gè)自增的虛擬唯一標(biāo)識(shí)符。從技術(shù)的角度而言,這種建立唯一標(biāo)識(shí)符的做法一方面滿足了數(shù)據(jù)的完整性約束要求,確保了數(shù)據(jù)的唯一性;另外,由于虛擬標(biāo)識(shí)符能夠避免在專利申請(qǐng)識(shí)別過程中同時(shí)需要識(shí)別三個(gè)實(shí)體(專利申請(qǐng)?zhí)柎a通常由國別代碼、申請(qǐng)?zhí)?、輔助屬性構(gòu)成)的弊端,也會(huì)降低數(shù)據(jù)庫的存儲(chǔ)規(guī)模,使數(shù)據(jù)庫具有更高的檢索效率。PATSTAT數(shù)據(jù)庫在設(shè)立技術(shù)標(biāo)識(shí)符的過程中,選擇采用申請(qǐng)?zhí)栕鳛樵O(shè)立虛擬技術(shù)標(biāo)識(shí)符的依據(jù),將全部的數(shù)據(jù)整合到統(tǒng)一的規(guī)則之下,為后續(xù)物理建模奠定基礎(chǔ)。通過設(shè)立專利標(biāo)識(shí)符,PATSTAT將不同來源的專利信息有機(jī)地關(guān)聯(lián)起來,而設(shè)立的依據(jù)是以專利申請(qǐng)為整個(gè)專利生命周期的邏輯起點(diǎn),通過數(shù)據(jù)表的關(guān)聯(lián)關(guān)系將整個(gè)專利生命周期全過程中的信息貫穿起來。
單純的采用自增的技術(shù)標(biāo)識(shí)符往往使得處于不同時(shí)點(diǎn)的不同版本之間的PATSTAT數(shù)據(jù)缺乏關(guān)聯(lián),同時(shí),PATSTAT數(shù)據(jù)與其他EPO專利數(shù)據(jù)源之間也缺乏了對(duì)應(yīng)的關(guān)聯(lián)關(guān)系。針對(duì)這個(gè)問題,PATSTAT選擇以DOCDB的技術(shù)標(biāo)識(shí)符作為其技術(shù)標(biāo)識(shí)符的主要來源(情形1)。當(dāng)數(shù)據(jù)出現(xiàn)由于優(yōu)先權(quán)號(hào)碼缺失導(dǎo)致的技術(shù)標(biāo)識(shí)符不一致(情形2),由于引用的專利公開公告號(hào)缺失導(dǎo)致的技術(shù)標(biāo)識(shí)符不一致(情形3),由于引用的專利申請(qǐng)?zhí)柸笔鶎?dǎo)致的技術(shù)標(biāo)識(shí)符不一致(情形4)這三種情形時(shí),才采用自增的技術(shù)標(biāo)識(shí)符。上述做法既保證了整個(gè)數(shù)據(jù)倉庫符合完整性約束,也保證了EPO的各數(shù)據(jù)庫之間,以及不同時(shí)點(diǎn)的數(shù)據(jù)倉庫之間能夠?qū)崿F(xiàn)數(shù)據(jù)直接關(guān)聯(lián)。
如前所述,為了實(shí)現(xiàn)參照完整性約束的要求,PATSTAT在設(shè)立技術(shù)標(biāo)識(shí)符時(shí)需要同時(shí)考慮四種不同的情形,因此,PATSTAT設(shè)計(jì)了一套技術(shù)標(biāo)識(shí)符分配方法,其特點(diǎn)在于:能夠同時(shí)兼容兩種技術(shù)標(biāo)識(shí)符(相對(duì)固定技術(shù)標(biāo)識(shí)符以及自增的技術(shù)標(biāo)識(shí)符),同時(shí)通過號(hào)碼分配可以將屬于不同情形的技術(shù)標(biāo)識(shí)符區(qū)分開來,使研究人員能僅通過觀察技術(shù)標(biāo)識(shí)符就能辨識(shí)專利申請(qǐng)?zhí)査鶎?duì)應(yīng)的情形。從表2中,我們可以觀察到PATSTAT數(shù)據(jù)庫為4種不同情形的專利申請(qǐng)?zhí)柗峙淞瞬煌募夹g(shù)標(biāo)識(shí)符。
表2 PATSTAT數(shù)據(jù)庫不同范圍技術(shù)標(biāo)識(shí)符范圍表
由于PATSTAT較為詳細(xì)公開了其數(shù)據(jù)庫設(shè)計(jì)思路、過程以及元數(shù)據(jù),我們可以從數(shù)據(jù)庫的設(shè)計(jì)方面對(duì)PATSTAT的特點(diǎn)進(jìn)行評(píng)價(jià)。主要包括如下6個(gè)方面:
(1)面向統(tǒng)計(jì)決策分析。OECD的專利統(tǒng)計(jì)專題工作組通過系統(tǒng)理論研究如編制《專利統(tǒng)計(jì)手冊(cè)》[1]、建立統(tǒng)計(jì)數(shù)據(jù)子集、開展專利統(tǒng)計(jì)決策年會(huì)、搭建專利統(tǒng)計(jì)研討平臺(tái)等方式,為PATSTAT奠定了良好的基礎(chǔ)。
(2)數(shù)據(jù)涵蓋范圍廣泛。PATSTAT數(shù)據(jù)庫主要集成了DOCDB數(shù)據(jù)庫、INPADOC數(shù)據(jù)庫(專利家族及法律狀態(tài))以及EPR數(shù)據(jù)庫(專利注冊(cè)信息)三大數(shù)據(jù)源,同時(shí),在人名信息(專利權(quán)人、發(fā)明人)、地址信息以及技術(shù)分類等信息上集成了多個(gè)其他數(shù)據(jù)源,使得PATSTAT數(shù)據(jù)庫包含了著錄項(xiàng)信息、法律狀態(tài)信息、過程信息等全方面的信息,地域范圍包括了90多個(gè)多家的7000萬條專利信息,更新頻率為每年兩次[11]。
(3)專利數(shù)據(jù)的深層次集成。對(duì)于異構(gòu)、復(fù)雜、多源專利數(shù)據(jù)進(jìn)行深層次的語義集成是PATSTAT數(shù)據(jù)庫的主要進(jìn)展之一。具體體現(xiàn)在:專利家族與優(yōu)先權(quán)信息的集成,專利摘要與標(biāo)題信息的集成,發(fā)明人信息與地址信息的集成,以及專利權(quán)人信息的集成等方面。這一系列的數(shù)據(jù)集成使得PATSTAT更加適合全球范圍的專利統(tǒng)計(jì)分析工作。
(4)體現(xiàn)數(shù)據(jù)倉庫特征。通過物化集中方式將多源異構(gòu)數(shù)據(jù)集成到一個(gè)統(tǒng)一的系統(tǒng)之下,使數(shù)據(jù)庫具有了表達(dá)更加復(fù)雜的查詢、執(zhí)行更加復(fù)雜的數(shù)據(jù)轉(zhuǎn)化的能力;數(shù)據(jù)快照則對(duì)于動(dòng)態(tài)信息(法律狀態(tài)信息、專利權(quán)人信息、專利家族信息等)能夠進(jìn)行高效的數(shù)據(jù)精簡(jiǎn),雖然,這也需要以犧牲一定的數(shù)據(jù)更新效率為代價(jià)。
(5)資源共享與協(xié)同創(chuàng)新。EPO將PATSTAT視為其加工的專利數(shù)據(jù)產(chǎn)品中的標(biāo)桿,為了擴(kuò)大該數(shù)據(jù)的影響,推動(dòng)全球范圍內(nèi)的專利數(shù)據(jù)分析質(zhì)量,PATSTAT研發(fā)團(tuán)隊(duì)也適時(shí)地將其在數(shù)據(jù)庫設(shè)計(jì)與開發(fā)過程中的一些核心數(shù)據(jù)文檔分享出來,供數(shù)據(jù)分析人員參考,這些內(nèi)容包括了設(shè)計(jì)基本原則、元數(shù)據(jù)信息以及具體實(shí)施規(guī)則與代碼等。同時(shí),由于PATSTAT數(shù)據(jù)的這種公開性,使得它目前已經(jīng)逐步成為了一個(gè)專利數(shù)據(jù)深加工、清洗與協(xié)同的平臺(tái)[12]。
(6)數(shù)據(jù)處理過程的公開化。PATSTAT數(shù)據(jù)庫團(tuán)隊(duì)分享了其在數(shù)據(jù)庫設(shè)計(jì)與開發(fā)過程中的一些核心數(shù)據(jù)文檔,包括Patstat Data Catalog[13],該文檔包括了專利數(shù)據(jù)設(shè)計(jì)基本原則、元數(shù)據(jù)信息、數(shù)據(jù)來源范圍、數(shù)據(jù)指標(biāo)代碼以及業(yè)務(wù)規(guī)則等內(nèi)容,這些核心文檔的公布使得整個(gè)PATSTAT的數(shù)據(jù)庫成為了專利分析領(lǐng)域第一個(gè)透明的、可復(fù)制、可追蹤的數(shù)據(jù)資源,更多負(fù)責(zé)的數(shù)據(jù)加工、分析工作可以得以開展。
盡管,PATSTAT數(shù)據(jù)庫存在上面諸多優(yōu)點(diǎn),也存在一定的局限性,主要體現(xiàn)為兩點(diǎn):①從數(shù)據(jù)源來看,主要采集自官方數(shù)據(jù)(如DOCDB、INPADOC、EP Register數(shù)據(jù)),上述數(shù)據(jù)主要是服務(wù)于審查員工作流程的,那些對(duì)于審查員工作流程起到關(guān)鍵作用的數(shù)據(jù),如優(yōu)先權(quán)、引文數(shù)據(jù)的質(zhì)量就相對(duì)較高,而對(duì)于審查員工作流程影響較小的數(shù)據(jù),如發(fā)明人、申請(qǐng)人地址信息,數(shù)據(jù)加工的質(zhì)量就相對(duì)較低;②PATSTAT數(shù)據(jù)的地域傾向性較為突出,即EPO來源的專利數(shù)據(jù)質(zhì)量較高,而來源于其他區(qū)域的專利數(shù)據(jù)質(zhì)量就相對(duì)差一些。
數(shù)據(jù)庫設(shè)計(jì)最終是為了通過功能實(shí)現(xiàn)服務(wù)的,通過與市場(chǎng)上其他領(lǐng)先的商業(yè)數(shù)據(jù)庫(Orbit數(shù)據(jù)庫、Thomson Innovation數(shù)據(jù)庫)進(jìn)行比較,可以發(fā)現(xiàn)PATSTAT數(shù)據(jù)庫在數(shù)據(jù)庫功能實(shí)現(xiàn)上的優(yōu)勢(shì)(見表4)。
表3 PATSTAT與主流商業(yè)專利數(shù)據(jù)庫的比較
Orbit數(shù)據(jù)庫由于有了FAMPAT和PLUSPAT對(duì)家族數(shù)據(jù)的精確定義,使得系統(tǒng)能夠在更深層次上對(duì)數(shù)據(jù)實(shí)現(xiàn)整合,例如專利家族的引用關(guān)系、專利家族之間的關(guān)系等。另外,該數(shù)據(jù)庫在全文信息、插圖信息以及法律訴訟數(shù)據(jù)方面的集成都使其能夠較好地滿足專利審查員的專利審查工作。然而,Orbit數(shù)據(jù)庫也存在一些不足,如沒有采取數(shù)據(jù)補(bǔ)充措施,專利權(quán)人清洗方面的效果并不好,檢索式并不夠靈活等等。
TI數(shù)據(jù)庫包含目前最廣泛的專利信息,有最為專業(yè)的表格檢索、專利號(hào)檢索、專家檢索,及時(shí)的更新頻率和數(shù)據(jù)覆蓋范圍。另外,其獨(dú)有的DWPI增值專利信息也使得該數(shù)據(jù)集成為專利技術(shù)研發(fā)人員和專利分析專家的有力助手。然而,Derwent封閉的專利家族定義如同黑箱,難以在大數(shù)據(jù)的范圍下復(fù)用;另外,TI的數(shù)據(jù)雖包含了最為廣泛的信息,但似乎沒有很好的組織,內(nèi)部缺乏簡(jiǎn)明的邏輯性,一般用戶是難以理解其內(nèi)在邏輯的,軟件使用的門檻較高。
PATSTAT的優(yōu)勢(shì)在于其是從統(tǒng)計(jì)決策視角對(duì)DOCDB、INPADOC等數(shù)據(jù)集進(jìn)行的一次深層次的加工。PATSTAT在統(tǒng)計(jì)決策方面具有強(qiáng)大的理論支撐,這是其他數(shù)據(jù)集所不具備的。其次,由于EPO采取了開放的措施,分享了很多數(shù)據(jù)庫設(shè)計(jì)、操作規(guī)范,使得整個(gè)數(shù)據(jù)操作過程是透明的(這是其他商業(yè)數(shù)據(jù)不具備的)。另外,該數(shù)據(jù)還具有數(shù)據(jù)全面性(包括著錄項(xiàng)、法律狀態(tài)、登記信息)、數(shù)據(jù)精簡(jiǎn)性(不包括全文、插圖等信息)、數(shù)據(jù)的統(tǒng)一性、靈活性、易操作性等特點(diǎn)。由于直接提供數(shù)據(jù),可以利用SQL直接檢索,是較為有效的檢索方式。缺點(diǎn)在于:僅限于統(tǒng)計(jì)決策用途,不包含全文、說明書、插圖信息等;數(shù)據(jù)檢索、操作方式較為專業(yè),無法為一般用戶所使用。
PATSTAT作為專利信息服務(wù)領(lǐng)域較杰出的產(chǎn)品,其在專利數(shù)據(jù)加工、集成、設(shè)計(jì)方面的方法和經(jīng)驗(yàn)具有獨(dú)到之處,非常值得學(xué)習(xí)和借鑒。具體到專利數(shù)據(jù)集成主要體現(xiàn)在如下四點(diǎn)。
(1)數(shù)據(jù)集成思路:PATSTAT從統(tǒng)計(jì)決策支持的應(yīng)用場(chǎng)景出發(fā),綜合考慮數(shù)據(jù)集成的數(shù)據(jù)范圍、查詢效率、系統(tǒng)架構(gòu)等問題,將技術(shù)創(chuàng)新理論發(fā)展與專利數(shù)據(jù)加工實(shí)踐有機(jī)結(jié)合,形成了有鮮明特征的專利統(tǒng)計(jì)數(shù)據(jù)庫。具體而言,PATSTAT積極吸納技術(shù)創(chuàng)新理論發(fā)展的最新成果,如將《OECD專利統(tǒng)計(jì)手冊(cè)》作為其理論依據(jù)[1];吸納OECD在專利引文[14]、專利家族[15]、專利權(quán)人清洗[16]、專利地理信息[17]、專利質(zhì)量評(píng)價(jià)[5]方面的最新成果等,形成了一系列的專利數(shù)據(jù)集[18];定期召開國際專利統(tǒng)計(jì)年會(huì)等。
(2)數(shù)據(jù)易用性:PATSTAT第一次提供了一個(gè)線下的全球?qū)@麛?shù)據(jù)庫。為了方便統(tǒng)計(jì)分析人員的使用,數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)方式采用CSV格式,保證了數(shù)據(jù)能夠便捷的在各種數(shù)據(jù)庫工具上使用;另外,EPO也通過詳細(xì)的操作手冊(cè)指導(dǎo),幫助用戶利用SQL數(shù)據(jù)庫直接對(duì)全球?qū)@麛?shù)據(jù)進(jìn)行查詢、操作和分析。
(3)數(shù)據(jù)異構(gòu)集成技巧:PATSTAT數(shù)據(jù)范圍是全球?qū)@麛?shù)據(jù),這是一項(xiàng)異常艱巨的任務(wù)。不同國家的專利數(shù)據(jù)在收錄范圍、數(shù)據(jù)內(nèi)容、數(shù)據(jù)質(zhì)量、數(shù)據(jù)結(jié)構(gòu)、語言等方面存在巨大差異,對(duì)于這樣異質(zhì)數(shù)據(jù)的集成不僅需要對(duì)各國的專利數(shù)據(jù)資源有詳細(xì)的了解,同時(shí)要有專業(yè)的數(shù)據(jù)加工團(tuán)隊(duì)支持。PATSTAT數(shù)據(jù)庫公開了其在數(shù)據(jù)庫設(shè)計(jì)與開發(fā)過程中的一些核心數(shù)據(jù)文檔,以便于數(shù)據(jù)分析人員參考;同時(shí),這些設(shè)計(jì)文檔中涉及的數(shù)據(jù)庫設(shè)計(jì)基本原則、元數(shù)據(jù)信息以及具體實(shí)施規(guī)則與代碼,都能夠?qū)ξ磥韺@麛?shù)據(jù)的集成提供較好的幫助。
(4)開放數(shù)據(jù):在PATSTAT數(shù)據(jù)庫的研發(fā)、更新的過程中,開放思想體現(xiàn)的較為明顯。首先,在數(shù)據(jù)庫研發(fā)過程中,各國專利局(OECD、WIPO、USPTO等)都積極參與到了其數(shù)據(jù)庫的設(shè)計(jì)過程;其次,在數(shù)據(jù)庫初步建設(shè)完成之后,EPO面向研究人員公布了其核心的數(shù)據(jù)文檔,使廣大科研人員能夠以其數(shù)據(jù)庫為基礎(chǔ),更新、改進(jìn)、修正具體的數(shù)據(jù)集;另外,PATSTAT也廣泛吸收新的研究成果,并不斷利用這些成果來改進(jìn)其數(shù)據(jù)庫。因此,通過這一系列的數(shù)據(jù)開發(fā)分享措施,很好地實(shí)現(xiàn)了PATSTAT數(shù)據(jù)庫的生態(tài)自循環(huán)。
[1] OECD. OECD Patent Statistics Manual[M]. ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT,2009.
[2] Griliches Z. Patent Statistics as Economic Indicators: A Survey[J]. JOURNAL OF ECONOMIC LITERATURE ,1990, 28(4):1661-1707.
[3] WIPO. Handbook on industrial property information and documentation(WIPO publication) [M]. WIPO,2015.
[4] Albrecht M A, Bosma R, van Dinter T, et al. Quality assurance in the EPO Patent Information Resource[J]. WORLD PATENT INFORMATION. 2010, 32(4): 279-286.
[5] Squicciarini M, Dernis H, Criscuolo C. Measuring Patent Quality. 2013.
[6] Stèphane Maraut, Hèl?ne Dernis, Colin Webb, et al. The OECD REGPAT Datatbase: A Presentation[M]. Paris, 2008.
[7] Martinez C. Insight into Different Types of Patent Families. OECD SCIENCE, TECHNOLOGY AND INDUSTRY WORKING PAPERS[C]. 2010.
[8] Webb C, Dernis H, Harhoff D, et al. Analysing European andInternational Patent Citations. OECD SCIENCE, TECHNOLOGY AND INDUSTRY WORKING PAPERS[C]. 2005.
[9] EPO. EPO Worldwide Patent Statistical Database(PATSTAT). 2015.
[10] 中華人民共和國國家知識(shí)產(chǎn)權(quán)局. 專利文獻(xiàn)號(hào)標(biāo)準(zhǔn): ZC 0007-2004[Z].中華人民共和國知識(shí)產(chǎn)權(quán)行業(yè)標(biāo)準(zhǔn). 北京: 2004.
[11] EPO. EPO Worldwide Patent Statistical Database - 2014 Autumn Edition.2014.
[12] Coffano M, Tarasconi G. CRIOS - Patstat Database: Sources,Contents and Access Rules[M]. CENTER FOR RESEARCH ON INNOVATION, ORGANIZATION AND STRATEGY CRIOS, 2014.
[13] EPO. Data Catalog V 5.01 Patstat. 2014.
[14] Webb C, Dernis H, Harhoff D, et al. Analysing European and International Patent Citations: A Set of EPO Patent Database Building Blocks[J]. OECD PUBLISHING ,2005(9):31.
[15] Dernis H, Khan M. Triadic Patent Families Methodology[J]. OECD PUBLISHING, 2004.
[16] Ribeiro S P, Menghinello S, De Backer K. The OECD ORBIS Database: Responding to the Need for Firm-Level Micro-Data in the OECD[J]. OECD PUBLISHING, 2010.
[17] Squicciarini M, Dernis H. A Cross-Country Characterisation of the Patenting Behaviour of Firms based on Matched Firm and Patent Data[J]. OECD PUBLISHING, 2013.
[18] OECD. OECD work on patent statistics. 2015.
張靜,女,1975年生,博士,副研究員,研究方向:專利數(shù)據(jù)挖掘、信息分析。
楊冠燦,男,1981年生,博士,助理研究員,研究方向:專利數(shù)據(jù)、技術(shù)競(jìng)爭(zhēng)情報(bào)等。
劉會(huì)景,女,1984年生,碩士,專利分析師,研究方向:專利分析、專利數(shù)據(jù)挖掘。
Review of Worldwide Patent Statistical Database(PATSTAT)
ZHANG Jing1, YANG GuanCan1, LIU HuiJing2
(1. Institute of Scientific and Technical Information of China, Beijing100038, China;2. WANFANG Data Co., Ltd, Beijing100038, China)
This paper dissects PATSTAT from points of database structure, information organizationarchitecture and technical identifier, then analysis the features of PATSTAT, and compares PATSTAT with Leading Commercial Patent Databases, such as Orbit, Thomson Innovation. As a conclusion, the paper summarizes the patent data integration experiences of PATSTAT database.
PATSTAT Database; Patent Data; Data Integration; Semantic Heterogeneity
G255
10.3772/j.issn.1673-2286.2015.12.011
2015-07-10)
* 本研究得到國家科技支撐計(jì)劃課題“專利信息資源整合與加工關(guān)鍵技術(shù)與規(guī)范研究”(編號(hào):2013BAH21B01)和國家自然科學(xué)基金青年基金“基于指數(shù)隨機(jī)圖模型的專利引用關(guān)系形成影響因素及機(jī)理研究”(編號(hào):71403256)資助。