国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于權利要求語義分析的專利價值評估及應用研究
——以區(qū)塊鏈技術為例

2020-08-18 05:56:04李士龍魏鵬濤
世界科技研究與發(fā)展 2020年2期
關鍵詞:區(qū)塊專利數量

李士龍 魏鵬濤

(北京工業(yè)大學經濟與管理學院,北京100124)

今年正值《國家知識產權戰(zhàn)略綱要》實施第十二周年,這期間中國在保護知識產權、促進創(chuàng)新能力上有了較大的進步,根據聯(lián)合國世界知識產權組織(World Intellectual Property Organization,WIPO)發(fā)布的《2019年全球創(chuàng)新指數報告》顯示,中國排名升至全球第14位,在中等收入經濟體中連續(xù)7年在創(chuàng)新質量上居首。專利作為國家保護發(fā)明人知識產權的有效手段,如何科學準確地對專利價值進行評估,一方面可以幫助企業(yè)確立技術競爭優(yōu)勢,進行戰(zhàn)略部署和指導并購策略,另一方面對于我國提高專利質量和提升專利經濟效益,加速從當前“知識產權大國”邁向“知識產權強國”至關重要。

目前評價專利價值的方法主要集中于從技術價值、市場價值和法律價值三個方面構建評價指標體系[1],國內外有學者在從不同的角度對評價指標體系做了探索,如專利特征[2]、商業(yè)化潛力[3]、專利文獻的引用數量和專利的被引次數[4]、專利權人實力和專利技術的角度[5]、權利要求數、專利家族深度[6]。由于對于專利價值的定義標準不同,構建評價體系指標的選取就有所不同,這使得此類方法具有較強的主觀性。

為了客觀地評估專利價值,部分學者從專利保護范圍的角度展開研究。專利申請的目的是保護專利人對其發(fā)明創(chuàng)造的獨占權,專利保護范圍越廣,被侵權的可能就越大,對于申請人來說,專利保護范圍應當盡可能廣泛,但與此同時,專利申請的成本就越高,且越不容易通過審查[7]。所以專利保護范圍對專利價值至關重要,已有文獻用經驗數據證實了專利保護范圍與專利價值之間的正相關關系[8]。對專利保護范圍的衡量也有幾種不同的方法,如獨立權利要求的長度和數量[9]、首項權利要求的字數(首項權利要求的字數越長,定語越多,范圍越?。?0]、國際專利分類(International Patent Classification,IPC)[8]等等。

上述文獻都能在一定程度上度量專利保護范圍,但是專利的具體保護范圍和法律依據是通過權利要求確立的,雖然也有部分文獻借助語義分析的方法研究專利文本,如借助“主語-行為-賓語”(Subject-Action-Object,SAO)結構的主題模型識別新興技術[11]、借助文檔主題生成模型(Latent Dirichlet Allocation,LDA)對專利主題進行分類[12]等,但很少有文獻從專利權利要求的內容出發(fā),借助語義分析的方法,對專利保護范圍進行衡量,并進行相關專利價值分析和應用研究。本文將以專利的權利要求為研究對象,通過語義分析,測算專利保護范圍,分析法律層面上的專利價值,提出相應的對策建議。

1 研究設計

為了從權利要求文本出發(fā),通過語義分析方法衡量專利保護范圍,進而對專利價值進行測算,對專利進行價值分析。本文提出如下方法,具體步驟見圖1。分為四個部分,第一步要提取待研究技術領域的權利要求文本,結合相應的檢索策略,從專利數據庫中導出待處理的文本;第二步,計算專利價值,專利的法律價值體現(xiàn)在保護范圍,而權利要求文本是權利保護范圍的法律依據,借助語義分析的方法,對權利要求中所界定的專利保護范圍進行測算,并將其進行標準化處理,使其具備可比性,能夠客觀地衡量不同專利的專利價值;第三步,專利主題分類,在專利價值指標測算完成之后,需要對專利進行價值分析和研究,而一般情況下,同一技術領域的專利數量太多,專利的內容各不相同,不利于客觀規(guī)律的把握和相關研究的開展,所以需要一種科學有效的分類方法,對文本內容進行分類分析,對此引入LDA主題模型對專利文本進行主題抽取,得到專利的主題分類;第四步,借助測算的專利價值指標和專利主題分類進行主題-價值分析和研究。接下來對各部分內容進行詳細說明。

1.1 專利權利要求提取

本文選擇美國專利局(The United States Patent and Trademark Office,USPTO)進行專利檢索,原因有以下兩點:1)美國是全球最大的專利市場,提交給美國專利局的大部分專利也在其他國家提交;2)美國專利局數據庫組織良好,歷史信息可以追溯到1976年。為此,本文通過USPTO專利數據庫檢索相關領域專利,從而獲取專利所對應的權利要求范圍。

1.2 專利保護范圍測算

專利的價值在于排他性,這種排他性是通過專利保護范圍體現(xiàn)的,專利的具體保護范圍是通過權利要求進行聲明的,如圖2,其權利要求文本由若干項權利要求構成,按照從屬關系分為獨立權利要求(如 Claim 1、Claim 13、Claim 19)、單項從屬權利要求(Claim 3、Claim4等)和多項從屬權利(Claim 31)要求,其中獨立權利要求的數量越多,保護的范圍就越廣[9],而從屬權利要求包含引用部分和限定部分,限定部分越多,保護范圍就越窄[13](如一種太陽能熱水器和一種管道防凍式太陽能熱水器)。基于此,本節(jié)對專利價值的測算將借助語義分析方法,對權利要求文本進行分解,描述權利要求的引用關系樹,并計算依賴度,得到可比的專利保護范圍指數,進而衡量專利價值。該方法由權利要求文本分解、權利要求樹的合成以及權利要求依賴度三個步驟組成。

圖1 方法流程圖Fig.1 Method Flow Chart

1.2.1 權利要求文本分解

一項專利的權利要求文本包含若干項權利要求,圖2顯示了其基本結構,首先需要按項進行抽取,可以看出每項權利要求的起始位置都是數字字加“.”作為該項序號,兩個序號之間的部分為一項專利要求的文本信息,利用這個書寫規(guī)則,對文本進行分割,抽取每項權利要求。其中,有部分權利要求在審查過程中被修改,即在文本中該項內容為“(Canceled)”,有時此類文本序號會根據上下文合并,使得排序序號規(guī)則發(fā)生改變,例如“6.-12.”,在處理的過程中要考慮到此類特殊情況,并將其清洗。

圖2 專利號US20190238340A1的權利要求文本(部分內容省略)[14]Fig.2 The Claim of Patent US20190238340A1(Partially Omitted)[14]

1.2.2 權利要求引用關系樹合成

根據處理好的各項權利要求文本合成引用關系樹,需要識別各項文本的類別及引用關系。

首先識別文本類型,有以下三種情況:

1)單項從屬權利要求,即該項文本中引用了其他權利要求,引用次數有且僅有1次。在具體識別時,當出現(xiàn)“according to claim”加數字序號等文本組合時,即代表該項權利要求存在引用,參考相關文獻并結合實際情況對該類文本組合進行歸納總結[13],利用圖3中的正則表達式進行識別,并記錄所引用權利要求的序號。

2)多項從屬權利要求,即該項文本中引用了其他權利要求,與單項從屬權利要求的不同點在于,引用次數大于1次。Wittfoth認為多項從屬權利要求對專利保護范圍的貢獻程度跟獨立從屬權利要求相似[15]?!秾@麑徖碇改希?012)》(Office Patent Trial Practice Guide)規(guī)定從屬權利要求在引用時要服從“多項不引”原則,在分析引用關系時,將多項從屬權利要求與獨立從屬權利要求都歸于0級。

3)獨立權利要求,即該項文本中未出現(xiàn)引用其他權利要求的情況。

其次,確定各項權利要求之間的引用關系。根據權利要求的“前向引用”原則,按照序號,從小到大向后查找引用關系,按照引用的先后次序,將分為一級、二級權利要求,以圖2中的權利要求為例,得到如下引用關系和引用關系層級。

圖3 引用關系識別的正則表達式Fig.3 Regular Expressions for Reference Recognition

圖4 專利號US20190238340A1的權利要求引用關系Fig.4 Patent US20190238340A1 Claims Reference Relationship

表1 專利號US20190238340A1的權利要求引用關系層級Tab.1 Patent US20190238340A1 Claims Reference Relationship Level

1.2.3 權利要求依賴度計算

在得到各項權利要求引用關系之后,接下來將計算權利要求的依賴度。從屬權利要求越多、引用層級越多,專利保護范圍就越窄,參考Wittfoth的方法,用依賴度衡量專利保護范圍,并進行標準化處理,計算專利價值。具體計算公式如下:

其中,D表示依賴度,Cn表示第n級從屬權利要求,Count(Cn)表示 n級權利要求的個數,Count(C)表示總數。該公式表明,引用層級越多,賦權越大,依賴度就越大,專利保護范圍就越窄。

以圖4中的專利US20190238340A1為例,其依賴度D=1.0625,對于一個有三層級引用關系的權利要求,Patent1是最小專利保護范圍的權利要求引用結構,其依賴度為Dmin=(0×1+1×1+2×1)/3=1,Patent2是最大專利保護范圍的權利要求引用結構,其依賴度為Dmax=(0×3)/3=0。

由于專利的法律價值在于其專利保護范圍,而專利保護范圍是由專利的權利要求文本作為法律依據進行確定的,所以衡量專利保護范圍就可以對專利的專利價值進行測算。上述依賴度雖然可以測算某專利的專利保護范圍的大小,但其存在一個缺點,對于不同權利要求項數的專利無法進行對比,為了比較不同權利要求數量的專利之間的專利價值,本文參考了Wittfoth的方法,用如下公式進行標準化處理,得到專利價值指標V。

借助專利價值V,可以計算不同權利要求引用結構的專利價值,在充分考慮了權利要求數量和引用層級對專利保護范圍影響的前提下,使其具有可比性,為專利價值分析提供了客觀方法。

1.3 LDA主題模型分析

在計算完某一領域內所有專利的專利價值之后,接下來要對其進行價值分析,而一個領域內的專利往往數量較多,且技術主題各有不同,這就需要對專利進行分類,來更加直觀和科學地進行專利價值分析。而LDA主題模型是一種用來識別大規(guī)模文檔中主題信息的機器學習方法,能夠識別文本的主題,實現(xiàn)專利主題提取的功能。該方法有三層架構,包括詞、主題和文檔[16]。具體算法步驟如下:

1)文本預處理。在之前語義分析的基礎上,對權利要求文本進行處理、清洗,主要包括統(tǒng)一單復數、去除標點符號、數詞和停用詞等。

2)確定主題數。采用困惑度指數(Perplexity)確定最優(yōu)的主題數[17]。

3)提取主題和特征詞。使用模型計算“文檔—主題”矩陣、“主題—詞”矩陣,獲得特征詞以及文檔在各主題上的概率分布,選擇概率值較大的前10個特征詞,結合相關技術資料進行主題標注。

4)結合專利價值進行主題分析。對不同主題的專利進行價值分析。

借助上述算法,可以有效的對某一技術領域內的專利按主題進行分類,從主題的維度進行專利價值分析,可以更好的把握專利的價值分布和主題-價值分析。

2 實證分析

本文以區(qū)塊鏈技術(Blockchain technology)為例,借助權利要求語義分析的研究方法,分析區(qū)塊鏈專利現(xiàn)階段研究方向以及專利價值分布。區(qū)塊鏈技術是一項在科學研究、科技創(chuàng)新、供應鏈金融科技以及投資應用方面具有遠大前景的技術之一[18],2019年10月,習近平總書記在中央政治局第十八次集體學習時強調,“把區(qū)塊鏈作為核心技術自主創(chuàng)新重要突破口,加快推動區(qū)塊鏈技術和產業(yè)創(chuàng)新發(fā)展”,借助專利價值分析,研究區(qū)塊鏈技術現(xiàn)階段的發(fā)展狀況,對中國區(qū)塊鏈技術創(chuàng)新和商業(yè)應用有一定的現(xiàn)實意義。

2.1 數據來源及說明

首先確定待檢索專利的檢索表達式。通過查閱文獻與研究成果[19],嘗試利用關鍵詞匹配方法進行檢索,結合檢索準確性原則,將 TS=(“blockchain”)作為檢索策略的表達式,檢索日期為2019年10月,從USPTO數據庫中共導出1693項專利。

從申請專利數量來看,區(qū)塊鏈技術更多集中于擁有區(qū)塊鏈技術數量最多的前十大專利權人,表2說明,IBM持有的區(qū)塊鏈專利數量最多,占全部專利數量的11.28%,其次為阿里巴巴集團,持有101件專利,占整體的5.97%,從國別來看,美國企業(yè)的區(qū)塊鏈專利申請數量較多,除此之外,還有中國、韓國、英國的企業(yè)排名靠前。

表2 前十大專利權人情況Tab.2 The Top Ten Patentees

2.2 區(qū)塊鏈專利價值計算

根據上述權利要求文本處理方法,對權利要求進行分解并分析權利要求引用關系。圖5繪制了專利權利要求數分布的直方圖,橫軸代表權利要求數的分布區(qū)間,縱軸代表區(qū)間包含的專利數量,根據圖5可以看出,權利要求數小于等于20項的有1328個,占樣本總數的78.4%,其中權利要求數為20項的專利最多,有833個,占樣本總數的50%。根據美國專利局的收費標準,超過20項權利要求需要額外收取每項80美元的費用,這也在一定程度上說明,專利申請人為了使專利價值最大化,會在不超過額外收費標準的前提下盡可能多的增加權利要求的數量。

根據專利要求引用關系計算權利價值。圖6顯示了不同價值區(qū)間的專利數量分布情況,橫軸為專利價值區(qū)間,縱軸為專利數量,圖像表明,專利價值較為集中在[0.62,0.88]區(qū)間,由于前10%的專利最具影響力[20],且一個技術領域內的專利價值更多集中在前10%的專利中[10],選取專利價值前10%作為高價值專利,其專利價值大于0.88,數量為174件。

圖5 權利要求數分布直方圖Fig.5 Distribution Histogram of Claims

2.3 區(qū)塊鏈專利價值應用研究

2.3.1 專利主題分類

在計算完區(qū)塊鏈領域專利價值之后,接下來要對其進行價值分析,而一個領域內的專利往往數量較多,且技術主題各有不同,這就需要對專利進行分類,來更加直觀和科學地進行專利價值分析。本節(jié)內容將借助LDA主題模型,對專利權利要求文本進行分析,結合區(qū)塊鏈領域的相關資料,對專利按照技術領域進行主題分類。

圖6 專利價值分布直方圖Fig.6 Histogram of Patent Value Distribution

參考區(qū)塊鏈現(xiàn)有資料和相關文獻[21,22],根據技術層級確定區(qū)塊鏈技術分布領域,主要分為協(xié)議層、擴展層與應用層(表3)。其中,協(xié)議層是區(qū)塊鏈的底層技術,是一切的基礎,負責通過數據存儲以及網絡構架實現(xiàn)去中心化交易、搭建通道、構建網絡環(huán)境,其技術特征詞主要涉及算法、數據領域;擴展層是使區(qū)塊鏈向某些領域擴展的技術,其開發(fā)目的是使區(qū)塊鏈更實用,目前較為普遍的方向主要是兩個,一是利用區(qū)塊鏈跨鏈、側鏈、多鏈的技術特征,開發(fā)的智能合約技術,二是與交易清算系統(tǒng)結合,開發(fā)的交易支付技術;應用層是服務于具體應用場景的技術,目前主要集中于數字貨幣以及安全認證領域。

在使用LDA模型抽取主題之前,需要確定抽取的主題數量,如果主題數量太少會導致主題的辨識程度不高,為了解決這個問題,Blei和Jordan(2003)采用困惑度來確定模型的最優(yōu)主題數[17],困惑度是用來評價語言模型預測結果優(yōu)劣程度的指標,通過對比訓練好的模型在測試集上的概率,判斷模型的優(yōu)劣程度,困惑度越小,概率越大,模型的預測結果越準確。對樣本不同主題數下的困惑度進行計算并將結果通過折線圖的形式呈現(xiàn),如圖7。圖片顯示,主題數為6時出現(xiàn)明顯拐點,之后走勢趨于平緩,結合區(qū)塊鏈技術領域分布情況,確定最優(yōu)主題數目為6。

表3 當前區(qū)塊鏈技術領域Tab.3 Blockchain Technology Field

利用LDA對區(qū)塊鏈專利權利要求進行主題抽取,將各個主題出現(xiàn)概率前十的特征詞進行分析,并結合區(qū)塊鏈技術當前發(fā)展情況對主題進行標注,結果如表4所示。經過LDA主題模型分析之后,將本文選取的區(qū)塊鏈技術專利樣本劃分為了六大主題,接下來將結合專利價值進行區(qū)塊鏈技術主題與專利價值組合分析。

圖7 專利困惑度折線圖Fig.7 Patent Confusion Line Graph

表4 區(qū)塊鏈技術“主題—特征詞”Tab.4 The Theme-Feature Words of Blockchain Technology

2.3.2 區(qū)塊鏈技術主題與專利價值組合分析

通過LDA主題模型對區(qū)塊鏈技術主題和專利價值進行組合分析,一方面可以了解不同技術主題下的專利價值分布情況;另一方面可以明確不同專利權人區(qū)塊鏈技術的競爭地位,根據分析結果,從而為國家和企業(yè)層面就如何發(fā)展我國區(qū)塊鏈技術提出相應的建議。

圖8 不同技術主題的區(qū)塊鏈專利數量與專利質量對比分布圖Fig.8 Distribution Map of Patent Quantity and Quality of Blockchain in Different Technical Topics

根據圖8,從專利數量來看,數據存儲領域的專利數量最多,高達383件,安全認證領域專利數量最少,在智能合約、虛擬貨幣、交易支付和網絡構架四個領域的專利數量比較接近;從專利價值來看,數據存儲領域的專利價值最高,高達0.72,網絡架構專利價值最低,在智能合約、虛擬貨幣、交易支付和安全認證的專利價值比較接近。從整體上來看,數據存儲領域的專利數量和專利價值都高于其他領域,在網絡構架領域的專利價值較低,相關企業(yè)還需進一步在這個領域提升專利價值。

為了進一步分析高價值專利主題分布,由于最具有價值的專利只占少數,在此對專利價值進行排序,觀察前10%的高價值專利。圖9顯示了區(qū)塊鏈技術高價值專利主題分布情況,結果表明,數據存儲領域專利數量占高價值專利的比例最大,且與全樣本進行對比,該比例有所上升,說明價值較高的專利更多集中在數據存儲領域,而交易支付領域在價值較高的專利中的數量最少,且與全樣本相比在高價值專利樣本中比例有所下降。

圖9 區(qū)塊鏈專利主題分布Fig.9 Blockchain Patent Subject Distribution

圖10為前十大專利權人的綜合競爭地位分布圖,由圖可知,IBM的專利數量最多為191件,但是專利價值偏低,平均專利價值為0.69,Coin-Plug和英特爾的專利數量較少,但其專利平均價值最高為0.789和0.786,而阿里巴巴在區(qū)塊鏈領域雖然專利數量排名第二,但是平均專利價值最低,為0.67。根據綜合競爭地位分布圖,可以將前十大專利權人分為三個組別:高價值組,有CoinPlug、英特爾、nChain、思科,其特點為專利數量較少,但專利價值較高;高數量組,有IBM、阿里巴巴,雖然專利數量較多,但是專利價值較低;均衡組,有埃森哲、萬事達卡、美國銀行、沃爾瑪,其專利數量和專利價值均處于中等水平。

圖10 前十大專利權人的綜合競爭地位分布圖Fig.10 Distribution Map of The Comprehensive Competitive Status of the Top Ten Patentees

3 結論與展望

本文提出了基于權利要求語義分析和LDA主題模型的專利價值測算方法及分析框架,以USPTO專利數據庫中的區(qū)塊鏈專利為研究對象,對高價值區(qū)塊鏈專利分布情況、不同技術領域的專利價值分布和不同專利權人的綜合競爭地位進行了分析,通過上述分析,可以得到如下結論,就我國如何發(fā)展和布局區(qū)塊鏈技術提出相應的對策建議。

1)通過分析各個主題專利價值分布,發(fā)現(xiàn)數據存儲領域的專利價值最高,專利數量最多,網絡構架領域專利價值最小。由于區(qū)塊鏈本質上是一個去中心化的數據庫,而當前的熱點技術無論是5G技術、物聯(lián)網還是共享經濟等,都離不開海量數據的傳輸與處理,這使得在當前信息時代下,數據存儲技術成為研究和應用的核心,這與本文通過對區(qū)塊鏈專利權利要求進行語義分析得出的結論一致,對于企業(yè)決策者來說,要重點關注區(qū)塊鏈數據存儲領域,加強區(qū)塊鏈技術領域的研發(fā)投入,提升國際核心競爭力,全面推進研究成果轉化為專利技術,把握技術發(fā)展前沿,占據創(chuàng)新制高點。

2)從國家分布來看,前十大專利權人屬地主要集中在美國,有七家公司,其余三家分別屬于中國、英國、韓國。通過分析不同專利權人的專利價值分布,可以將前十大專利權人分為三組:高價值組、高數量組、均衡組,其中專利數量較少的nChain、英特爾,其專利價值較高,而持有專利數量較多的IBM和阿里巴巴,其專利平均價值偏低。我國在加快推進區(qū)塊鏈技術和產業(yè)創(chuàng)新發(fā)展的過程中,一方面要培育一批區(qū)塊鏈骨干企業(yè)和研發(fā)機構,發(fā)揮引領和帶頭作用,掌握國際競爭話語權;另一方面要注重引導企業(yè)對于高價值專利的研發(fā)投入,從以量取勝向質量兼?zhèn)滢D變。由于企業(yè)是市場競爭的直接參與者,國家層面要研究激勵區(qū)塊鏈企業(yè)的相關政策,以阿里巴巴等優(yōu)質企業(yè)作為領頭羊,培養(yǎng)區(qū)塊鏈企業(yè)在國際上的競爭力,力爭占領區(qū)塊鏈技術的科技制高點。

本文提出的專利價值計算方法和分析框架,能客觀有效地對一個領域的專利價值進行評估和分析,但是仍存在一定的不足之處,由于只對英文專利文獻進行了分析,沒有分析中文專利,使得分析樣本不夠全面,接下來需要對如何分析中文權利要求進行探索,豐富現(xiàn)有研究框架。

猜你喜歡
區(qū)塊專利數量
專利
水運工程(2022年7期)2022-07-29 08:37:38
區(qū)塊鏈:一個改變未來的幽靈
科學(2020年5期)2020-11-26 08:19:12
區(qū)塊鏈:主要角色和衍生應用
科學(2020年6期)2020-02-06 08:59:56
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
統(tǒng)一數量再比較
區(qū)塊鏈+媒體業(yè)的N種可能
傳媒評論(2018年4期)2018-06-27 08:20:12
讀懂區(qū)塊鏈
頭發(fā)的數量
我國博物館數量達4510家
專利
旬阳县| 德保县| 海原县| 平凉市| 普兰县| 凤凰县| 车险| 许昌市| 贵南县| 辽源市| 类乌齐县| 舒城县| 新兴县| 墨脱县| 阿拉善右旗| 吉隆县| 西安市| 武城县| 华蓥市| 东方市| 大悟县| 邳州市| 庄河市| 康平县| 北辰区| 山东| 安国市| 彝良县| 仙桃市| 泗洪县| 车致| 济阳县| 乌兰县| 神农架林区| 九台市| 祁阳县| 哈巴河县| 搜索| 丁青县| 什邡市| 奉节县|