国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文專利信息資源深加工方案設計與實證研究*

2014-10-12 02:55:02張兆鋒桂婕李穎杜永萍
數(shù)字圖書館論壇 2014年7期

張兆鋒,桂婕,李穎,杜永萍

(1. 南京大學信息管理學院,南京 210093;2. 中國科學技術信息研究所,北京 100038;3. 北京工業(yè)大學計算機學院,北京 100022)

中文專利信息資源深加工方案設計與實證研究*

張兆鋒1,2,桂婕2,李穎2,杜永萍3

(1. 南京大學信息管理學院,南京 210093;2. 中國科學技術信息研究所,北京 100038;3. 北京工業(yè)大學計算機學院,北京 100022)

基于專利分析的視角,調(diào)研了國內(nèi)外專利信息資源的現(xiàn)狀和特點,明確了用于專利分析的資源及其加工深度的不足,設計了預處理和深加工的方案,重點為專利清洗和專利中四類信息的內(nèi)容標引:發(fā)明類型、技術主題、發(fā)明改進和應用領域。并以新能源汽車領域為例,對中文專利進行了深加工實證研究。結(jié)果顯示,利用清洗和深度標引后的專利資源能有效提高分析的準確度和專利資源揭示深度。

專利資源;專利清洗;專利標引;專利抽取

引言

專利作為技術創(chuàng)新的載體,包含大量的技術、經(jīng)濟和法律信息,且數(shù)量巨大、覆蓋學科范圍廣,技術描述詳細規(guī)范,是一種重要的科技信息資源。基于專利進行分析,可以了解領域發(fā)展現(xiàn)狀,進行國家或企業(yè)競爭情報分析,及時把握技術發(fā)展熱點和趨勢,以便更好地發(fā)現(xiàn)技術機會和進行戰(zhàn)略布局,從而有效地提高企業(yè)的競爭能力。

選取合適的專利信息源是進行專利分析的基礎,專利信息資源的質(zhì)量是獲得準確可靠競爭情報的保證。目前,專利信息來源眾多,質(zhì)量參差不齊,給選擇和利用造成諸多不便。同時,大家獲取到的專利信息資源多數(shù)只能進行題錄信息的分析,不能深入專利文本內(nèi)部[1,2]。某些商業(yè)專利分析平臺[3,4]和研究人員[5]在開發(fā)的系統(tǒng)中提供了人工標注的接口,但隨著技術的快速發(fā)展和專利數(shù)量的迅速增多,人工標注成本大、速度慢的問題暴露出來。有數(shù)據(jù)庫開發(fā)商和研究人員研究了專利數(shù)據(jù)自動加工的方法,但加工工具的精確度、擴展性和深度不足。

本文在長期跟蹤、深入調(diào)研分析國內(nèi)外專利資源及深加工現(xiàn)狀的基礎之上,主要研究基于詞表和模板對專利進行自動深加工的方法,設計一套通用的專利深加工方案,深入到專利內(nèi)容層面細粒度的標引加工,為專利的有效和深度利用提供基礎支撐。

1 專利信息資源現(xiàn)狀

1.1 專利信息資源概述

專利信息資源指各國及區(qū)域知識產(chǎn)權(quán)組織發(fā)布的專利文獻及基于其加工的二次文獻的總稱。按照不同的分類標準,可以有多種分類:

(1)根據(jù)專利資源的來源不同,專利可以分為官方專利和服務商專利數(shù)據(jù)庫。官方專利一般提供免費檢索服務,及時性、權(quán)威性較好,但數(shù)據(jù)質(zhì)量不夠;數(shù)據(jù)庫服務商提供的專利是經(jīng)過整合后的多國專利數(shù)據(jù),可支持跨庫檢索,但更新周期長。

(2)根據(jù)加工程度不同,專利信息可分為原始專利、粗加工專利和深加工專利專題庫。原始專利沒有經(jīng)過加工整理,存在格式、錄入不規(guī)范等錯誤信息;粗加工專利進行了一般性的規(guī)范處理,比如規(guī)范字母大小寫、日期格式等;深加工專利專題庫中的專利數(shù)據(jù)經(jīng)過嚴格的篩選、規(guī)范、加工和標引等,數(shù)據(jù)質(zhì)量較好。

(3)根據(jù)提供服務的方式不同,有簡單檢索、檢索結(jié)果分面統(tǒng)計、檢索結(jié)果指標分析等不同程度的服務。官方專利局一般只提供簡單檢索和列表查看功能;部分免費的開放平臺會提供專利的復雜檢索和檢索結(jié)果分面統(tǒng)計功能;比較專業(yè)的專利服務商和平臺會提供專利檢索和對檢索結(jié)果的指標分析一體化服務,實現(xiàn)專利資源與分析服務的整合。

(4)按是否收費可分為免費數(shù)據(jù)庫和收費數(shù)據(jù)庫。免費數(shù)據(jù)庫數(shù)據(jù)質(zhì)量不高,訪問速度慢,不能批量下載數(shù)據(jù)。收費數(shù)據(jù)庫提供的專利質(zhì)量、服務和穩(wěn)定性都較好,如德溫特專利數(shù)據(jù)庫[6]收錄的專利都經(jīng)過題目和摘要的改寫,同一專利家族的專利歸并。

1.2 專利信息資源利用現(xiàn)狀

隨著人們專利意識的快速提升,利用專利信息進行技術分析、領域分析和競爭情報分析的企業(yè)和研究人員也快速增多,如姚頡靖等人基于專利分析抗腫瘤藥物發(fā)展狀況[7],韓雪冰等利用專利信息分析我國固體激光器發(fā)展狀況[8],并提出對策,翟東升等進行了基于專利的頁巖氣技術國際研究態(tài)勢研究[9]。由于專利信息的公開性,獲取專利信息比較容易,但在專利信息檢索、分析等利用過程中還存在著較多問題和不足,主要如下:

(1)免費系統(tǒng)只提供有限的檢索結(jié)果展示或分析?,F(xiàn)在多數(shù)公開免費的網(wǎng)絡專利信息資源提供檢索結(jié)果顯示和導出時,都限制最高數(shù)量,如國家知識產(chǎn)權(quán)局官方網(wǎng)站限制每日瀏覽和下載專利說明書不超過300頁[10],佰騰網(wǎng)每次只能導出1000條記錄[2]。由于對一個領域進行領域分析時,所需的專利數(shù)一般都超過最高數(shù)量限制,不能滿足準確的分析需求,需要購買商用專利數(shù)據(jù)庫。

(2)獲取的專利信息沒有進行足夠的清洗就進行分析。網(wǎng)上免費的專利數(shù)據(jù)資源,質(zhì)量存在較多問題,若分析前不進行充分的專利清洗、規(guī)范加工,就不能得出可信的分析結(jié)論。即所謂的“Garbage in, garbage out”。如果需要較高質(zhì)量的分析情報,需要對獲取到的初始數(shù)據(jù)進行清洗加工,且要對可能出現(xiàn)的問題考慮全面。清洗專利數(shù)據(jù)是一項費時費力的工作,也可以直接購買所需領域的專利專題數(shù)據(jù)庫,但專題數(shù)據(jù)庫多是比較熱門的領域,不能找到完全符合自己分析需求的數(shù)據(jù)。

(3)多數(shù)的專利分析只限于題錄信息的組合分析。由于專利信息登記時,題錄信息單獨存放,所以提供服務較為容易。大多數(shù)專利信息資源提供商大多只提供題錄信息的分析,不能提供深入專利文本內(nèi)容的微觀分析。需要進行基于專利文本內(nèi)容分析時,需要用人工標引的方法對專利“技術”、“功效”、“創(chuàng)新性”進行標引,由于人工成本較大,這只適合于較少專利數(shù)量的分析。

1.3 專利信息資源深加工研究現(xiàn)狀

為了提高專利信息資源利用的準確性和效率,有不少研究人員和公司對專利資源的深加工進行了相關的研究。例如,德溫特依靠雄厚的數(shù)據(jù)加工能力對專利題目和摘要進行了改寫和深加工,將摘要分成了三部分:NOVELTY、USE和ADVANTAGE,但粒度還不夠細,屬于句群級別,沒有具體到詞或短語的級別,只能滿足人工閱讀的需要,不能為自動化處理提供小粒度的標引結(jié)果[6];東方靈盾公司制作了世界傳統(tǒng)藥物深加工數(shù)據(jù)庫,針對藥物專利的特點進行成分、屬性等相關信息的提取,取得了較好的應用效果,然而此方法通用性不夠,不便于擴展到其他領域,且需要較多的人工參與,成本較高[11];北京工業(yè)大學的翟東升、李倩等人利用SQL Server BI對德溫特專利信息進行了清洗和字段拆分工作,但僅限于對復合字段的拆分存儲,便于對題錄信息的統(tǒng)計,并沒有深入到專利文本內(nèi)容層面[12]。

近年來,隨著本體技術的發(fā)展和逐漸成熟,對題錄信息的深度加工逐漸向面向文本的深加工轉(zhuǎn)移,利用本體技術對專利摘要進行信息抽取、標引和加工、構(gòu)建專利知識庫,更利于專利信息的組織、檢索和分析。例如,姜彩虹等人利用知識工程的方法,提出了一個基于本體的專利摘要抽取模型,通過構(gòu)建的本體、收集的詞表和撰寫的規(guī)則對專利摘要進行知識抽取,構(gòu)建專利知識庫實現(xiàn)對專利的深度加工[13]。翟東升等人從提升專利研究領域中信息處理效能的角度出發(fā),基于Derwent專利數(shù)據(jù)庫中的專利信息和其中所包涵的語義關系設計Derwent專利本體、實現(xiàn)OWL語言描述的本體模型、研究本體實例的組織方式,將專利信息合理地存儲在基于本體模型的邏輯介質(zhì)中[14]。

通過對專利深加工研究現(xiàn)狀的多角度綜合分析,發(fā)現(xiàn)現(xiàn)有的專利信息深加工技術對專利加工的精確度不夠、加工標引粒度過大、專利工具多領域應用的擴展性不足。而由于中文文本分詞、抽取等技術的不夠成熟,所以基于本體技術的專利抽取、標引和組織方面的研究還處于初級階段,有待進一步加強研究力度,為未來面向?qū)@谋镜耐诰蛱峁┗A支撐。

2 專利信息資源深加工方案設計

專利信息清洗加工的程度決定專利分析結(jié)果的準確度和深度。本研究根據(jù)實際工作中的經(jīng)驗和發(fā)現(xiàn)的問題,并針對在“1.2 專利信息資源利用現(xiàn)狀與不足”中提到的問題進行了深入全面的研究,為專利深加工設計了專利清洗和專利標引兩步加工的方案,如圖1所示。

圖1 深加工方案設計圖

在專利清洗階段,利用專利數(shù)據(jù)的常見問題和規(guī)范標準制定一系列的規(guī)則,形成規(guī)則庫,基于規(guī)則庫并結(jié)合使用SQL批處理語句等對專利數(shù)據(jù)進行補充、整合、去重、清洗和規(guī)范等;在專利標引階段,基于中信所自主研發(fā)的“領域漢語科技詞系統(tǒng)”提供的詞表,結(jié)合半人工機器學習積累的模板庫對專利中包含的“發(fā)明類型”、“技術主題”、“發(fā)明改進”和“應用領域”等知識進行了標引。該方案有效地解決了專利清洗不全面和專利標引依賴手工而不能處理大批量數(shù)據(jù)及內(nèi)容標引深度不足的問題。

2.1 專利清洗

專利清洗針是指對專利信息中不完整、不規(guī)范、不正確的信息進行補充、糾錯、統(tǒng)一、規(guī)范的過程。主要清洗的對象是分析常用的字段,如專利權(quán)人、發(fā)明人、日期等。專利清洗過程中常見的問題可參考表1。

表1 專利清洗常見問題列表

對“信息不完整”的問題,根據(jù)需要主要是對排名靠前的專利權(quán)人或該領域重要的公司信息的準確性進行核實,不完整的進行補充;對“信息不一致”的問題,通過建立標準術語與變異術語的對應關系,批量化地規(guī)范為標準規(guī)范的表述;對“信息冗余”問題,要根據(jù)實際分析的需要進行重復記錄去重工作,以保證分析結(jié)果的可靠性。

2.2 專利標引

專利標引主要是對專利文本內(nèi)容的深度揭示,為進行基于專利文本的挖掘提供數(shù)據(jù)基礎。本研究根據(jù)專利文本的特點,利用半自動化的模板構(gòu)建方法抽取專利文本摘要中的指定信息,實現(xiàn)指定領域的專利術語識別,利用識別出的術語進行標引。因此需要首先建立模板庫,模板是對句子中被抽取部分、特征詞以及它們之間次序的抽象。通過選取特征詞和適當泛化等策略,采用人機交互方式,人工標注與機器學習相結(jié)合,構(gòu)建抽取模板。針對專利摘要中的各種不同類型的目標信息建立相應的模板,完成知識抽取任務。專利標引的流程圖如圖2所示。

本研究共設計了四種類型信息的標引,如圖3所示:

(1)發(fā)明類型:在名詞短語識別基礎上,實現(xiàn)領域概念的獲取,獲取專利的發(fā)明類型信息。如,判斷發(fā)明是否屬于產(chǎn)品、方法、設備、流程、工藝、材料等。

圖2 專利標引流程圖

(2)技術主題:技術主題指一個專利描述的主要技術是什么,即專利全文描述的主要對象,通過建立核心關鍵詞表等方式,觸發(fā)技術主題相應的模板,實現(xiàn)技術主題知識的抽取。

(3)發(fā)明改進:也即功效,指該發(fā)明實現(xiàn)了什么功能的改變和效果的提升。在已有的專利數(shù)據(jù)中,采用統(tǒng)計的方法實現(xiàn)不同專利用語及專利術語的詞頻計算,包括名詞核心詞表、動詞核心詞表、表示傾向性特點的詞表等,從不同的角度獲取其改進特征,最后對功效相似的描述進行合并。通過功效的標引,可以為技術研發(fā)人員提供從功效檢索的入口,更好地發(fā)現(xiàn)可替代技術。

(4)應用領域:專利摘要中可能會包含該專利的應用領域信息,通過建立相應的模板實現(xiàn)相關知識的抽取。

圖3 專利標引內(nèi)容說明

對發(fā)明類型的判斷,主要是定位在專利名稱和摘要中的第一句話,通過匹配“方法”、“技術”、“材料”、“裝置”、“系統(tǒng)”等關鍵詞來確定專利相應的類型;對發(fā)明改進的判斷,主要依賴建立的功效動詞庫,如“提高”、“加快”、“節(jié)省”等,并結(jié)合常用功效表述詞表進行定位,如“方法簡單”、“成本低”、“功率大”等,根據(jù)不同領域的特點,功效描述詞會有部分差異。

針對“技術主題”和“應用領域”兩類專利,知識抽取適合以模板的形式抽取,分別建立相應的模板,抽取模板示例如表2所示。

表2 抽取模板示例

3 深加工實證研究

本研究以1985-2013年中文專利數(shù)據(jù)庫為數(shù)據(jù)源,以“新能源汽車”、“電動汽車”、“混合動力汽車”等汽車類型及其關鍵零部件名稱為檢索詞,結(jié)合IPC分類號如“ B60L11”、“G01L3”、“ H01M2”進行檢索。對檢索結(jié)果進行瀏覽過濾,刪除明顯不屬于該領域的專利,最后獲得新能源汽車領域中文專利8005條專利,根據(jù)第2節(jié)設計的深加工方案,進行專利清洗和專利標引的實證研究,實現(xiàn)基于規(guī)則和模板的專利清洗和深加工。

3.1 專利清洗

根據(jù)設計方案中常見問題列表,分析容易出現(xiàn)錯誤的字段和內(nèi)容,進行了如下的清洗操作:

(1)對不完整信息進行補充。通過檢索語句查找專利庫中本應該有而信息缺失的字段,例如,分類號、專利權(quán)人或發(fā)明人這些字段是必填字段,卻有缺失情況,則利用專利號去官方網(wǎng)站查找信息,進行專利數(shù)據(jù)庫信息補充,提高了專利信息庫的完整性。

(2)對機構(gòu)名稱進行合并。對排名靠前的大公司因申請人不同導致的機構(gòu)名稱不統(tǒng)一,進行合并。如申請人為“中國科學技術信息研究所”、“中國科技信息研究所”、“中國科技情報研究所”,由于歷史名稱變更和申請時不規(guī)范書寫造成的同一個單位,多種描述,要統(tǒng)一合并為規(guī)范描述“中國科學技術信息研究所”。同時,對錄入錯誤、合資公司申請、名稱變化、重組兼并等情況而導致的機構(gòu)名稱不一致問題,進行相應的修正。由于專利權(quán)人機構(gòu)眾多,對所有的機構(gòu)進行排查會耗費較大人力,也無必要,本研究采取對排名在前500名的專利權(quán)人機構(gòu)名稱進行了清洗合并。如,對專利權(quán)人中的“中國科學院長春光機所”修改為“中國科學院長春光學精密機械研究所”。

(3)對人名進行合并。對人名中存在的全稱與縮寫、輸錯、姓名次序顛倒、翻譯問題、稱呼變化、多個稱呼等問題,進行人名合并。如“奧斯蘭姆”與“奧斯蘭母”,通過觀察其他字段信息,如國家、城市、地址等,發(fā)現(xiàn)這些信息一樣,可以判斷這兩個專利權(quán)人是由于輸入錯誤導致的人名不一致,實際操作中,針對發(fā)明數(shù)在3個以上的發(fā)明人進行了清洗。

(4)統(tǒng)一英文字母、數(shù)字、標點、各種符號的大小寫及全角半角格式。對專利信息錄入時沒有區(qū)分全角半角問題進行處理。如,針對大小寫問題的錯誤修正,將“ASK工業(yè)s?p?a?”、“ASK工業(yè)S?P?A?”、“ASK工業(yè)S?P?A?”,統(tǒng)一修改為“ASK工業(yè)S?P?A?”;因為符號問題需要修正的數(shù)據(jù),如,“GN瑞聲達A/S”、“GN瑞聲達A/S”、“GN瑞聲達A/S”,統(tǒng)一修改為“GN瑞聲達A/S”。其他容易出現(xiàn)類似問題的標點符號還有“()”和“()”、“〃”和“"”、 “~”和“~”、“+”和“+”、“〈〈”和“《”等。

3.2 專利標引

通過對數(shù)百篇比較典型的專利文本的考察,我們發(fā)現(xiàn)專利摘要文本的描述語言較規(guī)范,一段專利摘要文本,一般先描述技術主題,然后再用較長的一段話描述發(fā)明原理,最后是對發(fā)明改進和應用領域的描述。因此,我們構(gòu)建模板的方法如下:首先將一個完整對象內(nèi)的部分信息進行泛化(如:專利屬于NP組塊),作為模板的變量,保留觸發(fā)詞,包括前綴特征詞、后綴特征詞、關鍵動詞等信息,作為模板的常量;其次,通過人機交互方式,人工與機器學習相結(jié)合,并通過統(tǒng)計方法對大量專利文檔的分詞以及詞頻進行統(tǒng)計,得到高頻詞表,人工對該詞表進行整理得到用于識別模式的標記詞,如“一種”、“其特征”、“涉及”等。然后,進行人工標記,用10人對專利摘要500條進行標記,包括4種對象。最后,利用人工優(yōu)化后的模板,結(jié)合專利摘要中各目標信息出現(xiàn)的位置、長度等特征來抽取目標信息,利用抽取結(jié)果對專利進行標引。

通過不斷的反復優(yōu)化,利用建立的模板對8005條數(shù)據(jù)進行實際抽取,對抽取結(jié)果隨機選擇800條分為10組進行人工評價。發(fā)現(xiàn)其中技術主題和發(fā)明類型抽取的準確率較高,在專利文本中表現(xiàn)規(guī)范,一般位于句首,特征較明顯。發(fā)明改進和應用領域部分的抽取主要依據(jù)模板中的特征詞以及在專利文本中的位置等信息。以技術主題模板抽取結(jié)果為例,統(tǒng)計數(shù)據(jù)如表3所示,有較高的準確率,實驗證明該方法有較高的可靠性。

表3 技術主題抽取結(jié)果統(tǒng)計

為了方便結(jié)果的展示,對抽取的技術、模板、動詞詞表和標引后的示例專利進行了統(tǒng)一整合,以平臺的形式集中體現(xiàn)標注效果。

圖4 單條專利標引結(jié)果

其中一條抽取結(jié)果的詳細信息,如圖4所示,列出了專利號為“CN100998948”的專利抽取出的專利主題、專利提高、專利應用和發(fā)明類型等信息,抽取出的各類信息可用于對該條專利進行標引。

3.3 結(jié)果討論與應用場景

本研究通過對8005條專利數(shù)據(jù)的觀察總結(jié),發(fā)現(xiàn)了原始數(shù)據(jù)中存在的較多問題,并根據(jù)實際出現(xiàn)的問題逐項依據(jù)需求進行了補充、清理和完善,有效地提高了數(shù)據(jù)的準確度和可用性。通過對設計的抽取四種專利信息“技術主題”、“發(fā)明類型”、“發(fā)明改進”和“應用領域”方案進行研究和實證實驗,并利用抽取結(jié)果對相應專利進行標引,有效地實現(xiàn)了對專利信息資源的深度揭示,為下一步專利文本的深度挖掘和分析奠定了基礎。

基于抽取標引的深加工專利數(shù)據(jù)可進行多種形式的應用。例如,把上述從文本內(nèi)容抽取的四種信息與著錄項信息如“時間”、“專利權(quán)人”、“區(qū)域”等進行組合分析,可以從多個角度進行技術趨勢分析和企業(yè)的專利布局分析,也可以提供更多的檢索入口和分面統(tǒng)計類型,還可以進行技術功效矩陣分析,如圖5所示,發(fā)現(xiàn)技術密集區(qū)(氣泡大的部分)、雷區(qū)(高侵權(quán)風險)和空白區(qū)(交叉點沒有專利申請),為技術研發(fā)創(chuàng)新提供思路指導。

圖5 技術功效矩陣

結(jié)語

本文通過研究國內(nèi)外專利信息資源的現(xiàn)狀,發(fā)現(xiàn)在使用專利資源過程中遇到的問題,結(jié)合問題和專利分析的需求,設計了通過專利清洗和專利標引兩種方案提高數(shù)據(jù)質(zhì)量的方法,并通過實證研究驗證了方案的有效性和優(yōu)點,為提高專利分析的準確性提供了保障。通過對專利文本的抽取標引,實現(xiàn)了專利內(nèi)容層面的深度揭示,為專利瀏覽、檢索、分析、挖掘等工作打下了基礎。由于實驗數(shù)據(jù)數(shù)量有限,模板覆蓋度還不夠高,下一步工作有待進一步積累模板的數(shù)量,優(yōu)化模板質(zhì)量,提高在不同領域應用的能力,并對專利抽取的結(jié)果進行進一步的精簡,實現(xiàn)詞組或短語的形式描述四類專利信息,更加便于統(tǒng)計和分類工作。

[1] 國家知識產(chǎn)權(quán)局.專利檢索與服務系統(tǒng)[EB/OL]. [2014-03-20].http://www.pss-system.gov.cn.

[2] 佰騰網(wǎng).佰騰專利檢索[EB/OL]. [2014-03-20]. http://so.baiten.cn/.

[3] 智慧芽.Patsnap [EB/OL]. [2014-03-20]. http://cn.patsnap.com/.

[4] 德高行.TechGlory專利風險管控及競爭情報分析系統(tǒng)[EB/OL].[2014-03-20]. http://www.tek-glory.cn/.

[5] 汪雪鋒,王有國,劉玉琴.多數(shù)據(jù)源協(xié)同下的專利分析系統(tǒng)構(gòu)建[J].圖書情報工作,2013(14):92-96.

[6] 鄭偉.Derwent Innovations Index數(shù)據(jù)庫的主要特點及檢索方法[J].中國索引,2009(1):56-60.

[7] 姚頡靖,彭輝.基于專利分析的我國抗腫瘤藥物發(fā)展現(xiàn)狀研究[J].現(xiàn)代情報,2014(2):107-114.

[8] 韓雪冰,吳學彥,戴磊.基于專利分析的我國固體激光器領域現(xiàn)狀與發(fā)展對策研究[J].現(xiàn)代情報,2014(1):132-136.

[9] 翟東升,蔡萬江,張杰,等.基于專利的頁巖氣技術國際研究態(tài)勢分析[J].情報雜志,2013(11):12-21.

[10] 國家知識產(chǎn)權(quán)局.專利檢索[EB/OL]. [2014-03-20]. http://www.sipo.gov.cn/zljs/.

[11] 東方靈盾.世界傳統(tǒng)藥物數(shù)據(jù)庫[EB/OL]. [2014-3-20]. http://www.eastlinden.com/list.aspx?id=208.

[12] 翟東升,李倩,等.德溫特專利信息清洗與標注模型研究[J].情報雜志,2013(8):150-153.

[13] 姜彩紅,喬曉東,朱禮軍.基于本體的專利摘要知識抽取[J].現(xiàn)代圖書情報技術,2009(2):23-28.

[14] 翟東升,張欣琦,張杰.Derwent專利本體設計與構(gòu)建[J].情報科學,2013,31(12):95-100.

Solution Design for Deep Processing of Chinese Patent Resources and Its Empirical Study

ZHANG ZhaoFeng1,2, GUI Jie2, LI Ying2, DU YongPing3
(1. Nanjing University, Nanjing 210093, China; 2. Institute of Scientific and Technical Information of China, Beijing 100038, China;3. Beijing University of Technology, Beijing 100022, China)

From patent analysis perspective, this paper surveys the present situation of patent resources and characteristics, and summarizes the shortcomings of patent resources used in analysis. Then it proposes a solution to process patent resource deeply. The emphases are cleaning and indexing of four type information: invention type,technology topic, improvement and application area. At last, it presents an empirical study, which proves that the cleaned and extracted patent resources are more accurate and revealed for analysis.

Patent resources; Patent cleaning; Patent indexing; Patent extracting

2014-03-25)

G250.7

10.3772/j.issn.1673—2286.2014.07.008

*本研究得到“十二五”國家科技支撐計劃項目“面向科技創(chuàng)新的專利信息加工與服務關鍵技術研究與應用示范”子課題“專利信息資源挖掘與發(fā)現(xiàn)關鍵技術研究”(編號:2013BAH21B02)資助。

張兆鋒,男,1979年生,在讀博士,研究方向:專利分析、數(shù)據(jù)挖掘、信息可視化,E-mail:zhangzf@istic.ac.cn。

桂婕,女,1976年生,博士,副研究員,研究方向:專利分析和科技創(chuàng)新管理。

李穎,女,博士,副研究員,研究方向:知識工程,知識服務系統(tǒng)。

杜永萍,女,1977年生,博士,研究方向:信息檢索,智能問答,自然語言處理。

安仁县| 鄂尔多斯市| 日喀则市| 文水县| 简阳市| 宁德市| 廊坊市| 渝北区| 黔南| 闽侯县| 中江县| 宾川县| 沿河| 静海县| 永吉县| 义乌市| 汤阴县| 甘洛县| 红河县| 海口市| 青州市| 法库县| 五台县| 海原县| 习水县| 河源市| 蚌埠市| 辽中县| 中西区| 新宾| 高密市| 石泉县| 化州市| 嵊泗县| 永仁县| 芷江| 鸡泽县| 定襄县| 玉环县| 武清区| 盈江县|