国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于漢語科技詞系統(tǒng)的專利文獻標引及應用研究*

2013-03-15 03:56張兆鋒中國科學技術(shù)信息研究所北京100038
數(shù)字圖書館論壇 2013年11期
關(guān)鍵詞:詞表標引主題詞

□ 張兆鋒 / 中國科學技術(shù)信息研究所 北京 100038

/ 南京大學信息管理學院 南京 210093

桂婕 張運良 / 中國科學技術(shù)信息研究所 北京 100038

劉喜文 / 南京大學信息管理學院 南京 210093

基于漢語科技詞系統(tǒng)的專利文獻標引及應用研究*

□ 張兆鋒 / 中國科學技術(shù)信息研究所 北京 100038

/ 南京大學信息管理學院 南京 210093

桂婕 張運良 / 中國科學技術(shù)信息研究所 北京 100038

劉喜文 / 南京大學信息管理學院 南京 210093

文章介紹了利用漢語科技詞系統(tǒng)的詞表及詞間關(guān)系對中文專利文獻進行主題標引的研究進展,根據(jù)專利文獻的特點設(shè)計了相應的標引策略和流程,并進行實驗及結(jié)果分析,證明了本標引方案的有效性,最后對標引結(jié)果在專利檢索中的應用特色進行了介紹。

標引,專利標引,主題標引,科技詞系統(tǒng)

1 引言

專利作為一種科技文獻,與期刊論文相比,它提供更全面、更直接的技術(shù)信息,其內(nèi)容具有廣泛性、可靠性、創(chuàng)造性、實用性的特點,是掌握最新技術(shù)的重要信息源之一。據(jù)研究,全世界的發(fā)明成果70%~90%出現(xiàn)在專利文獻中。如果充分利用專利文獻,可以縮短60%的科研周期,節(jié)約40%的科研經(jīng)費[1]。專利文獻是科技創(chuàng)新的體現(xiàn),同時又是創(chuàng)新的基礎(chǔ)。隨著十八大“實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略”,作為創(chuàng)新載體的專利文獻資源的挖掘與利用必將受到越來越多的重視。

專利文獻與科技論文相比,無關(guān)鍵詞字段。因此它不能像論文一樣可通過關(guān)鍵詞準確地揭示論文的主要內(nèi)容,提高檢索的準確性和效率,并基于關(guān)鍵詞進行內(nèi)容方面的深度挖掘,如文獻自動分類和相似性計算等。為了更有效地利用專利文獻資源,服務于技術(shù)創(chuàng)新、科研和支持管理決策,本文嘗試基于漢語科技詞系統(tǒng)對中文專利文獻進行主題詞標引,進而給每篇專利賦予主題詞,以便更好地揭示資源,充分利用專利文獻,實現(xiàn)專利信息的精準檢索及與主題相關(guān)的分析挖掘服務。

本文在接下來的章節(jié)會首先簡要介紹現(xiàn)有的文本標引方法,基于此提出本文采用的標引方法,并介紹相應的詞表及標引策略設(shè)計。然后進行實際的標引程序開發(fā)實驗,并對實驗結(jié)果進行分析,總結(jié)此種標引方法的優(yōu)點和不足,最后對標引的結(jié)果的應用場景進行設(shè)想。

2 專利標引概述與漢語科技詞系統(tǒng)

2.1 專利標引概述

專利標引指用一個或多個詞來表現(xiàn)專利內(nèi)容特征及相關(guān)技術(shù)、算法、組件的過程[2]。根據(jù)自動化程度可分為手工標引、機助標引和自動標引;根據(jù)標引的詞語的來源不同,可分為抽詞標引和賦詞標引[3]。專利標引的主要對象是專利主題、核心技術(shù)、重要算法、關(guān)鍵部件等,便于建立專利內(nèi)容層面的知識關(guān)聯(lián),實現(xiàn)對隱含信息的挖掘。李宏芳等人對三個較權(quán)威的中文專利數(shù)據(jù)庫的標引質(zhì)量進行了測評[4],發(fā)現(xiàn)中文專利數(shù)據(jù)庫的主題標引深度不夠,對非題名關(guān)鍵詞的標引不足,不便于從內(nèi)容層面對相似題名的專利進行區(qū)分檢索。同時,由于目前還是以手工標注為主,標引效率較低,標引結(jié)果也受標引人員主觀影響較大。要改善此類問題,需要借助于大規(guī)模的權(quán)威詞表和計算機的自動化技術(shù)[5]。

2.2 漢語科技詞系統(tǒng)

漢語科技詞系統(tǒng)(簡稱詞系統(tǒng):http://www.vocgrid.org/)是中國科學技術(shù)信息研究所提出并開發(fā)的面向中文為主的科技信息資源管理及深層次知識服務的知識組織系統(tǒng)[6]。該系統(tǒng)為中文科技信息資源的內(nèi)容處理提供詞匯層面的語義支撐,并建立了一定規(guī)模的領(lǐng)域科技詞表,使對海量文獻資源的智能、全面、準確的賦值標引提供了可能。本文探索如何利用大規(guī)模詞表結(jié)合計算機智能技術(shù)對海量專利文獻進行標引的方法。

3 標引策略設(shè)計

對專利文獻進行標引,要首先了解專利文本的特點,根據(jù)特點設(shè)計標引的策略和流程。

3.1 專利文獻的特點

專利文獻作為一種科技成果載體,詳細客觀地描述了發(fā)明創(chuàng)造的對象名稱、原理、組成、流程等內(nèi)容。一般包括專利號、發(fā)明名稱、摘要、權(quán)利要求書、國際分類號、發(fā)明人、申請人、申請日期等題錄信息。專利文獻不同于文學作品,專利描述的語言風格客觀、樸實,不使用比喻、擬人等修辭手法。專利描述用詞具體說有如下特點:

(1)文中的詞語都是如實反映所描述的物體、組件、元素等對象本身的概念,為主題詞賦詞標引提供了很好的前提條件。

(2)專利主題詞會多次出現(xiàn)。作為專利描述的主要對象,能夠代表或接近專利主題概念的詞匯在專利全文中往往會重復出現(xiàn),多次被提及,因此是專利的主題詞概率更高。

(3)由于專利發(fā)明多是對某一小部件或某一新類型的發(fā)明創(chuàng)造,因此詞系統(tǒng)中的上下位詞會在專利文本中有較多體現(xiàn)。而下位詞往往是專利發(fā)明的具體對象,上位詞是該發(fā)明的所屬類別描述,因此標引時應使用下位詞優(yōu)先標引策略。

(4)專利發(fā)明標題與專利文摘和權(quán)利要求項相比,標題更能體現(xiàn)專利主題所在,在標引策略設(shè)計時應給予更高的權(quán)重。

(5)專利文本行文比較規(guī)范,很少出現(xiàn)口語化的詞匯和縮略語、簡稱等。因此,在文中出現(xiàn)的能和主題詞表中詞匯匹配的詞語都可作為主題候選詞。

3.2 標引策略

以前的相關(guān)研究多為對新聞材料[7]、科技文獻[2]、學位論文[8]等進行標引,對專利文獻的標引研究較少。各種文獻由于文體特點、內(nèi)容、結(jié)構(gòu)不同,需要制定不同的標引策略。本文詳細分析了專利文獻的特點,制訂了如下的標引策略:

(1)標引源。專利發(fā)明名稱一般能比較明確地指出發(fā)明的對象,但有些專利直接以一個較上位類的概念詞作為發(fā)明名稱,如“汽車”、“電池”等。僅以此為標引詞,檢索時還不能提高查準率。而專利摘要和權(quán)利要求書可以對發(fā)明名稱有很好的補充。摘要是對發(fā)明的具體原理、結(jié)構(gòu)、功能的概要介紹,權(quán)利要求書是對專利所聲明保護權(quán)利的具體描述,專利所要保護的核心技術(shù)和對象會在權(quán)利要求書中有所體現(xiàn)。因此,本文選擇發(fā)明名稱、摘要和權(quán)利要求書作為標引源。

(2)標引權(quán)重。自動標引策略設(shè)計中對標引源權(quán)重的設(shè)計很重要,設(shè)置不當可能會遺漏主題詞,或者引入干擾詞,需要根據(jù)各個部分對主題的表達能力不同給予適當?shù)臋?quán)重。根據(jù)侯漢清、章成志、鄭紅等人對Web語料標引源加權(quán)方案的研究知道,“題名具有很強的表達能力”[9],同樣在專利中,專利發(fā)明名稱應該具有最高的權(quán)重,同時根據(jù)專利標引源的特點,摘要和權(quán)利要求書描述中同樣的主題或部件名稱會重復出現(xiàn),因此需要提高標題中主題詞的權(quán)重,保證標題中出現(xiàn)的主題詞被標引的優(yōu)先權(quán)。基于此,對專利標引源權(quán)重設(shè)計如表1所示。

(3)選詞。詞系統(tǒng)中有一些單字主題詞,如“碲、鋯、鎘、銠”等。單字主題詞多為某元素名或很上位的概念,標引專利意義不大,且對確定正確的標引詞有較大干擾,本文中的標引詞選擇詞系統(tǒng)中詞長大于或等于4個字節(jié)的主題詞。

(4)標引算法。在專利文本中,下位詞比上位詞更具體,為了提高檢索的查準率,優(yōu)先標注下位詞,一般來說下位詞比上位詞長度更長,因此標引時根據(jù)詞長順序進行文本匹配標引,并采用正向最大匹配算法。

表1 標引源權(quán)重分配表

(5)確定標引詞。根據(jù)文本中出現(xiàn)的主題詞詞頻加權(quán)求和(簡稱權(quán)和),結(jié)果從高到低排序,取前5個主題詞作為本篇專利的標引主題詞。若與第5個主題詞權(quán)和相同的還有其他主題詞,則都列為標引主題詞,權(quán)和為1的主題詞舍棄,即使不夠5個。

4 標引實驗

4.1 實驗環(huán)境

本實驗采用的軟硬件環(huán)境如下:

硬件環(huán)境:服務器內(nèi)存2GB及以上,服務器CPU3.0GHz及以上,服務器硬盤空閑空間100G及以上。

軟件環(huán)境:操作系統(tǒng)Windows XP SP2/SP3、Windows Vista、Windows7,客戶顯示器分辨率1024 ×768及以上,數(shù)據(jù)庫SQL Server 2008及以上版本,瀏覽器采用IE 7.0以上,IIS7.0、.Net 3.5及以上。

4.2 數(shù)據(jù)庫設(shè)計

本實驗選擇的標引源為12041條專利新能源汽車領(lǐng)域的中文專利,主要字段為專利號、發(fā)明名稱、摘要和權(quán)利要求書。用于匹配的詞系統(tǒng)主題詞為54750(包括核心詞,不含單字主題詞)。

數(shù)據(jù)庫表存儲標引源和標引結(jié)果,本實驗用到的主要表格如表2、表3、表4所示。表2用來存儲標引源數(shù)據(jù),表3存儲領(lǐng)域主題詞,表4為詞間關(guān)系表。

4.3 標引流程圖

標引的流程圖如圖1所示。先取一條專利,讀取該專利的發(fā)明名稱,然后調(diào)用詞系統(tǒng)中的相應領(lǐng)域詞表進行正向最大匹配。如果某主題詞在標題中有匹配,則計算該主題詞權(quán)和為詞頻數(shù)乘3,并記錄在標引庫中。接下來依次對摘要和權(quán)利要求書進行標引統(tǒng)計,權(quán)和計算為詞頻乘1,存入標引庫中。在該專利三部分標引完成后根據(jù)標引庫中的記錄計算各主題詞的總權(quán)和,根據(jù)權(quán)和的大小從高到低排列,取權(quán)和最大的5個詞為標引主題詞,然后處理下一條記錄,直到所有待標引專利處理完成。

表2 標引專利表

表3 領(lǐng)域詞表

表4 詞間關(guān)系表

5 實驗結(jié)果討論

5.1 標引結(jié)果展示與分析

為了便于分析標引的結(jié)果,把標引的結(jié)果以網(wǎng)頁的形式展示出來,并通過不同的顏色來區(qū)分標引詞是基礎(chǔ)詞還是核心詞。如圖2所示,左側(cè)為被標引的專利列表,右側(cè)為標引結(jié)果顯示,能與主題詞表匹配的詞都以顏色標注出來,顯示紅色的為核心詞,藍色的為基礎(chǔ)詞。詞頻統(tǒng)計部分為在該篇專利中涉及的主題詞及數(shù)據(jù)統(tǒng)計結(jié)果展示。主題詞后邊括號內(nèi)“/”前后有兩個數(shù)字,前者為該詞在本篇專利中出現(xiàn)的詞權(quán)和,后者為該詞在所有標引源專利中出現(xiàn)的詞權(quán)和。

在專利技術(shù)檢索時,檢索者最重要的檢索途徑是專利產(chǎn)品名稱、產(chǎn)品部件、核心技術(shù)、核心算法等。因此,在對標引結(jié)果進行評估時主要是看能指引到這條專利的這些核心部分是否標出。由于專利標引即使是手工標引,不同的人標引結(jié)果差別也比較大,而對標引結(jié)果的評估主觀性也比較強,因此,筆者采用多人打分取平均值的方法進行結(jié)果評價。具體做法是,隨機取500條標引結(jié)果,分為5組,由5人對結(jié)果進行打分,打分方案如表5所示,根據(jù)標引詞對專利內(nèi)容主題的覆蓋度進行打分。通過對打分結(jié)果的統(tǒng)計計算,標引結(jié)果的平均得分為81.5分,最多的標引詞為8個,最少的標引詞為5個,平均單篇的標引詞數(shù)為6.3個。

圖1 專利標引流程圖

圖2 專利主題詞標引結(jié)果

根據(jù)統(tǒng)計結(jié)果可知,標引詞對專利文本內(nèi)容有較好的覆蓋,但也有不足的地方,在已選為標引詞的主題詞中也有一些是沒有標引意義的,如“產(chǎn)品(4/509)”,說明“產(chǎn)品”一詞在某專利中出現(xiàn)權(quán)和為“4”,總權(quán)和為“509”,“產(chǎn)品”一詞為普通概念,沒有專指性,不適合做標引詞,同樣的情況還有“運行(3/1962)”、“系統(tǒng)(3/3042)”等。通過分析可知,詞系統(tǒng)中收集的領(lǐng)域詞匯是該領(lǐng)域盡量全的詞匯,包括一般性概念詞匯,而專利中的檢索大多以名詞為主,專指性強,而標引的正確性還有賴于詞表的有效性。因此,應在詞系統(tǒng)中建立專門用于專利標引的詞表,同時評價時考慮詞語之間的語義關(guān)系、部件名詞之間的組合關(guān)系,可以有效提高標引結(jié)果的有效性和滿意度。

5.2 標引結(jié)果應用

利用詞系統(tǒng)的領(lǐng)域主題詞對專利文獻的主題標引,可以充分利用詞系統(tǒng)的特色功能,對專利資源進行合理存儲、深度揭示和精確檢索,并利用主題詞建立與其他科技資源的關(guān)聯(lián)。具體的特色應用如下:

(1)通過詞間關(guān)系進行擴縮減,有效提高檢索的查全率和查準率。用來標引的主題詞都是詞系統(tǒng)中收錄的主題詞,由于主題詞之間建立了各種關(guān)系,可以充分利用詞間關(guān)系進行檢索。如圖3所示,當在檢索框中輸入關(guān)鍵詞“ABS”時,在輸入框下自動列出與“ABS”有相關(guān)關(guān)系的主題詞,包含“材料-成品”、“拆解為”、“借助”、“類屬”、“全稱-縮略同義”、“異名同義”、“子類”等7種關(guān)系,同時在右側(cè)列出相應關(guān)系對應的主題詞,通過勾選主題詞前的復選框可以擴縮檢索范圍或者提醒用戶具有相關(guān)關(guān)系的主題詞,提高用戶檢索的針對性。

(2)提高檢索效率。由于專利申請量逐年激增,據(jù)統(tǒng)計,今年到目前為止(9月)的專利申請量已超過去年全年。標引后的專利可以根據(jù)標引詞檢索,避免對上千萬條專利全文匹配檢索的存在歧義、效率低下的缺點,實現(xiàn)專利技術(shù)精確快速檢索定位。

表5 標引結(jié)果評價打分方案

圖3 基于詞系統(tǒng)的專利檢索

(3)實現(xiàn)與其他科技資源的關(guān)聯(lián)。若用類似的方法把科技文獻、科技論文或科技新聞等資源也用詞系統(tǒng)的主題詞進行標引,可以實現(xiàn)以主題詞為紐帶的資源關(guān)聯(lián),更有效地把各類資源整合起來,實現(xiàn)為科研技術(shù)人員的一站式資源提供服務。

(4)新詞發(fā)現(xiàn)。由于專利文獻是發(fā)明創(chuàng)造的描述,經(jīng)常會有新的詞匯創(chuàng)造出來,而在詞系統(tǒng)中本來是沒有的。通過對標引結(jié)果的分析可看出,有些標引詞在文中是連在一起的,而且本身可以作為一個主題詞,而詞系統(tǒng)中卻沒有收錄。比如,有篇專利名稱為“折疊式電動踏板車前置兒童座椅”,在本系統(tǒng)標引結(jié)果頁面顯示“兒童座椅”四字皆為藍色、但統(tǒng)計結(jié)果是:兒童(3/134)、“座椅(3/387)”,說明系統(tǒng)中只收錄了“兒童”、“座椅”兩個主題詞,而“兒童座椅”沒有被收錄,它可以作為“座椅”的下位詞添加進詞系統(tǒng)。因此,標引結(jié)果可以用來進行新詞發(fā)現(xiàn),通過設(shè)置一定的推薦機制,根據(jù)標引的結(jié)果向詞系統(tǒng)推薦新詞,經(jīng)過專家審核后正式成為主題詞。

此外,還可以根據(jù)標引結(jié)果數(shù)據(jù)的統(tǒng)計反過來優(yōu)化詞系統(tǒng)的構(gòu)建。比如,在主題詞表中檢索詞詞長大于16個字節(jié)且被用來標引次數(shù)為0的主題詞中,會發(fā)現(xiàn)有些不是主題詞的記錄,如“變速器輸入軸與輸出軸以各自的速度旋轉(zhuǎn)”、“能自動對各車輪的制動和發(fā)動機動力進行控制”等。通過這種方法可以快速地對加工后的詞表質(zhì)量進行評價,發(fā)現(xiàn)并刪除詞表建設(shè)中所收錄的錯誤詞條,提升詞系統(tǒng)建設(shè)的質(zhì)量。

6 結(jié)語

本文利用漢語科技詞系統(tǒng)新能源汽車領(lǐng)域詞表的建設(shè)成果,對該領(lǐng)域的中文專利進行主題標注模型設(shè)計,并進行實證分析。實驗結(jié)果表明,基于詞系統(tǒng)的權(quán)威性、語義性、全面性,標引結(jié)果能達到令人滿意的結(jié)果,通過建立針對專利標引的專用詞表,更能有效提高標引質(zhì)量。此外,通過對標引后的專利與詞系統(tǒng)的結(jié)合,提供專利的語義檢索,提高了檢索的查全查準率,同時降低了用戶的檢索難度,提高了專利檢索系統(tǒng)的易用性。同時,通過標引系統(tǒng)與詞系統(tǒng)的接口設(shè)計,保持了標引系統(tǒng)用詞與詞系統(tǒng)主題詞建設(shè)同步更新。

本文主要探討利用主題詞表及關(guān)系對專利標引的方法,未來可以把語法、語義的因素結(jié)合進來,實現(xiàn)綜合的智能標引,進一步提高標引的準確性和完備性,更有效地實現(xiàn)專利資源的揭示和挖掘,為企業(yè)創(chuàng)新和決策支持服務。

[1] 魏衍亮.企業(yè)專利情報戰(zhàn)略初探[J].中國科技產(chǎn)業(yè),2004(7):45-49.

[2] 蘇新寧,鄒曉明.文獻信息自動標引研究[J].現(xiàn)代圖書情報技術(shù),2000(1):23-26.

[3] 章成志,蘇新寧.基于條件隨機場的自動標引模型研究[J].中國圖書館學,2008(5):89-94,99.

[4] 李宏芳,鄒小筑.中國專利數(shù)據(jù)庫標引質(zhì)量測評[J].現(xiàn)代情報,2010(12):58-61.

[5] 章洪流,徐偉,吳倩,等.關(guān)鍵詞標引常見問題探討[J].中國發(fā)明與專利,2008(8):65-67.

[6] 喬曉東,張運良,朱禮軍.漢語科技詞系統(tǒng)建設(shè)與應用進展[J].情報學報,2010,29(6):978-986.

[7] 查貴庭,侯漢清.基于多詞表的自動標引技術(shù)研究:新華社新聞稿自動標引的實驗[J].情報學報,2002(3):273-277.

[8] 全根先.學位論文的主題標引及其規(guī)范[J].學理論,2011(30):89-91,97.

[9] 侯漢清,章成志,鄭紅.Web概念挖掘中標引源加權(quán)方案初探[J].情報學報,2005,24(1):87-92.

Research of Patent Indexing and Application Based on Chinese Scientiflc and Technical Vocabulary System

Zhang Zhaofeng / Institute of Scientiflc and Technical Information of China, Beijing, 100038
/ Nanjing University, Nanjing, 210093
Gui Jie, Zhang Yunliang / Institute of Scientiflc and Technical Information of China, Beijing, 100038
Liu Xiwen / Nanjing University, Nanjing, 210093

This paper introduces a method on how to index patent based on Chinese Scientiflc & Technical Vocabulary System. Tactics and flow are designed according to the characteristics of the patent literature. And experiment is also made, then the authors analyze the result, which verifles the availability of the method. Lastly, special application features of the result are also mentioned.

Indexing, Patent indexing, Subject indexing, Scientiflc & Technical Vocabulary System

10.3772/j.issn.1673—2286.2013.11.003

張兆鋒,男,1979年生,在讀博士,助理研究員。研究方向:專利分析、數(shù)據(jù)挖掘、信息可視化。E-mail: zhangzf@istic.ac.cn

桂婕,女,1976年生,博士,副研究員。研究方向:專利分析和科技創(chuàng)新管理。E-mail: guij@istic.ac.cn

張運良,男,1979年生,博士,副研究員,研究方向:知識組織、知識工程、自然語言理解、文本自動分類。E-mail: zhangyl@istic.ac.cn

劉喜文,男,1983年生,在讀博士。研究方向:數(shù)據(jù)挖掘、本體技術(shù)。Email:liuxiwenhit@163.com

2013-10-14)

*本文獲得中國科學技術(shù)信息研究所預研基金項目“基于漢語科技詞系統(tǒng)的專利文本標注模型構(gòu)建與應用”(編號:YY201225)的資助。

猜你喜歡
詞表標引主題詞
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
檔案主題標引與分類標引的比較分析
本刊對來稿中關(guān)鍵詞標引的要求
敘詞表與其他詞表的互操作標準
本刊對來稿中關(guān)鍵詞標引的要求
我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
本刊對來稿中關(guān)鍵詞標引的要求
凤阳县| 保德县| 永吉县| 本溪| 马关县| 温州市| 沿河| 利辛县| 同江市| 荆州市| 福海县| 崇明县| 株洲县| 翼城县| 武陟县| 巴东县| 凤山县| 瓮安县| 牟定县| 新闻| 日喀则市| 宁武县| 旬邑县| 桃园市| 武定县| 临澧县| 文成县| 张掖市| 金沙县| 肥西县| 文山县| 全椒县| 临沧市| 泗阳县| 郸城县| 罗江县| 和林格尔县| 桐梓县| 丹江口市| 邛崃市| 大渡口区|