高利丹 肖國(guó)華 張 嫻 房俊民
〔摘 要〕本文對(duì)專利情報(bào)研究中的共現(xiàn)分析方法作了分類,將其分為共引、共詞與共類分析3種。并結(jié)合專利地圖分析探討了3種分析方法的主要功能、作用及結(jié)果表現(xiàn)形式,通過(guò)制作專利地圖,對(duì)3種共現(xiàn)分析所產(chǎn)生的結(jié)果作了解釋,并對(duì)這3種共現(xiàn)分析方法的優(yōu)缺點(diǎn)作了評(píng)述。
〔關(guān)鍵詞〕共現(xiàn)分析;共引;共詞;共類;專利地圖
〔中圖分類號(hào)〕G353 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)07-0036-04
The Application Study of Co-occurrence Analysis in Patent MapGao Lidan1,2 Xiao Guohua1 Zhang Xian1 Fang Junmin1
(1.Chengdu Branch of National Science Library,Chinese Academy of Sciences,Chengdu 610041,China;
1.School of Economics & Management,Southwest Jiaotong University,Chengdu 610031,China)
〔Abstract〕This article discussed the co-occurrence analysis methods,such as co-words,co-classifications,co-citations,and presented their applications for patent mapping respectively.Then,the functions and end products of each method were presented.Through patent mapping,the meanings of each method were given.
〔Key words〕co-occurrence analysis;co-citations;co-words;co-classifications;patent map
共現(xiàn)分析是將各種信息載體中的共現(xiàn)信息定量化的分析方法[1],以揭示信息在內(nèi)容上的關(guān)聯(lián)程度。在計(jì)算機(jī)技術(shù)的輔助下,共現(xiàn)分析以其方法的簡(jiǎn)明性和分析結(jié)果的可靠性,成為支撐信息內(nèi)容分析研究過(guò)程的重要手段和工具。國(guó)內(nèi)外對(duì)共現(xiàn)分析雖已有一些研究[2-3],但還鮮有在專利分析領(lǐng)域的應(yīng)用研究。
共現(xiàn)分析方法的研究對(duì)象較廣,包括對(duì)文本中的詞匯(關(guān)鍵詞等)、分類號(hào)、引文和文獻(xiàn)中的其他有意義的字段。有學(xué)者將共現(xiàn)分析分為同引分析、共詞分析與主題詞鏈聚類分析[3]。在專利分析中,根據(jù)專利文獻(xiàn)的特點(diǎn),我們將共現(xiàn)分析的種類主要分為共引分析、共詞分析、共類分析。本文對(duì)專利分析領(lǐng)域中可用到的這3種主要共現(xiàn)分析方法分別進(jìn)行介紹,并對(duì)各種方法的優(yōu)缺點(diǎn)進(jìn)行了評(píng)述。
1 共引分析
共引又稱同引,指2篇文獻(xiàn)同時(shí)被后來(lái)的1篇或多篇文獻(xiàn)引用,同時(shí)把共同引用這2篇文獻(xiàn)的文獻(xiàn)數(shù)量稱為共引強(qiáng)度[4]。共引分析是引文分析中最具影響力的分析方法之一,利用共引分析可以得出分析對(duì)象之間由引文關(guān)系形成的關(guān)聯(lián)關(guān)系,對(duì)這些信息用學(xué)科專業(yè)知識(shí)加以解釋和分析判斷,可以揭示研究對(duì)象的規(guī)律、預(yù)測(cè)其發(fā)展趨勢(shì)。2篇文獻(xiàn)被后來(lái)文獻(xiàn)同時(shí)引用的次數(shù)越多,表明這兩篇文獻(xiàn)的關(guān)聯(lián)程度越大,即說(shuō)明這2篇文獻(xiàn)在內(nèi)容上相似性較大,按照聚類分析的思路,這兩篇文獻(xiàn)可以被聚為一類。
縱觀共引分析研究的發(fā)展歷程,主要有3個(gè)系列:以Small為代表的以文獻(xiàn)為分析單位所做的文獻(xiàn)共引分析研究;以White為代表的以作者為分析單位所作的作者共引析研究;以及以Kostoff為代表利用知識(shí)發(fā)現(xiàn)和數(shù)據(jù)可視化技術(shù)的綜合集成分析階段[5]。
目前的共引分析研究主要集中在對(duì)期刊文獻(xiàn)的研究上,主要是由于期刊文獻(xiàn)的
參考文獻(xiàn)著錄較完善,所以引文信息豐富,便于進(jìn)行統(tǒng)計(jì)分析。而專利文獻(xiàn)的引文分析較少,一般只能限于外國(guó)專利文獻(xiàn)的分析,中國(guó)專利尚缺乏可供分析的引文數(shù)據(jù)。將作者共引分析理論應(yīng)用于專利分析中,可以對(duì)申請(qǐng)人(機(jī)構(gòu))關(guān)系進(jìn)行分析,比如,2個(gè)或多個(gè)申請(qǐng)人(機(jī)構(gòu))的專利文獻(xiàn)同時(shí)被后來(lái)的專利文獻(xiàn)引用的次數(shù)越多,則表明這兩個(gè)或多個(gè)申請(qǐng)人(機(jī)構(gòu))的研究?jī)?nèi)容相似性越大,即表明技術(shù)更相近。圖1為采用德溫特分析家軟件,對(duì)某電子領(lǐng)域申請(qǐng)人(機(jī)構(gòu))的被引情況作的共引圖,圖中可以看出:
(1)NOKIA和NEC公司相距較近,表明這兩家公司的相關(guān)性較強(qiáng),研究領(lǐng)域較為接近。后臺(tái)數(shù)據(jù)顯示,NOKIA有12件專利被MOTOROLA引用,有15件專利被TELEFONA引用;NEC有11件專利被MOTOROLA引用,有10件專利被TELEFONA引用。
(2)MASSACHUSETTS、CSI、ECHELON 3家公司形成另外一簇,表明這3家公司的相關(guān)性較強(qiáng),研究領(lǐng)域較接近。后臺(tái)數(shù)據(jù)顯示,MASSACHUSETTS公司有7件專利被IBM公司引用,有5件專利被CSI公司引用,有5件被ECHELON引用;ECHELON有7件專利被IBM公司引用,有6件被CSI公司引用,有5件被NORAND公司引用;CSI公司有8件被IBM公司引用,有7件被NORAND公司引用,有6件被ECHELON引用。這3家公司中,MASSACHUSETTS和ECHELON總有1家同時(shí)被另外2家引用,而任兩家公司又同時(shí)被另外的兩家公司所引用。
從圖上還可以得出技術(shù)關(guān)聯(lián)性較大的公司還有QUALCOMM與NORTEL公司;MOTOROLA與AT&T公司;DIGITAL ANGEL與MICRON公司等。
2 共詞分析
共詞分析是文獻(xiàn)計(jì)量學(xué)常用的研究方法,是通過(guò)分析在同一個(gè)文本中的詞匯對(duì)(單詞或名詞短語(yǔ)對(duì))共同出現(xiàn)的情況,以發(fā)現(xiàn)科學(xué)領(lǐng)域的學(xué)科結(jié)構(gòu)的定量分析方法。采用文獻(xiàn)所列的關(guān)鍵詞或從文本中選擇的關(guān)鍵詞,通過(guò)描述關(guān)鍵詞與關(guān)鍵詞之間的關(guān)聯(lián)與結(jié)合,揭示某一領(lǐng)域研究?jī)?nèi)容的內(nèi)在相關(guān)性和學(xué)科領(lǐng)域的微觀結(jié)構(gòu)。該方法常用于展示學(xué)科的發(fā)展動(dòng)態(tài)和發(fā)展趨勢(shì),還可用于科技預(yù)測(cè),發(fā)現(xiàn)新的學(xué)科增長(zhǎng)點(diǎn)和突破口。
例如,某一時(shí)期發(fā)現(xiàn)某一學(xué)科有相當(dāng)一部分科學(xué)家的論文顯示某2個(gè)或更多術(shù)語(yǔ)頻頻共現(xiàn),便可認(rèn)為這種共現(xiàn)展示了該學(xué)科的一個(gè)新的蓬勃發(fā)展的研究領(lǐng)域。關(guān)鍵詞共現(xiàn)分析還可以用于科技預(yù)測(cè),發(fā)現(xiàn)新的學(xué)科增長(zhǎng)點(diǎn)和突破。例如,如果有文獻(xiàn)研究表明術(shù)語(yǔ)A與術(shù)語(yǔ)B之間存在較強(qiáng)的共現(xiàn)關(guān)系,術(shù)語(yǔ)A與術(shù)語(yǔ)C之問(wèn)也存在較強(qiáng)的共現(xiàn)關(guān)系,那么可以推測(cè)術(shù)語(yǔ)B和術(shù)語(yǔ)C之間也可能存在某種關(guān)聯(lián),通過(guò)揭示術(shù)語(yǔ)B和術(shù)語(yǔ)C之問(wèn)的關(guān)系便有可能導(dǎo)致科學(xué)上的某種創(chuàng)新性發(fā)現(xiàn)[6]。
德溫特專利數(shù)據(jù)庫(kù)中的題名項(xiàng),是德溫特公司的著錄專家經(jīng)充分凝煉專利申請(qǐng)的創(chuàng)新內(nèi)容后再加以著錄標(biāo)引的,相當(dāng)于揭示專利內(nèi)容的微型文摘。因此,題名中采用的關(guān)鍵詞是對(duì)申請(qǐng)人技術(shù)創(chuàng)新內(nèi)容的精煉提示符,可作為計(jì)量研究的重要指標(biāo)。我們對(duì)德溫特專利數(shù)據(jù)庫(kù)中收錄的無(wú)線傳感網(wǎng)領(lǐng)域的專利申請(qǐng)題名作了詞頻分析,從中離析出每份申請(qǐng)的研究對(duì)象,選取較高詞頻的48個(gè)關(guān)鍵詞作共詞分析。圖2是共詞分析結(jié)果的關(guān)聯(lián)圖表現(xiàn)形式,結(jié)果顯示:
(1)涉及node(s)與sensor(s)的專利申請(qǐng)數(shù)量最多。這與node(s)或sensor(s)屬無(wú)線傳感器網(wǎng)絡(luò)的基本物理單元的性質(zhì)有密切關(guān)系;
(2)圍繞node(s)主題,部分技術(shù)主題形成了以其為核心的主題簇;
(3)cluster、path、ad-hoc、router、TDMA、wireless mesh network等主題詞,與node(s)關(guān)聯(lián)緊密,顯示上述方面的技術(shù)與節(jié)點(diǎn)技術(shù)創(chuàng)新內(nèi)容的關(guān)系較為密切,是互為關(guān)注較多的領(lǐng)域;
(4)Carrier sense multiple access、collision、error correction等形成關(guān)系緊密的另一主題簇,表明在其代表的無(wú)線傳感網(wǎng)信道方向,已有深入和細(xì)化研究。
3共類分析
在上述2種方法中,共引分析已被廣泛采用,但由于中國(guó)專利數(shù)據(jù)庫(kù)缺乏引文數(shù)據(jù),只能限于對(duì)外國(guó)專利數(shù)據(jù)庫(kù)中收錄專利進(jìn)行引文分析;共詞分析在專利之外的文獻(xiàn)分析中應(yīng)用也較為廣泛,但在專利文獻(xiàn)中,由于沒(méi)有關(guān)鍵詞,所以取詞還是一個(gè)難點(diǎn),現(xiàn)有的德溫特分析家軟件雖然可以對(duì)德溫特專利數(shù)據(jù)庫(kù)中的專利文獻(xiàn)進(jìn)行截詞,但從截取的海量詞匯中挑選出能反應(yīng)出相關(guān)技術(shù)的詞又需要分析者除了具有情報(bào)分析能力外,還應(yīng)具有較高的專業(yè)知識(shí),這無(wú)疑給分析帶來(lái)了一定的困難。因此,共類分析便被提出了。
對(duì)共類分析研究較早的是1993年德國(guó)學(xué)者SYBILLE HINZE,他通過(guò)對(duì)書(shū)目的共類與共詞分析研究新興學(xué)科的發(fā)展[7]。此外,其它領(lǐng)域也相繼出現(xiàn)了共類分析的研究[8-9]。
國(guó)際上在專利領(lǐng)域進(jìn)行共類分析的研究還比較少,國(guó)內(nèi)還未見(jiàn)有相關(guān)文章。鑒于共詞分析取詞的困難和共引分析對(duì)數(shù)據(jù)庫(kù)的要求而使得二者用于分析均產(chǎn)生一定的局限性,相比之下,共類分析的數(shù)據(jù)容易取得。每篇專利至少有1個(gè)國(guó)際專利分類號(hào)(IPC號(hào)),一般還會(huì)有多個(gè)專利分類號(hào),表明該專利涉及的技術(shù)內(nèi)容包含多個(gè)領(lǐng)域,所以通過(guò)對(duì)專利分類號(hào)進(jìn)行共現(xiàn)分析,可以發(fā)現(xiàn)現(xiàn)有研究中具有密切關(guān)聯(lián)的領(lǐng)域。所以專利共類可定義為:2個(gè)或2個(gè)以上的分類號(hào)在多篇專利文獻(xiàn)中共同出現(xiàn)的次數(shù)反映了這些分類號(hào)所代表的領(lǐng)域間的研究關(guān)聯(lián)程度。如果把某篇專利文獻(xiàn)的分類號(hào)看作是代表此專利技術(shù)涉及的多個(gè)關(guān)鍵詞(專利技術(shù)涉及到的多個(gè)研究方向),共類分析的思想與共詞分析的思想便體現(xiàn)出相似之處來(lái)。
現(xiàn)有的專利分類體系包括國(guó)際專利分類法(IPC)、美國(guó)專利分類法(UPC)、歐洲專利分類法(ECLA),以及德溫特公司編制的分類體系等。目前只有英、美、日等少數(shù)國(guó)家仍在采用自己的專利分類法,但在說(shuō)明書(shū)及相應(yīng)的檢索工具的著錄中都附有國(guó)際專利分類號(hào)。
圖3是美國(guó)專利數(shù)據(jù)庫(kù)中的授權(quán)納米專利的共類分析圖[10]。從圖中可以看出:分類號(hào)在不同專利文獻(xiàn)中共同出現(xiàn)的次數(shù)越多,它們?cè)趫D形上的距離越接近;圓點(diǎn)的大小體現(xiàn)了分類號(hào)在檢索出來(lái)的所有專利文獻(xiàn)中出現(xiàn)的次數(shù)的多少,頻次越高,圓點(diǎn)越大,從圖上可以看出,H01L是出現(xiàn)頻次最多的分類號(hào)。
圖3(b)是將圖3(a)中的分類號(hào)具體化為其所代表的技術(shù)內(nèi)容后的共類圖。所有圓點(diǎn)按照共同出現(xiàn)的情況被分成了4個(gè)簇,分別用白色、淺灰、深灰與黑色顯示,所代表內(nèi)容如下:
(1)白色:與基礎(chǔ)化學(xué)工業(yè)相關(guān)的專利技術(shù),主要為原材料(化合物和涂層);
(2)淺灰:與測(cè)量相關(guān)的專利技術(shù)(包括對(duì)酶、微生物、長(zhǎng)度、厚度、光學(xué)設(shè)備的分析);
(3)深灰:半導(dǎo)體、電子元件、特殊機(jī)器;
(4)黑色:醫(yī)藥品、化學(xué)品。
每個(gè)簇內(nèi)的圓點(diǎn)相互聯(lián)系,有連線即代表了這些圓點(diǎn)所代表的技術(shù)內(nèi)容同時(shí)被研究了,例如以黑色圓點(diǎn)簇為例:A61K(醫(yī)用配制品)與C07C(無(wú)環(huán)或碳環(huán)化合物)、C01B(非金屬化合物)、B01D(分離)等分類號(hào)間存在著聯(lián)系,表明這些分類號(hào)所屬的專利技術(shù)中這些領(lǐng)域同時(shí)出現(xiàn)了,即說(shuō)明在納米技術(shù)領(lǐng)域,醫(yī)用配制品的研究涉及到了無(wú)環(huán)或碳環(huán)化合物、非金屬化合物,以及分離技術(shù)等。
4 結(jié) 語(yǔ)
本文對(duì)共詞分析、共引分析與共類分析作了介紹,并通過(guò)將這3種共現(xiàn)分析應(yīng)用到實(shí)際專利分析中,詳細(xì)說(shuō)明了各種分析所能產(chǎn) 生的結(jié)果。雖然說(shuō)專利分類號(hào)是專利審查員通過(guò)較為專業(yè)的方式給出的,一般都能代表專利 文獻(xiàn)所涉及到的研究?jī)?nèi)容,可以彌補(bǔ)共詞分析由于選詞誤差造成的問(wèn)題,但共類分析也仍然 存在一些不足,比如有些專利文獻(xiàn)只有一個(gè)分類號(hào)時(shí),則這些專利文獻(xiàn)在分析中不會(huì)被體現(xiàn) 出來(lái)。
在專利分析中,根據(jù)不同的數(shù)據(jù)庫(kù)可以選擇不同的共現(xiàn)分析方法。尤其是在對(duì)中國(guó)專利進(jìn)行分析時(shí),由于缺乏引文數(shù)據(jù),無(wú)法進(jìn)行共引分析,又由于中國(guó)專利文獻(xiàn)的標(biāo)題一般較為簡(jiǎn)單,不能反映出其所代表文獻(xiàn)所包含的大部分內(nèi)容,因此這種情況下,共類分析是較優(yōu)的選擇。而對(duì)于德溫特專利數(shù)據(jù)庫(kù),由于該數(shù)據(jù)庫(kù)中的專利文獻(xiàn)的標(biāo)題都由領(lǐng)域?qū)<易髁硕渭庸?而且德溫特?cái)?shù)據(jù)庫(kù)中還有引文數(shù)據(jù),所以3種共現(xiàn)分析方法都可以使用。
參考文獻(xiàn)
[1]R.N.Kostof.Database tomography:muhidisciplinary research thrusts from co—word analysis[C].Proceedings:Portland International Conference on Management of Engineering and Technology,1991.
[2]Loet Leydesdorff,Liwen Vaughan.Co-occurrence Matrices and their Applications in Information Science:Extending ACA to the Web Environment[J].Journal of the American Society for Information Science and Technology,2006,57(12):1616-1628.
[3]王日芬,宋爽,苗露.共現(xiàn)分析在知識(shí)服務(wù)中的應(yīng)用研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2006,135(4):29-34.
[4]龐景安.科學(xué)計(jì)量研究方法論[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2002.
[5]康宇航.一種基于共現(xiàn)分析的科技跟蹤方法研究[D].大連理工大學(xué),2008.
[6]謝彩霞,梁立明,王文輝.我國(guó)納米科技論文關(guān)鍵詞共現(xiàn)分析[J].情報(bào)雜志,2005,(3):69-73.
[7]Sybille Hinze.Bibliographical cartography of an emerging interdisciplinary discipline:the case of bioelectronics[J].Scientomeotics,1994,29(3):353-376.
[8]M A Spasser.Mapping the terrain of pharmacy:Co-classification analysis of the International Pharmaceutical Abstracts database[J].Scientometrics,1997,39(1):77-97.
[9]Joachim Schummer.Multidisciplinarity,interdisciplinarity,and patterns of research collaboration in nanoscience and nanotechnology[J].Scientometrics,2004,59(3):425-465.
[10]Martin Meyer.What do we know about innovation in nanotechnology[J].Scientometrics,2007,70(3):779-810.